CN109522549A - 基于Web采集与文本特征均衡分布的语料库构建方法 - Google Patents
基于Web采集与文本特征均衡分布的语料库构建方法 Download PDFInfo
- Publication number
- CN109522549A CN109522549A CN201811273931.3A CN201811273931A CN109522549A CN 109522549 A CN109522549 A CN 109522549A CN 201811273931 A CN201811273931 A CN 201811273931A CN 109522549 A CN109522549 A CN 109522549A
- Authority
- CN
- China
- Prior art keywords
- corpus
- word
- text
- representativeness
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000000463 material Substances 0.000 claims abstract description 27
- 238000005259 measurement Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000270322 Lepidosauria Species 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于Web采集与文本特征均衡分布的语料库构建方法,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。
Description
技术领域
本申请涉及一种信息处理方法,具体的,涉及一种基于Web采集技术与文本特征均衡分布的语料库构建方法,能够适用于电力行业,建成的语料库支持按需截取的离线应用,同时支持增量更新。
背景技术
随着电力业务增长,电力行业各部门积累了一定数量的非结构化数据,由于技术等因素限制导致非结构化数据利用率并不高。但海量非结构化数据中蕴含着大量有用信息,如何对这些非结构化数据进行深入研究是一个重要研究问题。目前,非结构化数据在知识库建立、信息抽取、信息检索、文本分类等方面的应用可基于语料库实现,语料库可为行业应用提供语料附属信息,满足各行各业在办公、管理和决策过程中对非结构化文档分类检索的需求。因此,建设电力行业语料库具有重要的应用意义。
目前,国内外研究团队构建了大量通用语料库,如Brown、 Semcor、LOB、ICE等英文语料库以及国家语委现代汉语语料库语料库、北大语料库、台北“中研院”语料库等中文语料库。另有学者建设学习者、FAO农业英语语料库、中介话语语料库、学术语篇语料库、法律语料库等专用语料库服务于各行业各业。收集的语料大多来源于组织发布的文献或Web文本,具有一定的规模。在面对特定应用场景时,如何选择和确定语料库的规模使之达到最优的应用效果是值得研究的问题。语料库的规模并不是越大越好,越大规模的语料库在存储、传输与使用的过程中耗费的资源也越多。随着语料库规模的增大,语料库的使用效果的改善幅度会逐步减小,即表现出边际效用递减的特征。因此在应用效果和资源耗费之间进行取舍是必要的。
因此,如何平衡应用效果和资源耗费之间的关系,提出一种语料库的构建方法,能够适用于各行业,特别适用于电力行业,成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法,能够适用于各个行业,尤其是电力行业。
为达此目的,本发明采用以下技术方案:
一种基于Web采集技术与文本特征均衡分布语料库构建方法,包括如下步骤:
Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存;
语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库;
对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,然后逐一统计单篇语料中的每次词的词频信息,并分别存储;
语料代表性度量步骤S140:
1)构建语料代表性度量模型
考虑单个词权重的影响和该词出现的次数,构建如下语料代表性度量模型,计算得到某篇文档的语料代表性度量值:
其中,hi表示该篇文档中词i出现的次数,n表示该篇文档中总的词数,wi为单个词i权重,表示为sumi表示单个词i在所有文本中出现的次数,sum表示语料库中所有词出现的总次数;
2)语料代表性度量值计算
对所有语料,即文档,按照语料代表性度量模型逐一进行代表性度量值计算;
3)语料排序
按照语料代表性度量值计算结果,对所有语料,即文档排序,形成按照降序排列的语料素材序列;
语料库按需截取步骤S150:基于按降序排列的语料素材序列,结合用户对语料库大小的需求,对语料库进行按需截取。
可选的,还具有语料库增量更新步骤S160:对于新增的文本,利用步骤S110-S140分别进行采集、分词和语料代表性计算,并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序,用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。
可选的,Web信息采集步骤S110具体为:取出需要抓取的网页地址URL,通过查询DNS得到对应的IP地址,用该IP与Web服务器建立TCP/IP链接,发HTTP请求,采用http的get方式进行采集,得到response返回的内容,提取页面中的文本内容,将信息采集结果入库或者以文件的形式保存。
可选的,在Web信息采集步骤S110中,所述提取页面中的文本内容,具体为提取页面中的正文、链接、标题,通过正文标记提取正文,通过链接标记提取页面中的链接,通过正文位置向前搜索可能是标题的一段,根据字体大小、是否居中或颜色变化找出最符合的一段文字作为标题。
可选的,在语料库构建步骤S120中,在形成了所述行业专业语料库后,还可以对语料进行抽样校对,检查语料处理过程中的错误,以提高语料库的构建质量。
可选的,在语料库按需截取步骤S150中,按代表性度量值计算结果绘制语料代表性曲线,结合用户对语料库大小的需求,对语料库进行按需截取。
可选的,在对分词后的语料进行词频统计S130中,对统计整体语料库中每个词的词频信息,按“词—词频”结构以文件方式存储;对单篇语料中的每个词的词频信息,按“词—词频”结构对每篇语料以文件方式单独存储。
本发明还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的基于Web采集技术与文本特征均衡分布的语料库构建方法。
因此,本文面向各行业,特别是电力行业,围绕行业用户应用需求,提出基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法,以利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。
附图说明
图1是根据本发明具体实施例的基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法的流程图;
图2是根据本发明具体实施例的Web信息采集的示例;
图3是根据本发明具体实施例的语料库构建示例;
图4是示例性的语料代表性曲线。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于充分利用Web信息采集、语料库构建、文本特征均衡分布实现某个行业的语料库的构建,并且能够进行语料库的更新和按需选取。
具体而言,参见图1,公开了根据本发明具体实施例的基于Web 采集技术与文本特征均衡分布的中文平衡语料库构建方法的流程图,该构建方法包括如下步骤:
Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存。
在一个可选的实施例中,取出需要抓取的网页地址URL,通过查询DNS得到对应的IP地址,用该IP与Web服务器建立TCP/IP链接,发HTTP请求,采用http的get方式进行采集,得到response返回的内容,提取页面中的文本内容,将信息采集结果入库或者以文件的形式保存。
在该步骤中,可以采用现有的爬虫工具进行某个行业,例如电力行业语料信息采集,包括配置相应的爬虫工具的抓取配置。
提取页面中的文本内容,具体可以为提取页面中的正文、链接、标题,通过正文标记提取正文,通过链接标记提取页面中的链接,通过正文位置向前搜索可能是标题的一段,根据字体大小、是否居中、颜色变化等特征找出最符合的一段文字作为标题。
其中,图2是根据本发明具体实施例的Web信息采集的示例。
语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库。
即语料库构建步骤用于构建某个特定行业的语料库,针对不同的行业可以选取不同的行业专用词典对生语料进行分词,从而形成该行业的专业语料库。
例如,如果采用电力行业专用词典对生语料进行分词、语料标注和去停用词操作,则形成电力行业专业语料库。
进一步可选的,在语料库构建步骤S120中,在形成了所述行业专业语料库后,还可以对语料进行抽样校对,检查语料处理过程中的错误,以提高语料库的构建质量。
图3是根据本发明具体实施例的语料库构建示例。
对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,可以按“词—词频”结构以文件方式存储;然后逐一统计单篇语料中的每次词的词频信息,也可以按“词—词频”结构对每篇语料以文件方式单独存储。
语料代表性度量步骤S140:
1)构建语料代表性度量模型
同时考虑文本长度及单个词权重的影响,构建如下语料库模型,计算得到某篇文档的语料代表性度量值:
其中,hi表示该篇文档中词i出现的次数,n表示该篇文档中总的词数,wi为单个词i权重,表示为sumi表示单个词i在所有文本中出现的次数,sum表示语料库中所有词出现的总次数;
2)语料代表性度量值计算
对所有语料,即文档,按照语料代表性模型逐一进行代表性度量值计算;
3)语料排序
按照语料代表性度量值计算结果,对所有语料,即文档排序,形成按照降序排列的语料素材序列。
语料库按需截取步骤S150:基于按降序排列的语料素材序列,结合用户对语料库大小的需求,对语料库进行按需截取。
进一步的,语料库按需截取步骤S150中,可以按代表性度量值计算结果绘制语料代表性曲线,结合用户对语料库大小的需求,对语料库进行按需截取。
因此,通过步骤S110-S150能够利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。
进一步的,本发明还能够通过增量方式对语料库进行更新,从而建立起能够自由扩充的行业专用语料库。
图4列出了一个示例性的语料代表性曲线。
语料库增量更新步骤S160:对于新增的文本,利用步骤 S110-S140分别进行采集、分词和语料代表性计算,并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序,用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。
因此,本发明通过Web采集和文本特征均衡分布的方式获取电力行业非结构化数据,通过语料库构建方法和语料库增量更新构建行业中文平衡语料库,可为各行业,特别是电力行业文本分类、信息检索提供语料支持。
实施例1:
1、Web信息采集
利用现有的爬虫工具进行电力行业语料信息采集。
2、语料库构建
利用数据清洗工具对来自网站的语料进行清洗、去重;利用现有的pyltp工具包编写程序,进行语料分析和词性标注操作,形成熟语料。
3、词频统计
利用python编写程序,完成所有语料词频统计和单篇语料词频统计工作。语料库整体词频部分统计结果如表1所示,单篇语料词频统计结果如表2所示:
表1语料库整体词频部分统计结果
词 | 词频 | 词 | 词频 | 词 | 词频 |
公司 | 9095 | 电力 | 1942 | 新 | 1332 |
电网 | 6389 | 供电 | 1929 | 开展 | 1328 |
和 | 5859 | 企业 | 1921 | 工程 | 1277 |
在 | 5327 | 大 | 1894 | 电 | 1270 |
工作 | 4998 | 与 | 1796 | 服务 | 1268 |
是 | 3990 | 将 | 1584 | 要求 | 1265 |
南方 | 2752 | 安全 | 1570 | 有 | 1236 |
管理 | 2743 | 南网 | 1546 | 技术 | 1210 |
为 | 2669 | 中 | 1523 | 落实 | 1198 |
等 | 2626 | 到 | 1517 | 问题 | 1194 |
要 | 2477 | 系统 | 1511 | 并 | 1164 |
建设 | 2294 | 好 | 1494 | 以 | 1158 |
对 | 2239 | 上 | 1493 | 会议 | 1155 |
个 | 2184 | 供电局 | 1484 | 及 | 1144 |
发展 | 2165 | 不 | 1479 | 学习 | 1086 |
表2其中1篇语料词频统计部分结果
4、语料代表性计算
基于语料代表性度量模型,利用python编写程序进行语料代表性量化计算,并对语料素材按降序排列。语料代表性量化计算结果如表3所示。
表3语料代表性得分
编号 | Score | 编号 | Score | 编号 | Score |
17 | 6.074082 | 374 | 4.219777 | 278 | 3.524446 |
261 | 4.954014 | 635 | 4.03568 | 877 | 3.446499 |
564 | 4.870495 | 634 | 3.988107 | 251 | 3.322961 |
613 | 4.341489 | 109 | 3.952866 | 36 | 3.209411 |
20 | 4.335725 | 886 | 3.876077 | 529 | 3.122286 |
31 | 4.278652 | 48 | 3.558047 | 185 | 3.109345 |
5、语料库按需截取
依据语料代表性量化计算结果,将语料素材按降序排列,并绘制语料代表性曲线,如图4所示。
6、语料库增量更新
在语料内容发生变动时,采取增量方式对语料库进行更新。针对增量内容,进行分词、词性标注、去停用词等语料库构建基础操作,然后进行词频统计及语料代表性计算过程,将处理后的增量语料与原有语料一起按代表性度量结果重新排序,用户可按更新后的语料库重新选取满足自身应用需求的小型语料库。
因此,本文面向各行业,特别是电力行业,围绕行业用户应用需求,提出基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法,以利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于Web采集技术与文本特征均衡分布的电力行业中文平衡语料库构建方法。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上, 可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (8)
1.基于Web采集与文本特征均衡分布的语料库构建方法,包括如下步骤:
Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存;
语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库;
对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,然后逐一统计单篇语料中的每个词的词频信息,并分别存储;
语料代表性度量步骤S140:
1)构建语料代表性度量模型
考虑单个词权重的影响和该词出现的次数,构建如下语料代表性度量模型,计算得到某篇文档的语料代表性度量值:
其中,hi表示该篇文档中词i出现的次数,n表示该篇文档中总的词数,wi为单个词i权重,表示为sumi表示单个词i在所有文本中出现的次数,sum表示语料库中所有词出现的总次数;
2)语料代表性度量值计算
对所有语料,即文档,按照语料代表性度量模型逐一进行代表性度量值计算;
3)语料排序
按照语料代表性度量值计算结果,对所有语料,即文档排序,形成按照降序排列的语料素材序列;
语料库按需截取步骤S150:基于按降序排列的语料素材序列,结合用户对语料库大小的需求,对语料库进行按需截取。
2.根据权利要求1所述的构建方法,其特征在于:
还具有语料库增量更新步骤S160:对于新增的文本,利用步骤S110-S140分别进行采集、分词和语料代表性计算,并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序,用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。
3.根据权利要求1或2所述的构建方法,其特征在于:
Web信息采集步骤S110具体为:取出需要抓取的网页地址URL,通过查询DNS得到对应的IP地址,用该IP与Web服务器建立TCP/IP链接,发HTTP请求,采用http的get方式进行采集,得到response返回的内容,提取页面中的文本内容,将信息采集结果入库或者以文件的形式保存。
4.根据权利要求3所述的构建方法,其特征在于:
在Web信息采集步骤S110中,所述提取页面中的文本内容,具体为提取页面中的正文、链接、标题,通过正文标记提取正文,通过链接标记提取页面中的链接,通过正文位置向前搜索可能是标题的一段,根据字体大小、是否居中或颜色变化找出最符合的一段文字作为标题。
5.根据权利要求1或2所述的构建方法,其特征在于:
在语料库构建步骤S120中,在形成了所述行业专业语料库后,还可以对语料进行抽样校对,检查语料处理过程中的错误,以提高语料库的构建质量。
6.根据权利要求2所述的构建方法,其特征在于:
在语料库按需截取步骤S150中,按代表性度量值计算结果绘制语料代表性曲线,结合用户对语料库大小的需求,对语料库进行按需截取。
7.根据权利要求2所述的构建方法,其特征在于:
在对分词后的语料进行词频统计S130中,对统计整体语料库中每个词的词频信息,按“词—词频”结构以文件方式存储;对单篇语料中的每个词的词频信息,按“词—词频”结构对每篇语料以文件方式单独存储。
8.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的基于Web采集技术与文本特征均衡分布的语料库构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273931.3A CN109522549B (zh) | 2018-10-30 | 2018-10-30 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273931.3A CN109522549B (zh) | 2018-10-30 | 2018-10-30 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522549A true CN109522549A (zh) | 2019-03-26 |
CN109522549B CN109522549B (zh) | 2022-06-10 |
Family
ID=65773267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811273931.3A Active CN109522549B (zh) | 2018-10-30 | 2018-10-30 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522549B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243479A1 (en) * | 2007-04-02 | 2008-10-02 | University Of Washington | Open information extraction from the web |
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN107610693A (zh) * | 2016-07-11 | 2018-01-19 | 科大讯飞股份有限公司 | 文本语料库的构建方法和装置 |
CN107886254A (zh) * | 2017-12-02 | 2018-04-06 | 云南电网有限责任公司信息中心 | 一种新颖的面向电力交易系统的市场主体注册管理方法 |
US20180121443A1 (en) * | 2016-11-03 | 2018-05-03 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
CN108153895A (zh) * | 2018-01-06 | 2018-06-12 | 国网福建省电力有限公司 | 一种基于开放数据的语料库构建方法和系统 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN108364632A (zh) * | 2017-12-22 | 2018-08-03 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
CN108491429A (zh) * | 2018-02-09 | 2018-09-04 | 湖北工业大学 | 一种基于类内类间文档频和词频统计的特征选择方法 |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
-
2018
- 2018-10-30 CN CN201811273931.3A patent/CN109522549B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243479A1 (en) * | 2007-04-02 | 2008-10-02 | University Of Washington | Open information extraction from the web |
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
CN107610693A (zh) * | 2016-07-11 | 2018-01-19 | 科大讯飞股份有限公司 | 文本语料库的构建方法和装置 |
US20180121443A1 (en) * | 2016-11-03 | 2018-05-03 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN107886254A (zh) * | 2017-12-02 | 2018-04-06 | 云南电网有限责任公司信息中心 | 一种新颖的面向电力交易系统的市场主体注册管理方法 |
CN108364632A (zh) * | 2017-12-22 | 2018-08-03 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
CN108153895A (zh) * | 2018-01-06 | 2018-06-12 | 国网福建省电力有限公司 | 一种基于开放数据的语料库构建方法和系统 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN108491429A (zh) * | 2018-02-09 | 2018-09-04 | 湖北工业大学 | 一种基于类内类间文档频和词频统计的特征选择方法 |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
Non-Patent Citations (3)
Title |
---|
MD. ABDULLAH AL MUMIN等: "SUMono: A Representative Modern Bengali Corpus", 《SUST JOURNAL OF SCIENCE AND TECHNOLOGY》 * |
任璐等: "中文笑话语料库的构建与应用", 《中文信息学报》 * |
官小龙: "跨领域模式下语料库信息智能筛选仿真研究", 《计算机仿真》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109522549B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528693B (zh) | 面向个性化学习的教育资源推荐方法及系统 | |
AleAhmad et al. | Hamshahri: A standard Persian text collection | |
CN103678418B (zh) | 信息处理方法和信息处理设备 | |
CN105069102A (zh) | 信息推送方法和装置 | |
CN103186612B (zh) | 一种词汇分类的方法、系统和实现方法 | |
JP6691280B1 (ja) | 管理システム及び管理方法 | |
US20140006408A1 (en) | Identifying points of interest via social media | |
CN102646132B (zh) | 宽带用户属性识别方法和装置 | |
CN105389389A (zh) | 一种网络舆情传播态势媒体联动分析方法 | |
CN102043808A (zh) | 利用网页结构抽取双语词条的方法及设备 | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
Zhu et al. | Real-time personalized twitter search based on semantic expansion and quality model | |
CN109948154A (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
US20170235835A1 (en) | Information identification and extraction | |
Olchanski et al. | Merger types forming the Virgo cluster in recent gigayears | |
US20190087499A1 (en) | Identifying domain-specific accounts | |
CN105183774A (zh) | 一种智能查询方法及系统 | |
Dai et al. | Spatial and temporal variation characteristics of marine wetland ecological environment based on GIS | |
CN109522549A (zh) | 基于Web采集与文本特征均衡分布的语料库构建方法 | |
CN106649883B (zh) | 一种跨语言的主题网站自动发现方法 | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
CN111680122B (zh) | 空间数据主动推荐方法、装置、存储介质及计算机设备 | |
CN112395856B (zh) | 文本匹配方法、装置、计算机系统及可读存储介质 | |
CN103106278A (zh) | 权重值的获取方法及装置 | |
JP2014146257A (ja) | 情報処理装置、情報処理方法、及び、情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |