CN109522549A

CN109522549A - 基于Web采集与文本特征均衡分布的语料库构建方法

Info

Publication number: CN109522549A
Application number: CN201811273931.3A
Authority: CN
Inventors: 林宝德; 张新阳; 张梅
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-03-26
Anticipated expiration: 2038-10-30
Also published as: CN109522549B

Abstract

一种基于Web采集与文本特征均衡分布的语料库构建方法，利用Web进行语料收集，采用基于词典的方式对预处理后的生语料进行标注，利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序，形成按照降序排列的语料素材序列，利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新，从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作，即取得一部分语料库的素材，使其尽可能地代表原始语料库的相关特性，从而开展语料库的离线应用。

Description

基于Web采集与文本特征均衡分布的语料库构建方法

技术领域

本申请涉及一种信息处理方法，具体的，涉及一种基于Web采集技术与文本特征均衡分布的语料库构建方法，能够适用于电力行业，建成的语料库支持按需截取的离线应用，同时支持增量更新。

背景技术

随着电力业务增长，电力行业各部门积累了一定数量的非结构化数据，由于技术等因素限制导致非结构化数据利用率并不高。但海量非结构化数据中蕴含着大量有用信息，如何对这些非结构化数据进行深入研究是一个重要研究问题。目前，非结构化数据在知识库建立、信息抽取、信息检索、文本分类等方面的应用可基于语料库实现，语料库可为行业应用提供语料附属信息，满足各行各业在办公、管理和决策过程中对非结构化文档分类检索的需求。因此，建设电力行业语料库具有重要的应用意义。

目前，国内外研究团队构建了大量通用语料库，如Brown、 Semcor、LOB、ICE等英文语料库以及国家语委现代汉语语料库语料库、北大语料库、台北“中研院”语料库等中文语料库。另有学者建设学习者、FAO农业英语语料库、中介话语语料库、学术语篇语料库、法律语料库等专用语料库服务于各行业各业。收集的语料大多来源于组织发布的文献或Web文本，具有一定的规模。在面对特定应用场景时，如何选择和确定语料库的规模使之达到最优的应用效果是值得研究的问题。语料库的规模并不是越大越好，越大规模的语料库在存储、传输与使用的过程中耗费的资源也越多。随着语料库规模的增大，语料库的使用效果的改善幅度会逐步减小，即表现出边际效用递减的特征。因此在应用效果和资源耗费之间进行取舍是必要的。

因此，如何平衡应用效果和资源耗费之间的关系，提出一种语料库的构建方法，能够适用于各行业，特别适用于电力行业，成为亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法，能够适用于各个行业，尤其是电力行业。

为达此目的，本发明采用以下技术方案：

一种基于Web采集技术与文本特征均衡分布语料库构建方法，包括如下步骤：

Web信息采集步骤S110:通过Web连接方式，采集网络页面中的文本信息，并将信息采集结果进行保存；

语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除，形成生语料，基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作，形成该行业专业语料库；

对分词后的语料进行词频统计S130：统计整体语料库中每个词的词频信息，然后逐一统计单篇语料中的每次词的词频信息，并分别存储；

语料代表性度量步骤S140：

1)构建语料代表性度量模型

考虑单个词权重的影响和该词出现的次数，构建如下语料代表性度量模型，计算得到某篇文档的语料代表性度量值：

其中，h_i表示该篇文档中词i出现的次数，n表示该篇文档中总的词数，w_i为单个词i权重，表示为sum_i表示单个词i在所有文本中出现的次数，sum表示语料库中所有词出现的总次数；

2)语料代表性度量值计算

对所有语料，即文档，按照语料代表性度量模型逐一进行代表性度量值计算；

3)语料排序

按照语料代表性度量值计算结果，对所有语料，即文档排序，形成按照降序排列的语料素材序列；

语料库按需截取步骤S150：基于按降序排列的语料素材序列，结合用户对语料库大小的需求，对语料库进行按需截取。

可选的，还具有语料库增量更新步骤S160：对于新增的文本，利用步骤S110-S140分别进行采集、分词和语料代表性计算，并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序，用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。

可选的，Web信息采集步骤S110具体为：取出需要抓取的网页地址URL，通过查询DNS得到对应的IP地址，用该IP与Web服务器建立TCP/IP链接，发HTTP请求，采用http的get方式进行采集，得到response返回的内容,提取页面中的文本内容，将信息采集结果入库或者以文件的形式保存。

可选的，在Web信息采集步骤S110中，所述提取页面中的文本内容，具体为提取页面中的正文、链接、标题，通过正文标记提取正文，通过链接标记提取页面中的链接，通过正文位置向前搜索可能是标题的一段，根据字体大小、是否居中或颜色变化找出最符合的一段文字作为标题。

可选的，在语料库构建步骤S120中，在形成了所述行业专业语料库后，还可以对语料进行抽样校对，检查语料处理过程中的错误，以提高语料库的构建质量。

可选的，在语料库按需截取步骤S150中，按代表性度量值计算结果绘制语料代表性曲线，结合用户对语料库大小的需求，对语料库进行按需截取。

可选的，在对分词后的语料进行词频统计S130中，对统计整体语料库中每个词的词频信息，按“词—词频”结构以文件方式存储；对单篇语料中的每个词的词频信息，按“词—词频”结构对每篇语料以文件方式单独存储。

本发明还公开了一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行上述的基于Web采集技术与文本特征均衡分布的语料库构建方法。

因此，本文面向各行业，特别是电力行业，围绕行业用户应用需求，提出基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法，以利用Web进行语料收集，采用基于词典的方式对预处理后的生语料进行标注，利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序，形成按照降序排列的语料素材序列，利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新，从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作，即取得一部分语料库的素材，使其尽可能地代表原始语料库的相关特性，从而开展语料库的离线应用。

附图说明

图1是根据本发明具体实施例的基于Web采集技术与文本特征均衡分布的中文平衡语料库构建方法的流程图；

图2是根据本发明具体实施例的Web信息采集的示例；

图3是根据本发明具体实施例的语料库构建示例；

图4是示例性的语料代表性曲线。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明在于充分利用Web信息采集、语料库构建、文本特征均衡分布实现某个行业的语料库的构建，并且能够进行语料库的更新和按需选取。

具体而言，参见图1，公开了根据本发明具体实施例的基于Web 采集技术与文本特征均衡分布的中文平衡语料库构建方法的流程图，该构建方法包括如下步骤：

Web信息采集步骤S110:通过Web连接方式，采集网络页面中的文本信息，并将信息采集结果进行保存。

在一个可选的实施例中，取出需要抓取的网页地址URL，通过查询DNS得到对应的IP地址，用该IP与Web服务器建立TCP/IP链接，发HTTP请求，采用http的get方式进行采集，得到response返回的内容,提取页面中的文本内容，将信息采集结果入库或者以文件的形式保存。

在该步骤中，可以采用现有的爬虫工具进行某个行业，例如电力行业语料信息采集，包括配置相应的爬虫工具的抓取配置。

提取页面中的文本内容，具体可以为提取页面中的正文、链接、标题，通过正文标记提取正文，通过链接标记提取页面中的链接，通过正文位置向前搜索可能是标题的一段，根据字体大小、是否居中、颜色变化等特征找出最符合的一段文字作为标题。

其中，图2是根据本发明具体实施例的Web信息采集的示例。

语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除，形成生语料，基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作，形成该行业专业语料库。

即语料库构建步骤用于构建某个特定行业的语料库，针对不同的行业可以选取不同的行业专用词典对生语料进行分词，从而形成该行业的专业语料库。

例如，如果采用电力行业专用词典对生语料进行分词、语料标注和去停用词操作，则形成电力行业专业语料库。

进一步可选的，在语料库构建步骤S120中，在形成了所述行业专业语料库后，还可以对语料进行抽样校对，检查语料处理过程中的错误，以提高语料库的构建质量。

图3是根据本发明具体实施例的语料库构建示例。

对分词后的语料进行词频统计S130：统计整体语料库中每个词的词频信息，可以按“词—词频”结构以文件方式存储；然后逐一统计单篇语料中的每次词的词频信息，也可以按“词—词频”结构对每篇语料以文件方式单独存储。

语料代表性度量步骤S140：

1)构建语料代表性度量模型

同时考虑文本长度及单个词权重的影响，构建如下语料库模型，计算得到某篇文档的语料代表性度量值：

2)语料代表性度量值计算

对所有语料，即文档，按照语料代表性模型逐一进行代表性度量值计算；

3)语料排序

按照语料代表性度量值计算结果，对所有语料，即文档排序，形成按照降序排列的语料素材序列。

进一步的，语料库按需截取步骤S150中，可以按代表性度量值计算结果绘制语料代表性曲线，结合用户对语料库大小的需求，对语料库进行按需截取。

因此，通过步骤S110-S150能够利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序，形成按照降序排列的语料素材序列，利用这些序列可以实现任意规模的最逼近的语料子库。

进一步的，本发明还能够通过增量方式对语料库进行更新，从而建立起能够自由扩充的行业专用语料库。

图4列出了一个示例性的语料代表性曲线。

语料库增量更新步骤S160：对于新增的文本，利用步骤 S110-S140分别进行采集、分词和语料代表性计算，并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序，用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。

因此，本发明通过Web采集和文本特征均衡分布的方式获取电力行业非结构化数据，通过语料库构建方法和语料库增量更新构建行业中文平衡语料库，可为各行业，特别是电力行业文本分类、信息检索提供语料支持。

实施例1：

1、Web信息采集

利用现有的爬虫工具进行电力行业语料信息采集。

2、语料库构建

利用数据清洗工具对来自网站的语料进行清洗、去重；利用现有的pyltp工具包编写程序，进行语料分析和词性标注操作，形成熟语料。

3、词频统计

利用python编写程序，完成所有语料词频统计和单篇语料词频统计工作。语料库整体词频部分统计结果如表1所示，单篇语料词频统计结果如表2所示：

表1语料库整体词频部分统计结果

词	词频	词	词频	词	词频
						公司	9095	电力	1942	新	1332
电网	6389	供电	1929	开展	1328
						和	5859	企业	1921	工程	1277
在	5327	大	1894	电	1270
						工作	4998	与	1796	服务	1268
是	3990	将	1584	要求	1265
						南方	2752	安全	1570	有	1236
管理	2743	南网	1546	技术	1210
						为	2669	中	1523	落实	1198
等	2626	到	1517	问题	1194
						要	2477	系统	1511	并	1164
建设	2294	好	1494	以	1158
						对	2239	上	1493	会议	1155
个	2184	供电局	1484	及	1144
						发展	2165	不	1479	学习	1086

表2其中1篇语料词频统计部分结果

4、语料代表性计算

基于语料代表性度量模型，利用python编写程序进行语料代表性量化计算，并对语料素材按降序排列。语料代表性量化计算结果如表3所示。

表3语料代表性得分

编号	Score	编号	Score	编号	Score
						17	6.074082	374	4.219777	278	3.524446
261	4.954014	635	4.03568	877	3.446499
						564	4.870495	634	3.988107	251	3.322961
613	4.341489	109	3.952866	36	3.209411
						20	4.335725	886	3.876077	529	3.122286
31	4.278652	48	3.558047	185	3.109345

5、语料库按需截取

依据语料代表性量化计算结果，将语料素材按降序排列，并绘制语料代表性曲线，如图4所示。

6、语料库增量更新

在语料内容发生变动时，采取增量方式对语料库进行更新。针对增量内容，进行分词、词性标注、去停用词等语料库构建基础操作，然后进行词频统计及语料代表性计算过程，将处理后的增量语料与原有语料一起按代表性度量结果重新排序，用户可按更新后的语料库重新选取满足自身应用需求的小型语料库。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行上述的基于Web采集技术与文本特征均衡分布的电力行业中文平衡语料库构建方法。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上, 可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.基于Web采集与文本特征均衡分布的语料库构建方法，包括如下步骤：

对分词后的语料进行词频统计S130：统计整体语料库中每个词的词频信息，然后逐一统计单篇语料中的每个词的词频信息，并分别存储；

语料代表性度量步骤S140：

1)构建语料代表性度量模型

2)语料代表性度量值计算

3)语料排序

2.根据权利要求1所述的构建方法，其特征在于：

还具有语料库增量更新步骤S160：对于新增的文本，利用步骤S110-S140分别进行采集、分词和语料代表性计算，并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序，用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。

3.根据权利要求1或2所述的构建方法，其特征在于：

Web信息采集步骤S110具体为：取出需要抓取的网页地址URL，通过查询DNS得到对应的IP地址，用该IP与Web服务器建立TCP/IP链接，发HTTP请求，采用http的get方式进行采集，得到response返回的内容,提取页面中的文本内容，将信息采集结果入库或者以文件的形式保存。

4.根据权利要求3所述的构建方法，其特征在于：

在Web信息采集步骤S110中，所述提取页面中的文本内容，具体为提取页面中的正文、链接、标题，通过正文标记提取正文，通过链接标记提取页面中的链接，通过正文位置向前搜索可能是标题的一段，根据字体大小、是否居中或颜色变化找出最符合的一段文字作为标题。

5.根据权利要求1或2所述的构建方法，其特征在于：

在语料库构建步骤S120中，在形成了所述行业专业语料库后，还可以对语料进行抽样校对，检查语料处理过程中的错误，以提高语料库的构建质量。

6.根据权利要求2所述的构建方法，其特征在于：

在语料库按需截取步骤S150中，按代表性度量值计算结果绘制语料代表性曲线，结合用户对语料库大小的需求，对语料库进行按需截取。

7.根据权利要求2所述的构建方法，其特征在于：

在对分词后的语料进行词频统计S130中，对统计整体语料库中每个词的词频信息，按“词—词频”结构以文件方式存储；对单篇语料中的每个词的词频信息，按“词—词频”结构对每篇语料以文件方式单独存储。

8.一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的基于Web采集技术与文本特征均衡分布的语料库构建方法。