CN108153895A

CN108153895A - 一种基于开放数据的语料库构建方法和系统

Info

Publication number: CN108153895A
Application number: CN201810012673.7A
Authority: CN
Inventors: 付婷; 蔡力军; 苏运东; 蔡宇翔; 孙浩淞; 王雪晶; 伊春凤; 苏江文; 王秋琳; 刘心
Original assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2018-01-06
Filing date: 2018-01-06
Publication date: 2018-06-12

Abstract

本发明涉及一种基于开放数据的语料库构建方法和系统，该方法包括：S1：由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库；S2：基于步骤S1得到的驱动语料库，利用机器学习分类算法构建语料分类模型，基于语料分类模型对不断采集的原始数据库进行预测，将语料分类模型预测的结果不断加入到面向特定领域的语料库中，直到满足语料库构建在数量上的要求。与现有技术相比，本发明能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量，并可以用于不同语料库的构建过程中，有效降低了特定领域语料库的构建成本。

Description

一种基于开放数据的语料库构建方法和系统

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于开放数据的语料库构建方法和系统。

背景技术

（1）语料库

随着大数据技术的兴起，利用基于统计学原理的机器学习技术对海量数据进行分析和挖掘，逐渐成为数据分析的主流，并在互联网、营销、客户管理等诸多商业和生长领域得到广泛应用。机器学习技术能够通过对海量数据开展模式分析，发现其中蕴藏的潜在规律、模式和信息，从而给出预测。由于其基于统计学的特点，要成功实现大规模的数据分析和挖掘，必不可少的两大基础是模式分析算法和语料库。现阶段，随着机器学习的相关算法日趋成熟，面向特定领域的语料库越来越成为提升数据分析挖掘质量的主要障碍。

语料库是指以电子计算机作为载体的、大量在实际应用中产生的文本数据，经过特定加工后（包括格式整理和标记等），形成规范的、能够用于研究和应用用途的数据集。目前如国内北京大学、中科院以及互联网公司发布的公益性质的、用于研究用途的语料库，如搜狗公司公开的“全网新闻数据”（ http://www.sogou.com/labs/resource/ca.php），收集整理了“2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据”，可以用于“新闻自动分类”的机器学习应用的构建。然而，目前公共的分类语料库都是面向公共领域的，或者是新闻分类这种主要用于研究用途的分类语料，面向特定行业、特定用途的语料库，都需要专门去构建，需要投入大量的人力资源。

语料库有多种分类。按照素材的媒体类型可以分为图像语料库、语音语料库和文本语料库；按照用途，有翻译语料库，分类语料库，等。本专利主要面向文本语料库，即以文本数据（无结构的纯文本）为主体的各类语料库。

（2）基于开放数据构建语料库

开放文本数据，是指没有版权限制的、可以自由访问的文本数据，主要包括各类互联网网页，以及公开发表的科技资源（专利、论文、标准，等）。开放文本数据中包含大量的信息，是构建特定领域语料库的主要来源。

以构建面向特点企业的“正负面舆情”语料库为例。“正负面舆情”语料库是一个二分类文本语料库，包含了两种类别的语料，分别是针对该企业的典型正面、负面两种互联网言论，可能来自于微博、新闻门户、个人博客等站点的网页信息；“正负面舆情”语料库可用于构建机器学习分类模型，用于构建自动化判断一篇文章是否为“负面舆情”的模型。基于开放数据构建“正负面舆情”语料库的主要过程如图1所示：

步骤1：采集特定网站的所有网页，或者在搜索引擎中通过特定关键词组合执行搜索，获取原始语料信息。而后，对信息进行必要的清洗，去除标题、正文以外的其它干扰信息，以纯文本形式保存，作为备选语料。

步骤2：将采集并清洗的原始语料信息保存到数据库，直到积累到足够的量。

步骤3：按照语料库构建要求，从原始语料中进一步筛选出符合规格的文本，构成最终语料库。在“正负面舆情”场景中，语料库的内容就是典型、有代表性的一系列“正面”文章和“负面”文章。

在构成特定用途的语料库的过程中，耗时最长、投入最大的主要在以上的第3步骤，即从原始语料中筛选出符合语料库规格、质量要求的语料。此步骤也是语料库构建方法的着眼点。

（3）现有技术方案分析

基于开放知识构建文本语料库，目前主要有两类方法：

方案一：基于文本的规则判断方法

基于文本的规则判断方法，是指通过判断目标文本中是否包含或不包含特定的字、词及其组合，来确定文本是否满足语料标准要求。这些规则可以很方便地用各种编程语言实现；规则通常和“业务逻辑”一一对应，构建一个语料库需要编写大量规则，以期望尽可能全面覆盖，所以，通常而言，规则是由业务专家或懂业务的数据分析师编写。图2为面向X公司的负面语料库构建过程及主要原理。

方案一的优点是：门槛较低，且支持持续优化改进。只需要编写更多的正确规则，就可以改进筛选效果，获得更多语料

方案一的主要缺点是：

1）需要专家人员全程投入。面向特定领域的语料通常很难指定精确的规则（比如：包含某某关键词就是所需要的负面语料），需要业务专家方可最终判断该语料是否满足，而实际工作开展过程中，业务专家是稀缺资源。

2）工程化难度较大，工作质量难以得到保证。完全依靠人工或僵化的规则，可能存在疏漏，导致语料漏发现、误发现，进而影响语料库的整体质量。

方案二：基于机器学习模型判断

采用机器学习技术，利用机器学习的分类算法，如SVM算法、朴素贝叶斯算法、随机森林算法等，构建分类模型，将符合要求的语料识别、筛选出，完成语料筛选与构建过程。其主要原理如图3所示。

如图3所示，由于机器学习基于统计学原理，其本质是对事先提供的正、负面语料进行分别“学习”，并利用算法提取出不同分类的“同性特征”，训练到一定程度后（判断结果逐渐“收敛”），即可以作用于新的语料（图中的“采集的原始数据”），判断语料中的文章的正、负面属性，从而完成正负面舆情语料库的构建。

其主要优点是：不需要全程由业务专家参与，仅需要业务专家提供一定量的“启动”语料，用于训练分类模型。

其主要缺点是：需要实现提供“启动”语料，即用于训练分类模型的语料。由于机器学习分类模型的效果和“启动”语料的数量是正相关的，“启动”语料越多，意味着对该分类的“特征”覆盖的越完整，后续执行分类的准确性也越好；然而，在现实中，由于满足需求的语料数量占比很小，这导致要搜集到足够的、可以驱动“机器学习分类模型”的“启动”语料数量难度过大、耗时过长。以负面舆情为例，其总数本来就少（负面舆情在所有原始语料中的占比可能低于1%），完全以人工判断构建“启动”语料也是一项投入很大的工作。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于开放数据的语料库构建方法和系统，基于开放的文本数据构建面向特定行业语料库，能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量，并可以用于不同语料库的构建过程中，有效降低了特定领域语料库的构建成本。

本发明的目的可以通过以下技术方案来实现：

一种基于开放数据的语料库构建方法，包括以下步骤：

S1：由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库；

S2：基于步骤S1得到的驱动语料库，利用机器学习分类算法构建语料分类模型，基于语料分类模型对不断采集的原始数据库进行预测，将语料分类模型预测的结果不断加入到面向特定领域的语料库中，直到满足面向特定领域的语料库构建在数量上的要求。

所述步骤S1具体为：

101：初始设置基于文本的规则；

102：对原始数据库的语料执行步骤101设置的规则，预测得到初始预测结果；

103：对步骤102预测出的初始预测结果进行分析及规则冲突处理，获取规则按照预测正确率从高到低进行排序的有序规则栈；

104：利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库，所述驱动语料库包括语料以及对应的预测结果。

所述步骤103具体为：

1）针对每条规则对步骤102预测出的初始预测结果进行分析，得到每条规则的预测正确率，满足以下公式：

预测正确率 = 预测正确的结果数 / 预测总数；

2）移除预测正确率低于预设的移除阈值的规则；

3）将规则按照预测正确率从高到低进行排序，得到有序规则栈。

所述移除阈值的取值范围为75%-82%。

所述步骤3）之后还包括以下步骤：

4）利用有序规则栈重新对原始数据库的语料有序地进行匹配预测，若任一条规则给出预测结果，则将该预测结果作为该语料的最终预测结果；

5）判断有序规则栈的整体预测正确率是否达到预设的校验阈值，且语料的数据量满足足够驱动分类模型的要求，若是，则执行步骤104，若否，则返回步骤101，修订错误的规则，或者新增规则。

所述校验阈值的取值范围为85%-92%。

所述语料的数据量满足足够驱动分类模型的要求是指语料的数据量大于500条。

一种实现上述方法的基于开放数据的语料库构建系统，包括：

数据管理模块，用于导入、筛选原始数据，得到原始数据库；

模型管理模块，用于获取驱动语料库，并基于驱动语料库利用机器学习分类算法得到面向特定领域的语料库，具体包括：

驱动语料库获取模块，用于由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库；

面向特定领域的语料库获取模块，用于基于驱动语料库获取模块得到的驱动语料库，利用机器学习分类算法构建语料分类模型，基于语料分类模型对不断采集的原始数据库进行预测，将语料分类模型预测的结果不断加入到面向特定领域的语料库中，直到满足面向特定领域的语料库构建在数量上的要求。

所述驱动语料库获取模块具体包括：

规则编写与完善单元，用于初始设置基于文本的规则；

规则执行单元，用于对原始数据库的语料执行规则编写与完善单元设置的规则，预测得到初始预测结果；

结果分析及规则冲突处理单元，用于对规则执行单元预测出的初始预测结果进行分析及规则冲突处理，获取规则按照预测正确率从高到低进行排序的有序规则栈；

驱动语料库构建单元，用于利用结果分析及规则冲突处理单元得到的有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库。

与现有技术相比，本发明具有以下优点：

1、本发明融合应用了规则、机器学习两种方法，提出一种不同于现有技术方案的、两阶段的基于开放数据构建特定领域语料库构建框架。首先，步骤S1投入少量的业务专家，基于文本规则判断的方法，构建小规模的驱动语料库，大幅度优化了现有“基于文本的规则判断方法”方法，将规则方法由一个散乱、随意的过程改造为严谨、工程化的操作过程，而后，步骤S2将基于规则判断方法的驱动语料库作为机器学习分类方法的“启动”语料，配合机器学习分类算法构建不需要人工干预、稳定的语料分类器，解决机器学习分类方法构建“启动”语料投入过大的问题，最后基于步骤S2的语料分类结果，完成面向特定领域语料库的构建。相对于现有技术方案，本发明提出的整体过程框架具有投入人员少、过程稳定质量可靠的优点。

2、步骤S1采用基于规则方法构建小规模语料库的方法。不同于现有技术方案，针对语料库的数据特点和规则方法技术特点，本发明在步骤103中提出一种解决冲突规则的策略。利用该策略，在确保高正确率规则可以得到优先执行的基础上，也能确保高覆盖率规则能够得到应用，避免了现有技术方案将高覆盖率规则移除而需要编写大量新增规则的问题，降低了人工投入，并确保质量能够满足驱动语料库的要求。

3、本发明方法能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量，并可以用于不同语料库的构建过程中，有效降低了特定领域语料库的构建成本。

附图说明

图1为传统基于开放数据的语料库构建过程（舆情语料库为例）的示意图；

图2为方案一的主要原理示意图；

图3为方案二的主要原理示意图；

图4为本发明基于开放数据构建特定领域语料库总体过程的示意图；

图5为冲突解决策略执行过程的示意图；

图6为基于开放数据构建特定领域语料库过程中第一阶段的主要步骤示意图；

图7为利用驱动语料库构建机器学习分类模型并形成语料库过程的示意图；

图8为本发明特定领域语料库构建系统逻辑架构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

“从互联网中采集构建语料库的候选开放数据”是一个必要环节，但其可以用成熟的“爬虫”技术解决，所以该环节没有纳入到本发明范围，后续的发明过程描述均假设已经完成“采集的原始数据”的收集，采集的原始数据经筛选存储在原始数据库中。

如图4所示，一种基于开放数据的语料库构建方法融合应用了规则、机器学习两种方法，包括两个阶段：

第一阶段：基于规则方法，构建驱动语料库；具体为由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库。

本阶段主要基于文本规则判断方法，构建用于训练机器学习分类模型的驱动语料库。同时，提出一个完整的过程及支撑算法，规避现有基于规则方法过于依赖业务专家、质量难以保证的问题。如图6所示，具体包括以下几个步骤：

101：编写以及完善规则。

本步骤，需要结合业务需求及原始语料特点，编制基于文本（字、词）的规则。每条规则追求 “高准确、低覆盖”，即不要求每条规则都匹配到很多数据，但要求匹配到的都是符合业务需求的。编写的规则与现有技术方案一（基于文本的规则判断方法）描述的一致，不再展开。

和现有技术方案不同的是，本发明不要求编写大量的规则、并能够覆盖的所有要求符合要求的语料（无死角覆盖），而是编写少量规则，能够找到足够的、用于“驱动”机器学习分类模型的语料即可，这带来的优点是：“该阶段要求投入的业务专家相对于现有技术方案要少的多，降低了业务专家的投入成本”。这是因为：

1）需要编写的规则的数量降低。

2）编写规则变得更加容易。仅需要编写业务上“显而易见”的部分规则，不需要为了追求覆盖度编写比较复杂的规则。根据“二八原则”，工作量仅需现有技术方案的20%（80%的语料，用20%的基础规则就可以识别出）。

102：规则执行。

系统对原始数据库的语料执行步骤101设置的规则，预测并展示识别出的语料以及对应的初始预测结果。

103：结果分析及规则冲突处理。

对步骤102预测出的初始预测结果进行分析及规则冲突处理，获取规则按照预测正确率从高到低进行排序的有序规则栈。

语料标注人员查看步骤102的执行结果，并对每一条结果标注判断“正确”或“错误”信息，并且标注每条结果是由哪一条（或哪几条）规则筛选出来的。此时，需要对规则的冲突进行处理。

所谓冲突的规则，是指对于同一个语料（文章），不同规则的预测结果是不一样的。例如：

语料	规则X预测	规则Y预测	规则Z预测	人工（专家）标注	是否冲突
						语料A	负面	负面	正面	负面	冲突
语料B	负面	正面	正面	正面	冲突
						语料C	负面	负面	负面	负面	无冲突

针对冲突的规则，简单的处理方式是，直接移除其中判断错误的规则。然而，这样的处理方式将导致一个问题，那就是“宽泛”的规则都会被移除，保留的规则都是很“具体”的规则（这些规则预测的结果虽然都是正确的，但都仅能匹配很少量的语料），最终导致规则集能够筛选出的语料会变少。所以，本发明设计了如下的冲突规则处理策略，确保总体正确率的同时，提升规则的覆盖度，以减少第一阶段的总体投入时间。策略如下：

预测正确率 = 预测正确的结果数 / 预测总数

例如，总体语料数是100，规则X对其中的30条语料给出预测结果，其中预测正确（和人工标记结果对照）是20，那么预测正确率 = 20 / 30 =66.7%。

2）移除预测正确率低于预设的移除阈值的规则，通常设定为80%，可根据实际情况灵活调整，校验阈值的取值范围为85%-92%。

4）利用有序规则栈重新对原始数据库的语料有序地进行匹配预测，若任一条规则给出预测结果，则将该预测结果作为该语料的最终预测结果。

如图5所示，上述的策略，本质上是确保“高正确率”的规则可以得到优先匹配，“低正确率、高覆盖度”的规则对没有判断冲突的语料执行预测，确保规则集的总体覆盖度。在实践中，上述策略取得较好的平衡效果，达到预期。

5）判断有序规则栈的整体预测正确率是否达到预设的校验阈值，且语料的数据量满足足够驱动分类模型的要求（语料的数据量通常需要超过500条），若是，则执行步骤104，若否，则返回步骤101，修订错误的规则，或者新增规则。其中，移除阈值的取值范围为75%-82%，移除阈值通常取值为90%。

104：构建初始预测模型，基于初始预测模型构建驱动语料库。

利用前面三个步骤构建的有序规则栈，构建初始预测模型，利用初始预测模型对原始数据库（即所有原始收集的语料）进行预测，将相应预测结果的语料归集到语料库中，形成“驱动”机器学习分类算法的基本语料库，即驱动语料库，驱动语料库包括语料以及对应的预测结果。

第二阶段：基于机器学习分类模型，构建最终语料库。

基于第一阶段得到的驱动语料库，利用通用的机器学习分类算法（如SVM、随机森林等）构建语料分类模型，对所有采集的语料进行预测。该过程的基本流程比较简单，如图7所示。

不同于第一阶段，由于机器学习分类过程不需要人工干预，本阶段基本无需业务专家参与，仅需要工程师根据现有开源的机器学习分类算法库在驱动语料库的基础上自动构建分类即可；由于驱动语料库的数量、质量都能满足机器学习算法的要求，所以可以高质量的分类模型，并能对不断采集的新增互联网开放数据（即原始数据库）进行预测，将语料分类模型预测的结果不断加入到面向特定领域的语料库中，直到满足面向特定领域的语料库构建在数量上的要求。

综上所述，本发明提出的两阶段方法，充分利用了现有各技术方案的优点并进行了有机整合，规避了其缺点，使得基于开放数据构建特定领域语料库过程的总体投入小、过程质量稳定可控；本发明提出的“特定领域语料库构建系统”为上述过程提供完整支撑，其逻辑架构图如图8所示。

一种实现上述方法的基于开放数据的语料库构建系统，分为三个层次：

1）界面层：为语料库构建的整体过程提供各类界面交互功能，包括：

数据管理模块：用于导入、筛选原始数据，得到原始数据库，并支持对原始数据进行简单的分类标记。

模型管理模块：用于获取驱动语料库，并基于驱动语料库利用机器学习分类算法得到面向特定领域的语料库，包括支持构建语料预测模型等子模块，具体功能包括规则编制、规则执行、结果查看、机器学习分类模型构建及回测，等。

模型管理模块具体包括：

驱动语料库获取模块，用于由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库。

驱动语料库获取模块具体包括：

规则编写与完善单元，用于初始设置基于文本的规则；

语料库管理模块：用于对中间的“驱动”语料、最终语料库进行管理和发布。

系统管理模块：提供用户权限、日志安全、监控配置等系统级相关功能。

2）服务层：为各界面应用模块提供相关技术服务支持，包括规则管理、机器学习框架（含特征选择及优化算法、各类数据分类聚类回归算法，以及模型发布的相关服务）、语料库管理。

3）基础设施：包括用于存储各类数据的基础设施，如用于规则判断及结果查看的全文检索引擎、用于存储原始文档的文档数据库，以及用于存储语料标记和规则数据的关系数据库。

在基于开放数据构建特定领域语料库领域，现有技术方案存在人力资源投入较大、工作效率较低、语料库质量得不到保证的问题。本发明提出的方法对现有的技术方案进行了整合，充分利用了现有各技术方案的优点并规避其缺点，形成完整的工作过程和框架，并对现有方案中的“基于文本的规则判断方法”进行了显著改进。现对于现有技术，本发明的方法能够大幅度减少了语料库构建过程中的人员投入，同时保证了结果质量。

Claims

1.一种基于开放数据的语料库构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于开放数据的语料库构建方法，其特征在于，所述步骤S1具体为：

101：初始设置基于文本的规则；

3.根据权利要求2所述的一种基于开放数据的语料库构建方法，其特征在于，所述步骤103具体为：

预测正确率 = 预测正确的结果数 / 预测总数；

2）移除预测正确率低于预设的移除阈值的规则；

4.根据权利要求3所述的一种基于开放数据的语料库构建方法，其特征在于，所述移除阈值的取值范围为75%-82%。

5.根据权利要求3所述的一种基于开放数据的语料库构建方法，其特征在于，所述步骤3）之后还包括以下步骤：

6.根据权利要求5所述的一种基于开放数据的语料库构建方法，其特征在于，所述校验阈值的取值范围为85%-92%。

7.根据权利要求5所述的一种基于开放数据的语料库构建方法，其特征在于，所述语料的数据量满足足够驱动分类模型的要求是指语料的数据量大于500条。

8.一种实现如权利要求1-7任一项所述方法的基于开放数据的语料库构建系统，其特征在于，包括：

9.根据权利要求8所述的一种基于开放数据的语料库构建系统，其特征在于，所述驱动语料库获取模块具体包括：

规则编写与完善单元，用于初始设置基于文本的规则；