CN108153895A - 一种基于开放数据的语料库构建方法和系统 - Google Patents

一种基于开放数据的语料库构建方法和系统 Download PDF

Info

Publication number
CN108153895A
CN108153895A CN201810012673.7A CN201810012673A CN108153895A CN 108153895 A CN108153895 A CN 108153895A CN 201810012673 A CN201810012673 A CN 201810012673A CN 108153895 A CN108153895 A CN 108153895A
Authority
CN
China
Prior art keywords
corpus
rule
language material
building
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810012673.7A
Other languages
English (en)
Inventor
付婷
蔡力军
苏运东
蔡宇翔
孙浩淞
王雪晶
伊春凤
苏江文
王秋琳
刘心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Fujian Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Fujian Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Fujian Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810012673.7A priority Critical patent/CN108153895A/zh
Publication of CN108153895A publication Critical patent/CN108153895A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本发明涉及一种基于开放数据的语料库构建方法和系统,该方法包括:S1:由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库;S2:基于步骤S1得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足语料库构建在数量上的要求。与现有技术相比,本发明能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量,并可以用于不同语料库的构建过程中,有效降低了特定领域语料库的构建成本。

Description

一种基于开放数据的语料库构建方法和系统
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种基于开放数据的语料库构建方法和系统。
背景技术
(1)语料库
随着大数据技术的兴起,利用基于统计学原理的机器学习技术对海量数据进行分析和挖掘,逐渐成为数据分析的主流,并在互联网、营销、客户管理等诸多商业和生长领域得到广泛应用。机器学习技术能够通过对海量数据开展模式分析,发现其中蕴藏的潜在规律、模式和信息,从而给出预测。由于其基于统计学的特点,要成功实现大规模的数据分析和挖掘,必不可少的两大基础是模式分析算法和语料库。现阶段,随着机器学习的相关算法日趋成熟,面向特定领域的语料库越来越成为提升数据分析挖掘质量的主要障碍。
语料库是指以电子计算机作为载体的、大量在实际应用中产生的文本数据,经过特定加工后(包括格式整理和标记等),形成规范的、能够用于研究和应用用途的数据集。目前如国内北京大学、中科院以及互联网公司发布的公益性质的、用于研究用途的语料库,如搜狗公司公开的“全网新闻数据”( http://www.sogou.com/labs/resource/ca.php),收集整理了“2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据”,可以用于“新闻自动分类”的机器学习应用的构建。然而,目前公共的分类语料库都是面向公共领域的,或者是新闻分类这种主要用于研究用途的分类语料,面向特定行业、特定用途的语料库,都需要专门去构建,需要投入大量的人力资源。
语料库有多种分类。按照素材的媒体类型可以分为图像语料库、语音语料库和文本语料库;按照用途,有翻译语料库,分类语料库,等。本专利主要面向文本语料库,即以文本数据(无结构的纯文本)为主体的各类语料库。
(2)基于开放数据构建语料库
开放文本数据,是指没有版权限制的、可以自由访问的文本数据,主要包括各类互联网网页,以及公开发表的科技资源(专利、论文、标准,等)。开放文本数据中包含大量的信息,是构建特定领域语料库的主要来源。
以构建面向特点企业的“正负面舆情”语料库为例。“正负面舆情”语料库是一个二分类文本语料库,包含了两种类别的语料,分别是针对该企业的典型正面、负面两种互联网言论,可能来自于微博、新闻门户、个人博客等站点的网页信息;“正负面舆情”语料库可用于构建机器学习分类模型,用于构建自动化判断一篇文章是否为“负面舆情”的模型。基于开放数据构建“正负面舆情”语料库的主要过程如图1所示:
步骤1:采集特定网站的所有网页,或者在搜索引擎中通过特定关键词组合执行搜索,获取原始语料信息。而后,对信息进行必要的清洗,去除标题、正文以外的其它干扰信息,以纯文本形式保存,作为备选语料。
步骤2:将采集并清洗的原始语料信息保存到数据库,直到积累到足够的量。
步骤3:按照语料库构建要求,从原始语料中进一步筛选出符合规格的文本,构成最终语料库。在“正负面舆情”场景中,语料库的内容就是典型、有代表性的一系列“正面”文章和“负面”文章。
在构成特定用途的语料库的过程中,耗时最长、投入最大的主要在以上的第3步骤,即从原始语料中筛选出符合语料库规格、质量要求的语料。此步骤也是语料库构建方法的着眼点。
(3)现有技术方案分析
基于开放知识构建文本语料库,目前主要有两类方法:
方案一:基于文本的规则判断方法
基于文本的规则判断方法,是指通过判断目标文本中是否包含或不包含特定的字、词及其组合,来确定文本是否满足语料标准要求。这些规则可以很方便地用各种编程语言实现;规则通常和“业务逻辑”一一对应,构建一个语料库需要编写大量规则,以期望尽可能全面覆盖,所以,通常而言,规则是由业务专家或懂业务的数据分析师编写。图2为面向X公司的负面语料库构建过程及主要原理。
方案一的优点是:门槛较低,且支持持续优化改进。只需要编写更多的正确规则,就可以改进筛选效果,获得更多语料
方案一的主要缺点是:
1)需要专家人员全程投入。面向特定领域的语料通常很难指定精确的规则(比如:包含某某关键词就是所需要的负面语料),需要业务专家方可最终判断该语料是否满足,而实际工作开展过程中,业务专家是稀缺资源。
2)工程化难度较大,工作质量难以得到保证。完全依靠人工或僵化的规则,可能存在疏漏,导致语料漏发现、误发现,进而影响语料库的整体质量。
方案二:基于机器学习模型判断
采用机器学习技术,利用机器学习的分类算法,如SVM算法、朴素贝叶斯算法、随机森林算法等,构建分类模型,将符合要求的语料识别、筛选出,完成语料筛选与构建过程。其主要原理如图3所示。
如图3所示,由于机器学习基于统计学原理,其本质是对事先提供的正、负面语料进行分别“学习”,并利用算法提取出不同分类的“同性特征”,训练到一定程度后(判断结果逐渐“收敛”),即可以作用于新的语料(图中的“采集的原始数据”),判断语料中的文章的正、负面属性,从而完成正负面舆情语料库的构建。
其主要优点是:不需要全程由业务专家参与,仅需要业务专家提供一定量的“启动”语料,用于训练分类模型。
其主要缺点是:需要实现提供“启动”语料,即用于训练分类模型的语料。由于机器学习分类模型的效果和“启动”语料的数量是正相关的,“启动”语料越多,意味着对该分类的“特征”覆盖的越完整,后续执行分类的准确性也越好;然而,在现实中,由于满足需求的语料数量占比很小,这导致要搜集到足够的、可以驱动“机器学习分类模型”的“启动”语料数量难度过大、耗时过长。以负面舆情为例,其总数本来就少(负面舆情在所有原始语料中的占比可能低于1%),完全以人工判断构建“启动”语料也是一项投入很大的工作。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于开放数据的语料库构建方法和系统,基于开放的文本数据构建面向特定行业语料库,能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量,并可以用于不同语料库的构建过程中,有效降低了特定领域语料库的构建成本。
本发明的目的可以通过以下技术方案来实现:
一种基于开放数据的语料库构建方法,包括以下步骤:
S1:由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库;
S2:基于步骤S1得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足面向特定领域的语料库构建在数量上的要求。
所述步骤S1具体为:
101:初始设置基于文本的规则;
102:对原始数据库的语料执行步骤101设置的规则,预测得到初始预测结果;
103:对步骤102预测出的初始预测结果进行分析及规则冲突处理,获取规则按照预测正确率从高到低进行排序的有序规则栈;
104:利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库,所述驱动语料库包括语料以及对应的预测结果。
所述步骤103具体为:
1)针对每条规则对步骤102预测出的初始预测结果进行分析,得到每条规则的预测正确率,满足以下公式:
预测正确率 = 预测正确的结果数 / 预测总数;
2)移除预测正确率低于预设的移除阈值的规则;
3)将规则按照预测正确率从高到低进行排序,得到有序规则栈。
所述移除阈值的取值范围为75%-82%。
所述步骤3)之后还包括以下步骤:
4)利用有序规则栈重新对原始数据库的语料有序地进行匹配预测,若任一条规则给出预测结果,则将该预测结果作为该语料的最终预测结果;
5)判断有序规则栈的整体预测正确率是否达到预设的校验阈值,且语料的数据量满足足够驱动分类模型的要求,若是,则执行步骤104,若否,则返回步骤101,修订错误的规则,或者新增规则。
所述校验阈值的取值范围为85%-92%。
所述语料的数据量满足足够驱动分类模型的要求是指语料的数据量大于500条。
一种实现上述方法的基于开放数据的语料库构建系统,包括:
数据管理模块,用于导入、筛选原始数据,得到原始数据库;
模型管理模块,用于获取驱动语料库,并基于驱动语料库利用机器学习分类算法得到面向特定领域的语料库,具体包括:
驱动语料库获取模块,用于由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库;
面向特定领域的语料库获取模块,用于基于驱动语料库获取模块得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足面向特定领域的语料库构建在数量上的要求。
所述驱动语料库获取模块具体包括:
规则编写与完善单元,用于初始设置基于文本的规则;
规则执行单元,用于对原始数据库的语料执行规则编写与完善单元设置的规则,预测得到初始预测结果;
结果分析及规则冲突处理单元,用于对规则执行单元预测出的初始预测结果进行分析及规则冲突处理,获取规则按照预测正确率从高到低进行排序的有序规则栈;
驱动语料库构建单元,用于利用结果分析及规则冲突处理单元得到的有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库。
与现有技术相比,本发明具有以下优点:
1、本发明融合应用了规则、机器学习两种方法,提出一种不同于现有技术方案的、两阶段的基于开放数据构建特定领域语料库构建框架。首先,步骤S1投入少量的业务专家,基于文本规则判断的方法,构建小规模的驱动语料库,大幅度优化了现有“基于文本的规则判断方法”方法,将规则方法由一个散乱、随意的过程改造为严谨、工程化的操作过程,而后,步骤S2将基于规则判断方法的驱动语料库作为机器学习分类方法的“启动”语料,配合机器学习分类算法构建不需要人工干预、稳定的语料分类器,解决机器学习分类方法构建“启动”语料投入过大的问题,最后基于步骤S2的语料分类结果,完成面向特定领域语料库的构建。相对于现有技术方案,本发明提出的整体过程框架具有投入人员少、过程稳定质量可靠的优点。
2、步骤S1采用基于规则方法构建小规模语料库的方法。不同于现有技术方案,针对语料库的数据特点和规则方法技术特点,本发明在步骤103中提出一种解决冲突规则的策略。利用该策略,在确保高正确率规则可以得到优先执行的基础上,也能确保高覆盖率规则能够得到应用,避免了现有技术方案将高覆盖率规则移除而需要编写大量新增规则的问题,降低了人工投入,并确保质量能够满足驱动语料库的要求。
3、本发明方法能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量,并可以用于不同语料库的构建过程中,有效降低了特定领域语料库的构建成本。
附图说明
图1为传统基于开放数据的语料库构建过程(舆情语料库为例)的示意图;
图2为方案一的主要原理示意图;
图3为方案二的主要原理示意图;
图4为本发明基于开放数据构建特定领域语料库总体过程的示意图;
图5为冲突解决策略执行过程的示意图;
图6为基于开放数据构建特定领域语料库过程中第一阶段的主要步骤示意图;
图7为利用驱动语料库构建机器学习分类模型并形成语料库过程的示意图;
图8为本发明特定领域语料库构建系统逻辑架构的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
“从互联网中采集构建语料库的候选开放数据”是一个必要环节,但其可以用成熟的“爬虫”技术解决,所以该环节没有纳入到本发明范围,后续的发明过程描述均假设已经完成“采集的原始数据”的收集,采集的原始数据经筛选存储在原始数据库中。
如图4所示,一种基于开放数据的语料库构建方法融合应用了规则、机器学习两种方法,包括两个阶段:
第一阶段:基于规则方法,构建驱动语料库;具体为由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库。
本阶段主要基于文本规则判断方法,构建用于训练机器学习分类模型的驱动语料库。同时,提出一个完整的过程及支撑算法,规避现有基于规则方法过于依赖业务专家、质量难以保证的问题。如图6所示,具体包括以下几个步骤:
101:编写以及完善规则。
本步骤,需要结合业务需求及原始语料特点,编制基于文本(字、词)的规则。每条规则追求 “高准确、低覆盖”,即不要求每条规则都匹配到很多数据,但要求匹配到的都是符合业务需求的。编写的规则与现有技术方案一(基于文本的规则判断方法)描述的一致,不再展开。
和现有技术方案不同的是,本发明不要求编写大量的规则、并能够覆盖的所有要求符合要求的语料(无死角覆盖),而是编写少量规则,能够找到足够的、用于“驱动”机器学习分类模型的语料即可,这带来的优点是:“该阶段要求投入的业务专家相对于现有技术方案要少的多,降低了业务专家的投入成本”。这是因为:
1)需要编写的规则的数量降低。
2)编写规则变得更加容易。仅需要编写业务上“显而易见”的部分规则,不需要为了追求覆盖度编写比较复杂的规则。根据“二八原则”,工作量仅需现有技术方案的20%(80%的语料,用20%的基础规则就可以识别出)。
102:规则执行。
系统对原始数据库的语料执行步骤101设置的规则,预测并展示识别出的语料以及对应的初始预测结果。
103:结果分析及规则冲突处理。
对步骤102预测出的初始预测结果进行分析及规则冲突处理,获取规则按照预测正确率从高到低进行排序的有序规则栈。
语料标注人员查看步骤102的执行结果,并对每一条结果标注判断“正确”或“错误”信息,并且标注每条结果是由哪一条(或哪几条)规则筛选出来的。此时,需要对规则的冲突进行处理。
所谓冲突的规则,是指对于同一个语料(文章),不同规则的预测结果是不一样的。例如:
语料 规则X预测 规则Y预测 规则Z预测 人工(专家)标注 是否冲突
语料A 负面 负面 正面 负面 冲突
语料B 负面 正面 正面 正面 冲突
语料C 负面 负面 负面 负面 无冲突
针对冲突的规则,简单的处理方式是,直接移除其中判断错误的规则。然而,这样的处理方式将导致一个问题,那就是“宽泛”的规则都会被移除,保留的规则都是很“具体”的规则(这些规则预测的结果虽然都是正确的,但都仅能匹配很少量的语料),最终导致规则集能够筛选出的语料会变少。所以,本发明设计了如下的冲突规则处理策略,确保总体正确率的同时,提升规则的覆盖度,以减少第一阶段的总体投入时间。策略如下:
1)针对每条规则对步骤102预测出的初始预测结果进行分析,得到每条规则的预测正确率,满足以下公式:
预测正确率 = 预测正确的结果数 / 预测总数
例如,总体语料数是100,规则X对其中的30条语料给出预测结果,其中预测正确(和人工标记结果对照)是20,那么预测正确率 = 20 / 30 =66.7%。
2)移除预测正确率低于预设的移除阈值的规则,通常设定为80%,可根据实际情况灵活调整,校验阈值的取值范围为85%-92%。
3)将规则按照预测正确率从高到低进行排序,得到有序规则栈。
4)利用有序规则栈重新对原始数据库的语料有序地进行匹配预测,若任一条规则给出预测结果,则将该预测结果作为该语料的最终预测结果。
如图5所示,上述的策略,本质上是确保“高正确率”的规则可以得到优先匹配,“低正确率、高覆盖度”的规则对没有判断冲突的语料执行预测,确保规则集的总体覆盖度。在实践中,上述策略取得较好的平衡效果,达到预期。
5)判断有序规则栈的整体预测正确率是否达到预设的校验阈值,且语料的数据量满足足够驱动分类模型的要求(语料的数据量通常需要超过500条),若是,则执行步骤104,若否,则返回步骤101,修订错误的规则,或者新增规则。其中,移除阈值的取值范围为75%-82%,移除阈值通常取值为90%。
104:构建初始预测模型,基于初始预测模型构建驱动语料库。
利用前面三个步骤构建的有序规则栈,构建初始预测模型,利用初始预测模型对原始数据库(即所有原始收集的语料)进行预测,将相应预测结果的语料归集到语料库中,形成“驱动”机器学习分类算法的基本语料库,即驱动语料库,驱动语料库包括语料以及对应的预测结果。
第二阶段:基于机器学习分类模型,构建最终语料库。
基于第一阶段得到的驱动语料库,利用通用的机器学习分类算法(如SVM、随机森林等)构建语料分类模型,对所有采集的语料进行预测。该过程的基本流程比较简单,如图7所示。
不同于第一阶段,由于机器学习分类过程不需要人工干预,本阶段基本无需业务专家参与,仅需要工程师根据现有开源的机器学习分类算法库在驱动语料库的基础上自动构建分类即可;由于驱动语料库的数量、质量都能满足机器学习算法的要求,所以可以高质量的分类模型,并能对不断采集的新增互联网开放数据(即原始数据库)进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足面向特定领域的语料库构建在数量上的要求。
综上所述,本发明提出的两阶段方法,充分利用了现有各技术方案的优点并进行了有机整合,规避了其缺点,使得基于开放数据构建特定领域语料库过程的总体投入小、过程质量稳定可控;本发明提出的“特定领域语料库构建系统”为上述过程提供完整支撑,其逻辑架构图如图8所示。
一种实现上述方法的基于开放数据的语料库构建系统,分为三个层次:
1)界面层:为语料库构建的整体过程提供各类界面交互功能,包括:
数据管理模块:用于导入、筛选原始数据,得到原始数据库,并支持对原始数据进行简单的分类标记。
模型管理模块:用于获取驱动语料库,并基于驱动语料库利用机器学习分类算法得到面向特定领域的语料库,包括支持构建语料预测模型等子模块,具体功能包括规则编制、规则执行、结果查看、机器学习分类模型构建及回测,等。
模型管理模块具体包括:
驱动语料库获取模块,用于由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库。
面向特定领域的语料库获取模块,用于基于驱动语料库获取模块得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足面向特定领域的语料库构建在数量上的要求。
驱动语料库获取模块具体包括:
规则编写与完善单元,用于初始设置基于文本的规则;
规则执行单元,用于对原始数据库的语料执行规则编写与完善单元设置的规则,预测得到初始预测结果;
结果分析及规则冲突处理单元,用于对规则执行单元预测出的初始预测结果进行分析及规则冲突处理,获取规则按照预测正确率从高到低进行排序的有序规则栈;
驱动语料库构建单元,用于利用结果分析及规则冲突处理单元得到的有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库。
语料库管理模块:用于对中间的“驱动”语料、最终语料库进行管理和发布。
系统管理模块:提供用户权限、日志安全、监控配置等系统级相关功能。
2)服务层:为各界面应用模块提供相关技术服务支持,包括规则管理、机器学习框架(含特征选择及优化算法、各类数据分类聚类回归算法,以及模型发布的相关服务)、语料库管理。
3)基础设施:包括用于存储各类数据的基础设施,如用于规则判断及结果查看的全文检索引擎、用于存储原始文档的文档数据库,以及用于存储语料标记和规则数据的关系数据库。
在基于开放数据构建特定领域语料库领域,现有技术方案存在人力资源投入较大、工作效率较低、语料库质量得不到保证的问题。本发明提出的方法对现有的技术方案进行了整合,充分利用了现有各技术方案的优点并规避其缺点,形成完整的工作过程和框架,并对现有方案中的“基于文本的规则判断方法”进行了显著改进。现对于现有技术,本发明的方法能够大幅度减少了语料库构建过程中的人员投入,同时保证了结果质量。

Claims (9)

1.一种基于开放数据的语料库构建方法,其特征在于,包括以下步骤:
S1:由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库;
S2:基于步骤S1得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足面向特定领域的语料库构建在数量上的要求。
2.根据权利要求1所述的一种基于开放数据的语料库构建方法,其特征在于,所述步骤S1具体为:
101:初始设置基于文本的规则;
102:对原始数据库的语料执行步骤101设置的规则,预测得到初始预测结果;
103:对步骤102预测出的初始预测结果进行分析及规则冲突处理,获取规则按照预测正确率从高到低进行排序的有序规则栈;
104:利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库,所述驱动语料库包括语料以及对应的预测结果。
3.根据权利要求2所述的一种基于开放数据的语料库构建方法,其特征在于,所述步骤103具体为:
1)针对每条规则对步骤102预测出的初始预测结果进行分析,得到每条规则的预测正确率,满足以下公式:
预测正确率 = 预测正确的结果数 / 预测总数;
2)移除预测正确率低于预设的移除阈值的规则;
3)将规则按照预测正确率从高到低进行排序,得到有序规则栈。
4.根据权利要求3所述的一种基于开放数据的语料库构建方法,其特征在于,所述移除阈值的取值范围为75%-82%。
5.根据权利要求3所述的一种基于开放数据的语料库构建方法,其特征在于,所述步骤3)之后还包括以下步骤:
4)利用有序规则栈重新对原始数据库的语料有序地进行匹配预测,若任一条规则给出预测结果,则将该预测结果作为该语料的最终预测结果;
5)判断有序规则栈的整体预测正确率是否达到预设的校验阈值,且语料的数据量满足足够驱动分类模型的要求,若是,则执行步骤104,若否,则返回步骤101,修订错误的规则,或者新增规则。
6.根据权利要求5所述的一种基于开放数据的语料库构建方法,其特征在于,所述校验阈值的取值范围为85%-92%。
7.根据权利要求5所述的一种基于开放数据的语料库构建方法,其特征在于,所述语料的数据量满足足够驱动分类模型的要求是指语料的数据量大于500条。
8.一种实现如权利要求1-7任一项所述方法的基于开放数据的语料库构建系统,其特征在于,包括:
数据管理模块,用于导入、筛选原始数据,得到原始数据库;
模型管理模块,用于获取驱动语料库,并基于驱动语料库利用机器学习分类算法得到面向特定领域的语料库,具体包括:
驱动语料库获取模块,用于由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库;
面向特定领域的语料库获取模块,用于基于驱动语料库获取模块得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足面向特定领域的语料库构建在数量上的要求。
9.根据权利要求8所述的一种基于开放数据的语料库构建系统,其特征在于,所述驱动语料库获取模块具体包括:
规则编写与完善单元,用于初始设置基于文本的规则;
规则执行单元,用于对原始数据库的语料执行规则编写与完善单元设置的规则,预测得到初始预测结果;
结果分析及规则冲突处理单元,用于对规则执行单元预测出的初始预测结果进行分析及规则冲突处理,获取规则按照预测正确率从高到低进行排序的有序规则栈;
驱动语料库构建单元,用于利用结果分析及规则冲突处理单元得到的有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库。
CN201810012673.7A 2018-01-06 2018-01-06 一种基于开放数据的语料库构建方法和系统 Pending CN108153895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810012673.7A CN108153895A (zh) 2018-01-06 2018-01-06 一种基于开放数据的语料库构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810012673.7A CN108153895A (zh) 2018-01-06 2018-01-06 一种基于开放数据的语料库构建方法和系统

Publications (1)

Publication Number Publication Date
CN108153895A true CN108153895A (zh) 2018-06-12

Family

ID=62461033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810012673.7A Pending CN108153895A (zh) 2018-01-06 2018-01-06 一种基于开放数据的语料库构建方法和系统

Country Status (1)

Country Link
CN (1) CN108153895A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984519A (zh) * 2018-06-14 2018-12-11 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN110134799A (zh) * 2019-05-29 2019-08-16 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
CN110674263A (zh) * 2019-12-04 2020-01-10 广联达科技股份有限公司 一种模型构件文件自动分类的方法和装置
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111221965A (zh) * 2019-12-30 2020-06-02 成都信息工程大学 基于公共标识语双语语料的分类抽样检测方法
CN112347235A (zh) * 2020-11-05 2021-02-09 北京羽扇智信息科技有限公司 规则库生成方法及装置
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN113168416A (zh) * 2018-11-29 2021-07-23 皇家飞利浦有限公司 用于根据通用领域语料库来创建领域特异性训练语料库的方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104820724A (zh) * 2015-05-29 2015-08-05 蓝舰信息科技南京有限公司 文本类教育资源知识点预测模型获得方法及模型应用方法
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN105975977A (zh) * 2016-05-05 2016-09-28 中国石油大学(华东) 规则辅助的数据驱动建模方法
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104820724A (zh) * 2015-05-29 2015-08-05 蓝舰信息科技南京有限公司 文本类教育资源知识点预测模型获得方法及模型应用方法
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN105975977A (zh) * 2016-05-05 2016-09-28 中国石油大学(华东) 规则辅助的数据驱动建模方法
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石国强: "基于规则的组合分类器的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984519B (zh) * 2018-06-14 2022-07-05 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN108984519A (zh) * 2018-06-14 2018-12-11 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN113168416A (zh) * 2018-11-29 2021-07-23 皇家飞利浦有限公司 用于根据通用领域语料库来创建领域特异性训练语料库的方法和系统
CN110134799A (zh) * 2019-05-29 2019-08-16 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
CN110134799B (zh) * 2019-05-29 2022-03-01 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
CN110674263B (zh) * 2019-12-04 2022-02-08 广联达科技股份有限公司 一种模型构件文件自动分类的方法和装置
CN110674263A (zh) * 2019-12-04 2020-01-10 广联达科技股份有限公司 一种模型构件文件自动分类的方法和装置
CN111221965A (zh) * 2019-12-30 2020-06-02 成都信息工程大学 基于公共标识语双语语料的分类抽样检测方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN112347235A (zh) * 2020-11-05 2021-02-09 北京羽扇智信息科技有限公司 规则库生成方法及装置
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统

Similar Documents

Publication Publication Date Title
CN108153895A (zh) 一种基于开放数据的语料库构建方法和系统
CN106815263B (zh) 法律条文的搜索方法及装置
US7672915B2 (en) Method and system for labelling unlabeled data records in nodes of a self-organizing map for use in training a classifier for data classification in customer relationship management systems
CN109767255A (zh) 一种通过大数据建模实现智能运营及精准营销的方法
CA2598923C (en) Method and system for data classification using a self-organizing map
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109785064A (zh) 一种基于多源信息融合的移动电子商务推荐方法和系统
CN111831629B (zh) 一种数据处理方法及装置
Zhang et al. ImageSem at ImageCLEF 2018 caption task: Image retrieval and transfer learning
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
US20200210776A1 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
JP2022528273A (ja) 機械学習基盤のユーザーカスタマイズ型の特許文献自動分類方法、装置及びシステム
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
Klinger et al. Deep learning, deep change? Mapping the evolution and geography of a general purpose technology
Ullah et al. Programmers' de-anonymization using a hybrid approach of abstract syntax tree and deep learning
CN106503047A (zh) 一种基于卷积神经网络的图像爬虫优化方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
Di Martino et al. A machine learning based methodology for automatic annotation and anonymisation of privacy-related items in textual documents for justice domain
KR102116956B1 (ko) 이미지 기반 가짜 뉴스 검출 시스템
Scherger et al. A systematic overview of the prediction of business failure
CN110852082A (zh) 同义词的确定方法及装置
KR102343045B1 (ko) 작업 예측 및 관리 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
Katz et al. Data system design alters meaning in ecological data: salmon habitat restoration across the US Pacific Northwest
CN108830302A (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612