CN107291708A

CN107291708A - 一种基于文本的自动识别文献研究的方法

Info

Publication number: CN107291708A
Application number: CN201610191091.0A
Authority: CN
Inventors: 贺惠新; 刘丽娟; 曹宇
Original assignee: " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Current assignee: " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-10-24

Abstract

本发明公开了一种基于文本的自动识别文献研究的方法，包括首先基于CRF模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分预测标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模型，而此模型即可用于对科技文献的研究对象进行抽取，步骤一，获取科技文献标题，并做初次标注，步骤二，对数据进行标准化处理，步骤三，模型特征化提取，步骤四，训练数据，步骤五，提取部分未标注数据，并进行标记，步骤六，对模型准确率评估，在机器学习模型中优化的引入人工评定，可有效提高学习模型的改进效果的同时，能够尽量节省人工标注的成本。

Description

一种基于文本的自动识别文献研究的方法

技术领域

本发明涉及人工智能技术领域，具体为一种基于文本的自动识别文献研究的方法。

背景技术

科学论文是由作者通过书面撰写，总结提炼研究工作的展现形式，科学论文一般包括不同的研究元素，如研究背景、研究对象、研究过程、研究方法、研究结论等，其中研究对象是指论文主要研究目标的核心主体，能高效清晰定位出对应文章的关注面，包括客观事物、理论、事件、过程、关系等属性实例，研究对象的提取能够将论文的主要研究目标以直观的形式展现出来，有助于研究者快速掌握这一对象的相关信息，方便的检索和对比相关研究内容，已有的处理方法有很多，其中有基于规则的方法，此方法取得了一定的效果，但由于自然语言句式的多样性，导致该方法并不能覆盖研究对象提取中的所有规则，遗漏太多，且不能实时更新，灵活性差，而采用统计学习方法的提取过程常常引入不确定因素，导入查全率高而准确率低，因而，单纯的规则或者统计的实用性都很有限。

发明内容

本发明的目的在于提供一种基于文本的自动识别文献研究的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于文本的自动识别文献研究的方法，包括首先基于CRF模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模块，而此模型即可用于对科技文献的研究对象进行抽取，具体为以下步骤：

步骤一：获取科技文献标题，并做初次标注

获取大量的科技文献的标题集合S，提取出少量科技文献的标题S1(S₁的总量大于2000)并由人工在这些标题上做标注，标出对应的标题中提及的研究对象，标出后数据记为SD1，提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注，标出对应的标题中提及的研究对象，标出后数据记为SD2，S中去除S1数据和S2数据后，剩下的部分记为S3；

步骤二：对数据进行标准化处理

由于科技文献本身涉及的对象复杂，研究对象中存在英文字母数字符号等，需要对句子进行预处理去掉这些东西，此处即根据正则表达式对原始文本进行标准化清洗，此步骤对S涉及的所有标题都进行标准化，而SD1标准化后记为SP1，SD2标准化后记为SP2，S3标准化后记为SP3；

步骤三：模型特征化提取

对数据SP1、SP2和SP3进行特征化，提取为可供模型直接使用的样本输入，对应的特征化后，SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc；

步骤四：训练数据

对数据Fa用CRF模型在标注后的数据进行训练，得到训练好的模型M0，运用模型M0对数据Fb进行准确率测试，得到模型准确率P0；

步骤五：提取部分未标注数据，并进行标记

运用模型M0对数据Fc进行自动标注，各样本的各个字符对应有被分为不同类别标签的概率值，记E＝标签的概率最大值-次大值其中从中选取对应不同E范围的样本，随机选择一部分交给人工进行标注，将标注后的得到的数据记为D0，进而做标准化和特征化，得到FD0；

步骤六：对模型准确率评估

将FD0加入Fa中得到Fa1，在Fa1上重新建模，得到模型M1，并再次Fb中进行准确率测试，准确率为P1；

步骤七：判断R值是否最优

观察两次准确率之差值ΔP＝P1-P0，ΔP>0则该E区间数据否对模型有效，为了节省人工标注成本，须尽可能的减少人工标注的成本，即筛选出进行人工标注的数据量N应尽可能的少，引入如下判别公式：R＝arg max_E(△P_/N),其中，E＝标签的概率最大值-次大值，△P＝P2-P1＝f(E)表示前后两次模型准

确率的差值，N＝g(E)为添加的人工标记的数据的数量；

步骤八：分析数据量增加方法

重复步骤五、步骤六和步骤七过程；

步骤九：迭代标引，生成最终模型

(1)将当前所有已标好结果的数据作为训练数据，生成训练模型，(2)用当前的训练模型对不带标号的数据进行预测，(3)从中选出判定结果符合Ebest值的数据，随机抽取少量让人工标注，(4)将此时增加的人工标注后的数据加入已有的标注中，(5)重复此(1)到(4)的迭代过程，人为设定迭代次数，将最终得到的所有标注后的数据作为训练数据，生成最终训练模型，此模型即可用以对未知数据进行标注，对一篇新的科技文献，先获取此文献的标题，并将此标题做标准化，提取特征后置入最终模型中，即可得到对应输出，即可评判得到此文献的研究对象。

优选的，在步骤五中，不断调整的大小，通常是以相同间隔递增的数列，如0.1，0.2，0.3，0.4，...，1，越大，筛选的数据越多，计算每次在原来数据基础上加入重新人工标注的新数据a_i重新建模，计算前后两次准确率差值△P＝Pi-P(i-1)，最后计算对应的R值，不断循环迭代，寻找最优R值，当△E越大，N越小时，越能添加尽量少的数据，得到最好的实验效果，即当R值越大时，这时的E是最优解Ebest，则在E∈[0,Ebest]时，能添加最少的数据(节省人工标注成本)，得到最好的实验效果。

与现有技术相比，本发明的有益效果是：该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据，在机器学习模型中优化的引入人工评定，可有效提高学习模型的改进效果的同时，能够尽量节省人工标注的成本，而最终得到的模型可直接用于实际工程实践，结合人的分析智能和统计学习的计算能力，在最小人工的劳动量的补充要求下，产生的模型可有效的提高研究对象的标引能力，最终模型可直接用以对未知数据进行预测，实用性强，方法简单。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不限于此。

实施例

一种基于文本的自动识别文献研究对象的方法，包括首先基于CRF模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模块，而此模型即可用于对科技文献的研究对象进行抽取，具体为以下步骤：

步骤一：获取科技文献标题，并做初次标注

步骤二：对数据进行标准化处理

步骤三：模型特征化提取

步骤四：训练数据

步骤五：提取部分未标注数据，并进行标记

运用模型M0对数据Fc进行自动标注，各样本的各个字符对应有被分为不同类别标签的概率值，记E＝标签的概率最大值-次大值其中从中选取对应不同E范围的样本，随机选择一部分交给人工进行标注，将标注后的得到的数据记为D0，进而做标准化和特征化，得到FD0，不断调整的大小，通常是以相同间隔递增的数列，如0.1，0.2，0.3，0.4，...，1，越大，筛选的数据越多，计算每次在原来数据基础上加入重新人工标注的新数据a_i重新建模，计算前后两次准确率差值△P＝Pi-P(i-1)，最后计算对应的R值，不断循环迭代，寻找最优R值，当△E越大，N越小时，越能添加尽量少的数据，得到最好的实验效果，即当R值越大时，这时的E是最优解Ebest，则在E∈[0,Ebest]时，能添加最少的数据(节省人工标注成本)，得到最好的实验效果；

步骤六：对模型准确率评估

步骤七：判断R值是否最优

确率的差值，N＝g(E)为添加的人工标记的数据的数量；

步骤八：分析数据量增加方法

重复步骤五、步骤六和步骤七过程；

步骤九：迭代标引，生成最终模型

(1)将当前所有已标好结果的数据作为训练数据，生成训练模型，(2)用当前的训练模型对不带标号的数据进行预测，(3)从中选出判定结果符合Ebest值的数据，随机抽取少量让人工标注，(4)将此时增加的人工标注后的数据加入已有的标注中，(5)重复此(1)到(4)的迭代过程，人为设定迭代次数，将最终得到的所有标注后的数据作为训练数据，生成最终训练模型，此模型即可用以对未知数据进行标注，对一篇新的科技文献，先获取此文献的标题，并将此标题做标准化，提取特征后置入最终模型中，即可得到对应输出，即可评判得到此文献的研究对象，该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据，在机器学习模型中优化的引入人工评定，可有效提高学习模型的改进效果的同时，能够尽量节省人工标注的成本，而最终得到的模型可直接用于实际工程实践，结合人的分析智能和统计学习的计算能力，在最小人工的劳动量的补充要求下，产生的模型可有效的提高研究对象的标引能力，最终模型可直接用以对未知数据进行预测，实用性强，方法简单。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于文本的自动识别文献研究的方法，其特征在于：包括首先基于CRF模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模型，而此模型即可用于对科技文献的研究对象进行抽取，具体为一下步骤：

步骤一：获取科技文献标题，并做初次标注

步骤二：对数据进行标准化处理

步骤三：模型特征化提取

步骤四：训练数据

步骤五：提取部分未标注数据，并进行标记

运用模型M0对数据Fc进行自动标注，各样本的各个字符对应有被分为不同类别标签的概率值，记其中从中选取对应不同E范围的样本，随机选择一部分交给人工进行标注，将标注后的得到的数据记为D0，进而做标准化和特征化，得到FD0；

步骤六：对模型准确率评估

步骤七：判断R值是否最优

观察两次准确率之差值ΔP＝P1-P0，ΔP>0则该E区间数据否对模型有效，为了节省人工标注成本，须尽可能的减少人工标注的成本，即筛选出进行人工标注的数据量N应尽可能的少，引入如下判别公式：R＝arg max*△P/N,其中，E＝标签的概率最大值-次大值，△P＝P2-P1(fE)表示前后两次模型准确率的差值，N＝g(E)为添加的人工标记的数据的数量,E为参数大小；

步骤八：分析数据量增加方法

重复步骤五、步骤六和步骤七过程；

步骤九：迭代标引，生成最终模型

2.根据权利要求1所述的一种基于文本的自动识别文献研究结论的方法，其特征在于：在步骤五中，不断调整的大小，通常是以相同间隔递增的数列，如0.1，0.2，0.3，0.4，...，1，越大，筛选的数据越多，计算每次在原来数据基础上加入重新人工标注的新数据α_i重新建模，计算前后两次准确率差值△P＝Pi-P(i-1)，最后计算对应的R值，不断循环迭代，寻找最优R值，当△E越大，N越小时，越能添加尽量少的数据，得到最好的实验效果，即当R值越大时，这时的E是最优解Ebest，则在E∈[0,Ebest]时，能添加最少的数据(节省人工标注成本)，得到最好的实验效果。