CN107153664A - 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 - Google Patents
一种基于组合特征加权的科技文献标注精简研究结论的方法流程 Download PDFInfo
- Publication number
- CN107153664A CN107153664A CN201610125685.1A CN201610125685A CN107153664A CN 107153664 A CN107153664 A CN 107153664A CN 201610125685 A CN201610125685 A CN 201610125685A CN 107153664 A CN107153664 A CN 107153664A
- Authority
- CN
- China
- Prior art keywords
- sentence
- words
- sens
- chi
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明新型公开了一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其包括分类抽取流程,既是基于训练语料,做数据前清洗,然后分句获得句子和类标签,句子特征选择进行特征化,然后训练分类器,评价分类器,对训练的分类器进行保存序列化,在应用阶段,获得应用文本,对其同样数据清洗,分句,然后特征化(应用阶段chi词特征是使用训练阶段的chi词),加载训练分类器对应用文本进行研究结论预测,之后对预测的结果句子人工审核,进行后数据清洗处理,然后将这些清洗规则加入到原有程序中,迭代实验,实际应用中更贴近问题的本质,从而有很高的发明效果。
Description
技术领域
本发明新型涉及基于组合特征加权的科技文献标注精简研究结论的方法流程技术领域,具体为一种基于组合特征加权的科技文献标注精简研究结论的方法流程。
背景技术
伴随着科学技术的飞速发展,文献在各个学科及各种生活、生产领域总均有广泛应用,且数量巨大,文献的精简的研究结论作为一种简明扼要的信息归结内容,亦广泛存在于文献的原始语句中,而从文献中抽取出这些句子实际上仍是基于人工阅读和标注,这就带来很大的劳动量,不适合海量的文献的信息提取,而目前研究中对文献研究结论提出的提取方法,多数基于文本分类的文章,有基于文本情感分析,文本相似度检测、基本利用规则抽、统计机器学习方法等进行文本处理科技术语,命名实体识别等,但对于期刊中文文本来讲,其规则复杂性太高,而单独基于统计机器学习的方法对中文内容识别其效果依赖于特征的选取,这给实际提取本发明基于期刊论文等资源,从内容碎片化角度上将文章碎片化为句子级别,以句子为单位来抽取每篇文章的研究结论,作为每篇文章的得到的实际结论。
发明新型内容
本发明新型的目的在于提供一种基于组合特征加权的科技文献标注精简研究结论的方法流程,以解决上述背景技术中提出的问题。
为实现上述目的,本发明新型提供如下技术方案:一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其包括分类抽取流程,既是基于训练语料,做数据前清洗,然后分句获得句子和类标签,句子特征选择进行特征化,然后训练分类器,评价分类器,对训练的分类器进行保存序列化,在应用阶段,获得应用文本,对其同样数据清洗,分句,然后特征化(应用阶段chi词特征是使用训练阶段的chi词),加载训练分类器对应用文本进行研究结论预测,之后对预测的结果句子人工审核,进行后数据清洗处理,然后将这些清洗规则加入到原有程序中,迭代实验,具体的步骤如下:
步骤一:前数据清洗模块
由于句子本身会有乱码公式表格英文字母数字等,需要对句子进行预处理去掉这些脏东西,在这里需要数据前清洗,阅读大量待处理的文本,总结出的文本前处理特点,结合其特点采用规则处理清洗;
步骤二:训练阶段模块
获取训练样本的全文文本,这些训练样本全部经过人工标注,即对全文字段中的全部内容(这里指的是正文的全部内容,不包括参考文献等),按照句子级别(句号)标出属于研究结论的句子,非研究结论的句子不予标注,一篇文章可以标注多个结论句子,经过程序处理获得全篇的句子(保持原文句子顺序)和对应的标签属于研究结论的句子对应的标签为正例1,不属于研究结论的句子对应标签为反例0,假如一篇被标注的文章有50句子,标记为研究结论的5句,其余45句是非研究结论,那么正例就是5句话,反例45句话,这样就获得了句子样本数据,假如有10篇标注的文章,那么按照文章的顺序,每篇文章分50个句子,那么就是500个句子,具体的,训练过程的算法为:
(1)获取样本
获取训练样本文句子记录为集合Sens={Sens(i)},对应的句子训练标签集合为Labels={Labels(i)},句子总数为N,各个句子表示为Sens(i),其中1=<i<=N,要求N尽可能大,N>=10000,Labels(i)的取值为1或0两种取值,其中1代表本句子是研究结论句,为正例表示,0代表本句子是非研究结论句子,为反例表示;
(2)对训练语料Sens(i)句子进行特征化表示,句子特征化这里使用了以下特征:人工标记的标识词特征1个、chi词频特征200个、句子所在文章级别的相关特征4个、句子级别的相关特征10个、词语级别的相关特征3个、句序特征1个、句序比特征1个、句子结论段特征4个,一共224个特征,可以表示为F={f1,f2,f3……fn},fi表示每个特征n为224,f0到f224一共224个特征,每个句子都要提取224个特征;
步骤三:选取分类器训练与评价模块
(31)样本类平衡处理,这里分类属于二分类问题,由于样本中正例(研究结论句子很少),反例(非研究结论句子很多)造成样本分布不均匀,对于这些不均匀样本直接采用分类的话会影响分类效果,所以需要进行样本类平衡处理,有三种办法可以处理:1增加少数类样本数量,2减少多数类样本数量,3增加少数类样本的权重比例。可以根据需要采用任何一种方法处理;
(32)训练分类器,使用常用的分类器DecisionTree、SVM、GaussianNB、RandomForest、GradientBoosting等分别对输入特征矩阵F和label训练,可以选用5折交叉验证,(80%数据训练,20%的数据来测试)来平均训练的分类器,某些情况下还要进行分类器的参数调优;
(33)评价分类器,评价参数主要是预测标签的准确率,召回率,F值,a:正例测试文档被正确分类为该类的数量,b:负例测试文档被错误分类为属于该类的数量,c:正例测试文档被错误分类为不属于该类的数量,d:负例测试文档被正确分类为不属于该类的数量,准确率precision=a/(a+b),召回率recall=a/(a=c),F=(2*precision*recall)/(precision+recall),选择F值较大的分类器作为生成的模型,如果效果不太理想,需要调整分类器参数,选择好分类器之后,将训练得到的这个分类器序列化到硬盘上保存起来,当需要应用测试的时候将其加载到内存即可进行应用预测;
步骤四:应用分类器预测研究结论标签模块
将待预测的rec文本全文字段的正文部分经过程序分句提取出对应的特征矩阵,{f0,f1......f223}这种形式,然后可以加载训练保存的分类器模型进行预测出对应的研究结论标签。
优选的,所述步骤二中,对训练语料Sens(i)句子进行特征化表示,其中各特征的提取细节步骤为:
第一步,人工标记的标识词特征1个,人工标识的短语句子集合记录为Tops={tops(i),},tops(i)为短语集合中的第i个短语,针对Sens中的Sens(i),看当前的Sens(i)能包含几个tops(i),记录特征为f0,表示为当前句子包含多少个Tops(i)f0=当期句子Sens(i)包含多少个Tops(i),
第二步,chi词频特征200个:对各个句子分词后的词语是否包含对应的chi词语(200个)建立chi词频特征,记录为f1,f2,,,,,f200,这里分两个步骤,步骤1为如何构建200个chi词语,步骤2为句子分词后的词语在对应的200个chi词语位置上是否出现,出现的话此位置特征为1,不出现特征为0,
第三步,句子所在文章的级别相关特征4个,这里主要有本文章的句子总个数,影响因子,页数,作者个数,关键字的个数,但是句子总个数需要分句程序来计算。特征记录为{f影响因子,f页数,f作者个数,f关键字个数},F201=当前句子Sens(i)所在文章的影响因子数,F202=当前句子Sens(i)所在文章的总页数是多少,F203=当前句子Sens(i)所在文章的作者个数,F204=当前句子Sens(i)所在文章的关键词个数是几个第四步,句子级别相关特征10个,句子相关特征主要有本句子长度,句子是否有引用别的句子(参考文献),句子中文字符个数,句子其他字符个数,逗号个数,分号个数,引用号个数,顿号个数,冒号个数,当前句子中文字数占句子所在文章的全部句子的中文字数比例,结论段句子中文字数占全文总句子中的中文词个数比例,F205=当前句子Sens(i)的长度,F206=当前句子Sens(i)是否引用别的文章,引用为1,否则为0,F207=当前句子Sens(i)的中文字符个数,F208=当前句子Sens(i)的非中文字符个数,F209=当前句子Sens(i)的逗号个数,F210=当前句子Sens(i)的分号个数,F211=当前句子Sens(i)的引用号个数,F212=当前句子Sens(i)的顿号个数,F213=当前句子Sens(i)的冒号个数,F214={(当前句子Sens(i)的中文字符个数,分母>0)/(当前句子Sens(i)所在文章全部句子中文字符个数,分母为0)},
第五步,词语级别相关特征3个,这里主要是句子分词后与标题词共同出现的词个数(去停用词),与文章定义的关键词共现的个数,句子分次后的词语与chi的200个词共现的个数f215=当前句子Sens(i)分词去停用词后与标题分词后二者共同出现词个数,f216=当前句子Sens(i)分词去停用词后与文章定义的关键词共同出现词个数,f217=当前句子Sens(i)分词去停用词后与chi200个词共同出现词个数,
第六步,句序特征1个,这里是指一个句子在本篇文章所有句子的句序,比如一篇文章有100句,当前第49句的句序就是49,特征记录为218=当前句子Sens(i)在所在问所有句子的句序,
第七步,句序比特征1个,这里是指一个句子在本篇文章所有句子的句序比例,比如一篇文章有100句,当前第49句的句序就是0.49,也就是百分之49,特征记录为f219={(当前句子Sens(i)的句序)/(当前句子Sens(i)所在文章的所有句子的总个数)},
第八步,结论段特征4个,结论段特征是基于某些算法或者规则得到一篇文章哪些句子开始的段落属于结论段。属于结论段的句子的开始句序到结尾都属于结论段。主要有:当前句子是否是处于结论段,是1,否0;当前句子结论段的处于结论段的据序号,初始结论段据序位0,后续依次加1;当前句子处于结论段是通过句子开头关键词匹配找到;当前句子处于结论段是通过句子中间关键词找到的,记录为f220=当前句子Sens(i)是否为与结论段,是1,否0,f221=当前句子Sens(i)在所在结论段序,结论段开始1,后续句子依次加1,f222=当前句子Sens(i)处于结论段是通过句子开头关键词找到,为1,否则为0,以上f0到f223就是224个句子特征化后的特征,每个句子也对应一个label特征,标记这个句子是否是研究结论句子,将训练语料中所有字符的特征化结果F={f1,f2,f3……fn}特征和对应的类别表示结果label作为输入数据,进行训练,得到训练后的研究结论提取模型M。
优选的,所述在第二步中,构建chi词语时,首先针对Sens中的所有句子进行分词,分词以后形成词集合,记录为words_all={words(j)},wrods(j)是words_all中的第j个词语,针对每个words(j)计算chi,包含words(j)同时属于正例的句子总数为A,包含words(j)同时属于反例的句子总数为B,不包含words(j)同时属于正例的句子总数为C,不包含words(j)同时属于反例的句子总数为D,正例句子总数为A+B,反例句子总数为B+D,包含word(j)句子总数为A+B,不包含words(j)的句子总数为C+D,chi=(N(AD-BC)*(AD-BC))/{(A+B)(C+D)(A+C)(D+B)}其中N=A+B+C+D为样本容量,一般我们不关心具体数值,只关心大小顺序,可简化计算chi=chi(words(j),正例)=(N(AD-BC)*(AD-BC))/{(A+B)(C+D)},这样就获得所有句子分词后的词集合为words_all={words(j)},每个words(j)对应一个chi值,记录为词典dict_words_all={words(j);chi(j)},,words(j)为words_all集合中的第j个词语,它对应的chi值记录为chi(j),保存各个词语及其它的chi值,选择chi大的前200个words(j)作为特征词记录集合为chi200={feat_chi_words(j)},其中1=<j<=200,最后chi词频特征化200个chi词排成200列,当前句子Sens(i)的分词结果集合记录为words_sens_currents,每个属于chi200的词为feat_chi_words(j),如果feat_chi_words(j)出现在words_sens_cuurets中,则当前feat_chi_words(j)处的特征记录为1,否则为0,fj=1或者0,如果当前句子分词出现chi(j)词语,为1否则0,其中j范围1到200。
与现有技术相比,本发明新型的有益效果是:本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法、研究结论等元数据,结合规则和机器学习方法二者并用,建立了基于文章、段落、句子、词、位置等特征,采用分类和规则结合方法、主要从句子级别提取一篇文章的结论问题,另外还在一次分类的基础上研究试验了二次分类,在一次分类评判的结果语料上,进行再次建模分类实验测试,在实际应用中更贴近问题的本质,从而有很高的发明效果。
附图说明
图1为本发明新型的方法流程图。
具体实施方式
下面将结合本发明新型实施例中的附图,对本发明新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明新型一部分实施例,而不是全部的实施例。基于本发明新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明新型保护的范围。
实施例一
一种基于组合特征加权的科技文献标注精简研究结论的方法流程,包括分类抽取流程,既是基于训练语料,做数据前清洗,然后分句获得句子和类标签,句子特征选择进行特征化,然后训练分类器,评价分类器,对训练的分类器进行保存序列化,在应用阶段,获得应用文本,对其同样数据清洗,分句,然后特征化(应用阶段chi词特征是使用训练阶段的chi词),加载训练分类器对应用文本进行研究结论预测,之后对预测的结果句子人工审核,进行后数据清洗处理,然后将这些清洗规则加入到原有程序中,迭代实验,具体的步骤如下:
步骤一:前数据清洗模块
由于句子本身会有乱码公式表格英文字母数字等,需要对句子进行预处理去掉这些脏东西,在这里需要数据前清洗,阅读大量待处理的文本,总结出的文本前处理特点,结合其特点采用规则处理清洗;
步骤二:训练阶段模块
获取训练样本的全文文本,这些训练样本全部经过人工标注,即对全文字段中的全部内容(这里指的是正文的全部内容,不包括参考文献等),按照句子级别(句号)标出属于研究结论的句子,非研究结论的句子不予标注,一篇文章可以标注多个结论句子,标注形式可以如使用xml标注,<研究结论>这标签中间是属于研究结论句子</研究结论>经过程序处理获得全篇的句子(保持原文句子顺序)和对应的标签属于研究结论的句子对应的标签为正例1,不属于研究结论的句子对应标签为反例0,假如一篇被标注的文章有50句子,标记为研究结论的5句,其余45句是非研究结论,那么正例就是5句话,反例45句话,这样就获得了句子样本数据,假如有10篇标注的文章,那么按照文章的顺序,每篇文章分50个句子,那么就是500个句子,具体的,训练过程的算法为:
(1)获取样本
获取训练样本文句子记录为集合Sens={Sens(i)},对应的句子训练标签集合为Labels={Labels(i)},句子总数为N,各个句子表示为Sens(i),其中1=<i<=N,要求N尽可能大,N>=10000,Labels(i)的取值为1或0两种取值,其中1代表本句子是研究结论句,为正例表示,0代表本句子是非研究结论句子,为反例表示;
(2)对训练语料Sens(i)句子进行特征化表示,句子特征化这里使用了以下特征:人工标记的标识词特征1个、chi词频特征200个、句子所在文章级别的相关特征4个、句子级别的相关特征10个、词语级别的相关特征3个、句序特征1个、句序比特征1个、句子结论段特征4个,一共224个特征,可以表示为F={f1,f2,f3……fn},fi表示每个特征n为224,f0到f224一共224个特征,每个句子都要提取224个特征,步骤二中,对训练语料Sens(i)句子进行特征化表示,其中各特征的提取细节步骤为:
第一步,人工标记的标识词特征1个,人工标识的短语句子集合记录为Tops={tops(i),},tops(i)为短语集合中的第i个短语,针对Sens中的Sens(i),看当前的Sens(i)能包含几个tops(i),记录特征为f0,表示为当前句子包含多少个Tops(i)f0=当期句子Sens(i)包含多少个Tops(i),
第二步,chi词频特征200个对各个句子分词后的词语是否包含对应的chi词语(200个)建立chi词频特征,记录为f1,f2,,,,,f200,这里分两个步骤,步骤1为如何构建200个chi词语,步骤2为句子分词后的词语在对应的200个chi词语位置上是否出现,出现的话此位置特征为1,不出现特征为0,所述在第二步中,构建chi词语时,首先针对Sens中的所有句子进行分词,分词以后形成词集合,记录为words_all={words(j)},wrods(j)是words_all中的第j个词语,针对每个words(j)计算chi,包含words(j)同时属于正例的句子总数为A,包含words(j)同时属于反例的句子总数为B,不包含words(j)同时属于正例的句子总数为C,不包含words(j)同时属于反例的句子总数为D,正例句子总数为A+B,反例句子总数为B+D,包含word(j)句子总数为A+B,不包含words(j)的句子总数为C+D,chi=(N(AD-BC)*(AD-BC))/{(A+B)(C+D)(A+C)(D+B)}其中N=A+B+C+D为样本容量,一般我们不关心具体数值,只关心大小顺序,可简化计算chi=chi(words(j),正例)=(N(AD-BC)*(AD-BC))/{(A+B)(C+D)},这样就获得所有句子分词后的词集合为words_all={words(j)},每个words(j)对应一个chi值,记录为词典dict_words_all={words(j);chi(j)},,words(j)为words_all集合中的第j个词语,它对应的chi值记录为chi(j),保存各个词语及其它的chi值,选择chi大的前200个words(j)作为特征词记录集合为chi200={feat_chi_words(j)},其中1=<j<=200,最后chi词频特征化200个chi词排成200列,当前句子Sens(i)的分词结果集合记录为words_sens_currents,每个属于chi200的词为feat_chi_words(j),如果feat_chi_words(j)出现在words_sens_cuurets中,则当前feat_chi_words(j)处的特征记录为1,否则为0,fj=1或者0,如果当前句子分词出现chi(j)词语,为1否则0,其中j范围1到200,
第三步,句子所在文章的级别相关特征4个,这里主要有本文章的句子总个数,影响因子,页数,作者个数,关键字的个数,但是句子总个数需要分句程序来计算。特征记录为{f影响因子,f页数,f作者个数,f关键字个数},F201=当前句子Sens(i)所在文章的影响因子数,F202=当前句子Sens(i)所在文章的总页数是多少,F203=当前句子Sens(i)所在文章的作者个数,F204=当前句子Sens(i)所在文章的关键词个数是几个,
第四步,句子级别相关特征10个,句子相关特征主要有本句子长度,句子是否有引用别的句子(参考文献),句子中文字符个数,句子其他字符个数,逗号个数,分号个数,引用号个数,顿号个数,冒号个数,当前句子中文字数占句子所在文章的全部句子的中文字数比例,结论段句子中文字数占全文总句子中的中文词个数比例,F205=当前句子Sens(i)的长度,F206=当前句子Sens(i)是否引用别的文章,引用为1,否则为0,F207=当前句子Sens(i)的中文字符个数,F208=当前句子Sens(i)的非中文字符个数,F209=当前句子Sens(i)的逗号个数,F210=当前句子Sens(i)的分号个数,F211=当前句子Sens(i)的引用号个数,F212=当前句子Sens(i)的顿号个数,F213=当前句子Sens(i)的冒号个数,F214={(当前句子Sens(i)的中文字符个数,分母>0)/(当前句子Sens(i)所在文章全部句子中文字符个数,分母为0)},
第五步,词语级别相关特征3个,这里主要是句子分词后与标题词共同出现的词个数(去停用词),与文章定义的关键词共现的个数,句子分次后的词语与chi的200个词共现的个数f215=当前句子Sens(i)分词去停用词后与标题分词后二者共同出现词个数,f216=当前句子Sens(i)分词去停用词后与文章定义的关键词共同出现词个数,f217=当前句子Sens(i)分词去停用词后与chi200个词共同出现词个数,
第六步,句序特征1个,这里是指一个句子在本篇文章所有句子的句序,比如一篇文章有100句,当前第49句的句序就是49,特征记录为218=当前句子Sens(i)在所在问所有句子的句序,
第七步,句序比特征1个,这里是指一个句子在本篇文章所有句子的句序比例,比如一篇文章有100句,当前第49句的句序就是0.49,也就是百分之49,特征记录为f219={(当前句子Sens(i)的句序)/(当前句子Sens(i)所在文章的所有句子的总个数)},
第八步,结论段特征4个,结论段特征是基于某些算法或者规则得到一篇文章哪些句子开始的段落属于结论段。属于结论段的句子的开始句序到结尾都属于结论段。主要有:当前句子是否是处于结论段,是1,否0;当前句子结论段的处于结论段的据序号,初始结论段据序位0,后续依次加1;当前句子处于结论段是通过句子开头关键词匹配找到;当前句子处于结论段是通过句子中间关键词找到的,记录为f220=当前句子Sens(i)是否为与结论段,是1,否0,f221=当前句子Sens(i)在所在结论段序,结论段开始1,后续句子依次加1,f222=当前句子Sens(i)处于结论段是通过句子开头关键词找到,为1,否则为0,以上f0到f223就是224个句子特征化后的特征,每个句子也对应一个label特征,标记这个句子是否是研究结论句子,将训练语料中所有字符的特征化结果F={f1,f2,f3……fn}特征和对应的类别表示结果label作为输入数据,进行训练,得到训练后的研究结论提取模型M;
步骤三:选取分类器训练与评价模块
(31)样本类平衡处理,这里分类属于二分类问题,由于样本中正例(研究结论句子很少),反例(非研究结论句子很多)造成样本分布不均匀,对于这些不均匀样本直接采用分类的话会影响分类效果,所以需要进行样本类平衡处理,有三种办法可以处理:1增加少数类样本数量,2减少多数类样本数量,3增加少数类样本的权重比例。可以根据需要采用任何一种方法处理;
(32)训练分类器,使用常用的分类器DecisionTree、SVM、GaussianNB、RandomForest、GradientBoosting等分别对输入特征矩阵F和label训练,可以选用5折交叉验证,(80%数据训练,20%的数据来测试)来平均训练的分类器,某些情况下还要进行分类器的参数调优;
(33)评价分类器,评价参数主要是预测标签的准确率,召回率,F值,a:正例测试文档被正确分类为该类的数量,b:负例测试文档被错误分类为属于该类的数量,c:正例测试文档被错误分类为不属于该类的数量,d:负例测试文档被正确分类为不属于该类的数量,准确率precision=a/(a+b),召回率recall=a/(a=c),F=(2*precision*recall)/(precision+recall),选择F值较大的分类器作为生成的模型,如果效果不太理想,需要调整分类器参数,选择好分类器之后,将训练得到的这个分类器序列化到硬盘上保存起来,当需要应用测试的时候将其加载到内存即可进行应用预测;
步骤四:应用分类器预测研究结论标签模块
将待预测的文本全文字段的正文部分经过程序分句提取出对应的特征矩阵,{f0,f1......f223}这种形式,然后可以加载训练保存的分类器模型进行预测出对应的研究结论标签。
尽管已经示出和描述了本发明新型的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明新型的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明新型的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其特征在于:包括分类抽取流程,既是基于训练语料,做数据前清洗,然后分句获得句子和类标签,句子特征选择进行特征化,然后训练分类器,评价分类器,对训练的分类器进行保存序列化,在应用阶段,获得应用文本,对其同样数据清洗,分句,然后特征化(应用阶段chi词特征是使用训练阶段的chi词),加载训练分类器对应用文本进行研究结论预测,之后对预测的结果句子人工审核,进行后数据清洗处理,然后将这些清洗规则加入到原有程序中,迭代实验,具体的步骤如下:
步骤一:前数据清洗模块
由于句子本身会有乱码公式表格英文字母数字等,需要对句子进行预处理去掉这些脏东西,在这里需要数据前清洗,阅读大量待处理的文本,总结出的文本前处理特点,结合其特点采用规则处理清洗;
步骤二:训练阶段模块
获取训练样本全文文本,这些训练样本全部经过人工标注,即对全文字段中的全部内容(这里指的是正文的全部内容,不包括参考文献等),按照句子级别(句号)标出属于研究结论的句子,非研究结论的句子不予标注,一篇文章可以标注多个结论句子,经过程序处理获得全篇的句子(保持原文句子顺序)和对应的标签属于研究结论的句子对应的标签为正例1,不属于研究结论的句子对应标签为反例0,假如一篇被标注的文章有50句子,标记为研究结论的5句,其余45句是非研究结论,那么正例就是5句话,反例45句话,这样就获得了句子样本数据,假如有10篇标注的文章,那么按照文章的顺序,每篇文章分50个句子,那么就是500个句子,具体的,训练过程的算法为:
(1)获取样本
获取训练样本文句子记录为集合Sens={Sens(i)},对应的句子训练标签 集合为Labels={Labels(i)},句子总数为N,各个句子表示为Sens(i),其中1=<i<=N,要求N尽可能大,N>=10000,Labels(i)的取值为1或0两种取值,其中1代表本句子是研究结论句,为正例表示,0代表本句子是非研究结论句子,为反例表示;
(2)对训练语料Sens(i)句子进行特征化表示,句子特征化这里使用了以下特征:人工标记的标识词特征1个、chi词频特征200个、句子所在文章级别的相关特征4个、句子级别的相关特征10个、词语级别的相关特征3个、句序特征1个、句序比特征1个、句子结论段特征4个,一共224个特征,可以表示为F={f1,f2,f3……fn},fi表示每个特征n为224,f0到f224一共224个特征,每个句子都要提取224个特征;
步骤三:选取分类器训练与评价模块
(31)样本类平衡处理,这里分类属于二分类问题,由于样本中正例(研究结论句子很少),反例(非研究结论句子很多)造成样本分布不均匀,对于这些不均匀样本直接采用分类的话会影响分类效果,所以需要进行样本类平衡处理,有三种办法可以处理:1增加少数类样本数量,2减少多数类样本数量,3增加少数类样本的权重比例。可以根据需要采用任何一种方法处理;
(32)训练分类器,使用常用的分类器DecisionTree、SVM、GaussianNB、RandomForest、GradientBoosting等分别对输入特征矩阵F和label训练,可以选用5折交叉验证,(80%数据训练,20%的数据来测试)来平均训练的分类器,某些情况下还要进行分类器的参数调优;
(33)评价分类器,评价参数主要是预测标签的准确率,召回率,F值,a:正例测试文档被正确分类为该类的数量,b:负例测试文档被错误分类为属于该类的数量,c:正例测试文档被错误分类为不属于该类的数量,d:负例测试文档被正确分类为不属于该类的数量,准确率precision=a/(a+b),召回率recall=a/(a=c),F=(2*precision*recall)/(precision+recall),选择F值较大的分类器作为生成的模型,如果效果不太理想,需要调整分类器参数,选择好分类器之后,将训练得到的这个分类器序列化到硬盘上保存 起来,当需要应用测试的时候将其加载到内存即可进行应用预测;
步骤四:应用分类器预测研究结论标签模块
将待预测的rec文本全文字段的正文部分经过程序分句提取出对应的特征矩阵,{f0,f1......f223}这种形式,然后可以加载训练保存的分类器模型进行预测出对应的研究结论标签。
2.根据权利要求1所述的一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其特征在于:步骤二中,对训练语料Sens(i)句子进行特征化表示,其中各特征的提取细节步骤为:
第一步,人工标记的标识词特征1个,人工标识的短语句子集合记录为Tops={tops(i),},tops(i)为短语集合中的第i个短语,针对Sens中的Sens(i),看当前的Sens(i)能包含几个tops(i),记录特征为f0,表示为当前句子包含多少个Tops(i)f0=当期句子Sens(i)包含多少个Tops(i),
第二步,chi词频特征200个:对各个句子分词后的词语是否包含对应的chi词语(200个)建立chi词频特征,记录为f1,f2,,,,,f200,这里分两个步骤,步骤1为如何构建200个chi词语,步骤2为句子分词后的词语在对应的200个chi词语位置上是否出现,出现的话此位置特征为1,不出现特征为0,
第三步,句子所在文章的级别相关特征4个,这里主要有本文章的句子总个数,影响因子,页数,作者个数,关键字的个数,但是句子总个数需要分句程序来计算。特征记录为{f影响因子,f页数,f作者个数,f关键字个数},F201=当前句子Sens(i)所在文章的影响因子数,F202=当前句子Sens(i)所在文章的总页数是多少,F203=当前句子Sens(i)所在文章的作者个数,F204=当前句子Sens(i)所在文章的关键词个数是几个,
第四步,句子级别相关特征10个,句子相关特征主要有本句子长度,句子是否有引用别的句子(参考文献),句子中文字符个数,句子其他字符个数, 逗号个数,分号个数,引用号个数,顿号个数,冒号个数,当前句子中文字数占句子所在文章的全部句子的中文字数比例,结论段句子中文字数占全文总句子中的中文词个数比例,F205=当前句子Sens(i)的长度,F206=当前句子Sens(i)是否引用别的文章,引用为1,否则为0,F207=当前句子Sens(i)的中文字符个数,F208=当前句子Sens(i)的非中文字符个数,F209=当前句子Sens(i)的逗号个数,F210=当前句子Sens(i)的分号个数,F211=当前句子Sens(i)的引用号个数,F212=当前句子Sens(i)的顿号个数,F213=当前句子Sens(i)的冒号个数,F214={(当前句子Sens(i)的中文字符个数,分母>0)/(当前句子Sens(i)所在文章全部句子中文字符个数,分母为0)},
第五步,词语级别相关特征3个,这里主要是句子分词后与标题词共同出现的词个数(去停用词),与文章定义的关键词共现的个数,句子分次后的词语与chi的200个词共现的个数,f215=当前句子Sens(i)分词去停用词后与标题分词后二者共同出现词个数,f216=当前句子Sens(i)分词去停用词后与文章定义的关键词共同出现词个数,f217=当前句子Sens(i)分词去停用词后与chi200个词共同出现词个数,
第六步,句序特征1个,这里是指一个句子在本篇文章所有句子的句序,比如一篇文章有100句,当前第49句的句序就是49,特征记录为f218=当前句子Sens(i)在所在问所有句子的句序,
第七步,句序比特征1个,这里是指一个句子在本篇文章所有句子的句序比例,比如一篇文章有100句,当前第49句的句序就是0.49,也就是百分之49,特征记录为f219={(当前句子Sens(i)的句序)/(当前句子Sens(i)所在文章的所有句子的总个数)},
第八步,结论段特征4个,结论段特征是基于某些算法或者规则得到一篇文章哪些句子开始的段落属于结论段。属于结论段的句子的开始句序到结 尾都属于结论段,主要有:当前句子是否是处于结论段,是1,否0;当前句子结论段的处于结论段的据序号,初始结论段据序位0,后续依次加1;当前句子处于结论段是通过句子开头关键词匹配找到;当前句子处于结论段是通过句子中间关键词找到的,记录为f220=当前句子Sens(i)是否为与结论段,是1,否0,f221=当前句子Sens(i)在所在结论段序,结论段开始1,后续句子依次加1,f222=当前句子Sens(i)处于结论段是通过句子开头关键词找到,为1,否则为0,以上f0到f223就是224个句子特征化后的特征,每个句子也对应一个label特征,标记这个句子是否是研究结论句子,将训练语料中所有字符的特征化结果F={f1,f2,f3……fn}特征和对应的类别表示结果label作为输入数据,进行训练,得到训练后的研究结论提取模型M。
3.根据权利要求2所述的一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其特征在于:在第二步中,构建chi词语时,首先针对Sens中的所有句子进行分词,分词以后形成词集合,记录为words_all={words(j)},wrods(j)是words_all中的第j个词语,针对每个words(j)计算chi,包含words(j)同时属于正例的句子总数为A,包含words(j)同时属于反例的句子总数为B,不包含words(j)同时属于正例的句子总数为C,不包含words(j)同时属于反例的句子总数为D,正例句子总数为A+B,反例句子总数为B+D,包含word(j)句子总数为A+B,不包含words(j)的句子总数为C+D,chi=(N(AD-BC)*(AD-BC))/{(A+B)(C+D)(A+C)(D+B)},其中N=A+B+C+D为样本容量,一般我们不关心具体数值,只关心大小顺序,可简化计算chi=chi(words(j),正例)=(N(AD-BC)*(AD-BC))/{(A+B)(C+D)},这样就获得所有句子分词后的词集合为words_all={words(j)},每个words(j)对应一个chi值,记录为词典dict_words_all={words(j);chi(j)},,words(j)为words_all集合中的第j个词语,它对应的chi值记录为chi(j),保存各个词语及其它的chi值,选择chi大的前200个words(j) 作为特征词记录集合为chi200={feat_chi_words(j)},其中1=<j<=200,最后chi词频特征化200个chi词排成200列,当前句子Sens(i)的分词结果集合记录为words_sens_currents,每个属于chi200的词为feat_chi_words(j),如果feat_chi_words(j)出现在words_sens_cuurets中,则当前feat_chi_words(j)处的特征记录为1,否则为0,fj=1或者0,如果当前句子分词出现chi(j)词语,为1否则0,其中j范围1到200。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610125685.1A CN107153664A (zh) | 2016-03-04 | 2016-03-04 | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610125685.1A CN107153664A (zh) | 2016-03-04 | 2016-03-04 | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107153664A true CN107153664A (zh) | 2017-09-12 |
Family
ID=59791647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610125685.1A Pending CN107153664A (zh) | 2016-03-04 | 2016-03-04 | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107153664A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189959A (zh) * | 2018-09-06 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种构建图像数据库的方法及装置 |
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109460455A (zh) * | 2018-10-25 | 2019-03-12 | 第四范式(北京)技术有限公司 | 一种文本检测方法及装置 |
CN109948052A (zh) * | 2019-03-08 | 2019-06-28 | 上海七牛信息技术有限公司 | 一种互联网信息过滤审核系统、方法及装置 |
CN110019821A (zh) * | 2019-04-09 | 2019-07-16 | 深圳大学 | 文本类标训练方法和识别方法、相关装置及存储介质 |
CN110083834A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语义匹配模型训练方法、装置、电子设备及存储介质 |
CN110162684A (zh) * | 2019-05-07 | 2019-08-23 | 中国电子科技集团公司第二十八研究所 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
CN110826101A (zh) * | 2019-11-05 | 2020-02-21 | 安徽数据堂科技有限公司 | 用于企业的私有化部署数据处理方法 |
CN110866107A (zh) * | 2019-10-12 | 2020-03-06 | 浙江大搜车软件技术有限公司 | 素材语料的生成方法、装置、计算机设备和存储介质 |
CN111242083A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
CN111401050A (zh) * | 2020-03-28 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于模板生成的化学反应抽取器和抽取方法 |
CN111488725A (zh) * | 2020-03-15 | 2020-08-04 | 复旦大学 | 一种机器智能辅助的扎根理论编码优化方法 |
CN111538720A (zh) * | 2020-03-12 | 2020-08-14 | 嘉陵江亭子口水利水电开发有限公司 | 电力行业基础数据清理的方法及系统 |
CN112667826A (zh) * | 2019-09-30 | 2021-04-16 | 北京国双科技有限公司 | 一种篇章去噪方法、装置、系统及存储介质 |
CN113064993A (zh) * | 2021-03-23 | 2021-07-02 | 南京视察者智能科技有限公司 | 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法 |
CN114091433A (zh) * | 2021-12-22 | 2022-02-25 | 沃太能源股份有限公司 | 用于分布式储能领域的挖掘新词的方法及其装置 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN116384388A (zh) * | 2023-02-14 | 2023-07-04 | 苏州信思科技有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004774A (zh) * | 2010-11-16 | 2011-04-06 | 清华大学 | 基于统一概率模型的个性化用户标签建模与推荐方法 |
CN103336793A (zh) * | 2013-06-09 | 2013-10-02 | 中国科学院计算技术研究所 | 一种个性化论文推荐方法及其系统 |
WO2014148918A1 (en) * | 2013-03-21 | 2014-09-25 | Kezzler As | A method for manufacturing a group of packaging media |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
-
2016
- 2016-03-04 CN CN201610125685.1A patent/CN107153664A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004774A (zh) * | 2010-11-16 | 2011-04-06 | 清华大学 | 基于统一概率模型的个性化用户标签建模与推荐方法 |
WO2014148918A1 (en) * | 2013-03-21 | 2014-09-25 | Kezzler As | A method for manufacturing a group of packaging media |
CN103336793A (zh) * | 2013-06-09 | 2013-10-02 | 中国科学院计算技术研究所 | 一种个性化论文推荐方法及其系统 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109241521B (zh) * | 2018-07-27 | 2023-06-20 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109189959B (zh) * | 2018-09-06 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 一种构建图像数据库的方法及装置 |
CN109189959A (zh) * | 2018-09-06 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种构建图像数据库的方法及装置 |
CN109460455A (zh) * | 2018-10-25 | 2019-03-12 | 第四范式(北京)技术有限公司 | 一种文本检测方法及装置 |
CN109460455B (zh) * | 2018-10-25 | 2020-04-28 | 第四范式(北京)技术有限公司 | 一种文本检测方法及装置 |
CN109948052A (zh) * | 2019-03-08 | 2019-06-28 | 上海七牛信息技术有限公司 | 一种互联网信息过滤审核系统、方法及装置 |
CN110019821A (zh) * | 2019-04-09 | 2019-07-16 | 深圳大学 | 文本类标训练方法和识别方法、相关装置及存储介质 |
CN110083834A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语义匹配模型训练方法、装置、电子设备及存储介质 |
CN110162684A (zh) * | 2019-05-07 | 2019-08-23 | 中国电子科技集团公司第二十八研究所 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
CN112667826A (zh) * | 2019-09-30 | 2021-04-16 | 北京国双科技有限公司 | 一种篇章去噪方法、装置、系统及存储介质 |
CN110866107A (zh) * | 2019-10-12 | 2020-03-06 | 浙江大搜车软件技术有限公司 | 素材语料的生成方法、装置、计算机设备和存储介质 |
CN110826101A (zh) * | 2019-11-05 | 2020-02-21 | 安徽数据堂科技有限公司 | 用于企业的私有化部署数据处理方法 |
CN110826101B (zh) * | 2019-11-05 | 2021-01-05 | 安徽数据堂科技有限公司 | 用于企业的私有化部署数据处理方法 |
CN111242083B (zh) * | 2020-01-21 | 2024-01-26 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
CN111242083A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
CN111538720A (zh) * | 2020-03-12 | 2020-08-14 | 嘉陵江亭子口水利水电开发有限公司 | 电力行业基础数据清理的方法及系统 |
CN111538720B (zh) * | 2020-03-12 | 2023-07-21 | 嘉陵江亭子口水利水电开发有限公司 | 电力行业基础数据清理的方法及系统 |
CN111488725B (zh) * | 2020-03-15 | 2023-04-07 | 复旦大学 | 一种机器智能辅助的扎根理论编码优化方法 |
CN111488725A (zh) * | 2020-03-15 | 2020-08-04 | 复旦大学 | 一种机器智能辅助的扎根理论编码优化方法 |
CN111401050A (zh) * | 2020-03-28 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于模板生成的化学反应抽取器和抽取方法 |
CN113064993A (zh) * | 2021-03-23 | 2021-07-02 | 南京视察者智能科技有限公司 | 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法 |
CN113064993B (zh) * | 2021-03-23 | 2023-07-21 | 南京视察者智能科技有限公司 | 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114091433B (zh) * | 2021-12-22 | 2022-08-09 | 沃太能源股份有限公司 | 用于分布式储能领域的挖掘新词的方法及其装置 |
CN114091433A (zh) * | 2021-12-22 | 2022-02-25 | 沃太能源股份有限公司 | 用于分布式储能领域的挖掘新词的方法及其装置 |
CN116384388A (zh) * | 2023-02-14 | 2023-07-04 | 苏州信思科技有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
CN116384388B (zh) * | 2023-02-14 | 2024-02-02 | 上海熙瑾信息技术有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107153664A (zh) | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 | |
Abualigah et al. | Text summarization: a brief review | |
Hacioglu | Semantic role labeling using dependency trees | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN109918642A (zh) | 基于委员会查询的主动学习框架的情感分析方法及系统 | |
Singh et al. | A comparison of linear discriminant analysis and ridge classifier on Twitter data | |
Yan et al. | Data augmentation for deep learning of judgment documents | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN109492230A (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN109522415B (zh) | 一种语料标注方法及装置 | |
Nassiri et al. | Arabic readability assessment for foreign language learners | |
CN108009248A (zh) | 一种数据分类方法和系统 | |
Smitha et al. | Meme classification using textual and visual features | |
Zhu et al. | Adaptively transfer category-classifier for handwritten Chinese character recognition | |
Botov et al. | Mining labor market requirements using distributional semantic models and deep learning | |
Sengkey et al. | Implementing Support Vector Machine Sentiment Analysis to Students' Opinion toward Lecturer in an Indonesian Public University | |
PraveenKumar et al. | Exploring the students feelings and emotion towards online teaching: sentimental analysis approach | |
CN110765872A (zh) | 一种基于视觉特征的在线数学教育资源分类方法 | |
Al Hasan et al. | Classification of multi-labeled text articles with reuters dataset using SVM | |
CN112836507B (zh) | 一种领域文本主题抽取方法 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
Hou et al. | A token-wise CNN-based method for sentence compression | |
Górski et al. | Towards grad-cam based explainability in a legal text processing pipeline. extended version | |
de Lima Santos et al. | Assessing the Effectiveness of Multilingual Transformer-based Text Embeddings for Named Entity Recognition in Portuguese. | |
Cates et al. | A machine learning approach to research curation for investment process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170912 |