CN102169493A - 一种从文献中自动识别实验方案的方法 - Google Patents

一种从文献中自动识别实验方案的方法 Download PDF

Info

Publication number
CN102169493A
CN102169493A CN2011100829656A CN201110082965A CN102169493A CN 102169493 A CN102169493 A CN 102169493A CN 2011100829656 A CN2011100829656 A CN 2011100829656A CN 201110082965 A CN201110082965 A CN 201110082965A CN 102169493 A CN102169493 A CN 102169493A
Authority
CN
China
Prior art keywords
text
text fragment
proper vector
literature content
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100829656A
Other languages
English (en)
Inventor
何芳连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING OMEAGE BIOTECHNOLOGY Co Ltd
Original Assignee
BEIJING OMEAGE BIOTECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING OMEAGE BIOTECHNOLOGY Co Ltd filed Critical BEIJING OMEAGE BIOTECHNOLOGY Co Ltd
Priority to CN2011100829656A priority Critical patent/CN102169493A/zh
Publication of CN102169493A publication Critical patent/CN102169493A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种从文献中自动识别实验方案的方法,包括如下步骤:读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。本发明针对生命科学文献中实验方案段落的识别任务,通过高层特征的提取和上下文无关/相关分类器的构造,能够高效、准确的在海量的生命科技文献中自动的提取出实验方案的段落。

Description

一种从文献中自动识别实验方案的方法
技术领域
本发明涉及一种从文献中自动识别实验方案的方法。
背景技术
在生命科学领域,研究者和技术人员常常需要能够从海量的文字资料中快速准确地获取与实验方案相关的内容,以便对其进行深入的分析或者进一步的知识发现。所以,从数量庞大、内容复杂的文献中快速定位到自己所需的内容是摆在科技人员面前的一个不可回避而又很有意义的问题。
现有的工作方式中,从生命科学文献中提取实验方案段落主要依赖于人工对文献内容进行通读,然后再对它们进行标注提取。该种工作方式需要许多具有丰富经验和专门知识的分类人员做大量的工作,不仅代价高昂,而且效率低下。
发明内容
本发明的目的是提供一种从文献中自动识别实验方案的方法,可以很好的解决上述问题。
本发明的目的是通过以下技术方案来实现:
一种从文献中自动识别实验方案的方法,包括如下步骤:读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。
优选的,步骤“将文献内容划分为若干文本段落”后,“基于词频统计,采用特征向量表示文献内容中所有的文本段落”前;还包括步骤:对文献内容中的所有的文本段落进行预处理,具体包括:
去除所述文本段落中的停用词;
对文本段落中的词根进行还原;
将所述文本段落分解为一系列无序的词条,并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。
优选的,步骤“基于词频统计,采用特征向量表示文献内容中所有的文本段落”具体为:
给所述词条加上与该词条对应的权重;
将所述文本段落映射成特征向量。
优选的,步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为:
通过无监督学习方法进行文本段落的特征向量的抽取训练;
通过无监督学习方法对新的文本段落进行高层次特征向量抽取。
本发明提供了一种可方便应用于计算机,能够针对生命科学研究中的海量文献,通过高层特征的提取和上下文无关/相关分类器的构造,自动的提取出与实验方案有关的段落,代替人工识别选取,具有高效、准确的特点。
附图说明
下面根据附图和实施例对本发明作进一步详细说明。
图1为本发明实施例1提出的一种从文献中自动识别实验方案的方法流程图;
图2为本发明实施例1提出的一种从文献中自动识别实验方案中S13的具体流程图;
图3为本发明实施例1提出的一种从文献中自动识别实验方案中S14的具体流程图;
图4为本发明实施例1提出的一种从文献中自动识别实验方案中S15的具体流程图。
具体实施方式
实施例1
参见图1,提出一种实验方案自动识别方法,并做进一步说明如下:
S11、读取文献中数字化的文献内容。
S12、将文献内容划分为若干文本段落,保存该文本段落的总数N。
S13、对文献内容中的所有的文本段落进行预处理,获取噪声被初步降低的文献内容。
参见图2,其具体包括如下步骤:
S131、选择未经过预处理的文本段落,并去除该文本段落中的停用词。
S132、对该文本段落中的词根进行还原。
S133、将未被特征向量表示的文本段落分解为一系列无序的词条,并获取上述词条在该文本段落中的词频tf(t,p)和出现该词条的文本段落的总数nt
文本段落由一系列词条组成,根据现有构词规则,将文本段落分解为一系列无序的词条,将词条在上述文本段落中出现的次数统计为tf(t,p),即为上述词条在上述文本段落中的词频,统计所有词条的nt,nt为文献内容中,出现该词条的文本段落的总数。
S134、判断文献内容中是否存在未经过预处理的文本段落。如果是,转至S131;如果否,对该文献的预处理过程结束,该文献内容的噪声也被初步降低。
S14、基于词频统计,采用特征向量表示文献内容中所有的文本段落。
参见图3,其具体包括如下步骤:
S141、根据上述N、tf(t,p)、nt给文本段落中每一词条加上与该词条对应的权重。
一个词条在越多的文本段落中出现,其权重越小,因其区分文本段落类别的能力越低;在某一个文本段落中,一个词条出现的频率越高,则其权重越大,因其区分文本段落类别的能力越强。
如下详述采用tfidf函数,通过TF-IDF公式计算该词条的权重,并将权重量化的过程:
tfidf ( t , p ) = tf ( t , p ) × log ( N / n t + 0.01 ) Σ t ∈ d → [ tf ( t , p ) × log ( N / n t + 0.01 ) ] 2
其中,tfidf(t,p)为词条t在文本段落p中的权重,而tf(t,p)为词条t在文本段落p中的词频,N为文本段落的总数,nt为出现t的文本段落的总数,分母为归一化因子。
S142、将文献内容中所有的文本段落映射成特征向量。
文本段落映射出的特征向量用x∈Rn表示,其中,n为文本段落中词条的总数,即为字典长度,每一维上的元素xi为第i个词条在当前文本段落中的权重。
S143、判断是否存在未被特征向量表示的文本段落。如果是,转到S141;如果否,则所有文本段落均已采用特征向量表示。
S15、对文本段落的原始特征向量进行高层次特征向量的提取。
在如生命科技文献中,不仅包含大量常用字词,还包含大量专业词汇和短语,因此,利用上面的方法表示文本段落时,文本段落的特征向量的维数非常大,因此,必须进行维数压缩,同样,必须保证提取的高层次特征向量包含尽量丰富的信息。
参见图4,其具体包括如下步骤:
S151、通过无监督学习方法进行文本段落的特征向量的抽取训练。
将参与训练的所有文献内容的K文本段落的特征向量放在一起,得到一个矩阵X,上述矩阵X的每一列对应一个文本段落的特征向量,然后对矩阵X作非负矩阵分解。
arg min U , V | X - UV | 2 s . t . | u i | 1 = 1 , i = 1 , . . . , K
其中,约束条件|ui|1=1,使得矩阵U的每一列具有L1模,保证U的每一列之和为1,并且尽量稀疏,对非负矩阵U和V的求解,可以通过交换地对U和V进行梯度下降更新收敛于最优解。
S152、通过无监督学习方法对新的文本段落进行高层次特征向量抽取。
给定新的文本段落的特征向量x和训练阶段得到的矩阵U,求解|x-Uv|2,得到维数较低向量v作为新的文本段落的高层次特征向量。
S16、通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。
如下对上下文无关的分类模型进行详细描述:
给定已标注好的文本段落样本与
Figure BSA00000465678100052
结合。其中,x∈Rm为文本段落特征,y∈{0,1}表示段落类别标签(O为非实验方案段落,1为实验方案段落)。采用Logistic回归模型对P(yi|xi)建模如下:
P ( y i = 1 | x i ) = 1 1 + exp ( w 0 + Σ i = 1 m w i x i )
以及 P ( y i = 0 | x i ) = exp ( w 0 + Σ i = 1 m w i x i ) 1 + exp ( w 0 + Σ i = 1 m w i x i )
其中,w为参数向量。可以通过如下该模型的优化方法采用最大对数条件似然
w ← arg max w { Σ l = 1 L log P ( y ( l ) | x ( l ) ; w ) }
对模型参数进行优化。
如下对上下文相关的分类模型进行详细描述:
以上分类方法没有考虑待分类段落在文档中出现的位置及顺序。通过对数据的分析发现,实验分析的段落的出现位置是有一定的规律的,并且可以通过上下文的信息帮助对待分类段落类别的判定的。基于考虑上下文关系的出发点,构建基于CRF的段落分类模型。对于CRF模型,我们希望学习一个从段落序列x={x1,x2,...,xT}到标签序列y={y1,y2,...,yT}的映射,其中xt为文献中第t个文本段落的特征向量。在序列标注任务中,线性链状的CRF定义关于y的条件概率如下:
P ( y | x ; θ ) = 1 Z ( x ; θ ) Π t Φ ( y t , y t - 1 , x t ; θ )
= exp ( θ · F ( y , x ) - log Z ( x ; θ ) )
其中序列中的节点xt为文献中第t个段落。Z(x;θ)为正则化因子,对长度为|x|的段落序列的所有可能的标签序列y′的条件概率进行求和,定义如下:
Z ( x ; θ ) = Σ y ′ exp ( Σ t Φ ( y t ′ , x t ; θ ) )
上述两式中的Φ是一个有参的势函数Φ(yt,yt-1,xt;θ)=θ·f(yt,yt-1,x,t),其中参数θ是一个线性权重向量。向量f(yt,yt-1,x,t)=<v(yt,x,t),e(yt-1,yt,x,t)>由节点特征向量和边特征向量组成。节点特征vk(yt,x,t)用于计算当前段落的内容信息,定义如下:
Figure BSA00000465678100066
其中,xt,i是文档x中第t个段落的第i维特征,节点特征的维数K=|v|=|xt|×|y|。本系统中共有两种标签:实验段落(y=0)和非实验段落(y=1)。若经无监督学习模块获得的特征维数为50,则CRF节点特征的维数为50×2=100。边特征计算相邻段落之间的上下文相关信息,对于标签的任意两种段落类型之间的转换组合(y′,y″),边特征的维数J=|e|=|y|×|y|,具体定义如下:
Figure BSA00000465678100071
对于本系统来说,边特征的维数为2×2=4。
给定一组训练文献样本
Figure BSA00000465678100072
可以通过如下的最大化对数似然条件概率
max &theta; { &Sigma; n = 1 N log P ( y ( n ) | x ( n ) ; &theta; ) }
来获得模型参数参数θ。在CRF中,可采用Viterbi等成熟的推理算法对此条件概率进行计算。

Claims (4)

1.一种从文献中自动识别实验方案的方法,其特征在于,包括如下步骤:
读取所述文献中数字化的文献内容;
将文献内容划分为多个文本段落;
基于词频统计,采用特征向量表示文献内容中所有的文本段落;
对文本段落的原始特征向量进行高层次特征向量的提取;
通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。
2.如权利要求1所述的方法,其特征在于,步骤“将文献内容划分为若干文本段落”后,“基于词频统计,采用特征向量表示文献内容中所有的文本段落”前;还包括步骤:对文献内容中的所有的文本段落进行预处理,具体包括:
去除所述文本段落中的停用词;
对文本段落中的词根进行还原;
将所述文本段落分解为一系列无序的词条,并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。
3.如权利要求1所述的方法,其特征在于,步骤“基于词频统计,采用特征向量表示文献内容中所有的文本段落”具体为:
给所述词条加上与该词条对应的权重;
将所述文本段落映射成特征向量。
4.如权利要求1所述的方法,其特征在于,步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为:
通过无监督学习方法进行文本段落的特征向量的抽取训练;
通过无监督学习方法对新的文本段落进行高层次特征向量抽取。
CN2011100829656A 2011-04-02 2011-04-02 一种从文献中自动识别实验方案的方法 Pending CN102169493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100829656A CN102169493A (zh) 2011-04-02 2011-04-02 一种从文献中自动识别实验方案的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100829656A CN102169493A (zh) 2011-04-02 2011-04-02 一种从文献中自动识别实验方案的方法

Publications (1)

Publication Number Publication Date
CN102169493A true CN102169493A (zh) 2011-08-31

Family

ID=44490655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100829656A Pending CN102169493A (zh) 2011-04-02 2011-04-02 一种从文献中自动识别实验方案的方法

Country Status (1)

Country Link
CN (1) CN102169493A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521505A (zh) * 2011-12-08 2012-06-27 杭州电子科技大学 用于控制意图识别的脑电和眼电信号决策融合方法
CN106506327A (zh) * 2016-10-11 2017-03-15 东软集团股份有限公司 一种垃圾邮件识别方法及装置
CN107562760A (zh) * 2016-06-30 2018-01-09 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN106980607B (zh) * 2017-03-31 2018-06-22 掌阅科技股份有限公司 段落识别方法、装置和终端设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521505A (zh) * 2011-12-08 2012-06-27 杭州电子科技大学 用于控制意图识别的脑电和眼电信号决策融合方法
CN107562760A (zh) * 2016-06-30 2018-01-09 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN107562760B (zh) * 2016-06-30 2020-11-17 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN106506327A (zh) * 2016-10-11 2017-03-15 东软集团股份有限公司 一种垃圾邮件识别方法及装置
CN106980607B (zh) * 2017-03-31 2018-06-22 掌阅科技股份有限公司 段落识别方法、装置和终端设备

Similar Documents

Publication Publication Date Title
CN110209823B (zh) 一种多标签文本分类方法及系统
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN109783818B (zh) 一种企业行业分类方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN105389379B (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
US20120253792A1 (en) Sentiment Classification Based on Supervised Latent N-Gram Analysis
Ali et al. Resume classification system using natural language processing and machine learning techniques
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
US20220180066A1 (en) Machine learning processing pipeline optimization
Yuan-jie et al. Web service classification based on automatic semantic annotation and ensemble learning
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN112417150A (zh) 行业分类模型训练、使用方法、装置、设备及介质
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN112199508A (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
Mohanty et al. Resumate: A prototype to enhance recruitment process with NLP based resume parsing
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN113157903A (zh) 一种面向多领域的电力词库构建方法
CN102169493A (zh) 一种从文献中自动识别实验方案的方法
Gaye et al. Sentiment classification for employees reviews using regression vector-stochastic gradient descent classifier (RV-SGDC)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110831