CN103136361A - 一种生物文本中蛋白质相互关系的半监督抽取方法 - Google Patents

一种生物文本中蛋白质相互关系的半监督抽取方法 Download PDF

Info

Publication number
CN103136361A
CN103136361A CN2013100723415A CN201310072341A CN103136361A CN 103136361 A CN103136361 A CN 103136361A CN 2013100723415 A CN2013100723415 A CN 2013100723415A CN 201310072341 A CN201310072341 A CN 201310072341A CN 103136361 A CN103136361 A CN 103136361A
Authority
CN
China
Prior art keywords
sample
sample set
protein
semi
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100723415A
Other languages
English (en)
Other versions
CN103136361B (zh
Inventor
陈一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chen Yifei
Nanjing Rui Hui Data Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310072341.5A priority Critical patent/CN103136361B/zh
Priority claimed from CN201310072341.5A external-priority patent/CN103136361B/zh
Publication of CN103136361A publication Critical patent/CN103136361A/zh
Application granted granted Critical
Publication of CN103136361B publication Critical patent/CN103136361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种生物文本中蛋白质相互关系的半监督抽取方法,按如下步骤进行:(1)将训练样本集和未标注样本集输入预处理器,分别进行蛋白质命名实体识别、分句处理和指代消解处理;(2)在预处理过的训练样本集中提取候选蛋白质作用对;(3)在候选蛋白质作用对中提取分类模型需要的特征集,对特征集的特征值进行基于信息强度的加权;(4)将基于信息强度加权的特征值与未标注样本集一起输入到分类模型中进行半监督学习,对中样本进行标注,将最有价值的生物文本加入到样本标注集,用更新训练样本集和未标注样本集,对分类过程进行迭代,直到收敛。本发明简洁高效、性能高、收敛快、抽取效率高并保证数据真实性、节约实验资源。

Description

一种生物文本中蛋白质相互关系的半监督抽取方法
技术领域
本发明涉及一种语义抽取的方法,更具体的说,涉及一种生物文本中蛋白质相互关系的半监督抽取方法,属于数据挖掘技术领域。
背景技术
后基因组时代,蛋白质相互作用(Protein Protein Ineraction,PPI)研究越来越受到人们的重视,它是一种研究蛋白质功能的重要方法,对生物知识网络的建立、生物关系的预测及新药的研制均具有很重要的意义。随着研究的不断深入,报道蛋白质相互作用信息的文献激增,例如美国国立医学图书馆的Medline数据库已存储了超过108000种杂志的19000000篇文献摘要或全文。但是由于文献数目巨大且增长迅速,人们通过手工阅读文献往往难以及时、高效地发现其所关心的蛋白质相互作用信息。文本挖掘方法(text mining)是一种解决这种“信息爆炸”问题的有效途径。当前,一些蛋白质相互作用数据库,如MINT和IntAct已经开始尝试利用文本挖掘技术搜集蛋白质相互作用数据,自动提取蛋白质相互作用注释信息,提高研究人员获取蛋白质相互作用信息的效率。不仅如此,文本挖掘蛋白质相互作用还能减少重复试验带来的资源浪费,而且挖掘到的蛋白质相互作用有详细的生物学实验支持,真实可靠。因此,基于文本挖掘方法得到的蛋白质相互作用数据逐渐成为相互作用数据库十分重要的信息来源。
目前,蛋白质相互作用提取方法主要可以归纳为3大类:基于规则方法(rule-based approach)、基于统计学和机器学习方法(statistical andmachine-learning approach)与基于计算语言方法(computationallinguistics-based approach)。在基于统计和机器学习的方法中,蛋白相互作用关系提取可以看成是判断句子中有无蛋白质相互作用关系的二值分类问题,并使用支持向量机(support vector machine,SVMs)、最大熵模型(maximumentropy,ME)等分类方法进行模型训练和相互关系对的提取。其主要优点在于能够自动地训练模型,避免了大量的人工定义规则。Airola等人在多个训练集上使用全路径图核方法(all-paths graph kernel)获取蛋白质相互作用信息。Miwa等人采用丰富的特征向量及考虑训练集权重的支持向量机方法。王浩畅等同样基于机器学习的方法,提取了丰富的特征集及后处理规则。
虽然机器学习方法特别是SVMs使蛋白质相互关系抽取的性能有了很大的提高,但是从一些著名的国际测评会议的结果来看,其性能还远远达不到实际应用的要求。在最近一次测评会议BioCreative II.5的蛋白质相互关系抽取任务中,最好的抽取方法是利用SVMs分类器得到的,精度为30.9%,召回率为21.3%,F值为25.2。
机器学习方法未能取得较好的分类效果,主要由于以下三个方面的因素:训练集的规模、质量及特征值的选取。
首先,实际应用中往往缺少高质量的机器学习训练集,因为标注大量的生物文本需要花费专家大量的人力、物力和时间为代价。由于蛋白质间相互关系较为复杂,可包括物理相互作用(physical interaction)、遗传相互作用(genetic interaction)、共表达(co-express)关系和共定位(co-location)关系等,普通用户很难进行准确的标注,通常要通过生物学家来完成。正因为标注上的困难,使得在蛋白质相互作用关系抽取中能够获得的训练样本数量就比较有限。相反,由于电子期刊的迅速发展,获得无标注的样本却非常容易。因此一种旨在使用少量已标注样本,借助于大量未标注样本就可以完成相关工作的半监督学习方法在蛋白质关系抽取中的研究成为热点。
半监督学习(Semi-supervised Learning,SSL)是一种新的学习方法,它将大量的无标注样本和少量的已标注样本结合起来以提高学习器的泛化能力。最近,SSL已经被应用到一些文本的关系研究中,这些研究表明了使用少量已标注样本,有效利用未标注样本可以使关系抽取性能得到一定程度的提高。
按照Chapelle、Seeger、Mitchell等人对半监督学习的分析,SSL问题主要有3种主要的技术:基于生成式的模型、基于图正则化框架的模型以及基于协同训练的模型。自训练算法(Self-Training Algorithm)属于最后一种算法的范畴,该算法隐含地利用了聚类假设或者流型假设,以简洁高效而著称,因此和其他半监督算法相比,有着极为广泛的应用。
其次,训练集数据的质量也直接影响模型的分类效果,主动学习(ActiveLearning,AL)可以通过减少此类不正确分类的样本来协助半监督学习。目前有很多研究者都提出了样本添加的方法,Tong等在基于SVMs的分类中,根据样本到当前分类面的距离对样本进行选择,最靠近分类面的样本被认为是最具有信息量的,此类样本被添加到训练集中;基于委员会的采样也是比较常用的主动学习方法,选择分类结果最不一致的样本加入到当前的训练集;在基于熵的不确定采样中,根据计算每个样本的熵,选择那些熵越大的,也就是分类不确定性越高的样本添加到训练集。这些方法都是通过在训练集中引入不确定性高的样本,来增加训练集的信息量。然而在半监督自训练模型的迭代中,这些不确定性高的样本可能会引入过多不正确分类的样本到训练集中,而这些分类的错误信息在以后学习过程中会不断积累,给分类器带来致命的错误而大大影响其性能。因此在选择样本时不仅要考虑样本的信息量,还要考虑其正确性。
最后,为了进一步提高机器学习模型的分类能力,特定的丰富的特征被提取和使用,对特定的训练数据集效果显著,在蛋白质相互作用关系的提取中也同样需要提取大量的特征来支持。然而简单的特征组合难以产生令人满意的结果,而且对于训练语料的针对性较强,缺乏鲁棒性和可移植性,严重影响抽取的性能,抽取效率不高,数据真实性得不到保证,并且大量重复的实验带来的资源的浪费。
发明内容
本发明所要解决的技术问题是,克服现有技术的缺点,提供一种简洁高效、性能高、收敛快、抽取效率高并保证数据真实性、节约实验资源的生物文本中蛋白质相互关系的半监督抽取方法。
为了解决以上技术问题,本发明提供一种生物文本中蛋白质相互关系的半监督抽取方法,按如下步骤进行:
(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;
(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;
(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW-SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:
Figure BDA00002892654600041
,式中:
Figure BDA00002892654600042
,其中M为预定义的类别总数,C为预定义的类别,在蛋白质相互关系抽取的应用中,类别总数为2,即M=2。C就表示类别,C1类(第一类)是描述相互作用的蛋白质对,C2类(第二类)则是没有相互作用的蛋白质对。
(4)基于信息强度加权的特征值训练SSW-SVMs分类模型,并对未标注样本集U0进行标注,利用主动学习方法选择标注后的U0样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集,更新未标注样本集U1=U0\S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)-(5),对分类过程进行迭代,直到收敛。
本发明进一步限定的技术方案为,步骤(4)中利用主动学习方法选择样本的方法为:
(1)利用5折叠(5-fold cross validation)的交叉验证方法训练SSW-SVMs模型,并在每次交叉验证中得到未标注样本集U0中样本xu的分类标号,xu属于类别i的概率为P(yi|xu),其中,yi是对样本xu的分类标号,由于本应用是两类分类问题,yi即为属于第一类还是第二类,即这里求得样本xu属于第一类的概率和属于第二类的概率。
则样本xu的最优标号为:,其中,yi是对样本xu的分类标号;Y为yi的取值范围,即在本应用中是第一类和第二类;yoptimal是样本xu的最优分类标号,取决于其属于这两类的概率大小,取概率值大的标号为其最优分类标号。
(2)根据样本xu到当前SSW-SVMs分类面的距离对样本进行采样,最靠近分类面的样本被认为是最具信息量的,计算xu到当前SVM分类面的距离作为位置信息Position(xu)。
(3)将样本集U0中符合下列样本选择条件的样本xu添加到样本集S中:
p(yoptimal|xu)≥threshold & Position(xu)<distance,其中,threshold是最优分类样本选取的阈值,distance是位置参数阈值。
进一步地,步骤(2)中所述的计算xu到当前SVM分类面的距离作为位置信息Position(xu)的方法为: Position ( x u ) = | f ( x u ) | | | w | | = y i f ( x u ) | | w | | ,其中,f(x)是SVM的目标函数: f ( x ) = < w , x > + b = &Sum; i = 1 n w i x i + b ,其中w是权重向量,b是阈值参数,n是权重向量x的维数。
再进一步地,步骤(3)中所述的SSW-SVMs分类模型需要的特征包括上下文关系特征组、基于距离的特征组、模式匹配特征组和数据库匹配特征组。
本发明的有益效果是:本发明所述的一种生物文本中蛋白质相互关系的半监督抽取方法,针对文本挖掘方法在蛋白质相互作用提取中的应用,提出了一种简洁高效的基于半监督信息强度加权的支持向量机模型(Semi-SeupervisedWeighting SVMs,SSW-SVMs),使蛋白质相互作用关系提取模型具有更好的性能、收敛快同时需要更少的已标注数据集;本发明通过建立基于半监督的信息强度加权和基于启发式信息的主动学习的支持向量机分类模型,使其在较小的专家标注的情况下具有较高的蛋白质相互关系抽取效果;本发明通过在支持向量机自训练的过程中对丰富的特征值进行信息强度加权,能够达到模型既简洁又快速的要求;本发明及时、高效地发现其所关心的蛋白质相互作用信息,自动提取蛋白质相互作用注释信息,提高研究人员获取蛋白质相互作用信息的效率,并且减少重复试验带来的资源浪费,挖掘到的蛋白质相互作用有详细的生物学实验支持,真实可靠,对生物知识网络的建立、生物关系的预测及新药的研制均具有很重要的意义。
附图说明
图1为本发明所述的SSW-SVMs模型的算法框架流程图;
图2为本发明所述的一种生物文本中蛋白质相互关系的抽取方法的工作流程图。
具体实施方式
实施例1
本实施例提供的一种生物文本中蛋白质相互关系的抽取方法,是一种在较少专家标注负担下具有较高性能的基于半监督信息强度加权支持向量机(SSW-SVMs)的蛋白质相互作用抽取模型。
本方法所采用的主要技术为:
(1)基于半监督的信息强度加权:在半监督迭代过程中,对训练样集提取的特征值进行基于信息熵的加权计算,熵用来描述特定特征携带信息量,熵越大不确定性越大,所携带的信息量就越大。利用熵作为信息强度的度量对特征值进行加权,能反应各个特征不同的性能,反应其在分类模型建立过程中的不同重要性,帮助更好地建立模型。
(2)基于启发式信息的主动学习:本发明主要利用两种启发式信息来帮助半监督学习迭代过程中的样本选取。首先,选择那些在当前分类器下分类结果最正确的样本。然而,从直观上来说,如果仅选取这些样本进行半监督学习,虽然引入错误标号的概率最小,但是从样本所包含的信息量这个角度来说,这些分类结果最明确的样本所包含的信息最少,加入训练样本集后对分类模型的影响最小。因此,其次,选择那些最靠近支持向量机分类面的样本,这些样本被认为最具信息量。通过这两种启发式信息,使得选出的样本在分类准确性和信息量之间达到了一个较好的平衡。在本发明中,这两种启发式信息均来自SVMs分类器本身,没有增加模型的计算负担。
基于上述主要技术,本发明所采用的SSW-SVMs模型的算法框架流程图如图1所示,具体操作步骤为:
(1)初始已标注样本集和未标注样本集分别计为L0和U0
(2)在初始分类时,用L0作为训练样本集,从中抽取丰富的特征集F=(f1,f2......,fn),包含有n个特征fi
(3)对特征集F的特征值通过半监督学习方法进行基于信息强度的加权
w ( f j ) = - &Sigma; i = 1 M P ij log P ij ,式中: P ij = P ( f j | C i ) &Sigma; k = 1 M P ( f j | C k ) ,其中M为分类的类别总数;
(4)基于信息强度加权的特征值训练SSW-SVMs分类模型,并对未标注样本集U0中样本中的蛋白质相互作用对进行标注,同时利用如下样本选择策略来寻找那些最有价值的样本标注集S:
①投票信息:利用5折叠的交叉验证方法训练SVMs模型,并在每次交叉验证中得到对样本集U0中样本xu的分类标号,xu属于类别i的概率为P(yj|xu)
则样本xu的最优标号为: p ( y optimal | x u ) = max y i &Element; Y p ( y i | x i ) .
②位置信息:根据样本xu到当前SVM分类面的距离对样本进行采样,最靠近分类面的样本被认为是最具信息量的。计算xu到当前SVM分类面的距离作为位置信息Position(xu)。
③将样本集U0中符合下列样本选择条件的样本xu添加到样本集S中:
p(yoptimal|xu)≥threshold&Position(xu)<distance
更新训练样本集
Figure BDA00002892654600081
,更新未标注样本集U1=U0\S用更新后的已标注样本L1和未标注样本集训U1重复(2)-(5),对分类过程进行迭代,直到收敛。
下面将上述技术方案应用于生物文本中的蛋白质相互关系的抽取技术,数据来源于国际测评会议BioCreative II.5的蛋白质相互关系抽取任务,以及生物医学电子期刊网FEBS Letters。实施例中使用的训练数据集有30篇生物文献全文,包含114个蛋白质相互作用对;测试数据集有39篇生物文献全文,包含123个蛋白质相互作用对。将训练数据集作为已标注样本集L,同时,有150篇生物文献全文作为未标注样本集U。在进行蛋白质相互关系提取前必须对所有的数据集进行蛋白质命名实体识别,标注出文中所有蛋白质名。
生物文本中蛋白质相互关系的半监督抽取方法的流程图如图2所示,按如下步骤进行:
(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集。
其中,分句处理是指将复杂句分解为一个主句和若干从句。指代消解处理是指在全文篇章中确定代词指向哪个名词短语的问题。
(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对。
(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW-SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:
Figure BDA00002892654600091
,式中:
Figure BDA00002892654600092
,其中M为预定义的类别总数,C为预定义的类别,在蛋白质相互关系抽取的应用中,类别总数为2,即M=2。C就表示类别,C1类(第一类)是该候选对描述了蛋白质间的相互作用,C2类(第二类)则是该候选对没有描述了蛋白质间的相互作用。
所述的SSW-SVMs分类模型需要的特征包括上下文关系特征组、基于距离的特征组、模式匹配特征组和数据库匹配特征组。所述下文关系特征组是指描述候选蛋白质作用关系对、作用对中的蛋白质、相互作用关键词以及上下文关系;所述基于距离的特征组是指描述候选蛋白质关系对中蛋白质和上下文的位置关系;所述模式匹配特征组是指描述候选蛋白质作用关系与16个模式的匹配关系;所述数据库匹配特征组是指描述候选蛋白质作用关系与数据库MINT和IntAct的匹配关系。
(4)基于信息强度加权的特征值训练SSW-SVMs分类模型,并对U0中样本进行标注,利用主动学习方法选择样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集
Figure BDA00002892654600093
,更新未标注样本集U1=U0\S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)-(5),对分类过程进行迭代,直到收敛。用更新后的训练样本集L1重复步骤(3)中特征基于信息强度加权计算,新的训练样本集L1提供了新的类别定义信息,用这些信息更新特征集F的权值,因此权值的获取也是通过半监督学习获取的,可以反映在不同数据集大小的情况下不同特征携带的信息量,更进一步加快模型的收敛。
利用主动学习方法选择样本的方法为:
①利用5折叠(5-fold cross validation)的交叉验证方法训练SSW-SVMs模型,并在每次交叉验证中得到未标注样本集U0中样本xu的分类标号,xu属于类别i的概率为P(yi|xu),其中,yi是对样本xu的分类标号,由于本应用是两类分类问题,yi即为属于第一类还是第二类,即这里求得样本xu属于第一类的概率和属于第二类的概率。
则样本xu的最优标号为:
Figure BDA00002892654600101
,其中,yi是对样本xu的分类标号;Y为yi的取值范围,即在本应用中是第一类和第二类;yoptimal是样本xu的最优分类标号,取决于其属于这两类的概率大小,取概率值大的标号为其最优分类标号。
②根据样本xu到当前SSW-SVMs分类面的距离对样本进行采样,最靠近分类面的样本被认为是最具信息量的,计算xu到当前SVM分类面的距离作为位置信息Position(xu)。
计算xu到当前SVM分类面的距离作为位置信息Position(xu)的方法为: Position ( x u ) = | f ( x u ) | | | w | | = y i f ( x u ) | | w | | ,其中,f(x)是SVM的目标函数:
Figure BDA00002892654600103
,其中w是权重向量,b是阈值参数,n是权重向量x的维数。
③将样本集U0中符合下列样本选择条件的样本xu添加到样本集S中:
p(yoptimal|xu)≥threshold&Position(xu)<distance。
threshold是最优分类样本选取的参数(阈值),即当这个样本的最优分类标号概率大于threshold,这个样本就是最优分类样本。distance是位置参数(阈值),即当这个样本距离分类面的距离小于distance,这个样本就被选择。这两个值都是模型建立者设置的,当两个条件同时成立,该样本就被选中,加入下一次训练集中。
本发明中的SSW-SVMs模型将与其他模型的蛋白质相互作用关系抽取模型进行比较,比较结果如表1所示:
表1:
Precision Recall F-measure Iterations
SSW-SVMs 30.33% 37.40% 33.50 9
SVMs 20.00% 23.60% 21.7
SS-SVMs 24.10% 27.50% 25.69 13
RS-SVMs 27.13% 28.50% 27.80 68
其中SSW-SVMs是本发明中提出的基于半监督信息强度加权支持向量机蛋白质相互作用对抽取模型;SVMs是使用经典的支持向量机模型,该模型是BioCreative II.5测评会议上性能最好的模型,也是我们以前工作中建立的模型;SS-SVMs是经典的自训练半监督支持向量机模型,没有使用本发明中提出的加权和样本选择方法;最后,RS-SVMs是使用了半监督信息强度加权支持向量机模型,但使用了随机样本选取的方法。
表中的数据均采用常用度量方法即利用混淆矩阵计算出来的,在混淆矩阵中:真正(true positive,TP),对应于被分类模型正确预测的正样本数;假负(false negative,FN),对应于被分类模型错误预测为负类的正样本数;假正(false positive,FP),对应于被分类模型错误预测为正类的负样本数;真负(true negative,TN),对应于被分类模型正确预测的负样本数。因此,精度(precision)p=TP/(TP+FP);召回率(recall)r=TP/(TP+FN);F1度量(F-measure)=2*p*r/(p+r)。
通过表格1中的模型性能(Precision,Recall,F-measure)和收敛速度(Iterations,迭代次数)比较,我们可以看出,SSW-SVMs在少量已标注数据集上,使蛋白质相互作用关系提取模型具有更好的性能,同时收敛更快。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (4)

1.一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,按如下步骤进行:
(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;
(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;
(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW-SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:,式中:
Figure FDA00002892654500012
其中M为预定义的类别总数,C为预定义的类别;
(4)基于信息强度加权的特征值训练SSW-SVMs分类模型,并对未标注样本集U0进行标注,利用主动学习方法选择标注后的U0样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集
Figure FDA00002892654500013
更新未标注样本集U1=U0\S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)-(5),对分类过程进行迭代,直到收敛。
2.根据权利要求1所述的一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,步骤(4)中利用主动学习方法选择样本的方法为:
(1)利用5折叠的交叉验证方法训练SSW-SVMs模型,并在每次交叉验证中得到未标注样本集U0中样本xu的分类标号,xu属于类别i的概率为P(yi|xu),其中,yi是对样本xu的分类标号;
则样本xu的最优标号为:其中,yi是对样本xu的分类标号,Y为yi的取值范围,yoptimal是样本xu的最优分类标号;
(2)根据样本xu到当前SSW-SVMs分类面的距离对样本进行采样,最靠近分类面的样本被认为是最具信息量的,计算xu到当前SVM分类面的距离作为位置信息Position(xu);
(3)将样本集U0中符合下列样本选择条件的样本xu添加到样本集S中:p(yoptimal|xu)≥threshold&Position(xu)<distance,其中,threshold是最优分类样本选取的阈值,distance是位置参数阈值。
3.根据权利要求2所述的一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,步骤(2)中所述的计算xu到当前SVM分类面的距离作为位置信息Position(xu)的方法为: Position ( x u ) = | f ( x u ) | | | w | | = y i f ( x u ) | | w | | , 其中,f(x)是SVM的目标函数: f ( x ) = < w , x > + b = &Sigma; i = 1 n w i x i + b , 其中w是权重向量,b是阈值参数,n是权重向量x的维数。
4.根据权利要求1所述的一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,步骤(3)中所述的SSW-SVMs分类模型需要的特征包括上下文关系特征组、基于距离的特征组、模式匹配特征组和数据库匹配特征组。
CN201310072341.5A 2013-03-07 一种生物文本中蛋白质相互关系的半监督抽取方法 Active CN103136361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310072341.5A CN103136361B (zh) 2013-03-07 一种生物文本中蛋白质相互关系的半监督抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310072341.5A CN103136361B (zh) 2013-03-07 一种生物文本中蛋白质相互关系的半监督抽取方法

Publications (2)

Publication Number Publication Date
CN103136361A true CN103136361A (zh) 2013-06-05
CN103136361B CN103136361B (zh) 2016-11-30

Family

ID=

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104317894A (zh) * 2014-10-23 2015-01-28 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN106407183A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 医疗命名实体识别系统生成方法及装置
WO2017148266A1 (zh) * 2016-02-29 2017-09-08 阿里巴巴集团控股有限公司 一种机器学习系统的训练方法和训练系统
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108846257A (zh) * 2018-05-09 2018-11-20 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN109284313A (zh) * 2018-08-10 2019-01-29 深圳前海微众银行股份有限公司 基于半监督学习的联邦建模方法、设备及可读存储介质
CN110827923A (zh) * 2019-11-06 2020-02-21 吉林大学 基于卷积神经网络的精液蛋白质的预测方法
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及系统
CN115408527A (zh) * 2022-11-02 2022-11-29 北京亿赛通科技发展有限责任公司 文本分类方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JASON WESTON 等: "《Semi-supervised protein classification using cluster kernels》", 《BIOINFORMATICS》 *
崔宝今,林鸿飞,张霄: "《基于半监督学习的蛋白质关系抽取研究》", 《山东大学学报(工学版)》 *
谷方明,刘大有,王新颖: "《基于半监督学习的加权支持向量域数据描述方法》", 《计算机研究与发展》 *
钱伟中等: "《半监督分类器融合的蛋白质互作用信息抽取方法》", 《第十六届全国青年通信学术会议论文集(上)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651B (zh) * 2014-09-09 2017-02-22 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104317894A (zh) * 2014-10-23 2015-01-28 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN104317894B (zh) * 2014-10-23 2018-12-21 北京百度网讯科技有限公司 样本标注的确定方法和装置
WO2017148266A1 (zh) * 2016-02-29 2017-09-08 阿里巴巴集团控股有限公司 一种机器学习系统的训练方法和训练系统
US11720787B2 (en) 2016-02-29 2023-08-08 Alibaba Group Holding Limited Method and system for training machine learning system
TWI796286B (zh) * 2016-02-29 2023-03-21 香港商阿里巴巴集團服務有限公司 一種機器學習系統的訓練方法和訓練系統
CN106407183B (zh) * 2016-09-28 2019-06-28 医渡云(北京)技术有限公司 医疗命名实体识别系统生成方法及装置
CN106407183A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 医疗命名实体识别系统生成方法及装置
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN108846257B (zh) * 2018-05-09 2021-08-24 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN108846257A (zh) * 2018-05-09 2018-11-20 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN109284313B (zh) * 2018-08-10 2021-08-27 深圳前海微众银行股份有限公司 基于半监督学习的联邦建模方法、设备及可读存储介质
CN109284313A (zh) * 2018-08-10 2019-01-29 深圳前海微众银行股份有限公司 基于半监督学习的联邦建模方法、设备及可读存储介质
CN110827923A (zh) * 2019-11-06 2020-02-21 吉林大学 基于卷积神经网络的精液蛋白质的预测方法
CN110827923B (zh) * 2019-11-06 2021-03-02 吉林大学 基于卷积神经网络的精液蛋白质的预测方法
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及系统
CN115408527A (zh) * 2022-11-02 2022-11-29 北京亿赛通科技发展有限责任公司 文本分类方法、装置、电子设备及存储介质
CN115408527B (zh) * 2022-11-02 2023-03-10 北京亿赛通科技发展有限责任公司 文本分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109543183B (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN110826303A (zh) 一种基于弱监督学习的联合信息抽取方法
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN110188359B (zh) 一种文本实体抽取方法
CN104881399B (zh) 基于概率软逻辑psl的事件识别方法和系统
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111859984B (zh) 意图挖掘方法、装置、设备及存储介质
CN107480137A (zh) 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN103268346B (zh) 半监督分类方法及系统
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统
CN104598599A (zh) 命名排歧方法及系统
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
Akkasi et al. Improving biochemical named entity recognition using PSO classifier selection and Bayesian combination methods
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
Yang et al. Named entity recognition of power substation knowledge based on transformer-BiLSTM-CRF network
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
CN106202116A (zh) 一种基于粗糙集与knn的文本分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170410

Address after: 210008 Xuanwu District, Jiangsu, Beijing East Road, No. 63, No.

Co-patentee after: Nanjing Rui Hui Data Technology Co.,Ltd.

Patentee after: Chen Yifei

Address before: Yushan road in Pukou District of Nanjing City, Jiangsu Province, No. 86 211815

Patentee before: Chen Yifei

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Semi supervised Extraction Method for Protein Interactions in Biological Text

Effective date of registration: 20220928

Granted publication date: 20161130

Pledgee: Nanjing Bank Co.,Ltd. Nanjing Financial City Branch

Pledgor: Nanjing Rui Hui Data Technology Co.,Ltd.

Registration number: Y2022980016966

PE01 Entry into force of the registration of the contract for pledge of patent right