CN105138864A - 基于生物医学文献的蛋白质交互关系数据库构建方法 - Google Patents
基于生物医学文献的蛋白质交互关系数据库构建方法 Download PDFInfo
- Publication number
- CN105138864A CN105138864A CN201510617020.8A CN201510617020A CN105138864A CN 105138864 A CN105138864 A CN 105138864A CN 201510617020 A CN201510617020 A CN 201510617020A CN 105138864 A CN105138864 A CN 105138864A
- Authority
- CN
- China
- Prior art keywords
- protein
- feature
- word
- tree
- interactive relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000009411 base construction Methods 0.000 title claims abstract description 6
- 230000006916 protein interaction Effects 0.000 title abstract 8
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 169
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 169
- 230000003993 interaction Effects 0.000 claims abstract description 3
- 230000002452 interceptive effect Effects 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 41
- 239000000284 extract Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 235000010586 Sophora japonica Nutrition 0.000 claims description 2
- 244000046101 Sophora japonica Species 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000013011 mating Effects 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract 1
- 108700013575 Drosophila e1 Proteins 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 108010068370 Glutens Proteins 0.000 description 2
- 101001091203 Homo sapiens Peptidyl-prolyl cis-trans isomerase E Proteins 0.000 description 2
- 101000668058 Infectious salmon anemia virus (isolate Atlantic salmon/Norway/810/9/99) RNA-directed RNA polymerase catalytic subunit Proteins 0.000 description 2
- 102100034844 Peptidyl-prolyl cis-trans isomerase E Human genes 0.000 description 2
- 108010020062 Peptidylprolyl Isomerase Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种基于生物医学文献的蛋白质交互关系数据库构建方法,属于自然语言处理领域。蛋白质交互关系数据库构建方法如下:基于词表示方法的生物医学命名实体识别功能;整合多种有效方法的多阶段蛋白质名称标准化功能;基于多种方法融合的指代消解功能;基于词表示的蛋白质交互关系抽取功能以及基于B/S模式的提供图形交互界面的在线系统和蛋白质交互关系数据库。使用本发明可以对用户待解析的生物医学文本进行生物医学命名实体的识别、标准化、指代消解和蛋白质交互关系的自动抽取;本发明为用户提供蛋白质交互关系数据检索的服务和蛋白质交互关系数据库。
Description
技术领域
本发明属于信息抽取领域,涉及一种基于生物医学文本进行高质量的蛋白质名称识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取的方法,具体是指基于词表示的蛋白质名称识别、融合多种方法的蛋白质名称标准化和指代消解以及蛋白质交互关系抽取。
背景技术
构建基于生物医学文献的蛋白质交互关系数据库分为蛋白质名称识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取四个步骤。
蛋白质名称识别属于生物医学命名实体识别(BiomedicalNamedEntityRecognition,Bio-NER),是蛋白质交互关系数据库构建的必要前提。生物医学命名实体识别是指识别文本中具有特定意义的生物医学实体,目前使用最广泛的基于机器学习方法的基本过程包括:语料预处理、抽取特征、模型训练、预测。机器学习构建模型的方法主要包括:隐马尔可夫模型(HMM)、支持向量机模型(SVM)、最大熵马尔可夫模型(MEMM)、条件随机域模型(CRF)等。例如,ABNER(http://pages.cs.wisc.edu/~bsettles/abner/)是一个标准的命名实体识别软件工具,其核心基于线性链CRF。为减少人工抽取特征的代价,半监督学习也被引入到机器学习方法中。李彦鹏等(IncorporatingRichBackgroundKnowledgeforGeneNamedEntityClassificationandRecognition,2009,BMCBioinformatics)从获得的海量未标注数据中提取有用信息,然后将其作为特征提高监督学习的效果,在BioCreativeII中取得F值为89.05%。
蛋白质名称标准化是指为解决由于物种间的蛋白质歧义、缩写所产生的问题,给蛋白质确定其在数据库中的唯一ID的过程。通常情况下,蛋白质名称标准化任务能够被分解为如下四个子任务:预处理、词典查询、歧义消解和过滤。例如,Hakenberg等(Genementionnormalizationandinteractionextractionwithcontextmodelsandsentencemotifs[J].GenomeBiology,2008)抽取了丰富的背景知识来构建语义轮廓,然后使用文本和背景知识向量(语义轮廓)计算相似度,再依据相似度值来区分正确或者错误的映射关系对。
共指是一种有关现实世界中相同实体的语言表达方式。找到文本中具有共指关系的共指链(包括照应语和先行词)的过程,被称为指代消解,该任务对蛋白质交互关系的抽取具有重要提升作用。生物医学领域指代消解方法可以分为三类:基于规则的方法,基于统计机器学习的方法,以及规则与统计相结合的方法。Souza等(SOUZAJD,NGV.Anaphoraresolutioninbiomedicalliterature:ahybridapproach[C].ProceedingsoftheACMConferenceonBioinformatics,ComputationalBiologyandBiomedicine,2012:113-122.)将照应语划分为关系代词、人称代词、限定性代词和名词短语四类,每一类都采用了多种方法融合的策略。最终,达到目前最好的结果,在BioNLP-2011开发集上的F值为67.4%,测试集上为60.9%。
蛋白质交互关系抽取(Protein-ProteinInteractionExtraction,PPIE)目的是判断两个蛋白质之间是否存在交互关系,是构建蛋白质交互关系数据库的核心步骤。蛋白质交互关系可以被看成是一个三元组,Relation<Protein1,Protein2,type>,其中Protein1和Protein2表示两个蛋白质实体,type表示关系类型(有关系或者无关系两类)。基于特征的机器学习方法利用大量的语言特征,如词法、语法、语义等特征来表示关系实例,从而完成抽取任务。Miwa等(ArichfeaturevectorforProtein-ProteinInteractionextractionfrommultiplecorpora,2009,Proceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,121-130)提出了一种基于丰富特征向量的SVM-CW方法,抽取了词袋特征、最短路径特征和图特征用于学习。该方法能够同时在多个数据集上进行学习,在五个公共语料AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了64.2%,68.3%,74.9%,76.6%,84.1%。基于核函数的方法可以利用依存解析树等结构化信息,Miwa等(Protein–proteininteractionextractionbyleveragingmultiplekernelsandparsers,2009,Internationaljournalofmedicalinformatics,39-46)通过把不同句法解析器的输出结果结合起来,获得一个多层次的抽取模型,在上述五个语料上F值分别达到了60.8%,68.1%,70.9%,71.7%,80.1%。
对于实际的PPIE在线系统,大都采用基于特征的统计机器学习的方法。Kim等(PIE:anonlinepredictionsystemforprotein-proteininteractionsfromtext,2008,NucleicAcidsResearch,411-415)建立了在线蛋白质交互关系抽取系统PIE,可以让用户以文本输入或上传文件的格式进行访问,系统能识别出文本中的蛋白质名称,并输出蛋白质交互关系,最后允许用户对系统的分析结果进行评价。该系统借助词汇信息和句法信息,对文档中的蛋白质交互关系对进行打分并显示。
目前己有的蛋白质交互关系数据库整合的最大障碍就是这些数据库结构和规范不一致性。建立有统一规范的蛋白质名称数据库、蛋白质交互关系数据库,可以从大量的生物医学文献中找到对医学相关研究有价值的信息,减少生物医学工作者和数据库管理人员的工作压力,让生物医学研究人员更专注生物医学本身的研究,提高实验效率,加速研究进程。
发明内容
本发明提供了一种基于词表示的蛋白质名称识别、融合多种方法的蛋白质名称标准化和指代消解以及蛋白质交互关系抽取系统,最终以蛋白质交互关系数据库的形式表现,建立了有统一规范的蛋白质名称数据库、蛋白质交互关系数据库,提高了现有蛋白质交互关系抽取的性能。
本发明采用如下的技术方案如下:
(一)构建基于滑动窗口的输入向量
对句长为N的句子进行实体识别,当滑动窗口大小为M时,对识别后句子中的每个词依次构造输入向量,将滑动窗口内所有词的输入向量相连作为当前词的输入向量;每个词的输入向量通过word2vec工具所提供的Skip-gram语言模型在未标记语料上训练得到。
例如:当窗口M取3时,对于词w1而言,选用<None>,w1,w2对应的向量依次相接作为w1的输入向量。其中<None>是为填补首位位置窗口空白设计的补位符,对应的向量为0向量,如表1所示。
表1
(二)构建基于词表示方法的蛋白质名称识别框架
蛋白质名称识别中运用到的词特征包括单词、词干、词性特征、组块特征、专业领域特征、构成形态特征、高频词特征、词长特征、词形特征、触发词特征、前后缀特征、拼写特征等。为了获取优化特征子集,采用SVM-RFE方法进行特征选择。
利用未标注语料数据进行半监督学习,用以下三种方法识别蛋白质名称:
1、分布式词表示方法:与构建基于滑动窗口的输入向量方法一致;
2、向量聚类方法:用K-means算法对词向量进行聚类,K-means算法是在Word2Vec学习到的词向量基础上进行聚类,使向量空间分布相近的词被聚为同一簇;例如:K-means算法的迭代次数设置为1000,聚类个数设置为其中|V|=1500000是单词个数。由于聚类个数设为1732,词袋特征中的每个词的所属类别都由1到1732中的某个数字标记。词特征中的所有词对应的聚类结果形成一个集合构成了向量聚类特征;
3、布朗聚类方法:布朗聚类方法的输入与向量聚类方法的输入相同。聚类个数也设为1732。经过布朗聚类算法层层迭代,语义相近的词被聚到同一父节点中,结果如表2所示。与向量聚类特征相同,词特征中所有词对应的布朗聚类结果形成一个集合作为布朗聚类特征。
表2布朗聚类结果示例
路径 | 单词 |
0100001100 | diminution,elevations,reductions,alteration |
01000011011 | fall,delay,rise,decrease |
0100011100 | suggestion,assumption,notion,idea,concept |
010011011111 | edge,face,ends,end,terminus |
01001110101 | trigger,causes,cause |
先将三种词表示和经过选择的基础特征送入SVM,然后将三种词表示、基础特征和SVM模型的最佳分类结果组合作为CRF模型的特征进行序列标注,进而识别出蛋白质。如图1为基于词向量的蛋白质名称识别框架图。
(三)蛋白质名称标准化
为避免蛋白质歧义、缩写等问题,针对识别出的蛋白质进行蛋白质名称标准化。原始词典由PubMed数据库中已登录的蛋白质名称相关信息构成,并用GDB、OMIM等不同物种的生物术语库词典扩充。
蛋白质名称标准化过程包括预处理、词典查询、歧义消解和过滤;预处理阶段为蛋白质名称识别过程;若在预处理阶段,生物医学文献中蛋白质被识别,在词典中运用精确匹配和模糊匹配结合的查询方法,将蛋白质映射到蛋白质标识符ID,构建完整的候选蛋白质标识符映射列表;通过相似度算法对上述列表中存在歧义的映射关系进行歧义消解,对于每个存在歧义的映射关系对,使用蛋白质的上下文信息和蛋白质标识符的扩展语义信息进行相似度计算,并对相似度进行排序,选择相似度值最高的作为蛋白质所对应的ID;然后,对蛋白质名称标准化过程中产生的噪音(负例)进行过滤。如图2为蛋白质名称标准化流程图。
(四)蛋白质名称指代消解
指代消解是提高蛋白质交互关系抽取性能的一个重要的步骤,本专利采用融合的方法,针对不同的情况采用不同的消解方法。指代消解分为两个阶段,第一个阶段是基于规则的候选照应语和先行词的抽取。第二个阶段是为照应语选择合适的先行词,采用基于普通特征的机器学习方法和基于句法解析树的方法相融合的方法进行指代消解。首先,进行基于规则的候选照应语和先行词的抽取。对句子和名词短语分别编号,用Enju解析器对编号的句子进行解析分句,得到Predicate格式、Stand-off格式和XML格式三种格式的输出结果,分别从这三种输出结果中获取作为宾语从句、同位语从句、固定句式中的“that”、名词短语、头词和句法解析树;进行基于规则的照应语和先行词的抽取,运用不同规则对抽取出的代词和名词短语进行过滤,规则如下表3。
表3照应语和先行词抽取规则
其次,采用两种消解方法为照应语选择合适的先行词,包括基于普通特征的机器学习方法(Mention-Ranking模型)和基于句法解析树的方法。
对代词照应语的消解,主要采用了基于普通特征的机器学习方法和基于句法解析树的方法。基于普通特征的机器学习方法共抽取照应语的单复数特征、照应语的类型特征、先行词的单复数特征、照应语和候选先行词单复数一致性特征、句子跨度指标(照应语与候选先行词之间间隔的句子个数)和名词短语跨度指标(照应语和候选先行词之间间隔的名词短语个数)六类特征;对关系代词还可以采用基于句法解析树的方法,把句子转换为宾州树库格式的句法解析树,然后抽取照应语和先行词的上下文信息,包括语法信息和词汇等信息。最后将提取的特征数字化,送入SVMranker工具包进行指代消解。
对名词短语的消解,只采用基于普通特征的机器学习方法,除代词照应语消解所使用的六类特征外,还采用了头词匹配特征和先行词包含蛋白质特征,然后将特征数字化,送入SVMranker工具包进行指代消解。
(五)蛋白质交互关系抽取
蛋白质交互关系抽取分为特征抽取、数字化和交互关系判定三个步骤。在特征抽取阶段,共抽取词袋、词表示和句法树三类特征:
(1)词袋特征
1、蛋白质特征(P):一个PPI实例中涉及到的两个蛋白质名;
2、上下文特征(C):在窗口中的蛋白质周围的词(不包含蛋白质本身);
3、中间词特征(B):在两个蛋白质之间的词;
4、关键词特征(K):通过匹配交互词词典,查询得到可以使两个蛋白质蕴含直接交互关系的词。
(2)词表示特征(与蛋白质名称识别使用的三种词向量特征相同)
(3)句法树
首先,使用斯坦福解析器解析得到一个句子的完整句法树(CompleteTree,CT),然后,对CT进行裁剪,得到最小完整树(MinimumCompleteTree,MCT)和最短路径树(ShortestPathenclosedTree,SPT),SPT树仅由两个蛋白质名称的最短路径信息构成。
当句子较为简单时,例如句子“PROTEIN_1andPROTEIN_2interactwitheachother”,“interact”是句子至关重要的组成部分,能够直接反映出“PROTEIN_1”和“PROTEIN_2”交互关系,SPT会将“interact”裁剪掉,仅保留“PROTEIN_1”和“PROTEIN_2”的最短路径“PROTEIN_1andPROTEIN_2”。针对上述问题,对SPT进行补充,扩展后的树为动态扩展树(DynamicExtendedTree,DET),具体扩展策略为:
(1)如果SPT树中,节点个数少于7,并且SPT树不同于MCT树,则选定MCT树作为DET树;
(2)如果SPT树中,节点个数不少于7,并且SPT树不同于MCT树,则选定SPT树作为DET树。
然后,将词袋特征和词表示特征进行数字化,与动态扩展树构成的树核一起送入SVM-Light-TK工具包判断候选蛋白质对是否存在交互关系。最终,便构建出了融合词袋特征、词表示特征和树核的用于蛋白质交互关系抽取的框架。
(六)蛋白质交互关系数据库构建
通过上述方法获取构建蛋白质交互关系数据库所需的信息,同时,在每个阶段完成后,都进行人工矫正;构建的蛋白质交互关系数据库包含蛋白质表和蛋白质交互关系表,蛋白质表和蛋白质交互关系表包括候选蛋白质、蛋白质标识符ID、蛋白质候选关系对。如图3为蛋白质交互关系数据库构建流程图。
所述的基于普通特征的机器学习方法为Mention-Ranking模型。
本发明构建了一套蛋白质名称识别、标准化、指代消解和蛋白质交互关系抽取的在线系统,为研究者提供实时查询服务,并构建蛋白质交互关系数据库。蛋白质交互关系抽取是对生物医学文献进行潜在语义的预测,其目的是判断两个蛋白质之间是否存在关系。作为生物医学文本挖掘的重要分支之一,蛋白质交互关系抽取技术具有很高的应用价值,对蛋白质知识网络的建立、本体的构建等任务具有重要意义。
本发明的有益效果是:在传统方法的基础上提升了特征的表达能力和泛化能力,能够帮助生物医学领域研究者对文本进行自动分析,并提供对已知蛋白质名称和蛋白质交互关系检索的功能,帮助他们对蛋白质交互关系进行研究和分析。
附图说明
图1基于词向量的蛋白质名称识别框架图。
图2蛋白质名称标准化流程图。
图3蛋白质交互关系数据库构建流程图。
图4数据库E-R图。
图5蛋白质交互关系显示结果图。
具体实施方式
本发明的系统能够对给定文本进行自动的蛋白质名称识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取,极大方便了研究者从大量的文献中寻找蛋白质的交互关系。系统采用B/S(Browser/Server,浏览器/服务器模式,主要采用JSP、HTML、JS等技术实现)结构设计,分为视图层,逻辑层和数据层三部分。
表4系统结构
1、用户输入待解析文本
如表4所示,文本输入支持键盘输入和上传本地文件两种方式,由视图层接受用户输入的待检索文本,提交给逻辑层,并存入数据层。假设用户待解析的文本为“WefindthathTAFII32,whichisthehumanhomologueofDrosophilaTAFII40.”,用户则可以选择1、通过页面文本框直接输入上述文本或者2、将上述文本保存为txt、doc等格式,通过文件的形式上传。前者适合短文本或者测试使用,后者则适合大文本处理。
2、系统对待解析文本进行解析
该功能的实现需要系统的逻辑层和数据库层的协调工作,具体如下:
(1)逻辑层对待解析文本进行断句、分词等预处理后,将上述文本分解为一个含有14个token的句子(含标点);如前文所述,利用滑动窗口将其转换为14个向量,并依次输入基于词向量的蛋白质名称识别框架,逐层计算后经过全局条件概率得到最优的标记序列“OOOBOOOOOOOBIO”,即识别出蛋白质“hTAFII32”和“DrosophilaTAFII40”。在解析时不需要进行训练,而是用训练好的参数直接得到结果。
(2)步骤(1)完成了蛋白质名称识别的工作,接下来进行蛋白质标名称的标准化,如“HTAFII32”的蛋白质ID为“8148”,“DrosophilaTAFII40”的蛋白质ID为“32762”。
(3)指代消解,在(2)的基础上首先抽取照应语(Anaphora)和先行词(Antecedent),照应语和先行词分别为“T1which”和“T2HTAFII32”,然后进行消解,消解链用“R”加一个序号的形式标识。例如:“R1CorefAnaphora:T2Antecedent”,经过指代消解后句子变为“WefindthathTAFII32isthehumanhomologueofDrosophilaTAFII40.”。
(4)蛋白质交互关系的提取。首先在(3)的基础上构建PPI实例,即目标为,利用机器学习针对上述待解析文本来判断“hTAFII32”和“DrosophilaTAFII40”是否暗含着交互关系。然后系统提取前后词(thatisof.)、中间词(isthehumanhomologueof)、蛋白质(hTAFII32DrosophilaTAFII40)等特征,上述特征为词袋特征;根据由word2vec工具训练得到词向量将这些特征转换为向量,由此得到词表示特征;利用句法树拓展策略,得到句法树特征,通过SVM-Light-TK工具进行分类,最终得到蛋白质交互关系抽取的结果,即“hTAFII32”和“DrosophilaTAFII40”是一对具有交互关系的蛋白质对。
(5)将(1)-(4)蛋白质名称识别、标准化、指代消解和交互关系抽取的结果交由数据层进行存储,同时由视图层将可视化结果反馈给用户,并构建蛋白质交互关系数据库。数据库的E-R图如图4、数据库设计如表5所示:
3、用户对蛋白质进行检索
当系统完成了对输入文本的蛋白质名称识别与蛋白质交互关系抽取后,系统将蛋白质交互关系对以交互关系网络的形式展示。用户如果想对特定蛋白质进行检索,如用户想知道蛋白质“glutelin”与其他蛋白质的交互关系,在检索栏输入“glutelin”后将得到如图5所示的以其为中心的蛋白质网络,网络中的每个点代表一个蛋白质,如果两点之间有连线,说明所代表的两个蛋白质具有交互关系。系统允许用户将任何一个蛋白质作为网络的中心,鼠标移动点击某个蛋白质,网络就聚焦到被点击的蛋白质上,并显示蛋白质交互关系数据库中该蛋白质的信息。如图5为蛋白质交互关系显示结果图。
表5数据库表
Claims (2)
1.一种基于生物医学文献的蛋白质交互关系数据库构建方法,其特征在于,步骤如下:
(一)构建基于滑动窗口的输入向量
对句长为N的句子进行实体识别,当滑动窗口大小为M时,对识别后句子中的每个词依次构造输入向量,将滑动窗口内所有词的输入向量相连作为当前词的输入向量;每个词的输入向量通过word2vec工具所提供的Skip-gram语言模型在未标记语料上训练得到;
(二)构建基于词表示方法的蛋白质名称识别框架
蛋白质名称识别中运用到的词特征包括单词、词干、词性特征、组块特征、专业领域特征、构成形态特征、高频词特征、词长特征、词形特征、触发词特征、前后缀特征和拼写特征;采用SVM-RFE方法进行特征选择,获取优化特征子集;
利用未标注语料数据进行半监督学习,用以下三种词表示方法识别蛋白质名称:
(1)分布式词表示方法:与构建基于滑动窗口的输入向量方法一致;
(2)向量聚类方法:用K-means算法对词向量进行聚类,K-means算法是在Word2Vec学习到的词向量基础上进行聚类,使向量空间分布相近的词被聚为同一簇;词特征中的所有词对应的聚类结果形成一个集合构成了向量聚类特征;
(3)布朗聚类方法:布朗聚类方法的输入与向量聚类方法的输入相同,经过布朗聚类方法层层迭代,语义相近的词被聚到同一父节点中;与向量聚类特征相同,词特征中所有词对应的布朗聚类结果形成一个集合作为布朗聚类特征;
先将三种词表示方法和经过选择的词特征输入SVM模型,然后将三种词表示方法、词特征和SVM模型的最佳分类结果组合作为CRF模型的特征进行序列标注,得识别出的蛋白质;
所述的SVM模型的最佳分类结果组合是F值最高的组合;
(三)蛋白质名称标准化
词典是由原始词典、GDB数据库与OMIM数据库的生物术语库词典组成,原始词典由PubMed数据库中已登录的蛋白质名称相关信息构成;
蛋白质名称标准化过程包括预处理、词典查询、歧义消解和过滤;
预处理阶段为蛋白质名称识别过程;
词典查询阶段:若在预处理阶段,蛋白质名称被识别,在词典中运用精确匹配和模糊匹配结合的查询方法,将蛋白质映射到蛋白质标识符ID,构建完整的候选蛋白质标识符映射列表;
歧义消解阶段:通过相似度算法对候选蛋白质标识符映射列表中存在歧义的映射关系进行歧义消解,对于每个存在歧义的映射关系对,使用蛋白质的上下文信息和蛋白质标识符的扩展语义信息进行相似度计算,并对相似度进行排序,选择相似度值最高的作为蛋白质所对应的ID;
过滤阶段:对蛋白质名称标准化过程中产生的噪音进行过滤;
(四)蛋白质名称指代消解
蛋白质名称指代消解用于提高蛋白质交互关系抽取性能,采用融合的方法;
指代消解分为两个阶段:第一个阶段是基于规则的候选照应语和先行词的抽取:对句子和名词短语分别编号,用Enju解析器对编号的句子进行解析分句,得到Predicate格式、Stand-off格式和XML格式三种格式的输出结果,分别从这三种输出结果中获取作为宾语从句、同位语从句、固定句式中的“that”、名词短语、头词和句法解析树;进行基于规则的照应语和先行词的抽取,运用不同规则对抽取出的代词和名词短语进行过滤,规则如下:
第二个阶段是为照应语选择合适的先行词,采用基于普通特征的机器学习方法和基于句法解析树的方法相融合的方法进行指代消解;
对代词照应语的消解,采用基于普通特征的机器学习方法或基于句法解析树的方法;基于普通特征的机器学习方法抽取照应语的单复数特征、照应语的类型特征、先行词的单复数特征、照应语和候选先行词单复数一致性特征、句子跨度指标和名词短语跨度指标六类特征;对关系代词采用基于句法解析树的方法,把句子转换为宾州树库格式的句法解析树,然后抽取照应语和先行词的上下文信息,包括语法信息和词汇两类特征;最后将上述提取的特征数字化,输入SVMranker工具包进行指代消解;所述的句子跨度指标为照应语与候选先行词之间间隔的句子个数,所述的名词短语跨度指标为照应语和候选先行词之间间隔的名词短语个数;
对名词短语的消解,采用基于普通特征的机器学习方法,除代词照应语消解所使用的六类特征外,还采用了头词匹配特征和先行词包含蛋白质特征,然后将特征数字化,输入SVMranker工具包进行指代消解;
(五)蛋白质交互关系抽取
蛋白质交互关系抽取分为特征抽取、数字化和交互关系判定三个步骤;
特征抽取阶段,抽取词袋、词表示和句法树三类特征:
(1)词袋特征
1)蛋白质特征P:一个蛋白质交互关系实例涉及到的两个蛋白质名;
2)上下文特征C:在窗口中的蛋白质周围的词,不包含蛋白质本身;
3)中间词特征B:在两个蛋白质之间的词;
4)关键词特征K:通过匹配交互词词典,查询得到使两个蛋白质蕴含直接交互关系的词;
(2)词表示特征,与蛋白质名称识别使用的三种词向量特征相同;
(3)句法树
首先,使用斯坦福解析器解析得到一个句子的完整句法树CT,然后,对CT进行裁剪,得到最小完整树MCT和最短路径树SPT,SPT树仅由两个蛋白质名称的最短路径信息构成;
当SPT树过于简单时,对SPT树进行扩展,具体扩展策略为:
(1)如果SPT树中,节点个数少于7,并且SPT树不同于MCT树,则选定MCT树作为动态扩展树DET树;
(2)如果SPT树中,节点个数不少于7,并且SPT树不同于MCT树,则选定SPT树作为动态扩展树DET树;
然后,将词袋特征和词表示特征进行数字化,与动态扩展树构成的树核一起输入SVM-Light-TK工具包判断候选蛋白质对是否存在交互关系;最终,构建出融合词袋特征、词表示特征和树核的用于蛋白质交互关系抽取的框架;
(六)蛋白质交互关系数据库构建
通过上述方法获取构建蛋白质交互关系数据库所需的信息,同时,在每个阶段完成后,都进行人工矫正;构建的蛋白质交互关系数据库包含蛋白质表和蛋白质交互关系表,蛋白质表和蛋白质交互关系表包括候选蛋白质、蛋白质标识符ID、蛋白质候选关系对。
2.根据权利要求1所述的蛋白质交互关系数据库构建方法,其特征在于,所述的基于普通特征的机器学习方法为Mention-Ranking模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510617020.8A CN105138864B (zh) | 2015-09-24 | 2015-09-24 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510617020.8A CN105138864B (zh) | 2015-09-24 | 2015-09-24 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105138864A true CN105138864A (zh) | 2015-12-09 |
CN105138864B CN105138864B (zh) | 2017-10-13 |
Family
ID=54724209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510617020.8A Expired - Fee Related CN105138864B (zh) | 2015-09-24 | 2015-09-24 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138864B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808525A (zh) * | 2016-03-29 | 2016-07-27 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN106022000A (zh) * | 2016-05-11 | 2016-10-12 | 大连理工大学 | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 |
CN106484676A (zh) * | 2016-09-30 | 2017-03-08 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
CN106570179A (zh) * | 2016-11-10 | 2017-04-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN108090215A (zh) * | 2017-12-29 | 2018-05-29 | 安徽方正医疗信息技术有限公司 | 一种画面可配置的数据抽取方法 |
CN108595408A (zh) * | 2018-03-15 | 2018-09-28 | 中山大学 | 一种基于端到端神经网络的指代消解方法 |
CN109635046A (zh) * | 2019-01-15 | 2019-04-16 | 金陵科技学院 | 一种基于CRFs的蛋白质分子名称分析与识别方法 |
CN110929105A (zh) * | 2019-11-28 | 2020-03-27 | 杭州云徙科技有限公司 | 一种基于大数据技术的用户id关联方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020168664A1 (en) * | 1999-07-30 | 2002-11-14 | Joseph Murray | Automated pathway recognition system |
WO2005116866A1 (en) * | 2004-05-28 | 2005-12-08 | Agency For Science, Technology And Research | Method and system for word sequence processing |
US20130262091A1 (en) * | 2012-03-30 | 2013-10-03 | The Florida State University Research Foundation, Inc. | Automated extraction of bio-entity relationships from literature |
CN104298651A (zh) * | 2014-09-09 | 2015-01-21 | 大连理工大学 | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 |
CN104657626A (zh) * | 2015-02-25 | 2015-05-27 | 苏州大学 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
-
2015
- 2015-09-24 CN CN201510617020.8A patent/CN105138864B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020168664A1 (en) * | 1999-07-30 | 2002-11-14 | Joseph Murray | Automated pathway recognition system |
WO2005116866A1 (en) * | 2004-05-28 | 2005-12-08 | Agency For Science, Technology And Research | Method and system for word sequence processing |
US20130262091A1 (en) * | 2012-03-30 | 2013-10-03 | The Florida State University Research Foundation, Inc. | Automated extraction of bio-entity relationships from literature |
CN104298651A (zh) * | 2014-09-09 | 2015-01-21 | 大连理工大学 | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 |
CN104657626A (zh) * | 2015-02-25 | 2015-05-27 | 苏州大学 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
Non-Patent Citations (3)
Title |
---|
LISHUANG LI ET AL ;: "《Improving Kernel-Based Protein-Protein Interaction Extraction by Unsupervised Word Representation》", 《2014 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》 * |
张丽君 等;: "《基于双代价参数SVM 的生物医学文本指代消解研究》", 《大连理工大学学报》 * |
李丽双: "《领域本体学习中术语及关系抽取方法的研究》", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808525B (zh) * | 2016-03-29 | 2018-06-29 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN105808525A (zh) * | 2016-03-29 | 2016-07-27 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN106022000A (zh) * | 2016-05-11 | 2016-10-12 | 大连理工大学 | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 |
CN106022000B (zh) * | 2016-05-11 | 2018-06-08 | 大连理工大学 | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 |
CN106484676A (zh) * | 2016-09-30 | 2017-03-08 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
CN106484676B (zh) * | 2016-09-30 | 2019-04-12 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
CN106570179B (zh) * | 2016-11-10 | 2019-11-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN106570179A (zh) * | 2016-11-10 | 2017-04-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN107122352B (zh) * | 2017-05-18 | 2020-04-07 | 成都四方伟业软件股份有限公司 | 一种基于k-means、word2vec的抽取关键词的方法 |
CN108090215A (zh) * | 2017-12-29 | 2018-05-29 | 安徽方正医疗信息技术有限公司 | 一种画面可配置的数据抽取方法 |
CN108595408A (zh) * | 2018-03-15 | 2018-09-28 | 中山大学 | 一种基于端到端神经网络的指代消解方法 |
CN109635046A (zh) * | 2019-01-15 | 2019-04-16 | 金陵科技学院 | 一种基于CRFs的蛋白质分子名称分析与识别方法 |
CN109635046B (zh) * | 2019-01-15 | 2023-04-18 | 金陵科技学院 | 一种基于CRFs的蛋白质分子名称分析与识别方法 |
CN110929105A (zh) * | 2019-11-28 | 2020-03-27 | 杭州云徙科技有限公司 | 一种基于大数据技术的用户id关联方法 |
CN110929105B (zh) * | 2019-11-28 | 2022-11-29 | 广东云徙智能科技有限公司 | 一种基于大数据技术的用户id关联方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105138864B (zh) | 2017-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN105138864A (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN112183059B (zh) | 一种中文结构化事件抽取方法 | |
Suleiman et al. | The use of hidden Markov model in natural ARABIC language processing: a survey | |
CN104298651A (zh) | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 | |
CN107818141A (zh) | 融入结构化要素识别的生物医学事件抽取方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN111949774A (zh) | 一种智能问答方法和系统 | |
CN111353306A (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN113806531A (zh) | 药物关系分类模型构建方法、药物关系分类方法及系统 | |
JP4333318B2 (ja) | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
CN104881399A (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN109543036A (zh) | 基于语义相似度的文本聚类方法 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 | |
CN106484676B (zh) | 基于句法树和领域特征的生物文本蛋白质指代消解方法 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
Ge et al. | A Novel Chinese Domain Ontology Construction Method for Petroleum Exploration Information. | |
Loglisci et al. | Toward geographic information harvesting: Extraction of spatial relational facts from Web documents | |
Di Castro et al. | Automated extractions for machine generated mail | |
JPH1196177A (ja) | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171013 |
|
CF01 | Termination of patent right due to non-payment of annual fee |