CN105138864B - 基于生物医学文献的蛋白质交互关系数据库构建方法 - Google Patents

基于生物医学文献的蛋白质交互关系数据库构建方法 Download PDF

Info

Publication number
CN105138864B
CN105138864B CN201510617020.8A CN201510617020A CN105138864B CN 105138864 B CN105138864 B CN 105138864B CN 201510617020 A CN201510617020 A CN 201510617020A CN 105138864 B CN105138864 B CN 105138864B
Authority
CN
China
Prior art keywords
protein
feature
word
interactive relation
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510617020.8A
Other languages
English (en)
Other versions
CN105138864A (zh
Inventor
李丽双
郑洁琼
秦美越
蒋振超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201510617020.8A priority Critical patent/CN105138864B/zh
Publication of CN105138864A publication Critical patent/CN105138864A/zh
Application granted granted Critical
Publication of CN105138864B publication Critical patent/CN105138864B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于生物医学文献的蛋白质交互关系数据库构建方法,属于自然语言处理领域。蛋白质交互关系数据库构建方法如下:基于词表示方法的生物医学命名实体识别功能;整合多种有效方法的多阶段蛋白质名称标准化功能;基于多种方法融合的指代消解功能;基于词表示的蛋白质交互关系抽取功能以及基于B/S模式的提供图形交互界面的在线系统和蛋白质交互关系数据库。使用本发明可以对用户待解析的生物医学文本进行生物医学命名实体的识别、标准化、指代消解和蛋白质交互关系的自动抽取;本发明为用户提供蛋白质交互关系数据检索的服务和蛋白质交互关系数据库。

Description

基于生物医学文献的蛋白质交互关系数据库构建方法
技术领域
本发明属于信息抽取领域,涉及一种基于生物医学文本进行高质量的蛋白质名称识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取的方法,具体是指基于词表示的蛋白质名称识别、融合多种方法的蛋白质名称标准化和指代消解以及蛋白质交互关系抽取。
背景技术
构建基于生物医学文献的蛋白质交互关系数据库分为蛋白质名称识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取四个步骤。
蛋白质名称识别属于生物医学命名实体识别(Biomedical Named EntityRecognition,Bio-NER),是蛋白质交互关系数据库构建的必要前提。生物医学命名实体识别是指识别文本中具有特定意义的生物医学实体,目前使用最广泛的基于机器学习方法的基本过程包括:语料预处理、抽取特征、模型训练、预测。机器学习构建模型的方法主要包括:隐马尔可夫模型(HMM)、支持向量机模型(SVM)、最大熵马尔可夫模型(MEMM)、条件随机域模型(CRF)等。例如,ABNER(http://pages.cs.wisc.edu/~bsettles/abner/)是一个标准的命名实体识别软件工具,其核心基于线性链CRF。为减少人工抽取特征的代价,半监督学习也被引入到机器学习方法中。李彦鹏等(Incorporating Rich Background Knowledgefor Gene Named Entity Classification and Recognition,2009,BMC Bioinformatics)从获得的海量未标注数据中提取有用信息,然后将其作为特征提高监督学习的效果,在BioCreative II中取得F值为89.05%。
蛋白质名称标准化是指为解决由于物种间的蛋白质歧义、缩写所产生的问题,给蛋白质确定其在数据库中的唯一ID的过程。通常情况下,蛋白质名称标准化任务能够被分解为如下四个子任务:预处理、词典查询、歧义消解和过滤。例如,Hakenberg等(Genemention normalization and interaction extraction with context models andsentence motifs[J].Genome Biology,2008)抽取了丰富的背景知识来构建语义轮廓,然后使用文本和背景知识向量(语义轮廓)计算相似度,再依据相似度值来区分正确或者错误的映射关系对。
共指是一种有关现实世界中相同实体的语言表达方式。找到文本中具有共指关系的共指链(包括照应语和先行词)的过程,被称为指代消解,该任务对蛋白质交互关系的抽取具有重要提升作用。生物医学领域指代消解方法可以分为三类:基于规则的方法,基于统计机器学习的方法,以及规则与统计相结合的方法。Souza等(SOUZA J D,NG V.Anaphoraresolution in biomedical literature:a hybrid approach[C].Proceedings of theACM Conference on Bioinformatics,Computational Biology and Biomedicine,2012:113-122.)将照应语划分为关系代词、人称代词、限定性代词和名词短语四类,每一类都采用了多种方法融合的策略。最终,达到目前最好的结果,在BioNLP-2011开发集上的F值为67.4%,测试集上为60.9%。
蛋白质交互关系抽取(Protein-Protein Interaction Extraction,PPIE)目的是判断两个蛋白质之间是否存在交互关系,是构建蛋白质交互关系数据库的核心步骤。蛋白质交互关系可以被看成是一个三元组,Relation<Protein1,Protein2,type>,其中Protein1和Protein2表示两个蛋白质实体,type表示关系类型(有关系或者无关系两类)。基于特征的机器学习方法利用大量的语言特征,如词法、语法、语义等特征来表示关系实例,从而完成抽取任务。Miwa等(A rich feature vector for Protein-ProteinInteraction extraction from multiple corpora,2009,Proceedings of the2009Conference on Empirical Methods in Natural Language Processing,121-130)提出了一种基于丰富特征向量的SVM-CW方法,抽取了词袋特征、最短路径特征和图特征用于学习。该方法能够同时在多个数据集上进行学习,在五个公共语料AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了64.2%,68.3%,74.9%,76.6%,84.1%。基于核函数的方法可以利用依存解析树等结构化信息,Miwa等(Protein–protein interactionextraction by leveraging multiple kernels and parsers,2009,Internationaljournal of medical informatics,39-46)通过把不同句法解析器的输出结果结合起来,获得一个多层次的抽取模型,在上述五个语料上F值分别达到了60.8%,68.1%,70.9%,71.7%,80.1%。
对于实际的PPIE在线系统,大都采用基于特征的统计机器学习的方法。Kim等(PIE:an online prediction system for protein-protein interactions from text,2008,Nucleic Acids Research,411-415)建立了在线蛋白质交互关系抽取系统PIE,可以让用户以文本输入或上传文件的格式进行访问,系统能识别出文本中的蛋白质名称,并输出蛋白质交互关系,最后允许用户对系统的分析结果进行评价。该系统借助词汇信息和句法信息,对文档中的蛋白质交互关系对进行打分并显示。
目前己有的蛋白质交互关系数据库整合的最大障碍就是这些数据库结构和规范不一致性。建立有统一规范的蛋白质名称数据库、蛋白质交互关系数据库,可以从大量的生物医学文献中找到对医学相关研究有价值的信息,减少生物医学工作者和数据库管理人员的工作压力,让生物医学研究人员更专注生物医学本身的研究,提高实验效率,加速研究进程。
发明内容
本发明提供了一种基于词表示的蛋白质名称识别、融合多种方法的蛋白质名称标准化和指代消解以及蛋白质交互关系抽取系统,最终以蛋白质交互关系数据库的形式表现,建立了有统一规范的蛋白质名称数据库、蛋白质交互关系数据库,提高了现有蛋白质交互关系抽取的性能。
本发明采用如下的技术方案如下:
(一)构建基于滑动窗口的输入向量
对句长为N的句子进行实体识别,当滑动窗口大小为M时,对识别后句子中的每个词依次构造输入向量,将滑动窗口内所有词的输入向量相连作为当前词的输入向量;每个词的输入向量通过word2vec工具所提供的Skip-gram语言模型在未标记语料上训练得到。
例如:当窗口M取3时,对于词w1而言,选用<None>,w1,w2对应的向量依次相接作为w1的输入向量。其中<None>是为填补首位位置窗口空白设计的补位符,对应的向量为0向量,如表1所示。
表1
(二)构建基于词表示方法的蛋白质名称识别框架
蛋白质名称识别中运用到的词特征包括单词、词干、词性特征、组块特征、专业领域特征、构成形态特征、高频词特征、词长特征、词形特征、触发词特征、前后缀特征、拼写特征等。为了获取优化特征子集,采用SVM-RFE方法进行特征选择。
利用未标注语料数据进行半监督学习,用以下三种方法识别蛋白质名称:
1、分布式词表示方法:与构建基于滑动窗口的输入向量方法一致;
2、向量聚类方法:用K-means算法对词向量进行聚类,K-means算法是在Word2Vec学习到的词向量基础上进行聚类,使向量空间分布相近的词被聚为同一簇;例如:K-means算法的迭代次数设置为1000,聚类个数设置为其中|V|=1500000是单词个数。由于聚类个数设为1732,词袋特征中的每个词的所属类别都由1到1732中的某个数字标记。词特征中的所有词对应的聚类结果形成一个集合构成了向量聚类特征;
3、布朗聚类方法:布朗聚类方法的输入与向量聚类方法的输入相同。聚类个数也设为1732。经过布朗聚类算法层层迭代,语义相近的词被聚到同一父节点中,结果如表2所示。与向量聚类特征相同,词特征中所有词对应的布朗聚类结果形成一个集合作为布朗聚类特征。
表2布朗聚类结果示例
路径 单词
0100001100 diminution,elevations,reductions,alteration
01000011011 fall,delay,rise,decrease
0100011100 suggestion,assumption,notion,idea,concept
010011011111 edge,face,ends,end,terminus
01001110101 trigger,causes,cause
先将三种词表示和经过选择的基础特征送入SVM,然后将三种词表示、基础特征和SVM模型的最佳分类结果组合作为CRF模型的特征进行序列标注,进而识别出蛋白质名称。如图1为基于词向量的蛋白质名称识别框架图。
(三)蛋白质名称标准化
为避免蛋白质歧义、缩写等问题,针对识别出的蛋白质进行蛋白质名称标准化。原始词典由PubMed数据库中已登录的蛋白质名称相关信息构成,并用GDB、OMIM等不同物种的生物术语库词典扩充。
蛋白质名称标准化过程包括预处理、词典查询、歧义消解和过滤;预处理阶段为蛋白质名称识别过程;若在预处理阶段,生物医学文献中蛋白质被识别,在词典中运用精确匹配和模糊匹配结合的查询方法,将蛋白质映射到蛋白质标识符ID,构建完整的候选蛋白质标识符映射列表;通过相似度算法对上述列表中存在歧义的映射关系进行歧义消解,对于每个存在歧义的映射关系对,使用蛋白质的上下文信息和蛋白质标识符的扩展语义信息进行相似度计算,并对相似度进行排序,选择相似度值最高的作为蛋白质所对应的ID;然后,对蛋白质名称标准化过程中产生的噪音(负例)进行过滤。如图2为蛋白质名称标准化流程图。
(四)蛋白质名称指代消解
指代消解是提高蛋白质交互关系抽取性能的一个重要的步骤,本专利采用融合的方法,针对不同的情况采用不同的消解方法。指代消解分为两个阶段,第一个阶段是基于规则的候选照应语和先行词的抽取。第二个阶段是为照应语选择合适的先行词,采用基于普通特征的机器学习方法和基于句法解析树的方法相融合的方法进行指代消解。首先,进行基于规则的候选照应语和先行词的抽取。对句子和名词短语分别编号,用Enju解析器对编号的句子进行解析分句,得到Predicate格式、Stand-off格式和XML格式三种格式的输出结果,分别从这三种输出结果中获取作为宾语从句、同位语从句、固定句式中的“that”、名词短语、头词和句法解析树;进行基于规则的照应语和先行词的抽取,运用不同规则对抽取出的代词和名词短语进行过滤,规则如下表3。
表3照应语和先行词抽取规则
其次,采用两种消解方法为照应语选择合适的先行词,包括基于普通特征的机器学习方法(Mention-Ranking模型)和基于句法解析树的方法。
对代词照应语的消解,主要采用了基于普通特征的机器学习方法和基于句法解析树的方法。基于普通特征的机器学习方法共抽取照应语的单复数特征、照应语的类型特征、先行词的单复数特征、照应语和候选先行词单复数一致性特征、句子跨度指标(照应语与候选先行词之间间隔的句子个数)和名词短语跨度指标(照应语和候选先行词之间间隔的名词短语个数)六类特征;对关系代词还可以采用基于句法解析树的方法,把句子转换为宾州树库格式的句法解析树,然后抽取照应语和先行词的上下文信息,包括语法信息和词汇等信息。最后将提取的特征数字化,送入SVM ranker工具包进行指代消解。
对名词短语的消解,只采用基于普通特征的机器学习方法,除代词照应语消解所使用的六类特征外,还采用了头词匹配特征和先行词包含蛋白质特征,然后将特征数字化,送入SVM ranker工具包进行指代消解。
(五)蛋白质交互关系抽取
蛋白质交互关系抽取分为特征抽取、数字化和交互关系判定三个步骤。在特征抽取阶段,共抽取词袋、词表示和句法树三类特征:
(1)词袋特征
1、蛋白质特征(P):一个PPI实例中涉及到的两个蛋白质名称;
2、上下文特征(C):在窗口中的蛋白质周围的词(不包含蛋白质本身);
3、中间词特征(B):在两个蛋白质之间的词;
4、关键词特征(K):通过匹配交互词词典,查询得到可以使两个蛋白质蕴含直接交互关系的词。
(2)词表示特征(与蛋白质名称识别使用的三种词向量特征相同)
(3)句法树
首先,使用斯坦福解析器解析得到一个句子的完整句法树(Complete Tree,CT),然后,对CT进行裁剪,得到最小完整树(Minimum Complete Tree,MCT)和最短路径树(Shortest Path enclosed Tree,SPT),SPT树仅由两个蛋白质名称的最短路径信息构成。
当句子较为简单时,例如句子“PROTEIN_1and PROTEIN_2interact with eachother”,“interact”是句子至关重要的组成部分,能够直接反映出“PROTEIN_1”和“PROTEIN_2”交互关系,SPT会将“interact”裁剪掉,仅保留“PROTEIN_1”和“PROTEIN_2”的最短路径“PROTEIN_1and PROTEIN_2”。针对上述问题,对SPT进行补充,扩展后的树为动态扩展树(Dynamic Extended Tree,DET),具体扩展策略为:
(1)如果SPT树中,节点个数少于7,并且SPT树不同于MCT树,则选定MCT树作为DET树;
(2)如果SPT树中,节点个数不少于7,并且SPT树不同于MCT树,则选定SPT树作为DET树。
然后,将词袋特征和词表示特征进行数字化,与动态扩展树构成的树核一起送入SVM-Light-TK工具包判断候选蛋白质对是否存在交互关系。最终,便构建出了融合词袋特征、词表示特征和树核的用于蛋白质交互关系抽取的框架。
(六)蛋白质交互关系数据库构建
通过上述方法获取构建蛋白质交互关系数据库所需的信息,同时,在每个阶段完成后,都进行人工矫正;构建的蛋白质交互关系数据库包含蛋白质表和蛋白质交互关系表,蛋白质表和蛋白质交互关系表包括候选蛋白质、蛋白质标识符ID、蛋白质候选关系对。
所述的基于普通特征的机器学习方法为Mention-Ranking模型。
本发明从BMC Cancer网站下载蛋白质相关领域的370篇文献,并完成了300篇摘要和70篇全文的标注。其中,对摘要标注了1500个蛋白质交互关系对,4500个非交互蛋白质对;对全文标注了1500对蛋白质交互关系对,4500对非交互蛋白质对。如图3为蛋白质交互关系数据库构建流程图。
本发明构建了一套蛋白质名称识别、标准化、指代消解和蛋白质交互关系抽取的在线系统,为研究者提供实时查询服务,并构建蛋白质交互关系数据库。蛋白质交互关系抽取是对生物医学文献进行潜在语义的预测,其目的是判断两个蛋白质之间是否存在关系。作为生物医学文本挖掘的重要分支之一,蛋白质交互关系抽取技术具有很高的应用价值,对蛋白质知识网络的建立、本体的构建等任务具有重要意义。
本发明的有益效果是:在传统方法的基础上提升了特征的表达能力和泛化能力,能够帮助生物医学领域研究者对文本进行自动分析,并提供对已知蛋白质名称和蛋白质交互关系检索的功能,帮助他们对蛋白质交互关系进行研究和分析。
附图说明
图1基于词向量的蛋白质名称识别框架图。
图2蛋白质名称标准化流程图。
图3蛋白质交互关系数据库构建流程图。
图4蛋白质交互关系显示结果图。
图5数据库E-R图。
具体实施方式
本发明的系统能够对给定文本进行自动的蛋白质名称识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取,极大方便了研究者从大量的文献中寻找蛋白质的交互关系。系统采用B/S(Browser/Server,浏览器/服务器模式,主要采用JSP、HTML、JS等技术实现)结构设计,分为视图层,逻辑层和数据层三部分。
表4系统结构
1、用户输入待解析文本
如表4所示,文本输入支持键盘输入和上传本地文件两种方式,由视图层接受用户输入的待检索文本,提交给逻辑层,并存入数据层。假设用户待解析的文本为“We findthat hTAFII32,which is the human homologue of Drosophila TAFII40.”,用户则可以选择1、通过页面文本框直接输入上述文本或者2、将上述文本保存为txt、doc等格式,通过文件的形式上传。前者适合短文本或者测试使用,后者则适合大文本处理。
2、系统对待解析文本进行解析
该功能的实现需要系统的逻辑层和数据库层的协调工作,具体如下:
(1)逻辑层对待解析文本进行断句、分词等预处理后,将上述文本分解为一个含有14个token的句子(含标点);如前文所述,利用滑动窗口将其转换为14个向量,并依次输入基于词向量的蛋白质名称识别框架,逐层计算后经过全局条件概率得到最优的标记序列“OOO B O OOOOOO B I O”,即识别出蛋白质“hTAFII32”和“Drosophila TAFII40”。在解析时不需要进行训练,而是用训练好的参数直接得到结果。
(2)步骤(1)完成了蛋白质名称识别的工作,接下来进行蛋白质标名称的标准化,如“HTAFII32”的蛋白质ID为“8148”,“Drosophila TAFII40”的蛋白质ID为“32762”。
(3)指代消解,在(2)的基础上首先抽取照应语(Anaphora)和先行词(Antecedent),照应语和先行词分别为“T1 which”和“T2 HTAFII32”,然后进行消解,消解链用“R”加一个序号的形式标识。例如:“R1 Coref Anaphora:T2 Antecedent”,经过指代消解后句子变为“We find that hTAFII32 is the human homologue of DrosophilaTAFII40.”。
(4)蛋白质交互关系的提取。首先在(3)的基础上构建PPI实例,即目标为,利用机器学习针对上述待解析文本来判断“hTAFII32”和“Drosophila TAFII40”是否暗含着交互关系。然后系统提取前后词(that is of.)、中间词(is the human homologue of)、蛋白质(hTAFII32 Drosophila TAFII40)等特征,上述特征为词袋特征;根据由word2vec工具训练得到词向量将这些特征转换为向量,由此得到词表示特征;利用句法树拓展策略,得到句法树特征,通过SVM-Light-TK工具进行分类,最终得到蛋白质交互关系抽取的结果,即“hTAFII32”和“Drosophila TAFII40”是一对具有交互关系的蛋白质对。
(5)将(1)—(4)蛋白质名称识别、标准化、指代消解和交互关系抽取的结果交由数据层进行存储,同时由视图层将可视化结果反馈给用户,并构建蛋白质交互关系数据库。数据库的E-R图如图5、数据库设计如表5所示:
3、用户对蛋白质进行检索
当系统完成了对输入文本的蛋白质名称识别与蛋白质交互关系抽取后,系统将蛋白质交互关系对以交互关系网络的形式展示。用户如果想对特定蛋白质进行检索,如用户想知道蛋白质“glutelin”与其他蛋白质的交互关系,在检索栏输入“glutelin”后将得到如图4所示的以其为中心的蛋白质网络,网络中的每个点代表一个蛋白质,如果两点之间有连线,说明所代表的两个蛋白质具有交互关系。系统允许用户将任何一个蛋白质作为网络的中心,鼠标移动点击某个蛋白质,网络就聚焦到被点击的蛋白质上,并显示蛋白质交互关系数据库中该蛋白质的信息。如图4为蛋白质交互关系显示结果图。
表5数据库表

Claims (2)

1.一种基于生物医学文献的蛋白质交互关系数据库构建方法,其特征在于,步骤如下:
(一)构建基于滑动窗口的输入向量
对句长为N的句子进行实体识别,当滑动窗口大小为M时,对识别后句子中的每个词依次构造输入向量,将滑动窗口内所有词的输入向量相连作为当前词的输入向量;每个词的输入向量通过word2vec工具所提供的Skip-gram语言模型在未标记语料上训练得到;
(二)构建基于词表示方法的蛋白质名称识别框架
蛋白质名称识别中运用到的词特征包括单词、词干、词性特征、组块特征、专业领域特征、构成形态特征、高频词特征、词长特征、词形特征、触发词特征、前后缀特征和拼写特征;采用SVM-RFE方法进行特征选择,获取优化特征子集;
利用未标注语料数据进行半监督学习,用以下三种词表示方法识别蛋白质名称:
(1)分布式词表示方法:与构建基于滑动窗口的输入向量方法一致;
(2)向量聚类方法:用K-means算法对词向量进行聚类,K-means算法是在Word2Vec学习到的词向量基础上进行聚类,使向量空间分布相近的词被聚为同一簇;词特征中的所有词对应的聚类结果形成一个集合构成了向量聚类特征;
(3)布朗聚类方法:布朗聚类方法的输入与向量聚类方法的输入相同,经过布朗聚类方法层层迭代,语义相近的词被聚到同一父节点中;与向量聚类特征相同,词特征中所有词对应的布朗聚类结果形成一个集合作为布朗聚类特征;
先将三种词表示方法和经过选择的词特征输入SVM模型,然后将三种词表示方法、词特征和SVM模型的最佳分类结果组合作为CRF模型的特征进行序列标注,得到识别出的蛋白质名称;
所述的SVM模型的最佳分类结果组合是F值最高的组合;
(三)蛋白质名称标准化
词典是由原始词典、GDB数据库与OMIM数据库的生物术语库词典组成,原始词典由PubMed数据库中已登录的蛋白质名称相关信息构成;
蛋白质名称标准化过程包括预处理、词典查询、歧义消解和过滤;
预处理阶段为蛋白质名称识别过程;
词典查询阶段:若在预处理阶段,蛋白质名称被识别,在词典中运用精确匹配和模糊匹配结合的查询方法,将蛋白质映射到蛋白质标识符ID,构建完整的候选蛋白质标识符映射列表;
歧义消解阶段:通过相似度算法对候选蛋白质标识符映射列表中存在歧义的映射关系进行歧义消解,对于每个存在歧义的映射关系对,使用蛋白质的上下文信息和蛋白质标识符的扩展语义信息进行相似度计算,并对相似度进行排序,选择相似度值最高的作为蛋白质所对应的ID;
过滤阶段:对蛋白质名称标准化过程中产生的噪音进行过滤;
(四)蛋白质名称指代消解
蛋白质名称指代消解用于提高蛋白质交互关系抽取性能,采用融合的方法;
指代消解分为两个阶段:第一个阶段是基于规则的候选照应语和先行词的抽取:对句子和名词短语分别编号,用Enju解析器对编号的句子进行解析分句,得到Predicate格式、Stand-off格式和XML格式三种格式的输出结果,分别从这三种输出结果中获取作为宾语从句、同位语从句、固定句式中的“that”、名词短语、头词和句法解析树;进行基于规则的照应语和先行词的抽取,运用不同规则对抽取出的代词和名词短语进行过滤,规则如下:
第二个阶段是为照应语选择合适的先行词,采用基于普通特征的机器学习方法和基于句法解析树的方法相融合的方法进行指代消解;
对代词照应语的消解,采用基于普通特征的机器学习方法或基于句法解析树的方法;基于普通特征的机器学习方法抽取照应语的单复数特征、照应语的类型特征、先行词的单复数特征、照应语和候选先行词单复数一致性特征、句子跨度指标和名词短语跨度指标六类特征;对关系代词采用基于句法解析树的方法,把句子转换为宾州树库格式的句法解析树,然后抽取照应语和先行词的上下文信息,包括语法信息和词汇两类特征;最后将上述提取的特征数字化,输入SVM ranker工具包进行指代消解;所述的句子跨度指标为照应语与候选先行词之间间隔的句子个数,所述的名词短语跨度指标为照应语和候选先行词之间间隔的名词短语个数;
对名词短语的消解,采用基于普通特征的机器学习方法,除代词照应语消解所使用的六类特征外,还采用了头词匹配特征和先行词包含蛋白质特征,然后将特征数字化,输入SVMranker工具包进行指代消解;
(五)蛋白质交互关系抽取
蛋白质交互关系抽取分为特征抽取、数字化和交互关系判定三个步骤;
特征抽取阶段,抽取词袋、词表示和句法树三类特征:
(1)词袋特征
1)蛋白质特征P:一个蛋白质交互关系实例涉及到的两个蛋白质名称;
2)上下文特征C:在窗口中的蛋白质周围的词,不包含蛋白质本身;
3)中间词特征B:在两个蛋白质之间的词;
4)关键词特征K:通过匹配交互词词典,查询得到使两个蛋白质蕴含直接交互关系的词;
(2)词表示特征,与蛋白质名称识别使用的三种词向量特征相同;
(3)句法树
首先,使用斯坦福解析器解析得到一个句子的完整句法树CT,然后,对CT进行裁剪,得到最小完整树MCT和最短路径树SPT,SPT树仅由两个蛋白质名称的最短路径信息构成;
当SPT树过于简单时,对SPT树进行扩展,具体扩展策略为:
(1)如果SPT树中,节点个数少于7,并且SPT树不同于MCT树,则选定MCT树作为动态扩展树DET树;
(2)如果SPT树中,节点个数不少于7,并且SPT树不同于MCT树,则选定SPT树作为动态扩展树DET树;
然后,将词袋特征和词表示特征进行数字化,与动态扩展树构成的树核一起输入SVM-Light-TK工具包判断候选蛋白质对是否存在交互关系;最终,构建出融合词袋特征、词表示特征和树核的用于蛋白质交互关系抽取的框架;
(六)蛋白质交互关系数据库构建
通过上述方法获取构建蛋白质交互关系数据库所需的信息,同时,在每个阶段完成后,都进行人工矫正;构建的蛋白质交互关系数据库包含蛋白质表和蛋白质交互关系表,蛋白质表和蛋白质交互关系表包括候选蛋白质、蛋白质标识符ID、蛋白质候选关系对。
2.根据权利要求1所述的蛋白质交互关系数据库构建方法,其特征在于,所述的基于普通特征的机器学习方法为Mention-Ranking模型。
CN201510617020.8A 2015-09-24 2015-09-24 基于生物医学文献的蛋白质交互关系数据库构建方法 Expired - Fee Related CN105138864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510617020.8A CN105138864B (zh) 2015-09-24 2015-09-24 基于生物医学文献的蛋白质交互关系数据库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510617020.8A CN105138864B (zh) 2015-09-24 2015-09-24 基于生物医学文献的蛋白质交互关系数据库构建方法

Publications (2)

Publication Number Publication Date
CN105138864A CN105138864A (zh) 2015-12-09
CN105138864B true CN105138864B (zh) 2017-10-13

Family

ID=54724209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510617020.8A Expired - Fee Related CN105138864B (zh) 2015-09-24 2015-09-24 基于生物医学文献的蛋白质交互关系数据库构建方法

Country Status (1)

Country Link
CN (1) CN105138864B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808525B (zh) * 2016-03-29 2018-06-29 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法
CN106022000B (zh) * 2016-05-11 2018-06-08 大连理工大学 一种基于压缩和聚类的批量蛋白质同源性搜索方法
CN106484676B (zh) * 2016-09-30 2019-04-12 西安交通大学 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN106570179B (zh) * 2016-11-10 2019-11-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN107122352B (zh) * 2017-05-18 2020-04-07 成都四方伟业软件股份有限公司 一种基于k-means、word2vec的抽取关键词的方法
CN108090215A (zh) * 2017-12-29 2018-05-29 安徽方正医疗信息技术有限公司 一种画面可配置的数据抽取方法
CN108595408A (zh) * 2018-03-15 2018-09-28 中山大学 一种基于端到端神经网络的指代消解方法
CN109635046B (zh) * 2019-01-15 2023-04-18 金陵科技学院 一种基于CRFs的蛋白质分子名称分析与识别方法
CN110929105B (zh) * 2019-11-28 2022-11-29 广东云徙智能科技有限公司 一种基于大数据技术的用户id关联方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104657626A (zh) * 2015-02-25 2015-05-27 苏州大学 一种利用文本数据构建蛋白质相互作用网络的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013105A1 (en) * 1999-07-30 2001-02-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
CN1977261B (zh) * 2004-05-28 2010-05-05 新加坡科技研究局 用于字序列处理的方法和系统
US20130262091A1 (en) * 2012-03-30 2013-10-03 The Florida State University Research Foundation, Inc. Automated extraction of bio-entity relationships from literature

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104657626A (zh) * 2015-02-25 2015-05-27 苏州大学 一种利用文本数据构建蛋白质相互作用网络的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Improving Kernel-Based Protein-Protein Interaction Extraction by Unsupervised Word Representation》;Lishuang Li et al ;;《2014 IEEE International Conference on Bioinformatics and Biomedicine》;20141231;第379-384页; *
《基于双代价参数SVM 的生物医学文本指代消解研究》;张丽君 等;;《大连理工大学学报》;20150731;第55卷(第4期);第405-409页; *
《领域本体学习中术语及关系抽取方法的研究》;李丽双;《中国博士学位论文全文数据库信息科技辑》;20130815;第I138-194页; *

Also Published As

Publication number Publication date
CN105138864A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN109344250B (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN105095204B (zh) 同义词的获取方法及装置
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN112542223A (zh) 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN113707297A (zh) 医疗数据的处理方法、装置、设备及存储介质
CN109145260A (zh) 一种文本信息自动提取方法
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
Gómez-Adorno et al. Automatic authorship detection using textual patterns extracted from integrated syntactic graphs
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
EP3483747A1 (en) Preserving and processing ambiguity in natural language
Tur et al. Exploiting the semantic web for unsupervised natural language semantic parsing
TWI735380B (zh) 自然語言處理方法與其計算裝置
CN111553160B (zh) 一种获取法律领域问句答案的方法和系统
US20200311344A1 (en) System and method for interpreting contextual meaning of data
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111026884A (zh) 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN114997288A (zh) 一种设计资源关联方法
Li et al. Emotion-cause span extraction: a new task to emotion cause identification in texts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171013