CN110083838B - 基于多层神经网络与外部知识库的生物医学语义关系提取方法 - Google Patents

基于多层神经网络与外部知识库的生物医学语义关系提取方法 Download PDF

Info

Publication number
CN110083838B
CN110083838B CN201910357259.4A CN201910357259A CN110083838B CN 110083838 B CN110083838 B CN 110083838B CN 201910357259 A CN201910357259 A CN 201910357259A CN 110083838 B CN110083838 B CN 110083838B
Authority
CN
China
Prior art keywords
entity
neural network
vector
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910357259.4A
Other languages
English (en)
Other versions
CN110083838A (zh
Inventor
李辰
李质婧
马骁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910357259.4A priority Critical patent/CN110083838B/zh
Publication of CN110083838A publication Critical patent/CN110083838A/zh
Application granted granted Critical
Publication of CN110083838B publication Critical patent/CN110083838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于多层神经网络与外部知识库的生物医学语义关系提取方法,实现从生物医学文本中提取实体‑关系对,为挖掘海量生物医学文本数据,构建生物医学的关系网络提供技术支持。采用基于多层神经网络的语义关系提取方法,多层的神经网络结构使得模型可以反复提取文本中的有效信息,解决传统神经网络信息提取能力有限地问题,提升模型的分类性能。在不同数据集上都取得了较好的效果,能够高效、准确地从海量生物医学文本中提取语义关系。并且通过合理地引入外部生物医学数据库中的知识,包含针对单一实体的UniProtKB数据库以及针对二元关系的BAR、IntAct数据库,配合Attention机制可以有效地对单一实体信息进行筛选,提升外部知识的利用效果。

Description

基于多层神经网络与外部知识库的生物医学语义关系提取 方法
技术领域
本发明属于自然语言处理技术在生物医学领域,涉及生物医学文本挖掘,具体为基于多层神经网络与外部知识库的生物医学语义关系提取方法。
背景技术
语义关系提取是生物医学文本挖掘中的关键步骤,其利用自然语言处理的技术在海量、非结构化且快速增长的生物医学文献中自动提取生物实体之间的关系,进而有助于构建生物医学的语义关系网络。
在自然语言处理领域的关系提取任务中,神经网络模型已经成为主流,特别是LSTM网络。在LSTM网络中,通过输入门、遗忘门与输出门可以对时序数据进行记忆同时避免因时序过长导致的关键信息的丢失。而后被提出的BiLSTM网络是将两个LSTM网络整合,将训练数据以前向、后向两种方式一同输入网络中,目前已经取得明显的性能提升。另外CNN网络也是自然语言处理中的常用模型,CNN网络通过滤波器在输入上进行遍历与滤波,提取输入的特征。但是,这些方法依然面临有效信息提取不足的问题。
不同于通用的自然语言处理任务,生物医学领域的语义关系提取需要特定的领域内知识。为此,引入外部知识库成为提升模型性能的一种有效方式。例如针对蛋白质数据,可以使用UniProtKB数据库;针对生物分子的二元反应关系可以使用IntAct数据库。这些数据库需要人为地进行建模与筛选,并引入关系提取模型中。
在自然语言处理领域的关系提取任务中已有一些工作使用了知识库信息,通常是聚焦于单一的知识类型,例如实体的描述;且引入的外部知识会由于缺少上下文信息导致对模型的提升作用有限。
发明内容
针对现有技术中存在的问题,本发明提供基于多层神经网络与外部知识库的生物医学语义关系提取方法,实现从生物医学文本中提取实体-关系对,为挖掘海量生物医学文本数据,构建生物医学的关系网络提供技术支持。
本发明是通过以下技术方案来实现:
基于多层神经网络与外部知识库的生物医学语义关系提取方法,包括如下步骤,
步骤1,使用自然语言处理工具训练包含文章要素的文章外部知识库,生成包含生物医学类词汇的词向量表;
并对从生物医学实验数据集中选取的训练文本与测试文本进行分词、词性标注、句法分析得到词性标量和句法分析向量;
拼接单词的词向量、词性标量与句法分析向量拼接得到单词的向量表示;
步骤2,使用生物医学实体识别工具对训练文本与测试文本进行命名实体的选取与识别,得到训练文本与测试文本中的实体,并构建实体对;
步骤3,构建适用于训练文本与测试文本的基因蛋白外部知识库,得到实体的注释信息表和实体-关系对表;
步骤4,采用TransE模型对组成实体对中的实体-关系对表进行训练得到实体-关系对表向量;
步骤5,以实体对之间的句子为单位,将句子包含的单词的词向量和实体-关系对表向量输入多层神经网络之中进行处理,每一层的输出作为下一层的输入,将每一层的输出使用平均池化后得到每层对应的关系表示;
步骤6,将多层神经网络输出的每层对应的关系表示与实体对的关系向量表示相拼接,得到句子的最终表示;
步骤7,将句子的最终表示输入神经网络的softmax层进行预测,得到关系分类的关系类型y′;完成基于多层神经网络与外部知识库的生物医学语义关系的提取。
优选的,步骤1具体包括如下步骤,
步骤1.1,使用基于skip-gram模型的word2vec方法,选取与生物医学相关的语料库形成包含文章要素的文章外部知识库,生成包含生物医学类词汇的词向量表;
步骤1.2,使用StanfordNLP在UD English EWT语料库上训练的模型对文本进行分词、词性标注、句法分析预处理,得到词性标量和句法分析向量。
优选的,步骤2具体包括如下步骤,
步骤2.1,使用PubTator服务中的GNormPlus工具进行训练文本与测试文本的命名实体识别;
步骤2.2,通过PubTator服务,识别训练文本与测试文本的PubMed文献编号,得到训练文本与测试文本的命名实体识别结果。
优选的,步骤3中,基因蛋白外部知识库的知识来源包含UniProtKB、BAR与IntAct三个生物学数据库;采用UniProtKB数据库构建实体的注释信息表;采用BAR与IntAct数据库构建实体-关系对表。
进一步,步骤3具体包括如下步骤,
步骤3.1,对训练文本与测试文本中的实体使用MyGene网络服务获取实体相关的UniProtID,组成UniProtID集合;
步骤3.2,使用UniProtID集合中的UniProtID查询UniProtKB数据库中相应的注释描述,得到实体注释信息表;
步骤3.3,将训练文本与注释文本中的实体两两组合成实体对;
步骤3.4,在IntAct或BAR数据库中查询实体对的Interaction Type信息作为实体对的关系,形成(实体1,关系,实体2)三元组的实体-关系对表。
再进一步,步骤4具体包括如下步骤,
使用TransE模型训练实体-关系对表,使得实体1向量h,关系向量r与实体2向量t形成h+r=t关系的实体-关系对表向量;
通过TransE模型中如下的损失函数对实体-关系对表进行训练:
L=∑(h,r,t)∈s(h′,r,t′)∈s′max(0,γ-‖h+r-t‖+‖h′+r-t′‖)
其中,L为损失函数,γ是边界超参数,S是正样例集合,S′是负样例集合,h为实体1的正确向量,h′为实体1的错误向量,r为关系向量,t实体2的正确向量,t′为实体2的错误向量。
再进一步,步骤5中,将句子包含的单词的词向量和实体-关系对表向量输入三层双向长短记忆网络BiLSTM之中进行处理,具体包括如下步骤,
步骤5.1,对前两层的输出进行平均池化运算,形成第一、二个表示;
步骤5.11,将训练文本与测试文本以实体对为头尾重新划分句子,即一个实体对之间的句子,然后向前后分别扩展两个单词;
步骤5.12,将句子包含的单词的词向量和实体-关系对表向量输入三层神经网络之中进行处理,将前两层每一层的输出使用平均池化得到该层的表示,形成第一、二个表示;
其中,长短记忆网络LSTM的内部状态定义如下:
ht=F(Wht-1+Uxt)
式中,xt是输入向量,ht是内部状态,U和W是权重系数,F是长短记忆网络的非线性的激活函数。LSTM网络的整体结构中包含输入门it,遗忘门ft与输出门ot,以及相应的权重系数Wi和Ui,Wf和Uf,Wo和Uo,其记忆单元为ct,网络的完整定义如下:
it=σ(Wiht-1+Uixt)
ft=σ(Wfht-1+Ufxt)
ot=σ(Woht-1+Uoxt)
ct=ftct-1+ittanh(Wcht-1+Ucxt)
ht=ottanh(ct)
所述的BiLSTM网络包含两个LSTM网络,分别采用句子中该单词的前向单词与后向单词作为输入,其内部状态定义如下:
Figure BDA0002045802610000051
步骤5.2,将第三层的输出采用Attention机制,结合第三层的BiLSTM网络的内部状态对UniProtKB中得到的实体注释信息表的信息进行筛选,并与内部状态相加,得到新的输出,将新的输出进行平均池化运算,形成第三个表示;
其中,对于BiLSTM网络,其输出如下:
h′t=hti∈Vαivi
式中,ht为第三层网络的原内部状态,vi为注释信息表中第i项的向量,αi为该向量的Attention权重,h′t为第三层网络的全新状态。
再进一步,步骤5中,将句子包含的单词的词向量和实体-关系对表向量输入卷积神经网络CNN之中进行处理,具体包括如下步骤,
步骤5.1,对前两层的输出进行平均池化运算,形成第一、二个表示;
步骤5.11,将训练文本与测试文本以实体对为头尾重新划分句子,即一个实体对之间的句子,然后向前后分别扩展两个单词;
步骤5.12,将句子包含的单词的词向量和实体-关系对表向量输入三层神经网络之中进行处理,将前两层每一层的输出使用平均池化得到该层的表示,形成第一、二个表示;
其中,卷积神经网络中一个卷积层输出为:
c=(c1,c2,…,cn-h+1)
其中ci=f(wxi:i+h-1+b),n为输入的句子长度,h为滤波器长度,w和b为滤波器的权重系数,f为卷积神经网络的非线性激活函数,xi:i+h-1由h个词向量连接而成;
步骤5.2,将第三层的输出采用Attention机制,结合第三层的CNN网络的内部状态对UniProtKB中得到的实体注释信息表的信息进行筛选,并与内部状态相加,得到新的输出,将新的输出进行平均池化运算,形成第三个表示;
其中,对于CNN网络,其输出为:
x′i=xii∈Vαivi
式中,xi为第三层卷积后的输出向量,vi为知识库信息中第i项的向量,αi为该向量的权重。
优选的,步骤7中,具体的使用如下的softmax分类器预测y′;
py=softmax(WS)
Figure BDA0002045802610000061
其中,S为句子的最终表示,W是权重系数,p为句子中两个实体有关系的概率,y表示关系类型的集合,y′表示当前预测的关系类型。
优选的,使用训练集文本重复步骤1-7进行神经网络的训练,调整神经网络的参数以优化其分类性能,并使用测试集文本进行测试,直至得到测试集文本中的实体关系结果,完成神经网络的训练。
与现有技术相比,本发明具有以下有益的技术效果:
本发明采用基于多层神经网络的语义关系提取方法,多层的神经网络结构使得模型可以反复提取文本中的有效信息,解决传统神经网络信息提取能力有限地问题,提升模型的分类性能。在不同数据集上都取得了较好的效果,能够高效、准确地从海量生物医学文本中提取语义关系。
进一步的,本发明合理地引入外部生物医学数据库中的知识,包含针对单一实体的UniProtKB数据库以及针对二元关系的BAR、IntAct数据库,配合Attention机制可以有效地对单一实体信息进行筛选,解决外部知识库结构复杂的问题,从而提升外部知识的利用效果。
附图说明
图1是本发明基于多层神经网络与外部知识库的生物医学语义关系提取方法流程图。
图2是本发明基于多层神经网络与外部知识库的生物医学语义关系提取方法模型图(BiLSTM)。
图3是本发明基于多层神经网络与外部知识库的生物医学语义关系提取方法模型图(CNN)。
图4是本发明基于多层神经网络与外部知识库的生物医学语义关系提取方法中attention机制图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
实施例主要用来提取生物医学实验数据集中的二元实体关系对。其采用的训练数据与和测试数据均为公开的BioNLP-2016SeeDev数据集与BioCreative VI Track 4PPIextraction数据集。
如图1所示,本发明所述的方法包括以下步骤,
步骤1,使用自然语言处理工具训练以文章要素构成的文章外部知识库,生成包含生物医学类词汇的词向量表;并对从生物医学实验数据集中选取的训练文本与测试文本进行分词、词性标注、句法分析得到词性标量和句法分析向量。拼接单词的词向量、词性标量与句法分析向量拼接得到单词的向量表示。其中的训练文本与测试文本即为实验文本。
步骤1.1,使用基于skip-gram模型的word2vec方法,选取与生物医学相关的语料库,即MEDLINE中的10,876,004篇摘要包含1,701,632个不同的生物医学类词汇,生成词向量表。
步骤1.2,使用StanfordNLP工具对文本进行分词、词性标注、句法分析预处理。本发明使用StanfordNLP在UD English EWT语料库上训练的模型进行以上预处理。
例如,对于句子“The Arabidopsis LEAFY COTYLEDON1(LEC1)gene is requiredfor the specification of cotyledon identity and the completion of embryomaturation.”,使用StanfordNLP在UD English EWT语料库上训练的模型进行分词的结果为:“The/Arabidopsis/LEAFY/COTYLEDON1/(/LEC1/)/gene/is/required/for/the/specification/of/cotyledon/identity/and/the/completion/of/embryo/maturation/.”;
词性标注的结果为:“The(DT)/Arabidopsis(NN)/LEAFY(NN)/COTYLEDON1(NN)/((-LRB-)/LEC1(NN)/)(-RRB-)/gene(NN)/is(VBZ)/required(VBN)/for(IN)/the(DT)/specification(NN)/of(IN)/cotyledon(JJ)/identity(NN)/and(CC)/the(DT)/completion(NN)/of(IN)/embryo(NN)/maturation(NN)/.(.)”;
句法分析结果为:“The(4)/Arabidopsis(4)/LEAFY(4)/COTYLEDON1(10)/((6)/LEC1(4)/)(6)/gene(10)/is(10)/required(0)/for(13)/the(13)/specification(10)/of(16)/cotyledon(16)/identity(13)/and(19)/the(19)/completion(13)/of(22)/embryo(22)/maturation(19)/.(10)”
步骤2,使用生物医学实体识别工具对训练文本与测试文本进行命名实体的选取或识别,得到训练文本与测试文本中的实体。
步骤2.1,使用GNormPlus工具(GNormPlus被整合入PubTator服务中,本发明使用PubTator服务)进行训练文本与测试文本的命名实体识别。
步骤2.2,调用PubTator服务,识别训练文本与测试文本的PubMed文献编号,得到训练文本与测试文本的命名实体识别结果。
例如,对于句子“The Arabidopsis LEAFY COTYLEDON1(LEC1)gene is requiredfor the specification of cotyledon identity and the completion of embryomaturation.”使用基于GNormPlus的PubTator工具可以识别出实体“LEAFY COTYLEDON1”与“LEC1”。
步骤3,构建适用于训练文本与测试文本的基因蛋白外部知识库。基因蛋白外部知识库的知识来源包含UniProtKB、BAR与IntAct三个生物学数据库。采用UniProtKB数据库构建实体的注释信息表;采用BAR与IntAct数据库构建实体-关系对表。
其具体步骤如下:
步骤3.1,对训练文本与测试文本中的实体使用MyGene网络服务获取实体相关的UniProtID,组成UniProtID集合;
例如,对于实体“LEC1”,可以查询到Q94EJ7、Q9SFD8、D7PF28、B5KMS8四个UniProtID。
步骤3.2,使用UniProtID集合中的UniProtID查询UniProtKB数据库中相应的注释描述,得到实体注释信息表。
例如,针对UniProtID为Q9SFD8,可以获得实体“LEC1”的一个注释为,“Componentof the NF-Y/HAP transcription factor complex.The NF-Y complex stimulates thetranscription of various genes by recognizing and binding to a CCAAT motif inpromoters.Acts as a central regulator of the embryogenesis.Required for thespeciation of cotyledon identity and the completion of embryomaturation.Controls seed storage protein genes through the regulation ofFUS3and ABI3.Involved in the blue light(BL)and abscisic acid(ABA)signalingpathways.”
步骤3.3,将训练文本与注释文本中的实体两两组合成实体对;
步骤3.4,在IntAct或BAR数据库中查询实体对的Interaction Type信息作为实体对的关系,形成(实体1,关系,实体2)三元组的实体-关系对表;
例如,检索“LEAFY COTYLEDON1”与“LEC1”实体对可以查询到关系为“directinteraction”,将(LEAFY COTYLEDON1,direct interaction,LEC1)实体-关系对加入到实体-关系对表中。
步骤4,采用TransE模型对组成实体对中的实体-关系对表进行训练得到实体-关系对表向量。具体方法是使用TransE模型训练步骤3形成的实体-关系对表,其训练目标为使得实体1向量h,关系向量r与实体2向量t形成h+r=t关系的实体-关系对表向量。通过TransE模型中如下的损失函数对实体-关系对表进行训练:
L=∑(h,r,t)∈s(h′,r,t′)∈s′max(0,γ-‖h+r-t‖+‖h′+r-t′‖)
其中,L为损失函数,γ是边界超参数,S是正样例集合,S′是负样例集合,h为实体1的正确向量,h′为实体1的错误向量,r为关系向量,t实体2的正确向量,t′为实体2的错误向量。
步骤5,如图2所示,以实体对之间的句子为单位,将句子包含的单词的词向量和实体-关系对表向量(e1,e2,...et)输入三层BiLSTM网络之中进行处理,每一层的输出作为下一层的输入。
如图2和图3所示,本优选实例以BiLSTM网络和CNN网络作为神经网络的代表进行说明;
其具体步骤如下:
步骤5.1,对前两层的输出进行平均池化运算(mean pooling),形成第一、二个表示S1和S2;步骤5.11,将训练文本与测试文本以实体对为头尾重新划分句子,即一个实体对之间的句子,然后分别向前后分别扩展两个单词;
步骤5.12,将句子包含的单词的词向量和实体-关系对表向量(e1,e2,...et)输入三层神经网络之中进行处理,将前两层每一层的输出使用平均池化得到该层的表示,形成第一、二个表示S1和S2
其中,分别使用卷积神经网络(CNN)与双向长短记忆网络(BiLSTM)。
其中,卷积神经网络(CNN)中一个卷积层输出为:
c=(c1,c2,…,cn-h+1)
其中ci=f(wxi:i+h-1+b),n为输入的句子长度,h为滤波器长度,w和b为滤波器的权重系数,f为卷积神经网络的非线性激活函数,xi:i+h-1由h个词向量连接而成。
长短记忆网络LSTM的内部状态定义如下:
ht=F(Wht-1+Uxt)
其中,xt是输入向量,ht是内部状态,U和W是权重系数,F是长短记忆网络的非线性的激活函数。LSTM网络的整体结构中包含输入门it,遗忘门ft与输出门ot,以及相应的权重系数Wi和Ui,Wf和Uf,Wo和Uo,其记忆单元为ct,网络的完整定义如下:
it=σ(Wiht-1+Uixt)
ft=σ(Wfht-1+Ufxt)
ot=σ(Woht-1+Uoxt)
ct=ftct-1+ittanh(Wcht-1+Ucxt)
ht=ottanh(ct)
本发明中使用BiLSTM网络,即包含两个LSTM网络,分别采用句子中该单词的前向单词与后向单词作为输入,其内部状态定义如下:
Figure BDA0002045802610000111
步骤5.2,将第三层的输出采用Attention机制,结合第三层的BiLSTM网络的内部状态对UniProtKB知识库的信息进行筛选,并与内部状态相加,得到新的输出,将新的输出进行平均池化运算,形成第三个表示S3
具体的,如图4所示,针对三层BiLSTM网络中的第三层,使用Attention机制实现对UniProtKB中得到的实体注释信息表的信息进行筛选。由Attention机制对应不同网络的输出如下:
对于LSTM网络,如图4所示,其输出如下:
h′t=hti∈Vαivi
其中,ht为第三层网络的原内部状态,vi为注释信息表中第i项的向量,αi为该向量的Attention权重。
对于CNN网络,其输出为:
x′i=xii∈Vαivi
其中,xi为第三层卷积后的输出向量,vi为知识库信息中第i项的向量,αi为该向量的权重。步骤6,将三层BiLSTM网络输出的第一、二、三表示与实体对的关系向量r表示相拼接,得到句子的最终表示S;
步骤7,将句子的最终表示输入神经网络的softmax层进行预测,得到关系分类的关系类型y′;完成基于多层神经网络与外部知识库的生物医学语义关系的提取;
具体的,使用softmax分类器预测y′。
py=softmax(WS)
Figure BDA0002045802610000121
其中,S为图2和图3中句子的最终表示,W是权重系数,p为句子中两个实体有关系的概率,y表示关系类型的集合,y′表示当前预测的关系类型。
在发明在使用时,使用训练集文本重复步骤1-7进行神经网络的训练,调整神经网络的参数以优化其分类性能,并使用测试集文本进行测试,直至得到测试集文本中的实体关系结果,完成神经网络的训练;表明基于多层神经网络与外部知识库的生物医学语义关系提取方法有效可靠。
例如,句子“The Arabidopsis LEAFY COTYLEDON1(LEC1)gene is required forthe specification of cotyledon identity and the completion of embryomaturation.”可以识别出实体“LEAFY COTYLEDON1”与“LEC1”的语义关系提取结果为(LEAFTY COTYLEDON1,Is_Functionally_Equivalent_To,LEC1)。

Claims (5)

1.基于多层神经网络与外部知识库的生物医学语义关系提取方法,其特征在于,包括如下步骤,
步骤1,使用自然语言处理工具训练包含文章要素的文章外部知识库,生成包含生物医学类词汇的词向量表;
并对从生物医学实验数据集中选取的训练文本与测试文本进行分词、词性标注、句法分析得到词性标量和句法分析向量;
拼接单词的词向量、词性标量与句法分析向量拼接得到单词的向量表示;
步骤2,使用生物医学实体识别工具对训练文本与测试文本进行命名实体的选取与识别,得到训练文本与测试文本中的实体,并构建实体对;
步骤3,构建适用于训练文本与测试文本的基因蛋白外部知识库,得到实体的注释信息表和实体-关系对表;
步骤4,采用TransE模型对组成实体对中的实体-关系对表进行训练得到实体-关系对表向量;
步骤5,以实体对之间的句子为单位,将句子包含的单词的词向量和实体-关系对表向量输入多层神经网络之中进行处理,每一层的输出作为下一层的输入,将每一层的输出使用平均池化后得到每层对应的关系表示;
步骤6,将多层神经网络输出的每层对应的关系表示与实体对的关系向量表示相拼接,得到句子的最终表示;
步骤7,将句子的最终表示输入神经网络的softmax层进行预测,得到关系分类的关系类型y′;完成基于多层神经网络与外部知识库的生物医学语义关系的提取;
步骤3中,基因蛋白外部知识库的知识来源包含UniProtKB、BAR与IntAct三个生物学数据库;采用UniProtKB数据库构建实体的注释信息表;采用BAR与IntAct数据库构建实体-关系对表;
步骤3具体包括如下步骤,
步骤3.1,对训练文本与测试文本中的实体使用MyGene网络服务获取实体相关的UniProtID,组成UniProtID集合;
步骤3.2,使用UniProtID集合中的UniProtID查询UniProtKB数据库中相应的注释描述,得到实体注释信息表;
步骤3.3,将训练文本与注释文本中的实体两两组合成实体对;
步骤3.4,在IntAct或BAR数据库中查询实体对的Interaction Type信息作为实体对的关系,形成(实体1,关系,实体2)三元组的实体-关系对表;
步骤4具体包括如下步骤,
使用TransE模型训练实体-关系对表,使得实体1正确向量h,关系向量r与实体2向量t形成h+r=t关系的实体-关系对表向量;
通过TransE模型中如下的损失函数对实体-关系对表进行训练:
L=∑(h,r,t)∈s+∑(h′,r,t′)∈s′max(0,γ-||h+r-t||+||h′+r-t′||)
其中,L为损失函数,γ是边界超参数,S+是正样例集合,S′是负样例集合,h为实体1的正确向量,h′为实体1的错误向量,r为关系向量,t实体2的正确向量,t′为实体2的错误向量;
若步骤5中,将句子包含的单词的词向量和实体-关系对表向量输入三层双向长短记忆网络BiLSTM之中进行处理,具体包括如下步骤,
步骤5.1,对前两层的输出进行平均池化运算,形成第一、二个表示;
步骤5.11,将训练文本与测试文本以实体对为头尾重新划分句子,即一个实体对之间的句子,然后向前后分别扩展两个单词;
步骤5.12,将句子包含的单词的词向量和实体-关系对表向量输入三层神经网络之中进行处理,将前两层每一层的输出使用平均池化得到该层的表示,形成第一、二个表示;
其中,长短记忆网络LSTM的内部状态定义如下:
ht=F(Wht-1+Uxt)
式中,xt是输入向量,ht是内部状态,U和W是权重系数,F是长短记忆网络的非线性的激活函数;LSTM网络的整体结构中包含输入门it,遗忘门ft与输出门ot,以及相应的权重系数Wi和Ui,Wf和Uf,Wo和Uo,其记忆单元为ct,网络的完整定义如下:
it=σ(Wiht-1+Uixt)
ft=σ(Wfht-1+Ufxt)
ot=σ(Woht-1+Uoxt)
ct=ftct-1+ittanh(Wcht-1+Ucxt)
ht=ottanh(ct)
所述的BiLSTM网络包含两个LSTM网络,分别采用句子中单词的前向单词与后向单词作为输入,其内部状态定义如下:
Figure FDA0002756473630000031
步骤5.2,将第三层的输出采用Attention机制,结合第三层的BiLSTM网络的内部状态对UniProtKB中得到的实体注释信息表的信息进行筛选,并与内部状态相加,得到新的输出,将新的输出进行平均池化运算,形成第三个表示;
其中,对于BiLSTM网络,其输出如下:
h′t=ht3+∑i∈VαiBviB
式中,ht3为第三层网络的原内部状态,viB为注释信息表中第i项的向量,αiB为该向量的Attention权重,h′t为第三层网络的全新状态;
若步骤5中,将句子包含的单词的词向量和实体-关系对表向量输入卷积神经网络CNN之中进行处理,具体包括如下步骤,
步骤5.1,对前两层的输出进行平均池化运算,形成第一、二个表示;
步骤5.11,将训练文本与测试文本以实体对为头尾重新划分句子,即一个实体对之间的句子,然后向前后分别扩展两个单词;
步骤5.12,将句子包含的单词的词向量和实体-关系对表向量输入三层神经网络之中进行处理,将前两层每一层的输出使用平均池化得到该层的表示,形成第一、二个表示;
其中,卷积神经网络中一个卷积层输出为:
Figure FDA0002756473630000041
其中
Figure FDA0002756473630000042
n为输入的句子长度,hf为滤波器长度,w和b为滤波器的权重系数,f为卷积神经网络的非线性激活函数,xi:i+h-1由hf个词向量连接而成;
步骤5.2,将第三层的输出采用Attention机制,结合第三层的CNN网络的内部状态对UniProtKB中得到的实体注释信息表的信息进行筛选,并与内部状态相加,得到新的输出,将新的输出进行平均池化运算,形成第三个表示;
其中,对于CNN网络,其输出为:
x′i=xi+∑i∈VαiCviC
式中,xi为第三层卷积后的输出向量,viC为知识库信息中第i项的向量,αic为该向量的权重。
2.根据权利要求1所述的基于多层神经网络与外部知识库的生物医学语义关系提取方法,其特征在于,步骤1具体包括如下步骤,
步骤1.1,使用基于skip-gram模型的word2vec方法,选取与生物医学相关的语料库形成包含文章要素的文章外部知识库,生成包含生物医学类词汇的词向量表;
步骤1.2,使用StanfordNLP在UD English EWT语料库上训练的模型对文本进行分词、词性标注、句法分析预处理,得到词性标量和句法分析向量。
3.根据权利要求1所述的基于多层神经网络与外部知识库的生物医学语义关系提取方法,其特征在于,步骤2具体包括如下步骤,
步骤2.1,使用PubTator服务中的GNormPlus工具进行训练文本与测试文本的命名实体识别;
步骤2.2,通过PubTator服务,识别训练文本与测试文本的PubMed文献编号,得到训练文本与测试文本的命名实体识别结果。
4.根据权利要求1所述的基于多层神经网络与外部知识库的生物医学语义关系提取方法,其特征在于,步骤7中,具体的使用如下的softmax分类器预测y′;
py=softmax(W S)
Figure FDA0002756473630000051
其中,S为句子的最终表示,W是权重系数,p为句子中两个实体有关系的概率,y表示关系类型的集合,y′表示当前预测的关系类型。
5.根据权利要求1所述的基于多层神经网络与外部知识库的生物医学语义关系提取方法,其特征在于,使用训练集文本重复步骤1-7进行神经网络的训练,调整神经网络的参数以优化其分类性能,并使用测试集文本进行测试,直至得到测试集文本中的实体关系结果,完成神经网络的训练。
CN201910357259.4A 2019-04-29 2019-04-29 基于多层神经网络与外部知识库的生物医学语义关系提取方法 Active CN110083838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910357259.4A CN110083838B (zh) 2019-04-29 2019-04-29 基于多层神经网络与外部知识库的生物医学语义关系提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910357259.4A CN110083838B (zh) 2019-04-29 2019-04-29 基于多层神经网络与外部知识库的生物医学语义关系提取方法

Publications (2)

Publication Number Publication Date
CN110083838A CN110083838A (zh) 2019-08-02
CN110083838B true CN110083838B (zh) 2021-01-19

Family

ID=67417749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910357259.4A Active CN110083838B (zh) 2019-04-29 2019-04-29 基于多层神经网络与外部知识库的生物医学语义关系提取方法

Country Status (1)

Country Link
CN (1) CN110083838B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446192A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于生成文本标注模型的方法、装置、电子设备和介质
CN110807327B (zh) * 2019-10-16 2022-11-08 大连理工大学 一种基于语境化胶囊网络的生物医学实体识别方法
CN110795941B (zh) * 2019-10-26 2024-04-05 创新工场(广州)人工智能研究有限公司 一种基于外部知识的命名实体识别方法、系统及电子设备
CN111276258B (zh) * 2020-01-15 2022-10-14 大连理工大学 一种基于领域知识的药物致病关系抽取方法
CN111708896B (zh) * 2020-05-30 2022-10-14 大连理工大学 一种应用于生物医学文献的实体关系抽取方法
CN111860939B (zh) * 2020-06-02 2022-04-08 合肥工业大学 基于注意力机制和rclstm网络的客流量预测方法及系统
CN111653319A (zh) * 2020-06-17 2020-09-11 四川大学 一种融合多源数据构建生物医学异构信息网络的方法
CN111859935B (zh) * 2020-07-03 2022-09-20 大连理工大学 基于文献的癌症相关生物医学事件数据库构建方法
CN112528045B (zh) * 2020-12-23 2024-04-02 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112818683A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法
CN113312912B (zh) * 2021-06-25 2023-03-31 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法
CN113536795B (zh) * 2021-07-05 2022-02-15 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN113420551A (zh) * 2021-07-13 2021-09-21 华中师范大学 一种建模实体相似性的生物医学实体关系抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894088B (zh) * 2016-03-25 2018-06-29 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
CN109446338B (zh) * 2018-09-20 2020-07-21 大连交通大学 基于神经网络的药物疾病关系分类方法

Also Published As

Publication number Publication date
CN110083838A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083838B (zh) 基于多层神经网络与外部知识库的生物医学语义关系提取方法
CN110287481B (zh) 命名实体语料标注训练系统
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110298044A (zh) 一种实体关系识别方法
Sun et al. Multi-channel CNN based inner-attention for compound sentence relation classification
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN114741507B (zh) 基于Transformer的图卷积网络的引文网络分类模型建立及分类
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
Soliman et al. Isolated word speech recognition using convolutional neural network
CN113204640B (zh) 一种基于注意力机制的文本分类方法
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
CN114818718A (zh) 合同文本识别方法及装置
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN112489689A (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN111737467A (zh) 一种基于分段卷积神经网络的对象级情感分类方法
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN115577111A (zh) 基于自注意力机制的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant