CN111581339A - 基于树状lstm对生物医学文献的基因事件的抽取方法 - Google Patents

基于树状lstm对生物医学文献的基因事件的抽取方法 Download PDF

Info

Publication number
CN111581339A
CN111581339A CN202010276382.6A CN202010276382A CN111581339A CN 111581339 A CN111581339 A CN 111581339A CN 202010276382 A CN202010276382 A CN 202010276382A CN 111581339 A CN111581339 A CN 111581339A
Authority
CN
China
Prior art keywords
event
node
information
tree
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010276382.6A
Other languages
English (en)
Other versions
CN111581339B (zh
Inventor
饶国政
孟通福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tju Binhai Industrial Research Institute Co ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010276382.6A priority Critical patent/CN111581339B/zh
Publication of CN111581339A publication Critical patent/CN111581339A/zh
Application granted granted Critical
Publication of CN111581339B publication Critical patent/CN111581339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于树状LSTM对生物医学文献的基因事件的抽取方法:训练集、验证集和测试集的文本中出现的单词建立单词词典,实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典,将生物医学文献的摘要数据处理为结构性数据;单词词典中单词映射得到向量,未被匹配的单词随机分配;事件触发词识别使用Tree‑LSTM结构,在事件元素识别中,使用最短依赖路径算法得到触发词和实体之间的最短路径,再使用Tree‑LSTM模型识别事件中事件参数及其扮演的角色;按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本,生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。

Description

基于树状LSTM对生物医学文献的基因事件的抽取方法
技术领域
本发明涉及互联网人工智能自然语言处理技术领域,更具体的说,是涉及一种基于树状LSTM对生物医学文献的基因事件的抽取方法。
背景技术
生物医学文献作为世界上丰富的科研和问诊数据来源之一,它给我们提供了充足的数据来分析文献中事件的发生及事件要素,如基因和蛋白质之间的因果关系。目前美国国家生物技术信息中心(NCBI)发布的PubMed收录了三千万条生物医学引用,GENIA corpus在其基础上针对领域事件抽取提供了人工标记的数据。因此,在生物信息检索中找到合适的模型适用在广泛的医学文献中提取出指定的事件至关重要。
在深度学习算法出现之前,事件抽取任务通常依赖于人工特征,单词词性或是专家词典,然后经过朴素贝叶斯或者支持向量机这类的分类器,这些传统的机器学习方法在任务相关的特征工程阶段花费了大量的时间和人力。与之不同地,深度学习算法能够通过无监督或者半监督特征学习算法自动的提取数据特征并且使用稠密的向量表示,不同于特征工程得到的稀疏向量表示。为了获得高质量的向量表示,我们需要将非结构化文本映射成可表示性向量的空间。然而,非结构性文本有自身的语言特性,如修辞结构和依赖关系,在构建深度学习模型时提供了不同的思路。
深度学习将文本和句子结构进行向量的表示输入到设计好的模型中,减少了特征的摸索和尝试从而发挥了表示学习的优势。在事件抽取任务中,我们常常使用预训练的词向量来初始化输入的单词或者用少量的标注训练数据在大规模语料库上训练好的模型上进行fine-tuning,如Word2Vec,GloVe和FastText。在英文的文本处理中,我们常常使用工具进行分词分句,词性标注,句法依存解析,如NLTK、StanfordCoreNLP和SpaCy。
发明内容
本发明的目的是为了克服现有技术中的不足,提出一种利用句子结构信息的基于树状LSTM对生物医学文献的基因事件的抽取方法。
本发明的目的是通过以下技术方案实现的。
本发明基于树状LSTM对生物医学文献的基因事件的抽取方法,包括以下过程:
步骤一:数据预处理
生物医学文献的摘要数据使用的是文本格式,使用NLTK进行分句和分词,对句子进行依赖解析,实体和训练集中的触发词使用BILOU的标记规则进行标记,将训练集、验证集和测试集的文本中出现的单词建立单词词典,转化为数字索引,将实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典,将生物医学文献的摘要数据处理为结构性数据:将单句按照单词词典索引进行转换,实体按照实体词典进行编码,触发词按照触发词词典进行编码,将单句的信息按照依存树的结构生成数据结构记录全部信息;事件参数按照发生U和L的实体或者触发词生成相应的三元组;
步骤二:词嵌入
将单词词典中的单词映射到预训练的词模型PubMed-and-PMC-w2v中得到相应的向量,未被匹配的单词使用正太分布概率进行随机的分配,单词词典中每个单词使用200维度的数字进行表示,范围为(-1,1);
步骤三:训练模型识别基因事件
①触发词识别阶段
由于使用Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构,将单句中的单词按照依赖解析的树状顺序,生成相应的树结构信息;树结构中的节点信息包含:单词在句中的位置顺序,该节点的孩子的信息和父节点的信息,以及触发词的默认类型;
Child-Sum Tree-LSTM模型将句子对应的树的信息进行解析并经过公式(1)-(8)进行计算,得到每个节点预测的事件类型;将单句的根节点作为输入信息输入到Child-SumTree-LSTM结构中,叶子结点的初始状态设置为零向量,每个节点进行传播时需要计算自身所有孩子的隐藏状态,整棵树使用自底向上的传播方式,直到树的根节点结束;在传播的时候将每个细胞得到的隐藏状态使用Softmax函数进行多分类,在训练阶段使用负对数似然计算损失值;
其中,每个单词在Child-Sum Tree-LSTM模型中对应的神经单元都有两个状态,分别为隐藏状态和细胞状态,使用隐藏状态接入Softmax函数进行多分类,得到触发词的类型;
Figure BDA0002444934360000031
Figure BDA0002444934360000032
fjk=δ(Wf[xj,hk]+bf) (3)
Figure BDA0002444934360000033
Figure BDA0002444934360000034
Figure BDA0002444934360000035
hj=oj⊙tanh(cj) (7)
pj=softmax(Wphj+bp) (8)
其中,C(j)代表节点j所有孩子节点的集合,hk代表节点j中的第k个节点的隐藏状态,
Figure BDA0002444934360000036
代表节点j中所有节点的隐藏状态的累加和,xj是节点j细胞的输入信息,δ是sigmoid激活函数,ij代表LSTM节点j的输入门,fjk代表LSTM中节点j对第k个孩子的遗忘门,oj代表LSTM中的节点j的输出门,Wi是输入门的学习矩阵,Wf是遗忘门的学习矩阵,Wo是输出门的学习矩阵,bj是输入门的偏置值,bf是遗忘门的偏置值,bo是输出门的偏置值,tanh是激活函数,
Figure BDA0002444934360000037
是候选细胞信息,Wc是候选细胞状态的学习矩阵,bc是候选细胞状态的偏置值,cj是节点j的细胞状态信息,ck是节点j中的第k个节点的细胞状态,hj是节点j的隐藏状态信息,Wp是分类的学习矩阵,softmax是多分类的函数,bp是多分类的偏置值,pj是节点j使用隐藏状态进行多分类的输出信息;
②事件参数识别阶段
首先,构造两个集合:触发词集合,触发词和实体混合组成的事件参数的集合;分别从两个集合取出一个元素,每个元素是一个单句中的构成树的一个节点信息;然后在树状结构中得到这两个元素所在路径的最低的公共祖先节点,并得到触发词到最低的公共祖先节点的路径和候选事件参数到最低的公共祖先节点的路径;
在Child-Sum Tree-LSTM模型中分别计算两条路径构成的树的信息后,得到两个根节点的信息;将这两个根节点中的隐藏状态信息进行拼接操作,输入到Softmax函数中进行多分类,从而得到候选的事件参数在事件中扮演的角色类型;对事件参数进行多分类见公式(9):
pt=softmax(Wt[hjl;hjr]+bt) (9)
其中,hjl是触发词所在路径的根节点的隐藏状态的信息,hjr是触发词和实体混合的集合中的元素所在路径的根节点的隐藏状态的信息,Wt是学习的参数矩阵,bt是偏置值,pt是预测事件参数在事件中的扮演角色的类型;
步骤四:训练模型生成规范的输出信息
在触发词识别阶段,预测符合BILOU编码的触发词,读取触发词词典和原始数据中的文本信息,生成触发词信息包含触发词在文本的单词位置,对应的单词和触发词类型;在事件参数识别阶段,每对元素预测事件参数在事件中的扮演角色的类型,按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本,生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。
步骤一中对句子进行依赖解析采用的是斯坦福大学的句子依赖解析器工具。
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明提出了一种基于树状LSTM对生物医学文献的基因事件的抽取方法,并且在标注生物医学文献基因事件的bionlp 2011 GENIA数据集上得到了验证。相对于传统的机器学习,本发明采用树状的LSTM神经网络模型自动学习语义特征,减少了手工设计特征的工作,又充分利用了句子的依赖信息,减少了触发词和事件参数之间的路径,从而提高了有效信息的利用。在简单事件抽取中大约达到46%的预测效果,由于识别的事件类型过多,整体事件抽取效果可达到大约30%的预测效果。
附图说明
图1是stanford dependency parser分析句子依赖关系的句子的结构图。
图2是Tree-LSTM神经网络中细胞单元的结构图。
图3是识别事件触发词的Tree-LSTM神经网络模型结构图。
图4是识别事件参数的Tree-LSTM神经网络模型结构图。
图5是部分单句使用stanford dependency parser分析之后的数据。
图6是部分预训练好的200维大小为3.32GB的skip-gram词向量。
图7是抽取事件在训练集和验证集上的损失函数变化
具体实施方式
下面结合附图对本发明作进一步的描述。
本发明提出来一种树状长短期记忆神经网络模型(tree-structured longshort-term memory networks,Tree-LSTM)进行医学文献中的事件抽取。事件抽取分为两分部:首先是对事件触发词的识别,在单句中对所有单词进行识别;然后进行事件参数的抽取,在上一步的基础上,我们将触发词和已知的实体进行组合得到事件参数的类型。事件触发词识别使用Tree-LSTM结构,在事件元素识别中,我们使用最短依赖路径算法(shortestdependency path)得到触发词和实体之间的最短路径,再使用Tree-LSTM模型识别事件中事件参数及其扮演的角色。本发明使用的是Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构。
本发明基于树状LSTM对生物医学文献的基因事件的抽取方法,主要包括数据预处理、词嵌入阶段、训练模型识别基因事件、训练模型生成规范的输出信息四个部分。具体实现过程如下:
步骤一:数据预处理
生物医学文献的摘要数据使用的是文本格式,由于数据单元建立在单句上,所以使用NLTK进行分句和分词。由于使用是树形结构网络,需要将句子进行依赖解析,我们采用的是斯坦福大学的句子依赖解析器(Dependency Parser 2015-01-29)工具进行解析。实体和训练集中的触发词使用BILOU(Begin,Inside,Last,Outside,Unit)的标记规则进行标记。将训练集、验证集和测试集的文本中出现的单词建立单词词典,由20080个单词组成,转化为数字索引。由于使用BILOU实体和触发词编码,所以将实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典便于使用。由于是数据是文本格式,为了便于计算机处理,将生物医学文献的摘要数据处理为结构性数据:将单句按照单词词典索引进行转换,实体按照实体词典进行编码,触发词按照触发词词典进行编码,将单句的信息按照依存树的结构生成数据结构记录全部信息;事件参数按照发生U(Unit)和L(Last)的实体或者触发词生成相应的三元组。参见图1,这是stanford dependency parser分析句子依赖关系的句子结构图。
例如:事件触发词类型分为37类(有效类为36类,无效类为1类),事件参数类型为4类(有效类为3类,无效类为1类)。参见图5,这是部分单句使用stanford dependencyparser分析之后的数据。
步骤二:词嵌入阶段
本发明采用的是预训练的词模型PubMed-and-PMC-w2v,将单词词典中的单词映射到模型中得到相应的向量,未被匹配的单词使用正太分布概率进行随机的分配,单词词典中每个单词使用200维度的数字进行表示,范围为(-1,1)。
例如:匹配的单词为词典中的92.3%,随机生成的单词向量有7.7%。其中未被匹配的单词为1547个,使用(-0.1,0.1)的正太分布进行随机化生成。参见图6,这是部分预训练好的200维大小为3.32GB的skip-gram词向量。
步骤三:训练模型识别基因事件
①触发词识别阶段
这个阶段由于使用Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构,将单句中的单词按照斯坦福依赖解析器(stanford dependency parser)依赖解析的树状顺序,生成相应的树结构信息。树结构中的节点信息包含:单词在句中的位置顺序,该节点的孩子的信息和父节点的信息,以及触发词的默认类型。
本发明使用的是Child-Sum Tree-LSTM,见公式(1)-(7);对触发词进行多分类见公式(8):
Figure BDA0002444934360000061
Figure BDA0002444934360000062
fjk=δ(Wf[xj,hk]+bf) (3)
Figure BDA0002444934360000071
Figure BDA0002444934360000072
Figure BDA0002444934360000073
hj=oj⊙tanh(cj) (7)
pj=softmax(Wphj+bp) (8)
其中,C(j)代表节点j所有孩子节点的集合,hk代表节点j中的第k个节点的隐藏状态,
Figure BDA0002444934360000074
代表节点j中所有节点的隐藏状态的累加和,xj是节点j细胞的输入信息,δ是sigmoid激活函数,ij代表LSTM节点j的输入门,fjk代表LSTM中节点j对第k个孩子的遗忘门,oj代表LSTM中的节点j的输出门,Wi是输入门的学习矩阵,Wf是遗忘门的学习矩阵,Wo是输出门的学习矩阵,bj是输入门的偏置值,bf是遗忘门的偏置值,bo是输出门的偏置值,tanh是激活函数,
Figure BDA0002444934360000075
是候选细胞信息,Wc是候选细胞状态的学习矩阵,bc是候选细胞状态的偏置值,cj是节点j的细胞状态信息,ck是节点j中的第k个节点的细胞状态,hj是节点j的隐藏状态信息,Wp是分类的学习矩阵,softmax是多分类的函数,bp是多分类的偏置值,pj是节点j使用隐藏状态进行多分类的输出信息。参见图2,这是Tree-LSTM神经网络中细胞单元的结构图。参见图3,这是识别触发词的Tree-LSTM神经网络模型结构图。
Child-Sum Tree-LSTM模型将句子对应的树的信息进行解析并经过公式(1)-(8)进行计算,得到每个节点预测的事件类型。在这个阶段,将单句的根节点作为输入信息输入到Child-Sum Tree-LSTM结构中,叶子结点的初始状态设置为零向量,每个节点进行传播时需要计算自身所有孩子的隐藏状态,整棵树使用自底向上的传播方式,直到树的根节点结束。在传播的时候将每个细胞得到的隐藏状态使用Softmax函数进行多分类,在训练阶段使用负对数似然计算损失值。例如:将隐藏向量的维度设置为100维,触发词类型数量是37类。将这个阶段的触发词构成一个集合以供下一阶段使用。
其中,每个单词在Child-Sum Tree-LSTM模型中对应的神经单元都有两个状态,分别为隐藏状态(hidden state)和细胞状态(cell state)。本发明使用隐藏状态接入Softmax函数进行多分类,得到触发词的类型。
②事件参数识别阶段
该阶段输入数据除了上述的单句构成的树的信息之外,还有文本提供的实体的信息和上阶段识别的触发词信息。我们将这些信息进行事件参数的预测,识别事件参数的类型。
首先,我们构造两个集合:触发词集合,触发词和实体混合组成的事件参数的集合。分别从两个集合取出一个元素,每个元素是一个单句中的构成树的一个节点信息。然后在树状结构中得到这两个元素所在路径的最低的公共祖先节点(Lowest commonancestor,LCA),并得到触发词到LCA的路径和候选事件参数到LCA的路径。这种算法的优点在于没有不相关单词的干扰,提供有效的信息。例如句子Of the 23 cases,19 wereclassified as NK-cell and 4 as T-cell tumours.经过斯坦福依赖解析器解析之后,其中causes和NK-cell存在的的路径是:left path:causes–of-classified和right path:NK-cell-as–classified。
在Child-Sum Tree-LSTM模型中分别计算两条路径构成的树的信息后,得到两个根节点的信息。将这两个根节点中的隐藏状态信息进行拼接操作,输入到Softmax函数中进行多分类,从而得到候选的事件参数在事件中扮演的角色类型。对事件参数进行多分类见公式(9):
pt=softmax(Wt[hjl;hjr]+bt) (9)
其中,hjl是触发词所在路径的根节点的隐藏状态的信息,hjr是触发词和实体混合的集合中的元素所在路径的根节点的隐藏状态的信息,Wt是学习的参数矩阵,bt是偏置值,pt是预测事件参数在事件中的扮演角色的类型。
例如:事件参数在事件中扮演的角色类型的类型是4类角色。事件参数阶段预测事件参数在事件中的扮演角色的类型。参见图4,这是识别事件参数的Tree-LSTM神经网络模型结构图。
步骤四:训练模型生成规范的输出信息
在触发词识别阶段,本发明将预测符合BILOU编码的触发词,读取触发词词典和原始数据中的文本信息,生成触发词信息包含触发词在文本的单词位置,对应的单词和触发词类型。在事件参数识别阶段,本发明将每对元素预测事件参数在事件中的扮演角色的类型,按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本,生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。
例如:本发明按照bionlp 2011GENIA的任务1进行实验,所以输出的事件需要符合如表1形式:
表1
Event Type Core arguments
Gene expression Theme(Protein)
Transcription Theme(Protein)
Protein catabolism Theme(Protein)
Phosphorylation Theme(Protein)
Localization Theme(Protein)
Binding Theme(Protein)+
Regulation Theme(Protein/Event),Cause(Protein/Event)
Positive regulation Theme(Protein/Event),Cause(Protein/Event)
Negative regulation Theme(Protein/Event),Cause(Protein/Event)
(5)评估指标
bionlp 2011 GENIA评估符合表1的指定的事件形式,使用评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure),将验证集上的识别触发词和事件参数的信息在验证集上检验模型的抽取事件的效果如表2所示,使用的超参数如表3所示,训练的损失函数趋势如图7所示。
表2
Figure BDA0002444934360000091
表3
Parameter Value
Word embedding size 200
Tree-LSTM hidden size 100
Learning rate 0.001
Weight decay 0.001
Batch size 64
Epoch size 30
Dropout rate 0.3
Initial embedding learning rate 0.01
Optimizer Adam
通过表1,我们发现对于间的类型的事件抽取,可以达到46.39%的召回率,42.19的准确率,44.19的F1,随着事件类型的复杂程度,整体性能偏于大约30%。我们可以发现本抽取方法得到结果的三个评测指标性能近似,体现出了模型的稳定性。通过图7和表2,我们知道训练的模型在验证集上有很好的泛化能力。优化器Adam,在学习率0.001,权重衰减在0.001使模型具有良好的性能。
最后,本发明的方法除了可以自动的分析出bionlp 2011 GENIA标记的数据集上的事件,同时在PubMeb中抽取制定的关于9种基因的事件,本发明所提出的树状LSTM事件抽取模型也有着十分重要的借鉴意义。
尽管上面结合附图对本发明的功能及工作过程进行了描述,但本发明并不局限于上述的具体功能和工作过程,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出很多形式,这些均属于本发明的保护之内。

Claims (2)

1.一种基于树状LSTM对生物医学文献的基因事件的抽取方法,其特征在于,包括以下过程:
步骤一:数据预处理
生物医学文献的摘要数据使用的是文本格式,使用NLTK进行分句和分词,对句子进行依赖解析,实体和训练集中的触发词使用BILOU的标记规则进行标记,将训练集、验证集和测试集的文本中出现的单词建立单词词典,转化为数字索引,将实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典,将生物医学文献的摘要数据处理为结构性数据:将单句按照单词词典索引进行转换,实体按照实体词典进行编码,触发词按照触发词词典进行编码,将单句的信息按照依存树的结构生成数据结构记录全部信息;事件参数按照发生U和L的实体或者触发词生成相应的三元组;
步骤二:词嵌入
将单词词典中的单词映射到预训练的词模型PubMed-and-PMC-w2v中得到相应的向量,未被匹配的单词使用正太分布概率进行随机的分配,单词词典中每个单词使用200维度的数字进行表示,范围为(-1,1);
步骤三:训练模型识别基因事件
①触发词识别阶段
由于使用Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构,将单句中的单词按照依赖解析的树状顺序,生成相应的树结构信息;树结构中的节点信息包含:单词在句中的位置顺序,该节点的孩子的信息和父节点的信息,以及触发词的默认类型;
Child-Sum Tree-LSTM模型将句子对应的树的信息进行解析并经过公式(1)-(8)进行计算,得到每个节点预测的事件类型;将单句的根节点作为输入信息输入到Child-SumTree-LSTM结构中,叶子结点的初始状态设置为零向量,每个节点进行传播时需要计算自身所有孩子的隐藏状态,整棵树使用自底向上的传播方式,直到树的根节点结束;在传播的时候将每个细胞得到的隐藏状态使用Softmax函数进行多分类,在训练阶段使用负对数似然计算损失值;
其中,每个单词在Child-Sum Tree-LSTM模型中对应的神经单元都有两个状态,分别为隐藏状态和细胞状态,使用隐藏状态接入Softmax函数进行多分类,得到触发词的类型;
Figure FDA0002444934350000021
Figure FDA0002444934350000022
fjk=δ(Wf[xj,hk]+bf) (3)
Figure FDA0002444934350000023
Figure FDA0002444934350000024
Figure FDA0002444934350000025
hj=oj⊙tanh(cj) (7)
pj=softmax(Wphj+bp) (8)
其中,C(j)代表节点j所有孩子节点的集合,hk代表节点j中的第k个节点的隐藏状态,
Figure FDA0002444934350000026
代表节点j中所有节点的隐藏状态的累加和,xj是节点j细胞的输入信息,δ是sigmoid激活函数,ij代表LSTM节点j的输入门,fjk代表LSTM中节点j对第k个孩子的遗忘门,oj代表LSTM中的节点j的输出门,Wi是输入门的学习矩阵,Wf是遗忘门的学习矩阵,Wo是输出门的学习矩阵,bj是输入门的偏置值,bf是遗忘门的偏置值,bo是输出门的偏置值,tanh是激活函数,
Figure FDA0002444934350000027
是候选细胞信息,Wc是候选细胞状态的学习矩阵,bc是候选细胞状态的偏置值,cj是节点j的细胞状态信息,ck是节点j中的第k个节点的细胞状态,hj是节点j的隐藏状态信息,Wp是分类的学习矩阵,softmax是多分类的函数,bp是多分类的偏置值,pj是节点j使用隐藏状态进行多分类的输出信息;
②事件参数识别阶段
首先,构造两个集合:触发词集合,触发词和实体混合组成的事件参数的集合;分别从两个集合取出一个元素,每个元素是一个单句中的构成树的一个节点信息;然后在树状结构中得到这两个元素所在路径的最低的公共祖先节点,并得到触发词到最低的公共祖先节点的路径和候选事件参数到最低的公共祖先节点的路径;
在Child-Sum Tree-LSTM模型中分别计算两条路径构成的树的信息后,得到两个根节点的信息;将这两个根节点中的隐藏状态信息进行拼接操作,输入到Softmax函数中进行多分类,从而得到候选的事件参数在事件中扮演的角色类型;对事件参数进行多分类见公式(9):
pt=softmax(Wt[hjl;hjr]+bt) (9)
其中,hjl是触发词所在路径的根节点的隐藏状态的信息,hjr是触发词和实体混合的集合中的元素所在路径的根节点的隐藏状态的信息,Wt是学习的参数矩阵,bt是偏置值,pt是预测事件参数在事件中的扮演角色的类型;
步骤四:训练模型生成规范的输出信息
在触发词识别阶段,预测符合BILOU编码的触发词,读取触发词词典和原始数据中的文本信息,生成触发词信息包含触发词在文本的单词位置,对应的单词和触发词类型;在事件参数识别阶段,每对元素预测事件参数在事件中的扮演角色的类型,按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本,生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。
2.根据权利要求1所述的基于树状LSTM对生物医学文献的基因事件的抽取方法,其特征在于,步骤一中对句子进行依赖解析采用的是斯坦福大学的句子依赖解析器工具。
CN202010276382.6A 2020-04-09 2020-04-09 基于树状lstm对生物医学文献的基因事件的抽取方法 Active CN111581339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010276382.6A CN111581339B (zh) 2020-04-09 2020-04-09 基于树状lstm对生物医学文献的基因事件的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010276382.6A CN111581339B (zh) 2020-04-09 2020-04-09 基于树状lstm对生物医学文献的基因事件的抽取方法

Publications (2)

Publication Number Publication Date
CN111581339A true CN111581339A (zh) 2020-08-25
CN111581339B CN111581339B (zh) 2021-11-12

Family

ID=72124330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010276382.6A Active CN111581339B (zh) 2020-04-09 2020-04-09 基于树状lstm对生物医学文献的基因事件的抽取方法

Country Status (1)

Country Link
CN (1) CN111581339B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967816A (zh) * 2021-04-26 2021-06-15 四川大学华西医院 一种用于急性胰腺炎器官衰竭预测的计算机设备和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN109615116A (zh) * 2018-11-20 2019-04-12 中国科学院计算技术研究所 一种电信诈骗事件检测方法和检测系统
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN109615116A (zh) * 2018-11-20 2019-04-12 中国科学院计算技术研究所 一种电信诈骗事件检测方法和检测系统
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DIYA LI等: "Biomedical Event Extraction based on Knowledge-driven Tree-LSTM", 《HTTPS://BLENDER.CS.ILLINOIS.EDU/PAPER/BIOEVENT2019.PDF》 *
沈兰奔等: "结合注意力机制与双向LSTM的中文事件检测方法", 《中文信息学报》 *
王安然: "基于事件框架的生物信息抽取的研究", 《万方数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967816A (zh) * 2021-04-26 2021-06-15 四川大学华西医院 一种用于急性胰腺炎器官衰竭预测的计算机设备和系统
CN112967816B (zh) * 2021-04-26 2023-08-15 四川大学华西医院 一种急性胰腺炎器官衰竭预测方法、计算机设备和系统

Also Published As

Publication number Publication date
CN111581339B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111680494A (zh) 相似文本的生成方法及装置
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN112836051A (zh) 一种在线自学习的法院电子卷宗文本分类方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN115437626A (zh) 一种基于自然语言的ocl语句自动生成方法和装置
CN114841353A (zh) 一种融合句法信息的量子语言模型建模系统及其应用
CN111581339B (zh) 基于树状lstm对生物医学文献的基因事件的抽取方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114372138A (zh) 一种基于最短依存路径和bert的电力领域关系抽取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 300461 room 214, building 3, No. 48, Jialingjiang Road, Lingang Economic Zone, Binhai New Area, Tianjin

Patentee after: TJU BINHAI INDUSTRIAL RESEARCH INSTITUTE CO.,LTD.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200825

Assignee: Tianjin Green Agriculture Technology Co.,Ltd.

Assignor: TJU BINHAI INDUSTRIAL RESEARCH INSTITUTE CO.,LTD.

Contract record no.: X2022980027017

Denomination of invention: Extraction of gene events from biomedical literature based on tree LSTM

Granted publication date: 20211112

License type: Common License

Record date: 20230104

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Tianjin Green Agriculture Technology Co.,Ltd.

Assignor: TJU BINHAI INDUSTRIAL RESEARCH INSTITUTE CO.,LTD.

Contract record no.: X2022980027017

Date of cancellation: 20231018

OL01 Intention to license declared