CN111710428B

CN111710428B - 一种建模全局和局部上下文交互的生物医学文本表示方法

Info

Publication number: CN111710428B
Application number: CN202010568029.5A
Authority: CN
Inventors: 赵卫中; 张晋咏
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-05-31
Anticipated expiration: 2040-06-19
Also published as: CN111710428A

Abstract

本发明公开了一种建模全局和局部上下文交互的生物医学文本表示方法，属于生物医学文本表示方法领域，给定的生物医学文本是由L个句子组成的序列(S₁,…,S_i,…,S_L)，其中每个句子S_i表示为该句子中词组成的序列，通过输入模块，给定文本中的每个句子S_i可以表示为矩阵X_i，将输入模块得到的生物医学文本的初始表示，输入到表示学习模块中进行进一步的文本建模。首先将每个词作为结点，由开源工具Stanford CoreNLP得到的语法依赖树作为结点之间的拓扑结构，再应用两层GCN对S_i中的局部上下文信息建模；然后引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的表示；最后建模局部和全局上下文的信息交互，来学习每句话中相关概念的更丰富的表示。

Description

一种建模全局和局部上下文交互的生物医学文本表示方法

技术领域

本发明涉及一种生物医学文本表示方法，特别是涉及一种建模全局和局部上下文交互的生物医学文本表示方法，属于生物医学文本表示方法技术领域。

背景技术

近年来生物医学领域蓬勃发展，生物医学文献呈现爆炸式增长的态势，如何从大量的生物医学文本数据中快速准确地获取目标信息，是一个具备应用前景和研究意义的课题。有效地建模生物医学文本是能够有效地进行信息抽取的基础，已有的文本建模方法大致可以分为三类：(1)传统的文本建模方法，使用特征选择或特征提取方法获得文本特征，并在此基础上应用经典的分类或者聚类算法进行分类和聚类分析，如TF-IDF、LDA等；(2)基于词嵌入和深度学习的文本建模方法，能够自动地为大规模的文本数据学习有意义的特征，从而避免了传统文本挖掘方法中耗时和复杂的特征工程，如RNN、CNN等；(3)基于图表示学习的文本建模方法，将文档或句子视为图的结点，利用文献之间的引用关系来构建图结构，如GCN、GAT等。

生物医学文本数据规模巨大，由于专业领域的特点，生物医学文本中的术语缩写和专有名词等种类繁多，各类生物医学概念(如基因、药物、以及各类生物组织等)之间关系复杂，并且广泛分布在整篇文本中。同时，这些生物医学概念往往具有特殊含义，并且这些特殊含义对理解文本语义以及进一步的信息抽取至关重要。因此直接应用已有的文本建模方法并不能取得理想的文本表示，进而会影响下游的生物信息学任务的效果，为此设计一种建模全局和局部上下文交互的生物医学文本表示方法来优化上述问题。

发明内容

本发明的主要目的是为了提供一种建模全局和局部上下文交互的生物医学文本表示方法。

本发明的目的可以通过采用如下技术方案达到：

一种建模全局和局部上下文交互的生物医学文本表示方法，包括如下步骤：

步骤1：假设给定的生物医学文本是由L个句子组成的序列(S₁,…,S_i,…,S_L)，其中每个句子S_i表示为该句子中词组成的序列；

步骤2：每个词的向量表示由词嵌入、位置嵌入和实体类型嵌入三部分信息拼接而成；

步骤3：通过输入模块，给定文本中的每个句子S_i可以表示为矩阵X_i，其中矩阵中的第j行表示第j个词的向量表示；

步骤4：将输入模块得到的生物医学文本的初始表示，输入到表示学习模块中进行进一步的文本建模；

步骤5：将每个词作为结点，由Stanford CoreNLP得到的语法依赖树作为结点之间的拓扑结构并用邻接矩阵A表示；

步骤6：在描述的拓扑结构图中，应用两层的GCN对S_i中的局部上下文信息建模，可以得到句子S_i新的表示，其中每个词的表示考虑了局部上下文信息；

步骤7：引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的向量表示；

步骤8：通过建模局部和全局上下文的信息交互，来学习每句话中相关生物医学概念的更丰富的表示。

优选的，其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型；

位置嵌入：采用不同频率的正弦和余弦函数建模句子中不同的位置信息；

实体类型嵌入：为每种实体类型随机初始化一个向量用于表示实体类型所蕴含的信息，实体类型嵌入向量作为模型的参数，通过训练过程来优化。

优选的，其中步骤6中每个词的表示考虑了局部上下文信息，两层的GCN形式化表示如下：

其中

I是与A同阶的单位矩阵，

为图的度矩阵，ReLU为非线性激活函数，W⁽⁰⁾和W⁽¹⁾分别为两层GCN的参数矩阵。

优选的，其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息，其中，文本中的每句话视为超图中的超边，相关的生物医学概念视为超图中的结点，每篇生物医学文本可以表示为一个超图，由于某些生物医学概念可能多次出现在整篇文本的多句话中，通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表示。

建模全局和局部上下文交互的生物医学文本表示方法的应用，包括如下步骤：

步骤1：假设超图表示为G＝(V,E)，其中V为结点的集合，E为超边的集合；

步骤2：给定一篇生物医学文本，应用开源工具BioBERT标注生物医学文本中的生物医学概念实体，并将其视为超图中的结点；

步骤3：文本中的每句话视为超图中的超边，通过两层基于语法依赖树的GCN得到句子S_i的向量表示H_i；

步骤4：然后根据句子中每个词的表示，应用最大池化操作MAX^pool(H_i)得到该句子的表示，并作为超图中相应超边的表示，记作g_i；

步骤5：对于超图中的每个结点v，与其邻接的超边，集合记为

步骤6：通过注意力机制学习集合

中每个超边对超图中节点v的贡献权重。

优选的，假设超边

的注意力权重记为α_i，通过一个聚合函数，可以得到考虑全局上下文的生物医学概念的全局表示记作HG_v，形式化表示如下：

其中

表示结点v对应的生物医学概念在句子S_i的表示，通过上述公式可以看出，超图中结点的表示融合了文本中的全局上下文信息，即考虑了同一个生物医学概念在整个文本中的语义信息。

优选的，通过建模局部和全局上下文的信息交互，来学习每句话中相关概念的表示，假设超图中的结点v在句子S_i中是第j个词，通过建模局部和全局上下文的交互可以得到第j个词新的表示，公式表达如下：

H′_i,j＝tanh(W·[g_i；HG_v]+b)

其中[·；·]表示两个向量的拼接，tanh是非线性激活函数，W和b是参数矩阵和偏置向量，通过上述公式句子S_i新的表示H′_i(H′_i,j表示H′_i的第j行，即S_i中第j个词的新的表示)考虑了超图中结点的信息(即全局上下文信息)和句子S_i的表示信息(即g_i)，即超图聚合步骤中的全局上下文信息反馈到局部文本表示学习中。

优选的，通过构建K个堆叠的超图聚合层，前一层HANN中由上述公式得到的句子的表示，作为后一层HANN中基于语法依赖树的GCN的结点的初始表示，通过这种方法可以充分地建模局部和全局上下文信息交互，从而学到更丰富的文本表示，用于接下来的信息抽取。

本发明的有益技术效果：

本发明提供的一种建模全局和局部上下文交互的生物医学文本表示方法，传统文本建模方法的主要缺点是其特征选择或特征提取方法是一个耗时巨大、往往需要领域背景知识的工程，并且文本特征的好坏直接影响到文本挖掘任务结果的性能。本发明中提出的堆叠的HANN模型是一个端到端的神经网络，能够根据后续具体的信息抽取任务(如关系抽取、事件抽取等)自动地从大规模生物医学文本中学习到有意义的特征，避免了传统文本建模方法中耗时耗力且极为复杂的特征工程；

基于词嵌入和深度学习的文本建模方法以词嵌入技术为基础，自动地为大规模的文本数据学习有意义的特征，但是现有的基于深度学习的文本建模方法大多是以句子为单位建模，忽略了整个文本中的全局上下文信息，然而在某些信息抽取任务中，全局上下文信息往往起着决定性的作用，本发明中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息，提出的超图聚合层能够有效地融合文本中的全局上下文信息；

基于图表示学习的文本建模方法大都将文档或句子视为图的结点，利用文献之间的引用关系来构建图结构，这些方法考虑了文本中的全局上下文信息，但是在一些复杂的信息抽取任务中既要考虑全局上下文信息又要考虑局部上下文信息，本发明创新性地提出建模局部和全局上下文信息交互，从而学到更丰富的文本表示，以进行后续的信息抽取任务。

在此基础上，我们进一步调研了近几年具有代表性的文档级文本建模方法：

a)BRANs：该方法提出了一种结合网络结构、多实例和多任务学习的双仿射关系注意力网络，其通过设计一个自注意力编码器对整个生物医学文本中的实体提及进行建模，旨在提取生物医学文本中实体之间的关系。

b)Doc2EDAG：该方法通过将整个文本表示为基于实体的有向无环图，并使用Transformer对其进行建模，学习包含全局上下文信息的实体表示以进行文档级的事件抽取。

c)DyGIE++：该方法通过结合BERT词嵌入和图传播来捕获与下游信息抽取任务相关的全局上下文信息，并提出了一个可应用于多种信息抽取任务的信息抽取框架。

d)iDepNN：该方法提出了一种新的基于语法依存关系的神经网络体系结构，其利用循环神经网络和递归神经网络对句子内部和句子间的结构进行建模，以进行文档级的关系抽取。

e)GCNN：该方法通过句间和句内的依赖关系将整个文本构建为一个文档级图，并使用GCN来更新文档级图中结点的表示，来捕获局部和全局上下文依赖信息以进行实体之间的关系抽取。

通过充分的调研，可以发现已有的具有代表性的文档级文本建模方法均没有考虑局部和全局上下文信息之间的交互，但是针对大规模生物医学文本中与后续信息抽取任务相关的生物医学概念繁多且相互之间关系复杂的特点，充分融合局部和全局上下文中语法和语义信息能为下游的信息抽取任务提供巨大的帮助。本发明创新性地提出端到端的文本表示模型来建模生物医学文本中局部和全局上下文的信息交互，与现有技术相比，本发明提出的方法能够学习到更加有意义的文本表示，为后续的信息抽取任务奠定了重要的表示基础。

附图说明

图1为按照本发明的一种建模全局和局部上下文交互的生物医学文本表示方法的一优选实施例的系统图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供的一种建模全局和局部上下文交互的生物医学文本表示方法，包括如下步骤：

步骤6：在描述的拓扑结构图中上，应用两层的GCN对S_i中的局部上下文信息建模，可以得到句子S_i新的表示，其中每个词的表示考虑了局部上下文信息；

在本实施例中，其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型；

在本实施例中，其中步骤6中每个词的表示考虑了局部上下文信息，两层的GCN形式化表示如下：

其中

I是与A同阶的单位矩阵，

在本实施例中，其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息，其中，文本中的每句话视为超图中的超边，相关的生物医学概念视为超图中的结点，每篇生物医学文本可以表示为一个超图，由于某些生物医学概念可能多次出现在整篇文本的多句话中，通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表示。

步骤6：通过注意力机制学习集合

中每个超边对超图中节点v的贡献权重。

在本实施例中，假设超边

其中

在本实施例中，通过建模局部和全局上下文的信息交互，来学习每句话中相关概念的表示，假设超图中的结点v在句子S_i中是第j个词，通过建模局部和全局上下文的交互可以得到第j个词新的表示，公式表达如下：

H′_i,j＝tanh(W·[g_i；HG_v]+b)

在本实施例中，通过构建K个堆叠的超图聚合层，前一层HANN中由上述公式得到的句子的表示，作为后一层HANN中基于语法依赖树的GCN的结点的初始表示，通过这种方法可以充分地建模局部和全局上下文信息交互，从而学到更丰富的文本表示，用于接下来的信息抽取。

以上所述，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种建模全局和局部上下文交互的生物医学文本表示方法，其特征在于：包括如下步骤：

步骤1：假设给定的生物医学文本是由L个句子组成的序列(S₁，...，S_i，...，S_L)，其中每个句子S_i表示为该句子中词组成的序列；

步骤2：对每个词的向量分成词嵌入、位置嵌入和实体类型嵌入三部分信息拼接而成；

其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息，其中，文本中的每句话视为超图中的超边，相关的生物医学概念视为超图中的结点，每篇生物医学文本可以表示为一个超图，通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表示H_i；

2.根据权利要求1所述的一种建模全局和局部上下文交互的生物医学文本表示方法，其特征在于：其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型；

3.根据权利要求2所述的一种建模全局和局部上下文交互的生物医学文本表示方法，其特征在于：其中步骤6中每个词的表示考虑了局部上下文信息，两层的GCN形式化表示如下：

其中

I是与A同阶的单位矩阵，

4.根据权利要求1-3任意一项所述的建模全局和局部上下文交互的生物医学文本表示方法的应用，其特征在于，包括如下步骤：

步骤1：假设超图表示为G＝(V，E)，其中V为结点的集合，E为超边的集合；

步骤4：然根据句子中每个词的表示，应用最大池化操作MAX^pool(H_i)得到该句子的表示，并作为超图中相应超边的表示，记作g_i；

根据

中超边的表示；

步骤6：通过注意力机制学习每个超边对超图中结点v表示的贡献权重。

5.根据权利要求4所述的建模全局和局部上下文交互的生物医学文本表示方法的应用，其特征在于：假设超边

其中

6.根据权利要求4所述的建模全局和局部上下文交互的生物医学文本表示方法的应用，其特征在于：通过建模局部和全局上下文的信息交互，来学习每句话中相关概念的表示，假设超图中的结点v在句子S_i中是第j个词，通过建模局部和全局上下文的交互可以得到第j个词新的表示，公式表达如下：

H′_i，j＝tanh(W·[g_i；HG_v]+b)

其中[·；·]表示两个向量的拼接，tanh是非线性激活函数，W和b是参数矩阵和偏置向量，通过上述公式句子S_i新的表示H′H′_i，j表示H′_i的第j行，即S_i中第j个词的新的表示考虑了超图中结点的信息即全局上下文信息和句子S_i的表示信息即g_i，即超图聚合步骤中的全局上下文信息反馈到局部文本表示学习中。

7.根据权利要求4所述的建模全局和局部上下文交互的生物医学文本表示方法的应用，其特征在于：通过构建K个堆叠的超图聚合层，前一层HANN中由上述公式得到的句子的表示，作为后一层HANN中基于语法依赖树的GCN的结点的初始表示，通过这种方法可以充分地建模局部和全局上下文信息交互，从而学到更丰富的文本表示，用于接下来的信息抽取。