CN111710428B - 一种建模全局和局部上下文交互的生物医学文本表示方法 - Google Patents

一种建模全局和局部上下文交互的生物医学文本表示方法 Download PDF

Info

Publication number
CN111710428B
CN111710428B CN202010568029.5A CN202010568029A CN111710428B CN 111710428 B CN111710428 B CN 111710428B CN 202010568029 A CN202010568029 A CN 202010568029A CN 111710428 B CN111710428 B CN 111710428B
Authority
CN
China
Prior art keywords
representation
text
biomedical
sentence
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010568029.5A
Other languages
English (en)
Other versions
CN111710428A (zh
Inventor
赵卫中
张晋咏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202010568029.5A priority Critical patent/CN111710428B/zh
Publication of CN111710428A publication Critical patent/CN111710428A/zh
Application granted granted Critical
Publication of CN111710428B publication Critical patent/CN111710428B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种建模全局和局部上下文交互的生物医学文本表示方法,属于生物医学文本表示方法领域,给定的生物医学文本是由L个句子组成的序列(S1,…,Si,…,SL),其中每个句子Si表示为该句子中词组成的序列,通过输入模块,给定文本中的每个句子Si可以表示为矩阵Xi,将输入模块得到的生物医学文本的初始表示,输入到表示学习模块中进行进一步的文本建模。首先将每个词作为结点,由开源工具Stanford CoreNLP得到的语法依赖树作为结点之间的拓扑结构,再应用两层GCN对Si中的局部上下文信息建模;然后引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的表示;最后建模局部和全局上下文的信息交互,来学习每句话中相关概念的更丰富的表示。

Description

一种建模全局和局部上下文交互的生物医学文本表示方法
技术领域
本发明涉及一种生物医学文本表示方法,特别是涉及一种建模全局和局部上下文交互的生物医学文本表示方法,属于生物医学文本表示方法技术领域。
背景技术
近年来生物医学领域蓬勃发展,生物医学文献呈现爆炸式增长的态势,如何从大量的生物医学文本数据中快速准确地获取目标信息,是一个具备应用前景和研究意义的课题。有效地建模生物医学文本是能够有效地进行信息抽取的基础,已有的文本建模方法大致可以分为三类:(1)传统的文本建模方法,使用特征选择或特征提取方法获得文本特征,并在此基础上应用经典的分类或者聚类算法进行分类和聚类分析,如TF-IDF、LDA等;(2)基于词嵌入和深度学习的文本建模方法,能够自动地为大规模的文本数据学习有意义的特征,从而避免了传统文本挖掘方法中耗时和复杂的特征工程,如RNN、CNN等;(3)基于图表示学习的文本建模方法,将文档或句子视为图的结点,利用文献之间的引用关系来构建图结构,如GCN、GAT等。
生物医学文本数据规模巨大,由于专业领域的特点,生物医学文本中的术语缩写和专有名词等种类繁多,各类生物医学概念(如基因、药物、以及各类生物组织等)之间关系复杂,并且广泛分布在整篇文本中。同时,这些生物医学概念往往具有特殊含义,并且这些特殊含义对理解文本语义以及进一步的信息抽取至关重要。因此直接应用已有的文本建模方法并不能取得理想的文本表示,进而会影响下游的生物信息学任务的效果,为此设计一种建模全局和局部上下文交互的生物医学文本表示方法来优化上述问题。
发明内容
本发明的主要目的是为了提供一种建模全局和局部上下文交互的生物医学文本表示方法。
本发明的目的可以通过采用如下技术方案达到:
一种建模全局和局部上下文交互的生物医学文本表示方法,包括如下步骤:
步骤1:假设给定的生物医学文本是由L个句子组成的序列(S1,…,Si,…,SL),其中每个句子Si表示为该句子中词组成的序列;
步骤2:每个词的向量表示由词嵌入、位置嵌入和实体类型嵌入三部分信息拼接而成;
步骤3:通过输入模块,给定文本中的每个句子Si可以表示为矩阵Xi,其中矩阵中的第j行表示第j个词的向量表示;
步骤4:将输入模块得到的生物医学文本的初始表示,输入到表示学习模块中进行进一步的文本建模;
步骤5:将每个词作为结点,由Stanford CoreNLP得到的语法依赖树作为结点之间的拓扑结构并用邻接矩阵A表示;
步骤6:在描述的拓扑结构图中,应用两层的GCN对Si中的局部上下文信息建模,可以得到句子Si新的表示,其中每个词的表示考虑了局部上下文信息;
步骤7:引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的向量表示;
步骤8:通过建模局部和全局上下文的信息交互,来学习每句话中相关生物医学概念的更丰富的表示。
优选的,其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型;
位置嵌入:采用不同频率的正弦和余弦函数建模句子中不同的位置信息;
实体类型嵌入:为每种实体类型随机初始化一个向量用于表示实体类型所蕴含的信息,实体类型嵌入向量作为模型的参数,通过训练过程来优化。
优选的,其中步骤6中每个词的表示考虑了局部上下文信息,两层的GCN形式化表示如下:
Figure BDA0002548228650000031
其中
Figure BDA0002548228650000032
I是与A同阶的单位矩阵,
Figure BDA0002548228650000033
为图的度矩阵,ReLU为非线性激活函数,W(0)和W(1)分别为两层GCN的参数矩阵。
优选的,其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息,其中,文本中的每句话视为超图中的超边,相关的生物医学概念视为超图中的结点,每篇生物医学文本可以表示为一个超图,由于某些生物医学概念可能多次出现在整篇文本的多句话中,通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表示。
建模全局和局部上下文交互的生物医学文本表示方法的应用,包括如下步骤:
步骤1:假设超图表示为G=(V,E),其中V为结点的集合,E为超边的集合;
步骤2:给定一篇生物医学文本,应用开源工具BioBERT标注生物医学文本中的生物医学概念实体,并将其视为超图中的结点;
步骤3:文本中的每句话视为超图中的超边,通过两层基于语法依赖树的GCN得到句子Si的向量表示Hi
步骤4:然后根据句子中每个词的表示,应用最大池化操作MAXpool(Hi)得到该句子的表示,并作为超图中相应超边的表示,记作gi
步骤5:对于超图中的每个结点v,与其邻接的超边,集合记为
Figure BDA0002548228650000034
步骤6:通过注意力机制学习集合
Figure BDA0002548228650000035
中每个超边对超图中节点v的贡献权重。
优选的,假设超边
Figure BDA0002548228650000036
的注意力权重记为αi,通过一个聚合函数,可以得到考虑全局上下文的生物医学概念的全局表示记作HGv,形式化表示如下:
Figure BDA0002548228650000037
其中
Figure BDA0002548228650000041
表示结点v对应的生物医学概念在句子Si的表示,通过上述公式可以看出,超图中结点的表示融合了文本中的全局上下文信息,即考虑了同一个生物医学概念在整个文本中的语义信息。
优选的,通过建模局部和全局上下文的信息交互,来学习每句话中相关概念的表示,假设超图中的结点v在句子Si中是第j个词,通过建模局部和全局上下文的交互可以得到第j个词新的表示,公式表达如下:
H′i,j=tanh(W·[gi;HGv]+b)
其中[·;·]表示两个向量的拼接,tanh是非线性激活函数,W和b是参数矩阵和偏置向量,通过上述公式句子Si新的表示H′i(H′i,j表示H′i的第j行,即Si中第j个词的新的表示)考虑了超图中结点的信息(即全局上下文信息)和句子Si的表示信息(即gi),即超图聚合步骤中的全局上下文信息反馈到局部文本表示学习中。
优选的,通过构建K个堆叠的超图聚合层,前一层HANN中由上述公式得到的句子的表示,作为后一层HANN中基于语法依赖树的GCN的结点的初始表示,通过这种方法可以充分地建模局部和全局上下文信息交互,从而学到更丰富的文本表示,用于接下来的信息抽取。
本发明的有益技术效果:
本发明提供的一种建模全局和局部上下文交互的生物医学文本表示方法,传统文本建模方法的主要缺点是其特征选择或特征提取方法是一个耗时巨大、往往需要领域背景知识的工程,并且文本特征的好坏直接影响到文本挖掘任务结果的性能。本发明中提出的堆叠的HANN模型是一个端到端的神经网络,能够根据后续具体的信息抽取任务(如关系抽取、事件抽取等)自动地从大规模生物医学文本中学习到有意义的特征,避免了传统文本建模方法中耗时耗力且极为复杂的特征工程;
基于词嵌入和深度学习的文本建模方法以词嵌入技术为基础,自动地为大规模的文本数据学习有意义的特征,但是现有的基于深度学习的文本建模方法大多是以句子为单位建模,忽略了整个文本中的全局上下文信息,然而在某些信息抽取任务中,全局上下文信息往往起着决定性的作用,本发明中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息,提出的超图聚合层能够有效地融合文本中的全局上下文信息;
基于图表示学习的文本建模方法大都将文档或句子视为图的结点,利用文献之间的引用关系来构建图结构,这些方法考虑了文本中的全局上下文信息,但是在一些复杂的信息抽取任务中既要考虑全局上下文信息又要考虑局部上下文信息,本发明创新性地提出建模局部和全局上下文信息交互,从而学到更丰富的文本表示,以进行后续的信息抽取任务。
在此基础上,我们进一步调研了近几年具有代表性的文档级文本建模方法:
a)BRANs:该方法提出了一种结合网络结构、多实例和多任务学习的双仿射关系注意力网络,其通过设计一个自注意力编码器对整个生物医学文本中的实体提及进行建模,旨在提取生物医学文本中实体之间的关系。
b)Doc2EDAG:该方法通过将整个文本表示为基于实体的有向无环图,并使用Transformer对其进行建模,学习包含全局上下文信息的实体表示以进行文档级的事件抽取。
c)DyGIE++:该方法通过结合BERT词嵌入和图传播来捕获与下游信息抽取任务相关的全局上下文信息,并提出了一个可应用于多种信息抽取任务的信息抽取框架。
d)iDepNN:该方法提出了一种新的基于语法依存关系的神经网络体系结构,其利用循环神经网络和递归神经网络对句子内部和句子间的结构进行建模,以进行文档级的关系抽取。
e)GCNN:该方法通过句间和句内的依赖关系将整个文本构建为一个文档级图,并使用GCN来更新文档级图中结点的表示,来捕获局部和全局上下文依赖信息以进行实体之间的关系抽取。
通过充分的调研,可以发现已有的具有代表性的文档级文本建模方法均没有考虑局部和全局上下文信息之间的交互,但是针对大规模生物医学文本中与后续信息抽取任务相关的生物医学概念繁多且相互之间关系复杂的特点,充分融合局部和全局上下文中语法和语义信息能为下游的信息抽取任务提供巨大的帮助。本发明创新性地提出端到端的文本表示模型来建模生物医学文本中局部和全局上下文的信息交互,与现有技术相比,本发明提出的方法能够学习到更加有意义的文本表示,为后续的信息抽取任务奠定了重要的表示基础。
附图说明
图1为按照本发明的一种建模全局和局部上下文交互的生物医学文本表示方法的一优选实施例的系统图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种建模全局和局部上下文交互的生物医学文本表示方法,包括如下步骤:
步骤1:假设给定的生物医学文本是由L个句子组成的序列(S1,…,Si,…,SL),其中每个句子Si表示为该句子中词组成的序列;
步骤2:每个词的向量表示由词嵌入、位置嵌入和实体类型嵌入三部分信息拼接而成;
步骤3:通过输入模块,给定文本中的每个句子Si可以表示为矩阵Xi,其中矩阵中的第j行表示第j个词的向量表示;
步骤4:将输入模块得到的生物医学文本的初始表示,输入到表示学习模块中进行进一步的文本建模;
步骤5:将每个词作为结点,由Stanford CoreNLP得到的语法依赖树作为结点之间的拓扑结构并用邻接矩阵A表示;
步骤6:在描述的拓扑结构图中上,应用两层的GCN对Si中的局部上下文信息建模,可以得到句子Si新的表示,其中每个词的表示考虑了局部上下文信息;
步骤7:引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的向量表示;
步骤8:通过建模局部和全局上下文的信息交互,来学习每句话中相关生物医学概念的更丰富的表示。
在本实施例中,其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型;
位置嵌入:采用不同频率的正弦和余弦函数建模句子中不同的位置信息;
实体类型嵌入:为每种实体类型随机初始化一个向量用于表示实体类型所蕴含的信息,实体类型嵌入向量作为模型的参数,通过训练过程来优化。
在本实施例中,其中步骤6中每个词的表示考虑了局部上下文信息,两层的GCN形式化表示如下:
Figure BDA0002548228650000071
其中
Figure BDA0002548228650000072
I是与A同阶的单位矩阵,
Figure BDA0002548228650000073
为图的度矩阵,ReLU为非线性激活函数,W(0)和W(1)分别为两层GCN的参数矩阵。
在本实施例中,其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息,其中,文本中的每句话视为超图中的超边,相关的生物医学概念视为超图中的结点,每篇生物医学文本可以表示为一个超图,由于某些生物医学概念可能多次出现在整篇文本的多句话中,通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表示。
建模全局和局部上下文交互的生物医学文本表示方法的应用,包括如下步骤:
步骤1:假设超图表示为G=(V,E),其中V为结点的集合,E为超边的集合;
步骤2:给定一篇生物医学文本,应用开源工具BioBERT标注生物医学文本中的生物医学概念实体,并将其视为超图中的结点;
步骤3:文本中的每句话视为超图中的超边,通过两层基于语法依赖树的GCN得到句子Si的向量表示Hi
步骤4:然后根据句子中每个词的表示,应用最大池化操作MAXpool(Hi)得到该句子的表示,并作为超图中相应超边的表示,记作gi
步骤5:对于超图中的每个结点v,与其邻接的超边,集合记为
Figure BDA0002548228650000081
步骤6:通过注意力机制学习集合
Figure BDA0002548228650000082
中每个超边对超图中节点v的贡献权重。
在本实施例中,假设超边
Figure BDA0002548228650000083
的注意力权重记为αi,通过一个聚合函数,可以得到考虑全局上下文的生物医学概念的全局表示记作HGv,形式化表示如下:
Figure BDA0002548228650000084
其中
Figure BDA0002548228650000085
表示结点v对应的生物医学概念在句子Si的表示,通过上述公式可以看出,超图中结点的表示融合了文本中的全局上下文信息,即考虑了同一个生物医学概念在整个文本中的语义信息。
在本实施例中,通过建模局部和全局上下文的信息交互,来学习每句话中相关概念的表示,假设超图中的结点v在句子Si中是第j个词,通过建模局部和全局上下文的交互可以得到第j个词新的表示,公式表达如下:
H′i,j=tanh(W·[gi;HGv]+b)
其中[·;·]表示两个向量的拼接,tanh是非线性激活函数,W和b是参数矩阵和偏置向量,通过上述公式句子Si新的表示H′i(H′i,j表示H′i的第j行,即Si中第j个词的新的表示)考虑了超图中结点的信息(即全局上下文信息)和句子Si的表示信息(即gi),即超图聚合步骤中的全局上下文信息反馈到局部文本表示学习中。
在本实施例中,通过构建K个堆叠的超图聚合层,前一层HANN中由上述公式得到的句子的表示,作为后一层HANN中基于语法依赖树的GCN的结点的初始表示,通过这种方法可以充分地建模局部和全局上下文信息交互,从而学到更丰富的文本表示,用于接下来的信息抽取。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (7)

1.一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:包括如下步骤:
步骤1:假设给定的生物医学文本是由L个句子组成的序列(S1,...,Si,...,SL),其中每个句子Si表示为该句子中词组成的序列;
步骤2:对每个词的向量分成词嵌入、位置嵌入和实体类型嵌入三部分信息拼接而成;
步骤3:通过输入模块,给定文本中的每个句子Si可以表示为矩阵Xi,其中矩阵中的第j行表示第j个词的向量表示;
步骤4:将输入模块得到的生物医学文本的初始表示,输入到表示学习模块中进行进一步的文本建模;
步骤5:将每个词作为结点,由Stanford CoreNLP得到的语法依赖树作为结点之间的拓扑结构并用邻接矩阵A表示;
步骤6:在描述的拓扑结构图中,应用两层的GCN对Si中的局部上下文信息建模,可以得到句子Si新的表示,其中每个词的表示考虑了局部上下文信息;
步骤7:引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的向量表示;
其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息,其中,文本中的每句话视为超图中的超边,相关的生物医学概念视为超图中的结点,每篇生物医学文本可以表示为一个超图,通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表示Hi
步骤8:通过建模局部和全局上下文的信息交互,来学习每句话中相关生物医学概念的更丰富的表示。
2.根据权利要求1所述的一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型;
位置嵌入:采用不同频率的正弦和余弦函数建模句子中不同的位置信息;
实体类型嵌入:为每种实体类型随机初始化一个向量用于表示实体类型所蕴含的信息,实体类型嵌入向量作为模型的参数,通过训练过程来优化。
3.根据权利要求2所述的一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:其中步骤6中每个词的表示考虑了局部上下文信息,两层的GCN形式化表示如下:
Figure FDA0003604267290000021
其中
Figure FDA0003604267290000022
I是与A同阶的单位矩阵,
Figure FDA0003604267290000023
为图的度矩阵,ReLU为非线性激活函数,W(0)和W(1)分别为两层GCN的参数矩阵。
4.根据权利要求1-3任意一项所述的建模全局和局部上下文交互的生物医学文本表示方法的应用,其特征在于,包括如下步骤:
步骤1:假设超图表示为G=(V,E),其中V为结点的集合,E为超边的集合;
步骤2:给定一篇生物医学文本,应用开源工具BioBERT标注生物医学文本中的生物医学概念实体,并将其视为超图中的结点;
步骤3:文本中的每句话视为超图中的超边,通过两层基于语法依赖树的GCN得到句子Si的向量表示Hi
步骤4:然根据句子中每个词的表示,应用最大池化操作MAXpool(Hi)得到该句子的表示,并作为超图中相应超边的表示,记作gi
步骤5:对于超图中的每个结点v,与其邻接的超边,集合记为
Figure FDA0003604267290000024
根据
Figure FDA0003604267290000025
中超边的表示;
步骤6:通过注意力机制学习每个超边对超图中结点v表示的贡献权重。
5.根据权利要求4所述的建模全局和局部上下文交互的生物医学文本表示方法的应用,其特征在于:假设超边
Figure FDA0003604267290000026
的注意力权重记为αi,通过一个聚合函数,可以得到考虑全局上下文的生物医学概念的全局表示记作HGv,形式化表示如下:
Figure FDA0003604267290000027
其中
Figure FDA0003604267290000028
表示结点v对应的生物医学概念在句子Si的表示,通过上述公式可以看出,超图中结点的表示融合了文本中的全局上下文信息,即考虑了同一个生物医学概念在整个文本中的语义信息。
6.根据权利要求4所述的建模全局和局部上下文交互的生物医学文本表示方法的应用,其特征在于:通过建模局部和全局上下文的信息交互,来学习每句话中相关概念的表示,假设超图中的结点v在句子Si中是第j个词,通过建模局部和全局上下文的交互可以得到第j个词新的表示,公式表达如下:
H′i,j=tanh(W·[gi;HGv]+b)
其中[·;·]表示两个向量的拼接,tanh是非线性激活函数,W和b是参数矩阵和偏置向量,通过上述公式句子Si新的表示H′H′i,j表示H′i的第j行,即Si中第j个词的新的表示考虑了超图中结点的信息即全局上下文信息和句子Si的表示信息即gi,即超图聚合步骤中的全局上下文信息反馈到局部文本表示学习中。
7.根据权利要求4所述的建模全局和局部上下文交互的生物医学文本表示方法的应用,其特征在于:通过构建K个堆叠的超图聚合层,前一层HANN中由上述公式得到的句子的表示,作为后一层HANN中基于语法依赖树的GCN的结点的初始表示,通过这种方法可以充分地建模局部和全局上下文信息交互,从而学到更丰富的文本表示,用于接下来的信息抽取。
CN202010568029.5A 2020-06-19 2020-06-19 一种建模全局和局部上下文交互的生物医学文本表示方法 Expired - Fee Related CN111710428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010568029.5A CN111710428B (zh) 2020-06-19 2020-06-19 一种建模全局和局部上下文交互的生物医学文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010568029.5A CN111710428B (zh) 2020-06-19 2020-06-19 一种建模全局和局部上下文交互的生物医学文本表示方法

Publications (2)

Publication Number Publication Date
CN111710428A CN111710428A (zh) 2020-09-25
CN111710428B true CN111710428B (zh) 2022-05-31

Family

ID=72541651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010568029.5A Expired - Fee Related CN111710428B (zh) 2020-06-19 2020-06-19 一种建模全局和局部上下文交互的生物医学文本表示方法

Country Status (1)

Country Link
CN (1) CN111710428B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347761B (zh) * 2020-11-27 2024-06-04 北京工业大学 基于bert的药物关系抽取方法
CN113066526B (zh) * 2021-04-08 2022-08-05 北京大学 一种基于超图的药物-靶标-疾病相互作用预测方法
CN113420551A (zh) * 2021-07-13 2021-09-21 华中师范大学 一种建模实体相似性的生物医学实体关系抽取方法
CN113553830B (zh) * 2021-08-11 2023-01-03 桂林电子科技大学 一种基于图的英语文本句子语篇连贯分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111615706A (zh) * 2017-11-17 2020-09-01 脸谱公司 基于子流形稀疏卷积神经网络分析空间稀疏数据
US20190251480A1 (en) * 2018-02-09 2019-08-15 NEC Laboratories Europe GmbH Method and system for learning of classifier-independent node representations which carry class label information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dandan Fang.Hierarchical-Document-Structure-Aware Attention with Adaptive Cost Sensitive Learning for Biomedical Document Classification.《2019 IEEE International Conference on Big Data》.2019, *
Jinyong Zhang.An Improved Biomedical Event Trigger Identification Framework via Modeling Document with Hierarchical Attention.《2019 IEEE International Conference on Bioinformatics and Biomedicine》.2019, *
徐伟.基于关系型数据库的中医胃腕痛病诊疗数据库的构建及研究性探索.《电脑知识与技术》.2017, *
赵卫中.一种结合主动学习的半监督文档聚类算法.《软件学报》.2012, *

Also Published As

Publication number Publication date
CN111710428A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
Liu et al. Neural machine reading comprehension: Methods and trends
Gan et al. Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis
Er et al. Attention pooling-based convolutional neural network for sentence modelling
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
Li et al. Weibo text sentiment analysis based on bert and deep learning
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
Li et al. MEduKG: a deep-learning-based approach for multi-modal educational knowledge graph construction
Gan et al. Multi-entity sentiment analysis using self-attention based hierarchical dilated convolutional neural network
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
Zhu et al. Statistical learning for semantic parsing: A survey
He et al. A modularized architecture of multi-branch convolutional neural network for image captioning
Calin Statistics and machine learning experiments in english and romanian poetry
Rizkallah et al. A polarity capturing sphere for word to vector representation
Wang et al. Tdjee: A document-level joint model for financial event extraction
Pu et al. Sentiment analysis of online course evaluation based on a new ensemble deep learning mode: evidence from Chinese
Liang et al. Named entity recognition of Chinese crop diseases and pests based on RoBERTa-wwm with adversarial training
Duan et al. Multilabel text classification algorithm based on fusion of two-stream transformer
Yu et al. ACS: Construction data auto-correction system—Taiwan Public construction data example
Huang et al. A high-precision two-stage legal judgment summarization
Wei et al. Prompt tuning for multi-label text classification: How to link exercises to knowledge concepts?
Zhou et al. A short-text similarity model combining semantic and syntactic information
Mohammad et al. Comprehensive evaluations of student performance estimation via machine learning
Zeng et al. Research on the application of knowledge mapping and knowledge structure construction based on adaptive learning model
Lakshika et al. Knowledge graphs representation for event-related e-news articles
Liu et al. Knowledge Base Question Answering via Semantic Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220531