CN113033207B - 基于逐层感知机制的生物医学嵌套类型实体识别方法 - Google Patents

基于逐层感知机制的生物医学嵌套类型实体识别方法 Download PDF

Info

Publication number
CN113033207B
CN113033207B CN202110373760.7A CN202110373760A CN113033207B CN 113033207 B CN113033207 B CN 113033207B CN 202110373760 A CN202110373760 A CN 202110373760A CN 113033207 B CN113033207 B CN 113033207B
Authority
CN
China
Prior art keywords
layer
text
biomedical
entity
nested type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110373760.7A
Other languages
English (en)
Other versions
CN113033207A (zh
Inventor
申德荣
胡宇
聂铁铮
寇月
于戈
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202110373760.7A priority Critical patent/CN113033207B/zh
Publication of CN113033207A publication Critical patent/CN113033207A/zh
Application granted granted Critical
Publication of CN113033207B publication Critical patent/CN113033207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法,涉及数据挖掘和自然语言处理技术领域。该方法包括基于向量模式的生物医学文本表示、基于循环神经网络的隐藏特征编码与解码、基于多任务逐层感知机制的嵌套类型实体识别。步骤1为生物医学文本表示步骤,利用一位编码法和预训练特征向量对文本单词构建字符特征和语义特征。步骤2为隐藏特征提取,利用循环神经网络和RELU激活函数对初始特征进行隐藏信息发现、编码与解码。步骤3为多任务逐层感知机制,利用归一化函数在步骤2基础上,识别简单实体,通过迭代组合方法,逐层感知识别嵌套类型实体。本发明可以对生物医学文本中的嵌套类型实体进行识别提取,并取得较好的效果。

Description

基于逐层感知机制的生物医学嵌套类型实体识别方法
技术领域
本发明涉及数据挖掘和自然语言处理技术领域,尤其涉及一种基于逐层感知机制的生物医学嵌套类型实体识别方法。
背景技术
生物医学命名实体识别是在原始文本中识别生物医学命名实体的任务。生物医学命名实体的一个重要特点是使用嵌套实体名称。耦合的实体组成结构,由于其实体边界难以准确划定,降低了数据可理解性,给语义发现、信息检索等多个下游任务带来巨大挑战。生物医学实体识别作为文本理解的重要前置技术,通过挖掘实体及其上下文数据特征,以标识引用同一真实世界概念的数据实例,从而消除歧义、增强语义。
作为文本理解的重要前置步骤,传统的生物医学实体识别方法通常采用两种方式:(1)字符串匹配与规则发现方法,即是以专家定义的规则,从人工维护的生物医学领域专业词典中发现并抽取相关的生物医学实体。其主要方法是由专家解析文本的构成规则,并通过比对目标词项和生物医学词典,通过发现词典中类似的术语单元以识别相关实体。(2)采用统计机器学习方法,结合生物医学文本数据的特点训练模型,进行实体识别。其本质是将生物医学实体识别看做是词项的多分类问题。
然而,当前实际应用中出现的大量复杂数据结构,传统的生物医学实体识别技术无法进行较好的处理。其中一个重要的数据结构是嵌套类型实体,基于多任务多粒度的逐层感知机制可以较好地分析处理该类型实体。例如,部分实体名称可能局部或全部覆盖另外一部分实体名称,人工维护的生物医学词典由于更新不具有实时性,对新出现的实体名称可能并未纳入,统计机器学习模型仅依赖于词序列的概率分布,其主要关注词的共现现象,在方法上并未对文本结构进行更深入的处理,因而无法有效分析复杂实体的构成规则。为了有效地分析处理该类型实体,生物医学实体识别方法应当在较少地依赖于人工知识的前提下,有效地对构成实体的各种规则进行更精细地分析与处理。
相对于识别简单结构的实体数据,嵌套类型实体识别需要额外具备以下两个能力:(1)交互构成的嵌套类型实体的解耦合能力。给定两个交互构成的生物医学实体(ei,ej),(ei,ej)可能是局部或全部重叠,嵌套类型实体识别方法,相比于传统的实体识别方法,应完整地识别出每一个具有完备语义的实体构成单元。(2)每个独立实体的识别能力。如果该实体是独立实体,即不与其它任一实体耦合,嵌套类型实体识别方法应当与传统的实体识别方法具有相同的识别能力。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法,可以对生物医学文本中的嵌套类型实体进行识别提取。
为解决上述技术问题,本发明所采取的技术方案是:
一种基于逐层感知机制的生物医学嵌套类型实体识别方法,包括以下步骤:
步骤1:生物医学文本表示;
利用向量模式对实体及其上下文进行描述,构建文本中每一个单词的字符特征和语义特征:采用一位有效编码法对构成文本单词的每一个字符进行编码,采用文本嵌入预训练向量对构成文本单词的语义特征进行编码;由每一个单词的字符特征编码和语义特征编码所描述的文本作为初始文本表示;
所述一位有效编码法是指,采用n个状态位分别对构成文本单词的n个字符进行编码,索引当前字符的状态位赋值为1,其余位置赋值为0;
所述文本嵌入预训练向量是指,在语料库中,基于单词及其邻近单词在预设滑动窗口范围内的共现统计量,根据文本语言模型框架,映射到文本向量空间并生成词向量,构成的包含所有单词的查询表;
步骤2:生物医学数据隐藏特征提取;
设计两个模型;模型1是深度与文本长度相同的循环神经网络;模型2是由与模型1参数结构相同的循环神经网络,并堆叠RELU激活函数构成;采用模型1作为数据编码器,在步骤1获得的初始文本表示的基础上抽取数据的高级特征,并对数据的隐藏特征进行编码;采用模型2作为数据解码器,对编码后的隐藏特征进行解码;
步骤3:多任务模式的逐层感知实体识别;
以步骤2获得的数据隐藏特征为基础,采用由最小粒度实体识别到复杂的嵌套类型实体识别的模式,以多任务多粒度逐层感知识别的方式,识别嵌套类型生物医学实体;最小粒度实体即由单个单词所表示的实体,复杂的嵌套类型实体即由多于一个单词所构成的嵌套实体;
将数据隐藏特征向量输入归一化函数,依据归一化函数输出值,得到最小粒度实体识别的预测值,并根据最小粒度实体识别的预测值设置并调整判定阈值,得到最小粒度实体识别结果;
对得到的最小粒度实体识别结果,依次进行配对组合,并将所有的配对组合结果输入归一化函数,依据归一化函数输出值,得到嵌套实体识别的预测值,并根据嵌套实体识别的预测值设置并调整判定阈值,得到嵌套实体识别结果。
采用上述技术方案所产生的有益效果在于:本发明提供的基于逐层感知机制的生物医学嵌套类型实体识别方法,可以对生物医学文本中的嵌套类型实体进行识别提取,并取得较好的效果,相对于其它生物医学实体识别方法,准确率均有10%以上提高。
附图说明
图1为本发明实施例提供的基于逐层感知机制的生物医学嵌套类型实体识别方法总体流程图;
图2为本发明实施例提供的测试结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例的方法如下所述。
步骤1:生物医学文本表示。本步骤利用文本词项的字符特征和语义特征,生成文本词项的向量化表示。给定,词汇表V包含组成生物医学文本的所有单词,单词w是由字符表C中的字符组成的,句子S表示为单词序列(w1,w2,...,wT),其第t个单词wt表示为字符序列(ct 1,ct 2,ct 3,...,ct N),t=1,2,…,T,其中ct n是字符表C中的元素,n=1,2,…,N;N是单词wt所含字符数量,T是句子S所含单词数量。本步骤包括以下两个子步骤:
步骤1.1:字符特征表示。为组成词汇表中所有单词的字符构建一位有效编码,输入字的初始编码是通过规定字符表C(其长度表示为|C|),并使用1-of-C编码来量化每个字符:
char(wt)=WchEMB*Ic
其中,char(wt)是单词wt的字符特征表示,WchEMB∈R|C|*|C|表示字符表的一位有效编码矩阵表示,其每一行对应于字符表中相应字符的one-hot向量。Ic∈R|C|*N的第n列是从字符表中索引的第n个字符的一位有效编码向量表示。
步骤1.2:语义特征表示。对句子S中的每一个单词,逐一从构建的查询表(look-uptable)检索其d维空间向量表示,作为其语义特征表示,该查询表是由预先训练的word2vector嵌入矩阵Ww2vEMB∈R|w2vLEN|*|V|进行编码,其中|w2vLEN|表示单词嵌入向量的维度。Ww2vEMB的每一列是词汇表对应单词的word2vector嵌入向量表示。
word2vector嵌入只需从大型语料库上训练的单词嵌入的查找表中检索。使用描述当前单词在字典中位置的向量与嵌入矩阵的乘积即可将单词wt转换为其单词级嵌入:
St w2v=Ww2vEMB*vt
其中,St w2v表示单词wt的语义特征表示,vt是|V|-维向量,在词汇表中索引单词wt处值为1,在所有其他位置值为0。
综上,单词wt由语义嵌入和字符嵌入连接生成,其被描述为:wt:xt=[St w2v,char(wt)]。
步骤2.生物医学数据隐藏特征提取。输入向量由步骤1生成的单词特征向量连接构成特征矩X=(x1,x2,...,xT)。本步骤的主要目的是提取生物医学实体数据隐藏特征,包括以下两个子步骤。
步骤2.1:数据编码过程。编码器层将输入语句X=(x1,x2,...,xT)的每一个单词wt的特征向量xt转换为隐藏特征向量ht。本实施例采取前向卷积神经网络有序读取输入序列,并计算前向隐藏状态序列。反向卷积神经网络以相反的顺序读取序列,计算对应的反向隐藏状态序列。每个隐藏状态ht是通过串联前向隐藏状态和后向隐藏状态来表示的:
ht~EncoderRNN(ht-1,xt)
其中,ht是编码层第t时刻的隐藏状态。
步骤2.2:数据解码过程。解码层是给定根据隐藏状态序列生成的向量ht和已经预测的前序状态(y1,y2,…,yt-1)标签,对序列中的第t个输出状态yt进行解码并预测。解码器第t个输出状态yt和第t个隐藏状态st表示为:
yt=DecoderRNN(st,yt-1,ht)
st=f(ht,st-1,yt-1)
其中,DecoderRNN(*)表示作为解码器层的双向RNN模型,其是一个非线性多层函数。st为递归神经网络解码层的第t个隐藏状态,模型通过结合编码层隐藏状态ht生成输出yt
步骤3:采用多任务模式的逐层感知识别。本步骤采用由最小粒度实体识别到复杂的嵌套类型实体识别的模式,以多任务多粒度逐层感知识别的方式,识别嵌套类型生物医学实体。
步骤3.1:简单实体识别。对于每一个输出yt,采用SoftMax函数进行分类,得到其是否属于一个实体的判定。
步骤3.2:嵌套实体识别。根据简单实体识别的结果,对每一个识别出的简单实体进行组合,进而继续采用SoftMax函数进行分类,并重复交替进行步骤3.1和步骤3.2过程,直到识别出所有的嵌套实体。
本实施例选取两种最新提出的算法作为对比测试,如图2所示,测试结果显示,本发明在准确率上均有10%以上的提高。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于逐层感知机制的生物医学嵌套类型实体识别方法,其特征在于:包括以下步骤:
步骤1:生物医学文本表示;
利用向量模式对实体及其上下文进行描述,构建文本中每一个单词的字符特征和语义特征:采用一位有效编码法对构成文本单词的每一个字符进行编码,采用文本嵌入预训练向量对构成文本单词的语义特征进行编码;由每一个单词的字符特征编码和语义特征编码所描述的文本作为初始文本表示;
步骤2:生物医学数据隐藏特征提取;
设计两个模型;模型1是深度与文本长度相同的循环神经网络;模型2是由与模型1参数结构相同的循环神经网络,并堆叠RELU激活函数构成;采用模型1作为数据编码器,将步骤1获得的初始文本表示的每一个单词的特征向量转换为隐藏特征向量;采取前向卷积神经网络有序读取输入序列,并计算前向隐藏状态序列;反向卷积神经网络以相反的顺序读取序列,计算对应的反向隐藏状态序列;每个隐藏状态通过串联前向隐藏状态和后向隐藏状态来表示;采用模型2作为数据解码器,给定根据隐藏状态序列生成的隐藏特征向量和已经预测的前序状态标签,对序列中的下一个输出状态进行解码并预测;
步骤3:多任务模式的逐层感知实体识别;
以步骤2获得的数据隐藏特征为基础,采用由最小粒度实体识别到复杂的嵌套类型实体识别的模式,以多任务多粒度逐层感知识别的方式,识别嵌套类型生物医学实体,具体如下:
将数据隐藏特征向量输入归一化函数,依据归一化函数输出值,得到最小粒度实体识别的预测值,并根据最小粒度实体识别的预测值设置并调整判定阈值,得到最小粒度实体识别结果;
对得到的最小粒度实体识别结果,依次进行配对组合,并将所有的配对组合结果输入归一化函数,依据归一化函数输出值,得到嵌套实体识别的预测值,并根据嵌套实体识别的预测值设置并调整判定阈值,得到嵌套实体识别结果;
最小粒度实体即由单个单词所表示的实体,复杂的嵌套类型实体即由多于一个单词所构成的嵌套实体。
2.根据权利要求1所述的基于逐层感知机制的生物医学嵌套类型实体识别方法,其特征在于:所述一位有效编码法是指,采用n个状态位分别对构成文本单词的n个字符进行编码,索引当前字符的状态位赋值为1,其余位置赋值为0。
3.根据权利要求1或2所述的基于逐层感知机制的生物医学嵌套类型实体识别方法,其特征在于:所述文本嵌入预训练向量是指,在语料库中,基于单词及其邻近单词在预设滑动窗口范围内的共现统计量,根据文本语言模型框架,映射到文本向量空间并生成词向量,构成的包含所有单词的查询表。
CN202110373760.7A 2021-04-07 2021-04-07 基于逐层感知机制的生物医学嵌套类型实体识别方法 Active CN113033207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110373760.7A CN113033207B (zh) 2021-04-07 2021-04-07 基于逐层感知机制的生物医学嵌套类型实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110373760.7A CN113033207B (zh) 2021-04-07 2021-04-07 基于逐层感知机制的生物医学嵌套类型实体识别方法

Publications (2)

Publication Number Publication Date
CN113033207A CN113033207A (zh) 2021-06-25
CN113033207B true CN113033207B (zh) 2023-08-29

Family

ID=76454404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110373760.7A Active CN113033207B (zh) 2021-04-07 2021-04-07 基于逐层感知机制的生物医学嵌套类型实体识别方法

Country Status (1)

Country Link
CN (1) CN113033207B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN109902303A (zh) * 2019-03-01 2019-06-18 腾讯科技(深圳)有限公司 一种实体识别方法及相关设备
CN110472237A (zh) * 2019-07-25 2019-11-19 中国科学院软件研究所 一种基于锚点区域网络的命名实体识别方法和装置
CN111126040A (zh) * 2019-12-26 2020-05-08 贵州大学 一种基于深度边界组合的生物医学命名实体识别方法
CN112487820A (zh) * 2021-02-05 2021-03-12 南京邮电大学 一种中文医疗命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN109902303A (zh) * 2019-03-01 2019-06-18 腾讯科技(深圳)有限公司 一种实体识别方法及相关设备
CN110472237A (zh) * 2019-07-25 2019-11-19 中国科学院软件研究所 一种基于锚点区域网络的命名实体识别方法和装置
CN111126040A (zh) * 2019-12-26 2020-05-08 贵州大学 一种基于深度边界组合的生物医学命名实体识别方法
CN112487820A (zh) * 2021-02-05 2021-03-12 南京邮电大学 一种中文医疗命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文嵌套命名实体关系抽取研究;许浩亮;李雁群;何云琪;钱龙华;北京大学学报(自然科学版);第55卷(第1期);8-14 *

Also Published As

Publication number Publication date
CN113033207A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112115995B (zh) 一种基于半监督学习的图像多标签分类方法
CN111694924B (zh) 一种事件抽取方法和系统
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN106897371B (zh) 中文文本分类系统及方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN114154504B (zh) 一种基于多信息增强的中文命名实体识别算法
CN114529903A (zh) 文本细化网络
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN116303977B (zh) 一种基于特征分类的问答方法及系统
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN116227428B (zh) 一种基于迁移模式感知的文本风格迁移方法
CN113033207B (zh) 基于逐层感知机制的生物医学嵌套类型实体识别方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN113393898B (zh) 一种基于自监督学习的宏基因组重叠群分类方法
CN113468874A (zh) 一种基于图卷积自编码的生物医学关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant