CN112733540A - 生物医学命名实体的检测方法、装置、计算机设备和介质 - Google Patents

生物医学命名实体的检测方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN112733540A
CN112733540A CN202011636883.7A CN202011636883A CN112733540A CN 112733540 A CN112733540 A CN 112733540A CN 202011636883 A CN202011636883 A CN 202011636883A CN 112733540 A CN112733540 A CN 112733540A
Authority
CN
China
Prior art keywords
characteristic information
biomedical
hidden layer
backward
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011636883.7A
Other languages
English (en)
Inventor
龚乐君
严军荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunwave Communications Co Ltd
Original Assignee
Sunwave Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunwave Communications Co Ltd filed Critical Sunwave Communications Co Ltd
Priority to CN202011636883.7A priority Critical patent/CN112733540A/zh
Publication of CN112733540A publication Critical patent/CN112733540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种生物医学命名实体的检测方法、装置、计算机设备和介质,通过对未标注的生物医学文本进行预处理,提取生物医学文本的第一特征信息;将第一特征信息输入到经训练的Bi‑LSTM模型中处理,得到经训练的Bi‑LSTM模型输出的第二特征信息,经训练的Bi‑LSTM模型包括前向隐藏层和后向隐藏层,前向隐藏层和后向隐藏层均包括多个按照预设概率被激活的神经元,第一特征信息经前向隐藏层和后向隐藏层处理后,得到第二特征信息;采用维特比算法对第二特征信息进行动态规划解码,得到预测结果,解决了生物医学命名实体识别方法的识别效率低且识别不够准确的问题,提升了生物医学命名实体识别方法的识别效率和识别准确度。

Description

生物医学命名实体的检测方法、装置、计算机设备和介质
技术领域
本申请涉及生物医学命名实体识别技术领域,特别是涉及一种生物医学命名实体的检测方法、装置、计算机设备和存储介质。
背景技术
生物医学命名实体识别(Biomedical Named Entity Recognition,简称为Bio-NER)作为生物医学信息抽取的基本任务之一,是指利用生物医学文本挖掘技术对现有文献中出现的指定类型的实体名称进行识别,比如蛋白质、基因、核糖核酸、脱氧核糖核酸、细胞等。在生物医学中,准确而高效地完成命名实体识别具有重要的意义。目前生物医学命名实体识别采用的方法主要有:基于词典的方法、基于规则的方法、基于统计机器学习的方法和组合分类器方法。而使用最广泛的基于机器学习方法的过程包括:语料预处理、特征提取、训练模型以及预测。
多数有关生物医学领域命名实体识别的研究主要都是基于GENIA语料库,它是为GENIA项目编写并标注的最初的生物医学文献集合,是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的。然而随着生物医学领域的不断发展,新词以及众多命名的不规则性导致识别实体名称困难重重,无法构建一个完备的词典。传统的机器学习方法比较依赖人工构建的特征集和专门的领域知识,在抽取特征和总结规则的过程中,过多的人为设计会严重影响系统的泛化性。尤其在生物医学领域,需要识别的生物实体类型众多,不仅涉及蛋白质、基因等分子水平的生物实体,还需识别像细胞、组织等更高层次的实体。
相关技术中的生物医学命名实体识别方法依赖于人工构造特征,识别效率低,且识别不够准确。
目前针对相关技术中生物医学命名实体识别方法的识别效率低且识别不够准确的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种生物医学命名实体的检测方法、装置、计算机设备和存储介质,以至少解决相关技术中生物医学命名实体识别方法的识别效率低且识别不够准确的问题。
第一方面,本申请实施例提供了一种生物医学命名实体的检测方法,包括:
对未标注的生物医学文本进行预处理,提取所述生物医学文本的第一特征信息;
将所述第一特征信息输入到经训练的Bi-LSTM模型中处理,得到所述经训练的Bi-LSTM模型输出的第二特征信息,其中,所述经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,所述前向隐藏层和所述后向隐藏层均包括多个按照预设概率被激活的神经元,其中,所述第一特征信息经所述前向隐藏层和所述后向隐藏层处理后,得到第二特征信息;
采用维特比算法对所述第二特征信息进行动态规划解码,得到预测结果。
在其中一些实施例中,所述前向隐藏层和所述后向隐藏层中的神经元按照预设概率被激活包括:
在所述前向隐藏层的输入端和输出端设置dropout机制,以及在所述后向隐藏层的输入端和输出端设置dropout机制。
在其中一些实施例中,所述第一特征信息经所述前向隐藏层处理后得到前向反馈特征信息,所述第一特征信息经所述后向隐藏层处理后得到后向反馈特征信息,所述第一特征信息经所述前向隐藏层和所述后向隐藏层处理后,拼接所述前向反馈特征信息和所述后向反馈特征信息,得到所述第二特征信息。
在其中一些实施例中,所述经训练的Bi-LSTM模型包括遗忘门层、输入门层和输出门层,每个门层配置有相应的激活函数,拼接所述前向反馈特征信息和所述后向反馈特征信息,得到所述第二特征信息包括:
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至所述遗忘门层,并经第一激活函数处理后得到第三特征信息;
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至所述输入门层,并经第二激活函数和第三激活函数处理后得到第四特征信息;
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至所述输出门层,并经第四激活函数处理后得到第五特征信息;
根据所述第三特征信息、所述四特征信息以及所述第五特征信息,得到对应于该第一特征信息的第二特征信息。
在其中一些实施例中,采用维特比算法对所述第二特征信息进行动态规划解码包括:
构建CRFs模型;
计算所述第二特征信息中不同位置的条件概率和特征期望;
根据所述第二特征信息中不同位置的条件概率和特征期望,优化所述CRFs模型,并采用优化后的所述CRFs模型对所述第二特征信息进行动态规划解码。
在其中一些实施例中,在采用维特比算法对所述第二特征信息进行动态规划解码,得到预测结果之后,所述方法还包括:
根据预设规则对所述预测结果进行后处理,得到后处理结果,其中,所述后处理包括对所述预测结果进行歧义消除、对齐、融合、错误修正中的一种或者多种处理。
在其中一些实施例中,对未标注的生物医学文本进行预处理,提取所述生物医学文本的第一特征信息包括:
对所述未标注的生物医学文本依次进行分句处理、分词处理和特征抽取处理,得到所述第一特征信息,其中,所述第一特征信息包括所述生物医学文本中每个单词的多维词向量。
第二方面,本申请实施例提供了一种生物医学命名实体的检测装置,包括:
预处理模块,用于对未标注的生物医学文本进行预处理,提取所述生物医学文本的第一特征信息;
经训练的Bi-LSTM模型,用于处理所述第一特征信息,所述经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,所述前向隐藏层和所述后向隐藏层均包括多个按照预设概率被激活的神经元,其中,所述第一特征信息经所述前向隐藏层和所述后向隐藏层处理后,得到第二特征信息;
预测模块,用于采用维特比算法对所述第二特征信息进行动态规划解码,得到预测结果。
第三方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述第一方面所述的生物医学命名实体的检测方法。
第四方面,本申请实施例提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述第一方面所述的生物医学命名实体的检测方法。
相比于相关技术,本申请实施例提供的一种生物医学命名实体的检测方法、生物医学命名实体的检测装置、计算机设备和存储介质,通过对未标注的生物医学文本进行预处理,提取生物医学文本的第一特征信息;将第一特征信息输入到经训练的Bi-LSTM模型中处理,得到经训练的Bi-LSTM模型输出的第二特征信息,其中,经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,前向隐藏层和后向隐藏层均包括多个按照预设概率被激活的神经元,其中,第一特征信息经前向隐藏层和后向隐藏层处理后,得到第二特征信息;采用维特比算法对第二特征信息进行动态规划解码,得到预测结果,解决了相关技术中生物医学命名实体识别方法的识别效率低且识别不够准确的问题,提升了生物医学命名实体识别方法的识别效率和识别准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的生物医学命名实体的检测方法的终端的硬件结构框图;
图2是根据本申请实施例的生物医学命名实体的检测方法的流程图;
图3是根据本申请优选实施例的生物医学命名实体的检测方法的原理图;
图4是根据本申请优选实施例的生物医学命名实体的检测方法的流程;
图5是根据本申请实施例的生物医学命名实体的检测装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是本申请实施例的生物医学命名实体的检测方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的生物医学命名实体的检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例提供了一种生物医学命名实体的检测方法,图2是根据本申请实施例的生物医学命名实体的检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,对未标注的生物医学文本进行预处理,提取生物医学文本的第一特征信息。
第一特征信息可以是句法特征,也可以是语义特征,包括但不限于词嵌入向量(word embedding)、核心词特征、词形特征、词性特征。
在一些实施例中,可通过对未标注的生物医学文本依次进行分句处理、分词处理和特征抽取处理,得到第一特征信息,其中,第一特征信息包括生物医学文本中每个单词的多维词向量。
在一些实施例中,对于生物医学领域的语料标签,选择B、I、O三种标签来标记一个词是否是一个生物医学实体,以及标记生物医学实体开始和结束的边界。其中,B用于标识实体开始部分,I用于标记实体中间部分,O用于标记非实体部分,标注中采用多种不同的标签,分别为B-protein(蛋白质实体开始部分),B-DNA(脱氧核糖核酸开始部分),B-RNA(核糖核酸开始部分),B-cell_type(细胞类型开始部分),B-cell_line(细胞长度开始部分),I-protein(蛋白质中间部分),I-DNA(脱氧核糖核酸中间部分),I-RNA(核糖核酸中间部分),I-cell_type(细胞类型中间部分),I-cell_line(细胞长度中间部分),O(非实体部分)。
在一些实施例中,采用Word2vec(用来产生词向量的相关模型)工具所提供的CBOW语言模型将待处理生物医学文本中的每一个单词转化为预设维度的词向量。
步骤S202,将第一特征信息输入到经训练的Bi-LSTM模型中处理,得到经训练的Bi-LSTM模型输出的第二特征信息,其中,经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,前向隐藏层和后向隐藏层均包括多个按照预设概率被激活的神经元,其中,第一特征信息经前向隐藏层和后向隐藏层处理后,得到第二特征信息。
Bi-LSTM(Bi-Long Short Term Memory,双向长短期记忆网络)是一种时间递归神经网络,用于处理和预测时间序列中间隔和延迟相对较长的重要事件。Bi-LSTM模型通过前向隐藏层和后向隐藏层,构成双向循环神经网络,第一特征信息经前向隐藏层后输出前向反馈特征信息,第一特征信息经后向隐藏层后输出后向反馈特征信息,通过拼接前向反馈特征信息和后向反馈特征信息,可得到第二特征信息。
由于Bi-LSTM模型在训练过程中,可能会学习到训练样本所包含的不太一般的特性,导致前向隐藏层和后向隐藏层处理第一特征信息时出现过拟合的问题,为解决该问题,本实施例将前向隐藏层和后向隐藏层中的神经元按照预设概率被激活,让部分神经元按照预设概率启动工作,减少Bi-LSTM模型对局部特征的依赖性,防止出现过拟合问题,同时也提升了模型训练效率。
具体实施时,在前向隐藏层的输入端和输出端设置dropout机制,以及在后向隐藏层的输入端和输出端设置dropout机制,拼接前向反馈特征信息和后向反馈特征信息,得到第二特征信息。
步骤S203,采用维特比算法对第二特征信息进行动态规划解码,得到预测结果。
本实施例采用维特比算法(Viterbi algorithm)对第二特征信息进行动态规划解码,即预测第二特征信息的序列标注,获得全局最优的序列标注。
具体实施时,设置预设参数矩阵,将第二特征信息与预设参数矩阵相乘,得到转移概率的参数矩阵,该转移概率的参数矩阵的维度通过第二特征信息的序列长度与输入标记种类个数相乘来体现,通过该步骤,可搜索到第二特征信息的序列标注的正确路径。
本实施例基于Bi-LSTM模型,可以学习长期依赖问题,前向隐藏层和后向隐藏层均包括多个按照预设概率被激活的神经元,拼接前向和后向两个方向的隐藏层在同一时刻的输出,并给出最终包含上下文信息的隐藏层输出,进而提升整体模型的性能;采用维特比算法获得全局最优的序列标注。通过上述步骤,解决了相关技术中生物医学命名实体识别方法的识别效率低且识别不够准确的问题,提升了生物医学命名实体识别方法的识别效率和识别准确度。
在其中一些实施例中,经训练的Bi-LSTM模型包括遗忘门层、输入门层和输出门层,每个门层配置有相应的激活函数,拼接前向反馈特征信息和后向反馈特征信息,得到第二特征信息包括:
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至遗忘门层,并经第一激活函数处理后得到第三特征信息;
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至输入门层,并经第二激活函数和第三激活函数处理后得到第四特征信息;
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至输出门层,并经第四激活函数处理后得到第五特征信息;
根据第三特征信息、四特征信息以及第五特征信息,得到对应于该第一特征信息的第二特征信息。
在本实施例中,第一特征信息包括多个词向量,每个第一特征信息都有对应的前向反馈特征信息和后向反馈特征信息,其中,前向反馈特征信息和后向反馈特征信息的其中一项代表上一时刻输入至Bi-LSTM模型进行处理的短期记忆样本,另一项代表当前时刻输入至Bi-LSTM模型进行处理的长期记忆样本。图3是根据本申请优选实施例的生物医学命名实体的检测方法的原理图,如图3所示,从输入序列提取词嵌入向量(第一特征信息),并分别输入至前向隐藏层和后向隐藏层,Bi-LSTM模型在处理词嵌入向量时,包括以下阶段:
第一阶段:遗忘门(forget gate)层通过第一激活函数(sigmoid函数)来选择性过滤上一时刻的短期记忆样本。
此阶段处理的是上一时刻输入的短期记忆样本和当前时刻输入的长期记忆样本,将这两种数据相结合后再将其输入至sigmoid函数,sigmoid函数的输出将作为守门人,放进或者阻止部分上一时刻输入的短期记忆样本,得到第三特征信息。相关表达公式如下所示:
Figure BDA0002878729010000081
ft=σ(Wfht-1+Ufxt+bf);
其中,σ代表sigmoid函数,x代表输入序列,t代表时刻,ft代表第三特征信息,ht代表隐藏状态ht,Wf代表隐藏状态ht的权重,Uf代表输入xt的相应层的权重,bf代表偏向量。
第二阶段:输入门(input gate)层产生需要更新的信息。
输入门层通过sigmoid函数来决定所更新的信息,接着由一个tanh函数来生成新的候选值
Figure BDA0002878729010000082
对新的候选值
Figure BDA0002878729010000083
进行刷新得到ct,以将新的信息正规化到区间(-1,1)。相关表达公式如下所示:
it=σ(Wxixt-1+Whiht-1+Wcict-1+bi);
Figure BDA0002878729010000084
Figure BDA0002878729010000085
第三阶段:输出门(output gate)层输出Bi-LSTM模型处理得到的第二特征信息。
先通过sigmoid函数得到一个初始输出,然后由tanh函数将ct进行缩放,两者相乘得到Bi-LSTM模型的输出。相关表达公式如下所示:
ot=σ(Wxixt-1+Whiht-1+Wcict-1+bo);
ht=ot⊙tanh(ct);
其中,Wxi,Whi,Wci代表隐藏状态ht的权重矩阵,Ui,Uf,Uc,Uo代表输入xt的不同层的权重矩阵,bi,bc,bo代表偏向量,xt代表时间t处的输入向量。例如用单词表示,ht是t时刻的输出向量,用于存储符合预设价值的有用信息,⊙是相乘运算。
Bi-LSTM模型对每个第一特征信息分别采用前向和后向计算得到两个不同的隐层表示,然后通过向量拼接得到最终的隐层表示
Figure BDA0002878729010000091
最后输出传入到线性层,将隐状态向量从n维映射到k维,k代表标注集的标签数,从而得到自动提取的句子特征,记作矩阵p=(p1,p2,…,pn)∈Rn×k;其中pi∈Rk的每一维pij代表将词xi分类到第j个标签的概率。
在得到第二特征信息之后,若再对p进行softmax(逻辑回归)处理其实就相当于对各个位置独立地进行k类分类,但是这样对各个位置进行标注时无法利用已经标注过的信息。为解决该问题,在其中一些实施例中,采用维特比算法对第二特征信息进行动态规划解码包括:
构建CRFs模型;计算第二特征信息中不同位置的条件概率和特征期望;根据第二特征信息中不同位置的条件概率和特征期望,优化CRFs模型,并采用优化后的CRFs模型对第二特征信息进行动态规划解码。
其中,CRFs(Conditional Random Fields,条件随机场)模型是一种判别模型,采用马尔科夫链作为隐含变量的概率转移模型,通过可观测状态判别隐含变量。
本实施例将Bi-LSTM模型的输出作为CRFs模型的输入,进行句法分析、命名实体识别、词性标注,以获得全局最优的标记序列。利用前向-后向算法计算第二特征信息中不同位置的条件概率和特征期望,使用具体的优化方法拟牛顿法求解模型参数,最后应用优化后的CRFs模型的维特比算法对第二特征信息进行动态规划解码。
对于给定的线性链条件随机场,可以按照下面的参数形式进行条件概率的相关计算:
Figure BDA0002878729010000101
Figure BDA0002878729010000102
其中,exp代表指数函数,fk(t,Yt,Yt-1,X)代表当给定输入序列中的位置t和输入X,当前位置的标记Yt和前一个位置的标记Yt-1时的第k个特征值,λk为特征权重,Z(X)为归一化因子。训练得到CRFs模型参数之后,对每个语句进行标注,找到该语句所对应的标记联合概率最大的标记序列Y=argmaxYP(Y|X),Y即为标注结果。
在其中一些实施例中,在采用维特比算法对第二特征信息进行动态规划解码,得到预测结果之后,方法还包括:
根据预设规则对预测结果进行后处理,得到后处理结果,其中,后处理包括对预测结果进行歧义消除、对齐、融合、错误修正中的一种或者多种处理。
通过一些人工制定的规则来修正初步标注结果中的错误,包括但不限于歧义消除、对齐、融合、错误修正。针对不同的错误类型,提出不同的规则来修正。例如,可通过匹配括号、引号等成对出现的字符发现标注错误;通过缩写词识别算法对全称和简称进行互相验证。
在其中一些实施例中,基于B/S(Browser/Server Architecture,浏览器和服务器)架构的系统,接收用户输入的生物医学文本,系统自动完成对生物医学文本中句子的标注,输出标注好的序列,并允许用户进行数据分析及下载。
以下将通过优选实施例介绍生物医学命名实体的检测方法。
图4是根据本申请优选实施例的生物医学命名实体的检测方法的流程,如图4所示,该流程包括如下步骤:
步骤S401,获取语料库。
步骤S402,获取生物医学文本。
步骤S403,对输入的数据进行预处理,包括分句、分词和标准化处理,再采用Word2vec进行词向量嵌入处理,然后提取第一特征信息。输入的词向量序列根据设定的参数窗口大小将词向量进行连接,设窗口大小为k,序列长度为N,则得到长度为N-k+1的序列,作为Bi-LSTM模型的输入序列。
步骤S404,采用Bi-LSTM模型处理第一特征信息,得到第二特征信息。利用随机初始化对Bi-LSTM模型的多个参数矩阵进行初始化,根据步骤S403得到的输入序列传入到双向长短记忆网络,即同时输入到前向隐藏层与后向隐藏层进行模型的计算和训练。为了防止出现过拟合,在前向隐藏层与后向隐藏层的输入和输出部分加入dropout机制,最后拼接获得前后向信息即作为隐藏层的输出。
步骤S405,根据第二特征信息求解模型参数,优化CRFs模型,并采用优化后的CRFs模型预测序列标注。隐藏层的序列输出与参数矩阵相乘,得到转移概率的参数矩阵,维度为序列长度与输入标记种类个数相乘,用于进行最终正确路径的搜索。
步骤S406,数据后处理,包括歧义消除、对齐、融合、错误修正。
步骤S407,输出实体识别结果。
通过上述步骤,通过向前和向后处理每个序列有选择的保存序列的上下文信息,进一步获取了未标注语料前后向深层次的信息,可以有效地学习序列潜在的语义信息。减少了人工抽取特征代价,从未标注的语料中抽取不同词表示特征,并运用到命名实体识别系统中,提高了识别效率。能够以整个观测序列为条件,使得标注更加全局化,提高了生物医学命名识别的性能。
本实施例还提供了一种生物医学命名实体的检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的生物医学命名实体的检测装置的结构框图,如图5所示,该装置包括:预处理模块、经训练的Bi-LSTM模型和预测模块。
预处理模块51,用于对未标注的生物医学文本进行预处理,提取生物医学文本的第一特征信息。
经训练的Bi-LSTM模型52,耦合至预处理模块51,用于处理第一特征信息,经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,前向隐藏层和后向隐藏层均包括多个按照预设概率被激活的神经元,其中,第一特征信息经前向隐藏层和后向隐藏层处理后,得到第二特征信息。
预测模块53,耦合至经训练的Bi-LSTM模型52,用于采用维特比算法对第二特征信息进行动态规划解码,得到预测结果。
在其中一些实施例中,经训练的Bi-LSTM模型52包括:dropout机制设置模块,用于在前向隐藏层的输入端和输出端设置dropout机制,以及在后向隐藏层的输入端和输出端设置dropout机制。
在其中一些实施例中,经训练的Bi-LSTM模型52包括:拼接模块,第一特征信息经前向隐藏层处理后得到前向反馈特征信息,第一特征信息经后向隐藏层处理后得到后向反馈特征信息,拼接模块用于在第一特征信息经前向隐藏层和后向隐藏层处理后,拼接前向反馈特征信息和后向反馈特征信息,得到第二特征信息。
在其中一些实施例中,拼接模块包括:遗忘门层、输入门层和输出门层,每个门层配置有相应的激活函数;其中,遗忘门层包括第一激活函数,用于处理对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信息,得到第三特征信息;输入门层包括第二激活函数和第三激活函数,用于处理对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信,得到第四特征信息;输出门层包括第四激活函数,用于处理对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信息,得到第五特征信息;拼接模块用于根据第三特征信息、第四特征信息以及第五特征信息,得到对应于该第一特征信息的第二特征信息。
在其中一些实施例中,预测模块53包括:构建模块,用于构建CRFs模型;计算模块,用于计算第二特征信息中不同位置的条件概率和特征期望;优化模块,用于根据第二特征信息中不同位置的条件概率和特征期望,优化CRFs模型,并采用优化后的CRFs模型对第二特征信息进行动态规划解码。
在其中一些实施例中,装置还包括:后处理模块,用于根据预设规则对预测结果进行后处理,得到后处理结果,其中,后处理包括对预测结果进行歧义消除、对齐、融合、错误修正中的一种或者多种处理。
在其中一些实施例中,预处理模块51用于对未标注的生物医学文本依次进行分句处理、分词处理和特征抽取处理,得到第一特征信息,其中,第一特征信息包括生物医学文本中每个单词的多维词向量。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述计算机设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S201,对未标注的生物医学文本进行预处理,提取生物医学文本的第一特征信息。
步骤S202,将第一特征信息输入到经训练的Bi-LSTM模型中处理,得到经训练的Bi-LSTM模型输出的第二特征信息,其中,经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,前向隐藏层和后向隐藏层均包括多个按照预设概率被激活的神经元,其中,第一特征信息经前向隐藏层和后向隐藏层处理后,得到第二特征信息。
步骤S203,采用维特比算法对第二特征信息进行动态规划解码,得到预测结果。
通过上述步骤,解决了相关技术中生物医学命名实体识别方法的识别效率低且识别不够准确的问题,提升了生物医学命名实体识别方法的识别效率和识别准确度。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的生物医学命名实体的检测方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种生物医学命名实体的检测方法。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种生物医学命名实体的检测方法,其特征在于,包括:
对未标注的生物医学文本进行预处理,提取所述生物医学文本的第一特征信息;
将所述第一特征信息输入到经训练的Bi-LSTM模型中处理,得到所述经训练的Bi-LSTM模型输出的第二特征信息,其中,所述经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,所述前向隐藏层和所述后向隐藏层均包括多个按照预设概率被激活的神经元,其中,所述第一特征信息经所述前向隐藏层和所述后向隐藏层处理后,得到第二特征信息;
采用维特比算法对所述第二特征信息进行动态规划解码,得到预测结果。
2.根据权利要求1所述的生物医学命名实体的检测方法,其特征在于,所述前向隐藏层和所述后向隐藏层中的神经元按照预设概率被激活包括:
在所述前向隐藏层的输入端和输出端设置dropout机制,以及在所述后向隐藏层的输入端和输出端设置dropout机制。
3.根据权利要求1所述的生物医学命名实体的检测方法,其特征在于,所述第一特征信息经所述前向隐藏层处理后得到前向反馈特征信息,所述第一特征信息经所述后向隐藏层处理后得到后向反馈特征信息,所述第一特征信息经所述前向隐藏层和所述后向隐藏层处理后,拼接所述前向反馈特征信息和所述后向反馈特征信息,得到所述第二特征信息。
4.根据权利要求3所述的生物医学命名实体的检测方法,其特征在于,所述经训练的Bi-LSTM模型包括遗忘门层、输入门层和输出门层,每个门层配置有相应的激活函数,拼接所述前向反馈特征信息和所述后向反馈特征信息,得到所述第二特征信息包括:
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至所述遗忘门层,并经第一激活函数处理后得到第三特征信息;
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至所述输入门层,并经第二激活函数和第三激活函数处理后得到第四特征信息;
将对应于同一个第一特征信息的前向反馈特征信息和后向反馈特征信输入至所述输出门层,并经第四激活函数处理后得到第五特征信息;
根据所述第三特征信息、所述四特征信息以及所述第五特征信息,得到对应于该第一特征信息的第二特征信息。
5.根据权利要求1所述的生物医学命名实体的检测方法,其特征在于,采用维特比算法对所述第二特征信息进行动态规划解码包括:
构建CRFs模型;
计算所述第二特征信息中不同位置的条件概率和特征期望;
根据所述第二特征信息中不同位置的条件概率和特征期望,优化所述CRFs模型,并采用优化后的所述CRFs模型对所述第二特征信息进行动态规划解码。
6.根据权利要求1所述的生物医学命名实体的检测方法,其特征在于,在采用维特比算法对所述第二特征信息进行动态规划解码,得到预测结果之后,所述方法还包括:
根据预设规则对所述预测结果进行后处理,得到后处理结果,其中,所述后处理包括对所述预测结果进行歧义消除、对齐、融合、错误修正中的一种或者多种处理。
7.根据权利要求1所述的生物医学命名实体的检测方法,其特征在于,对未标注的生物医学文本进行预处理,提取所述生物医学文本的第一特征信息包括:
对所述未标注的生物医学文本依次进行分句处理、分词处理和特征抽取处理,得到所述第一特征信息,其中,所述第一特征信息包括所述生物医学文本中每个单词的多维词向量。
8.一种生物医学命名实体的检测装置,其特征在于,包括:
预处理模块,用于对未标注的生物医学文本进行预处理,提取所述生物医学文本的第一特征信息;
经训练的Bi-LSTM模型,用于处理所述第一特征信息,所述经训练的Bi-LSTM模型包括前向隐藏层和后向隐藏层,所述前向隐藏层和所述后向隐藏层均包括多个按照预设概率被激活的神经元,其中,所述第一特征信息经所述前向隐藏层和所述后向隐藏层处理后,得到第二特征信息;
预测模块,用于采用维特比算法对所述第二特征信息进行动态规划解码,得到预测结果。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的生物医学命名实体的检测方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的生物医学命名实体的检测方法。
CN202011636883.7A 2020-12-31 2020-12-31 生物医学命名实体的检测方法、装置、计算机设备和介质 Pending CN112733540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011636883.7A CN112733540A (zh) 2020-12-31 2020-12-31 生物医学命名实体的检测方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011636883.7A CN112733540A (zh) 2020-12-31 2020-12-31 生物医学命名实体的检测方法、装置、计算机设备和介质

Publications (1)

Publication Number Publication Date
CN112733540A true CN112733540A (zh) 2021-04-30

Family

ID=75608649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011636883.7A Pending CN112733540A (zh) 2020-12-31 2020-12-31 生物医学命名实体的检测方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN112733540A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109522546A (zh) * 2018-10-12 2019-03-26 浙江大学 基于上下文相关的医学命名实体识别方法
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109522546A (zh) * 2018-10-12 2019-03-26 浙江大学 基于上下文相关的医学命名实体识别方法
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张华丽;康晓东;李博;王亚鸽;刘汉卿: "结合注意力机制的Bi-LSTM-CRF中文电子病历命名实体识别", 计算机应用, vol. 40, no. 1, pages 98 - 102 *
李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;: "基于BERT的中文电子病历命名实体识别", 内蒙古科技大学学报, no. 01, pages 71 - 77 *

Similar Documents

Publication Publication Date Title
CN110457675B (zh) 预测模型训练方法、装置、存储介质及计算机设备
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
Zhang et al. Neural networks incorporating dictionaries for Chinese word segmentation
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN111897954B (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN111651983A (zh) 一种基于自训练与噪声模型的因果事件抽取方法
CN114548101A (zh) 基于可回溯序列生成方法的事件检测方法和系统
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN110852068A (zh) 一种基于BiLSTM-CRF的体育新闻主题词提取方法
CN112765985A (zh) 一种面向特定领域专利实施例的命名实体识别方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116306606A (zh) 一种基于增量学习的金融合同条款提取方法和系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination