CN112989835B - 一种复杂医疗实体抽取方法 - Google Patents

一种复杂医疗实体抽取方法 Download PDF

Info

Publication number
CN112989835B
CN112989835B CN202110430144.0A CN202110430144A CN112989835B CN 112989835 B CN112989835 B CN 112989835B CN 202110430144 A CN202110430144 A CN 202110430144A CN 112989835 B CN112989835 B CN 112989835B
Authority
CN
China
Prior art keywords
layer
entities
entity
nested
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110430144.0A
Other languages
English (en)
Other versions
CN112989835A (zh
Inventor
汤步洲
张可成
熊英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110430144.0A priority Critical patent/CN112989835B/zh
Publication of CN112989835A publication Critical patent/CN112989835A/zh
Application granted granted Critical
Publication of CN112989835B publication Critical patent/CN112989835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种复杂医疗实体抽取方法,包括执行以下任一项步骤:抽取单层连续实体和非连续实体步骤:对原始医疗文本进行预处理,采用基于依存分析的非连续实体双向标注方法进行标注,然后建立非连续实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体;抽取单层连续实体和嵌套实体步骤:对原始医疗文本进行预处理,采用基于依存分析的嵌套实体双向标注方法进行标注,然后建立嵌套实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体;抽取单层连续实体、非连续实体和嵌套实体步骤。本发明的有益效果是:本发明具有充分挖掘文本上下文信息,提高模型泛化性,增强模型对实体的识别准确率等优点。

Description

一种复杂医疗实体抽取方法
技术领域
本发明涉及医疗数据处理技术领域,尤其涉及一种复杂医疗实体抽取方法。
背景技术
实体抽取是自然语言处理(Natural Language Processing, NLP)研究中的一项基本任务,旨在抽取文本中特定的结构化信息,可分为开放域实体识别和垂直域实体识别两类,前者识别如人名和地名等实体,后者识别如医疗文本中的症状和疾病等实体。实体抽取应用广泛,是信息检索、知识图谱等NLP技术的基础,直接影响下游任务性能的优劣。
近年来,随着信息产业的快速发展与公民健康意识的日益提高,智慧医疗行业快速发展。现代医疗系统中积累了海量的医疗文本数据,包括电子病历和医疗文献等,蕴含了宝贵的临床医疗信息。智能医疗的火爆催生了很多在线医疗网站,累积了丰富的医疗案例。海量的医疗数据具有重大的价值,如何高效的利用和挖掘医疗文本数据,从中获取有效的知识以提高医疗水平,是当前面临的重要挑战。
医疗文本数据包含丰富的知识,医疗实体抽取是医疗文本挖掘的基础,是知识的直接体现,受到国内外学者的广泛关注。I2B2中心(Informatics for IntegratingBiology & the Beside)多次组织关于临床医疗实体识别的国际公开评测,CCKS(ChinaConference on Knowledge Graph and Semantic Computing)连续多年开展基于中文电子病历的命名实体识别(Named Entity Recognition, NER)评测任务。
医疗文本数据内容丰富,包含病人的各种信息,如疾病名称、病症记录、病因分析及用药信息等。医疗文本数据具有多样性的特点,包含了大量结构不完整的短语和短句,并且描述信息中有很多专业名词出现,会有大量的连续实体、非连续实体和嵌套实体出现。连续实体由连续的字词组成,比如“感冒”和“发烧”;非连续实体由不连续的字词组成,比如“身体经检查健康”中的“身体健康”;嵌套实体指实体与其他实体存在嵌套关系,如“糖尿病患者”中“糖尿病患者”实体和“糖尿病”实体。
发明内容
本发明提供了一种复杂医疗实体抽取方法,包括执行以下任一项步骤:
抽取单层连续实体和非连续实体步骤:首先对原始医疗文本进行预处理,并采用基于依存分析的非连续实体双向标注方法进行标注,然后建立非连续实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体。
抽取单层连续实体和嵌套实体步骤:首先对原始医疗文本进行预处理,并采用基于依存分析的嵌套实体双向标注方法进行标注,然后建立嵌套实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体。
抽取单层连续实体、非连续实体和嵌套实体步骤:首先对原始医疗文本进行预处理,并采用分层标注的基于依存分析的非连续实体双向标注方法标注每一层的实体,然后建立分层实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体。
作为本发明的进一步改进,在所述抽取单层连续实体和嵌套实体步骤中,还包括执行如下步骤:
步骤1:预处理阶段,对原始文本进行分词和映射,并采用非连续实体双向标注方法进行标注。
步骤2:建立非连续实体抽取模型;该模型包括表示层、编码层和解码层,表示层拼接能微调词向量、基于基于卷积神经网络的字符特征和词性标注特征,编码层使用双向循环神经网络提取文本的上下文表示,解码层使用双仿射分类器作为解码器。
步骤3:根据非连续实体双向标注方法进行标注还原,得到文本中所有的连续实体和非连续实体。
作为本发明的进一步改进,在所述步骤2中,还包括执行如下步骤:
步骤20:表示层的输出向量包括BERT上下文特征、基于CNN的字符特征和词性标注特征;BERT上下文特征指BERT最后一层的输出,基于CNN的字符特征指用CNN作用到单词的字母序列上获得的表示向量,词性标注特征为由词性向量映射表映射后得到。
步骤21:编码层使用BiLSTM作为编码层捕获上下文信息,BiLSTM由前向LSTM和后向LSTM组成,公式如下:
Figure 438604DEST_PATH_IMAGE001
其中,x i 表示输入句子的第i个单词,
Figure 240338DEST_PATH_IMAGE002
表示第i个单词的上文向量。
步骤22:解码层使用双仿射分类器作为解码器并预测所有标签。
作为本发明的进一步改进,在所述抽取单层连续实体和嵌套实体步骤中,还包括执行如下步骤:
步骤S1:预处理阶段,对原始文本进行分词和映射,并使用嵌套实体双向标注方法进行标注。
步骤S2:建立嵌套实体抽取模型;该模型包括表示层、编码层和解码层,表示层拼接能微调BERT词向量、基于CNN的字符特征,编码层使用BiLSTM和标签注意力机制提取文本的上下文表示,解码层使用双仿射分类器。
步骤S3:根据嵌套实体双向标注方法进行标注还原,得到文本中所有的连续实体和嵌套实体。
作为本发明的进一步改进,在所述步骤S2中,还包括执行如下步骤:
步骤S20:表示层拼接预训练BERT词向量和基于LSTM的字符级特征作为输出,然后送入编码层。
步骤S21:编码层包括两个BiLSTM层和一个标签注意力机制层,第一层BiLSTM用于文本的初步编码,捕获文本的语法和词法信息,然后通过标签注意力机制层为上下文向量引入标签偏置信息,最后通过第二层BiLSTM获得更高级别的语义上的表示。
步骤S22:解码层使用四个双仿射分类器作为解码器预测双向标注的内容。
作为本发明的进一步改进,在所述抽取单层连续实体、非连续实体和嵌套实体步骤中,还包括执行如下步骤:
步骤Y1:预处理阶段,对文本进行分词和映射,并采用非连续实体的双向标注方法进行逐层标注。
步骤Y2:建立分层实体抽取模型;该模型包括表示层、编码层和解码层,表示层拼接能微调BERT词向量,编码层使用共享的编解码层,逐层进行合并上下文向量并预测,在预测出当前层的连续和非连续实体后,将连续实体各单词的上下文向量更新为实体向量平均值,将非连续实体的各单词的上下文向量更新为对应非连续部分的向量平均值,继续送入下一层预测,解码层使用共享的双仿射分类器作为解码器并预测所有标签。
步骤Y3:根据非连续实体的双向标注方法逐层的进行标注还原,得到文本中所有的单层连续实体、非连续实体和嵌套实体。
作为本发明的进一步改进,所述对原始医疗文本进行的预处理包括对原始文本进行数据清洗、单词映射、句子边界检测、单词化。
作为本发明的进一步改进,使用基于依存分析的非连续实体的双向标注方法、嵌套的双向标注方法时,句子中的每个单词对应四类标签,前向标注方法对应前向头forward-head和前向类别forward-label两类标签,后向标注方法对应后向头backward-head和后向类别backward-label两类标签。
作为本发明的进一步改进,抽取单层连续实体和非连续实体时,根据重叠情况将非连续实体分为无重叠、左重叠、右重叠和多重叠,其中前向标注表示左重叠和无重叠的情况,后向标注表示右重叠和无重叠的情况,对标注的结果取并集以得到最终的结果。
抽取单层连续实体和嵌套实体时,根据实体间边界关系将嵌套实体分为左嵌套、右嵌套和全嵌套三种类型,嵌套实体的前向标注方法能识别全嵌套和右嵌套的情况,后向标注方法能识别全嵌套和右嵌套的情况,对两次标注的结果取并集以得到最终的结果。
抽取单层连续实体、非连续实体和嵌套实体时,根据嵌套实体深度逐层的使用非连续实体的双向标注方法标注每一层的实体,每层的标注方法与非连续实体的双向标注方法相同。
作为本发明的进一步改进,在所述步骤22中、所述步骤S22中、所述步骤Y2中,解码层使用双仿射分类器作为解码器并预测所有标签,具体还包括:
使用双仿射分类器进行模型训练,模型训练阶段的损失为所有标签的损失之和,损失计算方式为交叉熵损失函数,同时使用掩码机制减少计算量。
本发明的有益效果是:本发明公开的一种复杂医疗实体抽取方法,使用基于依存分析的双向标注方法,具有充分挖掘文本上下文信息,提高模型泛化性,增强模型对实体的识别准确率等优点。
附图说明
图1是本发明的非连续实体前向标注示例图;
图2是本发明的非连续实体后向标注示例图;
图3是本发明的双向标注掩码矩阵示例图;
图4是本发明的嵌套实体双向标注示例图;
图5是本发明的双仿射分类器结构图;
图6是本发明的非连续实体抽取模型结构图;
图7是本发明的嵌套实体抽取模型结构图;
图8是本发明的分层实体抽取模型结构图;
图9是本发明的实体抽取流程图。
具体实施方式
本发明公开了一种复杂医疗实体抽取方法,根据抽取实体结构的不同,可分为以下三部分:
1)抽取单层连续实体和非连续实体,根据重叠关系将非连续实体分为无重叠、左重叠、右重叠和多重叠四类,设计基于依存分析的非连续实体双向标注方法表示非连续实体并使用双仿射分类器作为解码器。
2)抽取单层连续实体和嵌套实体,根据边界共享信息将嵌套实体分为左重叠、右重叠、全重叠三类,使用基于依存分析的嵌套实体双向标注方法表示嵌套实体,使用双仿射分类器作为解码器,同时引入标签注意力机制增加了上下文向量关于标签的偏置信息,提高了模型上下文的表示能力。
3)抽取单层连续实体、非连续实体和嵌套实体,提出基于分层结构的复杂实体抽取模型,按照实体的嵌套层数逐层抽取连续实体和非连续实体的任务,所有层使用共享的编解码器。
如图9所示,本发明公开了一种复杂医疗实体抽取方法,该复杂医疗实体抽取方法具体结构如下:
A.第一模块为预处理模块,对原始医疗文本进行预处理;
B.第二模块为实体抽取模块,使用双仿射分类器作为解码器并进行预测;
C.第三模块为后处理模块,将标注还原为实体。
在所述预处理模块中,对原始医疗文本进行预处理包括对原始文本进行数据清洗、单词映射、句子边界检测、单词化(Tokenization)等。
本发明公开的采用基于依存分析的双向标注方法,包括:抽取单层连续实体和非连续实体时,采用基于依存分析的非连续实体双向标注方法;抽取单层连续实体和嵌套实体时,采用基于依存分析的嵌套实体双向标注方法;抽取单层连续实体、非连续实体和嵌套实体时,采用分层标注的基于依存分析的非连续实体双向标注方法。
采用基于依存分析的双向标注方法时,句子中的每个单词对应四类标签,前向标注方法对应前向头forward-head和前向类别forward-label两类标签,后向标注方法对应后向头backward-head和后向类别backward-label两类标签。
抽取单层连续实体和非连续实体时,根据重叠情况可将非连续实体可分为无重叠、左重叠、右重叠和多重叠四类。无重叠情况指非连续实体不与其它实体共享连续部分,如句子“Muscle cramping in left lower leg.”中的“Muscle cramping in leg”为无重叠的非连续实体。左重叠情况指多个实体共享连续部分且连续部分为实体的左边界,如句子“muscle pain and fatigue”中的 “muscle pain”和“muscle fatigue”实体。右重叠情况指多个实体共享连续部分且连续部分为实体的右边界,如句子“hip/leg/foot pain”中的三个实体“hip pain”、“leg pain”和“foot pain”共享右边界单词“pain”。多重叠情况指非连续实体共享多个部分,如句子“Joint and Muscle Pain/Stiffness”中实体“JointPain”、“Joint Stiffness”、“Muscle Pain”和“Muscle Stiffness”均彼此共享两部分。
非连续实体的双向标注方法考虑到实体的方向性,其中前向标注可表示左重叠和无重叠的情况,后向标注可表示右重叠和无重叠的情况,对结果取并集以确定最终的结果。前向标注使用位置表示方法(如BIO方法中,B表示实体开头,I表示实体中间,O表示实体外部)从左向右的标注,各部分内部使用正向边从左向右依次连接,即各字符的父节点为其左边的字符,将非重叠部分的左边界与重叠部分的左边界连接以表示非连续关系,设置重叠部分左边界的父节点仍为自己。在句首增加虚拟的根节点ROOT节点,将非实体单词与ROOT连接。前向标注的例子如图1所示,可识别左重叠和无重叠的情况,根据head标签和边界标签可得到实体“Extremely bad pains in hands”、“Extremely bad pains in arms”和“muscles quivering”。 后向标注与前向标注相反,从右向左的标注并选择右边界进行连接,例子如图2所示,句子中不存在右重叠的情况,可得到连续实体“Extremely bad painsin hands”和无重叠非连续实体“muscles quivering”,将双向标注的结果取并集能正确表示全部的实体。
抽取单层连续实体和嵌套实体时,根据实体间边界关系可将嵌套实体分为左嵌套、右嵌套和全嵌套三种类型,其中左嵌套指内部实体与外部实体共享左实体边界,右嵌套指内部实体和外部实体共享右实体边界,全嵌套指内部实体与外部实体不共享实体边界。在实体“human CD14 gene”中,DNA实体“human CD14 gene”和Protein实体“human CD14”共享左实体边界“human”,属于左嵌套的情况;Protein实体“human CD14”和Protein实体“CD14”共享右边界“CD14”,属于右嵌套的情况。与非连续实体表示方法不同,嵌套实体的前向标注方法可识别全嵌套和右嵌套的情况,后向标注方法可识别全嵌套和右嵌套的情况,对两次标注的结果取并集以得到最终的结果。
给定长度为n的字符串
Figure 320289DEST_PATH_IMAGE003
,使用带标签的有向边进行标注,边的 标签表示箭头指向单词的标签,使用BIO标注方法。标注时将实体的第一个单词的head置为 自身,即对应一个自环,在每个方向上从外向内迭代的标注M的每一个子串。将子串的第一 个单词与上一级实体的左边界连接,如果子串是实体则修改子串中所有单词的标签,如果 子串不是实体,将子串第一个单词的标签置为上一级实体的标签,一直迭代到空串为止。对 于所有的非实体单词,使用标签“O”将其链接到虚拟的“ROOT”节点上。
嵌套实体的双向标注方法能表示嵌套实体的各种情况,例子如图3所示。前向标注方法中首先标注“human CD14 gene”,然后按照“CD14 gene”、“CD14”和“gene”的顺序迭代标注,从左向右的从标签还原至实体,如果单词标签包含为“B”,说明此单词为实体的起始位置,然后确定实体的结束位置。通过前向标注方法能得到DNA实体“human CD14 gene”和属于右嵌套情况的Protein实体“CD14”,通过后向标注方法能得到DNA实体“human CD14gene”和属于左嵌套情况的Protein实体“human CD14”,对所有结果取并集能得到全部实体“human CD14 gene”、“human CD14”和“CD14”。图3所示标注可形式化表示为表1所示内容。
表1是嵌套实体双向标注示例表
Figure 408331DEST_PATH_IMAGE004
抽取单层连续实体、非连续实体和嵌套实体时,根据嵌套实体深度逐层的使用非连续实体的双向标注方法标注每一层的实体,每层的标注方法与非连续实体的双向标注方法相同。
对于从医疗文本中抽取单层连续实体和非连续实体的情况,本发明的进一步技术方案是:
(1)预处理阶段,对文本进行分词和映射,并使用非连续实体的双向标注方法进行标注。
(2)建立非连续实体抽取模型,其表示层的输出向量由可微调词向量如BERT( Bidirectional Encoder Representations from Transformers)上下文特征、基于卷积神 经网络(CNN:Convolutional Neural Network)的字符特征和词性标注特征三部分组成。基 于CNN的字符特征指用CNN作用到单词的字母序列上获得的表示向量。词性标注特征为由词 性向量映射表映射后得到。BERT上下文特征指BERT最后一层的输出。对于给定句子
Figure 567042DEST_PATH_IMAGE005
,输出可表示如下:
Figure 297101DEST_PATH_IMAGE006
(3)模型的编码层使用双向循环神经网络(以双向长短时记忆模型(Bidirectional Long-Short Term Memory, BiLSTM)为例;)作为编码层捕获上下文信息,BiLSTM由前向LSTM和后向LSTM组成,公式如下:
Figure 231559DEST_PATH_IMAGE001
其中,x i 表示输入句子的第i个单词,
Figure 365868DEST_PATH_IMAGE007
表示第i个单词的上文向量。
(4)非连续实体抽取模型的解码层使用双仿射分类器(Biaffine Classifier)作为解码器,双仿射分类器(Biaffine Classifier)常用于预测两个词之间的关系,结构如图5所示。双仿射分类器最早应用于依存分析任务,用于预测依存词的核心词及依存弧的类型,对应无标签弧预测(Unlabeled Arc Prediction)和弧标签预测(Arc LabelPrediction)两个任务。
无标签弧预测任务的目标是判断两个词之间是否存在连接,属于分类任务,类别 数不固定,与句子长度有关。非连续实体抽取模型训练时使用交叉熵损失函数以最大化正 确弧对应的分数,测试时取最高分数对应的弧。两个多层感知机(multi-layer perceptron,MLP)层分别表示每个词作为弧的起点和弧的终点时对应的信息。假设第i个词 和第j个词的上下文向量为
Figure 651356DEST_PATH_IMAGE007
Figure 653947DEST_PATH_IMAGE008
,对应的计算过程如下所示:
Figure 567545DEST_PATH_IMAGE009
Figure 262968DEST_PATH_IMAGE010
Figure 35752DEST_PATH_IMAGE011
其中
Figure 451821DEST_PATH_IMAGE012
表示预测弧的分数,
Figure 360871DEST_PATH_IMAGE013
Figure 961617DEST_PATH_IMAGE014
表示MLP层的输 出向量,
Figure 956118DEST_PATH_IMAGE015
表示控制强度的权重矩阵,
Figure 183400DEST_PATH_IMAGE016
表示偏置向量,p表示MLP层 的输出维度。
弧标签预测任务的目标是判断给定弧的类别。非连续实体抽取模型训练时同样使用交叉熵损失函数以最大化类别对应的分数,测试时取最高分数对应的类别,计算过程如下示:
Figure 946957DEST_PATH_IMAGE017
Figure 984183DEST_PATH_IMAGE018
Figure 75767DEST_PATH_IMAGE019
Figure 223852DEST_PATH_IMAGE020
其中
Figure 107494DEST_PATH_IMAGE021
表示弧的分数向量,
Figure 440255DEST_PATH_IMAGE022
Figure 143769DEST_PATH_IMAGE023
表示MLP 层的输出向量,
Figure 829965DEST_PATH_IMAGE024
表示三阶张量,
Figure 709060DEST_PATH_IMAGE025
表示权重矩阵,
Figure 353668DEST_PATH_IMAGE026
表示偏置向量,
Figure 544478DEST_PATH_IMAGE027
表示标签数目,q表示MLP层的输出维度。
Figure 660463DEST_PATH_IMAGE028
表示词j的父节点分数向量,其中
Figure 987539DEST_PATH_IMAGE029
表示词j的head 为词i时的分数,
Figure 803049DEST_PATH_IMAGE030
表示词j的head为ROOT节点时的分数。考虑到标注方法的方向性,计算 损失时进行掩码操作。前向标注中每个单词的head节点可能为其自身或左侧的单词,将单词 右侧单词的掩码置为0,词j的分数向量可简化为
Figure 356521DEST_PATH_IMAGE031
。后向标注每个单词 的head节点为其自身或右侧的单词,词j的分数向量可简化为
Figure 650099DEST_PATH_IMAGE032
, 掩码矩阵的例子如图3所示。
(5)非连续实体抽取模型的损失包括两部分,分别为前向标注损失和后向标注损 失。使用双仿射分类器模型训练时使用交叉熵损失函数以最小化预测分布
Figure 362840DEST_PATH_IMAGE033
和标准分布
Figure 942726DEST_PATH_IMAGE034
间的差异,预测时取最大分数对应的单词为词j的父节点,计算过程如下:
Figure 108128DEST_PATH_IMAGE035
Figure 205397DEST_PATH_IMAGE036
Figure 648011DEST_PATH_IMAGE037
Figure 274164DEST_PATH_IMAGE034
Figure 192442DEST_PATH_IMAGE038
表示词i到词j对应弧的类别分数向量,训练时使用交叉熵函数以最 小化预测分布
Figure 450991DEST_PATH_IMAGE039
和标准分布
Figure 872745DEST_PATH_IMAGE040
间的差异,测试时取最大分数对应的类别,为弧的类别 可表示如下:
Figure 935379DEST_PATH_IMAGE041
Figure 950740DEST_PATH_IMAGE042
Figure 389812DEST_PATH_IMAGE043
非连续实体抽取模型的整体损失由四部分组分,即前向标注的两个损失及后向标注的两个损失,可表示如下:
Figure 56285DEST_PATH_IMAGE044
(5)后处理阶段,根据非连续实体的双向标注方法进行标注还原,得到文本中所有的连续实体和非连续实体。
对于从医疗文本中抽取单层连续实体和嵌套实体的情况,本发明的进一步技术方案是:
(1)预处理阶段,对文本进行分词和映射,并使用嵌套的双向标注方法进行标注。
(2)嵌套实体抽取模型包括表示层、编码层和解码层三部分,表示层拼接预训练BERT词向量和基于LSTM的字符级特征作为输出,然后送入编码层。嵌套实体抽取模型的编码层由三部分组成,分别为两个BiLSTM层和一个标签注意力机制层,第一层BiLSTM用于文本的初步编码,捕获文本的语法和词法信息,然后通过标签注意力层为上下文向量引入标签偏置信息,最后通过第二层BiLSTM获得更高级别的语义上的表示。
在标签注意力机制中,为所有标签初始化向量表示并将其视为查询向量,即标签数 与注意力头的数目相同,同时将上下文向量映射后作为键向量和值向量,通过标签注意力机制 能得到标签关于上下文的全局信息。假设标签集合L中第t个标签对应的向量表示为
Figure 289820DEST_PATH_IMAGE045
, 文本的上下文表示为
Figure 651532DEST_PATH_IMAGE046
,定义
Figure 769660DEST_PATH_IMAGE047
,
Figure 900427DEST_PATH_IMAGE048
,
Figure 304864DEST_PATH_IMAGE049
,其中
Figure 45549DEST_PATH_IMAGE050
Figure 560844DEST_PATH_IMAGE051
为第t个标签对应的可学习参数矩阵。第t个标签对应的全局 特征表示
Figure 811697DEST_PATH_IMAGE052
的计算过程如下:
Figure 387035DEST_PATH_IMAGE053
Figure 864283DEST_PATH_IMAGE054
在标签t对应注意力头中,将全局特征向量
Figure 183269DEST_PATH_IMAGE055
和上下文表示
Figure 678842DEST_PATH_IMAGE056
相加后映射至低维 可得到词i的向量表示
Figure 425081DEST_PATH_IMAGE057
,其中
Figure 983101DEST_PATH_IMAGE058
为可学习的参数矩阵,计算过程如 下:
Figure 246723DEST_PATH_IMAGE059
标签注意力层中词i的输出向量
Figure 206589DEST_PATH_IMAGE060
由所有注意力头的输出拼接得到,然后将其送 入BiLSTM以获得更抽象的向量表示,拼接过程如下:
Figure 80654DEST_PATH_IMAGE061
)
嵌套实体抽取模型的解码层与非连续实体抽取模型的解码层相同,使用四个双仿射分类器预测双向标注的内容,同时使用掩码机制模型的复杂度。
(3)后处理阶段,根据嵌套实体的双向标注方法进行标注还原,得到文本中所有的连续实体和嵌套实体。
对于从医疗文本中抽取单层连续实体、非连续实体和嵌套实体的情况,本发明的进一步技术方案是:
(1)预处理阶段,对文本进行分词和映射,并使用非连续实体双向标注方法进行逐层标注。
(2)分层实体抽取模型表示层为可微调的BERT词向量,编解码层是多层共享的。在 预测出当前层的连续和非连续实体后,将连续实体各单词的上下文向量更新为实体向量平 均值,将非连续实体的各单词的上下文向量更新为对应非连续部分的向量平均值,继续送 入下一层预测。start表示实体的起始位置,end表示实体的结束位置,
Figure 532495DEST_PATH_IMAGE062
表示第k个单词的 上下文表示向量,实体向量平均值的计算过程如下:
Figure 193283DEST_PATH_IMAGE063
(3)后处理阶段,根据非连续实体的双向标注方法逐层的进行标注还原,得到文本中所有的单层连续实体、非连续实体和嵌套实体。
以下结合附图对本发明复杂医疗实体抽取方法进行详细说明:
(1)抽取单层连续实体和非连续实体,使用的双向标注方法如图1和图2所示,掩码机制如图3所示,模型结构如图6所示,包括如下几个步骤:
步骤1:表示层;输出向量由BERT上下文特征、基于CNN的字符特征和词性标注特征三部分组成。
步骤2:编码层;使用BiLSTM作为编码层捕获上下文信息。
步骤3:解码层;使用双仿射分类器作为解码器并预测所有标签。
步骤4:标注还原;根据非连续实体的双向标注方法从标注还原为实体。
(2)抽取单层连续实体和嵌套实体,使用的双向标注方法如图4和表1所示,模型结构如图7所示,包括如下几个步骤:
步骤1:表示层;输出向量由BERT词向量和基于CNN的字符特征组成。
步骤2:编码层;使用BiLSTM和标签注意力层捕获上下文信息。
步骤3:解码层;使用双仿射分类器作为解码器并预测所有标签。
步骤4:标注还原;根据嵌套实体的双向标注方法从标注还原为实体。
(3)抽取单层连续实体、非连续实体嵌套实体,模型结构如图8所示,包括如下几个步骤:
步骤1:表示层;输出向量由BERT词向量。
步骤2:编码层;使用共享的BiLSTM层为编码层捕获上下文信息。
步骤3:解码层;使用共享的双仿射分类器作为解码器并预测所有标签。
步骤4:标注还原;逐层的进行标注还原为实体。
本发明的有益效果:本发明公开的一种复杂医疗实体抽取方法,使用基于依存分析的双向标注方法,具有充分挖掘文本上下文信息,提高模型泛化性,增强模型对实体的识别准确率等优点。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种复杂医疗实体抽取方法,其特征在于,包括执行抽取单层连续实体和非连续实体步骤、抽取单层连续实体和嵌套实体步骤和抽取单层连续实体、非连续实体和嵌套实体步骤的任一项步骤:
抽取单层连续实体和非连续实体步骤:首先对原始医疗文本进行预处理,并采用基于依存分析的非连续实体双向标注方法进行标注,然后建立非连续实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体;
抽取单层连续实体和嵌套实体步骤:首先对原始医疗文本进行预处理,并采用基于依存分析的嵌套实体双向标注方法进行标注,然后建立嵌套实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体;
抽取单层连续实体、非连续实体和嵌套实体步骤:首先对原始医疗文本进行预处理,并采用分层标注的基于依存分析的非连续实体双向标注方法标注每一层的实体,然后建立分层实体抽取模型并使用双仿射分类器作为解码器,最后将预测标注还原为实体;
在所述抽取单层连续实体和嵌套实体步骤中,还包括执行如下步骤:
步骤1:预处理阶段,对原始文本进行分词和映射,并采用非连续实体双向标注方法进行标注;
步骤2:建立非连续实体抽取模型;该非连续实体抽取模型包括表示层、编码层和解码层,表示层拼接可微调词向量、基于卷积神经网络的字符特征和词性标注特征,编码层使用双向循环神经网络提取文本的上下文表示,解码层使用双仿射分类器作为解码器;
步骤3:根据非连续实体双向标注方法进行标注还原,得到文本中所有的连续实体和非连续实体;
在所述步骤2中,还包括执行如下步骤:
步骤20:表示层的输出向量包括BERT上下文特征、基于CNN的字符特征和词性标注特征;BERT上下文特征指BERT最后一层的输出,基于CNN的字符特征指用CNN作用到单词的字母序列上获得的表示向量,词性标注特征为由词性向量映射表映射后得到;
步骤21:编码层使用BiLSTM作为编码层捕获上下文信息,BiLSTM由前向LSTM和后向LSTM组成,公式如下:
Figure DEST_PATH_IMAGE002
其中,xi表示输入句子的第i个单词,
Figure DEST_PATH_IMAGE004
表示第i个单词的上下文向量,n表示句子长度,即包含的单词个数;
步骤22:解码层使用双仿射分类器作为解码器并预测所有标签;
在所述抽取单层连续实体和嵌套实体步骤中,还包括执行如下步骤:
步骤S1:预处理阶段,对原始文本进行分词和映射,并使用嵌套实体双向标注方法进行标注;
步骤S2:建立嵌套实体抽取模型,该嵌套实体抽取模型包括表示层、编码层和解码层,表示层拼接可微调BERT词向量、基于CNN的字符特征,编码层使用BiLSTM和标签注意力机制提取文本的上下文表示,解码层使用双仿射分类器;
步骤S3:根据嵌套实体双向标注方法进行标注还原,得到文本中所有的连续实体和嵌套实体;
在所述步骤S2中,还包括执行如下步骤:
步骤S20:表示层拼接预训练BERT词向量和基于LSTM的字符级特征作为输出,然后送入编码层;
步骤S21:编码层包括两个BiLSTM层和一个标签注意力机制层,第一层BiLSTM用于文本的初步编码,捕获文本的语法和词法信息,然后通过标签注意力机制层为上下文向量引入标签偏置信息,最后通过第二层BiLSTM获得更高级别的语义上的表示;
步骤S22:解码层使用四个双仿射分类器作为解码器预测双向标注的内容;
在所述抽取单层连续实体、非连续实体和嵌套实体步骤中,还包括执行如下步骤:
步骤Y1:预处理阶段,对文本进行分词和映射,并采用非连续实体双向标注方法进行逐层标注;
步骤Y2:建立分层实体抽取模型,该分层实体抽取模型包括表示层、编码层和解码层,表示层拼接可微调BERT词向量,编码层使用共享的编解码层,逐层进行合并上下文向量并预测,在预测出当前层的连续和非连续实体后,将连续实体各单词的上下文向量更新为实体向量平均值,将非连续实体的各单词的上下文向量更新为对应非连续部分的向量平均值,继续送入下一层预测,解码层使用共享的双仿射分类器作为解码器并预测所有标签;
步骤Y3:根据非连续实体双向标注方法逐层的进行标注还原,得到文本中所有的单层连续实体、非连续实体和嵌套实体。
2.根据权利要求1所述的复杂医疗实体抽取方法,其特征在于,所述对原始医疗文本进行的预处理包括对原始文本进行数据清洗、单词映射、句子边界检测、单词化。
3.根据权利要求1所述的复杂医疗实体抽取方法,其特征在于:使用基于依存分析的非连续实体双向标注方法或基于依存分析的嵌套实体双向标注方法时,句子中的每个单词对应四类标签,前向标注方法对应前向头forward-head和前向类别forward-label两类标签,后向标注方法对应后向头backward-head和后向类别backward-label两类标签。
4.根据权利要求3所述的复杂医疗实体抽取方法,其特征在于:
抽取单层连续实体和非连续实体时,根据重叠情况将非连续实体分为无重叠、左重叠、右重叠和多重叠,其中前向标注表示左重叠和无重叠的情况,后向标注表示右重叠和无重叠的情况,对标注的结果取并集以得到最终的结果;
抽取单层连续实体和嵌套实体时,根据实体间边界关系将嵌套实体分为左嵌套、右嵌套和全嵌套三种类型,嵌套实体的前向标注方法能识别全嵌套和右嵌套的情况,后向标注方法能识别全嵌套和右嵌套的情况,对两次标注的结果取并集以得到最终的结果;
抽取单层连续实体、非连续实体和嵌套实体时,根据嵌套实体深度逐层的使用非连续实体的双向标注方法标注每一层的实体,每层的标注方法与非连续实体的双向标注方法相同。
5.根据权利要求1所述的复杂医疗实体抽取方法,其特征在于,在所述步骤22中、所述步骤S22中、所述步骤Y2中,解码层使用双仿射分类器作为解码器并预测所有标签,具体还包括:
使用双仿射分类器进行模型训练,模型训练阶段的损失为所有标签的损失之和,损失计算方式为交叉熵损失函数,同时使用掩码机制减少计算量。
CN202110430144.0A 2021-04-21 2021-04-21 一种复杂医疗实体抽取方法 Active CN112989835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110430144.0A CN112989835B (zh) 2021-04-21 2021-04-21 一种复杂医疗实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110430144.0A CN112989835B (zh) 2021-04-21 2021-04-21 一种复杂医疗实体抽取方法

Publications (2)

Publication Number Publication Date
CN112989835A CN112989835A (zh) 2021-06-18
CN112989835B true CN112989835B (zh) 2021-10-08

Family

ID=76341494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110430144.0A Active CN112989835B (zh) 2021-04-21 2021-04-21 一种复杂医疗实体抽取方法

Country Status (1)

Country Link
CN (1) CN112989835B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886522B (zh) * 2021-09-13 2022-12-02 苏州空天信息研究院 一种基于路径扩展的非连续实体识别方法
CN114372470B (zh) * 2022-03-22 2022-07-29 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN114490954B (zh) * 2022-04-18 2022-07-15 东南大学 一种基于任务调节的文档级生成式事件抽取方法
CN115620722B (zh) * 2022-12-15 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN116306657B (zh) * 2023-05-19 2023-08-22 之江实验室 基于方阵标注和双仿射层注意力的实体抽取方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214610A (zh) * 2020-09-25 2021-01-12 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090249182A1 (en) * 2008-03-31 2009-10-01 Iti Scotland Limited Named entity recognition methods and apparatus
CN108021557A (zh) * 2017-12-25 2018-05-11 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的不规则实体识别方法
CN108959252B (zh) * 2018-06-28 2022-02-08 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN110880142B (zh) * 2019-11-22 2024-01-19 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置
CN111126040B (zh) * 2019-12-26 2023-06-20 贵州大学 一种基于深度边界组合的生物医学命名实体识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214610A (zh) * 2020-09-25 2021-01-12 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法

Also Published As

Publication number Publication date
CN112989835A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989835B (zh) 一种复杂医疗实体抽取方法
Bhowmik et al. Sentiment analysis on Bangla text using extended lexicon dictionary and deep learning algorithms
US8180633B2 (en) Fast semantic extraction using a neural network architecture
Chen et al. A semantics-assisted video captioning model trained with scheduled sampling
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
Viji et al. A hybrid approach of Weighted Fine-Tuned BERT extraction with deep Siamese Bi–LSTM model for semantic text similarity identification
CN111680159A (zh) 数据处理方法、装置及电子设备
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
Li et al. Joint extraction of entities and relations via an entity correlated attention neural model
Tyagi et al. Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116737979A (zh) 基于上下文引导多模态关联的图像文本检索方法及系统
CN116541492A (zh) 一种数据处理方法及相关设备
CN115293150A (zh) 融合卷积神经网络与自注意力机制手术记录自动编码方法
US8214310B2 (en) Cross descriptor learning system, method and program product therefor
Li et al. Graph convolutional network meta-learning with multi-granularity POS guidance for video captioning
Naik et al. Video captioning using sentence vector-enabled convolutional framework with short-connected LSTM
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116628258A (zh) 特征提取与跨模态匹配检索方法、装置、设备及介质
Nouhaila et al. Arabic sentiment analysis based on 1-D convolutional neural network
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
Wang et al. MIVCN: Multimodal interaction video captioning network based on semantic association graph
CN113361259B (zh) 一种服务流程抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant