CN114781382A - 基于rwlstm模型融合的医疗命名实体识别系统及方法 - Google Patents

基于rwlstm模型融合的医疗命名实体识别系统及方法 Download PDF

Info

Publication number
CN114781382A
CN114781382A CN202210442714.2A CN202210442714A CN114781382A CN 114781382 A CN114781382 A CN 114781382A CN 202210442714 A CN202210442714 A CN 202210442714A CN 114781382 A CN114781382 A CN 114781382A
Authority
CN
China
Prior art keywords
module
entity
word
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210442714.2A
Other languages
English (en)
Inventor
奚雪峰
陈杰
杨阳
左严
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu New Hope Technology Co ltd
Suzhou University of Science and Technology
Original Assignee
Jiangsu New Hope Technology Co ltd
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu New Hope Technology Co ltd, Suzhou University of Science and Technology filed Critical Jiangsu New Hope Technology Co ltd
Priority to CN202210442714.2A priority Critical patent/CN114781382A/zh
Publication of CN114781382A publication Critical patent/CN114781382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及基于RWLSTM模型融合的医疗命名实体识别系统及方法,由数据预处理模块,对用户问句分词、实体标注、词典构建;文本编码模块,将文本转化为可理解的数据类型和计算单元;模型建模模块,根据任务构建模型的框架;实体提取模块,对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;词典构建模块,构建医疗病历的命名实体语料词典。将电子医疗病历文本进行数据预处理,中文分词模块对文本进行分词,实体标注模块对文本进行标注,再对一些错误和无用的数据进行剔除;通过数据预处理模块对电子病历进行数据清洗,有效减少了模型训练时间成本;解决了医疗领域的电子病历领域命名实体识别问题。

Description

基于RWLSTM模型融合的医疗命名实体识别系统及方法
技术领域
本发明涉及一种基于RWLSTM模型融合的医疗命名实体识别系统及方法。
背景技术
目前,人工智能技术高速发展,迫切需要利用现有的技术真正的解决人类社会现实生活中的问题,才能真正从技术之中获益。电子病历产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含大量与患者健康状况密切相关的医疗知识,因而对其识别和抽取是信息抽取和自然语言处理研究在医疗领域的重要扩展。评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确,实体的类型是否标注正确。然而,语言内容的底层结构不一定是连续的,可能是复合的。这就导致了链式模型在处理语言结构的不适用性。在汉语命名实体识别任务中,单词歧义仍然存在。在无法提取上下文信息的情况下,识别具有重叠歧义字符串或多义的命名实体更具挑战性。由于命名实体识别上几乎所有以前的模型都是特定于语言,所以致力于通过探索神经网络的有线模式来构建一个能够处理更长文本序列的模型。与英语相比,汉语命名实体识别任务更加复杂,由于分词等因素影响其难度较大;并且目前的命名实体无论是英文或者中文语境中都是在通用语料库上进行,对于一些专业领域基本上没有应用,例如医疗领域。
命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法等,基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于词典和词典的建立;基于规则和词典的方法是命名实体识别中最早使用的方法。
基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以在较短时间内完成;基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、支持向量机(SupportVector Machine,SVM)、条件随机场(Conditional Random Fields,CRF)等。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种基于RWLSTM模型融合的医疗命名实体识别系统及方法。
本发明的目的通过以下技术方案来实现:
基于RWLSTM模型融合的医疗命名实体识别系统,特点是:包含数据预处理模块、文本编码模块、模型建模模块、实体提取模块以及词典构建模块;
所述数据预处理模块,对用户问句分词、实体标注、词典构建;
所述文本编码模块,将文本转化为可理解的数据类型和计算单元;
所述模型建模模块,根据任务构建模型的框架;
所述实体提取模块,对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;
所述词典构建模块,构建医疗病历的命名实体语料词典。
进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述数据预处理模块包含中文分词模块、实体标注模块和数据清洗模块,所述中文分词模块,用于电子病历中文本中文分词,将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述实体标注模块,用于实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;所述数据清洗模块,对实体标注后的数据进行重新检查其标注的正确性和有效性,剔除实体标注错误的数据。
进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述文本编码模块,将数据预处理模块处理后的文本数据采用BiLSTM编码,提供丰富的单词边界信息;然后,将前向和后向嵌入连接起来作为字符级单词表示;最后,将采用单词表示与词典相结合,生成综合的单词表示向量。
进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述模型建模模块包含预训练模块和特征提取模块;所述预训练模块,词向量在进入特征提取之前,将字符级单词向量序列与词典相结合生成综合的单词表示向量采用RWLSTM预训练模型训练生成上下文相关的词向量;所述特征提取模块,预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征。
进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述实体提取模块,将经过预训练模块和特征提取模块后的数据进行实体提取,利用条件随机场将一个序列经过运算映射成另外一个序列,在命名实体识别中,经过条件随机场得到的序列即为命名实体的标签,标签包含实体边界和实体类别信息。
进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述词典构建模块,包含公开数据集和网络爬取符合要求的数据,词典构建保持实体类别数量的相对平衡。
本发明基于RWLSTM模型融合的医疗命名实体识别方法,包括以下步骤:
首先,将电子病历的文本进行数据预处理;
然后,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量后进入RWLSTM预训练模型模块进行训练,生成上下文相关的词向量;
之后,将词向量输入到特征提取模块进行特征提取,提取到实体边界特征和类别特征,特征在数学上的表示均是高维向量;
其次,将特征向量输入实体提取模块,提取文本的实体;实体提取模块输入每一个实体类别的概率,概率最高的类别即是最终的输出结果;
最后,将实体和实体类别输出,作为最终输出,作为医生诊断依据。
更进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别方法,其中,由数据预处理模块,对电子病历文本进行中文分词以及命名实体标注;由文本编码模块,对文本数据采用BiLSTM编码;由模型建模模块,将词向量输入预训练模块形成上下文相关的词向量,然后再进入特征提取模块进行词向量的特征提取;由实体提取模块,将提取的特征转化成实体序列;由词典构建模块,从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。
更进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别方法,其中,由数据预处理模块的中文分词模块,对电子病历中文本中文分词,将文本中的词语进行切分出,采用分词工具,得到一串词汇序列;数据预处理模块的实体标注模块,对实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;
由文本编码模块将文本数据采用BiLSTM编码处理成可理解和处理的编码序列;其采用记忆门,遗忘门来计算词向量,并对文本序列的前后词信息及其特征进行捕捉,以此来学习实体的边界和长距离的依赖关系,记忆门和遗忘门的计算如下:
计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量ht-1,当前时刻的输入词向量为xt,Wf为该层权重矩阵用于去除部分冗余信息,bf为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值ft,即为遗忘部分信息之后的词向量,将其代入公式(4);
ft=σ(Wf·[ht-1,xt+b]) (1)
计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量ht-1,当前时刻的输入词向量ht-1,Wf为该层权重矩阵,然后输出记忆门的值it,临时细胞状态
Figure BDA0003614688090000051
其存储的是当前时刻的需要保留记忆的词向量,然后将其代入公式(4);
it=σ(Wf·[ht-1,xt+bi]) (2)
Figure BDA0003614688090000052
计算当前时刻临时状态的里存储的词向量,输入为记忆门的词向量it和遗忘门的值ft作为系数,临时细胞状态的词向量
Figure BDA0003614688090000053
上一刻细胞里存储的词向量Ct-1,并作矩阵乘法,输出为当前细胞状态里的词向量为Ct
Figure BDA0003614688090000054
计算输出门和当前时刻的词向量,输入前一时刻的词向量ht-1,当前时刻的输入词xt,当前时刻的词向量Ct,Wo为该层权重矩阵,bo为该层的偏差矩阵,然后用tanh函数进行运算;则有输出门的词向量值ot,隐藏层的词向量为ht
Ot=σ(Wo·[ht-1,xt+bo]) (5)
ht=Ot*tanh(Ct) (6)
计算n轮,得到与句子长度相同的词向量序列{h0,h1,h2....hη-1};最后,将词向量序列与词典相结合,生成综合的单词表示向量;
由模型建模模块的预训练模块,将字符级单词向量序列与词典相结合生成综合的单词表示向量使用RWLSTM预训练模型训练生成上下文相关的词向量;模型建模模块的特征提取模块根据预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征;
模型建模模块中特征提取模块采用Global Attention,在表征上执行注意力机制,以找到全局信息;transformer模型中的注意机制是一个函数,从输入句子中映射出重要和相关的单词,并为单词赋予更高的权重;其计算公式为(7);
Figure BDA0003614688090000061
V是表示输入特征的向量,Q、K是计算Attention权重的特征向量,由输入特征得到;Attention(Q,K,V)是根据关注程度对V乘以相应权重,Attention机制中的Q,K,V是对当前的Query和所有的Key计算相似度,将相似度值通过Softmax层得到一组权重,根据权重与对应Value的乘积求和得到Attention下的Value值;最后所得词向量序列然后输入进实体提取模块进行实体提取;
实体提取模块,将经过模型建模模块并训练之后的数据进行实体提取,包括实体边界和实体类别,采用条件随机场算法进行实体提取;
词典构建模块,包括公开电子病历数据集和经过网络爬虫收集并经过处理之后的数据。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①基于RWLSTM模型融合的医疗命名实体识别系统,将电子医疗病历文本进行数据预处理,中文分词模块对文本进行分词,实体标注模块对文本进行标注,再对一些错误和无用的数据进行剔除;通过数据预处理模块对电子病历进行数据清洗,有效减少了模型训练时间成本;
②新型的模型融合模式,取代传统的单纯基于词典和单纯使用统计方法;本发明创新性的解决了医疗领域的电子病历领域命名实体识别问题,相比于现有技术在通用数据集上有更高的实体识别准确率;
③针对具有极高应用价值的医疗领域开展实际研究并完善电子病历语料库,具有开拓性,提高实体识别的准确率。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1:本发明系统的架构原理示意图;
图2:本发明的流程示意图;
图3:数据预处理模块的架构原理示意图;
图4:文本编码模块的架构原理示意图;
图5:模型建模模块的架构原理示意图;
图6:RWLSTM生成过程示意图;
图7:RWLSTM算法;
图8:相关模型效果对比示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,方位术语和次序术语等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:包含数据预处理模块1、文本编码模块2、模型建模模块3、实体提取模块4以及词典构建模块5;
数据预处理模块1,对用户问句分词、实体标注、词典构建;
文本编码模块2,将文本转化为可理解的数据类型和计算单元;
模型建模模块3,根据任务构建模型的框架;
实体提取模块4,对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;
词典构建模块5,构建医疗病历的命名实体语料词典。
如图3,数据预处理模块1包含中文分词模块101、实体标注模块102和数据清洗模块103,所述中文分词模块101,用于电子病历中文本中文分词,将文本中的词语进行切分,采用分词工具,得到一串词汇序列;实体标注模块102,用于实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;数据清洗模块103,对实体标注后的数据进行重新检查其标注的正确性和有效性,剔除实体标注错误的数据。
如图4,文本编码模块2,将数据预处理模块1处理后的文本数据采用BiLSTM编码,提供丰富的单词边界信息;然后,将前向和后向嵌入连接起来作为字符级单词表示;最后,将采用单词表示与词典相结合,生成综合的单词表示向量。
如图5,所述模型建模模块包含预训练模块和特征提取模块;所述预训练模块,词向量在进入特征提取之前,将文本编码后结合词典模块的生成综合的单词表示向量采用RWLSTM预训练模型训练生成上下文相关的词向量;所述特征提取模块,预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征。
实体提取模块4,将经过预训练模块301和特征提取模块302后的数据进行实体提取,利用条件随机场将一个序列经过运算映射成另外一个序列,在命名实体识别中,经过条件随机场得到的序列即为命名实体的标签,标签包含实体边界和实体类别信息。
词典构建模块5,包含公开数据集和网络爬取符合要求的数据,词典构建保持实体类别数量的相对平衡。
本发明基于RWLSTM模型融合的医疗命名实体识别方法,包括以下步骤:
首先,将电子病历的文本进行数据预处理;
然后,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量后进入RWLSTM预训练模型模块进行训练,生成上下文相关的词向量;
之后,将词向量输入到特征提取模块进行特征提取,提取到实体边界特征和类别特征,特征在数学上的表示均是高维向量;
其次,将特征向量输入实体提取模块,提取文本的实体;实体提取模块输入每一个实体类别的概率,概率最高的类别即是最终的输出结果;
最后,将实体和实体类别输出,作为最终输出,作为医生诊断依据。
如图2,由数据预处理模块1,对电子病历文本进行中文分词以及命名实体标注;由文本编码模块2,对文本序列采用BiLSTM编码;由模型建模模块3,将词向量输入预训练模块形成上下文相关的词向量,然后再进入特征提取模块进行词向量的特征提取;由实体提取模块4,将提取的特征转化成实体序列;由词典构建模块5,从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。
由数据预处理模块1的中文分词模块101,对电子病历中文本中文分词,将文本中的词语进行切分出,采用分词工具,得到一串词汇序列;数据预处理模块1的实体标注模块102,对实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;
由文本编码模块2,将文本编码采用BiLSTM处理成可理解和处理的编码序列;其采用记忆门,遗忘门来计算词向量,并对文本序列的前后词信息及其特征进行捕捉,以此来学习实体的边界和长距离的依赖关系,记忆门和遗忘门的计算如下:
计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量ht-1,当前时刻的输入词向量为xt,Wf为该层权重矩阵用于去除部分冗余信息,bf为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值ft,即为遗忘部分信息之后的词向量,将其代入公式(4);
ft=σ(Wf·[ht-1,xt+b]) (1)
计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量ht-1,当前时刻的输入词向量ht-1,Wf为该层权重矩阵,然后输出记忆门的值it,临时细胞状态
Figure BDA0003614688090000101
其存储的是当前时刻的需要保留记忆的词向量,然后将其代入公式(4);
it=σ(Wf·[ht-1,xt+bj]) (2)
Figure BDA0003614688090000111
计算当前时刻临时状态的里存储的词向量,输入为记忆门的词向量it和遗忘门的值ft作为系数,临时细胞状态的词向量
Figure BDA0003614688090000112
上一刻细胞里存储的词向量Ct-1,并作矩阵乘法,输出为当前细胞状态里的词向量为Ct
Figure BDA0003614688090000113
计算输出门和当前时刻的词向量,输入前一时刻的词向量ht-1,当前时刻的输入词xt,当前时刻的词向量Ct,Wo为该层权重矩阵,bo为该层的偏差矩阵,然后用tanh函数进行运算;则有输出门的词向量值Ot,隐藏层的词向量为ht
Ot=σ(Wσ·[ht-1,xt+bo]) (5)
ht=Ot*tanh(Ct) (6)
这样计算n轮,得到与句子长度相同的词向量序列{h0,h1,h2....hη-1};最后,将词向量序列与词典相结合,生成综合的单词表示向量;
由模型建模模块3的预训练模块301,将字符级单词向量序列与词典相结合生成综合的单词表示向量使用RWLSTM预训练模型训练生成上下文相关的词向量;模型建模模块3的特征提取模块302根据预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征;
模型建模模块3中特征提取模块302采用Global Attention,在表征上执行注意力机制(通过RWLSTM模型计算后),以找到全局信息。transformer模型中的注意机制是一个函数,从输入句子中映射出重要和相关的单词,并为这些单词赋予更高的权重;其计算公式为(7);
Figure BDA0003614688090000121
V是表示输入特征的向量,Q、K是计算Attention权重的特征向量,都是由输入特征得到的;Attention(Q,K,V)是根据关注程度对V乘以相应权重;Attention机制中的Q,K,V是对当前的Query和所有的Key计算相似度,将这个相似度值通过Softmax层进行得到一组权重,根据这组权重与对应Value的乘积求和得到Attention下的Value值;由于RWLSTM的过程增强了该功能,功能已经极大化(例如上下文信息和边界信息),导致一些无用的信息也被放大了,因此采用该机制来增强重要特征并降低冗余;最后所得词向量序列然后输入进实体提取模块进行实体提取;
实体提取模块4,将经过模型建模模块并训练之后的数据进行实体提取,包括实体边界和实体类别,采用条件随机场算法进行实体提取;
词典构建模块5,包括公开电子病历数据集和经过网络爬虫收集并经过处理之后的数据。
如图6,RWLSTM生成过程,RWLSTM是一种双向LSTM是非典型块级模式,由前向LSTM层和后向LSTM层组成。然而,由于语言的层次结构,双向LSTM不足以提取深层语境信息。Watts Strogatz(WS)模型是一种随机图生成模型,定义用于生成小的“世界图”。本模型采用其生成LSTM节点之间的连线,这些节点构成有向无环图(DAG)。本发明提出一种基于Random graph model(WS)模型生成的块级随机连接模式,以适应命名实体识别并定义消息交换节点和边缘之间的操作,可以提取和增强特征。节点之间的边是随机生成的,主要使用图形结构对神经网络的布线模式进行建模。以四个节点a、b、c和d为例来解释单词表示的过程。在输入节点中,相同的单词表示被复制三次,并传递给三个相邻节点(包括节点a、b)。然后,“LSTM节点”根据前面相邻节点的特性执行消息交换过程(消息交换包括节点和边缘操作)。最后,将所有原始输出节点串联并创建唯一节点输出;
如图7,RWLSTM算法,(aggregation)聚合→(update)更新→(aggregation)聚合→……,是一个有效的图消息传递架构。图的节点之间的消息交换是向前的和高效的,可以结合节点之间不同状态下相同文本序列的特征。(aggregation)聚合操作通过加权和将输入数据(来自一条或多条边)组合到一个节点,目标节点的状态
Figure BDA0003614688090000131
为相邻节点
Figure BDA0003614688090000132
连接先前状态
Figure BDA0003614688090000133
其计算公式为(8);在此基础上添加了(transformation)转型操作,其计算公式为(9);其中h代表节点的特征,下标v和u为节点的索引,
Figure BDA0003614688090000134
上标k为图层的数量,σ为激活函数,Wk和Bk为训练矩阵,N(v)为相邻节点的集合,AGG(.)为aggregation操作,Trans(.)为transformation操作。
Figure BDA0003614688090000135
Figure BDA0003614688090000136
如图8,例如病例样本为:“患者张峰于2021年07月出现左下侧胸部疼痛,不伴发热、皮肤瘙痒、乏力等症状,未予重视后左下侧胸胸壁肿物逐渐增大,患者与2022年01月就诊于本医院。”传统的CNN模型和BERT模型其最后输出的疾病和诊断结果并非准确性与事实性结果相差较大,结果差强人意。采用本发明模型RWLSTM,其输出结果准确性高,给医生诊断病情带来了极大的方便。
具体应用时,将电子病历的文本进行数据预处理,对文本数据进行分词,分词之后进行实体打标签,再进行数据清洗,去除一些错误和无用的数据;将文本输入文本编码模块进行BiLSTM编码之后并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量再输入RWLSTM预训练模型进行训练生成上下文相关的词向量;其次将词向量输入到特征提取模块,即Global Attention,进行特征提取,取到实体边界特征和类别特征;最后将特征输入实体提取模型,即条件随机场,提取文本的实体(疾病与诊断,药物等),根据实体所属类别来进行实体分类;并将实体和实体类别输出,作为最终输出,给医生作为诊断依据。
综上所述,本发明基于预训练模型提出基于RWLSTM模型融合的医疗命名实体识别系统,将电子医疗病历文本进行数据预处理,中文分词模块对文本进行分词,实体标注模块对文本进行标注,再对一些错误和无用的数据进行剔除;通过数据预处理模块对电子病历进行数据清洗,有效减少了模型训练时间成本;新型的模型融合模式,取代传统的单纯基于词典和单纯使用统计方法;本发明创新性的解决了医疗领域的电子病历领域命名实体识别问题,相比于现有技术在通用数据集上有更高的实体识别准确率;针对具有极高应用价值的医疗领域开展实际研究并完善电子病历语料库,具有开拓性,提高实体识别的准确率。
需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。

Claims (9)

1.基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:包含数据预处理模块(1)、文本编码模块(2)、模型建模模块(3)、实体提取模块(4)以及词典构建模块(5);
所述数据预处理模块(1),对用户问句分词、实体标注、词典构建;
所述文本编码模块(2),将文本转化为可理解的数据类型和计算单元;
所述模型建模模块(3),根据任务构建模型的框架;
所述实体提取模块(4),对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;
所述词典构建模块(5),构建医疗病历的命名实体语料词典。
2.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述数据预处理模块(1)包含中文分词模块(101)、实体标注模块(102)和数据清洗模块(103),所述中文分词模块(101),用于电子病历中文本中文分词,将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述实体标注模块(102),用于实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;所述数据清洗模块(103),对实体标注后的数据进行重新检查其标注的正确性和有效性,剔除实体标注错误的数据。
3.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述文本编码模块(2),将数据预处理模块(1)处理后的文本数据采用BiLSTM编码,提供丰富的单词边界信息;然后,将前向和后向嵌入连接起来作为字符级单词向量表示;最后,将字符级单词向量序列与词典相结合,生成综合的单词表示向量。
4.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述模型建模模块(3)包含预训练模块(301)和特征提取模块(302);所述预训练模块(301),词向量在进入特征提取之前,将文本编码后结合词典模块的生成综合的单词表示向量采用RWLSTM预训练模型训练生成上下文相关的词向量;所述特征提取模块(302),预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征。
5.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述实体提取模块(4),将经过预训练模块(301)和特征提取模块(302)后的数据进行实体提取,利用条件随机场将一个序列经过运算映射成另外一个序列,在命名实体识别中,经过条件随机场得到的序列即为命名实体的标签,标签包含实体边界和实体类别信息。
6.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述词典构建模块(5),包含公开数据集和网络爬取符合要求的数据,词典构建保持实体类别数量的相对平衡。
7.利用权利要求1所述的系统实现基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:包括以下步骤:
首先,将电子病历的文本进行数据预处理;
然后,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量后进入RWLSTM预训练模型模块进行训练,生成上下文相关的词向量;
之后,将词向量输入到特征提取模块进行特征提取,提取到实体边界特征和类别特征,特征在数学上的表示均是高维向量;
其次,将特征向量输入实体提取模块,提取文本的实体;实体提取模块输入每一个实体类别的概率,概率最高的类别即是最终的输出结果;
最后,将实体和实体类别输出,作为最终输出,作为医生诊断依据。
8.根据权利要求7所述的基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:由数据预处理模块(1),对电子病历文本进行中文分词以及命名实体标注;由文本编码模块(2),对文本序列采用BiLSTM编码;由模型建模模块(3),将词向量输入预训练模块形成上下文相关的词向量,然后再由特征提取模块进行词向量的特征提取;由实体提取模块(4),将提取的特征转化成实体序列;由词典构建模块(5),从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。
9.根据权利要求7所述的基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:由数据预处理模块(1)的中文分词模块(101),对电子病历中文本中文分词,将文本中的词语进行切分出,采用分词工具,得到一串词汇序列;数据预处理模块(1)的实体标注模块(102),对实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;
由文本编码模块(2)将文本数据采用BiLSTM编码处理成可理解和处理的编码序列;其采用记忆门,遗忘门来计算词向量,并对文本序列的前后词信息及其特征进行捕捉,以此来学习实体的边界和长距离的依赖关系,记忆门和遗忘门的计算如下:
计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量ht-1,当前时刻的输入词向量为xt,Wf为该层权重矩阵用于去除部分冗余信息,bf为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值ft,即为遗忘部分信息之后的词向量,将其代入公式(4);
ft=σ(W·[ht-1,xt+bf]) (1)
计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量ht-1,当前时刻的输入词向量ht-1,Wf为该层权重矩阵,然后输出记忆门的值it,临时细胞状态
Figure FDA0003614688080000031
其存储的是当前时刻的需要保留记忆的词向量,然后将其代入公式(4);
it=σ(Wf·[ht-1,xt+bi]) (2)
Figure FDA0003614688080000041
计算当前时刻临时状态的里存储的词向量,输入为记忆门的词向量it和遗忘门的值ft作为系数,临时细胞状态的词向量
Figure FDA0003614688080000042
上一刻细胞里存储的词向量Ct-1,并作矩阵乘法,输出为当前细胞状态里的词向量为Ct
Figure FDA0003614688080000043
计算输出门和当前时刻的词向量,输入前一时刻的词向量ht-1,当前时刻的输入词xt,当前时刻的词向量Ct,Wo为该层权重矩阵,bo为该层的偏差矩阵,然后用tanh函数进行运算;则有输出门的词向量值Ot,隐藏层的词向量为ht
Ot=σ(Wo·[ht-1,xt+bo]) (5)
ht=Ot*tanh(Ct) (6)
计算n轮,得到与句子长度相同的词向量序列{h0,h1,h2……hn-1};最后,将词向量序列与词典相结合,生成综合的单词表示向量;
由模型建模模块(3)的预训练模块(301),将字符级单词向量序列与词典相结合生成综合的单词表示向量使用RWLSTM预训练模型训练生成上下文相关的词向量;模型建模模块(3)的特征提取模块(302)根据预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征;
模型建模模块(3)中特征提取模块(302)采用Global Attention,在表征上执行注意力机制,以找到全局信息;transformer模型中的注意机制是一个函数,从输入句子中映射出重要和相关的单词,并为单词赋予更高的权重;其计算公式为(7);
Figure FDA0003614688080000044
V是表示输入特征的向量,Q、K是计算Attention权重的特征向量,由输入特征得到;Attention(Q,K,V)是根据关注程度对V乘以相应权重,Attention机制中的Q,K,V是对当前的Query和所有的Key计算相似度,将相似度值通过Softmax层得到一组权重,根据权重与对应Value的乘积求和得到Attention下的Value值;最后所得词向量序列然后输入进实体提取模块进行实体提取;
实体提取模块(4),将经过模型建模模块并训练之后的数据进行实体提取,包括实体边界和实体类别,采用条件随机场算法进行实体提取;
词典构建模块(5),包括公开电子病历数据集和经过网络爬虫收集并经过处理之后的数据。
CN202210442714.2A 2022-04-25 2022-04-25 基于rwlstm模型融合的医疗命名实体识别系统及方法 Pending CN114781382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210442714.2A CN114781382A (zh) 2022-04-25 2022-04-25 基于rwlstm模型融合的医疗命名实体识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210442714.2A CN114781382A (zh) 2022-04-25 2022-04-25 基于rwlstm模型融合的医疗命名实体识别系统及方法

Publications (1)

Publication Number Publication Date
CN114781382A true CN114781382A (zh) 2022-07-22

Family

ID=82433406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210442714.2A Pending CN114781382A (zh) 2022-04-25 2022-04-25 基于rwlstm模型融合的医疗命名实体识别系统及方法

Country Status (1)

Country Link
CN (1) CN114781382A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法
CN116386800A (zh) * 2023-06-06 2023-07-04 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和系统
CN117094325A (zh) * 2023-09-25 2023-11-21 安徽农业大学 水稻病虫害领域命名实体识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法
CN116386800A (zh) * 2023-06-06 2023-07-04 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和系统
CN116386800B (zh) * 2023-06-06 2023-08-18 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和系统
CN117094325A (zh) * 2023-09-25 2023-11-21 安徽农业大学 水稻病虫害领域命名实体识别方法
CN117094325B (zh) * 2023-09-25 2024-03-29 安徽农业大学 水稻病虫害领域命名实体识别方法

Similar Documents

Publication Publication Date Title
CN111192680B (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN109918644B (zh) 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN109670179A (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐系统
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN112420191A (zh) 一种中医辅助决策系统及方法
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114676233A (zh) 基于骨骼肌知识图谱的医疗自动问答方法
CN114676260A (zh) 基于知识图谱的人体骨骼运动康复模型构建方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN110164519B (zh) 一种基于众智网络的用于处理电子病历混合数据的分类方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN117423470B (zh) 一种慢性病临床决策支持系统及构建方法
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination