CN112434520A - 命名实体识别方法、装置及可读存储介质 - Google Patents
命名实体识别方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN112434520A CN112434520A CN202011257945.3A CN202011257945A CN112434520A CN 112434520 A CN112434520 A CN 112434520A CN 202011257945 A CN202011257945 A CN 202011257945A CN 112434520 A CN112434520 A CN 112434520A
- Authority
- CN
- China
- Prior art keywords
- vector
- medical record
- electronic medical
- model
- short term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 241
- 230000004927 fusion Effects 0.000 claims abstract description 52
- 230000015654 memory Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 71
- 230000006403 short-term memory Effects 0.000 claims description 71
- 230000007787 long-term memory Effects 0.000 claims description 70
- 238000013527 convolutional neural network Methods 0.000 claims description 40
- 230000007246 mechanism Effects 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000586 desensitisation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000010428 Muscle Weakness Diseases 0.000 description 1
- 206010028372 Muscular weakness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种命名实体识别方法、装置及可读存储介质,本发明方法中,将待识别电子病历输入至命名实体识别模型,输出与所述待识别电子病历对应的医疗实体识别结果,其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络‑条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。通过预设双向长短期记忆网络‑条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,能够获得更全面的特征信息,进而提高医疗实体识别结果的准确性。
Description
技术领域
本发明涉及信息识别技术领域,尤其涉及一种命名实体识别方法、装置及可读存储介质。
背景技术
随着大数据、人工智能的发展,医疗电子病历目前已被广泛的应用到医院的信息化系统中,但电子病历中的信息大多是以非结构化形式进行存储的,无法对其进行进一步的研究,因此对电子病历进行结构化处理就显得尤为重要,电子病历命名实体识别就是将其进行结构化处理的重要方法之一。
在医疗领域中,由于医疗实体的同一实体有多种中文表示方法、医疗实体间关联性强等问题增加了医疗实体识别的难度。目前常用字向量或词向量方式作为模型输入,采用字向量作为模型输入忽略了字与字之间相互联系、相互表示的关系;采用词向量作为输入,存在由于分词错误造成误差进一步传播的问题;即仅仅通过字向量和词向量无法捕捉到较为全面的特征信息,对同一实体的多种表示方法和实体间关联性强等问题不能充分解决。
同时,以BiLSTM+CRF(Bi-directional Long Short-Term Memory+ConditionalRandom Field,双向长短期记忆网络+条件随机场)为代表的医疗实体识别方法,训练样本经过BILSTM模型得到的特征相对比较简单,不能捕捉到句子的全面信息,用这个特征进行CRF训练可能会出现实体识别错误,使得训练好的模型的识别结果不够精准。
发明内容
针对现有技术存在的上述技术问题,本发明提供一种命名实体识别方法、装置及可读存储介质。
本发明提供一种命名实体识别方法,包括:
将待识别电子病历输入至命名实体识别模型;
输出与所述待识别电子病历对应的医疗实体识别结果;
其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
根据本发明提供的一种命名实体识别方法,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的;
所述预设双向长短期记忆网络-条件随机场模型包括依次连接的输入层、双向长短期记忆网络-卷积神经网络层、双向长短期记忆网络-注意力机制层和条件随机场层,所述双向长短期记忆网络-卷积神经网络层包括双向长短期记忆网络模型和卷积神经网络模型,所述双向长短期记忆网络-注意力机制层包括双向长短期记忆网络模型和注意力机制模型。
根据本发明提供的一种命名实体识别方法,所述基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,具体包括:
将所述融合特征向量输入双向长短期记忆网络-卷积神经网络层中的双向长短期记忆网络模型,获得第一向量;
将所述字特征向量输入双向长短期记忆网络-卷积神经网络层中的卷积神经网络模型,获得第二向量;
将所述第一向量和第二向量进行串联融合,获得第三向量;
将所述第三向量分别输入所述双向长短期记忆网络-注意力机制层中的双向长短期记忆网络模型和注意力机制模型中,获得双向长短期记忆网络模型输出的第四向量和注意力机制模型输出的第五向量;
将所述第四向量和第五向量进行串联融合,获得第六向量;
将所述第六向量输入条件随机场层,以获得所述待识别电子病历对应的医疗实体识别结果。
根据本发明提供的一种命名实体识别方法,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的,具体包括:
将所述拼音首字母特征向量与所述字特征向量进行求和融合,获得第七向量;
将所述第七向量与所述词特征向量进行串联融合,获得所述融合特征向量。
根据本发明提供的一种命名实体识别方法,所述待识别电子病历的字特征向量和词特征向量是基于词向量模型得到的。
根据本发明提供的一种命名实体识别方法,所述待识别电子病历的拼音首字母特征向量是基于所述待识别电子病历以及标注词典确定的;所述标注词典由经序列标注得到的医疗实体构成。
根据本发明提供的一种命名实体识别方法,所述第二向量是所述字特征向量经卷积和最大值池化操作得到的。
本发明还提供一种命名实体识别装置,包括:
输入模块,用于将待识别电子病历输入至命名实体识别模型;
输出模块,用于输出与所述待识别电子病历对应的医疗实体识别结果;
其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述命名实体识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述命名实体识别方法的步骤。
本发明提供的命名实体识别方法、装置及可读存储介质,通过预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,能够获得更全面的特征信息,进而提高医疗实体识别结果的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的命名实体识别方法的流程示意图;
图2是本发明提供的预设双向长短期记忆网络-条件随机场模型的结构示意图;
图3是本发明提供的命名实体识别方法的全流程示意图;
图4是本发明提供的命名实体识别装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的命名实体识别方法、装置及可读存储介质。
图1为本发明提供的一种命名实体识别方法的流程示意图,如图1所示,该方法包括:
步骤110,将待识别电子病历输入至命名实体识别模型。
具体的,所述待识别电子病历为中文电子病历。将待识别电子病历输入至命名实体识别模型之前,需要对其进行预处理。首先抽取所述待识别中文电子病历的正文信息,为保护患者隐私,还需进行脱敏处理,至于正文信息的获取方法可以采用现有技术中的任意方法,本发明对此不作具体限定。
步骤120,输出与所述待识别电子病历对应的医疗实体识别结果;
其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
具体的,可以预先训练得到命名实体识别模型,例如通过如下方式训练得到命名实体识别模型:首先,收集大量样本电子病历,并确定样本电子病历对应的医疗实体识别结果。随即,基于样本电子病历及其对应的医疗实体识别结果训练初始模型,从而得到命名实体识别模型。训练过程中,将中文电子病历的数据分为训练集和测试集两个部分,使用BIOES标注规则对两个部分的数据进行统一标注,标注后的数据包含原始中文电子病历和实体标注;使用jieba对训练数据进行分词。
所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场(BiLSTM-CRF)模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
本发明提供的方法,通过预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,能够获得更全面的特征信息,进而提高医疗实体识别结果的准确性。
基于上述实施例,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的;
所述预设双向长短期记忆网络-条件随机场模型包括依次连接的输入层、双向长短期记忆网络-卷积神经网络层、双向长短期记忆网络-注意力机制层和条件随机场层,所述双向长短期记忆网络-卷积神经网络层包括双向长短期记忆网络模型和卷积神经网络模型,所述双向长短期记忆网络-注意力机制层包括双向长短期记忆网络模型和注意力机制模型。
具体的,对所述待识别电子病历进行汉字拼音首字母、字和词三个粒度的特征提取,得到所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量,然后将上述三个向量进行融合得到融合特征向量,作为所述预设双向长短期记忆网络-条件随机场(BiLSTM-CRF)模型的输入。
如图2所示为本发明提供的预设双向长短期记忆网络-条件随机场模型的结构示意图,如图2所示,所述预设双向长短期记忆网络-条件随机场(BiLSTM-CRF)模型包括依次连接的输入层、双向长短期记忆网络-卷积神经网络(BiLSTM-CNN)层、双向长短期记忆网络-注意力机制(BiLSTM-Attention)层和条件随机场(CRF)层,所述双向长短期记忆网络-卷积神经网络(BiLSTM-CNN)层包括双向长短期记忆网络(BiLSTM)模型和卷积神经网络(CNN)模型,所述双向长短期记忆网络-注意力机制(BiLSTM-Attention)层包括双向长短期记忆网络(BiLSTM)模型和注意力机制(Attention)模型。在BiLSTM-CRF模型中加入CNN模型和Attention机制来提升实体识别的效果,其中加入CNN层能够更加准确的获取医疗文本的局部信息,加入Attention机制能够对句子中不同词进行权重选择,对重要的字词分配更大的权重。
本发明提供的方法,通过基于所述待识别电子病历的拼音首字母、字和词的融合特征向量经加入了CNN模型和Attention机制的BiLSTM-CRF模型进行医疗实体识别,能够在保证特征全面性的基础上提高医疗实体识别结果的准确性。
基于上述实施例,所述基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,具体包括:
将所述融合特征向量输入双向长短期记忆网络-卷积神经网络层中的双向长短期记忆网络模型,获得第一向量;
将所述字特征向量输入双向长短期记忆网络-卷积神经网络层中的卷积神经网络模型,获得第二向量;
将所述第一向量和第二向量进行串联融合,获得第三向量;
将所述第三向量分别输入所述双向长短期记忆网络-注意力机制层中的双向长短期记忆网络模型和注意力机制模型中,获得双向长短期记忆网络模型输出的第四向量和注意力机制模型输出的第五向量;
将所述第四向量和第五向量进行串联融合,获得第六向量;
将所述第六向量输入条件随机场层,以获得所述待识别电子病历对应的医疗实体识别结果。
具体的,将融合了汉字拼音首字母特征的融合特征向量x输入到双向长短期记忆网络BiLSTM模型中,得到第一向量r;将字特征向量c输入到卷积神经网络CNN模型中,得到第二向量c’;将所述第一向量r和第二向量c’进行串联融合形成初步的代表全局和局部的语义向量u,即第三向量;将所述第三向量u分别输入到BiLSTM-Attention层中的BiLSTM模型以及Attention模型中,获得BiLSTM模型输出的第四向量u’和Attention模型输出的第五向量z,将所述第四向量u’和第五向量z进行串联融合得到第六向量e;将所述第六向量e输入到CRF层中,以预测最优序列,即获得所述待识别电子病历对应的医疗实体识别结果。
本发明提供的方法,通过将所述待识别电子病历的拼音首字母、字和词的融合特征向量输入加入了CNN模型和Attention机制的BiLSTM-CRF模型进行医疗实体识别,能够在保证特征全面性的基础上提高医疗实体识别结果的准确性。
基于上述实施例,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的,具体包括:
将所述拼音首字母特征向量与所述字特征向量进行求和融合,获得第七向量;
将所述第七向量与所述词特征向量进行串联融合,获得所述融合特征向量。
具体的,对于拼音首字母特征向量a=(a1,a2,…,am)、字特征向量c=(c1,c2,...,cn)和词特征向量w=(w1,w2,...,wk),首先将拼音首字母特征向量与字特征向量进行求和融合,获得第七向量h=(h1,h2,...,hm)=(c1+a1,c2+a2,…,cn+am);再将所述第七向量与所述词特征向量进行串联融合,获得所述融合特征向量x=[h;w]=(x1,x2,…,xt)=(h1,h2,…,hm,w1,w2,…wk),其中[·;·]为拼接符号。
本发明提供的方法,通过所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行医疗实体识别结果,能够获得更全面的特征信息,进而提高医疗实体识别结果的准确性。
基于上述实施例,所述待识别电子病历的字特征向量和词特征向量是基于词向量模型得到的。
具体的,将所述待识别电子病历的文本数据输入word2vec模型,生成字特征向量,将分词后的文本数据输入word2vec模型生成词特征向量。
本发明提供的方法,通过词向量模型获得待识别电子病历的字特征向量和词特征向量,能保证提取特征的准确性,进而保证医疗实体识别结果的准确性。
基于上述实施例,所述待识别电子病历的拼音首字母特征向量是基于所述待识别电子病历以及标注词典确定的;所述标注词典由经序列标注得到的医疗实体构成。
具体的,在训练过程中,将BIOES标注的众多医疗实体构成词典,把词典中每个字的首字母进行提取,例如,“脑梗死”提取出“ngs”,“肌无力”提取出“jwl”,统计在中文电子病历中常出现的拼音字母。在实际识别过程中,将待识别中文电子病历中的字按常用的字母进行分类,为其赋予一个表示向量,即拼音首字母特征向量。
本发明提供的方法,通过基于所述待识别电子病历以及标注词典能够快速确定所述待识别电子病历的拼音首字母特征向量,提高医疗实体识别的效率。
基于上述实施例,所述第二向量是所述字特征向量经卷积和最大值池化操作得到的。
具体的,将字特征向量c=(c1,c2,...,cn)输入到卷积神经网络CNN模型中,设定卷积核大小,对每个字进行卷积操作,之后将每个卷积核得到的特征向量进行最大值池化操作得到的向量为c'=(c'1,c'2,…,c'n)。其公式为:q=1,2…n。其中,定义为向量拼接符号,r为卷积半径,max函数为最大池化操作。
本发明提供的方法,通过CNN模型对所述字特征向量经卷积和最大值池化操作得到第二向量,能够保证提取特征的准确性,进而保证医疗实体识别结果的准确性。
图3是本发明提供的命名实体识别方法的全流程示意图,下面结合图3对上述任一实施例所述方法进行进一步说明:
步骤1:获取待识别中文电子病历,对获取的医疗文本数据进行预处理和实体标记;
步骤1.1:对获取的待识别中文电子病历抽取其正文信息,为保护患者隐私,还需进行脱敏处理;
步骤1.2:使用BIOES标注规则对待识别中文电子病历的数据进行统一标注,并使用jieba对所述待识别中文电子病历的数据进行分词;
步骤2:对所述待识别中文电子病历的数据进行汉字拼音首字母、字和词三个粒度的特征提取;
步骤2.1:将待识别中文医疗病历中的字按常用的字母进行分类,为其赋予一个表示向量,并初始化为120维的向量,向量表示为:a=(a1,a2,...,am),m=120;
步骤2.2:将使用了BIOES标注规则的待识别中文电子病历的数据输入word2vec模型,生成120维的字向量,字向量表示为:c=(c1,c2,...,cn),n=120;
步骤2.3:将分词后的待识别中文电子病历的数据输入word2vec模型,生成150维的词向量,词向量表示为:w=(w1,w2,...,wk),k=150;
步骤3:将提取的三种粒度的特征进行特征融合;
步骤3.1:将拼音首字母向量和字向量进行融合;
将字向量与拼音首字母向量中的分量进行逐项相加,形成新的特征向量h=(h1,h2,...,hm)=(c1+a1,c2+a2,...,cn+am);
步骤3.2:融合词向量;
将词向量与新的特征向量h进行拼接,得到融合了汉字拼音首字母的融合特征向量x,即将新的特征向量h与词向量w进行拼接,形成融合特征向量x=[h;w]=(x1,x2,…,xt)=(h1,h2,…,hm,w1,w2,…wk),t=270,其中[·;·]为拼接符号;
步骤4:将融合特征向量输入改进的BiLSTM-CRF模型;
步骤4.1:将融合了汉字拼音首字母特征的融合特征向量x输入到双向长短期记忆网络BiLSTM模型中。在这一步骤中,融合特征向量x=[h;w]=(x1,x2,…,xt)通过双向长短时记忆网络会得到全局的上下文表示r=(r1,r2,…,rt),其中, 为正向的长短时记忆网络的输出,为反向的长短时记忆网络的输出。正向的计算公式为:
iq=σ(wixq+wirq-1+bi)
fq=σ(wfxq+wfrq-1+bf)
oq=σ(woxq+worq-1+bo)
步骤4.2:将字向量c=(c1,c2,...,cn)输入到卷积神经网络CNN模型中,得到的向量为c'=(c'1,c'2,…,c'n)。其公式为:q=1,2…n。其中,定义为向量拼接符号,r为卷积半径,max函数为最大池化操作。
步骤4.3:将BiLSTM模型输出的r=(r1,r2,…,rt)和CNN模型输出的c'=(c'1,c'2,…,c'n)进行拼接形成初步的代表全局和局部的语义向量u=[r;c']=(r1,r2,…,rt,c'1,c'2,…,c'n)=(u1,u2,…,um'),其中[·;·]为拼接符号;
步骤4.4:将步骤4.3中的拼接向量u输入到另一个BiLSTM和Attention模型中。输入向量u=(u1,u2,…,um')经正向和反向LSTM网络得到两组状态输出序列,将两组状态输出序列进行合并,得到u'=(u1',u2',…,um’’)。利用Attention模型获取句子中贡献和权重较大的部分,其公式为:dq=tanh(uq),其中,uq为拼接向量,之后通过Softmax函数计算注意力权重概率向量:最后通过加权求和计算融合权重信息后的向量:将Attention向量z与BiLSTM输出向量u'进行拼接形成所在句子的深度语义表示e=[z;u']=(e1,e2,...en'),其中[·;·]为拼接符号;
步骤4.5:将步骤4.4中的深度语义表示向量e=(e1,e2,...en')输入到CRF中,以预测最优序列。计算公式为:y*=arg max Score(e,y'),其中,y'为此时的标签,L为转移矩阵,T为分数矩阵。求解最大得分Score,得到最优序列,即医疗实体识别结果。
基于上述任一实施例,图4是本发明提供的命名实体识别装置的结构示意图,如图4所示,该装置包括:
输入模块410,用于将待识别电子病历输入至命名实体识别模型。
具体的,将待识别电子病历输入至命名实体识别模型之前,需要对其进行预处理。首先抽取所述待识别中文电子病历的正文信息,为保护患者隐私,还需进行脱敏处理,至于正文信息的获取方法可以采用现有技术中的任意方法,本发明对此不作具体限定。得到正文信息之后,通过输入模块410输入至命名实体识别模型。
输出模块420,用于输出与所述待识别电子病历对应的医疗实体识别结果;
其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
具体的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场(BiLSTM-CRF)模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,并通过输出模块420输出。
本发明提供的装置,通过预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,能够获得更全面的特征信息,进而提高医疗实体识别结果的准确性。
基于上述实施例,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的;
所述预设双向长短期记忆网络-条件随机场模型包括依次连接的输入层、双向长短期记忆网络-卷积神经网络层、双向长短期记忆网络-注意力机制层和条件随机场层,所述双向长短期记忆网络-卷积神经网络层包括双向长短期记忆网络模型和卷积神经网络模型,所述双向长短期记忆网络-注意力机制层包括双向长短期记忆网络模型和注意力机制模型。
基于上述实施例,所述基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,具体包括:
将所述融合特征向量输入双向长短期记忆网络-卷积神经网络层中的双向长短期记忆网络模型,获得第一向量;
将所述字特征向量输入双向长短期记忆网络-卷积神经网络层中的卷积神经网络模型,获得第二向量;
将所述第一向量和第二向量进行串联融合,获得第三向量;
将所述第三向量分别输入所述双向长短期记忆网络-注意力机制层中的双向长短期记忆网络模型和注意力机制模型中,获得双向长短期记忆网络模型输出的第四向量和注意力机制模型输出的第五向量;
将所述第四向量和第五向量进行串联融合,获得第六向量;
将所述第六向量输入条件随机场层,以获得所述待识别电子病历对应的医疗实体识别结果。
基于上述实施例,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的,具体包括:
将所述拼音首字母特征向量与所述字特征向量进行求和融合,获得第七向量;
将所述第七向量与所述词特征向量进行串联融合,获得所述融合特征向量。
基于上述实施例,所述待识别电子病历的字特征向量和词特征向量是基于词向量模型得到的。
基于上述实施例,所述待识别电子病历的拼音首字母特征向量是基于所述待识别电子病历以及标注词典确定的;所述标注词典由经序列标注得到的医疗实体构成。
基于上述实施例,所述第二向量是所述字特征向量经卷积和最大值池化操作得到的。
本发明提供的命名实体识别装置可以执行上述命名实体识别方法,其具体工作原理和相应的技术效果与上述方法相同,在此不再赘述。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行上述各方法所提供的命名实体识别方法。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的命名实体识别方法。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的命名实体识别方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种命名实体识别方法,其特征在于,包括:
将待识别电子病历输入至命名实体识别模型;
输出与所述待识别电子病历对应的医疗实体识别结果;
其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的;
所述预设双向长短期记忆网络-条件随机场模型包括依次连接的输入层、双向长短期记忆网络-卷积神经网络层、双向长短期记忆网络-注意力机制层和条件随机场层,所述双向长短期记忆网络-卷积神经网络层包括双向长短期记忆网络模型和卷积神经网络模型,所述双向长短期记忆网络-注意力机制层包括双向长短期记忆网络模型和注意力机制模型。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果,具体包括:
将所述融合特征向量输入双向长短期记忆网络-卷积神经网络层中的双向长短期记忆网络模型,获得第一向量;
将所述字特征向量输入双向长短期记忆网络-卷积神经网络层中的卷积神经网络模型,获得第二向量;
将所述第一向量和第二向量进行串联融合,获得第三向量;
将所述第三向量分别输入所述双向长短期记忆网络-注意力机制层中的双向长短期记忆网络模型和注意力机制模型中,获得双向长短期记忆网络模型输出的第四向量和注意力机制模型输出的第五向量;
将所述第四向量和第五向量进行串联融合,获得第六向量;
将所述第六向量输入条件随机场层,以获得所述待识别电子病历对应的医疗实体识别结果。
4.根据权利要求2所述的命名实体识别方法,其特征在于,所述拼音首字母、字和词的融合特征向量是基于所述待识别电子病历的拼音首字母特征向量、字特征向量和词特征向量进行融合得到的,具体包括:
将所述拼音首字母特征向量与所述字特征向量进行求和融合,获得第七向量;
将所述第七向量与所述词特征向量进行串联融合,获得所述融合特征向量。
5.根据权利要求2所述的命名实体识别方法,其特征在于,所述待识别电子病历的字特征向量和词特征向量是基于词向量模型得到的。
6.根据权利要求2所述的命名实体识别方法,其特征在于,所述待识别电子病历的拼音首字母特征向量是基于所述待识别电子病历以及标注词典确定的;所述标注词典由经序列标注得到的医疗实体构成。
7.根据权利要求3所述的命名实体识别方法,其特征在于,所述第二向量是所述字特征向量经卷积和最大值池化操作得到的。
8.一种命名实体识别装置,其特征在于,包括:
输入模块,用于将待识别电子病历输入至命名实体识别模型;
输出模块,用于输出与所述待识别电子病历对应的医疗实体识别结果;
其中,所述命名实体识别模型是基于电子病历样本数据以及预先确定的医疗实体标签进行训练后得到的,所述命名实体识别模型用于基于预设双向长短期记忆网络-条件随机场模型对所述待识别电子病历的基于拼音首字母、字和词的融合特征向量进行处理,以获得所述待识别电子病历对应的医疗实体识别结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述命名实体识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述命名实体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257945.3A CN112434520A (zh) | 2020-11-11 | 2020-11-11 | 命名实体识别方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257945.3A CN112434520A (zh) | 2020-11-11 | 2020-11-11 | 命名实体识别方法、装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434520A true CN112434520A (zh) | 2021-03-02 |
Family
ID=74700963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011257945.3A Pending CN112434520A (zh) | 2020-11-11 | 2020-11-11 | 命名实体识别方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434520A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN113139385A (zh) * | 2021-05-12 | 2021-07-20 | 北京化工大学 | 基于字词读音融合特征模型的电子病历命名实体识别方法 |
CN113724819A (zh) * | 2021-08-31 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 医疗命名实体识别模型的训练方法、装置、设备及介质 |
CN114547330A (zh) * | 2022-01-28 | 2022-05-27 | 山东师范大学 | 音乐知识图谱半自动构建方法及系统 |
CN115081451A (zh) * | 2022-06-30 | 2022-09-20 | 中国电信股份有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN115146644A (zh) * | 2022-09-01 | 2022-10-04 | 北京航空航天大学 | 一种面向警情文本的多特征融合命名实体识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
WO2020074017A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
-
2020
- 2020-11-11 CN CN202011257945.3A patent/CN112434520A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
WO2020074017A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN113139385A (zh) * | 2021-05-12 | 2021-07-20 | 北京化工大学 | 基于字词读音融合特征模型的电子病历命名实体识别方法 |
CN113139385B (zh) * | 2021-05-12 | 2024-05-14 | 北京化工大学 | 基于字词读音融合特征模型的电子病历命名实体识别方法 |
CN113724819A (zh) * | 2021-08-31 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 医疗命名实体识别模型的训练方法、装置、设备及介质 |
CN113724819B (zh) * | 2021-08-31 | 2024-04-26 | 平安国际智慧城市科技股份有限公司 | 医疗命名实体识别模型的训练方法、装置、设备及介质 |
CN114547330A (zh) * | 2022-01-28 | 2022-05-27 | 山东师范大学 | 音乐知识图谱半自动构建方法及系统 |
CN115081451A (zh) * | 2022-06-30 | 2022-09-20 | 中国电信股份有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN115146644A (zh) * | 2022-09-01 | 2022-10-04 | 北京航空航天大学 | 一种面向警情文本的多特征融合命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN112434520A (zh) | 命名实体识别方法、装置及可读存储介质 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN110825875B (zh) | 文本实体类型识别方法、装置、电子设备和存储介质 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN109165384A (zh) | 一种命名实体识别方法及装置 | |
CN111881260A (zh) | 基于方面注意力和卷积记忆神经网络情感分析方法及装置 | |
Poostchi et al. | BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset | |
US11232263B2 (en) | Generating summary content using supervised sentential extractive summarization | |
WO2022267353A1 (zh) | 文本纠错的方法、装置、电子设备及存储介质 | |
CN113886601B (zh) | 电子文本事件抽取方法、装置、设备及存储介质 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN110909549A (zh) | 对古汉语进行断句的方法、装置以及存储介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN112148862B (zh) | 一种问题意图识别方法、装置、存储介质及电子设备 | |
CN110442871A (zh) | 文本信息处理方法、装置及设备 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111291550B (zh) | 一种中文实体提取方法及装置 | |
CN111241848B (zh) | 一种基于机器学习的文章阅读理解答案检索方法及装置 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
Samuel et al. | The dark side of sentiment analysis: An exploratory review using lexicons, dictionaries, and a statistical monkey and chimp |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |