CN113139385B - 基于字词读音融合特征模型的电子病历命名实体识别方法 - Google Patents

基于字词读音融合特征模型的电子病历命名实体识别方法 Download PDF

Info

Publication number
CN113139385B
CN113139385B CN202110531278.1A CN202110531278A CN113139385B CN 113139385 B CN113139385 B CN 113139385B CN 202110531278 A CN202110531278 A CN 202110531278A CN 113139385 B CN113139385 B CN 113139385B
Authority
CN
China
Prior art keywords
word
pronunciation
character
electronic medical
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110531278.1A
Other languages
English (en)
Other versions
CN113139385A (zh
Inventor
史晟辉
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202110531278.1A priority Critical patent/CN113139385B/zh
Publication of CN113139385A publication Critical patent/CN113139385A/zh
Application granted granted Critical
Publication of CN113139385B publication Critical patent/CN113139385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于字词读音融合特征模型的电子病历命名实体识别方法,包括以下步骤:生成待识别命名实体的电子病历的字符序列对应的字符的字词向量的集合;生成字符序列对应的读音向量;将读音向量输入到第一神经网络进行处理,得到字符序列对应的读音加强字词向量;将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型;将字词读音特征模型输入到第二神经网络中进行处理,得到电子病历的命名实体识别结果;本发明具备迁移性,降低了模型构建的复杂工作程度,对于标注数据较少的领域进行命名实体识别任务,具有良好的电子病历的命名实体识别效果。

Description

基于字词读音融合特征模型的电子病历命名实体识别方法
技术领域
本发明属于计算机技术领域,涉及一种基于字词读音融合特征模型的电子病历命名实体识别方法。
背景技术
随着我国社会经济的蓬勃发展及人民生活水平的日益提高,人们健康意识也日益增强,如何利用大量的医疗数据来构建智能医疗体系是目前社会的迫切需求。电子病历时医疗数据里数量最多,包含信息也最多的医疗数据文本,其具有其独特的专业性。很多智能医疗信息系统都是基于电子病历的信息来构建。在构建智能医疗信息系统和体系的过程中,命名实体识别对大量的医疗数据进行信息抽取的重要任务的基础,对各种医疗领域的信息处理和管理系统十分重要。
目前基于动态结构融合词汇信息需要通过修改相应的特征抽取模型,这导致模型结构复杂和推断效率低的问题;此外国内的医疗文本记录体系不完善,医疗文本数据中存在储存时没有对数据中的命名实体进行标注,使得可用于命名实体识别任务所需的带标注信息的中文医疗文本数据更加缺乏,降低了电子病历的命名实体识别效果。
发明内容
针对上述问题,本发明提出了一种基于字词读音融合特征模型的电子病历命名实体识别方法,很好的解决了现有技术中模型构建复杂、推断效率低和命名实体是被效果不佳的问题。
为了实现上述目的,本发明采用的技术方案如下:基于字词读音融合特征模型的电子病历命名实体识别方法,包括以下步骤:
生成待识别命名实体的电子病历的字符序列对应的字符的字词向量的集合;
生成所述字符序列对应的读音向量;
将所述读音向量输入到第一神经网络进行处理,得到所述字符序列对应的读音加强字词向量;
将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型;
将所述字词读音特征模型输入到第二神经网络中进行处理,得到所述电子病历的命名实体识别结果。
进一步的,所述字词向量的集合为BMES集合,通过Soft-lexicon构造模型生成,生成“B”、“M”、“E”、“S”四个词集,并且BMES集合中的字词向量表示如下:
e(B,M,E,S)=[v(B)+v(M)+v(E)+v(S)]
其中:“B”集合保存当前字为词首字的单词列表;“M”集合保存当前字为词中间字的单词列表,“E”集合保存当前字为词尾字的单词列表,“S”集合保存当前字为单独字成词的单词列表。
进一步的,所述读音向量通过压缩的字母表法生成。
进一步的,所述第一神经网络包括字符特征层、特征抽取层、标签解码层。
进一步的,所述读音加强字词向量的表示向量如下:
xc←[xc;e(B*,M*,E*,S*)]
其中:*表示字词向量经过读音向量加强表示。
进一步的,所述第二神经网络为卷积网络,并由一层一维卷积核加上两层三维卷积核共三层组成。
与现有技术相比,本发明具有以下有益效果:
本发明中,提出的字词读音融合特征模型,实现了字词表征具备更丰富的含义,提高命名实体识别效果的目的,而且具备迁移性,降低了模型构建的复杂工作程度,对于标注数据较少的领域进行命名实体识别任务,具有良好的电子病历的命名实体识别效果。
本发明中,采用读音向量和词权重方式对词向量进行处理,使得字词读音融合特征模型的识别效果提高,提高识别的准确性。
附图说明
图1为本发明的流程示意图;
图2为本发明中的Soft-lexicon构造模型结构图;
图3为本发明中的第一神经网络处理过程示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明所述的基于字词读音融合特征模型的电子病历命名实体识别方法,包括以下步骤:
生成待识别命名实体的电子病历的字符序列对应的字符的词向量的集合;通过Soft-lexicon构造模型生成,生成“B”、“M”、“E”、“S”四个词集,并且BMES集合中的词向量表示如下:
e(B,M,E,S)=[v(B)+v(M)+v(E)+v(S)]
其中:“B”集合保存当前字为词首字的单词列表;“M”集合保存当前字为词中间字的单词列表,“E”集合保存当前字为词尾字的单词列表,“S”集合保存当前字为单独字成词的单词列表。
Soft-lexicon构造模型结构图如图2所示,结合图2对BMES集合解释如下:由字符集合{c5,c6}匹配到词w1,由字符集合{c6,c7}匹配到词w2,由字符集合{c5,c6,c7,c8}匹配到词w3。针对c6字符,该字符是w1的结束字,是 w2的开始字,是w3的中间字,新的标签集合为{B:{w2},M:{w3},E:{w1}, S:{null}};针对c7字符,该字符是w2的结束字,是w3的中间字,新的标签集合为{B:{null},M:{w3},E:{w2},S:{null}}。Soft-lexicon构造模型有两个优点,第一是详尽地记录了词典匹配情况,直接保存了最完整的词典匹配信息,不存在无法还原真实词典匹配的问题;第二是将整个词语存储,可以引入预训练好的字词向量嵌入,进一步提升字符特征质量,保证后期的识别效果
通过压缩的字母表法生成所述字符序列对应的读音向量;具体的,在读音向量表示中,在字母表法的基础上使用两位表示4种声调,即{00:阴平,01:阳平,10:上声,11:去声},额外使用一位空间表示轻声,声调部分从5位压缩至3位。轻声位使用的频率较低,大部分情况是只需要2位空间表示声调,改良后的声调部分使用率从20%提高到66%。改良后的字母表法的声调部分长度为3 位,平均使用2位;字母部分长度为26位,平均使用3.2位。总长度为29位,平均使用5.2位,使用率从原先的12.9%提高至17.9%;可以使得读音向量复原出真实拼音写法。
将所述读音向量输入到第一神经网络进行处理,得到所述字符序列对应的读音加强字词向量;其中,所述第一神经网络包括字符特征层、特征抽取层、标签解码层。如图3所示,第一神经网路处理过程如下:如输入序列为“这家银行长大于宽”,符号化表示为{c1,c2,c3,c4,c5,c6,c7,c8},以字符c5“长”具体说明。通过词典的查询,图最下方矩形显示出词典匹配到词{w1:“长大”,w2:“长大于宽”,w3:“行长”,},所以根据上下文匹配到的BMES标签集合为{B:{w1, w2},M:{null},E:{w3},S:{null}}。下一步查询词的拼音发现,字符c5是多音字,在当前标签集合中出现两个读音,分别是“chang-三声”和“zhang-四声”,最后在每个字词向量末尾添加相应的拼音向量,作为当前词的表示向量。所述读音加强字词向量的表示向量如下:
xc←[xc;e(B*,M*,E*,S*)]
其中:*表示词向量经过读音向量加强表示。
将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型;由于词频统计方式是分别统计的,各个词语的词频权重之和相加为1;但拼音占比权重的计算方式是按照当前词集内的字的发音来计算,会出现重复的情况,相加不一定为1。所以在结合二者之后,需要进一步转化,使之相加之和为 1来保证概率的有效分布。而Softmax可以将参数映射到[0,1]区间内,并且相加为1。在使用Softmax的基础上,再为词频和拼音占比分别设置一个参数,正如下述公式中,α、β这两个参数是可以设置的,可以预设两种不同维度的重视程度。若预知到当前语料多音字情况较少,可以将α设为较大的数值,若当前语料随机性较高且口语多,可以将β设定为较大的数值。
weigh t(w)=Softmax(α·frequency(w)*β·pronunciation(w))
α,β∈[0,1],α+β=1
将所述字词读音特征模型输入到第二神经网络中进行处理,得到所述电子病历的命名实体识别结果。所述第二神经网络为卷积网络,并由一层一维卷积核加上两层三维卷积核共三层组成。
本发明中,提出的字词读音融合特征模型,实现了字词表征具备更丰富的含义,提高命名实体识别效果的目的,而且具备迁移性,降低了模型构建的复杂工作程度,对于标注数据较少的领域进行命名实体识别任务,具有良好的电子病历的命名实体识别效果。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于字词读音融合特征模型的电子病历命名实体识别方法,其特征在于,包括以下步骤:
生成待识别命名实体的电子病历的字符序列对应的字符的字词向量的集合;
生成所述字符序列对应的读音向量;
将所述读音向量输入到第一神经网络进行处理,得到所述字符序列对应的读音加强字词向量;
将读音加强字词向量经过词频权重和读音权重处理融合生成字词读音特征模型;
将所述字词读音特征模型输入到第二神经网络中进行处理,得到所述电子病历的命名实体识别结果;
所述字词向量的集合为BMES集合,通过Soft-lexicon构造模型生成,生成“B”、“M”、“E”、“S”四个词集,并且BMES集合中的字词向量表示如下:
e(B,M,E,S)=[v(B)+v(M)+v(E)+v(S)]
其中:“B”集合保存当前字为词首字的单词列表;“M”集合保存当前字为词中间字的单词列表,“E”集合保存当前字为词尾字的单词列表,“S”集合保存当前字为单独字成词的单词列表;
所述读音加强字词向量的表示向量如下:
xc←[xc;e(B*,M*,E*,S*)]
其中:*表示字词向量经过读音向量加强表示;
再者,设置词频权重为α,读音权重为β;而词频权重和读音权重的处理融合如下述公式所示:
weight(w)=Softmax(α·frequency(w)*β·pronunciation(w));
α,β∈[0,1],α+β=1。
2.根据权利要求1所述的基于字词读音融合特征模型的电子病历命名实体识别方法,其特征在于:所述读音向量通过压缩的字母表法生成。
3.根据权利要求1所述的基于字词读音融合特征模型的电子病历命名实体识别方法,其特征在于:所述第一神经网络包括字符特征层、特征抽取层、标签解码层。
4.根据权利要求1所述的基于字词读音融合特征模型的电子病历命名实体识别方法,其特征在于:所述第二神经网络为卷积网络,并由一层一维卷积核加上两层三维卷积核共三层组成。
CN202110531278.1A 2021-05-12 2021-05-12 基于字词读音融合特征模型的电子病历命名实体识别方法 Active CN113139385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110531278.1A CN113139385B (zh) 2021-05-12 2021-05-12 基于字词读音融合特征模型的电子病历命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110531278.1A CN113139385B (zh) 2021-05-12 2021-05-12 基于字词读音融合特征模型的电子病历命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113139385A CN113139385A (zh) 2021-07-20
CN113139385B true CN113139385B (zh) 2024-05-14

Family

ID=76817187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110531278.1A Active CN113139385B (zh) 2021-05-12 2021-05-12 基于字词读音融合特征模型的电子病历命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113139385B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109446521A (zh) * 2018-10-18 2019-03-08 京东方科技集团股份有限公司 命名实体识别方法、装置、电子设备、机器可读存储介质
CN110298019A (zh) * 2019-05-20 2019-10-01 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质
CN112784603A (zh) * 2021-02-05 2021-05-11 北京信息科技大学 专利功效短语识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109446521A (zh) * 2018-10-18 2019-03-08 京东方科技集团股份有限公司 命名实体识别方法、装置、电子设备、机器可读存储介质
CN110298019A (zh) * 2019-05-20 2019-10-01 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质
CN112784603A (zh) * 2021-02-05 2021-05-11 北京信息科技大学 专利功效短语识别方法

Also Published As

Publication number Publication date
CN113139385A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN111694924B (zh) 一种事件抽取方法和系统
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN107748757B (zh) 一种基于知识图谱的问答方法
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN110232439B (zh) 一种基于深度学习网络的意图识别方法
CN110263325B (zh) 中文分词系统
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN109376775B (zh) 在线新闻多模态情感分析方法
CN110265098A (zh) 一种病例管理方法、装置、计算机设备及可读存储介质
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN108829823A (zh) 一种文本分类方法
CN108563725A (zh) 一种中文症状体征构成识别方法
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN117271780B (zh) 一种基于大语言模型自身对上下文进行压缩的方法及系统
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN115408495A (zh) 基于多模态检索和关键词提取的社交文本增强方法与系统
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN112699684A (zh) 命名实体识别方法和装置、计算机可读存储介质及处理器
CN113139385B (zh) 基于字词读音融合特征模型的电子病历命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant