CN109871544B - 基于中文病历的实体识别方法、装置、设备及存储介质 - Google Patents

基于中文病历的实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109871544B
CN109871544B CN201910229419.7A CN201910229419A CN109871544B CN 109871544 B CN109871544 B CN 109871544B CN 201910229419 A CN201910229419 A CN 201910229419A CN 109871544 B CN109871544 B CN 109871544B
Authority
CN
China
Prior art keywords
word
vector
chinese medical
entity
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910229419.7A
Other languages
English (en)
Other versions
CN109871544A (zh
Inventor
丁佳佳
曹灵宇
倪渊
谢国彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910229419.7A priority Critical patent/CN109871544B/zh
Publication of CN109871544A publication Critical patent/CN109871544A/zh
Application granted granted Critical
Publication of CN109871544B publication Critical patent/CN109871544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于中文病历的实体识别方法,属于自然语言处理领域。该方法包括:对中文病历进行分词;输出用于表征每个字在词组中位置的第一特征向量;识别出中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对;对应每个字输出用于表征比对结果的第二特征向量;将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后得到用于表征中文病历的向量集;将向量集输入训练好的模型以抽取其中的实体。本发明通过对中文病例中的文本内容抽取相应的特征转换成特征向量作为模型的输入,以提高模型对实体识别的准确率。

Description

基于中文病历的实体识别方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,涉及一种基于中文病历的实体识别方法、装置、设备及存储介质。
背景技术
目前对于命名实体识别在病例上的应用的需求很大,比如对病例的查询、搜索、整理等,以实现构建医疗知识库、医疗知识图谱以及推进医疗自动问答等目的。
现有基于深度学习的中文命名实体识别的效果很难提升,而且之前都是应用在其他语言上,比如英语。因为深度学习模型的限制和各个语言间语言特性的不同,这使命名实体任务在中文上的应用受到了限制。又因为通用领域、其他领域与医疗领域之间的差异,使其在医疗领域中病例的方向上的应用有所限制。
发明内容
本发明要解决的技术问题是为了克服现有技术中基于深度学习的中文命名实体识别准确率不高的问题,提出了一种基于中文病历的实体识别方法、装置、设备及存储介质,通过对中文病例中的文本内容抽取相应的特征转换成特征向量,然后将特征向量作为模型的输入,以提高实体识别的准确率。
本发明是通过下述技术方案来解决上述技术问题:
一种基于中文病历的实体识别方法,包括以下步骤:
使用分词工具对所述中文病历进行分词;
以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量;
识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁;
根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量;
将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,最终得到用于表征所述中文病历的向量集;
将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
优选地,所述第一对应规则包括:
所述特征向量的长度为4,所述特征向量包括四个维度的向量值;
所述特征向量的前三个维度用于表征包含所述词组为非单字词组,其中第一个维度的向量值的改变用于表征位于所述词组中首位的字,第二个维度的向量值的改变用于表征位于所述词组中中间的字,第三个维度的向量值的改变用于表征位于所述词组中末尾的字;
所述特征向量的第四个维度用于表征所述词组为单字词组,所述第四个维度的向量值的改变用于表征单字词组中的字。
优选地,所述识别出所述中文病历中每个字的偏旁具体包括以下步骤:
将所述中文病历中的每个字与预设的偏旁字典进行匹配,输出匹配到的偏旁,所述偏旁字典包含所有中文字与对应偏旁的关联关系。
优选地,所述第二对应规则包括:
所述特征向量的长度等于预设的实体偏旁的数量;
所述特征向量中每一维度对应一个所述实体偏旁;
所述特征向量通过所述实体偏旁对应维度的向量值的改变表征对应的所述实体偏旁。
优选地,所述第二对应规则包括:
所述特征向量的长度为1;
所述特征向量通过不同的向量值对应表征不同所述实体偏旁。
优选地,所述使用分词工具对所述中文病历进行分词之前还包括以下步骤:
通过章节标签识别出所述中文病历中关于诊疗方面的内容;
所述分词和所述偏旁的识别仅针对所述关于诊疗方面的内容。
本发明还公开了一种基于中文病历的实体识别装置,包括:
分词模块,用于使用分词工具对所述中文病历进行分词;
第一特征向量生成模块,用于以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量;
偏旁识别和比对模块,用于识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁;
第二特征向量生成模块,用于根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量;
向量集生成模块,用于将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,最终得到用于表征所述中文病历的向量集;
实体识别模型,用于将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
优选地,所述装置还包括:章节识别模块,用于通过章节标签识别出所述中文病历中关于诊疗方面的内容;
所述分词模块仅对所述关于诊疗方面的内容进行分词;
所述偏旁识别和比对模块仅对所述关于诊疗方面的内容进行识别和比对。
本发明还公开了一种计算机设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现前述基于中文病历的实体识别方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以实现前述基于中文病历的实体识别方法的步骤
本发明的积极进步效果在于:通过先识别出中文病历中的实体转换成特征向量,然后将中文病历整体转换成的向量集作为模型的输入,以提高模型对实体抽取的准确率,有助于深入挖掘中文电子病历文本中的医疗信息,从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答等。
附图说明
图1示出了本发明基于中文病历的实体识别方法实施例一的流程图;
图2示出了本发明基于中文病历的实体识别方法实施例二的流程图;
图3示出了本发明基于中文病历的实体识别装置第一实施例的结构图;
图4示出了本发明基于中文病历的实体识别装置第二实施例的结构图;
图5示出了本发明计算机设备一实施例的硬件架构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
首先,本发明提出一种基于中文病历的实体识别方法。
在实施例一中,如图1所示,所述的基于中文病历的实体识别方法包括如下步骤:
步骤01:使用分词工具对所述中文病历进行分词。
由于是针对中文病历,因此分词工具也对应采用中文分词工具,这里所述分词工具都是现有的,常见的有jieba、SnowNLP、THULAC、NLPIR等,不再详述。
通过分词把句子中的单个字、词区分出来,也可以把标点分出来,以便后续实体的识别。
利用分词工具对病历进行分词,以对病历内容“直肠腹膜返折上方未及肿块,结合术前肠镜及病理术中诊断为直肠肛管癌,决定行Miles术”分词为例,经过分词得到“直肠腹膜/返折/上方/未及/肿块/,/结合/术前/肠镜/及/病理/术中诊断/为/直肠肛管癌/,/决定/行/Miles术/”。
步骤02:以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量。
所述第一对应规则具体为:所述特征向量的长度为4,特征向量包括四个维度的向量值;所述特征向量的前三个维度用于表征所述词组为非单字词组,其中第一个维度的向量值的改变用于表征位于所述词组中首位的字,第二个维度的向量值的改变用于表征位于所述词组中中间的字,第三个维度的向量值的改变用于表征位于所述词组中末尾的字;所述特征向量的第四个维度用于表征所述词组为单字词组,所述第四个维度的向量值的改变用于表征单字词组中的字。
以四字词组“直肠腹膜”为例,每个字对应有一个初始的特征向量,根据第一对应规则,特征向量的长度为4,因此这里每个字对应的初始的特征向量均为[0,0,0,0]。由于词组“直肠腹膜”为四字词组,因此仅用到特征向量的前三个维度。“直”位于该词组的首位,则相应改变初始的特征向量中第一个维度的向量值(由0改为1),即“直”的特征向量为[1,0,0,0];“肠”和“腹”均位于该词组的中间位置,因此这两个字的特征向量相同,都相应改变初始的特征向量中第二个维度的向量值(由0改为1),即“肠”和“腹”的特征向量均为[0,1,0,0];“膜”位于该词组的末位,则相应改变初始的特征向量中第三个维度的向量值(由0改为1),,即“膜”的特征向量为[0,0,1,0]。
以单字词组“及”为例,该字对应的初始的特征向量也为[0,0,0,0],由于是单子词组,仅用到特征向量的第四个维度,即改变初始的特征向量中第四个维度的向量值(由0改为1),得到“及”的特征向量为[0,0,0,1]。
步骤03:识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁。
本步骤中关于字的偏旁的识别需要借助字典,具体地,预设有一个包含有所有中文字与对应偏旁的关联关系的偏旁字典,将所述中文病历中的每个字与预设的偏旁字典进行匹配,输出匹配到的偏旁。
跟实体识别有关的偏旁也是需要预设的,根据具体需要可以设置多个,比如最有效的两种实体偏旁分别是病字框(“疒”)和月字旁(“月”),那么可以预设这两个实体偏旁,当然,根据需要也可以添加其他偏旁作为实体偏旁,比如(竹字头“”、骨字旁“骨”)等。
具体识别时,先通过偏旁字典识别出每个中文字的偏旁,然后将这些识别出的偏旁与预设的实体偏旁进行一一比对,若匹配到,就输出具体匹配到的实体偏旁,比如“直肠腹膜”,其中后三个字均为月字旁(“月”),而预设的实体偏旁包括月字旁(“月”),那么对应这三个字输出的比对结果均为“月”。
步骤04:根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量。
所述第二对应规则可能有两种:
第一种,所述特征向量的长度等于预设的实体偏旁的数量;所述特征向量中每一维度对应一个所述实体偏旁;所述特征向量通过所述实体偏旁对应维度的向量值的改变表征对应的所述实体偏旁。
以预设的实体偏旁包括病字框(“疒”)和月字旁(“月”)两种为例,对应特征向量的长度即为2,对应初始的特征向量为[0,0],其中第一个维度的向量值的改变用于表征病字框(“疒”),第二个维度的向量值的改变用于表征月字旁(“月”)。那么,针对“直肠腹膜”中的后三个字都是月字旁(“月”),相应的第二特征向量均是相同的[0,1],针对“直肠腹膜”中的第一个字“直”既不是月字旁(“月”)也不是病字框(“疒”),那么该字的第二特征向量即为初始特征向量[0,0];而针对“病理”中的“病”字为病字框(“疒”),那么相应的第二特征向量为[1,0]。
若预设的实体偏旁还包括竹字头(“”)和骨字旁(“骨”),那么对应特征向量的长度即为4,对应初始的特征向量为[0,0,0,0],还可以预设更多的实体偏旁,依次类推,不再赘述。
第二种,所述特征向量的长度为1;所述特征向量通过不同的向量值对应表征不同所述实体偏旁。
仍以预设的实体偏旁包括病字框(“疒”)和月字旁(“月”)两种为例,由于特征向量的长度固定为1,对应初始的特征向量为[0],用不同的向量值1,2分别对应表征病字框(“疒”)和月字旁(“月”)。那么,针对“直肠腹膜”中的后三个字都是月字旁(“月”),相应的第二特征向量均是相同的[2],针对“直肠腹膜”中的第一个字“直”既不是月字旁(“月”)也不是病字框(“疒”),那么该字的第二特征向量即为初始特征向量[0];而针对“病理”中的“病”字为病字框(“疒”),那么相应的第二特征向量为[1]。
若预设的实体偏旁还包括竹字头(“”)和骨字旁(“骨”),对应初始的特征向量为[0],用不同的向量值1,2,3,4分别对应表征病字框(“疒”)、月字旁(“月”)、竹字头(“”)和骨字旁(“骨”),还可以预设更多的实体偏旁,依次类推,不再赘述。
步骤05:将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,最终得到用于表征所述中文病历的向量集。
所述初始向量是中文病历在预处理时给病历中每个字的定义,比如每个字的初始向量定义为[0],所述第一特征向量和第二特征向量按预设的拼接顺序进行拼接,可以是先拼接第一特征向量,后拼接第二特征向量,反之亦可。
以词组“直肠腹膜”为例,该词组中每个字的初始向量均为[0],对应词组“直肠腹膜”中每个字的第一特征向量依次为[1,0,0,0][0,1,0,0][0,1,0,0][0,0,1,0],对应词组“直肠腹膜”中每个字的第二特征向量依次为[0,0][0,1][0,1][0,1](第一种第二对应规则)或者[0][1][1][1](第二种第二对应规则),那么按先拼接第一特征向量,后拼接第二特征向量的拼接顺序,得到该词组对应的向量集为[0,1,0,0,0,0,0][0,0,1,0,0,0,1][0,0,1,0,0,0,1][0,0,0,1,0,0,1]或者[0,1,0,0,0,0][0,0,1,0,0,1][0,0,1,0,0,1][0,0,0,1,0,1]。
步骤06:将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
这里所述模型是指深度神经网络模型,例如双向LSTM+CRF,也可以是传统的机器学习模型。
模型训练时,给模型定义输入向量和对应的输出值,模型经过训练后,一旦识别到输入的向量集中包含某段特定的向量值,模型就可以识别出特定的实体特征。例如输入向量集[0,1,0,0,0,0,0][0,0,1,0,0,0,1][0,0,1,0,0,0,1][0,0,0,1,0,0,1],根据每个特征向量中第二个维度至第五个维度的四个向量值,可以识别出这四个特征向量表征的四个字为一个词组;再根据每个特征向量中第六个维度和第七个维度的两个向量值,可以识别出这个词组中的后三个字为月字偏旁,而月字偏旁为最有效的实体偏旁,所以可以比较准确地识别出这个四字词组是与实体相关的词组,以此有效提高模型对实体抽取的准确率,最终模型可以准确的输出与医疗信息有关的词组,例如输入前面的向量集,模型最终输出的是“直肠腹膜”这一与医疗信息有关的四字词组。这样有助于深入挖掘中文电子病历文本中的医疗信息,从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答等。
在实施例二中,如图2所示,所述的基于中文病历的实体识别方法包括如下步骤:
步骤00:通过章节标签识别出所述中文病历中关于诊疗方面的内容。
这里所述中文病历是指电子中文病历,这种电子中文病历通常都会包含若干章节,这些章节分别用来描述病人基本信息、诊断内容、检验结果、诊疗过程、出院医嘱、治疗结果等,在每个章节的开头一般都会采用章节标签进行标识区分。因此,可以通过章节标签识别出中文病历中关于诊疗方面的内容。
步骤01:使用分词工具对所述中文病历中关于诊疗方面的内容进行分词。
由于实体存在于中文病历的特定部分内容中,比如病人基本信息中就不可能包含实体内容,因此通过步骤00先将与实体无关的内容先剔除掉,以缩小后续分词、偏旁识别、比对的范围。
这里分词仅针对关于诊疗方面的内容,具体的分词方法同实施例一。
步骤02:以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量。同实施例一,不再赘述。
步骤03:识别出所述中文病历中关于诊疗方面的内容中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁。
这里的偏旁识别与比对仅针对关于诊疗方面的内容,具体的识别与比对方法同实施例一。
步骤04:根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量。同实施例一,不再赘述。
步骤05:将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,最终得到用于表征所述中文病历的向量集。同实施例一,不再赘述。
前述步骤01至步骤04仅针对中文病历中关于诊疗方面的内容,对应中文病历中其他部分内容中的每个字的第一特征向量和第二特征向量均采用初始的特征向量即可。针对中文病历中关于诊疗方面的内容对应的向量集的产生同实施例一,不再赘述。
步骤06:将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。同实施例一,不再赘述。
其次,本发明提出了一种基于中文病历的实体识别装置,所述装置20可以被分割为一个或者多个模块。
例如,图3示出了所述基于中文病历的实体识别装置20第一实施例的结构图,该实施例中,所述装置20可以被分割为分词模块201、第一特征向量生成模块202、偏旁识别和比对模块203、第二特征向量生成模块204、向量集生成模块205和实体识别模型206。以下描述将具体介绍所述模块201-206的具体功能。
所述分词模块201用于使用分词工具对所述中文病历进行分词;
所述第一特征向量生成模块202用于以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量;
所述偏旁识别和比对模块203用于识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁;
所述第二特征向量生成模块204用于根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量;
所述向量集生成模块205用于将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,最终得到用于表征所述中文病历的向量集;
所述实体识别模型206用于将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
又例如,图4示出了所述基于中文病历的实体识别装置20第二实施例的结构图,该实施例中,所述基于中文病历的实体识别装置20还可以被分割为分词模块201、第一特征向量生成模块202、偏旁识别和比对模块203、第二特征向量生成模块204、向量集生成模块205、实体识别模型206和章节识别模块207。
其中,模块201-206同第一实施例,此处不再赘述,但是所述分词模块201仅对所述关于诊疗方面的内容进行分词;所述偏旁识别和比对模块203仅对所述关于诊疗方面的内容进行识别和比对。
所述章节识别模块207用于通过章节标签识别出所述中文病历中关于诊疗方面的内容。
再次,本发明还提出来一种计算机设备。
参阅图5所示,是本发明计算机设备一实施例的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22以及网络接口23。其中:
所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述计算机设备2的操作系统和各类应用软件,例如用于实现所述基于中文病历的实体识别方法的计算机程序等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述计算机设备2的总体操作,例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行用于实现所述基于中文病历的实体识别方法的计算机程序等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他计算机设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图5仅示出了具有组件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
在本实施例中,存储于存储器21中的用于实现所述基于中文病历的实体识别方法的计算机程序可以被一个或多个处理器(本实施例为处理器22)所执行,以完成以下步骤的操作:
步骤01:使用分词工具对所述中文病历进行分词;
步骤02:以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量;
步骤03:识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁;
步骤04:根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量;
步骤05:将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,最终得到用于表征所述中文病历的向量集;
步骤06:将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
此外,本发明一种计算机可读存储介质,所述计算机可读存储介质为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以实现上述基于中文病历的实体识别方法或装置的操作。
其中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如前述用于实现所述基于中文病历的实体识别方法的计算机程序等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (9)

1.一种基于中文病历的实体识别方法,其特征在于,包括以下步骤:
使用分词工具对所述中文病历进行分词;
以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量;每个所述第一特征向量的长度相同;
识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁;
根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量;每个所述第二特征向量的长度相同;其中所述第二对应规则包括:所述特征向量的长度等于预设的实体偏旁的数量;所述特征向量中每一维度对应一个所述实体偏旁;所述特征向量通过所述实体偏旁对应维度的向量值的改变表征对应的所述实体偏旁;
将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,按每个字在所述中文病历中的顺序将表征每个字的向量依次排列,最终得到用于表征所述中文病历的向量集;其中所述表征每个字的向量的长度相同;
将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体;具体包括以下步骤:根据预设的每个字的向量的长度识别出所述向量集中用于表征每个字的向量,然后根据预设第一对应规则、第二对应规则以及拼接顺序,识别出表征实体特征的向量以抽取对应的实体。
2.根据权利要求1所述的基于中文病历的实体识别方法,其特征在于,所述第一对应规则包括:
所述特征向量的长度为4,所述特征向量包括四个维度的向量值;
所述特征向量的前三个维度用于表征所述词组为非单字词组,其中第一个维度的向量值的改变用于表征位于所述词组中首位的字,第二个维度的向量值的改变用于表征位于所述词组中中间的字,第三个维度的向量值的改变用于表征位于所述词组中末尾的字;
所述特征向量的第四个维度用于表征所述词组为单字词组,所述第四个维度的向量值的改变用于表征单字词组中的字。
3.根据权利要求1所述的基于中文病历的实体识别方法,其特征在于,所述识别出所述中文病历中每个字的偏旁具体包括以下步骤:
将所述中文病历中的每个字与预设的偏旁字典进行匹配,输出匹配到的偏旁,所述偏旁字典包含所有中文字与对应偏旁的关联关系。
4.根据权利要求1所述的基于中文病历的实体识别方法,其特征在于,所述第二对应规则包括:
所述特征向量的长度为1;
所述特征向量通过不同的向量值对应表征不同所述实体偏旁。
5.根据权利要求1所述的基于中文病历的实体识别方法,其特征在于,所述使用分词工具对所述中文病历进行分词之前还包括以下步骤:
通过章节标签识别出所述中文病历中关于诊疗方面的内容;
所述分词和所述偏旁的识别仅针对所述关于诊疗方面的内容。
6.一种基于中文病历的实体识别装置,其特征在于,包括:
分词模块,用于使用分词工具对所述中文病历进行分词;
第一特征向量生成模块,用于以分词后得到的词组为单位,根据单个字在所述词组中的位置与特征向量的第一对应规则,输出用于表征每个字在词组中位置的第一特征向量;每个所述第一特征向量的长度相同;
偏旁识别和比对模块,用于识别出所述中文病历中每个字的偏旁,将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果,所述比对结果包括不匹配和匹配到的实体偏旁;
第二特征向量生成模块,用于根据偏旁与特征向量的第二对应规则,对应每个字输出用于表征所述比对结果的第二特征向量;每个所述第二特征向量的长度相同;其中所述第二对应规则包括:所述特征向量的长度等于预设的实体偏旁的数量;所述特征向量中每一维度对应一个所述实体偏旁;所述特征向量通过所述实体偏旁对应维度的向量值的改变表征对应的所述实体偏旁;
向量集生成模块,用于将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后,按每个字在所述中文病历中的顺序将表征每个字的向量依次排列,最终得到用于表征所述中文病历的向量集;其中所述表征每个字的向量的长度相同;
实体识别模型,用于将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体;具体包括以下步骤:根据预设的每个字的向量的长度识别出所述向量集中用于表征每个字的向量,然后根据预设第一对应规则、第二对应规则以及拼接顺序,识别出表征实体特征的向量以抽取对应的实体。
7.根据权利要求6所述的基于中文病历的实体识别装置,其特征在于,还包括:章节识别模块,用于通过章节标签识别出所述中文病历中关于诊疗方面的内容;
所述分词模块仅对所述关于诊疗方面的内容进行分词;
所述偏旁识别和比对模块仅对所述关于诊疗方面的内容进行识别和比对。
8.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的基于中文病历的实体识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以实现如权利要求1-5中任一项所述的基于中文病历的实体识别方法的步骤。
CN201910229419.7A 2019-03-25 2019-03-25 基于中文病历的实体识别方法、装置、设备及存储介质 Active CN109871544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910229419.7A CN109871544B (zh) 2019-03-25 2019-03-25 基于中文病历的实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910229419.7A CN109871544B (zh) 2019-03-25 2019-03-25 基于中文病历的实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109871544A CN109871544A (zh) 2019-06-11
CN109871544B true CN109871544B (zh) 2023-04-25

Family

ID=66921192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910229419.7A Active CN109871544B (zh) 2019-03-25 2019-03-25 基于中文病历的实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109871544B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659639B (zh) * 2019-09-24 2021-11-05 北京字节跳动网络技术有限公司 汉字识别方法、装置、计算机可读介质及电子设备
CN111126077B (zh) * 2019-12-30 2023-04-25 东软集团股份有限公司 判断医疗术语一致的方法、装置、存储介质及处理器
CN111192692B (zh) * 2020-01-02 2023-12-08 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108829681B (zh) * 2018-06-28 2022-11-11 鼎富智能科技有限公司 一种命名实体提取方法及装置
CN109388807B (zh) * 2018-10-30 2021-09-21 中山大学 电子病历命名实体识别的方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Also Published As

Publication number Publication date
CN109871544A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
US10650192B2 (en) Method and device for recognizing domain named entity
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
CN110162782B (zh) 基于医学词典的实体提取方法、装置、设备及存储介质
CN110795911B (zh) 在线文本标签的实时添加方法、装置及相关设备
WO2021151270A1 (zh) 图像结构化数据提取方法、装置、设备及存储介质
CN109871544B (zh) 基于中文病历的实体识别方法、装置、设备及存储介质
CN110162784B (zh) 中文病历的实体识别方法、装置、设备及存储介质
EP3819808A1 (en) Text sequence segmentation method and device, and storage medium thereof
CN111814465A (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN112579727B (zh) 文档内容的提取方法、装置、电子设备及存储介质
CN113360699A (zh) 模型训练方法和装置、图像问答方法和装置
CN110866115A (zh) 序列标注方法、系统、计算机设备及计算机可读存储介质
CN110750977A (zh) 一种文本相似度计算方法及系统
CN114220505A (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
CN110442843B (zh) 字符替换方法、系统、计算机设备及计算机可读存储介质
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN111144345A (zh) 字符识别方法、装置、设备及存储介质
CN114357996B (zh) 时序文本特征提取方法、装置、电子设备及存储介质
CN109446217A (zh) 数据方法、电子装置及计算机可读存储介质
CN110866390B (zh) 中文语法错误的识别方法、装置、计算机设备和存储介质
CN114064906A (zh) 情感分类网络训练方法以及情感分类方法
CN110046349A (zh) 基于中文病历的信息识别方法、装置、设备及存储介质
WO2021056740A1 (zh) 语言模型构建方法、系统、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant