CN111444717A - 医学实体信息的抽取方法、装置、存储介质及电子设备 - Google Patents
医学实体信息的抽取方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111444717A CN111444717A CN201811624699.3A CN201811624699A CN111444717A CN 111444717 A CN111444717 A CN 111444717A CN 201811624699 A CN201811624699 A CN 201811624699A CN 111444717 A CN111444717 A CN 111444717A
- Authority
- CN
- China
- Prior art keywords
- text
- entity information
- medical entity
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开属于计算机技术领域,涉及一种医学实体信息的抽取方法、装置、计算机存储介质和电子设备。该方法包括:获取文本,对所述文本进行预处理以形成文本向量;将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。一方面通过多个不同的模型分别处理相同的文本向量,获取其中的医学实体信息,能够提高召回率和准确率;另一方面,通过精准提取医学实体信息能够提高文本的结构化,进而提高了电脑系统的处理效率,减少了人工标注实体和根据实体进行业务的时间消耗和成本消耗。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备。
背景技术
随着计算机科学领域和人工智能领域的蓬勃发展,命名实体识别成为自然语言处理领域中的一个重点研究问题。命名实体是目标文本中基本的信息元素,是正确理解目标文本的基础;命名实体识别是指从文本中识别出相关实体,并标注出其位置以及类型。
目前,对文本中的命名实体进行识别的方法主要是人工标注实体信息,基于规则和词典的方法、基于统计的方法或者是基于机器模型的方法进行实体识别,然而由于上述识别方法均存在相应的不足,使得实体信息抽取的召回率和准确率较低。以对保险理赔文本中的医学实体信息的抽取为例,人工标注的效率无法满足业务发展需求,而通过规则、词典、模型抽取实体信息时,对于同一医学实体可能存在多个不同的名称,不同的医务工作者在撰写医学文本时对同一医学实体可能采用不同的简称等情况,可能不能准确识别保险理赔文本中的医学实体信息,进而导致医学实体信息抽取的召回率和准确率较低。
因此,本领域需要一种新的医学实体信息的抽取方法和装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的医学实体信息提取的召回率和准确率低的问题。
根据本公开的一个方面,提供一种医学实体信息的抽取方法,包括:
获取文本,对所述文本进行预处理以形成文本向量;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
在本公开的示例性实施例中,获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述文本的字符长度;
将所述文本的字符长度与第一预设值进行比较;
根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;
将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。
在本公开的示例性实施例中,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;
若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。
在本公开的示例性实施例中,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
将所述第二文本中的数字和英文字符用特殊字符替换。
在本公开的示例性实施例中,所述多个模块包括第一模型、第二模型、第三模型和第四模型;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息,包括:
从所述文本向量中提取各个文字的特征信息,将各所述文字和各所述文字的特征信息输入至所述第一模型中,通过所述第一模型根据各所述文字的特征信息对各所述文字进行标注,以获取所述文本向量中的第一医学实体信息;
将所述文本向量输入至所述第二模型,通过所述第二模型对所述文本向量中的文字进行序列标注,以获取所述文本向量中的第二医学实体信息;
将所述文本向量输入至所述第三模型,通过所述第三模型根据预设规则对所述文本向量进行实体抽取,以获得所述文本向量中的第三医学实体信息;并且,
将所述文本向量输入至所述第四模型,通过所述第四模型将所述文本向量与预设字典进行匹配,以获取所述文本向量中的第四医学实体信息。
在本公开的示例性实施例中,所述第一模型为条件随机场模型,所述第二模型为双向长短期记忆网络-条件随机场模型,所述第三模型为规则模型,所述第四模型为字典模型。
在本公开的示例性实施例中,将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息,包括:
将所述第一医学实体信息、所述第二医学实体信息、所述第三医学实体信息和所述第四医学实体信息融合,以获取融合医学实体信息;
去除所述融合医学实体信息中重复的医学实体信息,以获取所述目标医学实体信息。
在本公开的示例性实施例中,在将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息之前,所述方法还包括:
获取训练数据集,并对所述训练数据集进行人工标注,以获取与所述训练数据集对应的标注数据集;
根据所述训练数据集和所述标注数据集对所述多个不同的模型进行训练。
根据本公开的一个方面,提供一种医学实体信息的抽取装置,包括:
文本向量化模块,用于获取文本,对所述文本进行预处理以形成文本向量;
实体信息获取模块,用于将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
实体信息处理模块,用于将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的实体抽取的方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的实体抽取的方法。
本公开通过多个不同的模型分别处理相同的文本向量,获取该文本向量中的医学实体信息,然后将获得的医学实体信息进行融合和去重,以获取目标医学实体信息。本公开一方面通过多个不同的模型分别处理相同的文本向量,获取其中的医学实体信息,能够提高召回率和准确率;另一方面,通过精准提取医学实体信息能够提高文本的结构化,进而提高了电脑系统的处理效率,减少了人工标注实体和根据实体进行业务的时间消耗和成本消耗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出一种医学实体信息的抽取方法的流程示意图;
图2示意性示出一种医学实体信息的抽取方法的应用场景示例图;
图3示意性示出一种文本预处理的流程示意图;
图4示意性示出一种第二文本中文字处理的流程示意图;
图5示意性示出一种医学实体信息的融合和去重的流程示意图;
图6示意性示出一种医学实体信息的抽取装置的结构示意图;
图7示意性示出一种用于实现上述医学实体信息的抽取方法的电子设备示例框图;
图8示意性示出一种用于实现上述医学实体信息的抽取方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本领域的相关技术中,命名实体是目标文本中基本的信息元素,是正确理解目标文本的基础,实体一般分为三类:人名、地名、机构名,比如在医疗领域,需要对病历文本进行实体提取,根据提取到的医学实体信息构建医学知识图谱;在人身保险领域,需要对投保人的既往理赔结论进行医学实体信息的抽取,确定投保人是否有过出险的情况,以及每次的理赔审核结论具体是通过还是拒绝,并根据获取的医学实体信息对投保人的投保申请进行审核。
抽取医学实体信息的过程可以看作是文本结构化的过程,目前文本结构化的方法大多依赖于人工规则,例如根据文本特点配置切分规则,将切分规则划分为多个等级,执行完第一级切分规则以后再执行第二级切分规则,从而实现不同类型的文本结构化;或者从文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息,对模板信息进行提取,包括短句切分和指标名提取,短句分类,计算每个指标名在短句语料中的TF值(termfrequency,词频)、IDF值(inverse document frequency,逆向文档频率)和C-Value值。
但是按人工规则进行文本信息的抽取存在以下问题:(1)规则的制定较为复杂。规则的内容,规则的等级划分往往需要大量前期调研和讨论,耗时耗力;(2)对于自然语言的文本,由于语句的多样性,有限的规则无法覆盖所有语言特点,造成信息抽取的大量遗漏;(3)由于规则众多,信息抽取算法的流程较长,运行低效;(4)规则导向的文本结构化方法不利于长期维护,规则更新往往牵一发而动全身,造成其他规则的失效。
针对相关技术中存在的问题,本示例实施方式中首先提供了一种医学实体信息的抽取方法,该医学实体信息的抽取方法可以运行于服务器,也可以运行于服务器集群或云服务器等,当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该医学实体信息的抽取方法可以包括以下步骤:
步骤S110.获取文本,对所述文本进行预处理以形成文本向量;
步骤S120.将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
步骤S130.将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
本公开一方面通过多个不同的模型对相同的文本向量进行医学实体信息抽取,然后将抽取到的医学实体信息进行融合和去重,能够提高医学实体信息抽取的召回率和准确率;另一方面能够避免人工对文本向量中的医学实体信息进行抽取,减少了人力成本,提高了实体抽取的效率。
为了使本公开的技术方案更清晰,接下来以对人身保险申请的审核为例,根据图2示出的结构对本公开的医学实体信息的抽取方法的各个步骤进行说明:
在步骤S110中,获取保文本,对所述文本进行预处理以形成文本向量。
人身保险是以人的生命或身体为保险标的,在被保险人的生命或身体发生保险事故或保险期满时,依照保险合同的规定,由保险人向被保险人或受益人给付保险金的保险形式。保险公司在接受客户投保申请时,需要进行核保,保险公司需要根据客户的健康、财务、职业等信息,针对所投保的险种进行风险评估与风险选择。核保包括自动核保和人工核保两类,当投保人在投保前无身体异常,也没有在医院留下住院、疾病记录,则电脑系统自动核保通过,否则进入人工核保流程。在核保实务中,若投保人具有既往理赔史,往往自核不通过,进入人工核保流程,这时保险公司的核保员需要翻阅、了解既往理赔审核结论,得到投保人的既往疾病史,再对照核保手册进行核保。但是随着业务量的快速增长,人工核保的效率无法满足业务发展需求,保险公司迫切需要提高自核率。一种可以提高自核率的方法是从理赔审核结论中自动抽取疾病信息,对于轻微疾病,可以直接经自动核保通过,而不必转入人工流程。其中疾病信息具体可以是疾病名称。
在本公开的示例性实施例中,获取的文本具体可以是既往的理赔小结。既往的理赔小结可以是核保员通过与终端设备201外部连接的输入设备(如:键盘、鼠标等设备)输入至终端设备201中的,也可以是通过终端设备201中内置的输入设备(如:软键盘等)输入至终端设备201中的,进一步的,该既往的理赔小结还可以是核保员手工填写的理赔小结,然后通过与终端设备201外部连接的扫描设备(如:打印机、照相机、扫描机等)将理赔小结中的信息转换为电信号,然后将电信号传输至终端设备201中的,本公开对形成既往的理赔小结的方式不做具体限定。既往的理赔小结可以存储于终端设备201中的设定路径中,也可以存储于一存储服务器中,在需要对既往的理赔小结进行疾病信息的抽取时,可以通过服务器202从终端设备201的设定路径或存储服务器中获取所需的既往的理赔小结。在本公开的实施例中,理赔小结包括事故描述和审核意见,事故描述和审核意见具体可以包含投保人出险的原因,出险的过程,事故造成的伤害、症状,现病史,既往史和核赔结论,举例而言,理赔小结可以是具有下述形式的内容:投保人xxx于2016-12-21为xx投保《xx人寿附加账户式意外伤害医疗保险A款》10000.00元,于2016-12-22保单生效。被保险人无既往理赔。本次被保险人xx,于2017-02-04因锁骨骨折医疗。经调查核实,病史记载投保前10余年胆囊息肉切除手术史,高血压10年余,无医疗险,不评。审核理赔资料未见异常,本次属于保险责任范围,予以正常给付。本次账单金额58830.75元,其中自付金额111.80元,自费金额5437.10元,自付药费89.56元,自费药费1241.79元,社保(或其他途径报销)已报销34522.5元。根据xx人寿附加账户式意外伤害医疗保险A款条款约定,给付医疗保险金10000.00元。
在本公开的示例性实施例中,在获取到既往的理赔小结后,可以对其进行预处理以去除噪音,进而提高后续的模型处理的处理效率。图3示出了文本预处理的流程示意图,如图3所示,在步骤S301中,统计文本的字符长度;在本公开的实施例中理赔小结中的事故描述和审核意见可以视为两个文本,分别统计事故描述和审核意见中的字符长度,例如当审核意见为“自核不通过”时,其对应的字符长度为5;在步骤S302中,将文本的字符长度与第一预设值进行比较;为了提高实体抽取的效率,可以将不包含实体的保险理赔文本删除掉,因此可以将保险理赔文本的长度和第一预设值进行比较,该第一预设值可以是根据实际需要进行设定的,例如可以设置为5个、10个等,通常不包含疾病信息的文本字符数较少,因此第一预设值不需设置过大;在步骤S303中,根据比较结果,去除字符长度小于第一预设值的第一文本,保留字符长度大于或等于第一预设值的第二文本;具体地,可以将理赔小结的字符长度逐个与第一预设值进行比较,当理赔小结的字符长度小于第一预设值时,删除该理赔小结;当理赔小结的字符长度大于或等于第一预设值时,保留该理赔小结;在步骤S304中,将第二文本进行编码,以对第二文本进行向量化,形成文本向量;在本公开的实施例中,可以将第二文本中的文字与不同的ID进行映射,保证每个文字对应唯一的ID,以对第二文本进行向量化,形成文本向量。
在本公开的示例性实施例中,在图3所示的文本预处理的流程的基础上,在对第二文本进行编码,以对第二文本进行向量化,形成文本向量之前,还可以对第二文本中的文字进行处理,以进一步提高后续的模型处理的处理效率。图4示出了第二文本中文字处理的流程示意图,如图4所示,在步骤S401中,统计第二文本中的每个文字出现的频率,并将该频率与第二预设值进行比较;其中该第二预设值也可以根据实际需要进行设定,例如设置为3、5等等;在步骤S402中,若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字;由于理赔小结是围绕相关疾病信息来撰写的,因此疾病信息的出现频率较高,若存在字频小于第二预设值的文字,说明该文字属于疾病信息的可能性很小,因而可以删除频率小于第二预设值的文字,只保留频率大于或等于第二预设值的文字。
进一步的,为了提高提取疾病信息的效率,可以将保险理赔文本中的数字、英文字符等信息采用特殊字符进行替代,例如将数字用<num>代替,将英文用<eng>代替,将时间用<time>代替。对于上文示出的理赔文本中,可以将文本中的数字1241.79元、58830.75元、111.80元、5437.10元、89.56元、10000.00元、1241.79元、34522.5元代替为<num>元;将文本中的时间2016-12-21、2017-02-04代替为<time>。
在步骤S120中,将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息。
在本公开的示例性实施例中,在对文本进行预处理,形成文本向量后,可以将文本向量输入至多个不同的模型中,通过多个不同的模型对文本向量进行医学实体抽取,以获取文本向量中的医学实体信息。该多个不同的模型可以包括第一模型、第二模型、第三模型和第四模型,并且第一模型、第二模型、第三模型和第四模型的类型以及抽取实体的方法均不同,通过第一模型、第二模型、第三模型和第四模型对相同的文本向量进行医学实体抽取,能够提高医学实体信息抽取的召回率和准确率。
在本公开的示例性实施例中,第一模型具体可以是条件随机场(conditionalrandom fields,CRF)模型,条件随机场模型是条件概率分布模型,表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的概率P(Y|X),其假设是输出随机变量构成马尔可夫随机场,常用于分析序列资料。条件随机场运用于序列标注问题主要包括两个方面:一是预测,已知模型参数和某一特定输出序列,求最后时刻各个隐含状态的概率分布;二是解码,已知模型参数,寻找最可能的能产生某一特定输出序列的隐含状态的序列。在本公开的实施例中,在通过条件随机场抽取理赔小结中的疾病信息前,先抽取理赔小结中的文字的特征信息,该文字的特征信息具体是每一个文字的语境,该语境可以是该文字的前1个字、前2个字、后1个字和后2个字的信息,从而构建保险理赔文本的特征,将文字和文字的特征信息输入至条件随机场模型中,通过条件随机场根据文字的特征信息对文字进行标注,以获取文本向量中的第一医学实体信息。条件随机场模型对保险理赔文本中的每个文字进行标注具体的可以采用Viterbi算法对每一个字预测标签,以进行标注。在通过Viterbi算法进行标注时,具体的流程可以是:首先获取训练数据集;接着根据训练数据集训练条件随机场模型,寻找最优的参数使P(Y|X)最大,其中该参数是条件随机场模型的转移矩阵,转移矩阵中各元素都是非负的,并且各行元素之和等于1,各元素用概率表示,在一定条件下是互相转移的。在确定条件随机场的转移矩阵后,通过Viterbi算法对转移矩阵中的元素进行解码,以得到每一个字的预测标签,进而获得文本中的第一医学实体信息。
在本公开的示例性实施例中,第二模型具体可以是双向长短期记忆网络-条件随机场模型(BiLSTM-CRF),双向长短期记忆网络-条件随机场模型是对条件随机场模型的衍生,特征抽取模块不再采用人工定义的特征,而是由双向长短期记忆网络从文本中自动抽取,在此基础上叠加条件随机场模型。长短期记忆网络,是一种时间递归神经网络,擅长处理序列数据,和循环神经网络不同的地方在于长短期记忆网络中加入了一个判断信息有用与否的“处理器”(cell),该处理器中被放置了三扇门,分别叫做输入门、遗忘门和输出门,当一个信息进入长短期记忆网络中时,可以根据规则来判断是否有用。信息只有在符合算法认证的信息的情况下才会留下,不符的信息则通过遗忘门被遗忘,解决了长序依赖问题。由于双向长短期记忆网络是端对端的神经网络,因此特征抽取和模型训练是同时进行的,无需人工干预。
在将文本输入至BiLSTM-CRF模型中后,BiLSTM模型会自动提取文本中每个文字的特征信息,然后将文字的特征信息输入至CRF模型中,并通过Viterbi算法对每个文字预测标签并进行标注,进而获得文本中的第二医学实体信息。
在本公开的示例性实施例中,第三模型具体可以是规则模型。由于理赔专员在上岗前接受过统一培训,因此理赔小结在书写逻辑上是有规律可循的,例如步骤S110中所列举的理赔文本,其中关于事故描述具体为:因锁骨骨折医疗,因此可以设定规则为“因<疾病信息>医疗”,后续在将理赔小结输入至规则模型中时,规则模型则根据设定好的规则抽取理赔小结中的疾病信息,也就是说,规则模型可以根据设定好的规则从文本向量中抽取第三医学实体信息。但是根据规则抽取医学实体信息的方法只能覆盖一小部分书写遵循规范的保险理赔文本,对于有较多语言变动的保险理赔文本则不适用。
在本公开的示例性实施例中,第四模型具体可以是字典模型。该字典信息中包含有标准实体名称,例如对于一种名称为“马来酸非尼拉敏盐酸萘甲唑啉滴眼液”的药品,通常用“那素达”作为简称,但是采用第一模型、第二模型可能不能完整的标注出该药品名称,因此可以通过字典匹配的方式获取医学实体信息。以从理赔小结中抽取疾病名称为例,由于标准疾病名称是可以穷举的,因此字典模型中可以包含所有的标准疾病名称,在进行实体抽取时,可以将从理赔小结中抽取的信息与字典中的标准疾病名称进行匹配,具体可以采用最大正向匹配算法进行匹配,当字典中存在与抽取的信息匹配的标准疾病名称时,则可将该标准疾病名称作为第四医学实体信息进行抽取。
进一步的,在通过第一模型、第二模型、第三模型和第四模型对文本向量进行处理之前,可以采用训练样本对各个模型进行训练,以获取稳定的模型。具体的训练方法可以是:首先采集训练数据集,该训练数据集可以来自理赔专员手工填写的理赔小结,由于理赔小结的数量是庞大的,因此可以从中随机抽取一定数量的理赔小结作为训练数据集,例如可以选择1000条、2000条等数量的理赔小结作为训练数据集;然后对训练数据集进行人工标注,具体的可以采用BIOE标注体系,对训练数据集中涉及的疾病名称进行标注,当然也可以采用其它的标注体系进行标注,为了保证标注的准确性,可以在标注人员完成第一轮标注后,再进行第二遍复核;最后根据训练数据集和标注好的训练数据集对各模型进行训练,特别的是对条件随机场模型和双向长短期记忆网络-条件随机场模型进行训练,通过将训练数据集输入至条件随机场模型、双向长短期记忆网络-条件随机场模型中对其进行训练,以确定条件随机场模型和/或双向长短期记忆网络的参数,该参数可以使条件随机场模型、双向长短期记忆网络-条件随机场模型的输出结果与标注好的训练数据集具有很高的匹配度,甚至是与标注好的训练数据集完全一致。
在本公开的示例性实施例中,通过第一模型、第二模型、第三模型和第四模型对同一文本向量进行医学实体信息抽取,能够发挥不同模型的长处,提高医学实体信息抽取的召回率和准确率。具体而言,条件随机场模型的信息抽取准确率高,双向长短期记忆网络-条件随机场模型的信息抽取召回率高,而规则模型和字典模型能有效弥补前两种模型无法学习到的文本模式,因此通过本公开的技术方案抽取的医学实体信息相较于相关技术抽取的医学实体信息更全,准确率更高。
在步骤S130中,将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
在本公开的示例性实施例中,通过步骤S120中的多个不同模型对相同文本向量的处理,能够获取各模型抽取的医学实体信息,由于获取的各模型抽取的医学实体信息中不可避免的会存在重复、重叠的医学实体信息,因此可以将多个模型抽取的医学实体信息进行融合和去重处理,以获取目标医学实体信息。图5示出了医学实体信息融合和去重的流程示意图,如图5所示,在步骤S501中,将第一医学实体信息、第二医学实体信息、第三医学实体信息和第四医学实体信息融合,以获取融合医学实体信息;在步骤S502中,去除融合医学实体信息中重复的医学实体信息,以获取目标医学实体信息。通过上述的融合和去重处理,能够有效地提高整个医学实体信息抽取流程的准确率和召回率。
在本公开的示例性实施例中,通过采用模型组合的方式从理赔小结中抽取疾病名称,能够有效提升信息抽取的效率和质量,通过四种模型的有机结合,能使最终的信息抽取召回率高于98%,准确率高于95%,避免了人工提取消耗较多的时间和精力,减少了人力成本,进一步提升了用户体验。进一步的,通过提高医学信息抽取的召回率和准确率,能够提升理赔的自核率,减少了人工审核的成本。
本公开还提供了一种医学实体信息的抽取装置。图6示出了医学实体信息的抽取装置的结构示意图,如图6所示,该医学实体信息的抽取装置可以包括文本向量化模块610、实体信息获取模块620和实体信息处理模块630。其中:
文本向量化模块610,用于获取文本,对所述文本进行预处理以形成文本向量;
实体信息获取模块620,用于将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
实体信息处理模块630,用于将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
上述医学实体信息的抽取装置中各模块的具体细节已经在对应的医学实体信息的抽取方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图1中所示的步骤S110:获取文本,对所述文本进行预处理以形成文本向量;步骤S120:将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;步骤S130:将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (11)
1.一种医学实体信息的抽取方法,其特征在于,包括:
获取文本,对所述文本进行预处理以形成文本向量;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
2.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述文本的字符长度;
将所述文本的字符长度与第一预设值进行比较;
根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;
将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。
3.根据权利要求2所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;
若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。
4.根据权利要求2或3所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
将所述第二文本中的数字和英文字符用特殊字符替换。
5.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,所述多个模块包括第一模型、第二模型、第三模型和第四模型;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息,包括:
从所述文本向量中提取各个文字的特征信息,将各所述文字和各所述文字的特征信息输入至所述第一模型中,通过所述第一模型根据各所述文字的特征信息对各所述文字进行标注,以获取所述文本向量中的第一医学实体信息;
将所述文本向量输入至所述第二模型,通过所述第二模型对所述文本向量中的文字进行序列标注,以获取所述文本向量中的第二医学实体信息;
将所述文本向量输入至所述第三模型,通过所述第三模型根据预设规则对所述文本向量进行实体抽取,以获得所述文本向量中的第三医学实体信息;并且,
将所述文本向量输入至所述第四模型,通过所述第四模型将所述文本向量与预设字典进行匹配,以获取所述文本向量中的第四医学实体信息。
6.根据权利要求5所述的医学实体信息的抽取方法,其特征在于,所述第一模型为条件随机场模型,所述第二模型为双向长短期记忆网络-条件随机场模型,所述第三模型为规则模型,所述第四模型为字典模型。
7.根据权利要求6所述的医学实体信息的抽取方法,其特征在于,将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息,包括:
将所述第一医学实体信息、所述第二医学实体信息、所述第三医学实体信息和所述第四医学实体信息融合,以获取融合医学实体信息;
去除所述融合医学实体信息中重复的医学实体信息,以获取所述目标医学实体信息。
8.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,在将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息之前,所述方法还包括:
获取训练数据集,并对所述训练数据集进行人工标注,以获取与所述训练数据集对应的标注数据集;
根据所述训练数据集和所述标注数据集对所述多个不同的模型进行训练。
9.一种医学实体信息的抽取装置,其特征在于,包括:
文本向量化模块,用于获取文本,对所述文本进行预处理以形成文本向量;
实体信息获取模块,用于将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
实体信息处理模块,用于将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的医学实体信息抽取方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的医学实体信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624699.3A CN111444717A (zh) | 2018-12-28 | 2018-12-28 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624699.3A CN111444717A (zh) | 2018-12-28 | 2018-12-28 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444717A true CN111444717A (zh) | 2020-07-24 |
Family
ID=71653868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811624699.3A Pending CN111444717A (zh) | 2018-12-28 | 2018-12-28 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444717A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033204A (zh) * | 2021-03-24 | 2021-06-25 | 广州万孚生物技术股份有限公司 | 信息实体抽取方法、装置、电子设备和存储介质 |
CN113128230A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、电子设备及计算机存储介质 |
WO2021159757A1 (zh) * | 2020-09-09 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN114357176A (zh) * | 2021-11-26 | 2022-04-15 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
CN114781387A (zh) * | 2022-06-20 | 2022-07-22 | 北京惠每云科技有限公司 | 一种医学命名实体识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
US20150006199A1 (en) * | 2013-06-26 | 2015-01-01 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108959566A (zh) * | 2018-07-04 | 2018-12-07 | 哈尔滨工业大学 | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 |
CN108984683A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 结构化数据的提取方法、系统、设备及存储介质 |
-
2018
- 2018-12-28 CN CN201811624699.3A patent/CN111444717A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
US20150006199A1 (en) * | 2013-06-26 | 2015-01-01 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108984683A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 结构化数据的提取方法、系统、设备及存储介质 |
CN108959566A (zh) * | 2018-07-04 | 2018-12-07 | 哈尔滨工业大学 | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021159757A1 (zh) * | 2020-09-09 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN113033204A (zh) * | 2021-03-24 | 2021-06-25 | 广州万孚生物技术股份有限公司 | 信息实体抽取方法、装置、电子设备和存储介质 |
CN113128230A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、电子设备及计算机存储介质 |
CN114357176A (zh) * | 2021-11-26 | 2022-04-15 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
CN114357176B (zh) * | 2021-11-26 | 2023-11-21 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
CN114781387A (zh) * | 2022-06-20 | 2022-07-22 | 北京惠每云科技有限公司 | 一种医学命名实体识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520343B (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
US11574122B2 (en) | Method and system for joint named entity recognition and relation extraction using convolutional neural network | |
CN111444717A (zh) | 医学实体信息的抽取方法、装置、存储介质及电子设备 | |
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
CN109190110B (zh) | 一种命名实体识别模型的训练方法、系统及电子设备 | |
Farkas et al. | Automatic construction of rule-based ICD-9-CM coding systems | |
US20180025121A1 (en) | Systems and methods for finer-grained medical entity extraction | |
Loukas et al. | FiNER: Financial numeric entity recognition for XBRL tagging | |
CN110377744B (zh) | 一种舆情分类的方法、装置、存储介质及电子设备 | |
CA3048356A1 (en) | Unstructured data parsing for structured information | |
Sammani et al. | Automatic multilabel detection of ICD10 codes in Dutch cardiology discharge letters using neural networks | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
US20230028664A1 (en) | System and method for automatically tagging documents | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN115798661A (zh) | 临床医学领域的知识挖掘方法和装置 | |
Xu et al. | Exploiting lists of names for named entity identification of financial institutions from unstructured documents | |
CN112860842A (zh) | 病历标注方法、装置及存储介质 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN111625646B (zh) | 处理投保单的方法、装置、电子设备和存储介质 | |
CN114417045A (zh) | 基于神经网络保险案件抽检方法、系统、设备及存储介质 | |
CN112182253A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114443803A (zh) | 一种文本信息挖掘方法、装置、电子设备和存储介质 | |
CN114822865B (zh) | 诊断数据识别方法及装置、电子设备、存储介质 | |
Zhang et al. | An anti-fraud framework for medical insurance based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230317 Address after: 100195 room 304, unit 1, floor 4, building 9, West District, yard 9, Linglong Road, Haidian District, Beijing Applicant after: BEIJING YIYIYUN TECHNOLOGY Co.,Ltd. Address before: 301800 220-41, customs building, energy saving and environmental protection industrial zone, Baodi District, Tianjin Applicant before: TIANJIN HAPPINESS LIFE TECHNOLOGY Co.,Ltd. |