CN115345166A - 医疗文本的疾病诊断名识别方法、装置、设备及存储介质 - Google Patents

医疗文本的疾病诊断名识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115345166A
CN115345166A CN202211005000.1A CN202211005000A CN115345166A CN 115345166 A CN115345166 A CN 115345166A CN 202211005000 A CN202211005000 A CN 202211005000A CN 115345166 A CN115345166 A CN 115345166A
Authority
CN
China
Prior art keywords
disease diagnosis
diagnosis name
medical text
vector
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211005000.1A
Other languages
English (en)
Inventor
吴帝
周坤胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202211005000.1A priority Critical patent/CN115345166A/zh
Publication of CN115345166A publication Critical patent/CN115345166A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Multimedia (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医疗文本的疾病诊断名识别方法、装置、计算机设备及存储介质,该方法包括:对待识别医疗文本进行识别,获取原始疾病诊断名;对所述原始疾病诊断名进行向量转换,获取所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量;将所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取所述原始疾病诊断名对应的识别词向量;将所述原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定所述待识别医疗文本对应的疾病诊断名映射结果。该方法能够快速准确地确定疾病诊断名映射结果,具有人工成本低和效率高的优点。

Description

医疗文本的疾病诊断名识别方法、装置、设备及存储介质
技术领域
本发明涉及文本识别技术领域,尤其涉及一种医疗文本的疾病诊断名识别方法、装置、设备及存储介质。
背景技术
疾病险是一种常见的保障型保险,当购买疾病险的客户在患有疾病时,可以将待识别医疗文本作为依据,向保险公司申请赔付。保险公司在接收到待识别医疗文本时,需要对待识别医疗文本进行信息提取,并获取客户的疾病类型,为判断理赔风险和计算赔付金额提供依据。在保险公司的理赔系统中,为了便于存档和查询,疾病统一采用国际疾病分类标准进行命名。但是由于受到开具待识别医疗文本的医生知识储备和书写习惯的影响,经常出现待识别医疗文本上的疾病诊断名与保险公司理赔系统中存储的疾病诊断名不一致的现象,对工作人员造成困扰。
为解决上述技术问题,目前常用的方法是由专业人员根据医学经验对待识别医疗文本上的疾病诊断名进行识别,获取待识别医疗文本上的疾病诊断名在标准疾病库(如ICD10标准对应的疾病库)中对应的标准疾病诊断名或者标准疾病编号。这种方法要求专业人员具有非常丰富的专业知识储备,如此便增加人工成本;并且需要专业人员对疾病诊断名进行识别,需要大量的工作时间,存在工作效率低的问题。
发明内容
本发明提供一种医疗文本的疾病诊断名识别方法、装置、计算机设备及存储介质,以解决医疗文本的疾病诊断名识别效率低的问题。
一种医疗文本的疾病诊断名识别方法,包括:
对待识别医疗文本进行识别,获取原始疾病诊断名;
对所述原始疾病诊断名进行向量转换,获取所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量;
将所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取所述原始疾病诊断名对应的识别词向量;
将所述原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定所述待识别医疗文本对应的疾病诊断名映射结果。
一种医疗文本的疾病诊断名识别装置,包括:
原始疾病诊断名获取模块,用于对待识别医疗文本进行识别,获取原始疾病诊断名;
第一向量获取模块,用于对所述原始疾病诊断名进行向量转换,获取所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量;
第二向量获取模块,用于将所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取所述原始疾病诊断名对应的识别词向量;
疾病诊断名确定模块,用于将所述原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定所述待识别医疗文本对应的疾病诊断名映射结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医疗文本的疾病诊断名识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗文本的疾病诊断名识别方法。
上述医疗文本的疾病诊断名识别方法、装置、计算机设备及存储介质,首先对待识别医疗文本进行识别,获取原始疾病诊断名;接着,对原始疾病诊断名进行向量转换,获取原始疾病诊断名对应的位置嵌入向量和词嵌入向量,为后续进行医疗文本的疾病诊断名识别提供基础;最后采用目标BERT模型对原始疾病诊断名对应的位置嵌入向量和词嵌入向量进行处理,获取原始疾病诊断名对应的识别词向量,然后获取与原始疾病诊断名对应的识别词向量最相似的标准词向量,最后根据该标准词向量获取疾病诊断名映射结果。本方案中,根据待识别医疗文本确定疾病诊断名映射结果的过程中无需人工参与,能够快速准确地确定疾病诊断名映射结果,具有人工成本低和效率高的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中医疗文本的疾病诊断名识别方法的一应用环境示意图;
图2是本发明一实施例中医疗文本的疾病诊断名识别方法的一流程图;
图3是本发明一实施例中医疗文本的疾病诊断名识别方法的另一流程图;
图4是本发明一实施例中医疗文本的疾病诊断名识别方法的另一流程图;
图5是本发明一实施例中医疗文本的疾病诊断名识别方法的另一流程图;
图6是本发明一实施例中医疗文本的疾病诊断名识别方法的另一流程图;
图7是本发明一实施例中医疗文本的疾病诊断名识别方法的另一流程图;
图8是本发明一实施例中医疗文本的疾病诊断名识别方法的另一流程图;
图9是本发明一实施例中医疗文本的疾病诊断名识别装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的医疗文本的疾病诊断名识别方法,该医疗文本的疾病诊断名识别方法可应用如图1所示的应用环境中。具体地,该医疗文本的疾病诊断名识别方法应用在医疗文本的疾病诊断名识别系统中,该医疗文本的疾病诊断名识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现医疗文本的疾病诊断名识别。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种医疗文本的疾病诊断名识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:对待识别医疗文本进行识别,获取原始疾病诊断名;
S202:对原始疾病诊断名进行向量转换,获取原始疾病诊断名对应的位置嵌入向量和词嵌入向量;
S203:将原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取原始疾病诊断名对应的识别词向量;
S204:将原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定待识别医疗文本对应的疾病诊断名映射结果。
其中,待识别医疗文本是指医生开具的医疗单或者根据医疗单生成的包含医疗信息的文本。原始疾病诊断名是对待识别医疗文本进行识别,所确定的疾病诊断名。
作为一示例,步骤S201中,服务器获取待识别医疗文本。例如,可以将待识别医疗文本存放在U盘等移动存储设备上,然后将该移动存储设备连接在服务器上,服务器从移动存储设备上获取获取待识别医疗文本,对待识别医疗文本进行识别,获取待识别医疗文本对应的原始疾病诊断名;或者建立服务器与另一设备之间的通信连接,该设备可以通过信息交互的方式,将待识别医疗文本发送给服务器;或者在服务器上连接摄像机、键盘等外接输入设备,通过摄像机所拍摄到的图像或者由键盘所键入的数据,获取上述待识别医疗文本。接着,服务器可对待识别医疗文本进行识别,获取待识别医疗文本对应的原始疾病诊断名。例如,服务器可采用预先设置的OCR识别工具,对待识别医疗文本进行识别,获取原始疾病诊断名。
其中,位置嵌入向量是根据原始疾病诊断名中各字符的绝对位置,获取原始疾病诊断名对应的位置嵌入向量。词嵌入向量是根据原始疾病诊断名中的字符,获取原始疾病诊断名对应的词嵌入向量。
作为一示例,步骤S202中,服务器对原始疾病诊断名进行向量转换,获取原始疾病诊断名对应的位置嵌入向量和词嵌入向量。词嵌入向量与原始疾病诊断名中的字符有关,位置嵌入向量与原始疾病诊断名中的字符在原始疾病诊断名中的绝对位置有关,为后续进行医疗文本的疾病诊断名识别提供基础。
其中,BERT的全称为Bidirectional Encoder Representation fromTransformers,是一个预训练的语言表征模型。
作为一示例,步骤S203中,服务器对原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取原始疾病诊断名对应的识别词向量。目标BERT模型是指采用疾病诊断名数据库中的数据对BERT模型进行训练而获取的模型。服务器首先获取疾病诊断名数据库中各疾病诊断名对应的词嵌入向量、位置嵌入向量和识别词向量,然后以疾病诊断名数据库中各疾病诊断名对应的词嵌入向量和位置嵌入向量作为输入量、以对应的识别词向量为输出量对BERT模型进行训练,直到BERT模型的准确率大于设定准确率,认定模型收敛,可获取训练好的目标BERT模型。
在本示例中,上述疾病诊断名数据库中存储有某个疾病标准对应的疾病诊断名,例如ICD10标准中的疾病诊断名,采用疾病诊断名具有通用性好的优点。通用BERT模型的输入为词嵌入向量、片段嵌入向量和位置嵌入向量,由于原始疾病诊断名的字符中不存在分段,因此在本示例中仅获取原始疾病诊断名的词嵌入向量和位置嵌入向量。由于在训练过程中BERT模型的输入仅有疾病诊断名的词嵌入向量和位置嵌入向量,因此BERT模型会自动生成一个片段嵌入向量,利用疾病诊断名的词嵌入向量和位置嵌入向量和自动生成的片段嵌入向量进行模型训练,获取目标BERT模型,使得目标BERT模型能够将疾病诊断名的词嵌入向量和位置嵌入向量融合,获取疾病诊断名对应的识别词向量,因此,在将原始疾病诊断名的词嵌入向量和位置嵌入向量输入到目标BERT模型后,可以获取原始疾病诊断名对应的识别词向量。
其中,标准词向量是指疾病诊断名向量库中预设存储的与标准疾病诊断名相关的词向量。
作为一示例,步骤S204中,服务器对原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定待识别医疗文本对应的标准疾病诊断名。具体的,服务器计算出疾病诊断名向量库中各标准词向量与原始疾病诊断名对应的识别词向量之间的相似度,然后将各相似度进行排序,根据相似度最大值所对应的标准词向量,确定待识别医疗文本对应的疾病诊断名映射结果。本示例中,在获取疾病诊断名向量库中与原始疾病诊断名对应的识别词向量最相似的标准词向量后,如果需要获取原始疾病诊断名对应的标准疾病诊断名,可以将该标准词向量对应的标准疾病诊断名作为疾病诊断名映射结果;如果需要获取原始疾病诊断名对应的标准疾病编号,可以将该标准词向量在疾病诊断名数据库中对应的标准疾病编号作为疾病诊断名映射结果。
本实施例所提供的医疗文本的疾病诊断名识别方法中,首先对待识别医疗文本进行识别,获取原始疾病诊断名;接着,对原始疾病诊断名进行向量转换,获取原始疾病诊断名对应的位置嵌入向量和词嵌入向量,为后续进行医疗文本的疾病诊断名识别提供基础;最后采用目标BERT模型对原始疾病诊断名对应的位置嵌入向量和词嵌入向量进行处理,获取原始疾病诊断名对应的识别词向量,然后获取与原始疾病诊断名对应的识别词向量最相似的标准词向量,最后根据该标准词向量获取疾病诊断名映射结果。本方案中,根据待识别医疗文本确定疾病诊断名映射结果的过程中无需人工参与,能够快速准确地确定疾病诊断名映射结果,具有人工成本低和效率高的优点。
在一实施例中,如图3所示,对待识别医疗文本进行识别,获取原始疾病诊断名,包括:
S301:获取待识别医疗文本对应的文本类型;
S302:若待识别医疗文本对应的文本类型为图像文本,则将待识别医疗文本进行文字识别,获取待识别医疗文本对应的文字信息,对待识别医疗文本的文字信息进行信息提取,获取原始疾病诊断名;
S303:若待识别医疗文本对应的文本类型为数据文本,则对待识别医疗文本进行信息提取,获取原始疾病诊断名。
其中,文本类型是对待识别医疗文本识别获取的类型,文本类型可以为图像文本,也可以为数据文本。
作为一示例,步骤S301中,服务器对待识别医疗文本进行识别,获取待识别医疗文本对应的文本类型。由于待识别医疗文本的类型可能是包含字符信息的数据文本,也可能是有字符信息的图像文本,对于不同类型的待识别医疗文本需要采用不同的处理方式,因此本示例中需要对待识别医疗文本的类型进行识别,以获取待识别医疗文本对应的文本类型。在本示例中,可以根据待识别医疗文本的类型设置相应的标识,例如当待识别医疗文本是数据文本时,待识别医疗文本的标识为1,当待识别医疗文本是图像文本时,待识别医疗文本的标识为0;获取待识别医疗文本的标识,然后根据待识别医疗文本的标识,判断待识别医疗文本的文本类型。
作为一个示例,步骤S302中,服务器对待识别医疗文本进行识别,若获取的文本类型为图像文本,为了便于对原始疾病诊断名进行提取,需要服务器对待识别医疗文本进行文字识别,获取待识别医疗文本对应的文字信息,再对待识别医疗文本的文字信息进行信息提取,获取原始疾病诊断名。
作为一示例,步骤S303中,服务器对待识别医疗文本进行识别,若获取的文本类型为数据文本,可直接对待识别医疗文本进行信息提取,以获取待识别医疗文本上所记载的字符,从而准确获取原始疾病诊断名。
本实施例所提供的医疗文本的疾病诊断名识别方法中,对待识别医疗文本进行类型识别,判断出待识别医疗文本的文本类型;若待识别医疗文本对应的文本类型为图像文本,则将待识别医疗文本进行文字识别,获取待识别医疗文本对应的文字信息,再根据识别出的文字信息确定其原始疾病诊断名;若待识别医疗文本对应的文本类型为数据文本,则对待识别医疗文本进行信息提取,获取原始疾病诊断名。根据不同的文本类型做出相应的处理,提高疾病诊断名识别的可行性。
在一实施例中,如图4所示,对待识别医疗文本进行信息提取,获取原始疾病诊断名,包括:
S401:判断待识别医疗文本是否为有效医疗文本;
S402:若待识别医疗文本为有效医疗文本,则对待识别医疗文本中的疾病诊断名进行实体识别,获取原始疾病诊断名。
其中,有效医疗文本是对待识别医疗文本进行识别,确定其满足有效性条件的医疗文本。有效性条件是预先设置的用于评估是否满足有效性的条件。术地,无效医疗文本是指不满足有效性条件的医疗文本。
作为一示例,步骤S401中,服务器在获取待识别医疗文本后,判断待识别医疗文本是否满足有效性条件,以确定待识别医疗文本是否为有效医疗文本。
作为一示例,步骤S402中,服务器在确定待识别医疗文本为有效医疗文本时,才采用实体识别模型对待识别医疗文本中的疾病诊断名进行实体识别,获取原始疾病诊断名。其中,实体识别模型基于规则的NER模型、无监督模型、基于特征工程的有监督机器学习模型以及基于深度学习的NER模型。相应地,服务器在确定待识别医疗文本为无效医疗文本时,无需执行后续实体识别操作,以避免对无效医疗文本进行实体识别而造成资源的浪费,可保障疾病诊断名识别的准确率。
本实施例所提供的医疗文本的疾病诊断名识别方法中,判断待识别医疗文本是否为有效医疗文本,只在待识别医疗文本为有效医疗文本时,对待识别医疗文本中的疾病诊断名进行实体识别,获取原始疾病诊断名,以避免对无效医疗文本进行实体识别而造成资源的浪费,可保障疾病诊断名识别的准确率。
在一实施例中,如图5所示,判断待识别医疗文本是否为有效医疗文本,包括:
S501:判断待识别医疗文本是否包含特殊字符;
S502:若待识别医疗文本包含特殊字符,则确定待识别医疗文本为无效医疗文本;
S503:若待识别医疗文本未包含特殊字符,则确定待识别医疗文本为有效医疗文本。
作为一示例,步骤S501中,服务器中存储有预先构建的包含多个特殊字符的特殊字符集合,该特殊字符是预先设置的用于评估确定不满足有效性条件的字符。作为一示例,特殊字符可以由原始疾病诊断名中的某个字符乱码形成的字符,也可以是在当前时间之前对医疗文本进行识别时,所记录的无法识别出的字符。
服务器在获取待识别医疗文本后,可采用但不限于匹配算法,对待识别医疗文本中的字符进行识别,判断待识别医疗文本中的字符是否包含特殊字符,以确定待识别医疗文本是否为有效医疗文本。
本示例中,服务器在对待识别医疗文本进行识别时,若待识别医疗文本中的所有字符均能够识别出来,则基于待识别医疗文本识别出的所有字符判断是否包含特殊字符,以确定待识别医疗文本是否为有效医疗文本;若待识别医疗文本中存在无法识别的字符,可直接将这些无法识别的字符确定为新增的特殊字符,此时,将待识别医疗文本作为无效医疗文本。
作为一示例,步骤S502中,服务器在待识别医疗文本包含特殊字符或者存在无法识别的特殊字符时,确定待识别医疗文本为无效医疗文本。可理解地,此处的无效医疗文本可以为包含特殊字符,或者存在无法识别的特殊字符的待识别医疗文本。
作为一示例,步骤S503中,服务器在待识别医疗文本未包含特殊字符,且不存在无法识别的特殊字符时,确定待识别医疗文本为有效医疗文本。
本实施例所提供的医疗文本的疾病诊断名识别方法中,对待识别医疗文本中的字符进行识别,判断待识别医疗文本是否包含特殊字符,根据判断结果确定是否为有效医疗文本。本示例中,特殊字符可以由原始疾病诊断名中的某个字符乱码形成的字符,也可以是在当前时间之前对医疗文本进行识别时,所记录的无法识别出的字符,若待识别医疗文本中包含特殊字符,则对待识别医疗文本进行继续识别,其所识别出的原始疾病诊断名会与待识别医疗文本中的真实疾病诊断名存在较大的误差,因此,根据待识别医疗文本是否包含特殊字符,判定待识别医疗文本是否为有效医疗文本,可保障疾病诊断名识别的准确率。
在一实施例中,如图6所示,对待识别医疗文本中的疾病诊断名进行实体识别,获取原始疾病诊断名,包括:
S601:对待识别医疗文本进行字符识别,获取待识别医疗文本中的字符;
S602:对待识别医疗文本中的字符进行分组组合,获取至少一个待识别词组;
S603:根据至少一个待识别词组查询疾病诊断名数据库,将疾病诊断名数据库中与待识别词组相对应的疾病诊断名,确定为原始疾病诊断名。
作为一示例,步骤S601中,服务器对待识别医疗文本进行字符识别,获取待识别医疗文本中对应的字符。
其中,待识别词组是对待识别医疗文本进行分组组合处理获取。
作为一示例,步骤S602中,服务器对待识别医疗文本中的字符进行分组,获取多个待识别词组。例如,待识别医疗文本中具有十个字符,可将待识别医疗文本中相邻两个字符进行组合,获取具有两个字符的待识别词组,也可对相邻三个字符进行组合,获取具有三个字符的待识别词组。
其中,疾病诊断名数据库中存储有多个预设疾病诊断名,预设疾病诊断名为根据经验所收录的医生开具待识别医疗文本时使用的疾病诊断名。
作为一示例,步骤S603中,服务器根据各待识别词组搜索疾病诊断名数据库,判断疾病诊断名数据库是否存在有与待识别词组相对应的预设疾病诊断名;如果有,将该预设疾病诊断名作为原始疾病诊断名。
本示例中,服务器在获取具有两个字符的待识别词组后,可根据待识别词组在疾病诊断名数据库中进行搜索,判断是否能够搜索到与其中某个待识别词组相同的预设疾病诊断名;如果能够搜索到,则将搜索到的预设疾病诊断名确定为原始疾病诊断名;如果搜索不到,则将待识别医疗文本中相邻三个字符组合,获取多个具有三个字符的待识别词组,再根据待识别词组在疾病诊断名数据库中进行搜索,判断是否能够搜索到与其中某个待识别词组相同的预设疾病诊断名;以此类推,直到识别待识别医疗文本中的原始疾病诊断名。
本实施例所提供的医疗文本的疾病诊断名识别方法中,对待识别医疗文本中的字符进行分组,获取多个待识别词组;根据各待识别词组搜索疾病诊断名数据库,判断疾病诊断名数据库是否存在有与待识别词组相对应的预设疾病诊断名,如果有,则将该预设疾病诊断名作为原始疾病诊断名。可理解地,根据待识别医疗文本中识别出的字符进行组合,确定待识别词组,利用待识别词组搜索疾病诊断名数据库,以便快速、准确地获取待识别医疗文本中的原始疾病诊断名,提高识别效率。
在一实施例中,如图7所示,对原始疾病诊断名进行向量转换,获取原始疾病诊断名对应的位置嵌入向量和词嵌入向量,包括:
S701:根据原始疾病诊断名中的字符,获取原始疾病诊断名对应的字符标识和位置标识;
S702:根据原始疾病诊断名对应的字符标识查询词嵌入向量数据库,获取原始疾病诊断名对应的词嵌入向量;
S703:根据原始疾病诊断名对应的位置标识查询位置嵌入向量数据库,获取原始疾病诊断名对应的位置嵌入向量。
其中,字符标识是指原始疾病诊断名中具有多个字符,每个字符都具有对应的标识。位置标识是指根据原始疾病诊断名的字符,在原始疾病诊断名中的位置,获取原始疾病诊断名的位置标识。
作为一示例,步骤S701中,服务器先根据原始疾病诊断名的字符,获取原始疾病诊断名的字符标识,然后根据原始疾病诊断名的字符在原始疾病诊断名中的位置,获取原始疾病诊断名的位置标识。例如,当原始疾病诊断名为“糖尿病”时,可以获取“糖”、“尿”、“病”三个字所对应的标识,将三个字对应的标识组合,获取原始疾病诊断名的字符标识;然后根据“糖”、“尿”、“病”在原始疾病诊断名中的绝对位置,获取原始疾病诊断名的位置标识。
其中,词嵌入向量数据库是指存储有多个字符标识,且每个字符标识设置有对应的词嵌入向量的数据库。
作为一示例,步骤S702中,服务器在获取原始疾病诊断名的字符标识后,根据该字符标识查询词嵌入向量数据库,获取词嵌入向量数据库中记载的与该字符标识相对应的词嵌入向量,该词嵌入向量即为原始疾病诊断名对应的词嵌入向量。
其中,位置嵌入向量数据库中存储有多个位置标识,且每个位置标识设置有对应的位置嵌入向量。
作为一示例,步骤S703中,服务器在获取原始疾病诊断名的位置标识后,根据该位置标识查询位置嵌入向量数据库,获取位置嵌入向量数据库中记载的与该位置标识相对应的位置嵌入向量,该位置嵌入向量即为原始疾病诊断名对应的位置嵌入向量。
本实施例所提供的医疗文本的疾病诊断名识别方法中,根据原始疾病诊断名的字符及其位置,获取原始疾病诊断名的字符标识和位置标识;根据该字符标识查询词嵌入向量数据库,获取该字符标识所对应的词嵌入向量,将其确定为原始疾病诊断名对应的词嵌入向量;根据该位置标识查询位置嵌入向量数据库,获取该位置标识所对应的位置嵌入向量,将其确定为原始疾病诊断名对应的位置嵌入向量。本示例中,原始疾病诊断名对应的位置嵌入向量和词嵌入向量,融合其位置标识和字符标识,以便后续利用位置嵌入向量和词嵌入向量进行疾病诊断名识别,有助于提高疾病诊断名识别的准确率。
在一实施例中,如图8所示,将原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定待识别医疗文本对应的疾病诊断名映射结果,包括:
S801:将原始疾病诊断名对应的识别词向量与疾病诊断名向量库中的每一标准词向量进行相似度计算,获取每一标准词向量对应的向量相似度;
S802:根据向量相似度最大的标准词向量,确定待识别医疗文本对应的标准疾病诊断名。
其中,标准词向量是预先存储在疾病诊断名向量库中的与标准疾病诊断名相关的词向量。
作为一示例,步骤S801中,服务器采用相似度算法,对原始疾病诊断名对应的识别词向量与疾病诊断名向量库中的每一标准词向量进行相似度计算,获取每一标准词向量对应的向量相似度。
例如,服务器可对标准词向量的特征矩阵和原始疾病诊断名的识别词向量的特征矩阵分别做线性变换,获取标准词向量的特征矩阵的权重矩阵和原始疾病诊断名对应的识别词向量的权重矩阵;然后根据标准词向量的权重矩阵和识别词向量的权重矩阵,计算出标准词向量与原始疾病诊断名对应的识别词向量之间的余弦相似度,计算时所采用的计算公式为:
Figure BDA0003808837860000161
其中V(Q)为标准词向量的权重矩阵,V(C)为原始疾病诊断名对应的识别词向量的权重矩阵,|V(Q)|为权重矩阵V(Q)的模值,|V(C)|为权重矩阵V(C)的模值,Sim(V(Q),V(C))为标准词向量与原始疾病诊断名对应的识别词向量之间的余弦相似度,即最终计算出的向量相似度。
作为一示例,步骤S802中,服务器可根据向量相似度最大的标准词向量,可以根据该标准词向量确定其对应的标准疾病诊断名,也可以根据该标准词向量确定其对应的标准疾病编号,确定为待识别医疗文本对应的疾病诊断名映射结果。
本实施例所提供的医疗文本的疾病诊断名识别方法中,先将原始疾病诊断名对应的识别词向量与疾病诊断名向量库中的每一标准词向量进行相似度计算,获取每一标准词向量对应的向量相似度;再根据向量相似度最大的标准词向量,快速准确地确定待识别医疗文本对应的疾病诊断名映射结果,提高疾病诊断名识别的准确率和效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种医疗文本的疾病诊断名识别装置,该医疗文本的疾病诊断名识别装置与上述实施例中医疗文本的疾病诊断名识别方法一一对应。如图9所示,该医疗文本的疾病诊断名识别装置包括原始疾病诊断名获取模块901、第一向量获取模块902、第二向量获取模块903和疾病诊断名确定模块904。各功能模块详细说明如下:
原始疾病诊断名获取模块901,用于对待识别医疗文本进行识别,获取原始疾病诊断名;
第一向量获取模块902,用于对原始疾病诊断名进行向量转换,获取原始疾病诊断名对应的位置嵌入向量和词嵌入向量;
第二向量获取模块903,用于将原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取原始疾病诊断名对应的识别词向量;
疾病诊断名确定模块904,用于将原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定待识别医疗文本对应的疾病诊断名映射结果。
在一实施例中,原始疾病诊断名获取模块901,包括:
文本类型获取子模块,用于获取待识别医疗文本对应的文本类型;
第一原始疾病诊断名获取子模块,用于若待识别医疗文本对应的文本类型为图像文本,则将待识别医疗文本进行文字识别,获取待识别医疗文本对应的文字信息,对待识别医疗文本的文字信息进行信息提取,获取原始疾病诊断名;
第二原始疾病诊断名获取子模块,用于若待识别医疗文本对应的文本类型为数据文本,则对待识别医疗文本进行信息提取,获取原始疾病诊断名。
在一实施例中,第一获原始疾病诊断名取子模块,包括:
有效医疗文本确定单元,用于判断待识别医疗文本是否为有效医疗文本;
原始疾病诊断名获取单元,用于若待识别医疗文本为有效医疗文本,则对待识别医疗文本中的疾病诊断名进行实体识别,获取原始疾病诊断名。
在一实施例中,有效医疗文本确定单元,包括:
特殊字符判断子单元,用于判断待识别医疗文本是否包含特殊字符;
无效医疗文本确定子单元,用于若待识别医疗文本包含特殊字符,则确定待识别医疗文本为无效医疗文本;
有效医疗文本确定子单元,用于若待识别医疗文本未包含特殊字符,则确定待识别医疗文本为有效医疗文本。
在一实施例中,原始疾病诊断名获取单元,包括:
待识别医疗文本中的字符获取子单元,用于对待识别医疗文本进行字符识别,获取待识别医疗文本中的字符;
待识别词组获取子单元,用于对待识别医疗文本中的字符进行分组组合,获取至少一个待识别词组;
原始疾病诊断名获取子单元,用于根据至少一个待识别词组查询疾病诊断名数据库,将疾病诊断名数据库中与待识别词组相对应的疾病诊断名,确定为原始疾病诊断名。
在一实施例中,第一向量获取模块902,包括:
第一标识获取子模块,用于根据原始疾病诊断名中的字符,获取原始疾病诊断名对应的字符标识和位置标识;
词嵌入向量获取子模块,用于根据原始疾病诊断名对应的字符标识查询词嵌入向量数据库,获取原始疾病诊断名对应的词嵌入向量;
位置嵌入向量获取子模块,用于根据原始疾病诊断名对应的位置标识查询位置嵌入向量数据库,获取原始疾病诊断名对应的位置嵌入向量。
在一实施例中,疾病诊断名确定模块904,包括:
向量相似度获取子模块,用于将原始疾病诊断名对应的识别词向量与疾病诊断名向量库中的每一标准词向量进行相似度计算,获取每一标准词向量对应的向量相似度;
疾病诊断名确定子模块,用于根据向量相似度最大的标准词向量,确定待识别医疗文本对应的疾病诊断名映射结果。
关于医疗文本的疾病诊断名识别装置的具体限定可以参见上文中对于医疗文本的疾病诊断名识别方法的限定,在此不再赘述。上述医疗文本的疾病诊断名识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行疗文本的疾病诊断名识别过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗文本的疾病诊断名识别方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中医疗文本的疾病诊断名识别方法,例如图2所示S201-S204,或者图3至图8中所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现医疗文本的疾病诊断名识别装置这一实施例中的各模块/单元的功能,例如图9所示的原始疾病诊断名获取模块901、第一向量获取模块902、第二向量获取模块903和疾病诊断名确定模块904的功能,为避免重复,这里不再赘述。
在一实施例中,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中医疗文本的疾病诊断名识别方法,例如图2所示S201-S204,或者图3至图8中所示,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述医疗文本的疾病诊断名识别装置这一实施例中的各模块/单元的功能,例如图9所示的原始疾病诊断名获取模块901、第一向量获取模块902、第二向量获取模块903和疾病诊断名确定模块904的功能,为避免重复,这里不再赘述。计算机可读存储介质可以是非易失性,也可以是易失性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种医疗文本的疾病诊断名识别方法,其特征在于,包括:
对待识别医疗文本进行识别,获取原始疾病诊断名;
对所述原始疾病诊断名进行向量转换,获取所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量;
将所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取所述原始疾病诊断名对应的识别词向量;
将所述原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定所述待识别医疗文本对应的疾病诊断名映射结果。
2.如权利要求1所述的医疗文本的疾病诊断名识别方法,其特征在于,所述对待识别医疗文本进行识别,获取原始疾病诊断名,包括:
获取所述待识别医疗文本对应的文本类型;
若所述待识别医疗文本对应的文本类型为图像文本,则将所述待识别医疗文本进行文字识别,获取所述待识别医疗文本对应的文字信息,对所述待识别医疗文本的文字信息进行信息提取,获取所述原始疾病诊断名;
若所述待识别医疗文本对应的文本类型为数据文本,则对所述待识别医疗文本进行信息提取,获取所述原始疾病诊断名。
3.如权利要求2所述的医疗文本的疾病诊断名识别方法,其特征在于,所述对所述待识别医疗文本进行信息提取,获取所述原始疾病诊断名,包括:
判断所述待识别医疗文本是否为有效医疗文本;
若所述待识别医疗文本为有效医疗文本,则对所述待识别医疗文本中的疾病诊断名进行实体识别,获取所述原始疾病诊断名。
4.如权利要求3所述的医疗文本的疾病诊断名识别方法,其特征在于,所述判断所述待识别医疗文本是否为有效医疗文本,包括:
判断所述待识别医疗文本是否包含特殊字符;
若所述待识别医疗文本包含特殊字符,则确定所述待识别医疗文本为无效医疗文本;
若所述待识别医疗文本未包含特殊字符,则确定所述待识别医疗文本为有效医疗文本。
5.如权利要求3所述的医疗文本的疾病诊断名识别方法,其特征在于,所述对所述待识别医疗文本中的疾病诊断名进行实体识别,获取所述原始疾病诊断名,包括:
对所述待识别医疗文本进行字符识别,获取所述待识别医疗文本中的字符;
对所述待识别医疗文本中的字符进行分组组合,获取至少一个待识别词组;
根据至少一个所述待识别词组查询疾病诊断名数据库,将所述疾病诊断名数据库中与所述待识别词组相对应的疾病诊断名,确定为原始疾病诊断名。
6.如权利要求1所述的医疗文本的疾病诊断名识别方法,其特征在于,所述对所述原始疾病诊断名进行向量转换,获取所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量,包括:
根据所述原始疾病诊断名中的字符,获取所述原始疾病诊断名对应的字符标识和位置标识;
根据所述原始疾病诊断名对应的字符标识查询词嵌入向量数据库,获取所述原始疾病诊断名对应的词嵌入向量;
根据所述原始疾病诊断名对应的位置标识查询位置嵌入向量数据库,获取所述原始疾病诊断名对应的位置嵌入向量。
7.如权利要求1所述的医疗文本的疾病诊断名识别方法,其特征在于,所述将所述原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定所述待识别医疗文本对应的疾病诊断名映射结果,包括:
将所述原始疾病诊断名对应的识别词向量与疾病诊断名向量库中的每一标准词向量进行相似度计算,获取每一标准词向量对应的向量相似度;
根据所述向量相似度最大的标准词向量,确定所述待识别医疗文本对应的疾病诊断名映射结果。
8.一种医疗文本的疾病诊断名识别装置,其特征在于,包括:
原始疾病诊断名获取模块,用于对待识别医疗文本进行识别,获取原始疾病诊断名;
第一向量获取模块,用于对所述原始疾病诊断名进行向量转换,获取所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量;
第二向量获取模块,用于将所述原始疾病诊断名对应的位置嵌入向量和词嵌入向量,输入到目标BERT模型进行处理,获取所述原始疾病诊断名对应的识别词向量;
疾病诊断名确定模块,用于将所述原始疾病诊断名对应的识别词向量和疾病诊断名向量库中的标准词向量进行向量映射,确定所述待识别医疗文本对应的疾病诊断名映射结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述医疗文本的疾病诊断名识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述医疗文本的疾病诊断名识别方法。
CN202211005000.1A 2022-08-22 2022-08-22 医疗文本的疾病诊断名识别方法、装置、设备及存储介质 Pending CN115345166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211005000.1A CN115345166A (zh) 2022-08-22 2022-08-22 医疗文本的疾病诊断名识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211005000.1A CN115345166A (zh) 2022-08-22 2022-08-22 医疗文本的疾病诊断名识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115345166A true CN115345166A (zh) 2022-11-15

Family

ID=83954327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211005000.1A Pending CN115345166A (zh) 2022-08-22 2022-08-22 医疗文本的疾病诊断名识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115345166A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663536A (zh) * 2023-08-01 2023-08-29 北京惠每云科技有限公司 一种临床诊断标准词的匹配方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663536A (zh) * 2023-08-01 2023-08-29 北京惠每云科技有限公司 一种临床诊断标准词的匹配方法及装置
CN116663536B (zh) * 2023-08-01 2023-10-24 北京惠每云科技有限公司 一种临床诊断标准词的匹配方法及装置

Similar Documents

Publication Publication Date Title
CN110457431B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN110427467B (zh) 问答处理方法、装置、计算机设备和存储介质
CN109446302B (zh) 基于机器学习的问答数据处理方法、装置和计算机设备
CN109800307B (zh) 产品评价的分析方法、装置、计算机设备及存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
CN110008250B (zh) 基于数据挖掘的社保数据处理方法、装置和计算机设备
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN110659298B (zh) 财务数据处理方法、装置、计算机设备和存储介质
CN110674319A (zh) 标签确定方法、装置、计算机设备及存储介质
CN112181489B (zh) 代码迁移方法、装置、计算机设备及存储介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN110516558B (zh) 样本数据获取方法、装置、计算机设备及存储介质
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN109325042B (zh) 处理模版获取方法、表格处理方法、装置、设备及介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
CN111832581A (zh) 肺部特征识别方法、装置、计算机设备及存储介质
CN113420116A (zh) 医疗文档的分析方法、装置、设备及介质
CN110377618B (zh) 裁决结果分析方法、装置、计算机设备和存储介质
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质
CN114547087A (zh) 提案自动识别并生成报告的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination