CN115344664A

CN115344664A - 医案文本的处理方法和装置、电子设备以及计算机可读存储介质

Info

Publication number: CN115344664A
Application number: CN202110519426.8A
Authority: CN
Inventors: 谭传奇; 陈漠沙; 黄松芳
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-11-15

Abstract

本申请公开了一种医案文本的处理方法和装置、电子设备以及计算机可读存储介质。该医案文本的处理方法包括：获得待处理的医案文本；在编码数据库中进行检索，以获得与非标准名称实体相对应的候选编码；利用候选编码在标准名称数据库中检索，获得多个检索结果；将多个检索结果分别与非标准名称实体组成多个第一对齐候选对；根据多个第一对齐候选对的统计信息确定非标准名称实体的标准名称。本申请在标准名称数据库中针对候选编码进行检索来寻找确定非标准名称实体在标准名称数据库中被使用，就可以根据这样确定的一对对齐候选对的统计信息来判断该对齐候选对中的非标准名称实体是否经常与该标准名称一起使用，从而为该非标准名称实体确定标准名称。

Description

医案文本的处理方法和装置、电子设备以及计算机可读存储介质

技术领域

本申请涉及文本处理技术领域，尤其涉及一种医案文本的处理方法和装置、电子设备以及计算机可读存储介质。

背景技术

随着大数据技术的发展，越来越多的行业都采用电子化数据库来管理运营中产生的数据。但是日常经营中产生的大量经营数据虽然已经采用计算机等技术实现了电子化输入。但是实际的运营人员在日常经营活动中通常都会采用自然语言来撰写各种记录文本。但是对于大数据技术管理的数据库来说，则只允许使用特定的术语的记录文本，从而能够方便进行分类和检索。例如，在医院领域，医生在撰写患者的医案时，往往采用的是医生自己熟悉的自然语言来描述患者的病情、对应的症状的判断等描述性记录，但是对应的医学术语数据库中对于同样的病情、同样的症状通常只会分配一个特定的术语，因此，在这样的情况下，就需要将例如医生用自然语言撰写的医案记录文本匹配到对应的数据库中的术语，从而能够实现使用大数据技术来管理患者的全部医疗数据。这样的匹配处理对于匹配数据库具有较高的依赖性。因此，需要不断地向匹配数据库中补充新的标准术语与对应的自然语言的字段之间的匹配关系来跟上新技术的发展。

因此，需要一种能够自动从大量自然语言的语料中挖掘自然语言医案描述的与标准名称的对应关系的技术方案。

发明内容

本申请实施例提供一种医案文本的处理方法和装置、电子设备以及计算机可读存储介质，以解决现有技术中无法自动挖掘自然语言医案描述与标准名称的匹配关系的缺陷。

为达到上述目的，本申请实施例提供了一种医案文本的处理方法，包括：

获得待处理的医案文本，其中，所述待处理的医案文本中包括多个实体，所述实体包括标准名称实体和非标准名称实体；

在编码数据库中进行检索，以获得与所述非标准名称实体相对应的候选编码；

利用所述候选编码在标准名称数据库中检索，获得多个检索结果；

将多个检索结果分别与所述非标准名称实体组成多个第一对齐候选对；

根据所述多个第一对齐候选对的统计信息确定所述非标准名称实体的标准名称。

本申请实施例还提供了一种医案文本的处理装置，包括：

第一获取模块，用于获得待处理的医案文本，其中，所述待处理的医案文本中包括多个实体，所述实体包括标准名称实体和非标准名称实体；

第一检索模块，用于在编码数据库中进行检索，以获得与所述非标准名称实体相对应的候选编码；

第二检索模块，用于利用所述候选编码在标准名称数据库中检索，获得多个检索结果；

对齐候选对生成模块，用于将多个检索结果分别与所述非标准名称实体组成多个第一对齐候选对；

第一确定模块，用于根据所述多个第一对齐候选对的统计信息确定所述非标准名称实体的标准名称。

本申请实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行本申请实施例提供的医案文本的处理方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如本申请实施例提供的医案文本的处理方法。

本申请实施例提供的医案文本的处理方法和装置、电子设备以及计算机可读存储介质，通过在编码数据库中检索待处理的医案文本中非标准名称实体的可能对应的候选编码，在标准名称数据库中针对这些候选编码进行检索来寻找确定该非标准名称实体在标准名称数据库中被使用，在此基础上就可以根据这样确定的一对对齐候选对的统计信息来判断该对齐候选对中的非标准名称实体是否经常与该标准名称一起使用，从而可以为该非标准名称实体确定合格的标准名称。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的医案文本的处理方法的应用场景示意图；

图2为本申请提供的医案文本的处理方法一个实施例的流程图；

图3为本申请提供的医案文本的处理方法另一个实施例的流程图；

图4为本申请提供的医案文本的处理装置一个实施例的结构示意图；

图5为本申请提供的电子设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

随着大数据技术的发展，越来越多的行业都采用电子化数据库来管理运营中产生的数据。但是日常经营中产生的大量经营数据虽然已经采用计算机等技术实现了电子化输入。但是实际的运营人员在日常经营活动中通常都会采用自然语言来撰写各种记录文本。但是对于大数据技术管理的数据库来说，则只允许使用特定的术语的记录文本，从而能够方便进行分类和检索。例如，在医疗领域，医生在撰写患者的医案时，往往采用的是医生自己熟悉的自然语言来描述患者的病情、对应的症状的判断等描述性记录，但是对应的医学术语数据库中对于同样的病情、同样的症状通常只会分配一个特定的标准名称，因此，在这样的情况下，在对医院的经营进行管理时，就需要将例如医生用自然语言撰写的记录文本匹配到对应的数据库中的标准名称，从而能够实现使用大数据技术来管理患者的全部医疗数据。

例如，在医院或医疗管理机构进行医疗管理时，需要采用这样的大数据技术来进行各种医学统计，而这样的医学统计的一个重要的基础就是医疗术语标准化，即将上述医生在治疗过程中以自然语言书写的各种诊断或病情描述转换为使用标准名称的医学描述。但是在实际的临床医疗中，不同的医生对于同一种病情、同一种手术、同一种药品、检查，甚至同一种症状都按照自己的书写方式而会有不同的描述。在这样的情况下，医疗管理机构都会收集到大量的使用这样的自然语言撰写的医疗记录文本并需要基于这些医疗记录文本进行各项统计。

在现有技术中，需要将这些医疗记录文本与数据库中特定的标准名称进行匹配，以便于将这些医疗记录归类和统计。例如，在对患者进行分类时，通常使用诊断相关分类(DiagnosisRelatedGroups，DRG)来根据患者的住院天数、临床诊断、病症、手术、疾病严重程度、合并症与并发症等属性因素来将患者分类到500-600个分类组中。换言之，在医生日常为患者撰写的医疗病案中就会以医生习惯的自然语言将上述属性因素撰写为病案文本，从而在基于DRG的患者分类时，就需要将这些自然语言形式或者包括自然语言文本的病案文本匹配到预定的标准分类术语(即，标准化编码)。

但是，这样的匹配处理对于标准名称数据库具有较高的依赖性。例如，标准名称数据库中通常存储有各种自然语言的医案文本与标准名称之间的对应性。例如，作为标准名称的高血压可以对应有血压高、血压仪数值高等等各种自然语言形式的表述。因此，如果数据库中对于标准术语高血压仅记载有血压高这一个自然语言的对应关系，那么在面对匹配其他自然语言时就会导致匹配的准确率较低。为此，在现有技术中通常由人工根据标准名称数据库所使用的标准术语表对于采集到的大量自然语言的语料(例如，病案)手动进行对齐语料的生成，即人工标注。这样的方案显然需要大量的人力资源，特别是对于进行标注对齐的人员的专业素质也具有较高的要求，例如，进行标准对齐的人员不仅需要了解标准术语所对应的病种的含义和常见症状等信息，而且还需要能够快速读懂医生以各种自然语言形式撰写的病情描述的自然语言文本，特别是能够快速且正确地识别出对应的字段。因此，人工标注的方式不仅效率较低而且人力成本也较高。

因此，图1为本申请实施例提供的医案文本的处理方法的应用场景示意图。如图1中所示，可以从各种文本源获取各种自然语言形式撰写的病案文本。在本申请实施例中，这样获取的待处理文本包含有自然语言文本，即以自然语言撰写的病案文本。例如，在上述医疗管理领域，可以从存储病案的病案数据库、医学论文数据库或医院的管理平台或甚至医生的论坛等数据源来获取这样的自然语言的病案文本，并且通过对这样输入的待处理的医案文本进行例如结构化解析以将自然语言文本解析为包括标准名称实体和非标准名称实体的各种实体。在本申请实施例中，这些实体可以包含有标准名称实体和非标准名称实体。当然，在此之后还可以进一步对实体进行预处理，例如，可以识别并去除数字以及序号，例如，1、或(1)这样的文字，或者去除掉实体中包含的标点符号，例如，问号(？)，逗号(，)等等，或者还可以对解析完的实体进行进一步的解析拆分。例如，在对待处理的医案文本进行了结构化解析之后获得的实体中包括有“高血压+糖尿病”这样的拼接实体，因此可以进一步对这样的实体进行拆分。例如，可以拆分为“高血压”和“糖尿病”两个实体。因此，经过这样的预处理后的实体能够适合于在本申请实施例中进行检索和匹配处理。

例如，在本申请实施例中，可以直接将解析拆分后的实体或者经过了预处理的实体直接输入到标准名称数据库中来进行检索，以排除掉能够与标准名称直接匹配的自然语言实体。例如，有的医生在实际撰写时就已经习惯了使用标准名称来描述病情，因此这样的自然语言实体在实际使用时就能够直接与标准名称数据库中的标准名称进行匹配，从而就不需要再对这样的实体进行对齐标注。因此，在本申请实施例中，可以先从获取的医案文本中去除这些已经与标准名称一致的自然语言实体。

之后，在本申请实施例中，可以将这样获得的非标准名称实体输入到编码数据库中进行检索以获得与非标准名称实体对应的候选编码，并且进而利用这些候选编码在标准名称数据库中来进行搜索，查找与这样的非标准名称实体的候选编码相关的所有检索结果，并且可以对这些检索结果进行排序，例如，可以按照检索结果与对应实体的匹配度来进行排序并且选择排序前几个的检索结果作为对应的检索结果。即，在本申请实施例中，由于已经排除了与标准术语完全一致的自然语言实体，那么剩下的实体在实际匹配时都会遇到无法直接匹配或出现匹配错误的情况，因此，在本申请实施例中可以将这些实体在编码数据库中进行检索来获得对应的候选编码，并进而利用候选编码在标准名称数据库中进行搜索来获取相关的标准名称检索结果。在本申请实施例中，这些标准名称检索结果可以均与待处理的医案文本相关，并且可以按照相关性来排序并选择排名靠前的预定数目的标准术语作为候选。

特别地，在本申请实施例中，还可以通过获取与该待处理的医案文本相关的各种属性信息来确定选取的检索结果的数目。例如，在医疗领域，不同的医院的信息化程度会存在着差异，甚至同一个医院中的不同的医生的能力和习惯也存在着很大的差异。因此，考虑到这些差异性，在针对一个非标准实体搜索相关的标准名称时，可以根据这样的差异信息来调整所确定的检索结果的数目。例如，本申请实施例中，对于医院信息化程度较低的医院可以将确定的检索结果的数目设置为较大，例如100或200甚至更大，或者也可以进一步去计算该非标准实体与每个标准名称的差异度，并且当差异度大于预定的阈值或者与一定数目的标准名称的差异度均大于某个阈值时，则可以判定书写该非标准实体的医生的平时的书写习惯是不经常使用标准名称，因此就可以将该非标准实体的检索结果的数目设置为较大，例如100或200甚至更大。反之亦然，当医院信息化程度较高时，可以将该数目设置为较小，例如10或20甚至更低，并且当非标准实体与各个标准名称的差异度小于预定阈值时，可以判定该非标准实体所属的医生的平时的标准化术语习惯较好，因此可以将该非标准实体的检索结果的数目设置为较小，例如10或20甚至更小。

在获得了检索结果之后，根据本申请实施例，这些检索结果可以是与标准名称数据库中使用的标准术语一致的标准术语候选，则可以确定这些检索结果既是标准名称数据库中所使用的标准术语同时又与待处理字段具有较高的相关性，因此，该检索结果可以与该匹配数据组成一组对齐数据候选。

之后，可以通过计算该组对齐数据候选的统计信息来确定该组对齐数据候选是否可以作为合格的对齐数据来供标准名称数据库或者机器学习来使用。例如，在本申请实施例中，可以先计算非标准实体在预定的文本中的出现次数，并且再计算该组对齐数据候选在该预定的文本中出现的次数。即，统计所确定的标准术语候选与对应的非标准实体一起出现的次数。例如，如果一起出现的次数较多，则可以说明该非标准实体很可能就是经常用来描述该标准术语候选的。例如，在本申请实施例的方案中，针对“血压值较高”这个非标准实体确定了“高血压”这个标准术语候选，即将“血压值较高”与“高血压”组成了一组对齐数据候选，并且如果在预定的文本中存在“该患者的血压值较高，很可能是高血压患者”或者“该患者的血压值较高，可以先进行高血压治疗”等等的描述，则可以确定该组对齐数据候选“血压值较高”与“高血压”就是一组合格的对齐数据。

本申请实施例提供的医案文本的处理方案，通过在编码数据库中检索待处理的医案文本中非标准名称实体的可能对应的候选编码，在标准名称数据库中针对这些候选编码进行检索来寻找确定该非标准名称实体在标准名称数据库中被使用，在此基础上就可以根据这样确定的一对对齐候选对的统计信息来判断该对齐候选对中的非标准名称实体是否经常与该标准名称一起使用，从而可以为该非标准名称实体确定合格的标准名称。

因此，由于本申请实施例的医案文本的处理方案能够自动地根据输入的医案文本中的非标准名称实体来在编码数据库中确定匹配的候选编码并进而根据候选编码在标准名称数据库中查找对应的检索结果，从而可以根据检索结果与非标准名称实体组成的对齐候选对的统计信息来确定该非标准名称实体的标准名称，大大节省了人工标注的工作量，使得能够高效地进行医生在日常工作中使用各自习惯的书写习惯以自然语言书写的医案文本的标准化处理。尤其是各个公立医疗机构、私立医疗机构或者国家的医疗管理机构在实现电子病案的自动化管理过程中，能够通过技术授权或购买服务的方式来使用本申请实施例提供的医案文本的处理方案来高效地建立医案文本中大量的非标准实体与标准名称的对应关系，并以此为基础来进一步处理其接收到的医生撰写的医案内容的识别和医案管理工作。特别是如上所述，本申请实施例的医案文本的处理方案由于无需人工就能够从大量的医案文本或者甚至原始的医案文本中将识别出的非标准名称实体匹配到标准名称数据库中可能对应的标准名称，从而为那些还没有标注的非标准名称实体添加与可能的标准名称的匹配关系。这样建立的大量医案文本中的非标准名称实体与这些医疗机构或医疗管理机构所使用的的标准名称数据库中的标准名称的匹配关系对于医案文本的内容的识别和管理构成了非常重要的基础，能够实现高效且具有较高准确性的医案文本内容的识别，大大提高医疗管理人员对于医生等基层医疗人员的医疗工作的管理效率。

上述实施例是对本申请实施例的技术原理和示例性的应用框架的说明，下面通过多个实施例来进一步对本申请实施例具体技术方案进行详细描述。

实施例二

图2为本申请提供的医案文本的处理方法一个实施例的流程图，该方法的执行主体可以为具有文本处理能力的各种终端或服务器设备，也可以为集成在这些设备上的装置或芯片。如图2所示，该医案文本的处理方法包括如下步骤：

S201，获得待处理的医案文本。

步骤S201中可以从各种医案文本源获取各种自然语言形式撰写的医案文本。在本申请实施例中，这样获取的待处理的医案文本包含有自然语言的病案文本，即以自然语言撰写的医案文本。例如，在上述医疗管理领域，可以从存储病案的病案数据库、医学论文数据库或医院的管理平台或甚至医生的论坛等数据源来获取这样的自然语言的医案文本，并且通过对这样输入的待处理的医案文本进行例如结构化解析以将自然语言文本解析为包含有标准名称实体和非标准名称实体的各种实体。在本申请实施例中，医案文本可以包含有标准名称实体和非标准名称实体，即已经以标准名称数据库中的标准名称撰写的实体和没有以这样的标准名称撰写的实体。在本申请实施例中，可以直接将解析拆分后的实体或者经过了预处理的实体直接输入到标准名称据库中来进行检索，以排除掉能够与标准术语直接匹配的自然语言实体。例如，有的医生在实际撰写时就已经习惯了使用标准术语来描述病情，因此这样的自然语言实体在实际使用时就能够直接与标准名称数据库中的标准名称实体进行匹配，从而就不需要再对这样的实体进行对齐标注。因此，在本申请实施例中，可以先从获取的医案文本中去除这些已经与标准术语一致的自然语言实体，从而节省后续匹配检索处理的计算量。

S202，在编码数据库中进行检索，以获得与非标准名称实体相对应的候选编码。

本申请实施例中，可以将步骤S201中获得的非标准名称实体输入到编码库中来进行搜索，查找与非标准名称实体相关的候选编码作为在标准名称数据库中进行检索的基础。为了后续处理的便利性，可以只选择候选编码中的一部分进行检索。例如可以对全部的候选编码进行排序，例如可以按照候选编码与对应非标准名称实体的匹配度来进行排序并且选择排序前几个的候选编码作为对应的候选编码。

在本申请实施例中，由于已经排除了与标准术语完全一致的标准名称实体，那么剩下的非标准名称实体在实际匹配时都会遇到无法直接匹配或出现匹配错误的情况，因此，在本申请实施例中可以将这些非标准名称实体在编码数据库中进行搜索来获取相关的候选编码。在本申请实施例中，这些编码可以均与病案文本相关，并且可以按照相关性来排序并选择排名靠前的预定数目的候选编码作为候选。

特别地，在本申请实施例中，编码数据库可以是存储有特定行业的标准术语的编码数据库。

S203，利用候选编码在标准名称数据库中检索，获得多个检索结果。

在步骤S202获得了候选编码之后，根据本申请实施例，可以使用这些候选编码进一步确定该非标准名称实体与标准名称数据库中的哪些标准名称具有可能的对应性。在本申请实施例中，标准术语是标准名称数据库中可以使用的标准名称。例如，在本申请实施例中，标准名称数据库可以是存储有标准术语与自然语言字段的对应关系的数据库，从而例如医院管理系统的使用标准术语进行数据管理的行业平台可以通过该标准名称数据库来将自然语言书写的文本字段自动匹配到数据库中。

S204，将多个检索结果分别与非标准名称实体组成多个第一对齐候选对。

因此，在本申请实施例中，可以在步骤S204中将步骤S203中获得的检索结果，即与非标准名称实体相关的标准术语与该待处理字段组成一组对齐候选对。

S205，根据多个第一对齐候选对的统计信息确定非标准名称实体的标准名称。

在本申请实施例中，在步骤S204中通过将步骤S203中获得的与非标准名称实体相关的各个检索结果与非标准名称实体组成对齐候选对。因此在步骤S205中可以通过计算该对齐候选对的统计信息来确定该对齐候选对是否可以作为合格的标准名称来供标准名称数据库或者机器学习来使用。

本申请实施例提供的医案文本的处理方法，通过在编码数据库中检索待处理的医案文本中非标准名称实体的可能对应的候选编码，在标准名称数据库中针对这些候选编码进行检索来寻找确定该非标准名称实体在标准名称数据库中被使用，在此基础上就可以根据这样确定的一对对齐候选对的统计信息来判断该对齐候选对中的非标准名称实体是否经常与该标准名称一起使用，从而可以为该非标准名称实体确定合格的标准名称。

实施例三

图3为本申请提供的医案文本的处理方法另一个实施例的流程图。如图3所示，本实施例提供的医案文本的处理方法可以包括以下步骤：

S301，获取多个原始医案文本。

在本申请实施例中，待处理的医案文本来自于多个原始医案文本。可以从各种数据源来获取各种原始医案文本，这些原始医案文本可以是指定领域中的文本，也可以是根据给定的关键字从数据源获取的原始医案文本。在本申请实施例中，这样获取的原始医案文本可以包含有自然语言文本，即以自然语言撰写的病案文本。例如，在上述医疗管理领域，可以从存储病案的病案数据库、医学论文数据库或医院的管理平台或甚至医生的论坛等数据源来获取这样的自然语言文本。

S302，从原始医案文本中获取待处理的医案文本。

在步骤S301中获得了各种原始医案文本之后，在步骤S302可以从各种医案文本源获取各种自然语言形式撰写的医案文本。并且通过对这样输入的医案文本进行例如结构化解析以将自然语言文本解析为包含标准名称实体和非标准名称实体的各种实体。

在本申请实施例中，可以直接将解析拆分后的实体或者经过了预处理的实体直接输入到标准名称数据库中来进行检索，以排除掉能够与标准术语直接匹配的标准名称实体。例如，有的医生在实际撰写时就已经习惯了使用标准术语来描述病情，因此这样的自然语言实体在实际使用时就能够直接与标准名称数据库中的标准名称进行匹配，从而就不需要再对这样的实体进行对齐标注。因此，在本申请实施例中，可以先从获取的病案文本的实体中去除这些已经与标准术语一致的标准名称实体，从而可以节省后续匹配检索处理的计算量。

S303，从原始医案文本中获取待处理的医案文本在编码数据库中进行检索，以获得与非标准名称实体相对应的候选编码。

本申请实施例中，可以将步骤S302中获得的非标准名称实体输入到编码库中来进行搜索，查找与非标准名称实体相关的所有的候选编码。为了后续处理的便利性，可以只选择候选编码中的一部分作为后续执行标准名称检索所使用的编码。例如可以对全部的候选编码进行排序，例如可以按照候选编码与对应非标准名称实体的匹配度来进行排序并且选择排序前几个的候选编码作为标准名称检索使用的候选编码。

在本申请实施例中，由于已经排除了与标准术语完全一致的标准名称实体，那么剩下的非标准名称实体在实际匹配时都会遇到无法直接匹配或出现匹配错误的情况，因此，在本申请实施例中可以将这些非标准名称实体在编码数据库中进行搜索来获取相关的候选编码。在本申请实施例中，这些编码可以均与病案文本相关，并且可以按照相关性来排序并选择排名靠前的预定数目的编码作为候选，即获得候选编码。

特别地，在本申请实施例中，还可以通过获取与该待处理的字段相关的各种属性信息来确定选取的候选编码的数目。例如，在医疗领域，不同的医院的信息化程度会存在着差异，甚至同一个医院中的不同的医生的能力和习惯也存在着很大的差异。因此，考虑到这些差异性，在针对一个非标准名称实体搜索相关的编码时，可以根据这样的差异信息来调整所确定的候选编码的数目。例如，在本申请实施例的步骤S303中可以进一步包括：计算非标准名称实体与标准名称实体之间的差异度；根据差异度确定检索结果的数量。

因此，通过在检索到全部候选编码之后，计算非标准名称实体与标准名称实体之间的差异度，或者直接使用在检索时计算的与各个编码对应的标准名称的相关度，可以选择更适合的数目的候选编码。

例如，对于医院信息化程度较低的医院可以将确定的候选编码的数目设置为较大，例如100或200甚至更大，或者也可以进一步去计算非标准名称实体与标准名称实体之间的差异度，并且当差异度大于预定的阈值或者与一定数目的标准实体的差异度均大于某个阈值时，则可以判定书写该实体的医生的平时的书写习惯是不经常使用标准术语，因此就可以将该字段的候选编码的数目设置为较大，例如100或200甚至更大。反之亦然，当医院信息化程度较高时，可以将该数目设置为较小，例如10或20甚至更低，并且当非标准名称实体与标准名称实体之间的差异度小于预定阈值时，可以判定该实体所属的医生的平时的标准化术语习惯较好，因此可以将该实体的候选编码的数目设置为较小，例如10或20甚至更小。

S304，利用候选编码在标准名称数据库中检索，获得多个检索结果。

在步骤S303获得了候选编码之后，根据本申请实施例，可以使用这些候选编码来在标准名称数据库中检索以中进一步确定该非标准名称实体与哪个检索结果匹配，例如标准术语是标准名称数据库中可以使用的标准名称。例如，在本申请实施例中，标准名称数据库可以是存储有标准术语与自然语言字段的对应关系的数据库，从而例如医院管理系统的使用标准术语进行数据管理的行业平台可以通过该标准名称数据库来将自然语言书写的文本字段自动匹配到数据库中。

S305，将多个检索结果分别与非标准名称实体组成多个第一对齐候选对。

因此，在本申请实施例中，可以在步骤S305中将步骤S304中的各个检索结果，即与非标准名称实体相关的标准名称的检索结果该非标准名称实体组成一组对齐候选对。

S306，获取多个原始医案文本的来源信息。

S307，根据来源信息确定第一预设阈值。

S308，根据多个第一对齐候选对分别在多个原始医案文本中的统计信息确定非标准名称实体的标准名称。

在步骤S305中获得了可能可以在标准名称数据库中使用的对齐候选对之后，可以进一步在步骤S306中先获取步骤S301中获取的原始医案文本的来源信息，并且在步骤S307中根据该来源信息确定第一预设阈值，该预设阈值可以用于筛选对齐候选对。例如，如果原始医案文本都来自于一家医院并且该医院数字化程度较低，可以使用的原始医案文本，即病案较少，因此在该情况下，可以将该医院的阈值也设置为较低，以避免无法获得标准名称。

此外，对于步骤S308，本申请的医案文本的处理方法可以进一步包括：

S309，计算非标准名称实体在所有医案文本构成的医案数据库中的第一出现次数；

S310，计算第一对齐候选对在医案数据库中的第二出现次数；

S311，当第二出现次数与第一出现次数的比值大于第一预设阈值时，将第一对齐候选对确定为非标准名称实体的标准名称。

例如，在本申请实施例中，可以通过计算步骤S305中获得的对齐候选对在所有医案文本构成的医案数据库中的统计信息来确定该组对齐候选对是否可以作为合格的标准名称来供标准名称数据库或者机器学习来使用。

例如，在本申请实施例中，可以先计算非标准名称实体在医案数据库中的出现次数，并且再计算该非标准名称实体和与其一起组成对齐候选对的标准检索结果一起在医案数据库中的出现次数。即，统计步骤S304中确定的可以与非标准名称实体组成对齐候选对的标准检索结果与对应的非标准名称实体一起出现的次数。

例如，在本申请实施例中，医案数据库可以是本申请的医案文本的处理方案所能够应用的全部数据构成的数据库，也可以是步骤S301中获取的全部原始医案文本构成的数据库，或者也可以是操作者或运营方指定的预定医案文本构成的数据库。

因此，如果步骤S310中确定该非标准名称实体和与其一起组成对齐候选对的检索结果一起出现的次数较多，则可以说明该非标准名称实体很可能就是经常用来描述该检索结果的。例如，在本申请实施例的方案中，针对“血压值较高”这个非标准名称实体确定了“高血压”这个标准名称，即将“血压值较高”与“高血压”组成了一组对齐数据候选，并且如果在预定的医案文本中存在“该患者的血压值较高，很可能是高血压患者”或者“该患者的血压值较高，可以先进行高血压治疗”等等的描述，则可以在步骤S310中确定该组对齐数据候选“血压值较高”与“高血压”就是一组合格的对齐数据。

实施例四

图4为本申请提供的医案文本的处理装置一个实施例的结构示意图，可用于执行如图2和图3所示的方法步骤。如图4所示，该医案文本的处理装置可以包括：第一获取模块41、第一检索模块42、第二检索模块43、对齐候选对生成模块44和第一确定模块45。

第一获取模块41可以用于获得待处理的医案文本。

在本申请实施例中，医案文本的处理装置可以从各种文本源获取各种自然语言形式撰写的文本。例如在本申请实施例中，医案文本的处理装置可以包括第二获取模块46来从各种数据源或平台获取多个原始医案文本。特别是，第二获取模块46这样获取的待处理的医案文本包含有自然语言的病案文本，即以自然语言撰写的医案文本。例如，在上述医疗管理领域，可以从存储病案的病案数据库、医学论文数据库或医院的管理平台或甚至医生的论坛等数据源来获取这样的自然语言的医案文本，从而第一获取模块41可以通过对这样输入的待处理的医案文本进行例如结构化解析以将自然语言文本解析为包含有标准名称实体和非标准名称实体的各种实体。在本申请实施例中，可以直接将解析拆分后的实体或者经过了预处理的实体直接输入到标准名称据库中来进行检索，以排除掉能够与标准术语直接匹配的自然语言实体。例如，有的医生在实际撰写时就已经习惯了使用标准术语来描述病情，因此这样的自然语言实体在实际使用时就能够直接与标准名称数据库中的标准名称实体进行匹配，从而就不需要再对这样的实体进行对齐标注。因此，在本申请实施例中，可以先从获取的医案文本中去除这些已经与标准术语一致的自然语言实体，从而节省后续匹配检索处理的计算量。

第一检索模块42可以用于在编码数据库中进行检索，以获得与非标准名称实体相对应的候选编码。

本申请实施例中，第一检索模块42可以将第一获取模块41获得的与标准术语不同的非标准字段输入到编码数据库中来进行搜索，查找与非标准名称实体相关的所有候选编码。为了后续处理的便利性，可以只选择检索到的编码中的一部分作为候选编码。例如可以对全部的检索到的编码进行排序，例如可以按照编码与非标准名称实体的匹配度来进行排序并且选择排序前几个的编码作为对应的候选编码。

例如，本申请实施例的医案文本的处理装置可以进一步包括第一计算模块47和第二确定模块48。第一计算模块47可以用于计算非标准名称实体与标准名称实体之间的差异度。并且第二确定模块48可以用于根据差异度确定候选编码的数量。

因此，通过在检索到候选编码之后，由第一计算模块47计算非标准名称实体与标准名称之间的差异度，并且由第二确定模块48根据该差异度来确定预设数目或者直接使用在检索时计算的与各个标准术语的相关度来直接确定预设数目，第一检索模块42可以选择更适合的数目的编码候选。

例如，对于医院信息化程度较低的医院可以将确定的候选编码的数目设置为较大，例如100或200甚至更大，或者也可以进一步去计算该非标准名称实体与每个标准名称的差异度，并且当差异度大于预定的阈值或者与一定数目的标准名称的差异度均大于某个阈值时，则可以判定书写该非标准名称实体的医生的平时的书写习惯是不经常使用标准术语，因此就可以将该字段的候选编码的数目设置为较大，例如100或200甚至更大。反之亦然，当医院信息化程度较高时，可以将该数目设置为较小，例如10或20甚至更低，并且当非标准名称实体与各个标准术语的差异度小于预定阈值时，可以判定该实体所属的医生的平时的标准化术语习惯较好，因此可以将该非标准名称实体的候选编码的数目设置为较小，例如10或20甚至更小。

特别地，在本申请实施例中，还可以通过获取与该非标准名称实体相关的各种属性信息来确定选取的候选编码的数目。例如，在医疗领域，不同的医院的信息化程度会存在着差异，甚至同一个医院中的不同的医生的能力和习惯也存在着很大的差异。因此，考虑到这些差异性，在针对一个非标准名称实体搜索相关的编码时，也可以根据这样的差异信息来调整所确定的候选编码的数目。

在本申请实施例中，由于已经排除了与标准术语完全一致的标准名称实体，那么剩下的非标准名称实体在实际匹配时都会遇到无法直接匹配或出现匹配错误的情况，因此，在本申请实施例中可以将这些非标准名称实体在编码数据库中进行搜索来获取相关的编码。在本申请实施例中，这些编码可以均与非标准名称实体相关，并且可以按照相关性来排序并选择排名靠前的预定数目的编码作为候选，即获得候选编码。

特别地，在本申请实施例中，编码数据库可以是存储有特定行业的标准术语的标准字段数据库。

第二检索模块43可以用于利用候选编码在标准名称数据库中检索，获得多个检索结果。

在第一检索模块42获得了候选编码之后，根据本申请实施例，可以使用这些候选编码来在标准名称数据库中检索以中进一步确定该非标准名称实体与哪个检索结果匹配，例如标准术语是标准名称数据库中可以使用的标准名称。例如，在本申请实施例中，标准名称数据库可以是存储有标准术语与自然语言字段的对应关系的数据库，从而例如医院管理系统的使用标准术语进行数据管理的行业平台可以通过该标准名称数据库来将自然语言书写的文本字段自动匹配到数据库中。

对齐候选对生成模块44可以用于将多个检索结果分别与非标准名称实体组成多个第一对齐候选对。

因此，在本申请实施例中，对齐候选对生成模块44可以将第二检索模块43获得的各个检索结果与该非标准名称实体组成一组对齐候选对。

第一确定模块45可以用于根据多个第一对齐候选对的统计信息确定非标准名称实体的标准名称。

在本申请实施例中，对齐候选对生成模块44获得了标准名称数据库中可能使用的对齐候选对。因此第一确定模块45可以通过计算该对齐候选对的统计信息来确定该对齐候选对是否可以作为合格的标准名称来供标准名称数据库或者机器学习来使用。

本申请的医案文本的处理装置可以进一步包括：第三获取模块49和第三确定模块491。

第三获取模块49可以用于获取原始医案文本的来源信息。

第三确定模块491可以用于根据来源信息确定第一预设阈值。

因此，在对齐候选对生成模块44获得了可能可以在标准名称数据库中使用的对齐候选对之后，可以进一步通过第三获取模块49先获取第二获取模块46获取的原始医案文本的来源信息，并且第三确定模块491可以根据该来源信息确定第一预设阈值，该预设阈值可以用于第一确定模块45来挑选对齐候选对。例如，如果原始医案文本都来自于一家医院并且该医院数字化程度较低，可以使用的原始医案文本，即病案较少，因此在该情况下，可以将该医院的阈值也设置为较低，以避免无法获得标准名称。

此外，第一确定模块45可以包括：第一计算单元451、第二计算单元452和第一确定单元453。

第一计算单元451可以用于计算非标准名称实体在全量数据中的第一出现次数；

第二计算单元452可以用于计算第一对齐候选对在全量数据中的第二出现次数；

第一确定单元453可以用于当所述第二出现次数与所述第一出现次数的比值大于第一预设阈值时，将所述第一对齐候选对确定为非标准名称实体的标准名称。

例如，在本申请实施例中，第一计算单元451可以计算对齐候选对生成模块44获得的对齐候选对在所有医案文本构成的医案数据库中的统计信息来确定该组对齐候选对是否可以作为合格的标准名称来供标准名称数据库或者机器学习来使用。

例如，在本申请实施例中，可以先计算非标准名称实体在医案数据库中的出现次数，并且再计算该非标准名称实体和与其一起组成对齐候选对的标准检索结果一起在医案数据库中的出现次数。即，统计对齐候选对生成模块44确定的可以与非标准名称实体组成对齐候选对的标准检索结果与对应的非标准名称实体一起出现的次数。

例如，在本申请实施例中，医案数据库可以是本申请的医案文本的处理方案所能够应用的全部数据构成的数据库，也可以是第二获取模块46获取的全部原始医案文本构成的数据库，或者也可以是操作者或运营方指定的预定医案文本构成的数据库。

因此，如果第一确定单元453确定该非标准名称实体和与其一起组成对齐候选对的检索结果一起出现的次数较多，则可以说明该非标准名称实体很可能就是经常用来描述该检索结果的。例如，在本申请实施例的方案中，针对“血压值较高”这个非标准名称实体确定了“高血压”这个标准名称，即将“血压值较高”与“高血压”组成了一组对齐数据候选，并且如果在预定的病案文本中存在“该患者的血压值较高，很可能是高血压患者”或者“该患者的血压值较高，可以先进行高血压治疗”等等的描述，则第一确定单元453可以确定该组对齐数据候选“血压值较高”与“高血压”就是一组合格的对齐数据。

本申请实施例提供的医案文本的处理装置，通过在编码数据库中检索待处理的医案文本中非标准名称实体的可能对应的候选编码，在标准名称数据库中针对这些候选编码进行检索来寻找确定该非标准名称实体在标准名称数据库中被使用，在此基础上就可以根据这样确定的一对对齐候选对的统计信息来判断该对齐候选对中的非标准名称实体是否经常与该标准名称一起使用，从而可以为该非标准名称实体确定合格的标准名称。

实施例五

以上描述了医案文本的处理装置的内部功能和结构，该医案文本的处理装置可以实现为一种电子设备。图5为本申请提供的电子设备实施例的结构示意图。如图5所示，该电子设备包括存储器51和处理器52。

存储器51，用于存储程序。除上述程序之外，存储器51还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器51，不仅仅局限于中央处理器(CPU)，还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片。处理器52，与存储器51耦合，执行存储器51所存储的程序，该程序运行时执行上述实施例二或三的医案文本的处理方法。

进一步，如图5所示，电子设备还可以包括：通信组件53、电源组件54、音频组件55、显示器56等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

通信组件53被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件53经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件53还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件54，为电子设备的各种组件提供电力。电源组件54可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件55被配置为输出和/或输入音频信号。例如，音频组件55包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器51或经由通信组件53发送。在一些实施例中，音频组件55还包括一个扬声器，用于输出音频信号。

显示器56包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种医案文本的处理方法，包括：

2.根据权利要求1所述的医案文本的处理方法，其中，所述方法进一步包括：

计算所述非标准名称实体与所述标准名称实体之间的差异度；

根据所述差异度确定所述检索结果的数量。

3.根据权利要求1所述的医案文本的处理方法，其中，所述根据所述多个第一对齐候选对的统计信息确定所述非标准名称实体的标准名称，包括：

计算所述非标准名称实体在所有医案文本构成的医案数据库中的第一出现次数；

计算所述第一对齐候选对在所述医案数据库中的第二出现次数；

当所述第二出现次数与所述第一出现次数的比值大于第一预设阈值时，将所述第一对齐候选对中的检索结果确定为所述非标准名称实体的标准名称。

4.根据权利要求1所述的医案文本的处理方法，其中，所述方法进一步包括：获取多个原始医案文本，所述待处理的医案文本来自于所述多个原始医案文本；

所述根据所述多个第一对齐候选对的统计信息确定所述非标准名称实体的标准名称包括：

根据所述多个第一对齐候选对分别在所述多个原始医案文本中的统计信息确定所述非标准名称实体的标准名称。

5.根据权利要求3所述的医案文本的处理方法，其中，所述医案文本的处理方法进一步包括：

获取所述多个原始医案文本的来源信息；

根据所述来源信息确定所述第一预设阈值。

6.一种医案文本的处理装置，包括：

7.根据权利要求6所述的医案文本的处理装置，其中，所述医案文本的处理装置进一步包括：

第一计算模块，用于计算所述非标准名称实体与所述标准名称实体之间的差异度；

第二确定模块，用于根据所述差异度确定所述检索结果的数量。

8.根据权利要求6所述的医案文本的处理方法，其中，所述第一确定模块包括：

第一计算单元，用于计算所述非标准名称实体在所有医案文本构成的医案数据库中的第一出现次数；

第二计算单元，用于计算所述第一对齐候选对在所述医案数据库中的第二出现次数；

第一确定单元，用于当所述第二出现次数与所述第一出现次数的比值大于第一预设阈值时，将所述第一对齐候选对中的检索结果确定为所述非标准名称实体的标准名称。

9.一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行如权利要求1至5中任一所述的医案文本的处理方法。

10.一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如权利要求1至5中任一所述的医案文本的处理方法。