CN114758742A

CN114758742A - 病历信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN114758742A
Application number: CN202210355387.7A
Authority: CN
Inventors: 胡意仪; 阮晓雯; 陈远旭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-15

Abstract

本申请提供了一种病历信息处理方法、装置、电子设备及存储介质，该方法包括：获取目标病历信息；提取所述目标病历信息中的目标症状特征；确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，所述预设参照人群为具有同类疾病类型的人群；基于每个所述相似度以及第一预设相似度条件，在所有所述预设参照人群中搜索与所述目标症状特征匹配的目标参照人群；根据所述目标参照人群对应的疾病类型，确定诊断结果。本申请实施例能够提高疾病预测的速度。

Description

病历信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数字医疗领域，具体涉及一种病历信息处理方法、装置、电子设备及存储介质。

背景技术

随着数字化疾病预测技术的发展，常规的疾病预测建模方法是收集患者信息、病历以及诊断结果，构建多分类模型。其中，在疾病种类较多的情况下，参数量较大且不断增长，进行疾病预测时，所耗费的性能较大，多分类模型并行预测导致预测速度慢，无法及时响应快速实现疾病预测的需求。

发明内容

本申请的一个目的在于提出一种病历信息处理方法、装置、电子设备及存储介质，旨在解决疾病预测的速度慢的技术问题。

根据本申请实施例的一方面，公开了一种病历信息处理方法，所述方法包括：

获取目标病历信息；

提取所述目标病历信息中的目标症状特征；

确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，所述预设参照人群为具有同类疾病类型的人群；

基于每个所述相似度以及第一预设相似度条件，在所有所述预设参照人群中搜索与所述目标症状特征匹配的目标参照人群；

根据所述目标参照人群对应的疾病类型，确定诊断结果。

作为一种可选的实施方式，在本申请实施例第一方面中，所述方法还包括：

获取每种所述疾病类型对应的每种诊断类型的症状信息，所述诊断类型包括问诊、望诊、闻诊以及切诊，所述疾病类型包括疾病证型；

分别根据每种所述疾病类型对应的每种所述诊断类型的症状信息，构建每种所述疾病类型对应的每种所述诊断类型的症状特征集合；

分别对每种所述疾病类型对应的每种所述诊断类型的症状特征集合进行组合，得到每种所述疾病类型对应的参照体集合，所述参照体集合包括与所述疾病类型对应的所述预设症状特征。

作为一种可选的实施方式，在本申请实施例第一方面中，所述获取每种所述疾病类型对应的每种诊断类型的症状信息的步骤包括：

针对每种所述疾病类型，在历史诊断数据中搜索每种所述诊断类型的预设症状特征匹配的历史病历数据；

针对每种所述疾病类型，从所述每种诊断类型的预设症状特征匹配的历史病历数据中，提取每种所述诊断类型对应的原始信息，所述原始信息包括与所述问诊对应的病历段落、与所述望诊对应的图像、与所述闻诊对应的音频以及与所述切诊对应的脉冲信号；

在每种疾病类型对应的每种所述诊断类型的所述原始信息中，选取每种所述疾病类型对应的每种诊断类型的症状信息。

作为一种可选的实施方式，在本申请实施例第一方面中，所述在每种疾病类型对应的每种所述诊断类型的所述原始信息中，选取每种所述疾病类型对应的每种诊断类型的症状信息的步骤包括：

采用词频逆文件频率TFIDF算法分别将疾病类型对应的每种所述诊断类型的原始信息转换为第一向量；

采用词频逆文件频率TFIDF算法分别将每个所述预设症状特征转换为第二向量；

采用最佳匹配BM25算法对所述第一向量以及所述第二向量的相似度进行排序，得到排序信息；

针对每种疾病类型的每种诊断类型，基于所述排序信息选取相似度最高的预设数量个所述原始信息作为所述症状信息。

作为一种可选的实施方式，在本申请实施例第一方面中，所述分别对每种所述疾病类型对应的所有诊断类型的症状特征集合进行组合，得到每种疾病类型对应的参照体集合的步骤包括：

分别针对每种所述疾病类型对应的所有症状特征集合计算笛卡尔积组合，得到每个所述疾病类型对应的典型症状组合；

根据每种疾病类型的历史病历数据与所述典型症状组合的相似度，在每种所述疾病类型的所述典型症状组合中筛选所述相似度符合第二预设相似度条件的目标症状组合；

将每种所述疾病类型对应的所述目标症状组合，确定为每种所述疾病类型对应的所述参照体集合。

作为一种可选的实施方式，在本申请实施例第一方面中，所述分别对每种所述疾病类型对应的每种所述诊断类型的症状特征集合进行组合，得到每种所述疾病类型对应的参照体集合的步骤之后，还包括：

将所有所述疾病类型对应的所述参照体集合输入至预训练模型，所述预训练模型包括两个不同的Dropout Mask，所述预训练模型还包括预设损失函数，所述预设损失函数用于使得同种所述疾病类型的上下文向量表示的语义距离变近，并使得不同种疾病类型的上下文向量表示的语义距离变远；

在所述预训练模型的损失函数收敛时，根据所述预训练模型的输出数据，确定每种所述疾病类型对应的参照体集合的第三向量；

所述确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度的步骤，包括：

将所述目标症状特征转换为第四向量；

根据所述第四向量与每个所述第三向量的相似度，确定每种所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度。

获取疾病类型的种类信息；

基于所述种类信息，在图书数据中搜索每种所述疾病类型对应的文字段落；

从每种所述疾病类型对应的文字段落中，抽取每种疾病类型对应的四诊症状实体，所述四诊症状实体包括问诊症状实体、闻诊症状实体、望诊症状实体以及切诊症状实体；

根据每种疾病类型对应的四诊症状实体，确定每种疾病类型对应的预设症状特征。

本申请实施例第二方面公开了一种病历信息处理装置，所述装置包括：

获取模块，用于获取目标病历信息；

提取模块，提取所述目标病历信息中的目标症状特征；

相似度确定模块，确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，所述预设参照人群为具有同类疾病类型的人群；

搜索模块，基于每个所述相似度以及预设相似度条件，在所有所述预设参照人群中搜索与所述目标症状特征匹配的目标参照人群；

诊断结果确定模块，根据所述目标参照人群对应的疾病类型，确定诊断结果。

本申请实施例第三方面公开了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现第一方面公开的病历信息处理方法。

本申请实施例第四方面公开了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令是的计算机执行本申请第一方面公开的病历信息处理方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请所提供的病历信息处理方法包括如下步骤：获取目标病历信息；提取所述目标病历信息中的目标症状特征；确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，所述预设参照人群为具有同类疾病类型的人群；基于每个所述相似度以及第一预设相似度条件，在所有所述预设参照人群中搜索与所述目标症状特征匹配的目标参照人群；根据所述目标参照人群对应的疾病类型，确定诊断结果。

此方法下，通过病历信息中的目标症状特征，与每个预设参照人群所具有的预设症状特征之间的相似度，搜索出相似的目标参照人群，该目标参照人群所具有的预设症状特征与目标症状特征相似，从而能够基于目标参照人群对应的疾病类型，得到诊断结果。从而采用上述方式即可结合病历信息中的症状预测相对应的疾病类型，由于匹配相似的目标参照人群的过程实际是基于计算相似度的方式得到的，计算相似度的过程具有速度快的特点，因而能够快速实现疾病诊断。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参考附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。

图1示出了根据本申请实施例的一种电子设备的结构示意图；

图2示出了根据本申请实施例的一种病历信息处理方法的流程示意图；

图3示出了根据本申请实施例的另一种病历信息处理方法的流程示意图；

图4示出了本申请实施例三涉及的问诊类型对应的匹配典型参照体症状特征的过程；

图5示出了本申请实施例三涉及的训练得到参照体集合的向量表示的部分过程；

图6示出了根据本申请实施例的另一种病历信息处理方法的流程示意图；

图7示出了根据本申请实施例的一种病历信息处理装置的架构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本申请的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

实施例一

本申请的实施环境可以是电子设备。

下面参考图1来描述根据本申请实施例的电子设备10。图1显示的电子设备10仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图1所示，电子设备10以通用计算设备的形式表现。电子设备10的组件可以包括但不限于：上述至少一个处理单元110、上述至少一个存储单元120、连接不同系统组件(包括存储单元120和处理单元110)的总线130。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元110执行，使得所述处理单元110执行本说明书上述示例性方法的描述部分中描述的根据本申请各种示例性实施方式的步骤。例如，所述处理单元110可以执行如图2中所示的各个步骤。

存储单元120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1201和/或高速缓存存储单元1202，还可以进一步包括只读存储单元(ROM)1203。

存储单元120还可以包括具有一组(至少一个)程序模块1205的程序/实用工具1204，这样的程序模块1205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备10也可以与一个或多个外部设备200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备10交互的设备通信，和/或与使得该电子设备10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口150进行。输入/输出(I/O)接口150与显示单元140相连。并且，电子设备10还可以通过网络适配器160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器160通过总线130与电子设备10的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备10使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

实施例二

请参阅图2，图2是本申请实施例公开的一种病历信息处理方法的流程示意图。如图2所示该病历信息处理方法可以包括如下步骤：

S301、获取目标病历信息；

本申请实施例中，通过对目标病历信息进行处理以预测疾病的诊断结果。其中，在进行疾病预测时，示例性技术中通过对所有病种建立分类模型，将症状特征输入分类模型中预测得到病种，其技术实现的主要思想是“正向预测”。这种“正向预测”的思想由于存在并行预测的工程问题导致预测速度较慢，无法及时响应疾病预测的需求，为了提高预测速度，本实施例采用了“逆向特征对齐”的思想，实现诊断结果的预测。具体而言，本实施例先根据目标症状特征与预设症状特征之间的相似度，逆向搜索出具有与目标症状特征相似症状的预设参照人群，再根据预设参照人群的疾病类型确定诊断结果。“特征对齐”则要求目标症状特征与预设症状特征之间的相似度满足第一预设相似度条件。由于计算相似度的过程速度较快，不需要针对每一个病种建立分类模型，其对疾病信息进行预测得到诊断结果的速度及效率更高。

目标病历信息是用于预测诊断结果的病历信息。目标病历信息可以是电子病历信息。目标病历信息可以包括中医类病历信息和/或西医类病历信息。

作为一种可选的实施方式，电子设备可以通过计算机网络从其它用户终端接收目标病历信息。比如，用户通过智能手机的在线诊断功能进行在线问诊，其通过智能手机输入病历信息，包括症状、年龄、性别等，输入完成后智能手机将病历发送至电子设备，电子设备接收用户终端发送的病历信息后，将该病历信息作为目标病历信息。此实施方式中，电子设备可以是具有显示功能的终端设备，或者，也可以是不具有显示功能的服务器。

作为一种可选的实施方式，电子设备可以根据其连接的外部设备输入的数据得到目标病历信息。比如，电子设备与键盘连接以获取由用户输入的症状信息，以及与检测设备连接以获取检测设备检测的用户的体征信息，体征信息比如心率信息、脉细信息等，根据用户输入的症状信息，以及检测设备检测的用户的体征信息，处理后得到目标病历信息。

作为一种可选的实施方式，电子设备可以从云服务器中获取存储在云服务器的目标病历信息。

目标病历信息中除了包括症状信息以外，还可以包括患者的基本信息。

S302、提取所述目标病历信息中的目标症状特征；

目标症状特征是用于搜索同类疾病类型的人群的症状特征。症状特征可以是疾病的临床分类中的症状，也可以是常用的症状描述术语。比如，在中医领域，症状包括舌红、声音嘶哑、胃灼烧痛、饥不欲食、五心烦热、口渴、消瘦、乏力、便秘、脉细数等。

作为一种可选的实施方式，目标病历信息中每个症状具有描述信息，以直接根据描述信息提取目标病历信息中的症状，比如，目标病历信息中包括“症状”的元数据，通过该元数据确定并提取对应的症状特征，得到目标症状特征。

作为一种可选的实施方式，可以采用识别算法识别目标病历信息中的症状特征，以得到目标症状特征。

作为一种可选的实施方式，可以将目标病历信息与预设症状词典进行匹配，从预设症状词典中搜索出与标准症状相同的关键词，得到目标症状特征。

S303、确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，所述预设参照人群为具有同类疾病类型的人群；

疾病类型可以是中医领域划分的疾病的类型，或者西医领域划分的疾病的类型。其中，在中医领域，疾病类型可以是疾病证型。预设症状特征是预先设定的预设参照人群具有的症状特征。预设参照人群关联有对应的疾病类型，且预设参照人群与疾病类型的预设对应关系预先保存。

作为一种可选的实施方式，为了便于计算相似度，可以将目标症状特征以及预设症状特征转换为向量形式，并根据目标症状特征以及预设症状特征的向量形式计算相似度。

作为一种可选的实施方式，可以从所有患者的历史病历信息中提取历史症状特征，并根据所有患者的历史症状特征得到预设症状特征。

作为一种可选的实施方式，可以将所有预设参照人群的预设症状特征构建为集合的形式，并将集合转换为向量表示，根据该集合的向量表示与目标症状特征对应的向量，计算相似度。

作为一种可选的实施方式，具体可以采用K-邻近(K-Nearest Neighbor，KNN)算法计算目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度。

作为一种可选的实施方式，可以采用近似最近距离(Approximate NearestNeighbor，ANN)算法计算目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度。ANN算法的速度更快。

S304、基于每个所述相似度以及第一预设相似度条件，在所有所述预设参照人群中搜索与所述目标症状特征匹配的目标参照人群；

第一预设相似度条件是预先设定的用于查找具有与目标症状特征相似症状的患者群体的条件。目标参照人群是预测的具有与目标症状特征相似症状的患者群体。

若相似度满足第一预设相似度条件，则该相似度对应的预设参照人群即为目标参照人群。

作为一种可选的实施方式，第一预设相似度条件为：在所有相似度中为最高的相似度。则最高相似度对应的预设参照人群为目标参照人群。

作为一种可选的实施方式，第一预设相似度条件为：在所有相似度中，相似度从大至小排序，排序在前的预设数量个相似度，预设数量大于或者等于2。则多个排序在前的多个相似度对应的多个预设参照人群均为目标参照人群。

S305、根据所述目标参照人群对应的疾病类型，确定诊断结果。

诊断结果包括疾病类型。此外，在确定诊断结果之后，还可以显示诊断结果，和/或，发送诊断结果至用户终端。

在一具体场景中，采集患者的病历信息，病历信息包括多种诊断类型的数据，分别为：输入的症状相关的文字信息、拍摄的患者身体特征的图像、录制的患者的声音以及检测的患者的脉冲信号，从病历信息中提取出目标症状特征，包括：舌红、声音嘶哑、胃灼烧痛、饥不欲食、五心烦热、口渴、脉细数。采用传统KNN算法计算该目标症状特征与参照体集合之间的余弦相似度。其中，参照体集合为所有患者的症状构成的集合。参照体集合用于表征抽象的患者群体，且参照体集合中包括每个同类疾病类型的患者群体所共同具有的症状特征。输出K近邻中标签支持数最多的疾病类型作为诊断结果，该疾病类型为胃痛-胃阴亏虚。其中，采用KNN容易进行内存结构的优化，保障运行效率，提高预测诊断结果的效率和速度。

在本实施例中，通过病历信息中的目标症状特征，与每个预设参照人群所具有的预设症状特征之间的相似度，搜索出相似的目标参照人群，该目标参照人群所具有的预设症状特征与目标症状特征相似，从而能够基于目标参照人群对应的疾病类型，得到诊断结果。从而采用上述方式即可结合病历信息中的症状预测相对应的疾病类型，由于匹配相似的目标参照人群的过程实际是基于计算相似度的方式得到的，计算相似度的过程具有速度快的特点，因而能够快速实现疾病诊断。

实施例三

请参阅图3，图3是本申请实施例公开的另一种病历信息处理方法的流程示意图。如图3所示，该病历信息处理方法可以包括以下步骤：

S401、获取每种所述疾病类型对应的每种诊断类型的症状信息，所述诊断类型包括问诊、望诊、闻诊以及切诊，所述疾病类型包括疾病证型；

在中医领域，疾病类型包括疾病证型。本实施例中，采用“逆向特征对齐”的思想，基于中医领域“望闻问切”四种诊断类型的症状特征，将患者的症状与每种诊断类型的症状特征进行匹配，以匹配具有代表性的参照体，参照体指预设参照人群，并根据参照体的疾病证型确定诊断结果。采用此方式，能够提高中医领域疾病诊断的速度，由于没有采用多分类模型进行疾病预测，从而避免多分类模型的并行预测导致的预测速度慢的问题。

本实施例中，为了便于计算相似度以及搜索目标参照人群，采用每种疾病类型对应的参照体集合，表征每种疾病类型对应的预设参照人群的预设症状特征，参照体集合还用于抽象表征参照患者群体，且每个参照患者群体具有与某种特定疾病证型对应的症状特征。本实施例中，具体阐述参照体集合的构建方式。

作为一种可选的实施方式，所获取的症状信息还可以是问诊、望诊、闻诊以及切诊中的部分诊断类型对应的症状信息，比如，仅采用某一种诊断类型的症状信息，或者采用某三种诊断类型的症状信息。

作为一种可选的实施方式，步骤S401包括：针对每种所述疾病类型，在历史诊断数据中搜索每种所述诊断类型的预设症状特征匹配的历史病历数据；针对每种所述疾病类型，从所述每种诊断类型的预设症状特征匹配的历史病历数据中，提取每种所述诊断类型对应的原始信息，所述原始信息包括与所述问诊对应的病历段落、与所述望诊对应的图像、与所述闻诊对应的音频以及与所述切诊对应的脉冲信号；在每种疾病类型对应的每种所述诊断类型的所述原始信息中，选取每种所述疾病类型对应的每种诊断类型的症状信息。

历史诊断数据是历史诊断业务中记录的对患者诊断的数据。历史病历数据是与患者对应的历史诊断数据中的病历数据。原始信息是历史诊断数据中已有的信息。若历史病例数据中包括文字段落，则从所有文字段落中搜索问诊对应的病历段落。图像用于指示通过望诊得到的信息。音频用于指示通过闻诊得到的信息。脉冲信号用于表示通过切诊得到的信息。

在一具体场景中，对于某一种疾病证型，从历史积累的海量诊断业务数据中，根据预设症状特征，搜索每一个具有单诊典型症状的患者病历数据，单诊典型症状具体为某种诊断类型的预设症状特征，并且，每个患者病历数据均对应有患者的疾病证型，从而得到与该疾病证型对应的每种诊断类型的原始信息，原始信息包括与预设症状特征匹配的病历段落、照片、声音以及脉冲信号的多媒体文件。

此外，还可以获取患者的年龄、性别等基础信息。对于某个患者而言，其对应的信息可表示为：

s＝(gender,age,type,value,link_file,link_text,score)；

s表示患者，gender表示性别，age表示年龄，type表示诊断类型，value表示症状的具体信息，比如：灼痛、脉细，link_file表示症状关联的图像、声音以及信号文件，link_text表示症状关联的病历文本内容，score表示相似度。

作为一种可选的实施方式，在每种疾病类型对应的每种所述诊断类型的所述原始信息中，选取每种所述疾病类型对应的每种诊断类型的症状信息，包括：采用词频逆文件频率(Term Frequency–inverse Document Frequency，TFIDF)算法分别将疾病类型对应的每种所述诊断类型的原始信息转换为第一向量，以及将每个所述预设症状特征转换为第二向量，并采用TFIDF算法对第一向量以及第二向量的相似度进行排序，根据排序在前的多条记录得到每种疾病类型对应的每种诊断类型的症状信息。

作为一种可选的实施方式，在每种疾病类型对应的每种所述诊断类型的所述原始信息中，选取每种所述疾病类型对应的每种诊断类型的症状信息，包括：采用词频逆文件频率TFIDF算法分别将疾病类型对应的每种所述诊断类型的原始信息转换为第一向量；采用词频逆文件频率TFIDF算法分别将每个所述预设症状特征转换为第二向量；采用最佳匹配BM25算法对所述第一向量以及所述第二向量的相似度进行排序，得到排序信息；针对每种疾病类型的每种诊断类型，基于所述排序信息选取相似度最高的预设数量个所述原始信息作为所述症状信息。其中，首先通过TFIDF转化得到第一向量以及第二向量，继而采用最佳匹配(Best Matching，BM)25算法对第一向量以及第二向量的相似度进行排序，得到排序信息，并基于排序信息，选取相似度最高的预设数量个原始信息作为症状信息。

第一向量为原始信息的向量表示。第二向量为预设症状特征的向量表示。排序信息是相似度从大至小或者从小至大进行排序的信息。

在一具体场景中，为了搜索典型参照体症状特征，问诊、望诊、闻诊以及脉诊的单诊嵌入编码模块将文字、图片、语音以及脉冲信号分别转化为向量形式，单诊嵌入编码模块可以使用较高召回的相似度匹配算法。

如图4所示，问诊嵌入表示模块采用TFIDF算法将数据中的患者病历和典型参照体症状特征分别转换为向量形式，接着采用BM25算法进行排序评分，从数据中召回BM25得分最高的TOP N条记录，N为正整数。其中，典型参照体症状特征即为预设症状特征。转换患者病历为向量形式时，主要将患者病历中的目标症状特征转换为向量形式。图4中示出了问诊类型对应的匹配典型参照体症状特征的过程，闻诊、望诊以及切诊对应的匹配典型参照体症状特征的过程原理相同。

S402、分别根据每种所述疾病类型对应的每种所述诊断类型的症状信息，构建每种所述疾病类型对应的每种所述诊断类型的症状特征集合；

症状特征集合为由一种诊断类型对应的预设症状特征组成的集合。比如，针对胃痛-胃阴亏虚的疾病证型，分别针对该疾病证型下闻诊、望诊、问诊以及切诊得到症状特征集合S1、S2、S3、S4，其中：

S1＝{s_i│s_i.type＝闻}；S2＝{s_i│s_i.type＝望}；

S3＝{s_i│s_i.type＝问}；S4＝{s_i│s_i.type＝切}，s_i表示症状信息。

S403、分别对每种所述疾病类型对应的每种所述诊断类型的症状特征集合进行组合，得到每种疾病类型对应的参照体集合，所述参照体集合包括与所述疾病类型对应的所述预设症状特征；

参照体集合用于表示抽象的患者，或者称作虚拟参照体，虚拟参照体可以用于表征某种疾病类型下具有典型诊断意义的病人。通过将某种疾病类型的症状特征集合进行组合，可以得到该种疾病类型的参照体集合，以采用参照体集合表征某种疾病类型下的患者群体。进一步可以采用逆向搜索与所要诊断的病人具有相似症状的患者群体，并根据具有相似症状的患者群体的疾病类型确定诊断结果。由于疾病类型存在多个，参照体集合也存在多个。

作为一种可选的实施方式，对某种疾病类型下的症状特征集合之间进行组合时，可以在该疾病类型下部分诊断类型的症状特征集合之间进行组合，也可以在该疾病类型下所有诊断类型的症状特征集合之间进行组合，并得到参照体集合。

作为一种可选的实施方式，为了得到更具代表性，能够代表某种疾病类型的参照体集合，步骤S403包括：分别针对每种所述疾病类型对应的所有症状特征集合计算笛卡尔积组合，得到每个所述疾病类型对应的典型症状组合；根据每种疾病类型的历史病历数据与所述典型症状组合的相似度，在每种所述疾病类型的所述典型症状组合中筛选所述相似度符合第二预设相似度条件的目标症状组合；将每种所述疾病类型对应的所述目标症状组合，确定为每种所述疾病类型对应的所述参照体集合。

典型症状组合为根据笛卡尔积组合得到的组合。第二预设相似度条件是用于筛选高置信度的典型症状组合的条件。第二预设相似度条件可以是：在所有相似度中的最高相似度，或者，在所有相似度的排序中排序在前的多个相似度，或者，相似度大于预设相似度。

笛卡尔积组合可以表示为：C＝S1×S2×S3×S4。由于笛卡尔积组合可产生排列组合数量过大，在实际应用中，仅针对相似度较高的子集生成高置信度的组合，或者，通过任意两种诊断类型或者三种诊断类型的症状特征组合计算笛卡尔积组合，以便于提高生成参照体集合的速度。生成所有疾病类型对应的参照体数据库，参照体数据库采用DB表示，DB为：

DB＝{<d_i,C_i>│i∈D}；

D为所有疾病类型。Ci为第i种疾病类型对应的参照体集合。

S404～S408。步骤S404～S408与实施例二中所描述的步骤S301～S305相同，本实施例不做赘述。

本实施中，步骤S401～S403用于得到参照体集合，以便于采用参照体集合以及目标症状特征得到目标参照人群对应的疾病类型，在实际应用中，只需要提前构建参照体集合即可在每次执行步骤S403～S408时利用参照体集合，而不需要每次确定诊断结果时均重新构建参照体集合。

作为一种可选的实施方式，确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，包括：确定目标症状特征与每种疾病类型对应的参照体集合的相似度，以将该相似度作为目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度。此外，满足第一预设相似度条件的相似度对应的参照体集合为目标参照体集合，该目标参照体集合对应的疾病类型即为目标参照人群对应的疾病类型。

作为一种可选的实施方式，步骤S403之后，还包括：

将所有所述疾病类型对应的所述参照体集合输入至预训练模型，所述预训练模型包括两个不同的Dropout Mask，所述预训练模型还包括预设损失函数，所述预设损失函数用于使得同种所述疾病类型的上下文向量表示的语义距离变近，并使得不同种疾病类型的上下文向量表示的语义距离变远；在所述预训练模型的损失函数收敛时，根据所述预训练模型的输出数据，确定每种所述疾病类型对应的参照体集合的第三向量；所述确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度的步骤，包括：将所述目标症状特征转换为第四向量；根据所述第四向量与每个所述第三向量的相似度，确定每种所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度。

第三向量是参照体集合的向量表示。第四向量是目标症状特征的向量表示。

为了得到更准确的参照体画像表示，以及便于对参照体进行检索，还可以采用所有疾病类型对应的参照体集合DB作为训练数据，采用对比学习技术，得到每种疾病类型的参照体集合的向量表示。转化为向量表示还有利于计算相似度。

参照图5所示，图5为采用中医领域望闻问切四种诊断类型的预设症状特征作为训练数据，对预训练模型进行训练，以得到参照体集合的向量表示的部分过程。其中，采用对比学习技术对相同的输入设置不同的Dropout Mask，等同于对同一输入产生一组噪声样本对，训练的目标是使得一组噪声样本对之间的距离接近。基于中医领域的特定性质，BERTEncoder进行了改进，去除了positional embedding层，其原因在于，中医领域四种诊断类型之间的先后顺序并不重要。此外，BERT Encoder可以替换为任意的预训练模型。

损失函数的定义为：

其中，N为训练的一个批Batch中的样本数量，h_i,

分别为经过随机Dropout Mask之后的上下文你向量表示，cosin表示余弦相似度，h_i ^-则表示同一个训练批次中的任意一种其它疾病-证型的上下文向量表示。训练的优化目标即为让同一种疾病证型下的h_i、h_i ⁺的语义距离变近，同时让不同疾病-证型的上下文表示间的距离变远。

在本实施例中，通过获取每种所述疾病类型对应的每种诊断类型的症状信息，所述诊断类型包括问诊、望诊、闻诊以及切诊，所述疾病类型包括疾病证型；分别根据每种所述疾病类型对应的每种所述诊断类型的症状信息，构建每种所述疾病类型对应的每种所述诊断类型的症状特征集合；分别对每种所述疾病类型对应的每种所述诊断类型的症状特征集合进行组合，得到每种所述疾病类型对应的参照体集合，所述参照体集合包括与所述疾病类型对应的所述预设症状特征。从而能够针对中医领域，无需逐一构建单病种的预测模型，而是利用中医学理论，从望闻问切多种诊断维度，结合目标症状特征搜索出具有相似症状的患者群体，利用该患者群体的疾病类型得到诊断结果，能够轻量化、快速地进行得到疾病诊断结果。

实施例四

请参照图6，图6本申请实施例公开的另一种病历信息处理方法的流程示意图，所述方法包括：

S501、获取疾病类型的种类信息；

可以从预设的疾病分类数据库中获取疾病类型的种类信息。在本实施例中，主要针对中医领域，获取各疾病证型的种类信息或者分类信息，疾病类型具体指疾病证型。

S502、基于所述种类信息，在图书数据中搜索每种所述疾病类型对应的文字段落；

图书数据包括各种电子图书数据，比如中医诊断学教材等。

S503、从每种所述疾病类型对应的文字段落中，抽取每种疾病类型对应的四诊症状实体，所述四诊症状实体包括问诊症状实体、闻诊症状实体、望诊症状实体以及切诊症状实体；

作为一种可选的实施方式，在搜索时，基于种类信息，从图书数据中检索出疾病证型所在的文字段落，利用实体识别以及关系抽取，从文本中自动抽取疾病证型对应的四诊症状实体，形成结构化的症状列表对。在得到症状聊列表对之后，还可以由中医专家进行补充。结构化后的列表对如下表所示：

S504、根据每种疾病类型对应的四诊症状实体，确定每种疾病类型对应的预设症状特征；

在得到每种疾病类型的四诊症状实体后，从四诊症状实体中提取每种疾病类型对应的预设症状特征，以及每种疾病类型下每种诊断类型的预设症状特征。

S505～S509。步骤S505～S509与步骤S301～S305相同，在此不做赘述。

在本实施例中，通过获取疾病类型的种类信息；基于所述种类信息，在图书数据中搜索每种所述疾病类型对应的文字段落；从每种所述疾病类型对应的文字段落中，抽取每种疾病类型对应的四诊症状实体，所述四诊症状实体包括问诊症状实体、闻诊症状实体、望诊症状实体以及切诊症状实体；根据每种疾病类型对应的四诊症状实体，确定每种疾病类型对应的预设症状特征。从而抽取出中医领域的四诊症状实体，以根据望闻问切四个维度的诊断类型搜索出原与目标症状特征具有相似症状的患者人群，具有较高的诊断速度，能够快速得到诊断结果。

实施例五

请参阅图7，图7是本发明实施例公开的一种病历信息处理装置的架构示意图，所述病历信息处理装置包括：

获取模块601，用于获取目标病历信息；

提取模块602，提取所述目标病历信息中的目标症状特征；

相似度确定模块603，确定所述目标症状特征与每个预设参照人群具有的预设症状特征之间的相似度，所述预设参照人群为具有同类疾病类型的人群；

搜索模块604，基于每个所述相似度以及预设相似度条件，在所有所述预设参照人群中搜索与所述目标症状特征匹配的目标参照人群；

诊断结果确定模块605，根据所述目标参照人群对应的疾病类型，确定诊断结果。

在本申请的一示例性实施例中，所述病历信息处理装置配置为：

将所述目标症状特征转换为第四向量；

获取疾病类型的种类信息；

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

根据本申请的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如JAVA、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由所附的权利要求指出。

Claims

1.一种病历信息处理方法，其特征在于，所述方法包括：

获取目标病历信息；

提取所述目标病历信息中的目标症状特征；

根据所述目标参照人群对应的疾病类型，确定诊断结果。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述获取每种所述疾病类型对应的每种诊断类型的症状信息的步骤包括：

4.如权利要求3所述的方法，其特征在于，所述在每种疾病类型对应的每种所述诊断类型的所述原始信息中，选取每种所述疾病类型对应的每种诊断类型的症状信息的步骤包括：

5.如权利要求2所述的方法，其特征在于，所述分别对每种所述疾病类型对应的所有诊断类型的症状特征集合进行组合，得到每种疾病类型对应的参照体集合的步骤包括：

6.如权利要求2所述的方法，其特征在于，所述分别对每种所述疾病类型对应的每种所述诊断类型的症状特征集合进行组合，得到每种所述疾病类型对应的参照体集合的步骤之后，还包括：

将所述目标症状特征转换为第四向量；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取疾病类型的种类信息；

8.一种病历信息处理装置，其特征在于，所述病历信息处理装置包括：

获取模块，用于获取目标病历信息；

提取模块，提取所述目标病历信息中的目标症状特征；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至7中任一项所述的方法。