CN112148882B

CN112148882B - 病历文本处理方法、装置、电子设备及存储介质

Info

Publication number: CN112148882B
Application number: CN202011350938.8A
Authority: CN
Inventors: 刘少辉; 刘喜恩; 尤心心; 吴及
Original assignee: Beijing Huiji Zhiyi Technology Co ltd
Current assignee: Beijing Huiji Zhiyi Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-09-10
Anticipated expiration: 2040-11-27
Also published as: CN112148882A

Abstract

本发明实施例提供一种病历文本处理方法、装置、电子设备及存储介质，其中方法包括：确定待处理的病历文本的多个候选诊断类型；基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性，以及所述任一候选诊断类型的通用诊疗属性，确定所述任一候选诊断类型的得分；基于每一候选诊断类型的得分，从所有候选诊断类型中选取出所述病历文本的主要诊断类型。本发明实施例提供的方法、装置、电子设备及存储介质，提高了疾病诊断分组的准确性，提高了病历文本的处理效率。

Description

病历文本处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种病历文本处理方法、装置、电子设备及存储介质。

背景技术

DRG（Diagnosis Related Group，疾病诊断相关分组），即将疾病分为若干诊断组，从而确定各诊断组付费标准。

现有技术中，通常是由临床医生在填写病案首页时根据患者病历文本以及实际治疗过程确定主要诊断，并由质检员对主要诊断的选择是否合理进行检查，进而对患者病历进行疾病诊断分组。由于依靠人工的方式处理病历文本，使得疾病诊断分组的准确性差，处理效率低。

发明内容

本发明实施例提供一种病历文本处理方法、装置、电子设备及存储介质，用以解决现有技术中的病历文本处理方法进行疾病诊断分组的准确性差，处理效率低的问题。

本发明实施例提供一种病历文本处理方法，包括：

确定待处理的病历文本的多个候选诊断类型；

基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性，以及所述任一候选诊断类型的通用诊疗属性，确定所述任一候选诊断类型的得分；

基于每一候选诊断类型的得分，从所有候选诊断类型中选取出所述病历文本的主要诊断类型。

根据本发明一个实施例的病历文本处理方法，所述任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性包括：

所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性、所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性，以及所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性中的至少一种。

根据本发明一个实施例的病历文本处理方法，所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是基于如下步骤确定的：

将所述病历文本中的主诉文本作为所述入院信息；

将所述任一候选诊断类型和所述主诉文本输入至语义关系模型，得到所述语义关系模型输出的语义相关概率，所述语义相关概率用于表征所述任一候选诊断类型与所述入院信息之间的相关性；

其中，所述语义关系模型是基于样本病历文本中的样本主要诊断类型、样本非主要诊断类型和样本主诉文本训练的。

根据本发明一个实施例的病历文本处理方法，所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性是基于如下步骤确定的：

基于所述任一候选诊断类型分别与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率，确定所述任一候选诊断类型与所述治疗信息之间的相关性；

所述任一候选诊断类型与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中所述任一候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。

根据本发明一个实施例的病历文本处理方法，所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性是基于如下步骤确定的：

确定所述任一候选诊断类型与所述科室信息之间的关系概率，用于表征所述任一候选诊断类型与所述科室信息之间的相关性；

其中，所述任一候选诊断类型与所述科室信息之间的关系概率是对所述任一候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。

根据本发明一个实施例的病历文本处理方法，所述通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种。

根据本发明一个实施例的病历文本处理方法，所述任一候选诊断类型的疾病危重程度是对所述任一候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定的；

所述任一候选诊断类型的资源消耗程度是对所述任一候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定的；

所述任一候选诊断类型的主要诊断出现概率是在病历数据集中对所述任一候选诊断类型作为主要诊断类型的次数进行统计后确定的。

根据本发明一个实施例的病历文本处理方法，所述基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性，以及所述任一候选诊断类型的通用诊疗属性，确定所述任一候选诊断类型的得分，包括：

基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性，以及所述任一候选诊断类型的通用诊疗属性，确定所述任一候选诊断类型的特征表示；

将所述任一候选诊断类型的特征表示输入至诊断预测模型，得到所述诊断预测模型输出的所述任一候选诊断类型的得分；

其中，所述诊断预测模型是基于样本病历中的样本主要诊断类型和样本非主要诊断类型的特征表示，以及所述样本病历中样本主要诊断类型的标签训练得到的。

本发明实施例还提供一种病历文本处理装置，包括：

确定单元，用于确定待处理的病历文本的多个候选诊断类型；

评分单元，用于基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性，以及所述任一候选诊断类型的通用诊疗属性，确定所述任一候选诊断类型的得分；

选取单元，用于基于每一候选诊断类型的得分，从所有候选诊断类型中选取出所述病历文本的主要诊断类型。

本发明实施例还提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如上述任一种所述病历文本处理方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述病历文本处理方法的步骤。

本发明实施例提供的病历文本处理方法、装置、电子设备及存储介质，根据候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及候选诊断类型的通用诊疗属性，确定每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型，由于主要诊断类型的确定过程是从病历文本和候选诊断类型本身出发，不依赖于医生的临床经验和质检员的疾病知识，所选取的主要诊断类型符合主要诊断类型选择原则，提高了疾病诊断分组的准确性，提高了病历文本的处理效率。同时，综合考虑了病历文本中患者治疗的实际情况和候选诊断类型本身的特性，能够灵活适用于复杂病历的处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的病历文本处理方法的流程示意图；

图2为本发明实施例提供的候选诊断类型与入院信息之间的相关性确定的流程示意图；

图3为本发明实施例提供的语义关系模型的流程示意图；

图4为本发明实施例提供的候选诊断类型得分方法的流程示意图；

图5为本发明实施例提供的诊断预测模型的流程示意图；

图6为本发明实施例提供的病历文本处理装置的结构示意图；

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

DRG为评估医院服务水平的重要手段，通过计算DRG数量（代表该医疗机构收治病例的覆盖类型范围）、总权重数（代表住院服务总产出）、CMI值（收治病例的技术难度）可以衡量医院服务水平。

对病历进行处理，即根据病历确定患者的疾病诊断相关分组。首先将病历按照其主要诊断类型进行分类，形成以解剖和生理系统为主要分类特征的MDC（Major DiagnosticCategory，主要诊断分类）；在同一解剖系统下，根据疾病的主要诊断类型和主要操作将病例细分为ADRG（Adjacent-DRG，基干DRG）；通过考虑病例的其他个体特征、合并症和并发症，利用统计分析方法将ADRG细分为DRG。由此可知，正确选择主要诊断类型对于病历成功入组有非常重要的意义。

主要诊断类型为导致患者住院就医主要原因的疾病类型。患者一次住院只能有一个主要诊断类型。现有技术中，主要诊断类型由临床医生根据个人经验进行选择，质检员对临床医生的选择结果进行复核，使得疾病诊断分组的准确性差，处理效率低。

图1为本发明实施例提供的病历文本处理方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待处理的病历文本的多个候选诊断类型。

具体地，候选诊断类型为医生对入院患者进行诊断和治疗后确定的疾病种类。同一个患者可能有多个候选诊断类型。例如，老年患者往往存在多种慢性疾病，包括糖尿病、高血压、高血脂等。

患者的候选诊断类型以及患者住院治疗的过程信息通常由临床医生记载在患者的病历文本中。此处，病历文本可以为电子病历形式，也可以为纸质病历经文本识别后得到的文本形式，本发明实施例对此不作具体限定。

步骤120，基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及该候选诊断类型的通用诊疗属性，确定该候选诊断类型的得分。

具体地，从多个候选诊断类型确定主要诊断类型，可以根据主要诊断类型选择原则对每一候选诊断类型进行打分。任一候选诊断类型的得分用于衡量该候选诊断类型作为主要诊断类型的可能性大小。

主要诊断类型选择原则包括两个方面，一方面是主要诊断类型和病历文本中的患者的治疗全过程信息相一致，另一方面是主要诊断类型自身具有的诊疗属性相对于病历文本中其他的诊断类型更加重要。

根据上述主要诊断类型选择原则，对病历文本中的病历诊疗信息进行分析，得到任一候选诊断类型与病历诊疗信息之间的相关性。

此外，任一候选诊断类型能否被确定为主要诊断类型不仅取决于病历文本中的病历诊疗信息，还取决于该候选诊断类型本身的通用诊疗属性。任一候选诊断类型的通用诊疗属性，可以为疾病本身具有的疾病危重程度和医疗资源消耗程度。例如，糖尿病比起感冒，疾病危重程度重，医疗资源消耗多，更有可能作为患者的主要诊断类型。

例如，病历文本中的候选诊断类型包括肠梗阻、腹壁疝、乳腺肿瘤和高血压。病历文本中病历诊疗信息表明该患者的入院症状为腹痛、腹胀和呕吐。患者被消化内科收治，治疗过程中采用了禁食水、灌肠和补液，再根据各个候选诊断类型的通用诊疗属性，确定肠梗阻、腹壁疝、乳腺肿瘤和高血压的得分分别为8分、6分、5分和1分。

步骤130，基于每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型。

具体地，在确定每一候选诊断类型的得分后，可以对多个候选诊断类型进行排序，选取得分最大值对应的候选诊断类型作为病历文本的主要诊断类型，从而确定该病历的疾病诊断分组结果。或者，也可以从所有候选诊断类型中筛选出得分高于预先设定的得分阈值的候选诊断类型，并从中选取得分最大值对应的候选诊断类型作为病历文本的主要诊断类型。

本发明实施例提供的病历文本处理方法，根据候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及候选诊断类型的通用诊疗属性，确定每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型，由于主要诊断类型的确定过程是从病历文本和候选诊断类型本身出发，不依赖于医生的临床经验和质检员的疾病知识，所选取的主要诊断类型符合主要诊断类型选择原则，提高了疾病诊断分组的准确性，提高了病历文本的处理效率。同时，综合考虑了病历文本中患者治疗的实际情况和候选诊断类型本身的特性，能够灵活适用于复杂病历的处理。

基于上述实施例，任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性包括：

该候选诊断类型与病历诊疗信息中入院信息之间的相关性、该候选诊断类型与病历诊疗信息中治疗信息之间的相关性，以及该候选诊断类型与病历诊疗信息中科室信息之间的相关性中的至少一种。

具体地，病历诊疗信息包括患者的入院信息、治疗信息和科室信息。

其中，入院信息为患者的入院目的等信息，反映了患者入院治疗的个人意愿，即期望得到治疗的疾病类型，能够在一定程度上影响主要诊断类型的选择。治疗信息为患者在整个住院治疗过程中所采用的手术操作、药物和治疗方式等信息，反映了患者经医生诊断后在医院的真实治疗过程，通过真实治疗过程与各个候选诊断类型之间的相关性可以推导出主要诊断类型。科室信息为负责对患者进行治疗的主管科室，通常主管科室负责治疗主要诊断类型，因此与主管科室相关联的候选诊断类型为主要诊断类型的概率更高。

本发明实施例提供的病历文本处理方法，综合考虑了病历诊疗信息中入院信息、治疗信息和科室信息，对患者的候选诊断类型进行了多维度的评估，提高了疾病诊断分组的准确性。

基于上述任一实施例，图2为本发明实施例提供的候选诊断类型与入院信息之间的相关性确定的流程示意图，如图2所示，任一候选诊断类型与病历诊疗信息中入院信息之间的相关性是基于如下步骤确定的：

步骤210，将病历文本中的主诉文本作为入院信息。

具体地，病历文本中的主诉文本为患者对自身的症状、体征、持续时间等内容的描述文本，表明了患者住院的主要目的。本发明实施例中将主诉文本作为入院信息。

步骤220，将该候选诊断类型和入院信息输入至语义关系模型，得到语义关系模型输出的语义相关概率，语义相关概率用于表征该候选诊断类型与入院信息之间的相关性；

其中，语义关系模型是基于样本病历文本中的样本主要诊断类型、样本非主要诊断类型和样本主诉文本训练的。

具体地，可以分别将候选诊断类型和主诉文本进行分词处理，得到诊断词序列和主诉词序列，将诊断词序列和主诉词序列输入至语义关系模型，由语义关系模型基于皮尔森相关系数算法或者注意力机制算法对诊断词序列和主诉词序列进行语义分析，得到用于表征该候选诊断类型与入院信息之间的相关性的语义相关概率。语义相关概率以概率形式体现语义相关性的强弱。语义相关概率越大，表示候选诊断类型和主诉文本存在强一致性关系，也表示该候选诊断类型与入院信息之间的相关性越强。

在执行步骤220之前，可以预先训练得到语义关系模型，具体可以通过如下训练方式得到语义关系模型：首先，收集大量的样本病历文本，样本病历文本中包括样本主要诊断类型、样本非主要诊断类型和样本主诉文本。随即将大量的样本主要诊断类型、样本非主要诊断类型和样本主诉文本输入至初始模型进行训练，以提高样本主要诊断类型和样本主诉文本之间的语义相关概率，降低样本非主要诊断类型和样本主诉文本之间的语义相关概率为目的，从而得到能够关注样本主要诊断类型和样本主诉文本之间的语义特征的语义关系模型。

基于上述任一实施例，语义关系模型包括编码层、注意力交互层和结果输出层。

相应地，步骤220包括：

将该候选诊断类型和入院信息输入至语义关系模型的编码层，得到编码层输出的语义表示向量；

将语义表示向量输入至语义关系模型的编码层的注意力交互层，得到注意力交互层输出的注意力特征向量；

将注意力特征向量输入至语义关系模型的结果输出层，得到结果输出层输出的语义相关概率。

具体地，下面以采用双向注意力机制算法的语义关系模型为例进行说明。图3为本发明实施例提供的语义关系模型的流程示意图，如图3所示，语义关系模型包括词嵌入层、BiLSTM（Bi-directional Long Short Term Memory Network，双向长短时记忆网络）层、语义分析层和概率表示层。其中，词嵌入层和BiLSTM层相当于编码层，语义分析层相当于注意力交互层，概率表示层相当于结果输出层。

首先，将病历文本中的主诉文本和候选诊断类型进行分词处理后得到的主诉词序列和诊断词序列输入至词嵌入层，由词嵌入层将输入的词序列转换为向量表示，得到主诉词表示

和诊断词表示

，其中，

，

，m是主诉长度，n为诊断名长度，e为词嵌入维度。

其次，将主诉词表示

和诊断词表示

输入BiLSTM层，得到主诉词语义表示

与诊断词语义表示

，其中，

，

。此处，主诉词语义表示

与诊断词语义表示

相当于语义表示向量。

再次，将主诉词语义表示

与诊断词语义表示

输入至语义分析层，语义分析层采用双向注意力机制算法，得到主诉词语义最终表示

与诊断词语义最终表示

，其中，

，

。双向注意力机制算法可以表示为：

式中，A为注意力值，W为转换矩阵。

此处，主诉词语义最终表示

与诊断词语义最终表示

相当于注意力特征向量。

最后，将主诉词语义最终表示

与诊断词语义最终表示

输入至概率表示层，概率表示层为全连接层，对主诉词语义最终表示

与诊断词语义最终表示

进行拼接后使用sigmoid函数输出语义相关概率。语义相关概率可以表示为

，其中，d为候选诊断类型，

为主诉文本。

语义相关概率

越大，表示该候选诊断类型和主诉文本存在强一致性关系，即该候选诊断类型可能为导致患者出现主诉文本中症状的主要原因。

该语义关系模型的训练数据集可以采用大量的住院病历作为样本。在对住院病历进行人工标注时，可以采用病历中主诉文本和主要诊断类型作为一条正例，随机选择一个其他诊断类型作为负例。

本发明实施例提供的病历文本处理方法，将病历文本中的主诉文本作为入院信息，对主诉文本和候选诊断类型进行语义分析，考虑了患者的入院目的，提高了疾病诊断分组的准确性。

基于上述任一实施例，任一候选诊断类型与病历诊疗信息中治疗信息之间的相关性是基于如下步骤确定的：

基于该候选诊断类型分别与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率，确定该候选诊断类型与治疗信息之间的相关性；

该候选诊断类型与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中该候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。

具体地，手术操作包括手术名及其各种操作，如“冠脉造影术”等。药物为治疗过程中使用的常用药物。治疗方式为治疗过程中医生采用的主要治疗手段概括，如“抗感染”、“改善循环”、“护脑”等，以上信息均可以从病历文本中提取得到。

任一候选诊断类型与任一手术操作之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该手术操作出现的概率，具体可以表示为：

式中，

为候选诊断类型d与手术操作o之间的关系概率，

为候选诊断类型d作为主要诊断类型的次数，

为候选诊断类型d作为主要诊断类型时手术操作o出现的次数。

任一候选诊断类型与任一药物之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该药物出现的概率，具体可以表示为：

式中，

为候选诊断类型d与药物m之间的关系概率，

为候选诊断类型d作为主要诊断类型的次数，

为候选诊断类型d作为主要诊断类型时药物 m出现的次数。

任一候选诊断类型与任一治疗方式之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该治疗方式出现的概率，具体可以表示为：

式中，

为候选诊断类型d与治疗方式t之间的关系概率，

为候选诊断类型d作为主要诊断类型的次数，

为候选诊断类型d作为主要诊断类型时治疗方式t出现的次数。

需要说明的是，在病历文本处理过程中，任一候选诊断类型与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率，均可以从预先统计得到的关系概率中直接提取得到。进一步地，预先统计上述三种关系概率的具体方法可以为：

1、获取病历数据集，通过统计病历数据集中各个病历文本中包含的手术操作、药物和治疗方式，建立标准的手术操作列表、药物列表和治疗方式列表；

2、对病历数据集中每一候选诊断类型作为主要诊断类型的次数，以及每一候选诊断类型作为主要诊断类型时每一手术操作、每一药物和每一治疗方式出现的次数进行统计；

3、基于统计得到的数据，按照上述计算公式得到三种关系概率。

对于病历文本，其病历诊疗信息中治疗信息可以具体包括手术操作集合、药物集合和治疗方式集合。其中，手术操作集合包括了病历文本中记载的患者在入院治疗的过程中的所有手术操作，药物集合包括了病历文本中记载的患者在入院治疗的过程中使用的所有药物，治疗方式集合包括了病历文本中记载的医生对患者在入院治疗的过程中使采用的所有治疗方式。

因此，任一候选诊断类型与病历诊疗信息中治疗信息之间的相关性，可以分别表示为该候选诊断类型与病历诊疗信息中手术操作集合、药物集合和治疗方式集合之间的相关性。

该候选诊断类型d与病历诊疗信息中手术操作集合

的相关性

表示为：

该候选诊断类型d与病历诊疗信息中药物集合

的相关性

表示为：

该候选诊断类型d与病历诊疗信息中治疗方式集合

的相关性

表示为：

进一步地，病历文本中的病历诊疗信息中手术操作集合、药物集合和治疗方式集合的获取方式可以为：将标准的手术操作列表、药物列表和治疗方式列表，与患者的病历首页中手术及病程记录中手术操作、药物、治疗方式以及医嘱中药物进行匹配，根据匹配一致的手术操作、药物和治疗方式分别建立手术操作集合、药物集合和治疗方式集合。

本发明实施例提供的病历文本处理方法，根据病历数据集，确定候选诊断类型分别与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率，得到候选诊断类型与治疗信息之间的相关性，提高了疾病诊断分组的准确性。

基于上述任一实施例，任一候选诊断类型与病历诊疗信息中科室信息之间的相关性是基于如下步骤确定的：

确定该候选诊断类型与科室信息之间的关系概率，用于表征该候选诊断类型与科室信息之间的相关性；

其中，该候选诊断类型与科室信息之间的关系概率是对该候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。

具体地，任一候选诊断类型与任一科室信息之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该科室出现的概率，可以用公式表示为：

式中，

为候选诊断类型d与科室de之间的关系概率，

为候选诊断类型d作为主要诊断类型的次数，

为候选诊断类型d作为主要诊断类型时科室de出现的次数。

需要说明的是，在病历文本处理过程中，任一候选诊断类型与任一科室信息之间的关系概率，均可以从预先统计得到的关系概率中直接提取得到。根据病历数据集统计上述关系概率的具体方法可以为：

1、获取病历数据集，建立标准的科室列表；

2、对病历数据集中每一候选诊断类型作为主要诊断类型的次数，以及每一候选诊断类型作为主要诊断类型时每一科室出现的次数进行统计；

3、基于统计得到的数据，按照上述计算公式得到候选诊断类型与科室信息之间的关系概率。

本发明实施例提供的病历文本处理方法，根据病历数据集，确定候选诊断类型与科室信息之间的关系概率，得到候选诊断类型与科室信息之间的相关性，提高了疾病诊断分组的准确性。

基于上述任一实施例，通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种。

具体地，候选诊断类型本身具有的通用诊疗属性，用来衡量该候选诊断类型在疾病危重程度和医疗资源消耗程度上的共性特征。其中，疾病危重程度表示候选诊断类型对患者的生命安全的威胁程度。例如，疾病危重程度可以为病危、病重和存在死亡风险等。医疗资源消耗程度表示候选诊断类型在患者治疗过程中对于医疗资源的消耗情况。例如，医疗资源消耗程度可以用手术操作数量和药物数量等表示。

通用诊疗属性强的候选诊断类型相比于其他候选诊断类型更有可能作为主要诊断类型。例如，冠心病比起慢性胃炎，对于患者的生命健康有严重威胁，同时，治疗冠心病需要手术治疗和长期服药。患有冠心病和慢性胃炎的患者入院治疗过程中，冠心病被作为主要诊断类型的可能性更大。

基于上述任一实施例，任一候选诊断类型的疾病危重程度是对该候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定的；

任一候选诊断类型的资源消耗程度是对该候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定的；

任一候选诊断类型的主要诊断出现概率是在病历数据集中对该候选诊断类型作为主要诊断类型的次数进行统计后确定的。

具体地，任一候选诊断类型的疾病危重程度可以用公式表示为：

式中，

为候选诊断类型的疾病危重程度，

为候选诊断类型d 作为主要诊断类型的次数，

为候选诊断类型d作为主要诊断类型时病历数据集中出现危重标识的病历数量。危重标识包括“有死亡风险”、“死亡”或者“极其危重”等。

任一候选诊断类型的资源消耗程度包括住院时间消耗和住院费用消耗，可以分别用公式表示为：

式中，

为该候选诊断类型的住院时间消耗程度，

为该候选诊断类型的住院费用消耗程度，

为候选诊断类型d作为主要诊断类型的次数，

为候选诊断类型d作为主要诊断类型时患者的住院时间，

为候选诊断类型d作为主要诊断类型时患者的住院费用。

此处，患者的住院时间和住院费用可以为病历数据集所有患者住院时间和住院费用的平均值、最大值、最小值或中位数。

任一候选诊断类型的主要诊断出现概率可以用公式表示为：

式中，

为候选诊断类型d的主要诊断出现概率，

为病历数据集中候选诊断类型d作为的主要诊断出现次数，

为病历数据集的数量。

本发明实施例提供的病历文本处理方法，考虑了候选诊断类型本身的共性特征对主要诊断类型选择的影响，提高了疾病诊断分组的准确性。

基于上述任一实施例，图4为本发明实施例提供的候选诊断类型得分方法的流程示意图，如图4所示，步骤120包括：

步骤121，基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及该候选诊断类型的通用诊疗属性，确定该候选诊断类型的特征表示。

具体地，任一候选诊断类型

与病历诊疗信息中入院信息之间的相关性表示为

，与病历诊疗信息中手术操作集合之间的相关性表示为

，与病历诊疗信息中药物集合之间的相关性表示为

，与病历诊疗信息中治疗方式集合之间的相关性表示为

，与科室信息之间的相关性表示为

。任一候选诊断类型

的疾病危重程度表示为

，住院时间消耗程度表示为

，住院费用消耗程度表示为

，主要诊断出现概率表示为

。其中，i为患者病历文本中候选诊断类型的标号。

对上述相关性、程度和概率进行拼接后，得到该候选诊断类型的特征表示 X。例如，可以采用向量拼接的方法得到：

步骤122，将该候选诊断类型的特征表示输入至诊断预测模型，得到诊断预测模型输出的该候选诊断类型的得分；

其中，诊断预测模型是基于样本病历中的样本主要诊断类型和样本非主要诊断类型的特征表示，以及样本病历中样本主要诊断类型的标签训练得到的。

具体地，可以将该候选诊断类型的特征表示 X，由诊断预测模型以交叉熵作为损失函数，对该候选诊断类型进行评分，得到该候选诊断类型的得分。得分越高，该候选诊断类型作为主要诊断的可能性越大。

在执行步骤122之前，可以预先训练得到诊断预测模型，具体可以通过如下训练方式得到诊断预测模型：首先，收集大量的样本病历，样本病历中包括样本主要诊断类型和样本非主要诊断类型的特征表示。采用人工方式对样本病历中样本主要诊断类型进行标注，得到样本病历中样本主要诊断类型的标签。随即将大量的样本病历中样本主要诊断类型和样本非主要诊断类型的特征表示，以及样本病历中样本主要诊断类型的标签输入至初始模型进行训练，以提高作为主要诊断类型的候选诊断类型的特征表示对应得分，降低非主要诊断类型的的候选诊断类型的特征表示对应得分的候选诊断类型的特征表示对应得分为目标进行训练，从而得到诊断预测模型。

在将候选诊断类型的特征表示X输入至诊断预测模型之前，可以对特征表示X中任一相关性、程度或者概率进行归一化，可以用公式表示为：

式中， P 为特征表示X中任一相关性、程度或者概率，

为归一化后的相关性、程度或者概率，

为病历文本中 P所有取值的最大值，

为病历文本中P所有取值的最小值。

下面以采用深度学习算法的诊断预测模型为例进行说明。图5为本发明实施例提供的诊断预测模型的流程示意图，如图5所示，诊断预测模型包括m个全连接层和预测分类层，m为正整数。全连接层采用深度学习算法，预测分类层采用softmax函数进行分类。

将n个候选诊断类型的特征表示输入至诊断预测模型的m个全连接层，n为正整数。由m个全连接层对n个候选诊断类型的特征表示进行学习，最后通过预测分类层中softmax函数进行排序，输出排序后的n个候选诊断类型的得分。

本发明实施例提供的病历文本处理方法，采用诊断预测模型对多个候选诊断类型进行评分，避免了人工经验判断的主观性，提高了疾病诊断分组的准确性，提高了病历文本的处理效率。

基于上述任一实施例，本发明实施例提供一种病历文本处理方法，包括：

首先，获取患者的病历文本。

其次，基于以下主要诊断类型选择原则对每一候选诊断类型与病历文本中的病历诊疗信息之间的相关性进行分析：

1、主要诊断类型应与本次患者入院目的一致；

2、若患者采用手术治疗，则主要诊断类型应与手术操作保持一致；

3、主要诊断类型应与治疗过程保持一致。。

同时，基于以下主要诊断类型选择原则对每一候选诊断类型的通用诊疗属性进行分析：

1、主要诊断类型应选择最危重的疾病；

2、主要诊断类型应选择住院治疗费用最高和消耗医疗资源最多的疾病。

接着，基于分析所得的每一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及每一候选诊断类型的通用诊疗属性，确定每一候选诊断类型的得分。

最后，基于每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型。

基于上述任一实施例，图6为本发明实施例提供的病历文本处理装置的结构示意图，如图6所示，该装置包括：

确定单元610，用于确定待处理的病历文本的多个候选诊断类型；

评分单元620，用于基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及该候选诊断类型的通用诊疗属性，确定该候选诊断类型的得分；

选取单元630，用于基于每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型。

具体地，确定单元610用于根据患者的病历文本确定多个候选诊断类型。评分单元620用于根据每一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及每一候选诊断类型的通用诊疗属性，确定每一候选诊断类型的得分。选取单元630用于根据评分单元620确定的每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型。

本发明实施例提供的病历文本处理装置，根据候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及候选诊断类型的通用诊疗属性，确定每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型，由于主要诊断类型的确定过程是从病历文本和候选诊断类型本身出发，不依赖于医生的临床经验和质检员的疾病知识，所选取的主要诊断类型符合主要诊断类型选择原则，提高了疾病诊断分组的准确性，提高了病历文本的处理效率。同时，综合考虑了病历文本中患者治疗的实际情况和候选诊断类型本身的特性，能够灵活适用于复杂病历的处理。

基于上述任一实施例，评分单元620包括第一相关性确定子单元、第二相关性确定子单元和第三相关性子确定单元；

第一相关性确定子单元用于确定任一候选诊断类型与病历诊疗信息中入院信息之间的相关性，第二相关性确定子单元用于确定任一候选诊断类型与病历诊疗信息中治疗信息之间的相关性，第三相关性子确定单元用于确定任一候选诊断类型与病历诊疗信息中科室信息之间的相关性。

基于上述任一实施例，第一相关性确定子单元具体用于：

将病历文本中的主诉文本作为入院信息；

将该候选诊断类型和主诉文本输入至语义关系模型，得到语义关系模型输出的语义相关概率，语义相关概率用于表征该候选诊断类型与入院信息之间的相关性；

基于上述任一实施例，第二相关性确定子单元具体用于：

基于上述任一实施例，第三相关性确定子单元具体用于：

确定任一候选诊断类型与科室信息之间的关系概率，用于表征任一候选诊断类型与科室信息之间的相关性；

其中，任一候选诊断类型与科室信息之间的关系概率是对任一候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。

基于上述任一实施例，评分单元620还包括：

通用诊疗属性确定子单元，用于对任一候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定该候选诊断类型的疾病危重程度；

或，用于对任一候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定该候选诊断类型的资源消耗程度；

或，用于在病历数据集中对任一候选诊断类型作为主要诊断类型的次数进行统计后确定该候选诊断类型的主要诊断出现概率。

基于上述任一实施例，选取单元630包括：

特征表示子单元，用于基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及任一候选诊断类型的通用诊疗属性，确定任一候选诊断类型的特征表示；

诊断预测子单元，用于将任一候选诊断类型的特征表示输入至诊断预测模型，得到诊断预测模型输出的任一候选诊断类型的得分；

基于上述任一实施例，图7为本发明实施例提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器（Processor）710、通信接口（CommunicationsInterface）720、存储器（Memory）730和通信总线（Communications Bus）740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑命令，以执行如下方法：

确定待处理的病历文本的多个候选诊断类型；基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性，以及任一候选诊断类型的通用诊疗属性，确定任一候选诊断类型的得分；基于每一候选诊断类型的得分，从所有候选诊断类型中选取出病历文本的主要诊断类型。

此外，上述的存储器730中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种病历文本处理方法，其特征在于，包括：

确定待处理的病历文本的多个候选诊断类型；

基于每一候选诊断类型的得分，从所有候选诊断类型中选取出所述病历文本的主要诊断类型；

所述病历诊疗信息包括患者的入院信息、治疗信息和科室信息中的至少一种；所述通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种；

所述病历文本对应一个主要诊断类型；

所述任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性包括：

所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性、所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性，以及所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性中的至少一种；

所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的语义相关概率，所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性是基于所述任一候选诊断类型分别与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率确定的，所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性是所述任一候选诊断类型与所述科室信息之间的关系概率。

2.根据权利要求1所述的病历文本处理方法，其特征在于，所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是基于如下步骤确定的：

将所述病历文本中的主诉文本作为所述入院信息；

将所述任一候选诊断类型和所述主诉文本输入至语义关系模型，得到所述语义关系模型输出的语义相关概率；

3.根据权利要求1所述的病历文本处理方法，其特征在于，所述任一候选诊断类型与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中所述任一候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。

4.根据权利要求1所述的病历文本处理方法，其特征在于，所述任一候选诊断类型与所述科室信息之间的关系概率是对所述任一候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。

5.根据权利要求1所述的病历文本处理方法，其特征在于，所述任一候选诊断类型的疾病危重程度是对所述任一候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定的；

6.根据权利要求1至5任一项所述的病历文本处理方法，其特征在于，所述基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性，以及所述任一候选诊断类型的通用诊疗属性，确定所述任一候选诊断类型的得分，包括：

7.一种病历文本处理装置，其特征在于，包括：

选取单元，用于基于每一候选诊断类型的得分，从所有候选诊断类型中选取出所述病历文本的主要诊断类型；

所述病历文本对应一个主要诊断类型；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的病历文本处理方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的病历文本处理方法的步骤。