CN111584021B

CN111584021B - 病案信息校验方法、装置、电子设备及存储介质

Info

Publication number: CN111584021B
Application number: CN202010383505.6A
Authority: CN
Inventors: 朱波; 傅兆翔; 张骁雅; 艾馨; 董子坤; 尹珊珊; 田雅如; 舒正; 刘英杰; 赵明; 李璐璐
Original assignee: Qingdao Guoxin Health Industry Technology Co ltd
Current assignee: Qingdao Guoxin Health Industry Technology Co ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2023-08-18
Anticipated expiration: 2040-05-08
Also published as: CN111584021A

Abstract

本发明实施例提供一种病案信息校验方法、装置、电子设备及存储介质，方法包括：获取目标患者的费用信息以及已记录病案信息；根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息；根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验。本发明实施例提供的病案信息校验方法、装置、电子设备及存储介质，通过将目标患者的费用信息输入到预先训练好的病案信息预测模型，得到目标患者的预测病案信息，然后将预测病案信息与目标患者已记录病案信息进行比较，从而实现对目标患者已记录病案信息的校验。在校验过程中不再需要专家制定规则，也不再依赖于人工劳动，不仅可以提高效率，还能降低错误率。

Description

病案信息校验方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种病案信息校验方法、装置、电子设备及存储介质。

背景技术

传统的病案信息记录流程主要包括医生负责书写病历、病案室审核病历、编码员根据医生病历填写诊断编码和手术编码等步骤。因此存在以下几点不足：一是医生病历和病案信息主要依靠人工核查，时间消耗长且错误率高；二是疾病编码过程复杂，对编码人员的专业要求很高；三是工作流程长，医疗机构无法及时对病案错误问题进行管理。

另外，在人工核查的基础上，目前还存在依靠规则对病案信息进行校验的方法。而规则主要依靠专业领域医生或病案专家提出，主要存在以下几点不足：一是适用面较窄，只能核查病案中存在规则的信息，对没有纳入规则的信息，缺乏校验依据无法核查；二是人工成本高，规则需要专业对口人才花费大量精力总结和归纳；三是维护难度大，编码版本升级换代、临床习惯差异较大、疾病发展不断变化等因素导致规则的维护难度较大。

发明内容

本发明实施例提供一种病案信息校验方法、装置、电子设备及存储介质，用以解决现有技术中病案信息容易记录错误的缺陷，实现对病案信息的自动校验。

本发明实施例提供一种病案信息校验方法，包括：

获取目标患者的费用信息以及已记录病案信息；

根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息；

根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验；其中，

所述病案信息预测模型是基于样本患者的费用信息以及样本患者的经过校验的已记录病案信息进行训练得到的。

上述技术方案中，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对神经网络进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的。

上述技术方案中，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对Transformer模型进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的；

所述病案信息预测模型包括第一子模型与第二子模型；所述第一子模型用于预测目标患者与诊断编码所对应的病种信息，所述第二子模型用于预测目标患者与手术编码所对应的病种信息；所述诊断编码为所述已记录病案信息中用于描述患者在诊断过程中所记录病情的码，所述手术编码为所述已记录病案信息中用于描述患者在手术过程中所记录病情的码。

上述技术方案中，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对BERT模型进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的。

上述技术方案中，所述根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息包括：

根据目标患者的费用信息，得到目标患者的第一费用特征数据；其中，第一费用特征数据为能够反映费用类别与费用金额的数据；

将目标患者的第一费用特征数据输入基于神经网络训练得到的病案信息预测模型，得到目标患者的预测病案信息。

上述技术方案中，所述根据目标患者的费用信息，得到目标患者的第一费用特征数据包括：

根据所述目标患者的费用信息中的费用类别信息，得到费用类别信息的标准码；

根据费用类别信息的标准码，得到费用类别信息的分类码；

根据所述费用类别信息的标准码和分类码，结合费用信息中的费用金额信息，生成目标患者的第一费用特征数据。

上述技术方案中，所述根据费用类别信息的标准码，得到费用类别信息的分类码包括：

根据费用类别信息的标准码，得到费用类别信息的初级分类码；

滤除对病种识别重要程度低于预设阈值的初级分类码，得到费用类别信息的分类码。

根据目标患者的费用信息，得到目标患者的第二费用特征数据；其中，第二费用特征数据为能够反映费用类别的数据；

将目标患者的第二费用特征数据输入基于Transformer模型训练得到的病案信息预测模型，得到目标患者的预测病案信息。

上述技术方案中，所述根据目标患者的费用信息，得到目标患者的第二费用特征数据包括：

根据所述费用类别信息的标准码，生成目标患者的第二费用特征数据。

将目标患者的第二费用特征数据输入基于BERT模型训练得到的病案信息预测模型，得到目标患者的预测病案信息。

上述技术方案中，获取目标患者的已记录病案信息包括：

获取目标患者的原始已记录病案信息；

对目标患者的原始已记录病案信息进行转换，得到包含有病种信息的已记录病案信息，将包含有病种信息的已记录病案信息作为目标患者的已记录病案信息。

上述技术方案中，所述根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验包括：

比较目标患者的预测病案信息与目标患者的已记录病案信息，当目标患者的已记录病案信息中包括有目标患者的预测病案信息中不存在的病种信息，则目标患者的已记录病案信息存在错填；

当目标患者的预测病案信息中包括有目标患者的已记录病案信息中不存在的病种信息，则目标患者的已记录病案信息存在漏填。

上述技术方案中，在所述根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验的步骤之后，还包括：

根据校验结果查找所述目标患者的已记录病案信息的出错位置。

上述技术方案中，方法还包括：

采集样本患者的费用信息以及已记录病案信息；

对样本患者的已记录病案信息进行校验；

将样本患者的费用信息作为训练使用的输入数据，将样本患者的经过校验的已记录病案信息作为标签，采用机器学习的方法进行训练，得到用于生成目标患者病案信息的病案信息预测模型。

本发明第二方面实施例提供一种病案信息校验装置，包括：

信息获取模块，用于获取目标患者的费用信息以及已记录病案信息；

预测模块，用于根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息；

校验模块，用于根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验；其中，

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述病案信息校验方法的步骤。

本发明第四方面实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述病案信息校验方法的步骤。

本发明实施例提供的病案信息校验方法、装置、电子设备及存储介质，通过将目标患者的费用信息输入到预先训练好的病案信息预测模型，得到目标患者的预测病案信息，然后将预测病案信息与目标患者已记录病案信息进行比较，从而实现对目标患者已记录病案信息的校验。在校验过程中不再需要专家制定规则，也不再依赖于人工劳动，不仅可以提高效率，还能降低错误率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的病案信息校验方法的流程图；

图2为本发明实施例提供的病案信息校验装置的示意图；

图3示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

病案是患者在医疗机构诊疗过程的记录。患者在就医过程中的费用明细能够反映该患者的诊疗情况。一个显而易见的事实是：一位阑尾炎患者的费用明细与一位骨折患者的费用明细是明显不同的，例如，医疗检查的项目不同、所使用的药品的种类不同、所使用的医疗器械不同、手术的费用不同。本发明实施例提供的病案信息校验方法正是基于这一发现，利用患者的费用信息来预测患者的、能够反映诊疗情况的病案信息，然后通过预测得到的病案信息来校验病案中已有的病案信息。

图1为本发明实施例提供的病案信息校验方法的流程图，如图1所示，本发明实施例提供的病案信息校验方法包括：

步骤101、获取目标患者的费用信息以及已记录病案信息。

在本发明实施例中，目标患者是指病案信息待校验的患者。目标患者可以是一个，也可以是多个。在本发明实施例中，不对目标患者的数目加以限制。

目标患者的费用信息为目标患者就诊期间的费用信息。例如，目标患者在就诊期间接受医疗服务所支付的费用的信息，目标患者在就诊期间购买药品所支付的费用的信息，目标患者在就诊期间购买或使用医疗器械所支付的费用的信息。需要说明的是，费用信息不仅包括费用的金额信息，还包括费用的类别信息。例如，一项费用信息的金额为60元，其对应的类别为医疗服务费。

目标患者的费用信息除了包括费用金额信息以及费用类别信息外，还包括患者基础信息，患者基础信息包括患者的患者ID、病案ID、性别、年龄、体重、入院日期等用于区分不同患者的信息。

目标患者的已记录病案信息是在病案中记录的目标患者实际病情的信息。在本发明实施例中，目标患者的已记录病案信息为目标患者病案首页的信息，病案首页信息包括：患者基础信息、诊断编码、手术编码等信息。其中，患者的诊断编码为编码工作人员根据医生的诊断信息，结合相关的编码规则为患者生成的能够反映患者病情的码。手术编码为编码工作人员根据手术信息，结合相关的编码规则为患者生成的能够反映手术情况的码。需要说明的是，并非每个患者就诊时都会进入手术阶段，因此若患者并未进入手术阶段，则该患者的手术编码为空。

目标患者的费用信息与目标患者的已记录病案信息之间可通过目标患者基础信息进行关联，如通过患者ID或病案ID进行关联。

目标患者的费用信息与已记录病案信息可根据目标患者的姓名或患者ID等从医院或其他医疗机构的数据库中获取。

步骤102、根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息。

在本发明的实施例中，病案信息预测模型是预先训练完成的。向病案信息预测模型输入目标患者的费用信息后，病案信息预测模型可根据目标患者的费用信息预测目标患者的病案信息。在本发明实施例中，将病案信息预测模型预测得到的病案信息称为预测病案信息。

在本发明的其它实施例中，将对病案信息预测模型的训练过程做进一步说明。

步骤103、根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验。

在得到目标患者的预测病案信息后，将其与目标患者的已记录病案信息比较，从而完成对目标患者的已记录病案信息的校验。

对目标患者的已记录病案信息进行校验会有三种结果：

第一种结果是目标患者的预测病案信息与目标患者的已记录病案信息相符合，则目标患者的已记录病案信息通过校验。

第二种结果是目标患者的已记录病案信息中存在某些病种的信息，而目标患者的预测病案信息中不存在某些病种的信息。发生此类现象的可能原因是病案首页中的诊断编码和/或手术编码发生错填情况，此时能够反向找出发生错填情况的诊断编码和/或手术编码，并反馈给工作人员。其中，病种信息是对病种的记录信息，它用于描述所对应的病种存在于已记录病案信息或预测病案信息中。

第三种结果是目标患者的已记录病案信息中不存在某些病种的信息，而目标患者的预测病案信息中存在某些病种的信息。发生此类现象的可能原因是病案首页中的诊断编码和/或手术编码发生漏填情况，根据发生问题的病种信息无法精确找出具体是哪一个诊断编码和/或手术编码发生漏填，此时通过反向查找能够找到发生问题的病种信息所对应的所有诊断编码和/或手术编码，并反馈给工作人员。

本发明实施例提供的病案信息校验方法通过将目标患者的费用信息输入到预先训练好的病案信息预测模型，得到目标患者的预测病案信息，然后将预测病案信息与目标患者已记录病案信息进行比较，从而实现对目标患者已记录病案信息的校验。在校验过程中不再需要专家制定规则，也不再依赖于人工劳动，不仅可以提高效率，还能降低错误率。

基于上述任一实施例，在本发明实施例中，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对神经网络（Neural Network，即NN）训练所得到的模型。

所述神经网络是一种监督学习算法。该方法从信息处理角度对人脑神经元网络进行模仿，由大量的节点（或称神经元）之间相互联接构成。在本发明实施例中，所述神经网络为多层神经网络（Deep Neural Network），存在多个隐藏层。每个隐藏层为了防止过拟合加入了正则化措施Dropout，中间隐藏层为了降低梯度消失/爆炸采用ReLU函数作为激活函数，输出层使用sigmoid函数作为激活函数，优化器经过训练时测试选择效果最好的Adam优化器。

本发明实施例提供的病案信息校验方法所采用的病案信息预测模型是基于神经网络生成的，能够利用神经网络并行、容错、可以自我改进等优点，具有良好的病案信息预测效果。

基于上述任一实施例，在本发明实施例中，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对Transformer模型进行训练所得到的模型。

Transformer模型是由 Ashish Vaswani 等人在 2017 年发表的论文“Attention Is All You Need”中提出的基于encoder-decoder结构的模型。

基于Transformer模型所得到的病案信息预测模型包括两个子模型，其中的第一子模型用于预测病案信息中的诊断编码所对应的病种信息，第二子模型用于预测病案信息中的手术编码所对应的病种信息。

根据第一子模型与第二子模型各自的输出结果，可得到目标患者最终的预测病案信息。

本发明实施例提供的病案信息校验方法所采用的病案信息预测模型是基于Transformer模型生成的，具有良好的病案信息预测效果。

基于上述任一实施例，在本发明实施例中，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对BERT模型进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的。

BERT（Bidirectional Encoder Representations from Transformers，基于Transformer模型的双向编码器表征）模型是由谷歌公司（Google）于2018年末开发并发布的一种新型语言模型。

在本发明后续实施例中会提到，基于神经网络的病案信息预测模型的输入数据是以矩阵形式表示的费用信息，基于BERT的病案信息预测模型的输入数据是费用信息的字符串序列，因此基于BERT的病案信息预测模型能够应用来自序列的信息，有助于提高预测准确率。

在本发明后续实施例中会提到，基于Transformer模型的病案信息预测模型所完成的任务本质上属于翻译任务，它将费用信息的字符串序列翻译成病种标签，而基于BERT的病案信息预测模型所完成的任务本质上属于分类任务，它将费用信息的字符串序列进行分类，得到各个病种的分类概率。因此基于BERT的病案信息预测模型有助于提高预测结果的准确率。

本发明实施例提供的病案信息校验方法所采用的病案信息预测模型是基于BERT模型生成的，在病案信息预测准确率上有所提高。

基于上述任一实施例，在本发明实施例中，步骤101还包括：

对所获取的目标患者的费用信息以及已记录病案信息进行清洗。

本领域技术人员可以知道，在采集数据时，通常会出现所采集的数据有重复、有遗漏、有错误以及不符合格式等问题。因此在本发明实施例中，需要对所获取的目标患者的费用信息与已记录病案信息进行清洗。

在本发明实施例中，清洗已记录病案信息包括以下操作中的一种或多种：去除带有逻辑错误的数据，去除带有缺失值的数据，统一编码的大小写，统一编码的数据类型，去除编码左右空白等。其中的编码包括诊断编码和/或手术编码。

在本发明实施例中，清洗费用信息包括以下操作中的一种或多种：去除带有逻辑错误的数据，去除带有缺失值的数据，统一编码大小写，统一编码数据类型，去除编码的左右空白，统一中文全角半角符号等。

本发明实施例提供的病案信息校验方法通过对目标患者的费用信息以及已记录病案信息的清洗，保证了数据的质量，为后续的信息校验提供了良好的基础。

基于上述任一实施例，在本发明实施例中，所述步骤102进一步包括：

步骤1021、根据目标患者的费用信息，得到目标患者的费用特征数据。

在本发明实施例中，目标患者的费用特征数据是指基于目标患者的费用信息所生成的、至少能够反映费用类别的数据。

费用特征数据的具体内容及其生成过程根据病案信息预测模型的类型而确定。在本发明的一个实施例中，病案信息预测模型为基于神经网络所得到的模型，则基于目标患者的费用信息，得到目标患者的费用特征数据的具体实现过程如下：

步骤S11、对目标患者的费用信息进行预处理。

从医院或其他医疗机构数据库获取的目标患者的费用信息虽然内容详尽，但其中存在一些无效、重复的数据。因此需要对目标患者的费用信息进行预处理。

在对目标患者的费用信息进行预处理时，首先要剔除费用信息中的退费项目，防止干扰结果。然后对费用信息进行聚合，将不同时间段内的相同收费项目进行合并，以剔除时间维度，得到关于“病案ID、对应收费项目（去重）以及花费金额”的聚合后结果。

步骤S12、将目标患者的费用信息中的费用类别信息进行映射，得到以标准码形式表示的费用类别信息。

在之前已经提到，目标患者的费用信息中除了包括费用的金额信息外，还包括费用的类别信息。费用的类别信息用于描述相关费用的产生源头，例如是哪类药品的费用，或是哪类医疗器械的费用，或是哪种医疗服务的费用。

在计算机存储时，费用的类别信息一般以编码的方式予以表示，例如，药品奥曲肽用编码“tx48”表示。目前由于各个地方、各个公司都有各自的编码体系，因此从数据库中获取的目标患者的费用信息中，关于费用类别的信息千差万别，为了实现统一的处理，首先需要将关于费用类别信息的原始码映射为标准码。

在本发明实施例中，关于费用类别信息的标准码可参照现有的相关标准制定，如：ICD（International Classification of Diseases，国际疾病分类）-10、ICD-9-CM-3（International Classification of Diseases Clinical Modification of 9thRevision Operations and Procedures，国际疾病分类第九版临床修订本手术与操作）、《国家医疗保障DRG分组与付费技术规范》、《医疗服务项目分类与代码（医保版）》、《医保药品分类与代码（医保版）》、《医保医用耗材分类与代码（医保版）》。

在将关于费用类别信息的原始码映射为标准码的过程中，核心问题在于实现原始码与标准码的对应。一种实现方式是将原始码对应的中文名称与标准码对应的中文名称进行匹配，进而实现原始码与标准码的对应。另一种实现方式是基于已有的基础匹配信息，实现原始码与标准码的对应。

例如，已知有表1中的基础匹配信息：

表1

在原始码与标准码的对应过程中，奥曲肽的原始码未必都表示为tx48，例如在某一地区，奥曲肽的原始码表示为tx48001。考虑到在编码时一般存在大分类在前、小分类在后的特点，可以对原始码进行多次截取，并在每次截取时与已有的基础匹配信息进行对照，根据对照结果实现原始码与标准码的对应。如对原始码“tx48001”按照从左到右的顺序依次截取，当截取到“tx48”时与表1中的原始码“tx48”一致，可将原始码“tx48001”映射到标准码“h14120200000056503”。

步骤S13、将目标患者的费用信息中的费用类别信息从标准码映射为分类码。

将关于费用类别信息的原始码映射为标准码后，标准码的种类数量较为庞大，不利于后续的处理，因此还要进一步将标准码映射为分类码。分类码本质上依然属于标准码，它描述了具体类型的标准码的上一级分类。例如，标准码h07060000000374903（代表13价肺炎球菌多糖结合疫苗），其对应的分类码为H07#H0706##（代表全身用抗感染药#疫苗类##）。将标准码映射为分类码可参照相关的标准实现，因此不在此处做进一步描述。

步骤S14、根据费用类别信息的标准码和分类码，结合费用信息中的费用金额信息，生成目标患者的第一费用特征数据。

在得到费用类别信息的分类码后，将分类码以及标准码作为费用特征数据的特征项，结合目标患者的费用信息中的费用金额信息，可生成目标患者的第一费用特征数据。

第一费用特征数据包括有多个特征项，这些特征项包括分类码。另外考虑到一些标准码在病种识别上有着独特的效果，如标准码331104026（代表尿道下裂修复术），其对应的分类码为F F#F FM#F FMD#（代表临床手术治疗#(十二)泌尿系统#4.尿道#）。该标准码能够反映出具体的病种，但在分类码层面具体的病种信息反而被抽象化了，因此费用特征数据的特征项也可以包括这些在病种识别上有着独特效果的标准码。

例如，在一个实施例中，经分析认为与医疗服务有关的分类码以及在病种识别上有独特效果的标准码一共有2400种，那么费用特征数据的特征项一共有2400项。

根据目标患者的费用信息生成目标患者的第一费用特征数据时，根据之前的描述，可以得到目标患者的费用信息所对应的分类码与标准码，将这些分类码与标准码和第一费用特征数据的特征项进行对应，并结合目标患者在相关特征项下的金额信息，得到目标患者的第一费用特征数据。

例如，某一目标患者的费用信息中包括有三个类别的费用，分别为类别A、类别B以及类别C。其中类别A的费用可对应分类码a，类别B的费用可对应分类码b，类别C的费用可对应标准码c。若第一费用特征数据的特征项有2400项，那么从这些特征项中寻找出分类码a、分类码b以及标准码c所对应的特征项，为这些特征项赋值（未被赋值的特征项的值均为0），从而得到该目标患者的第一费用特征数据。

作为一种可选的实现方式，目标患者的第一费用特征数据以矩阵的形式进行表示。矩阵中的列代表了对应的特征项，矩阵中的行代表了目标患者的标识信息。若目标患者的数量多于一个，则矩阵有多行，每行代表一个目标患者的费用特征数据。矩阵中的数值代表了某一患者（数值所在行所对应的患者）在某一类别（数值所在列所对应的类别）下的消费金额占比。例如，一个10*2400的矩阵，代表10个病案ID对于2400种特征项的收费占比情况，如果第一行分别在第10列与第2000列分别标记0.1与0.9，并且其他列标记0，那么表示第一个病案ID在诊疗过程中分别在特征项10与特征项2000上存在消费，消费金额占比分别为0.1与0.9。

在本发明的另一实施例中，病案信息预测模型为基于Transformer所得到的模型，则基于目标患者的费用信息，得到目标患者的费用特征数据的具体实现过程如下：

步骤S21、对目标患者的费用信息进行预处理；

步骤S22、将目标患者的费用信息中的费用类别信息进行映射，得到以标准码形式表示的费用类别信息；

步骤S23、根据标准码形式表示的费用类别信息，生成目标患者的第二费用特征数据。

对目标患者的费用信息进行预处理以及生成标准码形式的费用类别信息与之前的描述并无本质区别，因此不在此处做重复说明。

在得到标准码形式的费用类别信息后，可对这些标准码形式的费用类别信息按照编码字符串顺序进行排序，然后根据排序结果生成目标患者的特征字符串，所得到的特征字符串即为目标患者的第二费用特征数据。

所述特征字符串由标准码组成，不同标准码之间可采用分隔符（如空格）进行分隔。

之前已经提到目标患者可以有一个或多个。若目标患者有多个，每个目标患者有一个对应的特征字符串。

需要说明的是，特征字符串只能表示费用类别信息，并不能表示费用金额信息。

在本发明又一个实施例中，病案信息预测模型为基于BERT所得到的模型。对于基于BERT所得到的病案信息预测模型，其基于目标患者的费用信息，得到目标患者的费用特征数据的具体实现过程与基于Transformer所得到的病案信息预测模型的相应过程是一样的。即：对目标患者的费用信息中的费用类别信息进行映射，得到以标准码形式表示的费用类别信息；然后对标准码形式表示的费用类别信息按照编码字符串顺序进行排序，根据排序结果生成目标患者的特征字符串，所得到的特征字符串即为目标患者的第二费用特征数据。

步骤1022、将目标患者的费用特征数据输入病案信息预测模型，得到目标患者的预测病案信息。

在前一步骤中，已经根据目标患者的费用信息得到目标患者的费用特征数据，将目标患者的费用特征数据输入病案信息预测模型。病案信息预测模型对目标患者的费用特征数据进行预测运算，生成预测结果。所述预测结果描述了预测得到的目标患者的患病情况。

病案信息预测模型所生成的预测病案信息在表现形式上会根据病案信息预测模型的类型而存在一定的差异。

在本发明的一个实施例中，病案信息预测模型为基于神经网络所得到的模型，该模型所生成的预测病案信息为各个病种的分类概率。

例如，在一个实施例中，经分析得知所有病种的总数量有2800种，则病案信息预测模型所得到的预测结果描述了目标患者分别对应这2800种病种的患病概率。

作为一种可选的实现方式，病案信息预测模型所输出的预测结果以矩阵的形式进行表示。矩阵中的列代表了对应的病种，矩阵中的行代表了目标患者的标识信息。若目标患者的数量多于一个，则矩阵有多行，每行代表一个目标患者在各个病种下的患病概率。矩阵中的数值代表了某一患者（数值所在行所对应的患者）在某一病种（数值所在列所对应的病种）下的患病概率。

在本发明的另一个实施例中，病案信息预测模型为基于Transformer模型所得到的模型，该模型所生成的预测病案信息为含有病种信息的预测字符串。

前文中已经提到，基于Transformer模型所得到的病案信息预测模型包括两个子模型，其第一子模型用于预测病案信息中的诊断编码所对应的病种信息，第二子模型用于预测病案信息中的手术编码所对应的病种信息。

在进行预测时，这两个子模型分别得到包含病种信息的预测字符串，这两个预测字符串即为目标患者的预测病案信息。

在预测字符串中，病种信息之间以空格为分隔符。每一个目标患者能够得到一个与诊断编码有关的预测字符串，能够得到一个与手术编码有关的预测字符串。

在本发明又一个实施例中，病案信息预测模型为基于BERT模型所得到的模型，该模型所生成的预测病案信息为各个病种的分类概率。

本发明实施例提供的病案信息校验方法通过对目标患者的费用信息进行预处理以及映射，转变成病案信息预测模型可以识别的费用特征数据，将目标患者的费用特征数据输入病案信息预测模型，得到相应的病案预测信息，为后续的病案信息校验提供了良好的基础。

基于上述任一实施例，在本发明实施例中，所述步骤1021还包括：

从目标患者的费用信息所对应的分类码中滤除对病种识别重要程度低于预设阈值的分类码。

本领域技术人员可以知道，患者所支付的医疗费用中，有些医疗费用具有普遍性，这些医疗费用所对应的分类码对于病种识别帮助不大。例如，分类码F B#F BA#F BAA#（代表实验室诊断#(一)临床血液学检验#1.血液一般检验#）对于识别病种的作用较小。因此，在本发明实施例中，可将这样的分类码予以滤除。

在本发明实施例中，对分类码进行滤除操作的过滤条件为基于对大量病案数据进行TF-IDF（term frequency–inverse document frequency，词频-逆文本频率）运算所找到的低价值分类码。

TF-IDF算法是一种用于资讯检索与文本挖掘的加权算法，用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。在本发明实施例中，将TF-IDF算法引入低价值分类码的识别。所谓的低价值分类码也就是对病种识别帮助小的分类码。

采用TF-IDF算法查找低价值分类码的具体实现方式为：将每个病案的所有收费项目分类视为不同的句子，将每个具体的分类视为词，这样便获得了与病案数量同等量的句子，然后可以通过TF-IDF算法找出各个分类的评价指标值，将各个分类的评价指标值与预先设定的阈值进行比较，从而得到低价值分类。

本发明实施例提供的病案信息校验方法通过对分类码的过滤有助于更好的抽取费用特征数据，进而有助于提高病案信息预测模型的识别效率，最终提高病案信息校验的准确率。

基于上述任一实施例，在本发明实施例中，所述获取目标患者的已记录病案信息包括：

获取目标患者的原始已记录病案信息；

在前文中已经提到，目标患者的已记录病案信息中包括有诊断编码与手术编码。目前由于各个地方、各个公司都有各自的编码体系，因此从数据库中获取的目标患者的已记录病案信息的诊断编码和手术编码千差万别，没有统一的数据格式。在本发明实施例中，需要对诊断编码和手术编码进行转换。

在进行转换时，首先要将原始码映射到标准码。所述原始码是指诊断编码与手术编码的原始编码形态。诊断编码的标准码需要符合国家标准《医疗保障疾病诊断分类及代码（ICD-10）》，手术编码的标准码需要符合《医疗保障手术操作分类与编码（ICD-9-CM-3）》。在之前对目标患者的费用信息的处理过程中，已经就原始码映射到标准码的具体实现过程做了说明，因此不在此处重复。

在得到目标患者的已记录病案信息的标准码后，根据标准码中的疾病类目并结合ADRG（Adjacent Diagnosis Related Groups，核心疾病诊断相关组），可得到已记录病案信息的病种信息。病种信息描述了已记录病案信息中所包含的疾病种类。例如，在一个实施例中，经分析可知病种的全部数量有2800种，则病种信息描述了目标患者具体的患病类型，如目标患者甲的疾病类型为2800种之中的第1种以及第2500种。

包含有病种信息的已记录病案信息即为目标患者的已记录病案信息。

作为一种优选的实现方式，目标患者的包含有病种信息的已记录病案信息可采用矩阵的方式表示。矩阵中的列代表了对应的病种，矩阵中的行代表了目标患者的标识信息。若目标患者的数量多于一个，则矩阵有多行，每行代表一个目标患者的已记录病案信息。矩阵中的数值代表了某一患者（数值所在行所对应的患者）在某一病种（数值所在列所对应的病种）下的患病情况。如1代表患病，0代表不患病。

例如，一个10*2800的矩阵，代表10个病案ID对于2800种病种的患病情况，如果第一行分别在10列与2500列标记1并且其他列标记0，那么表示第一个病案ID患病类型为第10种与第2500种。

本发明实施例提供的病案信息校验方法通过对目标患者的原始已记录病案信息进行转换，得到包含有病种信息的已记录病案信息，从而为已记录病案信息与预测病案信息之间的比较打下了基础。

基于上述任一实施例，在本发明实施例中，所述根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验包括：

对目标患者的预测病案信息进行转换；

将转换后的目标患者的预测病案信息与包含有病种信息的目标患者的病案信息进行比较。

对目标患者的预测病案信息进行转换的具体实现过程与病案信息预测模型的类型有关。

在前文中已经提到，基于神经网络的病案信息预测模型以及基于BERT模型的病案信息预测模型所输出的目标患者的预测病案信息描述了目标患者对于各个病种的患病概率。为了便于将预测病案信息与包含有病种信息的目标患者的病案信息进行比较，在本发明实施例中，可在所述比较操作之前对预测病案信息进行转换，首先将其中的患病概率值转换为以0或1表示的逻辑判断值。

例如，设定一个判断阈值，然后将目标患者的预测病案信息中各个病种所对应的患病概率值与该判断阈值进行比较，若患病概率值大于或等于所述判断阈值，则逻辑判断值设定为1，若患病概率值小于所述判断阈值，则逻辑判断值设定为0。

对于基于Transformer模型所得到的病案信息预测模型，每个目标患者有一个与诊断编码有关的预测字符串以及一个与手术编码有关的预测字符串。可基于这两个预测字符串生成与前述包含有病种信息的目标患者的已记录病案信息进行直接比较的对象。例如，若包含有病种信息的目标患者的已记录病案信息为一个矩阵（简称病案信息矩阵），那么可根据前述的与诊断编码有关的预测字符串以及与手术编码有关的预测字符串生成一个预测矩阵，该预测矩阵中的特征（即病种）与病案信息矩阵的特征在特征顺序上一致，从而实现两个矩阵中的特征值的直接比对。

在完成对目标患者的预测病案信息的转换后，可将转换后的目标患者的预测病案信息与包含有病种信息的目标患者的病案信息进行比较。从之前的举例说明可以看到，转换后的目标患者的预测病案信息与目标患者的包含有病种标签的已记录病案信息具有相同的维度。例如，转换后的目标患者的预测病案信息的矩阵表示方式中的行表示了目标患者的标识信息，列表示了病种；同样的，目标患者的包含有病种信息的已记录病案信息的矩阵表示方式中的行表示了目标患者的标识信息，列表示了病种。病种的总体种类与数量是固定的，同一目标患者的标识信息也是相同的，因此转化后的目标患者的预测病案信息与目标患者的包含有病种信息的已记录病案信息具有相同的维度，具有直接比较的基础。

在进行比较时，将同一目标患者在同一病种下的预测情况与实际情况进行比较，比较结果有三类，一是预测情况与实际情况相同；二是预测情况中包含该病种，而实际情况不包含该病种；三是预测情况不包含该病种，而实际情况包含该病种。

在得到比较结果后，需要将比较结果反馈给相关工作人员。在反馈比较结果时，除了预测情况与实际情况相同的比较结果外，其他两类存在问题的比较结果需要反馈包括病案ID，疑似问题的类型，存在问题的病种等信息。其中，若预测情况中包含某病种，而实际情况不包含该病种，则疑似问题的类型为病案首页中的诊断编码和/或手术编码发生漏填情况；若预测情况不包含某病种，而实际情况包含该病种，则疑似问题的类型为病案首页中的诊断编码和/或手术编码发生错填情况。存在问题的病种为预测情况与实际情况存在差异的病种。

进一步的，为了使得工作人员能够更好地了解比较结果，还可以将比较结果反向映射到诊断编码的原始码和/或手术编码的原始码（即病案首页中所记载的诊断编码和/或手术编码）。

当发生漏填情况时，根据发生问题的病种无法精确找出具体是哪一个诊断编码和/或手术编码发生漏填，此时通过反向查找能够找到发生问题的病种所对应的所有诊断编码的原始码和/或手术编码的原始码。

当发生错填情况时，根据发生问题的病种能够反向找出发生错填情况的诊断编码的原始码和/或手术编码的原始码。

本发明实施例提供的病案信息校验方法通过将病案信息预测模型所输出的预测病案信息与目标患者的已记录病案信息的比对，实现了对目标患者的已记录病案信息的校验，并将校验结果反馈给工作人员，提高了校验的准确率与效率。

基于上述任一实施例，在本发明实施例中，方法还包括：

采集样本患者的费用信息以及已记录病案信息；

对样本患者的已记录病案信息进行校验；

将样本患者的费用信息作为训练使用的输入数据，将样本患者的经过校验的已记录病案信息作为标签，采用机器学习的方法进行训练，得到用于生成患者病案信息的病案信息预测模型。

在本发明之前的实施例中，病案信息预测模型已经训练完成。在本发明实施例中，对病案信息预测模型的训练过程进行描述。

首先，需要采集样本数据。所述样本数据包括样本患者的费用信息以及已记录病案信息。关于费用信息以及已记录病案信息的定义与具体内容在本发明之前的实施例中已经有详细描述，此处不再重复。样本数据需要有一定的规模，可选用某一医疗机构15个月内的费用信息以及已记录病案信息作为样本数据。

采集到样本数据后，需要对样本数据进行包括清洗在内的预处理。所述清洗在本发明之前的实施例中已经有相关的描述，因此不在此处重复。

对于清洗后的样本患者的费用信息，需要进行去重操作，需要将费用信息中的费用类别信息进行映射，形成费用特征数据。

对于样本数据中的已记录病案信息进行校验，校验的方法可以采用人工校验的方式，也可以采用现有技术中的规则校验方法。

在得到样本患者的费用特征数据以及样本患者的经过校验的已记录病案信息后，将样本患者的费用特征数据作为训练使用的输入数据，将样本患者的经过校验的已记录病案信息作为标签，通过机器学习的方法进行训练，得到病案信息预测模型。

在本发明的一个实施例中，所述机器学习的方法为神经网络算法。在本发明的另一个实施例中，所述机器学习的方法可基于Transformer模型实现。需要说明的是，由于基于Transformer模型所得到的病案信息预测模型包括两个子模型，第一子模型用于预测病案信息中的诊断编码所对应的病种信息，第二子模型用于预测病案信息中的手术编码所对应的病种信息。因此在对基于Transformer模型训练时，需要将样本数据中的费用信息作为输入数据，将样本数据中的经过校验的诊断编码作为标签，训练第一子模型，将样本数据中的费用信息作为输入数据，将样本数据中的经过校验的手术编码作为标签，训练第二子模型。在本发明又一个实施例中，基于机器学习的方法可基于BERT模型实现。

本发明实施例提供的病案信息校验方法采集样本患者的费用信息以及已记录病案信息，对样本患者的已记录病案信息进行校验，将经过校验的已记录病案信息作为标签，将样本患者的费用信息作为模型训练的输入数据，从而训练得到了病案信息预测模型。通过将病案信息预测模型所输出的预测病案信息与目标患者的已记录病案信息的比对，能实现对目标患者的已记录病案信息的校验，并将校验结果反馈给工作人员，提高了校验的准确率与效率。

基于上述任一实施例，图2为本发明实施例提供的病案信息校验装置的示意图，如图2所示，本发明实施例提供的病案信息校验装置包括：

信息获取模块201，用于获取目标患者的费用信息以及已记录病案信息；

预测模块202，用于根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息；

校验模块203，用于根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验；其中，

本发明实施例提供的病案信息校验装置通过将目标患者的费用信息输入到预先训练好的病案信息预测模型，得到目标患者的预测病案信息，然后将预测病案信息与目标患者已记录病案信息进行比较，从而实现对目标患者已记录病案信息的校验。在校验过程中不再需要专家制定规则，也不再依赖于人工劳动，不仅可以提高效率，还能降低错误率。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：获取目标患者的费用信息以及已记录病案信息；根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息；根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取目标患者的费用信息以及已记录病案信息；根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息；根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种病案信息校验方法，其特征在于，包括：

获取目标患者的费用信息以及已记录病案信息；

所述病案信息预测模型是基于样本患者的费用信息以及样本患者的经过校验的已记录病案信息进行训练得到的；

所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对神经网络进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的；

所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对Transformer模型进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的；

2.根据权利要求1所述的病案信息校验方法，其特征在于，所述病案信息预测模型是以样本患者的费用特征数据作为输入数据，以样本患者的经过校验的已记录病案信息作为标签，通过对BERT模型进行训练所得到的模型；其中，样本患者的费用特征数据是基于样本患者的费用信息得到的。

3.根据权利要求1所述的病案信息校验方法，其特征在于，所述根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息包括：

4.根据权利要求3所述的病案信息校验方法，其特征在于，所述根据目标患者的费用信息，得到目标患者的第一费用特征数据包括：

根据费用类别信息的标准码，得到费用类别信息的分类码；

5.根据权利要求4所述的病案信息校验方法，其特征在于，所述根据费用类别信息的标准码，得到费用类别信息的分类码包括：

6.根据权利要求1所述的病案信息校验方法，其特征在于，所述根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息包括：

7.根据权利要求6所述的病案信息校验方法，其特征在于，所述根据目标患者的费用信息，得到目标患者的第二费用特征数据包括：

8.根据权利要求2所述的病案信息校验方法，其特征在于，所述根据目标患者的费用信息以及病案信息预测模型，得到目标患者的预测病案信息包括：

9.根据权利要求1所述的病案信息校验方法，其特征在于，获取目标患者的已记录病案信息包括：

获取目标患者的原始已记录病案信息；

10.根据权利要求1所述的病案信息校验方法，其特征在于，所述根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验包括：

11.根据权利要求1所述的病案信息校验方法，其特征在于，在所述根据目标患者的预测病案信息，对目标患者的已记录病案信息进行校验的步骤之后，还包括：

12.根据权利要求1所述的病案信息校验方法，其特征在于，方法还包括：

采集样本患者的费用信息以及已记录病案信息；

对样本患者的已记录病案信息进行校验；

13.一种病案信息校验装置，其特征在于，包括：

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至12任一项所述病案信息校验方法的步骤。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至12任一项所述病案信息校验方法的步骤。