CN114388085B

CN114388085B - 一种基于病案的实时智能辅助icd编码方法及系统

Info

Publication number: CN114388085B
Application number: CN202111391266.XA
Authority: CN
Inventors: 葛丹丹; 夏泳; 章豪; 昂洁; 司明舒
Original assignee: First Affiliated Hospital of Wannan Medical College
Current assignee: First Affiliated Hospital of Wannan Medical College
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-09-09
Anticipated expiration: 2041-11-23
Also published as: CN114388085A

Abstract

本发明公开了一种基于病案的实时智能辅助ICD编码方法及系统，包括以下步骤：步骤S1、基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型；步骤S2、构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，以及构建出表征病案数据和ICD编码的非线性关系的第三映射模型；步骤S3、将实时病案数据与历史病案数据进行偏离度比较，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码。本发明将病案数据具象为数学函数进行表达，在此基础上构建的第一映射模型训练和运算从离散数据点转化为函数形式，训练速度以及运算效率都得以提高。

Description

一种基于病案的实时智能辅助ICD编码方法及系统

技术领域

本发明涉及病案ICD编码技术领域，具体涉及一种基于病案的实时智能辅助ICD编码方法及系统。

背景技术

疾病诊断相关分组(DRGs)是一种“以病人为中心”的病例组合系统，也是控制医疗付费，医院精细化管理及医疗评价的一项有效的工具，其主要数据来源于病案首页。国际疾病分类(ICD)是一种对不同类型的疾病及与健康相关的问题进行编码和分类的国际标准。DRGs入组的第一道门坎即是ICD-10疾病编码，所以ICD疾病编码直接影响DRGs的顺利开展。

目前实际应用中，由医院产生ICD的编码过程难以满足包括医院在内各种管理需求。在我国，对疾病分类进行编码的工作主要是由医院的病案科(室)的编码员负责，但编码员常常为其繁杂的查找方法、低质低效的查找结果、枯燥的工作内容所烦扰；厚重的分类修订本既不易携带，也不易于翻阅，若要高质量的编码，疾病统计工作量会远远大于医院已有的病案科人力所能承担的负荷，所以很多时候难以确保编码的准确性，更何况很多中小医院连合格的编码员都没有。为解决手工ICD编码耗时费力、成本昂贵、稳定性差等问题，研究者们开始研究通过计算机辅助进行ICD自动编码的各类方法和系统。包括基于规则的ICD编码系统、基于机器学习的ICD编码系统和基于深度学习的编码。

但现有技术中均存在以下问题：

1.编码系统多采用事后编码而非实时编码机制，即编码任务通常由病案小组的编码人员在病人出院后才完成。编码人员并不真正了解患者的实际情况，也存在对医生书写病历误解的可能性。因此，事后由病案小组编码的方式相比由医生实时进行ICD编码，存在更多的编码错误。

2.现有方法灵活性不够，难以适应不同医生的诊断书写风格，导致编码准确性不高。如基于规则的编码系统需要维护一个庞大的规则库，占用大量的存储空间；且该系统一旦迁移到其它医院，可能由于医生书写风格的改变，如多字、少字、同义词替换等，导致无法映射得到正确的ICD编码。

3.编码所用信息不全，导致系统准确率和查全率不高。医院病案中病历文本和医生(手写)诊断是两个最重要的编码依据，多数已有研究要么只对病历文本进行深度学习，但考虑到ICD编码的种类多达3万种，因此查准率不高；要么只关注医生诊断，一旦医生出现漏写、错写，则系统查全率降低。

发明内容

本发明的目的在于提供一种基于病案的实时智能辅助ICD编码方法及系统，以解决现有技术中ICD编码准确率低和及时性差的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种基于病案的实时智能辅助ICD编码方法，包括以下步骤：

步骤S1、基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，所述第一映射模型用于实现根据病案数据识别出病种名称；

步骤S2、基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，所述第二映射模型用于实现根据病种名称识别出ICD编码，基于所述第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，所述第三映射模型用于实现根据病案数据识别出ICD编码；

步骤S3、将实时病案数据与历史病案数据进行偏离度比较，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码，以及在偏离度未超阈值情况下将最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码以实现编码复用来降低编码通道的数据并发。

作为本发明的一种优选方案，所述基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，包括：

将所述历史病案数据按病种名称进行分类得到多个病案数据集，并将历史病案数据的病种名称作为病案数据集的病种名称，所述病案数据集是由表征同一病种名称的所有历史病案数据聚集产生；

为病案数据集中的历史病案数据设置游离权重，并基于游离权重将病案数据集具象为数学函数以整体表达病案数据集中的所有历史病案数据，所述游离权重是衡量历史病案数据与病案数据集的集合中心处的病案数据的偏离程度的指标；

利用神经网络将病案数据集的数学函数和病案数据集的病种名称构建表征病案数据和病种名称的非线性映射关系的第一映射模型，所述第一映射模型的模型表达式为：

Z＝F[X]；

式中，Z表征为所述病种名称，X表征为所述数学函数，F表征为神经网络；

将所有病案数据集的数学函数和病种名称构成用于映射模型训练的样本元组集，并将样本元组集以数据量为7:3分割成训练集和测试集带入第一映射模型进行模型训练以得到病案数据和病种名称非线性映射关系，所述样本元组的格式为：[数学函数，病种名称]。

作为本发明的一种优选方案，所述为病案数据集中的历史病案数据设置游离权重，并基于游离权重将病案数据集具象为数学函数，包括：

为病案数据集中的历史病案数据设置游离权重，所述游离权重的计算公式为：

式中，w_i,k表征为第i个病案数据集中第k个历史病案数据的游离权重，x_i,o表征为第i个病案数据集的集合中心处的历史病案数据，x_i,k表征为第i个病案数据集中第k个历史病案数据；

在游离权重中选择出最小游离权重w_i,min和最大游离权重w_i,max，并将最小游离权重和最大游离权重与病案数据集中心位置处的病案数据进行区间组合得到病案数据集的数学函数，所述病案数据集的数学函数为：

X_i＝[w_i,min*x_i,o,w_i,max*x_i,o]；

式中，w_i,min、w_i,max分别表征为第i个病案数据集的最小游离权重和最大游离权重，i，k，o均为计量常数，无实质含义。

作为本发明的一种优选方案，所述病案数据集的集合中心处的历史病案数据的计算公式为：

式中，m表征为第i个信号数据集中包含的历史病案数据的总数目。

作为本发明的一种优选方案，所述基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，包括：

利用线性网络将病种名称和ICD编码构建表征病种名称和ICD编码的线性映射关系的第二映射模型，所述第二映射模型的模型表达式为：

Y＝G[Z]；

式中，Z表征为病种名称，Y表征为ICD编码，G表征为线性网络。

作为本发明的一种优选方案，所述基于所述第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，包括：

基于所述第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，所述第三映射模型的模型表达式为：

Y＝G(F[X])。

作为本发明的一种优选方案，所述将实时病案数据与历史病案数据进行偏离度比较，包括：

计算实时病案数据与历史病案数据的偏离度，并选取出最小偏离度与阈值比较，其中，

当最小偏离度未超过阈值，则将实时病案数据的最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码；

当最小偏离度超过阈值，则利用第三映射模型输出实时病案数据的ICD编码；

所述实时病案数据与历史病案数据的偏离度计算公式为：

式中，p_j,new表征为实时病案数据x_new与第j个历史病案数据x_j的偏离度，x_j表征为第j个历史病案数据，j为计量常数，无实质含义。

作为本发明的一种优选方案，所述利用第三映射模型输出实时病案数据的ICD编码，包括：

在偏离中选择出最小偏离度p_min，并将最小偏离度p_min与实时病案数据进行区间组合得到数学函数X_new＝[p_min*x_new,p_min*x_new]；

将X_new＝[p_min*x_new,p_min*x_new]带入第三映射模型Y＝G(F[X])中得到实时病案数据的ICD编码Y_new。

作为本发明的一种优选方案，本发明提供了一种根据所述的基于病案的实时智能辅助ICD编码方法的编码系统，包括：

模型建立单元，用于基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，以及基于所述第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型；

实时编码单元，用于将实时病案数据与历史病案数据进行偏离度比较，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码，以及在偏离度未超阈值情况下将最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码以实现编码复用来降低编码通道的数据并发。

作为本发明的一种优选方案，所述模型建立单元和实时编码单元通过网络通信完成数据交互。

本发明与现有技术相比较具有如下有益效果：

本发明基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，避免医生漏写或误写编码信息而导致的准确率和查全率不高，实现准确率的提高，将病案数据具象为数学函数进行表达，在此基础上构建的第一映射模型训练和运算从离散数据点转化为函数形式，训练速度以及运算效率都得以提高，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码，以及在偏离度未超阈值情况下将最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码以实现编码复用来降低编码通道的数据并发。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的实时智能辅助ICD编码方法流程图；

图2为本发明实施例提供的编码系统结构框图。

图中的标号分别表示如下：

1-模型建立单元；2-实时编码单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，编码系统多采用事后编码而非实时编码机制，即编码任务通常由病案小组的编码人员在病人出院后才完成。编码人员并不真正了解患者的实际情况，也存在对医生书写病历误解的可能性，或者医生书写风格存在差异，编码人员难以理解，以及医生出现漏写、误写情况，编码人员也无法确保编码正确性，因此本发明提供了一种基于病案的实时智能辅助ICD编码方法，可在获取实时病案数据后立即识别出病种名称再同步进行编码，并且直接根据病案数据识别出的病种名称进行编码，无需识别医生的书写风格，也避免医生漏写以及误写病种名称导致的编码错误，有效的提高编码效率和准确率。

一种基于病案的实时智能辅助ICD编码方法，包括以下步骤：

步骤S1、基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，第一映射模型用于实现根据病案数据识别出病种名称；

为了避免医生书写风格、漏写和误写导致的无法识别到病种名称，本实施例直接从历史病案数据中自行识别出病种名称，病案数据包括各种仪器检查出的病理数据，该数据是固定且规范的，不存在书写风格的问题，直接基于此类规范数据构建出病案数据和病种名称的非线性映射关系的第一映射模型，可直接根据病案数据识别出病种名称，高效且准确，第一映射模型的构建方法如下：

基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，包括：

将历史病案数据按病种名称进行分类得到多个病案数据集，并将历史病案数据的病种名称作为病案数据集的病种名称，病案数据集是由表征同一病种名称的所有历史病案数据聚集产生；

为病案数据集中的历史病案数据设置游离权重，并基于游离权重将病案数据集具象为数学函数以整体表达病案数据集中的所有历史病案数据，游离权重是衡量历史病案数据与病案数据集的集合中心处的病案数据的偏离程度的指标；

利用神经网络将病案数据集的数学函数和病案数据集的病种名称构建表征病案数据和病种名称的非线性映射关系的第一映射模型，第一映射模型的模型表达式为：

Z＝F[X]；

式中，Z表征为病种名称，X表征为数学函数，F表征为神经网络；

将所有病案数据集的数学函数和病种名称构成用于映射模型训练的样本元组集，并将样本元组集以数据量为7:3分割成训练集和测试集带入第一映射模型进行模型训练以得到病案数据和病种名称非线性映射关系，样本元组的格式为：[数学函数，病种名称]。

为病案数据集中的历史病案数据设置游离权重，并基于游离权重将病案数据集具象为数学函数，包括：

为病案数据集中的历史病案数据设置游离权重，游离权重的计算公式为：

在游离权重中选择出最小游离权重w_i,min和最大游离权重w_i,max，并将最小游离权重和最大游离权重与病案数据集中心位置处的病案数据进行区间组合得到病案数据集的数学函数，病案数据集的数学函数为：

X_i＝[w_i,min*x_i,o,w_i,max*x_i,o]；

利用游离权重将整个病案数据集进行函数表达，可将历史病案数据从离散数据点形式量化为函数形式，实现了数据的压缩，降低了存储空间，而且基于函数形式的模型构建，可以直接将病案数据集的数学函数作为训练数据，无需对每个历史病案数据均进行模型训练，有效的提高了训练效率，比如，某一病案数据集包含100个历史病案数据点，将该病案数据集量化为数学函数形式得到X_i＝[w_i,min*x_i,o,w_i,max*x_i,o]，对于原始训练方式而言利用神经网络将病案数据集的历史病案数据和病案数据集的病种名称构建表征病案数据和病种名称的非线性映射关系的第一映射模型，第一映射模型的模型表达式为：

Z＝F[x]；

式中，Z表征为病种名称，x表征为历史病案数据，F表征为神经网络，原始训练而言是将该100个历史病案数据点x_i,1～x_i,100依次以样本元组[历史病案数据，病种名称]输入到第一映射模型Z＝F[x]中训练得到表征病案数据和病种名称的非线性映射关系，整体训练的运算复杂度为病案数据集总数与每个病案数据集中病案数据量的总数目m的乘积，而本实施例将第一映射模型构建为利用神经网络将病案数据集的数学函数和病案数据集的病种名称构建表征病案数据和病种名称的非线性映射关系，第一映射模型的模型表达式为：

Z＝F[X]；

式中，Z表征为病种名称，X表征为数学函数，F表征为神经网络，在训练时只需将[数学函数，病种名称]输入到第一映射模型Z＝F[x]中训练得到表征病案数据和病种名称的非线性映射关系，整体训练的运算复杂度等同于病案数据集总数，相交而言本实施例的训练效率更高。

病案数据集的集合中心处的历史病案数据的计算公式为：

步骤S2、基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，第二映射模型用于实现根据病种名称识别出ICD编码，基于第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，第三映射模型用于实现根据病案数据识别出ICD编码；

基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，包括：

利用线性网络将病种名称和ICD编码构建表征病种名称和ICD编码的线性映射关系的第二映射模型，第二映射模型的模型表达式为：

Y＝G[Z]；

基于第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，包括：

基于第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，第三映射模型的模型表达式为：

Y＝G(F[X])。

将实时病案数据与历史病案数据进行偏离度比较，包括：

当最小偏离度未超过阈值，即说明实时病案数据与最小偏离度对应的历史病案数据越相似，则二者表达为同一种病种名称的概率越大，则将实时病案数据的最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码，可无需调用第三映射模型进行运算，避免无效占用运算资源；

当最小偏离度超过阈值，即说明实时病案数据与最小偏离度对应的历史病案数据越不相似，则二者表达为同一种病种名称的概率越小，则利用第三映射模型输出实时病案数据的ICD编码；

实时病案数据与历史病案数据的偏离度计算公式为：

利用第三映射模型输出实时病案数据的ICD编码，包括：

将实时病案数据基于最小偏离度转换为数学函数形式X_new＝[p_min*x_new,p_min*x_new]，符合模型的输入格式，利用最小偏离度是因为偏离度最小表征实时病案数据与最小偏离度对应的历史病案数据具有最高相似度，将实时病案数据和历史病案数据两个数据点构建为一个病案数据集合，将实时病案数据作为集合中心处的历史病案数据，则该病案数据集合的函数表达式X_new＝[p_min*x_new,p_max*x_new]，其中，由于只有两个点则p_max＝p_min，因此构建得到X_new＝[p_min*x_new,p_min*x_new]，也可以将实时病案数据的病案数据集构建的很大，但是如此只会增加计算复杂度，对于运算结果并会产生影响，在实际使用时可由用户进行自定义。

如图2所示，基于病案的实时智能辅助ICD编码方法，本发明提供了一种编码系统，包括：

模型建立单元1，用于基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，以及基于第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型；

实时编码单元2，用于将实时病案数据与历史病案数据进行偏离度比较，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码，以及在偏离度未超阈值情况下将最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码以实现编码复用来降低编码通道的数据并发。

模型建立单元和实时编码单元通过网络通信完成数据交互。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于病案的实时智能辅助ICD编码方法，其特征在于，包括以下步骤：

步骤S3、将实时病案数据与历史病案数据进行偏离度比较，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码，以及在偏离度未超阈值情况下将最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码以实现编码复用来降低编码通道的数据并发；

所述基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，包括：

Z＝F[X]；

将所有病案数据集的数学函数和病种名称构成用于映射模型训练的样本元组集，并将样本元组集以数据量为7:3分割成训练集和测试集带入第一映射模型进行模型训练以得到病案数据和病种名称非线性映射关系，所述样本元组的格式为：[数学函数，病种名称]；所述为病案数据集中的历史病案数据设置游离权重，并基于游离权重将病案数据集具象为数学函数，包括：

X_i＝[w_i,min*x_i,o,w_i,max*x_i,o]；

式中，w_i,min、w_i,max分别表征为第i个病案数据集的最小游离权重和最大游离权重，i，k，o均为计量常数，无实质含义；所述病案数据集的集合中心处的历史病案数据的计算公式为：

式中，m表征为第i个信号数据集中包含的历史病案数据的总数目；

所述将实时病案数据与历史病案数据进行偏离度比较，包括：

所述实时病案数据与历史病案数据的偏离度计算公式为：

式中，p_j,new表征为实时病案数据x_new与第j个历史病案数据x_j的偏离度，x_j表征为第j个历史病案数据，j为计量常数，无实质含义；

所述利用第三映射模型输出实时病案数据的ICD编码，包括：

2.根据权利要求1所述的一种基于病案的实时智能辅助ICD编码方法，其特征在于：所述基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，包括：

Y＝G[Z]；

3.根据权利要求2所述的一种基于病案的实时智能辅助ICD编码方法，其特征在于：所述基于所述第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型，包括：

Y＝G(F[X])。

4.一种根据权利要求1-3任一项所述的基于病案的实时智能辅助ICD编码方法的编码系统，其特征在于，包括：

模型建立单元(1)，用于基于历史病案数据构建出表征病案数据和病种名称的非线性映射关系的第一映射模型，基于ICD编码库构建出表征病种名称和ICD编码的线性映射关系的第二映射模型，以及基于所述第一映射模型和第二映射模型构建出表征病案数据和ICD编码的非线性关系的第三映射模型；

实时编码单元(2)，用于将实时病案数据与历史病案数据进行偏离度比较，并在偏离度超阈值情况下利用第三映射模型输出实时病案数据的ICD编码以实现对实时病案数据的重编码，以及在偏离度未超阈值情况下将最小偏离度对应的历史病案数据的ICD编码作为实时病案数据的ICD编码以实现编码复用来降低编码通道的数据并发。

5.根据权利要求4所述的一种编码系统，其特征在于，所述模型建立单元和实时编码单元通过网络通信完成数据交互。