CN116150698B

CN116150698B - 一种基于语义信息融合的drg自动分组方法及系统

Info

Publication number: CN116150698B
Application number: CN202211094487.5A
Authority: CN
Inventors: 张岩曦; 刘晓聪; 杨杰; 李明慧; 许敏鹏; 黄永志; 王坤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-08-22
Anticipated expiration: 2042-09-08
Also published as: CN116150698A

Abstract

本发明公开了一种基于语义信息融合的DRG自动分组方法及系统，该方法包括：获取DRG分组数据并进行初始特征向量表示；使用预训练模型BERT获取DRG分组数据中所蕴含的语义信息的初始语义向量；将DRG分组数据的初始特征向量和初始语义向量输入CNN模型进行特征学习，获得融合语义向量；将融合语义向量输入分类器中，输出DRG分组的预测结果；根据DRG分组的真实标签与预测结果的损失来优化CNN模型参数，最终保存最优CNN模型服务于DRG分组应用。本发明将预训练模型BERT所获得的DRG分组数据所蕴含的语义特征融入到CNN模型中进行特征学习和提取，使得CNN模型能更加准确地理解DRG分组数据的语义信息，提升DRG分组性能。

Description

一种基于语义信息融合的DRG自动分组方法及系统

技术领域

本发明属于医学人工智能领域，具体是涉及一种基于语义信息融合的DRG自动分组方法及系统。

背景技术

DRG分组主要有基于规则的方法和基于机器学习的方法。其中，基于规则的方法主要是专家依赖DRG分组的编码规则，如授权号为CN107463771B的中国专利文献公开了一种病例分组的方法和系统，包括：获取病例信息，根据病例信息中的主要诊断编码和操作编码将其分入对应的基本组，得到基本组编码和基本组名称；当主要诊断编码对应的主要诊断不属于住院时间影响型，或者，基本组不属于特定基本组时，根据基本组编码和各诊断编码，计算得到各诊断编码对应的诊断复杂性得分；根据各诊断编码对应的诊断复杂性得分，计算得到病例信息对应的疾病复杂指数；根据疾病复杂指数，将病例信息从基本组分入细分组，得到疾病诊断相关分组代码、疾病诊断相关分组名称和疾病诊断相关分组相对权重，完成病例分组。

基于机器学习的方法则主要基于大数据进行机器自动学习。如公开号为CN111048190A的中国专利文献公开了一种基于人工智能的DRG分组方法，包括：1)获取病案数据与结算数据，利用AI技术自动获取数据特征集，并对获取数据进行裁剪处理；2)按照主诊断分为26个MDC，结合主要手术操作，对其中25个MDC进行细分获得ADRG；3)在ADRG的基础上结合CC、MCC，将ADRG进一步细分成三组；4)在特征集中选择核心特征因子，利用聚类算法分别对ADRG细分三组的病案数据进行聚类，若干类得到DRG；5)利用决策森林对聚类后的DRG进行处理，合并部分分组，获得最终DRG分组。

基于规则的方法操作性强、可解释性高，但操作繁琐，难以推广；基于机器学习的方法避免了繁琐的操作过程，打破了经验主义的约束。但现有的基于机器学习的方法都忽略了DRG分组数据的语义信息，而语义特征的缺失严重影响DRG分组性能。因此，亟需设计一种基于语义信息融合的DRG分组方法，以解决现有方法不能完整捕获数据的整体信息和语义特征缺失等问题。

发明内容

为此，本发明所要解决的技术问题在于现有技术中DRG分组方法忽略了DRG分组数据的语义信息，导致语义特征的缺失，影响DRG分组性能，从而本申请提出一种基于语义信息融合的DRG自动分组方法及系统。该方法考虑DRG分组数据中蕴含的语义信息，通过使用预训练模型BERT获得DRG分组数据的初始语义向量；并将其与初始特征向量一起输入到CNN模型进行特征学习，从而获得更有效的融合语义向量，并服务于DRG分组。通过预训练模型BERT所获得的语义特征的融入，使得CNN模型更加准确地理解DRG分组数据的语义信息，从而提高DRG分组的准确率。

为达到上述目的，本发明的技术方案如下：

根据本发明的第一方面，提供一种基于语义信息融合的DRG自动分组方法，该方法包括如下步骤：

S1：获取DRG分组数据并进行初始特征向量表示；

S2：使用预训练模型BERT获取DRG分组数据中所蕴含的语义信息的初始语义向量；

S3：将DRG分组数据的初始特征向量和初始语义向量输入CNN模型进行特征学习，获得融合语义向量；

S4：将融合语义向量输入分类器中，输出DRG分组的预测结果；

S5：根据DRG分组的真实标签与预测结果的损失来优化CNN模型参数，最终保存最优CNN模型服务于DRG分组应用。

进一步地，所述步骤S1具体包括如下步骤：

S11：从医院的历史病例数据和结算信息中获取DRG分组数据，并将其划分为训练集和测试集；其中，一条DRG分组数据的字段主要包括：主诊断编码、主手术编码、次诊断名称、次手术名称、性别、年龄、离院方式、住院天数、医疗总费用、DRG分组；

S12：将数值型字段：年龄、住院天数、医疗总费用进行归一化得到初始特征向量V₁；

S13：将分类型字段：主诊断编码、主手术编码、次诊断名称、次手术名称、性别、离院方式进行独热编码得到初始特征向量V₂；

S14：将步骤S12和步骤S13所得的V₁和V₂进行拼接，得到DRG分组数据的初始特征向量[V₁:V₂]。

进一步地，所述步骤S2具体包括如下步骤：

S21：构建预训练模型BERT，该模型包含12个Transformer编码器，每个编码器依次由注意力层、归一化层、前馈层和归一化层四个模块堆叠组成；

S22：获取包含疾病名称和手术名称的文本数据，作为预训练数据集；

S23：将预训练数据集输入到构建好的BERT模型中，从而获得训练好的BERT模型；

S24：基于训练好的BERT模型，获得DRG分组数据中主诊断编码和主手术编码对应名称的初始语义向量V₃和V₄；

S25：将步骤S24所得的V₃和V₄进行拼接，得到DRG分组数据的初始语义向量[V₃:V₄]。

进一步地，所述步骤S3具体包括如下步骤：

S31：将步骤S14所得的DRG分组数据的初始特征向量[V₁:V₂]和步骤S25所得的初始语义向量[V₃:V₄]进行拼接，得到输入向量V＝[V₁:V₂:V₃:V₄]；

S32：将输入向量V经过CNN模型的卷积层和池化层，学习到更有效的融合语义向量V_s。

进一步地，所述步骤S4具体包括如下步骤：

S41：将融合语义向量V_s输入分类器中，依次经过全连接层、softmax层，输出DRG分组的概率分布；

S42：选取最大概率值所对应的类别作为DRG分组类别，输出DRG分组预测结果

进一步地，所述步骤S5具体包括如下步骤：

S51：根据DRG分组的真实标签Y和预测结果计算CNN模型的多分类交叉熵损失L，计算方式如下：

其中，N为训练样本数，K为DRG分组的类别数，代表第n个样本为第k类DRG分组的预测值，Y_n,k代表第n个样本的真实标签为第k类DRG分组；

S52：将多分类交叉熵损失L进行反向传播来优化CNN模型参数，最终保存最优CNN模型服务于DRG分组应用。

根据本发明的第二方面，提供一种基于语义信息融合的DRG自动分组系统，该系统包括以下模块：

数据获取模块：获取DRG分组数据并进行初始特征向量表示；

语义获取模块：使用预训练模型BERT获取DRG分组数据中所蕴含的语义信息的初始语义向量；

融合模块：将DRG分组数据的初始特征向量和初始语义向量输入CNN模型进行特征学习，获得融合语义向量；

分类器模块：将融合语义向量输入分类器中，输出DRG分组的预测结果；

优化模块：根据DRG分组的真实标签与预测结果的损失来优化CNN模型参数，最终保存最优CNN模型服务于DRG分组应用。

根据本发明的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述基于语义信息融合的DRG自动分组方法的步骤。

根据本发明的第四方面，提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于语义信息融合的DRG自动分组方法的步骤。

本发明的有益效果在于：(1)本发明针对现有方法语义特征缺失的问题，融入DRG分组数据中的语义信息，使用预训练模型BERT获得DRG分组数据中主诊断名称和主手术名称的初始语义向量；(2)将BERT获得的初始语义向量与初始特征向量一起送入CNN模型进行进一步的特征学习和提取，可挖掘到更有效的融合语义向量；(3)融合语义向量捕获了DRG分组数据多维度的特征信息，更有利于提升DRG分组性能。

附图说明

图1为本发明一种基于语义信息融合的DRG自动分组方法的流程图。

图2为本发明实施例中的样例数据展示图。

图3为本发明一种基于语义信息融合的DRG自动分组方法的性能展示图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明，应当理解，此处描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出的一种基于语义信息融合的DRG自动分组方法，包括如下步骤：

S1：获取DRG分组数据并进行初始特征向量表示。该步骤具体包括以下子步骤：

S11：在本实施例中，从某医院的历史病例数据和结算信息中获取206405条DRG分组数据，并按照3：1的比例将其划分为训练集和测试集。如图2所示，一条DRG分组数据的字段主要包括：主诊断编码、主诊断名称、主手术编码、主手术名称、次诊断名称、次手术名称、住院天数、医疗总费用、DRG分组；

S12：将数值型字段：住院天数、医疗总费用进行归一化得到初始特征向量V₁；

S13：将分类型字段：主诊断编码、主手术编码、次诊断名称、次手术名称进行独热编码得到初始特征向量V₂；

S2：使用预训练模型BERT获取DRG分组数据中所蕴含的语义信息的初始语义向量。该步骤具体包括以下子步骤：

S21：在本实施例中，为减少训练时间和计算资源，使用Google训练好的BERT-Base-Chinese模型，该模型包含12个Transformer编码器，每个编码器由8个自注意机制构成；

S22：BERT-Base-Chinese模型所使用的预训练数据集是由维基百科和大规模书籍语料组成；

S23：下载Google训练好的BERT-Base-Chinese模型，并启动bert-as-service服务；

S24：调用BERT-Base-Chinese模型，获得DRG分组数据中主诊断编码和主手术编码对应名称的初始语义向量V₃和V₄；

S3：将DRG分组数据的初始特征向量和初始语义向量输入CNN模型进行特征学习，获得融合语义向量。该步骤具体包括以下子步骤：

S4：将融合语义向量输入分类器中，输出DRG分组预测结果。该步骤具体包括以下子步骤：

S42：选取最大概率值所对应的类别作为DRG分组类别，输出DRG分组的预测结果

S5：根据DRG分组的真实标签与预测结果的损失来优化CNN网络参数，保存最优模型服务于DRG分组应用。该步骤具体包括以下子步骤：

S51：根据DRG分组的真实标签Y和预测结果计算CNN的多分类交叉熵损失L，计算方式如下：

其中，N为训练样本数，K为DRG分组的类别数，代表第n个样本为第k类DRG分组的预测值，Y_n,k代表第n个样本的真实标签为第k类DRG分组；在本实施例中，训练样本数N＝154804，DRG分组的类别数K＝716。

DRG分组问题属于多分类问题，因此使用准确率和F1-score作为DRG分组性能的评判指标。如图3所示，在本实施例中本发明提出的一种基于语义信息融合的DRG自动分组方法在716种DRG分组类别中的准确率和F1-score分别达到了91.17％和90.93％，充分展示了本发明方法的有效性。

本实施例所述的一种基于语义信息融合的DRG自动分组方法，融入DRG分组数据的语义信息，通过使用预训练模型BERT获得DRG分组数据中主诊断名称和主手术名称的语义向量，解决了现有方法语义特征缺失的问题；并使用CNN模型来充分学习和提取DRG分组数据的不同维度的特征信息，提高了特征捕捉的能力，丰富了特征表达，提高了DRG分组性能。

在一个实施例中，提供一种基于语义信息融合的DRG自动分组系统，该系统包括以下模块：

数据获取模块：获取DRG分组数据并进行初始特征向量表示；

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中基于语义信息融合的DRG自动分组方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中基于语义信息融合的DRG自动分组方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于语义信息融合的DRG自动分组方法，其特征在于，包括如下步骤：

S1：获取DRG分组数据并进行初始特征向量表示，具体包括如下步骤：

S14：将步骤S12和步骤S13所得的V₁和V₂进行拼接，得到DRG分组数据的初始特征向量[V₁:V₂]；

S2：使用预训练模型BERT获取DRG分组数据中所蕴含的语义信息的初始语义向量，具体包括如下步骤：

S25：将步骤S24所得的V₃和V₄进行拼接，得到DRG分组数据的初始语义向量[V₃:V₄]；

S5：根据DRG分组的真实标签与预测结果的损失来优化CNN模型参数，最终保存最优CNN模型服务于DRG分组应用，具体包括如下步骤：

2.根据权利要求1所述的基于语义信息融合的DRG自动分组方法，其特征在于，所述步骤S3具体包括如下步骤：

S31：将DRG分组数据的初始特征向量和初始语义向量进行拼接，得到输入向量V；

3.根据权利要求1所述的基于语义信息融合的DRG自动分组方法，其特征在于，所述步骤S4具体包括如下步骤：

4.一种利用权利要求1-3中任一项所述方法实现的基于语义信息融合的DRG自动分组系统，其特征在于，包括：

数据获取模块：获取DRG分组数据并进行初始特征向量表示；

5.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1-3中任一项所述基于语义信息融合的DRG自动分组方法的步骤。

6.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1-3中任一项所述基于语义信息融合的DRG自动分组方法的步骤。