CN112699241B

CN112699241B - 一种可追溯的病历分类方法

Info

Publication number: CN112699241B
Application number: CN202110010118.2A
Authority: CN
Inventors: 张伯政; 吴军; 樊昭磊; 何彬彬; 桑波
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2022-08-26
Anticipated expiration: 2041-01-04
Also published as: CN112699241A

Abstract

一种可追溯的病历分类方法，通过使用语言模型，对病历中所有文字的上下文信息进行语义整合，最终通过门控机制，压制无意义文字对分类结果的影响，提升了分类模型中间数据的信噪比，继而提升了病历文本的分类准确度。同时对分类结果有意义的文字得以通过门控值进行追溯。最终实现了高准确率的病历分类的同时，输出文字的门控值，并通过文字的门控值实现了病历分类的文字依据的追溯。

Description

一种可追溯的病历分类方法

技术领域

本发明涉及一种医疗信息处理技术领域，具体涉及一种可追溯的病历分类方法。

背景技术

病历的分类对于当前医疗卫生统计以及疾病编码质控以及DRGs和医保审核等等领域都有着非常广泛的应用。但现如今，病历的分类无法做到百分百准确，而医疗行业又由于其严谨性等特征，所以如何能够对分类的病历文本中的判据进行追溯，继而提升人在使用病历分类的后继产品时的人机协同体验显得尤为重要。传统的病历分类方法主要有两种技术方案：

基于统计语言处理的方法：例如TF-IDF、BM25、N-GRAM、隐语义分析、主题模型等等，这些方法共同的特点，是从统计学的角度出发，抽取出病历文本中的文本特征信息，并将文本特征信息使用统计学分类模型，例如逻辑回归、KNN、SVM等等模型，或者是使用MLP等深度学习模型，针对病历文本中抽取出来的特征信息进行分类。这些方法有很多明显短板：1.在通过统计语言处理方法来抽取病历文本特征的时候，破坏了原来文本的序列结构，虽然分类的过程解释性较强，但是病历的特征与病历文本信息仅仅存在统计学意义上的相关，并不存在一一对照的相关性，所以无法追溯。2.由于基于统计语言处理的方法抽取的病历文本的文本特征皆流于字面的统计，无法深入到每个字的语义层面的信息，所以分类的准确度不高。

基于深度学习的方法：该类方法使用深度神经网络，例如CNN、RNN、Transformer等等，对文本进行分类，虽然其分类准确度较高，但由于深度学习方法属于明显的黑盒机制，且近期有很多的文献以及研究指出，深度学习的追溯尤其是基于Attention机制的追溯都存在无法解释等问题，虽然可以采取例如敏感性分析等等方法进行追溯，但是此类方法只能够对文本中的单字进行追溯，追溯过程中无法结合全文信息。

所以设计一种可以在对病历进行高准确度的分类的同时，能够对文本中的分类判据信息进行精准追溯的方法显得尤为关键。

发明内容

本发明为了克服以上技术的不足，提供了一种对病历进行高准确度分类且能对文本中的分类判据信息进行精准追溯的病历分类方法。

本发明克服其技术问题所采用的技术方案是：

一种可追溯的病历分类方法，包括：

a)获取病历数据，将其表示为集合{(D₁,L₁),(D₂,L₂),...,(D_n,L_n)}，集合中有n个数据，D₁为第1个数据中的病历文本，L₁为第1个数据中的病历文本对应的类别标签，所有标签中类别个数为m；

b)随机初始化可训练的标签嵌入矩阵，表示为K，该矩阵大小为m行h列；

c)使用预训练好的语言模型，输入一个病历文本，将其输出的数据表示为矩阵U，其大小为l行h列；

d)随机初始化一个多层感知机，表示为MLP₁，其输入维度为h，其输出维度为1；

e)通计算得到每个字的门控值矩阵G，矩阵G为一个l行m列的矩阵，其第i行j列的值表示模型在做预测时，病历中的第i个字在对第j个类别作预测时的相关度；

f)通过计算得到模型预测结果概率矩阵

矩阵

为一个m行l列的矩阵，每行的数值表示该病历输入该行对应的类别的概率；

g)计算最终的损失值loss；

h)使用Adam或N-Adam优化器依照损失值loss优化语言模型、矩阵K、多层感知机MLP₁中的参数；

i)不断变换输入的病历数据，优化模型中的参数，优化完成后，得到最终的病历分类模型；

j)获取待分类的病历D，将病历D输入给步骤h)中优化后语言模型中，得到矩阵U，通过步骤e)计算得到每个字的门控值矩阵G，通过步骤f)计算得到模型预测结果概率矩阵

模型预测结果概率矩阵

中，最大的值对应的病历分类即为模型最终预测的类别；

k)对第j个类别做预测时，病历中第i个字的相关度为门控值矩阵G中第i行j列的值。

进一步的，步骤c)中的语言模型为BERT或RoBERTa模型或ALBERT模型或XL-NET模型。

进一步的，步骤e)中通过公式G＝sigmoid[U×K^T]计算得到每个字的门控值矩阵G，式中sigmoid[]为sigmoid函数，K^T表示对矩阵K进行转置。

进一步的，步骤f)中通过公式

计算得到模型预测结果概率矩阵

式中softmax[]为softmax函数，

T为转置。

进一步的，步骤g)中通过公式loss＝∑[-L*ln(P)]+γ∑[Relu(G-λ)]计算得到最终的损失值loss，式中λ为不可训练的预设参数，λ取值范围在0到1之间，∑[Relu(G-λ)]为门控值正则项，Relu()为Relu函数，γ为门控值的平衡权重，γ的取值大于零，L为输入的病历文本对应的类别标签。

进一步的，λ取值为0.1。

本发明的有益效果是：通过使用语言模型，对病历中所有文字的上下文信息进行语义整合，最终通过门控机制，压制无意义文字对分类结果的影响，提升了分类模型中间数据的信噪比，继而提升了病历文本的分类准确度。同时对分类结果有意义的文字得以通过门控值进行追溯。最终实现了高准确率的病历分类的同时，输出文字的门控值，并通过文字的门控值实现了病历分类的文字依据的追溯。

具体实施方式

下面对本发明做进一步说明。

一种可追溯的病历分类方法，包括：

a)获取病历数据，将其表示为集合{(D₁,L₁),(D₂,L₂),...,(D_n,L_n)}，集合中有n个数据，D₁为第1个数据中的病历文本，L₁为第1个数据中的病历文本对应的类别标签，所有标签中类别个数为m。

b)随机初始化可训练的标签嵌入矩阵，表示为K，该矩阵大小为m行h列。其每行数据对应某一个固定的病历类别。

c)使用预训练好的语言模型，输入一个病历文本，将其输出的数据表示为矩阵U，其大小为l行h列，其中l表示输入的病历的文本的长度，其每行数据与病历中的每个文字一一对应。

d)随机初始化一个多层感知机，表示为MLP₁，其输入维度为h，其输出维度为1。

e)通计算得到每个字的门控值矩阵G，矩阵G为一个l行m列的矩阵，其第i行j列的值表示模型在做预测时，病历中的第i个字在对第j个类别作预测时的相关度。

f)通过计算得到模型预测结果概率矩阵

矩阵

为一个m行l列的矩阵，每行的数值表示该病历输入该行对应的类别的概率。

g)计算最终的损失值loss。

h)使用Adam或N-Adam优化器依照损失值loss优化语言模型、矩阵K、多层感知机MLP₁中的参数。

i)不断变换输入的病历数据，优化模型中的参数，优化完成后，得到最终的病历分类模型。

模型预测结果概率矩阵

中，最大的值对应的病历分类即为模型最终预测的类别。

通过使用语言模型，对病历中所有文字的上下文信息进行语义整合，最终通过门控机制，压制无意义文字对分类结果的影响，提升了分类模型中间数据的信噪比，继而提升了病历文本的分类准确度。同时对分类结果有意义的文字得以通过门控值进行追溯。最终实现了高准确率的病历分类的同时，输出文字的门控值，并通过文字的门控值实现了病历分类的文字依据的追溯。

步骤f)中通过公式

计算得到模型预测结果概率矩阵

式中softmax[]为softmax函数，

T为转置。进一步的，步骤g)中通过公式loss＝∑[-L*ln(P)]+γ∑[Relu(G-λ)]计算得到最终的损失值loss，式中λ为不可训练的预设参数，λ取值范围在0到1之间，∑[Relu(G-λ)]为门控值正则项，Relu()为Relu函数，γ为门控值的平衡权重，γ的取值大于零，L为输入的病历文本对应的类别标签。

优选的，步骤g)中λ取值为0.1。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种可追溯的病历分类方法，其特征在于，包括：

f)通过计算得到模型预测结果概率矩阵

矩阵

g)计算最终的损失值loss；

模型预测结果概率矩阵

中，最大的值对应的病历分类即为模型最终预测的类别；

2.根据权利要求1所述的可追溯的病历分类方法，其特征在于：步骤c)中的语言模型为BERT或RoBERTa模型或ALBERT模型或XL-NET模型。

3.根据权利要求1所述的可追溯的病历分类方法，其特征在于：步骤e)中通过公式G＝sigmoid[U×K^T]计算得到每个字的门控值矩阵G，式中sigmoid[]为sigmoid函数，K^T表示对矩阵K进行转置。

4.根据权利要求1所述的可追溯的病历分类方法，其特征在于：步骤f)中通过公式

计算得到模型预测结果概率矩阵

式中softmax[]为softmax函数，

T为转置。

5.根据权利要求1所述的可追溯的病历分类方法，其特征在于：步骤g)中通过公式loss＝∑[-L*ln(P)]+γ∑[Relu(G-λ)]计算得到最终的损失值loss，式中λ为不可训练的预设参数，λ取值范围在0到1之间，∑[Relu(G-λ)]为门控值正则项，Relu()为Relu函数，γ为门控值的平衡权重，γ的取值大于零，L为输入的病历文本对应的类别标签。

6.根据权利要求5所述的可追溯的病历分类方法，其特征在于：λ取值为0.1。