CN117807956A

CN117807956A - 一种基于临床文本树结构的icd自动编码方法

Info

Publication number: CN117807956A
Application number: CN202311852182.0A
Authority: CN
Inventors: 卢鹏丽; 薛景今; 刘文智; 高家杰; 王悦昊; 李玲; 董超
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-02

Abstract

一种基于临床文本树结构的ICD自动编码方法,包括步骤：原始临床记录的表示，将临床记录的特征提取出来并通过bioBRET模型转换为可处理的形式，同时获取临床记录的成分分析树；ICD代码预处理，通过基于bioBRET模型对ICD代码进行预训练，以获得可处理的ICD代码的特征向量；计算临床记录和ICD代码特征向量的相似度；准确性分析，利用经典模型对ICD自动编码能力进行评估，进而对比分析本发明的准确性和有效性。本发明既考虑了临床记录和ICD代码本身的特征，又考虑了全局特征以及它们相互之间的关系，能有效提高ICD自动编码的准确性；预训练模型的引入也使得临床记录树结构导致的时间复杂度高的问题得以改善，提高ICD编码的有效性。

Description

一种基于临床文本树结构的ICD自动编码方法

技术领域

本发明属于多标签文本分类和自然语言处理领域，具体涉及基于临床文本树结构的ICD自动编码技术。

背景技术

ICD自动编码是指是指利用自然语言处理、机器学习等方法，将相应的ICD编码与输入的临床数据自动匹配转换为国际通用的编码，统一解释患者的诊断和住院过程。近年来，ICD自动编码研究受到越来越广泛的关注，不仅因为其重大的医学研究意义，更因为其广泛的临床应用价值。几乎所有的医疗机构(比如医院、诊所、保险公司、卫生部门)都需要使用ICD编码系统来记录和管理患者的健康信息。而传统的手工ICD编码方法由于临床记录信息量大，书写临床记录时用词不规范，准确率仅为71％，成本也非常高。因此，自动和精确的ICD自动编码方法对于医院和其他医疗机构来说非常重要。应用ICD自动编码的技术和方法能够帮助我们更好地理解患者的健康状况，并对其进行更好地治疗和预防，也可以快速地提高医疗机构的工作效率。例如，在对一个大型医院的数据分析中，高质量的ICD自动编码可以帮助医生快速地找出患者的风险因素和并发症；作为训练输入的临床记录是平均包含1524个单词的长文本，但9000多个ICD代码中仅有部分代码被频繁使用。可见高质量的ICD自动编码对医疗机构的服务质量和效率有着巨大的影响，ICD自动编码的质量和效率提升意义重大。

迄今为止，学者们已经提出了一系列经典或新颖的方法来进行ICD自动编码。然而，这些现有的方法在不同程度上都存在一些缺陷。例如，CNN(Convolutional NeuralNetworks)、Bi-GRU(Bidirectional GRU)和Hypercore都需要大量的标注数据来训练模型，而临床记录本身就存在很多噪声和不一致性；CAML(Convolutional Attention forMulti-Label classification)难以处理医疗记录中的缩写词、同义词、歧义词等语言现象，导致编码的错误或不准确；MultiResCNN(Multi-Filter Residual ConvolutionalNeural Netwok)对于医疗记录中不同n-gram特征之间的交互关系的捕捉存在困难；LAAT(Label Attention Model)需要大量的参数来调整自适应注意力树的效果，这可能增加了模型的复杂度和不稳定性。鉴于此，本发明提出一种基于临床文本树结构的ICD自动编码方法及系统。

发明内容

本发明的目的是提供一种基于临床文本树结构的ICD自动编码方法。

本发明是一种基于临床文本树结构的ICD自动编码方法，包括以下步骤：

S1、原始临床记录的表示，将临床记录的特征提取出来并转换为可处理的形式，在这个过程中，分别需要对临床记录进行清洗分词等预处理操作，并获取到它的文本特征以及结构特征；

S2、ICD代码预处理，通过基于预训练的模型对ICD代码进行预训练，以获得可处理的ICD代码的特征向量。定义p_ij为ICDj描述中单词j的向量，则为ICDj的向量。由bioBERT模型得到ICD代码的特征向量可用Q＝(q₁，q₂，...，q_n)来表示；

S3、计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度。当临床记录特征与ICD代码特征在整个训练阶段呈正相关时，其相似度会增加；当它们呈负相关时，其相似度会降低。预测方法中的相似度用于计算ICD代码发生的可能性。之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码q_i的向量。在相似度计算中，通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量，l为ICD向量的长度。则临床记录与ICD代码的相似度可计算为s＝sigmoid[softmax(OQ^T)O]；

S4、准确性分析，利用经典模型对ICD自动编码能力进行评估，进而对比分析本发明的准确性和有效性。

与现有技术相比，本发明具有以下有益效果：

1、模型精确度更高：本方法实现了ICD自动编码精确度的提高，作为一个多标签分类模型，获得了更高的F1分数(micro-F1和macro-F1)。F1分数通过对整个样本中的每个预测答案进行计数，在大多数情况下指示模型的性能，计算为：其中P是样本的精度，代表模型所有预测结果正确的百分比，计算为/>R是样本的回归值，表示模型正确识别了所有标准标签答案中的多少个，计算为/>精度表示模型给出的答案的置信度，而回归率表示模型对整体问题的拟合程度。micro-F1值是精度和回归率的总和平均值；

2、不同阈值下的预测能力更好：本方法获得更高的AUC值(micro-AUC和macro-AUC)，也即ROC产生的曲线下面积占总可能面积的百分比更高。AUC的取值范围在0到1之间，值越接近1表示分类器的性能越好，值越接近0.5则表示分类器的性能越差。它说明本方法中的分类器对正例样本和负例样本的正确排序能力更好，它通过将具有标签r的每个数据的置信水平与没有标签(u)的每个数据进行比较来计算：

3、前n个结果更精确：本方法在考虑位置的情况下检测给定查询的前n个结果的准确性。一般来说，搜索的前几个结果的准确性更为重要。如果前几个结果与搜索词不相关，即使随后的所有结果都相关，那么信息检索系统也不令人满意。因此P@n是用于测量前几个结果的精度的度量，即在前n个的精度，搜索的前n个结果的精度，例如P@5，P@8。如果y_i＝0，1分别表示第i个相关或不相关的结果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是基于临床文本树结构的ICD自动编码方法流程图。图2为基于临床文本树结构的ICD自动编码方法的原理图。

具体实施方式

如图1所示，本发明是一种基于临床文本树结构的自动ICD编码方法，该方法使用基于transformer的预训练模型对临床文本和ICD代码获取特征向量，同时使用成分分析树获取临床记录的结构特征，并用tree-lstm模型来对其进行自动编码。所述方法包括临床记录的预处理和训练阶段、ICD代码预训练阶段和两者特征的相似度计算阶段，其步骤为：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整性地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1本发明实施例提供了基于临床文本树结构的ICD自动编码方法；

本发明的基于临床文本树结构的ICD自动编码方法，包括：

具体而言，在本发明实施例中，步骤S1包括以下步骤：

S11、对临床文本进行预处理，对临床记录文本分词的同时进行词性标注以及词频计算，输入原始临床记录文本，对其进行分词，即将文本切分成单词或标点符号的列表；再使用自定义的停用词列表对分词后的列表进行去除停用词，并将单词还原为其词干或词根的形式；对词干提取后的列表进行词性标注，即给每个单词分配一个词性标签；

S12、对S11中预处理后得到的临床记录生成临床文本的成分分析树并将其序列化，用表示句子结构和语法关系的树状图将临床记录文本表示出来，其中每个节点是一个词，每条边是一个依存关系，如主谓、定中、动宾等。为了构建依存树，需要先对临床记录W＝(ω₁，ω₂，...，ω_m)进行句子分割和成分划分，我们使用成分句法分析的方法实现。成分句法分析是一种将句子划分为不同层次的短语的过程，如名词短语、动词短语、从句等。为了从成分句法树转换为依存树D＝(d₁，d₂，...，d_m)，需要计算每个节点的得分，使用基于span的方法实现。其中节点的得分反映了该节点在依存树中的重要性和位置，通常越高的得分表示越靠近根节点；

S13、对S11步骤中得出的已经处理过的临床记录进行预训练，将临床记录分割成句子和单词token。将单词token转换为小写，并删除标点符号和停用词等无关的字符。将单词token映射到BioBERT模型的单词表中，如果单词表中没有该token，则将其分割成子词token或使用特殊的token[UNK]表示。同时为每个句子添加特殊的token[CLS]和[SEP]，以标记句子的开始和结束。在这个过程中，我们为每个句子或单词token添加相应的标签，如实体类型、关系类型、答案范围等，得到临床记录的特征向量为E(W)＝(e₁，e₂，...，e_m)；

S14、将S13中通过预训练语言模型bioBERT模型得到的特征向量E(W)与S12中生成的依存树D相结合，更好地提取出其特征以及有效的上下文相关性向量，以便作为后续S15中tree-lstm模型的输入；

S15、训练文本特征，根据成分分析树的结构，自底向上地计算每个节点的隐藏状态和记忆单元，其运算方程如下：

i_j＝σ(W⁽ⁱ⁾e_j+U⁽ⁱ⁾h_k+b⁽ⁱ⁾)

f_jk＝σ(W^(f)e_j+U^(f)h_k+b^(f))

o_j＝σ(W^(o)e_j+U^(o)h_k+b^(o))

u_j＝tanh(W^(u)e_j+U^(u)h_k+b^(u))

h_j＝o_j☉tanh(c_j)

根据tree-lstm模型，不仅使用一步神经元的隐藏输出，而是将子节点的状态h_l进行累加作为下一神经元的输入值。h_l是从tree-lstm模型的前一层得到的隐藏状态。tree-lstm模型是一个递归的模型，从叶子节点开始，逐层向上计算每个节点的隐藏状态和输出向量。对于每个节点，根据它的孩子节点的隐藏状态和自身的输入向量，计算出自己的隐藏状态和输出向量。我们将每个时间步长t的LSTM单元定义为维度内：其中，e_j是第j个节点的输入，即bioBERT模型编码后的特征向量；h_j和c_j是第j个节点的隐藏状态和记忆单元；C(j)是第j个节点的子节点集合；i_j，f_jk和o_j是第j个节点的输入门，遗忘门和输出门，它们的取值范围在[0，1]，u_j为更新单元；W⁽ⁱ⁾，W^(f)，W^(o)和W^(u)是输入到各个门的权重矩阵；U⁽ⁱ⁾，U^(f)，u^(o)和U^(u)是子节点到各个门的权重矩阵；b⁽ⁱ⁾，b^(f)，b^(o)和b^(u)是各个门的偏置向量；σ是sigmoid函数；⊙是逐元素乘法。

具体而言，在本发明实施例中，步骤S2包括以下步骤：

S21、通过预训练的bioBERT模型对ICD代码的描述进行矢量化，更好地封装ICD代码并生成有效且依赖于上下文的ICD向量。bioBERT模型是在大规模的生物医学语料库上预训练的，能够更好地理解临床文本中的专业术语和语义。通过微调，bioBERT模型可以自动地将临床文本中的实体和概念与ICD代码进行匹配，同时利用代码描述和注意力机制来增强文本和代码之间的关联性，从而提高编码的精度。其中，bioBERT模型的预训练目标是使用掩码语言模型(MLM)和下一句预测(NSP)两个任务来学习文本的语言表征。将每个ICD代码单独编码为其表示。具体来说，MLM任务是在输入文本中随机掩盖一些单词，然后让模型预测被掩盖的单词。其任务的损失函数是交叉损失函数

其中θ是模型的参数，N是输入文本中被掩盖的单词的数量，ω_i是第i个被掩盖的单词，ω_\i是除了ω_i之外的其他单词，P(ω_i|ω_\i，θ)是模型预测ω_i的概率。

而NSP任务是给定两个句子，判断它们是否连续。其损失函数如下：

其中θ是模型的参数，M是输入文句对的数量，y_j是第j个句对的标签(0表示不连续，1表示连续)，s_j是第j个句对，P(y_j|s_j，θ)是模型预测y_j的概率。

bioBERT模型的预训练总函数即以上两个任务的损失函数之和：

L_pretrain(θ)＝L_MLM(θ)+L_NSP(θ)；

S3、计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度。当临床记录特征与ICD代码特征在整个训练阶段呈正相关时，其相似度会增加；当它们呈负相关时，其相似度会降低。预测方法中的相似度用于计算ICD代码发生的可能性。之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码q_i的向量。在相似度计算中，通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量，l为ICD向量的长度。则临床记录与ICD代码的相似度可计算为s＝sigmoid[softmax(OQ^T)O]。

S4、准确性分析，利用经典模型对ICD自动编码能力进行评估，进而对比分析本发明的准确性和有效性；

具体而言，在本发明实施例中，步骤S4包括以下步骤：

S41、F1分数(micro-F1和macro-F1)：可以对整个样本中的每个预测答案进行计数，因此在大多数情况下可以很好地指示模型的性能。计算为：其中P是样本的精度，代表模型所有预测结果正确的百分比，计算为/>R是样本的回归值，表示模型正确识别了所有标准标签答案中的多少个，计算为R＝TP/((TP+FN))。精度表示模型给出的答案的置信度，而回归率表示模型对整体问题的拟合程度。micro-F1值是精度和回归率的总和平均值。此外，可以通过对所有类别的Precision和Recall取平均值来计算macro-F1。

S42、AUC(micro-AUC和macro-AUC)：AUC是ROC产生的曲线下面积，占总可能面积的百分比。AUC也是任意两个随机选择的具有不同标签的数据将预测具有更高置信度水平的正确标签的概率。micro-AUC测量为所有标签中的所有数据计算AUC，而不是为一个标签中的数据计算。因此，它可以通过将具有标签r的每个数据的置信水平与没有标签(u)的每个数据进行比较来计算：

S43、Precision@n(P@n)：Precision@n是指在考虑位置的情况下检测给定查询的前n个结果的准确性。一般来说，搜索的前几个结果的准确性更为重要。如果前几个结果与搜索词不相关，即使随后的所有结果都相关，那么信息检索系统也不令人满意。因此P@n是用于测量前几个结果的精度的度量，即在前n个的精度，搜索的前n个结果的精度，例如P@5，P@8。如果y_i＝0，1分别表示第i个相关或不相关的结果：

表3为采用本发明方法与11种ICD自动编码方法CNN、Bi-GRU、Hypercore、CAML、DR-CAML、MultiResCNN、LAAT、JointLAAT、tree-MAN、TF-GCN、TreeMAN方法得到的ICD编码准确性对比图。

表3(a)各模型在MIMIC-Ⅲ全数据集实验对比

表3(b)各模型在MIMIC-Ⅲ50数据集实验对比

其中表3(a)为采用本发明方法与11种ICD自动编码方法在MIMIC-Ⅲ(MedicalInformation Mart for Intensive Care)数据集上的F1、AUC和P@8指标的数据对比；表3(b)为采用本发明方法与11种ICD自动编码方法在MIMIC-50数据集上的F1、AUC和P@5指标的数据对比。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上仅是本发明的优选实施，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于临床文本树结构的ICD自动编码方法，其特征在于，该方法使用基于transformer的预训练模型对临床文本和ICD代码进行特征提取，并获取临床文本的成分分析树以获取更全面的结构信息，通过对多方面信息进行集合，使用tree-lstm模型对临床文本进行训练得到两者的相似度以达到自动编码的目的；所述方法包括设备注册阶段和密钥分发阶段，其步骤为：

S2、ICD代码预处理，通过基于预训练的模型对ICD代码进行预训练，以获得可处理的ICD代码的特征向量；定义p_ij为ICDj描述中单词j的向量，则为ICDj的向量；由bioBERT模型得到ICD代码的特征向量可用Q＝(q₁，q₂，...，q_n)来表示；

S3、对计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度；当临床记录特征与ICD代码特征在整个训练阶段呈正相关时，其相似度会增加；当它们呈负相关时，其相似度会降低；预测方法中的相似度用于计算ICD代码发生的可能性；之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码q_i的向量；在相似度计算中，通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量，l为ICD向量的长度；则临床记录与ICD代码的相似度可计算为s＝sigmoid[softmax(OQ^T)O]；

2.根据权利要求1所述的基于临床文本树结构的ICD自动编码方法，其特征在于，所述步骤S1的具体子步骤如下：

S12、对S11中预处理后得到的临床记录生成临床文本的成分分析树并将其序列化，用表示句子结构和语法关系的树状图将临床记录文本表示出来，其中每个节点是一个词，每条边是一个依存关系，如主谓、定中、动宾；为了构建依存树，需要先对临床记录W＝(ω₁，ω₂，...，ω_m)进行句子分割和成分划分，使用成分句法分析的方法实现；成分句法分析是一种将句子划分为不同层次的短语的过程，如名词短语、动词短语、从句；为了从成分句法树转换为依存树D＝(d₁，d₂，...，d_m)，需要计算每个节点的得分，使用基于span的方法实现；其中节点的得分反映了该节点在依存树中的重要性和位置，通常越高的得分表示越靠近根节点；

S13、对S11步骤中得出的已经处理过的临床记录进行预训练，将临床记录分割成句子和单词token；将单词token转换为小写，并删除标点符号和停用词等无关的字符；将单词token映射到BioBERT模型的单词表中，如果单词表中没有该token，则将其分割成子词token或使用特殊的token[UNK]表示；同时为每个句子添加特殊的token[CLS]和[SEP]，以标记句子的开始和结束；在这个过程中，为每个句子或单词token添加相应的标签，如实体类型、关系类型、答案范围，得到临床记录的特征向量为E(W)＝(e₁，e₂，...，e_m)；

i_j＝σ(W⁽ⁱ⁾e_j+U⁽ⁱ⁾h_k+b⁽ⁱ⁾)

f_jk＝σ(W^(f)e_j+U^(f)h_k+b^(f))

o_j＝σ(W^(o)e_j+U^(o)h_k+b^(o))

u_j＝tanh(W^(u)e_j+U^(u)h_k+b^(u))

h_j＝o_j☉tanh(c_j)

根据tree-lstm模型，不仅使用一步神经元的隐藏输出，而是将子节点的状态h_l进行累加作为下一神经元的输入值；h_l是从tree-lstm模型的前一层得到的隐藏状态；tree-lstm模型是一个递归的模型，从叶子节点开始，逐层向上计算每个节点的隐藏状态和输出向量；对于每个节点，根据它的孩子节点的隐藏状态和自身的输入向量，计算出自己的隐藏状态和输出向量；将每个时间步长t的LSTM单元定义为维度内：其中，e_j是第j个节点的输入，即bioBERT模型编码后的特征向量；h_j和c_j是第j个节点的隐藏状态和记忆单元；C(j)是第j个节点的子节点集合；i_j，f_jk和o_j是第j个节点的输入门，遗忘门和输出门，它们的取值范围在[0,1]，u_j为更新单元；W⁽ⁱ⁾，W^(f)，W^(o)和W^(u)是输入到各个门的权重矩阵；U⁽ⁱ⁾，U^(f)，U^(o)和U^(u)是子节点到各个门的权重矩阵；b⁽ⁱ⁾，b^(f)，b^(o)和b^(u)是各个门的偏置向量；σ是sigmoid函数；⊙是逐元素乘法。

3.根据权利要求1所述的基于临床文本树结构的ICD自动编码方法，其特征在于，所述步骤S2的具体子步骤如下：

S21、通过预训练的bioBERT模型对ICD代码的描述进行矢量化，更好地封装ICD代码并生成有效且依赖于上下文的ICD向量；bioBERT模型是在大规模的生物医学语料库上预训练的，能够更好地理解临床文本中的专业术语和语义；通过微调，bioBERT模型可以自动地将临床文本中的实体和概念与ICD代码进行匹配，同时利用代码描述和注意力机制来增强文本和代码之间的关联性，从而提高编码的精度；其中，bioBERT模型的预训练目标是使用掩码语言模型(MLM)和下一句预测(NSP)两个任务来学习文本的语言表征；将每个ICD代码单独编码为其表示；具体来说，MLM任务是在输入文本中随机掩盖一些单词，然后让模型预测被掩盖的单词；其任务的损失函数是交叉损失函数

其中θ是模型的参数，N是输入文本中被掩盖的单词的数量，ω_i是第i个被掩盖的单词，ω_\i是除了ω_i之外的其他单词，P(ω_i|ω_\i，θ)是模型预测ω_i的概率；

而NSP任务是给定两个句子，判断它们是否连续；其损失函数如下：

其中θ是模型的参数，M是输入文句对的数量，y_j是第j个句对的标签(0表示不连续，1表示连续)，s_j是第j个句对，P(y_j|s_j，θ)是模型预测y_j的概率；

bioBERT模型的预训练总函数即以上两个任务的损失函数之和：

L_pretrain(θ)＝L_MLM(θ)+L_NSP(θ)。

4.根据权利要求1所述的基于临床文本树结构的ICD自动编码方法，其特征在于，所述步骤S4的具体子步骤如下：

S41、F1分数(micro-F1和macro-F1)：可以对整个样本中的每个预测答案进行计数，因此在大多数情况下可以很好地指示模型的性能；计算为：其中P是样本的精度，代表模型所有预测结果正确的百分比，计算为/>R是样本的回归值，表示模型正确识别了所有标准标签答案中的多少个，计算为R＝TP/((TP+FN))；精度表示模型给出的答案的置信度，而回归率表示模型对整体问题的拟合程度；micro-F1值是精度和回归率的总和平均值；此外，能通过对所有类别的Precision和Recall取平均值来计算macro-F1；

S42、AUC(micro-AUC和macro-AUC)：AUC是ROC产生的曲线下面积，占总可能面积的百分比；AUC也是任意两个随机选择的具有不同标签的数据将预测具有更高置信度水平的正确标签的概率；micro-AUC测量为所有标签中的所有数据计算AUC，而不是为一个标签中的数据计算；因此，它可以通过将具有标签r的每个数据的置信水平与没有标签(u)的每个数据进行比较来计算：

S43、Precision@n(P@n)：Precision@n是指在考虑位置的情况下检测给定查询的前n个结果的准确性；一般来说，搜索的前几个结果的准确性更为重要；如果前几个结果与搜索词不相关，即使随后的所有结果都相关，那么信息检索系统也不令人满意；因此P@n是用于测量前几个结果的精度的度量，即在前n个的精度，搜索的前n个结果的精度，例如P@5，P@8；如果y_i＝0，1分别表示第i个相关或不相关的结果：