CN116227433B

CN116227433B - 基于医学知识注入提示的少样本icd编码方法和系统

Info

Publication number: CN116227433B
Application number: CN202310517095.3A
Authority: CN
Inventors: 刘军平; 杨士臣; 朱强; 彭涛; 胡新荣
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-07-04
Anticipated expiration: 2043-05-09
Also published as: CN116227433A

Abstract

本发明涉及一种基于医学知识注入提示的少样本ICD编码方法和系统，该方法能够根据输入的医学文本生成最佳的ICD编码，提高了医学文本和ICD编码之间的匹配准确性。该方法包括以下步骤：S1：对输入的医学文本进行预处理；S2：通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集，并且使用分层三重态损失对longformer模型进行预训练，将结构化的医学领域知识注入到longformer模型中；S3：利用UMLS为每个ICD编码c生成一个对应的编码描述，并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起，形成一个新的输入序列，并利用训练好的longformer模型对输入序列进行分类，得出ICD编码的分类结果。

Description

基于医学知识注入提示的少样本ICD编码方法和系统

技术领域

本发明属于医疗数据处理技术领域，特别是涉及基于医学知识注入提示的少样本ICD编码方法和系统。

背景技术

多标签文本分类是一种自然语言处理(NLP)中常见的任务，它涉及到为一个实例分配多个类别标签。例如，在学术论文标签、新闻分类、亚马逊产品标签和医疗编码等应用中，都需要对一个实例进行多标签分类。而多标签分类任务比单标签分类任务更难，因为要考虑类别之间的组合和关系。

在实际应用中，许多类别标签出现频率较低，导致训练数据不足。例如，在国际疾病自动分类(ICD)编码任务中，给定一份出院病历作为输入，需要分配多个与该病历相关联的ICD疾病编码和手术编码作为输出。这些编码对于后续医疗计费非常重要。然而，在MIMIC-III数据集中，共有8692个ICD-9编码，其中4115个(47.3%)代码出现次数少于6次，203个(2.3%)编码从未出现过。由于临床医学对准确性要求很高，医学研究者希望模型能够对低频编码也能做出高精度的预测。然而，由于训练模型的样本数量有限，这就面临了数据稀疏性问题。

发明内容

为了解决现有技术中存在的问题，本发明提供了一种基于医学知识注入提示的少样本ICD编码方法，旨在解决低频编码出现率低和数据稀疏性两个问题。

本发明采用以下步骤：

步骤S1，对输入的医学文本t进行预处理；

步骤S2，通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集

，并且使用分层三重态损失对longformer模型进行预训练，将结构化的医学领域知识注入到longformer模型中；

步骤S3，利用UMLS为每个ICD编码c生成一个对应的编码描述

，并将预处理后的医学文本t、编码描述/>

和固定的文本模板拼接在一起，形成一个新的输入序列，并利用训练好的longformer模型对输入序列进行分类，得出ICD编码的分类结果。

进一步的，步骤S1中的预处理包括：删除所有标识标记，将标点符号和非字母数字字符替换为空白，去除多余的空白。

进一步的，步骤S2的具体实现方式如下；

S21，首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集

；具体地说，对于每个ICD编码c，从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念，并根据关联关系划分正负样本，正样本为编码c的缩写或同义词，负样本为编码c的上下级编码、同级编码；

S22，构建动态阈值控制的分层三重态损失Triplet Loss损失函数，小批次B的分层三重态损失可表示为：

其中

是小批次B中的所有三联体，/>

B中三联体的数量，每个三联体/>

包括一个锚点/>

，正样本/>

，负样本/>

，正样本/>

为锚点/>

的缩写或同义词，负样本/>

为锚点/>

的上位概念或下位概念；

是一个动态参数，它是根据锚点和负样本之间的文本相似度来计算的；

步骤S23，将数据集D输入到longformer模型，在训练过程中，longformer模型不断地调整参数，以最小化损失函数，最终，得到一个训练好的longformer模型，将输入映射到输出空间中，在ICD编码问题中，输出是一个概率分布，表示每个类别的概率。

进一步的，对于三元组

，动态参数/>

计算为：

其中，锚点和负样本为父子关系表示两样本为同一类中的上下级编码，锚点和负样本为兄弟关系表示两样本为同一类中的同级编码；设定

，表示锚点和不同类间的负样本之间距离至少为π，而与锚点属于同一类的负样本将至少是/>

范围内的距离，/>

，/>

是反余弦函数，因此/>

。

进一步的，将医学文本t、编码描述

和固定的文本模板拼接在一起，形成一个新的输入序列：

代表输入的医学文本，/>

代表编码的类别数，mask为模型完型填空的占位符，/>

代表ICD编码，/>

代表ICD编码描述，“该患者[mask]患有”是固定的文本模板。

本发明还提供一种基于医学知识注入提示的少样本ICD编码系统，包括如下模块：

预处理模块，用于对输入的医学文本t进行预处理；

模型训练模块，用于通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集

编码模块，用于利用UMLS为每个ICD编码c生成一个对应的编码描述

，并将预处理后的医学文本t、编码描述/>

进一步的，预处理模块中的预处理包括：删除所有标识标记，将标点符号和非字母数字字符替换为空白，去除多余的空白。

进一步的，模型训练模块的具体实现方式如下；

其中

是小批次B中的所有三联体，/>

B中三联体的数量，每个三联体/>

包括一个锚点/>

，正样本/>

，负样本/>

，正样本/>

为锚点/>

的缩写或同义词，负样本/>

为锚点/>

的上位概念或下位概念；

进一步的，对于三元组

，动态参数/>

计算为：

范围内的距离，/>

，/>

是反余弦函数，因此/>

。

进一步的，将医学文本t、编码描述

和固定的文本模板拼接在一起，形成一个新的输入序列：

代表输入的医学文本，/>

代表编码的类别数，mask为模型完型填空的占位符，/>

代表ICD编码，/>

代表ICD编码描述，“该患者[mask]患有”是固定的文本模板。

与现有技术相比，上述方案的有益效果：预注入知识可以提高预训练模型的知识表示能力，使其能够更好地理解和回答基于知识的问题，预训练可以利用对比学习范式，使得预训练模型能够捕获更多的共性特征，从而提高其在下游任务上的泛化性能。本发明方法可以提高医学文本的可读性和可利用性，方便医生、研究人员和管理者进行数据分析和决策支持；可以减少人工标注的成本和时间，提高编码的准确性和一致性；可以利用预训练模型和知识图谱等技术增强模型的泛化能力和语义理解能力，处理复杂多样的医学文本。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图对本发明具体实施方式作解析。

以下实施例仅用于说明本发明，并不限制本发明。在以下实施例中，除非另有说明，否则所有技术和科学术语均具有通常理解该术语之人所熟知的含义。

参照图1，本发明提供一种基于医学知识注入提示的少样本ICD编码方法，包括如下步骤：

S1：对输入的医学文本t进行预处理，删除所有标识标记，将标点符号和非字母数字字符替换为空白，去除多余的空白。

S2：首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集

，并且使用层次对比损失损失函数对longformer模型进行预训练，将这些结构化的医学领域知识注入到longformer模型中。

S3：利用UMLS为每个ICD编码c生成一个对应的编码描述

，并将医学文本/>

、编码描述/>

、固定的文本模板拼接在一起，形成一个新的输入序列，并且基于模型输出值来得出ICD编码的分类结果。

本实施例中，步骤S1具体为：

S1：对输入的医学文本a进行预处理，删除所有标识标记，将标点符号和非字母数字字符替换为空白，去除多余的空白。例如，假设输入医学文本为“患者因右上腹部不适就诊。体检发现肝大，并有轻度黄疸。血清转氨酶升高。超声检查显示肝内多发结节。经穿刺活检确诊为肝癌。”经过预处理后得到文本序列为“患者右上腹部不适就诊体检发现肝大轻度黄疸血清转氨酶升高超声检查显示肝内多发结节穿刺活检确诊肝癌”。

本实施例中，步骤S2具体为：

S2：通过构建自监督数据并在具有分层三重态损失的自监督数据上对longformer模型进行预训练，将结构化医学知识注入到longformer模型中。longformer模型是一种可以高效处理长文本的模型。在此步骤中可以使用医学知识图、标签映射表和ICD编码表作为结构化医学知识来源，并利用它们来构建数据集。医学知识图是一种由实体、属性和关系组成的图结构数据，它可以表示医学领域内各种概念、症状、诊断等信息及其相互关系。标签映射表是一种由标签映射词和ICD编码组成的表格数据，它可以表示每个ICD编码所涉及的医学概念、症状、诊断等信息及其对应的标签映射词。ICD编码表是一种由ICD编码和描述组成的表格数据，它可以表示每个ICD编码所代表的疾病或者健康问题及其相关信息。

为了构建数据集，我们可以采用以下步骤：

S21：首先通过统一医学语言系统(Unified Medical Language System，UMLS)和国际疾病分类（International classification of diseases，ICD）的中的同义词、缩写、层次信息构建数据集

；

具体地说，对于每个ICD编码c，正样本为编码c的缩写或同义词，负样本为编码c的上下级编码、同级编码。例如编码c是250.1(糖尿病酮症酸中毒)，正样本包含英文缩写250.1(DKA)、同义词250.1(糖尿病性酸中毒)，负样本包含上级编码250(糖尿病)、同级编码250.0(无并发症的糖尿病)、250.2(高渗性糖尿病)、584.9(急性肾衰)。

为了使用对比学习方法对模型进行调优，我们可以采用以下步骤：

S22：构建动态阈值控制的Triplet Loss损失函数，小批次B的分层三重态损失可表示为：

其中

是小批次B中的所有三联体，/>

B中三联体的数量，/>

是锚点样本，

是正样本，/>

是负样本。

是一个动态参数，它是根据锚点和负样本之间的文本相似度来计算的。

对于三元组

，动态参数/>

计算为：

范围内的距离，/>

，/>

是反余弦函数，因此/>

。

例如，编码250.1为锚点，那么250对于锚点来说属于同一类的父子关系，250.2对于锚点来说属于同一类的兄弟关系，428.7对于锚点是不同类只同级的样本，并且三者对于锚点都为负样本。

上述设定是为了让锚点和正样本之间的距离尽可能小，而锚点和负样本之间的距离尽可能大，从而提高模型的区分能力。

是一个阈值，表示锚点和负样本之间的最小距离。如果锚点和负样本之间的距离小于/>

，那么就会产生损失，促使模型增加它们之间的距离。不同类间的负样本和锚点距离至少为/>

，是为了保证不同类别之间有足够的间隔。而同一类中负样本与锚点的将至少是/>

范围内的距离，是为了保证同一类别内部的多样性，这样可以使得模型更好地学习到数据的特征和相似度。

S23：将数据集D输入到longformer模型，在训练过程中，模型会不断地调整自己的参数，以最小化损失函数。最终，我们可以得到一个训练好的模型，它可以将输入映射到输出空间中。在ICD编码问题中，输出通常是一个概率分布，表示每个类别的概率。

本实施例中，步骤S3具体为：

利用UMLS每个ICD编码c生成一个对应的编码描述

，并将医学文本/>

、编码描述/>

、固定文本模板拼接在一起，形成一个新的输入序列，并且基于模型输出值来得出ICD编码的分类结果。

S31：首先利用医学知识图谱（medical knowledge graph）来提取临床记录中的医学概念之间的关系，例如症状、诊断、治疗等。再为每个ICD编码生成一个对应的编码描述，如下：

C22.0：肝癌导致肝大并发黄疸治疗穿刺活检

C22.9：肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检

C78.7：肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检

S32：将医学文本、文本模板和ICD编码描述拼接在一起，形成一个新的输入序列

：

代表输入文本/>

代表编码的类别数，mask为模型完型填空的占位符，/>

代表ICD编码，/>

代表ICD编码描述，“该患者[mask]患有”是固定的文本模板。

例如，医学文本t是: 患者右上腹部不适就诊体检发现肝大轻度黄疸血清转氨酶升高超声检查显示肝内多发结节穿刺活检确诊肝癌。

固定的文本模板：该患者{}患有编码

。

编码

分为三个类别：/>

C22.0，/>

C22.9 ，/>

C78.7。

:肝癌导致肝大并发黄疸治疗穿刺活检、/>

:肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检、/>

肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检。

此时序列输入X：患者右上腹部不适就诊体检发现肝大轻度黄疸血清转氨酶升高超声检查显示肝内多发结节穿刺活检确诊肝癌，该患者mask_1患有C22.0, 肝癌导致肝大并发黄疸治疗穿刺活检；该患者mask_2患有C22.9, 肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检，该患者mask_3患有C78.7：肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检。Mask作为longformer输入的占位符，可视作完形填空任务中的待填空处。

S33：将该序列输入到longformer模型中，通过模型输出值mask来预测ICD编码的分类结果，如下：

mask所对应的值如下所示：

Mask_1:[是:0.987,不是:0.013]

Mask_2:[是:0.965,不是:0.035]

Mask_3:[是:0.92,不是:0.076]

再通过比较“是”和“不是”所对应标签概率的大小，得到最终填空的结果。

最终填空结果：“患者右上腹部不适就诊体检发现肝大轻度黄疸血清转氨酶升高超声检查显示肝内多发结节穿刺活检确诊肝癌，该患者是患有C22.0, 肝癌导致肝大并发黄疸治疗穿刺活检；该患者是患有C22.9, 肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检，该患者是患有C78.7：肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检”。

因此ICD编码被分类为C22.0，C22.9，C78.7。

预处理模块，用于对输入的医学文本t进行预处理；

，并将预处理后的医学文本t、编码描述/>

各模块的具体实现方式和各步骤相应，本发明不予撰述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。