CN116227433B - 基于医学知识注入提示的少样本icd编码方法和系统 - Google Patents

基于医学知识注入提示的少样本icd编码方法和系统 Download PDF

Info

Publication number
CN116227433B
CN116227433B CN202310517095.3A CN202310517095A CN116227433B CN 116227433 B CN116227433 B CN 116227433B CN 202310517095 A CN202310517095 A CN 202310517095A CN 116227433 B CN116227433 B CN 116227433B
Authority
CN
China
Prior art keywords
icd
medical
model
text
longformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310517095.3A
Other languages
English (en)
Other versions
CN116227433A (zh
Inventor
刘军平
杨士臣
朱强
彭涛
胡新荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202310517095.3A priority Critical patent/CN116227433B/zh
Publication of CN116227433A publication Critical patent/CN116227433A/zh
Application granted granted Critical
Publication of CN116227433B publication Critical patent/CN116227433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种基于医学知识注入提示的少样本ICD编码方法和系统,该方法能够根据输入的医学文本生成最佳的ICD编码,提高了医学文本和ICD编码之间的匹配准确性。该方法包括以下步骤:S1:对输入的医学文本进行预处理;S2:通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;S3:利用UMLS为每个ICD编码c生成一个对应的编码描述,并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。

Description

基于医学知识注入提示的少样本ICD编码方法和系统
技术领域
本发明属于医疗数据处理技术领域,特别是涉及基于医学知识注入提示的少样本ICD编码方法和系统。
背景技术
多标签文本分类是一种自然语言处理(NLP)中常见的任务,它涉及到为一个实例分配多个类别标签。例如,在学术论文标签、新闻分类、亚马逊产品标签和医疗编码等应用中,都需要对一个实例进行多标签分类。而多标签分类任务比单标签分类任务更难,因为要考虑类别之间的组合和关系。
在实际应用中,许多类别标签出现频率较低,导致训练数据不足。例如,在国际疾病自动分类(ICD)编码任务中,给定一份出院病历作为输入,需要分配多个与该病历相关联的ICD疾病编码和手术编码作为输出。这些编码对于后续医疗计费非常重要。然而,在MIMIC-III数据集中,共有8692个ICD-9编码,其中4115个(47.3%)代码出现次数少于6次,203个(2.3%)编码从未出现过。由于临床医学对准确性要求很高,医学研究者希望模型能够对低频编码也能做出高精度的预测。然而,由于训练模型的样本数量有限,这就面临了数据稀疏性问题。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种基于医学知识注入提示的少样本ICD编码方法,旨在解决低频编码出现率低和数据稀疏性两个问题。
本发明采用以下步骤:
步骤S1,对输入的医学文本t进行预处理;
步骤S2,通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure SMS_1
,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;
步骤S3,利用UMLS为每个ICD编码c生成一个对应的编码描述
Figure SMS_2
,并将预处理后的医学文本t、编码描述/>
Figure SMS_3
和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。
进一步的,步骤S1中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
进一步的,步骤S2的具体实现方式如下;
S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure SMS_4
;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;
S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分层三重态损失可表示为:
Figure SMS_5
其中
Figure SMS_6
是小批次B中的所有三联体,/>
Figure SMS_9
B中三联体的数量,每个三联体/>
Figure SMS_11
包括一个锚点/>
Figure SMS_7
,正样本/>
Figure SMS_12
,负样本/>
Figure SMS_14
,正样本/>
Figure SMS_15
为锚点/>
Figure SMS_8
的缩写或同义词,负样本/>
Figure SMS_10
为锚点/>
Figure SMS_13
的上位概念或下位概念;
Figure SMS_16
是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;
步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率。
进一步的,对于三元组
Figure SMS_17
,动态参数/>
Figure SMS_18
计算为:
Figure SMS_19
其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定
Figure SMS_20
,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是/>
Figure SMS_21
范围内的距离,/>
Figure SMS_22
,/>
Figure SMS_23
是反余弦函数,因此/>
Figure SMS_24
进一步的,将医学文本t、编码描述
Figure SMS_25
和固定的文本模板拼接在一起,形成一个新的输入序列:
Figure SMS_26
Figure SMS_27
代表输入的医学文本,/>
Figure SMS_28
代表编码的类别数,mask为模型完型填空的占位符,/>
Figure SMS_29
代表ICD编码,/>
Figure SMS_30
代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
本发明还提供一种基于医学知识注入提示的少样本ICD编码系统,包括如下模块:
预处理模块,用于对输入的医学文本t进行预处理;
模型训练模块,用于通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure SMS_31
,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;
编码模块,用于利用UMLS为每个ICD编码c生成一个对应的编码描述
Figure SMS_32
,并将预处理后的医学文本t、编码描述/>
Figure SMS_33
和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。
进一步的,预处理模块中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
进一步的,模型训练模块的具体实现方式如下;
S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure SMS_34
;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;
S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分层三重态损失可表示为:
Figure SMS_35
其中
Figure SMS_37
是小批次B中的所有三联体,/>
Figure SMS_40
B中三联体的数量,每个三联体/>
Figure SMS_43
包括一个锚点/>
Figure SMS_38
,正样本/>
Figure SMS_41
,负样本/>
Figure SMS_44
,正样本/>
Figure SMS_45
为锚点/>
Figure SMS_36
的缩写或同义词,负样本/>
Figure SMS_39
为锚点/>
Figure SMS_42
的上位概念或下位概念;
Figure SMS_46
是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;
步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率。
进一步的,对于三元组
Figure SMS_47
,动态参数/>
Figure SMS_48
计算为:
Figure SMS_49
其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定
Figure SMS_50
,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是/>
Figure SMS_51
范围内的距离,/>
Figure SMS_52
,/>
Figure SMS_53
是反余弦函数,因此/>
Figure SMS_54
进一步的,将医学文本t、编码描述
Figure SMS_55
和固定的文本模板拼接在一起,形成一个新的输入序列:
Figure SMS_56
Figure SMS_57
代表输入的医学文本,/>
Figure SMS_58
代表编码的类别数,mask为模型完型填空的占位符,/>
Figure SMS_59
代表ICD编码,/>
Figure SMS_60
代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
与现有技术相比,上述方案的有益效果:预注入知识可以提高预训练模型的知识表示能力,使其能够更好地理解和回答基于知识的问题,预训练可以利用对比学习范式,使得预训练模型能够捕获更多的共性特征,从而提高其在下游任务上的泛化性能。本发明方法可以提高医学文本的可读性和可利用性,方便医生、研究人员和管理者进行数据分析和决策支持;可以减少人工标注的成本和时间,提高编码的准确性和一致性;可以利用预训练模型和知识图谱等技术增强模型的泛化能力和语义理解能力,处理复杂多样的医学文本。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图对本发明具体实施方式作解析。
以下实施例仅用于说明本发明,并不限制本发明。在以下实施例中,除非另有说明,否则所有技术和科学术语均具有通常理解该术语之人所熟知的含义。
参照图1,本发明提供一种基于医学知识注入提示的少样本ICD编码方法,包括如下步骤:
S1:对输入的医学文本t进行预处理,删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
S2:首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure SMS_61
,并且使用层次对比损失损失函数对longformer模型进行预训练,将这些结构化的医学领域知识注入到longformer模型中。
S3:利用UMLS为每个ICD编码c生成一个对应的编码描述
Figure SMS_62
,并将医学文本/>
Figure SMS_63
、编码描述/>
Figure SMS_64
、固定的文本模板拼接在一起,形成一个新的输入序列,并且基于模型输出值来得出ICD编码的分类结果。
本实施例中,步骤S1具体为:
S1:对输入的医学文本a进行预处理,删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。例如,假设输入医学文本为“患者因右上腹部不适就诊。体检发现肝大,并有轻度黄疸。血清转氨酶升高。超声检查显示肝内多发结节。经穿刺活检确诊为肝癌。”经过预处理后得到文本序列为“患者右上腹部 不适 就诊 体检 发现 肝大 轻度 黄疸 血清 转氨酶 升高 超声 检查 显示 肝内 多发 结节 穿刺 活检 确诊 肝癌”。
本实施例中,步骤S2具体为:
S2:通过构建自监督数据并在具有分层三重态损失的自监督数据上对longformer模型进行预训练,将结构化医学知识注入到longformer模型中。longformer模型是一种可以高效处理长文本的模型。在此步骤中可以使用医学知识图、标签映射表和ICD编码表作为结构化医学知识来源,并利用它们来构建数据集。医学知识图是一种由实体、属性和关系组成的图结构数据,它可以表示医学领域内各种概念、症状、诊断等信息及其相互关系。标签映射表是一种由标签映射词和ICD编码组成的表格数据,它可以表示每个ICD编码所涉及的医学概念、症状、诊断等信息及其对应的标签映射词。ICD编码表是一种由ICD编码和描述组成的表格数据,它可以表示每个ICD编码所代表的疾病或者健康问题及其相关信息。
为了构建数据集,我们可以采用以下步骤:
S21: 首先通过统一医学语言系统(Unified Medical Language System,UMLS)和国际疾病分类(International classification of diseases,ICD)的中的同义词、缩写、层次信息构建数据集
Figure SMS_65
具体地说,对于每个ICD编码c,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码。例如编码c是250.1(糖尿病酮症酸中毒),正样本包含英文缩写250.1(DKA)、同义词250.1(糖尿病性酸中毒),负样本包含上级编码250(糖尿病)、同级编码250.0(无并发症的糖尿病)、250.2(高渗性糖尿病)、584.9(急性肾衰)。
为了使用对比学习方法对模型进行调优,我们可以采用以下步骤:
S22:构建动态阈值控制的Triplet Loss损失函数,小批次B的分层三重态损失可表示为:
Figure SMS_66
其中
Figure SMS_67
是小批次B中的所有三联体,/>
Figure SMS_68
B中三联体的数量,/>
Figure SMS_69
是锚点样本,
Figure SMS_70
是正样本,/>
Figure SMS_71
是负样本。
Figure SMS_72
是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的。
对于三元组
Figure SMS_73
,动态参数/>
Figure SMS_74
计算为:
Figure SMS_75
其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定
Figure SMS_76
,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是/>
Figure SMS_77
范围内的距离,/>
Figure SMS_78
,/>
Figure SMS_79
是反余弦函数,因此/>
Figure SMS_80
例如,编码250.1为锚点,那么250对于锚点来说属于同一类的父子关系,250.2对于锚点来说属于同一类的兄弟关系,428.7对于锚点是不同类只同级的样本,并且三者对于锚点都为负样本。
上述设定是为了让锚点和正样本之间的距离尽可能小,而锚点和负样本之间的距离尽可能大,从而提高模型的区分能力。
Figure SMS_81
是一个阈值,表示锚点和负样本之间的最小距离。如果锚点和负样本之间的距离小于/>
Figure SMS_82
,那么就会产生损失,促使模型增加它们之间的距离。不同类间的负样本和锚点距离至少为/>
Figure SMS_83
,是为了保证不同类别之间有足够的间隔。而同一类中负样本与锚点的将至少是/>
Figure SMS_84
范围内的距离,是为了保证同一类别内部的多样性,这样可以使得模型更好地学习到数据的特征和相似度。
S23:将数据集D输入到longformer模型,在训练过程中,模型会不断地调整自己的参数,以最小化损失函数。最终,我们可以得到一个训练好的模型,它可以将输入映射到输出空间中。在ICD编码问题中,输出通常是一个概率分布,表示每个类别的概率。
本实施例中,步骤S3具体为:
利用UMLS每个ICD编码c生成一个对应的编码描述
Figure SMS_85
,并将医学文本/>
Figure SMS_86
、编码描述/>
Figure SMS_87
、固定文本模板拼接在一起,形成一个新的输入序列,并且基于模型输出值来得出ICD编码的分类结果。
S31:首先利用医学知识图谱(medical knowledge graph)来提取临床记录中的医学概念之间的关系,例如症状、诊断、治疗等。再为每个ICD编码生成一个对应的编码描述,如下:
C22.0:肝癌导致肝大并发黄疸治疗穿刺活检
C22.9:肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检
C78.7:肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检
S32:将医学文本、文本模板和ICD编码描述拼接在一起,形成一个新的输入序列
Figure SMS_88
Figure SMS_89
Figure SMS_90
代表输入文本/>
Figure SMS_91
代表编码的类别数,mask为模型完型填空的占位符,/>
Figure SMS_92
代表ICD编码,/>
Figure SMS_93
代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
例如,医学文本t是: 患者右上腹部 不适 就诊 体检 发现 肝大 轻度 黄疸 血清 转氨酶 升高 超声 检查 显示 肝内 多发 结节 穿刺 活检 确诊 肝癌。
固定的文本模板:该患者{}患有编码
Figure SMS_94
编码
Figure SMS_95
分为三个类别:/>
Figure SMS_96
C22.0,/>
Figure SMS_97
C22.9 ,/>
Figure SMS_98
C78.7。
Figure SMS_99
:肝癌导致肝大并发黄疸治疗穿刺活检、/>
Figure SMS_100
:肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检、/>
Figure SMS_101
肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检。
此时序列输入X:患者右上腹部 不适 就诊 体检 发现 肝大 轻度 黄疸 血清 转氨酶 升高 超声 检查 显示 肝内 多发 结节 穿刺 活检 确诊 肝癌,该患者mask_1患有C22.0, 肝癌导致肝大并发黄疸治疗穿刺活检;该患者mask_2患有C22.9, 肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检,该患者mask_3患有C78.7:肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检。Mask作为longformer输入的占位符,可视作完形填空任务中的待填空处。
S33:将该序列输入到longformer模型中,通过模型输出值mask来预测ICD编码的分类结果,如下:
mask所对应的值如下所示:
Mask_1:[是:0.987,不是:0.013]
Mask_2:[是:0.965,不是:0.035]
Mask_3:[是:0.92,不是:0.076]
再通过比较“是”和“不是”所对应标签概率的大小,得到最终填空的结果。
最终填空结果:“患者右上腹部 不适 就诊 体检 发现 肝大 轻度 黄疸 血清 转氨酶 升高 超声 检查 显示 肝内 多发 结节 穿刺 活检 确诊 肝癌,该患者是患有C22.0, 肝癌导致肝大并发黄疸治疗穿刺活检;该患者是患有C22.9, 肝恶性肿瘤导致肝大并发黄疸治疗穿刺活检,该患者是患有C78.7:肝转移性肿瘤导致肝大并发黄疸治疗穿刺活检”。
因此ICD编码被分类为C22.0,C22.9,C78.7。
本发明还提供一种基于医学知识注入提示的少样本ICD编码系统,包括如下模块:
预处理模块,用于对输入的医学文本t进行预处理;
模型训练模块,用于通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure SMS_102
,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;
编码模块,用于利用UMLS为每个ICD编码c生成一个对应的编码描述
Figure SMS_103
,并将预处理后的医学文本t、编码描述/>
Figure SMS_104
和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。
各模块的具体实现方式和各步骤相应,本发明不予撰述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.基于医学知识注入提示的少样本ICD编码方法,其特征在于,包括以下步骤:
步骤S1,对输入的医学文本t进行预处理;
步骤S2,通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure QLYQS_1
,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;
步骤S2的具体实现方式如下;
S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure QLYQS_2
;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;
S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分层三重态损失可表示为:
Figure QLYQS_3
其中
Figure QLYQS_5
是小批次B中的所有三联体,/>
Figure QLYQS_7
B中三联体的数量,每个三联体/>
Figure QLYQS_9
包括一个锚点/>
Figure QLYQS_10
,正样本/>
Figure QLYQS_11
,负样本/>
Figure QLYQS_12
,正样本/>
Figure QLYQS_13
为锚点/>
Figure QLYQS_4
的缩写或同义词,负样本/>
Figure QLYQS_6
为锚点/>
Figure QLYQS_8
的上位概念或下位概念;
Figure QLYQS_14
是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;
对于三元组
Figure QLYQS_15
,动态参数/>
Figure QLYQS_16
计算为:
Figure QLYQS_17
其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定
Figure QLYQS_18
,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是/>
Figure QLYQS_19
范围内的距离,
Figure QLYQS_20
,/>
Figure QLYQS_21
是反余弦函数,因此/>
Figure QLYQS_22
步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率;
步骤S3,利用UMLS为每个ICD编码c生成一个对应的编码描述
Figure QLYQS_23
,并将预处理后的医学文本t、编码描述/>
Figure QLYQS_24
和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果;
步骤S3中,将医学文本t、编码描述
Figure QLYQS_25
和固定的文本模板拼接在一起,形成一个新的输入序列:
Figure QLYQS_26
Figure QLYQS_27
代表输入的医学文本,/>
Figure QLYQS_28
代表编码的类别数,mask为模型完型填空的占位符,/>
Figure QLYQS_29
代表ICD编码,/>
Figure QLYQS_30
代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
2.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法,其特征在于:步骤S1中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
3.基于医学知识注入提示的少样本ICD编码系统,其特征在于,包括以下模块:
预处理模块,用于对输入的医学文本t进行预处理;
模型训练模块,用于通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure QLYQS_31
,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;
模型训练模块的具体实现方式如下;
S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集
Figure QLYQS_32
;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;
S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分层三重态损失可表示为:
Figure QLYQS_33
其中
Figure QLYQS_34
是小批次B中的所有三联体,/>
Figure QLYQS_35
B中三联体的数量,每个三联体/>
Figure QLYQS_36
包括一个锚点/>
Figure QLYQS_37
,正样本/>
Figure QLYQS_38
,负样本/>
Figure QLYQS_39
,正样本/>
Figure QLYQS_40
为锚点/>
Figure QLYQS_41
的缩写或同义词,负样本/>
Figure QLYQS_42
为锚点/>
Figure QLYQS_43
的上位概念或下位概念;
Figure QLYQS_44
是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;
对于三元组
Figure QLYQS_45
,动态参数/>
Figure QLYQS_46
计算为:
Figure QLYQS_47
其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定
Figure QLYQS_48
,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是/>
Figure QLYQS_49
范围内的距离,
Figure QLYQS_50
,/>
Figure QLYQS_51
是反余弦函数,因此/>
Figure QLYQS_52
步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率;
编码模块,用于利用UMLS为每个ICD编码c生成一个对应的编码描述
Figure QLYQS_53
,并将预处理后的医学文本t、编码描述/>
Figure QLYQS_54
和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果;
编码模块中,将医学文本t、编码描述
Figure QLYQS_55
和固定的文本模板拼接在一起,形成一个新的输入序列:
Figure QLYQS_56
Figure QLYQS_57
代表输入的医学文本,/>
Figure QLYQS_58
代表编码的类别数,mask为模型完型填空的占位符,/>
Figure QLYQS_59
代表ICD编码,/>
Figure QLYQS_60
代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
4.根据权利要求3所述的基于医学知识注入提示的少样本ICD编码系统,其特征在于:预处理模块中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
CN202310517095.3A 2023-05-09 2023-05-09 基于医学知识注入提示的少样本icd编码方法和系统 Active CN116227433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310517095.3A CN116227433B (zh) 2023-05-09 2023-05-09 基于医学知识注入提示的少样本icd编码方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310517095.3A CN116227433B (zh) 2023-05-09 2023-05-09 基于医学知识注入提示的少样本icd编码方法和系统

Publications (2)

Publication Number Publication Date
CN116227433A CN116227433A (zh) 2023-06-06
CN116227433B true CN116227433B (zh) 2023-07-04

Family

ID=86569985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310517095.3A Active CN116227433B (zh) 2023-05-09 2023-05-09 基于医学知识注入提示的少样本icd编码方法和系统

Country Status (1)

Country Link
CN (1) CN116227433B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988013A (zh) * 2021-10-25 2022-01-28 清华大学 基于多任务学习和图注意力网络的icd编码方法及装置
CN115935914A (zh) * 2022-11-03 2023-04-07 众阳健康科技集团有限公司 一种入院记录缺失文本补充方法
CN115936014A (zh) * 2022-11-08 2023-04-07 上海栈略数据技术有限公司 一种医学实体对码方法、系统、计算机设备、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text
US20210343410A1 (en) * 2020-05-02 2021-11-04 Petuum Inc. Method to the automatic International Classification of Diseases (ICD) coding for clinical records
US20230034401A1 (en) * 2021-07-16 2023-02-02 Novoic Ltd. Method of evaluating text similarity for diagnosis or monitoring of a health condition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988013A (zh) * 2021-10-25 2022-01-28 清华大学 基于多任务学习和图注意力网络的icd编码方法及装置
CN115935914A (zh) * 2022-11-03 2023-04-07 众阳健康科技集团有限公司 一种入院记录缺失文本补充方法
CN115936014A (zh) * 2022-11-08 2023-04-07 上海栈略数据技术有限公司 一种医学实体对码方法、系统、计算机设备、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于改进卷积神经网络的短文本分类模型;高云龙;吴川;朱明;;吉林大学学报(理学版)(第04期);全文 *
基于深度学习的中文疾病名称归一化研究;张展鹏;《硕士电子期刊》(第第2期期);全文 *
基于预训练表征模型的自动ICD编码;王天罡;李晓亮;张晓滨;蔡宏伟;;中国数字医学(第07期);全文 *

Also Published As

Publication number Publication date
CN116227433A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
US10984024B2 (en) Automatic processing of ambiguously labeled data
Gonçalves et al. A survey on attention mechanisms for medical applications: are we moving toward better Algorithms?
US20220148679A1 (en) Identification of Signature Mutations and Targeted Treatments
Balasubramaniam et al. A modified LeNet CNN for breast cancer diagnosis in ultrasound images
Habchi et al. Ai in thyroid cancer diagnosis: Techniques, trends, and future directions
Pennisi et al. Skin lesion area segmentation using attention squeeze u-net for embedded devices
Shastry et al. Deep learning techniques for the effective prediction of Alzheimer’s disease: a comprehensive review
Shokrollahi et al. A comprehensive review of generative AI in healthcare
Chen et al. Automated medical chart review for breast cancer outcomes research: a novel natural language processing extraction system
Zhang et al. The comparative experimental study of multilabel classification for diagnosis assistant based on chinese obstetric emrs
CN116227433B (zh) 基于医学知识注入提示的少样本icd编码方法和系统
US20240028831A1 (en) Apparatus and a method for detecting associations among datasets of different types
Zhu et al. A novel multispace image reconstruction method for pathological image classification based on structural information
Schneider Machine learning and artificial intelligence
Loveymi et al. Generate structured radiology report from CT images using image annotation techniques: preliminary results with liver CT
Zaghir et al. Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts
Fu et al. Cross-domain decision making based on TrAdaBoost for diagnosis of breast lesions
Singh et al. Efficient pneumonia detection using Vision Transformers on chest X-rays
Alzoubi et al. Artificial intelligence techniques for neuropathological diagnostics and research
Islam Bhuiyan et al. Deep learning-based analysis of COVID-19 X-ray images: Incorporating clinical significance and assessing misinterpretation
Xing et al. Biorel: a large-scale dataset for biomedical relation extraction
Lu et al. Combining transformer-based model and GCN to predict ICD codes from clinical records
Mahajan et al. Deep learning methods and their application to nursing workflows: technology and perspectives
CN115910327B (zh) 小样本癌症事件分析方法、装置、设备以及存储介质
US20240233960A9 (en) Clinical Trial Screening Using Disease-Specific Semantic Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant