CN117807956A - 一种基于临床文本树结构的icd自动编码方法 - Google Patents
一种基于临床文本树结构的icd自动编码方法 Download PDFInfo
- Publication number
- CN117807956A CN117807956A CN202311852182.0A CN202311852182A CN117807956A CN 117807956 A CN117807956 A CN 117807956A CN 202311852182 A CN202311852182 A CN 202311852182A CN 117807956 A CN117807956 A CN 117807956A
- Authority
- CN
- China
- Prior art keywords
- icd
- model
- clinical
- node
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 239000007787 solid Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
Abstract
一种基于临床文本树结构的ICD自动编码方法,包括步骤:原始临床记录的表示,将临床记录的特征提取出来并通过bioBRET模型转换为可处理的形式,同时获取临床记录的成分分析树;ICD代码预处理,通过基于bioBRET模型对ICD代码进行预训练,以获得可处理的ICD代码的特征向量;计算临床记录和ICD代码特征向量的相似度;准确性分析,利用经典模型对ICD自动编码能力进行评估,进而对比分析本发明的准确性和有效性。本发明既考虑了临床记录和ICD代码本身的特征,又考虑了全局特征以及它们相互之间的关系,能有效提高ICD自动编码的准确性;预训练模型的引入也使得临床记录树结构导致的时间复杂度高的问题得以改善,提高ICD编码的有效性。
Description
技术领域
本发明属于多标签文本分类和自然语言处理领域,具体涉及基于临床文本树结构的ICD自动编码技术。
背景技术
ICD自动编码是指是指利用自然语言处理、机器学习等方法,将相应的ICD编码与输入的临床数据自动匹配转换为国际通用的编码,统一解释患者的诊断和住院过程。近年来,ICD自动编码研究受到越来越广泛的关注,不仅因为其重大的医学研究意义,更因为其广泛的临床应用价值。几乎所有的医疗机构(比如医院、诊所、保险公司、卫生部门)都需要使用ICD编码系统来记录和管理患者的健康信息。而传统的手工ICD编码方法由于临床记录信息量大,书写临床记录时用词不规范,准确率仅为71%,成本也非常高。因此,自动和精确的ICD自动编码方法对于医院和其他医疗机构来说非常重要。应用ICD自动编码的技术和方法能够帮助我们更好地理解患者的健康状况,并对其进行更好地治疗和预防,也可以快速地提高医疗机构的工作效率。例如,在对一个大型医院的数据分析中,高质量的ICD自动编码可以帮助医生快速地找出患者的风险因素和并发症;作为训练输入的临床记录是平均包含1524个单词的长文本,但9000多个ICD代码中仅有部分代码被频繁使用。可见高质量的ICD自动编码对医疗机构的服务质量和效率有着巨大的影响,ICD自动编码的质量和效率提升意义重大。
迄今为止,学者们已经提出了一系列经典或新颖的方法来进行ICD自动编码。然而,这些现有的方法在不同程度上都存在一些缺陷。例如,CNN(Convolutional NeuralNetworks)、Bi-GRU(Bidirectional GRU)和Hypercore都需要大量的标注数据来训练模型,而临床记录本身就存在很多噪声和不一致性;CAML(Convolutional Attention forMulti-Label classification)难以处理医疗记录中的缩写词、同义词、歧义词等语言现象,导致编码的错误或不准确;MultiResCNN(Multi-Filter Residual ConvolutionalNeural Netwok)对于医疗记录中不同n-gram特征之间的交互关系的捕捉存在困难;LAAT(Label Attention Model)需要大量的参数来调整自适应注意力树的效果,这可能增加了模型的复杂度和不稳定性。鉴于此,本发明提出一种基于临床文本树结构的ICD自动编码方法及系统。
发明内容
本发明的目的是提供一种基于临床文本树结构的ICD自动编码方法。
本发明是一种基于临床文本树结构的ICD自动编码方法,包括以下步骤:
S1、原始临床记录的表示,将临床记录的特征提取出来并转换为可处理的形式,在这个过程中,分别需要对临床记录进行清洗分词等预处理操作,并获取到它的文本特征以及结构特征;
S2、ICD代码预处理,通过基于预训练的模型对ICD代码进行预训练,以获得可处理的ICD代码的特征向量。定义pij为ICDj描述中单词j的向量,则为ICDj的向量。由bioBERT模型得到ICD代码的特征向量可用Q=(q1,q2,...,qn)来表示;
S3、计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度。当临床记录特征与ICD代码特征在整个训练阶段呈正相关时,其相似度会增加;当它们呈负相关时,其相似度会降低。预测方法中的相似度用于计算ICD代码发生的可能性。之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码qi的向量。在相似度计算中,通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量,l为ICD向量的长度。则临床记录与ICD代码的相似度可计算为s=sigmoid[softmax(OQT)O];
S4、准确性分析,利用经典模型对ICD自动编码能力进行评估,进而对比分析本发明的准确性和有效性。
与现有技术相比,本发明具有以下有益效果:
1、模型精确度更高:本方法实现了ICD自动编码精确度的提高,作为一个多标签分类模型,获得了更高的F1分数(micro-F1和macro-F1)。F1分数通过对整个样本中的每个预测答案进行计数,在大多数情况下指示模型的性能,计算为:其中P是样本的精度,代表模型所有预测结果正确的百分比,计算为/>R是样本的回归值,表示模型正确识别了所有标准标签答案中的多少个,计算为/>精度表示模型给出的答案的置信度,而回归率表示模型对整体问题的拟合程度。micro-F1值是精度和回归率的总和平均值;
2、不同阈值下的预测能力更好:本方法获得更高的AUC值(micro-AUC和macro-AUC),也即ROC产生的曲线下面积占总可能面积的百分比更高。AUC的取值范围在0到1之间,值越接近1表示分类器的性能越好,值越接近0.5则表示分类器的性能越差。它说明本方法中的分类器对正例样本和负例样本的正确排序能力更好,它通过将具有标签r的每个数据的置信水平与没有标签(u)的每个数据进行比较来计算:
3、前n个结果更精确:本方法在考虑位置的情况下检测给定查询的前n个结果的准确性。一般来说,搜索的前几个结果的准确性更为重要。如果前几个结果与搜索词不相关,即使随后的所有结果都相关,那么信息检索系统也不令人满意。因此P@n是用于测量前几个结果的精度的度量,即在前n个的精度,搜索的前n个结果的精度,例如P@5,P@8。如果yi=0,1分别表示第i个相关或不相关的结果:
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是基于临床文本树结构的ICD自动编码方法流程图。图2为基于临床文本树结构的ICD自动编码方法的原理图。
具体实施方式
如图1所示,本发明是一种基于临床文本树结构的自动ICD编码方法,该方法使用基于transformer的预训练模型对临床文本和ICD代码获取特征向量,同时使用成分分析树获取临床记录的结构特征,并用tree-lstm模型来对其进行自动编码。所述方法包括临床记录的预处理和训练阶段、ICD代码预训练阶段和两者特征的相似度计算阶段,其步骤为:
S1、原始临床记录的表示,将临床记录的特征提取出来并转换为可处理的形式,在这个过程中,分别需要对临床记录进行清洗分词等预处理操作,并获取到它的文本特征以及结构特征;
S2、ICD代码预处理,通过基于预训练的模型对ICD代码进行预训练,以获得可处理的ICD代码的特征向量。定义pij为ICDj描述中单词j的向量,则为ICDj的向量。由bioBERT模型得到ICD代码的特征向量可用Q=(q1,q2,...,qn)来表示;
S3、计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度。当临床记录特征与ICD代码特征在整个训练阶段呈正相关时,其相似度会增加;当它们呈负相关时,其相似度会降低。预测方法中的相似度用于计算ICD代码发生的可能性。之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码qi的向量。在相似度计算中,通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量,l为ICD向量的长度。则临床记录与ICD代码的相似度可计算为s=sigmoid[softmax(OQT)O];
S4、准确性分析,利用经典模型对ICD自动编码能力进行评估,进而对比分析本发明的准确性和有效性。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整性地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1本发明实施例提供了基于临床文本树结构的ICD自动编码方法;
本发明的基于临床文本树结构的ICD自动编码方法,包括:
S1、原始临床记录的表示,将临床记录的特征提取出来并转换为可处理的形式,在这个过程中,分别需要对临床记录进行清洗分词等预处理操作,并获取到它的文本特征以及结构特征;
具体而言,在本发明实施例中,步骤S1包括以下步骤:
S11、对临床文本进行预处理,对临床记录文本分词的同时进行词性标注以及词频计算,输入原始临床记录文本,对其进行分词,即将文本切分成单词或标点符号的列表;再使用自定义的停用词列表对分词后的列表进行去除停用词,并将单词还原为其词干或词根的形式;对词干提取后的列表进行词性标注,即给每个单词分配一个词性标签;
S12、对S11中预处理后得到的临床记录生成临床文本的成分分析树并将其序列化,用表示句子结构和语法关系的树状图将临床记录文本表示出来,其中每个节点是一个词,每条边是一个依存关系,如主谓、定中、动宾等。为了构建依存树,需要先对临床记录W=(ω1,ω2,...,ωm)进行句子分割和成分划分,我们使用成分句法分析的方法实现。成分句法分析是一种将句子划分为不同层次的短语的过程,如名词短语、动词短语、从句等。为了从成分句法树转换为依存树D=(d1,d2,...,dm),需要计算每个节点的得分,使用基于span的方法实现。其中节点的得分反映了该节点在依存树中的重要性和位置,通常越高的得分表示越靠近根节点;
S13、对S11步骤中得出的已经处理过的临床记录进行预训练,将临床记录分割成句子和单词token。将单词token转换为小写,并删除标点符号和停用词等无关的字符。将单词token映射到BioBERT模型的单词表中,如果单词表中没有该token,则将其分割成子词token或使用特殊的token[UNK]表示。同时为每个句子添加特殊的token[CLS]和[SEP],以标记句子的开始和结束。在这个过程中,我们为每个句子或单词token添加相应的标签,如实体类型、关系类型、答案范围等,得到临床记录的特征向量为E(W)=(e1,e2,...,em);
S14、将S13中通过预训练语言模型bioBERT模型得到的特征向量E(W)与S12中生成的依存树D相结合,更好地提取出其特征以及有效的上下文相关性向量,以便作为后续S15中tree-lstm模型的输入;
S15、训练文本特征,根据成分分析树的结构,自底向上地计算每个节点的隐藏状态和记忆单元,其运算方程如下:
ij=σ(W(i)ej+U(i)hk+b(i))
fjk=σ(W(f)ej+U(f)hk+b(f))
oj=σ(W(o)ej+U(o)hk+b(o))
uj=tanh(W(u)ej+U(u)hk+b(u))
hj=oj☉tanh(cj)
根据tree-lstm模型,不仅使用一步神经元的隐藏输出,而是将子节点的状态hl进行累加作为下一神经元的输入值。hl是从tree-lstm模型的前一层得到的隐藏状态。tree-lstm模型是一个递归的模型,从叶子节点开始,逐层向上计算每个节点的隐藏状态和输出向量。对于每个节点,根据它的孩子节点的隐藏状态和自身的输入向量,计算出自己的隐藏状态和输出向量。我们将每个时间步长t的LSTM单元定义为维度内:其中,ej是第j个节点的输入,即bioBERT模型编码后的特征向量;hj和cj是第j个节点的隐藏状态和记忆单元;C(j)是第j个节点的子节点集合;ij,fjk和oj是第j个节点的输入门,遗忘门和输出门,它们的取值范围在[0,1],uj为更新单元;W(i),W(f),W(o)和W(u)是输入到各个门的权重矩阵;U(i),U(f),u(o)和U(u)是子节点到各个门的权重矩阵;b(i),b(f),b(o)和b(u)是各个门的偏置向量;σ是sigmoid函数;⊙是逐元素乘法。
S2、ICD代码预处理,通过基于预训练的模型对ICD代码进行预训练,以获得可处理的ICD代码的特征向量。定义pij为ICDj描述中单词j的向量,则为ICDj的向量。由bioBERT模型得到ICD代码的特征向量可用Q=(q1,q2,...,qn)来表示;
具体而言,在本发明实施例中,步骤S2包括以下步骤:
S21、通过预训练的bioBERT模型对ICD代码的描述进行矢量化,更好地封装ICD代码并生成有效且依赖于上下文的ICD向量。bioBERT模型是在大规模的生物医学语料库上预训练的,能够更好地理解临床文本中的专业术语和语义。通过微调,bioBERT模型可以自动地将临床文本中的实体和概念与ICD代码进行匹配,同时利用代码描述和注意力机制来增强文本和代码之间的关联性,从而提高编码的精度。其中,bioBERT模型的预训练目标是使用掩码语言模型(MLM)和下一句预测(NSP)两个任务来学习文本的语言表征。将每个ICD代码单独编码为其表示。具体来说,MLM任务是在输入文本中随机掩盖一些单词,然后让模型预测被掩盖的单词。其任务的损失函数是交叉损失函数
其中θ是模型的参数,N是输入文本中被掩盖的单词的数量,ωi是第i个被掩盖的单词,ω\i是除了ωi之外的其他单词,P(ωi|ω\i,θ)是模型预测ωi的概率。
而NSP任务是给定两个句子,判断它们是否连续。其损失函数如下:
其中θ是模型的参数,M是输入文句对的数量,yj是第j个句对的标签(0表示不连续,1表示连续),sj是第j个句对,P(yj|sj,θ)是模型预测yj的概率。
bioBERT模型的预训练总函数即以上两个任务的损失函数之和:
Lpretrain(θ)=LMLM(θ)+LNSP(θ);
S3、计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度。当临床记录特征与ICD代码特征在整个训练阶段呈正相关时,其相似度会增加;当它们呈负相关时,其相似度会降低。预测方法中的相似度用于计算ICD代码发生的可能性。之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码qi的向量。在相似度计算中,通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量,l为ICD向量的长度。则临床记录与ICD代码的相似度可计算为s=sigmoid[softmax(OQT)O]。
S4、准确性分析,利用经典模型对ICD自动编码能力进行评估,进而对比分析本发明的准确性和有效性;
具体而言,在本发明实施例中,步骤S4包括以下步骤:
S41、F1分数(micro-F1和macro-F1):可以对整个样本中的每个预测答案进行计数,因此在大多数情况下可以很好地指示模型的性能。计算为:其中P是样本的精度,代表模型所有预测结果正确的百分比,计算为/>R是样本的回归值,表示模型正确识别了所有标准标签答案中的多少个,计算为R=TP/((TP+FN))。精度表示模型给出的答案的置信度,而回归率表示模型对整体问题的拟合程度。micro-F1值是精度和回归率的总和平均值。此外,可以通过对所有类别的Precision和Recall取平均值来计算macro-F1。
S42、AUC(micro-AUC和macro-AUC):AUC是ROC产生的曲线下面积,占总可能面积的百分比。AUC也是任意两个随机选择的具有不同标签的数据将预测具有更高置信度水平的正确标签的概率。micro-AUC测量为所有标签中的所有数据计算AUC,而不是为一个标签中的数据计算。因此,它可以通过将具有标签r的每个数据的置信水平与没有标签(u)的每个数据进行比较来计算:
S43、Precision@n(P@n):Precision@n是指在考虑位置的情况下检测给定查询的前n个结果的准确性。一般来说,搜索的前几个结果的准确性更为重要。如果前几个结果与搜索词不相关,即使随后的所有结果都相关,那么信息检索系统也不令人满意。因此P@n是用于测量前几个结果的精度的度量,即在前n个的精度,搜索的前n个结果的精度,例如P@5,P@8。如果yi=0,1分别表示第i个相关或不相关的结果:
表3为采用本发明方法与11种ICD自动编码方法CNN、Bi-GRU、Hypercore、CAML、DR-CAML、MultiResCNN、LAAT、JointLAAT、tree-MAN、TF-GCN、TreeMAN方法得到的ICD编码准确性对比图。
表3(a)各模型在MIMIC-Ⅲ全数据集实验对比
表3(b)各模型在MIMIC-Ⅲ50数据集实验对比
其中表3(a)为采用本发明方法与11种ICD自动编码方法在MIMIC-Ⅲ(MedicalInformation Mart for Intensive Care)数据集上的F1、AUC和P@8指标的数据对比;表3(b)为采用本发明方法与11种ICD自动编码方法在MIMIC-50数据集上的F1、AUC和P@5指标的数据对比。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上仅是本发明的优选实施,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (4)
1.一种基于临床文本树结构的ICD自动编码方法,其特征在于,该方法使用基于transformer的预训练模型对临床文本和ICD代码进行特征提取,并获取临床文本的成分分析树以获取更全面的结构信息,通过对多方面信息进行集合,使用tree-lstm模型对临床文本进行训练得到两者的相似度以达到自动编码的目的;所述方法包括设备注册阶段和密钥分发阶段,其步骤为:
S1、原始临床记录的表示,将临床记录的特征提取出来并转换为可处理的形式,在这个过程中,分别需要对临床记录进行清洗分词等预处理操作,并获取到它的文本特征以及结构特征;
S2、ICD代码预处理,通过基于预训练的模型对ICD代码进行预训练,以获得可处理的ICD代码的特征向量;定义pij为ICDj描述中单词j的向量,则为ICDj的向量;由bioBERT模型得到ICD代码的特征向量可用Q=(q1,q2,...,qn)来表示;
S3、对计算S1和S2求得的临床记录的特征向量和ICD代码的特征向量的相似度;当临床记录特征与ICD代码特征在整个训练阶段呈正相关时,其相似度会增加;当它们呈负相关时,其相似度会降低;预测方法中的相似度用于计算ICD代码发生的可能性;之前的计算已经为每个临床记录产生了(2m-1)个向量和ICD代码qi的向量;在相似度计算中,通过函数h(·)将其维度从转换为与临床记录特征向量O相同的维度/>其中n为ICD代码的数量,l为ICD向量的长度;则临床记录与ICD代码的相似度可计算为s=sigmoid[softmax(OQT)O];
S4、准确性分析,利用经典模型对ICD自动编码能力进行评估,进而对比分析本发明的准确性和有效性。
2.根据权利要求1所述的基于临床文本树结构的ICD自动编码方法,其特征在于,所述步骤S1的具体子步骤如下:
S11、对临床文本进行预处理,对临床记录文本分词的同时进行词性标注以及词频计算,输入原始临床记录文本,对其进行分词,即将文本切分成单词或标点符号的列表;再使用自定义的停用词列表对分词后的列表进行去除停用词,并将单词还原为其词干或词根的形式;对词干提取后的列表进行词性标注,即给每个单词分配一个词性标签;
S12、对S11中预处理后得到的临床记录生成临床文本的成分分析树并将其序列化,用表示句子结构和语法关系的树状图将临床记录文本表示出来,其中每个节点是一个词,每条边是一个依存关系,如主谓、定中、动宾;为了构建依存树,需要先对临床记录W=(ω1,ω2,...,ωm)进行句子分割和成分划分,使用成分句法分析的方法实现;成分句法分析是一种将句子划分为不同层次的短语的过程,如名词短语、动词短语、从句;为了从成分句法树转换为依存树D=(d1,d2,...,dm),需要计算每个节点的得分,使用基于span的方法实现;其中节点的得分反映了该节点在依存树中的重要性和位置,通常越高的得分表示越靠近根节点;
S13、对S11步骤中得出的已经处理过的临床记录进行预训练,将临床记录分割成句子和单词token;将单词token转换为小写,并删除标点符号和停用词等无关的字符;将单词token映射到BioBERT模型的单词表中,如果单词表中没有该token,则将其分割成子词token或使用特殊的token[UNK]表示;同时为每个句子添加特殊的token[CLS]和[SEP],以标记句子的开始和结束;在这个过程中,为每个句子或单词token添加相应的标签,如实体类型、关系类型、答案范围,得到临床记录的特征向量为E(W)=(e1,e2,...,em);
S14、将S13中通过预训练语言模型bioBERT模型得到的特征向量E(W)与S12中生成的依存树D相结合,更好地提取出其特征以及有效的上下文相关性向量,以便作为后续S15中tree-lstm模型的输入;
S15、训练文本特征,根据成分分析树的结构,自底向上地计算每个节点的隐藏状态和记忆单元,其运算方程如下:
ij=σ(W(i)ej+U(i)hk+b(i))
fjk=σ(W(f)ej+U(f)hk+b(f))
oj=σ(W(o)ej+U(o)hk+b(o))
uj=tanh(W(u)ej+U(u)hk+b(u))
hj=oj☉tanh(cj)
根据tree-lstm模型,不仅使用一步神经元的隐藏输出,而是将子节点的状态hl进行累加作为下一神经元的输入值;hl是从tree-lstm模型的前一层得到的隐藏状态;tree-lstm模型是一个递归的模型,从叶子节点开始,逐层向上计算每个节点的隐藏状态和输出向量;对于每个节点,根据它的孩子节点的隐藏状态和自身的输入向量,计算出自己的隐藏状态和输出向量;将每个时间步长t的LSTM单元定义为维度内:其中,ej是第j个节点的输入,即bioBERT模型编码后的特征向量;hj和cj是第j个节点的隐藏状态和记忆单元;C(j)是第j个节点的子节点集合;ij,fjk和oj是第j个节点的输入门,遗忘门和输出门,它们的取值范围在[0,1],uj为更新单元;W(i),W(f),W(o)和W(u)是输入到各个门的权重矩阵;U(i),U(f),U(o)和U(u)是子节点到各个门的权重矩阵;b(i),b(f),b(o)和b(u)是各个门的偏置向量;σ是sigmoid函数;⊙是逐元素乘法。
3.根据权利要求1所述的基于临床文本树结构的ICD自动编码方法,其特征在于,所述步骤S2的具体子步骤如下:
S21、通过预训练的bioBERT模型对ICD代码的描述进行矢量化,更好地封装ICD代码并生成有效且依赖于上下文的ICD向量;bioBERT模型是在大规模的生物医学语料库上预训练的,能够更好地理解临床文本中的专业术语和语义;通过微调,bioBERT模型可以自动地将临床文本中的实体和概念与ICD代码进行匹配,同时利用代码描述和注意力机制来增强文本和代码之间的关联性,从而提高编码的精度;其中,bioBERT模型的预训练目标是使用掩码语言模型(MLM)和下一句预测(NSP)两个任务来学习文本的语言表征;将每个ICD代码单独编码为其表示;具体来说,MLM任务是在输入文本中随机掩盖一些单词,然后让模型预测被掩盖的单词;其任务的损失函数是交叉损失函数
其中θ是模型的参数,N是输入文本中被掩盖的单词的数量,ωi是第i个被掩盖的单词,ω\i是除了ωi之外的其他单词,P(ωi|ω\i,θ)是模型预测ωi的概率;
而NSP任务是给定两个句子,判断它们是否连续;其损失函数如下:
其中θ是模型的参数,M是输入文句对的数量,yj是第j个句对的标签(0表示不连续,1表示连续),sj是第j个句对,P(yj|sj,θ)是模型预测yj的概率;
bioBERT模型的预训练总函数即以上两个任务的损失函数之和:
Lpretrain(θ)=LMLM(θ)+LNSP(θ)。
4.根据权利要求1所述的基于临床文本树结构的ICD自动编码方法,其特征在于,所述步骤S4的具体子步骤如下:
S41、F1分数(micro-F1和macro-F1):可以对整个样本中的每个预测答案进行计数,因此在大多数情况下可以很好地指示模型的性能;计算为:其中P是样本的精度,代表模型所有预测结果正确的百分比,计算为/>R是样本的回归值,表示模型正确识别了所有标准标签答案中的多少个,计算为R=TP/((TP+FN));精度表示模型给出的答案的置信度,而回归率表示模型对整体问题的拟合程度;micro-F1值是精度和回归率的总和平均值;此外,能通过对所有类别的Precision和Recall取平均值来计算macro-F1;
S42、AUC(micro-AUC和macro-AUC):AUC是ROC产生的曲线下面积,占总可能面积的百分比;AUC也是任意两个随机选择的具有不同标签的数据将预测具有更高置信度水平的正确标签的概率;micro-AUC测量为所有标签中的所有数据计算AUC,而不是为一个标签中的数据计算;因此,它可以通过将具有标签r的每个数据的置信水平与没有标签(u)的每个数据进行比较来计算:
S43、Precision@n(P@n):Precision@n是指在考虑位置的情况下检测给定查询的前n个结果的准确性;一般来说,搜索的前几个结果的准确性更为重要;如果前几个结果与搜索词不相关,即使随后的所有结果都相关,那么信息检索系统也不令人满意;因此P@n是用于测量前几个结果的精度的度量,即在前n个的精度,搜索的前n个结果的精度,例如P@5,P@8;如果yi=0,1分别表示第i个相关或不相关的结果:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311852182.0A CN117807956A (zh) | 2023-12-29 | 2023-12-29 | 一种基于临床文本树结构的icd自动编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311852182.0A CN117807956A (zh) | 2023-12-29 | 2023-12-29 | 一种基于临床文本树结构的icd自动编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117807956A true CN117807956A (zh) | 2024-04-02 |
Family
ID=90431611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311852182.0A Pending CN117807956A (zh) | 2023-12-29 | 2023-12-29 | 一种基于临床文本树结构的icd自动编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117807956A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761893A (zh) * | 2021-11-11 | 2021-12-07 | 深圳航天科创实业有限公司 | 一种基于模式预训练的关系抽取方法 |
CN114861600A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN115293150A (zh) * | 2022-08-10 | 2022-11-04 | 辽宁省肿瘤医院 | 融合卷积神经网络与自注意力机制手术记录自动编码方法 |
CN115545021A (zh) * | 2022-07-08 | 2022-12-30 | 浙江华巽科技有限公司 | 一种基于深度学习的临床术语识别方法与装置 |
CN115687634A (zh) * | 2022-09-06 | 2023-02-03 | 华中科技大学 | 一种结合先验知识的金融实体关系抽取系统及方法 |
CN115798661A (zh) * | 2022-10-21 | 2023-03-14 | 国科宁波生命与健康产业研究院 | 临床医学领域的知识挖掘方法和装置 |
CN116072306A (zh) * | 2023-02-01 | 2023-05-05 | 海南医学院 | 基于BioBERT与改进Focal loss的药物互作信息提取方法 |
CN116364220A (zh) * | 2023-01-13 | 2023-06-30 | 重庆大学 | 一种基于疾病关系增强的自动icd编码方法和系统 |
CN116384371A (zh) * | 2022-06-06 | 2023-07-04 | 成都量子矩阵科技有限公司 | 一种基于bert和依存句法联合实体及关系抽取方法 |
CN116702755A (zh) * | 2023-06-21 | 2023-09-05 | 电子科技大学 | 一种基于依存句法图和短语结构树的文档级关系抽取方法 |
-
2023
- 2023-12-29 CN CN202311852182.0A patent/CN117807956A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761893A (zh) * | 2021-11-11 | 2021-12-07 | 深圳航天科创实业有限公司 | 一种基于模式预训练的关系抽取方法 |
CN116384371A (zh) * | 2022-06-06 | 2023-07-04 | 成都量子矩阵科技有限公司 | 一种基于bert和依存句法联合实体及关系抽取方法 |
CN114861600A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN115545021A (zh) * | 2022-07-08 | 2022-12-30 | 浙江华巽科技有限公司 | 一种基于深度学习的临床术语识别方法与装置 |
CN115293150A (zh) * | 2022-08-10 | 2022-11-04 | 辽宁省肿瘤医院 | 融合卷积神经网络与自注意力机制手术记录自动编码方法 |
CN115687634A (zh) * | 2022-09-06 | 2023-02-03 | 华中科技大学 | 一种结合先验知识的金融实体关系抽取系统及方法 |
CN115798661A (zh) * | 2022-10-21 | 2023-03-14 | 国科宁波生命与健康产业研究院 | 临床医学领域的知识挖掘方法和装置 |
CN116364220A (zh) * | 2023-01-13 | 2023-06-30 | 重庆大学 | 一种基于疾病关系增强的自动icd编码方法和系统 |
CN116072306A (zh) * | 2023-02-01 | 2023-05-05 | 海南医学院 | 基于BioBERT与改进Focal loss的药物互作信息提取方法 |
CN116702755A (zh) * | 2023-06-21 | 2023-09-05 | 电子科技大学 | 一种基于依存句法图和短语结构树的文档级关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
PENGTAO XIE: "A Neural Architecture for Automated ICD Coding", PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (LONG PAPERS), 20 June 2018 (2018-06-20), pages 1066 - 1076 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN110209806B (zh) | 文本分类方法、文本分类装置及计算机可读存储介质 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN112712118A (zh) | 一种面向医疗文本数据的过滤方法及系统 | |
CN113553440B (zh) | 一种基于层次推理的医学实体关系抽取方法 | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN112925918B (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN112784532A (zh) | 用于短文本情感分类的多头注意力记忆网络 | |
CN112037909B (zh) | 诊断信息复核系统 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115983233A (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
Soriano et al. | Snomed2Vec: Representation of SNOMED CT terms with Word2Vec | |
CN111125378A (zh) | 一种基于自动样本标注的闭环实体抽取方法 | |
Göker et al. | Neural text normalization for turkish social media | |
Li et al. | Approach of intelligence question-answering system based on physical fitness knowledge graph | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |