CN116975201A - 一种基于深度学习的医学术语标准化方法 - Google Patents
一种基于深度学习的医学术语标准化方法 Download PDFInfo
- Publication number
- CN116975201A CN116975201A CN202310728442.7A CN202310728442A CN116975201A CN 116975201 A CN116975201 A CN 116975201A CN 202310728442 A CN202310728442 A CN 202310728442A CN 116975201 A CN116975201 A CN 116975201A
- Authority
- CN
- China
- Prior art keywords
- model
- semantic
- standard
- roberta
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title claims abstract description 10
- 238000013135 deep learning Methods 0.000 title claims description 11
- 238000012549 training Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000002271 resection Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000002513 implantation Methods 0.000 description 6
- 238000003759 clinical diagnosis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000000689 upper leg Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种医学术语标准化方法,所述方法,包括:步骤1:获取原始数据集,对数据进行预处理,构造语义匹配召回模型的训练样本数据;步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义匹配召回模型CL‑RoBERTa,根据样本数据训练语义匹配召回模型;步骤3:使用T5结合prompttuning构建语义精准匹配模型,加入对抗训练机制对语义精准匹配模型进行训练;步骤4:给定术语原词和医学标准术语库,通过CL‑RoBERTa生成原词和医学标准术语库所有标准词的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。该方法具有较高的性能,能够适用复杂的医学术语标准化场景。
Description
技术领域
本发明涉及医疗文本数据处理技术领域,具体涉及一种基于深度学习的医学术语标准化方法。
背景技术
在医学诊断中,不同的医生对同一种疾病的医学术语可能有不同表述形式,这种医学术语表述形式多样的情况会导致统计分析和知识检索的过程中会存在较大的误差。因此,医学术语标准化在医疗信息化的发展中有着重要的研究意义。医学术语标准化任务是将临床诊断中对疾病名称、手术名称、检查方式等医学术语的多种表述形式,在标准化术语库中找到一个标准术语与之对应,例如将临床诊断中所描述“右股骨病灶活检术”对应到标准化术语库中的“股骨活组织检查”。
医学术语标准化的核心任务是原术语和标准术语之间的相似度匹配,现有的医学术语标准化任务多采用先召回后排序的方法。在召回阶段传统的相似度匹配如:BM25、编辑距离、tf-idf等基于统计学的方法,只依赖于两个实体之间的字面差异,未涉及到实体之间的深层语义表征。临床诊断中存在大量语义不同但字面相似度非常高的实体,如“脊柱生长阀置入术”和“脊柱生长阀修复术”和大量字面相似度低却表示相同语义的实体,如“脊柱生长阀置入术”和“脊柱后路生长棒植入术”,对于这种情况采用基于频率统计的算法召回,会导致真正的标准实体在召回阶段未被召回为候选实体,直接降低了最终结果的召回率。通过Word2Vec词向量方法进行召回的方式对背景语料的依赖性较强,对未登录词的表示效果较差,同时由于模型结构简单,Word2Vec词向量对实体语义表征不够丰富。在排序阶段以往的方案多使用RoBERTa、BERT等预训练语言模型将待匹配实体和候选实体集分别进行文本对语义匹配。这种传统fine tuning的方案下游任务与预训练任务不能够保持一致,导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务中。
发明内容
鉴于上述相关技术的不足,提供一种医学术语标准化的方法,提高医学术语标准化的精度。
目前,医学术语标准化任务研究逐渐转为先召回再排序的两阶段方法,两个阶段的误差都将影响最终的检测效果。为了提高最终结果的准确率,本文基于深度学习提出了语义召回加精准匹配的两阶段方案,对两个阶段分别进行改进:在召回阶段借鉴了对比学习思路,使RoBERTa模型能更好的学习语义的相关性,提升了字向量对医学术语的表征能力,从而提升召回阶段的精度。在排序阶段提出T5预训练语言模型结合prompt tuning方案,减少上游任务和下游任务不一致造成的知识遗失,同时将对抗训练应用到T5模型prompt tuning过程中,进一步提升模型的性能。
为了实现上述目的,本发明提供的技术方案如下:
步骤1:获取原始数据集,对数据进行预处理,分别构建语义召回模型和精准匹配模型训练数据;
步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义召回模型CL-RoBERTa,训练语义召回模型;
步骤3:构建语义精准匹配模型T5,加入对抗训练机制对语义精准匹配模型进行训练;
步骤4:给定术语原词和医学标准术语库,通过语义召回模型生成原词和医学标准术语库所有标准词的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,使用精准匹配模型对原词和标准词候选集分别进行精准匹配得到最终标准词。
本申请方法具有如下有益效果:
本发明公开的一种基于深度学习的医学术语标准化方法,将RoBERTa和T5模型的相结合,能够适应复杂的医学术语对齐场景,提升医学术语标准化的精度。
本发明设计使用双塔结构和有监督的对比学习思想改进RoBERTa模型,得到改进后的语义表征模型为CL-RoBERTa,用于生成医学术语语义向量,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离,极大提升了RoBERTa模型的语义表征能力。提出T5预训练语言模型结合prompt tuning方案,减少上游任务和下游任务不一致造成的知识遗失,同时将对抗训练应用到T5模型prompt tuning过程中,进一步提升模型的性能。
附图说明
下面对本发明中所需要使用的附图进行介绍。
图1是所提出的CL-RoBERTa模型结构;
图2为医学术语标准化整体流程图;
具体实施方式
为了对本发明的技术方案更加清晰的说明,下面将基于附图对本发明进行详细地描述。
医学术语标准化的核心任务是原术语和标准术语之间的相似度匹配,现有的医学术语标准化任务多采用先召回后排序的方法。在召回阶段传统的相似度匹配如:BM25、编辑距离、tf-idf等基于统计学的方法,只依赖于两个实体之间的字面差异,未涉及到实体之间的深层语义表征。临床诊断中存在大量语义不同但字面相似度非常高的实体,如“脊柱生长阀置入术”和“脊柱生长阀修复术”和大量字面相似度低却表示相同语义的实体,如“脊柱生长阀置入术”和“脊柱后路生长棒植入术”,对于这种情况采用基于频率统计的算法召回,会导致真正的标准实体在召回阶段未被召回为候选实体,直接降低了最终结果的召回率。通过Word2Vec词向量方法进行召回的方式对背景语料的依赖性较强,对未登录词的表示效果较差,同时由于模型结构简单,Word2Vec词向量对实体语义表征不够丰富。在排序阶段以往的方案多使用RoBERTa、BERT等预训练语言模型将待匹配实体和候选实体集分别进行文本对语义匹配。这种传统fine tuning的方案下游任务与预训练任务不能够保持一致,导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务中。
本发明提出了基于深度学习的语义召回加精准匹配两阶段医学术语标准化方法,在语义召回阶段使用语义表征模型CL-RoBERTa,分别得到原词和医学术语的语义表征向量,通过余弦相似度召回前10个最相似医学术语得到标准词候选术语集。在精准排序阶段利用T5结合prompt tuning构建语义构建的精准匹配模型,将原词和候选术语集分别进行精准排序,得到最终的标准词。语义召回阶段使用双塔结构和有监督的对比学习思想改进RoBERTa模型,得到改进后的语义表征模型为CL-RoBERTa,用于生成医学术语语义向量,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离。在精准排序阶段针对传统fine tuning的方案下游任务与预训练任务不能够保持一致,导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务,使用T5结合prompttuning构建语义精准匹配模型,使得模型预训练阶段学到知识能够充分地应用到下游任务中。
实施例1:
本发明实施例提供一种基于深度学习的医学术语标准化方法,包括下述步骤:
步骤1:获取原始数据集,对数据进行预处理,分别构造语义召回模型和精准匹配模型训练数据;
步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义召回模型CL-RoBERTa,训练语义召回模型;
步骤3:构建语义精准匹配模型T5,加入对抗训练机制对语义精准匹配模型进行训练;
步骤4:给定术语原词和医学标准术语库,通过语义召回模型生成原词和医学标准术语库所有标准词的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。
在上述的步骤1中,具体包括如下步骤:
步骤11:获取样本数据,对数据进行预处理,按照相应的策略<原始词,标准词,1>和<原始词,非标准词,0>构造正负样本,作为步骤2语义召回模型的训练数据;
步骤12:通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据,例如通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据,例如<“右中下肺叶切除术”和“肺叶切除术”这两个术语含义相同吗?,是>;
在上述的步骤2中,如图1所示为CL-RoBERTa模型结构,具体包括如下步骤:
步骤21:构建基于RoBERTa双塔模型,左右两个塔参数共享;
步骤22:将语义召回模型的训练数据依次作为输入,分别送入CL-RoBERTa左右塔的Embedding层中;
步骤23:将Embedding层中输出结果送入transformer block层中,每一层的transformer block计算过程如式(1)–式(2):
H=LN(Ai-1+MHA(Ai-1)) (1)
其中A0=E,Ai表示第i层的transformer block输出,MHA(multihead-attention)为多头注意力机制,LN(layer normalization)表示层归一化,FFN为全连接神经网络;
步骤24:通过式(1)–式(2)计算分别左塔和右塔得到最后一层transformer block的输出结果,对左、右塔输出结果在最后一个维度上纵向相加求和取平均得到ux、uy;
步骤25:使用改进的有监督对比学习设计新型损失函数训练双塔模型。损失函数的计算公式为式(3):
其中P是训练集中标签为1的正样本,x是原词,y是标准词,ux、uy是将x、y分别输入CL-RoBERTa左塔和右塔得到语义向量表示,N是训练集中的标签为0负样本,m是原词,n是非标准词,um、vn是将m、n分别输入CL-RoBERTa左塔和右塔得到语义向量表示,τ是自定义调节的温度系数,sim表示余弦相似度;
步骤26:训练完成后得到语义表征模型CL-RoBERTa。
在上述的步骤3中,具体包括如下步骤:
步骤31:使用步骤1构造的语义精准匹配模型训练数据输入到T5模型中;
步骤32:T5模型embedding层的输出结果为x;
步骤33:x经过前向传播计算损失、反向传播计算得出梯度r;
步骤34:将模型embedding层梯度加到当前embedding的输出x上,得到新的输入x+r
步骤35:将x+r前向传播和反向传播得到对抗梯度t,将对抗梯度t与步骤32中的梯度相加为t+r;
步骤36:将embedding恢复为x的值;
步骤37:根据步骤3得到的梯度更新参数;
步骤38:重复步骤31到步骤37,得到语义精准匹配模型。
在上述的步骤4中,如图2所示,具体包括如下步骤:
步骤41:将医学术语原词字符序列s=c1c2…cn作为输入,送入CL-RoBERTa左塔的Embedding层中,得到输出E=e1e2…en;
步骤42:将E送入transformer block层中,得到最后一层transformer block的输出为Am={h1,h2,…,hn},对特征向量集合Am在最后一个维度上纵向相加求和取平均得到u={x1,x2,…,xn},该向量u作为医学术语原词的语义向量表示;
步骤43:将标准术语集G={g1,g2,…,gk}中的标准术语依次作为输入送入右塔,将gi送入右塔最终的输出结果vi={y1,y2,..,yn}作为医学术语标准词gi的语义向量表示;
步骤44:对医学术语原词语义向量u和vi计算余弦相似度得到相似度得分,计算公式为式(4):
步骤45:通过公式(4)计算原词和标准术语库中所有术语的相似度得分,取得分最高的前10个医学术语标准词作为候选概念集Y,计算公式为式(5):
Y=Top10(score(s,G)) (5)
步骤46:将原词和候选标准词分别进行组合,通过“xxx和xxx+prompt内容”的形式构成T5模型输入数据;
步骤47:将构造的数据输入到语义精准匹配模型T5中,模型输出“是”的结果作为医学术语原词所对应的标准词,模型输出“否”的结果丢弃。
本发明公开的一种基于深度学习的医学术语标准化方法,将RoBERTa和T5模型的相结合,能够适应复杂的医学术语对齐场景,提升医学术语标准化的精度。
本发明设计使用双塔结构和有监督的对比学习思想改进RoBERTa模型,得到改进后的语义表征模型为CL-RoBERTa,用于生成医学术语语义向量,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离,极大提升了RoBERTa模型的语义表征能力。提出T5预训练语言模型结合prompt tuning方案,减少上游任务和下游任务不一致造成的知识遗失,同时将对抗训练应用到T5模型prompt tuning过程中,进一步提升模型的性能。
以上所述仅为本发明的实施例,并不用来限制本发明,凡是在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
Claims (5)
1.一种基于深度学习的医学术语标准化方法,包括下述步骤:
步骤1:获取原始数据集,对数据进行预处理,分别构造语义匹配召回模型和精准匹配模型训练数据;
步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义匹配召回模型CL-RoBERTa,训练语义匹配召回模型;
步骤3:构建语义精准匹配模型T5,加入对抗训练机制对语义精准匹配模型进行训练;
步骤4:给定术语原词和医学标准术语库,通过语义匹配召回模型生成原词和医学标准术语库所有标准词的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。
2.根据权利要求1所述的一种基于深度学习的医学术语标准化方法,所述步骤1具体包括:
步骤11:获取样本数据,对数据进行预处理,按照相应的策略<原始词,标准词,1>和<原始词,非标准词,0>构造正负样本,作为步骤2语义匹配召回模型的训练数据;
步骤12:通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据,例如<“右中下肺叶切除术”和“肺叶切除术”这两个术语含义相同吗?,是>。
3.根据权利要求1所述的所述构建语义召回模型CL-RoBERTa方法,其特征在于,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离,有效提升RoBERTa的语义表征能力,所述步骤2具体包括:
步骤21:构建基于RoBERTa双塔模型,左右两个塔参数共享;
步骤22:将语义召回模型的训练数据依次作为输入,分别送入CL-RoBERTa左右塔的Embedding层中;
步骤23:将Embedding层中输出结果送入transformer block层中,每一层的transformer block计算过程如式(1)–式(2):
H=LN(Ai-1+MHA(Ai-1)) (1)
Ai=LN(H+FFN(H)) (2)
其中A0=E,Ai表示第i层的transformer block输出,MHA(multihead-attention)为多头注意力机制,LN(layer normalization)表示层归一化,FFN为全连接神经网络;
步骤24:通过式(1)–式(2)计算分别左塔和右塔得到最后一层transformer block的输出结果,对左、右塔输出结果在最后一个维度上纵向相加求和取平均得到ux、uy;
步骤25:使用改进的有监督对比学习设计新型损失函数训练双塔模型。损失函数的计算公式为式(3):
其中P是训练集中标签为1的正样本,x是原词,y是标准词,ux、uy是将x、y分别输入CL-RoBERTa左塔和右塔得到语义向量表示,N是训练集中的标签为0负样本,m是原词,n是非标准词,um、vn是将m、n分别输入CL-RoBERTa左塔和右塔得到语义向量表示,τ是自定义调节的温度系数,sim表示余弦相似度;
步骤26:训练完成后得到语义表征模型CL-RoBERTa。
4.根据权利要求1所述的语义精准匹配模型构建方法,其特征在于运用对抗训练,提升了模型的鲁棒性,所述步骤3具体包括:
步骤31:使用步骤1构造的语义精准匹配模型训练数据输入到T5模型中;
步骤32:T5模型embedding层的输出结果为x;
步骤33:x经过前向传播计算损失、反向传播计算得出梯度r;
步骤34:将模型embedding层梯度加到当前embedding的输出x上,得到新的输入x+r
步骤35:将x+r前向传播和反向传播得到对抗梯度t,将对抗梯度t与步骤32中的梯度相加为t+r;
步骤36:将embedding恢复为x的值;
步骤37:根据步骤3得到的梯度更新参数;
步骤38:重复步骤31到步骤37,得到语义精准匹配模型。
5.根据权利要求1所述的一种基于深度学习的医学术语标准化方法,所述步骤4具体包括:
步骤41:将医学术语原词字符序列s=c1c2…cn作为输入,送入CL-RoBERTa左塔的Embedding层中,得到输出E=e1e2…en;
步骤42:将E送入transformer block层中,得到最后一层transformer block的输出为Am={h1,h2,…,hn},对特征向量集合Am在最后一个维度上纵向相加求和取平均得到u={x1,x2,…,xn},该向量u作为医学术语原词的语义向量表示;
步骤43:将标准术语集G={g1,g2,…,gk}中的标准术语依次作为输入送入右塔,将gi送入右塔最终的输出结果vi={y1,y2,..,yn}作为医学术语标准词gi的语义向量表示;
步骤44:对医学术语原词语义向量u和vi计算余弦相似度得到相似度得分,计算公式为式(4):
步骤45:通过公式(4)计算原词和标准术语库中所有术语的相似度得分,取得分最高的前10个医学术语标准词作为候选概念集Y,计算公式为式(5):
Y=Top10(score(s,G)) (5)
步骤46:将原词和候选标准词分别进行组合,通过“xxx和xxx+prompt内容”的形式构成T5模型输入数据;
步骤47:将构造的数据输入到语义精准匹配模型T5中,模型输出“是”的结果作为医学术语原词所对应的标准词,模型输出“否”的结果丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310728442.7A CN116975201A (zh) | 2023-06-19 | 2023-06-19 | 一种基于深度学习的医学术语标准化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310728442.7A CN116975201A (zh) | 2023-06-19 | 2023-06-19 | 一种基于深度学习的医学术语标准化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975201A true CN116975201A (zh) | 2023-10-31 |
Family
ID=88484009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310728442.7A Pending CN116975201A (zh) | 2023-06-19 | 2023-06-19 | 一种基于深度学习的医学术语标准化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975201A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497111A (zh) * | 2023-12-25 | 2024-02-02 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
CN117540734A (zh) * | 2024-01-10 | 2024-02-09 | 中南大学 | 一种中文医学实体标准化方法、装置及设备 |
CN118586404A (zh) * | 2024-08-06 | 2024-09-03 | 杭州古珀医疗科技有限公司 | 一种离院医嘱信息提取和标准化方法和装置 |
-
2023
- 2023-06-19 CN CN202310728442.7A patent/CN116975201A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497111A (zh) * | 2023-12-25 | 2024-02-02 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
CN117497111B (zh) * | 2023-12-25 | 2024-03-15 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
CN117540734A (zh) * | 2024-01-10 | 2024-02-09 | 中南大学 | 一种中文医学实体标准化方法、装置及设备 |
CN117540734B (zh) * | 2024-01-10 | 2024-04-09 | 中南大学 | 一种中文医学实体标准化方法、装置及设备 |
CN118586404A (zh) * | 2024-08-06 | 2024-09-03 | 杭州古珀医疗科技有限公司 | 一种离院医嘱信息提取和标准化方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116975201A (zh) | 一种基于深度学习的医学术语标准化方法 | |
CN110825881A (zh) | 一种建立电力知识图谱的方法 | |
CN112380325A (zh) | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN111782788A (zh) | 一种面向开放域对话系统的情感回复自动生成方法 | |
CN117236337B (zh) | 基于混合提示学习完成历史知识图谱生成自然语言方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114238649B (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN111026877A (zh) | 基于概率软逻辑的知识验证模型构建与分析方法 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN116629277A (zh) | 一种基于强化学习的医学机器翻译方法 | |
CN117831609A (zh) | 一种蛋白质二级结构预测方法、装置及计算机装置 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN117116383A (zh) | 基于预训练微调的药物分子优化方法及装置 | |
CN114880994B (zh) | 一种直白文本到反讽文本的文本风格转换方法及装置 | |
CN116610795A (zh) | 文本检索方法及装置 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 | |
Zhang et al. | Self-supervised bilingual syntactic alignment for neural machine translation | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN116013407A (zh) | 一种基于语言模型的性质解耦蛋白质生成方法 | |
CN116306592A (zh) | 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质 | |
CN112100393B (zh) | 一种低资源场景下的知识三元组抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |