CN115936014B - 一种医学实体对码方法、系统、计算机设备、存储介质 - Google Patents
一种医学实体对码方法、系统、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN115936014B CN115936014B CN202211400351.2A CN202211400351A CN115936014B CN 115936014 B CN115936014 B CN 115936014B CN 202211400351 A CN202211400351 A CN 202211400351A CN 115936014 B CN115936014 B CN 115936014B
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- training
- medical
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000013135 deep learning Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims description 36
- 238000012512 characterization method Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000002372 labelling Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 239000003814 drug Substances 0.000 description 5
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 239000002504 physiological saline solution Substances 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 239000008354 sodium chloride injection Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 102000009027 Albumins Human genes 0.000 description 1
- 108010088751 Albumins Proteins 0.000 description 1
- UHDGCWIWMRVCDJ-CCXZUQQUSA-N Cytarabine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@@H](O)[C@H](O)[C@@H](CO)O1 UHDGCWIWMRVCDJ-CCXZUQQUSA-N 0.000 description 1
- 102000006395 Globulins Human genes 0.000 description 1
- 108010044091 Globulins Proteins 0.000 description 1
- OIRDTQYFTABQOQ-UHTZMRCNSA-N Vidarabine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@@H]1O OIRDTQYFTABQOQ-UHTZMRCNSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 229960000684 cytarabine Drugs 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229960003636 vidarabine Drugs 0.000 description 1
- 229940126673 western medicines Drugs 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种医学实体对码方法,还提供了相应的系统、计算机设备、计算机可读存储介质,所述医学实体对码方法包括步骤:A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;B0、无监督预训练;B1、任务精调,进行对比学习训练,由对比学习训练器来实现。本发明解决了对码匹配精确性的问题。本发明能够将不同的医疗机构中的医学实体表述进行对齐和标准化。
Description
技术领域
本发明属于生物医学应用技术领域,特别涉及一种医学实体对码方法及相应的系统、计算机设备、计算机可读存储介质。
背景技术
随着全社会健康意识的不断提高与医疗机构服务水平的不断提升,越来越多的业务场景需要对医学文本进行文本处理和语义分析,以便更好地评估用户的健康状态,更快地进行医疗业务结算,更准确地进行健康风险的识别。医学文本处理在医学知识图谱构建、临床病历分析、医学文献文本挖掘、医疗保险理赔风控等多个领域已经有了实际的应用,随着人工智能与深度学习技术的发展,医学文本处理的准确性在各个领域也取得了长足的进步。
但是,在医学文本中,不同医疗机构中对同一实体的表述常常有者很大的差异,例如有些医疗机构将“氯化钠注射液”称为“生理盐水”,又有些医疗机构将“白蛋白/球蛋白比例”简写为“白球比”,甚至更进一步简写为“A/G”,同一家医疗机构内部甚至也会存在多种混淆使用的表述。如果试图直接对这些实体名称的原始文本进行文本分析,往往无法进行更进一步的处理、统计和分析。这时,我们需要利用技术手段将不同医疗机构中的实体名称表述进行归一化,对齐到预定义好的标准医学实体库上,从而消除实体之间的表述差异,这也就是对码方法或系统的实际需求。
当前业界对码方法的技术难点主要在于:1)标注数据的收集十分困难,人工标注需要大量的人力成本和时间成本,且区别于通用文本任务的标注,对码方法需要文本标注人员具有医学背景和业务知识培训,2)对码方法的准确度很难提升,医学文本的高度复杂性和强领域相关性使得对码方法的模型性能提升的难度大大提高。
发明内容
针对上述问题,本发明提供一种医学实体对码方法。
本发明提供的医学实体对码方法,包括步骤:
A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;
B0、无监督预训练;
B1、任务精调,进行对比学习训练,由对比学习训练器来实现。
进一步,
所述步骤A中,包括步骤:
A1、输入表征,由输入表征层来实现,是将所述输入文本由离散的文本字符串转换为高维实数域中的连续的向量;
A2、编码计算。
进一步,
在所述步骤A1中,输入实体名称S={char1,char2,…,charn},所述实体名称为由n个字符组成的字符串,n为正整数,通过所述输入表征进行转换,使得所述实体名称中每个字符都被转换成了一个k维的输入向量,k为正整数;
将所述输入向量组成的序列进行堆叠组成一个表示所述实体名称的输入信息的输入矩阵Is=[emb1,emb2,…,embn],Is是实数域上的一个n行k列的矩阵;
每个所述输入向量均包含了所述每个字符的语义特征,以及所述每个字符在整个文本段中的位置特征。
进一步,
所述步骤A2由编码计算层来实现,是通过多层深度神经网络的计算将所述输入矩阵Is转换为一个实体名称的文本表征向量。
进一步,
在所述步骤A2中,对于所述输入矩阵Is,经过编码计算后,输出一个m维的文本表征向量Es,m为正整数,Es是实数域上一个m维的向量。
进一步,
在所属步骤B0中,
所述无监督预训练包括掩盖文本预测和后续句子预测,
所述掩盖文本预测,包括:将一个完整的文本序列中的词进行掩盖后,训练对码模型根据所述文本序列中的上下文对被掩盖的所述词进行预测;
所述后续句子预测,包括:首先选定一个文本集合collectionst={st0,st1,st2,…,stm1},所述文本集合collectionst中包含m1个句子,从所述文本集合collectionst中随机抽出一个句子对(stp,stq),0≤p,q≤m1,利用分类模型判断所述句子stq是否为句子stp的后续相邻句子,m1,p,q为正整数。
进一步,
在所述步骤B1中,
对比学习的每个数据样本为一个三元组τ,τ=(x,x+,x-),
其中,x为基准文本,x+为基准文本的正例,x-为基准文本的负例。
进一步,
所述正例直接从所述基准文本进行获取,即x+=fω(x),fω(·)为正例构建函数,通过下面策略进行正例构建:
Dropout策略,对所述基准文本中的字符进行随机丢弃,丢弃字符占基准文本的比例由超参数设置,x+=Dropout(x),Dropout是深度学习中用于增加数据噪声的工具;
或
术语替换策略,即利用医学术语同义词进行替换;
所述负例的构建采用下面策略进行构建:
随机采样及编辑距离筛选策略,首先从语料库中随机采样其他的实体文本即第二实体文本,再根据所述第二实体文本与所述基准文本的编辑距离进行分组,每个组内的所述第二实体文本与基准文本具有相同的编辑距离,再针对每个所述组进行组内随机采样,每个所述组内的采样权重通过一个权重函数决定:
其中,Psample为所述组内各文本的采样概率,dedit为所述基准文本与组内文本的编辑距离值,lt为所述基准文本的长度,ln为所述组内待采样文本的长度,|lt-ln|为所述基准文本与待采样文本的长度差异绝对值,decay为采样概率的调节衰减因子。
进一步,
所述负例的构建采用业务集合采样策略,作为所述随机采样及编辑距离筛选策略的补充,其中,通过从单个业务数据集合中随机采样实体对,构成最终的负例数据集来实现所述负例的采样。
进一步,
所述正例与负例构建完成后,使用对比学习损失函数作为优化目标进行对码模型精调,对比学习损失函数的具体公式如下:
其中,N为训练数据集输入批次总数目,sim(x,y)为两个向量x和y的余弦相似度,即τ是温度超参数,log代表以10为底的对数。
本发明还提供一种医学实体对码系统,用于实现上述医学实体对码方法,所述医学实体对码系统包括表征编码器模块和对比学习训练器模块。
本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医学实体对码方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述医学实体对码方法的步骤。
本发明提供的医学实体对码方法将深度学习中的大规模预训练模型与对比学习训练策略相结合,对实际业务场景中的医学实体名称进行语义识别与匹配,将使用不同表达方式的实体名称对应到规范的标准条目上,便于进行更深层次的数据分析和应用。本发明利用自增强技术产生对码正例,利用对码标准库之间的关系与业务数据生成对码负例,大大减轻了标注压力,提高标注效率,能够利用一小部分标注数据,构造大量自动标注数据,扩充数据集,同时利用精调的对码模型进行文本表征,使医学文本的语义空间的表示准确性大大提升,解决了对码匹配精确性的问题,同时减少了训练的难度和时间。本发明能够将不同的医疗机构中的医学实体表述进行对齐和标准化。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的医学实体对码方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序或主次关系。本申请中出现的“多个”指的是两个以上(包括两个)。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明提供了一种基于对比学习与预训练模型的医学实体对码方法。图1是本发明提供的医学实体对码方法流程图。参见图1,所述医学实体对码方法核心内容包含两大步骤:A、表征编码;B、对比学习训练。
A、表征编码。
表征编码是通过计算将输入文本编码为语义空间中的一个文本表征向量,其本质是建立一个深度学习预训练模型,进行深度学习预训练,在实际工作中通过表征编码器来实现。所述深度学习预训练包括步骤:A1、输入表征;A2、编码计算。
A1、输入表征。
输入表征在实际工作中由输入表征层来实现,是将输入文本由离散的文本字符串转换为高维实数域中的连续的向量,以便计算机进行后续的计算处理。例如,输入一个实体名称S={char1,char2,…,charn},这个实体名称为一个由n个字符组成字符串,n为正整数。通过输入表征进行转换,使得实体名称中每个字符都被转换成了一个k维的输入向量,k为正整数。将这些输入向量组成的序列进行堆叠即可组成一个表示实体名称输入信息的输入矩阵Is=[emb1,emb2,…,embn],Is是实数域上的一个n行k列的矩阵。每个输入向量均包含了字符的语义特征,以及其在整个文本段中的位置特征。
A2、编码计算。
编码计算在实际工作中由编码计算层来实现,是通过多层深度神经网络的计算将输入矩阵Is转换为一个实体名称的文本表征向量。例如,对于上述关于实体名称S的输入矩阵Is,经过编码计算后,输出一个m维的文本表征向量Es,Es是实数域上一个m维的向量,m为正整数。编码计算层由多个Transformer单元组成,每个Transformer单元内部由多头注意力计算层(即多头注意力层,用于利用多头注意力网络将输入矩阵Is中的元素和所述文本表征向量进行交互)、正则化层和前馈神经网络(feedforward neural network)层等多种神经网络拼接组合而成。编码计算层可基于SentenceTransformer工具包构建的模型进行开发,其中,把多头注意力机制与正则化层、正向反馈层结合构成一个Transformer单元,作为编码计算层的一个基本模块。
所述深度学习预训练完成后,由深度学习预训练模型得到对码模型。对所述对码模型进行对码训练,包括两大步骤:B0、无监督预训练;B1、任务精调。
B0、无监督预训练。
在无监督预训练中,对码模型通过基于对海量医学文本数据的学习,由随机初始化的参数状态逐步优化,从而具备初步语义分析能力。所述优化的任务为无监督学习任务,这样可以最大程度的利用文本自身的信息,不需要任何人工标注参与。
通常的,无监督预训练的任务包括掩盖文本预测和后续句子预测。其中,掩盖文本预测,包括:将一个完整的文本序列中的某些词进行掩盖后,训练对码模型根据文本序列中的上下文对被掩盖的词进行预测。例如,有一个长度为5的文本序列T={t1,t2,t3,t4,t5},随机将其中的几个词语掩盖进行预测,掩盖后的文本序列Tmask={t1,[mask],t3,t4,[mask]},在这个序列中,t2和t5被掩盖。掩盖文本预测任务采用深度学习Transformer模型实现。候选句子预测任务中,在一个文本如篇章中抽取两个句子T1和T2,通过对码模型判断句子T2是否为句子T1的下一句。由任务描述可知,这两个训练任务可以根据原始文本自动生成训练数据,大大提高了训练数据量,降低了对码模型训练的难度。在本发明提供的医学实体对码方法中,预训练阶段的文本数据不局限于医学实体名称,为了提高对码模型的泛化性,增加对码模型的医学领域知识,应该提供医学文献、医学文书、机构业务数据等多种多类别的文本数据。
后续句子预测包括:首先选定一个文本集合collectionst={st0,st1,st2,…,stm1},collectionst中包含m1(m1为正整数)个句子,从collectionst中随机抽出一个句子对(stp,stq),0≤p,q≤m1(p,q为正整数),利用分类模型判断这两个句子中stq是否为句子stp的后续相邻句子,即判断两个句子之间是否具有语义上的承接关系。
B1、任务精调。
在任务精调中,主要进行前述步骤B:对比学习训练,在实际工作中由对比学习训练器来实现,是针对完成了B0无监督预训练的对码模型进行优化(即对比学习),提高对码模型在完成对码任务时的准确率,对比学习的每个数据样本为一个三元组τ,τ=(x,x+,X-),其中x为基准文本,x+为基准文本的正例,即基准文本与其之间具有极强的文本相关性,x-为基准文本的负例,即基准文本与其之间不具有任何文本相关性。其中,文本相关性指文本语义上的相近程度,在本任务中,定义两个样本的文本相关度为:映射到同一医学实体的文本相关性为1,否则为0。一般地,基准文本使用任务中的输入数据,即不同的实体名称文本,正例与负例使用人工进行标注,使用有监督模式进行模型训练,本发明提供了自动构造正负例的方法,无需人工进行标注,大大减轻了数据集的构建成本。
本发明在任务精调中,提供的正例直接从基准文本进行获取,即x+=fω(x),fω(·)为正例构建函数,在本发明中,我们使用两种策略进行正例构建:
Z1)Dropout策略,对基准文本中的字符进行随机丢弃,丢弃字符占基准文本的比例由超参数设置,x+=Dropout(x),Dropout是深度学习中用于增加数据噪声的工具,能够大幅提高对码模型的稳健性和泛化性,使用Dropout进行正例的生成,能够保证正例文本的语义与基准文本高度关联,且有一定幅度的变化;
Z2)术语替换策略,医学数据具有极强的医学专业背景,利用医学术语同义词进行替换同样是合理的正例生成策略,例如“生理盐水100ML”中的”生理盐水”片段可以使用”氯化钠注射液”,“氯化钠溶液”等同义术语进行替换,生成”氯化钠注射液100毫升”,“氯化钠溶液100ml”等同义正例,类似地,计量单位,数字,缩略语同样可以进行同样的操作。术语替换需要预先构建同义词数据表,可以在业务场景下进行归纳总结,也可以参考生物医学相关权威文献。
负例的构建相对正例来说,更加困难一些,本发明使用两种策略进行构建:
F1)随机采样及编辑距离筛选策略。对于两个文本即字符串,通过若干次的单个字符操作可以将其中的一个文本转换为另外一个文本,那么单个字符操作的次数就是这两个文本之间的编辑距离,编辑距离通常用来度量两个字符串之间的语法相近程度,编辑距离越小,语法结构和形式越相近。本策略中,首先从语料库中随机采样其他的实体文本即第二实体文本,然后计算基准实体文本(可简记为基准文本)和第二实体文本之间的编辑距离,如果编辑距离差别太小(即编辑距离差别小于设定的阈值),则语义相似度会比较接近,然而也有一些情况,基准实体文本和第二实体文本的编辑距离区别较小,但语义差别很大,例如中医中“草决明”与“石决明”的编辑距离仅为1,但却是两种截然不同的药材,西药中“阿糖腺苷”与“阿糖胞苷”也是一对形似而义不同的药物。为了平衡两种情况,本发明使用分组采样的方法,把经过随机采样得到的若干第二实体文本,根据其与基准文本的编辑距离进行分组,每个组内的第二实体文本与基准文本具有相同的编辑距离,再针对每个组进行组内随机采样,即对于每个编辑距离数的组内均进行随机采样,这样保证了每个组都有机会有一定的概率被采样到,每个组内的采样权重通过一个权重函数决定:
其中,Psample为组内各文本的采样概率,dedit为基准文本与组内文本的编辑距离值,lt为基准文本长度(即字符串长度),ln为组内待采样文本长度,|lt-ln|为基准文本与待采样文本的长度差异绝对值(即字符串长度之差的绝对值),decay为采样概率的调节衰减因子,用于控制采样概率随着编辑距离的增加升高的幅度,decay为超参数,需要在工作过程中自主配置调整。
F2)业务集合采样策略,在业务数据中,例如药品清单,检查报告,报销清单中,不同条目之间存在天然的语义不相同性,即不同的条目之间必然不可能为同样语义的实体,这时可以利用业务数据的特性,在业务数据集合内进行负例采样,但这种采样需要有大量的业务数据积累,仅作为第一种策略的补充。其中,通过从单个业务数据集合中随机采样实体对,构成最终的负例数据集来实现负例采样。
正例与负例构建完成后,使用对比学习损失函数作为优化目标进行对码模型精调,对比学习损失函数Loss的具体公式如下:
其中,N为训练数据集输入批次总数目,sim(x,y)为两个向量x和y的余弦相似度,即τ是一个温度超参数(temperature hyper-parameter),用来调整损失函数的平滑程度,需要在工作过程中自主配置调整,log代表以10为底的对数。其中,所述精调包括:1)输入数据计算预测结果,数据集通过分批次的方式进行输入,一次输入固定大小的批次;2)根据预测结果与真实结果进行比较,计算损失误差;3)利用优化方法进行优化。
本发明提供的医学实体对码方法采用自增强技术减轻了标注压力,提高标注效率,其中Dropout和术语替换用来生成正例,随机采样及编辑距离筛选和业务数据筛选用来生成负例,能够利用一小部分标注数据,构造大量自动标注数据,扩充数据集;本发明利用大规模预训练模型的精调与对比学习训练策略提高了文本表征的语义准确性,同时减少了训练的难度和时间。
本发明提供的医学实体对码方法利用大规模预训练模型与对比学习的结合,在统计学意义上构建了一个包含生物医学知识的语义空间,每个医学实体在语义空间中使用一个n维坐标进行表示,这个坐标也被称为医学实体的表征向量,医学实体的表征向量之间的距离即是对应医学实体的语义相似度。所述表征向量之间的距离使用两个表征向量的余弦相似度来表示,指所述两个表征向量之间夹角的余弦值。
本发明提供的医学实体对码方法的实施分为三个主要阶段:数据准备阶段,模型训练阶段和对码应用阶段。
在数据准备阶段,通过对医学数据进行收集,处理和整合,形成两份数据集:第一份数据集是用于预训练阶段的医学文本数据集,特点是数据量要大,包含的医学知识要全面广泛;第二份数据集是用于任务精调阶段的实体数据集,特点是要贴近实际业务,符合实际的应用场景。在数据准备阶段,需要对文本进行简单的预处理,即一些文本处理操作,例如特殊字符的过滤与替换,英文字符大小写的统一,冗余停用词的删除等等。
在模型训练阶段,利用前一阶段准备好的数据集对对码模型进行训练优化。模型训练阶段分为预训练和任务精调两个步骤,预训练步骤使用第一份数据集进行训练,根据实时训练结果调整训练超参数,以期达到最好的训练结果。任务精调步骤使用第二份数据集进行训练,训练使用对比学习训练器。训练器会先根据实体数据集进行正例与负例的采样,采样策略使用上文提到的两种采样策略,每份基准文本采样出3~10份正例/负例三元组。训练过程中,实时监控对码模型的损失变化情况,调整模型超参数和训练情况。硬件上,对码模型使用GPU处理器进行训练加速。其中,训练超参数包括模型超参数和优化超参数,所述模型超参数即模型训练的配置参数,例如调整配置文件中的参数值,或者修改代码中的参数,具体可包含表征向量的维度,模型的层数等,优化超参数根据选择的优化方法的不同有一定的差异,但通常包括训练轮数,批次大小,Dropout的概率值,训练学习率,训练学习率的衰减值以及优化方法内部的参数。
在对码应用阶段,利用前一阶段训练完成的对码模型进行实际业务应用。对于标准实体库中的实体名称,可以提前进行表征向量的计算,将计算完成的表征向量存储到数据库中,避免重复计算。当系统收到对码请求时,实时计算业务场景下实体名称的表征向量,然后将其与数据库中的表征向量进行语义相似度计算,选择语义相似度最大,即两个表征向量之间距离最小的实体作为对码结果。实际应用中,存在未登录实体的可能,即需对齐的标准实体未被收录于标准实体库中,这时如果仅选择距离最小的实体就会发生误判,故须设置一个最低的可接受阈值,低于阈值时,进行预警提示,以便业务人员对标准实体库进行补充和拓展。
本发明还提供一种实现上述医学实体对码方法的医学实体对码系统,所述系统的核心模块包括表征编码器模块和对比学习训练器模块。
表征编码器模块中的表征编码器通过计算将输入文本编码为语义空间中的一个表征向量,表征编码器的训练由预训练阶段和任务精调阶段两个步骤组成,预训练阶段利用海量的无标注医学文本进行无监督训练,以提高编码器的医学语义表征准确度,此时,表征编码器已经具备了基本的医学知识,能够对简单的医学文本进行处理,但针对对码这个特定任务,还需要进行精调,以使对码模型能够更好地适应具体对码任务下的文本特征,进一步提高对码模型的语义处理性能。
对比学习训练器模块中的对比学习训练器利用对比学习策略在精调阶段对表征编码器进行训练优化,提高表征向量在对码任务上的语义准确度和区分度。对比学习相比传统的深度学习模型训练方法,同时针对文本任务的正例和负例进行训练,能够更好地提高语义空间的准确性,在保证正例样本语义聚合的同时,保持负例样本之间的语义距离,使语义空间的分布更加均匀合理,避免了语义空间的坍缩和非均质化,同时对比学习的正负例生成机制,在避免繁琐的数据增强策略的同时,也能够减少人工标注训练数据的需求。
所述医学实体对码系统在完成表征编码器和对比学习训练器的搭建及模型训练后,利用表征编码器对标准实体库中的标准实体文本和业务实体文本的表征向量之间的距离进行计算,选择距离最小的标准实体作为对码结果,如果距离最小的标准实体与业务实体文本之间的语义距离依然很大,超过了设定的阈值,那么可以将该业务实体判定为未登录实体,即其对应的标准实体未出现在当前的标准实体库中,后续可以根据业务需要进行补充。
本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医学实体对码方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述医学实体对码方法的步骤。
本发明提供的医学实体对码方法将深度学习中的大规模预训练模型与对比学习训练策略相结合,对实际业务场景中的医学实体名称进行语义识别与匹配,将使用不同表达方式的实体名称对应到规范的标准条目上,便于进行更深层次的数据分析和应用。实际业务场景中,各个医疗机构对于药物、疾病、诊疗项目、医疗器械这些生物医学实体都有着差异极大的不同的表述,利用对码方法将这些文本格式不同、术语体系不同、表述方式不同的实体名称进行统一,对于后续的处理分析是十分必要的。相比于传统的文本匹配模型,本发明更加高效简便,能够准确科学地对实体名称进行文本处理和与语义分析,且在训练阶段需要较少的人工进行数据的标注,大大提高了实体对码的精准性与易用性。
本发明将医学概念投射到语义向量空间可以有效解决医学概念的稀疏性,相似的病症药会聚集到一起,拥有相似的计算特性,从而提高在实际应用中的泛化能力;对临床路径中病症药之间复杂的多元互动关系进行模糊建模,可以处理专家知识难以描述或者难以穷举的复杂临床组合;完全基于大数据和无监督学习,迭代速度快,无需大量专家介入,成本低;获得临床数据的过程中,可得到包括临床机构,单个患者,单次就诊,具体明细等不同角色和不同层级的向量表征,从而可以实现不同粒度的,量化的费用测算和风险控制。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种医学实体对码方法,其特征在于,包括步骤:
A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;
B0、无监督预训练;
B1、任务精调,进行对比学习训练,由对比学习训练器来实现,
在所述步骤B1中,
对比学习的每个数据样本为一个三元组 ,/>
其中,为基准文本,/>为基准文本的正例,/>为基准文本的负例,
所述正例直接从所述基准文本进行获取,即,/>为正例构建函数,通过下面策略进行正例构建:
Dropout策略,对所述基准文本中的字符进行随机丢弃,丢弃字符占基准文本的比例由超参数设置,,Dropout是深度学习中用于增加数据噪声的工具;
或
术语替换策略,即利用医学术语同义词进行替换;
所述负例的构建采用下面策略进行构建:
随机采样及编辑距离筛选策略,首先从语料库中随机采样其他的实体文本即第二实体文本,再根据所述第二实体文本与所述基准文本的编辑距离进行分组,每个组内的所述第二实体文本与基准文本具有相同的编辑距离,再针对每个所述组进行组内随机采样,每个所述组内的采样权重通过一个权重函数决定:
,
其中,为所述组内各文本的采样概率,/>为所述基准文本与组内文本的编辑距离值,/>为所述基准文本的长度,/>为所述组内待采样文本的长度,/>为所述基准文本与待采样文本的长度差异绝对值,/>为采样概率的调节衰减因子。
2.根据权利要求1所述的医学实体对码方法,其特征在于,
所述步骤A中,包括步骤:
A1、输入表征,由输入表征层来实现,是将所述输入文本由离散的文本字符串转换为高维实数域中的连续的向量;
A2、编码计算。
3.根据权利要求2所述的医学实体对码方法,其特征在于,
在所述步骤A1中,输入实体名称,所述实体名称为由n个字符组成的字符串,n为正整数,通过所述输入表征进行转换,使得所述实体名称中每个字符都被转换成了一个k维的输入向量,k为正整数;
将所述输入向量组成的序列进行堆叠组成一个表示所述实体名称的输入信息的输入矩阵,/>是实数域上的一个n行k列的矩阵;
每个所述输入向量均包含了所述每个字符的语义特征,以及所述每个字符在整个文本段中的位置特征。
4.根据权利要求3所述的医学实体对码方法,其特征在于,
所述步骤A2由编码计算层来实现,是通过多层深度神经网络的计算将所述输入矩阵转换为一个实体名称的文本表征向量。
5.根据权利要求4所述的医学实体对码方法,其特征在于,
在所述步骤A2中,对于所述输入矩阵,经过编码计算后,输出一个m维的文本表征向量,m为正整数, />是实数域上一个m维的向量。
6.根据权利要求5所述的医学实体对码方法,其特征在于,
在所属步骤B0中,
所述无监督预训练包括掩盖文本预测和后续句子预测,
所述掩盖文本预测,包括:将一个完整的文本序列中的词进行掩盖后,训练对码模型根据所述文本序列中的上下文对被掩盖的所述词进行预测;
所述后续句子预测,包括:首先选定一个文本集合,所述文本集合/>中包含m1个句子,从所述文本集合/>中随机抽出一个句子对/>0≤p,q≤m1,利用分类模型判断所述句子/>是否为句子/>的后续相邻句子,m1,p,q为正整数。
7.根据权利要求1所述的医学实体对码方法,其特征在于,
所述负例的构建采用业务集合采样策略,作为所述随机采样及编辑距离筛选策略的补充,其中,通过从单个业务数据集合中随机采样实体对,构成最终的负例数据集来实现所述负例的采样。
8.根据权利要求7所述的医学实体对码方法,其特征在于,
所述正例与负例构建完成后,使用对比学习损失函数作为优化目标进行对码模型精调,对比学习损失函数的具体公式如下:
,
其中,N为训练数据集输入批次总数目,为两个向量/>的余弦相似度,即,τ是温度超参数,log代表以10为底的对数。
9.一种医学实体对码系统,用于实现上述权利要求1-8中任一项所述的方法,其特征在于,包括表征编码器模块和对比学习训练器模块。
10.计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-8中任一项所述的方法的步骤。
11.计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211400351.2A CN115936014B (zh) | 2022-11-08 | 2022-11-08 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211400351.2A CN115936014B (zh) | 2022-11-08 | 2022-11-08 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115936014A CN115936014A (zh) | 2023-04-07 |
CN115936014B true CN115936014B (zh) | 2023-07-25 |
Family
ID=86556613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211400351.2A Active CN115936014B (zh) | 2022-11-08 | 2022-11-08 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115936014B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227433B (zh) * | 2023-05-09 | 2023-07-04 | 武汉纺织大学 | 基于医学知识注入提示的少样本icd编码方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502643A (zh) * | 2019-08-28 | 2019-11-26 | 南京璇玑信息技术有限公司 | 一种基于bert模型的预测下一句模型自动构建技术 |
US11803758B2 (en) * | 2020-04-17 | 2023-10-31 | Microsoft Technology Licensing, Llc | Adversarial pretraining of machine learning models |
CN113642330B (zh) * | 2021-07-19 | 2024-04-30 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113836315A (zh) * | 2021-09-23 | 2021-12-24 | 国网安徽省电力有限公司电力科学研究院 | 一种电力标准知识抽取系统 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN115048511A (zh) * | 2022-04-19 | 2022-09-13 | 南京烽火星空通信发展有限公司 | 一种基于Bert的护照版面分析方法 |
-
2022
- 2022-11-08 CN CN202211400351.2A patent/CN115936014B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115936014A (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
WO2021139424A1 (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
CN112257449B (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN111914562B (zh) | 电子信息分析方法、装置、设备及可读存储介质 | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
Jiang et al. | A hybrid intelligent model for acute hypotensive episode prediction with large-scale data | |
CN112149414A (zh) | 文本相似度确定方法、装置、设备及存储介质 | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN115936014B (zh) | 一种医学实体对码方法、系统、计算机设备、存储介质 | |
WO2024001104A1 (zh) | 一种图文数据互检方法、装置、设备及可读存储介质 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN113128237A (zh) | 一种服务资源的语义表征模型构建方法 | |
CN117217223A (zh) | 基于多特征嵌入的中文命名实体识别方法及系统 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN115660871B (zh) | 医学临床过程无监督建模方法、计算机设备、存储介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
KR102594734B1 (ko) | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
Jun et al. | Hierarchical multiples self-attention mechanism for multi-modal analysis | |
CN117009501B (zh) | 一种摘要信息生成方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |