CN114398893A - 一种基于对比学习的临床数据处理模型的训练方法及装置 - Google Patents
一种基于对比学习的临床数据处理模型的训练方法及装置 Download PDFInfo
- Publication number
- CN114398893A CN114398893A CN202111538437.7A CN202111538437A CN114398893A CN 114398893 A CN114398893 A CN 114398893A CN 202111538437 A CN202111538437 A CN 202111538437A CN 114398893 A CN114398893 A CN 114398893A
- Authority
- CN
- China
- Prior art keywords
- training set
- training
- entity word
- network model
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种基于对比学习的临床数据处理模型的训练方法及装置,包括:获取当前训练集,包括第一原始实体词语、第一标准实体词语;获取数据增强训练集;基于当前训练集和数据增强训练集,对深度自注意力神经网络模型执行如下对比学习训练过程:基于数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到第一网络模型;基于第一网络模型,计算目标语义关系权重得分;根据目标语义关系权重得分从当前训练集中选取语义相似最高的前多个词语,基于选取的词语和第一原始实体词语得到第一训练集;将第一训练集作为新的当前训练集,并再次执行上述对比学习训练过程。本公开能够提升算法模型的准确率和泛化能力。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于对比学习的临床数据处理模型的训练方法及装置。
背景技术
医生在临床科研过程中,往往需要利用深度神经网络学习方法对临床病例信息做统计分析。通用的深度神经网络学习方法是建构在通用自然语言语料库和通用NLP(Natural Language Processing,自然语言处理)任务的基础之上的;传统的机器学习方法模型本身的表达能力不足,性能很容易遇到瓶颈,训练得出的模型和参数在实际应用中的准确率较低,泛化能力很差,无法在临床科研中实际应用。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种基于对比学习的临床数据处理模型的训练方法及装置。
本公开提供了一种基于对比学习的临床数据处理模型的训练方法,所述方法包括:
获取当前训练集;其中,所述当前训练集中的训练数据包括:第一原始实体词语及其标注的多个第一标准实体词语,所述第一原始实体词语是非内部标准的临床实体词语,所述第一标准实体词语是与所述第一原始实体词语语义相似的内部标准的临床实体词语;
获取数据增强训练集;其中,所述数据增强训练集中的训练数据包括:由内部标准的正样本、第一类负样本和第二类负样本组成的三元组,所述正样本是针对第一原始实体词语预先标注的样本,所述第一类负样本为从所述第一标准实体词语中选取的与第一原始实体词语相似的样本,所述第二类负样本为任意选取的与第一原始实体词语不相似的样本;
基于所述当前训练集和所述数据增强训练集,对深度自注意力神经网络模型执行如下对比学习训练过程:
基于所述数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到初次训练后的第一网络模型;
基于所述第一网络模型,计算所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分;
根据所述目标语义关系权重得分从所述当前训练集中选取语义相似最高的前多个词语,基于选取的词语和所述第一原始实体词语得到第一训练集;
将所述第一训练集作为新的当前训练集,并结合所述数据增强训练集再次执行上述对比学习训练过程;
循环多次所述对比学习训练过程,直至得到优化后的第二网络模型和参数,将所述第二网络模型作为临床数据处理模型。
本公开提供了一种基于对比学习的临床数据处理模型的训练装置,所述装置包括:
第一训练集获取模块,用于获取当前训练集;其中,所述当前训练集中的训练数据包括:第一原始实体词语及其标注的多个第一标准实体词语,所述第一原始实体词语是非内部标准的临床实体词语,所述第一标准实体词语是与所述第一原始实体词语语义相似的内部标准的临床实体词语;
第二训练集获取模块,用于获取数据增强训练集;其中,所述数据增强训练集中的训练数据包括:由内部标准的正样本、第一类负样本和第二类负样本组成的三元组,所述正样本是针对第一原始实体词语预先标注的样本,所述第一类负样本为从所述第一标准实体词语中选取的与第一原始实体词语相似的样本,所述第二类负样本为任意选取的与第一原始实体词语不相似的样本;
学习训练模块,用于基于所述当前训练集和所述数据增强训练集,对深度自注意力神经网络模型执行如下对比学习训练过程:
基于所述数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到初次训练后的第一网络模型;基于所述第一网络模型,计算所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分;根据所述目标语义关系权重得分从所述当前训练集中选取语义相似最高的前多个词语,基于选取的词语和所述第一原始实体词语得到第一训练集;将所述第一训练集作为新的当前训练集,并结合所述数据增强训练集再次执行上述对比学习训练过程;循环多次所述对比学习训练过程,直至得到优化后的第二网络模型和参数,将所述第二网络模型作为临床数据处理模型。
本公开提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。
本公开提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供了一种基于对比学习的临床数据处理模型的训练方法及装置,基于深度自注意力神经网络,经过多轮次和循环增强的方式进行对比学习,使当前模型和参数能够将正样本和第一类负样本以及第二类负样本合理的区分开来,最终训练出一个能够有强大的临床实体语义表征的智能算法模型和参数,最大限度地挖掘和利用内部标准实体词语本身隐含的语义信息,最终提升算法模型的准确率和泛化能力,来高效率、高质量地改善医生科研中的临床实体映射自动化难题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例所述基于对比学习的临床数据处理模型的训练方法流程图;
图2为本公开实施例所述深度自注意力神经网络模型的架构示意图;
图3为本公开实施例所述基于对比学习的临床数据处理模型的训练装置的结构框图;
图4为本公开实施例所述电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
考虑到现有模型训练方法泛化能力很差,无法在临床科研中实际应用,基于此,本本公开实施例提供一种基于对比学习的临床数据处理模型的训练方法、装置及设备,该技术方案可以基于深度自注意力神经网络的对比学习训练,最大限度地挖掘和利用实体标准集合本身隐含的语义知识,最终提升算法模型的准确率和泛化能力;该技术可较好地应用于临床科研等领域。为便于理解,以下对本公开实施例展开描述。
图1为本公开实施例提供的基于对比学习的临床数据处理模型的训练方法流程图,该方法包括如下步骤:
步骤A1,获取当前训练集;其中,当前训练集中的训练数据包括:第一原始实体词语及其标注的多个第一标准实体词语。第一原始实体词语是非内部标准的临床实体词语,第一标准实体词语是与第一原始实体词语语义相似的内部标准的临床实体词语。
在本实施例中,当首次对深度自注意力神经网络模型进行训练时,当前训练集的获取方式例如可以为:通过对临床实体(比如手术)的多个特定标准数据库进行语义整合得到的;从医生专家等相关工作人员在实际临床科研时,对临床实体词语进行标注的历史数据中获取的;从预设的医疗信息数据库中统计的高频词临床实体词语。内部标准是基于多个特定标准(如国家临床版、国家医保版、北京临床版、疾病的标准ICD-10)确定的一个统一标准,该内部标准可作为其他特定标准的准确映射参照。
步骤A2,获取数据增强训练集;其中,数据增强训练集中的训练数据包括:由内部标准的正样本、第一类负样本和第二类负样本组成的三元组。正样本是针对第一原始实体词语预先标注的样本,第一类负样本为从第一标准实体词语中选取的与第一原始实体词语相似的样本,第二类负样本为任意选取的与第一原始实体词语不相似的样本。
在本实施例中,数据增强训练集中的正样本是与第一原始实体词语准确映射的内部标准下的词语,由于对正样本的数量要求不高,因此为了确保正样本的准确性,可以采用人工标注的方式获取正样本。第一类负样本是从当前训练集的第一标准实体词语中随机选取出的一定数量(比如50个)的词语样本;第一类负样本和第一原始实体词语具有较高的语义相似性,是比较难以区分的词语。第二类负样本为任意选取的与第一原始实体词语不相似的样本,诸如可以从已有的临床实体词语集合中随机选取。正样本、第一类负样本和第二类负样本随机组合,组成的三元组,也即,每个三元组均包括一个正样本、一个第一类负样本和一个第二类负样本。可以理解,利用少量的正、负样本,便可通过任意组合得到大量的三元组,由此构成数据量大且高质量的数据增强训练集,极大地扩增了数据集。
接着,基于当前训练集和数据增强训练集,对深度自注意力神经网络模型执行如下步骤A3至A6所示的对比学习训练过程。
步骤A3,基于数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到初次训练后的第一网络模型。
实际应用中,采用Transformer深度自注意力神经网络模型,该模型利用海量的未经标注的互联网语料库做无监督学习,得到一个能够表征当前语料库中深层次语义关系的通用模型,然后在特定任务中利用相应的人工标注数据集上做训练和参数优化。但是通用的模型在解决具体的NLP预测任务时效果很差,神经网络的模型参数需要根据特定领域和特定任务做优化调整,而且比较依赖大量的高质量人工标注数据。
基于此,本实施例利用数据量大且高质量的数据增强训练集,并采用预设的损失函数对深度自注意力神经网络模型进行训练。对比学习训练最主要的特色是,凭借一个特殊的损失函数,以及一系列编码过程(Encoding)和池化过程(Pooling)和Transformer的深度自注意力神经网络模型表征能力,最大限度地利用数据增强过程中挖掘出来的三类样本,能够将正样本与第一类负样本、第二类负样本之间很好的区分开来,然后计算产生符合实际情况的置信度得分。
参照图2,深度自注意力神经网络模型包括:输入层、编码层、隐藏层和池化层。基于数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,包括:
将第一原始实体词语(wWord)和与其对应的三元组(vWord、sWord和tWord)作为输入层的输入数据;经过编码层对输入数据进行向量转换;将编码层的输出结果送入隐藏层经过多次的非线性变换和语义信息处理;通过池化层对隐藏层的多个原始输出结果进行标准化向量对齐处理,得到768维的统一层深度语义信息向量表征。针对统一层深度语义信息向量表征,计算深层次语义关系得分;其中,深层次语义关系得分包括:第一原始实体词语分别和与其对应的正样本、第一类负样本、第二类负样本之间的深层次语义关系得分,分别表示为:D(w,v)、D(w,s)和D(w,t)。
参照如下公式(1),根据上述深层次语义关系得分和预设的损失函数计算训练过程中对应的总损失函数;
其中,L是训练过程中对应的总损失函数,N是数据增强训练集中三元组的个数,D(Wsj,Vnj)、D(Wsj,Spj)、D(Wsj,Tqj)分别是第一原始实体词语Wsj和与其对应的正样本Vnj、第一类负样本Spj、第二类负样本Tqj之间的深层次语义关系得分。
根据总损失函数对深度自注意力神经网络模型进行训练,直至得到的总损失函数满足预设的损失阈值时停止训练,得到第一网络模型。
步骤A4,基于第一网络模型,计算当前训练集中第一标准实体词语和第一原始实体词语之间的目标语义关系权重得分。实施过程包括如下步骤:
步骤A4.1,根据预设的字嵌入模型和词嵌入模型计算当前训练集中,第一标准实体词语和第一原始实体词语之间的第一语义关系权重得分。
具体的,先基于字嵌入模型,计算第一标准实体词语和第一原始实体词语之间的第一语义权重;再基于词嵌入模型,计算第一标准实体词语和第一原始实体词语之间的第二语义权重;然后再根据第一语义权重、第二语义权重以及预设的语义影响因子,计算第一标准实体词语和第一原始实体词语之间的第一语义关系权重得分。
步骤A4.2,通过第一网络模型计算当前训练集中,第一标准实体词语和第一原始实体词语之间的第二语义关系权重得分。
本实施例通过初次训练后的第一网络模型,对当前训练集中的词语进行再次打分,得到能够合理利用Transformer深度自注意力神经网络模型和庞大网络参数的深层次复杂语义关系的新权重Y。具体计算方法是:
其中,Y(A,B)是第一原始实体词语A和第一标准实体词语B的深层次复杂语义关系的新权重计算结果,其中VA和VB分别是经过编码层、隐藏层和池化层等一些列处理后产生的768维统一层深度语义信息向量表征,vai和vbi分别是第一原始实体词语A和第一标准实体词语B对应的深度语义信息向量表征在768维语义空间中的概率值。
步骤A4.3,根据第一语义关系权重得分和第二语义关系权重得分,得到当前训练集中第一标准实体词语和第一原始实体词语之间的目标语义关系权重得分。
本实施例根据第一语义关系权重得分(可表示为T(A,B))和第二语义关系权重得分Y(A,B),合并计算得出一个综合的打分结果,即目标语义关系权重得分;该目标语义关系权重得分同时满足字索引模型、词索引模型、字嵌入模型和词嵌入模型以及调优后的深度自注意力神经网络模型共五种语义关系。具体计算方法是:
Z(A,B)=q1·Y(A,B)+q2·T(A,B)+e (3)
其中,Z(A,B)是第一原始实体词语A和第一标准实体词语B的满足五种语义关系的综合打分结果,也即目标语义关系权重得分,q1、q2分别是Y(A,B)和T(A,B)对应不同语义关系的权重影响因子,e是一个概率偏置,使得最终的计算得分都控制在[0,1]之间的标准结果中。
步骤A5,根据目标语义关系权重得分从当前训练集中选取语义相似最高的前多个词语,基于选取的词语和第一原始实体词语得到第一训练集。
步骤A6,将第一训练集作为新的当前训练集,并结合数据增强训练集再次执行上述对比学习训练过程。
本实施例按照目标语义关系权重得分由高到低,对当前训练集中的词语进行排序,根据排序结果选取语义相似最高的前多个词语,选取出的词语和第一原始实体词语组成数据质量更高的第一训练集。将该第一训练集作为新的当前训练集,并再次执行上述步骤A3至A6所示的对比学习训练过程,进行下一轮的模型训练。
步骤A7,循环多次对比学习训练过程,直至得到优化后的第二网络模型和参数,将第二网络模型作为临床数据处理模型。
本实施例提供的上述基于对比学习的临床数据处理模型的训练方法,针对当前训练集和数据增强训练集,使用深度自注意力神经网络模型和预设的损失函数,进行多轮次的对比学习和参数优化并做循环增强训练,直至找到能够很好的预测当前开发集的神经网络模型和参数。本实施例进行的每一轮训练过程,都是在上一轮数据增强和对比学习的模型和参数结果上,加入语义相似关系得分以产生新一轮增强后的训练集,利用不断增强后的训练集,既能够训练出更好的模型结果出来,又能够有效避免多次神经网络训练容易导致的过拟合问题,同时最大限度地保留多种语义相似关系。在数据增强训练集中,三元组,即一个第一类负样本、一个第二类负样本和一个正样本的集合作为最小的训练单元,计算模型训练中的损失函数,能够最大限度地用当前训练产生的参数将三元组中的三类样本合理地区分开。在对比学习训练中,相应的随机抽样方法和不同模型的权重影响因子可以根据当前训练结果的损失函数值变化情况进行动态调整,以使得模型和参数的表征能力与数据集的真实数据分布更为接近。
根据以上训练结果,本实施例还可以在测试集上做验证测试并可以回到之前的步骤继续训练,根据不同的测试集结果进行各种权重影响因子以及神经网络模型和参数的精细调整,以使得当前得出的最优模型在未来新的数据集中有很好的泛化能力,可以高质量高效率的解决医生科研中的临床实体自动化映射问题。
在此情况下,本实施例提供的方法还可以包括如下内容。
步骤A8,获取目标测试集;其中,目标测试集中的测试数据包括:第二原始实体词语及其标注的多个第二标准实体词语,第二原始实体词语是非内部标准的临床实体词语,第二标准实体词语是与第二原始实体词语语义相似的内部标准的临床实体词语。
在一种获取目标测试集的方式中,可以包括如下内容:
(1)从预设的数据库中采样得到初始测试集;其中,初始测试集中的测试数据包括:非内部标准的第二原始实体词语及其标注的语义相似且内部标准的第二标准实体词语。
(2)从初始测试集的第二标准实体词语中,选取与第二原始实体词语满足预设相似条件的词语,将选取的词语与第二原始实体词语构成目标测试集;其中,预设相似条件为:与第二原始实体词语之间的字语义和词语义的综合语义相似度高于预设相似阈值。
在本实施例中,根据上述相似条件选取出的多个临床实体词语,是满足字索引模型、词索引模型、字嵌入模型和词嵌入模型共四种语义关系的词语,将选取的词语与第二原始实体词语构成目标测试集。
步骤A9,将第二网络模型应用到目标测试集,得到目标测试集中第二标准实体词语和第二原始实体词语之间的第三语义关系权重得分。
在本实施例中,针对目标测试集得到第三语义关系权重得分的过程,与上述利用第一网络模型计算目标语义关系权重得分的实现过程基本相同,在此不再展开描述。
步骤A10,根据第三语义关系权重得分,判断第二网络模型的预测结果准确率是否满足要求。
如果当前目标测试集的预测结果准确率满足要求,并且和预先针对开发集的预测结果准确率相差不大,则说明当前训练的深度自注意力神经网络模型是最优模型,并且有足够的泛化能力可以用来自动化的预测新出现的临床实体词语。如果目标测试集的准确率和预先设定的准确率有明显差距,不满足要求,则执行如下步骤A11。
步骤A11,调整数据增强训练集中的正样本、第一类负样本和第二类负样本,得到新的数据增强训练集,并基于该新的数据增强训练集和当前训练集重新循环多次对比学习训练过程,直至得到的深度自注意力神经网络模型和参数所产生的预测结果准确率满足要求;此时确定经过训练后的深度自注意力神经网络模型能够产生出理想的预测结果。
需要说明的是,在数据增强和对比学习的一系列过程中,很多超参数都是可以在这些循环训练中不断调整以得到最优结果的,比如字嵌入模型的隐含语义向量表征的空间维度,词嵌入模型的隐含语义向量表征的空间维度,以及正负样本挖掘的随机抽样次数等等。
为了能够将上述训练好的深度自注意力神经网络模型应用于实际生产,或者为了在其他模型训练过程中提供参考价值,本实施例提供的方法还可以进一步包括如下步骤:
步骤A12,将当前得到的最优的深度自注意力神经网络模型和参数,以及前面得到的各种模型及相应组合权重影响因子结果保存,训练任务结束。
经过前述实施例中多次数据增强和对比学习以及目标测试集验证的循环增强训练后,已经得到了一个最优的字索引模型、词索引模型、字嵌入模型和词嵌入模型及相应组合权重影响因子,以及调优后的深度自注意力神经网络模型和参数结果,将这些最优模型和参数的结果分别保存,用于解决未来真实场景下新出现的临床实体自动化映射问题,然后训练任务结束。
综上,本公开实施例提供的基于对比学习的临床数据处理模型的训练方法,基于深度自注意力神经网络,经过多轮次和循环增强的方式进行对比学习,使模型和参数能够将正样本和第一类负样本以及第二类负样本合理的区分开来,最终训练出一个能够有强大的临床实体语义表征的智能算法模型和参数,最大限度地挖掘和利用内部标准实体词语本身隐含的语义信息,最终提升算法模型的准确率和泛化能力,来高效率、高质量地改善医生科研中的临床实体映射自动化难题。
与传统的方式对比,本技术方案的基于对比学习的临床数据处理模型的训练方法至少有以下优点:
本方案利用少量正负样本即可生成数据量大且高质量的数据增强训练集;在对比学习训练过程中,可以有效利用数据增强训练集中挖掘的正负样本,通过巧妙的损失函数训练,能够将正负样本合理地区分开,然后使用满足多种语义关系的模型结果综合打分计算,最终训练出一个能够有强大的临床实体语义表征的智能算法模型和参数,最大限度地挖掘和利用内部标准实体词语本身隐含的语义信息,能够得出比较符合真实情况的置信度得分,明显提升了算法模型的准确率和泛化能力,尤其是在临床科研中,能够高效率、高质量地进行数据自动化映射等数据处理过程。
参照图3,本公开实施例提供一种基于对比学习的临床数据处理模型的训练装置,该装置包括:
第一训练集获取模块302,用于获取当前训练集;其中,所述当前训练集中的训练数据包括:第一原始实体词语及其标注的多个第一标准实体词语,所述第一原始实体词语是非内部标准的临床实体词语,所述第一标准实体词语是与所述第一原始实体词语语义相似的内部标准的临床实体词语;
第二训练集获取模块304,用于获取数据增强训练集;其中,所述数据增强训练集中的训练数据包括:由内部标准的正样本、第一类负样本和第二类负样本组成的三元组,所述正样本是针对第一原始实体词语预先标注的样本,所述第一类负样本为从所述第一标准实体词语中选取的与第一原始实体词语相似的样本,所述第二类负样本为任意选取的与第一原始实体词语不相似的样本;
学习训练模块306,用于基于所述当前训练集和所述数据增强训练集,对深度自注意力神经网络模型执行如下对比学习训练过程:
基于所述数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到初次训练后的第一网络模型;基于所述第一网络模型,计算所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分;根据所述目标语义关系权重得分从所述当前训练集中选取语义相似最高的前多个词语,基于选取的词语和所述第一原始实体词语得到第一训练集;将所述第一训练集作为新的当前训练集,并结合所述数据增强训练集再次执行上述对比学习训练过程;循环多次所述对比学习训练过程,直至得到优化后的第二网络模型和参数。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的本公开的实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置403还可以包括例如键盘、鼠标等等。
该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
进一步,本实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述基于对比学习的临床数据处理模型的训练方法。
本公开实施例所提供的一种基于对比学习的临床数据处理模型的训练方法、装置、电子设备及介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于对比学习的临床数据处理模型的训练方法,其特征在于,所述方法包括:
获取当前训练集;其中,所述当前训练集中的训练数据包括:第一原始实体词语及其标注的多个第一标准实体词语,所述第一原始实体词语是非内部标准的临床实体词语,所述第一标准实体词语是与所述第一原始实体词语语义相似的内部标准的临床实体词语;
获取数据增强训练集;其中,所述数据增强训练集中的训练数据包括:由内部标准的正样本、第一类负样本和第二类负样本组成的三元组,所述正样本是针对第一原始实体词语预先标注的样本,所述第一类负样本为从所述第一标准实体词语中选取的与第一原始实体词语相似的样本,所述第二类负样本为任意选取的与第一原始实体词语不相似的样本;
基于所述当前训练集和所述数据增强训练集,对深度自注意力神经网络模型执行如下对比学习训练过程:
基于所述数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到初次训练后的第一网络模型;
基于所述第一网络模型,计算所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分;
根据所述目标语义关系权重得分从所述当前训练集中选取语义相似最高的前多个词语,基于选取的词语和所述第一原始实体词语得到第一训练集;
将所述第一训练集作为新的当前训练集,并结合所述数据增强训练集再次执行上述对比学习训练过程;
循环多次所述对比学习训练过程,直至得到优化后的第二网络模型和参数,将所述第二网络模型作为临床数据处理模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一网络模型,计算所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分,包括:
根据预设的字嵌入模型和词嵌入模型计算所述当前训练集中,所述第一标准实体词语和所述第一原始实体词语之间的第一语义关系权重得分;
通过所述第一网络模型计算所述当前训练集中,所述第一标准实体词语和所述第一原始实体词语之间的第二语义关系权重得分;
根据所述第一语义关系权重得分和所述第二语义关系权重得分,得到所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标测试集;其中,所述目标测试集中的测试数据包括:第二原始实体词语及其标注的多个第二标准实体词语,所述第二原始实体词语是非内部标准的临床实体词语,所述第二标准实体词语是与所述第二原始实体词语语义相似的内部标准的临床实体词语;
将所述第二网络模型应用到所述目标测试集,得到所述目标测试集中所述第二标准实体词语和所述第二原始实体词语之间的第三语义关系权重得分;
根据所述第三语义关系权重得分,判断所述第二网络模型的预测结果准确率是否满足要求;
如果不满足,则调整所述数据增强训练集中的正样本、第一类负样本和第二类负样本,得到新的数据增强训练集,并基于该新的数据增强训练集和所述当前训练集重新循环多次所述对比学习训练过程,直至得到的深度自注意力神经网络模型和参数所产生的预测结果准确率满足要求。
4.根据权利要求3所述的方法,其特征在于,所述获取目标测试集,包括:
从预设的数据库中采样得到初始测试集;其中,所述初始测试集中的测试数据包括:非内部标准的第二原始实体词语及其标注的语义相似且内部标准的第二标准实体词语;
从所述初始测试集的第二标准实体词语中,选取与所述第二原始实体词语满足预设相似条件的词语,将选取的词语与所述第二原始实体词语构成目标测试集;
其中,所述预设相似条件为:与所述第二原始实体词语之间的字语义和词语义的综合语义相似度高于预设相似阈值。
5.根据权利要求1所述的方法,其特征在于,所述深度自注意力神经网络模型包括:输入层、编码层、隐藏层和池化层;
所述基于所述数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,包括:
将所述第一原始实体词语和与其对应的三元组作为所述输入层的输入数据;
经过所述编码层对所述输入数据进行向量转换;
将所述编码层的输出结果送入所述隐藏层经过多次的非线性变换和语义信息处理;
通过所述池化层对所述隐藏层的多个原始输出结果进行标准化向量对齐处理,得到统一层深度语义信息向量表征;
针对所述统一层深度语义信息向量表征,计算深层次语义关系得分;其中,所述深层次语义关系得分包括:第一原始实体词语分别和与其对应的正样本、第一类负样本、第二类负样本之间的深层次语义关系得分;
根据所述深层次语义关系得分和预设的损失函数计算训练过程中对应的总损失函数;
根据所述总损失函数对深度自注意力神经网络模型进行初次训练。
7.一种基于对比学习的临床数据处理模型的训练装置,其特征在于,所述装置包括:
第一训练集获取模块,用于获取当前训练集;其中,所述当前训练集中的训练数据包括:第一原始实体词语及其标注的多个第一标准实体词语,所述第一原始实体词语是非内部标准的临床实体词语,所述第一标准实体词语是与所述第一原始实体词语语义相似的内部标准的临床实体词语;
第二训练集获取模块,用于获取数据增强训练集;其中,所述数据增强训练集中的训练数据包括:由内部标准的正样本、第一类负样本和第二类负样本组成的三元组,所述正样本是针对第一原始实体词语预先标注的样本,所述第一类负样本为从所述第一标准实体词语中选取的与第一原始实体词语相似的样本,所述第二类负样本为任意选取的与第一原始实体词语不相似的样本;
学习训练模块,用于基于所述当前训练集和所述数据增强训练集,对深度自注意力神经网络模型执行如下对比学习训练过程:
基于所述数据增强训练集和预设的损失函数对深度自注意力神经网络模型进行初次训练,得到初次训练后的第一网络模型;基于所述第一网络模型,计算所述当前训练集中所述第一标准实体词语和所述第一原始实体词语之间的目标语义关系权重得分;根据所述目标语义关系权重得分从所述当前训练集中选取语义相似最高的前多个词语,基于选取的词语和所述第一原始实体词语得到第一训练集;将所述第一训练集作为新的当前训练集,并结合所述数据增强训练集再次执行上述对比学习训练过程;循环多次所述对比学习训练过程,直至得到优化后的第二网络模型和参数,将所述第二网络模型作为临床数据处理模型。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-6中任一所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111538437.7A CN114398893A (zh) | 2021-12-15 | 2021-12-15 | 一种基于对比学习的临床数据处理模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111538437.7A CN114398893A (zh) | 2021-12-15 | 2021-12-15 | 一种基于对比学习的临床数据处理模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398893A true CN114398893A (zh) | 2022-04-26 |
Family
ID=81227499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111538437.7A Pending CN114398893A (zh) | 2021-12-15 | 2021-12-15 | 一种基于对比学习的临床数据处理模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398893A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114660993A (zh) * | 2022-05-25 | 2022-06-24 | 中科航迈数控软件(深圳)有限公司 | 一种基于多源异构数据特征降维的数控机床故障预测方法 |
CN115688868A (zh) * | 2022-12-30 | 2023-02-03 | 荣耀终端有限公司 | 一种模型训练方法及计算设备 |
-
2021
- 2021-12-15 CN CN202111538437.7A patent/CN114398893A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114660993A (zh) * | 2022-05-25 | 2022-06-24 | 中科航迈数控软件(深圳)有限公司 | 一种基于多源异构数据特征降维的数控机床故障预测方法 |
CN115688868A (zh) * | 2022-12-30 | 2023-02-03 | 荣耀终端有限公司 | 一种模型训练方法及计算设备 |
CN115688868B (zh) * | 2022-12-30 | 2023-10-20 | 荣耀终端有限公司 | 一种模型训练方法及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553479B (zh) | 一种模型蒸馏方法、文本检索方法及装置 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
Shi | [Retracted] Knowledge Graph Question and Answer System for Mechanical Intelligent Manufacturing Based on Deep Learning | |
CN114398893A (zh) | 一种基于对比学习的临床数据处理模型的训练方法及装置 | |
CN112000772A (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN111898379B (zh) | 槽填充模型训练方法、电子设备及存储介质 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
WO2024067276A1 (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
Jia et al. | Latent task adaptation with large-scale hierarchies | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN116595170A (zh) | 一种基于软提示的医疗文本分类方法 | |
CN117009621A (zh) | 信息搜索方法、装置、电子设备、存储介质及程序产品 | |
WO2023134087A1 (zh) | 问诊模板生成方法、装置、电子设备及存储介质 | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
Guo et al. | Chinese text classification model based on bert and capsule network structure | |
Tang | Analysis of English multitext reading comprehension model based on deep belief neural network | |
Tao et al. | A deep clustering algorithm based on self-organizing map neural network | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN113343666B (zh) | 评分的置信度的确定方法、装置、设备及存储介质 | |
Li et al. | A rational resource allocation method for multimedia network teaching reform based on Bayesian partition data mining | |
CN117688974B (zh) | 基于知识图谱的生成式大模型建模方法、系统及设备 | |
Liu et al. | Study of Data Representation Methods for TCM Clinical Assistant Diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |