CN114358956A - 基于临床数据与多语料验证低噪知识识别模型及建立方法 - Google Patents

基于临床数据与多语料验证低噪知识识别模型及建立方法 Download PDF

Info

Publication number
CN114358956A
CN114358956A CN202111467508.9A CN202111467508A CN114358956A CN 114358956 A CN114358956 A CN 114358956A CN 202111467508 A CN202111467508 A CN 202111467508A CN 114358956 A CN114358956 A CN 114358956A
Authority
CN
China
Prior art keywords
data
model
knowledge
label
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111467508.9A
Other languages
English (en)
Inventor
张李军
赵蒙海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jinshida Weining Software Technology Co ltd
Original Assignee
Shanghai Jinshida Weining Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinshida Weining Software Technology Co ltd filed Critical Shanghai Jinshida Weining Software Technology Co ltd
Priority to CN202111467508.9A priority Critical patent/CN114358956A/zh
Publication of CN114358956A publication Critical patent/CN114358956A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法,对多个医疗知识来源语料利用知识图谱分别进行来源语料中语句中知识关系进行初步识别学习,再利用临床数据中准确性高的关系组合用于权重分配,降低初步识别关系错误的频率,最后利用专家数据作为验证集,对每个来源语料的识别差异性进行准确性评估,提高识别关系的准确性。通过医疗多语料集成的方法降低误差,并融合实际病例数据进行有效性评估,提升关系识别的表现以及医疗知识的精度,为后续医保风控辅助支持提供有力的保障。

Description

基于临床数据与多语料验证低噪知识识别模型及建立方法
技术领域
本发明涉及一种医疗知识风控技术,特别涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法。
背景技术
在医保风控领域,常规利用机器学习、风险模型、图像等技术对识别欺诈、套取、滥用行为做出识别,然而这种做法还存在着解释性差和循证能力不足的问题,通常做法还需额外引进专家知识对模型进行指导。
随着数字化时代的发展,将临床数据、临床指南、药品说明书等多渠道知识通过大数据技术和知识图谱技术进行结合,自动化地将临床诊疗知识应用于实用领域中,已经成为可能。通过对核心医学概念的全面覆盖并构建综合智能医疗系统,能够对医疗保险风控提供有力的知识层面的辅助支撑。因此亟需将AI+医疗快速落地,构建一个高覆盖、多领域、高精度和可扩展的医疗知识图谱。
在实际操作中,构建医疗知识图谱过程中所面临的核心问题是人工标注数据不足,绝大部分知识语料缺乏验证和有效性评估,其存在的大量噪音也损害了用其所构建的医疗知识图谱知识的准确性,并且为保证准确性大规模利用专家来矫正知识准确性是费时费力且效率低下的方法,不适用智能医疗系统的建立。
发明内容
为了提高医疗知识图谱知识的准确性,提出了一种基于临床数据与多语料验证低噪知识识别模型及建立方法,通过医疗多语料集成的方法降低误差,并融合实际病例数据、专家验证进行有效性评估,提升关系识别的表现以及医疗知识的精度,为后续医保风控辅助支持提供有力的保障。
本发明的技术方案为:一种基于临床数据与多语料验证低噪知识识别模型,医疗知识来源语料为K个,低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型,待测语句送入K个语句关系分类模型,输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合,识别出待测语句的知识关系。
优选的,所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习,再利用临床数据中准确性高低关系组合用于权重分配获得。
一种基于临床数据与多语料验证低噪知识识别模型建立方法,获取多个医疗知识来源语料,对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理,三元组包括两实体以及实体间的关系类型,将关系类型定义为标签;然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据;对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,得到语料源数据的所有词语、所在句子以及头实体的向量表示;利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出现的频次作为识别训练模型的权重;利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重,对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型;以专家标注数据作为验证集,对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估,对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵;最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测,获取最终语句中知识关系。
进一步,所述构成包含噪音的训练数据的具体方法:
知识图谱里的三元组:(Ei1,Ei2,Ri)中的其中一个实体Ei1以及关系Ri,通过实体Ei1提及匹配技术,对语料源数据进行查找定位,随后在实体Ei1定位到的语料单元格中对另一个实体Ei2进行查找,如果在该语料单元格找到,则将该三元组和所处语料单元格的句子加入训练语料中,其标签为Ri;对于从同语料单元格找到的在知识图谱中与实体Ei1无法匹配的实体E'i2,构成三元组(Ei1,E'i2,R'i)其中R'i为无关系类型。
进一步,所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。
进一步,所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,
Figure BDA0003390228560000031
其中,语料源数据中包含J个句子,Nj个词;Wt,j表示语料源数据中第j个句子中第t个词的向量表示;dj代表语料源数据中的第j个句子的向量表示;hs表示与句子j匹配的第s个头实体。
进一步,所述基础标签分类模型训练方法如下:
首先、分类标签的构建:对训练数据的关系类型进行one-hot编码,则每个标签表示为一个长度为Nclasses+1的一维向量标签yi,通过训练一个深度学习分类模型fθ(vi1,vi2,si),输入词向量、句向量和头实体的向量对对应的标签进行拟合,得到估计的一维向量标签
Figure BDA0003390228560000032
然后、融合临床数据的训练,得到训练数据三元组的权重调整分类基础的交叉熵损失函数,并由此来训练模型参数,具体做法如下:
损失函数基于交叉熵损失函数进行调整,构建噪音一维向量标签yi和当前模型预测的一维向量标签
Figure BDA0003390228560000033
的线性凸组合来替代噪音标签,对交叉熵损失进行更新:
Figure BDA0003390228560000034
设θ(t)为模型可训练参数在第t次迭代的值,通过如下两步交替进行该迭代算法:
1)通过上一次迭代得到的对标签预测值
Figure BDA0003390228560000035
更新噪音标签和预测标签的凸组合,从而得到更新的损失函数,对当前分类模型参数利用mini-batch随机梯度下降进行更新,得到新的模型参数θ(t)及对应的分类模型
Figure BDA0003390228560000036
2)下一轮用最新的模型
Figure BDA0003390228560000037
对标签进行重新预测,得到预测值
Figure BDA0003390228560000038
然后继续步1);
Figure BDA0003390228560000043
参数为样例i的权重,该权重是临床数据中出现的频次Fi的单调增函数,样例i对应的(Ei1,Ei2,Ri)在临床数据的出现次数Fi越高,则认为该条关系的可信度越高,故βi更高,赋予该噪音标签更高的权重,同时通过σ(βi)赋予该例子在损失函数中更高的权重,其中σ(βi)为有截尾的高斯变换,
Figure BDA0003390228560000041
进一步,所述准确性矩阵建立方法:医疗知识来源语料为K个,对K个基础标签分类模型在验证集上对不同关系类型预测的准确性指标构建一个准确性矩阵,对准确性矩阵的行为模型编号,列为K个基础标签分类模型在第j类关系上专家对模型预测的准确性评定,K个基础标签分类模型共有T类关系,随后对该矩阵进行列标准化,得到K×T的准确性矩阵Q,确保每列的和为1。
进一步,所述融合预测:用K个基础标签分类模型对待测语句分别进行预测,得到K个预测结果,其中第k个模型对全部T类关系的预测概率向量为Pk=(pk1,pk2,...,pkT),k=1,2,...,K,K个基础标签分类模型获得预测矩阵
Figure BDA0003390228560000042
计算点乘结果Q·P=M,对M的列求和,得到集成K个模型的最终预测向量m=(m1,m2,...,mT),最终预测类别即为argmax(mj)。
本发明的有益效果在于:本发明基于临床数据与多语料验证低噪知识识别模型及建立方法,构造的临床数据和多语料差异两种优化方法,均被采用在模型抽取的知识已被应用在医学知识图谱构建中,有效得提升了图谱知识得准确度,在医疗图谱对医疗保险风控应用实践中,特别是对无支撑诊断风险和诊断资源消耗风险预测起早了较好得提升作用。
附图说明
图1为本发明基于临床数据的单个语料半结构化数据关系抽取建立基础标签分类模型流程图;
图2为本发明多语料数据关系的基础标签分类模型融合预测流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提及的常见医疗知识来源语料,主要都是半结构化的权威文本,通过这些文本,抽取“实体”及实体间的“关系”。通过文本结构,可以较轻松确定当前的“关系”类型。因此,从关系抽取角度考虑,在实体词识别准确的基础上,目前知识抽取最主要的噪音和错误来源于“实体”词之间的关系和实际关系不符。如窦性心动过速的‘治疗方案’段落有如下语句:‘窦性心动过速一般不必进行抗心律失常治疗。’直接根据文本结构抽取就会将‘窦性心动过速’和‘抗心律失常治疗’错误地赋予‘治疗方式’的关系。
因此,需要设计一套高度自动化、充分利用临床大数据和多来源语料文本数据的知识优化筛选流程,来改善训练数据质量来提升关系抽取模型的表现,并节省人工成本。
充分利用多渠道知识来源交叉验证,对知识图谱的知识准确性进行校验、评估,降低通过结构化数据获得的三元组关系错误的频率。由于训练数据来源的多样化,各语料的文本表述方式和侧重点会有差异。为了充分利用这种差异性来提升模型对句子特征的概括抽取能力从而提升关系识别模型的表现,可以有效降低偶然性和低频错误的发生。同时,利用了海量的病例诊断以及相对应的处方明细,这些处方明细包含了病人在诊疗过程中用到的药品,检查,手术等条目。通过这些信息,得出疾病与药品、检查、手术所组成的共现对,及这些共现对出现的频率。该频率从实证的角度可以为训练数据中潜在的三元组提供数据指导,假设出现频繁的疾病-项目组合更有可能是正确的三元组,以此对损失函数进行调整。
知识抽取的高度自动化保证了持续的知识产出量,后续保有一定量人工校验的通道,可以既不影响自动化构建的效率,也提供了深度优化结果的可能性。
如图1所示基于临床数据的单个语料结构化数据关系抽取进行低噪知识识别模型建立流程图,下面结合图1进行具体阐述。
1、通过已有的知识图谱,对每个文本库(同来源语料集合),分别构建包含噪音的训练数据。
具体方式是用知识图谱里的三元组:(Ei1,Ei2,Ri)中的其中一个实体Ei1以及关系Ri,通过实体Ei1提及匹配技术,对结构化的文本进行查找定位,随后在实体Ei1(头实体)定位到的语料单元格中对另一个实体Ei2(尾实体)进行查找,如果在该语料单元格找到,则将该三元组和所处语料单元格的句子加入训练语料中,其标签为Ri。对于从同语料单元格找到的在知识图谱中与实体Ei1无法匹配的实体E'i2,构成三元组(Ei1,E'i2,R'i)其中R'i为无关系类型。通过半结构化数据直接赋予的标签,不管是匹配成功定义的标签,还是匹配未成功定义的无关系类型标签并不完全准确,是有噪音的。
2、对所有结构化文本库的词语、句子及头实体词进行句向量模型训练:
建立并训练中文词句向量模型:首先对于所有文本库的集合语料,进行分句和中文分词后,可以得到整个语料的词典。设一共有J个句子,每个语料分别有Nj个词。对每个句子和语料涉及的所有词语的做向量初始化:分别利用矩阵W的每一列元素Wi,j表示词典中第j个句子中第i个词的向量表示;通过矩阵D的列dj个元素代表语料中的第j个句子的向量表示。此外,由于结构化语料的自身特性,每个句子分别描述某个头实体的某方面属性,例如句子“急性失血性休克,腹胀。”是描述头实体“脾脏破裂”的[临床表现]属性的。头实体不出现在语料的句子本身中,仅作为每个尾实体所属句子的一个标签出现,所以需要在模型额外引入头实体信息。语料中头实体和句子存在一对多的情况,设一共有S个头实体(S<J),则可以将第s个头实体表示为hs
在基础的词向量模型的基础下,句向量模型通过利用一个词临近的词语和所在的整个句子的向量来预测该中心词的向量表示。目标函数则可以写成对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,
Figure BDA0003390228560000071
通过最大化如上的目标函数词向量模型可以得到语料词典的所有词语、所在句子以及头实体的向量表示。从中选取所需的训练语料用到的实体词的向量和尾实体所在的句子向量表示,即可得到每一个三元组的向量组:(vi1,vi2,si),vi1为头实体的向量;vi2为尾实体的向量;si为尾实体所在句子的向量。
3、利用临床数据获取三元组频次
临床数据可以提供大量的就诊行为的相关特征,包括每次就诊的入院病情症状描述,医生诊断信息,用药情况,所用手术和其他治疗措施明细等,通过对这些数据的统计,在经过实体链接技术可以得到训练数据中目标三元组在临床数据中出现的频次,也就这些三元组的实证有效性或权重,后面模型训练中会通过这些频次对损失函数进行调整从而将临床数据有机的融入其中。
4、利用步骤1得到的每个文本库的包含噪音的训练数据,步骤2得到的这些噪音数据的向量表示,及步骤3的临床数据,分别对每个文本库训练构建对应的标签分类模型:
每个文本库对应的基础标签分类模型训练构建方法如下:
4.1、分类标签的构建:
对训练数据的关系类型进行one-hot编码,则每个标签可以表示为一个长度为Nclasses+1的一维向量yi。通过训练一个深度学习分类模型fθ(vi1,vi2,si),其中θ表示该模型的全部可训练参数。输入头尾实体向量和句向量,对对应的标签进行拟合,得到估计的标签
Figure BDA0003390228560000072
4.2、融合临床数据的Bootstrapping(自举算法)训练策略
根据步骤3,得到训练数据三元组的权重调整分类基础的交叉熵损失函数,并由此来训练模型参数。而后通过调整后的新模型,迭代计算损失函数,通过Bootstrapping策略优化训练效果。具体做法如下:
损失函数基于交叉熵损失函数进行调整,构建上述提到的有噪音的一维向量标签yi和当前模型预测的一维向量标签
Figure BDA0003390228560000081
的线性凸组合来替代噪音标签,对交叉熵损失进行更新:
Figure BDA0003390228560000082
上述分类深度学习模型具体的参数更新方法类似于EM算法(指的是最大期望算法,是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计),设θ(t)为模型可训练参数在第t次迭代的值。通过如下1-2两步交替进行该迭代算法(算法1):
1)通过上一次迭代得到的对标签预测值
Figure BDA0003390228560000083
更新噪音标签和预测标签的凸组合,从而得到更新的损失函数,对当前分类模型参数利用mini-batch随机梯度下降进行更新,得到新的模型参数θ(t)及对应的分类模型
Figure BDA0003390228560000084
2)下一轮用最新的模型
Figure BDA0003390228560000085
对标签进行重新预测,得到预测值
Figure BDA0003390228560000086
然后继续步1);
这里
Figure BDA0003390228560000088
参数为样例i的权重,该权重是临床数据中出现的频次Fi的单调增函数,样例i对应的(Ei1,Ei2,Ri)在临床数据的出现次数Fi越高,则认为该条关系的可信度越高,故βi更高,赋予该噪音标签更高的权重。同时通过σ(βi)赋予该例子在损失函数中更高的权重,其中σ(βi)为有截尾的高斯变换,
Figure BDA0003390228560000087
5、融合多语料来源的预测策略
考虑到医学语料来源的广泛性,以语料来源为划分策略分别建立K个训练语料集(如将临床教材,临床指南,临床路径等分别作为不同语料集)。由于语料本身特征的差异,由不同语料训练出来的分类器所擅长分类的类别不同,比如基于药品说明书训练的模型会更擅长处理‘药品成份’,‘适应证’的关系。故根据验证集对多模型构建准确性矩阵,在预测时通过准确性矩阵调整各模型在不同关系类型上预测的权重。
如图2所示多语料数据关系的基础标签分类模型融合预测流程图,提出的融合预测模型具体的流程架构为:
1)预训练和准备阶段:三元组获取;相关语料获取,根据不同来源得到一共K个语料集;对全部语料集合,训练句向量模型;通过临床数据得到三元组权重。
2)训练阶段:对这K个训练语料分别以第4步描述的方法分别训练基础标签分类模型,得到K个分类模型。即对每个语料集合通过上述步骤1~4进行训练,获得一个基础标签分类模型,K个语料集合就获得K个基础标签分类模型。
验证阶段:以一部分专家标注数据作为验证集,对上述K个基础标签分类模型表现进行评估。
3)模型准确性矩阵计算:
对K个基础标签分类模型在验证集上对不同关系类型预测的准确性指标构建一个准确性矩阵,矩阵的行为模型编号,列为K个基础标签分类模型在第j类关系上专家对模型预测的准确性判定,K个基础标签分类模型共有T类关系,随后对该矩阵进行列标准化,得到K×T的准确性矩阵Q,确保每列的和为1。
4)预测阶段:对每个待预测样例,用上述的K个基础标签分类模型分别进行预测,得到K个预测结果,其中第k个模型对全部T类关系的预测概率向量为Pk=(pk1,pk2,...,pkT),k=1,2,...,K,K个基础标签分类模型得到预测矩阵
Figure BDA0003390228560000091
计算点乘结果Q·P=M,对M的列求和,得到集成K个模型的最终预测向量m=(m1,m2,...,mT),最终预测类别即为argmax(mj)。
临床专家对本发明模型产出的知识准确率进行评估,从分布在不同来源类型的结构化医学语料中随机抽取500段长度不等文本,以临床专家对这些语料进行人工知识抽取的结果为正确标准。评估以“准确率”作为评估指标。
经过上述评估测试,得到以下结果:
Figure BDA0003390228560000092
Figure BDA0003390228560000101
本发明涉及的两种优化策略:多语料集成策略和结合临床数据策略,均大幅提高抽取的准确率。其中多语料集成抽取的预测结果,通过增强模型对多种表达关系的概括性而增加了抽取到的知识的数量。而临床数据策略,由于结合了实际业务数据,抽取的结果准确率更高,但召回率稍低,更符合临床认知。而将两种策略相结合,在不牺牲召回率的情况下,准确率会得到进一步提升。
同时对于“多语料策略”,还比对了对全部语料数据的集合进行随机划分和按语料来源划分两种策略,发现按语料来源划分的策略效果优于随机划分,不同模型之间的差异性越强,交叉验证的效果越明显。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于临床数据与多语料验证低噪知识识别模型,其特征在于,医疗知识来源语料为K个,低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型,待测语句送入K个语句关系分类模型,输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合,识别出待测语句的知识关系。
2.根据权利要求1所述基于临床数据与多语料验证低噪知识识别模型,其特征在于,所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习,再利用临床数据中准确性高低关系组合用于权重分配获得。
3.一种基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,获取多个医疗知识来源语料,对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理,三元组包括两实体以及实体间的关系类型,将关系类型定义为标签;然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据;对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,得到语料源数据的所有词语、所在句子以及头实体的向量表示;利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出现的频次作为识别训练模型的权重;利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重,对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型;以专家标注数据作为验证集,对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估,对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵;最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测,获取最终语句中知识关系。
4.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述构成包含噪音的训练数据的具体方法:
知识图谱里的三元组:(Ei1,Ei2,Ri)中的其中一个实体Ei1以及关系Ri,通过实体Ei1提及匹配技术,对语料源数据进行查找定位,随后在实体Ei1定位到的语料单元格中对另一个实体Ei2进行查找,如果在该语料单元格找到,则将该三元组和所处语料单元格的句子加入训练语料中,其标签为Ri;对于从同语料单元格找到的在知识图谱中与实体Ei1无法匹配的实体Ei'2,构成三元组(Ei1,Ei'2,Ri')其中Ri'为无关系类型。
5.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。
6.根据根据权利要求5所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,
Figure FDA0003390228550000021
其中,语料源数据中包含J个句子,Nj个词;Wt,j表示语料源数据中第j个句子中第t个词的向量表示;dj代表语料源数据中的第j个句子的向量表示;hs表示与句子j匹配的第s个头实体。
7.根据权利要求4所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述基础标签分类模型训练方法如下:
首先、分类标签的构建:对训练数据的关系类型进行one-hot编码,则每个标签表示为一个长度为Nclasses+1的一维向量标签yi,通过训练一个深度学习分类模型fθ(vi1,vi2,si),输入词向量、句向量和头实体的向量对对应的标签进行拟合,得到估计的一维向量标签
Figure FDA0003390228550000022
然后、融合临床数据的训练,得到训练数据三元组的权重调整分类基础的交叉熵损失函数,并由此来训练模型参数,具体做法如下:
损失函数基于交叉熵损失函数进行调整,构建噪音一维向量标签yi和当前模型预测的一维向量标签
Figure FDA0003390228550000023
的线性凸组合来替代噪音标签,对交叉熵损失进行更新:
Figure FDA0003390228550000031
设θ(t)为模型可训练参数在第t次迭代的值,通过如下两步交替进行该迭代算法:
1)通过上一次迭代得到的对标签预测值
Figure FDA0003390228550000032
更新噪音标签和预测标签的凸组合,从而得到更新的损失函数,对当前分类模型参数利用mini-batch随机梯度下降进行更新,得到新的模型参数θ(t)及对应的分类模型
Figure FDA0003390228550000033
2)下一轮用最新的模型
Figure FDA0003390228550000034
对标签进行重新预测,得到预测值
Figure FDA0003390228550000035
然后继续步1);
βi=b(Fi),
Figure FDA0003390228550000036
参数为样例i的权重,该权重是临床数据中出现的频次Fi的单调增函数,样例i对应的(Ei1,Ei2,Ri)在临床数据的出现次数Fi越高,则认为该条关系的可信度越高,故βi更高,赋予该噪音标签更高的权重,同时通过σ(βi)赋予该例子在损失函数中更高的权重,其中σ(βi)为有截尾的高斯变换,
Figure FDA0003390228550000037
E(σ(βi))=1。
8.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述准确性矩阵建立方法:医疗知识来源语料为K个,对K个基础标签分类模型在验证集上对不同关系类型预测的准确性指标构建一个准确性矩阵,对准确性矩阵的行为模型编号,列为K个基础标签分类模型在第j类关系上专家对模型预测的准确性评定,K个基础标签分类模型共有T类关系,随后对该矩阵进行列标准化,得到K×T的准确性矩阵Q,确保每列的和为1。
9.根据权利要求8所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述融合预测:用K个基础标签分类模型对待测语句分别进行预测,得到K个预测结果,其中第k个模型对全部T类关系的预测概率向量为Pk=(pk1,pk2,...,pkT),k=1,2,...,K,K个基础标签分类模型获得预测矩阵
Figure FDA0003390228550000038
计算点乘结果Q·P=M,对M的列求和,得到集成K个模型的最终预测向量m=(m1,m2,...,mT),最终预测类别即为argmax(mj)。
CN202111467508.9A 2021-12-03 2021-12-03 基于临床数据与多语料验证低噪知识识别模型及建立方法 Pending CN114358956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111467508.9A CN114358956A (zh) 2021-12-03 2021-12-03 基于临床数据与多语料验证低噪知识识别模型及建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111467508.9A CN114358956A (zh) 2021-12-03 2021-12-03 基于临床数据与多语料验证低噪知识识别模型及建立方法

Publications (1)

Publication Number Publication Date
CN114358956A true CN114358956A (zh) 2022-04-15

Family

ID=81097173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111467508.9A Pending CN114358956A (zh) 2021-12-03 2021-12-03 基于临床数据与多语料验证低噪知识识别模型及建立方法

Country Status (1)

Country Link
CN (1) CN114358956A (zh)

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Martorell-Marugán et al. Deep learning in omics data analysis and precision medicine
US8438162B2 (en) Method and apparatus for selecting clusterings to classify a predetermined data set
US8572018B2 (en) Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
CN106529207B (zh) 一种与核糖核酸结合的蛋白质的预测方法
Yan et al. Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology
CN112015868A (zh) 基于知识图谱补全的问答方法
CN109829162A (zh) 一种文本分词方法及装置
CN112766507B (zh) 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法
CN111785387B (zh) 一种使用Bert做疾病标准化映射分类的方法及系统
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
US7801841B2 (en) Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN115526246A (zh) 一种基于深度学习模型的自监督分子分类方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
Molho et al. Deep learning in single-cell analysis
CN111581466A (zh) 特征信息存在噪声的偏多标记学习方法
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN114358956A (zh) 基于临床数据与多语料验证低噪知识识别模型及建立方法
US11513673B2 (en) Steering deep sequence model with prototypes
CN114496115B (zh) 实体关系的标注自动生成方法和系统
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
CN111581469B (zh) 基于多子空间表示的偏多标记学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination