CN114358956A

CN114358956A - 基于临床数据与多语料验证低噪知识识别模型及建立方法

Info

Publication number: CN114358956A
Application number: CN202111467508.9A
Authority: CN
Inventors: 张李军; 赵蒙海
Original assignee: Shanghai Jinshida Weining Software Technology Co ltd
Current assignee: Shanghai Jinshida Weining Software Technology Co ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-15

Abstract

本发明涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法，对多个医疗知识来源语料利用知识图谱分别进行来源语料中语句中知识关系进行初步识别学习，再利用临床数据中准确性高的关系组合用于权重分配，降低初步识别关系错误的频率，最后利用专家数据作为验证集，对每个来源语料的识别差异性进行准确性评估，提高识别关系的准确性。通过医疗多语料集成的方法降低误差，并融合实际病例数据进行有效性评估，提升关系识别的表现以及医疗知识的精度，为后续医保风控辅助支持提供有力的保障。

Description

基于临床数据与多语料验证低噪知识识别模型及建立方法

技术领域

本发明涉及一种医疗知识风控技术，特别涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法。

背景技术

在医保风控领域，常规利用机器学习、风险模型、图像等技术对识别欺诈、套取、滥用行为做出识别，然而这种做法还存在着解释性差和循证能力不足的问题，通常做法还需额外引进专家知识对模型进行指导。

随着数字化时代的发展，将临床数据、临床指南、药品说明书等多渠道知识通过大数据技术和知识图谱技术进行结合，自动化地将临床诊疗知识应用于实用领域中，已经成为可能。通过对核心医学概念的全面覆盖并构建综合智能医疗系统，能够对医疗保险风控提供有力的知识层面的辅助支撑。因此亟需将AI+医疗快速落地，构建一个高覆盖、多领域、高精度和可扩展的医疗知识图谱。

在实际操作中，构建医疗知识图谱过程中所面临的核心问题是人工标注数据不足，绝大部分知识语料缺乏验证和有效性评估，其存在的大量噪音也损害了用其所构建的医疗知识图谱知识的准确性，并且为保证准确性大规模利用专家来矫正知识准确性是费时费力且效率低下的方法，不适用智能医疗系统的建立。

发明内容

为了提高医疗知识图谱知识的准确性，提出了一种基于临床数据与多语料验证低噪知识识别模型及建立方法,通过医疗多语料集成的方法降低误差，并融合实际病例数据、专家验证进行有效性评估，提升关系识别的表现以及医疗知识的精度，为后续医保风控辅助支持提供有力的保障。

本发明的技术方案为：一种基于临床数据与多语料验证低噪知识识别模型，医疗知识来源语料为K个，低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型，待测语句送入K个语句关系分类模型，输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合，识别出待测语句的知识关系。

优选的，所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习，再利用临床数据中准确性高低关系组合用于权重分配获得。

一种基于临床数据与多语料验证低噪知识识别模型建立方法，获取多个医疗知识来源语料，对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理，三元组包括两实体以及实体间的关系类型，将关系类型定义为标签；然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据；对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练，得到语料源数据的所有词语、所在句子以及头实体的向量表示；利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出现的频次作为识别训练模型的权重；利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重，对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型；以专家标注数据作为验证集，对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估，对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵；最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测，获取最终语句中知识关系。

进一步，所述构成包含噪音的训练数据的具体方法：

知识图谱里的三元组：(E_i1，E_i2，R_i)中的其中一个实体E_i1以及关系R_i，通过实体E_i1提及匹配技术，对语料源数据进行查找定位，随后在实体E_i1定位到的语料单元格中对另一个实体E_i2进行查找，如果在该语料单元格找到，则将该三元组和所处语料单元格的句子加入训练语料中，其标签为R_i；对于从同语料单元格找到的在知识图谱中与实体E_i1无法匹配的实体E'_i2,构成三元组(E_i1，E'_i2，R'_i)其中R'_i为无关系类型。

进一步，所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。

进一步，所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,

其中，语料源数据中包含J个句子，N_j个词；W_t,j表示语料源数据中第j个句子中第t个词的向量表示；d_j代表语料源数据中的第j个句子的向量表示；h_s表示与句子j匹配的第s个头实体。

进一步，所述基础标签分类模型训练方法如下：

首先、分类标签的构建：对训练数据的关系类型进行one-hot编码，则每个标签表示为一个长度为N_classes+1的一维向量标签y_i，通过训练一个深度学习分类模型f_θ(v_i1，v_i2，s_i)，输入词向量、句向量和头实体的向量对对应的标签进行拟合，得到估计的一维向量标签

然后、融合临床数据的训练，得到训练数据三元组的权重调整分类基础的交叉熵损失函数，并由此来训练模型参数，具体做法如下：

损失函数基于交叉熵损失函数进行调整，构建噪音一维向量标签y_i和当前模型预测的一维向量标签

的线性凸组合来替代噪音标签，对交叉熵损失进行更新：

设θ^(t)为模型可训练参数在第t次迭代的值，通过如下两步交替进行该迭代算法：

1)通过上一次迭代得到的对标签预测值

更新噪音标签和预测标签的凸组合，从而得到更新的损失函数，对当前分类模型参数利用mini-batch随机梯度下降进行更新，得到新的模型参数θ^(t)及对应的分类模型

2)下一轮用最新的模型

对标签进行重新预测，得到预测值

然后继续步1)；

参数为样例i的权重，该权重是临床数据中出现的频次F_i的单调增函数，样例i对应的(E_i1，E_i2，R_i)在临床数据的出现次数F_i越高，则认为该条关系的可信度越高，故β_i更高，赋予该噪音标签更高的权重，同时通过σ(β_i)赋予该例子在损失函数中更高的权重，其中σ(β_i)为有截尾的高斯变换，

进一步，所述准确性矩阵建立方法：医疗知识来源语料为K个，对K个基础标签分类模型在验证集上对不同关系类型预测的准确性指标构建一个准确性矩阵，对准确性矩阵的行为模型编号，列为K个基础标签分类模型在第j类关系上专家对模型预测的准确性评定，K个基础标签分类模型共有T类关系，随后对该矩阵进行列标准化，得到K×T的准确性矩阵Q，确保每列的和为1。

进一步，所述融合预测：用K个基础标签分类模型对待测语句分别进行预测，得到K个预测结果，其中第k个模型对全部T类关系的预测概率向量为P_k＝(p_k1，p_k2，...,p_kT)，k＝1,2,...,K，K个基础标签分类模型获得预测矩阵

计算点乘结果Q·P＝M，对M的列求和，得到集成K个模型的最终预测向量m＝(m₁，m₂，...,m_T)，最终预测类别即为argmax(m_j)。

本发明的有益效果在于：本发明基于临床数据与多语料验证低噪知识识别模型及建立方法,构造的临床数据和多语料差异两种优化方法，均被采用在模型抽取的知识已被应用在医学知识图谱构建中，有效得提升了图谱知识得准确度，在医疗图谱对医疗保险风控应用实践中，特别是对无支撑诊断风险和诊断资源消耗风险预测起早了较好得提升作用。

附图说明

图1为本发明基于临床数据的单个语料半结构化数据关系抽取建立基础标签分类模型流程图；

图2为本发明多语料数据关系的基础标签分类模型融合预测流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提及的常见医疗知识来源语料，主要都是半结构化的权威文本，通过这些文本，抽取“实体”及实体间的“关系”。通过文本结构，可以较轻松确定当前的“关系”类型。因此，从关系抽取角度考虑，在实体词识别准确的基础上，目前知识抽取最主要的噪音和错误来源于“实体”词之间的关系和实际关系不符。如窦性心动过速的‘治疗方案’段落有如下语句：‘窦性心动过速一般不必进行抗心律失常治疗。’直接根据文本结构抽取就会将‘窦性心动过速’和‘抗心律失常治疗’错误地赋予‘治疗方式’的关系。

因此，需要设计一套高度自动化、充分利用临床大数据和多来源语料文本数据的知识优化筛选流程，来改善训练数据质量来提升关系抽取模型的表现，并节省人工成本。

充分利用多渠道知识来源交叉验证，对知识图谱的知识准确性进行校验、评估，降低通过结构化数据获得的三元组关系错误的频率。由于训练数据来源的多样化，各语料的文本表述方式和侧重点会有差异。为了充分利用这种差异性来提升模型对句子特征的概括抽取能力从而提升关系识别模型的表现，可以有效降低偶然性和低频错误的发生。同时，利用了海量的病例诊断以及相对应的处方明细，这些处方明细包含了病人在诊疗过程中用到的药品，检查，手术等条目。通过这些信息，得出疾病与药品、检查、手术所组成的共现对，及这些共现对出现的频率。该频率从实证的角度可以为训练数据中潜在的三元组提供数据指导，假设出现频繁的疾病-项目组合更有可能是正确的三元组，以此对损失函数进行调整。

知识抽取的高度自动化保证了持续的知识产出量，后续保有一定量人工校验的通道，可以既不影响自动化构建的效率，也提供了深度优化结果的可能性。

如图1所示基于临床数据的单个语料结构化数据关系抽取进行低噪知识识别模型建立流程图，下面结合图1进行具体阐述。

1、通过已有的知识图谱，对每个文本库(同来源语料集合)，分别构建包含噪音的训练数据。

具体方式是用知识图谱里的三元组：(E_i1，E_i2，R_i)中的其中一个实体E_i1以及关系R_i，通过实体E_i1提及匹配技术，对结构化的文本进行查找定位，随后在实体E_i1(头实体)定位到的语料单元格中对另一个实体E_i2(尾实体)进行查找，如果在该语料单元格找到，则将该三元组和所处语料单元格的句子加入训练语料中，其标签为R_i。对于从同语料单元格找到的在知识图谱中与实体E_i1无法匹配的实体E'_i2,构成三元组(E_i1，E'_i2，R'_i)其中R'_i为无关系类型。通过半结构化数据直接赋予的标签，不管是匹配成功定义的标签，还是匹配未成功定义的无关系类型标签并不完全准确，是有噪音的。

2、对所有结构化文本库的词语、句子及头实体词进行句向量模型训练：

建立并训练中文词句向量模型：首先对于所有文本库的集合语料，进行分句和中文分词后，可以得到整个语料的词典。设一共有J个句子，每个语料分别有N_j个词。对每个句子和语料涉及的所有词语的做向量初始化：分别利用矩阵W的每一列元素W_i,j表示词典中第j个句子中第i个词的向量表示；通过矩阵D的列d_j个元素代表语料中的第j个句子的向量表示。此外，由于结构化语料的自身特性，每个句子分别描述某个头实体的某方面属性，例如句子“急性失血性休克，腹胀。”是描述头实体“脾脏破裂”的[临床表现]属性的。头实体不出现在语料的句子本身中，仅作为每个尾实体所属句子的一个标签出现，所以需要在模型额外引入头实体信息。语料中头实体和句子存在一对多的情况，设一共有S个头实体(S＜J)，则可以将第s个头实体表示为h_s。

在基础的词向量模型的基础下，句向量模型通过利用一个词临近的词语和所在的整个句子的向量来预测该中心词的向量表示。目标函数则可以写成对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,

通过最大化如上的目标函数词向量模型可以得到语料词典的所有词语、所在句子以及头实体的向量表示。从中选取所需的训练语料用到的实体词的向量和尾实体所在的句子向量表示,即可得到每一个三元组的向量组：(v_i1，v_i2，s_i)，v_i1为头实体的向量；v_i2为尾实体的向量；s_i为尾实体所在句子的向量。

3、利用临床数据获取三元组频次

临床数据可以提供大量的就诊行为的相关特征，包括每次就诊的入院病情症状描述，医生诊断信息，用药情况，所用手术和其他治疗措施明细等，通过对这些数据的统计，在经过实体链接技术可以得到训练数据中目标三元组在临床数据中出现的频次，也就这些三元组的实证有效性或权重，后面模型训练中会通过这些频次对损失函数进行调整从而将临床数据有机的融入其中。

4、利用步骤1得到的每个文本库的包含噪音的训练数据，步骤2得到的这些噪音数据的向量表示，及步骤3的临床数据，分别对每个文本库训练构建对应的标签分类模型：

每个文本库对应的基础标签分类模型训练构建方法如下：

4.1、分类标签的构建：

对训练数据的关系类型进行one-hot编码，则每个标签可以表示为一个长度为N_classes+1的一维向量y_i。通过训练一个深度学习分类模型f_θ(v_i1，v_i2，s_i)，其中θ表示该模型的全部可训练参数。输入头尾实体向量和句向量，对对应的标签进行拟合，得到估计的标签

4.2、融合临床数据的Bootstrapping(自举算法)训练策略

根据步骤3，得到训练数据三元组的权重调整分类基础的交叉熵损失函数，并由此来训练模型参数。而后通过调整后的新模型，迭代计算损失函数，通过Bootstrapping策略优化训练效果。具体做法如下：

损失函数基于交叉熵损失函数进行调整，构建上述提到的有噪音的一维向量标签y_i和当前模型预测的一维向量标签

的线性凸组合来替代噪音标签，对交叉熵损失进行更新：

上述分类深度学习模型具体的参数更新方法类似于EM算法(指的是最大期望算法，是一种迭代算法，用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计)，设θ^(t)为模型可训练参数在第t次迭代的值。通过如下1-2两步交替进行该迭代算法(算法1)：

1)通过上一次迭代得到的对标签预测值

2)下一轮用最新的模型

对标签进行重新预测，得到预测值

然后继续步1)；

这里

参数为样例i的权重，该权重是临床数据中出现的频次F_i的单调增函数，样例i对应的(E_i1，E_i2，R_i)在临床数据的出现次数F_i越高，则认为该条关系的可信度越高，故β_i更高，赋予该噪音标签更高的权重。同时通过σ(β_i)赋予该例子在损失函数中更高的权重，其中σ(β_i)为有截尾的高斯变换，

5、融合多语料来源的预测策略

考虑到医学语料来源的广泛性，以语料来源为划分策略分别建立K个训练语料集(如将临床教材，临床指南，临床路径等分别作为不同语料集)。由于语料本身特征的差异，由不同语料训练出来的分类器所擅长分类的类别不同，比如基于药品说明书训练的模型会更擅长处理‘药品成份’，‘适应证’的关系。故根据验证集对多模型构建准确性矩阵，在预测时通过准确性矩阵调整各模型在不同关系类型上预测的权重。

如图2所示多语料数据关系的基础标签分类模型融合预测流程图，提出的融合预测模型具体的流程架构为：

1)预训练和准备阶段：三元组获取；相关语料获取，根据不同来源得到一共K个语料集；对全部语料集合，训练句向量模型；通过临床数据得到三元组权重。

2)训练阶段：对这K个训练语料分别以第4步描述的方法分别训练基础标签分类模型，得到K个分类模型。即对每个语料集合通过上述步骤1～4进行训练，获得一个基础标签分类模型，K个语料集合就获得K个基础标签分类模型。

验证阶段：以一部分专家标注数据作为验证集，对上述K个基础标签分类模型表现进行评估。

3)模型准确性矩阵计算：

对K个基础标签分类模型在验证集上对不同关系类型预测的准确性指标构建一个准确性矩阵，矩阵的行为模型编号，列为K个基础标签分类模型在第j类关系上专家对模型预测的准确性判定，K个基础标签分类模型共有T类关系，随后对该矩阵进行列标准化，得到K×T的准确性矩阵Q，确保每列的和为1。

4)预测阶段：对每个待预测样例，用上述的K个基础标签分类模型分别进行预测，得到K个预测结果，其中第k个模型对全部T类关系的预测概率向量为P_k＝(p_k1，p_k2，...,p_kT)，k＝1,2,...,K，K个基础标签分类模型得到预测矩阵

临床专家对本发明模型产出的知识准确率进行评估，从分布在不同来源类型的结构化医学语料中随机抽取500段长度不等文本，以临床专家对这些语料进行人工知识抽取的结果为正确标准。评估以“准确率”作为评估指标。

经过上述评估测试，得到以下结果：

本发明涉及的两种优化策略：多语料集成策略和结合临床数据策略，均大幅提高抽取的准确率。其中多语料集成抽取的预测结果，通过增强模型对多种表达关系的概括性而增加了抽取到的知识的数量。而临床数据策略，由于结合了实际业务数据，抽取的结果准确率更高，但召回率稍低，更符合临床认知。而将两种策略相结合，在不牺牲召回率的情况下，准确率会得到进一步提升。

同时对于“多语料策略”，还比对了对全部语料数据的集合进行随机划分和按语料来源划分两种策略，发现按语料来源划分的策略效果优于随机划分，不同模型之间的差异性越强，交叉验证的效果越明显。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于临床数据与多语料验证低噪知识识别模型，其特征在于，医疗知识来源语料为K个，低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型，待测语句送入K个语句关系分类模型，输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合，识别出待测语句的知识关系。

2.根据权利要求1所述基于临床数据与多语料验证低噪知识识别模型，其特征在于，所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习，再利用临床数据中准确性高低关系组合用于权重分配获得。

3.一种基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，获取多个医疗知识来源语料，对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理，三元组包括两实体以及实体间的关系类型，将关系类型定义为标签；然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据；对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练，得到语料源数据的所有词语、所在句子以及头实体的向量表示；利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出现的频次作为识别训练模型的权重；利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重，对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型；以专家标注数据作为验证集，对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估，对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵；最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测，获取最终语句中知识关系。

4.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述构成包含噪音的训练数据的具体方法：

知识图谱里的三元组：(E_i1，E_i2，R_i)中的其中一个实体E_i1以及关系R_i，通过实体E_i1提及匹配技术，对语料源数据进行查找定位，随后在实体E_i1定位到的语料单元格中对另一个实体E_i2进行查找，如果在该语料单元格找到，则将该三元组和所处语料单元格的句子加入训练语料中，其标签为R_i；对于从同语料单元格找到的在知识图谱中与实体E_i1无法匹配的实体E_i'₂,构成三元组(E_i1，E_i'₂，R_i')其中R_i'为无关系类型。

5.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。

6.根据根据权利要求5所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,

7.根据权利要求4所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述基础标签分类模型训练方法如下：

的线性凸组合来替代噪音标签，对交叉熵损失进行更新：

1)通过上一次迭代得到的对标签预测值

2)下一轮用最新的模型

对标签进行重新预测，得到预测值

然后继续步1)；

β_i＝b(F_i),

E(σ(β_i))＝1。

8.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述准确性矩阵建立方法：医疗知识来源语料为K个，对K个基础标签分类模型在验证集上对不同关系类型预测的准确性指标构建一个准确性矩阵，对准确性矩阵的行为模型编号，列为K个基础标签分类模型在第j类关系上专家对模型预测的准确性评定，K个基础标签分类模型共有T类关系，随后对该矩阵进行列标准化，得到K×T的准确性矩阵Q，确保每列的和为1。

9.根据权利要求8所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述融合预测：用K个基础标签分类模型对待测语句分别进行预测，得到K个预测结果，其中第k个模型对全部T类关系的预测概率向量为P_k＝(p_k1，p_k2，...,p_kT)，k＝1,2,...,K，K个基础标签分类模型获得预测矩阵