CN105184089B

CN105184089B - 异常病例在小样本中的多维量化检出方法

Info

Publication number: CN105184089B
Application number: CN201510607162.6A
Authority: CN
Inventors: 赵蒙海; 陈杰
Original assignee: Shanghai Jinshida Weining Software Technology Co ltd
Current assignee: SHANGHAI JINSHIDA WEINING SOFTWARE TECHNOLOGY Co.,Ltd.
Priority date: 2015-09-22
Filing date: 2015-09-22
Publication date: 2021-07-30
Anticipated expiration: 2035-09-22
Also published as: CN105184089A

Abstract

本发明是一种异常病例在小样本中的多维量化检出方法，包括确定病种及其相关项目，求取各个病种相关项目的权重，根据病种相关项目权重优化遗传算法基因选择，确定病种的高相关项目集合并记录其适度函数结果，通过设置阈值筛选出适度函数结果合适的病种及其病例；病种治疗过程相似度和病种相关项目异常系数的确定；输出异常系数图形，所述异常数据图形为病例及其涉及的每个指标的异常系数。

Description

异常病例在小样本中的多维量化检出方法

技术领域

本发明是一种异常病例在小样本中的多维量化检出方法，涉及医疗、医疗保险和软件开发等领域。

背景技术

随着我国参保规模不断扩大，医保定点医疗机构快速增加，参保人数迅猛增长，医疗保险保障能力和水平需要不断提升，这给医保经办管理带来了极大的挑战。各地医保经办服务超负荷运转，服务供给能力严重不足，监管可及性差，定点医疗机构过度诊疗行为普遍存在，参保人违规套取骗取医保基金案件时有发生，医疗保险基金安全岌岌可危。

2014年9月，人社部发布《关于进一步加强基本医疗保险医疗服务监管的意见》中，强调用“优化信息化监控手段，建立医疗保险费用监控预警和数据分析平台”等措施来提高监管能力。可见，以信息化为手段，全方位、实时监控参保人医疗保险使用情况的智能监管势在必行，这不仅仅是监管的信息化，其中蕴含更高的医保管理指向，用以推动医疗保险治理体系建设。

发明内容

针对上述问题，本发明提供一种异常病例在小样本中的多维量化检出方法。

为达到上述发明目的，本发明异常病例在小样本中的多维量化检出方法，包括：

确定病种及其相关项目，求取各个病种相关项目的权重，根据病种相关项目权重优化遗传算法基因选择，确定病种的高相关项目集合并记录其适度函数结果，通过预先设置的阈值范围筛选出适度函数结果合适的病种及其病例；

病种治疗过程相似度和病种相关项目异常系数的确定；

输出异常系数图形，所述异常数据图形为病例及其涉及的每个指标的异常系数。

进一步地，所述的指标为药品、项目、总费用。

进一步地，异常系数计算公式如下：

when stdxmje_i＝0 or NAN，scores_i＝0

上述的when stdxmjei＝NAN，会在该第i项目只有一个病人使用过时发生；

其中，c₁单个病人的总治疗费用的危险系数；

c₂单个病人的统筹支付费用的危险系数；

c₃单个病人的项目部分的危险系数；

C单个病人的综合危险系数；

zfy单个病人的总治疗费用；

meanzfy全部该病种病人的总治疗费用的均值；

stdzfy全部该病种病人的总治疗费用的标准差；

tczf单个病人的统筹支付费用；

meantcfy全部该病种病人的统筹支付费用的均值；

stdtczf全部该病种病人的统筹支付费用的标准差；

xmjei单个病人的第i个项目的费用；

meanxmjei第i个项目的全部病人的费用的均值；

stdxmjei第i个项目的全部病人的费用的标准差；

wi第i个项目的权重系数。

进一步地，利用IDF算法，求取各个病种相关项目的权重。

进一步地，通过遗传算法确定病种的高相关项目集合并记录其适度函数结果。

进一步地，所述病种和项目为病种包括疾病名称，项目包括相应的疾病使用的药品、材料、诊疗项目。

有益效果：

本发明，主要从整个病例治疗过程中涉及的项目为出发点，建立病种的相关治疗项目集合并赋予相关权重系数，以此构造病种标准的“单位向量”，利用向量距离公式确定其与其他病例的“距离”------异常系数。与以往技术相比，该方案创新地将数学中的向量、分布公式理论应用到疾病异常分析中，并运用多种算法计算疾病相关项目及其权重系数。在系统结果表现上，利用雷达图表示了不同维度的异常，也直观的量化了差异程度。

附图说明

图1是本发明整体异常雷达表示图。

具体实施方式

下面对本发明做进一步的描述。

本发明异常病例在小样本中的多维量化检出方法，包括

确定病种及其相关项目，求取各个病种相关项目的权重，根据病种相关项目权重优化遗传算法基因选择，确定病种的高相关项目集合并记录其适度函数结果，通过预先设置的阈值范围筛选出适度函数结果合适的病种及其病例：

病种治疗过程相似度和病种相关项目异常系数的确定：

“各个病种相关项目”这是一个通用方法论，所以病种和项目是泛指，病种包括大部分常见的疾病，项目包括常见疾病使用的药品、材料、诊疗项目等。

所述的常见疾病根据具体情况决定，所述项目也根据具体情况决定。

如图l所示，整体异常雷达表示图，a线表示标准线，b线表示病例实际线，c发散线是不同指标维度。

实施例

一、确定病种相关项目

病种项目权重与项目的使用频率或频数存在一定区别，以在白内障 (H26.9)患者群体当中关于“氯化纳”为例，在大量的就诊数据中按照“白内障(H26.9)”这一诊断选取的300条样本数据，对关键词“氯化钠 ”出现的次数进行统计(243次)，则“氯化钠 ”在该病种下出现的频率(Term Frequency)即为0.81。概括地讲，如果一条就诊数据的药品或者诊疗项目含关键词wl,w2,...，wN，它们在该特定病种就诊数据中的词频分别是： TFl,TF2,...TFN。(TF:termfrequency)。那么，该就诊数据的整体权重为 (TFl+TF2+...+TFN)/N。但该算法存在一定问题，在上面的例子中，“氯化钠 ”占了总词频的80％以上，而它对确定病种的主要治疗方案作用极小且重要性较低。因此，针对现在有发现算法暂时无法处理这样的情况，引入“病种收费项目权重”，本文提出发现算法服务，可以继承原有的基础算法，完善更新基础算法。

首先，本文对这种权重较低的词用符号Invalidwords表示，意即，根据度量相关性，针对这部分词频率的计算应根据其重要性进行调整，类似的词包括临床中辅助性用药、项目或材料等。进一步，便需要针对这些医学诊疗项目或药品每一个词引入一个权重，这个权重的设定必须满足下面两个条件：

l.权重能够体现某一个词反映主体的能力，意即一个词反映主题能力越强，权重就越大，反之，权重就越小。例如在诊疗数据中的“裂隙灯下眼底检查”这个词，通过该词能够从某种程度上了解病情与眼科疾病具有一定的关联：反之，在诊疗数据中的“氯化钠 ”一词，与主题(疾病)的关联性基地，通过该词难以得到所需的疾病种类信息，综合以上，则“裂隙灯下眼底检查”的权重就应当较大。

2.Invalidwords的权重应该是比较低的一个数，如0.3或者0.2甚至更低。假设一个关键词只在很少的诊疗信息中出现，则它锁定搜索目标的难度便有所下降(非常用的药品、诊疗项目等通常仅在某些疾病的某些特殊情况下使用)，则其权重的赋值应较大。反之若一个词在诊疗信息中大量出现，则该词便与众多疾病都存在关联，通过该词难以明确患者的病情，因此其权重赋值应较小。

概括地讲，假定一个关键词w在Dw个就诊中出现过，那么Dw越大， w的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数”(Inverse documentfrequency，缩写为IDF)，它的公式为D/Dw。在上面的例子中，该病种下“氯化钠 ”的权重为0.11，其中“裂隙灯下眼底检查”权重达到0.78。两个权重的比例在医学中也得到了印证。

此外，同时针对每条就诊数据，利用IDF，整个治疗过程的相关性计算个公式就由词频的简单求和平均变成了加权求和平均，即 (TFl*lDFl+TF2*IDF2+...+TFN*lDFN)/N，按其相关性排序，相关性越低，说明其诊疗过程的低权重的项目越多，医疗服务质量越低。

在以上权重分析方法的基础之上，考虑时间因素进行考虑，可以提炼组合医嘱的权重分析，形成病种特有的临床事件(下面基于流程挖掘的病种拆分会进一步深化)，据此可以对单病种分类进行更有效的降维，提高病种的分类效率。

在定义权重之外，如前文所说，在医学中定义了相关度--药品及诊疗项目与疾病的相关程度，是基于临床知识库而集成的指标，它反映的是药品或诊疗项目在治疗某种疾病时的必要程度。根据应用区域当地的医疗行为习惯，基于权重及其分析方法，可以针对“相关度”当中的各调节系数进行动态调整，从而反映当地实际情况并符合应用需要。

二、病种治疗项目集合

部分病种由于病例样本过少或者治疗差异性很大，无法建立标准的“单位向量”，为了更精准判断需要排除这些病种。

l、算法过程：

使用遗传算法求解最优处方(最小覆盖集合)，最优处方能够覆盖更多的患者，并且涉及到的诊疗项目或药品数量更少，这也是适应度函数 (Fitness Function)评价的标准。

适应度函数是用于评价某个染色体的适应度，用f(x)表示。有时需要区分染色体的适应度函数与问题的目标函数。例如：0-1背包问题的目标函数是所取得物品价值，但将物品价值作为染色体的适应度函数可能并不一定适合。适应度函数与目标函数是正相关的，可对目标函数作一些变形来得到适应度函数。这里我们的适度函数f(x)＝覆盖人数/项目或者药品总数，目标函数是最优处方，其中项目或药品总数指每次迭代后目标结果中位值为1的所有项总和。

编码：需要将问题的解编码成字符串的形式才能使用遗传算法。最简单的一种编码方式是二进制编码，即将问题的解编码成二进制位数组的形式。本例中对同病种下所有样本数据涉及的诊疗项目和药瓶及材料编码成一个二进制位数组111···11的形式，每一位的l代表一个不同的项目、药品或者材料，且它们的排序应该是固定的。以后每个个体是根据上面这个标准结合个体实际，组织编码个体，个体使用过该项目或药品对应位标l，否则标0。，直到所有的样本数据编码完毕。

遗传算法有3个最基本的操作：选择，交叉，变异。

选择：选择一些染色体来产生下一代。一种常用的选择策略是“比例选择”，也就是个体被选中的概率与其适应度函数值成正比。假设群体的个体总数是M，那么一个个体Xi被选中的概率为f(Xi)/(f(Xl) +f(X2)+........+f(Xn))。仅仅从产生的子代中选择基因去构造新的种群可能会丢失掉上一代种群中的很多信息。也就是说当利用交叉和变异产生新的一代时，我们有很大的可能把在某个中间步骤中得到的最优解丢失。在此我们使用精英主义(Elitisrn)方法，在每一次产生新的一代时，我们首先把当前最优解原封不动的复制到新的一代中，其他步骤不变。这样任何时刻产生的一个最优解都可以存活到遗传算法结束。为了防止进化过程中产生的最优解被交叉和变异所破坏，可以将每一代中的最优解原封不动的复制到下一代中。我们将上一个例子里病种权重较高的一些项目或药品标记为最优基因，直接遗传到下一代中。

交叉(Crossover):2条染色体交换部分基因，来构造下一代的2条新的染色体。

例如：

交叉前：

00001|1011100000000|10001

10100|000001111110|10101

交叉后：

00001|0000011111110|10001

10100|011100000000|10101

染色体交叉是以一定的概率发生的，这个概率记为Pc。

变异(Mutation)：在繁殖过程，新产生的染色体中的基因会以一定的概率出错，称为变异。变异发生的概率记为Pm。例如：

变异前：

00001111000000001000l

变异后：

00001111000010001000l

通过复制、交叉、突变等操作产生下一代的解，并逐步淘汰掉适应度函数值低的解，增加适应度函数值高的解。这样群体经过N代进化之后，其适应度的最大值、平均值都得到了明显的改进。筛选其中适应度函数较高的病种最优处方。

基于最优处方集合，接下来就可以对就诊数据中缺失诊断字段的就诊记录进行匹配补齐、对诊断和治疗过程相悖进行判定了筛选，剔除疑似违规就诊病例，“净化”下面流程挖掘的样本数据(预处理)。

2、以某地市的未特指的白内障(H26.9)这一病种为例，我们挖掘出该病种的最优处方如下所示：

表5.1未特指的白内障(H26.9)病种某分组中各项目权重及最优处方

在这300例的白内障病例数据中，所有涉及药品和项目一共789种，集合结果中涉及45种，这45种项目药品整体使用率比较高，同时权重也反映出药品项目对白内障治疗的重要程度。

3、求解各病例相对于小样本的异常系数

以集合中的项目建立病种特征向量(标准费用)，比较其他病例向量同标准向量的距离：

项目异常系数项目异常系数β＝(X项目费用－X标准项目费用)/X 标准项目费用

病例异常系数ε＝α1β1+…+αnβn

一、病例的异常系数计算公式

进一步地，所述的指标为药品、项目、总费用。

进一步地，异常系数计算公式如下：

when stdxmje_i＝0 or NAN，scores_i＝0

上述的when stdxmjei＝NAN，会在该第i项目只有一个病人使用过时发生。

对本发明应当理解的是，以上所述的实施例，对本发明的目的、发明和有益效果进行了进一步详细的说明，以上仅为本发明的实施例而已，并不用于限定本发明，凡是在本发明的精神原则之内，所作出的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内，

本发明的保护范围应该以权利要求所界定保护范围为准。

Claims

1.一种异常病例在小样本中的多维量化检出方法，其特征在于，包括确定病种及其相关项目，求取各个病种相关项目的权重，根据病种相关项目权重优化遗传算法基因选择，确定病种的高相关项目集合并记录其适度函数结果，通过预先设置的阈值范围筛选出适度函数结果合适的病种及其病例；病种相关项目异常系数的确定；输出异常系数图形，所述异常系数图形为病例及其涉及的每个指标的异常系数；其中，异常系数计算公式如下：