CN109376381A

CN109376381A - 医保报销异常检测方法、装置、计算机设备和存储介质

Info

Publication number: CN109376381A
Application number: CN201811052911.3A
Authority: CN
Inventors: 冯骞; 荣絮; 吴亚博
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2019-02-22

Abstract

本申请涉及一种基于大数据分析的医保报销异常检测方法、装置、计算机设备和存储介质。所述方法包括：获取医保数据，根据医保数据得到医保输入特征值；将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；根据异常分数得到检测结果。采用本方法能够提高了医保报销审核效率。

Description

医保报销异常检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种医保报销异常检测方法、装置、计算机设备和存储介质。

背景技术

医保指社会医疗保险，社会医疗保险是国家和社会根据一定的法律法规，为向保障范围内的劳动者提供患病时基本医疗需求保障而建立的社会保险制度。但是，在现在的医疗体系中特有的复杂的委托代理关系和严重的信息不对称，使得医疗费用控制难度加大，在利益的驱动下就会产生一些过度医疗服务行为和违规欺诈行为，导致医保基金不合理的流失。目前，监管的方式普遍都是通过人工进行医保报销的审核，去发现医保报销中的异常，但是由于专业人手有限，且就医量大，医疗信息复杂多变，人工审核医保报销的效率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高医保报销审核效率的医保报销异常检测方法、装置、计算机设备和存储介质。

一种医保报销异常检测方法，所述方法包括：

获取医保数据，根据医保数据得到医保输入特征值；

将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；

根据异常分数得到检测结果。

在其中一个实施例中，根据医保数据得到医保输入特征值，包括：

根据医保数据得到预设特征类型对应的特征集；

根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从医保数据中得到医保输入特征对应的医保输入特征值。

在其中一个实施例中，根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，包括：

根据预设特征类型对应的特征集使用启发式搜索算法生成特征子集；

计算特征子集对应的评价函数值，当评价函数值达到停止准则时，得到目标特征子集，将目标特征子集作为医保输入特征。

在其中一个实施例中，已训练的医保报销异常检测模型的生成步骤包括：

获取历史医保数据，将历史医保数据作为初始样本数据；

随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点；

随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值；

根据特征值对目标树当前节点二叉划分，得到目标树当前节点的叶子节点，将叶子节点作为目标树当前节点；

返回随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值的步骤，当达到预设条件时，得到目标树；

返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。

在其中一个实施例中，将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，包括：

使用医保输入特征值遍历隔离森林中的每颗树，计算出医保输入特征值在每颗树中经过的路径长度；

根据医保输入特征值在每颗树中经过的路径长度计算医保输入特征值在隔离森林中的平均路径长度；

根据平均路径长度计算医保输入特征值对应的异常分数。

在其中一个实施例中，在获取医保数据之前，还包括：

获取医保数据，使用降维算法得到降维后的医保数据；

将降维后的医保数据输入到聚类模型中，得到分类结果；

根据分类结果得到疑似异常医保数据。

则获取医保数据，包括：

获取疑似异常医保数据。

在其中一个实施例中，将降维后的医保数据输入到聚类模型中，得到分类结果，包括：

获取预设聚类数目，从降维后的医保数据中选取预设聚类数的样本数据，将样本数据作为当前簇中心；

从降维后的医保数据中获取除样本数据以外的数据，计算除样本数据以外的数据到当前簇中心的距离；

根据距离将除样本数据以外的数据分配到当前簇中心对应的簇中，得到聚类数目的目标簇；

计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，返回计算除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果。

一种医保报销异常检测装置，所述装置包括：

数据获取模块，用于获取医保数据，根据医保数据得到医保输入特征值；

检测模块，用于将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；

结果得到模块，用于根据异常分数得到检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取医保数据，根据医保数据得到医保输入特征值；

根据异常分数得到检测结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取医保数据，根据医保数据得到医保输入特征值；

根据异常分数得到检测结果。

上述医保报销异常检测方法、装置、计算机设备和存储介质，通过获取医保数据，根据医保数据得到医保输入特征值；将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；根据异常分数得到检测结果。将医保数据通过已训练的医保报销异常检测模型进行检测，能够快速得到检测结果，提高了医保报销审核效率。

附图说明

图1为一个实施例中医保报销异常检测方法的应用场景图；

图2为一个实施例中医保报销异常检测方法的流程示意图；

图3为一个实施例中得到医保输入特征值的流程示意图；

图4为一个实施例中得到医保输入特征的流程示意图；

图5为一个实施例中得到预设医保异常检测模型的流程示意图；

图6为一个实施例中计算异常分数的流程示意图；

图7为一个实施例中得到疑似异常医保数据的流程示意图；

图8为一个实施例中得到分类结果的流程示意图；

图9为一个实施例中医保异常检测装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的医保报销异常检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取终端102发送的医保数据，根据医保数据得到医保输入特征值；服务器104将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；服务器104根据异常分数得到检测结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种医保保险异常检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取医保数据，根据医保数据得到医保输入特征值。

其中，医保数据是指用于描述患者在医院进行治疗产生可报销的相关数据。包括参保人信息，诊断信息，药品信息，手术信息，费用结算信息，医生和医院信息等。医保输入特征值是用于输入到训练好的模型中的医保输入特征对应的医保数据。

具体地，服务器获取从终端中发送的待检测的医保数据，根据医保数据得到医保输入特征，然后在医保数据中找到医保输入特征对应的医保输入特征值。

S204，将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，所述已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的。

其中，医保报销异常检测模型是预先根据历史医保数据通过隔离森林算法进行训练得到的无监督机器学习模型。异常分数用于反映医保数据的异常程度，该异常分数在0到1之间，异常分数越接近1，则对应的异常程度越高。反之，异常分数越接近于0，则对应的正常程度越高。

具体地，将医保输入特征值作为已训练的医保报销异常检测模型的输入，已训练的医保报销异常检测模型对输入的医保数据进行检测，得到已训练的医保报销异常检测模型的输出，即得到了异常分数。其中，该医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法隔离森林算法进行训练得到的

S206，根据异常分数得到检测结果。

具体地，当根据异常分数的大小来判断检测结果，若异常分数大于0.5，则说明该医保数据异常，若异常分数小于0.5，则说明该医保数据正常。

上述医保报销异常检测方法中，获取终端102发送的医保数据，根据医保数据得到医保输入特征值；服务器104将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，所述已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；服务器104根据异常分数得到检测结果。将医保数据通过已训练的医保报销异常检测模型进行检测，能够快速得到检测结果，提高了医保报销审核效率。

在一个实施例中，如图3所示，步骤S202，即根据医保数据得到医保输入特征值，包括步骤：

S302，根据医保数据得到预设特征类型对应的特征集。

其中，预设特征类型是指预设设置好要构建的特征类型，包括就诊行为类型、费用支出类型、医疗项目类型和患者信息类型。就诊行为类型用于反映患者的就诊行为的特征，包括就诊次数特征、就诊频率特征、就诊地点集中度特征和就诊行为自洽性等。费用支出类型用于反映患者的费用相关信息，包括支出额度、细项分布和速率等。医疗项目用于反映社保三目录相关信息的特征，包括手术、药品和检查等。患者信息用于反映患者的社会人口学信息和其他非诊疗直接相关信息特征，包括年龄、性别和是否公务员等

具体地，根据医保数据进行特征构建得到预设特征类型对应的特征集，每一个预设特征类型都对应一个特征集，并根据医保数据计算每个预设特征类型对应的特征集的数据。

S304，根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从医保数据中得到医保输入特征对应的医保输入特征值。

其中，特征选择也称特征子集选择，或属性选择。是指从已有的M个特征中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。特征选择过程一般包括产生过程，评价函数，停止准则，验证过程。特征选择算法的一般过程包括特征子集产生过程、评价函数、停止准则和验证过程4个过程。

具体地，在预设特征类型对应的特征集中进行调整子集选择，为评价函数提供特征子集，使用评价函数评价选择的特征子集，当评价函数值达到某个阈值后，就得到了医保输入特征。然后从医保数据中得到医保输入特征对应的医保输入特征值。比如，得到的医保输入特征为就诊次数特征、就诊地点集中度、和性别特征，则在待测试的医保数据中得到的医保输入特征值为就诊次数4次、就诊地点集中度为80％为深圳市和性别为男。

上述实施例中，通过根据医保数据得到预设特征类型对应的特征集，根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从医保数据中得到医保输入特征对应的医保输入特征值。通过特征选择，可以得到输入特征，使得医保保险异常检测模型在使用时可以检测的更准确，可以使得医保保险异常检测模型更快、消耗资源更少的得到检测结果。

在一个实施例中，如图4所示，步骤S304，即根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，包括步骤：

S402，根据预设特征类型对应的特征集使用启发式搜索算法生成特征子集。

S404，计算特征子集对应的评价函数值，当评价函数值达到停止准则时，得到目标特征子集，将目标特征子集作为医保输入特征。

其中，启发式搜索算法是假定原始特征集是F，挑选出来的特征子集是f。序列前向搜索策略首先把特征子集f初始化为空集，每一步从F-f(余下的特征集)中选择使得评价函数J(f+x)最优的特征x直至评价函数J无法改进，便认为得到了最优的特征子集。评价函数可以包括基尼不纯度或者信息增益方法。

具体地，初始化目标特征子集为空，在预设特征类型对应的特征集中选择任意一个特征加入到特征子集中，得到第一特征子集。使用评价函数信息增益函数对该第一特征子集进行计算，得到第一评价结果值，再在特征集中剩余的特征中任意选择一个特征加入第一特征子集中，得到第二特征子集，使用评价函数对该第二特征子集进行计算，得到第二评价结果值，比较第一评价结果值和第二评价结果值，若第一评价结果值大于第二评价结果值，则将该第一特征子集作为目标特征子集，若第一评价结果值小于第二评价结果值，则将第二特征子集作为目标特征子集。按照上述方法将预设特征类型对应的特征集中每个特征都进行筛选，当评价结果值小于预设阈值时，得到目标特征子集，将目标特征子集中所有的特征作为医保输入特征。

上述实施例中，通过根据预设特征类型对应的特征集使用启发式搜索算法生成特征子集。计算特征子集对应的评价函数值，当评价函数值达到停止准则时，得到目标特征子集，将目标特征子集作为医保输入特征，能够很方便的得到适合医保报销异常检测模型的输入特征，能提高医保数据的检测效率。

在一个实施例中，如图5所示，已训练的医保报销异常检测模型的生成步骤包括：

S502，获取历史医保数据，将历史医保数据作为初始样本数据。

具体地，从全国的医疗信息库中获取到历史医保数据，该历史医保数据中包括了异常报销数据和正常报销数据，将该历史医保数据作为初始样本数据。

S504，随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点。

其中，目标样本数据是指在初始样本数据中随机选择部分样本数据作为目标样本数据，比如有10000份样本数据，随机选取部分样本数据作为目标样本数据，可以是随机选择700份。

具体地，随机从初始样本数据即历史医保数据中选择目标样本数据，将目标样本数据作为目标树当前节点。若该目标数当前节点为初始节点，则该当前节点为根节点，

S506，随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值。

其中，目标特征是指从医保输入特征中随机选择的一个特征。

具体地，随机从医保输入特征中随机选择目标特征，在目标数当前节点中随机选择目标体重对应的特征值，比如，医保输入特征包括就诊次数特征、就诊地点集中度、和性别特征，随机选择的目标特征为就诊次数特征，而目标数当前节点中就诊次数包括5、10、12和13等，随机选择就诊次数特征对应的特征值可以是10。

S508，根据特征值对目标树当前节点二叉划分，得到目标树当前节点的叶子节点，将叶子节点作为目标树当前节点。

具体地，根据特征值将目标数当前节点中目标特征对应的值大于该特征值的样本数据放入左叶子节点中，小于等于该特征值的样本数据放入右叶子节点中，则将该左叶子节点和右叶子节点分别作为目标数当前节点。例如，根据上述例子，目标数当前节点中就诊次数包括5、10、12和13等，随机选择就诊次数特征对应的特征值可以是10，则得到的左叶子节点为就诊次数为12和13的样本数据，得到的右叶子节点为就诊次数为5和10的样本数据。

S510，返回随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值的步骤，当达到预设条件时，得到目标树。

其中，预设条件包括目标数的深度达到预设的最大值和目标数当前节点不可再分，目标数当前节点不可再分包括目标数当前节点中只有一个样本数据和目标数当前节点中所有的样本数据相同。

具体的，在得到的目标数当前节点中返回执行步骤S506，即随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值，当达到预设条件时，即目标树当前节点中的医保样本数据不可再分或者目标数的深度达到了预设的最大值，则就得到了目标树。

S512，返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。

具体的，当得到了目标树时，判断目标树的个数是否达到了预设数目，当目标树的个数没有达到预设数目时，就返回步骤504进行执行，即返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤进行执行，生成新的目标数。当目标树的个数达到预设数目时，当生成的所有的目标数集成为隔离森林，就得到了已训练的医保报销异常检测模型。

在上述实施例中，通过获取历史医保数据，将历史医保数据作为初始样本数据；随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点；随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值；根据特征值对目标树当前节点二叉划分，得到目标树当前节点的叶子节点，将叶子节点作为目标树当前节点；返回随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值的步骤，当达到预设条件时，得到目标树；返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。通过历史医保数据预先建立已训练的医保报销异常检测模型，在进行医保报销异常检测时，可以直接使用该已训练的医保报销异常检测模型，能够提高医保报销异常检测效率。

在一个实施例中，如图6所示，步骤S204，即将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的，包括步骤：

S602，使用医保输入特征值遍历隔离森林中的每颗树，计算出医保输入特征值在每颗树中经过的路径长度。

具体地，将医保输入特征值输入到隔离森林中的每颗目标树中，在每颗目标树根据每个节点对应的条件分支进行遍历，并使用h＝e+C(n)计算医保输入特征值在每颗树中经过的路径长度，其中h为路径长度，e表示医保输入特征值从根节点到最终的叶子节点经过的边的数目。C(n)表示有n条样本数据构建的隔离森林的平均路径长度，使用计算目标树的平均路径长度。其中H(n-1)＝ln(n-1)+ξ，其中，ξ＝0.5772156649为欧拉常数。

S604，根据医保输入特征值在每颗树中经过的路径长度计算医保输入特征值在隔离森林中的平均路径长度。

具体地，使用h＝e+C(n)计算出医保输入特征值在隔离森林中每颗目标树中经过的路径长度，然后使用计算医保输入特征值在隔离森林中经过的平均路径长度。其中，N为目标数的个数，h_i为医保输入特征值在第i棵目标树的经过的路径长度。

S606，根据平均路径长度计算医保输入特征值对应的异常分数。

具体地，根据异常分数计算公式计算医保输入特征值对应的异常分数。异常分数计算公式为其中，S的取值范围是[0,1]。

上述实施例中，通过使用医保输入特征值遍历隔离森林中的每颗树，计算出医保输入特征值在每颗树中经过的路径长度，根据医保输入特征值在每颗树中经过的路径长度计算医保输入特征值在隔离森林中的平均路径长度，根据平均路径长度计算医保输入特征值对应的异常分数，能够快速得到待检测医保数据的异常分数，提高医保异常报销检测效率。

在一个实施例中，如图7所示，在步骤S202之前，即在获取医保数据之前，还包括步骤：

S702，获取医保数据，使用降维算法得到降维后的医保数据。

具体地，获取到待检测的医保数据，使用该医保数据使用降维算法t-SNE算法(T分布随机近邻嵌入算法，用于降维的一种机器学习算法)对医保数据进行降维处理，然后还可以进行可视化展示，其中，t-SNE算法是一种非线性算法。t-SNE算法对医保数据中每个数据点近邻的分布进行建模，其中近邻是指医保数据中相互靠近数据点的集合。在原始医保数据高维空间中，我们将高维空间建模为高斯分布，而在二维输出空间中，我们可以将其建模为t分布。该过程的目标是找到将高维空间映射到二维空间的变换，并且最小化所有点在这两个分布之间的差距。

S704，将降维后的医保数据输入到聚类模型中，得到分类结果。

其中，聚类模型是根据聚类算法建立的模型。

具体地，将降维后的医保数据使用聚类算法进行进行分类，得到分类结果。其中，聚类就是将医保数据中的每个数据点分类到不同的类或者簇的一个过程，以保证同一个类或者簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

S706，根据分类结果得到疑似异常医保数据。

具体地，将医保数据分类结果判断出医保数据中异常类或者簇，并得到这些异常类或者簇对应的医保数据，得到疑似异常医保数据。

则步骤S202，即获取医保数据，包括步骤：

获取疑似异常医保数据。

具体的，获取到疑似异常医保数据，对疑似异常医保数据进行检测，可以对医保数据进行初步的筛选，对筛选后的医保数据进行检测，可以提高对医保数据的检测效率。

在一个实施例中，如图8所示，步骤S704，即将降维后的医保数据输入到聚类模型中，得到分类结果，包括步骤：

S802，获取预设聚类数目，从降维后的医保数据中选取预设聚类数的样本数据，将样本数据作为当前簇中心。

具体地，获取预设聚类数目，即需要分类的类别数，可以根据人为经验进行设置，从降维后的医保数据中选取预设聚类数的样本数据，将得到的该样本数据作为当前簇中心。

S804，从降维后的医保数据中获取除样本数据以外的数据，计算除样本数据以外的数据到当前簇中心的距离。

具体地，从降维后的医保数据中获取除样本数据以外的数据，使用二维或者三维空间中欧氏距离计算公式计算除样本数据以外的数据到当前簇中心的距离。

S806，根据距离将除样本数据以外的数据分配到当前簇中心对应的簇中，得到聚类数目的目标簇。

具体地，根据计算得到的除样本数据以外的数据到每个当前簇中心的距离，判断除样本数据以外的数据对应的距离最小的当前簇，将除样本数据以外的数据分配到距离最小的当前簇中，就得到了聚类数目的目标簇。

S808，计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，返回计算除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果。

具体地，在将除样本数据以外的数据分配完成后，重新计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，然后返回除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，即当前簇中心与上一次的簇中心一致时，即满足收敛条件即将目标簇作为分类结果。其中，可以使用SEE(误差平方和，Sum of Squared Error,简称SSE)作为代价函数，即每个样本点与其所属质心的距离的平方和，作为度量聚类质量的目标函数。当代价函数达到最小值时，说明该当前簇中心与上一次的簇中心一致。

上述实施例中，通过获取预设聚类数目，从降维后的医保数据中选取预设聚类数的样本数据，将样本数据作为当前簇中心；从降维后的医保数据中获取除样本数据以外的数据，计算除样本数据以外的数据到当前簇中心的距离；根据距离将除样本数据以外的数据分配到当前簇中心对应的簇中，得到聚类数目的目标簇；计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，返回计算除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果，能够得到准确的分类结果。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种医保报销异常检测装置900，包括：数据获取模块902、检测模块904和结果得到模块906，其中：

数据获取模块902，用于获取医保数据，根据医保数据得到医保输入特征值；

检测模块904，用于将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；

结果得到模块906，用于根据异常分数得到检测结果。

上述实施例中，通过数据获取模块902获取到医保数据并根据医保数据得到医保输入特征值，在检测模块904中将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，最后在结果得到模块906得到检测结果，能够提高医保报销异常检测效率。

在一个实施例中，数据获取模块902，包括：

特征集得到模块，用于根据医保数据得到预设特征类型对应的特征集；

特征选择模块，用于根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从医保数据中得到医保输入特征对应的医保输入特征值。

在一个实施例中，特征选择模块，包括：

特征子集生成模块，用于根据预设特征类型对应的特征集使用启发式搜索算法生成特征子集；

目标特征子集得到模块，用于计算特征子集对应的评价函数值，当评价函数值达到停止准则时，得到目标特征子集，将目标特征子集作为医保输入特征。

在一个实施例中，医保报销异常检测装置900，还包括：

历史数据获取模块，用于获取历史医保数据，将历史医保数据作为初始样本数据；

当前节点选择模块，用于随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点；

划分条件选择模块，用于随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值；

划分模块，用于根据特征值对目标树当前节点二叉划分，得到目标树当前节点的叶子节点，将叶子节点作为目标树当前节点；

目标树得到模块，用于返回随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值的步骤，当达到预设条件时，得到目标树；

隔离森林形成模块，用于返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。

在一个实施例中，检测模块904，包括：

路径计算模块，用于使用医保输入特征值遍历隔离森林中的每颗树，计算出医保输入特征值在每颗树中经过的路径长度；

平均路径计算模块，用于根据医保输入特征值在每颗树中经过的路径长度计算医保输入特征值在隔离森林中的平均路径长度；

异常分数计算模块，用于根据平均路径长度计算医保输入特征值对应的异常分数。

在一个实施例中，医保报销异常检测装置900，还包括：

数据降维模块，用于获取医保数据，使用降维算法得到降维后的医保数据；

分类模块，用于将降维后的医保数据输入到聚类模型中，得到分类结果；

疑似异常数据得到模块，用于根据分类结果得到疑似异常医保数据。

则数据获取模块902，包括：

疑似数据获取模块，用于获取疑似异常医保数据。

在一个实施例中，分类模块，包括：

当前簇中心确定模块，用于获取预设聚类数目，从降维后的医保数据中选取预设聚类数的样本数据，将样本数据作为当前簇中心；

距离计算模块，用于从降维后的医保数据中获取除样本数据以外的数据，计算除样本数据以外的数据到当前簇中心的距离；

分配模块，用于根据距离将除样本数据以外的数据分配到当前簇中心对应的簇中，得到聚类数目的目标簇；

重复聚类模块，用于计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，返回计算除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果。

关于医保报销异常检测装置的具体限定可以参见上文中对于医保报销异常检测方法的限定，在此不再赘述。上述医保报销异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医保数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医保报销异常检测方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取医保数据，根据医保数据得到医保输入特征值；将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；根据异常分数得到检测结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据医保数据得到预设特征类型对应的特征集；根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从医保数据中得到医保输入特征对应的医保输入特征值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据预设特征类型对应的特征集使用启发式搜索算法生成特征子集；计算特征子集对应的评价函数值，当评价函数值达到停止准则时，得到目标特征子集，将目标特征子集作为医保输入特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取历史医保数据，将历史医保数据作为初始样本数据；随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点；随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值；根据特征值对目标树当前节点二叉划分，得到目标树当前节点的叶子节点，将叶子节点作为目标树当前节点；返回随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值的步骤，当达到预设条件时，得到目标树；返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：使用医保输入特征值遍历隔离森林中的每颗树，计算出医保输入特征值在每颗树中经过的路径长度；根据医保输入特征值在每颗树中经过的路径长度计算医保输入特征值在隔离森林中的平均路径长度；根据平均路径长度计算医保输入特征值对应的异常分数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取医保数据，使用降维算法得到降维后的医保数据；将降维后的医保数据输入到聚类模型中，得到分类结果；根据分类结果得到疑似异常医保数据。则计算机程序被处理器执行时还实现以下步骤，包括：获取疑似异常医保数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预设聚类数目，从降维后的医保数据中选取预设聚类数的样本数据，将样本数据作为当前簇中心；从降维后的医保数据中获取除样本数据以外的数据，计算除样本数据以外的数据到当前簇中心的距离；根据距离将除样本数据以外的数据分配到当前簇中心对应的簇中，得到聚类数目的目标簇；计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，返回计算除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取医保数据，根据医保数据得到医保输入特征值；将医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；根据异常分数得到检测结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据医保数据得到预设特征类型对应的特征集；根据预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从医保数据中得到医保输入特征对应的医保输入特征值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据预设特征类型对应的特征集使用启发式搜索算法生成特征子集；计算特征子集对应的评价函数值，当评价函数值达到停止准则时，得到目标特征子集，将目标特征子集作为医保输入特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取历史医保数据，将历史医保数据作为初始样本数据；随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点；随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值；根据特征值对目标树当前节点二叉划分，得到目标树当前节点的叶子节点，将叶子节点作为目标树当前节点；返回随机选择目标特征，在目标树当前节点中随机选择目标特征对应的特征值的步骤，当达到预设条件时，得到目标树；返回随机从初始样本数据中选择目标样本数据，将目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：使用医保输入特征值遍历隔离森林中的每颗树，计算出医保输入特征值在每颗树中经过的路径长度；根据医保输入特征值在每颗树中经过的路径长度计算医保输入特征值在隔离森林中的平均路径长度；根据平均路径长度计算医保输入特征值对应的异常分数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取医保数据，使用降维算法得到降维后的医保数据；将降维后的医保数据输入到聚类模型中，得到分类结果；根据分类结果得到疑似异常医保数据。则计算机程序被处理器执行时还实现以下步骤，包括：获取疑似异常医保数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取预设聚类数目，从降维后的医保数据中选取预设聚类数的样本数据，将样本数据作为当前簇中心；从降维后的医保数据中获取除样本数据以外的数据，计算除样本数据以外的数据到当前簇中心的距离；根据距离将除样本数据以外的数据分配到当前簇中心对应的簇中，得到聚类数目的目标簇；计算目标簇的目标簇中心，将目标簇中心作为当前簇中心，返回计算除样本数据以外的数据到当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医保报销异常检测方法，所述方法包括：

获取医保数据，根据所述医保数据得到医保输入特征值；

将所述医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，所述已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；

根据所述异常分数得到检测结果。

2.根据权利要求1所述的方法，其特征在于，根据所述医保数据得到医保输入特征值，包括：

根据所述医保数据得到预设特征类型对应的特征集；

根据所述预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，从所述医保数据中得到所述医保输入特征对应的医保输入特征值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述预设特征类型对应的特征集使用特征选择算法进行特征选择，得到医保输入特征，包括：

根据所述预设特征类型对应的特征集使用启发式搜索算法生成特征子集；

计算所述特征子集对应的评价函数值，当所述评价函数值达到停止准则时，得到目标特征子集，将所述目标特征子集作为医保输入特征。

4.根据权利要求1所述的方法，其特征在于，所述已训练的医保报销异常检测模型的生成步骤包括：

获取历史医保数据，将历史医保数据作为初始样本数据；

随机从所述初始样本数据中选择目标样本数据，将所述目标样本数据作为目标树当前节点；

随机选择目标特征，在所述目标树当前节点中随机选择所述目标特征对应的特征值；

根据所述特征值对所述目标树当前节点二叉划分，得到所述目标树当前节点的叶子节点，将所述叶子节点作为目标树当前节点；

返回随机选择目标特征，在所述目标树当前节点中随机选择所述目标特征对应的特征值的步骤，当达到预设条件时，得到目标树；

返回随机从所述初始样本数据中选择目标样本数据，将所述目标样本数据作为目标树当前节点的步骤，当达到预设数目的目标树时，形成隔离森林，得到已训练的医保报销异常检测模型。

5.根据权利要求1所述的方法，其特征在于，将所述医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，包括：

使用所述医保输入特征值遍历所述隔离森林中的每颗树，计算出所述医保输入特征值在每颗树中经过的路径长度；

根据所述医保输入特征值在每颗树中经过的路径长度计算所述医保输入特征值在隔离森林中的平均路径长度；

根据所述平均路径长度计算所述医保输入特征值对应的异常分数。

6.根据权利要求1所述的方法，其特征在于，所述在获取医保数据之前，还包括：

获取医保数据，使用降维算法得到降维后的医保数据；

将所述降维后的医保数据输入到聚类模型中，得到分类结果；

根据所述分类结果得到疑似异常医保数据。

则所述获取医保数据，包括：

获取疑似异常医保数据。

7.根据权利要求6所述的方法，其特征在于，将所述降维后的医保数据输入到聚类模型中，得到分类结果，包括：

获取预设聚类数目，从所述降维后的医保数据中选取所述预设聚类数的样本数据，将所述样本数据作为当前簇中心；

从所述降维后的医保数据中获取除所述样本数据以外的数据，计算除所述样本数据以外的数据到所述当前簇中心的距离；

根据所述距离将所述除所述样本数据以外的数据分配到所述当前簇中心对应的簇中，得到所述聚类数目的目标簇；

计算所述目标簇的目标簇中心，将所述目标簇中心作为当前簇中心，返回计算除所述样本数据以外的数据到所述当前簇中心的距离的步骤进行重复聚类，当满足收敛条件时，得到分类结果。

8.一种医保报销异常检测装置，其特征在于，所述装置包括：

数据获取模块，用于获取医保数据，根据所述医保数据得到医保输入特征值；

检测模块，用于将所述医保输入特征值输入已训练的医保报销异常检测模型中，得到异常分数，所述已训练的医保报销异常检测模型是根据历史医保数据使用无监督机器学习算法进行训练得到的；

结果得到模块，用于根据所述异常分数得到检测结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。