通过数据分析推断医疗保险违规行为的风控方法
技术领域
本发明涉及互联网数据处理技术领域,尤其涉及通过数据分析推断医疗 保险违规行为、为系统审核或人工稽核提供依据的风控方法。
背景技术
在医保社会体系中,每天都有数以万计的门诊、医院医疗行为的交易数 据发生,主要包括病人与医疗机构的交易、医疗机构与保险机构的交易等。 目前,现有医保处理系统在处理支付交易时难以精准识别病人的真正需求, 参保人或医疗机构有从中谋取不当利益的可能性。医疗欺诈行为的存在严重 影响了医疗保险基金的收支平衡,侵害了参保人的利益和社会公益。
政府和相关部门已致力于采用大数据方法鉴别医保欺诈行为,控制医保 风险。然而,现有的医保风控方案多基于设定阈值红线以达到监测欺诈、浪 费、滥用等违规行为,而因违规行为常随医保政策、支付方式及监管力度变 化,故简单的阈值划分不适合多场景、参保人员组成、政策更替的实际应用 环境。
发明内容
有鉴于此,针对现有技术的上述缺点,存在采用机器学习和分类器建模 等技术手段来解决上述问题的需要。
根据本发明的实施例,提供了一种通过数据分析推断医疗保险违规行为 的风控方法,其特征在于,风控对象的就诊目的被划分为正常目的和异常目 的,所述方法包括以下步骤:步骤1、获取风控对象的当前及历史就诊行为 数据、以及与风控对象相关的个人信息和公共数据;步骤2、从在步骤1获取 的数据中提取与风控对象的就诊行为相关的特征;步骤3、根据所提取的特 征,将风控对象的当前及历史就诊行为中的每次就诊行为划分到相应的就诊 类别,形成就诊类别序列;步骤4、将在步骤3中形成的就诊类别序列作为观 测序列,将就诊目的作为隐含状态,根据隐马尔可夫模型计算出最可能的隐 含状态序列;步骤5、如果所述最可能的隐含状态序列中包含的一个或多个 隐含状态对应于异常目的,则输出与所述风控对象的当前及历史就诊行为相 关的医疗数据。
根据本发明的实施例,提供了一种用于进行如权利要求1至7中的一个 所述的方法的风控系统,包括:风控对象数据获取模块,被配置用于获取风 控对象的当前及历史就诊行为数据、以及与风控对象相关的个人信息和公共 数据;特征提取模块,被配置用于从所述风控对象数据获取模块获取的数据 中提取与风控对象的就诊行为相关的特征;就诊分类模块,被配置用于根据 所提取的特征,将风控对象的当前及历史就诊行为中的每次就诊行为划分到 相应的就诊类别,形成就诊类别序列;就诊目的推测模块,被配置用于将在所述就诊类别序列作为观测序列,将就诊目的作为隐含状态,根据隐马尔可 夫模型计算出最可能的隐含状态序列;异常输出模块,被配置用于在所述隐 含状态序列中包含的隐含状态中的一个对应于异常目的的情况下,输出与所 述风控对象的当前及历史就诊行为相关的医疗数据。
根据本发明的实施例,提供了一种计算机可读存储介质,其上存储用于 执行通过数据分析推断医疗保险违规行为的风控方法的程序,所述程序在被 处理器执行时,实现根据所述方法的步骤。
本发明的有益效果主要在于:
1、提高了医保基金风控的灵活性与适应性;
2、通过现有行为组合预演可能发生的违规;
3、在风险识别和控制的过程中自动存留相关证据链,以供后序处理。
附图说明
图1为根据本发明的实施例的通过数据分析推断医疗保险违规行为的风 控方法的流程示意图;
图2为根据本发明的实施例的通过数据分析推断医疗保险违规行为的风 控系统的功能模块示意图;
图3示出了根据HMM模型计算出隐含的就诊目的序列后判断是否纳入 异常监督的总体流程;
图4示出了根据本发明的实施例的安装了应用程序的系统的运行环境。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施 例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任 何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它 们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中, 可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等 处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明 书的公开充分性。
下文中,将参照附图描述本发明的实施例。
注意,将以下面的次序给出描述:1、通过数据分析推断医疗保险违规行 为的风控方法(图1);2、通过数据分析推断医疗保险违规行为的系统(图 2-3);3、安装了用于实现本发明的实施例的应用程序的系统、以及存储所述应用程序的计算机可读介质(图4)。
1、通过数据分析推断医疗保险违规行为的风控方法
图1为根据本发明的实施例的通过数据分析推断医疗保险违规行为的风 控方法的流程示意图。
如图1所示,根据本发明的实施例的通过数据分析推断医疗保险违规行 为的风控方法主要包括以下步骤:
步骤S100、数据获取,即,获取与数据分析相关的各类信息,包括参保 人(风控对象)信息和公共信息。
其中,参保人(风控对象)信息包括参保人的当前及历史就诊行为数据、 以及与参保人相关的个人信息;
所述参保人信息包括参保人的医保结算数据、参保人的年龄、性别、文 化、职业等人口学信息,所述公共信息包括结合公开数据库如公司工商注册 数据获取的医疗机构规模、地理、等级数据、医生职称、注册情况等信息、 从新闻等公开信息抓取的各地医保基金稽核情况和通报情况、既往医保基金 稽核中识别为问题的个案行为,等等。
步骤S200、从上一步骤获取的信息中提取特征,即,从在步骤S100获取 的数据中提取与参保人的就诊行为相关的特征。
具体地,从上述各类数据中提取数据特征,以进行下一步的分类,所提 取的特征主要分为以下几类:
人口学特征:包括年龄、性别、职业、文化水平等;
地理特征:参保人籍贯、公司地理位置、医疗机构地理位置、参保区域 等;
时间特征:就诊时间、就诊间期、参保时间;
医疗特征:诊断、就诊科室、医疗消费清单、医疗机构规模、医疗机构 等级、医疗机构既往案底标签、医生职称等;
费用特征:单次花费、时间段总花费、费用构成比例(诊疗费用、药品 费用、检验检查费用、材料费用)等;
步骤S300、建立就诊类别分类,即,根据在步骤S200中所提取的特征, 将参保人的当前及历史就诊行为中的每次就诊行为划分到相应的就诊类别, 形成就诊类别序列,
具体地,根据在步骤S200中提取的特征,使用无监督学习的方式,将医 保结算数据的就诊类别聚类为不同的类型。
步骤S400、建立隐马尔可夫模型(HMM)模型
以参保人为轴线构建隐马尔可夫模型。
其中,以参保人维度构建的隐含状态包括:体检、初诊、复诊、配药、 住院、异常。
将在步骤S300中建立的就诊类别作为观测序列,利用Baum-Welch算法 推导出隐马尔可夫模型参数(观测概率矩阵和状态转移矩阵)。
步骤S500、利用在步骤S400中建立的HMM模型,根据参保人的当前行 为数据以及历史行为数据,输出推理结果及证据链。
具体地,将在步骤S300中形成的就诊类别序列作为观测序列,将就诊目 的作为隐含状态,根据隐马尔可夫模型计算出最可能的隐含状态序列。
其中,当根据观测概率矩阵和状态转移矩阵推理某个参保人有异常就诊 行为时,将相应的参保人为风险目标输出,并将其记录的行为特征状态转移 情况作为证据链输出到系统审核或人工稽核。
作为示例,在步骤S100中,医保结算数据及参保人人口学特征由实施地 社保结算系统提供;公司工商注册信息可通过中华人民共和国国家工商行政 管理总局网站公开渠道获取;医疗机构规模、地理、等级数据可通过各地卫 生和计划生育委员会网站及医院主页公开渠道获取;医生职称、注册情况可 通过各地卫生和计划生育委员会网站公开渠道获取;各地医保基金稽核情况 和通报情况可通过新闻网络爬虫收集及整理;既往医保基金稽核中识别为问 题的个案行为需从实施地社保历年数据获取。
作为示例,在步骤S200中,所提取的特征包括以下几类。
人口学特征:包括年龄、性别、职业、文化水平、工作单位等,从实施 地社保数据库直接提取,工作单位通过与工商注册信息相关联。
地理特征:通过网络地理位置提供商,将参保人籍贯、公司地理位置、 医疗机构地理位置、参保区域、各地理位置间的距离转换为坐标值和数值进 行储存。例如将籍贯“上海”作为输入到百度地图API以获取上海的GPS坐 标,将某某小区与某某医院为输入地图API以获取两地的地理距离。
时间特征:就诊时间、就诊间期、参保时间。就诊时间、参保时间由数 据直接提取,就诊间期为前后两次就诊日期的差值。
医疗特征:诊断、就诊科室、医疗消费清单、医疗机构规模、医疗机构 等级、医疗机构既往案底标签、医生职称
费用特征:单次花费、时间段总花费、费用构成比例(诊疗费用、药品 费用、检验检查费用、材料费用)等
作为示例,在步骤S300中,可使用K-means算法或者RVM分类器,将 在步骤S200中提取的特征聚类为不同的就诊类别类别。如将肿瘤病人就诊分 为以消费检验检查为主的初诊状态和以药品为主的化疗状态。
作为示例,在步骤S400中,可如下建立隐马尔可夫模型(HMM)模型。
将提取的不同就诊类别分类作为观测序列O,患者就诊的目的(体检、 初诊、复诊、配药、住院、异常)作为隐含状态,使用Baum-Welch算法求解 出隐马尔可夫模型参数(观测概率矩阵和状态转移矩阵)。
假设在步骤S300中将就诊类别分为4类(就诊类别),则计算出的观测 状态概率矩阵和状态转移概率矩阵分别举例如下(为便于理解,以表格方式 呈现)。
表1观测状态概率矩阵
表2状态转移概率矩阵
上述表格中数据(矩阵中的值)为通过数据统计获得的概率,其可为从 医疗机构获取的已知数据中汇总得出。
作为示例,在步骤S500中,根据在步骤S400中计算出的观测概率矩阵 和状态转移矩阵,依据患者就诊行为,能够动态推理出患者每次就诊的目的。
例如,如某患者既往4次就诊的观测序列为O=(就诊类别1,就诊类别3, 就诊类别2,就诊类别2),则依据HMM模型(并非一定对应于上面示例的模 型,可以是任意其它HMM模型)推理的最可能的隐含状态(就诊目的)序 列可为I=(住院,配药,初诊,初诊)。接下来,当患者第5次就诊时,就诊 类别为“就诊类别2”,此时,观测序列变为O=(就诊类别1,就诊类别3,就 诊类别2,就诊类别2,就诊类别2),根据HMM模型,计算出最可能的隐含 状态序列将变为I=(住院,配药,初诊,异常,初诊)。由此,当隐含状态序 列中出现异常状态(对应于异常的就诊目的)时,可将该参保人纳入异常人 群(特别监控人群),并将该隐含状态序列(就诊目的序列)和观测序列(就 诊类别序列)作为特征输出作为证据,提供给系统审核或人工稽核处理。
可选地,还可根据隐含状态序列中出现异常状态(对应于异常的就诊目 的)的数目、计算出的出现异常状态的隐含状态序列的总概率,将相关参保 人(风控对象)划分为不同监控级别的异常人群。
可选地,还可将包括异常状态的全部可能的隐含状态序列的发生概率相 加,得到包含异常状态(异常就诊目的)的总概率,如果所述总概率高于预 定阈值,则可将该风控对象划入特别监控人群。
需要说明的是,上述表格中的数据、以及观测序列为O和隐含状态序列 I的具体内容仅为用于例示本发明的原理的示例,并帮助本领域的技术人员理 解实现本发明的方式,其与真实应用情况并不构成严格的对应关系,同时, 上述数据和具体内容也不构成对本发明的任何限定。
作为可选实施例,如图3所示,还可将疑似不合理的就诊行为(包含异 常就诊目的)划分为如下两种情况:
1、单次或多次就诊目的异常:如上述示例中出现标注为异常的状态,此 时,默认将该风控对象划入特别监控对象,或者需要系统审核或人工稽核处 理;
2、医疗行为序列(隐状态序列)异常:计算出的最可能的隐含状态序列 尽管不包含异常状态,但其发生概率低于预定阈值,例如,该可将所述预定 阈值默认设定为同等长度的最可能的隐含状态序列的发生概率的25%,并可 根据需要随时更改。
例如,某风控对象的4次连续就诊类别序列为(体检,体检,体检,体 检)发生概率低于发生4次连续就诊人群最常见序列发生概率的25%,则认 为是医疗行为序列异常,提示工作人员该风控对象在设定时间段内发生4次 以体检为目的的行为是异常的,并将与该风控对象的体检行为相关的特征(年 龄、性别、就诊无药品消费、检验检查费高、多次检查项目雷同、总费用一 致等)作为证据链输出到后台。
2、通过数据分析推断医疗保险违规行为的系统
根据本发明的实施例,提供了一种用于通过数据分析推断医疗保险违规 行为的系统,其用于实现上述方法,该系统主要包括:
风控对象数据获取模块,被配置用于获取风控对象的当前及历史就诊行 为数据、以及与风控对象相关的个人信息和公共数据;
特征提取模块,被配置用于从所述风控对象数据获取模块获取的数据中 提取与风控对象的就诊行为相关的特征;
就诊分类模块,被配置用于根据所提取的特征,将风控对象的当前及历 史就诊行为中的每次就诊行为划分到相应的就诊类别,形成就诊类别序列;
就诊目的推测模块,被配置用于将在所述就诊类别序列作为观测序列, 将就诊目的作为隐含状态,根据隐马尔可夫模型计算出最可能的隐含状态序 列,其中包含了风控对象最可能的就诊目的;
异常输出模块,被配置用于在所述隐含状态序列中包含的所述风控对象 最可能的就诊目的对应于异常目的的情况下,输出与所述风控对象的当前及 历史就诊行为相关的医疗数据。
根据本发明的实施例,该系统还可包括:
隐马尔可夫模型建立模块,被配置用于利用Baum-Welch算法,基于从医 疗机构或公开数据源获取的大数据,计算出隐马尔可夫模型对应的观测概率 矩阵和状态转移概率矩阵。
3、安装了用于实现本发明的实施例的应用程序的系统、以及存储所述应用程序的
计算机可读介质
此外,本发明的不同实施例也可以通过软件模块或存储在一个或多个计 算机可读介质上的计算机可读指令的方式实现,其中,所述计算机可读指令 当被处理器或设备组件执行时,执行本发明所述的不同的实施例。类似地, 软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述 软件模块可以被存储在任意类型的计算机可读存储介质上,例如RAM、 EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。
具体地,本发明的另一个方面涉及使用硬件和/或软件实现上述不同的实 施例。本领域的技术人员应该理解,可以使用计算设备或者一个或多个处理 器实现或执行本发明的实施例。计算设备或处理器可以是例如通用处理器、 数字信号处理器(DSP)、专用集成芯片(ASIC)、现场可编程门阵列(FPGA) 或其他可编程逻辑设备,等等。本发明不同的实施例也可以被这些设备的组 合执行或体现。
参照图4,其示出了根据本发明的实施例的安装了应用程序的系统的运 行环境。
在本实施例中,所述的安装应用程序的系统安装并运行于电子装置中。 所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。 该电子装置可包括但不限于存储器、处理器及显示器。图4仅示出了具有上 述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以 替代的实施更多或者更少的组件。
所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如 该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子 装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡 (Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单 元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软 件及各类数据,例如所述安装应用程序的系统的程序代码等。所述存储器还 可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代 码或处理数据,例如执行所述安装应用程序的系统等。
所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液 晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸 器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视 化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件 通过系统总线相互通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解,上述 实施方式中的方法可借助软件加必需的通用硬件平台的方式来实现,当然也 可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理 解,本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以 以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以 是手机,计算机,服务器,空调器,或者网络设备等)执行本发明本申请各 个实施例所述的方法。
也就是说,根据本发明的实施例,还提供了一种计算机可读存储介质, 其上存储用于执行通过数据分析推断医疗保险违规行为的风控方法的程序, 所述程序在被处理器执行时,实现根据所述方法的步骤。
由上,将理解,为了说明的目的,这里已描述了本发明的具体实施例, 但是,可作出各个修改,而不会背离本发明的范围。本领域的技术人员将理 解,流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具 体地,可重新安排步骤的次序,可并行执行步骤,可省略步骤,可包括其它 步骤,可作出例程的各种组合或省略。因而,本发明仅由所附权利要求限制。