CN111709845A

CN111709845A - 医保欺诈行为识别方法、装置、电子设备及存储介质

Info

Publication number: CN111709845A
Application number: CN202010484965.8A
Authority: CN
Inventors: 朱波; 张骁雅; 董子坤; 尹珊珊; 田雅如; 傅兆翔; 艾馨; 舒正; 刘英杰; 赵明; 李璐璐
Original assignee: Qingdao Guoxin Health Industry Technology Co ltd
Current assignee: Qingdao Guoxin Health Industry Technology Co ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-25

Abstract

本发明实施例提供一种医保欺诈行为识别方法、装置、电子设备及存储介质，方法包括：获取目标病例的费用信息；根据目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值；根据目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为。本发明实施例提供的医保欺诈行为识别方法、装置、电子设备及存储介质，通过发现目标病例费用信息中所隐含的内在规律，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

Description

医保欺诈行为识别方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种医保欺诈行为识别方法、装置、电子设备及存储介质。

背景技术

医疗保险是社会保险的重要组成部分，长期以来，欺诈骗取医保基金的违法违规行为花样频出，严重侵害了人民群众的合法权益，破坏了医保基金的正常运行，造成了恶劣的社会影响。

现有技术中，对医保欺诈行为的识别主要通过民间举报与人工抽查两种形式。这两种形式都主要依赖于人工实现，具有识别量低与识别成本高的问题。

发明内容

本发明实施例提供一种医保欺诈行为识别方法、装置、电子设备及存储介质，用以解决现有技术中的医保欺诈识别方法识别量低以及识别成本高的问题。

本发明第一方面实施例提供一种医保欺诈行为识别方法，包括：

获取目标病例的费用信息；

根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值；

根据所述目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为；其中，

所述医保欺诈行为识别模型是基于样本病例的费用信息以及样本病例的标签信息进行训练得到的，其中所述样本病例的标签信息用于描述样本病例是否存在医保欺诈行为；

所述医保欺诈行为包括以下行为中的任意一种：虚假住院、挂床住院以及过度医疗。

上述技术方案中，所述医保欺诈行为识别模型是以样本病例的费用特征数据作为输入数据，以样本病例是否存在医保欺诈行为的信息作为标签，通过对神经网络进行训练所得到的模型；其中，所述样本病例的费用特征数据是基于样本病例的费用信息得到的。

上述技术方案中，所述医保欺诈行为识别模型是以样本病例的费用特征数据作为输入数据，以样本病例是否存在医保欺诈行为的信息作为标签，通过对BERT模型进行训练所得到的模型；其中，所述样本病例的费用特征数据是基于样本病例的费用信息得到的。

上述技术方案中，所述根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值包括：

根据目标病例的费用信息，得到目标病例的第一费用特征数据；其中，第一费用特征数据为能够反映费用类别与费用金额的数据；

将目标病例的第一费用特征数据输入基于神经网络训练得到的医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值。

上述技术方案中，所述根据目标病例的费用信息，得到目标病例的第一费用特征数据包括：

根据所述目标病例的费用信息中的费用类别信息，得到费用类别信息的标准码；

根据费用类别信息的标准码，得到费用类别信息的分类码；

根据所述费用类别信息的标准码和分类码，结合费用信息中的费用金额信息，生成目标病例的第一费用特征数据。

上述技术方案中，所述根据费用类别信息的标准码，得到费用类别信息的分类码包括：

根据费用类别信息的标准码，得到费用类别信息的初级分类码；

滤除对病种识别重要程度低于预设阈值的初级分类码，得到费用类别信息的分类码。

根据目标病例的费用信息，得到目标病例的第二费用特征数据；其中，第二费用特征数据为能够反映费用类别与费用发生时间的数据；

将目标病例的第二费用特征数据输入基于BERT模型训练得到的医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值。

上述技术方案中，所述根据目标病例的费用信息，得到目标病例的第二费用特征数据包括：

将目标病例的费用信息按照时间排序；

根据经过时间排序的、一段时期内的目标病例的费用信息中的费用类别信息，得到目标病例的第二费用特征数据。

上述技术方案中，在所述根据经过时间排序的、一段时期内的目标病例的费用信息中的费用类别信息，得到目标病例的第二费用特征数据的步骤之前，还包括：

将目标病例的费用信息中的费用类别信息转换为标准码。

上述技术方案中，还包括：

采集样本病例的费用信息；

对样本病例的费用信息进行检测，确定样本病例是否存在医保欺诈行为；

将样本病例的费用信息作为训练使用的输入数据，将样本病例是否存在医保欺诈行为的检测结果作为标签，采用机器学习的方法进行训练，得到用于生成目标病例存在医保欺诈行为概率值的医保欺诈行为识别模型。

本发明第二方面实施例提供一种医保欺诈行为识别装置，包括：

信息获取模块，用于获取目标病例的费用信息；

识别模块，用于根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值；

判断模块，用于根据所述目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为；其中，

所述医保欺诈行为识别模型是基于样本病例的费用信息以及样本病例的标签信息进行训练得到的，其中所述样本病例的标签信息用于描述样本病例是否存在医保欺诈行为。

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述医保欺诈行为识别方法的步骤。

本发明第四方面实施例一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述医保欺诈行为识别方法的步骤。

本发明实施例提供的医保欺诈行为识别方法、装置、电子设备及存储介质，通过发现目标病例费用信息中所隐含的内在规律，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的医保欺诈行为识别方法的流程图；

图2为本发明实施例提供的医保欺诈行为识别装置的示意图；

图3示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

医保欺诈行为通过伪造虚假材料，骗取医保基金，具有极大的社会危害。医保欺诈行为具有多种场景，例如，虚假住院、挂床住院以及过度医疗等。

虚假住院是指完全编造住院治疗资料以骗取医保基金。例如：某医疗机构收集退休人员医保卡，通过伪造病历辅助检查的形式，完成虚假住院的操作，最终达到骗取医疗保险的目的。

挂床住院是指医保卡持卡人实际只在门诊接受医疗服务，但医疗机构在执行医保报销流程时填报医保卡持卡人通过住院的方式接受医疗服务，从而达到获取额外报销费用的目的。

过度医疗是指医保卡持卡人在使用费用较低项目(耗材、治疗或药品)就能达到治疗目的的前提下，医疗机构为其采用费用更昂贵的项目，从而达到获取额外报销费用的目的。

针对上述多种类型的医保欺诈行为，本发明实施例提供的医保欺诈行为识别方法能够自动识别医保欺诈行为，达到快速、高效识别的目的。

图1为本发明实施例提供的医保欺诈行为识别方法的流程图，如图1所述，本发明实施例提供的医保欺诈行为识别方法包括：

步骤101、获取目标病例的费用信息。

在本发明实施例中，目标病例是指需要核查是否存在医保欺诈行为的病例。目标病例可以是一个，也可以是多个。在本发明实施例中，不对目标病例的数目加以限制。

目标病例的费用信息为该病例的患者在就诊期间的费用信息。例如，患者在就诊期间接受医疗服务所支付的费用的信息，患者在就诊期间购买药品所支付的费用的信息，患者在就诊期间购买或使用医疗器械所支付的费用的信息。需要说明的是，费用信息不仅包括费用的金额信息，还包括费用的类别信息以及费用发生的时间信息。例如，一项费用信息的金额为60元，其对应的类别为医疗服务费，该费用的发生时间为2020年5月20日上午10点32分。

目标病例的费用信息除了包括费用金额信息、费用类别信息以及费用发生时间的信息外，还包括其他类型的信息，如患者的患者ID、病案ID、性别、年龄、体重、入院日期、社保卡号等。在本发明实施例中，对此不做具体的限定。

步骤102、根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值。

在本发明的实施例中，医保欺诈行为识别模型是预先训练完成的。在本发明的其它实施例中，将对病案信息预测模型的训练过程做进一步说明。

步骤103、根据所述目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为。

医保欺诈行为识别模型能够根据目标病例存在医保欺诈行为的概率值，将这一概率值与预设的阈值进行比较，当目标病例存在医保欺诈行为的概率值大于或等于预设的阈值，则该目标病例存在医保欺诈行为；当目标病例医保欺诈行为的概率值小于预设的阈值，则该目标病例不存在医保欺诈行为。例如，预设阈值的大小为0.6，根据医保欺诈行为识别模型，目标病例A存在医保欺诈行为的概率值为0.7，则目标病例A存在医保欺诈行为。根据医保欺诈行为识别模型，目标病例B存在医保欺诈行为的概率值为0.2，则目标病例B不存在医保欺诈行为。

本发明实施例提供的医保欺诈行为识别方法通过发现目标病例费用信息中所隐含的内在规律，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

基于上述任一实施例，在本发明实施例中，所述医保欺诈行为识别模型是以样本病例的费用特征数据作为输入数据，以样本病例是否存在医保欺诈行为的信息作为标签，通过对神经网络(Neural Network，即NN)训练所得到的模型。

所述神经网络是一种监督学习算法。该方法从信息处理角度对人脑神经元网络进行模仿，由大量的节点(或称神经元)之间相互联接构成。在本发明实施例中，所述神经网络为多层神经网络(Deep Neural Network)，存在多个隐藏层。每个隐藏层为了防止过拟合加入了正则化措施Dropout，中间隐藏层为了降低梯度消失/爆炸采用ReLU函数作为激活函数，输出层使用sigmoid函数作为激活函数，优化器经过训练时测试选择效果最好的Adam优化器。

样本病例的费用特征数据是基于样本病例的费用信息得到的。在本发明的其他实施例汇总，将对样本病例的费用特征数据的生成过程做详细说明。

本发明实施例提供的医保欺诈行为识别方法所采用的医保欺诈行为识别模型是基于神经网络生成的，能够利用神经网络并行、容错、可以自我改进等优点，具有良好的医保欺诈行为识别效果。

基于上述任一实施例，在本发明实施例中，所述医保欺诈行为识别模型是以样本病例的费用特征数据作为输入数据，以样本病例是否存在医保欺诈行为的信息作为标签，通过对BERT模型进行训练所得到的模型；其中，所述样本病例的费用特征数据是基于样本病例的费用信息得到的。

BERT(Bidirectional Encoder Representations from Transformers，基于Transformer模型的双向编码器表征)模型是由谷歌公司(Google)于2018年末开发并发布的一种语言模型。

在本发明实施例中，将目标病例的费用信息中的费用类别信息以标准码的方式进行描述，并按照费用发生时间做时间排序，从而形成关于收费项目的字符串。将这些字符串输入BERT模型中，可由BERT模型输出目标病例存在医保欺诈行为的概率值。BERT模型应用了费用信息中的时间信息，有助于提高医保欺诈行为的识别效果。

本发明实施例提供的医保欺诈行为识别方法所采用的医保欺诈行为识别模型是基于BERT模型生成的，通过对费用信息中的时间信息的利用，有助于提高医保欺诈行为的识别效果。

基于上述任一实施例，在本发明实施例中，步骤101还包括：

对所获取的目标病例的费用信息进行清洗。

本领域技术人员可以知道，在采集数据时，通常会出现所采集的数据有重复、有遗漏、有错误以及不符合格式等问题。因此在本发明实施例中，需要对所获取的目标病例的费用信息进行清洗。

在本发明实施例中，清洗费用信息包括以下操作中的一种或多种：去除带有逻辑错误的数据，去除带有缺失值的数据，统一编码大小写，统一编码数据类型，去除编码的左右空白，统一中文全角半角符号等。

本发明实施例提供的医保欺诈行为识别方法通过对目标病例的费用信息的清洗，保证了数据的质量，为后续的医保欺诈行为识别提供了良好的基础。

基于上述任一实施例，在本发明实施例中，所述步骤102进一步包括：

在之前的描述中已经提到，目标病例的费用信息包括费用金额信息、费用类别信息以及费用发生时间的信息。基于这些信息可进一步得到目标病例的第一费用特征数据。

在本发明实施例中，第一费用特征数据是能够反映费用类别与费用金额的数据。第一费用特征数据适用于基于神经网络训练得到的医保欺诈行为识别模型。

例如，第一费用特征数据的一种表达形式为矩阵的形式。矩阵中的列代表了费用类别信息，矩阵中的行代表了目标病例的标识信息。矩阵中的数值代表了某一目标病例(数值所在行所对应的目标病例)在某一类别(数值所在列所对应的类别)下的消费金额占比。

将目标病例的第一费用特征数据输入基于神经网络训练得到的医保欺诈行为识别模型后，医保欺诈行为识别模型会输出一个二分类的结果，即目标病例存在医保欺诈行为的概率值。

医保欺诈行为识别模型的输出结果也可以是一个矩阵，矩阵中的列代表了存在医保欺诈行为，矩阵中的行代表了目标病例的标识信息。矩阵中的数值代表了某一目标病例(数值所在行所对应的目标病例)存在医保欺诈行为的概率值。

本发明实施例提供的医保欺诈行为识别方法通过从目标病例的费用信息中提取能够反映费用类别与费用金额的第一费用特征数据，将第一费用特征数据输入基于神经网络训练得到的医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

基于上述任一实施例，在本发明实施例中，所述根据目标病例的费用信息，得到目标病例的第一费用特征数据的过程具体包括：

根据费用类别信息的标准码，得到费用类别信息的分类码；

在本发明实施例中，费用类别信息用于描述相关费用的产生源头，例如是哪类药品的费用，或是哪类医疗器械的费用，或是哪种医疗服务的费用。

在计算机存储时，费用类别信息一般以编码的方式予以表示，例如，药品奥曲肽用编码“tx48”表示。目前由于各个地方、各个公司都有各自的编码体系，因此从数据库中获取的目标病例的费用信息中，关于费用类别的信息千差万别，为了实现统一的处理，需要将关于费用类别信息的原始码映射为标准码。

在本发明实施例中，关于费用类别信息的标准码可参照现有的相关标准制定，如：《医疗服务项目分类与代码(医保版)》、《医保药品分类与代码(医保版)》、《医保医用耗材分类与代码(医保版)》。

在将关于费用类别信息的原始码映射为标准码的过程中，核心问题在于实现原始码与标准码的对应。一种实现方式是将原始码对应的中文名称与标准码对应的中文名称进行匹配，进而实现原始码与标准码的对应。另一种实现方式是基于已有的基础匹配信息，实现原始码与标准码的对应。

例如，已知有表1中的基础匹配信息：

表1

原始码	药品名称	标准码	药品名称
				tx48	奥曲肽	h14120200000056503	奥曲肽

在原始码与标准码的对应过程中，奥曲肽的原始码未必都表示为tx48，例如在某一地区，奥曲肽的原始码表示为tx48001。考虑到在编码时一般存在大分类在前、小分类在后的特点，可以对原始码进行多次截取，并在每次截取时与已有的基础匹配信息进行对照，根据对照结果实现原始码与标准码的对应。如对原始码“tx48001”按照从左到右的顺序依次截取，当截取到“tx48”时与表1中的原始码“tx48”一致，可将原始码“tx48001”映射到标准码“h14120200000056503”。

将关于费用类别信息的原始码映射为标准码后，标准码的种类数量较为庞大，不利于后续的处理，因此还要进一步将标准码映射为分类码。分类码本质上依然属于标准码，它描述了具体类型的标准码的上一级分类。例如，标准码h07060000000374903(代表13价肺炎球菌多糖结合疫苗)，其对应的分类码为H07#H0706##(代表全身用抗感染药#疫苗类##)。将标准码映射为分类码可参照相关的标准实现，因此不在此处做进一步描述。

在得到费用类别信息的标准码和分类码后，结合费用信息中的费用金额信息，生成目标病例的第一费用特征数据。

第一费用特征数据包括有多个特征项，这些特征项包括分类码。另外考虑到一些标准码在病种识别上有着独特的效果，如标准码331104026(代表尿道下裂修复术)，其对应的分类码为F F#F FM#F FMD#(代表临床手术治疗#(十二)泌尿系统#4.尿道#)。该标准码能够反映出具体的病种，但在分类码层面具体的病种信息反而被抽象化了，因此费用特征数据的特征项也可以包括这些在病种识别上有着独特效果的标准码。

例如，在一个实施例中，经分析认为与医疗服务有关的分类码以及在病种识别上有独特效果的标准码一共有2400种，那么费用特征数据的特征项一共有2400项。

第一费用特征数据除了包括特征项外，还包括目标病例在相关特征项下的金额信息。

例如，某一目标病例的费用信息中包括有三个类别的费用，分别为类别A、类别B以及类别C。其中类别A的费用可对应分类码a，类别B的费用可对应分类码b，类别C的费用可对应标准码c。若第一费用特征数据的特征项有2400项，那么从这些特征项中寻找出分类码a、分类码b以及标准码c所对应的特征项，按照费用金额为这些特征项赋值(未被赋值的特征项的值均为0)，从而得到该目标患者的第一费用特征数据。

作为一种可选的实现方式，目标患者的第一费用特征数据以矩阵的形式进行表示。矩阵中的列代表了对应的特征项，矩阵中的行代表了目标病例的标识信息。若目标病例的数量多于一个，则矩阵有多行，每行代表一个目标病例的第一费用特征数据。矩阵中的数值代表了某一目标病例(数值所在行所对应的目标病例)在某一类别(数值所在列所对应的类别)下的消费金额占比。例如，一个10*2400的矩阵，代表10个病例ID对于2400种特征项的收费占比情况，如果第一行分别在第10列与第2000列分别标记0.1与0.9，并且其他列标记0，那么表示第一个病例ID在诊疗过程中分别在特征项10与特征项2000上存在消费，消费金额占比分别为0.1与0.9。

需要说明的是，在前文中已经提到，医保欺诈行为按照场景可以进一步分为虚假住院、挂床住院以及过度医疗。本发明实施例中所述的医保欺诈行为的概率值可以是虚假住院的概率值，也可以是挂床住院的概率值，还可以是过度医疗的概率值。具体根据医保欺诈行为识别模型在模型训练时所确定的场景而定。

本发明实施例提供的医保欺诈行为识别方法通过对目标病例的费用信息的处理，提取出能够反映费用类别与费用金额的第一费用特征数据，为后续医保欺诈行为的识别打下了良好的基础。

基于上述任一实施例，在本发明实施例中，所述根据费用类别信息的标准码，得到费用类别信息的分类码包括：

滤除对病种识别重要程度低于预设阈值的分类码。

本领域技术人员可以知道，患者所支付的医疗费用中，有些医疗费用具有普遍性，这些医疗费用所对应的分类码对于病种识别帮助不大。例如，分类码F B#F BA#F BAA#(代表实验室诊断#(一)临床血液学检验#1.血液一般检验#)对于识别病种的作用较小。因此，在本发明实施例中，可将这样的分类码予以滤除。

在本发明实施例中，对分类码进行滤除操作的过滤条件为基于对大量病案数据进行TF-IDF(term frequency–inverse document frequency，词频-逆文本频率)运算所找到的低价值分类码。

TF-IDF算法是一种用于资讯检索与文本挖掘的加权算法，用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。在本发明实施例中，将TF-IDF算法引入低价值分类码的识别。所谓的低价值分类码也就是对病种识别帮助小的分类码。

采用TF-IDF算法查找低价值分类码的具体实现方式为：将每个病案的所有收费项目分类视为不同的句子，将每个具体的分类视为词，这样便获得了与病案数量同等量的句子，然后可以通过TF-IDF算法找出各个分类的评价指标值，将各个分类的评价指标值与预先设定的阈值进行比较，从而得到低价值分类。

本发明实施例提供的医保欺诈行为识别方法通过对分类码的过滤有助于更好的抽取费用特征数据，进而有助于提高医保欺诈行为识别模型的识别效率，最终提高医保欺诈行为识别的准确率。

基于上述任一实施例，在本发明实施例中，在根据所述目标病例的费用信息中的费用类别信息，得到费用类别信息的标准码的步骤之前，还包括：

对目标病例的费用信息进行包括去除无效数据和/或数据聚合在内的处理。

从医院或其他医疗机构数据库获取的目标病例的费用信息虽然内容详尽，但其中存在一些无效、重复的数据。因此需要对目标病例的费用信息进行预处理。

在对目标病例的费用信息进行预处理时，首先要剔除费用信息中的退费项目，防止干扰结果。然后对费用信息进行聚合，将不同时间段内的相同收费项目进行合并，以剔除时间维度，得到关于“病例ID、对应收费项目(去重)以及花费金额”的聚合后结果。

本发明实施例提供的医保欺诈行为识别方法通过对目标病例的费用信息进行包括去除无效数据和/或数据聚合在内的处理，有助于提高数据的准确性，为后续医保欺诈行为的识别打下了良好的基础。

在之前的描述中已经提到，目标病例的费用信息包括费用金额信息、费用类别信息以及费用发生时间的信息。基于这些信息可进一步得到目标病例的第二费用特征数据。

在本发明实施例中，第二费用特征数据是能够反映费用类别与费用发生时间的数据。第二费用特征数据适用于基于BERT模型训练得到的医保欺诈行为识别模型。

例如，第二费用特征数据的表现形式为字符串，该字符串中的各个字符是以编码方式表示的费用类别信息，字符串中的各个字符按照对应费用所发生的时间进行排序。一个字符串一般表示一个目标病例在一段时间内的第二费用特征数据，如患者甲在某一天从早至晚依次使用的收费项目用一个字符串予以描述。

将目标病例的第二费用特征数据输入基于BERT模型训练得到的医保欺诈行为识别模型后，医保欺诈行为识别模型会输出一个二分类的结果，即目标病例存在医保欺诈行为的概率值。

医保欺诈行为识别模型的输出结果是与输入的字符串所对应的存在医保欺诈行为的概率值。例如，患者甲一次住院的时间长度是3天，该病例对应的第二费用特征数据是3个字符串，分别描述其在住院第1天、第2天和第3天的费用信息。将这3个字符串输入医保欺诈行为识别模型后，模型会输出对这3个字符串的判断结果，即患者甲分别在住院第1天、第2天和第3天存在医保欺诈行为的概率值。

本发明实施例提供的医保欺诈行为识别方法通过从目标病例的费用信息中提取能够反映费用类别与费用发生时间的第二费用特征数据，将第二费用特征数据输入基于BERT模型训练得到的医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

基于上述任一实施例，在本发明实施例中，所述根据目标病例的费用信息，得到目标病例的第二费用特征数据进一步包括：

将目标病例的费用信息按照时间排序；

在之前的描述中已经提到，目标病例的费用信息中包括有费用发生的时间信息，因此在本发明实施例中，可根据费用发生的时间信息对目标病例的费用信息进行排序。例如，患者甲在某一医院住院3天，可将这3天的费用信息按照费用发生的时间进行排序。鉴于第二费用特征数据只与费用类别信息以及费用发生时间信息相关，因此在本发明的其他实施例中，也可只对目标病例的费用信息中的费用类别信息按照时间排序。

在完成时间排序后，可从排序后的数据中选取一段时期内的目标病例的费用信息中的费用类别信息，将这些费用类别信息进行拼接，得到目标病例的第二费用特征数据。在本发明实施例中，以天为单位，将一天内的、排序后的费用类别信息作为一个独立的第二费用特征数据。例如，患者甲在某一医院住院3天，根据其在住院第1天、第2天和第3天的费用信息中的费用类别信息分别生成一个第二费用特征数据。在本发明的其他实施例中，也可以按照其他时间长度单位来生成第二费用特征数据。如将半天内的、排序后的费用类别信息作为一个独立的第二费用特征数据。

在本发明实施例中，第二费用特征数据采用字符串的方式表示。字符串中的各个字符是以编码方式表示的费用类别信息，字符串中的各个字符按照对应费用所发生的时间进行排序。字符间以空格作为分隔符。

本发明实施例提供的医保欺诈行为识别方法通过从目标病例的费用信息中提取能够反映费用类别与费用发生时间的第二费用特征数据，为后续医保欺诈行为的识别打下了良好的基础。

基于上述任一实施例，在本发明实施例中，在所述根据经过时间排序的、一段时期内的目标病例的费用信息中的费用类别信息，得到目标病例的第二费用特征数据的步骤之前，还包括：

将目标病例的费用信息中的费用类别信息转换为标准码。

在计算机存储时，费用类别信息一般以编码的方式予以表示。目前由于各个地方、各个公司都有各自的编码体系，因此从数据库中获取的目标病例的费用信息中，关于费用类别的信息千差万别。在本发明实施例中，为了实现统一的处理，需要将关于费用类别信息的原始码映射为标准码。

如何将原始码映射为标准码在本发明的其他实施例中已经有详细的描述，因此不在此处重复。

本发明实施例提供的医保欺诈行为识别方法将费用类别信息统一转换为标准码，有助于提升数据处理的准确率，进而提高医保欺诈行为识别的准确率。

基于上述任一实施例，在本发明实施例中，方法还包括：

采集样本病例的费用信息；

在本发明之前的实施例中，医保欺诈行为识别模型已经训练完成。在本发明实施例中，对医保欺诈行为识别模型的训练过程进行描述。

首先，需要采集样本数据。所述样本数据包括样本病例的费用信息。关于费用信息的定义与具体内容在本发明之前的实施例中已经有详细描述，此处不再重复。样本数据需要有一定的规模，可选用某一医疗机构12个月内的费用信息作为样本数据。

采集到样本数据后，需要对样本数据进行包括清洗在内的预处理。所述清洗在本发明之前的实施例中已经有相关的描述，因此不在此处重复。

对于清洗后的样本病例的费用信息，需要进行去重操作，需要将费用信息中的费用类别信息进行映射，形成费用特征数据(第一费用特征数据或第二费用特征数据)。

对样本病例的费用信息进行检测，确定样本病例是否存在医保欺诈行为。对样本病例的费用信息进行检测的过程可以人工实现，如由具有丰富经验的医疗专家完成。

在得到样本病例的费用特征数据后，将样本病例的费用特征数据作为训练使用的输入数据，将样本病例是否存在医保欺诈行为的检测结果作为标签，通过机器学习的方法进行训练，得到医保欺诈行为识别模型。

在本发明的一个实施例中，所述机器学习的方法为神经网络算法。利用神经网络算法进行模型训练时，所采用的费用特征数据为第一费用特征数据。在本发明之前的实施例中，已经对第一费用特征数据做了详细说明，因此不在此处重复。

在本发明又一个实施例中，基于机器学习的方法可基于BERT模型实现。其中，基于BERT模型所实现的模型训练的过程分为两步。第一步是对BERT模型进行pre_training步骤。在该步骤中，需要输入大量的第二费用特征数据(费用信息字符串)，该步骤的输出结果为pre_training模型。第二步是对第一步所输出的pre_training模型接入一个作用为分类的神经网络做fine_tuning。在该步骤中，需要输入一定量的第二费用特征数据(费用信息字符串)，以及与该一定量的第二费用特征数据所对应的是否存在医保欺诈行为的标签，然后进行监督学习，生成最终的分类模型。

需要说明的是，训练时的标签所标注的信息不仅可以是关于是否存在医保欺诈行为的检测结果，还可以是医保欺诈行为细分场景的检测结果。如关于是否存在虚假住院行为的检测结果，关于是否存在挂床住院行为的检测结果，关于是否存在过度医疗行为的检测结果。若训练时的标签所标注的信息是医保欺诈行为细分场景的检测结果，那么在后续识别过程中，所得到的医保欺诈行为的概率值为虚假住院的概率值，或挂床住院的概率值，或过度医疗的概率值。

本发明实施例提供的医保欺诈行为识别方法采集样本病例的费用信息，对样本病例的费用信息进行检测，将样本病例是否存在医保欺诈行为的检测结果作为标签，将样本病例的费用特征数据作为模型训练的输入数据，从而训练得到了医保欺诈行为识别模型。通过医保欺诈行为识别模型发现目标病例费用信息中所隐含的内在规律，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

基于上述任一实施例，图2为本发明实施例提供的医保欺诈行为识别装置的示意图，如图2所示，本发明实施例提供的医保欺诈行为识别装置包括：

信息获取模块201，用于获取目标病例的费用信息；

识别模块202，用于根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值；

判断模块203，用于根据所述目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为；其中，

本发明实施例提供的医保欺诈行为识别装置通过发现目标病例费用信息中所隐含的内在规律，可以自动识别目标病例是否存在医保欺诈行为，具有识别准确率高、识别效率高以及识别成本低的优点。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：获取目标病例的费用信息；根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值；根据所述目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为；其中，所述医保欺诈行为识别模型是基于样本病例的费用信息以及样本病例的标签信息进行训练得到的，其中所述样本病例的标签信息用于描述样本病例是否存在医保欺诈行为。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取目标病例的费用信息；根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值；根据所述目标病例存在医保欺诈行为的概率值与预设的阈值，确定目标病例是否存在医保欺诈行为；其中，所述医保欺诈行为识别模型是基于样本病例的费用信息以及样本病例的标签信息进行训练得到的，其中所述样本病例的标签信息用于描述样本病例是否存在医保欺诈行为。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医保欺诈行为识别方法，其特征在于，包括：

获取目标病例的费用信息；

2.根据权利要求1所述的医保欺诈行为识别方法，其特征在于，所述医保欺诈行为识别模型是以样本病例的费用特征数据作为输入数据，以样本病例是否存在医保欺诈行为的信息作为标签，通过对神经网络进行训练所得到的模型；其中，所述样本病例的费用特征数据是基于样本病例的费用信息得到的。

3.根据权利要求1所述的医保欺诈行为识别方法，其特征在于，所述医保欺诈行为识别模型是以样本病例的费用特征数据作为输入数据，以样本病例是否存在医保欺诈行为的信息作为标签，通过对BERT模型进行训练所得到的模型；其中，所述样本病例的费用特征数据是基于样本病例的费用信息得到的。

4.根据权利要求2所述的医保欺诈行为识别方法，其特征在于，所述根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值包括：

5.根据权利要求4所述的医保欺诈行为识别方法，其特征在于，所述根据目标病例的费用信息，得到目标病例的第一费用特征数据包括：

根据费用类别信息的标准码，得到费用类别信息的分类码；

6.根据权利要求5所述的医保欺诈行为识别方法，其特征在于，所述根据费用类别信息的标准码，得到费用类别信息的分类码包括：

7.根据权利要求3所述的医保欺诈行为识别方法，其特征在于，所述根据所述目标病例的费用信息以及医保欺诈行为识别模型，得到目标病例存在医保欺诈行为的概率值包括：

8.根据权利要求7所述的医保欺诈行为识别方法，其特征在于，所述根据目标病例的费用信息，得到目标病例的第二费用特征数据包括：

将目标病例的费用信息按照时间排序；

9.根据权利要求8所述的医保欺诈行为识别方法，其特征在于，在所述根据经过时间排序的、一段时期内的目标病例的费用信息中的费用类别信息，得到目标病例的第二费用特征数据的步骤之前，还包括：

将目标病例的费用信息中的费用类别信息转换为标准码。

10.根据权利要求1所述的医保欺诈行为识别方法，其特征在于，还包括：

采集样本病例的费用信息；

11.一种医保欺诈行为识别装置，其特征在于，包括：

信息获取模块，用于获取目标病例的费用信息；

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述医保欺诈行为识别方法的步骤。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至10任一项所述医保欺诈行为识别方法的步骤。