CN109657059A

CN109657059A - 异常参保人购药数据检测方法、装置、设备及存储介质

Info

Publication number: CN109657059A
Application number: CN201811530710.XA
Authority: CN
Inventors: 陈明东; 黄越; 胥畅
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-19

Abstract

本发明属于人工智能领域，提供一种异常参保人购药数据检测方法、装置、设备及存储介质，包括：获取待检测参保人购药数据，该数据包括药品费用占比和购药名称；将待检测参保人购药数据输入预先训练完成的聚类模型进行聚类，以将待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组；根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，并从预存原始购药数据库中确定异常待检测群组包含的待检测参保人购药数据对应的原始购药名称；将异常待检测群组包含的待检测参保人购药数据的购药名称分别与对应的原始购药名称进行比对，检测出购药名称与原始购药名称不符的异常参保人购药数据。本发明可提高检测效率。

Description

异常参保人购药数据检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种异常参保人购药数据检测方法、装置、设备及存储介质。

背景技术

医保体系中，治疗慢性病的药品已纳入医保体系，参保人购买治疗慢性病的药品可进行医保报销。然而存在部分参保人为了私利将自费药品挂在可报销药品名目下的现象，造成医保基金的浪费。为保障医保基金的合理支出，通常会由人工对参保人的医保数据进行异常检测，由于需要检测的数据量大、涉及的药品名称众多，人工检测的方式，效率低，难度大，无法应对复杂的实际情况。

发明内容

本发明的主要目的在于提供一种异常参保人购药数据检测方法、装置、设备及存储介质，旨在解决依靠人工检测参保人的医保数据的方式，效率低，难度大的技术问题。

为实现上述目的，本发明提供一种异常参保人购药数据检测方法，所述异常参保人购药数据检测方法包括以下步骤：

获取待检测参保人购药数据，其中，所述待检测参保人购药数据包括药品费用占比和购药名称；

将所述待检测参保人购药数据输入预先训练完成的聚类模型进行聚类，以将所述待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组；

根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，并从预存原始购药数据库中确定所述异常待检测群组包含的待检测参保人购药数据对应的原始购药名称；

将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据。

可选地，所述获取待检测参保人购药数据的步骤之前，包括：

获取待检测参保人医保数据；

将所述待检测参保人医保数据输入预设清洗模型依次进行数据切片、数据分词、文本转换、字段填充的清洗处理，得到待检测参保人购药数据。

可选地，所述获取待检测参保人购药数据的步骤之前，还包括：

采用无监督学习方法训练聚类模型，得到所述训练完成的聚类模型。

可选地，所述采用无监督学习方法训练聚类模型，得到所述训练完成的聚类模型的步骤包括：

获取用于训练聚类模型的参保人购药数据；

根据用于训练聚类模型的参保人购药数据，建立用于训练聚类模型的训练样本；

根据所述训练样本，采用预设无监督学习聚类算法训练聚类模型，得到所述训练完成的聚类模型。

可选地，所述根据所述训练样本，采用预设无监督学习聚类算法训练聚类模型，得到所述训练完成的聚类模型的步骤之后，包括：

根据预设成熟度计算公式mature＝ε*rate计算训练训练完成的聚类模型的成熟度，其中，mature表示成熟度，rate表示准确率，ε表示权重值；

判断训练完成的聚类模型的成熟度是否达到预设成熟度阈值；

若训练完成的聚类模型的成熟度达到预设成熟度阈值，则执行步骤：获取待检测参保人购药数据。

可选地，所述根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组的步骤包括：

分别将各个待检测群组对应的药品费用占比范围与预设药品费用占比阈值进行比对；

将药品费用占比范围下限值超出预设药品费用占比阈值的待检测群组确定为异常待检测群组。

可选地，所述将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据的步骤包括：

将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以判断所述异常待检测群组包含的待检测参保人购药数据的购药名称与所述对应的原始购药名称是否一致；

将所述异常待检测群组中购药名称与对应的原始购药名称不一致的待检测参保人购药数据转由人工进行二次检测，以检测出购药名称与原始购药名称不符的异常参保人购药数据。

此外，为实现上述目的，本发明还提供异常参保人购药数据检测装置，所述异常参保人购药数据检测装置包括：

第一获取模块，用于获取待检测参保人购药数据，其中，所述待检测参保人购药数据包括药品费用占比和购药名称；

聚类模块，用于将所述待检测参保人购药数据输入预先训练完成的聚类模型进行聚类，以将所述待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组；

确定模块，用于根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，并从预存原始购药数据库中确定所述异常待检测群组包含的待检测参保人购药数据对应的原始购药名称；

比对模块，用于将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据。

此外，为实现上述目的，本发明还提供一种异常参保人购药数据检测设备，所述异常参保人购药数据检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的异常参保人购药数据检测程序，其中所述异常参保人购药数据检测程序被所述处理器执行时，实现如上述的异常参保人购药数据检测方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有异常参保人购药数据检测程序，其中所述异常参保人购药数据检测程序被处理器执行时，实现如上述的异常参保人购药数据检测方法的步骤。

本发明提供一种异常参保人购药数据检测方法，从药品费用占比的角度，基于聚类模型，可以先将大量的待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组，然后根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，将异常待检测群组包含的待检测参保人购药数据的购药名称与定点药店或医院药房所记录的对应原始购药名称进行比对，从而从异常待检测群组中检测出检测出购药名称与定点药店或医院药房所记录的原始购药名称不符的异常数据，不仅降低了检测难度，可以提高检测效率，还为有效检测出购药名称与原始购药名称不符的异常参保人购药数据提供了精确的分析依据，提高了检测的准确性。

附图说明

图1为本发明实施例方案中涉及的异常参保人购药数据检测设备的硬件结构示意图；

图2为本发明异常参保人购药数据检测方法第一实施例的流程示意图；

图3为本发明异常参保人购药数据检测方法第一实施例的细化流程示意图；

图4为本发明异常参保人购药数据检测装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例涉及的异常参保人购药数据检测方法主要应用于异常参保人购药数据检测设备，该异常参保人购药数据检测设备可以是个人计算机(personal computer，PC)、服务器等具有数据处理功能的设备。

参照图1，图1为本发明实施例方案中涉及的异常参保人购药数据检测设备的硬件结构示意图。本发明实施例中，异常参保人购药数据检测设备可以包括处理器1001(例如中央处理器Central Processing Unit，CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity，WI-FI接口)；存储器1005可以是高速随机存取存储器(random access memory，RAM)，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本发明的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块以及异常参保人购药数据检测程序。在图1中，网络通信模块可用于连接人社系统，与人社系统进行数据通信；而处理器1001可以调用存储器1005中存储的异常参保人购药数据检测程序，并执行本发明各实施例提供的异常参保人购药数据检测方法。

本发明实施例提供了一种异常参保人购药数据检测方法。

参照图2，图2为本发明异常参保人购药数据检测方法第一实施例的流程示意图。

本实施例中，所述异常参保人购药数据检测方法应用于检测系统，所述检测系统搭载于异常参保人购药数据检测设备中，比如检测系统可以搭载于服务器或PC等设备中，检测系统对接人社系统，此外，检测系统还对接已在人社系统备案的定点药店或医院药房。所述异常参保人购药数据检测方法包括以下步骤：

步骤S10，获取待检测参保人购药数据；

在实际中，参保人的医保数据都会上传至人社系统，保存至人社系统的数据库中。参保人的医保数据包括参保人信息(比如姓名、性别、年龄、身份证号码等)、就诊时间、就诊结果、疾病信息、购药名称、购药单价、药品费用、手术费用、花费总额、药品费用占比(药品费用占花费总额的百分比)等。而定点药店或医院药房也会记录参保人在定点药店或医院药房中购买药品时产生的原始购药数据，检测系统可以从定点药店或医院药房中获取参保人在医院药房或药店的原始购药数据保存至检测系统数据库(定义为预存原始购药数据库)中。本实施例提出一种异常参保人购药数据检测方法，考虑到传统人工检测经验中，会将药品费用占比过高的参保人作为重点检测对象，本实施例通过训练完成的聚类模型，从药品费用占比的角度，对参保人医保数据中的购药数据进行异常检测，从而从购药数据中确定出将自费药品挂在可报销药品名目下的异常数据，即从购药数据中确定出购药名称与定点药店或医院药房所记录的原始购药名称不符的异常数据。

在本实施例中，步骤S10之前，还包括获取待检测参保人医保数据的步骤，检测系统可以从人社系统数据库中获取需要检测的参保人医保数据(定义为待检测参保人医保数据)。

由于参保人医保数据中包括购药数据、购药数据、疾病数据等几部分信息，为了提高检测的效率和准确性，需要先对待检测参保人医保数据进行预处理，从而仅从待检测参保人医保数据中的购药数据入手进行异常检测。具体的，本实施例检测系统中预先设置有清洗模型，该清洗模型采用了NLP(natural language processing，自然语言处理)技术，NLP技术可自动化处理大量文本数据，从中提炼出有价值的信息。检测系统可以利用该预设清洗模型，通过NLP技术对待检测参保人医保数据进行清洗处理，清洗处理的过程如下：

a、数据切片，即，去除待检测参保人医保数据中的不相关数据，也就是去除医保数据中的性别、年龄、身份证号码、就诊时间、就诊结果、疾病信息、手术费用、花费总额字段的数据；

b、数据分词，即，将数据切片后的待检测参保人医保数据拆分为各个独立的词，得到基于参保人姓名、购药名称、购药单价、药品费用、药品费用占比的独立字段的数据；

c、文本转换，即，将数据分词后的待检测参保人医保数据中的英文转换为中文；

d、字段填充，即，预先设置标准化模板，该标准化模板包括了为进行异常检测定义的需求数据类型(即需要从文本转换后的购药数据中得到什么数据)、以及需求数据对应的需求字段名称。将文本转换后的待检测参保人医保数据填充至标准化模板中，即得到进行检测时的需求数据(定义为待检测参保人购药数据)，待检测参保人购药数据包括参保人姓名、购药名称、购药单价、药品费用和药品费用占比。

在本实施例中，步骤S10之前，还需预先训练聚类模型。在一种优选的实现方式中，可以采用无监督学习方法训练聚类模型，得到训练完成的聚类模型。。

具体地，参照图3，采用无监督学习方法训练聚类模型，得到所述训练完成的聚类模型的步骤可以包括：

步骤S50，获取用于训练聚类模型的参保人购药数据；

即，先获取用于训练聚类模型的参保人购药数据。本步骤中，检测系统可以从人社系统的数据库中获取某一时间段内的历史参保人医保数据，作为训练聚类模型的参保人医保数据，然后同样先将用于训练聚类模型的参保人医保数据输入预设清洗模型中依次进行数据切片、数据分词、文本转换、字段填充的清洗处理，得到用于训练聚类模型的需求数据，也就是得到用于训练聚类模型的参保人购药数据，用于训练聚类模型的参保人购药数据包括参保人姓名、购药名称、购药单价、药品费用和药品费用占比。

步骤S60，根据用于训练聚类模型的参保人购药数据，建立用于训练聚类模型的训练样本；

进一步地，根据用于训练聚类模型的参保人购药数据，建立用于训练聚类模型的训练样本。本步骤中，根据用于训练聚类模型的参保人购药数据，建立用于训练聚类模型的训练样本的方式例如，该训练样本是一个集合，集合里面的元素是一个个预处理后的参保人购药数据样例：

训练样本＝{购药数据样例1，购药数据样例2，...，购药数据n}

＝{(姓名1，购药名称1，购药单价1，药品费用1，药品费用占比1)，(姓名2，购药名称2，购药单价2，药品费用2，药品费用占比2)...，(姓名n，购药名称n，购药单价n，药品费用n，药品费用占比n)}。

步骤S70，根据所述训练样本，采用预设无监督学习聚类算法训练聚类模型，得到所述训练完成的聚类模型。

进一步地，根据训练样本，采用预设无监督学习聚类算法训练聚类模型。本步骤中，预设无监督学习聚类算法可以是K-means算法。K-means算法属于无监督学习，是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大，该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。通过K-means算法训练聚类模型的过程如下：

A、从训练样本中任意选择k个药品费用占比作为初始聚类中心；

B、计算训练样本中每个购药数据样例的药品费用占比与各个初始聚类中心之间的距离；

C、将训练样本中每个购药数据样例分配给对应药品费用占比距离最近的初始聚类中心，当训练样本中的全部购药数据样例分配完成时，得到k个群组；

D、根据每个群组中现有购药数据样例的药品费用占比重新计算每个群组的聚类中心，计算训练样本中每个购药数据样例的药品费用占比与聚类中心的距离，并将训练样本中每个购药数据样例分配给对应药品费用占比距离最近的聚类中心，当训练样本中的全部购药数据样例分配完成时，得到k个群组；

E、重复步骤D，直至满足终止条件，表示聚类模型训练模型检测完成。

即，检测系统从训练样本中的n个购药数据样例的药品费用占比中任意选择k个药品费用占比作为初始聚类中心，计算训练样本中每个购药数据样例的药品费用占比与各个初始聚类中心之间的距离，把训练样本中每个购药数据样例分配给对应药品费用占比距离最近的聚类中心(聚类中心以及分配给它们的对象就代表一个聚类)，一旦训练样本中的全部购药数据样例都被分配了，每个聚类的聚类中心会根据聚类中现有的购药数据样例被重新计算，这个过程将不断重复直到满足终止条件：(1)没有对象被重新分配给不同的聚类，(2)没有聚类中心再发生变化，(3)误差平方和局部最小，三者任选其一。如此，通过K-means算法对训练样本进行聚类分析，可以将训练样本划分为k个基于不同药品费用占比范围的群组，得到训练完成的聚类模型。当然，也可以采用无监督学习的其他聚类算法训练聚类模型，本发明对训练聚类模型的聚类算法不作限定。

步骤S20，将所述待检测参保人购药数据输入预先训练完成的聚类模型进行聚类，以将所述待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组；

聚类模型训练完成之后，本步骤中，检测系统将获取的待检测参保人购药数据输入预先训练完成的聚类模型，从而对待检测参保人购药数据进行聚类，可以将待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组。

步骤S30，根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，并从预存原始购药数据库中确定所述异常待检测群组包含的待检测参保人购药数据对应的原始购药名称；

得到若干个基于不同药品费用占比范围的待检测群组之后，本步骤中，检测系统对从待检测群组中确定出异常待检测群组。

在一种优选的实现方式中，所述根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组的步骤包括：

由于传统人工检测经验中，药品费用占比相对来说能更好的反映实际情况，药品费用占比越高，越可能存在将自费药品挂在可报销药品名目下的情况，即购药名称与定点药店或医院药房所记录的原始购药名称不符的概率越高，由此，本实施例中检测系统可以结合人工检测经验而预先设置药品费用占比阈值作为判定阈值，可灵活设置(比如55％)，此处不作限定。在本步骤中，检测系统分别将各个待检测群组对应的药品费用占比范围与预设药品费用占比阈值进行比对。

在本步骤中，检测系统分别将各个待检测群组对应的药品费用占比范围与预设药品费用占比阈值进行比对之后，对于药品费用占比范围下限值超出预设药品费用占比阈值的待检测群组，则作为重点检测群组，也就是确定为异常待检测群组。

在步骤S30中，检测系统还从预存原始购药数据中确定异常待检测群组包含的待检测参保人购药数据对应的原始购药名称。具体地，检测系统的预存原始购药数据库中已预先存储有待检测参保人在医院药房或药店购药时产生的原始购药数据，检测系统可以依据异常待检测群组包含的待检测参保人购药数据中待检测参保人的姓名，从预存原始购药数据库中预存的原始购药数据中查询并提取出对应的预存原始购药数据，然后从异常待检测群组对应的预存原始购药数据中提取出对应的原始购药名称。

步骤S40，将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据。

在本步骤中，检测系统确定异常待检测群组，并从预存原始购药数据中确定异常待检测群组对应的原始购药名称之后，将异常待检测群组包含的待检测参保人购药数据的购药名称，分别与对应的原始购药名称进行比对，从而从异常待检测群组包含的待检测参保人购药数据中检测出购药名称与原始购药名称不符的异常参保人购药数据。

在一种优选的实现方式中，所述步骤S40，可以包括：

本步骤中，即将异常待检测群组包含的待检测参保人购药数据的购药名称，分别与对应的原始购药名称进行比对，从而判断异常待检测群组包含的待检测参保人购药数据的购药名称，与对应的原始购药名称是否一致；

考虑到实际中，存在参保人医保数据中的购药名称为“呋噻米片”，而定点药店或医院药房记录的购药名称为“呋塞米片”的情况，而“呋噻米片”与“呋塞米片”其实是同一药品，为了提高检测的准确性，本步骤中，对于异常待检测群组中购药名称与对应的原始购药名称不一致的待检测参保人购药数据，则转由人工进行二次检测，由人工仔细核对其中的购药名称，从而检测出购药名称与原始购药名称不符的异常参保人购药数据。

通过上述方式，本实施例先从待检测参保人医保数据中提取出待检测参保人购药数据，从药品费用占比的角度出发，基于聚类模型，可以先将大量的待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组，然后基于药品费用占比范围，先确定异常待检测群组，然后将异常待检测群组包含的待检测参保人购药数据的购药名称与定点药店或医院药房所记录的对应原始购药名称进行比对，从而从异常待检测群组包含的待检测参保人购药数据中检测出将自费药品挂在可报销药品名目下的异常数据，也就是检测出购药名称与定点药店或医院药房所记录的原始购药名称不符的异常数据。相比于仅依赖人工检测参保人医保数据的传统方式，不仅降低了难度，可以提高检测效率，还为有效检测出购药名称与原始购药名称不符的异常参保人购药数据提供了精确的分析依据，提高了检测的准确性。

之后，检测系统可以将检测出的异常数据发送至人社系统，供人社系统针对相应的医保报销费用作出相应决策，可利于医保基金的有效管控。

在本实施例中，获取待检测参保人购药数据，其中，所述待检测参保人购药数据包括药品费用占比和购药名称；将所述待检测参保人购药数据输入预先训练完成的聚类模型进行聚类，以将所述待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组；根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，并从预存原始购药数据库中确定所述异常待检测群组包含的待检测参保人购药数据对应的原始购药名称；将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据。通过上述方式，本实施例从药品费用占比的角度，基于聚类模型，可以先将大量的待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组，然后根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，将异常待检测群组包含的待检测参保人购药数据的购药名称与定点药店或医院药房所记录的对应原始购药名称进行比对，从而从异常待检测群组中检测出检测出购药名称与定点药店或医院药房所记录的原始购药名称不符的异常数据，不仅降低了检测难度，可以提高检测效率，还为有效检测出购药名称与原始购药名称不符的异常参保人购药数据提供了精确的分析依据，提高了检测的准确性。

进一步地，基于第一实施例提出本发明异常参保人购药数据检测方法的第二实施例。异常参保人购药数据检测方法的第一实施例与异常参保人购药数据检测方法的第二实施例的区别在于，所述步骤S70之后，包括：

即，聚类模型训练完成后，并不立即投入使用，而是先检测训练完成的聚类模型的成熟度，可通过成熟度计算公式mature＝ε*rate计算得到聚类模型的成熟度，其中，mature表示训练完成的聚类模型的成熟度，rate表示聚类模型的准确率(也就是样本检测结果与实际的差距)，ε表示权重值(可根据实际进行设定)。

之后，将训练完成的聚类模型的成熟度与预设成熟度阈值进行比对，其中，该成熟度阈值是根据原始需要预先设定的，比如80％。

如果训练完成的聚类模型的成熟度大于预设成熟度阈值，则判定训练完成的聚类模型的成熟度满足条件，可以投入使用，即可获取原始待检测参保人购药数据，再按照第一实施例中所述的处理方法对待检测参保人购药数据进行分析检测。

在本实施例中，聚类模型训练完成后需先检测其对应的成熟度，当训练完成的聚类成熟度满足条件时才用于分析需要检测的参保人购药数据，从而提高检测准确度。

此外，本发明实施例还提供一种异常参保人购药数据检测装置。

参照图4，图4为本发明异常参保人购药数据检测装置第一实施例的功能模块示意图。

本实施例中，所述异常参保人购药数据检测装置包括：

第一获取模块10，用于获取待检测参保人购药数据，其中，所述待检测参保人购药数据包括药品费用占比和购药名称；

聚类模块20，用于将所述待检测参保人购药数据输入预先训练完成的聚类模型进行聚类，以将所述待检测参保人购药数据划分为若干个基于不同药品费用占比范围的待检测群组；

确定模块30，用于根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组，并从预存原始购药数据库中确定所述异常待检测群组包含的待检测参保人购药数据对应的原始购药名称；

比对模块40，用于将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据。

其中，上述异常参保人购药数据检测装置的各虚拟功能模块存储于图1所示异常参保人购药数据检测设备的存储器1005中，用于实现异常参保人购药数据检测程序的所有功能；各模块被处理器1001执行时，实现了基于聚类模型对大量的参保人购药数据进行分析检测，不仅可以降低检测难度，提高检测效率，还为有效检测出购药名称与原始购药名称不符的异常参保人购药数据提供了精确的分析依据，提高了检测的准确性。

进一步的，所述异常参保人购药数据检测装置还包括：

第二获取模块，用于获取待检测参保人医保数据；

清洗处理模块，用于将所述待检测参保人医保数据输入预设清洗模型依次进行数据切片、数据分词、文本转换、字段填充的清洗处理，得到待检测参保人购药数据。

进一步的，所述异常参保人购药数据检测装置还包括：

训练模块，用于采用无监督学习方法训练聚类模型，得到所述训练完成的聚类模型。

进一步的，所述第一训练模块包括：

获取单元，用于获取用于训练聚类模型的参保人购药数据；

建立单元，用于根据用于训练聚类模型的参保人购药数据，建立用于训练聚类模型的训练样本；

训练单元，用于根据所述训练样本，采用预设无监督学习聚类算法训练聚类模型，得到所述训练完成的聚类模型。

进一步的，所述异常参保人购药数据检测装置还包括：

计算模块，用于根据预设成熟度计算公式mature＝ε*rate计算训练训练完成的聚类模型的成熟度，其中，mature表示成熟度，rate表示准确率，ε表示权重值；

判断模块，用于判断训练完成的聚类模型的成熟度是否达到预设成熟度阈值；

第三获取模块，用于若训练完成的聚类模型的成熟度达到预设成熟度阈值，则执行步骤：获取待检测参保人购药数据。

进一步的，所述确定模块30包括：

第一比对单元，用于分别将各个待检测群组对应的药品费用占比范围与预设药品费用占比阈值进行比对；

确定单元，用于将药品费用占比范围下限值超出预设药品费用占比阈值的待检测群组确定为异常待检测群组。

进一步的，所述比对模块40包括：

第二比对单元，用于将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以判断所述异常待检测群组包含的待检测参保人购药数据的购药名称与所述对应的原始购药名称是否一致；

检测单元，用于将所述异常待检测群组中购药名称与对应的原始购药名称不一致的待检测参保人购药数据转由人工进行二次检测，以检测出购药名称与原始购药名称不符的异常参保人购药数据。

其中，上述异常参保人购药数据检测装置中各个模块的功能实现与上述异常参保人购药数据检测方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

此外，本发明实施例还提供一种存储介质。

本发明存储介质上存储有异常参保人购药数据检测程序，其中所述异常参保人购药数据检测程序被处理器执行时，实现如上述的异常参保人购药数据检测方法的步骤。

其中，异常参保人购药数据检测程序被执行时所实现的方法可参照本发明异常参保人购药数据检测方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种异常参保人购药数据检测方法，其特征在于，所述异常参保人购药数据检测方法包括以下步骤：

2.如权利要求1所述的异常参保人购药数据检测方法，其特征在于，所述获取待检测参保人购药数据的步骤之前，包括：

获取待检测参保人医保数据；

3.如权利要求1所述的异常参保人购药数据检测方法，其特征在于，所述获取待检测参保人购药数据的步骤之前，还包括：

4.如权利要求3所述的异常参保人购药数据检测方法，其特征在于，所述采用无监督学习方法训练聚类模型，得到所述训练完成的聚类模型的步骤包括：

获取用于训练聚类模型的参保人购药数据；

5.如权利要求4所述的异常参保人购药数据检测方法，其特征在于，所述根据所述训练样本，采用预设无监督学习聚类算法训练聚类模型，得到所述训练完成的聚类模型的步骤之后，包括：

6.如权利要求1所述的异常参保人购药数据检测方法，其特征在于，所述根据各个待检测群组的药品费用占比范围从待检测群组中确定异常待检测群组的步骤包括：

7.如权利要求1所述的异常参保人购药数据检测方法，其特征在于，所述将所述异常待检测群组包含的待检测参保人购药数据的购药名称，分别与所述对应的原始购药名称进行比对，以从所述异常待检测群组中检测出购药名称与原始购药名称不符的异常参保人购药数据的步骤包括：

8.一种异常参保人购药数据检测装置，其特征在于，所述异常参保人购药数据检测装置包括：

9.一种异常参保人购药数据检测设备，其特征在于，所述异常参保人购药数据检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的异常参保人购药数据检测程序，其中所述异常参保人购药数据检测程序被所述处理器执行时，实现如权利要求1至7中任一项所述的异常参保人购药数据检测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有异常参保人购药数据检测程序，其中所述异常参保人购药数据检测程序被处理器执行时，实现如权利要求1至7中任一项所述的异常参保人购药数据检测方法的步骤。