CN116756626A - 一种基于改进rfm模型的医保参保人员分类方法 - Google Patents
一种基于改进rfm模型的医保参保人员分类方法 Download PDFInfo
- Publication number
- CN116756626A CN116756626A CN202310477990.7A CN202310477990A CN116756626A CN 116756626 A CN116756626 A CN 116756626A CN 202310477990 A CN202310477990 A CN 202310477990A CN 116756626 A CN116756626 A CN 116756626A
- Authority
- CN
- China
- Prior art keywords
- purchasing
- participant
- index
- value
- purchase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000003814 drug Substances 0.000 claims abstract description 43
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 20
- 238000004080 punching Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 229940079593 drug Drugs 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000002117 illicit drug Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011425 standardization method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于改进RFM模型的医保参保人员分类方法,包括:获取参保人员购药数据集;建立改进RFM模型,执行:基于参保人员购药数据集统计对应参保人员的关键指标,包括平均购买时间、购买频次、购买地点数、代办次数和代办人数;将平均购买时间指标逆向标准化,其余指标正向标准化;采用熵值法为标准化后的各项指标赋权;对赋权后的参保人员购药数据集进行聚类,获得各类别的参保人员群体的总监管价值;将全部类别的总监管价值进行排序,比较总监管价值最大的前L个类别的参保人员群体的各项指标价值,将每项指标价值中的最大值作为对应类别的突出特征并进行监管。该方法能够精准监管具有医保违规风险的参保人群,更加智能化。
Description
技术领域
本发明属于数据分析技术领域,具体涉及一种基于改进RFM模型的医保参保人员分类方法。
背景技术
近年来,随着医疗保险制度的稳步发展和完善,医保覆盖率不断扩大。伴随医保的普及和保障水平的提升,医保违规形势也变得越来越严峻。面对庞大的参保人用户群体和其产生的海量医保刷卡记录,科学分析参保人的医保记录,将参保人进行分类,能够发现具有违规使用医保行为的高风险参保人群,实现对异常参保人的精准定位。对具有违规风险或倾向的参保人群进行精准监管,能够及时阻止医保违规案件的产生或扩大,是保证医保基金安全的有效手段。
RFM模型是目前在衡量用户价值和用户细分领域常用的方法,其中最近消费时间(Recency)表示用户上一次消费时间到统计节点的时间间隔;消费频率(Frequency)表示在统计时间段内用户的总购买次数;消费金额(Monetary)表示用户在统计时间段内用户的总购买金额。RFM模型本质上就是通过三个维度对一段时间里的用户消费行为进行组合计算,将用户分为多个类型或等级,然后对不同类型的用户群体采取不同措施。
然而,现有RFM模型在对医保参保人进行分类时面临许多问题。第一,传统RFM模型在建模时考虑的数据特征较少,鉴于如今形式多样的医保违规行为,例如医保卡转借他人使用、本人多地多次购药等,仅在最近消费时间、消费频率和消费金额上对医保参保人进行分类不足以精确划分违规人员集合。第二,传统RFM模型中用最近消费时间(Recency)来反应用户粘性,而参保人在购药的时间维度上具有随机性,最近消费时间这个指标不能够确切地揭示参保人使用医保的时间长短,购药间隔短的风险参保人无法被有效识别;消费金额(Monetary)对参保人购药刷卡行为的风险识别不敏感,因为在购药环节上药品的价格往往不会是购买该药品与否的考虑因素。第三,经典的K-means算法作为一种最常用的聚类算法,常与RFM模型结合使用来对用户进行分类。然而传统K-means算法存在一定局限性,首先k值的选取是由人为设定的,而依靠人工经验选取合适的k值十分困难。其次K-means的初始聚类中心是随机选取的,这样容易导致算法收敛很慢,对运行时间和最后的结果都有很大影响。另外当数据的特征增加、出现噪音维度或者各特征的重要性并不一致时,算法在计算样本间距离时一并统一考虑,最终导致聚类精度下降。
发明内容
本发明的目的在于针对上述问题,提出一种基于改进RFM模型的医保参保人员分类方法,能够精准监管具有医保违规风险的参保人群,更加智能化。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的一种基于改进RFM模型的医保参保人员分类方法,包括如下步骤:
S1、获取参保人员购药刷卡信息并进行预处理,形成参保人员购药数据集;
S2、建立改进RFM模型,改进RFM模型执行如下操作:
S21、基于参保人员购药数据集统计出对应参保人员的关键指标,关键指标包括平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1共五项指标,购买地点数P为对刷卡药店编号集合去重后的元素个数,代办人数S1为对代办人身份证号集合去重后的元素个数,平均购买时间R1计算如下:
式中,Tlast_time表示在预设参考时间段内参保人员最后一次购药的时间,Tfirst_time表示在预设参考时间段内参保人员第一次购药的时间;
S22、将平均购买时间R1指标进行逆向标准化,将购买频次F、购买地点数P、代办次数S和代办人数S1指标进行正向标准化;
S23、采用熵值法为标准化后的各项指标赋权,形成赋权后的参保人员购药数据集,各项指标的赋权公式如下:
Vi ′ j=WjVij,j=1,...,5
式中,Wj为第j项指标的权重,Vij为第i个参保人员的第j项指标的标准化值,Vi ′ j为第i个参保人员的第j项指标赋权后的值;
S3、对赋权后的参保人员购药数据集采用聚类算法进行聚类,获得k个不同类别的参保人员群体,计算出第l个类别的参保人员群体的总监管价值Vl,公式如下:
式中,表示第l个类别的平均购买时间的指标价值,Fl表示第l个类别的购买频次的指标价值,Pl表示第l个类别的购买地点数的指标价值,Sl表示第l个类别的代办次数的指标价值,/>表示第l个类别的代办人数的指标价值,指标价值即为对应指标的平均值;
S4、将全部类别的参保人员群体的总监管价值进行排序,比较总监管价值最大的前L个类别的参保人员群体的各项指标价值,L≤k,将每项指标价值中的最大值作为对应类别的突出特征并进行监管。
优选地,预处理,具体如下:
S11、筛选出预设参考时间段的参保人员购药刷卡信息;
S12、在筛选出的参保人员购药刷卡信息中过滤掉具有缺失值、异常数据和冗余数据的参保人员购药刷卡信息;
S13、在余留的参保人员购药刷卡信息中筛选字段,字段包括医保卡主身份证号、刷卡时间、刷卡药店编号、是否代办购药和代办人身份证号。
优选地,缺失值为预设参考时间段内只有单次购药记录的参保人员购药刷卡信息,异常数据为身份校验失败、药店编号校验失败的参保人员购药刷卡信息,冗余数据为单次购药时由于人脸比对不成功而进行多次比对时产生的冗余失败购药记录。
优选地,逆向标准化,公式如下:
正向标准化,公式如下:
式中,Vij为第i个参保人员的第j项指标的标准化值,Xij为第i个参保人员的第j项指标值,i=1,2,...,n,n为参保人员购药数据集中的参保人员总数,依次将平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1编号为第1~5项指标。
优选地,第j项指标的权重Wj计算如下:
其中,
式中,Ej为第j项指标的信息熵值,Pij为第i个参保人员的第j项指标所占比重。
优选地,聚类算法,执行如下操作:
S31、遍历预设分类簇数t的取值,对每一个t值进行初始聚类并计算对应的总轮廓系数,t=2~M,M为预设数值;
S32、将轮廓系数最大时对应的t值作为最佳分类簇数k;
S33、根据最佳分类簇数k基于K-means++算法对赋权后的参保人员购药数据集进行聚类。
优选地,总轮廓系数,计算如下:
获取第i个参保人员的轮廓系数S(i):
式中,a(i)表示第i个参保人员与所在聚类簇中所有其他参保人员的平均距离;b(i)表示第i个参保人员与最近聚类簇中所有参保人员的平均距离;
将所有参保人员的轮廓系数的平均值作为当前初始聚类的总轮廓系数。
与现有技术相比,本发明的有益效果为:
本发明充分考虑了违规购药的特点,将购药地点数、代办次数和代办人数作为数据特征,并将传统RFM模型中的最近购买时间替换为平均购买时间,并去除消费金额这个噪音维度,通过结合更多关键指标使得对违规参保人的分类结果更加准确;通过熵值法对各指标赋权,并对赋权后的参保人员购药数据集采用聚类算法进行聚类,使聚类更合理、效果更显著;将最终的分类结果按照总监管价值和在改进RFM模型指标上的表现,确定参保人员的风险来源,从而为医保参保人员的监管提供决策支持,该方法不仅能够从多个指标对参保人员购药刷卡行为进行分析,将参保人员按照对应的违规风险进行准确分类,以方便精准监管具医保违规风险的参保人群,还能够直观地反映每一个类别的参保人员的购药特征,能够针对性的对不同参保人员群体采取不同监管手段,让医保监管工作更加智能化。
附图说明
图1为本发明基于改进RFM模型的医保参保人员分类方法流程图;
图2为本发明实施例统计出的关键指标示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语均属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-2所示,一种基于改进RFM模型的医保参保人员分类方法,包括如下步骤:
S1、获取参保人员购药刷卡信息并进行预处理,形成参保人员购药数据集。
在一实施例中,预处理,具体如下:
S11、筛选出预设参考时间段的参保人员购药刷卡信息;
S12、在筛选出的参保人员购药刷卡信息中过滤掉具有缺失值、异常数据和冗余数据的参保人员购药刷卡信息;
S13、在余留的参保人员购药刷卡信息中筛选字段,字段包括医保卡主身份证号、刷卡时间、刷卡药店编号、是否代办购药和代办人身份证号。
在一实施例中,缺失值为预设参考时间段内只有单次购药记录的参保人员购药刷卡信息,异常数据为身份校验失败、药店编号校验失败的参保人员购药刷卡信息,冗余数据为单次购药时由于人脸比对不成功而进行多次比对时产生的冗余失败购药记录。
具体地,从医保监管信息数据库中提取参保人员的购药消费记录(即参保人员购药刷卡信息),通过预处理构建参保人员购药数据集。如从医保监管信息数据库中提取参保人员购药记录表,选定时间段为2022全年,删除其余年份的数据。处理选定时间段的数据中的缺失值、异常数据、冗余数据,主要包括:全年只有一条数据的参保人员因其平均购药时间为0,故做删除处理;身份校验失败、药店编号校验失败的异常记录占比非常小,将其删除;单次购药因人脸比对不成功,产生多条冗余记录的,将失败记录删除,保留最后的成功记录。在余留的参保人员购药刷卡信息中筛选字段,保留医保卡主身份证号、刷卡时间、刷卡药店编号、是否代办购药和代办人身份证号,用以计算平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1五个指标,其余字段删除。
S2、建立改进RFM模型,改进RFM模型执行如下操作:
S21、基于参保人员购药数据集统计出对应参保人员的关键指标,关键指标包括平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1共五项指标,购买地点数P为对刷卡药店编号集合去重后的元素个数,代办人数S1为对代办人身份证号集合去重后的元素个数,平均购买时间R1计算如下:
式中,Tlast_time表示在预设参考时间段内参保人员最后一次购药的时间,Tfirst_time表示在预设参考时间段内参保人员第一次购药的时间;
S22、将平均购买时间R1指标进行逆向标准化,将购买频次F、购买地点数P、代办次数S和代办人数S1指标进行正向标准化;
S23、采用熵值法为标准化后的各项指标赋权,形成赋权后的参保人员购药数据集,各项指标的赋权公式如下:
Vi ′ j=WjVij,j=1,...,5
式中,Wj为第j项指标的权重,Vij为第i个参保人员的第j项指标的标准化值,Vi ′ j为第i个参保人员的第j项指标赋权后的值。
在一实施例中,逆向标准化,公式如下:
正向标准化,公式如下:
式中,Vij为第i个参保人员的第j项指标的标准化值,Xij为第i个参保人员的第j项指标值,i=1,2,...,n,n为参保人员购药数据集中的参保人员总数,依次将平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1编号为第1~5项指标。
在一实施例中,第j项指标的权重Wj计算如下:
其中,
式中,Ej为第j项指标的信息熵值,Pij为第i个参保人员的第j项指标所占比重。
依据平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1五个指标构建改进RFM模型,计算模型指标并进行赋权。改进RFM模型的指标值计算具体为:
(1)将参保人员购药数据集按照参保人员身份证号(即医保卡主身份证号)划分出各自的所有购药记录。其中,每个参保人员的购买频次F代办次数S通过累加求和得到。指标计算后的数据如图2所示,图中身份证号为医保卡主身份证号,五项指标包括平均购买时间(简称平均时间)购买频次(简称频次)、购买地点数(简称药店数)、代办次数和代办人数。
(2)指标数据标准化处理。从对参保人员购药监管出发研究参保人员的用户价值来说,有违规购药倾向的参保人员用户价值更大。而违规购药倾向表现为购药频次高、购药地点多、代办购药次数及不同代办人次多等。所以平均购买时间R1的数值相较用户价值而言是负向指标,平均购买时间的值越小,表明用户价值越大。而其余的四个指标均为正向指标,即参保人员该指标下的值越大,表明参保人员价值越大。同时,本模型五个指标中存在单位不一致、取值范围差异较大的情况。为了达到异质指标标准化、归一化的目的,特将平均购买时间R1指标采用逆向标准化方法,其余指标采用正向标准化方法。
(3)使用熵值法赋为标准化后的各项指标赋权,形成赋权后的参保人员购药数据集。一般来说,若某个指标的信息熵Ej越小,表明指标值变化程度越大,提供信息量越多,在总和评价中起到的作用也越大,所以应赋以更大权重。首先计算参保人员的每一项指标的比重,即第i个参保人员的第j项指标所占比重Pij,然后计算各纵向指标的信息熵值Ej,最后通过信息熵值计算各指标权重Wj。
S3、对赋权后的参保人员购药数据集采用聚类算法进行聚类,获得k个不同类别的参保人员群体,计算出第l个类别的参保人员群体的总监管价值Vl,公式如下:
式中,表示第l个类别的平均购买时间的指标价值,Fl表示第l个类别的购买频次的指标价值,Pl表示第l个类别的购买地点数的指标价值,Sl表示第l个类别的代办次数的指标价值,/>表示第l个类别的代办人数的指标价值,指标价值即为对应指标的平均值。
在一实施例中,聚类算法,执行如下操作:
S31、遍历预设分类簇数t的取值,对每一个t值进行初始聚类并计算当前对应的总轮廓系数,t=2~M,M为预设数值;
S32、将轮廓系数最大时对应的t值作为最佳分类簇数k;
S33、根据最佳分类簇数k基于K-means++算法对赋权后的参保人员购药数据集进行聚类。
在一实施例中,总轮廓系数,计算如下:
获取第i个参保人员的轮廓系数S(i):
式中,a(i)表示第i个参保人员与所在聚类簇中所有其他参保人员的平均距离;b(i)表示第i个参保人员与最近聚类簇中所有参保人员的平均距离;
将所有参保人员的轮廓系数的平均值作为当前初始聚类的总轮廓系数。
通过轮廓系数法确定最佳分类簇数k,对每个簇分别计算其每个参保人员的轮廓系数S(i),将所有参保人员的轮廓系数取平均值得到聚类结果的总轮廓系数。总轮廓系数越大,聚类结果越好。在本实施例中,最佳分类簇数k取值为4,采用聚类算法将参保人员分为4个簇,如使用K-means++算法对赋权后的参保人员购药数据集进行聚类,得到4类不同的参保人员群体。
S4、将全部类别的参保人员群体的总监管价值进行排序,比较总监管价值最大的前L个类别的参保人员群体的各项指标价值,L≤k,将每项指标价值中的最大值作为对应类别的突出特征并进行监管。
计算出每类参保人员五个指标的平均值,由于此时的数据为赋权后结果,所以将各类指标价值相加即可得到该类参保人员总价值量(即总监管价值),本实施例4类不同的参保人员群体分别为0.47,0.22,0.16和0.05。将这4类参保人员群体依次定义为高风险参保人员、中风险参保人员、低分险参保人员和普通参保人员,然后通过比较前三类参保人员聚类中心的特征,分析各类别参保人员在改进RFM模型指标上的表现,发现高风险参保人群的购买频次的指标价值Fl和购买地点数的指标价值Pl,中风险参保人群的代办人数的指标价值低风险人群的代办次数的指标价值Sl分别为4类中最高,从而得到高风险参保人员的突出特征为:购买频次F和购买地点数P,中风险参保人员的突出特征为:代办次数S,低风险参保人员的突出特征为:代办人数S1。群体下的某指标价值越大,与其他类别对应指标相差越多,表明该指标是该群体的突出特征,其代表的购药特点即为该类参保人群体需重点监管的指标。所以针对这三类参保人员,应分别重点监管其突出特征,从而实现对风险参保人员群体的精准监管和对不同风险参保员群体的针对性监管。
总价值量即表示该类参保人员的总监管价值,也表示该类参保人员的违规购药风险。对于高价值的参保人员类别,通过分析其在改进RFM模型指标中的表现,可以确定其风险来源,从而能够为不同类别的参保人员分配不同的监管等级或监管手段,以达到精准监管的目的。例如,对于某一类别参保人员的聚类中心,其在改进RFM模型指标中平均购买时间R1表现突出,且价值量较高,则可以认为该类参保人员由于平均购药间隔时间短,所以违规风险较高,后续对该类型的参保人员进行监管时可以控制其使用医保购药间隔。
本发明充分考虑了违规购药的特点,将购药地点数、代办次数和代办人数作为数据特征,并将传统RFM模型中的最近购买时间替换为平均购买时间,并去除消费金额这个噪音维度,通过结合更多关键指标使得对违规参保人的分类结果更加准确;通过熵值法对各指标赋权,并对赋权后的参保人员购药数据集采用聚类算法进行聚类,使聚类更合理、效果更显著;将最终的分类结果按照总监管价值和在改进RFM模型指标上的表现,确定参保人员的风险来源,从而为医保参保人员的监管提供决策支持,该方法不仅能够从多个指标对参保人员购药刷卡行为进行分析,将参保人员按照对应的违规风险进行准确分类,以方便精准监管具医保违规风险的参保人群,还能够直观地反映每一个类别的参保人员的购药特征,能够针对性的对不同参保人员群体采取不同监管手段,让医保监管工作更加智能化。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于改进RFM模型的医保参保人员分类方法,其特征在于:所述基于改进RFM模型的医保参保人员分类方法包括如下步骤:
S1、获取参保人员购药刷卡信息并进行预处理,形成参保人员购药数据集;
S2、建立改进RFM模型,所述改进RFM模型执行如下操作:
S21、基于参保人员购药数据集统计出对应参保人员的关键指标,所述关键指标包括平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1共五项指标,所述购买地点数P为对刷卡药店编号集合去重后的元素个数,所述代办人数S1为对代办人身份证号集合去重后的元素个数,所述平均购买时间R1计算如下:
式中,Tlast_time表示在预设参考时间段内参保人员最后一次购药的时间,Tfirst_time表示在预设参考时间段内参保人员第一次购药的时间;
S22、将平均购买时间R1指标进行逆向标准化,将购买频次F、购买地点数P、代办次数S和代办人数S1指标进行正向标准化;
S23、采用熵值法为标准化后的各项指标赋权,形成赋权后的参保人员购药数据集,各项指标的赋权公式如下:
Vi ′ j=WjVij,j=1,...,5
式中,Wj为第j项指标的权重,Vij为第i个参保人员的第j项指标的标准化值,Vi ′ j为第i个参保人员的第j项指标赋权后的值;
S3、对赋权后的参保人员购药数据集采用聚类算法进行聚类,获得k个不同类别的参保人员群体,计算出第l个类别的参保人员群体的总监管价值Vl,公式如下:
式中,表示第l个类别的平均购买时间的指标价值,Fl表示第l个类别的购买频次的指标价值,Pl表示第l个类别的购买地点数的指标价值,Sl表示第l个类别的代办次数的指标价值,/>表示第l个类别的代办人数的指标价值,指标价值即为对应指标的平均值;
S4、将全部类别的参保人员群体的总监管价值进行排序,比较总监管价值最大的前L个类别的参保人员群体的各项指标价值,L≤k,将每项指标价值中的最大值作为对应类别的突出特征并进行监管。
2.如权利要求1所述的基于改进RFM模型的医保参保人员分类方法,其特征在于:所述预处理,具体如下:
S11、筛选出预设参考时间段的参保人员购药刷卡信息;
S12、在筛选出的参保人员购药刷卡信息中过滤掉具有缺失值、异常数据和冗余数据的参保人员购药刷卡信息;
S13、在余留的参保人员购药刷卡信息中筛选字段,所述字段包括医保卡主身份证号、刷卡时间、刷卡药店编号、是否代办购药和代办人身份证号。
3.如权利要求2所述的基于改进RFM模型的医保参保人员分类方法,其特征在于:所述缺失值为预设参考时间段内只有单次购药记录的参保人员购药刷卡信息,所述异常数据为身份校验失败、药店编号校验失败的参保人员购药刷卡信息,所述冗余数据为单次购药时由于人脸比对不成功而进行多次比对时产生的冗余失败购药记录。
4.如权利要求1所述的基于改进RFM模型的医保参保人员分类方法,其特征在于:所述逆向标准化,公式如下:
所述正向标准化,公式如下:
式中,Vij为第i个参保人员的第j项指标的标准化值,Xij为第i个参保人员的第j项指标值,i=1,2,...,n,n为参保人员购药数据集中的参保人员总数,依次将平均购买时间R1、购买频次F、购买地点数P、代办次数S和代办人数S1编号为第1~5项指标。
5.如权利要求1所述的基于改进RFM模型的医保参保人员分类方法,其特征在于:所述第j项指标的权重Wj计算如下:
其中,
式中,Ej为第j项指标的信息熵值,Pij为第i个参保人员的第j项指标所占比重。
6.如权利要求1所述的基于改进RFM模型的医保参保人员分类方法,其特征在于:所述聚类算法,执行如下操作:
S31、遍历预设分类簇数t的取值,对每一个t值进行初始聚类并计算对应的总轮廓系数,t=2~M,M为预设数值;
S32、将轮廓系数最大时对应的t值作为最佳分类簇数k;
S33、根据最佳分类簇数k基于K-means++算法对赋权后的参保人员购药数据集进行聚类。
7.如权利要求6所述的基于改进RFM模型的医保参保人员分类方法,其特征在于:所述总轮廓系数,计算如下:
获取第i个参保人员的轮廓系数S(i):
式中,a(i)表示第i个参保人员与所在聚类簇中所有其他参保人员的平均距离;b(i)表示第i个参保人员与最近聚类簇中所有参保人员的平均距离;
将所有参保人员的轮廓系数的平均值作为当前初始聚类的总轮廓系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477990.7A CN116756626A (zh) | 2023-04-27 | 2023-04-27 | 一种基于改进rfm模型的医保参保人员分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477990.7A CN116756626A (zh) | 2023-04-27 | 2023-04-27 | 一种基于改进rfm模型的医保参保人员分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756626A true CN116756626A (zh) | 2023-09-15 |
Family
ID=87956009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310477990.7A Pending CN116756626A (zh) | 2023-04-27 | 2023-04-27 | 一种基于改进rfm模型的医保参保人员分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756626A (zh) |
-
2023
- 2023-04-27 CN CN202310477990.7A patent/CN116756626A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Herland et al. | Big data fraud detection using multiple medicare data sources | |
Bauder et al. | Medicare fraud detection using random forest with class imbalanced big data | |
Ekin et al. | Statistical medical fraud assessment: exposition to an emerging field | |
Li et al. | A survey on statistical methods for health care fraud detection | |
Ekina et al. | Application of bayesian methods in detection of healthcare fraud | |
CN110263827B (zh) | 基于交易规律识别的异常交易检测方法及装置 | |
US20160110512A1 (en) | Method of personalizing, individualizing, and automating the management of healthcare fraud-waste-abuse to unique individual healthcare providers | |
CN109523412A (zh) | 智能核保方法、装置、计算机设备及计算机可读存储介质 | |
Anbarasi et al. | Fraud detection using outlier predictor in health insurance data | |
CN112991079B (zh) | 多卡共现就医欺诈行为检测方法、系统、云端及介质 | |
CN113657548A (zh) | 医保异常检测方法、装置、计算机设备及存储介质 | |
Weerasinghe et al. | A comparative study of data mining algorithms in the prediction of auto insurance claims | |
Zurada et al. | Comparison of the performance of several data mining methods for bad debt recovery in the healthcare industry | |
CN112990386A (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN111951116A (zh) | 基于无监督孤立点检测的医保反欺诈监测分析方法和系统 | |
Neto et al. | Knowledge discovery from surgical waiting lists | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
CN116844725A (zh) | 健康信息生成方法、装置、介质及设备 | |
Shekhar et al. | Unsupervised Machine Learning for Explainable Health Care Fraud Detection | |
El-Darzi et al. | Length of stay-based clustering methods for patient grouping | |
CN112435133A (zh) | 基于图分析的医保联合欺诈检测方法、装置及设备 | |
CN116756626A (zh) | 一种基于改进rfm模型的医保参保人员分类方法 | |
CN110990384A (zh) | 一种大数据平台bi分析方法 | |
CN116385151A (zh) | 基于大数据进行风险评级预测的方法及计算设备 | |
Herland | Big Data Analytics and Engineering for Medicare Fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |