CN113095365A - 医疗保险违规数据识别方法及装置 - Google Patents
医疗保险违规数据识别方法及装置 Download PDFInfo
- Publication number
- CN113095365A CN113095365A CN202110276265.4A CN202110276265A CN113095365A CN 113095365 A CN113095365 A CN 113095365A CN 202110276265 A CN202110276265 A CN 202110276265A CN 113095365 A CN113095365 A CN 113095365A
- Authority
- CN
- China
- Prior art keywords
- medical insurance
- data
- violation data
- model
- data identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003860 storage Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 49
- 238000003066 decision tree Methods 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 229940079593 drug Drugs 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000010252 digital analysis Methods 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Fuzzy Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例提供了一种医疗保险违规数据识别方法、装置、电子设备及存储介质,方法包括:基于医保数据库获取医保数据;将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。本发明实施例能有效识别医疗保险中存在的违规数据,并且能够直接标出具体的违规数据。
Description
技术领域
本发明涉及人工智能机器学习技术领域,尤其涉及一种医疗保险违规数据识别方法及装置。
背景技术
欺诈和滥用导致医保系统产生大量额外开支,医保反欺诈的研究开始兴起,一些研究人员采用概率和统计学的手段,处理分析医保数据,找出其中的不合理之处。例如,Peder A.Olsen,Ramesh Natarajan和Sholom M.Weiss设计了基于概率图模型的方法分析处方和医疗索赔数据,以此建立诊断、疾病和病人信息(年龄性别职业)的联合概率分布,通过单条医保数据是否服从概率分布判别欺诈。还借鉴了语音识别和语言建模的思想,来识别处方遭遇明显偏离规范行为的患者、医生和药店。例如,Fletcher Lu1和J.Efrim Boritz采用统计学中的Benford规则处理医保数据,Benford规则描述了一组随机发生的数字,各位置上不同数字出现的概率。用一种无监督的学习方法增强了这种数字分析技术,将此方法应用于健康保险索赔中欺诈和滥用的检测。以上这些技术都借助概率与统计的方法研究医保欺诈,模型结构简单,对于数据集质量有要求,数据的遗漏缺失对模型效果影响很大,而现实情况中获得的数据集常常是不完整的。另一方面,概率与统计的方法有时只能推测数据集的可信程度,而不能直接标注出具体的欺诈违规数据,这也制约了这类方法在实践中的效果。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种医疗保险违规数据识别方法及装置。
第一方面,本发明实施例提供一种医疗保险违规数据识别方法,包括:
基于医保数据库获取医保数据;
将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;
根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
进一步地,还包括:
对医保数据进行预处理;
其中,所述预处理为基于医保审核规则,和/或,预设欺诈模式确定特征数据;和,将所述特征数据进行随机排序,分为测试集、验证集和训练集三部分。
进一步地,所述方法还包括:
采用决策树算法构建所述医疗保险违规数据识别模型;
基于所述医疗保险违规数据识别模型进行参数初始化设置;所述参数包括第一类参数、第二类参数和第三类参数,所述第一类参数至少包括决策树叶子节点数和决策树深度,所述第二类参数至少包括训练时的学习率和迭代时的特征选取率;所述第三类参数至少包括识别模型损失函数和识别模型正则化项。
进一步地,所述医疗保险违规数据识别模型为lightgbm模型,以cart决策树为子树;采用boosting算法集成各个子树,并通过boosting算法进行迭代得到满足预设迭代结束条件的医疗保险违规数据识别模型。
进一步地,在得到满足预设迭代结束条件的医疗保险违规数据识别模型后,还包括:
超参调整步骤,所述超参调整步骤为:
基于所述训练集在满足预设迭代结束条件的医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与训练集对应的目标准确率;若否,则对初始化对应的参数进行参数调整,并基于调整后的参数重复进行迭代得到相应的第二医疗保险违规数据识别模型。
进一步地,所述超参调整步骤,还包括:
基于所述验证集在满足预设迭代结束条件的医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与验证集对应的目标准确率;若否,则对初始化对应的参数进行参数调整,并基于调整后的参数重复进行迭代得到相应的第三医疗保险违规数据识别模型。
进一步地,还包括:
模型评估步骤,所述模型评估步骤为:
基于所述测试集在所述第二医疗保险违规数据识别模型或第三医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与测试集对应的目标准确率;若否,则重复所述超参调整步骤得到第四医疗保险违规数据识别模型。
第二方面,本发明实施例提供了一种医疗保险违规数据识别装置,包括:
获取模块,用于基于医保数据库获取医保数据;
医疗保险违规数据识别模块,用于将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;
判断及标注模块,用于根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上第一方面所述的医疗保险违规数据识别方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上第一方面所述的医疗保险违规数据识别方法的步骤。
由上述技术方案可知,本发明实施例提供的医疗保险违规数据识别方法、装置、电子设备及存储介质,通过基于医保数据库获取医保数据;将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。可见本发明实施例能有效识别医疗保险中存在的违规数据,并且能够直接标出具体的违规数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例提供的医疗保险违规数据识别方法的流程示意图;
图2为本发明一实施例提供的特征数据示意图;
图3为本发明一实施例提供的参数初始化示意图;
图4为本发明一实施例提供的医保审核规则示意图;
图5为本发明一实施例提供的二分类valid集合上的实验结果示意图;
图6为本发明一实施例提供的二分类test集合上的实验结果示意图;
图7为本发明一实施例提供的医疗保险违规数据识别装置的结构示意图;
图8为本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。下面将通过具体实施例对本发明提供的医疗保险违规数据识别方法进行详细解释和说明。
图1为本发明一实施例提供的医疗保险违规数据识别方法的流程示意图;如图1所示,该方法包括:
步骤101:基于医保数据库获取医保数据。
在本步骤中,可以理解是,医保数据即医疗保险数据可以通过各地方医保数据库进行数据采集。
步骤102:将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的。
在本步骤中,需要说明的是,可以为将医保数据输入至预先训练好的医疗保险违规数据识别模型,对医保数据进行预测得到与所述医保数据对应地预测分值。如预测分值可以为0~1区间的数。
步骤103:根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
在本步骤中,针对根据所述医保数据对应地预测分值确定是否存在违规数据,可以理解的是,例如预设预测分值在0.6~0.8分值区间的属于违规数据,则当所述医保数据对应地预测分值在0.6~0.8区间内时存在违规数据;针对标注出所述违规数据,可以理解的是,例如通过模型对需要判别的数据进行预测,即针对一个数据给出一个0到1之间的分数,根据这个分数结合阈值即可判断数据是否违规,从而对违规数据进行标注。具体的,如模型对一个数据做出预测后给出的分数是0.8,阈值是0.7,超过了这个阈值,判断其为违规数据。说明一下阈值是可以根据经验设置的,可以在具体情况下修改。上文提到的标注指的是给数据做记号,例如在数据最后增加一项,此项为0代表数据正常,为1代表违规,这就是一种标注。
由上述技术方案可知,本发明实施例提供的医疗保险违规数据识别方法,通过基于医保数据库获取医保数据;将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。可见本发明实施例能有效识别医疗保险中存在的违规数据,并且能够直接标出具体的违规数据。
在上述实施例基础上,在本实施例中,还包括:
对医保数据进行预处理;
其中,所述预处理为基于医保审核规则,和/或,预设欺诈模式确定特征数据;和,将所述特征数据进行随机排序,分为测试集、验证集和训练集三部分。
在本实施例中,可以理解的是,数据预处理为读入标注过的医保相关数据,处理数据得到模型训练需要的特征(参见图2)。特征的设置,结合了现有医保审核规则和分析得到的欺诈模式。之后将特征数据随机排序,分为测试集、验证集和训练集三部分。在本实施例中,针对标注数据和原始数据的区别需要说明的是,原始数据是医院提供的诊疗相关数据,包含了诊疗过程的详细内容,例如病人id,年龄性别,所患病症表现种类,采取的治疗方式,和产生的各类费用等等,属于从医疗角度出发采集的信息。而标注数据,它是从医疗保险审核角度出发,判断这些数据是否存在可能的欺诈骗保行为。所以标注数据就是在每个数据后面加上医保局的判断,如这个数据有或者没有欺诈。
为了更好的理解本实施例,举例来说,在医疗保险违规数据识别模型训练开始前,本实施例根据现有医保审核规则,分析其中的欺诈模式,设置数据特征。参见图2中的特征包括病人年龄,病人性别,病人享受的福利等级,疾病情况,医疗过程中使用的药品种类、数量等。参见图4中医保审核规则举例示意图,【规则描述】对同一药理最小分类项下的药品的重复使用进行审核;例如:图2中特征。现有的医保审核规则包括国家和地方出台的医保相关文件通知,例如:图4中规则。而欺诈模式则针对违规情况,分析其在数据上体现出的特点,例如:低标准入院常常对应住院费用低,使用药品数量少;超频次用药对应数据往往在短时间内有大量药品使用记录。由此本发明实施例总结出医保欺诈数据识别涉及的数据相关特征,包括四个方面:一、病人相关信息,包括病人年龄、性别、id和对应福利待遇等;二、疾病相关信息,包括疾病种类、诊断信息等;三药品治疗相关信息,包括药品种类、用量和价格等;四其他信息,包括就诊时间、就诊医院等。之后本发明实施例将数据经过处理得到对应特征,再将特征数据随机分为测试集、验证集和训练集三部分。
在上述实施例基础上,在本实施例中,所述方法还包括:
采用决策树算法构建所述医疗保险违规数据识别模型;
基于所述医疗保险违规数据识别模型进行参数初始化设置;所述参数包括第一类参数、第二类参数和第三类参数,所述第一类参数至少包括决策树叶子节点数和决策树深度,所述第二类参数至少包括训练时的学习率和迭代时的特征选取率;所述第三类参数至少包括识别模型损失函数和识别模型正则化项。
在本实施例中,需要说明的是,决策树是一种机器学习算法,是在已知各种情况发生概率的基础上,通过构成树形结构来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。训练决策树时,从树根节点开始,选择不同特征的数据分裂节点,使得分裂收益最大。这一分裂过程持续进行,决策树不断生长,最终达到终止条件后叶子节点不再分裂,完整的决策树生成。使用决策树预测时,从根节点开始,根据已经定下的特征和数据分裂方式,逐层判断数据属于哪个子节点,最终数据落在叶子节点上,完成预测。
为了更好的理解本实施例,举例来说,参见图3设置的参数包括分类器模型,学习率,策树叶子节点数,决策树深度,迭代时特征选取率等;模型初始化:模型在训练前需要预先设置参数,以确定模型结构并指示模型的训练方式;例如:图3中参数;本发明实施例涉及的模型参数主要有三类:一、模型结构相关,包括决策树叶子节点数,决策树深度等;二、模型训练相关,包括模型训练时的学习率,迭代时特征选取率等;三、模型评判相关,包括模型的损失函数,模型正则化项等。这些参数设置后,可以启动模型训练,在之后的训练中,参数会不断调整使得模型获得最优效果。
在上述实施例基础上,在本实施例中,所述医疗保险违规数据识别模型为lightgbm模型,以cart决策树为子树;采用boosting算法集成各个子树,并通过boosting算法进行迭代得到满足预设迭代结束条件的医疗保险违规数据识别模型。
在本实施例中,需要说明的是,本实施例使用的决策树模型(即医疗保险违规数据识别模型),具体为lightgbm模型。该模型以cart决策树为子树,使用boosting方法集成各个子树,构建一个完整的机器学习模型。其中,CART是一棵二叉决策树,该树的结点每一次分裂会产生两个子节点。CART分类树预测分类离散型数据,采用基尼指数选择最优特征分裂。基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,则分裂越好。分裂时CART先计算不同特征的最小基尼指数,再从所有特征中,选取拥有最小基尼指数的特征进行分裂。最终节点满足停止分裂条件(样本个数小于预定阈值,或Gini指数小于预定阈值(样本基本属于同一类,或没有特征可供分裂),则停止分裂。在使用boosting方法集成时,lightgbm算法将cart树作为集成学习的子分类器层层叠加,每一层在训练的时候,对前一层模型分类效果差(残差大)的样本给予更高的权重。测试时,则会根据各个子树的结果,加权得到最终结果。Lightgbm还在模型的训练时间和空间占用上进行了优化,具体涉及了特征数据分bin和leaf-wise的决策树分层方法。模型在计算特征最优切分点时能通过分bin建立的索引快速确定最优值,可重复利用的分bin,也能避免每次分裂后重新更新特征索引,从而进一步减少时间和空间消耗。Leaf-wise的策略保证树分裂时不需要按层的次序,而是直接选择基尼指数收益大的节点分裂,这避免节点的无意义分裂,也加快了决策树的生成。
为了更好的理解本实施例,举例来说,在模型初始化完成后,下一步将数据导入模型中,利用梯度下降法,使模型拟合训练集。具体做法是在boosting每一轮新的迭代时,生成一棵CART决策树拟合上一轮boosting迭代时模型与训练集结果之间的残差,这颗新树的输入中与上轮结果差距更大的(也即残差更大)的样本被赋予了更高的权重。新树构建后加入模型,由于其拟合了旧有模型和训练集之间的残差,新模型的残差较之前将缩小。通过boosting算法多轮迭代不断加入新的决策树子模型,最终模型和训练集之间的残差趋于稳定,损失函数收敛,迭代结束模型训练完成。
在本实施例中,需要说明的是,处理大规模数据时,进行的矩阵运算将消耗大量计算机内存和运算时间,实践中地方医保数据量十分巨大,因此需要模型对参数非常敏感,调参的结果对模型准确率的影响很大,实践中模型在不同地方数据集上迁移时,需要重新对参数进行训练,决策树模型具备良好的可迁移性。
在上述实施例基础上,在本实施例中,在得到满足预设迭代结束条件的医疗保险违规数据识别模型后,还包括:
超参调整步骤,所述超参调整步骤为:
基于所述训练集在满足预设迭代结束条件的医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与训练集对应的目标准确率;若否,则对初始化对应的参数进行参数调整,并基于调整后的参数重复进行迭代得到相应的第二医疗保险违规数据识别模型。
在本实施例中,针对参数调整需要说明的是,进行参数调整时采用了网格搜索调参法,网格搜索调参法是一种穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果,其原理是凸函数优化法。
在本实施例中,可以理解的是,完成迭代训练后(即满足预设迭代结束条件的医疗保险违规数据识别模型),本实施例根据医疗保险违规数据识别模型在训练集上的结果计算出准确率等评判指标,而后调整医疗保险违规数据识别模型超参重复模型迭代训练获得相应的第二医疗保险违规数据识别模型。本实施例的目标是通过调整参数使第二医疗保险违规数据识别模型的准确率不断提升,最终在训练集上达到预期的效果。
在上述实施例基础上,在本实施例中,所述超参调整步骤,还包括:
基于所述验证集在满足预设迭代结束条件的医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与验证集对应的目标准确率;若否,则对初始化对应的参数进行参数调整,并基于调整后的参数重复进行迭代得到相应的第三医疗保险违规数据识别模型。
在本实施例中,针对参数调整需要说明的是,进行参数调整时采用了网格搜索调参法,网格搜索调参法是一种穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果,其原理是凸函数优化法。
在本实施例中,可以理解的是,本实施例采用的超参调整步骤可视为对医疗保险违规数据识别模型泛化能力的验证,也即医疗保险违规数据识别模型在训练集之外的数据集合上表现评测;本实施例可以避免医疗保险违规数据识别模型过拟合现象发生,也即医疗保险违规数据识别模型在训练集上效果良好但在其他数据集上效果急剧下降,从而影响医疗保险违规数据识别模型的正常使用。通过医疗保险违规数据识别模型预测验证集数据,计算准确率等指标,可判断医疗保险违规数据识别模型的泛化性能。再不断调节医疗保险违规数据识别模型的超参数,使得最终医疗保险违规数据识别模型在验证集上也达到预期的准确率,泛化能力得以保证,至此参数调整结束。
在上述实施例基础上,在本实施例中,还包括:
模型评估步骤,所述模型评估步骤为:
基于所述测试集在所述第二医疗保险违规数据识别模型或第三医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与测试集对应的目标准确率;若否,则重复所述超参调整步骤得到第四医疗保险违规数据识别模型。
在本实施例中,需要说明的是,模型评估步骤,在完成参数调整后,医疗保险违规数据识别模型已经训练完成。为了对医疗保险违规数据识别模型实际效果进行检验。原因在于,训练集和/或验证集实际都参与了医疗保险违规数据识别模型的训练和调参过程,需要借助完全独立于医疗保险违规数据识别模型的测试集,才能测试医疗保险违规数据识别模型在实际使用情况下的效果。这里使用预测测试集,计算准确率等指标作为医疗保险违规数据识别模型效果的最终判定结果。
由上述技术方案可知,本发明实施例提供的医疗保险违规数据识别方法,通过模型评估步骤有利于提高医疗保险违规数据识别模型的识别准确率。
在本发明中,需要说明的是,通过多次迭代训练使模型在训练集上稳定,损失函数收敛。完成训练集的训练后,使用模型预测验证集,评估模型在验证集上的效果,以此为标准修改模型参数,使得模型在验证集上也达到最优。再使用模型预测测试集,以此评估模型的最终效果。
在上述实施例基础上,为了验证本发明实施例提供的医疗保险违规数据识别方法的效果,获取金华地区2020年1-5月份医保数据集。该集合包含共计376w条的结果进行展示,其中正样本(违规样本):206916;负样本(正常样本):3560832;基于金华地区2020年1-5月份医保数据集以及医疗保险违规数据识别模型进行医疗保险违规数据识别和标注。
其中,图5显示了模型在二分类valid集合上的实验结果,图6显示了模型在二分类test集合上的实验结果,二者准确率波动微小,其中,图5和图6是模型在不同集合(valid和test)上的最终结果评估。它们可以具体分为两个部分,其一是auc-roc值,代表的是模型的准去率。这个准确率具体的算法可以参照下文:auc-roc被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。其中,ROC曲线全称为受试者工作特征曲线(receiver operatingcharacteristic curve),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。
另一部分是pr曲线值,这是本实施例特别采用的评估方法,所以附上了坐标图。图中的横坐标为recall代表召回率,纵坐标precision代表准确率。针对召回率和准确率需要说明的是,召回率代表实际违规数据中有多少被模型成功找出;准确率代表用户判断的违规数据中,到底有多少真正违规。可以理解的是,模型给出的实际是一个数据的违规可能性。所以不论是recall还是precision,都是要结合阈值的,对于选定的一个阈值,本实施得到一组对应的recall和precision,于是本实施例选择大量阈值最终能得到recall和precision的对应函数关系。这就是图像代表的意义;可以看出本发明实施例提供的医疗保险违规数据识别方法采用的模型迁移性良好。模型在2020全年(1-5月份)数据上运行结果,auc(真阳性-假阳性曲线积分)都保持在99以上。由于正负样本比例差距过大,auc被负样本正确率挟持,但实际工作中更加关注正样本(违规样本)而非负样本(正常样本),这里使用新的评估标准pr曲线面积(precison-recall曲线积分)评估模型在正样本(违规样本)上的表现。运行结果说明,本发明实施例能有效识别医保审核中的违规数据。
图7为本发明一实施例提供的医疗保险违规数据识别装置的结构示意图,如图7所示,该装置包括:获取模块201、医疗保险违规数据识别模块202和判断及标注模块203,其中:
其中,获取模块201,用于基于医保数据库获取医保数据;
医疗保险违规数据识别模块202,用于将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;
判断及标注模块203,用于根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
本发明实施例提供的医疗保险违规数据识别装置具体可以用于执行上述实施例的医疗保险违规数据识别方法,其技术原理和有益效果类似,具体可参见上述实施例,此处不再赘述。
基于相同的发明构思,本发明实施例提供一种电子设备,参见图8,电子设备具体包括如下内容:处理器301、通信接口303、存储器302和通信总线304;
其中,处理器301、通信接口303、存储器302通过通信总线304完成相互间的通信;通信接口303用于实现各建模软件及智能制造装备模块库等相关设备之间的信息传输;处理器301用于调用存储器302中的计算机程序,处理器执行计算机程序时实现上述各方法实施例所提供的方法,例如,处理器执行计算机程序时实现下述步骤:基于医保数据库获取医保数据;将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
基于相同的发明构思,本发明又一实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例提供的方法,例如,基于医保数据库获取医保数据;将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种医疗保险违规数据识别方法,其特征在于,包括:
基于医保数据库获取医保数据;
将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;
根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
2.根据权利要求1所述的医疗保险违规数据识别方法,其特征在于,还包括:
对医保数据进行预处理;
其中,所述预处理为基于医保审核规则,和/或,预设欺诈模式确定特征数据;和,将所述特征数据进行随机排序,分为测试集、验证集和训练集三部分。
3.根据权利要求2所述的医疗保险违规数据识别方法,其特征在于,所述方法还包括:
采用决策树算法构建所述医疗保险违规数据识别模型;
基于所述医疗保险违规数据识别模型进行参数初始化设置;所述参数包括第一类参数、第二类参数和第三类参数,所述第一类参数至少包括决策树叶子节点数和决策树深度,所述第二类参数至少包括训练时的学习率和迭代时的特征选取率;所述第三类参数至少包括识别模型损失函数和识别模型正则化项。
4.根据权利要求3所述的医疗保险违规数据识别方法,其特征在于,所述医疗保险违规数据识别模型为lightgbm模型,以cart决策树为子树;采用boosting算法集成各个子树,并通过boosting算法进行迭代得到满足预设迭代结束条件的医疗保险违规数据识别模型。
5.根据权利要求4所述的医疗保险违规数据识别方法,其特征在于,在得到满足预设迭代结束条件的医疗保险违规数据识别模型后,还包括:
超参调整步骤,所述超参调整步骤为:
基于所述训练集在满足预设迭代结束条件的医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与训练集对应的目标准确率;若否,则对初始化对应的参数进行参数调整,并基于调整后的参数重复进行迭代得到相应的第二医疗保险违规数据识别模型。
6.根据权利要求5所述的医疗保险违规数据识别方法,其特征在于,所述超参调整步骤,还包括:
基于所述验证集在满足预设迭代结束条件的医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与验证集对应的目标准确率;若否,则对初始化对应的参数进行参数调整,并基于调整后的参数重复进行迭代得到相应的第三医疗保险违规数据识别模型。
7.根据权利要求5或6所述的医疗保险违规数据识别方法,其特征在于,还包括:
模型评估步骤,所述模型评估步骤为:
基于所述测试集在所述第二医疗保险违规数据识别模型或第三医疗保险违规数据识别模型的识别结果确定当前准确率;
基于当前准确率判断是否满足与测试集对应的目标准确率;若否,则重复所述超参调整步骤得到第四医疗保险违规数据识别模型。
8.一种医疗保险违规数据识别装置,其特征在于,包括:
获取模块,用于基于医保数据库获取医保数据;
医疗保险违规数据识别模块,用于将所述医保数据输入至医疗保险违规数据识别模型,得到与所述医保数据对应地预测分值;其中,所述医疗保险违规数据识别模型为采用标注过的医保样本数据作为输入数据,以及,与标注过的医保样本数据对应地预测分值作为输出数据,基于机器学习算法进行训练得到的;
判断及标注模块,用于根据所述医保数据对应地预测分值确定是否存在违规数据,并标注出所述违规数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7任一项所述的医疗保险违规数据识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~7任一项所述的医疗保险违规数据识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276265.4A CN113095365A (zh) | 2021-03-15 | 2021-03-15 | 医疗保险违规数据识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276265.4A CN113095365A (zh) | 2021-03-15 | 2021-03-15 | 医疗保险违规数据识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095365A true CN113095365A (zh) | 2021-07-09 |
Family
ID=76667962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110276265.4A Pending CN113095365A (zh) | 2021-03-15 | 2021-03-15 | 医疗保险违规数据识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095365A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170031A (zh) * | 2021-12-10 | 2022-03-11 | 金科览智科技(北京)有限公司 | 一种保险投保单的风险评估方法以及系统 |
CN114866351A (zh) * | 2022-07-06 | 2022-08-05 | 湖南创星科技股份有限公司 | 一种基于区块链的区域医疗处方监管方法及平台 |
CN116167872A (zh) * | 2023-04-20 | 2023-05-26 | 湖南工商大学 | 异常医疗数据检测方法、装置及设备 |
CN117151902A (zh) * | 2023-10-25 | 2023-12-01 | 北京创智和宇科技有限公司 | 一种大数据分析对drg及dip医保支付风险监控和预警的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615280A (zh) * | 2019-01-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 员工数据处理方法、装置、计算机设备和存储介质 |
CN111311401A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于LightGBM的金融违约概率预测模型 |
CN111612640A (zh) * | 2020-05-27 | 2020-09-01 | 上海海事大学 | 一种数据驱动的车险欺诈识别方法 |
CN111709845A (zh) * | 2020-06-01 | 2020-09-25 | 青岛国新健康产业科技有限公司 | 医保欺诈行为识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-03-15 CN CN202110276265.4A patent/CN113095365A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615280A (zh) * | 2019-01-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 员工数据处理方法、装置、计算机设备和存储介质 |
CN111311401A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于LightGBM的金融违约概率预测模型 |
CN111612640A (zh) * | 2020-05-27 | 2020-09-01 | 上海海事大学 | 一种数据驱动的车险欺诈识别方法 |
CN111709845A (zh) * | 2020-06-01 | 2020-09-25 | 青岛国新健康产业科技有限公司 | 医保欺诈行为识别方法、装置、电子设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170031A (zh) * | 2021-12-10 | 2022-03-11 | 金科览智科技(北京)有限公司 | 一种保险投保单的风险评估方法以及系统 |
CN114866351A (zh) * | 2022-07-06 | 2022-08-05 | 湖南创星科技股份有限公司 | 一种基于区块链的区域医疗处方监管方法及平台 |
CN114866351B (zh) * | 2022-07-06 | 2022-10-14 | 湖南创星科技股份有限公司 | 一种基于区块链的区域医疗处方监管方法及系统 |
CN116167872A (zh) * | 2023-04-20 | 2023-05-26 | 湖南工商大学 | 异常医疗数据检测方法、装置及设备 |
CN117151902A (zh) * | 2023-10-25 | 2023-12-01 | 北京创智和宇科技有限公司 | 一种大数据分析对drg及dip医保支付风险监控和预警的方法 |
CN117151902B (zh) * | 2023-10-25 | 2024-01-23 | 北京创智和宇科技有限公司 | 一种大数据分析对drg及dip医保支付风险监控和预警的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922348B2 (en) | Generating final abnormality data for medical scans based on utilizing a set of sub-models | |
CN113095365A (zh) | 医疗保险违规数据识别方法及装置 | |
CN110111888A (zh) | 一种XGBoost疾病概率预测方法、系统及存储介质 | |
Ronellenfitsch et al. | Topological phenotypes constitute a new dimension in the phenotypic space of leaf venation networks | |
CN109243620B (zh) | 基于血药浓度监测的药效优化方法及装置 | |
CN112200684B (zh) | 一种检测医保欺诈的方法、系统及存储介质 | |
CN114864099B (zh) | 一种基于因果关系挖掘的临床数据自动化生成方法及系统 | |
López-Cruz et al. | Bayesian network modeling of the consensus between experts: An application to neuron classification | |
CN113657548A (zh) | 医保异常检测方法、装置、计算机设备及存储介质 | |
CN113642672B (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
US20240161035A1 (en) | Multi-model medical scan analysis system and methods for use therewith | |
CN111091907A (zh) | 基于相似病例库的健康医疗知识检索方法和系统 | |
CN111951116A (zh) | 基于无监督孤立点检测的医保反欺诈监测分析方法和系统 | |
Peng et al. | The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process | |
Chen et al. | A New Optimal Diagnosis System for Coronavirus (COVID‐19) Diagnosis Based on Archimedes Optimization Algorithm on Chest X‐Ray Images | |
CN115050442A (zh) | 基于挖掘聚类算法的病种数据上报方法、装置及存储介质 | |
WO2017001885A2 (ru) | Способ создания модели объекта | |
CN115438040A (zh) | 一种病理档案信息管理方法及系统 | |
CN110957046A (zh) | 医疗健康案例知识匹配方法和系统 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN114068036A (zh) | 一种基于物联网感知的传染传播预测方法及系统 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
Anggraeny et al. | Relief feature selection and Bayesian network model for hepatitis diagnosis | |
CN113284596A (zh) | 一种手术室麻醉科的物资管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210709 |