CN113487440A - 模型生成、健康险理赔的确定方法、装置、设备及介质 - Google Patents

模型生成、健康险理赔的确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN113487440A
CN113487440A CN202110843999.6A CN202110843999A CN113487440A CN 113487440 A CN113487440 A CN 113487440A CN 202110843999 A CN202110843999 A CN 202110843999A CN 113487440 A CN113487440 A CN 113487440A
Authority
CN
China
Prior art keywords
health insurance
data
historical
model
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110843999.6A
Other languages
English (en)
Inventor
郑力铭
张敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianren Healthcare Big Data Technology Co Ltd
Original Assignee
Lianren Healthcare Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianren Healthcare Big Data Technology Co Ltd filed Critical Lianren Healthcare Big Data Technology Co Ltd
Priority to CN202110843999.6A priority Critical patent/CN113487440A/zh
Publication of CN113487440A publication Critical patent/CN113487440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例公开了一种模型生成、健康险理赔的确定方法、装置、设备及介质。该模型生成方法可包括:获取历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本,其中,历史健康险理赔数据包括历史保单责任数据,且分类数据包括针对历史健康险理赔案件的人工审核数据或是实际拒赔数据;基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型。本发明实施例的技术方案,可以生成用于确定健康险理赔案件是否为健康险理赔欺诈案件的分类模型,即用于自动确定是否进行健康险理赔的分类模型。

Description

模型生成、健康险理赔的确定方法、装置、设备及介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种模型生成、健康险理赔的确定方法、装置、设备及介质。
背景技术
健康险可以包括保险公司通过疾病保险、医疗保险、失能收入损失保险和护理保险等方式对因健康原因导致的损失给付保险金的保险,参保人在向保险公司缴纳保险金并订立保险合约后,一旦参保人因健康原因导致了经济损失,保险公司需要受理参保人的索赔申请并支付保险金赔偿。
当前实践中,主要是由人工确定是否进行健康险理赔。具体的,当参保人提交索赔申请后,保险公司会安排大量理赔人员来审核索赔申请是否正常(即是否属于欺诈),这一过程非常繁琐,而且审核的准确性非常有限:多达70%的索赔申请被标记为欺诈,但其中拒赔的成功率仅有10%。理赔审核占用了宝贵的人力、时间和其他资源,但是审核效果难以令人满意。
发明内容
本发明实施例提供了一种模型生成、健康险理赔的确定方法、装置、设备及介质,以生成可用于健康险理赔的自动确定的模型。
第一方面,本发明实施例提供了一种模型生成方法,可以包括:
获取历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本;
基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型;
其中,历史健康险理赔数据包括历史保单责任数据,且分类数据包括针对历史健康险理赔案件的人工审核数据或是实际拒赔数据。
可选的,基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型,可以包括:
获取至少两个待进行训练的机器学习模型;
将多组训练样本划分为第一组训练样本和第二组训练样本;
针对每个机器学习模型,基于第一组训练样本对机器学习模型进行训练,得到中间学习模型;
针对每个中间学习模型,基于第二组训练样本处理中间学习模型,并根据各中间学习模型的处理结果从各中间学习模型中确定出健康险理赔欺诈案件的分类模型。
在此基础上,可选的,根据各中间学习模型的处理结果从各中间学习模型中确定出健康险理赔欺诈案件的分类模型,可以包括:
根据各中间学习模型的处理结果,从各中间学习模型中确定出待测试学习模型,并基于已获取的多组测试样本对待测试学习模型进行测试;
若根据测试结果确定待测试学习模型未能满足预先设置的健康险理赔欺诈案件的分类性能,则将待测试模型作为机器学习模型,重复执行将多组训练样本划分为第一组训练样本和第二组训练样本的步骤;
否则,将待测试学习模型作为健康险理赔欺诈案件的分类模型。
可选的,历史保单责任数据可以包括历史就诊医院级别、历史疾病类型和历史理赔金额中的至少一个。
可选的,历史健康险理赔数据还可以包括历史就医对象的基本数据、医疗数据和医保结算数据中的至少一个。
第二方面,本发明实施例还提供了一种健康险理赔的确定方法,可以包括:
在检测到健康险理赔的确定事件时,获取与确定事件对应的当前健康险理赔案件的当前健康险理赔数据、以及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中,当前健康险理赔数据包括当前保单责任数据;
将当前健康险理赔数据输入至分类模型中,并根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。
第三方面,本发明实施例还提供了一种模型生成装置,可以包括:
训练样本得到模块,用于获取历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本;
分类模型生成模块,用于基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型;
其中,历史健康险理赔数据包括历史保单责任数据,且分类数据包括针对历史健康险理赔案件的人工审核数据或是实际拒赔数据。
第四方面,本发明实施例还提供了一种健康险理赔的确定装置,可以包括:
分类模型获取模块,用于在检测到健康险理赔的确定事件时,获取与确定事件对应的当前健康险理赔案件的当前健康险理赔数据、以及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中当前健康险理赔数据包括当前保单责任数据;
案件理赔确定模块,用于将当前健康险理赔数据输入至分类模型中,根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。
第五方面,本发明实施例还提供了一种电子设备,可以包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例所提供的模型生成方法或是健康险理赔的确定方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的模型生成方法或是健康险理赔的确定方法。
本发明实施例的技术方案,通过获取到历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本,其中历史健康险理赔数据包括可能对历史健康险理赔案件的分类结果产生重要影响的历史保单责任数据,且分类数据包括能够体现出历史健康险理赔案件的分类结果的人工审核数据或是实际拒赔数据;基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型。上述技术方案,通过生成的用于自动确定是否进行健康险理赔的分类模型,解决了在人工审核是否进行健康险理赔时存在的操作过程繁琐和审核准确性难以保证的问题,降低了人力、时间和其他资源的占用成本,达到了系统性识别和纠正错误、减少或是避免不必要和无效的人工干预的效果。
附图说明
图1是本发明实施例一中的一种模型生成方法的流程图;
图2是本发明实施例二中的一种健康险理赔的确定方法的流程图;
图3是本发明实施例三中的一种模型生成装置的结构框图;
图4是本发明实施例四中的一种健康险理赔的确定装置的结构框图;
图5是本发明实施例五中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中提供的一种模型生成方法的流程图。本实施例可适用于生成用于自动确定是否进行健康险理赔的模型的情况,尤其适用于生成用于通过判断健康险理赔案件是否为健康险理赔欺诈案件而确定是否进行健康险理赔的模型的情况。该方法可以由本发明实施例提供的模型生成装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备,该电子设备可以是各种用户终端或服务器。
参见图1,本发明实施例的方法具体包括如下步骤:
S110、获取历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本,其中,历史健康险理赔数据包括历史保单责任数据,分类数据包括针对历史健康险理赔案件的人工审核数据或实际拒赔数据。
其中,历史健康险理赔案件可以是已经结案的与健康险理赔有关的案件,历史健康险理赔数据可以是在对历史健康险理赔案件进行处理过程中涉及到的与健康险理赔有关的数据,分类数据可以是基于该历史健康险理赔数据对历史健康险理赔案件进行处理后得到的历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,而属于历史健康险理赔欺诈案件的历史健康险理赔案件可以认为是无需进行健康险理赔的案件。
需要说明的是,一方面,历史健康险理赔数据可以包括历史保单责任数据,其中历史保单责任数据可以是与记录在健康险理赔案件关联的健康险理赔文件中的保单责任有关的数据,而保单责任可以是与健康险理赔文件关联的保单人应该承担的责任,如与可理赔的金额、可理赔的就诊医院级别、可理赔的疾病责任清单、或不可理赔的疾病责任清单(即除外清单)等有关的责任。可选的,健康险理赔文件可以是保险合同,历史保单责任数据可包括历史就诊医院级别、历史疾病类型和历史理赔金额中的至少一个。需要强调的是,在实际应用中,历史保单责任数据是对历史健康险理赔案件进行分类过程中的关键参考因素,因此将历史保单责任数据输入到模型中进行模型训练时,模型可以通过对历史保单责任数据进行充分分析后确定能够对历史健康险理赔案件的分类结果产生影响的关键特征,这是训练出能够准确分类的模型的有效保证。
再可选的,历史健康险理赔数据还可包括历史就医对象的基本数据、医疗数据和医保结算数据中的至少一个,其中历史就医对象也可称为历史就医主体、历史参保人等;基本数据可以是与历史就医对象本身有关的数据,比如性别、年龄、职业、住址、参保类型、或是账户余额等;医疗数据可以是与历史就医对象在医疗机构发生的就诊行为相关的数据,以住院就诊为例,其可以是入院时间、主要诊断、次要诊断、并发症、主诊医师、检验信息、或检查信息等;医保(社会医疗保险)结算数据可以是与就诊行为相关的出现在医保结算方面的数据,如总金额、医保支付金额、个人自付金额、统筹基金支付金额、大病基金支付金额、或是公务员补助金额等。当然,上文仅是示例性的阐述了历史健康险理赔数据可以包括什么类型的数据,每个类型下的数据又可以包括什么样的数据,即它们也可以是除了上述举例之外的其余数据,在此未做具体限定。
另一方面,分类数据可以是针对历史健康险理赔案件的人工审核数据或是实际拒赔数据,其中人工审核数据可以是经由人工对历史健康险理赔案件进行审核后确定的其是否属于历史健康险理赔欺诈案件的数据;实际拒赔数据可以包括与在实际应用中是否拒绝赔付了历史健康险理赔案件对应的历史理赔金额有关的数据,即根据实际拒赔数据也可以确定历史健康险理赔案件是否为历史健康险理赔欺诈案件,如当实际拒赔数据是拒绝赔付数据时,历史健康险理赔案件属于历史健康险理赔欺诈案件,再如当实际拒赔数据是同意赔付数据时,历史健康险理赔案件不是历史健康险理赔欺诈案件。需要强调的是,上述人工审核数据中的人工可以是在健康险理赔方面具有丰富经验的理赔专家,因此将人工审核数据作为标签进行模型训练时,可以得到能模仿理赔专家的赔付决策的模型,由此能够让理赔专家的经验得到了广泛应用,提高了理赔审核效率;由于实际拒赔数据是在实际赔付过程中实际出现的数据,因此将实际拒赔数据作为标签进行模型训练时,可以得到能够模仿实际拒赔结果的模型。
S120、基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型。
其中,机器学习模型(Machine Learning,ML)可以是能够进行自学习的模型,在将多组训练样本输入到机器学习模型中进行模型训练时,可以完成该机器学习模型的优化过程,得到健康险理赔欺诈案件的分类模型。即分类模型可以是用于对健康险理赔案件进行分类,筛选出健康险理赔欺诈案件的模型,由于根据健康险理赔案件的分类结果可以确定是否进行健康险理赔,因此分类模型也可以理解为用于自动确定是否进行健康险理赔的模型。
在实际应用中,可选的,上述技术方案可以理解为基于监督学习技术处理一个复杂(非线性)的分类任务(即健康险理赔欺诈案件的分类任务)的方案,因此可以引入监督学习和监督学习下的决策树、随机森林等算法完成。其中,随机森林算法的应用可以优化分类(即拟合)效果,具体的,随机森林在构建每一个弱分类器时可以有两重随机性:第一重随机性是对训练样本的随机选择,也就是每一次都有放回地取出固定比例的训练样本量,并组成一个弱分类器;第二重随机性是对样本特征的随机选择,也就是每一次有放回地取出固定比例的样本特征量。随机森林改善了单个弱分类器(即单棵决策树)可能会产生的过拟合的情况,由于每个弱分类器只使用了一部分训练样本,分类的最终结果由所有弱分类器的平均值决定。另外,随机森林的抗噪能力强,相较其它类型的机器学习模型,其对缺失值不敏感。除此外,随机森林还可以得到变量重要性的排名。
本发明实施例的技术方案,通过获取到历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本,其中历史健康险理赔数据包括可能对历史健康险理赔案件的分类结果产生重要影响的历史保单责任数据,且分类数据包括能够体现出历史健康险理赔案件的分类结果的人工审核数据或是实际拒赔数据;基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型。上述技术方案,通过生成的用于自动确定是否进行健康险理赔的分类模型,解决了在人工审核是否进行健康险理赔时存在的操作过程繁琐和审核准确性难以保证的问题,降低了人力、时间和其他资源的占用成本,达到了系统性识别和纠正错误、减少或是避免不必要和无效的人工干预的效果。
一种可选的技术方案,基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型,可包括:获取至少两个待进行训练的机器学习模型;将多组训练样本划分第一组训练样本和第二组训练样本;针对每个机器学习模型,基于第一组训练样本对机器学习模型进行训练,得到中间学习模型;针对每个中间学习模型,基于第二组训练样本对中间学习模型进行处理,并根据各中间学习模型的处理结果从各中间学习模型中确定出健康险理赔欺诈案件的分类模型。其中,第一组训练样本中各训练样本的样本数量和第二组训练样本中各训练样本的样本数量可以相同或是不同,在此未做具体限定。至少两个机器学习模型可以是完全相同或存在差异的机器学习模型,在此亦未做具体限定。需要说明的是,由于模型训练结果不可控,因此可以基于第一组训练样本对各机器学习模型分别进行训练,然后再基于第二组训练样本从训练得到的各中间学习模型中挑选出训练效果更佳的分类模型,如针对每个中间学习模型,将第二组训练样本中的历史健康险理赔数据输入到该中间学习模型中,然后将中心学习模型输出的分类数据和第二组训练样本中的分类数据进行对比得到中间学习模型的分类效果,进而根据各中间学习模型的分类效果从中挑选出分类模型。上述技术方案,通过至少两个机器学习模型的分别训练和进一步挑选的方式,可以得到分类性能较高的分类模型。
在此基础上,可选的,根据各中间学习模型的处理结果从各中间学习模型中确定出健康险理赔欺诈案件的分类模型,可以包括:根据各中间学习模型的处理结果,从各中间学习模型中确定出待测试学习模型,并基于已获取的多组测试样本对待测试学习模型进行测试;若根据测试结果确定待测试学习模型未能满足预先设置的健康险理赔欺诈案件的分类性能,则将待测试模型作为机器学习模型,重复执行将多组训练样本划分为第一组训练样本和第二组训练样本的步骤;否则,将待测试学习模型作为健康险理赔欺诈案件的分类模型。其中,待测试学习模型可以是从各中间学习模型中挑选出的分类性能较高的中间学习模型。获取多组测试样本,基于这些测试样本对待测试学习模型的分类性能再进行测试。如果测试结果表示待测试学习模型的分类性能不佳,那么可以继续进行模型训练;否则,可以将待测试模型作为最终的分类模型,由此有效保证了分类模型的分类性能。
为了更好地理解上述步骤的具体实现过程,下面结合具体示例,对本实施例的模型生成方法进行示例性的说明。示例性的,通过如下步骤生成分类模型:1)模型设置:设置一组待进行训练的机器学习模型;
2)数据采集:采集历史保单责任数据、基本数据、医疗数据和医保结算数据;3)数据清洗:基于标准的数据清洗方法将上述数据处理为结构化数据,剔除无效、异常数据,其中数据清洗(Data cleaning)可以理解为对数据进行重新审查和校验的过程,目的是删除重复数据、纠正存在的错误数据(即处理无效值和缺失值)和检查数据一致性等;
4)数据标注:将理赔专家的人工审核数据或实际拒赔数据作为标签,对上述数据进行标注,在将人工审核数据作为标签时,可能存在与实际拒赔数据存在差异的情况,但是其有效样本较多;在将实际拒赔数据作为标签时,由于与实际拒赔情况一致,因此返工较少,但是可能有效样本较少,因为实际拒赔的案件数量小于理赔专家分类为欺诈案件的案件数量;
5)数据拆分:将完成标注的数据拆分为训练集(由多个训练样本构成的集合)
和测试集(由多个测试样本构成的集合)两部分;
6)模型训练:基于训练集中的一部分训练样本(即第一组训练样本)对设置好的一组机器学习模型进行训练,得到中间学习模型;
7)模型挑选:基于训练集中的另一部分训练样本(即第二组训练样本)从各中间学习模型中挑选出待测试模型;
8)模型测试:基于测试集对挑选出的待测试模型进行分类性能测试;
9)若测试结果不及预期,则返回步骤6)继续训练;否则,完成模型训练,
将待测试模型作为最终的分类模型,部署至生产环境进行使用。
实施例二
图2是本发明实施例二中提供的一种健康险理赔的确定方法的流程图。本实施例可适用于基于已生成的分类模型对当前健康险理赔案件进行分类的情况,尤其适用于基于已生成的分类模型对当前健康险理赔案件进行分类,并根据分类结果确定是否进行健康险理赔的情况。该方法可以由本发明实施例提供的健康险理赔的确定装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种用户终端或服务器。
参见图2,本实施例的方法具体可以包括如下步骤:
S210、在检测到健康险理赔的确定事件时,获取确定事件对应的当前健康险理赔案件的当前健康险理赔数据、以及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中当前健康险理赔数据包括当前保单责任数据。
其中,确定事件可以是用于确定是否进行健康险理赔的事件;当前健康险理赔案件可以是与确定事件对应的还未结案的与健康险理赔有关的案件;当前健康险理赔数据可以是在对当前健康险理赔案件进行处理过程中涉及的与健康险理赔有关的数据,其可以包括当前保单责任数据,需要说明的是,当前保单责任数据和上文阐述的历史保单责任数据的本质相同,这里只是为了区分不同阶段的保单责任数据而进行的不同命名。实际应用中,可选的,当前保单责任数据可以包括当前就诊医院级别、当前疾病类型和当前理赔金额中的至少一个;再可选的,当前健康险理赔数据还可包括当前就医对象的基本数据、医疗数据和医保结算数据中的至少一个,在此未做具体限定。分类模型可以是基于上述实施例中的任一技术方案生成的可以用于确定当前健康险理赔案件是否为当前健康险理赔欺诈案件的模型。
S220、将当前健康险理赔数据输入至分类模型中,并根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。
其中,根据分类模型的输出结果可以确定当前健康险理赔案件是否为当前健康险理赔欺诈案件,进而可以确定是否需要对当前健康险理赔案件进行理赔。例如,如果当前健康险理赔案件为当前健康险理赔欺诈案件,则可以对该当前健康险理赔案件进行理赔,否则无需进行理赔。当然,在实际应用中,可选的,针对自动确定出的需要理赔的当前健康险理赔案件,人工还可以再次对其进行复核,确定是否真的需要进行理赔
本发明实施例的技术方案,通过获取与检测得到的健康险理赔的确定事件对应的当前健康险理赔案件的当前健康险理赔数据、及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,可以将当前健康险理赔数据输入至分类模型中,并根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。上述技术方案,通过将在模型训练过程中的关键因素—当前保单责任数据输入到分类模型中,由此达到了健康险理赔与否的自动且准确确定的效果。
实施例三
图3为本发明实施例三提供的模型生成装置的结构框图,该装置用于执行上述任意实施例所提供的模型生成方法。该装置与上述各实施例的模型生成方法属于同一个发明构思,在模型生成装置的实施例中未详尽描述的细节内容,可以参考上述模型生成方法的实施例。参见图3,该装置具体可以包括:训练样本得到模块310和分类模型生成模块320。
其中,训练样本得到模块310,用于获取历史健康险理赔案件的历史健康险理赔数据、以及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本;
分类模型生成模块320,用于基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型;
其中,历史健康险理赔数据包括历史保单责任数据,且分类数据包括针对历史健康险理赔案件的人工审核数据或是实际拒赔数据。
可选的,分类模型生成模块320,可以包括:
模型获取单元,用于获取至少两个待进行训练的机器学习模型;
训练样本划分单元,用于将多组训练样本划分为第一组训练样本和第二组训练样本;
中间学习模型得到单元,用于针对于每个机器学习模型,基于第一组训练样本对机器学习模型进行训练,得到中间学习模型;
分类模型确定单元,用于针对每个中间学习模型,基于第二组训练样本处理中间学习模型,并根据各中间学习模型的处理结果从各中间学习模型中确定出健康险理赔欺诈案件的分类模型。
在此基础上,可选的,分类模型确定单元,可以包括:
模型测试子单元,用于根据各中间学习模型的处理结果,从各中间学习模型中确定出待测试学习模型,并基于已获取的多组测试样本对待测试学习模型进行测试;
分类性能确定子单元,用于若根据测试结果确定待测试学习模型未能满足预先设置的健康险理赔欺诈案件的分类性能,则将待测试模型为机器学习模型,重复执行将多组训练样本划分为第一组训练样本和第二组训练样本的步骤;
分类模型确定子单元,用于否则,将待测试学习模型作为健康险理赔欺诈案件的分类模型。
可选的,历史保单责任数据可以包括历史就诊医院级别、历史疾病类型和历史理赔金额中的至少一个。
可选的,历史健康险理赔数据还可以包括历史就医对象的基本数据、医疗数据和医保结算数据中的至少一个。
本发明实施例三提供的模型生成装置,通过训练样本得到模块获取到历史健康险理赔案件的历史健康险理赔数据、以及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,将历史健康险理赔数据和分类数据作为一组训练样本,其中,历史健康险理赔数据包括可能对历史健康险理赔案件的分类结果产生重要影响的历史保单责任数据,分类数据包括能够体现出历史健康险理赔案件的分类结果的人工审核数据或实际拒赔数据;分类模型生成模块基于多组训练样本对待进行训练的机器学习模型进行训练,可得到健康险理赔欺诈案件的分类模型。上述装置,通过生成的用于自动确定是否进行健康险理赔的分类模型,解决了在人工审核是否进行健康险理赔时存在的操作过程繁琐以及审核准确性难以保证的问题,降低了人力、时间和其他资源的占用成本,达到了系统性识别和纠正错误、减少或是避免不必要和无效的人工干预的效果。
本发明实施例所提供的模型生成装置可执行本发明任意实施例所提供的模型生成方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述模型生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的健康险理赔的确定装置的结构框图,该装置用于执行上述任意实施例所提供的健康险理赔的确定方法。该装置与上述各实施例的健康险理赔的确定方法属于同一个发明构思,在健康险理赔的确定装置的实施例中未详尽描述的细节内容,可以参考上述健康险理赔的确定方法的实施例。参见图4,该装置具体可包括:分类模型获取模块410和案件理赔确定模块420。
其中,分类模型获取模块410,用于在检测到健康险理赔的确定事件时,获取与确定事件对应的当前健康险理赔案件的当前健康险理赔数据、以及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中当前健康险理赔数据包括当前保单责任数据;
案件理赔确定模块420,用于将当前健康险理赔数据输入至分类模型中,根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。
本发明实施例四提供的健康险理赔的确定装置,通过分类模型获取模块和案件理赔确定模块相互配合,获取与检测得到的健康险理赔的确定事件对应的当前健康险理赔案件的当前健康险理赔数据、及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,可以将当前健康险理赔数据输入至分类模型中,并根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。上述装置,通过将在模型训练过程中涉及到的关键因素—当前保单责任数据输入到分类模型中,由此达到了健康险理赔与否的自动且准确确定的效果。
本发明实施例所提供的健康险理赔的确定装置可执行本发明任意实施例所提供的健康险理赔的确定方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述健康险理赔的确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例五
图5为本发明实施例五提供的一种电子设备的结构示意图,如图5所示,该电子设备包括存储器510、处理器520、输入装置530和输出装置540。电子设备中的处理器520的数量可以是一个或多个,图5中以一个处理器520为例;电子设备中的存储器510、处理器520、输入装置530和输出装置540可以通过总线或其它方式连接,图5中以通过总线550连接为例。
存储器510作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的模型生成方法对应的程序指令/模块(例如,模型生成装置中的训练样本得到模块310和分类模型生成模块320),或是,如本发明实施例中的健康险理赔的确定方法对应的程序指令/模块(例如,健康险理赔的确定装置中的分类模型获取模块410和案件理赔确定模块420)。处理器520通过运行存储在存储器510中的软件程序、指令及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的模型生成方法或是健康险理赔的确定方法。
存储器510可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器510可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器510可进一步包括相对于处理器520远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种模型生成方法,该方法包括:
获取历史健康险理赔案件的历史健康险理赔数据、及历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将历史健康险理赔数据和分类数据作为一组训练样本;
基于多组训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型;
其中,历史健康险理赔数据包括历史保单责任数据,且分类数据包括针对历史健康险理赔案件的人工审核数据或是实际拒赔数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的模型生成方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。依据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例七
本发明实施例七提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种健康险理赔的确定方法,该方法包括:
在检测到健康险理赔的确定事件时,获取与确定事件对应的当前健康险理赔案件的当前健康险理赔数据、以及按照本发明任意实施例所提供的模型生成方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中,当前健康险理赔数据包括当前保单责任数据;
将当前健康险理赔数据输入至分类模型中,并根据分类模型的输出结果,确定是否对当前健康险理赔案件进行理赔。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的模型生成方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。依据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种模型生成方法,其特征在于,包括:
获取历史健康险理赔案件的历史健康险理赔数据、及所述历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,将所述历史健康险理赔数据和所述分类数据作为一组训练样本;
基于多组所述训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型;
其中,所述历史健康险理赔数据包括历史保单责任数据,且所述分类数据包括针对所述历史健康险理赔案件的人工审核数据或是实际拒赔数据。
2.根据权利要求1所述的方法,其特征在于,所述基于多组所述训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型,包括:
获取至少两个待进行训练的机器学习模型;
将多组所述训练样本划分为第一组训练样本和第二组训练样本;
针对于每个所述机器学习模型,基于所述第一组训练样本对所述机器学习模型进行训练,得到中间学习模型;
针对每个所述中间学习模型,基于所述第二组训练样本处理所述中间学习模型,并根据各所述中间学习模型的处理结果从各所述中间学习模型中确定出健康险理赔欺诈案件的分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述中间学习模型的处理结果从各所述中间学习模型中确定出健康险理赔欺诈案件的分类模型,包括:
根据各所述中间学习模型的处理结果,从各所述中间学习模型中确定出待测试学习模型,并基于已获取的多组测试样本对所述待测试学习模型进行测试;
若根据测试结果确定所述待测试学习模型未能满足预先设置的健康险理赔欺诈案件的分类性能,则将所述待测试模型作为所述机器学习模型,重复执行所述将多组所述训练样本划分为第一组训练样本和第二组训练样本的步骤;
否则,将所述待测试学习模型作为健康险理赔欺诈案件的分类模型。
4.根据权利要求1所述的方法,其特征在于,所述历史保单责任数据包括历史就诊医院级别、历史疾病类型和历史理赔金额中的至少一个。
5.根据权利要求1所述的方法,其特征在于,所述历史健康险理赔数据还包括历史就医对象的基本数据、医疗数据和医保结算数据中的至少一个。
6.一种健康险理赔的确定方法,其特征在于,包括:
在检测到健康险理赔的确定事件时,获取与所述确定事件对应的当前健康险理赔案件的当前健康险理赔数据、及按照权利要求1-5中任一项的方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中,所述当前健康险理赔数据包括当前保单责任数据;
将所述当前健康险理赔数据输入至所述分类模型中,并根据所述分类模型的输出结果,确定是否对所述当前健康险理赔案件进行理赔。
7.一种模型生成装置,其特征在于,包括:
训练样本得到模块,用于获取历史健康险理赔案件的历史健康险理赔数据、及所述历史健康险理赔案件是否为历史健康险理赔欺诈案件的分类数据,并将所述历史健康险理赔数据和所述分类数据作为一组训练样本;
分类模型生成模块,用于基于多组所述训练样本对待进行训练的机器学习模型进行训练,得到健康险理赔欺诈案件的分类模型;
其中,所述历史健康险理赔数据包括历史保单责任数据,且所述分类数据包括针对所述历史健康险理赔案件的人工审核数据或是实际拒赔数据。
8.一种健康险理赔的确定装置,其特征在于,包括:
分类模型获取模块,用于在检测到健康险理赔的确定事件时,获取与所述确定事件对应的当前健康险理赔案件的当前健康险理赔数据、及按照权利要求1-5中任一项的方法生成的已训练完成的健康险理赔欺诈案件的分类模型,其中,所述当前健康险理赔数据包括当前保单责任数据;
案件理赔确定模块,用于将所述当前健康险理赔数据输入至所述分类模型中,根据所述分类模型的输出结果,确定是否对所述当前健康险理赔案件进行理赔。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的模型生成方法、或是如权利要求6中所述的健康险理赔的确定方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的模型生成方法、或是如权利要求6中所述的健康险理赔的确定方法。
CN202110843999.6A 2021-07-26 2021-07-26 模型生成、健康险理赔的确定方法、装置、设备及介质 Pending CN113487440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843999.6A CN113487440A (zh) 2021-07-26 2021-07-26 模型生成、健康险理赔的确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843999.6A CN113487440A (zh) 2021-07-26 2021-07-26 模型生成、健康险理赔的确定方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113487440A true CN113487440A (zh) 2021-10-08

Family

ID=77942678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843999.6A Pending CN113487440A (zh) 2021-07-26 2021-07-26 模型生成、健康险理赔的确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113487440A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307607A (zh) * 2023-03-24 2023-06-23 探保网络科技(广州)有限公司 一种保险核心系统监控系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240024A (zh) * 2017-05-22 2017-10-10 中国平安人寿保险股份有限公司 保险理赔的反欺诈识别方法及装置
CN109919783A (zh) * 2019-01-31 2019-06-21 德联易控科技(北京)有限公司 车险理赔案件的风险识别方法、装置、设备及存储介质
WO2020119119A1 (zh) * 2018-12-13 2020-06-18 平安医疗健康管理股份有限公司 基于机器学习的保险理赔方法、装置、设备及存储介质
CN111724211A (zh) * 2020-06-30 2020-09-29 名创优品(横琴)企业管理有限公司 一种线下门店商品销量预测方法、装置和设备
CN112036497A (zh) * 2020-09-02 2020-12-04 中国平安财产保险股份有限公司 欺诈案件识别模型的训练方法、装置和计算机设备
CN112508711A (zh) * 2020-11-11 2021-03-16 中国人寿保险股份有限公司 一种针对保单理赔的自动核赔方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240024A (zh) * 2017-05-22 2017-10-10 中国平安人寿保险股份有限公司 保险理赔的反欺诈识别方法及装置
WO2020119119A1 (zh) * 2018-12-13 2020-06-18 平安医疗健康管理股份有限公司 基于机器学习的保险理赔方法、装置、设备及存储介质
CN109919783A (zh) * 2019-01-31 2019-06-21 德联易控科技(北京)有限公司 车险理赔案件的风险识别方法、装置、设备及存储介质
CN111724211A (zh) * 2020-06-30 2020-09-29 名创优品(横琴)企业管理有限公司 一种线下门店商品销量预测方法、装置和设备
CN112036497A (zh) * 2020-09-02 2020-12-04 中国平安财产保险股份有限公司 欺诈案件识别模型的训练方法、装置和计算机设备
CN112508711A (zh) * 2020-11-11 2021-03-16 中国人寿保险股份有限公司 一种针对保单理赔的自动核赔方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307607A (zh) * 2023-03-24 2023-06-23 探保网络科技(广州)有限公司 一种保险核心系统监控系统及方法

Similar Documents

Publication Publication Date Title
CN107025596B (zh) 一种风险评估方法和系统
CN106875078B (zh) 交易风险检测方法、装置及设备
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
US11875409B1 (en) Systems and methods for identifying and curing anomalies in insurance claims
CN111523996A (zh) 一种审批方法及系统
CN108364106A (zh) 一种报销单风险预测方法、装置、终端设备及存储介质
CN112926699A (zh) 异常对象识别方法、装置、设备及存储介质
US20100324929A1 (en) Apparatus and method for predicting healthcare revenue cycle outcomes and controlling work flow
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN112541831A (zh) 一种医疗保险的风险识别方法、装置、介质及电子设备
CN110659985A (zh) 一种捞回误拒潜在用户的方法、装置和电子设备
CN113537960B (zh) 一种异常资源转移链路的确定方法、装置和设备
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN113919886A (zh) 基于夏普利值的数据特征组合定价方法、系统及电子设备
CN113139687A (zh) 一种预测信用卡用户违约的方法及装置
CN113409150A (zh) 经营风险及信用风险评估方法、装置及计算机存储介质
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN109669935A (zh) 检查数据筛选方法、装置、设备及存储介质
CN113393328A (zh) 融资贷前审批评估方法、装置及计算机存储介质
CN113487440A (zh) 模型生成、健康险理赔的确定方法、装置、设备及介质
CN117934154A (zh) 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品
CN111861738A (zh) 风控规则筛选方法、装置、计算机设备及存储介质
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
JP7366355B2 (ja) 融資承認確率算出装置、融資承認確率算出方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination