CN113469826B - 一种信息处理的方法、装置、设备及存储介质 - Google Patents
一种信息处理的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113469826B CN113469826B CN202110832619.9A CN202110832619A CN113469826B CN 113469826 B CN113469826 B CN 113469826B CN 202110832619 A CN202110832619 A CN 202110832619A CN 113469826 B CN113469826 B CN 113469826B
- Authority
- CN
- China
- Prior art keywords
- information
- risk
- target
- insurance
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供了一种信息处理的方法、装置、设备及存储介质,该方法包括:将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔。这样,可以对待理赔的赔案信息进行处理,在确定赔案信息属于理赔范围的条件下,排除存在欺诈风险的赔案信息,以提高对赔案信息的处理效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种信息处理的方法、装置、设备及存储介质。
背景技术
在保险业务领域中,保险的被保人在发生理赔时也被称为出险人,当出险人提出理赔申请时,需要业务人员对出险人申请理赔的案件进行审核,以确定是否需要对出险人进行理赔。而随着保险欺诈类案件的增多,如何对理赔案件进行有效的审核,成为当前保险业务领域中所迫切需要解决的技术问题。
目前的理赔审核方法,主要采用人工审核的方式,业务人员根据出险人的保单信息,以及出险人提出的理赔申请,对出险人进行核查,判断是否需要对出险人进行理赔。这样,在核查过程中,一方面,人工作业量较大,且核查结果受到人为主观因素影响较大,导致理赔审核的效率较低;另一方面,人工审核过程中,难以有效地对出险人进行反欺诈核查,导致在理赔审核过程中,缺乏识别保险欺诈事件的有效手段,造成理赔风险较高,不利于提高理赔审核的效率。
发明内容
有鉴于此,本申请的目的在于提供一种信息处理的方法、装置、设备及存储介质,以对待理赔的赔案信息进行处理,在确定赔案信息属于理赔范围的条件下,排除存在欺诈风险的赔案信息,以提高对赔案信息的处理效率,降低赔案的欺诈风险。
第一方面,本申请实施例提供了一种信息处理的方法,所述方法包括:
将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;其中,所述目标保险是所述赔案信息所属的保单险种责任类型及范围所对应的保险;
响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;
响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔。
可选的,在所述将待理赔的赔案信息输入训练好的理赔范围预测模型中之后,所述方法包括:
根据所述目标保险对应的理赔关键词,从所述赔案信息中,提取与所述理赔关键词的语义相同的目标关键词;其中,所述目标关键词至少包括:用于表征所述出险人的个人身份信息的第一关键词、用于表征所述出险人截止出险日前有效的保单及险种信息的第二关键词、用于表征所述有效的保单的保全信息的第三关键词以及用于表征所述出险人的出险原因的第四关键词;
针对提取的每一所述目标关键词,按照该目标关键词所属的信息类型,对该目标关键词进行独热编码,将独热编码的结果作为用于表征该目标关键词的特征值;
利用每一所述目标关键词的特征值,确定所述赔案信息对应的预测特征向量;
利用逻辑回归预测函数,对所述预测特征向量进行二分类预测,将二分类预测的结果作为所述理赔范围预测模型的输出结果;其中,所述二分类预测结果中包括:第一概率和第二概率,所述第一概率用于表征所述预测特征向量属于所述目标保险的理赔范围的概率,所述第二概率用于表征所述预测特征向量不属于所述目标保险的理赔范围的概率。
可选的,所述确定所述赔案信息是否满足目标保险的理赔范围条件,包括:
根据所述第一概率,判断所述第一概率是否大于预先设置的理赔范围阈值;
若确定所述第一概率大于所述理赔范围阈值,则确定所述赔案信息满足所述目标保险的理赔范围条件;
若确定所述第一概率小于或者等于所述理赔范围阈值,则确定所述赔案信息不满足所述目标保险的理赔范围条件。
可选的,在所述将所述赔案信息输入训练好的欺诈风险预测模型中之后,所述方法包括:
按照目标风险因子,从所述赔案信息中,提取每一所述目标风险因子对应的特征信息;其中,所述目标风险因子是所述欺诈风险预测模型在训练过程中确定出的、对于训练样本的分类结果具有指向性作用的分类指标,其中,所述训练样本的分类结果包括:训练样本属于欺诈事件和训练样本属于非欺诈事件;
利用提取的每一所述目标风险因子对应的特征信息,对所述赔案信息进行二分类预测,将二分类预测的结果作为所述欺诈风险预测模型的输出结果;其中,所述欺诈风险预测模型的输出结果包括:第一风险概率值和第二风险概率值,所述第一风险概率值是所述赔案信息属于欺诈事件的风险概率值,所述第二风险概率值是所述赔案信息属于非欺诈事件的风险概率值。
可选的,在所述响应于所述风险概率值满足预先设置的理赔风险条件之前,所述方法还包括:
判断所述风险概率值是否小于预先设置的理赔风险阈值;
若确定所述风险概率值小于所述理赔风险阈值,则确定所述风险概率值满足所述理赔风险条件;
若确定所述风险概率值大于或者等于所述理赔风险阈值,则确定所述风险概率值不满足所述理赔风险条件。
可选的,当所述风险概率值不满足所述理赔风险条件时,所述方法,还包括:
响应于所述风险概率值不满足所述理赔风险条件,则将所述赔案信息发送给业务审核人员;
接收所述业务审核人员针对所述赔案信息的审核结果;
若确定所述审核结果为同意理赔,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔;
若确定所述审核结果为不同意理赔,则获取所述业务审核人员的审核意见,并向所述赔案信息对应的出险人发送所述审核意见,以提示该出险人对所述审核意见进行反馈。
可选的,所述欺诈风险预测模型通过以下方法确定出所述目标风险因子,所述方法包括:
获取历史赔案信息作为所述欺诈风险预测模型的训练样本;其中,所述历史赔案信息中包括:属于欺诈事件的赔案信息和属于非欺诈事件的赔案信息;
针对每一所述训练样本,按照预先设置的分类指标,从该训练样本中,提取每一所述分类指标对应的特征信息作为该训练样本下每一所述分类指标的指标值;
将该训练样本下每一所述分类指标的指标值作为分类预测函数的自变量,利用逻辑回归算法,计算所述分类预测函数的因变量的值,将计算结果作为该训练样本的预测结果,其中,所述预测结果用于表征该训练样本属于欺诈事件的概率值;
根据该训练样本所属的分类标签,利用所述逻辑回归算法中的损失函数,计算所述分类标签与所述预测结果的偏差值,将计算结果作为该训练样本的损失函数值;其中,所述分类标签包括:用于表征该训练样本属于欺诈事件的第一标签和用于表征该训练样本属于非欺诈事件的第二标签;
根据每一所述训练样本的损失函数值,对所述欺诈风险预测模型进行训练,直至所述欺诈风险预测模型达到收敛;
在所述欺诈风险预测模型达到收敛之后,获取所述分类预测函数中每一所述自变量的自变量系数;其中,所述自变量系数用于表征所述自变量对应的分类指标与所述预测结果之间的相关性程度;
按照预先设置的相关性程度阈值,从每一所述分类指标中,提取所述自变量系数大于或者等于所述相关性程度阈值的分类指标作为所述目标风险因子。
可选的,当所述历史赔案信息中属于欺诈事件的赔案信息的数量小于预先设置的样本数量阈值时,所述获取历史赔案信息作为所述欺诈风险预测模型的训练样本,还包括:
针对每一第一赔案信息,利用上采样算法,计算出该第一赔案信息的多个近邻样本;其中,所述第一赔案信息是属于欺诈事件的赔案信息;
从所述多个近邻样本中,随机选取第一数量阈值的近邻样本作为待插值样本;
利用每一所述待插值样本,对所述第一赔案信息进行随机线性插值处理,得到第一训练样本;其中,所述第一训练样本包括:所述第一赔案信息和每一所述待插值样本;
获取所述第一训练样本作为所述训练样本。
第二方面,本申请实施例提供了一种信息处理的装置,所述装置包括:
第一预测模块,用于将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;其中,所述目标保险是所述赔案信息所属的保单险种责任类型及范围所对应的保险;
第一响应模块,用于响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;
第二响应模块,用于响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的信息处理的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的信息处理的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请是将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔。通过这样的方式,可以对待理赔的赔案信息进行处理,在确定赔案信息属于理赔范围的条件下,排除存在欺诈风险的赔案信息,以提高对赔案信息的处理效率,降低赔案的欺诈风险。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种信息处理的方法的流程示意图;
图2示出了本申请实施例所提供的一种确定赔案信息是否满足目标保险的理赔范围条件的方法流程示意图;
图3示出了本申请实施例所提供的一种判断赔案信息属于欺诈事件的风险概率值是否满足理赔风险条件的方法流程示意图;
图4示出了本申请实施例所提供的一种欺诈风险预测模型的训练方法流程示意图;
图5示出了本申请实施例所提供的一种信息处理的装置的结构示意图;
图6为本申请实施例提供的一种计算机设备600的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种保险反欺诈事件的预警方法、装置、设备及存储介质,下面通过实施例进行描述。
实施例一
图1示出了本申请实施例所提供的一种信息处理的方法的流程示意图,其中,该方法包括步骤S110-S130;具体的:
S110,将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件。
具体的,其中,所述目标保险是所述赔案信息所属的保单险种责任类型及范围所对应的保险;例如,当赔案信息属于医疗保险的险种下,保险责任类型及范围为:保障重大疾病的保险时,目标保险则为医疗保险名录下的重大疾病险;赔案信息至少包括:出险人的年龄、职业等个人身份信息、出险人截止出险日前有效的保单及险种信息、该有效的保单的保全信息、核保信息、核保结论,赔案涉及的出险人的出险原因等数据信息,其中,出险人是指保单中的被保险人,核保信息是指承保时,出险人提供的健康信息、疾病行为历史信息、家族疾病遗传信息等与保单的理赔范围相关联的数据信息;核保结论是指负责核保的工作人员根据保单的理赔范围,对上述的核保信息进行真实性核查作出的是否承保的结论信息。
需要说明的是,本申请实施例中的赔案信息以及下文出现的历史赔案信息都是指与判断是否需要对出险人进行理赔所需使用的所有相关信息,上述提到的出险人个人身份信息、出险人截止出险日前有效的保单及险种信息、该有效的保单的保全信息等数据信息都只作为可选实施方式,对于赔案信息以及下文出现的历史赔案信息中包括的具体信息内容,本申请并不进行限定。
本申请实施例中的理赔范围预测模型是以历史赔案信息作为训练样本,使用逻辑回归算法对训练样本进行二分类训练得到的。具体的,在训练过程中,利用逻辑回归算法中的逻辑回归预测函数,对每一个输入的训练样本进行二分类预测,预测该训练样本属于目标保险的理赔范围条件,还是不属于目标保险的理赔范围条件,并将预测结果与训练样本的真实分类结果作为自变量,代入模型损失函数中,计算模型损失,根据计算出的模型损失,调整模型参数,直至模型达到收敛,将收敛后的模型作为上述训练好的理赔范围预测模型。
在实际应用过程中,通过这样的训练方式得到的理赔范围预测模型,可以对输入的待理赔的赔案信息进行二分类预测,输出结果为:该赔案信息满足目标保险的理赔范围条件的概率值,以及该赔案信息不满足目标保险的理赔范围条件的概率值;这样,根据理赔范围预测模型的输出结果,若该赔案信息满足目标保险的理赔范围条件的概率值高于预设阈值,则可以确定该赔案信息满足目标保险的理赔范围条件;若该赔案信息满足目标保险的理赔范围条件的概率值低于预设阈值,则可以确定该赔案信息不满足目标保险的理赔范围条件,并以该赔案信息不满足目标保险的理赔范围条件作为拒绝理赔的原因,将该赔案信息发送给相关工作人员,以提示相关工作人员执行与拒绝理赔相关的业务操作流程。
S120,响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值。
具体的,结合步骤S110所述,在确定赔案信息满足目标保险的理赔范围条件之后,则响应于该赔案信息满足目标保险的理赔范围条件,利用训练好的欺诈风险预测模型,对该赔案信息进行进一步判断,来判断该赔案信息是否存在欺诈风险,并根据欺诈风险预测模型的输出结果,来确定该赔案信息属于欺诈事件的风险概率值。
本申请实施例中,作为一可选实施例,在所述将所述赔案信息输入训练好的欺诈风险预测模型中之后,所述方法包括:
按照目标风险因子,从所述赔案信息中,提取每一所述目标风险因子对应的特征信息;其中,所述目标风险因子是所述欺诈风险预测模型在训练过程中确定出的、对于训练样本的分类结果具有指向性作用的分类指标,其中,所述训练样本的分类结果包括:训练样本属于欺诈事件和训练样本属于非欺诈事件;
利用提取的每一所述目标风险因子对应的特征信息,对所述赔案信息进行二分类预测,将二分类预测的结果作为所述欺诈风险预测模型的输出结果;其中,所述欺诈风险预测模型的输出结果包括:第一风险概率值和第二风险概率值,所述第一风险概率值是所述赔案信息属于欺诈事件的风险概率值,所述第二风险概率值是所述赔案信息属于非欺诈事件的风险概率值。
需要说明的是,其中,欺诈风险预测模型是以历史赔案信息中属于欺诈事件的赔案信息和不属于欺诈事件的赔案信息共同作为训练样本,通过对训练样本进行二分类预测,预测每一个训练样本属于欺诈事件还是不属于欺诈事件,在训练过程中,根据预测结果与训练样本的真实分类结果之间的预测损失,从备选的分类指标中,筛选出对于训练样本的分类结果具有指向性作用的分类指标作为目标风险因子,这样,在实际应用过程中,通过这样的训练方式得到的欺诈风险预测模型,可以按照目标风险因子的指标含义,从输入的赔案信息中,先提取出每一个目标风险因子对应的特征信息,再根据提取出的每一特征信息,对赔案信息是否属于欺诈事件进行预测,得到上述的第一风险概率值,和第二风险概率值,由于第一风险概率值是赔案信息属于欺诈事件的风险概率值,因此,利用第一风险概率值与预设的理赔风险阈值的大小关系,可以在第一风险概率值高于理赔风险阈值时,确定赔案信息属于欺诈事件的风险较高;在第一风险概率值低于理赔风险阈值时,确定赔案信息属于欺诈事件的风险较低;从而,在确定赔案信息属于理赔范围的条件下,排除欺诈风险较高的赔案信息,以提高对赔案信息的处理效率,降低赔案的欺诈风险。
S130,响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔。
具体的,结合步骤S120所述,若上述第一风险概率值高于理赔风险阈值,则确定赔案信息属于欺诈事件的风险较高,确定风险概率值不满足理赔风险条件,此时,需要将该赔案信息发送给相关审核人员,以对该赔案信息是否需要理赔进行进一步审核;若上述第一风险概率值低于理赔风险阈值,则确定赔案信息属于欺诈事件的风险较低,此时,可以确定风险概率值满足理赔风险条件,可以按照赔案信息的保单信息中承诺的赔付条件,以线上的方式,对出险人尽快发起理赔流程,提高对赔案信息的处理效率。
在一个可行的实施方案中,图2示出了本申请实施例所提供的一种确定赔案信息是否满足目标保险的理赔范围条件的方法流程示意图,如图2所示,在执行步骤S110时,在所述将待理赔的赔案信息输入训练好的理赔范围预测模型中之后,该方法还包括S210-S240;具体的:
S210,根据所述目标保险对应的理赔关键词,从所述赔案信息中,提取与所述理赔关键词的语义相同的目标关键词。
具体的,其中,所述目标关键词至少包括:用于表征所述出险人的个人身份信息的第一关键词、用于表征所述出险人截止出险日前有效的保单及险种信息的第二关键词、用于表征所述有效的保单的保全信息的第三关键词以及用于表征所述出险人的出险原因的第四关键词;本申请实施例中,所述理赔关键词是指用于判断目标保险的理赔范围条件的关键词,与上述目标关键词相对应的,理赔关键词也至少包括上述四种类型的关键词。
需要说明的是,不同类型的目标保险对应的理赔范围条件不同,因此,不同类型的目标保险对应的理赔关键词也不相同,相应的提取出的目标关键词也不相同。例如,以上述用于表征出险人的出险原因的第四关键词为例,若在医疗保险类的目标保险下,则提取出的第四关键词可以是疾病名称、疾病类型等与医疗保险的出险原因相关的关键词;若在汽车保险类的目标保险下,则提取出的第四关键词可以是汽车零部件名称、车祸地点、车祸时间、车祸事件等与汽车保险的出险原因相关的关键词。
S220,针对提取的每一所述目标关键词,按照该目标关键词所属的信息类型,对该目标关键词进行独热编码,将独热编码的结果作为用于表征该目标关键词的特征值。
具体的,针对每一个理赔关键词,该理赔关键词下可能包含多个具有同一语义的目标关键词,根据每一目标关键词所属的信息类型,可以对该理赔关键词下的目标关键词进行分类,从而,利用独热编码的方式,对提取的每一个目标关键词进行结构化数据处理,利用独热编码的结果,将提取出的所有目标关键词转化为用于表征赔案信息中与目标保险的理赔范围条件相关信息的特征向量。
S230,利用每一所述目标关键词的特征值,确定所述赔案信息对应的预测特征向量。
示例性的说明,以医疗类目标保险为例,若理赔关键词“疾病类型”下包含的信息类型为:肝脏类疾病、心脏类疾病以及肾脏类疾病,其中,当提取的目标关键词所属的信息类型为:肝脏类疾病时,则该目标关键词的独热编码结果为1;当提取的目标关键词所属的信息类型为:心脏类疾病时,则该目标关键词的独热编码结果为2;当提取的目标关键词所属的信息类型为:肾脏类疾病时,则该目标关键词的独热编码结果为3。
作为一可选实施例,按照上述的独热编码方式,可以确定出每一个目标关键词的特征值;在确定出每一个目标关键词的特征值之后,可以利用每一个目标关键词对应的理赔关键词,按照预先设置的理赔关键词顺序,对每一个目标关键词的特征值进行排序,将排序结果作为所述预测特征向量。
示例性的说明,预先设置的理赔关键词顺序为:理赔关键词A、理赔关键词B、理赔关键词C、理赔关键词D、理赔关键词E、理赔关键词F、理赔关键词G;根据上述的理赔关键词,提取出的目标关键词分别为:目标关键词a、目标关键词b、目标关键词c、目标关键词d、目标关键词e、目标关键词f、目标关键词g;若独热编码之后,得到目标关键词a的特征值为2、目标关键词b的特征值为1、目标关键词c的特征值为2、目标关键词d的特征值为3、目标关键词e的特征值为5、目标关键词f的特征值为1、目标关键词g的特征值为2;则可以得到赔案信息的对应的预测特征向量为:{2,1,2,3,5,1,2}。
S240,利用逻辑回归预测函数,对所述预测特征向量进行二分类预测,将二分类预测的结果作为所述理赔范围预测模型的输出结果。
具体的,其中,所述二分类预测结果中包括:第一概率和第二概率,所述第一概率用于表征所述预测特征向量属于所述目标保险的理赔范围的概率,所述第二概率用于表征所述预测特征向量不属于所述目标保险的理赔范围的概率。
示例性的说明,可以按照以下所示的逻辑回归预测函数,对预测特征向量进行二分类预测:
hθ(x)=θ0+θ1×x1+θ2×x2+...+θn×xn;
P(y=0|x;θ)=1-P(y=1|x;θ);
其中,xn是预测特征向量中的第n个特征值;
θ0、θ1、θ2...θn是理赔范围预测模型的待调整模型参数;
θn是xn的权重参数,hθ(x)是所述预测特征向量的参数表示结果;
y=1表示预测特征向量属于所述目标保险的理赔范围;
y=0表示预测特征向量不属于所述目标保险的理赔范围;
P(y=1|x;θ)是所述第一概率;
P(y=0|x;θ)是所述第二概率。
需要说明的是,结合上述步骤S110部分关于理赔范围预测模型的训练过程的描述可知:参数θ0、θ1、θ2...θn是理赔范围预测模型达到收敛时,得到的模型参数,在实际应用过程中,参数θ0、θ1、θ2...θn的具体取值是确定的,因此,只需将预测特征向量中的n个特征值代入上述公式中,即可得到预测特征向量属于所述目标保险的理赔范围的概率(即第一概率)。
本申请实施例中,在得到理赔范围预测模型的输出结果之后,作为一可选实施例,所述确定所述赔案信息是否满足目标保险的理赔范围条件,包括:
根据所述第一概率,判断所述第一概率是否大于预先设置的理赔范围阈值;
若确定所述第一概率大于所述理赔范围阈值,则确定所述赔案信息满足所述目标保险的理赔范围条件;
若确定所述第一概率小于或者等于所述理赔范围阈值,则确定所述赔案信息不满足所述目标保险的理赔范围条件。
示例性的说明,预先设置的理赔范围阈值为0.8,若计算出的赔案信息的第一概率为0.5,则可以确定赔案信息不满足目标保险的理赔范围条件;若计算出的赔案信息的第一概率为0.9,则可以确定赔案信息满足目标保险的理赔范围条件。
在一个可行的实施方案中,图3示出了本申请实施例所提供的一种判断赔案信息属于欺诈事件的风险概率值是否满足理赔风险条件的方法流程示意图,如图3所示,在执行步骤S120之后,在所述响应于所述风险概率值满足预先设置的理赔风险条件之前,该方法还包括S310-S330;具体的:
S310,判断所述风险概率值是否小于预先设置的理赔风险阈值。
S320,若确定所述风险概率值小于所述理赔风险阈值,则确定所述风险概率值满足所述理赔风险条件。
示例性的说明,预先设置的理赔风险阈值为0.4,若输出结果中赔案信息属于欺诈事件的风险概率值为0.3,则确定该风险概率值满足理赔风险条件,可以对赔案信息的出险人进行理赔;若输出结果中赔案信息属于欺诈事件的风险概率值为0.7,则确定该风险概率值不满足理赔风险条件,需要对赔案信息进行核查。
S330,若确定所述风险概率值大于或者等于所述理赔风险阈值,则确定所述风险概率值不满足所述理赔风险条件。
具体的,当所述风险概率值不满足所述理赔风险条件时,作为一可选实施例,所述方法,还包括:
响应于所述风险概率值不满足所述理赔风险条件,则将所述赔案信息发送给业务审核人员;
接收所述业务审核人员针对所述赔案信息的审核结果;
若确定所述审核结果为同意理赔,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔;
若确定所述审核结果为不同意理赔,则获取所述业务审核人员的审核意见,并向所述赔案信息对应的出险人发送所述审核意见,以提示该出险人对所述审核意见进行反馈。
在一个可行的实施方案中,图4示出了本申请实施例所提供的一种欺诈风险预测模型的训练方法流程示意图,如图4所示,在执行上述步骤S110-S130之前,所述欺诈风险预测模型通过以下方法确定出所述目标风险因子,该方法具体包括S410-S470;具体的:
S410,获取历史赔案信息作为所述欺诈风险预测模型的训练样本;其中,所述历史赔案信息中包括:属于欺诈事件的赔案信息和属于非欺诈事件的赔案信息。
具体的,本申请实施例中,考虑到属于欺诈事件的历史赔案信息较难获取,为保证不同类型的训练样本数量充足,当所述历史赔案信息中属于欺诈事件的赔案信息的数量小于预先设置的样本数量阈值时,所述获取历史赔案信息作为所述欺诈风险预测模型的训练样本,还包括:
针对每一第一赔案信息,利用上采样算法,计算出该第一赔案信息的多个近邻样本;其中,所述第一赔案信息是属于欺诈事件的赔案信息;
从所述多个近邻样本中,随机选取第一数量阈值的近邻样本作为待插值样本;
利用每一所述待插值样本,对所述第一赔案信息进行随机线性插值处理,得到第一训练样本;其中,所述第一训练样本包括:所述第一赔案信息和每一所述待插值样本;
获取所述第一训练样本作为所述训练样本。
示例性的说明,可以使用smote算法(人工数据合成算法,上采样算法的一种可选算法),将属于欺诈事件的历史赔案信息作为待合成的少数类样本;对于少数类样本中的每一个样本x,以欧式距离作为标准计算出样本x与少数类样本中所有其他样本之间的距离,得到样本x的k个近邻样本;根据少数类样本的数量与预先设置的样本数量阈值之间的差距,确定第一数量阈值,例如,属于欺诈事件的历史赔案信息有10个,预先设置的样本数量阈值为40个,则第一数量阈值至少为30,也可以大于30;从k个近邻样本中随机选取第一数量阈值的近邻样本作为待插值样本,利用选取的待插值样本与样本x进行合成,可以得到样本x的新增样本,新增样本中包含的信息量要高于样本x中的信息量,这样,经过数据合成处理之后,获取属于欺诈事件的赔案信息以及每一个待插值样本作为扩充后的训练样本,可以提高训练样本的信息丰富程度,有利于提高欺诈风险预测模型的训练准确度。
S420,针对每一所述训练样本,按照预先设置的分类指标,从该训练样本中,提取每一所述分类指标对应的特征信息作为该训练样本下每一所述分类指标的指标值。
具体的,分类指标是指预先设置的、对于训练样本的分类结果可能具有指向性作用的指标;例如,以医疗类目标保险为例,分类指标可以是:出险金额、出险疾病、疾病史的有无、家族遗传疾病史等。其中,对于分类指标的具体指标内容,本申请并不进行限定。
S430,将该训练样本下每一所述分类指标的指标值作为分类预测函数的自变量,利用逻辑回归算法,计算所述分类预测函数的因变量的值,将计算结果作为该训练样本的预测结果,其中,所述预测结果用于表征该训练样本属于欺诈事件的概率值。
具体的,以训练样本A为例,训练样本A下第n个分类指标的指标值作为分类预测函数的第n个自变量,记作xn,可以将训练样本A下n个分类指标的指标值:x1、x2…xn代入以下的分类预测函数y(x)中,将计算出的y(x)的值,作为训练样本A的预测结果:
ha(x)=a1×x1+a2×x2+...+an×xn+b;
其中,an是第n个分类指标xn对应的自变量系数;
b是偏移量参数;
y(x)是所述分类预测函数。
S440,根据该训练样本所属的分类标签,利用所述逻辑回归算法中的损失函数,计算所述分类标签与所述预测结果的偏差值,将计算结果作为该训练样本的损失函数值。
本申请实施例中,其中,所述分类标签包括:用于表征该训练样本属于欺诈事件的第一标签和用于表征该训练样本属于非欺诈事件的第二标签;例如,第一标签可以是数字1,第二标签可以是数字0,若训练样本A的分类标签为数字1,则表示训练样本A的真实分类情况为:训练样本A属于欺诈事件。
具体的,结合上述的分类预测函数,仍以训练样本A为例,若训练样本A的分类标签为第一标签,第一标签是数字1;利用上述的分类预测函数,计算出训练样本A的预测结果为:y=0.6,即预测出的训练样本A属于欺诈事件的概率值为0.6;将上述分类标签与预测结果代入损失函数中,其中,损失函数用于计算分类标签表征的真实分类结果与预测结果的偏差值,将计算出的偏差值作为本次训练样本A对应的损失函数值。
作为一可选实施例,所述损失函数可以是如下所示的cost损失函数(代价损失函数):
其中,y(x)是训练样本的预测结果。
S450,根据每一所述训练样本的损失函数值,对所述欺诈风险预测模型进行训练,直至所述欺诈风险预测模型达到收敛。
具体的,结合上述步骤S410-S440可知,在训练过程中,欺诈风险预测模型根据每一个训练样本的损失函数值,对分类预测函数中的每一个自变量系数以及偏移量参数进行调整,直至损失函数值达到最小,此时,确定欺诈风险预测模型达到收敛。
S460,在所述欺诈风险预测模型达到收敛之后,获取所述分类预测函数中每一所述自变量的自变量系数;其中,所述自变量系数用于表征所述自变量对应的分类指标与所述预测结果之间的相关性程度。
具体的,结合上述分类预测函数的公式内容可知,在欺诈风险预测模型达到收敛之后,可以确定出偏移量参数b以及每一个自变量系数的值,以分类指标xn为例,若欺诈风险预测模型达到收敛之后,xn对应的自变量系数an越大,则表示分类指标xn对于训练样本A最终的预测结果的影响越大,相关性程度也越大。
S470,按照预先设置的相关性程度阈值,从每一所述分类指标中,提取所述自变量系数大于或者等于所述相关性程度阈值的分类指标作为所述目标风险因子。
示例性的说明,若预先设置的相关性程度阈值为0.5,则在欺诈风险预测模型达到收敛之后,根据确定出的自变量系数a1、a2…an的值,提取大于或者等于0.5的自变量系数,将提取出的自变量系数对应的分类指标作为目标风险因子。
具体的,作为一可选实施例,在筛选出的目标风险因子的数量过多时,还可以使用pearson算法来计算每一个目标风险因子与上述预测结果之间的相关性,从而根据相关性计算结果,从目标风险因子中,筛选出与预测结果的相关程度更高的目标风险因子作为最终确定的目标风险因子,以避免因选取的风险因子数量过多,导致欺诈风险预测模型的数据处理效率降低的问题,提高欺诈风险预测模型的数据处理效率。
具体的,结合上述步骤S410-S470可知,目标风险因子是欺诈风险预测模型达到收敛之后,筛选出的对于确定训练样本属于欺诈事件或者属于非欺诈事件最具有指向性作用的分类指标。这样,在模型达到收敛之后,训练好的欺诈风险预测模型可以按照目标风险因子,从输入的赔案信息中,分别提取每一项目标风险因子对应的特征信息,由于目标风险因子是对于确定赔案信息属于欺诈事件或属于非欺诈事件最具有指向性作用的分类指标,因此,在利用提取出的目标风险因子的特征信息,对赔案信息进行二分类预测时,有利于提高预测结果的准确度。
实施例二
图5示出了本申请实施例所提供的一种信息处理的装置的结构示意图,所述装置包括:
第一预测模块510,用于将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;其中,所述目标保险是所述赔案信息所属的保单险种责任类型及范围所对应的保险;
第一响应模块520,用于响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;
第二响应模块530,用于响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔。
可选的,在所述将待理赔的赔案信息输入训练好的理赔范围预测模型中之后,第一预测模块510,还用于:
根据所述目标保险对应的理赔关键词,从所述赔案信息中,提取与所述理赔关键词的语义相同的目标关键词;其中,所述目标关键词至少包括:用于表征所述出险人的个人身份信息的第一关键词、用于表征所述出险人截止出险日前有效的保单及险种信息的第二关键词、用于表征所述有效的保单的保全信息的第三关键词以及用于表征所述出险人的出险原因的第四关键词;
针对提取的每一所述目标关键词,按照该目标关键词所属的信息类型,对该目标关键词进行独热编码,将独热编码的结果作为用于表征该目标关键词的特征值;
利用每一所述目标关键词的特征值,确定所述赔案信息对应的预测特征向量;
利用逻辑回归预测函数,对所述预测特征向量进行二分类预测,将二分类预测的结果作为所述理赔范围预测模型的输出结果;其中,所述二分类预测结果中包括:第一概率和第二概率,所述第一概率用于表征所述预测特征向量属于所述目标保险的理赔范围的概率,所述第二概率用于表征所述预测特征向量不属于所述目标保险的理赔范围的概率。
可选的,第一预测模块510,还用于:
根据所述第一概率,判断所述第一概率是否大于预先设置的理赔范围阈值;
若确定所述第一概率大于所述理赔范围阈值,则确定所述赔案信息满足所述目标保险的理赔范围条件;
若确定所述第一概率小于或者等于所述理赔范围阈值,则确定所述赔案信息不满足所述目标保险的理赔范围条件。
可选的,在所述将所述赔案信息输入训练好的欺诈风险预测模型中之后,第一响应模块520,还用于:
按照目标风险因子,从所述赔案信息中,提取每一所述目标风险因子对应的特征信息;其中,所述目标风险因子是所述欺诈风险预测模型在训练过程中确定出的、对于训练样本的分类结果具有指向性作用的分类指标,其中,所述训练样本的分类结果包括:训练样本属于欺诈事件和训练样本属于非欺诈事件;
利用提取的每一所述目标风险因子对应的特征信息,对所述赔案信息进行二分类预测,将二分类预测的结果作为所述欺诈风险预测模型的输出结果;其中,所述欺诈风险预测模型的输出结果包括:第一风险概率值和第二风险概率值,所述第一风险概率值是所述赔案信息属于欺诈事件的风险概率值,所述第二风险概率值是所述赔案信息属于非欺诈事件的风险概率值。
可选的,在所述响应于所述风险概率值满足预先设置的理赔风险条件之前,第二响应模块530,还用于:
判断所述风险概率值是否小于预先设置的理赔风险阈值;
若确定所述风险概率值小于所述理赔风险阈值,则确定所述风险概率值满足所述理赔风险条件;
若确定所述风险概率值大于或者等于所述理赔风险阈值,则确定所述风险概率值不满足所述理赔风险条件。
可选的,当所述风险概率值不满足所述理赔风险条件时,第二响应模块530,还用于:
响应于所述风险概率值不满足所述理赔风险条件,则将所述赔案信息发送给业务审核人员;
接收所述业务审核人员针对所述赔案信息的审核结果;
若确定所述审核结果为同意理赔,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔;
若确定所述审核结果为不同意理赔,则获取所述业务审核人员的审核意见,并向所述赔案信息对应的出险人发送所述审核意见,以提示该出险人对所述审核意见进行反馈。
可选的,在所述欺诈风险预测模型确定所述目标风险因子时,第一响应模块520,还用于:
获取历史赔案信息作为所述欺诈风险预测模型的训练样本;其中,所述历史赔案信息中包括:属于欺诈事件的赔案信息和属于非欺诈事件的赔案信息;
针对每一所述训练样本,按照预先设置的分类指标,从该训练样本中,提取每一所述分类指标对应的特征信息作为该训练样本下每一所述分类指标的指标值;
将该训练样本下每一所述分类指标的指标值作为分类预测函数的自变量,利用逻辑回归算法,计算所述分类预测函数的因变量的值,将计算结果作为该训练样本的预测结果,其中,所述预测结果用于表征该训练样本属于欺诈事件的概率值;
根据该训练样本所属的分类标签,利用所述逻辑回归算法中的损失函数,计算所述分类标签与所述预测结果的偏差值,将计算结果作为该训练样本的损失函数值;其中,所述分类标签包括:用于表征该训练样本属于欺诈事件的第一标签和用于表征该训练样本属于非欺诈事件的第二标签;
根据每一所述训练样本的损失函数值,对所述欺诈风险预测模型进行训练,直至所述欺诈风险预测模型达到收敛;
在所述欺诈风险预测模型达到收敛之后,获取所述分类预测函数中每一所述自变量的自变量系数;其中,所述自变量系数用于表征所述自变量对应的分类指标与所述预测结果之间的相关性程度;
按照预先设置的相关性程度阈值,从每一所述分类指标中,提取所述自变量系数大于或者等于所述相关性程度阈值的分类指标作为所述目标风险因子。
可选的,当所述历史赔案信息中属于欺诈事件的赔案信息的数量小于预先设置的样本数量阈值时,第一响应模块520,还用于:
针对每一第一赔案信息,利用上采样算法,计算出该第一赔案信息的多个近邻样本;其中,所述第一赔案信息是属于欺诈事件的赔案信息;
从所述多个近邻样本中,随机选取第一数量阈值的近邻样本作为待插值样本;
利用每一所述待插值样本,对所述第一赔案信息进行随机线性插值处理,得到第一训练样本;其中,所述第一训练样本包括:所述第一赔案信息和每一所述待插值样本;
获取所述第一训练样本作为所述训练样本。
实施例三
如图6所示,本申请实施例提供了一种计算机设备600,用于执行本申请中的信息处理的方法,该设备包括存储器610、处理器620及存储在该存储器610上并可在该处理器620上运行的计算机程序,其中,上述处理器620执行上述计算机程序时实现上述的信息处理的方法的步骤。
具体地,上述存储器610和处理器620可以为通用的存储器和处理器,这里不做具体限定,当处理器620运行存储器610存储的计算机程序时,能够执行上述的信息处理的方法。
对应于本申请中的信息处理的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的信息处理的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的信息处理的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种信息处理的方法,其特征在于,所述方法包括:
将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;其中,所述目标保险是所述赔案信息所属的保单险种责任类型及范围所对应的保险;
响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;
响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔;
其中,在所述将待理赔的赔案信息输入训练好的理赔范围预测模型中之后,所述方法包括:
根据所述目标保险对应的理赔关键词,从所述赔案信息中,提取与所述理赔关键词的语义相同的目标关键词;其中,所述目标关键词至少包括:用于表征所述出险人的个人身份信息的第一关键词、用于表征所述出险人截止出险日前有效的保单及险种信息的第二关键词、用于表征所述有效的保单的保全信息的第三关键词以及用于表征所述出险人的出险原因的第四关键词;
针对提取的每一所述目标关键词,按照该目标关键词所属的信息类型,对该目标关键词进行独热编码,将独热编码的结果作为用于表征该目标关键词的特征值;
利用每一所述目标关键词的特征值,确定所述赔案信息对应的预测特征向量;
利用逻辑回归预测函数,对所述预测特征向量进行二分类预测,将二分类预测的结果作为所述理赔范围预测模型的输出结果;其中,所述二分类预测结果中包括:第一概率和第二概率,所述第一概率用于表征所述预测特征向量属于所述目标保险的理赔范围的概率,所述第二概率用于表征所述预测特征向量不属于所述目标保险的理赔范围的概率。
2.根据权利要求1所述的方法,其特征在于,所述确定所述赔案信息是否满足目标保险的理赔范围条件,包括:
根据所述第一概率,判断所述第一概率是否大于预先设置的理赔范围阈值;
若确定所述第一概率大于所述理赔范围阈值,则确定所述赔案信息满足所述目标保险的理赔范围条件;
若确定所述第一概率小于或者等于所述理赔范围阈值,则确定所述赔案信息不满足所述目标保险的理赔范围条件。
3.根据权利要求1所述的方法,其特征在于,在所述将所述赔案信息输入训练好的欺诈风险预测模型中之后,所述方法包括:
按照目标风险因子,从所述赔案信息中,提取每一所述目标风险因子对应的特征信息;其中,所述目标风险因子是所述欺诈风险预测模型在训练过程中确定出的、对于训练样本的分类结果具有指向性作用的分类指标,其中,所述训练样本的分类结果包括:训练样本属于欺诈事件和训练样本属于非欺诈事件;
利用提取的每一所述目标风险因子对应的特征信息,对所述赔案信息进行二分类预测,将二分类预测的结果作为所述欺诈风险预测模型的输出结果;其中,所述欺诈风险预测模型的输出结果包括:第一风险概率值和第二风险概率值,所述第一风险概率值是所述赔案信息属于欺诈事件的风险概率值,所述第二风险概率值是所述赔案信息属于非欺诈事件的风险概率值。
4.根据权利要求1所述的方法,其特征在于,在所述响应于所述风险概率值满足预先设置的理赔风险条件之前,所述方法还包括:
判断所述风险概率值是否小于预先设置的理赔风险阈值;
若确定所述风险概率值小于所述理赔风险阈值,则确定所述风险概率值满足所述理赔风险条件;
若确定所述风险概率值大于或者等于所述理赔风险阈值,则确定所述风险概率值不满足所述理赔风险条件。
5.根据权利要求1所述的方法,其特征在于,当所述风险概率值不满足所述理赔风险条件时,所述方法,还包括:
响应于所述风险概率值不满足所述理赔风险条件,则将所述赔案信息发送给业务审核人员;
接收所述业务审核人员针对所述赔案信息的审核结果;
若确定所述审核结果为同意理赔,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔;
若确定所述审核结果为不同意理赔,则获取所述业务审核人员的审核意见,并向所述赔案信息对应的出险人发送所述审核意见,以提示该出险人对所述审核意见进行反馈。
6.根据权利要求3所述的方法,其特征在于,所述欺诈风险预测模型通过以下方法确定出所述目标风险因子,所述方法包括:
获取历史赔案信息作为所述欺诈风险预测模型的训练样本;其中,所述历史赔案信息中包括:属于欺诈事件的赔案信息和属于非欺诈事件的赔案信息;
针对每一所述训练样本,按照预先设置的分类指标,从该训练样本中,提取每一所述分类指标对应的特征信息作为该训练样本下每一所述分类指标的指标值;
将该训练样本下每一所述分类指标的指标值作为分类预测函数的自变量,利用逻辑回归算法,计算所述分类预测函数的因变量的值,将计算结果作为该训练样本的预测结果,其中,所述预测结果用于表征该训练样本属于欺诈事件的概率值;
根据该训练样本所属的分类标签,利用所述逻辑回归算法中的损失函数,计算所述分类标签与所述预测结果的偏差值,将计算结果作为该训练样本的损失函数值;其中,所述分类标签包括:用于表征该训练样本属于欺诈事件的第一标签和用于表征该训练样本属于非欺诈事件的第二标签;
根据每一所述训练样本的损失函数值,对所述欺诈风险预测模型进行训练,直至所述欺诈风险预测模型达到收敛;
在所述欺诈风险预测模型达到收敛之后,获取所述分类预测函数中每一所述自变量的自变量系数;其中,所述自变量系数用于表征所述自变量对应的分类指标与所述预测结果之间的相关性程度;
按照预先设置的相关性程度阈值,从每一所述分类指标中,提取所述自变量系数大于或者等于所述相关性程度阈值的分类指标作为所述目标风险因子。
7.根据权利要求6所述的方法,其特征在于,当所述历史赔案信息中属于欺诈事件的赔案信息的数量小于预先设置的样本数量阈值时,所述获取历史赔案信息作为所述欺诈风险预测模型的训练样本,还包括:
针对每一第一赔案信息,利用上采样算法,计算出该第一赔案信息的多个近邻样本;其中,所述第一赔案信息是属于欺诈事件的赔案信息;
从所述多个近邻样本中,随机选取第一数量阈值的近邻样本作为待插值样本;
利用每一所述待插值样本,对所述第一赔案信息进行随机线性插值处理,得到第一训练样本;其中,所述第一训练样本包括:所述第一赔案信息和每一所述待插值样本;
获取所述第一训练样本作为所述训练样本。
8.一种信息处理的装置,其特征在于,所述装置包括:
第一预测模块,用于将待理赔的赔案信息输入训练好的理赔范围预测模型中,根据所述理赔范围预测模型的输出结果,确定所述赔案信息是否满足目标保险的理赔范围条件;其中,所述目标保险是所述赔案信息所属的保单险种责任类型及范围所对应的保险;
第一响应模块,用于响应于所述赔案信息满足所述目标保险的理赔范围条件,则将所述赔案信息输入训练好的欺诈风险预测模型中,得到所述赔案信息属于欺诈事件的风险概率值;
第二响应模块,用于响应于所述风险概率值满足预先设置的理赔风险条件,则按照所述赔案信息中的赔付条件,对所述赔案信息对应的出险人进行理赔;
其中,在所述将待理赔的赔案信息输入训练好的理赔范围预测模型中之后,所述第一预测模块,还用于:
根据所述目标保险对应的理赔关键词,从所述赔案信息中,提取与所述理赔关键词的语义相同的目标关键词;其中,所述目标关键词至少包括:用于表征所述出险人的个人身份信息的第一关键词、用于表征所述出险人截止出险日前有效的保单及险种信息的第二关键词、用于表征所述有效的保单的保全信息的第三关键词以及用于表征所述出险人的出险原因的第四关键词;
针对提取的每一所述目标关键词,按照该目标关键词所属的信息类型,对该目标关键词进行独热编码,将独热编码的结果作为用于表征该目标关键词的特征值;
利用每一所述目标关键词的特征值,确定所述赔案信息对应的预测特征向量;
利用逻辑回归预测函数,对所述预测特征向量进行二分类预测,将二分类预测的结果作为所述理赔范围预测模型的输出结果;其中,所述二分类预测结果中包括:第一概率和第二概率,所述第一概率用于表征所述预测特征向量属于所述目标保险的理赔范围的概率,所述第二概率用于表征所述预测特征向量不属于所述目标保险的理赔范围的概率。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的信息处理的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832619.9A CN113469826B (zh) | 2021-07-22 | 2021-07-22 | 一种信息处理的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832619.9A CN113469826B (zh) | 2021-07-22 | 2021-07-22 | 一种信息处理的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469826A CN113469826A (zh) | 2021-10-01 |
CN113469826B true CN113469826B (zh) | 2022-12-09 |
Family
ID=77882138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110832619.9A Active CN113469826B (zh) | 2021-07-22 | 2021-07-22 | 一种信息处理的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469826B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWM549931U (zh) * | 2017-07-13 | 2017-10-01 | Shin Kong Life Insurance Co Ltd | 保單理賠風險預測系統 |
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
CN107679995A (zh) * | 2017-08-31 | 2018-02-09 | 平安科技(深圳)有限公司 | 电子装置、保险案件理赔审核方法及计算机可读存储介质 |
CN108256720A (zh) * | 2017-11-07 | 2018-07-06 | 中国平安财产保险股份有限公司 | 一种保险理赔风险评估方法及终端设备 |
CN108346036A (zh) * | 2018-03-06 | 2018-07-31 | 平安科技(深圳)有限公司 | 保险保单集中核单方法、电子装置及可读存储介质 |
CN108765176A (zh) * | 2018-06-04 | 2018-11-06 | 中国平安人寿保险股份有限公司 | 保险理赔案件处理方法、装置、计算机设备及存储介质 |
CN110163242A (zh) * | 2019-04-03 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置及服务器 |
CN110610431A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安人寿保险股份有限公司 | 基于大数据的智能理赔方法及智能理赔系统 |
CN110689443A (zh) * | 2019-09-02 | 2020-01-14 | 中国平安财产保险股份有限公司 | 出险数据处理方法、装置及存储介质、服务器 |
CN110866832A (zh) * | 2019-09-30 | 2020-03-06 | 北京健康之家科技有限公司 | 一种风险控制方法、系统、存储介质及计算设备 |
CN111179092A (zh) * | 2019-11-15 | 2020-05-19 | 泰康保险集团股份有限公司 | 一种保险理赔方法、装置、电子设备及存储介质 |
CN111260490A (zh) * | 2020-03-13 | 2020-06-09 | 上海远眸软件有限公司 | 基于树模型的车险快速理赔方法和系统 |
CN112541831A (zh) * | 2020-12-16 | 2021-03-23 | 中国人寿保险股份有限公司 | 一种医疗保险的风险识别方法、装置、介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090281841A1 (en) * | 2008-05-12 | 2009-11-12 | International Business Machines Corporation | Method for automating insurance claims processing |
US9026551B2 (en) * | 2013-06-25 | 2015-05-05 | Hartford Fire Insurance Company | System and method for evaluating text to support multiple insurance applications |
WO2016210122A1 (en) * | 2015-06-24 | 2016-12-29 | IGATE Global Solutions Ltd. | Insurance fraud detection and prevention system |
US20170124497A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | System for automated capture and analysis of business information for reliable business venture outcome prediction |
CN107895324A (zh) * | 2017-12-11 | 2018-04-10 | 杨勇 | 保险审核装置和方法 |
CN109919783A (zh) * | 2019-01-31 | 2019-06-21 | 德联易控科技(北京)有限公司 | 车险理赔案件的风险识别方法、装置、设备及存储介质 |
CN112508711A (zh) * | 2020-11-11 | 2021-03-16 | 中国人寿保险股份有限公司 | 一种针对保单理赔的自动核赔方法及相关设备 |
-
2021
- 2021-07-22 CN CN202110832619.9A patent/CN113469826B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
TWM549931U (zh) * | 2017-07-13 | 2017-10-01 | Shin Kong Life Insurance Co Ltd | 保單理賠風險預測系統 |
CN107679995A (zh) * | 2017-08-31 | 2018-02-09 | 平安科技(深圳)有限公司 | 电子装置、保险案件理赔审核方法及计算机可读存储介质 |
CN108256720A (zh) * | 2017-11-07 | 2018-07-06 | 中国平安财产保险股份有限公司 | 一种保险理赔风险评估方法及终端设备 |
CN108346036A (zh) * | 2018-03-06 | 2018-07-31 | 平安科技(深圳)有限公司 | 保险保单集中核单方法、电子装置及可读存储介质 |
CN108765176A (zh) * | 2018-06-04 | 2018-11-06 | 中国平安人寿保险股份有限公司 | 保险理赔案件处理方法、装置、计算机设备及存储介质 |
CN110163242A (zh) * | 2019-04-03 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置及服务器 |
CN110610431A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安人寿保险股份有限公司 | 基于大数据的智能理赔方法及智能理赔系统 |
CN110689443A (zh) * | 2019-09-02 | 2020-01-14 | 中国平安财产保险股份有限公司 | 出险数据处理方法、装置及存储介质、服务器 |
CN110866832A (zh) * | 2019-09-30 | 2020-03-06 | 北京健康之家科技有限公司 | 一种风险控制方法、系统、存储介质及计算设备 |
CN111179092A (zh) * | 2019-11-15 | 2020-05-19 | 泰康保险集团股份有限公司 | 一种保险理赔方法、装置、电子设备及存储介质 |
CN111260490A (zh) * | 2020-03-13 | 2020-06-09 | 上海远眸软件有限公司 | 基于树模型的车险快速理赔方法和系统 |
CN112541831A (zh) * | 2020-12-16 | 2021-03-23 | 中国人寿保险股份有限公司 | 一种医疗保险的风险识别方法、装置、介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Detecting Fraudulent Insurance Claims Using Random Forests and Synthetic Minority Oversampling Technique;Sonakshi Harjai etc.;《2019 4th International Conference on Information Systems and Computer Networks (ISCON)》;20200316;全文 * |
基于智能化理赔流程的车险理赔风控和反欺诈研究;何宝晶;《中国优秀硕士论文全文数据库》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113469826A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116342259A (zh) | 一种用户信用自动评级方法、装置、电子设备及介质 | |
WO2018192348A1 (zh) | 数据处理方法、装置及服务器 | |
CN110163242B (zh) | 风险识别方法、装置及服务器 | |
CN112102073A (zh) | 信贷风险控制方法及系统、电子设备及可读存储介质 | |
CN112561685B (zh) | 客户的分类方法和装置 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN110930218A (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN110533525A (zh) | 用于评估实体风险的方法及装置 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
CN109492911A (zh) | 风险事件的风险预估方法、装置、计算机设备及存储介质 | |
Wang et al. | Improving investment suggestions for peer-to-peer lending via integrating credit scoring into profit scoring | |
CN113469826B (zh) | 一种信息处理的方法、装置、设备及存储介质 | |
CN113487109A (zh) | 群体识别方法、装置、电子设备及存储介质 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
CN110782163A (zh) | 企业数据处理方法和装置 | |
CN115760454A (zh) | 一种基于循环宽度学习的财务舞弊识别方法 | |
WO2015118619A1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN114861989A (zh) | 一种加保业务的预测方法及装置 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US11625788B1 (en) | Systems and methods to evaluate application data | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
AU2021101568A4 (en) | Artificial intelligence and big data analytics based insurance service fraud detection system | |
Maina et al. | Detecting Fraud in Motor Insurance Claims Using XGBoost Algorithm with SMOTE | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |