CN111091472A - 数据处理方法、装置及设备 - Google Patents
数据处理方法、装置及设备 Download PDFInfo
- Publication number
- CN111091472A CN111091472A CN201911164189.7A CN201911164189A CN111091472A CN 111091472 A CN111091472 A CN 111091472A CN 201911164189 A CN201911164189 A CN 201911164189A CN 111091472 A CN111091472 A CN 111091472A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- health
- dimension
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 228
- 230000036541 health Effects 0.000 claims abstract description 188
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims description 76
- 230000004630 mental health Effects 0.000 claims description 20
- 230000008821 health effect Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000007477 logistic regression Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 239000000463 material Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000011985 exploratory data analysis Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000010432 diamond Substances 0.000 description 4
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 229910003460 diamond Inorganic materials 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 206010016256 fatigue Diseases 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000035764 nutrition Effects 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 229910052697 platinum Inorganic materials 0.000 description 2
- 206010039083 rhinitis Diseases 0.000 description 2
- 208000028399 Critical Illness Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- JUWSSMXCCAMYGX-UHFFFAOYSA-N gold platinum Chemical compound [Pt].[Au] JUWSSMXCCAMYGX-UHFFFAOYSA-N 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XOOUIPVCVHRTMJ-UHFFFAOYSA-L zinc stearate Chemical compound [Zn+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O XOOUIPVCVHRTMJ-UHFFFAOYSA-L 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种数据处理方法、装置及设备,该方法包括:从预设数据库获取第一用户的用户数据,对用户数据进行处理,获取第一用户的健康信息,根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息;根据健康信息和理赔信息,获取第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。由于在对第一用户的用户数据进行处理时,既考虑了第一用户的健康程度,又考虑了第一用户存在理赔的概率,因此,使得最终得到的数据处理结果能够准确反映用户的健康风险情况,提高了数据处理结果的可靠性,从而能够根据数据处理结果对用户进行精准的投保处理。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
通常,在被保险人投保之前,保险公司需要对被保险人的用户数据进行处理,以确定出被保险人的投保方案。
目前,在对被保险人的用户数据进行处理时,主要是对被保险人的收入数据和/或财产数据进行处理,确定被保险人承担保单的能力,进而确定被保险人的投保方案。
然而,采用上述方案为被保险人确定投保方案时,仅考虑了被保险人人的承担保单的能力,没有考虑被保险人的自身的个性化信息,使得确定的投保方案可能并不是对被保险人最匹配的,也就是说,无法实现对被保险人的精准投保。
发明内容
本发明提供一种数据处理方法、装置及设备,用以提高数据处理结果的可靠性,从而对用户进行精准的投保处理。
第一方面,本发明提供一种数据处理方法,包括:
从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据;
对所述用户数据进行处理,获取所述第一用户的健康信息,所述健康信息用于指示所述第一用户的健康程度;
根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,所述理赔信息用于指示对所述第一用户进行理赔的概率;
根据所述健康信息和所述理赔信息,获取所述第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。
一种可能的实现方式中,所述对所述用户数据进行处理,获取所述第一用户的健康信息,包括:
对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果;其中,所述多个维度包括下述中的至少两项:资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度;
根据所述多个维度分别对应的处理结果,获取所述第一用户的健康信息。
一种可能的实现方式中,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:从所述用户画像数据中提取多个资料数据,其中,每个资料数据对应有所属的资料类型;根据每种资料类型对应的资料数据,得到所述每种资料类型对应的数据完整度;根据多种资料类型对应的数据完整度,得到所述第一用户的资料完整维度的处理结果。
一种可能的实现方式中,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述健康测试数据中获取所述第一用户参与的健康测试的类型和测试结果;
根据所述第一用户参与的健康测试的类型和测试结果,得到所述第一用户的身心健康维度的处理结果。
一种可能的实现方式中,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述投保数据中获取所述第一用户的投保保费、投保保额和投保等级;
根据所述第一用户的投保保费、投保保额和投保等级,得到所述第一用户的健康保障维度的处理结果。
一种可能的实现方式中,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述用户关注数据中获取所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期;
根据所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期,得到所述第一用户的健康活跃维度的处理结果。
一种可能的实现方式中,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述人际关系数据中获取所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友;其中,所述个人健康信息包括下述中的至少一种:身心健康维度的处理结果、健康保障维度的处理结果、健康活跃维度的处理结果、资料完整维度的处理结果;
根据所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友,得到所述第一用户的人际健康维度的处理结果。
一种可能的实现方式中,所述根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,包括:
从所述用户数据中分别提取多个预设特征因子对应的数据,所述预设特征因子是指会给所述第一用户带来理赔风险的特征因子;
根据所述多个预设特征因子各自对应的数据、以及所述多个预设特征因子各自对应的证据权重WOE值,获取所述第一用户的理赔信息;
其中,所述多个预设特征因子以及各所述预设特征因子对应的WOE值是通过对多组样本数据进行分析得到的。
一种可能的实现方式中,所述从所述用户数据中分别提取多个预设特征因子对应的数据之前,还包括:
获取多组样本数据,每组样本数据包括:一个样本用户的用户数据和理赔数据;
对所述多组样本数据进行探索性数据分析EDA和WOE分析,从所述用户数据中确定出所述多个预设特征因子,并获取各所述预设特征因子对应的WOE值;其中,每个所述预设特征因子与所述理赔数据的相关度大于预设阈值。
第二方面,本发明提供一种数据处理装置,包括:
获取模块,用于从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据;
第一处理模块,用于对所述用户数据进行处理,获取所述第一用户的健康信息,所述健康信息用于指示所述第一用户的健康程度;
第二处理模块,用于根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,所述理赔信息用于指示对所述第一用户进行理赔的概率;
第三处理模块,用于根据所述健康信息和所述理赔信息,获取所述第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。
一种可能的实现方式中,所述第一处理模块具体用于:对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果;其中,所述多个维度包括下述中的至少两项:资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度;根据所述多个维度分别对应的处理结果,获取所述第一用户的健康信息。
一种可能的实现方式中,所述第一处理模块具体用于:从所述用户画像数据中提取多个资料数据,其中,每个资料数据对应有所属的资料类型;根据每种资料类型对应的资料数据,得到所述每种资料类型对应的数据完整度;根据多种资料类型对应的数据完整度,得到所述第一用户的资料完整维度的处理结果。
一种可能的实现方式中,所述第一处理模块具体用于:从所述健康测试数据中获取所述第一用户参与的健康测试的类型和测试结果;根据所述第一用户参与的健康测试的类型和测试结果,得到所述第一用户的身心健康维度的处理结果。
一种可能的实现方式中,所述第一处理模块具体用于:从所述投保数据中获取所述第一用户的投保保费、投保保额和投保等级;根据所述第一用户的投保保费、投保保额和投保等级,得到所述第一用户的健康保障维度的处理结果。
一种可能的实现方式中,所述第一处理模块具体用于:从所述用户关注数据中获取所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期;根据所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期,得到所述第一用户的健康活跃维度的处理结果。
一种可能的实现方式中,所述第一处理模块具体用于:从所述人际关系数据中获取所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友;其中,所述个人健康信息包括下述中的至少一种:身心健康维度的处理结果、健康保障维度的处理结果、健康活跃维度的处理结果、资料完整维度的处理结果;根据所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友,得到所述第一用户的人际健康维度的处理结果。
一种可能的实现方式中,所述第二处理模块具体用于:从所述用户数据中分别提取多个预设特征因子对应的数据,所述预设特征因子是指会给所述第一用户带来理赔风险的特征因子;根据所述多个预设特征因子各自对应的数据、以及所述多个预设特征因子各自对应的证据权重WOE值,获取所述第一用户的理赔信息;其中,所述多个预设特征因子以及各所述预设特征因子对应的WOE值是通过对多组样本数据进行分析得到的。
一种可能的实现方式中,所述第二处理模块还具体用于:获取多组样本数据,每组样本数据包括:一个样本用户的用户数据和理赔数据;对所述多组样本数据进行探索性数据分析EDA和WOE分析,从所述用户数据中确定出所述多个预设特征因子,并获取各所述预设特征因子对应的WOE值;其中,每个所述预设特征因子与所述理赔数据的相关度大于预设阈值。
第三方面,本发明提供一种数据处理设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明提供的数据处理方法、装置及设备,该方法包括:从预设数据库获取第一用户的用户数据,对用户数据进行处理,获取第一用户的健康信息,根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息;根据健康信息和理赔信息,获取第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。由于在对第一用户的用户数据进行处理时,既考虑了第一用户的健康程度,又考虑了第一用户存在理赔的概率,因此,使得最终得到的数据处理结果能够准确反映用户的健康风险情况,提高了数据处理结果的可靠性,从而能够根据数据处理结果对用户进行精准的投保处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例进行数据处理的原理示意图;
图2为本发明一个实施例提供的数据处理方法的流程示意图;
图3为本发明一个实施例提供的健康信息的获取方法的流程示意图;
图4为本发明一个实施例提供的理赔信息的获取方法的流程示意图;
图5为本发明一个实施例提供的逻辑回归模型的获取过程的示意图;
图6A和图6B为本发明实施例提供的年龄和理赔次数的分布示意图;
图7为本发明实施例提供的特征因子之间的相关性示意图;
图8为本发明实施例提供的IV值的示意图;
图9为本发明实施例提供的ROC曲线示意图;
图10为本发明实施例提供的数据处理装置的结构示意图;
图11为本发明实施例提供的数据处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如前所述,目前在对被保险人进行评估时,主要是评估被保险人的保单能力等级。也就是说,考察被保险人是否具有承担其所担负的长期或短期的保单责任的能力。但是,采用上述评估方法得到的评估结果并不完备,无法反映被保险人的健康风险情况,从而无法对用户进行精准的投保处理。
为了解决上述问题,本发明提供一种数据处理方法,能够从健康角度和理赔角度对第一用户的用户数据进行处理,提高了数据处理结果的可靠性。图1为本发明实施例进行数据处理的原理示意图。如图1所示,本实施例的方法可以由数据处理设备执行。将第一用户的用户数据输入至数据处理设备中,数据处理设备会从健康角度对用户数据进行处理,得到健康信息。并且,数据处理设备还会从理赔角度预测用户存在理赔的概率,得到理赔信息。进而,数据处理设备根据得到的健康信息和理赔信息,得到该用户的数据处理结果。由于该数据处理结果同时考虑了用户的健康情况以及理赔情况,因此,能够保证数据处理结果的可靠性,从而能够根据数据处理结果对用户进行精准的投保处理。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明一个实施例提供的数据处理方法的流程示意图。本实施例的方法可以由图1中的数据处理设备执行,该数据处理设备可以为终端设备,还可以为服务器。如图2所示,本实施例的方法,包括:
S201:从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据。
其中,用户画像数据用于指示描述用户基本资料信息的数据,包括但不限于:客户号、绑定的第三方帐号、会员号、手机号、证件号码、姓名、证件类型、出生日期、性别、邮箱、地址等。投保数据用于指示用户当前投保的保单信息的数据,包括但不限于:投保保额、投保保费、投保等级(例如:贵宾、非贵宾、金卡、白金卡等)等。健康测试数据用于指示用户参与的健康测试的情况,包括但不限于:参与健康测试的类型、测试结果、测试时间等。其中,健康测试包括但不限于:感冒测试、大姨妈测试、鼻炎测试、体质测试、亚健康测试、精神不振自查、乳腺健康自查、9.9测试、儿童营养测试、寿命预测、儿童身高、乳腺癌测试等。用户关注数据指示的是用户对某个健康应用(或健康公众号)的关注情况,例如:关注日期、取消关注日期、绑定日期等。人际关系数据指示的是用户在保险社交中的人际关系情况,例如:用户的保险互助好友数量、各保险互助好友的个人健康信息、以及用户是否邀请保险互助好友等。
S202:对所述用户数据进行处理,获取所述第一用户的健康信息,所述健康信息用于指示所述第一用户的健康程度。
通过对用户数据中的部分数据或者全部数据进行处理,确定出第一用户的健康程度。本实施例中,第一用户的健康程度可以采用健康信息来描述。可选的,健康信息可以为健康得分,健康得分越高,说明第一用户的健康程度越高,健康得分越低,说明第一用户的健康程度越低。
其中,在对用户数据进行处理时,分别从多个维度对用户数据进行处理,得到每个维度对应的处理结果。然后再根据多个维度分别对应的处理结果,获取第一用户的健康信息。其中,所述多个维度包括下述中的至少两项:资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度。
S203:根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,所述理赔信息用于指示对所述第一用户进行理赔的概率。
本实施例中,理赔信息是用于指示会对第一用户进行理赔的风险信息。有些场景中,理赔信息也可以称为理赔风险信息。能够理解,健康信息高的用户,并不一定不存在理赔风险(或者说,并不一定理赔风险低)。因此,本实施例中,在得到第一用户的健康信息后,还可以通过对用户数据中的部分数据或者全部数据进行分析处理,确定出第一用户存在理赔风险的概率。本实施例中,第一用户的存在理赔风险的概率可以采用理赔信息来描述。可选的,理赔信息可以为理赔风险得分。理赔风险得分越高,说明第一用户的存在理赔风险的概率越高,理赔风险得分越低,说明第一用户的存在理赔风险的概率越低。
其中,在获取第一用户的理赔信息时,可以从用户数据中分别提取多个预设特征因子对应的数据。然后根据多个预设特征因子各自对应的数据确定出第一用户的理赔信息。其中,预设特征因子是指会给所述第一用户带来理赔风险的特征因子,例如:年龄、保费等。有些场景中,预设特征因子也可以称为风险特征因子。一些示例中,预设特征因子可以是预先通过对大量数据进行分析确定出的。
S204:根据所述健康信息和所述理赔信息,获取所述第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。
确定出第一用户的健康信息和理赔信息后,可以根据健康信息和理赔信息,确定出该用户的数据处理结果。示例性的,可以将健康信息和理赔信息进行加权计算,得到数据处理结果。
其中,数据处理结果用于指示所述第一用户的投保参数。可以根据数据处理结果对第一用户进行投保处理。例如,若第一用户的数据处理结果指示的投保参数较高或者较优,则可以确定对第一用户进行投保处理;若第一用户的数据处理结果指示的投保参数较低或者较差,则可以确定不对第一用户进行投保处理。当前,还可以根据第一用户的数据处理结果,对第一用户进行不同的投保处理,例如,投保不同的险种或者不同保额等。
可选的,数据处理结果可以为用户的综合得分。综合得分越高,说明对第一用户进行投保的指数越高,综合得分越低,说明对第一用户进行投保的指数越低。
例如:假设第一用户的健康信息为Ascore,理赔信息为Bscore,则可以采用如下公式计算第一用户的数据处理结果score。
score=Ascore-Bscore
一些示例中,如果健康信息和理赔信息的取值范围不同,还可以向将健康信息和理赔信息进行预处理,使其处于相同的取值范围内,然后再通过上述公式计算得到数据处理结果。
本实施例提供的数据处理方法,包括:从预设数据库获取第一用户的用户数据,对用户数据进行处理,获取第一用户的健康信息,根据用户数据确定多个预设特征对应的特征数据,并根据特征数据确定第一用户的理赔信息;根据健康信息和理赔信息,获取第一用户的数据处理结果。由于在对第一用户的用户数据进行处理时,既考虑了第一用户的健康程度,又考虑了第一用户存在理赔的概率,因此,使得最终得到的数据处理结果能够准确反映用户的健康风险情况,提高了数据处理结果的可靠性,从而能够根据数据处理结果对用户进行精准的投保处理。
下面采用两个具体的实施例分别描述健康信息和理赔信息的获取过程。
图3为本发明一个实施例提供的健康信息的获取方法的流程示意图。如图3所示,本实施例的方法包括:
S301:从预设数据库获取第一用户的用户数据,所述用户数据包括:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据。
本实施例中,分别从下述五种维度来对用户的用户数据进行处理:资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度。其中,每个维度的数据处理结果指示的是从该维度进行数据处理得到的第一用户的健康程度。可选的,每个维度的数据处理结果可以具体为该维度的得分。下面分别对每种维度的数据处理过程进行介绍。
S302:从所述用户画像数据中提取多个资料数据,其中,每个资料数据对应有所属的资料类型;根据每种资料类型对应的资料数据,得到所述每种资料类型对应的数据完整度;根据多种资料类型对应的数据完整度,得到所述第一用户的资料完整维度的处理结果。
示例性的,多个资料数据可以包括:客户号、绑定的第三方账号、会员号、手机号、证件号码、姓名、证件类型、出生日期、性别、邮箱、地址等。由于上述多个资料数据的重要程度不同,可以将上述多个资料数据划分为三种资料类型。例如:属于第一种资料类型的资料数据包括客户号;属于第二种资料类型的资料数据包括:绑定的第三方账号、客户号、会员号、手机号;属于第三种资料类型的资料数据包括:证件号码、姓名、证件类型、出生日期、性别、邮箱、地址。
一种可能的实施方式中,对于第一种资料类型,由于只包括一个资料数据:客户号,如果客户号为空则将其设置为0,如果不为空,直接将第一种资料类型对应的数据完整度Ax,1固化为30分。
对于第二种资料类型,可以采用如下公式计算第二种资料类型对应的数据完整度Ax,2。
其中:为属于第二种资料类型的各资料数据组成的1×4行向量,内容包括“是否收集到绑定的第三方账号”、“是否收集到客户号”、“是否收集到会员号”、“是否收集到手机号”。对于每个指标,若收集到则记为1,若没有收集到,则记为0。为的转置,是一个4×1列向量。MA,2为第二种资料类型对应的4×4矩阵,其取值为:
对于第三种资料类型,可以采用如下公式计算第三种资料类型对应的数据完整度Ax,3。
其中,为属于第三种资料类型的各资料数据组成的1×7行向量,内容为(是否收集到证件号码,是否收集到姓名,是否收集到证件类型,是否收集到出生日期,是否收集到性别,是否收集到邮箱,是否收集到地址),“是”则记1,“否”则记0。为的转置,是一个7×1列向量。MA,3为第二种资料类型对应的7×7矩阵,其取值为:
计算得到三种资料类型对应的数据完整度后,可以采用如下公式计算第一用户的资料完整维度的处理结果Ax。
其中,函数min{y,z}表示取y与z中的较小值。MA为资料完整维度得分对应的3×3的矩阵,其取值为:
S303:从所述健康测试数据中获取所述第一用户参与的健康测试的类型和测试结果;根据所述第一用户参与的健康测试的类型和测试结果,得到所述第一用户的身心健康维度的处理结果。
其中,第一用户参与的健康测试的类型如下包括表1中的一种或者多种。每种健康测试类型可以对应有不同的类型参数(也可以称为权重系数)。一些实施方式中,可以通过分析各种健康测试与用户健康情况之间的相关性来确定类型参数。
需要说明的是,表1所示的健康测试仅为一些示例,本实施例并不对此进行限定。
表1
健康测试的类型 | 类型参数 |
01-感冒测试 | 60 |
02-大姨妈测试 | 80 |
03-鼻炎测试 | 50 |
04-体质测试 | 130 |
05-亚健康测试 | 20 |
06-精神不振自查 | 30 |
07-乳腺健康自查 | 100 |
08-9.9测试 | 150 |
09-儿童营养 | 20 |
10-寿命预测 | 80 |
11-儿童身高 | 20 |
12-乳腺癌 | 50 |
一种可能的实施方式中,可以采用如下公式得到第一用户的身心健康维度的处理结果Bx。
其中,函数min{y,z}表示取y与z中的较小值;函数max{y,z}表示取y与z中的较大值。uwx表示客户x的最近一次核保结果处理后取值(通过记为1,拒保记为-1,无信息记为0)。nx表示客户x参与的健康测试的类型数量。αi表示测试类型i对应的类型参数,如表2所示。Δtx,i表示运行模型(执行本实施例)日期的次日与客户x最近一次进行测试类型i的日期之差,例如,2019\6\27运行模型,客户x最近一次进行05-亚健康测试是在2019\6\26,该测试为客户x参与的第3个测试类型,则Δtx,3=2019\6\27+1-2019\6\26=2。sx,i表示客户x最近一次进行测试类型i对应的测试结果。
S304:从所述投保数据中获取所述第一用户的投保保费、投保保额和投保等级;根据所述第一用户的投保保费、投保保额和投保等级,得到所述第一用户的健康保障维度的处理结果。
一种可能的实施方式中,可以采用如下公式获取第一用户的健康保障维度的处理结果Cx。
Levelx为用户的贵宾等级变量,具体取值表2所示。
表2
贵宾等级 | Level<sub>x</sub>取值 |
非贵宾 | 0 |
金卡 | 1 |
白金卡 | 1.5 |
铂金卡 | 1.875 |
钻石、尊钻、私钻、黑钻 | 2.25 |
Coveragex,1为用户的独立给付重疾风险保额,单位为元;Coveragex,2为用户的提前给付重疾风险保额,单位为元;Coveragex,3为用户的住院医疗津贴型风险保额,单位为元;Coveragex,4为用户的保险互助风险保额,单位为元;Coveragex,5为用户的有效付费保单个数,单位为个;Coveragex,6为用户的保障型保费,单位为元;Coveragex,7为用户的理财型保费,单位为元。
S305:从所述用户关注数据中获取所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期;根据所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期,得到所述第一用户的健康活跃维度的处理结果。
其中,预设健康应用可以为安装在用户终端上的APP,还可以是公众号等。本实施例中,在获取健康活跃维度的处理结果时,可以分情况讨论。若客户累计健康测试次数mx=0或无法获得,直接将健康活跃维度得分确定为Dx=50。若mx>0,则可以分以下几种情况:
情况1:若三个数据(对预设健康应用的绑定日期、关注日期和取消关注日期)都无法获得,则Dx=min{100,50+10×ln(mx)}.
情况2:若获得了取消关注日期,则将健康活跃维度得分确定为Dx=50.
情况3:若关注日期、绑定日期可获得至少其中之一,且未获得取消关注日期,则Dx=min{100,50+10×ln(mx)+ln(Δtx,D)}。
其中,ln(y)表示y的自然对数函数;Δtx,D表示运行模型日期的次日与客户x最近一次发生关注或绑定行为的日期之差。例如,2016\1\27运行模型,用户x最近一次于2016\1\26绑定预设健康应用,没有关注该预设健康应用的数据,则Δtx,D=2019\6\27+1-2019\6\26=2。
S306:从所述人际关系数据中获取所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友;根据所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友,得到所述第一用户的人际健康维度的处理结果。
其中,保险互助好友的个人健康信息包括下述中的至少一项:身心健康维度的处理结果、健康保障维度的处理结果、健康活跃维度的处理结果、资料完整维度的处理结果。可选的,可以将上述四项的处理结果加权和作为个人健康信息。
一种可能的实施方式中,可以采用如下公式获取第一用户的人际健康维度的处理结果。
其中,Nx表示用户x的保险互助好友数量;Sharex表示该用户是否邀请保险互助好友(是记为1,否记为0)。Tempk表示用户的第k个好友的个人健康信息,可以采用如下公式表示:
Tempx=0.35×Ax+0.2×Bx+0.3×Cx+0.15×Dx
S307:根据资料完整维度的处理结果、身心健康维度的处理结果、健康保障维度的处理结果、健康活跃维度的处理结果、以及人际健康维度的处理结果,得到第一用户的健康信息。
本实施例中,可以先根据资料完整维度的处理结果Ax、身心健康维度的处理结果Bx、健康保障维度的处理结果Cx、健康活跃维度的处理结果Dx,计算得到第一用户的个人健康信息Tempx,示例性的,可以采用如下公式计算:Tempx=0.35×Ax+0.2×Bx+0.3×Cx+0.15×Dx
然后,再根据个人健康信息Tempx和人际健康维度的处理结果Ex计算得到第一用户的健康信息Ascore。可以分如下两种情况进行处理。
情况1:客户x存在有效付费保单,则可以采用如下公式获取健康信息Ascore:Ascore=0.9×Tempx+0.1×Ex。
情况2:客户不存在有效付费保单,则可以先按如下公式获取健康信息Ascore:Ascore=0.9×Tempx+0.1×Ex。若计算结果Ascore小于50.0,则Ascore即为最终结果;若计算结果Ascore大于等于50.0,则显示最终结果Ascore=49.9。也就是说,当客户不存在有效付费保单时,客户的健康信息不超过49.9,提高了有效付费保单对客户的健康信息的影响力,提高了健康信息的准确性。
本实施例中,通过对第一用户的用户数据从多个维度(资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度)进行处理,使得得到的健康信息更加准确,提高了数据处理结果的可靠性,从而能够精准的对第一用户进行投保处理。
图4为本发明一个实施例提供的理赔信息的获取方法的流程示意图,如图4所示,本实施例的方法包括:
S401:从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据。
S402:从所述用户数据中分别提取多个预设特征因子对应的数据,所述预设特征因子是指会给所述第一用户带来理赔风险的特征因子。
其中,所述多个预设特征因子以及各所述预设特征因子对应的WOE值是通过对多组样本数据进行分析得到的。示例性的,通过对多组样本进行分析训练得到逻辑回归模型。一种可能的获取多个预设特征因子以及逻辑回归模型的获取方式,可以参见图5所示实施例的详细描述,本实施例对此不作赘述。
S403:根据所述多个预设特征因子各自对应的数据、以及所述多个预设特征因子各自对应的证据权重WOE值,获取所述第一用户的理赔信息。
其中,证据权重WOE值指示的是该预设特征因子对应的权重系数,即该预设特征因子给用户带来理赔的可能性大小。
示例性的,第一用户的理赔信息Logit(pi)可以采用下述公式进行描述。
以逻辑回归模型为例,将该评估用户输入至逻辑回归模型中,逻辑回归模型输出pgood和pbad。其中,pgood为该用户为好客户的概率,pbad为该用户为坏客户的概率。将pgood和pbad代入上述公式的第一行中,得到第一用户的理赔信息Logit(pi)(Logit(pi)大于0时表示好客户,当Logit(pi)小于0时表示坏客户)。
将概率发生比的对数表示成预设特征因子的线性组合,得到上述公式的第二行。假设预设特征因子分别为年龄(age)和保费(sumpremium),则上述公式的第二行可以进一步表示成第三行。其中,βage为该用户的年龄,woeage为该用户的年龄所属分箱的woe值,βsumpremium为该用户的保费,woesumpremium为该用户的保费所属分箱的woe值,a为评分常数。
进一步的,在上述公式的基础上,第一用户的理赔信息可以采用如下公式计算:
其中,α为该取值βi对应的分箱中的用户数量,n为所有分箱中的用户数量。factor指示的是该特征因子对应的综合权重系数。Offset相当于上述公式中的评分常数a。
本实施例中,根据用户数据中的预设特征因子对应的数据以及预设特征因子对应的证据权重值,确定第一用户的理赔信息,保证了理赔信息的准确性。
图5为本发明一个实施例提供的逻辑回归模型的获取过程的示意图。如图5所示,本实施例的方法包括:
S501:获取多组样本数据。
例如:从健康险理赔客户人群中随机抽取8000个客户数据作为样本数据。每组样本数据包括该客户的用户数据和理赔数据。其中,理赔数据中包括理赔次数。本实施例中,将理赔次数大于或者等于3次的客户定义为“坏客户”,将理赔次数小于3次的客户定义为“好客户”。
通过数据探查的方式,从样本数据中获取各健康险客户的基本信息、保单信息以及理赔信息等相关信息,整理相关的特征指标,对特征指标对应的数据进行数值化处理。
S502:对样本数据进行缺失值处理。
有些样本数据中特征指标存在缺失值,缺失值会严重影响到后续的分析结果,因此,需要对样本数据中的缺失值进行处理。本实施例中,对缺失值进行处理时可以采用下述的一种或者多种:
(1)直接删除含有缺失值的样本数据。
(2)根据样本数据之间的相似性对缺失值进行填补。
(3)根据指标之间的相关关系填补缺失值。例如:可以采用随机森林法。
S503:对样本数据进行异常值检测。
异常值是指明显偏离大多数样本数据的数值,比如:个人客户的年龄为负数或者大于110的数值时,通常认为该值为异常值。可以采用离群值检测的方法将指标数值进行异常值检测。
S504:将样本数据划分为训练集和测试集。
例如:按照8:2的比例将样本数据划分为训练集和测试集。即80%的样本数据作为训练集,20%的样本数据作为测试集。通过对训练集中的样本数据进行分析得到逻辑回归模型后,采用测试集对逻辑回归模型的准确率进行测试和验证。
S505:对训练集中的样本数据进行探索性数据分析。
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有:直方图、散点图和箱线图等。
例如:以年龄和理赔次数为例,通过样本数据中的客户年龄和理赔次数进行探索性分析,得到的年龄分布图如图6A所示,理赔次数分布图如图6B所示。由图6A可以看到年龄变量大致呈正态分布,由图6B可以看出理赔次数大致呈指数分布。
S506:对训练集中的样本数据训练得到逻辑回归模型。
特征因子选择在数据分析、机器学习模型中起着至关重要的作用。好的特征因子能够提升模型的性能,更能帮助进一步改善模型。本实施例中,可以采用WOE分析方法(即通过对特征因子进行分箱,并根据各分箱的理赔概率来确定特征因子是否为预设特征因子)来选择特征因子。
特征因子分箱(binning)是对连续变量离散化(discretization)的一种称呼。本实施例中可以采用的分箱方法包括:等距分段(Equval length intervals)、等深分段(Equal frequency intervals)、最优分段(Optimal Binning)等。其中,等距分段是指分段的区间是一致的,比如年龄以十年作为一个分段。等深分段是先确定分段数量,然后令每个分段中数据数量大致相等。最优分段又叫监督离散化(Supervised Discretizaion),使用递归划分(Recursive Partitioning)将连续变量进行分段。
下面以样本数据中的保费(sumpremium)和年龄(age)为例,采用最优分段方式进行分箱,对这两个特征因子的分箱结果进行示例。表3示例的是保费的分箱结果,表4示例的是年龄的分箱结果。实际应用中,针对不能最优分箱的变量,还可以采用聚类(K-means)方式进行分箱。
表3
表4
得到上述分箱结果之后,对每个特征因子进行WOE分析。WOE分析是指针对每个特征因子的每个分箱计算woe值并观察woe值随特征因子变化的趋势。其中WOE的全称是“Weight of Evidence”,即证据权重。示例性的,针对第i个分箱,该分箱的woe值可以采用如下公式计算:
其中,Bi为第i个分箱中的坏客户的数量,BT为所有分箱中的坏客户的总数量。Gi为第i个分箱中的好客户的数量,GT为所有分箱中的好客户的总数量。
以年龄为例,表5中示例了各年龄分箱对应的woe值。
表5
woe值反映的是在每个分箱下坏客户对好客户占比和总体中坏客户对好客户占比之间的差异;从而可以直观的认为woe蕴含了自变量(例如年龄)取值对于目标变量(理赔概率)的影响。
在进行分析时,需要对各指标从小到大排列,并计算出相应分箱的woe值。其中正向指标越大,woe值越小;反向指标越大,woe值越大。正向指标的woe值负斜率越大,反响指标的正斜率越大,则说明指标区分能力好。woe值趋近于直线,则意味指标判断能力较弱。若正向指标和woe正相关趋势、反向指标同woe出现负相关趋势,则说明此指标不符合经济意义,则应当予以去除。
进一步的,还可以分析各特征因子之间的相关性,根据相关性分析结果来选择特征因子。若两个特征因子之间的相关性较大(例如,若大于预设阈值),则可以在二者中选择其中一个特征因子,以降低特征维度,避免特征维度过高。示例性的,图7为本发明实施例提供的特征因子之间的相关性示意图,假设根据相关性确定出的特征因子包括11个(分别为x0至x10,例如:x0为理赔次数,x1为浏览次数,x2为年龄,x3为保费,x4为保额,x5为性别,x6为体检次数,x7为就诊次数,x8为自查次数,x9为fromid次数,x10为付费总和),具体如图7所示。
更进一步的,确定出特征因子之后,还可以采用IV值来对选择出的特征因子的woe值进行检测,确定各woe值是否合理,若不合理,则重新计算woe值。其中,IV的全称是Information Value,中文意思是信息价值,或者信息量。可以采用如下公式计算各特征因子的IV值。
从上述的IV计算公式可以看出,IV值其实是woe值加权求和,主要用于消除掉各分箱中数量差异带来的误差。根据特征因子的IV值可以确定出该特征因子的预测风险的能力,如下:若IV<0.02,则该特征因子不具有预测风险能力(unpredictive),若0.02≤IV<0.1,则该特征因子预测风险能力较弱(weak),若0.1≤IV<0.3,则该特征因子预测风险能力中等(medium),若0.3≤IV<0.5,则该特征因子预测风险能力较强(strong),若IV>0.5,则该特征因子预测风险能力是可疑的(suspicious)。
本实施例中,可以将0.1≤IV<0.5作为选择标准,若某个特征因子的IV值不在该区间范围内,则将该特征因子删除。图8为本发明实施例提供的IV值的示意图,图8中示例出了图7中的各特征因子的IV值。由图8可知,有些特征因子(例如:x4、x5、x6、x8、x10)的IV值明显较低,因此,可以将这些特征因子删除。
经过上述过程,得到了最终选择的特征因子,以及各特征因子对应的分箱woe值。进而,利用这些特征因子,以及各特征因子对应的分箱woe值,可以得到逻辑回归模型。该逻辑回归模型可用于预测一个用户为好客户还是坏客户。
S507:采用测试集中的样本数据对逻辑回归模型进行检验。
本实施例中,可以采用ROC曲线和AUC值来评估模型的预测能力。采用测试集中的样本数据对逻辑回归模型进行验证,得到的ROC曲线如图9所示。由图9可知,AUC值为0.85,说明该模型的预测效果还是不错的,正确率较高。
本实施例中,通过S501至S507,完成了逻辑回归模型的构建过程,并对逻辑回归模型的预测能力进行了验证。该逻辑回归模型可用于对第一用户的理赔信息进行评估。
本实施例中,通过对多组样本数据进行分析,提取出对理赔次数有影响的多个预设特征因子,并确定出各预设特征因子的证据权重值,使得后续可以根据这些预设特征因子以及各预设特征因子的证据权重值对第一用户的用户数据进行处理得到理赔信息,一方面降低了特征维度,减少了计算量,另一方面提高了理赔信息的准确性。
图10为本发明实施例提供的数据处理装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。本实施例的装置可以设置在图1所示的仿真设备中。如图10所示,本实施例提供的数据处理装置1000,包括:获取模块1001、第一处理模块1002、第二处理模块1003和第三处理模块1004。其中,
获取模块1001,用于从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据;
第一处理模块1002,用于对所述用户数据进行处理,获取所述第一用户的健康信息,所述健康信息用于指示所述第一用户的健康程度;
第二处理模块1003,用于根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,所述理赔信息用于指示对所述第一用户进行理赔的概率;
第三处理模块1004,用于根据所述健康信息和所述理赔信息,获取所述第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。
一种可能的实现方式中,所述第一处理模块1002具体用于:对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果;其中,所述多个维度包括下述中的至少两项:资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度;根据所述多个维度分别对应的处理结果,获取所述第一用户的健康信息。
一种可能的实现方式中,所述第一处理模块1002具体用于:从所述用户画像数据中提取多个资料数据,其中,每个资料数据对应有所属的资料类型;根据每种资料类型对应的资料数据,得到所述每种资料类型对应的数据完整度;根据多种资料类型对应的数据完整度,得到所述第一用户的资料完整维度的处理结果。
一种可能的实现方式中,所述第一处理模块1002具体用于:从所述健康测试数据中获取所述第一用户参与的健康测试的类型和测试结果;根据所述第一用户参与的健康测试的类型和测试结果,得到所述第一用户的身心健康维度的处理结果。
一种可能的实现方式中,所述第一处理模块1002具体用于:从所述投保数据中获取所述第一用户的投保保费、投保保额和投保等级;根据所述第一用户的投保保费、投保保额和投保等级,得到所述第一用户的健康保障维度的处理结果。
一种可能的实现方式中,所述第一处理模块1002具体用于:从所述用户关注数据中获取所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期;根据所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期,得到所述第一用户的健康活跃维度的处理结果。
一种可能的实现方式中,所述第一处理模块1002具体用于:从所述人际关系数据中获取所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友;其中,所述个人健康信息包括下述中的至少一种:身心健康维度的处理结果、健康保障维度的处理结果、健康活跃维度的处理结果、资料完整维度的处理结果;根据所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友,得到所述第一用户的人际健康维度的处理结果。
一种可能的实现方式中,所述第二处理模块1003具体用于:从所述用户数据中分别提取多个预设特征因子对应的数据,所述预设特征因子是指会给所述第一用户带来理赔风险的特征因子;根据所述多个预设特征因子各自对应的数据、以及所述多个预设特征因子各自对应的证据权重WOE值,获取所述第一用户的理赔信息;其中,所述多个预设特征因子以及各所述预设特征因子对应的WOE值是通过对多组样本数据进行分析得到的。
一种可能的实现方式中,所述第二处理模块1003还具体用于:获取多组样本数据,每组样本数据包括:一个样本用户的用户数据和理赔数据;对所述多组样本数据进行探索性数据分析EDA和WOE分析,从所述用户数据中确定出所述多个预设特征因子,并获取各所述预设特征因子对应的WOE值;其中,每个所述预设特征因子与所述理赔数据的相关度大于预设阈值。
本实施例的装置,可用于执行上述任一方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
图11为本发明实施例提供的数据处理设备的结构示意图。如图11所示,本实施例的数据处理设备1100,包括:处理器1101以及存储器1102;其中,存储器1102,用于存储计算机程序;处理器1101,用于执行存储器存储的计算机程序,以实现上述实施例中的数据处理方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器1102既可以是独立的,也可以跟处理器1101集成在一起。
当所述存储器1102是独立于处理器1101之外的器件时,所述数据处理设备1100还可以包括:总线1104,用于连接所述存储器1102和处理器1101。
本实施例提供的数据处理设备,可用于执行上述任一方法实施例中的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序用于实现如上任一方法实施例中的技术方案。
本发明实施例还提供一种芯片,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本发明附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征因子进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据;
对所述用户数据进行处理,获取所述第一用户的健康信息,所述健康信息用于指示所述第一用户的健康程度;
根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,所述理赔信息用于指示对所述第一用户进行理赔的概率;
根据所述健康信息和所述理赔信息,获取所述第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述用户数据进行处理,获取所述第一用户的健康信息,包括:
对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果;其中,所述多个维度包括下述中的至少两项:资料完整维度、身心健康维度、健康保障维度、健康活跃维度、人际健康维度;
根据所述多个维度分别对应的处理结果,获取所述第一用户的健康信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述用户画像数据中提取多个资料数据,其中,每个资料数据对应有所属的资料类型;
根据每种资料类型对应的资料数据,得到所述每种资料类型对应的数据完整度;
根据多种资料类型对应的数据完整度,得到所述第一用户的资料完整维度的处理结果。
4.根据权利要求2所述的方法,其特征在于,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述健康测试数据中获取所述第一用户参与的健康测试的类型和测试结果;
根据所述第一用户参与的健康测试的类型和测试结果,得到所述第一用户的身心健康维度的处理结果。
5.根据权利要求2所述的方法,其特征在于,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述投保数据中获取所述第一用户的投保保费、投保保额和投保等级;
根据所述第一用户的投保保费、投保保额和投保等级,得到所述第一用户的健康保障维度的处理结果。
6.根据权利要求2所述的方法,其特征在于,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述用户关注数据中获取所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期;
根据所述第一用户对预设健康应用的绑定日期、关注日期和取消关注日期,得到所述第一用户的健康活跃维度的处理结果。
7.根据权利要求2所述的方法,其特征在于,所述对所述用户数据从多个维度进行处理,得到每个维度对应的处理结果,包括:
从所述人际关系数据中获取所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友;其中,所述个人健康信息包括下述中的至少一种:身心健康维度的处理结果、健康保障维度的处理结果、健康活跃维度的处理结果、资料完整维度的处理结果;
根据所述第一用户的保险互助好友数量、各保险互助好友的个人健康信息、以及所述第一用户是否邀请保险互助好友,得到所述第一用户的人际健康维度的处理结果。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于从预设数据库获取第一用户的用户数据,所述用户数据包括下述中的至少一项:用户画像数据、投保数据、健康测试数据、用户关注数据、人际关系数据;
第一处理模块,用于对所述用户数据进行处理,获取所述第一用户的健康信息,所述健康信息用于指示所述第一用户的健康程度;
第二处理模块,用于根据所述用户数据确定多个预设特征对应的特征数据,并根据所述特征数据确定所述第一用户的理赔信息,所述理赔信息用于指示对所述第一用户进行理赔的概率;
第三处理模块,用于根据所述健康信息和所述理赔信息,获取所述第一用户的数据处理结果,并根据所述数据处理结果对所述第一用户进行投保处理。
9.一种数据处理设备,其特征在于,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164189.7A CN111091472A (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164189.7A CN111091472A (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091472A true CN111091472A (zh) | 2020-05-01 |
Family
ID=70393636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911164189.7A Pending CN111091472A (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091472A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723795A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种信息投放策略测试方法、装置、存储介质和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257471A (zh) * | 2016-03-31 | 2016-12-28 | 泰康保险集团股份有限公司 | 一种客户评测方法和装置 |
CN107146160A (zh) * | 2016-02-26 | 2017-09-08 | 平安科技(深圳)有限公司 | 投保客户健康状况分析方法及服务器 |
CN107145763A (zh) * | 2017-07-03 | 2017-09-08 | 安徽沃莱云计算科技有限公司 | 一种健康管理平台 |
CN109285075A (zh) * | 2017-07-19 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种理赔风险评估方法、装置及服务器 |
-
2019
- 2019-11-25 CN CN201911164189.7A patent/CN111091472A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146160A (zh) * | 2016-02-26 | 2017-09-08 | 平安科技(深圳)有限公司 | 投保客户健康状况分析方法及服务器 |
CN106257471A (zh) * | 2016-03-31 | 2016-12-28 | 泰康保险集团股份有限公司 | 一种客户评测方法和装置 |
CN107145763A (zh) * | 2017-07-03 | 2017-09-08 | 安徽沃莱云计算科技有限公司 | 一种健康管理平台 |
CN109285075A (zh) * | 2017-07-19 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种理赔风险评估方法、装置及服务器 |
Non-Patent Citations (1)
Title |
---|
郑家亨: "《统计大辞典》", 中国统计出版社, pages: 50 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723795A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种信息投放策略测试方法、装置、存储介质和电子设备 |
CN113723795B (zh) * | 2021-08-26 | 2023-11-07 | 泰康保险集团股份有限公司 | 一种信息投放策略测试方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hersh et al. | Democratic and Republican physicians provide different care on politicized health issues | |
O'Dea et al. | Survival pessimism and the demand for annuities | |
CN109545317B (zh) | 基于住院预测模型判定住院行为的方法及相关产品 | |
Frees et al. | Insurance ratemaking and a Gini index | |
CN111523678B (zh) | 业务的处理方法、装置、设备及存储介质 | |
CN110993103A (zh) | 疾病风险预测模型的建立方法和疾病保险产品的推荐方法 | |
Meissner et al. | Individual characteristics associated with risk and time preferences: A multi country representative survey | |
WO2012145616A2 (en) | Predictive modeling | |
CN106257471B (zh) | 一种客户评测方法、装置、可读存储介质及电子设备 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
Kim et al. | Dynamic forecasts of financial distress of Australian firms | |
Huang et al. | Characterizing expected benefits of biomarkers in treatment selection | |
Pacific et al. | Military expenditure, export, FDI and economic performance in Cameroon | |
Li et al. | Nonparametric estimation and inference for polytomous discrimination index | |
CN110991650A (zh) | 训练养卡识别模型、识别养卡行为的方法及装置 | |
Parsa et al. | Does governance ease the overhead squeeze experienced by nonprofits? | |
CN117934154A (zh) | 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品 | |
Barrio et al. | Selecting the number of categories of the lymph node ratio in cancer research: A bootstrap-based hypothesis test | |
CN117689209A (zh) | 基于熵权模糊综合的桥梁安全风险评估方法、设备及介质 | |
CN111091472A (zh) | 数据处理方法、装置及设备 | |
CN109657852B (zh) | 一种基于大数据的保险业务处理方法及系统 | |
CN109460778B (zh) | 活动评估方法、装置、电子设备及存储介质 | |
KR20170034836A (ko) | 재무 정보 및 비재무 정보에 기초한 신용 평가 방법과 시스템 및 기록매체 | |
Eijkenaar et al. | Performance profiling in primary care: does the choice of statistical model matter? | |
Frimpong et al. | Effect of the Ghana National Health Insurance Scheme on exit time from catastrophic healthcare expenditure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |
|
RJ01 | Rejection of invention patent application after publication |