CN110992111A - 基于大数据的投保人用户画像挖掘方法 - Google Patents
基于大数据的投保人用户画像挖掘方法 Download PDFInfo
- Publication number
- CN110992111A CN110992111A CN201911303102.XA CN201911303102A CN110992111A CN 110992111 A CN110992111 A CN 110992111A CN 201911303102 A CN201911303102 A CN 201911303102A CN 110992111 A CN110992111 A CN 110992111A
- Authority
- CN
- China
- Prior art keywords
- data
- applicant
- user
- label
- insurance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 238000007405 data analysis Methods 0.000 claims abstract description 8
- 238000007418 data mining Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000007670 refining Methods 0.000 claims abstract description 3
- 238000002372 labelling Methods 0.000 claims description 16
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000012795 verification Methods 0.000 description 5
- 235000004936 Bromus mango Nutrition 0.000 description 4
- 241001093152 Mangifera Species 0.000 description 4
- 235000014826 Mangifera indica Nutrition 0.000 description 4
- 235000009184 Spondias indica Nutrition 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Business, Economics & Management (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的投保人用户画像挖掘方法,包括:对保险公司现有数据库里面的各维度数据,按照保险行业协会标准进行治理,让其符合行业标准和公司标准,并通过用户的身份证号或者保险号进行数据融合,打造成统一的数据中心;采集投保人授权访问系统的数据,通过投保人的身份证号码与数据中心的数据进行数据融合,形成投保人数据;把投保人数据分为三级标签体系;根据构建的难易程度和三级标签体系,创建优先级标签体系,投保人数据经过优先级标签体系不断细化为各个维度的数据;采用Spark Mllib对优先级标签体系中的投保人数据进行数据分析和挖掘;生成潜在投保人用户画像。本发明能准确有效地构建出潜在投保人用户画像。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及基于大数据的投保人用户画像挖掘方法。
背景技术
由于互联网和移动技术的发展,各种保险销售网站、手机APP软件成为了保险公司新的保费增长点。这种情况下,材料真实性验证难度较大,信息不对称性更为突出,机会型欺诈风险增加,异地出险的增加。对核保和核赔工作提出较高要求,容易出现保险服务流程衔接的空白。在传统保险销售过程中,销售人员与客户面对面地沟通,有一个了解客户和核实的过程。但是互联网+移动网络的发展让这个过程基本消失,核保部门失去了一道天然屏障,增加了风险控制的难度。保险公司为了有效的把控风险,提出建立精准的投保人用户画像,以确认是否存在潜在的风险。
发明内容
本发明的目的在于提供一种基于大数据的投保人用户画像挖掘方法,能准确有效地构建出潜在投保人用户画像。
实现上述目的的技术方案是:
一种基于大数据的投保人用户画像挖掘方法,包括:
对保险公司现有数据库里面的客户数据、保单数据、产品数据的各维度数据,按照保险行业协会标准进行治理,让其符合行业标准和公司标准,并通过用户的身份证号或者保险号进行数据融合,打造成统一的数据中心;
采集投保人授权访问系统的数据,通过投保人的身份证号码与数据中心的数据进行数据融合,形成投保人数据;
把投保人数据分为三级标签体系;
根据构建的难易程度和三级标签体系,创建优先级标签体系,按照保险代理人勾画出来的用户标签对投保人数据进行数据提炼,投保人数据经过优先级标签体系不断细化为各个维度的数据;
采用Spark Mllib对优先级标签体系中的投保人数据进行数据分析和挖掘;
生成潜在投保人用户画像。
优选的,还包括:
计算标签的准确率precision:
其中|Utag|表示被打上标签的用户数,|Utag=true|表示有标签用户中被打对标签的用户数;
计算标签覆盖的用户比例coverage:
其中,|U|表示用户数;
计算覆盖用户的人均标签数average:
其中,i为权重系数,tagi为有效潜在客户数;
根据标签的准确率precision、标签覆盖的用户比例coverage和覆盖用户的人均标签数average验证评估投保人用户画像的合理性和准确性。
优选的,三级标签体系结构如下:
一级标签:人口属性、行业偏好;
二级标签:从属于人口属性的基本属性和地理位置,从属于行业偏好的金融、旅游、房产和汽车;
三级标签:从属于基本属性的性别、年龄和学历。
优选的,按照事实标签到模型标签到高级标签的优先级,构建优先级标签体系,其结构如下:
事实标签:使用次数、活跃天数、历史趋势、投诉次数、资金流入流出、购买次数;
模型标签:人口属性、地理位置、行业兴趣、产品偏好、购买产品兴趣、活跃度;
高级标签:人群属性、潜在消失、消费能力。
优选的,用户标签包括:客户的年龄、偏爱的保险产品、地理位置和消费能力。
优选的,采用Spark Mllib中的LR、线性SVM算法对优先级标签体系中的投保人数据进行数据分析和挖掘,并采用AirFlow进行在线训练。
优选的,潜在投保人用户画像包括:潜在投保人的年龄段、性别、对于具体产品的兴趣度、偏爱度和城市的区域位置
本发明的有益效果是:本发明在通过大数据技术整理保险公司的内部数据资源的基础上,通过接入其他行业的数据(如客户的就医记录、其他保险公司的既往投保记录、客户授权保险公司查询的相关信息),构建出准确投保人的用户画像。能够针对保险对象保险标的展开全方位多维度的信息收集【例如所在区域(自然条件、地形地貌、自然灾害、地质灾害等)、隐患、事故、公估理赔、收入水平、信用评价等信息】,扩充关于客户的综合风险数据库,帮助保险公司核保人员掌握拟投保客户风险情况,精准核保,降低风险发生率,降低事故发生概率。利用大数据技术拥有的多种计算模型,对已经收集存储的风险相关数据进行数据挖掘隐藏在海量数据中的有用信息,发现并掌控潜在风险。传统核保规则统一设置,而且不够详细精确,无法针对各行各业的客户提供个性化服务,而大数据数字化平台的应用在客户管理方面能够更好地做到“因人而异”。通过对收集到的信息进行整理、分析、加工,建立客户信用评价体系,最终得出信用分数。对于信用较好的客户,可以适当简化投保核保工作流程,提高工作效率,降低核保成本。
附图说明
图1是本发明的基于大数据的投保人用户画像挖掘方法的流程图;
图2是本发明中三级标签体系的示意图;
图3是本发明中优先级标签体系的示意图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1,本发明的基于大数据的投保人用户画像挖掘方法,包括下列步骤:
步骤S1,保险公司的保险代理人勾画出客户的用户标签,如:客户的年龄、偏爱的保险产品、地理位置、消费能力等多维度信息。
步骤S2,对保险公司现有数据库里面的客户数据(如客户的姓名、身份证、家属信息、车辆号等信息),保单数据(如客户的保险信息、受益人信息、保单号等数据),产品数据(用户购买的保单产品名称、产品编号等数据),按照保险行业协会标准,对身份证号码、车牌号、保单号、产品编号等各维度数据治理,让其符合行业标准和公司标准,通过用户的身份证号或者保险号进行数据融合,打造成统一的高质量的数据中心。其中,治理保证高质量的数据,去除脏乱差等无效数据。
步骤S3,采集投保人授权访问系统的数据(如银行数据,医院数据等),通过投保人的身份证号码与步骤S2中数据中心的数据进行数据融合,形成投保人数据。
步骤S4,按照图2所示的三级标签体系把投保人数据分为三级标签体系。如:一级标签:人口属性、行业偏好;二级标签:从属于人口属性的基本属性和地理位置,从属于行业偏好的金融、旅游、房产和汽车;三级标签:从属于基本属性的性别、年龄和学历。
步骤S5,根据构建的难易程度和三级标签体系(各类标签的依存关系),创建如图3所示的优先级标签体系(事实标签->模型标签->高级标签的体系),按照保险代理人勾画出来的用户标签进行数据提炼(进行筛选,如优质客户的用户标签为:性别男,年龄33-45周岁,薪水:10K以上等),投保人数据通过每一层模型细化出一些不同维度的数据,为上一层提供数据分析支撑。例如:事实标签:使用次数(是指已有保险产品在保险公司,经常出现费用报销情况)、活跃天数、历史趋势、投诉次数、资金流入流出、购买次数;模型标签:人口属性、地理位置、行业兴趣、产品偏好、购买产品兴趣、活跃度;高级标签:人群属性、潜在消失(已有保险产品在保险公司,在报销过程中经常出现投诉情况)、消费能力。
步骤S6,采用Spark(是专为大规模数据处理而设计的快速通用的计算引擎)Mllib(机器学习“machine learning,ML”MLlib是Spark提供的可扩展的机器学习库)中的LR(逻辑回归)、线性SVM(支持向量机)算法对优先级标签体系中的投保人数据进行数据分析和挖掘,并采用AirFlow(一个可编程,调度和监控的工作流平台)进行在线训练。其中,数据分析指:根据优质投保人的特征用LR和SVM两个方法,对海量数据进行分析统计出优质投保人信息。就比如去菜市场里挑选芒果,从一堆芒果中拿出一个,根据果皮颜色、大小、软硬等属性或叫做特征,我们就会知道它甜还是不甜。
步骤S7,根据步骤S6中的数据分析和挖掘的方法生成潜在投保人用户画像,包含了潜在投保人的年龄段、性别、对于具体产品的兴趣度、偏爱度和城市的区域位置等关联数据。
步骤S8,潜在投保人准确率及其验证:标签的准确率precis ion指的是被打上正确标签的用户比例,准确率是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。验证方法采用如下公式:
其中|Utag|表示被打上标签的用户数,|Utag=true|表示有标签用户中被打对标签的用户数。
步骤S9,潜在投保人覆盖率及其验证:标签的覆盖率指的是被打上标签的用户占全量用户的比例,希望标签的覆盖率尽可能的高。但覆盖率和准确率是一对矛盾的指标,需要对二者进行权衡,一般的做法是在准确率符合一定标准的情况下,尽可能的提升覆盖率。希望覆盖尽可能多的用户,同时给每个用户打上尽可能多的标签,因此标签整体的覆盖率一般拆解为两个指标来评估。一个是标签覆盖的用户比例,另一个是覆盖用户的人均标签数,前一个指标是覆盖的广度,后一个指标表示覆盖的密度。
标签覆盖的用户比例coverage计算公式如下:
其中,|U|表示用户数。
覆盖用户的人均标签数average计算公式如下:
其中,i为权重系数,tagi为有效潜在客户数。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。
Claims (7)
1.一种基于大数据的投保人用户画像挖掘方法,其特征在于,包括:
对保险公司现有数据库里面的客户数据、保单数据、产品数据的各维度数据,按照保险行业协会标准进行治理,让其符合行业标准和公司标准,并通过用户的身份证号或者保险号进行数据融合,打造成统一的数据中心;
采集投保人授权访问系统的数据,通过投保人的身份证号码与数据中心的数据进行数据融合,形成投保人数据;
把投保人数据分为三级标签体系;
根据构建的难易程度和三级标签体系,创建优先级标签体系,按照保险代理人勾画出来的用户标签对投保人数据进行数据提炼,投保人数据经过优先级标签体系不断细化为各个维度的数据;
采用Spark Mllib对优先级标签体系中的投保人数据进行数据分析和挖掘;
生成潜在投保人用户画像。
3.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,三级标签体系结构如下:
一级标签:人口属性、行业偏好;
二级标签:从属于人口属性的基本属性和地理位置,从属于行业偏好的金融、旅游、房产和汽车;
三级标签:从属于基本属性的性别、年龄和学历。
4.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,按照事实标签到模型标签到高级标签的优先级,构建优先级标签体系,其结构如下:
事实标签:使用次数、活跃天数、历史趋势、投诉次数、资金流入流出、购买次数;
模型标签:人口属性、地理位置、行业兴趣、产品偏好、购买产品兴趣、活跃度;
高级标签:人群属性、潜在消失、消费能力。
5.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,用户标签包括:客户的年龄、偏爱的保险产品、地理位置和消费能力。
6.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,采用Spark Mllib中的LR、线性SVM算法对优先级标签体系中的投保人数据进行数据分析和挖掘,并采用AirFlow进行在线训练。
7.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,潜在投保人用户画像包括:潜在投保人的年龄段、性别、对于具体产品的兴趣度、偏爱度和城市的区域位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303102.XA CN110992111B (zh) | 2019-12-17 | 2019-12-17 | 基于大数据的投保人用户画像挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303102.XA CN110992111B (zh) | 2019-12-17 | 2019-12-17 | 基于大数据的投保人用户画像挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110992111A true CN110992111A (zh) | 2020-04-10 |
CN110992111B CN110992111B (zh) | 2024-02-27 |
Family
ID=70094985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303102.XA Active CN110992111B (zh) | 2019-12-17 | 2019-12-17 | 基于大数据的投保人用户画像挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992111B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666460A (zh) * | 2020-05-27 | 2020-09-15 | 中国平安财产保险股份有限公司 | 基于隐私保护的用户画像生成方法、装置及存储介质 |
CN111882445A (zh) * | 2020-07-24 | 2020-11-03 | 前海人寿保险股份有限公司 | 跨系统保险用户信息管理方法、装置、设备及可读介质 |
CN112488845A (zh) * | 2020-11-16 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种投保客户的筛选方法、装置、电子设备及存储介质 |
CN113269249A (zh) * | 2021-05-25 | 2021-08-17 | 广东技术师范大学 | 一种基于深度学习的多数据源人物画像构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018160092A1 (ru) * | 2017-03-01 | 2018-09-07 | Общество с ограниченной ответственностью "Рилейшн Рейт" | Способ построения портрета клиента |
CN109063945A (zh) * | 2018-06-08 | 2018-12-21 | 广州亦云信息技术股份有限公司 | 一种基于价值评估体系的售电公司360度客户画像构建方法 |
CN110288484A (zh) * | 2019-04-02 | 2019-09-27 | 上海瀚之友信息技术服务有限公司 | 一种基于大数据平台的保险分类的用户推荐方法及系统 |
CN110490729A (zh) * | 2019-08-16 | 2019-11-22 | 南京汇银迅信息技术有限公司 | 一种基于用户画像模型的金融用户分类方法 |
-
2019
- 2019-12-17 CN CN201911303102.XA patent/CN110992111B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018160092A1 (ru) * | 2017-03-01 | 2018-09-07 | Общество с ограниченной ответственностью "Рилейшн Рейт" | Способ построения портрета клиента |
CN109063945A (zh) * | 2018-06-08 | 2018-12-21 | 广州亦云信息技术股份有限公司 | 一种基于价值评估体系的售电公司360度客户画像构建方法 |
CN110288484A (zh) * | 2019-04-02 | 2019-09-27 | 上海瀚之友信息技术服务有限公司 | 一种基于大数据平台的保险分类的用户推荐方法及系统 |
CN110490729A (zh) * | 2019-08-16 | 2019-11-22 | 南京汇银迅信息技术有限公司 | 一种基于用户画像模型的金融用户分类方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666460A (zh) * | 2020-05-27 | 2020-09-15 | 中国平安财产保险股份有限公司 | 基于隐私保护的用户画像生成方法、装置及存储介质 |
CN111882445A (zh) * | 2020-07-24 | 2020-11-03 | 前海人寿保险股份有限公司 | 跨系统保险用户信息管理方法、装置、设备及可读介质 |
CN112488845A (zh) * | 2020-11-16 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种投保客户的筛选方法、装置、电子设备及存储介质 |
CN112488845B (zh) * | 2020-11-16 | 2024-05-28 | 中国人寿保险股份有限公司 | 一种投保客户的筛选方法、装置、电子设备及存储介质 |
CN113269249A (zh) * | 2021-05-25 | 2021-08-17 | 广东技术师范大学 | 一种基于深度学习的多数据源人物画像构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110992111B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490729B (zh) | 一种基于用户画像模型的金融用户分类方法 | |
CN110992111B (zh) | 基于大数据的投保人用户画像挖掘方法 | |
Tufféry | Data mining and statistics for decision making | |
Purtova | Property rights in personal data: A European perspective | |
CN110892442A (zh) | 用于自适应评分以检测商务卡的误用或滥用的系统、方法和设备 | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
Tsai et al. | Customer segmentation issues and strategies for an automobile dealership with two clustering techniques | |
CN107038237A (zh) | 基于大数据的用户画像系统及画像方法 | |
CN110704572A (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
CN103678659A (zh) | 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统 | |
CN109285092A (zh) | 网上房地产信息提供系统,房地产放心交易服务提供系统 | |
Buchanan et al. | The efficacy of utilising Nvivo for interview data from the electronic gaming industry in two jurisdictions | |
Kholidah et al. | A Bibliometric mapping of peer-to-peer lending research based on economic and business perspective | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
Hashemian et al. | Socioeconomic characterization of regions through the lens of individual financial transactions | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
Umamaheswari et al. | Role of data mining in insurance industry | |
CN110222180A (zh) | 一种文本数据分类与信息挖掘方法 | |
Hasheminejad et al. | Clustering of bank customers based on lifetime value using data mining methods | |
KR20200054533A (ko) | 재무성향진단을 포함하는 맞춤상품추천 시스템 | |
Srivastava et al. | Hyperautomation in transforming underwriting operation in the life insurance industry | |
CN115204881A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN108428156A (zh) | 网购用户买假指数模型的生成方法及系统 | |
Rezaeinia et al. | An integrated AHP-RFM method to banking customer segmentation | |
KR102710397B1 (ko) | 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |