CN114417183B - 基于大数据汇总的保险产品智能营销方法与系统 - Google Patents

基于大数据汇总的保险产品智能营销方法与系统 Download PDF

Info

Publication number
CN114417183B
CN114417183B CN202210244454.8A CN202210244454A CN114417183B CN 114417183 B CN114417183 B CN 114417183B CN 202210244454 A CN202210244454 A CN 202210244454A CN 114417183 B CN114417183 B CN 114417183B
Authority
CN
China
Prior art keywords
initial
insurance product
data
user
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210244454.8A
Other languages
English (en)
Other versions
CN114417183A (zh
Inventor
冯佳茵
童燕群
晁晓娟
郭佑存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youquan Zhihui Information Technology Co ltd
Original Assignee
Beijing Youquan Zhihui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youquan Zhihui Information Technology Co ltd filed Critical Beijing Youquan Zhihui Information Technology Co ltd
Priority to CN202210244454.8A priority Critical patent/CN114417183B/zh
Publication of CN114417183A publication Critical patent/CN114417183A/zh
Application granted granted Critical
Publication of CN114417183B publication Critical patent/CN114417183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种基于大数据汇总的保险产品智能营销方法与系统,该基于大数据汇总的保险产品智能营销的方法,包括:中心云获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;将所述初始关联数据集再次进行遍历,获取最终关联数据集;将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;将所述拟推荐保险产品信息推荐给最终用户。

Description

基于大数据汇总的保险产品智能营销方法与系统
技术领域
本申请涉及信息技术领域,尤其涉及基于大数据汇总的保险产品智能营销方法与系统。
背景技术
保险产品是保险公司为市场提供的有形产品和无形服务的综合体。保险产品在狭义上是指由保险公司创造、可供客户选择在保险市场进行交易的金融工具;在广义上是指保险公司向市场提供并可由客户取得、利用或消费的一切产品和服务,都属于保险产品服务的范畴。
进一步讲,保险产品是由保险人提供给保险市场的,能够引起人们注意、购买,从而满足人们减少风险和转移风险,必要时能得到一定的经济补偿需要的承诺性组合。从营销学的角度讲,保险产品包括保险合同和相关服务的全过程。
保险产品的这个定义有4层意思:能引起人们注意和购买;能转移风险;能提供一定的经济补偿;是一种承诺性服务组合。因此,保险产品的真正含义是满足消费者保障与补偿的需要。保险产品保障被保险人在发生不幸事故时仍能拥有生活下去的基本条件,并能使人们以最小的代价获得最大的经济补偿。
随着人们生活水平的不断提高和思想意识的不断进步,越来越多的人具有了投保意识,并主动选择购买相应类型的保险,比如健康险、财产险等。
目前智能营销推荐中,会根据保单用户的浏览、搜索、购买行为为用户推荐相同类目的保险及相似产品,例如用户购买了某健康险,会向其推荐其他险种,但实际情况很可能是用户购买该险种后对同类险种都没有购买的必要,因此跨类目的多样性保险产品推荐对于保险营销具有重要意义。
然而,在现有的保险产品推荐机制中,针对用户并进行保险产品推荐的复购率并不高,保险产品的推荐并没有考虑到该类型用户的实际情况,其推荐精细化程度不够,导致保险产品推荐的成功率低,成效差。
发明内容
技术中保险产品推荐不够精细化,导致推荐成功率低下的问题。
本发明实施例提供一种基于大数据汇总的保险产品智能营销的方法,包括:
中心云获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;
对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;
将所述初始关联数据集再次进行遍历,获取最终关联数据集;
将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;
设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;
将所述拟推荐保险产品信息推荐给最终用户。
可选地,所述对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息,包括:
设置初始最小支持度,通过Eclat算法对所述多个保单数据集进行关联数据集遍历,输出满足所述初始最小支持度的初始关联数据集;
获取所述初始关联数据集中的初始保险产品ID,并获取所述初始保险产品ID对应的初始用户ID。
可选地,将所述初始关联数据集再次进行遍历,获取最终关联数据集,包括:
将所述初始关联数据进行从水平数据表转化为垂直数据表;
设置最终最小支持度,通过Eclat算法对所述垂直数据表进行关联数据集遍历,输出满足所述最终最小支持度的最终关联数据集。
可选地,所述设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息,包括:
基于所述初始用户的社交属性,获取所述初始用户的关联用户集;
将所述初始用户的关联用户集按照预定策略进行树形排列,形成所述初始用户的社交关联树,其中,所述初始用户位于所述社交关联树的根节点,所述关联用户按照关联度划分为N级,分别分布在所述社交关联树的N级叶子节点中;
基于预设筛选规则,从所述社交关联树种筛选出最终用户信息。
可选地,所述基于预设筛选规则,从所述社交关联树种筛选出最终用户信息,包括:
基于所述关联度,将所述关联用户集中的多个关联用户进行冒泡排序,获取所述排名靠前的若干名关联用户;
获取将所述若干名关联用户与所述初始用户的欧式距离,选取所述欧式距离在阈值范围内的多个关联用户作为最终用户,获取所述最终用户信息。
可选地,所述初始最小支持度为2,则所述设置初始最小支持度,通过Eclat算法对所述多个保单数据集进行关联数据集遍历,输出满足所述初始最小支持度的初始关联数据集,包括:
获取候选1-项集对应的多元数组;
对所述候选1-项集进行过滤,过滤掉所述候选1-项集对应的多元数组中支持度小于最小支持度的多元数组;
对过滤之后的候选1-项集求取两两之间的并集,获取候选频繁2-项集;
通过cross算子求取两两之间初始用户ID的交集,获取到所述每个候选频繁2-项集对应的初始用户ID集合;
对所述候选2-项集进行过滤,过滤掉所述候选2-项集对应的多元数组中支持度小于最小支持度的多元数组;
迭代求取频繁K-项集,直到关联数据集或候选项集不存在;
获取所有的满足所述初始最小支持度的关联数据集,所述所有的满足所述初始最小支持度的关联数据集为初始关联数据集。
可选地,所述方法还包括:
将所述最终保险产品ID与所述最终保险产品的保险生效地域进行关联,生成第三数据表;
设置第三最小支持度,通过Eclat算法对所述输入数据进行关联数据集遍历,输出满足所述第三最小支持度的第三关联数据集;
获取所述第三关联数据集中的所述第三保险产品;
将所述第三保险产品推荐给所述最终用户。
可选地,所述中心云获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集,包括:
扫描一次保险产品数据库,获取所述保险产品数据;
通过滑动时间窗口方式将所述保险产品数据进行拆分,并按照保单时间进行排序,以生成多个保单数据集。
本发明实施例还提供一种基于大数据汇总的保险产品智能营销系统,所述系统包括:
获取单元,用于获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;
遍历单元,用于对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;
所述遍历单元,还用于将所述初始关联数据集再次进行遍历,获取最终关联数据集;
筛选单元,用于将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;
确定单元,用于设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;
推荐单元,用于将所述拟推荐保险产品信息推荐给最终用户。
本发明实施例还提供一种基于大数据汇总的保险产品智能营销系统,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。
本发明实施例提供的基于大数据汇总的保险产品智能营销方法与系统,通过对所述多个保单数据集进行关联数据集的两次遍历,获取最终关联数据集,并通过初始用户的社交关联树获取到最终用户,将拟推荐保险产品精细化推送给最终用户,提升了保险产品推荐系统的精确度,提高了保险推荐的成功率和复购率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为一个实施例中基于大数据汇总的保险产品智能营销的方法流程图;
图2为一个实施例中滑动时间窗口示意图;
图3为一个实施例中的基于大数据汇总的保险产品智能营销系统组成结构图;
图4为一个实施例中系统的硬件组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本发明实施例中基于大数据汇总的保险产品智能营销的方法流程图,如图1所示,该方法包括:
S101.中心云获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;
中心云获取保险产品关联数据,该保险产品关联数据中包括了不同的保险产品标识(ID)及购买了该保险产品的用户ID,保险产品关联数据可以为如下格式:
表1
Figure DEST_PATH_IMAGE002A
其中,数字1-5表示5个不同的用户ID,保险产品1-保险产品6分别表示不同的保险产品ID,其中,用户1买的保险产品为保险产品1,保险产品2,保险产品3,保险产品4,保险产品5,用户2购买的保险产品为保险产品1,保险产品3,保险产品4...本领域技术人员可以理解的是,1-5,保险产品1-6只是示例,在实际的数据库中用户ID和保险产品ID通常较为复杂。
其中,所述中心云获取保险产品关联数据,具体可以扫描一次保险产品数据库,并通过滑动窗口方式生成保险产品关联数据,并按照保单时间进行排序,以生成多个保单数据集。如图2所示,滑动窗口的步长为s,W为时间窗口的长度,保险产品1-保险产品6分别标识不同保险产品ID,每当滑动一次时间窗口,都会获取保险产品ID与购买用户ID匹配的记录。
S102.对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;
在本发明实施例中,拟采用Eclat算法输出关联数据集,该算法需要使用垂直数据表。因此,再进行保单数据集的关联数据集遍历之前,需要将水平数据表转换为垂直数据表。
Apriori算法和FP-growth算法都是从TID项集格式(即{TID:itemset})的事务集中遍历频繁模式,其中TID可以为用户标识符,而itemset则是事务TID中购买的保险产品。这种数据格式称为水平数据格式。或者,数据也可以用项-TID集格式(即{item:TID_set})表示,其中item是项的名称,而TIDb_set是包含item的事务的标识符集合。这种格式称为垂直数据格式。
在本发明实施例中,通过对表1的一次扫描,即可将水平数据表转化为垂直数据表,垂直数据表如表2所示:
表2
Figure DEST_PATH_IMAGE004
垂直数据表中,左列是保险产品I保险产品4,右列是用户ID,其对应关系为:购买了保险产品1的用户有2,1,3,购买了保险产品2的用户2,5,4...
在本发明实施例中,Eclat算法是利用垂直数据格式有效遍历关联数据集,该算法最大的特点便是倒排思想,也就是生成一个统计每一个项在哪些事务中出现过的倒排表,表中的每一行由项和它对应的TID集组成,TID集即包含此项目的所有事务的集合。
Eclat算法遍历关联数据集的过程如下:(1)通过扫描一次数据集,把水平格式的数据转换成垂直格式;(2)项集的支持度计数简单地等于项集的TID集的长度;(3)从k=1开始,可以根据先验性质,使用频繁k项集来构造候选(k+1)项集;(4)通过取频繁k项集的TID集的交,计算对应的(k+1)项集的TID集。(5)重复该过程,每次k增加1,直到不能再找到关联数据集或候选项集。 Eclat算法产生候选项集的理论基础是:频繁K-项集可以通过或运算生成候选的K+1-项集,频繁K-项集中的项是按照字典序排列,并且进行或运算的频繁K-项集的前K-1个项是完全相同的。Eclat算法除了在产生候选(k+1)项集时利用先验性质外,另一个优点是不需要扫描数据库来确定(k+1)项集的支持度(k>=1),这是因为每个k项集的TID集携带了计算支持度的完整信息。
具体地,Eclat算法加入了倒排的思想,具体就是将事务数据中的项作为key,每个项对应的事务ID作为value。只需对数据进行一次扫描,算法的运行效率会很高。
其中,Ecalt算法的过程还可以为:
通过扫描一次数据集,把水平格式的数据转换成垂直格式;
利用项集的支持度计数简单地等于项集的TID集的长度;
从k=1开始,可以根据先验性质,使用频繁k项集来构造候选(k+1)项集;
通过取频繁k项集的TID集的交,计算对应的(k+1)项集的TID集。
重复该过程,每次k增加1,直到不能再找到频繁项集或候选项集.
当前的保险产品推荐保险产品关联规则遍历算法大多使用集中式架构和串行计算模式,随着大数据时代的到来,集中式架构和串行计算模式已经无法满足海量保险产品关联数据的处理需求,从而限制了传统保险产品推荐保险产品关联遍历算法在大数据场景下的使用。为了解决大数据场景下保险产品推荐保险产品关联规则遍历效率低下的问题,一些基于Hadoop等分布式计算框架的保险产品推荐保险产品关联遍历算法通过构建数据集的分块索引,利用分而治之的思想,提高了保险产品推荐保险产品关联规则的遍历效率,但是,在更新数据量较大的情况下,这些方法仍然会产生大量的I/O操作,进而影响运行效率。
在关联规则算法层面,本发明实施例选择具有垂直数据库表示形式的Eclat算法来代替传统的Apriori算法和FP-Growth算法,用作保险产品推荐保险产品关联关联规则的遍历算法。该算法只需扫描一次数据保险产品关联事务数据库,并通过集合交集操作来得到候选关联数据集,与传统关联规则算法相比,效率提升明显。
补充说明:Apriori算法是种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。Apriori算法已经被广泛的应用到商业、网络安全等各个领域。Apriori算法采用了逐层搜索的迭代的方法,算法简单明了,没有复杂的理论推导,也易于实现。但其有一些难以克服的缺点:对数据库的扫描次数过多。Apriori算法会产生大量的中间项集。采用唯一支持度。算法的适应面窄。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方法。
补充说明:Apriori算法在产生频繁模式完全集前需要对数据库进行多次扫描,同时产生大量的候选频繁集,这就使Apriori算法时间和空间复杂度较大。但是Apriori算法中有一个很重要的性质:频繁项集的所有非空子集都必须也是频繁的。但是Apriori算法在挖掘额长频繁模式的时候性能往往低下,Jiawei Han提出了FP-Growth算法。基本思路:不断地迭代FP-tree的构造和投影过程算法描述如下:1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为空,或者只包含一条路径。3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。
具体地,在本发明实施例中,若初始最小支持度为2,则S102具体为:
S1021、在Flink框架中,通过HDFS中读取初始垂直数据表,获取候选1-项集对应的多元数组,所述多元数组包括两个字段,分别是初始保险产品ID和初始用户ID;
S1022、对所述候选1-项集进行过滤,过滤掉所述候选1-项集对应的多元数组中支持度小于最小支持度的多元数组;
S1023、对过滤之后的候选1-项集求取两两之间的并集,获取候选频繁2-项集;
S1024、通过cross算子求取两两之间初始用户ID的交集,获取到所述每个候选频繁2-项集对应的初始用户ID集合;
其中,Cross算子用于构建两个输入的笛卡尔积,在Flink集群模式下可以高效的完成计算密集型的交叉乘积运算。
如表3所示
表3
Figure DEST_PATH_IMAGE005
其中,{a,e}、{a,f}、{b,e}、{c,e}和{e,f}的最小支持度低于2,需要排除。项集取并集,TID-集取交集。
S1025、对所述候选2-项集进行过滤,过滤掉所述候选2-项集对应的多元数组中支持度小于最小支持度的多元数组;
S1026、迭代求取频繁K-项集,直到关联数据集或候选项集不存在;
表4是频繁3-项集,如表4所示:
表4
项集 TID-集
{a,b,c} {1,4}
{b,c,d} {2,3}
{b,c,f} {3,4}
S1027、获取所有的满足所述初始最小支持度的关联数据集,所述所有的满足所述初始最小支持度的关联数据集为初始关联数据集。
获取表3和表4中满足最小支持度为2(TID-集数组大于等于2)的所有关联数据集,该关联数据集的集合即为初始关联数据集。
S103.将所述初始关联数据集再次进行遍历,获取最终关联数据集;
相应地,S103的具体执行过程与S102类似,本发明实施例不再累述。其中,S103与S102不同点在于输出的是最终关联数据集,而不是初始关联数据集,这是由于需要筛选出初始用户复购的保险产品(即大于1种保险产品),认定其复购的保险产品是高频且刚需,且适合进行产品推广。因此,这样做的意义在于:对初始保险产品进行二次(漏斗式)筛选,既要保证初始用户购买了该初始保险产品,也要保证初始用户复购该初始保险产品,适合进行初始用户的关联关系人推荐。
可选地,将所述初始关联数据集再次进行遍历,获取最终关联数据集,包括:
将所述初始关联数据进行从水平数据表转化为垂直数据表;
设置最终最小支持度,通过Eclat算法对所述垂直数据表进行关联数据集遍历,输出满足所述最终最小支持度的最终关联数据集。
S104.将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;
S105.设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;
其中,所述设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息,具体可以为:
基于所述初始用户的社交属性,获取所述初始用户的关联用户集;其中,社交属性可以是用户的亲戚、好友等社交属性,社交属性的获取可以通过第三方平台对用户的好友/通信录等信息进行读取获取。
将所述初始用户的关联用户集按照预定策略进行树形排列,形成所述初始用户的社交关联树,其中,所述初始用户位于所述社交关联树的根节点,所述关联用户按照关联度划分为N级,分别分布在所述社交关联树的N级叶子节点中;
其中,树形结构指的是数据元素之间存在着“一对多”的树形关系的数据结构,是一类重要的非线性数据结构。在树形结构中,树根结点没有前驱结点,其余每个结点有且只有一个前驱结点。叶子结点没有后续结点,其余每个结点的后续节点数可以是一个也可以是多个。另外,数学统计中的树形结构可表示层次关系。树形结构在其他许多方面也有应用。可表示从属关系、并列关系。树形结构包括如下定义:
1、结点(Node):表示树中的数据元素,由数据项和数据元素之间的关系组成。2、结点的度(Degree of Node):结点所拥有的子树的个数。3、树的度(Degree of Tree):树中各结点度的最大值。4、叶子结点(Leaf Node):度为0的结点,也叫终端结点。5、分支结点(Branch Node):度不为0的结点,也叫非终端结点或内部结点。6、孩子(Child):结点子树的根。7、双亲(Parent):结点的上层结点叫该结点的双亲。在图中,结点B、C、D的双亲是结点A。8、祖先(Ancestor):从根到该结点所经分支上的所有结点。9、子孙(Descendant):以某结点为根的子树中的任一结点。10、兄弟(Brother):同一双亲的孩子。11、结点的层次(Level ofNode):从根结点到树中某结点所经路径上的分支数称为该结点的层次。根结点的层次规定为1,其余结点的层次等于其双亲结点的层次加1。12、堂兄弟(Sibling):同一层的双亲不同的结点。13、树的深度(Depth of Tree):树中结点的最大层次数。14、无序树(UnorderedTree):树中任意一个结点的各孩子结点之间的次序构成无关紧要的树。通常树指无序树。15、有序树(Ordered Tree):树中任意一个结点的各孩子结点有严格排列次序的树。二叉树是有序树,因为二叉树中每个孩子结点都确切定义为是该结点的左孩子结点还是右孩子结点。 16、森林(Forest):m(m≥0)棵树的集合。自然界中的树和森林的概念差别很大,但在数据结构中树和森林的概念差别很小。从定义可知,一棵树有根结点和m个子树构成,若把树的根结点删除,则树变成了包含m棵树的森林。当然,根据定义,一棵树也可以称为森林。
基于预设筛选规则,从所述社交关联树种筛选出最终用户信息。其中,预设筛选规则可以是按照所属地进行筛选,例如筛选出同处于北京市的用户为最终用户。或者按照其他维度进行筛选,例如兴趣爱好、收入等。
此外,所述基于预设筛选规则,从所述社交关联树种筛选出最终用户信息,包括:
基于所述关联度,将所述关联用户集中的多个关联用户进行冒泡排序,获取所述排名靠前的若干名关联用户;关联度表示初始用户与关联用户的关联程度,可以用树形结构中的叶子节点层级来表示,例如,处于第一级的关联度最大,第二级、第三级的关联度依次递减。
获取将所述若干名关联用户与所述初始用户的欧式距离,选取所述欧式距离在阈值范围内的多个关联用户作为最终用户,获取所述最终用户信息。其中,欧式距离表示物理位置中,两点之间最短的直线距离,阈值可以人为设定,例如5km范围之内。
S106.将所述拟推荐保险产品信息推荐给最终用户。
此外,在本发明实施例中,所述方法还包括:
将所述最终保险产品ID与所述最终保险产品的保险生效地域进行关联,生成第三数据表;
设置第三最小支持度,通过Eclat算法对所述输入数据进行关联数据集遍历,输出满足所述第三最小支持度的第三关联数据集;
获取所述第三关联数据集中的所述第三保险产品;
将所述第三保险产品推荐给所述最终用户。
本发明实施例提供的基于大数据汇总的保险产品智能营销方法,通过对所述多个保单数据集进行关联数据集的两次遍历,获取最终关联数据集,并通过初始用户的社交关联树获取到最终用户,将拟推荐保险产品精细化推送给最终用户,提升了保险产品推荐系统的精确度,提高了保险推荐的成功率和复购率。
如图3所示,本发明实施例还提供一种基于大数据汇总的保险产品智能营销系统,所述系统包括:
获取单元31,用于获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;
获取单元31获取保险产品关联数据,该保险产品关联数据中包括了不同的保险产品标识(ID)及购买了该保险产品的用户ID,保险产品关联数据可以为如下格式:
表5
用户ID 保险产品种类
1 保险产品1,保险产品2,保险产品3,保险产品4,保险产品5
2 保险产品1,保险产品3,保险产品4
3 保险产品2,保险产品3,保险产品4,保险产品6
4 保险产品1,保险产品2,保险产品3,保险产品6
5 保险产品4,保险产品5,保险产品6
其中,数字1-5表示5个不同的用户ID,保险产品1-保险产品6分别表示不同的保险产品ID,其中,用户1买的保险产品为保险产品1,保险产品2,保险产品3,保险产品4,保险产品5,用户2购买的保险产品为保险产品1,保险产品3,保险产品4...本领域技术人员可以理解的是,1-5,保险产品1-6只是示例,在实际的数据库中用户ID和保险产品ID通常较为复杂。
其中,所述中心云获取保险产品关联数据,具体可以扫描一次保险产品数据库,并通过滑动窗口方式生成保险产品关联数据,并按照保单时间进行排序,以生成多个保单数据集。如图2所示,滑动窗口的步长为s,W为时间窗口的长度,保险产品1-保险产品6代号分别定义为a-f,分别标识不同保险产品ID,每当滑动一次时间窗口,都会获取保险产品ID与购买用户ID匹配的记录。
遍历单元32,用于对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;
具体地,可查看上述实施例S102的处理过程,本发明实施例不再累述。
所述遍历单元32,还用于将所述初始关联数据集再次进行遍历,获取最终关联数据集;
筛选单元33,用于将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;
确定单元34,用于设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;
其中,确定单元34用于设置所述初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息,具体可以为:
基于所述初始用户的社交属性,获取所述初始用户的关联用户集;其中,社交属性可以是用户的亲戚、好友等社交属性,社交属性的获取可以通过第三方平台对用户的好友/通信录等信息进行读取获取。
将所述初始用户的关联用户集按照预定策略进行树形排列,形成所述初始用户的社交关联树,其中,所述初始用户位于所述社交关联树的根节点,所述关联用户按照关联度划分为N级,分别分布在所述社交关联树的N级叶子节点中;
其中,树形结构指的是数据元素之间存在着“一对多”的树形关系的数据结构,是一类重要的非线性数据结构。在树形结构中,树根结点没有前驱结点,其余每个结点有且只有一个前驱结点。叶子结点没有后续结点,其余每个结点的后续节点数可以是一个也可以是多个。另外,数学统计中的树形结构可表示层次关系。树形结构在其他许多方面也有应用。可表示从属关系、并列关系。树形结构包括如下定义:
1、结点(Node):表示树中的数据元素,由数据项和数据元素之间的关系组成。2、结点的度(Degree of Node):结点所拥有的子树的个数。3、树的度(Degree of Tree):树中各结点度的最大值。4、叶子结点(Leaf Node):度为0的结点,也叫终端结点。5、分支结点(Branch Node):度不为0的结点,也叫非终端结点或内部结点。6、孩子(Child):结点子树的根。7、双亲(Parent):结点的上层结点叫该结点的双亲。在图中,结点B、C、D的双亲是结点A。8、祖先(Ancestor):从根到该结点所经分支上的所有结点。9、子孙(Descendant):以某结点为根的子树中的任一结点。10、兄弟(Brother):同一双亲的孩子。11、结点的层次(Level ofNode):从根结点到树中某结点所经路径上的分支数称为该结点的层次。根结点的层次规定为1,其余结点的层次等于其双亲结点的层次加1。12、堂兄弟(Sibling):同一层的双亲不同的结点。13、树的深度(Depth of Tree):树中结点的最大层次数。14、无序树(UnorderedTree):树中任意一个结点的各孩子结点之间的次序构成无关紧要的树。通常树指无序树。15、有序树(Ordered Tree):树中任意一个结点的各孩子结点有严格排列次序的树。二叉树是有序树,因为二叉树中每个孩子结点都确切定义为是该结点的左孩子结点还是右孩子结点。 16、森林(Forest):m(m≥0)棵树的集合。自然界中的树和森林的概念差别很大,但在数据结构中树和森林的概念差别很小。从定义可知,一棵树有根结点和m个子树构成,若把树的根结点删除,则树变成了包含m棵树的森林。当然,根据定义,一棵树也可以称为森林。
基于预设筛选规则,从所述社交关联树种筛选出最终用户信息。其中,预设筛选规则可以是按照所属地进行筛选,例如筛选出同处于北京市的用户为最终用户。或者按照其他维度进行筛选,例如兴趣爱好、收入等。
此外,所述基于预设筛选规则,从所述社交关联树种筛选出最终用户信息,包括:
基于所述关联度,将所述关联用户集中的多个关联用户进行冒泡排序,获取所述排名靠前的若干名关联用户;关联度表示初始用户与关联用户的关联程度,可以用树形结构中的叶子节点层级来表示,例如,处于第一级的关联度最大,第二级、第三级的关联度依次递减。
获取将所述若干名关联用户与所述初始用户的欧式距离,选取所述欧式距离在阈值范围内的多个关联用户作为最终用户,获取所述最终用户信息。其中,欧式距离表示物理位置中,两点之间最短的直线距离,阈值可以人为设定,例如5km范围之内。
推荐单元35,用于将所述拟推荐保险产品信息推荐给最终用户。
本发明实施例还提供一种基于大数据汇总的保险产品智能营销系统,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。
图4为一个实施例中系统的硬件组成示意图。可以理解的是,图4仅仅示出了系统的简化设计。在实际应用中,系统还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等,而所有可以实现本申请实施例的大数据管理方法的系统都在本申请的保护范围之内。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read至only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read至only memory,CD至ROM),该存储器用于相关指令及数据。
输入系统用于输入数据和/或信号,以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk ,SSD)等。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种基于大数据汇总的保险产品智能营销方法,其特征在于,包括:
中心云获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;
对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;
将所述初始关联数据集再次进行遍历,获取最终关联数据集;
将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;
设置初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;
将所述拟推荐保险产品信息推荐给最终用户;
将所述初始关联数据集再次进行遍历,获取最终关联数据集,包括:
将所述初始关联数据集进行从水平数据表转化为垂直数据表;
设置最终最小支持度,通过Eclat算法对所述垂直数据表进行关联数据集遍历,输出满足所述最终最小支持度的最终关联数据集;
所述设置初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息,包括:
基于所述初始用户的社交属性,获取所述初始用户的关联用户集;
将所述初始用户的关联用户集按照预定策略进行树形排列,形成所述初始用户的社交关联树,其中,所述初始用户位于所述社交关联树的根节点,所述关联用户按照关联度划分为N级,分别分布在所述社交关联树的N级叶子节点中;
基于预设筛选规则,从所述社交关联树中筛选出最终用户信息;
所述基于预设筛选规则,从所述社交关联树中筛选出最终用户信息,包括:
基于所述关联度,将所述关联用户集中的多个关联用户进行冒泡排序,获取排名靠前的若干名关联用户;
获取将所述若干名关联用户与所述初始用户的欧式距离,选取所述欧式距离在阈值范围内的多个关联用户作为最终用户,获取所述最终用户信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息,包括:
设置初始最小支持度,通过Eclat算法对所述多个保单数据集进行关联数据集遍历,输出满足所述初始最小支持度的初始关联数据集;
获取所述初始关联数据集中的初始保险产品ID,并获取所述初始保险产品ID对应的初始用户ID。
3.根据权利要求2所述的方法,其特征在于,所述初始最小支持度为2,则所述设置初始最小支持度,通过Eclat算法对所述多个保单数据集进行关联数据集遍历,输出满足所述初始最小支持度的初始关联数据集,包括:
获取候选1-项集对应的多元数组;
对所述候选1-项集进行过滤,过滤掉所述候选1-项集对应的多元数组中支持度小于最小支持度的多元数组;
对过滤之后的候选1-项集求取两两之间的并集,获取候选2-项集;
通过cross算子求取两两之间初始用户ID的交集,获取到每个所述候选2-项集对应的初始用户ID集合;
对所述候选2-项集进行过滤,过滤掉所述候选2-项集对应的多元数组中支持度小于最小支持度的多元数组;
迭代求取候选K-项集,直到关联数据集或候选项集不存在;
获取所有的满足所述初始最小支持度的关联数据集,所述所有的满足所述初始最小支持度的关联数据集为初始关联数据集。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将最终保险产品ID与最终保险产品的保险生效地域进行关联,生成第三数据表;
设置第三最小支持度,通过Eclat算法对输入数据进行关联数据集遍历,输出满足所述第三最小支持度的第三关联数据集;
获取所述第三关联数据集中的第三保险产品;
将所述第三保险产品推荐给所述最终用户。
5.根据权利要求1所述的方法,其特征在于,所述中心云获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集,包括:
扫描一次保险产品数据库,获取所述保险产品数据;
通过滑动时间窗口方式将所述保险产品数据进行拆分,并按照保单时间进行排序,以生成多个保单数据集。
6.一种基于大数据汇总的保险产品智能营销系统,其特征在于,所述系统包括:
获取单元,用于获取保险产品数据,并将所述保险产品数据拆分为多个保单数据集;
遍历单元,用于对所述多个保单数据集进行关联数据集的遍历,输出一个或多个初始关联数据集及对应的初始用户信息;
所述遍历单元,还用于将所述初始关联数据集再次进行遍历,获取最终关联数据集;
筛选单元,用于将所述最终关联数据集进行筛选,获取拟推荐保险产品信息;
确定单元,用于设置初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息;
推荐单元,用于将所述拟推荐保险产品信息推荐给最终用户;
将所述初始关联数据集再次进行遍历,获取最终关联数据集,包括:
将所述初始关联数据集进行从水平数据表转化为垂直数据表;
设置最终最小支持度,通过Eclat算法对所述垂直数据表进行关联数据集遍历,输出满足所述最终最小支持度的最终关联数据集;
所述设置初始用户的社交关联树,并基于所述社交关联树,确定与所述初始用户存在社交关联关系的最终用户信息,包括:
基于所述初始用户的社交属性,获取所述初始用户的关联用户集;
将所述初始用户的关联用户集按照预定策略进行树形排列,形成所述初始用户的社交关联树,其中,所述初始用户位于所述社交关联树的根节点,所述关联用户按照关联度划分为N级,分别分布在所述社交关联树的N级叶子节点中;
基于预设筛选规则,从所述社交关联树中筛选出最终用户信息;
所述基于预设筛选规则,从所述社交关联树中筛选出最终用户信息,包括:
基于所述关联度,将所述关联用户集中的多个关联用户进行冒泡排序,获取排名靠前的若干名关联用户;
获取将所述若干名关联用户与所述初始用户的欧式距离,选取所述欧式距离在阈值范围内的多个关联用户作为最终用户,获取所述最终用户信息。
7.一种基于大数据汇总的保险产品智能营销系统,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至5任一项所述的方法。
CN202210244454.8A 2022-03-14 2022-03-14 基于大数据汇总的保险产品智能营销方法与系统 Active CN114417183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210244454.8A CN114417183B (zh) 2022-03-14 2022-03-14 基于大数据汇总的保险产品智能营销方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210244454.8A CN114417183B (zh) 2022-03-14 2022-03-14 基于大数据汇总的保险产品智能营销方法与系统

Publications (2)

Publication Number Publication Date
CN114417183A CN114417183A (zh) 2022-04-29
CN114417183B true CN114417183B (zh) 2022-07-15

Family

ID=81262992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210244454.8A Active CN114417183B (zh) 2022-03-14 2022-03-14 基于大数据汇总的保险产品智能营销方法与系统

Country Status (1)

Country Link
CN (1) CN114417183B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544266A (zh) * 2018-10-19 2019-03-29 中国平安人寿保险股份有限公司 产品数据推送方法、装置及计算机可读存储介质
WO2019216825A1 (en) * 2018-05-06 2019-11-14 Inzsure Pte. Ltd. System and method for recommending insurance products
CN112132659A (zh) * 2020-09-25 2020-12-25 泰康保险集团股份有限公司 信息的推荐方法、装置、电子设备及计算机可读介质
CN113987350A (zh) * 2021-10-28 2022-01-28 建信金融科技有限责任公司 资源推荐方法及装置
CN114117223A (zh) * 2021-11-29 2022-03-01 泰康保险集团股份有限公司 一种保险推荐方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019216825A1 (en) * 2018-05-06 2019-11-14 Inzsure Pte. Ltd. System and method for recommending insurance products
CN109544266A (zh) * 2018-10-19 2019-03-29 中国平安人寿保险股份有限公司 产品数据推送方法、装置及计算机可读存储介质
CN112132659A (zh) * 2020-09-25 2020-12-25 泰康保险集团股份有限公司 信息的推荐方法、装置、电子设备及计算机可读介质
CN113987350A (zh) * 2021-10-28 2022-01-28 建信金融科技有限责任公司 资源推荐方法及装置
CN114117223A (zh) * 2021-11-29 2022-03-01 泰康保险集团股份有限公司 一种保险推荐方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114417183A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Mealy et al. Interpreting economic complexity
Liu et al. Graph summarization methods and applications: A survey
Marcaccioli et al. A pólya urn approach to information filtering in complex networks
JP6862531B2 (ja) ガイド付きデータ探索
JP6928677B2 (ja) オンライン分析処理を行うためのデータ処理方法及び装置
CN104077723B (zh) 一种社交网络推荐系统及方法
CN108885673B (zh) 用于计算数据隐私-效用折衷的系统和方法
WO2018059298A1 (zh) 模式挖掘方法、高效用项集挖掘方法及相关设备
CN112836125B (zh) 一种基于知识图谱和图卷积网络的推荐方法及其系统
CN103827895A (zh) 实体指纹
Yun et al. Efficient representative pattern mining based on weight and maximality conditions
Khan et al. Set-based unified approach for summarization of a multi-attributed graph
Drakopoulos et al. Higher order graph centrality measures for Neo4j
Zhang et al. Precision Marketing Method of E‐Commerce Platform Based on Clustering Algorithm
Lalanne et al. Private quantiles estimation in the presence of atoms
Srivastava et al. A Polyglot Persistence approach for E-Commerce business model
Kapoor et al. Online summarization of dynamic graphs using subjective interestingness for sequential data
CN114417183B (zh) 基于大数据汇总的保险产品智能营销方法与系统
Chan et al. Real-time clustering for large sparse online visitor data
Staegemann et al. Challenges in Data Acquisition and Management in Big Data Environments.
Mall et al. Netgram: Visualizing communities in evolving networks
KR102095744B1 (ko) 무정형 빅데이터의 개인정보 비식별화 처리 방법
Milli et al. Big Data and its Future
Urrutia et al. Applying data mining on customer relationship management system to discover forgotten effects
Liiv Data Science Techniques for Cryptocurrency Blockchains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant