CN106910132A

CN106910132A - Top‑k可决策的负序列模式在客户投保行为分析中的应用

Info

Publication number: CN106910132A
Application number: CN201710018623.5A
Authority: CN
Inventors: 董祥军; 邱萍
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2017-01-11
Filing date: 2017-01-11
Publication date: 2017-06-30

Abstract

本发明涉及top‑k可决策的负序列模式在客户投保行为分析中的应用，本发明提出了双支持度的计算公式，不但能够根据保险公司对正负序列模式的兴趣倾向灵活的调整公式，还可以选出最具决策性的负序列模式；本发明了提出了一种高效地挖掘top‑k可决策的负序列模式的算法，此算法仅需要用户指定期望得到的负序列模式的数量，既k值，再不必设置任何最小参数。本发明应用在进行客户投保行为分析的过程中，可以充分的将正负序列模式结合起来作为参考，从而发现用户最有可能接受的保险推荐次序，这样客户在购买保险时，利用本发明可以向他推荐一些其它客户购买频率比较大的保险产品，从而增加客户的交易机会，从而提高保险公司的经济效益。

Description

Top-k可决策的负序列模式在客户投保行为分析中的应用

技术领域

本发明涉及top-k可决策的负序列模式在客户投保行为分析中的应用，属于可决策的负序列模式的应用技术领域。

背景技术

商业保险从诞生到现在，已经成为现代经济社会风险管理的重要手段，成为现代金融体系和社会保障体系的重要组成部分，成为政府提高管理效能的重要市场化机制。特别是在发达国家，保险已经渗透到社会生产生活的各个层面,为人们提供“从摇篮到坟墓”的保险服务。比如，在发达国家，多数父母都会为子女购买各种类型的儿童保险，包括意外伤害保险、健康医疗保险、教育储蓄保险等，提早为子女的生命健康和教育做好规划。可见，商业保险已经成为现代市场经济不可或缺的重要组成部分。

在我国，随着社会的不断发展，人们的物质文化水平逐渐提高，越来越多的人开始注重保险的投资。通过购买保险不但可以预防在大病、大难来临之时无力地应对，而且还能防老、防失业。例如，保险能够进行灾害赔付，帮助灾后重建和恢复生产。初步统计，仅在2002至2010年，保险业累计赔付近1.6万亿元，平均每年赔付2000多亿元。特别是在一些重大灾害事故发生后，保险赔付为灾后恢复重建发挥了积极作用。比如，2003年的淮河流域水灾，保险业赔付5亿多元，同年的上海地铁发生透水事故，保险业赔付7.1亿元；2005年我国沿海部分地区连续遭受七次强热带风暴袭击，保险业赔付13.3亿元；2008年雨雪冰冻灾害和汶川5·12大地震，保险业赔付超过100亿元。在湖南，保险业近十年累积赔付超过470亿元。

近年来，我国的保险投资呈不断上升趋势，许多大型保险公司，如中国太平洋保险、中国人寿保险、中国平安保险等都累积了大量的客户投保数据。如何充分利用这些数据对客户投保行为进行有效的分析、组织利用,如何了解客户更多的信息,为客户推荐最有力的保险服务，为客户提供个性化服务,成为保险公司发展迫切要解决的问题。

序列模式分析所要解决的问题是客户在完成一次投保之后，在以后的特定时间内，还会购买什么保险，是发现投保之间关系规律的过程，使得保险公司能够根据当前的投保的情况来预测以后的保险的发展趋势，从而能够更好的为客户推荐保险。它的主要目的是研究保险购买的先后关系以及成功推销保险的可能性大小，找出其中的规律，即不仅需要知道保险与其它保险购买的先后顺序，而且需要确定在何种条件下推荐那种保险成功的可能性较大。传统的序列模式能够发现数据库中某一段时间内的一个频繁序列，即在这个时间段内哪些保险会被客户购买的比较多，多或少的标准是由最小支持度来决定的。每个序列是按照投保的时间排列的一组集合，可以设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序列模式分析客户投保行为，解决个性化保险推荐问题时，他们仅考虑了已发生的事件，也称为正序列模式(Positive Sequential Pattern，PSP)挖掘。

随着研究的不断深入，研究人员发现不发生事件中隐含着大量的有用信息，而这些信息在单纯的正序列模式挖掘中是根本得不到的，于是相关研究人员开始挖掘负序列模式(Negative Sequential Pattern，NSP)。负序列模式不仅涉及到已经发生的事件，还涉及到不发生的事件，它能够更深入地分析和理解数据中的潜在含义，从而挖掘出容易被人们忽略但是非常有价值的信息。例如：a，b，c，d，表示一个客户投保序列模式，该模式说明在某一段时间内，该客户在购买了保险a、b后，在没有购买保险c的情况下，购买了保险d。如今负序列模式的价值越来越被人们认可，在深入理解和处理许多商业应用方面，如对客户购买行为分析方面，它更有一种不可替代的作用。

由于负序列模式挖掘才刚刚兴起，现存的算法较少，如，NSPM，PNSP,Neg-GSP,e-NSP等。但是这些算法都是以设置最小支持度阈值来表达用户的需求的，而现实中由于用户获取的资源和时间的限制，用户很难一次设置合理的最小支持度阈值挖掘出期望得到的负序列模式。并且在用户投保分析中，保险公司往往希望通过分析能够得到为用户推荐那些保险会比较容易成功的信息。这就需要结合正序列模式的支持度以及它所对应的负序列模式的支持度分析问题。针对这一问题，研究人员提出了top-k序列模式挖掘算法，例如，TSP,TKS,SKOPUS和kDSP-miner等算法。它们都解决设置最小支持度阈值的问题，但是这些方法仅考虑了top-k正序列模式挖掘，我们目前没有找到任何有关top-k负序列模式挖掘方法的研究，也没有找到能够结合正负序列模式支持度评估推荐投保成功率的方面的研究。

电子商务平台中的网站用户购买保险数据为挖掘的数据源。以5个客户在2个月内的交易为例，如表1是由客户ID和交易时间为关键字所排序的事务数据库。一个事务数据库，一个事务代表一笔交易，一个单项代表交易的保险，单项属性中的字母记录的是保险ID。表1为事务数据库。

表1

进行数据预处理，将表1的事务数据库整理成表2的序列数据库。

表2

客户ID	客户购买序列
		1	{c}{i}
2	{a,b}{c}{a,d,f,g}
		3	{c,e,g,h}
4	{c}{c,d,g,h}{i}
		5	{i}

一个客户在某个时间段内所有的交易记录构成一个有序的序列，序列用<>表示。在序列中，项/项集是有顺序的，每个项都代表交易的一种保险，而元素则是指该客户在某一个具体的时间点一次性购买的所有保险，用{}或()表示，该客户可能在不同的时间段购买同一保险，即一个项可能在一个序列的不同元素中发生。如表2中ID为2的客户购买序列为{a,b}{c}{a,d,f,g}，该客户分别在第一次和第三次购物时购买了保险a，其中{a,b}，{c}，{a,d,f,g}这三个项目集可称为序列的元素，a,b,c,d,f,g则称为项，如果一个元素中只有一个项，则括号可以省略，如该序列中的元素{c}可直接写c。

发明内容

发明概述

针对现有技术的不足，本发明提供一种top-k可决策的负序列模式在客户投保行为分析中的应用。

本发明中提出一个名为Topk-NSP⁺的高效算法来挖掘重top-k可决策的序列模式，所述算法的主要思想是：首先，通过现存的top-k正序列模式挖掘算法挖掘得到k个支持度最大的正序列模式；对应每个包含元素个数大于1的正序列模式建立相应的种子集，并将其生成的负候选序列加入该种子集；将只包含一个元素的正序列模式生成的负候选序列直接按从大到小的顺序加入最终序列集；再次，计算每个种子集的第一个负候选序列(即双支持度最大的负候选序列)的双支持度，并将它们逐一与最终序列集进行对比加入最终序列集；最后，通过剪枝种子集减少对负候选的操作，直至最终序列集为双支持度最大的k负候选序列为止。所述Topk-NSP⁺是第一个将正负序列模式同时考虑在内的挖掘top-k负序列模式的算法，通过该算法挖掘得到的top-k可决策的负序列模式可以更全面的分析客户投保行为，使得保险公司能够根据当前的客户的投保情况来预测以后的投保趋势。

发明详述

术语解释

1、正序列模式，positive sequential patterns，简称PSP；

2、负序列模式，negative sequential patterns，简称NSP；

3、负候选序列，negative sequential candidates,简称NSC；

4、双支持度，double support，简称Ds；

本发明的技术方案如下：

一种top-k可决策的负序列模式在客户投保行为分析中的应用，具体步骤包括：

(1)从获取的序列数据库中，使用top-k正序列挖掘算法挖掘得到k个支持度最大的正序列模式，即在某一段时间内，客户最频繁购买保险的次序；

(2)设定步骤(1)挖掘得到的k个正序列模式中包含元素个数大于1的正序列模式有t个，t≤k，分别对应t个正序列模式生成t个种子集，采用e-NSP算法的思想生成该t个正序列模式对应生成的负侯选序列，并将该t个正序列模式对应生成的负侯选序列放在对应的t个种子集中；种子集中的负候选序列是按支持度从大到小排列的；负候选序列用于判断在某一段时间内，哪些保险客户购买的多，哪些保险客户没有购买；

(3)利用步骤(1)挖掘得到的正序列模式的支持度和步骤(2)生成相应的k个负侯选序列的支持度，计算步骤(2)生成相应的负侯选序列的双支持度；

(4)通过对比步骤(3)生成相应的负侯选序列的双支持度的大小和剪枝步骤(2)生成的种子集，从步骤(2)生成的负侯选序列中筛选出top-k可决策的负序列模式；

所述top-k可决策的负序列模式是指：top-k序列模式是指从序列数据库中找出序列集合L，L是由序列数据库中前k个支持度最大的序列模式组成，k由用户设定；如果s_a∈L，则不存在sup(s_b)是指s_b的支持度，sup(s_a)是指s_a的支持度；

从序列数据库中找出负序列集合L1,L1包含k个负序列模式且k由用户设定，如果s∈L1，则s所对应的正序列模式必须是top-k序列模式，且满足Ds(s')是指s'的双支持度，Ds(s)是指s的双支持度；

(5)利用步骤(4)筛选出的top-k可决策的负序列模式，对客户的购买行为进行分析；根据分析结果，保险公司针对客户提供个性化服务，根据客户购买习惯安排保险的最佳推荐顺序。

根据本发明优选的，所述步骤(2)，所述Topk-NSP⁺负侯选序列的生成方法为：对于包含元素个数为k的正序列模式，其相应的Topk-NSP⁺负侯选序列通过改变正序列模式中任意m个不相邻元素为负元素得到，为大于k/2的最小整数。例如：基于<(ab)cd>的负侯选序列，其中a、b、c、d是指某种产品，包括：

为了基于正序列模式生成无冗余的负侯选序列，我们用一种高效的方法来生成负侯选序列，其基本思想是改变正序列模式中任意不相邻元素为负元素；

根据本发明优选的，所述步骤(3)，负侯选序列的双支持度Ds(PSP,NSP)的计算公式如式(i)所示：

Ds(PSP,NSP)＝sup(PSP)*sup(NSP)+a*sup(PSP)+b*sup(NSP) (i)

式(i)中，sup(PSP)是指步骤(1)所述的正序列模式的支持度；

sup(NSP)是指步骤(2)生成的对应正序列模式的负侯选序列的支持度；

a、b满足：a+b＝1，0<a<1,0<b<1；权值a、b是由用户的对正、负序列模式的兴趣倾向决定的，权值a、b随着用户的兴趣倾向的改变而改变，比较灵活；其中，a*sup(PSP)+b*sup(NSP)表示正负序列模式的支持度的加权平均值，而sup(PSP)*sup(NSP)是正负序列模式的兴趣度，用于提高结果的准确性；

例如，假设a＝b＝0.5，正序列模式的支持度为0.4，负序列模式的支持度为0.3，则Ds(PSP,NSP)＝0.3*0.4+0.5*0.3+0.5*0.4＝0.57；如果a＝0.3，b＝0.7，则Ds(PSP,NSP)＝0.3*0.4+0.3*0.3+0.7*0.4＝0.49。

根据本发明优选的，所述负侯选序列的支持度的定义如下：

包含m个元素其中有n个负元素的序列ns，对于(只含有一个负元素的序列)∈1-negMSS_ns(含有一个负元素的序列的集合)，1≤i≤n,在序列数据库D中ns的支持度sup(ns)如下所示：

sup(ns)＝|{MPS(ns)}|-|∪ⁿ _i＝1{p(1-negMS_i)}|

＝sup(MPS(ns))-|∪ⁿ _i＝1{p(1-negMS_i)}| (ii)

如果ns只包含一个负元素，ns的支持度sup(ns)为：

sup(ns)＝sup(MPS(ns))-sup(p(ns)) (iii)

特别地，对于负序列ns的支持度sup(ns)为：

MPS(ns)是指负序列ns的最大正子序列，即包含负序列中所有的正元素；例如，

1-negMS_ns是指负序列ns的子序列，并且该子序列是由MPS(ns)以及一个负元素组成；

1-negMSS_ns是指包含负序列ns的所有1-negMS_ns子序列的集合；例如，

p(1-negMS)是指序列1-negMS中的正元素不变，将负元素转换为相应的正元素。例如，

假设，序列<ac>的支持度是10，支持序列<abc>的sid(包含序列<abc>的客户ID)的集合是{10,20,30},支持序列<acd>的sid的集合是{20,30,40},则

生成种子集：对应每个步骤(1)挖掘得到的包含元素个数大于1的正序列模式建立种子集，该种子集用于存放对应的正序列模式生成的负候选序列，利用公式(i)、(ii)和(iii)计算负候选的支持度，进行排序存入种子集；

根据本发明优选的，所述步骤(4)，具体步骤包括：

A、计算每个种子集中支持度最大的负候选序列，以及元素为1的正序列模式对应的负候选序列的双支持度，并进行对比，将其由大到小有序加入最终序列集中；

B、计算最终序列集中双支持度最大的负候选序列对应的种子集中剩余的支持度最大的负候选序列的双支持度Ds(NSC(1))，如果Ds(NSC(1))>Ds(NSCk)，Ds(NSCk)表示最终序列集中最后一个负候选序列的双支持度，该值是最终序列集中双支持度最小的值，则将Ds(NSC(1))加入最终序列集，并最后一个负候选序列从最终序列集中删除，将最后一个负候选序列对应的种子集删除，继续对最终序列集中双支持度最大的负候选序列对应的种子集中剩余的支持度最大的负候选序列执行上述操作；如果Ds(NSC(1))≤Ds(NSCk)，则停止计算该种子集其余负候选序列的双支持度；

C、按照步骤B所述方法，计算最终序列集中双支持度第二的负候选序列对应的种子集中剩余的支持度最大的负候选序列的双支持度，直到种子集全部计算完终止。

本发明所述一种top-k可决策的负序列模式在客户投保行为分析中的应用的实现算法的伪代码为：

为了高效的计算并集，设计一个数据结构来存储Topk-NSP⁺相关数据，所述数据结构存储正序列模式(Positive Sequential patterns,PSP)以及它的支持度和{sid}，包含相应的正序列模式的sid集合；

所述Topk-NSP⁺算法是基于top-k正序列模式来挖掘top-k可决策的负序列模式，算法Topk-NSP⁺包括步骤如下：

其中，输入：D：客户购买序列数据库；参数a，b和k；

输出：top-kactionableNSP：用于分析客户投保行为的负序列模式的集合；

所述步骤(1)是用现有的top-k正序列模式挖掘算法从序列数据库中挖掘出k个支持度最大的正序列模式；步骤(2)和步骤(3)将上述top-k正序列模式以及它的支持度和sid的集合存储到哈希表top-kPSPHash；

所述步骤(4)是对于每一个正序列模式psp，通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列NSC；

步骤(5)至步骤(8)是将size＝1的top-k正序列模式对应生成的负候选直接计算双支持度加入最终序列集top-kactionableNSP；步骤(9)至步骤(11)将size>1的top-k正序列模式对应生成的负候选集合分别生成种子集；

步骤(13)至步骤(16)是找出各种子集中双支持度最大的负候选序列，并将其加入到NSP；

步骤(17)将NSP加入到最终序列集top-kactionableNSP；

其中步骤(18)至步骤(28)是剪枝种子集；

返回结果，如步骤(29)，利用最后得到这些的top-k可决策的负序列模式来分析客户的投保行为。

本发明的有益效果为：

1、本发明提出了双支持度的计算公式，不但能够根据保险公司对正负序列模式的兴趣倾向灵活的调整公式，还可以选出最具决策性的负序列模式；

2、由于用户很难直接设置合理的最小支持度阈值，本发明了提出了一种高效地挖掘top-k可决策的负序列模式的算法，此算法仅需要用户指定期望得到的负序列模式的数量，既k值，再不必设置任何最小参数。

3、本发明应用在进行客户投保行为分析的过程中，可以充分的将正负序列模式结合起来作为参考，从而发现用户最有可能接受的保险推荐次序，这样客户在购买保险时，利用本发明可以向他推荐一些其它客户购买频率比较大的保险产品，从而增加客户的交易机会，从而提高保险公司的经济效益。

具体实施方式

下面结合实施例对本发明做进一步限定，但不限于此。

实施例

所述Topk-NSP⁺负侯选序列的生成方法为：对于包含元素个数为k的正序列模式，其相应的Topk-NSP⁺负侯选序列通过改变正序列模式中任意m个不相邻元素为负元素得到，为大于k/2的最小整数。例如：基于<(ab)cd>的负侯选序列，其中a、b、c、d是指某种产品，包括：

所述步骤(3)，负侯选序列的双支持度Ds(PSP,NSP)的计算公式如式(i)所示：

Ds(PSP,NSP)＝sup(PSP)*sup(NSP)+a*sup(PSP)+b*sup(NSP) (i)

式(i)中，sup(PSP)是指步骤(1)所述的正序列模式的支持度；

(4)通过对比步骤(3)生成相应的负侯选序列的双支持度的大小和剪枝步骤(2)生成的种子集，从步骤(2)生成的负侯选序列中筛选出top-k可决策的负序列模式；具体步骤包括：

所述负侯选序列的支持度的定义如下：

sup(ns)＝|{MPS(ns)}|-|∪ⁿ _i＝1{p(1-negMS_i)}|

＝sup(MPS(ns))-|∪ⁿ _i＝1{p(1-negMS_i)}| (ii)

如果ns只包含一个负元素，ns的支持度sup(ns)为：

sup(ns)＝sup(MPS(ns))-sup(p(ns)) (iii)

特别地，对于负序列ns的支持度sup(ns)为：

生成种子集：对应每个步骤(1)挖掘得到的正序列模式(不包括单元素序列)建立种子集，该种子集用于存放对应的正序列模式生成的负候选序列，利用公式(i)、(ii)和(iii)计算负候选的支持度，进行排序存入种子集；

其中，输入：D：客户购买序列数据库；参数a，b和k；

步骤(17)将NSP加入到最终序列集top-kactionableNSP；

其中步骤(18)至步骤(28)是剪枝种子集；

所述客户投保行为分析，其中序列模式分析的侧重点在于分析数据间的前后或因果关系。就是在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部事务模式。例如：1个月以前购买健康险的客户很可能在一个月内购买重大疾病险。再例如，购买了车险的客户，可能接着购买人身意外险。

通过从客户投保记录中挖掘出在一段时间内购买的一些保险的客户量和不够卖这些保险的客户量，来便于保险公司的组织者预测客户的行为对客户提供个性化服务，发现哪些保险会在另外一些保险购买后推荐给客户客户最有可能购买,从而可以向客户提出推荐，也可以推出一些捆绑投保优惠活动，从而提高保险公司的收益。例如，购买车险和人身意外险的客户很多，然而只购买车险没有购买人身意外险的也比较多，我们对后面这部分客户推荐人身意外险成功的可能性就比向没有购买车险盲目的人群成功的可能性大。

通过对客户投保行为进行分析，发现保险之间的关系规律，不仅可以根据当前的客户投保情况来预测以后的投保的趋势，还可以更好的调整保险的推荐顺序，从而提高保险公司的利润。

Claims

1.一种top-k可决策的负序列模式在客户投保行为分析中的应用，其特征在于，具体步骤包括：

2.根据权利要求1所述的一种top-k可决策的负序列模式在客户投保行为分析中的应用，其特征在于，所述步骤(2)，所述Topk-NSP⁺负侯选序列的生成方法为：对于包含元素个数为k的正序列模式，其相应的Topk-NSP⁺负侯选序列通过改变正序列模式中任意m个不相邻元素为负元素得到，为大于k/2的最小整数。

3.根据权利要求1所述的一种top-k可决策的负序列模式在客户投保行为分析中的应用，其特征在于，所述步骤(3)，负侯选序列的双支持度Ds(PSP,NSP)的计算公式如式(i)所示：

Ds(PSP,NSP)＝sup(PSP)*sup(NSP)+a*sup(PSP)+b*sup(NSP) (i)

式(i)中，sup(PSP)是指步骤(1)所述的正序列模式的支持度；

参数a、b满足：a+b＝1，0<a<1，0<b<1。

4.根据权利要求1所述的一种top-k可决策的负序列模式在客户投保行为分析中的应用，其特征在于，所述负侯选序列的支持度的定义如下：

包含m个元素其中有n个负元素的序列ns，对于在序列数据库D中ns的支持度sup(ns)如下所示：

sup(ns)＝|{MPS(ns)}|-|∪ⁿ _i＝1{p(1-negMS_i)}|

＝sup(MPS(ns))-|∪ⁿ _i＝1{p(1-negMS_i)}| (ii)

如果ns只包含一个负元素，ns的支持度sup(ns)为：

sup(ns)＝sup(MPS(ns))-sup(p(ns)) (iii)

特别地，对于负序列ns的支持度sup(ns)为：

MPS(ns)是指负序列ns的最大正子序列，即包含负序列中所有的正元素；

1-negMSS_ns是指包含负序列ns的所有1-negMS_ns子序列的集合；p(1-negMS)是指序列1-negMS中的正元素不变，将负元素转换为相应的正元素。

5.根据权利要求1所述的一种top-k可决策的负序列模式在客户投保行为分析中的应用，其特征在于，所述步骤(4)，具体步骤包括：