CN105260915A

CN105260915A - 一种基于大数据对用户行为建模的控制方法及装置

Info

Publication number: CN105260915A
Application number: CN201510685427.4A
Authority: CN
Inventors: 吴敏辰; 蒋宇俊
Original assignee: China Pacific Insurance Group Co Ltd CPIC
Current assignee: China Pacific Insurance Group Co Ltd CPIC
Priority date: 2015-10-21
Filing date: 2015-10-21
Publication date: 2016-01-20

Abstract

本发明提供一种基于大数据对用户行为建模的控制方法，包括如下步骤：a.基于线性组合公式z_i＝L_i1x₁+L_i2x₂+.......L_ikx_k计算获得主成分指数z_i；b.获得所述主成分指数z_i对应的主成分变量捕捉到的所述用户行为指数变量集X的信息量λ_i；c.基于阈值θ确定主成分变量的数量N，且；d.基于公式I＝F(z₁、z₂、z₃...z_N)计算获得行为直观指数I。还提供了相应的装置。通过本发明可以加强业务人员及服务人员对客户的了解，在与客户接触时可以有针对性的提供客户喜欢的产品或服务。

Description

一种基于大数据对用户行为建模的控制方法及装置

技术领域

本发明大数据分析领域，尤其是大数据分析在保险领域的应用，具体地涉及一种基于大数据对用户行为建模的控制方法及相应的装置。

背景技术

在传统的保险行业领域，成千上百的人都被放在同一风险水平之上，但事实上这是不可能的，传统的保险业是通过精算技术来衡量某个险种的预计销量以及风险程度，从保险业来看，传统的精算技术只在一定纬度量化预计销量以及风险程度，很难充分反映在实际运营过程中的复杂性，同时传统精算研究的是评估数，很少涉及个案，例如保险公司卖车险的时候，考虑的因素有年龄、性别、婚姻状况、驾驶记录、收入、职业、教育、背景等等，但是在某个个体购买车险之前或者购买数次车险之后，并不能对特定的个体进行后续购买行为预测以及风险预测，而随着保险公司客户数量、客户背景资料以及客户购买行为的大数据的积累，需要通过大数据为客户制订个性化的保单，运用社交网络，改善产品和服务，影响目标客户，同时通过对大数据的分析，保险公司可以获得更准确的定价模型，提供个性化的解决方案。

发明内容

针对现有技术中的缺陷，本发明提供一种基于大数据对用户行为建模的控制方法，其用于基于用户行为大数据集合进行归类分析以确定行为直观指数I，其特征在于，包括如下步骤：

a.基于线性组合公式z_i＝L_i1x₁+L_i2x₂+…+L_ikx_k计算获得主成分指数z_i，其中，X＝{x₁、x₂、x₃…x_k}表示用户行为指数变量集，x_k表示一用户行为指数变量，所述L_i1、L_i2、…L_ik为x_k矩阵协方差阵的特征向量；

b.获得所述主成分指数z_i对应的主成分变量捕捉到的所述用户行为指数变量集X的信息量λ_i；

c.基于阈值θ确定主成分变量的数量N，则N个主成分变量对应N个主成分指数z_i，包括z₁、z₂、z₃…z_N，其中，1≤i≤N，且

d.基于公式I＝F(z₁、z₂、z₃…z_N)计算获得行为直观指数I。

优选地，所述步骤a中所述特征向量满足

优选地，当i＝1时对应的主成分变量的主成分指数z₁的最大。

优选地，所述步骤c中的N个主成分变量相互独立。

优选地，在所述步骤b中，基于公式λ_i＝z_i/S计算所述信息量λ_i，其中S为k个用户行为指数变量的总方差。

优选地，所述S通过公式获得，其中，x为所述k个用户行为指数变量的平均数。

优选地，所述平均数x基于如下公式计算获得：

根据本发明的另一方面，还提供一种基于大数据对用户行为建模的控制装置，优选地，其用于基于用户行为大数据集合进行归类分析以确定行为直观指数I，包括：

第一处理装置，其用于基于线性组合公式z_i＝L_i1x₁+L_i2x₂+…+L_ikx_k计算获得主成分指数z_i，其中，X＝{x₁、x₂、x₃…x_k}表示用户行为指数变量集，x_k表示一用户行为指数变量，所述L_i1、L_i2、…L_ik为x_k矩阵协方差阵的特征向量；

第一获取装置，其用于获得所述主成分指数z_i对应的主成分变量捕捉到的所述用户行为指数变量集X的信息量λ_i；

第一确定装置，其用于基于阈值θ确定主成分变量的数量N，则N个主成分变量对应N个主成分指数z_i，包括z₁、z₂、z₃…z_N，其中，1≤i≤N，且

Σ_{1}^{N} λ_{i} &GreaterEqual; θ;

第二处理装置，其用于基于公式I＝F(z₁、z₂、z₃…z_N)计算获得行为直观指数I。

优选地，所述第一处理装置中所述特征向量满足

优选地，所述第一确定装置中的N个主成分变量相互独立。

优选地，在所述第一获取装置中，基于公式λ_i＝z_i/S计算所述信息量λ_i，其中S为k个用户行为指数变量的总方差。

优选地，所述平均数x基于如下公式计算获得：

通过本发明提供的控制方法是一种全方位、多视角、多维度的客户立体化的移动应用，整合了各类保险应用的功能，利用大数据分析、数据建模、文本挖掘等先进的技术手段展示客户在公司的生命轨迹及在产品、风险、渠道等方面的偏好，为一线业务人员及服务人员提供强有力的支持，从而加强业务人员及服务人员对客户的了解，在与客户接触时可以有针对性的提供客户喜欢的产品或服务。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种基于大数据对用户行为建模的控制方法的流程图；

图2示出了本发明的又一具体实施方式的，一种基于大数据对用户行为建模的控制装置的结构图；以及

图3示出了本发明的一个典型的应用场景的结构示意图。

具体实施方式

本领域技术人员理解，本发明的一种关于大数据分析的应用，具体地，通过分析、整合公司内外部客户数据，形成基于单一的客户视图，整合一定数量客户接触点的接触数据，以及整合客户承保、理赔、给付各业务环节数据，非结构化数据和沉睡数据的应用。更为具体地，本发明包括获取互联网地图数据的应用、电商数据的应用、社交媒体数据的应用，为客户视图提供多元化的非结构数据支持。

进一步地，本发明通过对公司客户进行分群并获得客户的行为直观指数，根据行为直观指数建立客户价值模型、寿险客户加保指数模型、车险客户续保指数模型、车险客户风险模型、客户间关系识别模型、客户保险公司选择决定因素模型、客户风险偏好模型。通过这些模型开展客户家庭财产情况分析、客户生命周期分析、客户满意度分析、客户消费偏好分析、客户保险保障缺口分析等工作，形成提升寿险加保率客户服务推荐策略，提升车险续保率客户服务推荐策略，寿险加保产品推荐策略，车险保障类型推荐策略，车险差异化定价策略等。

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明，图1示出了本发明的具体实施方式的，一种基于大数据对用户行为建模的控制方法的流程图，具体地包括如下步骤：

首先执行步骤S101，基于线性组合公式z_i＝L_i1x₁+L_i2x₂+…+L_ikx_k计算获得主成分指数z_i，其中，X＝{x₁、x₂、x₃…x_k}表示用户行为指数变量集，x_k表示一用户行为指数变量。具体地，x_k是用户行为指数变量集X中的某一个用户行为指数变量(以下称为原变量)，选取不同的k值对应代表不同的原变量，而一系列的原变量x_k共同组成用户行为指数变量集X，所述原变量x_k可以代表保单购买产品信息、消费金额信息、理赔历史信息、客户交流互动信息、人口统计学信息及其衍生维度的变量。更为具体地，一个原变量x_k包括一系列的数据，相应地，所述用户行为指数变量集X对应包括大量数据，所述大量数据即为公司在日常的运营过程中积累的客户的行为数据。

进一步地，本领域技术人员理解，所述原变量x_k是某一特定类型的数据的抽象，相应地，多个原变量x_k根据对应数据类型之间的关系可以是彼此相关的，也可以是彼此不相关的，即多个原变量x_k共同组成用户行为指数变量集X并不遵循一定逻辑关系，是基于特定用户的原始数据抽象出的变量集，而本步骤的目的即是在所述用户行为指数变量集X的基础上进一步抽象出一系列主成分变量，使得一系列主成分变量彼此之间不相关，这样可以精简数据以更加全面的反映用户情况。实际上，一系列主成分变量是通过本步骤中的公式具象表现，本发明将这些具象表现定义为主成分指数z_i，即一个主成分变量对应一个主成分指数。

进一步地，所述L_i1、L_i2、…L_ik为一系列原变量x_k矩阵协方差阵的特征向量，具体到本公式的运算过程，所述L_i1、L_i2、…L_ik可以理解为k个原变量的系数，每个原变量在公式中的数值可以是该原变量对应的一系列数据的算术平均值、加权平均值、方差、标准差等中的任一种，这些都属于现有技术，在此不予赘述。在计算所述主成分指数z_i时，所述L_i1、L_i2、…L_ik是通过人为赋值确定的，具体的赋值方法是一种人为制定的规则，可以是一个函数或者一种逻辑算法，通过预先编制的软件进行赋值，即先将k个原变量输入到软件系统中，得到每一个原变量对应的特征向量(即系数)，然后再将k个原变量的数值以及k个原变量对应的k个特征向量代入到公式中，得到所述主成分指数z_i，这样当所述L_i1、L_i2、…L_ik的赋值组合变化时，就能够得到多个所述主成分指数z_i，所述多个主成分指数z_i对应表示多个主成分变量。优选地，软件系统进行赋值时遵循的规律为

在一个优选地实施例中，第一个抽象得到的主成分变量对应的主成分指数最大，且最终抽象得到的多个主成分变量彼此不相关，则多个所述主成分变量对应的多个主成分指数的矩阵协方差阵是正定的。具体地，根据最优规划理论，若要第一个主成分变量对应的所述主成分指数最大，在多个所述主成分变量对应的多个主成分指数的矩阵协方差阵是正定的条件下，只要第一个主成分变量对应的所述主成分指数的一阶导数为0时，对应的主成分指数即为最大值。本领域技术人员理解，在最终建立模型时，多个主成分变量对应表现一个既定指标，当第一个主成分变量对应的所述主成分指数最大时，所述第一个主成分变量能够最大程度的表现既定指标，而所述既定指标的其余主成分变量是作为辅助成分表现所述既定指标。

进一步地，执行步骤S102，获得所述主成分指数z_i对应的主成分变量捕捉到的用户行为指数变量集X的信息量λ_i。本领域技术人员理解，所述主成分变量既然是从原变量中抽象得到，则所述主成分变量必然在一定程度上反映原变量的信息，而在本步骤中，通过定义所述信息量λ_i进行具象化描述所述主成分变量必然在一定程度上反映原变量的信息。具体地，主成分变量对应的主成分指数z_i反映了该主成分变量的离散程度，因此通过主成分指数可以表达主成分变量捕捉到的用户行为指数变量集X的信息量λ_i，所述信息量λ_i通过以下公式得到，λ_i＝z_i/S，其中S为用户行为指数变量集X的总方差，优选地，所述S通过公式获得，其中，x为所述用户行为指数变量集X的平均数，所述x基于公式计算获得。在一个非优选例中，所述x还可以是所述用户行为指数变量集X的加权平均数，其根据模型侧重确定所述用户行为指数变量集X中各用户行为指数变量的权重值，本领域技术人可以根据实际需要变化出更多实施例，这并不影响本发明的技术内容。

进一步地，公式只是一般情况下计算总方差的公式，作为一些变化，所述S还可以通过离散型方差计算公式或者连续性方差计算公式获得，这些都属于现有技术，在此不予赘述。具体地，所述S只是确定所述信息量λ_i的一个基准，无论所述S的计算方式如何，只要所述S确定，某一主成分指数就能够反映在当前计算条件下，该主成分指数对应的主成分变量捕捉到的用户行为指数变量集X的信息量λ_i。更为具体地，所述信息量λ_i只是基于主成分指数的反映出的相对信息，其本身并不具备实质性的意义，通过多个主成分变量对应的信息量λ_i，我们可以确定需要抽象出的主成分变量的数量N，这将在步骤S103中具体描述。

进一步地，执行步骤S103，基于阈值θ确定主成分变量的数量N，则N个主成分变量对应N个主成分指数z_i，包括z₁、z₂、z₃…z_N，其中，1≤i≤N。本领域技术人员理解，步骤S101的目的在于从用户指数变量集中抽象出主成分变量，而抽象出主成分变量的目的在于充分而精炼地刻画客户的整体面貌，或至少能够反映客户某一指标下的特征面貌，在某一主成分变量生成后，每个原变量在该主成分变量占有一定的权重，所述权重的表现形式为该原变量对应的特征向量，这样在抽象出多个主成分变量后，每个原变量在各主成分变量上有不同的权重，具体表现为每个原变量在不同的主成分变量上对应不同的特征向量。例如，某个主成分变量在客户购买某种险种产品倾向行为的一系列原变量的权重上比较高，该主成分变量便可反映客户购买该险种产品的倾向，在实际的应用中，会存在多个主成分变量均可以反映客户购买该险种产品的倾向，但我们不能无限制的抽象主成分变量，需要设立一个标准，即当多个主成分变量达到一定的标准即停止抽象主成分变量，而本步骤的目的即是通过设定阈值θ来衡量是否停止抽象主成分变量。

进一步地，优选地，阈值θ设置为百分比格式，例如60％、70％或者80％等，本领域技术人员理解，所述L_i1、L_i2、…L_ik满足的条件，因此根据步骤S101中的公式计算得出的主成分指数必然小于用户行为指数变量集X的方差S，这样通过步骤S102中的公式计算出的信息量λ_i的数值是小于1的，这样根据公式当多个主成分变量对应的多个信息量λ_i的和大于或者等于阈值θ时，即表明所述多个主成分变量已经能够充分而精炼地刻画客户某个既定指标的面貌。本领域技术人员理解，本步骤所述阈值θ优选地设置为百分比格式，本领域技术人员在具体操作中可以根据实际需要变化出更多实施例，这并不影响本发明的技术内容。

在一个具体的实施例中，我们将客户的财富指标作为既定指标，相应地，反映客户财富指标的原变量包括客户本人的收入、客户家庭的收入、客户购买多种保险产品的消费、客户日常的消费、客户购买的保险产品的到期日、客户购买的保险产品的续期情况等，相应地，我们在这些原变量中抽象出两个主成分变量，包括客户的收入主成分指数和客户的支出主成分指数，同时设定阈值θ为80％，如果客户的收入主成分指数和客户的支出主成分指数对应的两个信息量的和大于或者等于0.8，则表明抽象出的两个主成分变量已经能够反映客户财富指标的情况，此时即停止继续抽象主成分变量，反之，则继续抽象主成分变量，例如再抽象出客户购买保险产品频率的主成分变量。本领域技术人员理解，此处只是通过最为简单的描述以使本领域技术人员能够理解本发明，在实际的应用中，原变量可能包括几百种甚至几千种，相应的抽象出的主成分变量的数量还会更多，在此不予赘述。

进一步地，执行步骤S104，基于公式I＝F(z₁、z₂、z₃…z_N)计算获得行为直观指数I，所述行为直观指数I用于建立最终的数据模型，所述数据模型为销售人员提供相应的指导，本领域技术人员理解，建立数据模型的过程是一种标准化的流程，而本发明的目的就是为建立数据模型提供数据支持，而所述行为直观指数I即为建立数据模型所要参照的标准。

进一步地，公式I＝F(z₁、z₂、z₃…z_N)中的F可以是一种函数或者算法，所述函数或者算法用于对主成分指数进行处理，例如所述F是一种生成曲线图的函数，将某一客户针对某个既定指标的多个主成分变量对应的主成分指数输入后对应生成该客户的曲线图，相应地，多个客户生成多个曲线图，销售人员可以直观的将不同的曲线图进行比较，得出结论。又例如所述F是一种算法，能够以主成分指数为基础，计算每个主成分变量在多个主成分变量中占有的比例，相应地，不同客户的主成分变量所占有的比例也是不同，这样可以帮助销售人员判断：针对不同的客户，每个客户的哪种主成分变量在衡量既定指标时最为重要。又例如，所述F是一种算法，能够计算多个主成分变量的标准差，相应地，不同客户的得到标准差也是不同的，即不同的客户针对同一既定指标的行为直观指数I也是不同的，销售人员可以根据不同客户的行为直观指数I的大小判断不同客户反映在该既定指标的面貌。

进一步地，所述F表示的函数将某一客户针对某个既定指标的多个主成分变量对应的主成分指数归一化表示为线性模型，其同样能向销售人员直观反映不同客户在该既定指标上的具体面貌。在一个具体实施例中，所述公式I＝F(z₁、z₂、z₃…z_N)＝m₁z1+m₂z₂+m₃z₃+…+m_Nz_N，其中所述m₁、m₂、m₃、…、m_N分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，其基于公式m₁+m₂+m₃+…+m_N＝1进行限定。在另一个具体实施例中，所述公式I＝F(z₁、z₂、z₃…z_N)＝m₁ ²z₁+m₂ ²z₂+m₃ ²z₃+…+m_N ²z_N，其中所述m₁、m₂、m₃、…、m_N分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，并基于公式m₁ ²+m₂ ²+m₃ ²+…+m_N ²＝1进行限定。又例如，所述公式I＝F(z₁、z₂、z₃…z_N)＝(u+m1)²z₁+(u+m₂)²z₂+(u+m₃)²z₃+…+(u+m_N)²z_N，其中所述(u+m₁)²、(u+m₂)²、(u+m₃)²、…、(u+m_N)²分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，并基于公式(u+m₁)²+(u+m₂)²+(u+m₃)²+…+(u+m_N)²＝1进行限定，所述u为限定系数0＜u＜1，其优选地基于销售人员确定产生，有利于最终向销售人员展示最理想的线性模型图像，本领域技术人员可以根据实际需要对所述公式I及所述限定系数u的具体计算方式或数值变化出更多实施例，在此不予赘述。

进一步地，本领域技术人员理解，针对不同的客户所述函数或者算法是相同的，而根据步骤S101至步骤S103得到的每个客户的主成分指数是一定的，最终比较不同客户的行为直观指数时，所得出的结论也是相对稳定，因此无论选用何种函数或者算法，并不会影响本发明的实质内容，本领域技术人员可以此基础上做不同的变化，在此不予赘述。

图2示出了根据本发明的又一具体实施方式的，一种基于大数据对用户行为建模的控制装置的结构图，其用于基于用户行为大数据集合进行归类分析以确定行为直观指数I。具体地，在本实施例中，所述控制装置4包括第一处理装置41，其用于基于线性组合公式z_i＝L_i1x₁+L_i2x₂+…+L_ikx_k计算获得主成分指数z_i，其中，X＝{x₁、x₂、x₃…x_k}表示用户行为指数变量集，x_k表示一用户行为指数变量，所述L_i1、L_i2、…L_ik为x_k矩阵协方差阵的特征向量；第一获取装置42，其用于获得所述主成分指数z_i对应的主成分变量捕捉到的所述用户行为指数变量集X的信息量λ_i；第一确定装置43，其用于基于阈值θ确定主成分变量的数量N，则N个主成分变量对应N个主成分指数z_i，包括z₁、z₂、z₃…z_N，其中，1≤i≤N，且第二处理装置44，其用于基于公式I＝F(z₁、z₂、z₃…z_N)计算获得行为直观指数I。

进一步地，一个用户行为指数变量(以下称为原变量)x_k包括一系列的数据，所述数据为公司在日常的运营过程中积累的客户的行为数据。优选地，所述多个原变量x_k根据对应数据类型之间的关系可以是彼此相关的，也可以是彼此不相关的，即多个原变量x_k共同组成用户行为指数变量集X并不遵循一定逻辑关系，是基于特定用户的原始数据抽象出的变量集。优选地，所述L_i1、L_i2、…L_ik表示k个原变量x_k的系数，为一系列原变量x_k矩阵协方差阵的特征向量。在一个优选例中，所述第一处理装置41基于公式规范所述线性组合公式z_i的计算结果。在一个优选地实施例中，第一个抽象得到的主成分变量对应的主成分指数最大，且最终抽象得到的多个主成分变量彼此不相关，则多个所述主成分变量对应的多个主成分指数的矩阵协方差阵是正定的。具体地，根据最优规划理论，若要第一个主成分变量对应的所述主成分指数最大，在多个所述主成分变量对应的多个主成分指数的矩阵协方差阵是正定的条件下，只要第一个主成分变量对应的所述主成分指数的一阶导数为0时，对应的主成分指数即为最大值。

进一步地，所述主成分变量对应的主成分指数z_i反映了该主成分变量的离散程度，因此通过主成分指数可以表达主成分变量捕捉到的用户行为指数变量集X的信息量λ_i，所述信息量λ_i通过以下公式得到，λ_i＝z_i/S，其中S为用户行为指数变量集X的总方差。优选地，所述S通过公式获得，其中，x为所述用户行为指数变量集X的平均数，所述x基于公式计算获得。优选地，所述S还可以通过离散型方差计算公式或者连续性方差计算公式等方式计算获得。优选地，所述信息量λ_i只是基于主成分指数的反映出的相对信息，其本身并不具备实质性的意义，所述控制装置4基于所述第一获取装置42通过多个主成分变量对应的信息量λ_i确定需要抽象出的主成分变量的数量N。优选地，所述N个主成分变量相互独立，其基于所述线性组合公式zi从初始相互有联系的k个原变量中高度提炼产生。

进一步地，所述阈值θ设置为百分比格式，根据公式当多个主成分变量对应的多个信息量λ_i的和大于或者等于阈值θ时，所述第一确定装置43即确定所述多个主成分变量已经能够充分而精炼地刻画客户某个既定指标的面貌，将此时已产生的所述主成分变量数量作为N发送给所述控制装置4。

进一步地，所述行为直观指数I用于建立最终的数据模型。优选地，所述公式I＝F(z₁、z₂、z₃…z_N)中的F可以是一种函数或者算法，所述函数或者算法用于对主成分指数进行处理，例如所述F是一种生成曲线图的函数，将某一客户针对某个既定指标的多个主成分变量对应的主成分指数输入后对应生成该客户的曲线图，相应地，多个客户生成多个曲线图，销售人员可以直观的将不同的曲线图进行比较，得出结论。在一个优选例中，所述F表示的函数将某一客户针对某个既定指标的多个主成分变量对应的主成分指数归一化表示为线性模型，例如，基于公式I＝F(z₁、z₂、z₃…z_N)＝m₁z₁+m₂z₂+m₃z₃+…+m_Nz_N生成所述线性模型，其中所述m₁、m₂、m₃、…、m_N分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，其基于公式m₁+m₂+m₃+…+m_N＝1进行限定又例如，所述行为直观指数I还可以基于公式I＝F(z₁、z₂、z₃…z_N)＝m₁ ²z₁+m₂ ²z₂+m₃ ²z₃+…+m_N ²z_N确定，其中所述m₁、m₂、m₃、…、m_N分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，并基于公式m₁ ²+m₂ ²+m₃ ²+…+m_N ²＝1进行限定。又例如，公式I＝F(z₁、z₂、z₃…z_N)＝(u+m₁)²z₁+(u+m₂)²z₂+(u+m₃)²z₃+…+(u+m_N)²z_N同样可以被用来计算所述行为直观指数，其中所述(u+m₁)²、(u+m₂)²、(u+m₃)²、…、(u+m_N)²分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，并基于公式(u+m₁)²+(u+m₂)²+(u+m₃)²+…+(u+m_N)²＝1进行限定，所述u为限定系数且0＜u＜1。

图3示出了本发明的一个典型的应用场景的结构示意图，其中建模系统与上述图2所示实施例中所述控制装置相通讯。具体地，在本实施例中，所述建模系统包括原始数据A＝{a₁、a₂、a₃…a_w}，其用于表示公司再日常运营过程中所积累的用户所有行为数据；用户行为指数变量集X＝{x₁、x₂、x₃…x_k}，其用于表示某一用户在特定类型上的抽象行为数据；主成分指数z_i，其用于表示在所述用户行为指数变量集X的基础上进一步抽象精简的结果；行为直观指数I，其用于表示最终建成的数据模型。

在一个具体地应用场景中，所述建模系统通过一系列的数据推导及计算将上百万条用户原始数据抽象为用户行为指数变量集X，所述用户行为指数变量集X可能包括几百甚至几千条行为数据，分别特定用户的保单购买产品信息、消费金额信息、理赔历史信息、客户交流互动信息、人口统计学信息及其衍生维度的变量等，然后再将所述用户行为指数变量集X精简提炼为主成分指数z_i，所述主成分指数z_i包括N个变量以充分而精炼地刻画特定客户的整体面貌，其中N远小于k，最终，所述建模系统基于所述行为直观指数I的表达公式建立以所述主成分指数z_i为基准的客户模型。

优选地，多个所述原变量x_k共同组成用户行为指数变量集X并不遵循一定逻辑关系，是基于特定用户的原始数据抽象出的变量集，所述主成分变量彼此之间互不相关，从而精简数据以更加全面的反映用户情况。

进一步地，所述第一处理装置41基于公式z_i＝L_i1x₁+L_i2x₂+…+L_ikx_k计算获得所述主成分指数z_i，其中，L_i1、L_i2、…L_ik为一系列原变量x_k矩阵协方差阵的特征向量且基于规律获得计算结果。第二获取装置42基于公式λ_i＝z_i/S确定所述主成分指数z_i对应的主成分变量捕捉到的用户行为指数变量集X的信息量λ_i，所述第一确定装置43基于阈值θ对所述z_i及对应λ_i进行监控，当时确定所述主成分变量已经能够充分而精炼的刻画客户某个既定指标的面貌，此时已经计算产生的主成分指数z_i的数量N即为所述客户模型中的基准参数，最后，所述第二处理装置基于公式I＝F(z₁、z₂、z₃…z_N)绘制对应的模型图像。

进一步地，所述模型图像可以基于平面直角坐标系表示，也可以基于三维坐标系表示，本领域技术人员可以根据实际需要变化出更多实施例，这并不影响本发明的技术内容。优选地，所述模型图像基于线性模型表示，例如基于公式I＝F(z₁、z₂、z₃…z_N)＝m₁z₁+m₂z₂+m₃z₃+…+m_Nz_N生成所述线性模型，其中所述m₁、m₂、m₃、…、m_N分别表示所述主成分指数z₁、z₂、z₃、…、z_N在所述公式I中的权重，其基于公式m₁+m₂+m₃+…+m_N＝1进行限定，此外公式I＝F(z₁、z₂、z₃…z_N)＝m₁ ²z₁+m₂ ²z₂+m₃ ²z₃+…+m_N ²z_N，公式I＝F(z₁、z₂、z₃…z_N)＝(u+m₁)²z₁+(u+m₂)²z₂+(u+m₃)²z₃+…+(u+m_N)²z_N同样可以被用来计算所述行为直观指数。

进一步地，所述阈值θ设置为百分比格式，所述第一确定装置43监控所述第一处理装置41的计算结果，当客户的N个主成分指数对应的N个信息量的和大于或等于所述阈值θ时，表明所述第一处理装置41抽象出的N个主成分变量已经能够反映客户某一方面指标的情况，此时即停止继续抽取主成分变量，反之，则继续抽象主成分变量。

进一步地，所述S为用户行为指数变量集X的总方差，其通过公式获得，其中，x为所述用户行为指数变量集X的平均数，所述x基于公式计算获得。

本领域技术人员理解，本实施例所述技术方案允许用户基于对客户某一个或某多个行为数据的抽象化概括建立高度归一化的模型图像，通过所述模型图像用户可直观地了解客户在特定主成分变量上的不同行为数据，为后续数据处理提供了清楚、直观的分析基础，有利于用户形成提升寿险加保率客户服务推荐策略，提升车险续保率客户服务推荐策略，寿险加保产品推荐策略，车险保障类型推荐策略，车险差异化定价策略等。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于大数据对用户行为建模的控制方法，其用于基于用户行为大数据集合进行归类分析以确定行为直观指数I，其特征在于，包括如下步骤：

a.基于线性组合公式z_i＝L_i1x₁+L_i2x₂+...+L_ikx_k计算获得主成分指数z_i，其中，X＝{x₁、x₂、x₃...x_k}表示用户行为指数变量集，x_k表示一用户行为指数变量，所述L_i1、L_i2、...L_ik为x_k矩阵协方差阵的特征向量；

c.基于阈值θ确定主成分变量的数量N，则N个主成分变量对应N个主成分指数z_i，包括z₁、z₂、z₃...z_N，其中，1≤i≤N，且

d.基于公式I＝F(z₁、z₂、z₃...z_N)计算获得行为直观指数I。

2.根据权利要求1所述的控制方法，其特征在于，所述步骤a中所述特征向量满足

3.根据权利要求2所述的控制方法，其特征在于，当i＝1时对应的主成分变量的主成分指数z₁的最大。

4.根据权利要求3所述的控制方法，其特征在于，所述步骤c中的N个主成分变量相互独立。

5.根据权利要求1至4中任一项所述的控制方法，其特征在于，在所述步骤b中，基于公式λ_i＝z_i/S计算所述信息量λ_i，其中S为k个用户行为指数变量的总方差。

6.根据权利要求5所述的控制方法，其特征在于，所述S通过公式获得，其中，x为所述k个用户行为指数变量的平均数。

7.根据权利要求6所述的控制方法，其特征在于，所述平均数x基于如下公式计算获得：

8.一种基于大数据对用户行为建模的控制装置，其用于基于用户行为大数据集合进行归类分析以确定行为直观指数I，其特征在于，包括：

第一处理装置，其用于基于线性组合公式z_i＝L_i1x₁+L_i2x₂+...+L_ikx_k计算获得主成分指数z_i，其中，X＝{x₁、x₂、x₃...x_k)表示用户行为指数变量集，x_k表示一用户行为指数变量，所述L_i1、L_i2、...L_ik为x_k矩阵协方差阵的特征向量；

第一获取装置，其用于获得所述主成分指数z_i对应的主成分变量捕捉到的所述用户行为指数变量集X的信息量入_i；

第一确定装置，其用于基于阈值θ确定主成分变量的数量N，则N个主成分变量对应N个主成分指数z_i，包括z₁、z₂、z₃...z_N，其中，1≤i≤N，且

第二处理装置，其用于基于公式I＝F(z₁、z₂、z₃...z_N)计算获得行为直观指数I。

9.根据权利要求8所述的控制装置，其特征在于，所述第一处理装置中所述特征向量满足

10.根据权利要求9所述的控制装置，其特征在于，当i＝1时对应的主成分变量的主成分指数z₁的最大。

11.根据权利要求10所述的控制装置，其特征在于，所述步骤c中的N个主成分变量相互独立。

12.根据权利要求1至4中任一项所述的控制方法，其特征在于，在所述第一获取装置中，基于公式λ_i＝z_i/S计算所述信息量入_i，其中S为k个用户行为指数变量的总方差。

13.根据权利要求12所述的控制装置，其特征在于，所述S通过公式获得，其中，x为所述k个用户行为指数变量的平均数。

14.根据权利要求13所述的控制装置，其特征在于，所述平均数x基于如下公式计算获得：