CN109558520A

CN109558520A - 一种基于用户画像的数据处理方法和装置

Info

Publication number: CN109558520A
Application number: CN201811432369.4A
Authority: CN
Inventors: 孙闳绅; 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2019-04-02

Abstract

本发明实施例提供了一种基于用户画像的数据处理方法和装置。本发明涉及大数据技术领域，该方法包括：获取决策树模型输出的第一目标数据关系表；确定第一目标数据关系表中的各个节点的分割规则；将各个节点的分割规则组成的规则集合作为二叉树规则，并将二叉树规则进行存储；根据第一目标数据关系表和二叉树规则建立二叉树模型；获取保险代理人特征数据表，遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储，二叉树模型的每一个节点存储经过节点的保险代理人个数。因此，本发明实施例提供的技术方案能够解决现有技术中人工对决策树模型输出的结果进行分类统计耗时耗力、效率低的问题。

Description

一种基于用户画像的数据处理方法和装置

【技术领域】

本发明涉及大数据技术领域，尤其涉及一种基于用户画像的数据处理方法和装置。

【背景技术】

决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率、评价项目风险、判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。

目前，实际样本是基于spark的决策树模型进行分群的，使用决策树模型分类时，不能够对每个节点进行存储，需要人工对决策树模型输出的结果进行分类统计，耗时耗力，效率低。

【发明内容】

有鉴于此，本发明实施例提供了一种基于用户画像的数据处理方法和装置，用以解决现有技术人工对决策树模型输出的结果进行分类统计耗时耗力、效率低的问题。

一方面，本发明实施例提供了一种基于用户画像的数据处理方法，所述方法包括：获取决策树模型输出的第一目标数据关系表，所述第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应；确定所述第一目标数据关系表中的各个节点的分割规则；将所述各个节点的分割规则组成的规则集合作为二叉树规则，并将所述二叉树规则进行存储；根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型；获取保险代理人特征数据表，遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储，所述二叉树模型的每一个节点存储经过所述节点的保险代理人个数，所述保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

进一步地，所述遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储，包括：获取所述第一目标数据关系表中的每一个保险代理人的标签，所述保险代理人的标签为第一标签或第二标签，所述第一标签和所述第二标签用于区分所述保险代理人的专业等级；在将所述每一个保险代理人特征数据存储到所述二叉树模型的最后一个节点之后，存储所述保险代理人的标签并更新所述第一标签和所述第二标签的数量；在所述遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，所述方法还包括：统计所述二叉树模型中所述第一标签和所述第二标签的数量。

进一步地，在所述统计所述二叉树模型中所述第一标签和所述第二标签的数量之后，所述方法还包括：采用反向查找的方法分别对所述第一标签和所述第二标签经过的路径进行统计，并将统计结果输出。

进一步地，在所述遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，所述方法还包括：对所述二叉树模型进行前序遍历，确定预设特征值所在节点，所述预设特征值为所述保险代理人的目标特征数据的取值范围；输出所述预设特征值所在节点存储的保险代理人个数。

进一步地，所述根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型，包括：S1、对所述第一目标数据关系表进行前序遍历，得到前序遍历序列，根据所述前序遍历序列的第一个数据确定所述二叉树模型的根节点；S2、对所述第一目标数据关系表进行中序遍历，得到中序遍历序列，在所述中序遍历序列中找到所述根节点的位置；S3、根据所述中序遍历序列中左子树节点的中序遍历序列和所述前序遍历序列中左子树节点的前序遍历序列，确定所述根节点的左节点，并将所述根节点的左节点作为所述二叉树模型的左子树的根节点；S4、根据所述中序遍历序列中右子树节点的中序遍历序列和所述前序遍历序列中右子树节点的前序遍历序列，确定所述根节点的右节点，并将所述根节点的右节点作为所述二叉树模型的右子树的根节点；S5、循环所述步骤S3和所述步骤S4，直至确定所述二叉树模型的全部节点；S6、根据所述全部节点建立所述二叉树模型。

进一步地，所述根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型，包括：S11、对所述第一目标数据关系表进行后序遍历，得到后序遍历序列，根据所述后序遍历序列的最后一个数据确定所述二叉树模型的根节点；S21、对所述第一目标数据关系表进行中序遍历，得到中序遍历序列，在所述中序遍历序列中找到搜索根节点的位置；S31、根据所述中序遍历序列中左子树节点的中序遍历序列和所述后序遍历序列中左子树节点的后序遍历序列，确定所述根节点的左节点，并将所述根节点的左节点作为所述二叉树模型的左子树的根节点；S41、根据所述中序遍历序列中右子树节点的中序遍历序列和所述后序遍历序列中右子树节点的后序遍历序列，确定所述根节点的右节点，并将所述根节点的右节点作为所述二叉树模型的右子树的根节点；S51、循环所述步骤S31和所述步骤S41，直至确定所述二叉树模型的全部节点；S61、根据所述全部节点建立所述二叉树模型。

一方面，本发明实施例提供了一种基于用户画像的数据处理装置，所述装置包括：第一获取单元，用于获取决策树模型输出的第一目标数据关系表，所述第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应；第一确定单元，用于确定所述第一目标数据关系表中的各个节点的分割规则；第一存储单元，用于将所述各个节点的分割规则组成的规则集合作为二叉树规则，并将所述二叉树规则进行存储；第一建立单元，用于根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型；第二获取单元，用于获取保险代理人特征数据表，遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储，所述二叉树模型的每一个节点存储经过所述节点的保险代理人个数，所述保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

进一步地，所述第二获取单元包括：第一获取模块，用于获取所述第一目标数据关系表中的每一个保险代理人的标签，所述保险代理人的标签为第一标签或第二标签，所述第一标签和所述第二标签用于区分所述保险代理人的专业等级；第一存储模块，用于在将所述每一个保险代理人特征数据存储到所述二叉树模型的最后一个节点之后，存储所述保险代理人的标签并更新所述第一标签和所述第二标签的数量；所述装置还包括：第一统计单元，用于在所述第二获取单元遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，统计所述二叉树模型中所述第一标签和所述第二标签的数量。

进一步地，所述装置还包括：第二统计单元，用于在所述第一统计单元统计所述二叉树模型中所述第一标签和所述第二标签的数量之后，采用反向查找的方法分别对所述第一标签和所述第二标签经过的路径进行统计，并将统计结果输出。

进一步地，所述装置还包括：第二确定单元，用于在所述第二获取单元遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，对所述二叉树模型进行前序遍历，确定预设特征值所在节点，所述预设特征值为所述保险代理人的目标特征数据的取值范围；第一输出单元，用于输出所述预设特征值所在节点存储的保险代理人个数。

进一步地，所述第一建立单元用于执行以下步骤：S1、对所述第一目标数据关系表进行前序遍历，得到前序遍历序列，根据所述前序遍历序列的第一个数据确定所述二叉树模型的根节点；S2、对所述第一目标数据关系表进行中序遍历，得到中序遍历序列，在所述中序遍历序列中找到所述根节点的位置；S3、根据所述中序遍历序列中左子树节点的中序遍历序列和所述前序遍历序列中左子树节点的前序遍历序列，确定所述根节点的左节点，并将所述根节点的左节点作为所述二叉树模型的左子树的根节点；S4、根据所述中序遍历序列中右子树节点的中序遍历序列和所述前序遍历序列中右子树节点的前序遍历序列，确定所述根节点的右节点，并将所述根节点的右节点作为所述二叉树模型的右子树的根节点；S5、循环所述步骤S3和所述步骤S4，直至确定所述二叉树模型的全部节点；S6、根据所述全部节点建立所述二叉树模型。

进一步地，所述第一建立单元用于执行以下步骤：S11、对所述第一目标数据关系表进行后序遍历，得到后序遍历序列，根据所述后序遍历序列的最后一个数据确定所述二叉树模型的根节点；S21、对所述第一目标数据关系表进行中序遍历，得到中序遍历序列，在所述中序遍历序列中找到搜索根节点的位置；S31、根据所述中序遍历序列中左子树节点的中序遍历序列和所述后序遍历序列中左子树节点的后序遍历序列，确定所述根节点的左节点，并将所述根节点的左节点作为所述二叉树模型的左子树的根节点；S41、根据所述中序遍历序列中右子树节点的中序遍历序列和所述后序遍历序列中右子树节点的后序遍历序列，确定所述根节点的右节点，并将所述根节点的右节点作为所述二叉树模型的右子树的根节点；S51、循环所述步骤S31和所述步骤S41，直至确定所述二叉树模型的全部节点；S61、根据所述全部节点建立所述二叉树模型。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于用户画像的数据处理方法。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的基于用户画像的数据处理方法的步骤。

在本方案中，将决策树模型输出结果建立二叉树模型，获取保险代理人特征数据表，遍历保险代理人特征数据表中每一行数据，并将每一行数据输入二叉树模型进行存储，二叉树模型的每一个节点存储经过节点的保险代理人个数，避免了人工对决策树模型输出的结果进行分类统计耗时耗力的问题，提高了统计效率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例的一种可选的基于用户画像的数据处理方法的流程图；

图2是根据本发明实施例的一种可选的二叉树模型的示意图；

图3是根据本发明实施例的一种可选的基于用户画像的数据处理装置的示意图；

图4是本发明实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明实施例提供了一种基于用户画像的数据处理方法，如图1所示，该方法包括：

步骤S102，获取决策树模型输出的第一目标数据关系表，第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应。

步骤S104，确定第一目标数据关系表中的各个节点的分割规则。

步骤S106，将各个节点的分割规则组成的规则集合作为二叉树规则，并将二叉树规则进行存储。

步骤S108，根据第一目标数据关系表和二叉树规则建立二叉树模型。

步骤S110，获取保险代理人特征数据表，遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储，二叉树模型的每一个节点存储经过节点的保险代理人个数，保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

保险代理人具有多个特征，多个特征至少包括：性别、年龄、工作年限、学历。

可选地，遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储，包括：获取第一目标数据关系表中的每一个保险代理人的标签，保险代理人的标签为第一标签或第二标签，第一标签和第二标签用于区分保险代理人的专业等级；在将每一个保险代理人特征数据存储到二叉树模型的最后一个节点之后，存储保险代理人的标签并更新第一标签和第二标签的数量；在遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，方法还包括：统计二叉树模型中第一标签和第二标签的数量。

二叉树模型叶子的节点存储的数据为保险代理人的分类，即第一标签或第二标签，对二叉树模型进行后序遍历，可以以最快的速度遍历到二叉树模型的每一个路径的最后一个节点，并得到最后一个节点所存储的第一标签或第二标签的数量，统计第一标签的总数量和第二标签的总数量，例如，如图2所示，最后一个节点为DEFG，D存储的第一标签的数量为10，E存储的第二标签的数量为13，F存储的第一标签的数量为7，G存储的第二标签的数量为9，则第一标签的总数量为17，即标签为第一标签的保险代理人为17个，第二标签的总数量为22，即标签为第二标签的保险代理人为22个。采用二叉树模型存储保险代理人特征数据，对二叉树模型进行后续遍历，统计保险代理人分类情况，提高了对保险代理人进行分类统计的效率。

可选地，在统计二叉树模型中第一标签和第二标签的数量之后，方法还包括：采用反向查找的方法分别对第一标签和第二标签经过的路径进行统计，并将统计结果输出。

在统计保险代理人分类的情况后，需要进一步输出符合第一标签和第二标签的保险代理人的具体特征信息，保险代理人满足两种分类的条件即为每个标签经过的二叉树模型的路径，在二叉树模型对第一标签和第二标签进行反向查找，得到第一标签和第二标签经历过的路径，再按照标签进行分类，则确定标签为第一标签的保险代理人的所有特征数据、标签为第二标签的保险代理人的所有特征数据。例如，如图2所示，标签为第一标签的D节点的根节点为B，节点B的根节点为A，标签为第一标签的F节点的根节点为C，节点C的根节点为A，则标签为第一标签的保险代理人路径为ABD、ACF，同样的方法，确定标签为第二标签的保险代理人路径为ABE、ACG。如果节点A表示保险代理人，节点B表示男，节点D表示年龄大于25岁，节点E表示年龄小于25岁，节点C表示女，节点F表示年龄大于30岁，节点G表示年龄小于30岁，则标签为第一标签的路径为ABD和ACF，表示保险代理人分类为第一标签的条件为男大于25岁，女大于30岁，标签为第二标签的路径为ABE和ACG，表示保险代理人分类为第二标签的条件为男小于25岁，女小于30岁。

可选地，在遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，方法还包括：对二叉树模型进行前序遍历，确定预设特征值所在节点，预设特征值为保险代理人的目标特征数据的取值范围；输出预设特征值所在节点存储的保险代理人个数。

预设特征值可以根据实际情况进行设置，例如，年龄大于30岁，工资大于5000等等。

目标特征数据为预设特征值对应的保险代理人的特征数据，例如，预设特征值为年龄大于30岁，则目标特征数据为年龄，取值范围为大于30岁。

统计保险代理人满足预设特征值的数量，可以对二叉树进行前序遍历，快速定位预设特征值所在节点，并输出所在节点存储的统计信息，例如，如图2所示，节点A表示保险代理人，节点B表示男，节点D表示工作经验大于5年，节点E表示工作经验小于5年，节点C表示女，节点F表示工作经验大于5年，节点G表示工作经验小于5年，假设统计工作经验大于5年的保险代理人个数，则对二叉树进行前序遍历，查找到节点D为工作经验大于5年的节点，节点D存储的保险代理人数量为100，查找到节点F为工作经验大于5年的节点，节点F存储的保险代理人个数为123，则工作经验大于5年的保险代理人数量为223。

可选地，根据第一目标数据关系表和二叉树规则建立二叉树模型，包括：S1、对第一目标数据关系表进行前序遍历，得到前序遍历序列，根据前序遍历序列的第一个数据确定二叉树模型的根节点；S2、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到根节点的位置；S3、根据中序遍历序列中左子树节点的中序遍历序列和前序遍历序列中左子树节点的前序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S4、根据中序遍历序列中右子树节点的中序遍历序列和前序遍历序列中右子树节点的前序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S5、循环步骤S3和步骤S4，直至确定二叉树模型的全部节点；S6、根据全部节点建立二叉树模型。

前序遍历记为根左右，访问规则为访问根节点，前序遍历左子树，前序遍历右子树，故前序遍历序列中，第一个数据总是树的根节点的值。中序遍历记为左根右，访问规则为访问左子树，接着遍历根节点，最后遍历右子树。如果前序遍历为空或中序遍历为空或节点个数小于等于0，返回NULL。创建根节点，前序遍历的第一个数据就是根节点的数据，在中序遍历中找到根节点的位置，中序遍历根节点位置左边的为左子树中序遍历序列，中序遍历根节点位置右边的为右子树中序遍历序列，根据左子树的中序遍历序列和前序遍历序列中左子树节点的前序遍历序列，确定根节点的左节点，根据右子树的中序遍历序列和前序遍历序列中右子树节点的前序遍历序列，确定根节点的右节点，按照同样的方法确定下一层的节点，直至确定二叉树的全部节点，建立二叉树。例如，前序遍历得到前序遍历序列为ABDECFG，中序遍历得到中序遍历序列为DBEAFCG，则确定A为二叉树的根节点，中序遍历序列中根节点A左边DBE为左子树的中序遍历序列，前序遍历序列中BDE为左子树的前序遍历序列，则确定B为左子树的根节点，D为节点B的左节点，E为节点B的右节点；中序遍历序列中根节点A右边FCG为右子树的中序遍历序列，前序遍历序列中CFG为右子树的前序遍历序列，则确定C为右子树的根节点，F为节点C的左节点，G为节点C的右节点，如图2所示，确定了ABCDEFG的二叉树模型。

可选地，根据第一目标数据关系表和二叉树规则建立二叉树模型，包括：S11、对第一目标数据关系表进行后序遍历，得到后序遍历序列，根据后序遍历序列的最后一个数据确定二叉树模型的根节点；S21、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到搜索根节点的位置；S31、根据中序遍历序列中左子树节点的中序遍历序列和后序遍历序列中左子树节点的后序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S41、根据中序遍历序列中右子树节点的中序遍历序列和后序遍历序列中右子树节点的后序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S51、循环步骤S31和步骤S41，直至确定二叉树模型的全部节点；S61、根据全部节点建立二叉树模型。

中序遍历记为左根右，访问规则为访问左子树，接着遍历根节点，最后遍历右子树。后序遍历记为左右根，访问规则为访问左子树，接着遍历右子树，最后遍历根节点，故后序遍历序列中，最后一个数据总是树的根节点的值。如果中序遍历为空或后序遍历为空或节点个数小于等于0，返回NULL。创建根节点，后序遍历的最后一个数据就是根节点的数据，在中序遍历中找到根节点的位置，中序遍历根节点位置左边的为左子树中序遍历序列，中序遍历根节点位置右边的为右子树中序遍历序列，根据左子树的中序遍历序列和后序遍历序列中左子树节点的后序遍历序列，确定根节点的左节点，根据右子树的中序遍历序列和后序遍历序列中右子树节点的后序遍历序列，确定根节点的右节点，按照同样的方法确定下一层的节点，直至确定二叉树的全部节点，建立二叉树。例如，中序遍历得到中序遍历序列为DBEAFCG，后序遍历得到后序遍历序列为DEBFGCA，则确定A为二叉树的根节点，中序遍历序列中根节点A左边DBE为左子树的中序遍历序列，后序遍历序列中DEB为左子树的后序遍历序列，则确定B为左子树的根节点，D为节点B的左节点，E为节点B的右节点；中序遍历序列中根节点A右边FCG为右子树的中序遍历序列，后序遍历序列中FGC为右子树的后序遍历序列，则确定C为右子树的根节点，F为节点C的左节点，G为节点C的右节点，如图2所示，确定了ABCDEFG的二叉树模型。

本发明实施例提供了一种基于用户画像的数据处理装置，该装置用于执行上述基于用户画像的数据处理方法，如图3所示，该装置包括：第一获取单元10、第一确定单元20、第一存储单元30、第一建立单元40、第二获取单元50。

第一获取单元10，用于获取决策树模型输出的第一目标数据关系表，第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应。

第一确定单元20，用于确定第一目标数据关系表中的各个节点的分割规则。

第一存储单元30，用于将各个节点的分割规则组成的规则集合作为二叉树规则，并将二叉树规则进行存储。

第一建立单元40，用于根据第一目标数据关系表和二叉树规则建立二叉树模型。

第二获取单元50，用于获取保险代理人特征数据表，遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储，二叉树模型的每一个节点存储经过节点的保险代理人个数，保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

可选地，第二获取单元50包括：第一获取模块、第一存储模块。第一获取模块，用于获取第一目标数据关系表中的每一个保险代理人的标签，保险代理人的标签为第一标签或第二标签，第一标签和第二标签用于区分保险代理人的专业等级。第一存储模块，用于在将每一个保险代理人特征数据存储到二叉树模型的最后一个节点之后，存储保险代理人的标签并更新第一标签和第二标签的数量。装置还包括：第一统计单元。第一统计单元，用于在第二获取单元50遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，统计二叉树模型中第一标签和第二标签的数量。

可选地，装置还包括：第二统计单元。第二统计单元，用于在第一统计单元统计二叉树模型中第一标签和第二标签的数量之后，采用反向查找的方法分别对第一标签和第二标签经过的路径进行统计，并将统计结果输出。

可选地，装置还包括：第二确定单元、第一输出单元。第二确定单元，用于在第二获取单元50遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，对二叉树模型进行前序遍历，确定预设特征值所在节点，预设特征值为保险代理人的目标特征数据的取值范围。第一输出单元，用于输出预设特征值所在节点存储的保险代理人个数。

可选地，第一建立单元40用于执行以下步骤：S1、对第一目标数据关系表进行前序遍历，得到前序遍历序列，根据前序遍历序列的第一个数据确定二叉树模型的根节点；S2、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到根节点的位置；S3、根据中序遍历序列中左子树节点的中序遍历序列和前序遍历序列中左子树节点的前序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S4、根据中序遍历序列中右子树节点的中序遍历序列和前序遍历序列中右子树节点的前序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S5、循环步骤S3和步骤S4，直至确定二叉树模型的全部节点；S6、根据全部节点建立二叉树模型。

可选地，第一建立单元40用于执行以下步骤：S11、对第一目标数据关系表进行后序遍历，得到后序遍历序列，根据后序遍历序列的最后一个数据确定二叉树模型的根节点；S21、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到搜索根节点的位置；S31、根据中序遍历序列中左子树节点的中序遍历序列和后序遍历序列中左子树节点的后序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S41、根据中序遍历序列中右子树节点的中序遍历序列和后序遍历序列中右子树节点的后序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S51、循环步骤S31和步骤S41，直至确定二叉树模型的全部节点；S61、根据全部节点建立二叉树模型。

一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取决策树模型输出的第一目标数据关系表，第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应；确定第一目标数据关系表中的各个节点的分割规则；将各个节点的分割规则组成的规则集合作为二叉树规则，并将二叉树规则进行存储；根据第一目标数据关系表和二叉树规则建立二叉树模型；获取保险代理人特征数据表，遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储，二叉树模型的每一个节点存储经过节点的保险代理人个数，保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：获取第一目标数据关系表中的每一个保险代理人的标签，保险代理人的标签为第一标签或第二标签，第一标签和第二标签用于区分保险代理人的专业等级；在将每一个保险代理人特征数据存储到二叉树模型的最后一个节点之后，存储保险代理人的标签并更新第一标签和第二标签的数量；在遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，统计二叉树模型中第一标签和第二标签的数量。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在统计二叉树模型中第一标签和第二标签的数量之后，采用反向查找的方法分别对第一标签和第二标签经过的路径进行统计，并将统计结果输出。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，对二叉树模型进行前序遍历，确定预设特征值所在节点，预设特征值为保险代理人的目标特征数据的取值范围；输出预设特征值所在节点存储的保险代理人个数。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：S1、对第一目标数据关系表进行前序遍历，得到前序遍历序列，根据前序遍历序列的第一个数据确定二叉树模型的根节点；S2、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到根节点的位置；S3、根据中序遍历序列中左子树节点的中序遍历序列和前序遍历序列中左子树节点的前序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S4、根据中序遍历序列中右子树节点的中序遍历序列和前序遍历序列中右子树节点的前序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S5、循环步骤S3和步骤S4，直至确定二叉树模型的全部节点；S6、根据全部节点建立二叉树模型。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：S11、对第一目标数据关系表进行后序遍历，得到后序遍历序列，根据后序遍历序列的最后一个数据确定二叉树模型的根节点；S21、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到搜索根节点的位置；S31、根据中序遍历序列中左子树节点的中序遍历序列和后序遍历序列中左子树节点的后序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S41、根据中序遍历序列中右子树节点的中序遍历序列和后序遍历序列中右子树节点的后序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S51、循环步骤S31和步骤S41，直至确定二叉树模型的全部节点；S61、根据全部节点建立二叉树模型。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：获取决策树模型输出的第一目标数据关系表，第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应；确定第一目标数据关系表中的各个节点的分割规则；将各个节点的分割规则组成的规则集合作为二叉树规则，并将二叉树规则进行存储；根据第一目标数据关系表和二叉树规则建立二叉树模型；获取保险代理人特征数据表，遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储，二叉树模型的每一个节点存储经过节点的保险代理人个数，保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

可选地，程序指令被处理器加载并执行时还实现以下步骤：获取第一目标数据关系表中的每一个保险代理人的标签，保险代理人的标签为第一标签或第二标签，第一标签和第二标签用于区分保险代理人的专业等级；在将每一个保险代理人特征数据存储到二叉树模型的最后一个节点之后，存储保险代理人的标签并更新第一标签和第二标签的数量；在遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，统计二叉树模型中第一标签和第二标签的数量。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在统计二叉树模型中第一标签和第二标签的数量之后，采用反向查找的方法分别对第一标签和第二标签经过的路径进行统计，并将统计结果输出。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在遍历保险代理人特征数据表中每一个保险代理人特征数据，并将每一个保险代理人特征数据输入二叉树模型进行存储之后，对二叉树模型进行前序遍历，确定预设特征值所在节点，预设特征值为保险代理人的目标特征数据的取值范围；输出预设特征值所在节点存储的保险代理人个数。

可选地，程序指令被处理器加载并执行时还实现以下步骤：S1、对第一目标数据关系表进行前序遍历，得到前序遍历序列，根据前序遍历序列的第一个数据确定二叉树模型的根节点；S2、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到根节点的位置；S3、根据中序遍历序列中左子树节点的中序遍历序列和前序遍历序列中左子树节点的前序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S4、根据中序遍历序列中右子树节点的中序遍历序列和前序遍历序列中右子树节点的前序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S5、循环步骤S3和步骤S4，直至确定二叉树模型的全部节点；S6、根据全部节点建立二叉树模型。

可选地，程序指令被处理器加载并执行时还实现以下步骤：S11、对第一目标数据关系表进行后序遍历，得到后序遍历序列，根据后序遍历序列的最后一个数据确定二叉树模型的根节点；S21、对第一目标数据关系表进行中序遍历，得到中序遍历序列，在中序遍历序列中找到搜索根节点的位置；S31、根据中序遍历序列中左子树节点的中序遍历序列和后序遍历序列中左子树节点的后序遍历序列，确定根节点的左节点，并将根节点的左节点作为二叉树模型的左子树的根节点；S41、根据中序遍历序列中右子树节点的中序遍历序列和后序遍历序列中右子树节点的后序遍历序列，确定根节点的右节点，并将根节点的右节点作为二叉树模型的右子树的根节点；S51、循环步骤S31和步骤S41，直至确定二叉树模型的全部节点；S61、根据全部节点建立二叉树模型。

图4是本发明实施例提供的一种计算机设备的示意图。如图4所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的基于用户画像的数据处理方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于用户画像的数据处理装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图4仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于用户画像的数据处理方法，其特征在于，所述方法包括：

获取决策树模型输出的第一目标数据关系表，所述第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应；

确定所述第一目标数据关系表中的各个节点的分割规则；

将所述各个节点的分割规则组成的规则集合作为二叉树规则，并将所述二叉树规则进行存储；

根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型；

获取保险代理人特征数据表，遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储，所述二叉树模型的每一个节点存储经过所述节点的保险代理人个数，所述保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

2.根据权利要求1所述的方法，其特征在于，所述遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储，包括：

获取所述第一目标数据关系表中的每一个保险代理人的标签，所述保险代理人的标签为第一标签或第二标签，所述第一标签和所述第二标签用于区分所述保险代理人的专业等级；

在将所述每一个保险代理人特征数据存储到所述二叉树模型的最后一个节点之后，存储所述保险代理人的标签并更新所述第一标签和所述第二标签的数量；

在所述遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，所述方法还包括：统计所述二叉树模型中所述第一标签和所述第二标签的数量。

3.根据权利要求2所述的方法，其特征在于，在所述统计所述二叉树模型中所述第一标签和所述第二标签的数量之后，所述方法还包括：

采用反向查找的方法分别对所述第一标签和所述第二标签经过的路径进行统计，并将统计结果输出。

4.根据权利要求1所述的方法，其特征在于，在所述遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，所述方法还包括：

对所述二叉树模型进行前序遍历，确定预设特征值所在节点，所述预设特征值为所述保险代理人的目标特征数据的取值范围；

输出所述预设特征值所在节点存储的保险代理人个数。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型，包括：

S1、对所述第一目标数据关系表进行前序遍历，得到前序遍历序列，根据所述前序遍历序列的第一个数据确定所述二叉树模型的根节点；

S2、对所述第一目标数据关系表进行中序遍历，得到中序遍历序列，在所述中序遍历序列中找到所述根节点的位置；

S3、根据所述中序遍历序列中左子树节点的中序遍历序列和所述前序遍历序列中左子树节点的前序遍历序列，确定所述根节点的左节点，并将所述根节点的左节点作为所述二叉树模型的左子树的根节点；

S4、根据所述中序遍历序列中右子树节点的中序遍历序列和所述前序遍历序列中右子树节点的前序遍历序列，确定所述根节点的右节点，并将所述根节点的右节点作为所述二叉树模型的右子树的根节点；

S5、循环所述步骤S3和所述步骤S4，直至确定所述二叉树模型的全部节点；

S6、根据所述全部节点建立所述二叉树模型。

6.一种基于用户画像的数据处理装置，其特征在于，所述装置包括：

第一获取单元，用于获取决策树模型输出的第一目标数据关系表，所述第一目标数据关系表中的各个节点与保险代理人的各个特征一一对应；

第一确定单元，用于确定所述第一目标数据关系表中的各个节点的分割规则；

第一存储单元，用于将所述各个节点的分割规则组成的规则集合作为二叉树规则，并将所述二叉树规则进行存储；

第一建立单元，用于根据所述第一目标数据关系表和所述二叉树规则建立二叉树模型；

第二获取单元，用于获取保险代理人特征数据表，遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储，所述二叉树模型的每一个节点存储经过所述节点的保险代理人个数，所述保险代理人特征数据表的每一行对应一个保险代理人的特征数据。

7.根据权利要求6所述的装置，其特征在于，

所述第二获取单元包括：

第一获取模块，用于获取所述第一目标数据关系表中的每一个保险代理人的标签，所述保险代理人的标签为第一标签或第二标签，所述第一标签和所述第二标签用于区分所述保险代理人的专业等级；

第一存储模块，用于在将所述每一个保险代理人特征数据存储到所述二叉树模型的最后一个节点之后，存储所述保险代理人的标签并更新所述第一标签和所述第二标签的数量；

所述装置还包括：第一统计单元，用于在所述第二获取单元遍历所述保险代理人特征数据表中每一个保险代理人特征数据，并将所述每一个保险代理人特征数据输入所述二叉树模型进行存储之后，统计所述二叉树模型中所述第一标签和所述第二标签的数量。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二统计单元，用于在所述第一统计单元统计所述二叉树模型中所述第一标签和所述第二标签的数量之后，采用反向查找的方法分别对所述第一标签和所述第二标签经过的路径进行统计，并将统计结果输出。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基于用户画像的数据处理方法。

10.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至5任意一项所述的基于用户画像的数据处理方法的步骤。