CN113312531A

CN113312531A - 一种基于dpi解析与决策树模型的用户画像识别方法

Info

Publication number: CN113312531A
Application number: CN202110434413.0A
Authority: CN
Inventors: 陈曦; 蓝志坚; 林炫宇
Original assignee: Guangzhou Richstone Technology Co ltd
Current assignee: Guangzhou Richstone Technology Co ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-27

Abstract

本发明公开了一种基于DPI解析与决策树模型的用户画像识别方法，包括以下步骤：S1：获取移动大数据平台的用户各维度数据及互联网数据；S2：对获取的互联网数据进行深度报文检测得到解析后的互联网数据；S3：对移动大数据平台的用户各维度数据和解析后的互联网数据进行数据预处理；S4：构建决策树算法模型，将预处理后的数据作为模型的输入，输出预测类别；S5：选择评估指标对模型进行评估得到准确率符合要求的模型。本发明通过深度报文检测解析用户上网行为，挖掘用户更深层特征属性，结合决策树模型，建立客户全方位的用户画像，使得用户画像更加精细，能够适用不同业务场景。

Description

一种基于DPI解析与决策树模型的用户画像识别方法

技术领域

本发明涉及大数据技术领域，更具体地，涉及一种基于DPI解析与决策树模型的用户画像识别方法。

背景技术

当前国内移动通信行业已进入饱和期，净增用户数增长速度放缓，使得运营商的运营重心逐步倾向存量用户资源的争夺和运营上。用户群体的划分、对于用户需求的精确洞察和及时认知，是根据用户特征进行个性化业务推送，辅助客户留存和新客获取的重要前提。当前运营商用户画像的构建主要基于用户基础信息、服务使用信息、用户通信记录、网络行为数据和地理位置信息等，采用频繁模式挖掘、多分类算法等分析形成用户标签，对客户群进行划分并提供精准推荐服务。

现有技术在实现过程中亦存在一些问题：

(1)用户画像构建不全面：现有技术用户画像实现仍要通过文献查询和市场调研，结合业务场景对用户进行人工划分群体，分类很大程度依据人工经验导致分类不够具体；

(2)现有技术针对运营商的海量数据梳理、挖掘不全面，画像识别只用到部分数据，用户标签建立的精度和广度不足，导致最终分类过于粗糙；

现有技术实现用户画像分类的过程中无法有效处理缺失值，且对异常值相对敏感，对数据完整度及数据预处理程度要求较高。

公开号为CN111191122A的中国发明专利，于2020年5月22日公开了一种基于用户画像的学习资源推荐系统，用于准确的、个性化的推荐课程资源，包括了四大层级，数据采集层，数据处理层，模型算法层，个性化服务层。本发明先采集用户的基本信息,对网站的浏览行为信息，查看的内容信息，评价交流信息。通过采集的信息将我们的数据进行分类和聚集，为每一个学习者建立对应的标签库，将其中的资源进行关联，随着用户的访问次数不停的增加，对当前的学习者建立个人的画像，同时也建立群体画像。通过推荐算法获得的课程资源列表，将其推荐给学习者。记录学习者给予的反馈和点击记录，我们能够做到更加好个性化服务与精确的推荐，可以节约学习者资源的查找时间，同时也能通过画像的方式了解学习者对于知识的学习情况。该方案是基于用户画像构建了一个分层的学习资源推荐系统，没有解决上述用户画像构建过程中存在的问题。

发明内容

本发明为克服现有技术中用户画像构建方法无法适用不同业务场景，用户画像不精细的缺陷，提供一种基于DPI解析与决策树模型的用户画像识别方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

一种基于DPI解析与决策树模型的用户画像识别方法，包括以下步骤：

S1：获取移动大数据平台的用户各维度数据及互联网数据；

S2：对获取的互联网数据进行深度报文检测得到解析后的互联网数据；

S3：对移动大数据平台的用户各维度数据和解析后的互联网数据进行数据预处理；

S4：构建决策树模型，将预处理后的数据作为模型的输入，输出预测类别，所述预测类别为预测职业分类，也即用户画像。

S5：选择评估指标对模型进行评估得到准确率符合要求的模型。

进一步的，获取互联网数据的具体步骤为：

S101：创建爬虫项目project，创建爬虫文件spider；

S102：定义item文件，定义需要爬取的数据字段；

S103：处理爬虫文件spider，定义爬取网页URL，解析网页数据字段，传入item；

S104：处理爬虫中间件Middlewares，在中间件中定义爬虫请求头、爬虫代理信息；

S105：处理管道文件Pipeline，负责在爬虫文件中获取的item文件，并进行后续的筛选、存储；

S106：配置爬虫文件settings，设置robots协议，启动下载延迟、中间件和管道文件。

进一步的，步骤S2中对获取的互联网数据进行深度报文检测得到解析后的互联网数据具体步骤如下：

S201：确认识别目标，将互联网数据内容分类映射到内容分类体系，形成数字内容库；

S202：抓包提取字段以及XDR话单特征提取，扫描字符特征http、user_agent、referrer、uri、host、cookies，对应符合特征更新app_id、srv_app_id；

S203：扫描ac特征项的规则的其它ip、port、content_length、sdl规则项，更新符合特征的app_id、srv_app_id；

S204：扫描没有ac特征项的规则的其它ip、port、content_length、sdl规则项，更新符合特征的app_id、srv_app_id；

S205：结合S1爬取的互联网数据网络内容进行规则匹配；

S206：输出深度检测的解析结果。

进一步的，步骤S3数据预处理的具体过程为：

S301：去掉重复值；

S302：根据特征概率分别对分类变量和连续变量缺失值处理；

S303：分别对分类变量和连续变量进行编码转换为输入向量。

进一步的，构建决策树模型，将预处理后的数据作为模型的输入，输出预测类别具体步骤为：

S401：划分训练集和测试集，输入特征向量，给定阈值ε，初始化模型；

S402：选择目标特征作为根节点，选择数据集D中样本的某一类特征样本作为子节点；

S403：计算基尼系数，计算公式：

其中p_i表示第i种分类的样本率，

N表示样本集D中样本总数，N_i表示第i个分类的样本数量，当基尼系数小于阈值，返回决策树，当前节点停止递归；

S404：根据基尼系数对子节点进行决策，选择基尼系数最小的特征作为最优划分，产生叶节点；

S405：递归所有节点的训练步骤S403，S404生成决策树；

S406：采用后剪枝方法对树进行优化，根据损失函数确定是否剪枝，选择交叉验证结果好的子树作为最优决策树；

S407：输出最优决策树。

进一步的，步骤S6的具体过程为：

S4061：生成算法产生的决策树T₀底端开始不断剪枝直到根节点，形成一个子树序列{T₀,T₁,T_2,...,T_n}；

S4062：计算所有的非叶子节点表面误差率α，形成序列{α₀,α₁,α₂,...,α_n}，误差增益值计算公式：

其中R(t)表示叶子节点的误差代价，R(t)＝r(t).p(t)，r(t)表示节点错误率，p(t)表示节点数据量的占比；R(T)表示子树的误差代价，

r_i(t)为子节点的错误率，p_i(t)表示节点i的数据占比；N(T)表示子树节点个数；

S4063：选择表面误差增益值α_i最下的非叶子节点T_i；

S4064：对T_i进行剪枝。

进一步的，选择评估指标对模型进行评估得到准确率符合要求的识别模型具体为：

选择准确率Precision＝TP/(TP+FP)和召回率recall＝TP/(TP+FN)评价模型效果，其中TP表示正例预测为正例；FP表示负例预测为正例；FN表示正例预测为负例。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过深度报文检测解析用户上网行为，挖掘用户更深层特征属性，结合决策树模型，建立客户全方位的用户画像，使得用户画像更加精细，能够适用不同业务场景。

附图说明

图1为本发明方法流程图。

图2为本发明互联网数据解析流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

本发明基于移动运营商的大数据构建用户画像：用户基础属性、上网行为、套餐消费、位置数据、通信行为等，结合网络采集数据，通过DPI识别处理用户上网行为数据，挖掘深度网络数据，结合DPI识别与树模型挖掘用户所属职业，本发明适用于多种业务场景下不同分类问题的同时，可实现更深层次的用户特征属性区分，以及精细的用户职业识别。

下面以具体的数据为基础阐述本发明的实施过程，本实施例基于GX省移动用户大数据构建用户画像标签，随机取12万用户数据，使用用户基础属性：性别、年龄、籍贯、归属地、入网时长；上网行为数据：常用网站、常用APP、访问次数、访问流量、流量使用高频时间段、XDR信令数据等；消费行为：ARPU、基础套餐费、流量费用、短信费用等；位置数据：白天常驻小区、夜间常驻小区、小区驻留时长等；通信行为：每月通话时长、通话次数、通话天数、主叫次数、被叫次数、每次平均通话时长等；其他数据：手机品牌、终端类型、家庭宽带数据，结合互联网数据采集的DPI识别技术深度挖掘用户上网行为，建立决策树模型，识别用户职业。如图1所示，具体步骤如下：

S1：获取移动大数据平台的用户各维度数据及互联网数据；

在一个具体的实施例中，可以采用hive语句提取移动大数据平台数据中用户各个维度的原始数据，包括用户基础属性、消费属性、通信属性、位置属性、其他属性数据；

进一步的，使用python爬虫技术，scrapy分布式架构爬取目标网站数据，，获取互联网数据的具体步骤为：

S101：创建爬虫项目project，创建爬虫文件spider；

S102：定义item文件，定义需要爬取的数据字段；

S2：对获取的互联网数据进行深度报文检测得到解析后的互联网数据，需要说明的是，所述的互联网数据包括网页数据以及用户APP数据。

如图2所示，具体步骤如下：

S205：结合S1爬取的互联网数据内容进行解析、规则匹配；

S206：输出深度检测的解析结果。如表1所示为解析结果表。

表1解析结果表

通过DPI解析(即深度报文解析)可以获取用户上网行为数据，比如：电商类、视频类、新闻类、游戏类以及APP数据等，以便后续进行不同业务、不同纬度分析、挖掘客户更多价值信息。

S3：对移动大数据平台的用户各维度数据和解析后的互联网数据进行数据预处理；数据预处理的具体过程为：

S301：去掉重复值；

S302：根据特征概率分别对分类变量和连续变量缺失值处理；

S303：分别对分类变量和连续变量进行编码转换为输入向量。

S4：构建决策树模型，将预处理后的数据作为模型的输入，输出预测类别；所述预测类别为预测职业分类，也即用户画像。

例如，标签{老师,快递员,律师,记者,司机,服务员,厨师,医护人员,导游,银行从业人员,证券从业人员,导演,演员,销售人员,科研人员,军警,运动员,商务人士,工人,个体户,农民,其他},离散化处理对应{0,1,2,3,4,5,6,7,8,...,23},采用决策树中的CART算法，输出预测类别，

具体步骤为：

S401：划分训练集和测试集，输入特征向量，初始给定阈值ε＝0.5，初始化模型；

S402：选择“工作常驻小区”作为根节点，选择数据集D中样本的某一类特征样本作为子节点；

S403：计算基尼系数，计算公式：

其中p_i表示第i种分类的样本率，

N表示样本集D中样本总数，N_i表示第i个分类的样本数量，当基尼系数小于阈值，返回决策树，当前节点停止递归；本实施例中，N＝12，N_i表示第i个分类的样本数量。

S405：递归所有节点的训练步骤S43，S44生成决策树；

S406：采用后剪枝方法对树进行优化，根据损失函数确定是否剪枝，选择交叉验证结果好的子树作为最优决策树，具体步骤如下：

S4063：选择表面误差增益值α_i最下的非叶子节点T_i；

S4064：对T_i进行剪枝；

S407：输出最优决策树Y＝{0,1,2,…}。

本发明通过决策树模型可以同时处理分类变量和连续变量，自动处理缺失值和异常值，输出多纬度问题，实现用户职业识别的多分类问题。

S5：选择评估指标对模型进行评估得到准确率符合要求的模型，具体的，可以选择准确率Precision＝TP/(TP+FP)和召回率recall＝TP/(TP+FN)评价模型效果，其中TP表示正例预测为正例；FP表示负例预测为正例；FN表示正例预测为负例。本实施例中模型的准确率72.37％，召回率71.63％。

本发明采用深度报文解析(DPI)与决策树模型结合的方式实现用户职业识别。基于DPI解析，建立DPI规则库，解析XDR信令数据，包括用户用户APP数据、家宽数据、网页浏览数据，识别出用户兴趣偏好、社交关系等；同时基于DPI解析数据建立决策树模型，可以在不同业务场景中调整权重阈值以适应更多分类业务问题，提高发明的适用性，在后续的风险决策、营销工作提供有利技术支撑。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，包括以下步骤：

S1：获取移动大数据平台的用户各维度数据及互联网数据；

S4：构建决策树模型，将预处理后的数据作为模型的输入，输出预测类别；

2.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，获取互联网数据的具体步骤为：

S101：创建爬虫项目project，创建爬虫文件spider；

S102：定义item文件，定义需要爬取的数据字段；

3.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，步骤S2中对获取的互联网数据进行深度报文检测得到解析后的互联网数据具体步骤如下：

S205：结合S1爬取的互联网络数据内容进行规则匹配；

S206：输出深度检测的解析结果。

4.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，步骤S3数据预处理的具体过程为：

S301：去掉重复值；

S302：根据特征概率分别对分类变量和连续变量缺失值处理；

S303：分别对分类变量和连续变量进行编码转换为输入向量。

5.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，构建决策树模型，将预处理后的数据作为模型的输入，输出预测类别具体步骤为：

S403：计算基尼系数，计算公式：

其中p_i表示第i种分类的样本率，

S405：递归所有节点的训练步骤S403，S404生成决策树；

S407：输出最优决策树。

6.根据权利要求5所述的一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，步骤S6的具体过程为：

S4063：选择表面误差增益值α_i最下的非叶子节点T_i；

S4064：对T_i进行剪枝。

7.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法，其特征在于，选择评估指标对模型进行评估得到准确率符合要求的识别模型具体为：