CN111274338A

CN111274338A - 一种基于移动大数据的预出境用户识别方法

Info

Publication number: CN111274338A
Application number: CN202010017938.XA
Authority: CN
Inventors: 许国良; 张轩; 徐千淞; 李万林; 王超; 雒江涛; 易燕
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Qingdaogladtrust Management Co ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-12
Anticipated expiration: 2040-01-08
Also published as: CN111274338B

Abstract

本发明涉及一种基于移动大数据的预出境用户识别方法，属于数据挖掘技术领域。该方法包括：采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据，利用所采集数据建立维表数据库；基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征；将用户的行为特征和静态特征进行聚合关联，构建特征宽表；设计特征选择算法，从特征宽表中筛选出与类别强相关的特征子集；借助逻辑回归分类器构建预出境用户识别模型，完成模型的训练、评估与调参；将待测试数据输入识别模型，识别预出境用户。本发明能够有效识别预出境用户，主要用于数据挖掘场合。

Description

一种基于移动大数据的预出境用户识别方法

技术领域

本发明属于数据挖掘应用领域，涉及基于移动大数据的预出境用户识别方法。

背景技术

移动设备的高普及率带来了移动数据的爆发式增长，移动大数据具有数据采样全面、实时性好等优点，在趋势性分析和潜在用户挖掘领域相当具有权威性，为行业用户挖掘提供良好的便利条件。

随着出境人数逐年递增，出境服务市场迎来良好的发展机遇。用户出境行为准确的预测，对于出境服务产品的定制、精准投放以及出入境管理起到关键性作用。

传统关于出境领域的研究主要是对出国留学人数年变化趋势进行预测，对出国旅游人员进行画像和行为分析，研究数据来源主要是统计调查数据、旅游网站数据等。研究方法主要是基于灰色模型、时间序列分析法、统计分析方法等传统方法。但传统方法研究存在样本量小，预测结果偏差较大、数据真实性和时效性无法保证等诸多问题，并且缺乏对用户出境前的行为研究。

发明内容

有鉴于此，本发明的目的在于提供一种基于移动大数据的预出境用户识别方法，能够有效解决传统方法数据获取成本高，数据真实性无法保证等问题，实现预出境用户的识别，助力出境服务产品的精准投放和高效的出入境管理。

为达到上述目的，本发明提供如下技术方案：

一种基于移动大数据的预出境用户识别方法，具体包括以下步骤：

S1：采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据，利用所采集数据建立维表数据库；

S2：基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征；

S3：将用户的行为特征和静态特征进行聚合关联，构建特征宽表；

S4：设计特征选择算法，从特征宽表中筛选与类别强相关的特征子集；

S5：借助逻辑回归分类器构建预出境用户识别模型，完成模型的训练、评估与调参；

S6：将待测试数据输入识别模型，识别预出境用户。

进一步，步骤S1中，所述维表数据库包括基站维表、APP维表和通话维表，具体构建方法为：

1)采集出境服务机构归属通信基站信息，依据出境服务机构与归属通信基站的一对多映射关系，构建基站维表；

2)采集出境服务APP的详细网络封包信息，撷取APP的域名和关键词，依据APP与域名、关键词的一对多映射关系，构建APP维表；

3)采集出境服务机构的服务通话端口信息，验证通话端口有效性，依据出境服务机构与通话端口的一对多映射关系，构建通话维表。

进一步，步骤S2中，

1)所述通话行为特征包括国际通话行为特征和国内通话行为特征，其中：

A、国际通话行为特征主要为用户拨打国际通话所产生的特征信息，提取步骤包括：从CDR话单中提取有国际通话记录的用户信息；统计用户在数据周期内的总通话时长T₁、总通话频次F₁和总的通话端口数N₁；设定通话频次阈值F_y1；剔除通话频次超过F_y1的用户数据；最后得出用户与每个端口的月均通话时长T_v1和通话频次F_v1；

B、国内通话行为特征主要为用户拨打国内出境服务机构服务电话所产生的特征信息，提取步骤包括：从CDR话单中提取与目标通话端口产生通话记录的用户信息；设定单次通话时长阈值T_y1；剔除单次通话时长T_each小于T_y1的用户数据；统计用户在数据周期内与各通话端口的总通话时长T₂、总通话频次F₂和各类型的通话端口数N₂；最后得出用户和各类型端口的月均通话时长T_v2和通话频次F_v2；

2)所述上网行为特征的提取步骤包括：从上网日志中提取可能使用目标APP的用户信息；设定上网流量阈值F_y2；剔除上网流量F_each小于F_y2的用户数据；统计用户在数据周期内使用的各APP的总上网流量F₃、总上网频次F₄和各类型的APP数量N₃；最后得出用户使用各类型APP的月均流量F_a1和月均频次F_a2；

3)所述出行行为特征的提取步骤包括：从用户轨迹数据中提取在目标地理位置驻留过的用户信息；计算用户每次在目标地理位置的驻留时长T₃；设定单次驻留时长阈值T_y2；剔除单次驻留时长T₃小于T_y2的用户数据(用户从目标地理位置路过)；剔除居住或工作在目标地理位置的用户数据(利用用户职住地数据)；统计用户每日在目标地理位置的总驻留时长T₄、日出行频次F₅和去往各类型目标地理位置的数量N₄；最后得出用户在各类型目标地理位置的日均驻留时长T_t1和日均出行频次F_t1。

4)所述静态特征提取的步骤包括：提取用户的年龄和性别信息，对缺失值进行填充处理；对性别进行属性转换，将男女转换为数值0-1；利用自定义分箱法对年龄数据进行离散化处理，首先将年龄转换为年龄区间，然后将年龄区间转换为数值1-6；将转换后的性别、年龄数据作为用户静态特征。

进一步，步骤S3中，所述构建特征宽表的具体步骤包括：将上网特征用户集合U₁、出行轨迹特征用户集合U₂、国内通话特征用户集U₃、国际通话特征用户集合U₄和静态特征用户集合U₅中的用户ID进行聚合和剔重，得到全部用户集合U₆；将全部用户集合U₆通过布尔运算式分别和特征用户集合U₁、U₂、U₃、U₄和U₅进行关联匹配，使得同一用户的所有特征汇聚到一起，得到特征聚合后的用户集合U₇。

进一步，步骤S4中，所述特征子集筛选的具体步骤包括：确定用于训练的特征数目M₁，依据特征和类别的相关性，设定特征评价函数J(x)；利用随机森林进行特征重要性排序，筛选出Top M₁特征集合F_a；利用GBDT进行特征重要性排序，筛选出Top M₁特征集合F_b；利用LightGBM进行特征重要性排序，筛选出Top M₁特征集合F_c；将集合F_a、F_b、F_c中的特征进行融合剔重，得到特征集合F_d；采用序列后向选择算法，每次从特征集合F_d中剔除特征x，使得评价函数J(x)最优；直到特征集合的数量达到设定的特征数目M₁为止。

进一步，步骤S4中，设定的特征评价函数J(x)为：

其中，x为特征集合中的一个特征，Y为类别，N为训练样本数目。

进一步，步骤S5中，所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括：设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量；对特征数据x进行归一化处理；算法参数包含惩罚项P、最大迭代次数N₅、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N₆和分类类型M等众多信息；标签变量y为一个标识用户是否为预出境用户的字段(取值0或者1)；逻辑回归算法模型看作是自变量x与因变量y的关系，即y＝h(x)；对模型进行训练、评估和调参，使模型性能达到最优。

进一步，步骤S5中，加入正则化后的逻辑回归损失函数L(w)为：

其中，p为范数，p＝1为L1正则化，p＝2为L2正则化；x_i为训练集中第i条特征数据，p(x_i；w)为训练集第i条特征数据属于正例的概率，1-p(x_i；w)为训练集第i条特征数据属于反例的概率，y_i为训练集第i条特征数据所对应的真实标签值，m为训练样本数目，w为变量x的加权系数。

本发明的有益效果在于：本发明所述的预出境用户识别方法，结合移动大数据、APP的DPI数据、爬虫数据，利用逻辑回归算法构建识别模型，实现了预出境用户识别的目的。相较于传统的出境领域研究，解决了数据来源的真实性无法保证和数据量较小的问题，开拓性的研究了用户出境前的相关行为，通过大数据与机器学习的结合，极大丰富了出境领域的研究，对于行业的用户挖掘以及出境服务的精准营销具有极大的意义。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述预出境用户识别方法的决策流程图；

图2为本发明的基于移动大数据的构建特征宽表的流程图；

图3为本发明的基于移动大数据的特征筛选流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，图1为一种基于移动大数据的预出境用户识别方法流程图，该方法具体包括：

步骤1、采集出境服务机构的通信基站位置信息，构建基站维表；采集出境服务APP的域名关键词信息，构建APP维表；采集出境服务机构的出境服务通话端口信息，构建通话维表。构建维表数据库，其中包含基站维表、通话维表、APP维表；

1)基站维表构建方法为：利用电信运营商的技术平台，调用百度地图API，搜索出境服务机构地理位置，以出境服务机构地理位置为圆心画圆，然后在圆的基础上画多边形，将出境服务机构地理位置包围起来，确保多边形内部至少有一个基站，从而形成出境服务机构和通信基站的一对多的映射关系，根据服务机构职能将机构类型定义为u1、u2和u3，依据映射规则构建基站维表库，本实施例中基站维表的样本数据格式如表1所示：

表1基站维表样本数据

agency_name	lac	cell	type_id
				荷兰驻重庆总领馆	13085	63032	u1
市局境外厅	13071	902255129	u2
				海外旅行社	13084	201964	u3

上述表格中各英文字段的含义如下：agency_name：出境服务机构名称；lac：基站所属的小区号；cell：基站对应的基站号；type_id：出境服务机构的类型。

2)APP维表构建方法为：手机开启数据流量，清空后台应用程序，打开出境服务APP，利用wireshark数据包分析工具捕捉出境APP的数据包信息，经过反复试验确认，获取APP的主域名、关键词、URL，根据APP是否为出境定向APP将APP类型分为v1和v2两种，依据映射规则构建APP维表库，本实施例中APP维表的样本数据格式如表2所示：

表2APP维表样本数据

appname	hostname	keyword	type_id
				穷游网	m.qyer.com	null	v1
六人游-定制	m.6renyou.com	null	v1
				携程	vacations.ctrip.com	inter	v2
去哪儿	touch.dujia.qunar.com	abroad	v2

上述表格中各英文字段的含义如下：appname：出境APP的名称；hostname：出境APP的主域名；keyword：URL的出境服务关键词；type_id：出境APP的类型。

3)通话维表构建方法为：利用八爪鱼采集器采集出境服务机构的出境服务电话数据，利用人工实际拨打方式对采集的出境服务电话通过进行有效性验证，依据出境服务机构职能将机构类型定义s1-s6六种，依据映射规则构建通话端口维表库，本实施例中通话维表的样本数据格式如表3所示：

表3通话维表样本数据

上述表格中各英文字段的含义如下：agency_name：出境服务机构名称；quhao：电话所对应的区号；port_no：出境服务机构的服务电话；type_id：出境服务机构的类型。

步骤2、基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征：

1)通话特征包括国际通话特征和国内通话特征，国际通话行为特征主要为用户拨打国际通话所产生的特征信息，国际通话特征提取步骤包括：从CDR话单中提取有国际通话记录的用户信息；统计用户在2个月内的总通话时长T₁、总通话频次F₁和通话端口数N₁；设定通话频次阈值F_y1；当F₁>＝F_y1时，将该用户数据从结果中剔除；根据T₁、F₁和N₁计算用户与每个端口的月均通话时长T_v1和通话频次F_v1，T_v1和F_v1的计算公式如式(1)、(2)所示：

2)通话特征包括国际通话特征和国内通话特征，国内通话特征提取步骤包括：从CDR话单中提取与目标通话端口产生通话记录的用户信息；设定每次通话时长阈值为T_y1；当用户单次通话时长T_each<T_y1时，将该用户数据从结果中剔除；统计用户在2个月内与各通话端口的通话时长T₂、总通话频次F₂和各类型的通话端口数N₂，根据T₂、F₂和N₂计算用户和各类型端口的月均通话时长T_v2和通话频次F_v2，T_v2和F_v2的计算公式如式(3)、(4)所示：

3)上网行为特征提取步骤包括：从上网日志中提取可能使用目标APP的用户信息；设定APP上网流量阈值为F_y2；当APP消耗流量F_each<F_y2，将该用户数据从结果中剔除；统计用户在数据周期内使用的各APP的上网流量F₃、总上网频次F₄和各类型的APP数量N₃，根据F₃、F₄和N₃计算用户使用各类型APP的月均流量F_a1和月均频次F_a2，F_a1和F_a2的计算公式如式(5)、(6)所示：

4)出行行为特征提取步骤包括：从用户轨迹数据中提取出现在目标地理位置的用户信息，计算用户每次在目标地理位置的驻留时长T₃；设定每次驻留时长阈值T_y2；当T_y2<T₃，将该用户数据从结果中剔除(用户从目标地理位置路过)；剔除居住或工作在目标地理位置的用户数据(利用用户职住地数据)；计算用户在目标地理位置的日驻留时长T₄、日出行频次F₅和去往各类型目标地理位置的日数量N₄；根据T₄、F₅和N₄计算用户在各类型目标地理位置的驻留时长T_t1和日均出行频次F_t1，T_t1和F_t1的计算公式如式(7)、(8)所示：

5)静态特征提取步骤包括：提取用户的年龄、性别信息，对缺失值进行填充处理；对性别进行属性转换，将男女转换为数值0-1；利用自定义分箱法对年龄数据进行离散化处理，首先将年龄转换为6个年龄区间[1,18]、[19,23]、[24,34]、[35,44]、[45,54]、[55,110)，然后将年龄区间转换为数值1-6；将转换后的性别、年龄数据作为用户静态特征。

步骤3、特征宽表构建方法为如图2所示：将上网特征用户集合U₁、出行轨迹特征用户集合U₂、国内通话特征用户集U₃、国际通话特征用户集合U₄、静态特征用户集合U₅中的用户ID进行聚合和剔重，得到全部用户集合U₆。将全部用户集合U₆通过布尔运算式分别和特征用户集合U₁、U₂、U₃、U₄、U₅进行关联匹配，使得同一用户的所有特征汇聚到一起，得到特征聚合后的用户集合，即用户特征宽表U₇。

步骤4、设计合适的特征选择算法，从特征宽表中筛选出与类别强相关特征子集：

1)特征子集筛选过程包括：确定用于训练的特征数目M₁，依据特征和类别的相关性，设定特征评价函数J(x)；利用随机森林进行特征重要性排序，筛选出Top M₁特征集合F₁；利用GBDT进行特征重要性排序，筛选出Top M₁特征集合F₂；利用LightGBM进行特征重要性排序，筛选出Top M₁特征集合F₃；将集合F₁、F₂、F₃中的特征进行融合剔重，得到特征集合F₄；采用序列后向选择算法，每次从特征集合F₄中剔除特征x，使得评价函数J(x)最优；直到特征集合的数量达到设定的特征数目M₁为止；此时的特征集合即为与类别强相关的特征子集。将强相关特征子集作为训练集前，采用最大最小标准化方法对数据进行归一化处理，公式如式(9)所示：

特征评价函数J(x)设计如式(10)所示，其中，x为特征集合中的一个特征，Y为类别，N为训练样本数目。

步骤5、借助逻辑回归算法构建预出境用户识别模型，设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量y；其中特征数据x采用权利要求9所得的结果数据，并对数据进行归一化处理；算法参数包含惩罚项P、最大迭代次数N₅、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N₆、分类类型M等众多信息；标签变量y为一个标识用户是否为潜在出境用户的字段(取值0或者1)；逻辑回归模型可看作是自变量x与因变量y的关系，即y＝h(x)；加入正则化后的逻辑回归损失函数L(w)设计如式(11)所示。

其中，式(11)和(12)中，L(w)为损失函数；p为范数，p＝1为L1正则化，p＝2为L2正则化；x_i为训练集中第i条特征数据，p(x_i；w)为训练集第i条特征数据属于正例的概率，1-p(x_i；w)为训练集第i条特征数据属于反例的概率，y_i为训练集第i条特征数据所对应的真实标签值，m为训练样本数目，w为变量x的加权系数。

步骤6、对待测试数据进行数据预处理、特征提取和特征筛选操作，并将筛选后的特征子集数据输入识别模型，判断用户是预出境用户，还是非预出境用户。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读的存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于移动大数据的预出境用户识别方法，其特征在于，该方法具体包括以下步骤：

S6：将待测试数据输入识别模型，识别预出境用户。

2.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S1中，所述维表数据库包括基站维表、APP维表和通话维表，具体构建方法为：

3.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S2中，

A、国际通话行为特征提取步骤包括：从CDR话单中提取有国际通话记录的用户信息；统计用户在数据周期内的总通话时长T₁、总通话频次F₁和总的通话端口数N₁；设定通话频次阈值F_y1；剔除通话频次超过F_y1的用户数据；最后得出用户与每个端口的月均通话时长T_v1和通话频次F_v1；

B、国内通话行为特征提取步骤包括：从CDR话单中提取与目标通话端口产生通话记录的用户信息；设定单次通话时长阈值T_y1；剔除单次通话时长T_each小于T_y1的用户数据；统计用户在数据周期内与各通话端口的总通话时长T₂、总通话频次F₂和各类型的通话端口数N₂；最后得出用户和各类型端口的月均通话时长T_v2和通话频次F_v2；

3)所述出行行为特征的提取步骤包括：从用户轨迹数据中提取在目标地理位置驻留过的用户信息；计算用户每次在目标地理位置的驻留时长T₃；设定单次驻留时长阈值T_y2；剔除单次驻留时长T₃小于T_y2的用户数据；剔除居住或工作在目标地理位置的用户数据；统计用户每日在目标地理位置的总驻留时长T₄、日出行频次F₅和去往各类型目标地理位置的数量N₄；最后得出用户在各类型目标地理位置的日均驻留时长T_t1和日均出行频次F_t1；

4.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S3中，所述构建特征宽表的具体步骤包括：将上网特征用户集合U₁、出行轨迹特征用户集合U₂、国内通话特征用户集U₃、国际通话特征用户集合U₄和静态特征用户集合U₅中的用户ID进行聚合和剔重，得到全部用户集合U₆；将全部用户集合U₆通过布尔运算式分别和特征用户集合U₁、U₂、U₃、U₄和U₅进行关联匹配，使得同一用户的所有特征汇聚到一起，得到特征聚合后的用户集合U₇。

5.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S4中，所述特征子集筛选的具体步骤包括：确定用于训练的特征数目M₁，依据特征和类别的相关性，设定特征评价函数J(x)；利用随机森林进行特征重要性排序，筛选出Top M₁特征集合F_a；利用GBDT进行特征重要性排序，筛选出Top M₁特征集合F_b；利用LightGBM进行特征重要性排序，筛选出Top M₁特征集合F_c；将集合F_a、F_b、F_c中的特征进行融合剔重，得到特征集合F_d；采用序列后向选择算法，每次从特征集合F_d中剔除特征x，使得评价函数J(x)最优；直到特征集合的数量达到设定的特征数目M₁为止。

6.根据权利要求5所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S4中，设定的特征评价函数J(x)为：

7.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S5中，所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括：设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量；对特征数据x进行归一化处理；算法参数包含惩罚项P、最大迭代次数N₅、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N₆和分类类型M；标签变量y为一个标识用户是否为预出境用户的字段；逻辑回归算法模型看作是自变量x与因变量y的关系，即y＝h(x)；对模型进行训练、评估和调参，使模型性能达到最优。

8.根据权利要求7所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S5中，加入正则化后的逻辑回归损失函数L(w)为：