CN111274338A - 一种基于移动大数据的预出境用户识别方法 - Google Patents
一种基于移动大数据的预出境用户识别方法 Download PDFInfo
- Publication number
- CN111274338A CN111274338A CN202010017938.XA CN202010017938A CN111274338A CN 111274338 A CN111274338 A CN 111274338A CN 202010017938 A CN202010017938 A CN 202010017938A CN 111274338 A CN111274338 A CN 111274338A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- feature
- call
- outbound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000007477 logistic regression Methods 0.000 claims abstract description 16
- 230000003068 static effect Effects 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 230000002776 aggregation Effects 0.000 claims abstract description 3
- 238000004220 aggregation Methods 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 11
- 238000011160 research Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000238413 Octopus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
Abstract
本发明涉及一种基于移动大数据的预出境用户识别方法,属于数据挖掘技术领域。该方法包括:采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据,利用所采集数据建立维表数据库;基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征;将用户的行为特征和静态特征进行聚合关联,构建特征宽表;设计特征选择算法,从特征宽表中筛选出与类别强相关的特征子集;借助逻辑回归分类器构建预出境用户识别模型,完成模型的训练、评估与调参;将待测试数据输入识别模型,识别预出境用户。本发明能够有效识别预出境用户,主要用于数据挖掘场合。
Description
技术领域
本发明属于数据挖掘应用领域,涉及基于移动大数据的预出境用户识别方法。
背景技术
移动设备的高普及率带来了移动数据的爆发式增长,移动大数据具有数据采样全面、实时性好等优点,在趋势性分析和潜在用户挖掘领域相当具有权威性,为行业用户挖掘提供良好的便利条件。
随着出境人数逐年递增,出境服务市场迎来良好的发展机遇。用户出境行为准确的预测,对于出境服务产品的定制、精准投放以及出入境管理起到关键性作用。
传统关于出境领域的研究主要是对出国留学人数年变化趋势进行预测,对出国旅游人员进行画像和行为分析,研究数据来源主要是统计调查数据、旅游网站数据等。研究方法主要是基于灰色模型、时间序列分析法、统计分析方法等传统方法。但传统方法研究存在样本量小,预测结果偏差较大、数据真实性和时效性无法保证等诸多问题,并且缺乏对用户出境前的行为研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于移动大数据的预出境用户识别方法,能够有效解决传统方法数据获取成本高,数据真实性无法保证等问题,实现预出境用户的识别,助力出境服务产品的精准投放和高效的出入境管理。
为达到上述目的,本发明提供如下技术方案:
一种基于移动大数据的预出境用户识别方法,具体包括以下步骤:
S1:采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据,利用所采集数据建立维表数据库;
S2:基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征;
S3:将用户的行为特征和静态特征进行聚合关联,构建特征宽表;
S4:设计特征选择算法,从特征宽表中筛选与类别强相关的特征子集;
S5:借助逻辑回归分类器构建预出境用户识别模型,完成模型的训练、评估与调参;
S6:将待测试数据输入识别模型,识别预出境用户。
进一步,步骤S1中,所述维表数据库包括基站维表、APP维表和通话维表,具体构建方法为:
1)采集出境服务机构归属通信基站信息,依据出境服务机构与归属通信基站的一对多映射关系,构建基站维表;
2)采集出境服务APP的详细网络封包信息,撷取APP的域名和关键词,依据APP与域名、关键词的一对多映射关系,构建APP维表;
3)采集出境服务机构的服务通话端口信息,验证通话端口有效性,依据出境服务机构与通话端口的一对多映射关系,构建通话维表。
进一步,步骤S2中,
1)所述通话行为特征包括国际通话行为特征和国内通话行为特征,其中:
A、国际通话行为特征主要为用户拨打国际通话所产生的特征信息,提取步骤包括:从CDR话单中提取有国际通话记录的用户信息;统计用户在数据周期内的总通话时长T1、总通话频次F1和总的通话端口数N1;设定通话频次阈值Fy1;剔除通话频次超过Fy1的用户数据;最后得出用户与每个端口的月均通话时长Tv1和通话频次Fv1;
B、国内通话行为特征主要为用户拨打国内出境服务机构服务电话所产生的特征信息,提取步骤包括:从CDR话单中提取与目标通话端口产生通话记录的用户信息;设定单次通话时长阈值Ty1;剔除单次通话时长Teach小于Ty1的用户数据;统计用户在数据周期内与各通话端口的总通话时长T2、总通话频次F2和各类型的通话端口数N2;最后得出用户和各类型端口的月均通话时长Tv2和通话频次Fv2;
2)所述上网行为特征的提取步骤包括:从上网日志中提取可能使用目标APP的用户信息;设定上网流量阈值Fy2;剔除上网流量Feach小于Fy2的用户数据;统计用户在数据周期内使用的各APP的总上网流量F3、总上网频次F4和各类型的APP数量N3;最后得出用户使用各类型APP的月均流量Fa1和月均频次Fa2;
3)所述出行行为特征的提取步骤包括:从用户轨迹数据中提取在目标地理位置驻留过的用户信息;计算用户每次在目标地理位置的驻留时长T3;设定单次驻留时长阈值Ty2;剔除单次驻留时长T3小于Ty2的用户数据(用户从目标地理位置路过);剔除居住或工作在目标地理位置的用户数据(利用用户职住地数据);统计用户每日在目标地理位置的总驻留时长T4、日出行频次F5和去往各类型目标地理位置的数量N4;最后得出用户在各类型目标地理位置的日均驻留时长Tt1和日均出行频次Ft1。
4)所述静态特征提取的步骤包括:提取用户的年龄和性别信息,对缺失值进行填充处理;对性别进行属性转换,将男女转换为数值0-1;利用自定义分箱法对年龄数据进行离散化处理,首先将年龄转换为年龄区间,然后将年龄区间转换为数值1-6;将转换后的性别、年龄数据作为用户静态特征。
进一步,步骤S3中,所述构建特征宽表的具体步骤包括:将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4和静态特征用户集合U5中的用户ID进行聚合和剔重,得到全部用户集合U6;将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4和U5进行关联匹配,使得同一用户的所有特征汇聚到一起,得到特征聚合后的用户集合U7。
进一步,步骤S4中,所述特征子集筛选的具体步骤包括:确定用于训练的特征数目M1,依据特征和类别的相关性,设定特征评价函数J(x);利用随机森林进行特征重要性排序,筛选出Top M1特征集合Fa;利用GBDT进行特征重要性排序,筛选出Top M1特征集合Fb;利用LightGBM进行特征重要性排序,筛选出Top M1特征集合Fc;将集合Fa、Fb、Fc中的特征进行融合剔重,得到特征集合Fd;采用序列后向选择算法,每次从特征集合Fd中剔除特征x,使得评价函数J(x)最优;直到特征集合的数量达到设定的特征数目M1为止。
进一步,步骤S4中,设定的特征评价函数J(x)为:
其中,x为特征集合中的一个特征,Y为类别,N为训练样本数目。
进一步,步骤S5中,所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括:设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量;对特征数据x进行归一化处理;算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6和分类类型M等众多信息;标签变量y为一个标识用户是否为预出境用户的字段(取值0或者1);逻辑回归算法模型看作是自变量x与因变量y的关系,即y=h(x);对模型进行训练、评估和调参,使模型性能达到最优。
进一步,步骤S5中,加入正则化后的逻辑回归损失函数L(w)为:
其中,p为范数,p=1为L1正则化,p=2为L2正则化;xi为训练集中第i条特征数据,p(xi;w)为训练集第i条特征数据属于正例的概率,1-p(xi;w)为训练集第i条特征数据属于反例的概率,yi为训练集第i条特征数据所对应的真实标签值,m为训练样本数目,w为变量x的加权系数。
本发明的有益效果在于:本发明所述的预出境用户识别方法,结合移动大数据、APP的DPI数据、爬虫数据,利用逻辑回归算法构建识别模型,实现了预出境用户识别的目的。相较于传统的出境领域研究,解决了数据来源的真实性无法保证和数据量较小的问题,开拓性的研究了用户出境前的相关行为,通过大数据与机器学习的结合,极大丰富了出境领域的研究,对于行业的用户挖掘以及出境服务的精准营销具有极大的意义。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述预出境用户识别方法的决策流程图;
图2为本发明的基于移动大数据的构建特征宽表的流程图;
图3为本发明的基于移动大数据的特征筛选流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,图1为一种基于移动大数据的预出境用户识别方法流程图,该方法具体包括:
步骤1、采集出境服务机构的通信基站位置信息,构建基站维表;采集出境服务APP的域名关键词信息,构建APP维表;采集出境服务机构的出境服务通话端口信息,构建通话维表。构建维表数据库,其中包含基站维表、通话维表、APP维表;
1)基站维表构建方法为:利用电信运营商的技术平台,调用百度地图API,搜索出境服务机构地理位置,以出境服务机构地理位置为圆心画圆,然后在圆的基础上画多边形,将出境服务机构地理位置包围起来,确保多边形内部至少有一个基站,从而形成出境服务机构和通信基站的一对多的映射关系,根据服务机构职能将机构类型定义为u1、u2和u3,依据映射规则构建基站维表库,本实施例中基站维表的样本数据格式如表1所示:
表1基站维表样本数据
agency_name | lac | cell | type_id |
荷兰驻重庆总领馆 | 13085 | 63032 | u1 |
市局境外厅 | 13071 | 902255129 | u2 |
海外旅行社 | 13084 | 201964 | u3 |
上述表格中各英文字段的含义如下:agency_name:出境服务机构名称;lac:基站所属的小区号;cell:基站对应的基站号;type_id:出境服务机构的类型。
2)APP维表构建方法为:手机开启数据流量,清空后台应用程序,打开出境服务APP,利用wireshark数据包分析工具捕捉出境APP的数据包信息,经过反复试验确认,获取APP的主域名、关键词、URL,根据APP是否为出境定向APP将APP类型分为v1和v2两种,依据映射规则构建APP维表库,本实施例中APP维表的样本数据格式如表2所示:
表2APP维表样本数据
appname | hostname | keyword | type_id |
穷游网 | m.qyer.com | null | v1 |
六人游-定制 | m.6renyou.com | null | v1 |
携程 | vacations.ctrip.com | inter | v2 |
去哪儿 | touch.dujia.qunar.com | abroad | v2 |
上述表格中各英文字段的含义如下:appname:出境APP的名称;hostname:出境APP的主域名;keyword:URL的出境服务关键词;type_id:出境APP的类型。
3)通话维表构建方法为:利用八爪鱼采集器采集出境服务机构的出境服务电话数据,利用人工实际拨打方式对采集的出境服务电话通过进行有效性验证,依据出境服务机构职能将机构类型定义s1-s6六种,依据映射规则构建通话端口维表库,本实施例中通话维表的样本数据格式如表3所示:
表3通话维表样本数据
上述表格中各英文字段的含义如下:agency_name:出境服务机构名称;quhao:电话所对应的区号;port_no:出境服务机构的服务电话;type_id:出境服务机构的类型。
步骤2、基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征:
1)通话特征包括国际通话特征和国内通话特征,国际通话行为特征主要为用户拨打国际通话所产生的特征信息,国际通话特征提取步骤包括:从CDR话单中提取有国际通话记录的用户信息;统计用户在2个月内的总通话时长T1、总通话频次F1和通话端口数N1;设定通话频次阈值Fy1;当F1>=Fy1时,将该用户数据从结果中剔除;根据T1、F1和N1计算用户与每个端口的月均通话时长Tv1和通话频次Fv1,Tv1和Fv1的计算公式如式(1)、(2)所示:
2)通话特征包括国际通话特征和国内通话特征,国内通话特征提取步骤包括:从CDR话单中提取与目标通话端口产生通话记录的用户信息;设定每次通话时长阈值为Ty1;当用户单次通话时长Teach<Ty1时,将该用户数据从结果中剔除;统计用户在2个月内与各通话端口的通话时长T2、总通话频次F2和各类型的通话端口数N2,根据T2、F2和N2计算用户和各类型端口的月均通话时长Tv2和通话频次Fv2,Tv2和Fv2的计算公式如式(3)、(4)所示:
3)上网行为特征提取步骤包括:从上网日志中提取可能使用目标APP的用户信息;设定APP上网流量阈值为Fy2;当APP消耗流量Feach<Fy2,将该用户数据从结果中剔除;统计用户在数据周期内使用的各APP的上网流量F3、总上网频次F4和各类型的APP数量N3,根据F3、F4和N3计算用户使用各类型APP的月均流量Fa1和月均频次Fa2,Fa1和Fa2的计算公式如式(5)、(6)所示:
4)出行行为特征提取步骤包括:从用户轨迹数据中提取出现在目标地理位置的用户信息,计算用户每次在目标地理位置的驻留时长T3;设定每次驻留时长阈值Ty2;当Ty2<T3,将该用户数据从结果中剔除(用户从目标地理位置路过);剔除居住或工作在目标地理位置的用户数据(利用用户职住地数据);计算用户在目标地理位置的日驻留时长T4、日出行频次F5和去往各类型目标地理位置的日数量N4;根据T4、F5和N4计算用户在各类型目标地理位置的驻留时长Tt1和日均出行频次Ft1,Tt1和Ft1的计算公式如式(7)、(8)所示:
5)静态特征提取步骤包括:提取用户的年龄、性别信息,对缺失值进行填充处理;对性别进行属性转换,将男女转换为数值0-1;利用自定义分箱法对年龄数据进行离散化处理,首先将年龄转换为6个年龄区间[1,18]、[19,23]、[24,34]、[35,44]、[45,54]、[55,110),然后将年龄区间转换为数值1-6;将转换后的性别、年龄数据作为用户静态特征。
步骤3、特征宽表构建方法为如图2所示:将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4、静态特征用户集合U5中的用户ID进行聚合和剔重,得到全部用户集合U6。将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4、U5进行关联匹配,使得同一用户的所有特征汇聚到一起,得到特征聚合后的用户集合,即用户特征宽表U7。
步骤4、设计合适的特征选择算法,从特征宽表中筛选出与类别强相关特征子集:
1)特征子集筛选过程包括:确定用于训练的特征数目M1,依据特征和类别的相关性,设定特征评价函数J(x);利用随机森林进行特征重要性排序,筛选出Top M1特征集合F1;利用GBDT进行特征重要性排序,筛选出Top M1特征集合F2;利用LightGBM进行特征重要性排序,筛选出Top M1特征集合F3;将集合F1、F2、F3中的特征进行融合剔重,得到特征集合F4;采用序列后向选择算法,每次从特征集合F4中剔除特征x,使得评价函数J(x)最优;直到特征集合的数量达到设定的特征数目M1为止;此时的特征集合即为与类别强相关的特征子集。将强相关特征子集作为训练集前,采用最大最小标准化方法对数据进行归一化处理,公式如式(9)所示:
特征评价函数J(x)设计如式(10)所示,其中,x为特征集合中的一个特征,Y为类别,N为训练样本数目。
步骤5、借助逻辑回归算法构建预出境用户识别模型,设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量y;其中特征数据x采用权利要求9所得的结果数据,并对数据进行归一化处理;算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6、分类类型M等众多信息;标签变量y为一个标识用户是否为潜在出境用户的字段(取值0或者1);逻辑回归模型可看作是自变量x与因变量y的关系,即y=h(x);加入正则化后的逻辑回归损失函数L(w)设计如式(11)所示。
其中,式(11)和(12)中,L(w)为损失函数;p为范数,p=1为L1正则化,p=2为L2正则化;xi为训练集中第i条特征数据,p(xi;w)为训练集第i条特征数据属于正例的概率,1-p(xi;w)为训练集第i条特征数据属于反例的概率,yi为训练集第i条特征数据所对应的真实标签值,m为训练样本数目,w为变量x的加权系数。
步骤6、对待测试数据进行数据预处理、特征提取和特征筛选操作,并将筛选后的特征子集数据输入识别模型,判断用户是预出境用户,还是非预出境用户。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读的存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于移动大数据的预出境用户识别方法,其特征在于,该方法具体包括以下步骤:
S1:采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据,利用所采集数据建立维表数据库;
S2:基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征;
S3:将用户的行为特征和静态特征进行聚合关联,构建特征宽表;
S4:设计特征选择算法,从特征宽表中筛选与类别强相关的特征子集;
S5:借助逻辑回归分类器构建预出境用户识别模型,完成模型的训练、评估与调参;
S6:将待测试数据输入识别模型,识别预出境用户。
2.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S1中,所述维表数据库包括基站维表、APP维表和通话维表,具体构建方法为:
1)采集出境服务机构归属通信基站信息,依据出境服务机构与归属通信基站的一对多映射关系,构建基站维表;
2)采集出境服务APP的详细网络封包信息,撷取APP的域名和关键词,依据APP与域名、关键词的一对多映射关系,构建APP维表;
3)采集出境服务机构的服务通话端口信息,验证通话端口有效性,依据出境服务机构与通话端口的一对多映射关系,构建通话维表。
3.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S2中,
1)所述通话行为特征包括国际通话行为特征和国内通话行为特征,其中:
A、国际通话行为特征提取步骤包括:从CDR话单中提取有国际通话记录的用户信息;统计用户在数据周期内的总通话时长T1、总通话频次F1和总的通话端口数N1;设定通话频次阈值Fy1;剔除通话频次超过Fy1的用户数据;最后得出用户与每个端口的月均通话时长Tv1和通话频次Fv1;
B、国内通话行为特征提取步骤包括:从CDR话单中提取与目标通话端口产生通话记录的用户信息;设定单次通话时长阈值Ty1;剔除单次通话时长Teach小于Ty1的用户数据;统计用户在数据周期内与各通话端口的总通话时长T2、总通话频次F2和各类型的通话端口数N2;最后得出用户和各类型端口的月均通话时长Tv2和通话频次Fv2;
2)所述上网行为特征的提取步骤包括:从上网日志中提取可能使用目标APP的用户信息;设定上网流量阈值Fy2;剔除上网流量Feach小于Fy2的用户数据;统计用户在数据周期内使用的各APP的总上网流量F3、总上网频次F4和各类型的APP数量N3;最后得出用户使用各类型APP的月均流量Fa1和月均频次Fa2;
3)所述出行行为特征的提取步骤包括:从用户轨迹数据中提取在目标地理位置驻留过的用户信息;计算用户每次在目标地理位置的驻留时长T3;设定单次驻留时长阈值Ty2;剔除单次驻留时长T3小于Ty2的用户数据;剔除居住或工作在目标地理位置的用户数据;统计用户每日在目标地理位置的总驻留时长T4、日出行频次F5和去往各类型目标地理位置的数量N4;最后得出用户在各类型目标地理位置的日均驻留时长Tt1和日均出行频次Ft1;
4)所述静态特征提取的步骤包括:提取用户的年龄和性别信息,对缺失值进行填充处理;对性别进行属性转换,将男女转换为数值0-1;利用自定义分箱法对年龄数据进行离散化处理,首先将年龄转换为年龄区间,然后将年龄区间转换为数值1-6;将转换后的性别、年龄数据作为用户静态特征。
4.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S3中,所述构建特征宽表的具体步骤包括:将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4和静态特征用户集合U5中的用户ID进行聚合和剔重,得到全部用户集合U6;将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4和U5进行关联匹配,使得同一用户的所有特征汇聚到一起,得到特征聚合后的用户集合U7。
5.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S4中,所述特征子集筛选的具体步骤包括:确定用于训练的特征数目M1,依据特征和类别的相关性,设定特征评价函数J(x);利用随机森林进行特征重要性排序,筛选出Top M1特征集合Fa;利用GBDT进行特征重要性排序,筛选出Top M1特征集合Fb;利用LightGBM进行特征重要性排序,筛选出Top M1特征集合Fc;将集合Fa、Fb、Fc中的特征进行融合剔重,得到特征集合Fd;采用序列后向选择算法,每次从特征集合Fd中剔除特征x,使得评价函数J(x)最优;直到特征集合的数量达到设定的特征数目M1为止。
7.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S5中,所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括:设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量;对特征数据x进行归一化处理;算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6和分类类型M;标签变量y为一个标识用户是否为预出境用户的字段;逻辑回归算法模型看作是自变量x与因变量y的关系,即y=h(x);对模型进行训练、评估和调参,使模型性能达到最优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010017938.XA CN111274338B (zh) | 2020-01-08 | 2020-01-08 | 一种基于移动大数据的预出境用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010017938.XA CN111274338B (zh) | 2020-01-08 | 2020-01-08 | 一种基于移动大数据的预出境用户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274338A true CN111274338A (zh) | 2020-06-12 |
CN111274338B CN111274338B (zh) | 2022-11-08 |
Family
ID=71001528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010017938.XA Active CN111274338B (zh) | 2020-01-08 | 2020-01-08 | 一种基于移动大数据的预出境用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274338B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967611A (zh) * | 2020-08-20 | 2020-11-20 | 贝壳技术有限公司 | 特征生成方法和装置、电子设备和存储介质 |
CN112101999A (zh) * | 2020-09-16 | 2020-12-18 | 智慧足迹数据科技有限公司 | 用户识别方法、装置、电子设备和计算机可读存储介质 |
CN112231299A (zh) * | 2020-09-27 | 2021-01-15 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN112287991A (zh) * | 2020-10-26 | 2021-01-29 | 上海数鸣人工智能科技有限公司 | 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 |
CN113946720A (zh) * | 2020-07-17 | 2022-01-18 | 中国移动通信集团广东有限公司 | 一种识别群组中用户的方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100250529A1 (en) * | 2009-03-27 | 2010-09-30 | Microsoft Corporation | Anticipating interests of an online user |
US20150310336A1 (en) * | 2014-04-29 | 2015-10-29 | Wise Athena Inc. | Predicting customer churn in a telecommunications network environment |
CN107391760A (zh) * | 2017-08-25 | 2017-11-24 | 平安科技(深圳)有限公司 | 用户兴趣识别方法、装置及计算机可读存储介质 |
CN107993085A (zh) * | 2017-10-19 | 2018-05-04 | 阿里巴巴集团控股有限公司 | 模型训练方法、基于模型的用户行为预测方法及装置 |
CN108074414A (zh) * | 2017-12-19 | 2018-05-25 | 广州小鹏汽车科技有限公司 | 一种基于用户行为的常走路径交通信息提醒方法及系统 |
CN110084630A (zh) * | 2019-03-05 | 2019-08-02 | 浙江工业大学之江学院 | 基于梯度提升决策树的用户旅游出行意向及类型预测方法 |
-
2020
- 2020-01-08 CN CN202010017938.XA patent/CN111274338B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100250529A1 (en) * | 2009-03-27 | 2010-09-30 | Microsoft Corporation | Anticipating interests of an online user |
US20150310336A1 (en) * | 2014-04-29 | 2015-10-29 | Wise Athena Inc. | Predicting customer churn in a telecommunications network environment |
CN107391760A (zh) * | 2017-08-25 | 2017-11-24 | 平安科技(深圳)有限公司 | 用户兴趣识别方法、装置及计算机可读存储介质 |
CN107993085A (zh) * | 2017-10-19 | 2018-05-04 | 阿里巴巴集团控股有限公司 | 模型训练方法、基于模型的用户行为预测方法及装置 |
CN108074414A (zh) * | 2017-12-19 | 2018-05-25 | 广州小鹏汽车科技有限公司 | 一种基于用户行为的常走路径交通信息提醒方法及系统 |
CN110084630A (zh) * | 2019-03-05 | 2019-08-02 | 浙江工业大学之江学院 | 基于梯度提升决策树的用户旅游出行意向及类型预测方法 |
Non-Patent Citations (2)
Title |
---|
WANG DAN 等: "Review of Non-intrusive Load Appliance Monitoring", 《2018 IEEE 3RD ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》 * |
王璞 等: "一种轻量级梯度提升机的交通模式识别", 《哈尔滨工业大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113946720A (zh) * | 2020-07-17 | 2022-01-18 | 中国移动通信集团广东有限公司 | 一种识别群组中用户的方法、装置及电子设备 |
CN111967611A (zh) * | 2020-08-20 | 2020-11-20 | 贝壳技术有限公司 | 特征生成方法和装置、电子设备和存储介质 |
CN112101999A (zh) * | 2020-09-16 | 2020-12-18 | 智慧足迹数据科技有限公司 | 用户识别方法、装置、电子设备和计算机可读存储介质 |
CN112231299A (zh) * | 2020-09-27 | 2021-01-15 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN112231299B (zh) * | 2020-09-27 | 2024-02-20 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN112287991A (zh) * | 2020-10-26 | 2021-01-29 | 上海数鸣人工智能科技有限公司 | 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 |
CN112287991B (zh) * | 2020-10-26 | 2024-05-03 | 上海数鸣人工智能科技有限公司 | 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111274338B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274338B (zh) | 一种基于移动大数据的预出境用户识别方法 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN106372072B (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN109492026B (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN110781308B (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN110462604A (zh) | 基于设备使用关联互联网设备的数据处理系统和方法 | |
CN103164474B (zh) | 一种对数据业务进行分析的方法 | |
CN102937951B (zh) | 建立ip地址分类模型的方法、对用户分类的方法及装置 | |
CN109783639A (zh) | 一种基于特征提取的调解案件智能分派方法及系统 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN111405562A (zh) | 一种基于通信行为规律的移动恶意用户识别方法及系统 | |
CN107527240A (zh) | 一种运营商行业产品口碑营销效果鉴定系统及方法 | |
CN106843941A (zh) | 信息处理方法、装置和计算机设备 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN113961712A (zh) | 一种基于知识图谱的诈骗电话分析方法 | |
CN110213152A (zh) | 识别垃圾邮件的方法、装置、服务器及存储介质 | |
CN111510368A (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
Manley et al. | New forms of data for understanding urban activity in developing countries | |
CN105873119A (zh) | 一种移动网络用户群体流量使用行为的分类方法 | |
CN108170841A (zh) | 一种基于信息价值的手机舆情分析决策方法 | |
WO2024001102A1 (zh) | 一种通信行业家庭圈智能识别的方法、装置及设备 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231229 Address after: Room 103, 1st Floor, Building 4, No. 288 Ningxia Road, Shinan District, Qingdao City, Shandong Province, 266000 Patentee after: QINGDAOGLADTRUST MANAGEMENT CO.,LTD. Address before: 400065 Chongqing Nan'an District huangjuezhen pass Chongwen Road No. 2 Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
TR01 | Transfer of patent right |