CN111212381A - 移动用户行为数据分析方法、装置、计算机设备和介质 - Google Patents

移动用户行为数据分析方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN111212381A
CN111212381A CN201911311311.9A CN201911311311A CN111212381A CN 111212381 A CN111212381 A CN 111212381A CN 201911311311 A CN201911311311 A CN 201911311311A CN 111212381 A CN111212381 A CN 111212381A
Authority
CN
China
Prior art keywords
user
data
base station
information
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911311311.9A
Other languages
English (en)
Other versions
CN111212381B (zh
Inventor
古炳松
黎毅
胡勇
吴淦浩
刘艺彬
田俊锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China ComService Construction Co Ltd
Original Assignee
China ComService Construction Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China ComService Construction Co Ltd filed Critical China ComService Construction Co Ltd
Priority to CN201911311311.9A priority Critical patent/CN111212381B/zh
Publication of CN111212381A publication Critical patent/CN111212381A/zh
Application granted granted Critical
Publication of CN111212381B publication Critical patent/CN111212381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请涉及一种移动用户行为数据分析方法、装置、计算机设备和存储介质,通过移动通信数据中的基站信息计算得到通信用户位置信息,根据移动通信数据和互联网业务数据中相同的用户标识、在相同时间间隔内的时间信息和相同的用户位置信息,将移动通信数据和互联网业务数据关联,得到关联数据集合,提取关联数据集合对应的用户特征数据,得到对应的用户特征数据集合;将用户特征数据集合根据用户位置信息聚类到包括区域划分的数字地图中对应的区域;对各个数字地图区域对应的用户特征数据集合进行统计分析,可以更全面地得到各个数字地图区域对应的用户行为特征,提高对用户行为特征分析的准确性。

Description

移动用户行为数据分析方法、装置、计算机设备和介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种移动用户行为数据分析方法、装置、计算机设备和存储介质。
背景技术
随着4G网络的深度覆盖,带动互联网业务的高速发展,移动用户通过手机在网上的点击、浏览、购物、游戏等行为均被记录下来,形成了海量级的极具分析价值的“互联网大数据”,反映着用户的兴趣与需求,可以极大地提升运营商市场部门营销策略;在线下,用户的行为轨迹数据,反映着用户聚焦的热点区域,同时也反映着群体的真实行为模式,可以为政府部门及企业在商业活动、公共安全、群治群防等等方面提供数据支撑。
传统方案中,通常使用移动通信数据来对用户行为进行分析,而移动通信数据仅局限于本网络的用户行为,无法全面地呈现用户的行为特征,导致分析后得到的用户行为特征不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的移动用户行为数据分析方法、装置、计算机设备和存储介质。
一种移动用户行为数据分析方法,所述方法包括:
采集移动通信数据和互联网业务数据;所述移动通信数据包括通信用户标识、通信时间信息和基站信息;所述互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
根据所述基站信息,计算得到移动通信数据中的通信用户位置信息;
根据所述通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合;
在所述关联数据集合中提取用户特征数据,得到用户特征数据集合;所述用户特征数据集合包括用户位置信息;
获取包括区域划分的数字地图;
将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
在其中一个实施例中,所述方法还包括:
获取深度包检测的数据、呼叫详细记录的数据和基站测量数据;所述深度包检测的数据包括第一通信时间、第一用户通信标识、第一基站服务区信息;所述呼叫详细记录的数据包括第二通信时间、第二用户通信标识、第二基站服务区信息;所述基站测量数据包括第三通信时间、第三基站服务区信息;
根据所述第一通信时间、第二通信时间和第三通信时间在相同时间间隔内的通信时间、所述第一用户通信标识和第二用户通信标识中相同的用户通信标识、所述第一基站服务区信息、第二基站服务区信息和第三基站服务区信息相同的基站服务区信息,将所述深度包检测的数据、呼叫详细记录的数据和基站测量数据相关联,生成移动通信数据。
在其中一个实施例中,所述基站信息包括信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息,所述根据所述基站信息,计算得到移动通信数据中的通信用户位置信息包括:
根据所述信号在用户终端与基站间的传播时间和距离之间的转换关系,得到用户终端与基站间的距离;
根据所述信号在用户终端与基站间的传播角度确定用户终端相对于基站的方向;
根据所述用户终端与基站间的距离、用户终端相对于基站的方向、基站的位置信息,计算得到移动通信数据中的通信用户位置信息。
在其中一个实施例中,所述方法还包括:
当移动通信数据中不包括所述基站信息时,获取基站的小区邻区表;
根据所述小区邻区表确定基站的主服务区和邻服务区集合;
所述移动通信数据包括信号接收功率;根据所述信号接收功率,在所述邻服务区集合中提取至少一个邻服务区作为目标邻服务区;所述目标邻服务区与主服务区的信号接收功率间的差值不大于差值阈值;
获取所述主服务区和目标邻服务区的基站信息;根据所述主服务区和目标邻服务区的基站信息,计算得到移动通信数据中的通信用户位置信息。
在其中一个实施例中,所述方法还包括:
获取所述通信用户位置信息所在的第一坐标系和所述业务用户位置信息所在的第二坐标系;
当所述第一坐标系与所述第二坐标系不同时,获取第一坐标系和第二坐标系间的转换关系,将第二坐标系下的业务用户位置信息转换为第一坐标系下的业务用户位置信息;
将所述通信用户位置信息和第一坐标系下的业务用户位置信息进行匹配,得到相同的用户位置信息。
在其中一个实施例中,所述将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域包括:
对所述用户特征数据集合进行归一化处理,得到目标用户特征数据集合;
以每个数字地图区域为聚类中心,将所述目标用户特征数据集合根据目标用户位置信息聚类到对应的数字地图区域中。
在其中一个实施例中,所述对各个数字地图的区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征包括:
将所述各个数字地图区域对应的用户特征数据集合按预设的时间间隔进行统计,将统计后的结果与预设的阈值进行比较,得到比较后的结果;
根据所述比较后的结果,生成每个数字地图区域对应的用户行为标签。
一种移动用户行为数据分析装置,所述装置包括:
数据采集模块,用于采集移动通信数据和互联网业务数据;所述移动通信数据包括通信用户标识、通信时间信息和基站信息;所述互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
通信用户位置信息生成模块,用于根据所述基站信息,计算得到移动通信数据中的通信用户位置信息;
数据关联模块,用于根据所述通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置和业务用户位置中相同的用户位置信息,将所述移动通信数据和所述互联网业务数据相关联,得到关联数据集合;
数据提取模块,用于在关联数据集合中提取用户特征数据,得到用户特征数据集合;所述用户特征数据集合包括用户位置信息;
数字地图获取模块,用于获取包括区域划分的数字地图;
数据聚类模块,用于将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
数据分析模块,用于对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
采集移动通信数据和互联网业务数据;所述移动通信数据包括通信用户标识、通信时间信息和基站信息;所述互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
根据所述基站信息,计算得到移动通信数据中的通信用户位置信息;
根据所述通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合;
在所述关联数据集合中提取用户特征数据,得到用户特征数据集合;所述用户特征数据集合包括用户位置信息;
获取包括区域划分的数字地图;
将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集移动通信数据和互联网业务数据;所述移动通信数据包括通信用户标识、通信时间信息和基站信息;所述互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
根据所述基站信息,计算得到移动通信数据中的通信用户位置信息;
根据所述通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合;
在所述关联数据集合中提取用户特征数据,得到用户特征数据集合;所述用户特征数据集合包括用户位置信息;
获取包括区域划分的数字地图;
将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
上述移动用户行为数据分析方法、装置、计算机设备和存储介质,通过采集移动通信数据和互联网业务数据,利用移动通信数据中的基站信息计算得到通信用户位置信息,根据移动通信数据和互联网业务数据中相同的用户标识、在相同时间间隔内的时间信息和相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合,提取关联数据集合中的用户特征数据,得到用户特征数据集合;获取包括区域划分的数字地图,将用户特征数据集合根据用户位置信息聚类到对应的数字地图区域中;对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。通过将移动通信数据和互联网业务数据关联,利用关联数据集合来对用户行为特征进行统计分析,得到的用户行为特征更加全面,可提高对用户行为特征分析的准确性。
附图说明
图1为一个实施例中移动用户行为数据分析方法的应用场景图;
图2为一个实施例中移动用户行为数据分析方法的流程示意图;
图3为一个实施例中TADV三圆定位方法的示意图;
图4为一个实施例中AOA定位方法的示意图;
图5为另一个实施例中移动用户行为数据分析方法的流程示意图;
图6为一个实施例中移动用户行为数据分析装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的移动用户行为数据分析方法,可以应用于如图1所示的应用环境中。其中,在基站104的服务区域内,终端102可以通过基站104提供的网络与服务器106通过网络进行通信。其中,终端102可以是一个,也可以是多个,如图1所示,102a、102b和102c都是终端。终端102在使用移动通信和互联网时,会产生相应的数据。服务器106对终端102产生移动通信数据和互联网业务数据进行采集。其中,移动通信数据包括通信用户标识、通信时间信息和基站信息。互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息。利用基站信息,计算得到移动通信数据中的通信用户位置信息。再根据移动通信数据和互联网业务数据中相同的用户标识、在相同时间间隔内的时间信息和相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合,提取关联数据集合中的用户特征数据,得到用户特征数据集合;获取包括区域划分的数字地图,将用户特征数据集合根据用户位置信息聚类到对应的数字地图区域中;对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种移动用户行为数据分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,采集移动通信数据和互联网业务数据;移动通信数据包括通信用户标识、通信时间信息和基站信息;互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息。
其中,移动通信数据和互联网业务数据都有各自的数据结构,数据结构中包括数据的字段、数据类型等。移动通信数据是用户终端使用移动通信时产生的数据。其中,通信用户标识用于唯一标识使用移动通信的用户,可以是移动通信数据中字段为imsi的国际移动用户识别码。通信时间信息用于记录用户触发移动通信的时间,可以是移动通信数据中字段为time的移动通信触发时间。基站信息用于唯一标识基站,可以是移动通信数据中字段为enb_id的基站标识。而互联网业务数据是OTT(Over The Top,通过互联网向用户提供各种应用服务)数据。其中,业务用户标识用于唯一标识使用互联网业务的用户,可以是互联网业务数据中字段为IMSI的国际移动用户识别码。业务时间信息包括用户触发互联网业务的时间信息,可以是互联网业务数据中字段为time的互联网业务触发时间。业务用户位置信息用于记录用户触发互联网业务时的位置信息,可以由是互联网业务数据中字段为longitude的经度信息和字段为latitude的纬度信息组成的位置信息。
具体地,在基站104的服务区域内,用户通过终端102与服务器106进行通信,包括移动通信和互联网业务,从而产生了大量的移动通信数据和互联网业务数据。服务器106通过数据采集引擎来采集移动通信数据和互联网业务数据。
在一个实施例中,采用flume(可分布式日志收集系统)来对数据进行采集。先使用多个flume节点分别采集移动通信数据和互联网业务数据,再将多个flume节点采集到的数据汇聚到一个节点中。
在一个实施例中,采用flume和kafka(可持久化的分布式的消息队列)结合的方式来对数据进行采集。先使用多个flume节点分别采集移动通信数据和互联网业务数据,然后将其汇聚到一个节点,再将汇聚的数据存储到kafka消息队列中等待被分析。
在一个实施例中,采用flume和kafka结合的方式对数据进行采集,并设置磁盘空间检查点。在采集数据的同时,磁盘空间检查点对磁盘空间进行检测。当检测到磁盘剩余空间小于1G时,提示告警并停止采集数据,防止数据丢失。
在一个实施例中,对所采集到的数据进行监测,当监测到缺失的数据时,如为null值、空值、非法字符,则将整条测量记录删除,避免缺失数据占用磁盘空间。
步骤204,根据基站信息,计算得到移动通信数据中的通信用户位置信息。
其中,基站信息包括基站的位置信息、基站信号的测量信息等信息,在移动通信数据中,基站的位置信息包括字段为CELL_ID的基站服务区定位信息等信息;基站信号的测量信息包括字段为RSRP的信号接收功率、字段为AOA的信号在用户终端与基站间的传播角度以及字段为TADV的信号在用户终端与基站间的传播时间等信息。通信用户位置信息用于记录用户触发移动通信时的位置信息。
具体地,由于用户是在基站的服务范围内触发移动通信的,也就是说用户在触发移动通信时,用户终端会与对应的基站产生交互。在交互过程中,会产生用户终端对于基站信号的信号接收功率、信号在用户终端与基站间的传播时间以及信号在用户终端与基站间的传播角度等基站信号的测量信息,因此可以根据基站的位置信息以及基站信号的测量信息计算得到用户触发移动通信时的位置信息,即通信用户位置信息。
步骤206,根据通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合。
其中,通信用户标识、通信时间信息和通信用户位置信息是用户终端触发移动通信时产生的数据,业务用户标识、业务时间信息和业务用户位置信息是用户终端触发互联网业务时产生的数据。而同一用户终端既可以触发移动通信也可以触发互联网业务,一般情况下,同一用户终端会有对应的移动通信数据和互联网业务数据。根据用户标识、时间信息和用户位置信息将移动通信数据和互联网业务数据相关联,可以更好地统计分析用户行为特征。
具体地,将通信用户标识和业务用户标识进行匹配,得到移动通信数据和互联网业务数据中相同的用户标识。由于,通信时间信息来自移动通信数据,业务时间信息来自互联网业务数据,两类数据的采集时间粒度有所差异。因此,为了保证两类数据能够匹配,在将通信时间信息和业务时间信息进行匹配时,不需要将相同的时间进行匹配,而是规定一个时间间隔,再将落在同一时间间隔的通信时间和业务时间进行匹配,得到移动通信数据和互联网业务数据在相同时间间隔内的时间信息。将通信用户位置信息和业务用户位置信息进行匹配,得到移动通信数据和互联网业务数据中相同的用户位置信息。根据相同的用户标识、相同的时间间隔内的时间信息以及相同的用户位置信息,将移动通信数据和互联网业务数据相关联,可以得到关联数据集合。
在一个实施例中,上述通信时间信息和业务时间信息匹配时的时间间隔可以取为10秒。
在一个实施例中,对匹配后的数据进行监测,当监测到匹配异常或无法匹配的数据时,将其删除,避免异常数据占用磁盘空间。
步骤208,提取关联数据集合对应的用户特征数据,得到用户特征数据集合,用户特征数据集合包括用户位置信息。
其中,关联数据集合包括移动通信数据和互联网业务数据,即包括用户标识、时间信息、基站信息和用户位置信息。用户特征数据指的是可以代表用户行为的特征数据,如用户位置信息。
具体地,根据数据在系统中定义的字段,在关联数据集合中提取对应的用户特征数据。例如,在关联数据集合中提取字段为longitude的数据,可以得到代表用户经度信息的数据;在关联数据集合中提取字段为latitude的数据,可以得到代表用户纬度信息的数据。
步骤210,获取包括区域划分的数字地图。
其中,数字地图是由电子计算机控制生成的、携带经纬度信息的地图,以数字方式存储和查阅,例如百度地图、高德地图等。包括区域划分的数字地图指的是该数字地图是经过区域划分处理的。
具体地,在一个实施例中,可以根据地理信息对数字地图进行区域划分,比如地形、国家、省份等信息。
在一个实施例中,也可以根据数字地图的经纬度对数字地图进行区域划分,比如将数字地图划分为多个长度和宽度都为10米的正方形栅格。
在一个实施例中,也可以利用Polygon函数对数字地图进行自主划分。
步骤212,将用户特征数据集合根据用户位置信息聚类到对应的数字地图区域。
其中,聚类是将数据分类到不同类别的过程,所以同一个类别中的对象有很大的相似性,而不同类别间的对象有很大的差异性。
具体地,用户特征数据集合包括用户位置信息。数字地图区域包括区域信息。由于用户位置信息是由通信用户位置信息和业务用户位置信息关联匹配后得到的,而通信用户位置信息和业务用户位置信息可能会存在一定的误差,导致用户位置信息的准确度较低。所以不能直接根据用户位置信息和区域信息将用户特征数据集合匹配到对应的数字地图区域中,应该使用聚类算法,将用户特征数据集合聚类到对应的数字地图区域中。计算每个用户终端的用户位置信息和各个数字地图区域的区域信息的相似度,将每个用户终端对应的各个用户特征数据划分到相似度最高的数字地图区域中,可以得到各个数字地图区域对应的用户特征数据集合。
步骤214,对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
具体地,数字地图区域对应的用户特征数据集合包括多种类型的用户特征数据,如用户标识。可以根据用户特征数据的类型,将数字地图区域中相同类型的用户特征数据进行统计分析。例如,将数字地图区域中用户标识的个数进行累加,可以得到数字地图区域中对应的用户数。
上述移动用户行为数据分析方法中,通过采集移动通信数据和互联网业务数据,利用移动通信数据中的基站信息计算得到通信用户位置信息,根据移动通信数据和互联网业务数据中相同的用户标识、在相同时间间隔内的时间信息和相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合,提取关联数据集合中的用户特征,得到用户特征数据集合;获取包括区域划分的数字地图,将用户特征数据集合根据用户位置信息聚类到对应的数字地图区域中;对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。通过将移动通信数据和互联网业务数据关联,利用关联数据集合来对用户行为特征进行统计分析,得到的用户行为特征更加全面,可提高对用户行为特征分析的准确性。
在一个实施例中,方法还包括:获取深度包检测的数据、呼叫详细记录的数据和基站测量数据;深度包检测的数据包括第一通信时间、第一用户通信标识、第一基站服务区信息;呼叫详细记录的数据包括第二通信时间、第二用户通信标识、第二基站服务区信息;基站测量数据包括第三通信时间、第三基站服务区信息;根据第一通信时间、第二通信时间和第三通信时间在相同时间间隔内的通信时间、第一用户通信标识和第二用户通信标识中相同的用户通信标识、第一基站服务区信息、第二基站服务区信息和第三基站服务区信息相同的基站服务区信息,将深度包检测的数据、呼叫详细记录的数据和基站测量数据相关联,生成移动通信数据。
其中,DPI(Deep Packet Inspection,深度包检测)数据主要包括用户通信标识、用户终端信息和用户第三方应用账号等,可以识别网络上的流量类别、以及应用层上的应用种类。CDR(Calling detail records,呼叫详细记录)数据主要包括用户通信标识、用户终端信息和用户通信信息等,用于描述呼叫接续的过程,通过对CDR数据进行分析和处理,可以为固定电话网或移动电话网业务提供分析的基础。MR(Measurement Report,测量报告)指的是信息在业务信道上每480ms(信令信道上470ms)发送一次数据,可以用于网络评估和优化。MR数据主要包括基站信息,如基站标识。因为DPI数据、CDR数据和MR数据具有碎片性、非结构性的特点,所以需要将其重新定义为结构化的数据,将这三种数据关联,生成移动通信数据,方便数据的管理与分析。
具体地,在DPI数据中提取字段为time、imsi、enb_id和CELL_Id的数据,对应得到第一通信时间(time)、第一用户标识(imsi)和第一基站服务区信息(enb_id和CELL_Id)。在CDR数据中提取字段为CALL_CURRENT_TIMESTAMP、IMSI、CELL_ID和SECTOR_ID的数据,对应得到第二通信时间(CALL_CURRENT_TIMESTAMP)、第二用户通信标识(IMSI)和第二基站服务区信息(CELL_ID和SECTOR_ID)。在MR数据中提取字段为TimeStamp、eNodeBID、LteScEarfcn和LteScPci的数据,对应得到第三通信时间(TimeStamp)和第三基站服务区信息(eNodeBID、LteScEarfcn和LteScPci)。将第一通信时间、第二通信时间和第三通信时间在相同时间间隔内进行匹配,得到DPI、CDR和MR数据在相同时间间隔内的通信时间。将第一基站服务区信息、第二基站服务区信息和第三基站服务区信息进行匹配,得到DPI、CDR和MR数据中相同的基站服务区。将第一用户通信标识和第二用户通信标识进行匹配,得到DPI和CDR数据中相同的用户通信标识。利用在相同时间间隔内的通信时间、相同的基站服务区以及相同的用户通信标识,将DPI、CDR和MR数据相关联,将关联后的数据作为移动通信数据。
在本实施例中,利用DPI、CDR和MR数据中相同的数据将DPI、CDR和MR数据关联,使碎片性的、非结构性的源数据成为结构化的移动通信数据,方便数据的管理和分析。
在一个实施例中,基站信息包括信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息,步骤204包括:根据信号在用户终端与基站间的传播时间和距离之间的转换关系,得到用户终端与基站间的距离;根据信号在用户终端与基站间的传播角度确定用户终端相对于基站的方向;根据用户终端与基站间的距离、用户终端相对于基站的方向、基站的位置信息,计算得到移动通信数据中的通信用户位置信息。
其中,信号在用户终端与基站间的传播时间(TADV)是反映用户终端与基站间的距离的主要指标。4G协议规定了基本时间单位Ts,且1Ts=1÷(15000×2048)S(秒)。则1Ts对应的距离为(3×108×(1÷(15000×2048)))÷2=4.98m(米)。而1TADV=16Ts,因此,1TADV=16×4.89=78.12m(米)。信号在用户终端与基站间的传播角度(AOA)反映了用户终端相对于基站的方向。
具体地,将信号在用户终端与基站间的传播时间转换为对应的用户终端与基站间的距离。根据信号在用户终端与基站间的传播角度得到用户终端相对于基站的方向。由基站的位置信息确定基站的经纬度,将基站所在位置视为点A。利用用户终端相对于基站的方向,将点A作为端点引出一条射线。再利用用户终端与基站间的距离,在射线上取得一点,该点即为用户终端所在的位置,从而得到移动通信数据中的第一用户位置信息。
在一个实施例中,利用TADV三圆定位方法来计算第一用户位置信息。获取三个基站的TADV数据,即信号在用户终端与三个基站间的传播时间,并将其转换为用户终端与三个基站间的距离,分别为r1、r2、r3。如图3所示,获取三个基站的位置信息,以三个基站所在的位置为圆心,即点BS1、BS2、BS3,以r1、r2、r3为半径,绘制三个圆,可得到三个圆相交于一点MS,点MS即为用户终端所在的位置。
在一个实施例中,利用AOA定位方法来计算第一用户位置信息。如图4所示,获取两个基站的AOA数据,即信号在用户终端与基站间的传播角度,从而得到用户终端相对于基站的方向α1和α2。获取两个基站的位置信息,将两个基站所在的位置分别即为点BS1和点BS2,将点BS1和BS2作为端点,以角度α1和α2分别引出两条射线,两条射线相交于一点,将该点即为MS,点MS即为用户终端所在的位置。
在一个实施例中,当基站为非视距基站,利用TADV、AOA或者TADV和AOA混合的定位方法对用户终端所在的位置进行计算时,可以利用最小二乘法来估算用户终端所在的位置。
在一个实施例中,可以使用指纹定位算法来对通信用户位置信息进行计算。
在本实施例中,利用移动通信数据中的基站信息计算得到通信用户位置,为移动通信数据和互联网业务数据关联提供了基础,提高了移动通信数据和互联网业务数据关联的紧密性。
在一个实施例中,当移动通信数据中不包括所述基站信息时,步骤204包括:获取基站的小区邻区表;根据小区邻区表确定基站的主服务区和邻服务区集合;移动通信数据包括信号接收功率;根据信号接收功率,在邻服务区集合中提取至少一个邻服务区作为目标邻服务区;目标邻服务区与主服务区的信号接收功率间的差值不大于差值阈值;获取主服务区和目标邻服务区的基站信息;根据主服务区和目标邻服务区的基站信息,计算得到移动通信数据中的通信用户位置信息。
其中,小区邻区表是基站的服务区列表,用于记录基站当前可用的服务区信息,包括主服务区和邻服务区。信号接收功率(Reference Signal Receiving Power,RSRP)反映了无线信号的强度。例如,当RSRP值小于等于-105dBm时,信号覆盖较差;而当RSRP值大于-65dBm时,信号覆盖较好。由于基站具有多个邻服务区,所以在小区邻区表中得到的是邻服务区集合。
具体地,移动通信数据中包括字段为LteScEarfcn(主小区载波号)、LteScPci(主小区标识)、LteNcEarfcn(邻小区载波号)和LteNcpci(邻小区标识)的数据。将移动通信数据和小区邻区表关联,可以通过字段LteScEarfcn和LteScPci在小区邻区表中确定基站的主服务区,通过字段LteNcEarfcn和LteNcpci在小区邻区表中确定主服务区的邻服务区集合。其中,邻服务区集合包含多个邻服务区,每个邻服务区的RSRP值不同,为了通信用户位置信息计算的准确性,需要在邻服务区集合中提取出RSRP值最大的邻服务区作为目标邻服务区;并且,主服务区的RSRP值需要大于一定的阈值,目标邻服务区和主服务区的RSRP差值需要不大于一定的差值阈值。例如,将主服务区的RSRP值阈值设为-105dBm,将差值阈值设为15dBm,那么只有当主服务区的RSRP值不小于-105dBm并且目标邻服务区和主服务区的RSRP差值不大于15dBm时,才进行通信用户位置信息的计算。
进一步地,获取满足条件的主服务区和目标邻服务区的基站信息,在获取到这些基站信息之后,可以通过TADV三圆定位方法、AOA定位方法或者TADV和AOA混合的定位方法来计算得到移动通信数据中的通信用户位置信息。其中,目标邻服务区可以是一个或一个以上。当目标邻服务区只有一个的时候,不可以使用TADV三圆定位方法;当目标邻服务区有一个以上的时候,可以使用以上任意一种定位方法。
在一个实施例中,邻服务区集合中包括主服务区的偏向小区。同站址一般有三个不同向的小区,主服务区的偏向小区是同站址中除主服务区外RSRP值最高的服务区。因此,可以直接根据主服务区的站址和同站址中另外两个服务区的RSRP值来确定主服务区的偏向小区。将主服务区的偏向小区作为目标邻服务区,可以提高提取目标邻服务区的效率,从而提高通信用户位置信息的计算效率。
在本实施例中,通过将移动通信数据和基站的小区邻区表关联,再根据服务区的信号接收功率来确定主服务区和目标邻服务区,获取主服务区和目标邻服务区的基站信息,根据主服务区和目标邻服务区的基站信息计算得到通信用户位置信息,克服了移动通信数据中不包括基站信息时计算通信用户位置信息的困难,提高通信用户位置信息的计算效率和准确性。
在一个实施例中,方法还包括:获取通信用户位置信息所在的第一坐标系和业务用户位置信息所在的第二坐标系;当第一坐标系与第二坐标系不同时,获取第一坐标系和第二坐标系间的转换关系,将第二坐标系下的业务用户位置信息转换为第一坐标系下的业务用户位置信息;将通信用户位置信息和第一坐标系下的业务用户位置信息进行匹配,得到相同的用户位置信息。
其中,通信用户位置信息是根据基站信息计算得到的基于百度地图坐标系的位置信息。业务用户位置信息是用户终端触发APP业务时,APP获取到的用户位置信息。
具体地,在将进行用户位置信息匹配时,需要在同一坐标系下才有意义。而APP平台并不完全都是使用百度地图坐标系,所以需要判断通信用户位置信息所在的第一坐标系与业务用户位置信息所在的第二坐标系是否相同。当第一坐标系和第二坐标系相同时,即都是百度地图坐标系时,可以直接进行用户位置信息匹配,得到相同的用户位置信息。当第一坐标系和第二坐标系不同时,需要将第二坐标系转换为第一坐标系,即百度地图坐标系。
一般地,数字地图坐标系有三种,包括WGS-84原始坐标系(也叫地球坐标系)、GCJ-02坐标系(也叫火星坐标系)以及BD-09坐标系(也叫百度坐标系)。地球坐标系中记录的是通过国际GPS记录仪直接记录得到的经纬度,火星坐标系是由地球坐标系进行加密之后得到的,而百度坐标系是火星坐标系进行进一步加密和偏移后得到的。
当第二坐标系不是百度坐标系时,说明第二坐标系可能是地球坐标系或火星坐标系。此时,可以对业务用户位置信息进行坐标系间的加密运算,从而得到百度坐标系下的业务用户位置信息。在百度坐标系下进行用户位置信息匹配,得到百度坐标系下通信用户位置信息和业务用户位置信息中的相同用户位置信息。
在其他实施例中,也可以将通信用户位置信息和业务用户位置信息转换到其他坐标系下进行用户位置信息匹配。
在本实施例中,当通信用户位置信息和业务用户位置信息所在的坐标系不同时,将两类用户位置信息转换到相同的坐标系下进行用户位置信息匹配,提高用户位置信息匹配的合理性。
在一个实施例中,步骤212包括:对用户特征数据集合和数字地图区域的区域信息进行归一化处理,得到目标用户特征数据集合和目标区域信息;目标用户特征数据集合包括目标用户位置信息;以每个数字地图区域为聚类中心,将目标用户特征数据集合根据目标用户位置信息和目标区域信息聚类到对应的数字地图区域中。
其中,归一化处理是一种线性变换,可以将各个区域对应的用户特征数据集合中各个用户特征数据映射到预设的数值范围内,减小各个用户特征数据之间的差异。在聚类之前先对各个用户特征数据进行归一化处理,可以提高聚类的效率。
具体地,区域信息包括区域位置信息。可以通过归一化公式来对各个用户特征数据和各个数字地图区域的区域位置信息进行归一化处理。在一个实施例中,可以使用Z-score算法来进行归一化,将数据变成均值为0,标准差为1的分布。Z-score算法的公式为:z=(x-μ)/σ。其中,当x为待归一化对象的数值,μ为对应的待归一化对象的平均值,σ为对应的待归一化对象的标准差,z为归一化处理后的结果。在本实施例中,归一化对象可以是各个用户特征数据和各个数字地图区域的区域位置信息。
进一步地,将各个数字地图区域作为聚类中心,计算每个用户终端的用户位置信息和各个数字地图区域的区域位置信息的相似度,将每个用户终端对应的各个用户特征数据聚类到相似度最高的数字地图区域中。在一个实施例中,可以使用K-means算法来进行聚类。K-means算法是一种迭代求解的聚类分析算法,本实施例中,优选地,以数字地图区域的区域位置信息为收敛条件,对各个目标用户特征数据进行迭代计算,经过20次迭代之后,可以将各个目标用户特征数据聚类到对应的数字地图区域中,提高聚类的准确性。
在本实施例中,在聚类之前先对各个区域对应的用户特征数据集合进行归一化处理,可以减少各个用户特征数据之间的差异,减少迭代次数,提高聚类的效率。
在一个实施例中,步骤214包括:将各个数字地图的区域对应的用户特征数据集合按预设的时间间隔进行统计,将统计后的结果与预设的阈值进行比较,得到比较后的结果;根据比较后的结果,生成每个数字地图区域对应的用户行为标签。
具体地,根据各个用户特征数据的类型,对相同类型的用户特征数据按预设的时间间隔进行统计,得到统计结果。其中,预设的时间间隔可以是分钟、一小时、天、周、月、季度、年等粒度的时间间隔。
进一步地,将统计结果和预设的阈值进行比较,可以得到比较后的结果,再根据比较后的结果生成每个数字地图区域对应的用户行为标签。用户行为标签可以用于对每个数据地图的区域对应的用户特征数据集合进行标签化管理。其中,预设的阈值可以是标签库的标签定义。
例如,将某一数字地图区域中所有用户终端在这一天内的通话时长累加,可以得到该数字地图区域内一天的总通话时长。标签库中对于总通话时长这一指标的标签定义为:当数字地图区域一天内总通话时长在0到5万秒之间时,则该数字地图区域得到“低通话量”的标签;当数字地图区域一天内总通话时长在5万到20万秒之间时,则该数字地图区域得到“中通话量”的标签;当数字地图区域一天内总通话时长在20万秒以上时,则该数字地图区域得到“高通话量”的标签。
在一个实施例中,在生成每个数字地图区域对应的用户行为标签之后,可以在数字地图上将用户行为标签显示到对应的数字地图区域中。
在本实施例中,通过对各个数字地图的区域对应的各个用户特征数据进行统计,得到每个数字地图的区域对应的用户行为标签,通过用户行为标签中可以更直观地呈现出每个数字地图区域对应的用户行为特征。
在另一个实施例中,如图5所示,提供了一种移动用户行为数据分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤502,获取深度包检测的数据、呼叫详细记录的数据和基站测量数据;深度包检测的数据包括第一通信时间、第一用户通信标识、第一基站服务区信息;呼叫详细记录的数据包括第二通信时间、第二用户通信标识、第二基站服务区信息;基站测量数据包括第三通信时间、第三基站服务区信息;
步骤504,根据第一通信时间、第二通信时间和第三通信时间在相同时间间隔内的通信时间、第一用户通信标识和第二用户通信标识中相同的用户通信标识、第一基站服务区信息、第二基站服务区信息和第三基站服务区信息相同的基站服务区信息,将深度包检测的数据、呼叫详细记录的数据和基站测量数据相关联,生成移动通信数据;移动通信数据包括通信用户标识、通信时间信息和基站信息;基站信息包括信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息;
步骤506,根据信号在用户终端与基站间的传播时间和距离之间的转换关系,得到用户终端与基站间的距离;根据信号在用户终端与基站间的传播角度确定用户终端相对于基站的方向;根据用户终端与基站间的距离、用户终端相对于基站的方向、基站的位置信息,计算得到移动通信数据中的通信用户位置信息;
步骤508,获取互联网业务数据;互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
步骤510,获取通信用户位置信息所在的第一坐标系和业务用户位置信息所在的第二坐标系;当第一坐标系与所述第二坐标系不同时,获取第一坐标系和第二坐标系间的转换关系,将第二坐标系下的业务用户位置信息转换为第一坐标系下的业务用户位置信息;将通信用户位置信息和第一坐标系下的业务用户位置信息进行匹配,得到相同的用户位置信息;
步骤512,根据通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合;
步骤514,提取关联数据集合对应的用户特征数据,得到用户特征数据集合;
步骤516,获取包括区域划分的数字地图,对用户特征数据集合和数字地图区域的区域信息进行归一化处理,得到目标用户特征数据集合和目标区域位置信息;目标用户特征数据集合包括目标用户位置信息;
步骤518,以每个数字地图区域为聚类中心,将目标用户特征数据集合根据目标用户位置信息和目标区域位置信息聚类到对应的数字地图区域中;
步骤520,获取各个数字地图区域的目标用户特征数据集合对应的用户特征数据集合,得到各个数字地图区域的用户特征数据集合,对各个数字地图区域对应的用户特征数据集合按预设的时间间隔进行统计,将统计后的结果与预设的阈值进行比较,得到比较后的结果;根据比较后的结果,生成每个数字地图区域对应的用户行为标签。
在本实施例中,通过将DPI、CDR和MR数据相关联,得到方便管理和分析的移动通信数据,再利用移动通信数据中信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息等基站信息计算得到通信用户位置信息,并将通信用户位置信息和业务用户位置信息转换到同一坐标系下进行匹配。进一步地,根据移动通信数据和互联网业务数据中相同的用户标识、在相同时间间隔内的时间信息和相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合,提取关联数据集合中的用户特征,得到用户特征数据集合;获取包括区域划分的数字地图,对用户特征数据集合和数字地图的区域信息进行归一化处理,得到目标用户特征数据集合和目标区域信息,将目标用户特征数据集合根据目标用户位置信息和目标区域信息快速准确地聚类到对应的数字地图区域中;获取各个数字地图区域的目标用户特征数据集合对应的用户特征数据集合,得到各个数字地图区域对应的用户特征数据集合,按预设的时间间隔对各个数字地图区域对应的目标用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征,生成对应的用户行为标签,使用户行为特征分析更加全面,大大提高了对用户行为特征分析的准确性。
应该理解的是,虽然图2和图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种移动用户行为数据分析装置600,包括:数据采集模块601、通信用户位置信息生成模块602、数据关联模块603、数据提取模块604、数字地图获取模块605、数据聚类模块606和数据分析模块607,其中:
数据采集模块601,用于采集移动通信数据和互联网业务数据;移动通信数据包括通信用户标识、通信时间信息和基站信息;互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
通信用户位置信息生成模块602,用于根据基站信息,计算得到移动通信数据中的通信用户位置信息;
数据关联模块603,用于根据通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置和业务用户位置中相同的用户位置信息,将移动通信数据和所述互联网业务数据相关联,得到各个区域的关联数据集合;关联数据集合包括移动通信数据和互联网业务数据;
数据提取模块604,用于在关联数据集合中提取用户特征数据,得到用户特征数据集合;用户特征数据集合包括用户位置信息;
数字地图获取模块605,用于获取包括区域划分的数字地图;
数据聚类模块606,用于将用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
数据分析模块607,用于对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
在一个实施例中,移动用户行为数据分析装置600还包括移动通信数据生成模块608,用于获取深度包检测的数据、呼叫详细记录的数据和基站测量数据;深度包检测的数据包括第一通信时间、第一用户通信标识、第一基站服务区信息;呼叫详细记录的数据包括第二通信时间、第二用户通信标识、第二基站服务区信息;基站测量数据包括第三通信时间、第三基站服务区信息;根据第一通信时间、第二通信时间和第三通信时间在相同时间间隔内的通信时间、第一用户通信标识和第二用户通信标识中相同的用户通信标识、第一基站服务区信息、第二基站服务区信息和第三基站服务区信息相同的基站服务区信息,将深度包检测的数据、呼叫详细记录的数据和基站测量数据相关联,生成移动通信数据。
在一个实施例中,基站信息包括信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息,通信用户位置信息生成模块602,还用于根据信号在用户终端与基站间的传播时间和距离之间的转换关系,得到用户终端与基站间的距离;根据信号在用户终端与基站间的传播角度确定用户终端相对于基站的方向;根据用户终端与基站间的距离、用户终端相对于基站的方向、基站的位置信息,计算得到移动通信数据中的通信用户位置信息。
在一个实施例中,移动用户行为数据分析装置600还包括基站信息获取模块609,用于当移动通信数据中不包括所述基站信息时,获取基站的小区邻区表;根据小区邻区表确定基站的主服务区和邻服务区集合;移动通信数据包括信号接收功率;根据所述信号接收功率,在邻服务区集合中提取至少两个邻服务区作为目标邻服务区;目标邻服务区与主服务区的信号接收功率间的差值小于差值阈值;获取主服务区和目标邻服务区的基站信息;根据主服务区和目标邻服务区的基站信息,计算得到移动通信数据中的通信用户位置信息。
在一个实施例中,移动用户行为数据分析装置600还包括坐标转换模块610,用于获取通信用户位置信息所在的第一坐标系和所述业务用户位置信息所在的第二坐标系;当第一坐标系与所述第二坐标系不同时,获取第一坐标系和第二坐标系间的转换关系,将第二坐标系下的业务用户位置信息转换为第一坐标系下的业务用户位置信息;将通信用户位置信息和第一坐标系下的业务用户位置信息进行匹配,得到相同的用户位置信息。
在一个实施例中,数据聚类模块606还用于对用户特征数据集合进行归一化处理,得到目标用户特征数据集合;以每个数字地图的区域为聚类中心,将目标用户特征数据集合根据用户位置信息聚类到对应的数字地图区域中。
在一个实施例中,数据分析模块607还用于将各个数字地图的区域对应的用户特征数据集合按预设的时间间隔进行统计,将统计后的结果与预设的阈值进行比较,得到比较后的结果;根据比较后的结果,生成每个数字地图区域对应的用户行为标签。
关于移动用户行为数据分析装置的具体限定可以参见上文中对于移动用户行为数据分析方法的限定,在此不再赘述。上述移动用户行为数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种移动用户行为数据分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:采集移动通信数据和互联网业务数据;移动通信数据包括通信用户标识、通信时间信息和基站信息;互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;根据基站信息,计算得到移动通信数据中的通信用户位置信息;根据通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到各个区域的关联数据集合;在关联数据集合中提取用户特征数据,得到用户特征数据集合;用户特征数据集合包括用户位置信息;获取包括区域划分的数字地图;将用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取深度包检测的数据、呼叫详细记录的数据和基站测量数据;深度包检测的数据包括第一通信时间、第一用户通信标识、第一基站服务区信息;呼叫详细记录的数据包括第二通信时间、第二用户通信标识、第二基站服务区信息;基站测量数据包括第三通信时间、第三基站服务区信息;根据第一通信时间、第二通信时间和第三通信时间在相同时间间隔内的通信时间、第一用户通信标识和第二用户通信标识中相同的用户通信标识、第一基站服务区信息、第二基站服务区信息和第三基站服务区信息相同的基站服务区信息,将深度包检测的数据、呼叫详细记录的数据和基站测量数据相关联,生成移动通信数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基站信息包括信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息;根据信号在用户终端与基站间的传播时间和距离之间的转换关系,得到用户终端与基站间的距离;根据信号在用户终端与基站间的传播角度确定用户终端相对于基站的方向;根据用户终端与基站间的距离、用户终端相对于基站的方向、基站的位置信息,计算得到移动通信数据中的通信用户位置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当移动通信数据中不包括所述基站信息时,获取基站的小区邻区表;根据小区邻区表确定基站的主服务区和邻服务区集合;移动通信数据包括信号接收功率;根据所述信号接收功率,在邻服务区集合中提取至少两个邻服务区作为目标邻服务区;目标邻服务区与主服务区的信号接收功率间的差值不大于差值阈值;获取主服务区和目标邻服务区的基站信息;根据主服务区和目标邻服务区的基站信息,计算得到移动通信数据中的通信用户位置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取通信用户位置信息所在的第一坐标系和所述业务用户位置信息所在的第二坐标系;当第一坐标系与所述第二坐标系不同时,获取第一坐标系和第二坐标系间的转换关系,将第二坐标系下的业务用户位置信息转换为第一坐标系下的业务用户位置信息;将通信用户位置信息和第一坐标系下的业务用户位置信息进行匹配,得到相同的用户位置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对用户特征数据集合进行归一化处理,得到目标用户特征数据集合;以每个数字地图的区域为聚类中心,将目标用户特征数据集合根据用户位置信息聚类到对应的数字地图区域中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各个数字地图的区域对应的用户特征数据集合按预设的时间间隔进行统计,将统计后的结果与预设的阈值进行比较,得到比较后的结果;根据比较后的结果,生成每个数字地图区域对应的用户行为标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种移动用户行为数据分析方法,所述方法包括:
采集移动通信数据和互联网业务数据;所述移动通信数据包括通信用户标识、通信时间信息和基站信息;所述互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
根据所述基站信息,计算得到移动通信数据中的通信用户位置信息;
根据所述通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置信息和业务用户位置信息中相同的用户位置信息,将移动通信数据和互联网业务数据相关联,得到关联数据集合;
在所述关联数据集合中提取用户特征数据,得到用户特征数据集合;所述用户特征数据集合包括用户位置信息;
获取包括区域划分的数字地图;
将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取深度包检测的数据、呼叫详细记录的数据和基站测量数据;所述深度包检测的数据包括第一通信时间、第一用户通信标识、第一基站服务区信息;所述呼叫详细记录的数据包括第二通信时间、第二用户通信标识、第二基站服务区信息;所述基站测量数据包括第三通信时间、第三基站服务区信息;
根据所述第一通信时间、第二通信时间和第三通信时间在相同时间间隔内的通信时间、所述第一用户通信标识和第二用户通信标识中相同的用户通信标识、所述第一基站服务区信息、第二基站服务区信息和第三基站服务区信息相同的基站服务区信息,将所述深度包检测的数据、呼叫详细记录的数据和基站测量数据相关联,生成移动通信数据。
3.根据权利要求1所述的方法,其特征在于,所述基站信息包括信号在用户终端与基站间的传播时间、信号在用户终端与基站间的传播角度、基站的位置信息,所述根据所述基站信息,计算得到移动通信数据中的通信用户位置信息包括:
根据所述信号在用户终端与基站间的传播时间和距离之间的转换关系,得到用户终端与基站间的距离;
根据所述信号在用户终端与基站间的传播角度确定用户终端相对于基站的方向;
根据所述用户终端与基站间的距离、用户终端相对于基站的方向、基站的位置信息,计算得到移动通信数据中的通信用户位置信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当移动通信数据中不包括所述基站信息时,获取基站的小区邻区表;
根据所述小区邻区表确定基站的主服务区和邻服务区集合;
所述移动通信数据包括信号接收功率;根据所述信号接收功率,在所述邻服务区集合中提取至少一个邻服务区作为目标邻服务区;所述目标邻服务区与主服务区的信号接收功率间的差值不大于差值阈值;
获取所述主服务区和目标邻服务区的基站信息;根据所述主服务区和目标邻服务区的基站信息,计算得到移动通信数据中的通信用户位置信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述通信用户位置信息所在的第一坐标系和所述业务用户位置信息所在的第二坐标系;
当所述第一坐标系与所述第二坐标系不同时,获取第一坐标系和第二坐标系间的转换关系,将第二坐标系下的业务用户位置信息转换为第一坐标系下的业务用户位置信息;
将所述通信用户位置信息和第一坐标系下的业务用户位置信息进行匹配,得到相同的用户位置信息。
6.根据权利要求1所述的方法,其特征在于,所述将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域包括:
对所述用户特征数据集合和所述数字地图区域的区域信息进行归一化处理,得到目标用户特征数据集合和目标区域信息;所述目标用户特征数据集合包括目标用户位置信息;
以每个数字地图区域为聚类中心,将所述目标用户特征数据集合根据目标用户位置信息和所述目标区域信息聚类到对应的数字地图区域中。
7.根据权利要求1所述的方法,其特征在于,所述对各个数字地图的区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征包括:
将所述各个数字地图区域对应的用户特征数据集合按预设的时间间隔进行统计,将统计后的结果与预设的阈值进行比较,得到比较后的结果;
根据所述比较后的结果,生成每个数字地图区域对应的用户行为标签。
8.一种移动用户行为数据分析装置,其特征在于,所述装置包括:
数据采集模块,用于采集移动通信数据和互联网业务数据;所述移动通信数据包括通信用户标识、通信时间信息和基站信息;所述互联网业务数据包括业务用户标识、业务时间信息和业务用户位置信息;
通信用户位置信息生成模块,用于根据所述基站信息,计算得到移动通信数据中的通信用户位置信息;
数据关联模块,用于根据所述通信用户标识和业务用户标识中相同的用户标识、通信时间信息和业务时间信息在相同的时间间隔内的时间信息、通信用户位置和业务用户位置中相同的用户位置信息,将所述移动通信数据和所述互联网业务数据相关联,得到关联数据集合;
数据提取模块,用于在关联数据集合中提取用户特征数据,得到用户特征数据集合;所述用户特征数据集合包括用户位置信息;
数字地图获取模块,用于获取包括区域划分的数字地图;
数据聚类模块,用于将所述用户特征数据集合根据用户位置信息聚类到对应的数字地图区域;
数据分析模块,用于对各个数字地图区域对应的用户特征数据集合进行统计分析,得到各个数字地图区域对应的用户行为特征。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201911311311.9A 2019-12-18 2019-12-18 移动用户行为数据分析方法、装置、计算机设备和介质 Active CN111212381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911311311.9A CN111212381B (zh) 2019-12-18 2019-12-18 移动用户行为数据分析方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311311.9A CN111212381B (zh) 2019-12-18 2019-12-18 移动用户行为数据分析方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN111212381A true CN111212381A (zh) 2020-05-29
CN111212381B CN111212381B (zh) 2020-10-27

Family

ID=70788222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311311.9A Active CN111212381B (zh) 2019-12-18 2019-12-18 移动用户行为数据分析方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN111212381B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561152A (zh) * 2020-12-07 2021-03-26 安徽四创电子股份有限公司 一种基于聚类分析的公共安全重点区域点位规划方法
CN114125715A (zh) * 2020-08-27 2022-03-01 中国电信股份有限公司 路径规划方法、装置及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102577494A (zh) * 2009-09-28 2012-07-11 瑞典爱立信有限公司 支持通信网络中的社交网络分析的方法和装置
CN102591966A (zh) * 2011-12-31 2012-07-18 华中科技大学 一种移动场景下的搜索结果过滤方法
CN103686815A (zh) * 2013-12-26 2014-03-26 赛特斯信息科技股份有限公司 基于话单关联分析实现用户体验故障分析的系统及方法
CN104519473A (zh) * 2015-01-26 2015-04-15 中国联合网络通信集团有限公司 一种移动用户的上网记录生成方法及系统
US20170078922A1 (en) * 2009-01-28 2017-03-16 Headwater Partners I Llc Intermediate Networking Devices
CN107040908A (zh) * 2016-02-03 2017-08-11 上海大唐移动通信设备有限公司 一种实现合成信令xdr的方法及装置
CN107046480A (zh) * 2017-04-17 2017-08-15 广东经纬天地科技股份有限公司 一种用户感知评估方法及装置
CN107548082A (zh) * 2016-06-28 2018-01-05 中兴通讯股份有限公司 一种质差区域分析的方法、装置及系统
US20190261222A1 (en) * 2009-01-28 2019-08-22 Headwater Research Llc Security, Fraud Detection, and Fraud Mitigation in Device-Assisted Services Systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170078922A1 (en) * 2009-01-28 2017-03-16 Headwater Partners I Llc Intermediate Networking Devices
US20190261222A1 (en) * 2009-01-28 2019-08-22 Headwater Research Llc Security, Fraud Detection, and Fraud Mitigation in Device-Assisted Services Systems
CN102577494A (zh) * 2009-09-28 2012-07-11 瑞典爱立信有限公司 支持通信网络中的社交网络分析的方法和装置
CN102591966A (zh) * 2011-12-31 2012-07-18 华中科技大学 一种移动场景下的搜索结果过滤方法
CN103686815A (zh) * 2013-12-26 2014-03-26 赛特斯信息科技股份有限公司 基于话单关联分析实现用户体验故障分析的系统及方法
CN104519473A (zh) * 2015-01-26 2015-04-15 中国联合网络通信集团有限公司 一种移动用户的上网记录生成方法及系统
CN107040908A (zh) * 2016-02-03 2017-08-11 上海大唐移动通信设备有限公司 一种实现合成信令xdr的方法及装置
CN107548082A (zh) * 2016-06-28 2018-01-05 中兴通讯股份有限公司 一种质差区域分析的方法、装置及系统
CN107046480A (zh) * 2017-04-17 2017-08-15 广东经纬天地科技股份有限公司 一种用户感知评估方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125715A (zh) * 2020-08-27 2022-03-01 中国电信股份有限公司 路径规划方法、装置及计算机可读存储介质
CN114125715B (zh) * 2020-08-27 2023-11-24 中国电信股份有限公司 路径规划方法、装置及计算机可读存储介质
CN112561152A (zh) * 2020-12-07 2021-03-26 安徽四创电子股份有限公司 一种基于聚类分析的公共安全重点区域点位规划方法

Also Published As

Publication number Publication date
CN111212381B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111212380B (zh) 指定区域人员流动监测处理方法及装置、设备、介质
KR101976189B1 (ko) 유동 인구의 분석 서비스 제공 방법
EP3132592B1 (en) Method and system for identifying significant locations through data obtainable from a telecommunication network
US8700631B2 (en) Tempo spatial data extraction from network connected devices
US20180233032A1 (en) Method and system for computing an o-d matrix obtained through radio mobile network data
Chen et al. Enriching sparse mobility information in call detail records
US8838134B2 (en) Method and computer programs for the construction of communting matrices using call detail records and a use for providing user's mobility information
WO2015170289A1 (en) Method and system for vehicular traffic prediction
CN111212381B (zh) 移动用户行为数据分析方法、装置、计算机设备和介质
US11528584B2 (en) Contact tracing based on comparing geo-temporal patterns of wireless terminals, including mobility profiles
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
US11477615B2 (en) Alerting mobile devices based on location and duration data
CN111459702B (zh) 基于mdt数据的室内分布系统故障监控方法和装置
CN114257957B (zh) 网络规划方法及装置、计算设备和计算机可读存储介质
Zhao et al. Urban crowd flow forecasting based on cellular network
Zhang et al. Duplicate report detection in urban crowdsensing applications for smart city
Chen et al. A travel mode identification framework based on cellular signaling data
CN113194474A (zh) 伪基站的定位方法、装置、电子设备及可读存储介质
US8639213B1 (en) Method, computer programs and a use for automatic identification and classification of land uses
KR20200061666A (ko) 인구 안내 서비스 제공방법 및 장치
EP3563592B1 (en) Method for determining the mobility status of a user of a wireless communication network
CN111465030B (zh) 室内mdt经纬度回填方法、装置、计算机设备和存储介质
CN112911702B (zh) 一种无线基地台定位方法及系统
AU2016433153B2 (en) Estimated user location from cellular telephony data
Chen Human Habits Investigation: from mobility reconstruction to mobile traffic prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant