CN110807052A - 用户群分类方法、装置、设备及存储介质 - Google Patents

用户群分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110807052A
CN110807052A CN201911072846.5A CN201911072846A CN110807052A CN 110807052 A CN110807052 A CN 110807052A CN 201911072846 A CN201911072846 A CN 201911072846A CN 110807052 A CN110807052 A CN 110807052A
Authority
CN
China
Prior art keywords
user
similarity
dimension
behavior
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911072846.5A
Other languages
English (en)
Other versions
CN110807052B (zh
Inventor
曾明
丁保剑
秦伟
李逸帆
翁宗鹏
杨东泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jiadu Technology Software Development Co Ltd
PCI Suntek Technology Co Ltd
Original Assignee
Guangzhou Jiadu Technology Software Development Co Ltd
PCI Suntek Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jiadu Technology Software Development Co Ltd, PCI Suntek Technology Co Ltd filed Critical Guangzhou Jiadu Technology Software Development Co Ltd
Priority to CN201911072846.5A priority Critical patent/CN110807052B/zh
Publication of CN110807052A publication Critical patent/CN110807052A/zh
Application granted granted Critical
Publication of CN110807052B publication Critical patent/CN110807052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种用户群分类方法、装置、设备及存储介质,涉及数据处理技术领域,其包括:获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;根据所述最终相似度对所述用户群进行分类。采用上述方案可以解决现有技术中嫌疑人团伙确定方案准确度低、应用场景单一的技术问题。

Description

用户群分类方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种用户群分类方法、装置、设备及存储介质。
背景技术
公安部门作为保护人民生命财产安全的一个重要组成机构,在处理各类案件时扮演重要的作用。当前,公安部门在找寻嫌疑人团伙时,可以采用下述方法:一、依靠公安人员的业务经验确定嫌疑人团伙;二、利用历史相似案件,即提取潜在嫌疑人的人脸特征信息,之后,利用深度学习在备案的黑名单数据库中进行匹配,若匹配到与人脸特征信息对应的人员,则将潜在嫌疑人作为嫌疑人,同时,将与人脸特征信息匹配相似度较高的人员作为潜在嫌疑人;三、依靠历史相同案件,即获取当前案件的行为轨迹,之后,将行为轨迹与历史发生案件的行为轨迹进行匹配,并根据匹配结果确认嫌疑人及嫌疑人团伙。
然而,第一个方法过于依赖公安人员的经验,随着嫌疑人团伙的作案手法及工具的多样性,会出现新型的作案手段,这样会减缓案件的侦破;第二个方法对于人脸特征信息的算法要求高,同时,对于未采集到人脸图像的案件,会降低确定嫌疑人团伙的速度;第三个方法无法在新型作案手段中发挥作用。
综上,嫌疑人团伙确定方案准确度低、应用场景单一,成为了亟需解决的问题。
发明内容
本发明提供了一种用户群分类方法、装置、设备及存储介质,以解决现有技术中,嫌疑人团伙确定方案准确度低、应用场景单一的技术问题。
第一方面,本发明实施例提供了一种用户群分类方法,包括:
获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;
根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;
根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;
根据所述最终相似度对所述用户群进行分类。
进一步的,所述获取用户群中每位用户在各维度下的行为数据包括:
获取设定时间段内用户群中每位用户在各维度下的行为数据;
所述根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度包括:
按照设定时间间隔划分所述行为数据,得到多个子行为数据;
统计所述行为数据中出现的地点数据;
确定每位所述用户在每个所述子行为数据中出现在各所述地点数据的参数;
根据所述参数,利用Pearson系数计算每个维度下各所述用户之间的行为相似度。
进一步的,所述维度包括:网吧维度、酒店维度、WiFi上网维度、常住地维度中的至少两个。
进一步的,所述根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度包括:
根据所述行为相似度计算各所述维度对于所述用户的权重;
根据所述权重确定各所述用户之间的最终相似度。
进一步的,所述根据所述行为相似度计算各所述维度对于所述用户的权重包括:
根据所述行为相似度计算每个所述维度的熵值;
根据所述熵值得到对应维度的权重。
进一步的,所述根据所述行为相似度计算每个所述维度的熵值包括:
以用户为单位,将各所述维度下的所述行为相似度进行汇总,得到相似度汇总数据;
对所述相似度汇总数据中的所述行为相似度进行归一化处理,以得到归一化相似度;
计算每个所述归一化相似度在对应维度下的权重;
根据各所述权重计算每个所述维度的熵值。
进一步的,所述根据所述熵值得到对应维度的权重包括:
根据每个所述维度的熵值得到各所述维度的信息熵冗余度;
根据所述信息熵冗余度得到对应维度的权重。
进一步的,所述根据所述最终相似度对所述用户群进行分类包括:
在所述用户群中选择一用户作为当前用户;
判断所述当前用户是否存在对应的类别;
若所述当前用户不存在对应的类别,则获取所述当前用户与所述用户群中其他用户之间的最终相似度;
依次确定每个最终相似度对应的其他用户是否已经存在对应的类别;
若最终相似度对应的其他用户不存在对应的类别,则确定最终相似度是否大于相似度阈值;
若最终相似度大于相似度阈值,则将最终相似度对应的其他用户和所述当前用户划分为一个类别;
若所述当前用户存在对应的类别,则在所述用户群中选择另一用户作为当前用户,并返回执行判断所述当前用户是否存在对应的类别的操作,直到遍历所述用户群内的全部用户为止。
进一步的,所述用户群内的全部用户均存在对应的类别之后,还包括:
在每位所述用户对应的各最终相似度中,选择数值最高的设定数量最终相似度;
确认每位所述用户下,所述设定数量最终相似度对应的其他用户所属的类别;
在对应的各其他用户所属的类别中,获取占比最高的类别作为当前用户的最终类别,并根据所述最终类别得到用户群分类结果。
进一步的,所述行为数据包含多条子数据;
所述获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据之后,还包括:
确认不同所述维度下相同的子数据;
将所述相同的子数据所对应的行为数据归为同一所述用户的关联行为数据。
第二方面,本发明实施例还提供了一种用户群分类装置,包括:
数据获取模块,用于获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;
第一确定模块,用于根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;
第二确定模块,用于根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;
分类模块,用于根据所述最终相似度对所述用户群进行分类。
第三方面,本发明实施例还提供了一种用户群分类设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的用户群分类方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的用户群分类方法。
上述用户群分类方法、装置、设备及存储介质,通过获取用户群内每位用户在各维度下的行为数据,并根据行为数据确定每个维度内各用户之间的行为相似度,之后,结合行为相似度确定考虑各维度时用户的最终相似度,并根据最终相似度对用户群进行分类的技术手段,可以对具有相似行为的用户进行准确分类,尤其对于案件侦破场景,利用嫌疑人团伙行为相似的特点,可以根据行为数据得到嫌疑人有关的嫌疑人团伙,且上述方法应用范围广,准确度高,便于推广及使用。
附图说明
图1为本发明实施例一提供的一种用户群分类方法的流程图;
图2为本发明实施例二提供的一种用户群分类方法的流程图;
图3为本发明实施例二提供的网吧维度下行为相似度的计算流程框图;
图4为本发明实施例二提供的酒店维度下行为相似度的计算流程框图;
图5为本发明实施例二提供的WiFi上网维度下行为相似度的计算流程框图;
图6为本发明实施例二提供的常住地维度下行为相似度的计算流程框图;
图7为本发明实施例二提供的关联关系数据框图;
图8为本发明实施例二提供的第一数据查询示意图;
图9为本发明实施例二提供的第二数据查询示意图;
图10为本发明实施例二提供的第三数据查询示意图;
图11为本发明实施例二提供的第四数据查询示意图;
图12为本发明实施例三提供的一种用户群分类装置的结构示意图;
图13为本发明实施例四提供的一种用户群分类设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种用户群分类方法的流程图。实施例中提供的用户群分类方法可以由用户群分类装置执行,该用户群分类装置可以通过软件和/或硬件的方式实现,并集成在用户群分类设备中。其中,用户群分类设备可以是平板电脑、台式电脑等具有数据处理及分析能力的智能设备,用户群分类设备可以为一个独立的智能设备,或由多个可进行数据通信的智能设备组成。
具体的,参考图1,该用户群分类方法具体包括:
步骤110、获取用户群中每位用户在各维度下的行为数据,每个维度对应至少一类行为数据。
示例性的,维度也可以称为维数,实施例中,通过对多维度下的用户的行为数据进行采集,得到各用户在多维度下的相似度,进而根据相似度对用户群进行分类的方式,实现对行为相似的用户进行分类。其中,维度为至少两个,且具体内容可以结合实际情况设定。实施例中,以维度包括网吧维度、酒店维度、WiFi上网维度、常住地维度中的至少两个为例进行表述。
进一步的,行为数据是指用户在对应维度下通过自身行为产生的数据。每个维度对应至少一类行为数据,且每类行为数据可以包含多条子数据。其中,行为数据包含的数据内容、数据格式等可以根据实际情况设定。行为数据可以通过相关的数据采集平台得到。典型的,网吧维度对应用户网吧上网产生的行为数据。一般而言,用户一次上网过程中,网吧相关平台可以采集到用户姓名、身份证号、民族、上机时间、下机时间、网吧名称、网吧编码等至少一个内容,此时,平台采集到的上述内容可以组成一条行为数据,且每个内容可以认为是行为数据中的一条子数据。可以理解,用户每上一次网,均会产生一条行为数据。例如,表1为实施例提供的网吧维度下的一类行为数据:
表1
Figure BDA0002261494590000051
Figure BDA0002261494590000061
参考表1,行为数据包含序号、网吧编号、网吧名称、上机时间、下机时间、身份证号、姓名、民族代码、民族的子数据,且设定了每条子数据的字段名、是否为空(即数据是否必要,若数据可以为空,则说明不必要)、字段类型、中文名称,同时,设定可以对每条子数据进行备注。典型的,通过网吧相关平台,可以获取到该平台下全部网吧或部分网吧对应的全部上网用户的行为数据。
进一步的,酒店维度对应用户入住酒店时产生的行为数据。一般而言,用户入住酒店时,酒店相关平台可以采集到用户姓名、性别、民族、身份证号、常住地址、入住旅馆、旅馆辖区、入住房号、入住时间、退房时间、手机号、微信号、QQ号等至少一个内容,此时,平台采集到的上述内容可以组成一条行为数据,且每个内容可以认为是行为数据中的一条子数据。可以理解,用户每次入住,均会产生一条行为数据。例如,表2为实施例提供的酒店维度下的一类行为数据:
表2
字段名 是否为空 字段类型 中文名称 备注
name no char(4) 姓名
sex no char(4) 性别
nation no char(4) 民族
bdate no DATE 出生日期
idcode no char(20) 身份证号
address no char(20) 常驻地址
nohotel no char(20) 入住旅馆
xq no char(20) 旅馆辖区
noroom no char(20) 入住房号
ltime no DATE 入住时间
etime no DATE 退房时间
stayphone no Int 手机号
wxnumber no char(20) 微信号
qqnumber no Int QQ号
参考表2,酒店维度下的行为数据包含姓名、性别、民族、出生日期、身份证号、常住地址、入住旅馆、旅馆辖区、入住房号、入住时间、退房时间、手机号、微信号、QQ号的子数据,且设定了每条子数据的字段名、是否为空、字段类型、中文名称,同时,设定可以对每条子数据进行备注。典型的,通过酒店相关平台,可以获取到该平台下全部或部分酒店对应的全部入住用户的行为数据。
进一步的,WiFi上网维度对应用户使用室内WiFi时产生的行为数据。典型的,用户一次使用WiFi的过程中,网络平台可以通过WiFi设备采集用户姓名/昵称、认证类型、认证账号、登陆身份类型、登陆身份账号、场所编码、场所类型、终端上线时间、终端下线时间、终端设备MAC、无线AP编号、无线AP_MAC地址、AP经度和AP维度等至少一个内容。此时,平台采集到的上述内容可以组成一条行为数据,且每个内容可以认为是行为数据中的一条子数据。可以理解,用户每使用一次WiFi,均会产生一条行为数据。例如,表3为实施例提供的WiFi上网维度下的一类行为数据:
表3
序号 含义 英文名称 类型 字符最大长度 是否必填
1 认证类型 auth_type 数值型 8
2 认证账号 auth_account 字符型 64
3 登录身份类型 id_type 数值型 4
4 登陆身份账号 id_code 字符型 128
5 姓名/昵称 id_name 字符型 64
6 场所编码 location_code 字符型 14
7 场所类型 location_type 字符型 2
8 终端上线时间 login_at 字符型 19
9 终端下线时间 logout_at 字符型 19
10 终端设备MAC mac 字符型 17
11 无线AP编号 apid 字符型 21
12 无线AP_MAC地址 apmac 字符型 17
13 AP经度 longitude 字符型 11
14 AP纬度 latitude 字符型 11
参考表3,行为数据包含用户姓名/昵称、认证类型、认证账号、登陆身份类型、登陆身份账号、场所编码、场所类型、终端上线时间、终端下线时间、终端设备MAC、无线AP编号、无线AP_MAC地址、AP经度和AP维度的子数据,且设定了每条子数据的序号、含义(即中文名称)、英文名称(即字段名)、是否必填(即是否为空)、类型以及字符最大长度。典型的,通过网络平台,可以获取到该平台下全部或部分WiFi的全部上网用户的行为数据。实施例中,以用户使用手机连接WiFi为例,此时,子数据中涉及的终端相关数据可以认为是手机相关数据。
进一步的,常住地维度对应用户日常活动产生的行为数据,实施例中,以常住地维度包括加强型WiFi行为数据、电围行为数据以及卡口行为数据中的至少一类为例。其中,加强型WiFi可以理解为设置在停车场卡口、路边等固定位置,且可以提供WiFi网络的设备。相应的,加强型WiFi行为数据可以理解为用户使用该加强型WiFi时,通过加强型WiFi采集的时间标识、归属地、手机号、手机MAC、基站(即加强型WiFi)经度、基站维度、用来区分地区以及运营商的字段、基站厂家编码(两位)以及基站设备ID编号(四位)等至少一个内容。此时,加强型WiFi采集到的上述内容可以组成一条与加强型WiFi有关的行为数据,且每个内容可以认为是行为数据中的一条子数据。可以理解,用户每使用一次加强型WiFi,均会产生一条行为数据,且用户群分类设备可以通过相应平台获取上述行为数据。例如,表4为实施例提供的一类加强型WiFi行为数据:
表4
Figure BDA0002261494590000081
参考表4,行为数据包含时间标识、归属地、手机号、手机MAC、基站经度、基站维度、用来区分地区以及运营商的字段、基站厂家编码(两位)以及基站设备ID编号(四位)的子数据,且设定了每条子数据的序号、字段名称(即中文名称)、字段(即字段名)、值类型、是否必填(即是否为空)。同时,设定可以对每条子数据进行描述(即备注)。此时,通过相应平台可以得到该平台下全部或部分增强型WiFi的全部行为数据。
电围行为数据为车辆经过卡口时,卡口处采集设备抓取的手机等移动终端在未连接WiFi时的相关信息。获取电围行为数据的过程可以理解为模拟运营商基站抓取用户的手机端信息的过程。可以理解,当车辆经过卡口时,电围采集设备可以采集移动终端MAC、发现时间(即发现车辆进入卡口时间)、离开时间(即发现车辆离开卡口时间)、手机号、采集设备MAC、采集设备(即电围采集设备)编码、场所编码(即卡口所在场所的编码)等至少一个内容。此时,采集到的上述内容可以组成一条电围行为数据,且每个内容可以认为是行为数据中的一条子数据。可以理解,车辆每经过卡口一次,均会产生一条电围行为数据。实施例中,以移动终端为手机为例,此时,电围采集设备采集到的移动终端相关数据可以认为是手机相关数据。例如,表5为实施例提供的一类电围行为数据:
表5
Figure BDA0002261494590000091
参考表5,行为数据包含移动终端MAC、发现时间、离开时间、手机号、采集设备MAC、采集设备编码、场所编码的子数据,且设定了每条子数据的序号、属性名(即字段名)、字段长度要求、允许为空(即是否为空)以及默认值。同时,设定可以对每条子数据进行约束条件/说明(即备注)。此时,通过相关平台可以得到全部或部分电围采集设备下的全部电围行为数据。
卡口行为数据为车辆经过卡口时,卡口处采集的卡口路面信息。可以理解,当车辆经过卡口时,卡口相关平台可以通过卡口采集设备采集经过时刻、卡口编码、车牌号码、车主名称、车主身份证(即身份证号)等至少一个内容。此时,平台采集到的上述内容可以组成一条卡口行为数据,且每个内容可以认为是行为数据中的一条子数据。可以理解,车辆每经过卡口一次,均会产生一条卡口行为数据。例如,表6为实施例提供的一类卡口行为数据:
表6
序号 属性名 中文名称 允许为空Y/N
1 pass_time 经过时刻 N
2 tollgate_id 卡口编号 N
3 plate_info 车牌号码 N
4 plate_owner 车主 N
5 owner_cert 身份证号 N
参考表6,行为数据包含经过时刻、卡口编码、车牌号码、车主名称、身份证号的子数据,且设定了每条子数据的序号、属性名(即字段名)、中文名称以及允许为空(即是否为空)。此时,通过卡口相关平台可以得到该平台下全部或部分卡口的全部卡口行为数据。
实施例中,通过各相关数据平台得到行为数据可以认为是用户群在各维度下的行为数据,即不同维度下各行为数据对应的用户组成了用户群。可以理解,不同维度之间的行为数据是相互独立的,因此,不同维度下的行为数据可以出自相同的用户,即用户群中不同维度之间的部分用户可能是相同的用户。
可以理解,实际应用中,可以预先采集多个维度的行为数据,之后,结合当前情况,选择至少两个维度的行为数据,以保证行为数据灵活性。
步骤120、根据行为数据确定每个维度下各用户之间的行为相似度。
具体的,以网吧维度为例,根据网吧维度下的行为数据可以确定不同用户之间的行为相似度。其中,行为相似度用于表示相应维度下,两个用户的行为相似程度。行为相似度越高,说明行为数据越相近,即用户结伴出现的可能性越大。典型的,行为相似度的计算方式可以根据实际情况设定,例如,确定网吧维度对应的行为数据中出现的全部网吧,之后,确定每个用户在设定时间段内出现在各网吧的次数,之后,根据各用户在各网吧的次数利用Pearson系数计算用户之间的行为相似度。可以理解,两位用户在相同时间内出现在相同网吧的次数越高,两位用户之间的行为相似度越高。需要说明的是,计算行为相似度时,可以先基于行为数据中的子数据将同一用户的行为数据摘取出来,其中,同一用户的行为数据可以通过相同的身份证、姓名、民族等子数据进行关联。摘取出每位用户的行为数据后,便可以基于行为数据计算不同用户之间的行为相似度。可以理解,其他维度下用户的行为相似度计算方式与网吧维度下用户的行为相似度计算方式类似,在此不做赘述。经过计算后,可以确定每个维度内不同用户之间的行为相似度。
步骤130、根据行为相似度计算基于全部维度的用户之间的最终相似度。
具体的,行为相似度属于维度内的相似度数据。对用户群进行分类时,需要交叉各维度,即得到一个考虑各维度下行为数据的最终相似度,以保证分类结果的准确性。此时,每两个用户之间存在一个最终相似度,该最终相似度结合相应用户在各维度下的行为相似度得到。最终相似度越高,说明用户之间的行为越相近。
典型的,计算最终相似度的方式实施例不作限定。例如,先确定每个维度对于用户的权重。其中,权重越大,说明该维度对于最终相似度影响程度越大。其中,可以采用熵值法估计每个维度的权重。可以理解,为了便于计算,可以先以用户为单位整合各维度的行为相似度。此时,可以根据每位用户在各维度下的行为相似度计算每个维度的权重。之后,结合权重得到用户之间的最终相似度。即确认某个用户与另一用户在不同维度下的行为相似度,之后,获取每个维度的权重,并结合权重与行为相似度(即将权重与对应维度下的行为相似度相乘,之后,将各乘积相加)以得到该用户与另一用户的最终相似度。
步骤140、根据最终相似度对用户群进行分类。
具体的,根据最终相似度便可以对用户群内的各用户分类,以将行为相似程度高的用户分为一类。这样,当确认某一用户为嫌疑人时,便可以结合作案时间以及分类结果在用户群中确定包含该嫌疑人的犯罪团伙。
其中,分类手段可以不做限定。例如,设定相似度阈值,获取高于相似度阈值的最终相似度,之后,在获取的最终相似度中,将同一最终相似度对应的用户分为一个类别,若某个用户对应多个类别,则可以将多个类别进行整合。或者是,确认用户群内任一用户的全部最终相似度中高于相似度阈值的最终相似度,之后,将高于相似度阈值的最终相似度对应的用户与该用户分为一个类别,直到每个用户均有对应的类别为止。又或是,按照前述过程,每个用户均有对应的类别之后,统计用户群内任一用户的设定数量的最终相似度。且统计的最终相似度为数值最高的最终相似度,之后,确认各最终相似度所属的类别,并将占比最大的类别作为该用户的类别,即对用户的类别进行校验修正,直到每个用户均校验修正为止。
上述,通过获取用户群内每位用户在各维度下的行为数据,并根据行为数据确定每个维度内各用户之间的行为相似度,之后,结合行为相似度确定考虑各维度时用户的最终相似度,并根据最终相似度对用户群进行分类的技术手段,可以对具有相似行为的用户进行准确分类,尤其对于案件侦破场景,利用嫌疑人团伙行为相似的特点,可以根据行为数据得到嫌疑人有关的嫌疑人团伙,且上述方法应用范围广,准确度高,便于推广及使用。
实施例二
图2为本发明实施例二提供的一种用户群分类方法的流程图。本实施例提供的用户群分类方法是在上述用户群分类方法的基础上,进行具体化。具体的,参考图2,本实施例提供的用户群分类方法具体包括:
步骤201、获取设定时间段内用户群中每位用户在各维度下的行为数据。
其中,设定时间段可以结合实际情况设定,例如,设定时间段为最近一周、最近半个月或最近一个月等。
进一步的,实施例中以维度包含网吧维度、酒店维度、WiFi上网维度、常住地维度为例。
步骤202、按照设定时间间隔划分行为数据,得到多个子行为数据。
具体的,通过设定时间间隔可以对行为数据进行细分,以保证后续行为相似度的准确性。其中,设定时间间隔可以根据实际业务需求设定,如根据实际业务需求设定时间间隔为5分钟,此时,对于每个行为数据而言,以5分钟为间隔进行划分。
步骤203、统计行为数据中出现的地点数据。
其中,地点数据为可以明确用户行为发生地的数据,其可以是实际数据。例如,网吧维度对应的行为数据可出现的地点数据为网吧的地点,此时,根据行为数据中的网吧编号和/或网吧名称等可以得到地点数据。酒店维度对应的行为数据可出现的地点数据为酒店的地点以及酒店具体的层数,此时,根据行为数据中的入住旅馆以及入住房号等可以得到地点数据。WiFi上网维度对应的行为数据可出现的地点数据为WiFi设备的地点,此时,根据行为数据中的AP经度、AP维度等可以得到地点数据。常住地维度对应的行为数据可出现地点数据包括:电围行为数据对应的电围采集设备所在的地点,此时,根据电围行为数据中的采集设备MAC等可以得到地点数据;加强型WiFi行为数据对应的加强型WiFi设备所在的地点,此时,根据加强型WiFi行为数据中的基站经度、基站维度等可以得到地点数据;卡口行为数据对应的卡口采集设备所在的地点,根据卡口行为数据中的卡口编号等可以得到地点数据。
步骤204、确定每位用户在每个子行为数据中出现在各地点数据的参数。
具体的,对划分后得到的子行为数据进行识别,以确定发生子行为数据的地点数据。此时,每个子行为数据均存在对应的至少一个地点数据。
之后,在每个地点数据中,统计每位用户在设定时间间隔内出现的参数。此时,每个子行为数据在每个地点数据下均存在对应的参数。其中,参数可以包括用户出现的次数和/或用户出现的时长,其具体内容结合实际情况设定。
步骤205、根据参数,利用Pearson系数计算每个维度下各用户之间的行为相似度。
其中,Pearson系数也称为Pearson相关系数(PearsonCorrelationCoefficient),其用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。Pearson系数的绝对值越大,相关性越强。由于Pearson系数为现有技术,因此本步骤中不做赘述。此时,将两个用户在同一维度下对应的参数作为Pearson系统的参数,便可以得到两个用户在该维度下的行为相似度。
例如,图3为本发明实施例二提供的网吧维度下行为相似度的计算流程框图。参考图3,获取平台中设定时间段内的网吧数据(行为数据),统计行为数据中出现的每个网吧(地点数据),以及按照设定时间间隔对各行为数据进行划分得到子行为数据,之后,以用户为单位,统计每位用户在每个网吧中各时间间隔出现的次数,之后,利用Pearson系数计算网吧维度内各用户之间的行为相似度。
再如,图4为本发明实施例二提供的酒店维度下行为相似度的计算流程框图。参考图4,获取平台内设定时间段内的酒店入住数据(行为数据),统计行为数据中出现的每个酒店(地点数据),并以酒店层数为单位,将用户入住酒店映射到具体的层数。同时,设置时间间隔,以对行为数据进行划分。之后,以用户为单位,统计每位用户在各时间间隔内出现在每个酒店的次数,以及每位用户在各时间间隔内出现在酒店具体层数的次数,之后,利用Pearson系数计算酒店维度内各用户之间的行为相似度。
又如,图5为本发明实施例二提供的WiFi上网维度下行为相似度的计算流程框图。参考图5,获取平台内的设定时间段内的WiFi上网数据(行为数据),之后,统计WiFi上网行为数据中出现的WiFi热点(地点数据)。同时,设置时间间隔,以对行为数据进行划分。之后,以用户为单位,统计每位用户在各时间间隔内出现在每个WiFi热点的次数,以及统计每位用户在各时间间隔内使用每个WiFi热点的时长,之后,利用Pearson系数计算WiFi上网维度内各用户之间的行为相似度。
还如,图6为本发明实施例二提供的常住地维度下行为相似度的计算流程框图。参考图6,获取平台内的设定时间段内的电围数据(电围行为数据)、加强型WiFi数据(加强型WiFi行为数据)以及车辆卡口数据(卡口行为数据),统计电围行为数据中出现的电围采集设备(地点数据)、加强型WiFi行为数据中出现的加强型WiFi采集设备(地点数据)、卡口行为数据中出现的卡口采集设备(地点数据)。同时,设置时间间隔,以对电围行为数据、加强型WiFi行为数据以及卡口行为数据进行划分。之后,以用户为单位,统计每位用户在各时间间隔内出现在每个电围采集设备的次数、出现在加强型WiFi采集设备的次数以及出现在卡口采集设备的次数,之后,利用Pearson系数计算常住地维度内各用户之间的行为相似度。
步骤206、根据行为相似度计算各维度对于用户的权重。
实施例中,通过熵值法确定各维度对于用户的权重,进而得到最终相似度。此时,设定该步骤具体包括:步骤2061-步骤2062:
步骤2061、根据行为相似度计算每个维度的熵值。
具体的,熵值法是一种根据指标(实施例中为维度)反映信息可靠程度来确定权重的方法。其中,在确定权重时,需要先计算每个维度的熵值。此时,该步骤具体包括:步骤20611-步骤20614:
步骤20611、以用户为单位,将各维度下的行为相似度进行汇总,得到相似度汇总数据。
具体的,为了便于后续计算,对各维度下的行为相似度进行汇总,即得到一份数据,实施例中,将汇总后得到的数据记为相似度汇总数据。进一步的,由于后续过程用于计算各维度的权重需要依赖于每位用户的行为相似度,因此,本步骤中,以用户为单位对不同维度下的行为相似度进行汇总。其中,不同维度下用户的行为相似度可以通过某些子数据(如手机号、身份证号、终端MAC等)进行关联,进而得到每个用户在全部维度下的行为相似度。此时,每个维度下的每条行为相似度均有对应的索引,且不同维度下相同用户之间的行为相似度具有相同的索引。
步骤20612、对相似度汇总数据中的行为相似度进行归一化处理,以得到归一化相似度。
示例性的,由于不同维度的计量单位并不统一,因此,在使用相似度汇总数据中的行为相似度前,需要对不同维度的行为相似度进行标准化,即把指标的绝对值转化为相对值,以实现归一化处理。实施例中,将行为相似度归一化后得到的数据记为归一化相似度。其中,对行为相似度进行归一化时,可以得到正向指标或负向指标。正向指标的计算方式为:
Figure BDA0002261494590000141
其中,i=1、…、n,表示行为相似度的索引。可以理解,不同维度下的n可以相等也可以不等。j=1、…、m,表示维度的索引,实施例中m=4。xij表示第j个维度下第i个行为相似度归一化后的归一化相似度。x'ij表示第i个行为相似度在第j个维度下的具体数值。负向指标的计算方式为:
Figure BDA0002261494590000151
实施例中,可以根据时间情况选择正向指标或负向指标中的一种。可以理解,归一化相似度的数量与行为相似度数量相等。
步骤20613、计算每个归一化相似度在对应维度下的权重。
具体的,第i个归一化相似度在第j个维度下的权重的计算公式可以为:其中,pij为第i个归一化相似度在第j个维度下的权重。根据上述公式,可以得到每个归一化相似度在对应维度下的权重。其中,权重越大,说明对应该归一化相似度在对应维度下的重要程度越高。
步骤20614、根据各权重计算每个维度的熵值。
具体的,通过熵值可以判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标(实施例中指维度)的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。实施例中,得到每个归一化相似度在各维度下的权重后,便可以计算每个维度的熵值。其中,熵值的计算公式可以为:
Figure BDA0002261494590000153
其中,k=1ln(n),ej表示第j个维度对应的熵值。
步骤2062、根据熵值得到对应维度的权重。
具体的,根据熵值便可以确定对应维度对于最终相似度的影响程度,进而得到该维度对应的权重。实施例中,该步骤具体包括:步骤20621-步骤20622:
步骤20621、根据每个维度的熵值得到各维度的信息熵冗余度。
其中,信息熵冗余度的计算公式可以为:dj=1-ej,其中,dj表示第j个维度对应的信息熵冗余度。可以理解,信息熵冗余度可以反应对应维度的数据冗余。
步骤20622、根据信息熵冗余度得到对应维度的权重。
其中,权重的计算公式可以为:其中,wj表示第j个维度对应的权重。由公式可知,每个维度对应不同最终相似度的权重相等。
步骤207、根据权重确定各用户之间的最终相似度。
具体的,确定每个维度的权重后,便可以得到结合维度的权重确定用户之间的最终相似度。其中,最终相似度的计算公式可以为:其中,si表示第i个行为相似度所对应的两个用户之间的最终相似度。
步骤208、在用户群中选择一用户作为当前用户。
具体的,可以对用户群中每个用户进行编号,之后,选择编号为1的用户,或者是,在用户群中随机选择一位用户。之后,将选择的用户作为当前用户。
步骤209、判断当前用户是否存在对应的类别。若当前用户不存在对应的类别,则执行步骤210。若当前用户存在对应的类别,则执行步骤217。
具体的,确定当前用户后,对当前用户进行初次聚类。进一步的,对当前用户进行初次聚类前,判断当前用户是否已经存在对应的一个类别。若当前用户不存在对应的类别,则执行步骤210。若当前用户存在对应的类别,则说明当前用户已经找到了对应的类别,此时,执行步骤217,即获取未进行初次聚类的另一用户作为当前用户。
步骤210、获取当前用户与用户群中其他用户之间的最终相似度。
获取当前用户对应的每个最终相似度。其中,每个最终相似度对应的一个用户为当前用户,此时,将对应的另一个用户记为最终相似度对应的其他用户。可以理解,最终相似度实际对应两个用户,实施例中,为了便于表述将两个用户中非当前用户记为最终相似度对应的其他用户。
步骤211、获取当前用户的任一最终相似度,并确认最终相似度对应的其他用户是否已经存在对应的类别。若最终相似度对应的其他用户存在对应的类别,则执行步骤212,若最终相似度对应的其他用户不存在对应的类别,则执行步骤214。
其中,可以随机获取当前用户的一个最终相似度,或者按照最终相似度由高到低或由低到高的排序方式,顺序获取一个最终相似度。之后,确定当前获取的最终相似度对应的其他用户是否已经存在对应的类别。若是,则无需考虑最终相似度对应的其他用户,并执行步骤212。否则,说明可以继续判断当前用户与最终相似度对应的其他用户是否可以归为一类,即执行步骤214。
步骤212、判断是否循环当前用户的每个最终相似度。若是,则执行步骤217,否则,执行步骤213。
具体的,确定当前用户中是否还有未被询问的下一个最终相似度。即确定是否循环了当前用户的每个最终相似度。若是,则说明当前用户的每个最终相似度都执行了步骤211,即确认过当前用户的每个最终相似度是否存在对应的类别。若否,则说明当前用户对应的最终相似度中,还有未被询问过是否存在对应类别的最终相似度,此时,执行步骤213。
步骤213、顺序获取当前用户的下一个最终相似度对应的其他用户,并返回执行步骤211。
可以理解,步骤211-步骤213也可以理解为依次确定每个最终相似度对应的其他用户是否已经存在对应的类别。
步骤214、确定最终相似度是否大于相似度阈值。若最终相似度大于相似度阈值,则执行步骤215。否则,执行步骤216。
其中相似度阈值可以根据实际情况设定。当最终相似度大于相似度阈值,则说明当前用户与最终相似度对应的其他用户之间的行为高度相似,满足被分为一类的条件。此时,执行步骤215。否则,说明当前用户与最终相似度对应的其他用户之间不满足被分为一类的条件,执行步骤216。
步骤215、将最终相似度对应的其他用户和当前用户划分为一个类别。返回执行步骤212。
此时,记录被划分为一类的用户。
步骤216、不对最终相似度对应的其他用户和当前用户进行分类。返回执行步骤212。
步骤217、确认是否已经遍历用户群内的全部用户。若是,则执行步骤218。否则,执行步骤221。
当已经遍历用户群内的全部用户时,即确认每个用户均对应执行过步骤209,此时,可以确定初次聚类结束,并执行步骤218。需要说明,当某个用户被执行了步骤209后,对该用户进行记录,以防止重复对未分类的用户进行初次聚类。
可以理解,初次聚类后,每个用户均存在对应的一个类别。实际应用中,也可能存在没有类别的用户,此时,可以剔除没有类别的用户,即不进行后续的操作。
步骤218、在每位用户对应的各最终相似度中,选择数值最高的设定数量最终相似度。
具体的,针对某位用户,在该用户对应的全部最终相似度中,按照由高到低的顺序选择设定数量的最终相似度。其中,设定数量可以根据实际情况设定。此时,每位用户均存在设定数量的最终相似度。
步骤219、确认每位用户下,设定数量最终相似度对应的其他用户所属的类别。
示例性的,获取某位用户对应的设定数量的最终相似度之后,确定设定数量的每个最终相似度对应的其他用户,并根据上述分类结果确认对应的各其他用户所属的类别。
步骤220、在对应的各其他用户所属的类别中,获取占比最高的类别作为当前用户的最终类别,并根据最终类别得到用户群分类结果。
具体的,某位用户对应的各其他用户所属的类别可能不同,此时,统计对应的各其他用户所属的类别,并选择占比最高的类别作为该用户的最终类别。举例而言,设定数量为5,获取用户A对应的前5个数值最高的最终相似度。之后,确定5个数值最高的最终相似度对应的其他用户分别为用户B、用户C、用户D、用户E以及用户F。其中,在初次聚类时,用户A、用户B划分为同一类别1,用户C、用户D以及用户E属于同一类别2。此时,确定用户A对应的各其他用户中占比最高的类别为类别2。此时,将类别2作为用户A的最终类别。按照上述方式便可以得到用户群中每位用户的最终类别。可以理解,当得到某个用户的最终类别,且该最终类别与用户初次聚类的类别不同时,若其他用户对应的设定数量最终相似度对应的用户中包含该用户,则使用该用户的最终类别进行统计。
可以理解,步骤218-步骤220可以认为是针对初次聚类的结果进行二次聚类,以保证分类结果更加准确。
步骤221、在用户群中选择另一用户作为当前用户。返回执行步骤209。
具体的,在用户群中选择没有被遍历的另一用户作为当前用户。
上述,通过获取设定时间段内用户群中每位用户在各维度下的行为数据,并按照设定时间间隔划分各行为数据,以得到多个子行为数据。之后,统计行为数据中出现的地点数据,并确定每位用户在各设定时间间隔内出现在各地点数据的参数,进而根据参数利用Pearson系数计算每个维度下各用户之间的行为相似度,可以准确的得到各用户在每个维度下的行为相似度。之后,利用熵值法,根据各用户在不同维度下的行为相似度确定各维度对应用户的权重,并根据权重得到各用户之间的最终相似度,此时,可以结合各维度准确得到各用户参考各维度的最终相似度,即结合用户各维度下的行为数据准确得到各用户之间行为的最终相似度。之后,基于每个用户的最终相似度和设定的相似度阈值对用户进行初次聚类,以对每个用户进行分类,在分类后,结合每位用户对应的数值最高的设定数量最终相似度所对应其他用户所属的类别,对每位用户的类别进行修正,以对每位用户进行二次聚类,以保证分类结果的准确性,由此对于侦破案件的场景,可以准确得到嫌疑人团伙。
在上述实施例的基础上,除了对用户群内的用户进行分类外,还可以利用行为数据确定每位用户在各维度之间的实体关系。此时,设定行为数据包含多条子数据。获取用户群中每位用户在各维度下的行为数据,每个维度对应至少一类行为数据之后,还包括:
步骤222、确认不同维度下相同的子数据。
其中,每个维度下的行为数据包含多条子数据,一条子数据代表一个行为特征。如网吧行为数据中身份证号、姓名、网吧编号等可以认为是一条子数据。具体的,不同维度下的行为数据可以包含表示相同行为特征的子数据,例如,酒店行为数据和网吧行为数据中均可以包含身份证号。WiFi上网行为数据与电围行为数据中均包含终端MAC。本步骤中,可以获取不同维度的行为数据中相同的子数据。可选的,该子数据可以表明用户或用户所使用设备身份的子数据。例如,子数据可以包括手机号、身份证号、微信号、终端MAC等。
步骤223、将相同的子数据所对应的行为数据归为同一用户的关联行为数据。
示例性的,对于相同维度的行为数据而言,通过相同的子数据可以将同一用户的行为数据进行关联,并记为关联行为数据。例如,图7为本发明实施例二提供的关联关系数据框图,参考图7,对于网吧维度对应的行为数据(即网吧数据)而言,通过身份证号可以将同一用户的行为数据进行关联,进而可以确定该用户常去的网吧。对于酒店维度对应的行为数据(即酒店入住数据)而言,通过身份证号可以将同一用户的行为数据进行关联,此时,可以得到用户常去的酒店。同时,还可以得到与身份证号对应的微信号、qq号以及手机号等。对于WiFi上网维度对应的终端上/下线数据(即WiFi上网数据)而言,通过终端MAC(手机MAC)可以将同一终端的行为数据进行关联,此时,可以得到终端MAC与手机号、微信号、qq号以及无线AP之间的对应关系,进而确定用户常活动区域(室内周边)。同时,还可以得到手机号与qq号、微信号之间的对应关系,以及微信号与qq号之间的对应关系。通过常住地维度对应的电围卡口数据(即电围行为数据)而言,通过手机号可以将同一手机的行为数据进行关联,此时,可以得到手机与各电围采集设备的对应关系,进而可以得到用户常活动区域(室外)。通过常住地维度对应的加强型WiFi数据(即加强型WiFi行为数据)而言,通过手机号可以将同一手机的行为数据进行关联,此时,可以得到手机号与各加强型WiFi设备(即采集设备)的对应关系,进而可以得到用户常活动区域(室外)。通过常住地维度对应的卡口数据(即卡口行为数据)而言,通过身份证号可以将同一身份证的行为数据进行关联,此时,可以得到身份证号与车牌号以及卡口(即卡口采集设备)的对应关系,进而可以得到用户常活动区域(室外)。之后,通过身份证、手机号等子数据,可以将不同维度下的相同用户的行为数据进行关联。
进一步的,将同一用户的各行为数据进行关联后,便可以得到用户的实体关系。此时,通过实体关系可以确定用户的身份证号、微信号、qq号、手机号、常去的网吧、常去的酒店、手机MAC、常活动区域(室内周边),常活动区域(室外)等数据。此时,当获取到某个用户的某个数据时,便可以得到其他数据。例如,图8为本发明实施例二提供的第一数据查询示意图,参考图8,其为获取用户的身份证号时可以得到其他数据,同时,图8中示出了得到其他数据的依据。如通过身份证号与微信号的对应关系可以得到用户的微信号。通过身份证号对应的手机号与手机MAC的对应关系可以得到手机MAC,之后,基于手机MAC与无线AP的对应关系,可以确定用户的常活动区域(室内)。同时,还可以通过手机MAC与微信号的对应关系得到用户的微信号等。再如,图9为本发明实施例二提供的第二数据查询示意图,参考图9,其为获取用户的手机MAC时可以得到其他数据,同时,图9中示出了得到其他数据的依据。如通过手机MAC与手机号的对应关系可以得到用户的手机号。通过手机号与身份证号的对应关系可以得到身份证,之后,基于身份证号与网吧数据(即网吧行为数据)的对应关系,可以确定用户的常区的网吧。还如,图10为本发明实施例二提供的第三数据查询示意图,图10示出了当获取到用户的微信号时可以得到其他数据,同时,图10示出了得到其他数据的依据。如通过微信号与手机号的对应关系可以得到用户的手机号。通过微信号与身份证号的对应关系可以得到身份证号,之后,基于身份证号与网吧数据(即网吧行为数据)的对应关系,可以确定用户的常区的网吧。又如,图11为本发明实施例二提供的第四数据查询示意图,图11示出了当获取到用户的qq号时可以得到其他数据,同时,图11示出了得到其他数据的依据。如通过qq号与手机号的对应关系可以得到用户的手机号。通过qq号与身份证号的对应关系可以得到身份证,之后,基于身份证号与网吧行为数据的对应关系,可以确定用户的常区的网吧。
上述,通过相同的子数据将同一用户在各维度下的行为数据进行关联,即通过数据碰撞,可以得到用户的实体关系。此时,当获取到用户的某个表示身份的数据(如身份证、终端MAC等),便可以根据实体关系得到用户的其他数据,便于对用户身份的锁定以及用户常活动路径的锁定,由此对于侦办案件场景,便于快速锁定嫌疑人的身份以及常活动路径。
实施例三
图12为本发明实施例三提供过的一种用户群分类装置的结构示意图。参考图12,本实施例提供的用户群分类装置包括:数据获取模块301、第一确定模块302、第二确定模块303以及分类模块304。
其中,数据获取模块301,用于获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;第一确定模块302,用于根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;第二确定模块303,用于根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;分类模块304,用于根据所述最终相似度对所述用户群进行分类。
上述,通过获取用户群内每位用户在各维度下的行为数据,并根据行为数据确定每个维度内各用户之间的行为相似度,之后,结合行为相似度确定考虑各维度时用户的最终相似度,并根据最终相似度对用户群进行分类的技术手段,可以对具有相似行为的用户进行准确分类,尤其对于案件侦破场景,利用嫌疑人团伙行为相似的特点,可以根据行为数据得到嫌疑人有关的嫌疑人团伙,且上述方法应用范围广,准确度高,便于推广及使用。
在上述实施例的基础上,数据获取模块301具体用于:获取设定时间段内用户群中每位用户在各维度下的行为数据;第一确定模块302包括:划分单元,用于按照设定时间间隔划分所述行为数据,得到多个子行为数据;地点统计单元,用于统计所述行为数据中出现的地点数据;参数确定单元,用于确定每位所述用户在每个所述子行为数据中出现在各所述地点数据的参数;相似度计算单元,用于根据所述参数,利用Pearson系数计算每个维度下各所述用户之间的行为相似度。
在上述实施例的基础上,所述维度包括:网吧维度、酒店维度、WiFi上网维度、常住地维度中的至少两个。
在上述实施例的基础上,第二确定模块303包括:权重计算单元,用于根据所述行为相似度计算各所述维度对于所述用户的权重;相似度确定单元,用于根据所述权重确定各所述用户之间的最终相似度。
在上述实施例的基础上,权重计算单元包括:熵值确定子单元,用于根据所述行为相似度计算每个所述维度的熵值;权重得到子单元,用于根据所述熵值得到对应维度的权重。
在上述实施例的基础上,熵值确定子单元包括:汇总孙单元,用于以用户为单位,将各所述维度下的所述行为相似度进行汇总,得到相似度汇总数据;归一化孙单元,用于对所述相似度汇总数据中的所述行为相似度进行归一化处理,以得到归一化相似度;相似度权重计算孙单元,用于计算每个所述归一化相似度在对应维度下的权重;维度熵值计算孙单元,用于根据各所述权重计算每个所述维度的熵值。
在上述实施例的基础上,权重得到子单元包括:冗余度得到孙单元,用于根据每个所述维度的熵值得到各所述维度的信息熵冗余度;维度权重计算孙单元,用于根据所述信息熵冗余度得到对应维度的权重。
在上述实施例的基础上,分类模块304包括:用户选择单元,用于在所述用户群中选择一用户作为当前用户;类别判断单元,用于判断所述当前用户是否存在对应的类别;相似度获取单元,用于若所述当前用户不存在对应的类别,则获取所述当前用户与所述用户群中其他用户之间的最终相似度;循环对应单元,用于依次确定每个最终相似度对应的其他用户是否已经存在对应的类别;相似度比较单元,用于若最终相似度对应的其他用户不存在对应的类别,则确定最终相似度是否大于相似度阈值;类别划分单元,用于若最终相似度大于相似度阈值,则将最终相似度对应的其他用户和所述当前用户划分为一个类别;截止单元,用于若所述当前用户存在对应的类别,则在所述用户群中选择另一用户作为当前用户,并返回执行判断所述当前用户是否存在对应的类别的操作,直到遍历所述用户群内的全部用户为止。
在上述实施例的基础上,还包括:相似度选择模块,用于用户群内的全部用户均存在对应的类别之后,在每位所述用户对应的各最终相似度中,选择数值最高的设定数量最终相似度;所属类别确定模块,用于确认每位所述用户下,所述设定数量最终相似度对应的其他用户所属的类别;最终类别确定模块,用于在对应的各其他用户所属的类别中,获取占比最高的类别作为当前用户的最终类别,并根据所述最终类别得到用户群分类结果。
在上述实施例的基础上,所述行为数据包含多条子数据。还包括:子数据确认模块,用于所述获取用户群中每位用户在各维度下的行为数据,每个维度对应至少一类行为数据之后,确认不同所述维度下相同的子数据;关联模块,用于将所述相同的子数据所对应的行为数据归为同一所述用户的关联行为数据。
本实施例提供的用户群分类装置包含在用户群分类设备中,可以用于执行上述任意实施例提供的用户群分类方法,具备相应的功能和有益效果。
实施例四
图13为本发明实施例四提供的一种用户群分类设备的结构示意图。具体的,如图13所示,该用户群分类设备包括处理器40、存储器41、输入装置42、输出装置43以及通信装置44;该用户群分类设备中处理器40的数量可以是一个或多个,图13中以一个处理器40为例;该用户群分类设备中的处理器40、存储器41、输入装置42、输出装置43以及通信装置44可以通过总线或其他方式连接,图13中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的用户群分类方法中的程序指令/模块(例如,用户群分类装置中的数据获取模块301、第一确定模块302、第二确定模块303和分类模块304)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行用户群分类设备的各种功能应用以及数据处理,即实现上述任意实施例提供的用户群分类方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据用户群分类设备的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至用户群分类设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与用户群分类设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏、扬声器等设备。通信装置44用于与后台服务器或其他设备进行数据通信。
上述用户群分类设备包含实施例三提供的用户群分类装置,可以用于执行任意实施例提供的用户群分类方法,具备相应的功能和有益效果。
实施例五
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种用户群分类方法,该方法包括:
获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;
根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;
根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;
根据所述最终相似度对所述用户群进行分类。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的用户群分类方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的用户群分类方法。
值得注意的是,上述用户群分类装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种用户群分类方法,其特征在于,包括:
获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;
根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;
根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;
根据所述最终相似度对所述用户群进行分类。
2.根据权利要求1所述的用户群分类方法,其特征在于,所述获取用户群中每位用户在各维度下的行为数据包括:
获取设定时间段内用户群中每位用户在各维度下的行为数据;
所述根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度包括:
按照设定时间间隔划分所述行为数据,得到多个子行为数据;
统计所述行为数据中出现的地点数据;
确定每位所述用户在每个所述子行为数据中出现在各所述地点数据的参数;
根据所述参数,利用Pearson系数计算每个维度下各所述用户之间的行为相似度。
3.根据权利要求1或2所述的用户群分类方法,其特征在于,所述维度包括:网吧维度、酒店维度、WiFi上网维度、常住地维度中的至少两个。
4.根据权利要求1所述的用户群分类方法,其特征在于,所述根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度包括:
根据所述行为相似度计算各所述维度对于所述用户的权重;
根据所述权重确定各所述用户之间的最终相似度。
5.根据权利要求4所述的用户群分类方法,其特征在于,所述根据所述行为相似度计算各所述维度对于所述用户的权重包括:
根据所述行为相似度计算每个所述维度的熵值;
根据所述熵值得到对应维度的权重。
6.根据权利要求5所述的用户群分类方法,其特征在于,所述根据所述行为相似度计算每个所述维度的熵值包括:
以用户为单位,将各所述维度下的所述行为相似度进行汇总,得到相似度汇总数据;
对所述相似度汇总数据中的所述行为相似度进行归一化处理,以得到归一化相似度;
计算每个所述归一化相似度在对应维度下的权重;
根据各所述权重计算每个所述维度的熵值。
7.根据权利要求5所述的用户群分类方法,其特征在于,所述根据所述熵值得到对应维度的权重包括:
根据每个所述维度的熵值得到各所述维度的信息熵冗余度;
根据所述信息熵冗余度得到对应维度的权重。
8.根据权利要求1所述的用户群分类方法,其特征在于,所述根据所述最终相似度对所述用户群进行分类包括:
在所述用户群中选择一用户作为当前用户;
判断所述当前用户是否存在对应的类别;
若所述当前用户不存在对应的类别,则获取所述当前用户与所述用户群中其他用户之间的最终相似度;
依次确定每个最终相似度对应的其他用户是否已经存在对应的类别;
若最终相似度对应的其他用户不存在对应的类别,则确定最终相似度是否大于相似度阈值;
若最终相似度大于相似度阈值,则将最终相似度对应的其他用户和所述当前用户划分为一个类别;
若所述当前用户存在对应的类别,则在所述用户群中选择另一用户作为当前用户,并返回执行判断所述当前用户是否存在对应的类别的操作,直到遍历所述用户群内的全部用户为止。
9.根据权利要求8所述的用户群分类方法,其特征在于,所述用户群内的全部用户均存在对应的类别之后,还包括:
在每位所述用户对应的各最终相似度中,选择数值最高的设定数量最终相似度;
确认每位所述用户下,所述设定数量最终相似度对应的其他用户所属的类别;
在对应的各其他用户所属的类别中,获取占比最高的类别作为当前用户的最终类别,并根据所述最终类别得到用户群分类结果。
10.根据权利要求1所述的用户群分类方法,其特征在于,所述行为数据包含多条子数据;
所述获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据之后,还包括:
确认不同所述维度下相同的子数据;
将所述相同的子数据所对应的行为数据归为同一所述用户的关联行为数据。
11.一种用户群分类装置,其特征在于,包括:
数据获取模块,用于获取用户群中每位用户在各维度下的行为数据,每个所述维度对应至少一类所述行为数据;
第一确定模块,用于根据所述行为数据确定每个所述维度下各所述用户之间的行为相似度;
第二确定模块,用于根据所述行为相似度计算基于全部所述维度的用户之间的最终相似度;
分类模块,用于根据所述最终相似度对所述用户群进行分类。
12.一种用户群分类设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的用户群分类方法。
13.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的用户群分类方法。
CN201911072846.5A 2019-11-05 2019-11-05 用户群分类方法、装置、设备及存储介质 Active CN110807052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911072846.5A CN110807052B (zh) 2019-11-05 2019-11-05 用户群分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911072846.5A CN110807052B (zh) 2019-11-05 2019-11-05 用户群分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110807052A true CN110807052A (zh) 2020-02-18
CN110807052B CN110807052B (zh) 2022-08-02

Family

ID=69501259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072846.5A Active CN110807052B (zh) 2019-11-05 2019-11-05 用户群分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110807052B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814067A (zh) * 2020-06-30 2020-10-23 北京百度网讯科技有限公司 好友推荐方法、装置、设备及存储介质
CN117455613A (zh) * 2023-10-31 2024-01-26 青岛国信会展酒店发展有限公司 一种智慧酒店数据信息管理系统及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300547A1 (en) * 2008-05-30 2009-12-03 Kibboko, Inc. Recommender system for on-line articles and documents
US20140372175A1 (en) * 2013-01-21 2014-12-18 Flytxt B.V Method and system for detection, classification and prediction of user behavior trends
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法
CN106339502A (zh) * 2016-09-18 2017-01-18 电子科技大学 一种基于用户行为数据分片聚类的建模推荐方法
CN106528643A (zh) * 2016-10-13 2017-03-22 上海师范大学 一种基于社交网络的多维度综合推荐方法
CN106570082A (zh) * 2016-10-19 2017-04-19 浙江工业大学 一种结合网络拓扑特征和用户行为特征的朋友关系挖掘方法
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN108596815A (zh) * 2018-04-08 2018-09-28 深圳市和讯华谷信息技术有限公司 基于移动终端的用户行为相似度识别方法、系统及装置
CN108897789A (zh) * 2018-06-11 2018-11-27 西南科技大学 一种跨平台的社交网络用户身份识别方法
CN109271418A (zh) * 2018-08-14 2019-01-25 阿里巴巴集团控股有限公司 可疑团伙识别方法、装置、设备及计算机可读存储介质
CN109635852A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于多维属性的用户画像构建与聚类方法
CN109766913A (zh) * 2018-12-11 2019-05-17 东软集团股份有限公司 用户分群方法、装置、计算机可读存储介质及电子设备
CN110086874A (zh) * 2019-04-30 2019-08-02 清华大学 一种高速公路服务区用户分类方法、系统、设备及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300547A1 (en) * 2008-05-30 2009-12-03 Kibboko, Inc. Recommender system for on-line articles and documents
US20140372175A1 (en) * 2013-01-21 2014-12-18 Flytxt B.V Method and system for detection, classification and prediction of user behavior trends
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法
CN106339502A (zh) * 2016-09-18 2017-01-18 电子科技大学 一种基于用户行为数据分片聚类的建模推荐方法
CN106528643A (zh) * 2016-10-13 2017-03-22 上海师范大学 一种基于社交网络的多维度综合推荐方法
CN106570082A (zh) * 2016-10-19 2017-04-19 浙江工业大学 一种结合网络拓扑特征和用户行为特征的朋友关系挖掘方法
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN108596815A (zh) * 2018-04-08 2018-09-28 深圳市和讯华谷信息技术有限公司 基于移动终端的用户行为相似度识别方法、系统及装置
CN108897789A (zh) * 2018-06-11 2018-11-27 西南科技大学 一种跨平台的社交网络用户身份识别方法
CN109271418A (zh) * 2018-08-14 2019-01-25 阿里巴巴集团控股有限公司 可疑团伙识别方法、装置、设备及计算机可读存储介质
CN109635852A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于多维属性的用户画像构建与聚类方法
CN109766913A (zh) * 2018-12-11 2019-05-17 东软集团股份有限公司 用户分群方法、装置、计算机可读存储介质及电子设备
CN110086874A (zh) * 2019-04-30 2019-08-02 清华大学 一种高速公路服务区用户分类方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAYANK GARG ET AL.: "Android app behaviour classification using topic modeling techniques and outlier detection using app permissions", 《2016 FOURTH INTERNATIONAL CONFERENCE ON PARALLEL, DISTRIBUTED AND GRID COMPUTING》 *
吴铮: "跨社交网络用户多重身份识别算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814067A (zh) * 2020-06-30 2020-10-23 北京百度网讯科技有限公司 好友推荐方法、装置、设备及存储介质
CN111814067B (zh) * 2020-06-30 2024-03-15 北京百度网讯科技有限公司 好友推荐方法、装置、设备及存储介质
CN117455613A (zh) * 2023-10-31 2024-01-26 青岛国信会展酒店发展有限公司 一种智慧酒店数据信息管理系统及方法
CN117455613B (zh) * 2023-10-31 2024-03-19 青岛国信会展酒店发展有限公司 一种智慧酒店数据信息管理系统及方法

Also Published As

Publication number Publication date
CN110807052B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
US20220092881A1 (en) Method and apparatus for behavior analysis, electronic apparatus, storage medium, and computer program
CN107273833B (zh) 用于监测流动人口的方法及其系统
RU2527754C2 (ru) Система генерирования статистической информации и способ генерирования статистической информации
EP2490169A1 (en) Position information analysis device and position information analysis method
CN106713579B (zh) 一种电话号码识别方法及装置
CN109656973B (zh) 一种目标对象关联分析方法及装置
CN110807052B (zh) 用户群分类方法、装置、设备及存储介质
CN109241223B (zh) 行为行踪识别方法及系统
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
CN108269087A (zh) 位置信息的处理方法及装置
CN113330491B (zh) 电子闸门的开启方法、装置及服务器
CN106339679A (zh) 一种人脸识别系统
KR20140116295A (ko) 인스턴트 qr코드를 통한 출입관리방법
EP2897088A1 (en) Method and apparatus for optimum spatial clustering
Riederer et al. " I don't have a photograph, but you can have my footprints." Revealing the Demographics of Location Data
CN110807546A (zh) 社区网格人口变化预警方法及系统
CN112954626A (zh) 手机信令数据分析方法、装置、电子设备及存储介质
WO2015016262A1 (ja) 情報処理装置、認証システム、認証方法、及びプログラム
CN111629374A (zh) 一种物理地址的识别方法、装置、计算机设备和存储介质
CN113609389A (zh) 一种社区平台信息推送方法及系统
Khatun et al. Data mining technique to analyse and predict crime using crime categories and arrest records
WO2018232887A1 (zh) 一种流动人员信息采集反馈方法、服务器及系统
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN108090089B (zh) 探测网站中热点数据的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 306, zone 2, building 1, Fanshan entrepreneurship center, Panyu energy saving technology park, No. 832 Yingbin Road, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Applicant after: Jiadu Technology Group Co.,Ltd.

Applicant after: Guangzhou Jiadu Technology Software Development Co.,Ltd.

Address before: Room 306, zone 2, building 1, Fanshan entrepreneurship center, Panyu energy saving technology park, No. 832 Yingbin Road, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Applicant before: PCI-SUNTEKTECH Co.,Ltd.

Applicant before: Guangzhou Jiadu Technology Software Development Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant