CN107515915B - 基于用户行为数据的用户标识关联方法 - Google Patents

基于用户行为数据的用户标识关联方法 Download PDF

Info

Publication number
CN107515915B
CN107515915B CN201710711013.3A CN201710711013A CN107515915B CN 107515915 B CN107515915 B CN 107515915B CN 201710711013 A CN201710711013 A CN 201710711013A CN 107515915 B CN107515915 B CN 107515915B
Authority
CN
China
Prior art keywords
data
user
ids
similarity
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710711013.3A
Other languages
English (en)
Other versions
CN107515915A (zh
Inventor
汤奇峰
宁绍军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingzan Advertising (shanghai) Co Ltd
Original Assignee
Jingzan Advertising (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingzan Advertising (shanghai) Co Ltd filed Critical Jingzan Advertising (shanghai) Co Ltd
Priority to CN201710711013.3A priority Critical patent/CN107515915B/zh
Publication of CN107515915A publication Critical patent/CN107515915A/zh
Application granted granted Critical
Publication of CN107515915B publication Critical patent/CN107515915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于用户行为数据的用户标识关联方法,首先对海量的用户行为进行识别,统一格式后,提取与ID之间关联相关的特征数据,判断ID的类别,根据特征数据将属于个人ID的不同ID两两之间进行关联得到的不同ID之间相似度,并分别与阈值进行比较,判断关联的ID是够属于同一用户,最后根据ID的关联性得到属于同一用户的所有ID,根据这些ID对应的数据,能够分析出用户日常行为规律,因此,本发明的基于用户行为数据的用户标识关联方法能够对收集到的海量的用户行为进行分析,得到属于同一用户的所有ID,从而根据这些ID对应的数据掌握用户的日常行为规律。

Description

基于用户行为数据的用户标识关联方法
技术领域
本发明属于互联网技术领域,具体涉及一种基于用户行为数据的用户标识关联方法。
背景技术
随着物联网、云计算、移动互联网等网络新技术的应用和发展与普及,社会信息化进程进入数据时代,海量数据的产生与流转成为常态。未来20年,全球50亿人将实现联网,“人人有终端、处处可上网、时时在链接”,这将使全球数据量呈几何式快速增长。预计到2020年,全球数据使用量将达到约40ZB(1ZB=10亿TB)将涵盖经济社会发展各个领域,成为新的重要驱动力。
在多元化移动设备时代,用户在互联网上的场景越来越多元且分散,一个人一天的行为可能是这样:早晨在智能手环的振动闹铃中醒来,通过智能家电完成早餐的快捷制作,中午在公司电脑上看看视频,逛逛淘宝,晚上在智能电视上追剧,同时用手机打发一天中的碎片时间。而这些行为可能在不同的地点发生,在上班路上、办公室里、家里以及周末常去的聚会场所。这种使用不同设备在不同的场景、不同地理位置下进行信息交互成为了现今典型的用户行为模式。
对于用户来说,这样的生活方式无疑是便捷且现代化的体验,但是对于数据分析人员来说,在识别用户、用户行为和精准营销带来了很大的挑战。如今,“对ID整合”概念已进入数据采集视野。打通不同类型ID后的各维度数据,全景式用户数据分析显得越来越重要。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种能够对收集到的海量的用户行为进行分析得到属于同一用户的所有ID,从而掌握用户的日常行为规律的基于用户行为数据的用户标识关联方法。
本发明提供了一种基于用户行为数据的用户标识关联方法,其特征在于,包括以下步骤:步骤1,对海量的用户行为进行识别,并将每条用户行为中同一类型的数据的格式进行统一;步骤2,对于每条用户行为,从统一格式后的数据中提取与ID关联相关的特征数据;步骤3,计算ID的类别,所述ID的类别包含个人ID、群体ID、组织ID、以及专用设备ID;步骤4,根据所述特征数据将属于个人ID的不同ID两两之间进行关联得到的不同ID之间相似度;步骤5,设定阈值,将不同ID之间的相似度均分别与所述阈值进行比较,确定相互关联的两个ID是否属于同一用户;步骤6,根据ID之间的传递性,得到属于用一用户的所有ID的集合。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,步骤2中提取的用户行为之间关联相关的特征数据的类型包括但不限于:ID账号数据;设备相关数据;地理位置、场所数据;线上行为数据;线下行为数据;标签属性数据以及时间数据。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,步骤3中计算得到的ID类别属于非个人ID的作为不同个人ID之间关联的特征数据。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,所述步骤3中,ID类别采用以下方法判断:使用账号级别特征、设备ID级别特征计算ID类别;使用上网行为特征计算ID类别;使用设备特征信息计算ID类别;使用地理位置特征、场所特征计算ID类别。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,步骤3中,ID类别采用决策树模型进行计算。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,采用决策树模型进行计算的方法如下:步骤3-1,选取一个已知ID类别的用户行为样本,获取样本中ID在一段时间内的全部行为数据,并统计不同类型的ID下各行为数据的分布,得到决策树阈值;步骤3-2,统计计算ID在一段时间内全部行为数据的分布,并与所述决策树阈值进行比较,小于所述决策树阈值,则该ID为非个人ID,大于等于所述决策树阈值,则该ID为个人ID。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,步骤4中不同ID之间的相似度采用以下方法得到:
步骤4-1,将不同的ID两两组合;
步骤4-2,分别计算每组组合中相同类型的特征数据之间的相似度;
步骤4-3,将每类特征数据赋予不同的权数,将每类特征数据的相似度乘以相应的权数后再相加得到两个ID之间的相似度。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,步骤4-2中每组组合的两个ID中相同类型的特征数据之间的相似度采用以下方法得到:
步骤4-2-1,将每组组合中相同类型的特征数据进行交集,如果有交集,取其交集,然后进入步骤4-2-2,如果无交集,则该类型的特征数据的相似度为0;
步骤4-2-2,将相同类型的特征数据中属性相同的特征数据进行比较,合并数据相同的两个数据,将合并后的数据和未合并的数据分别作为一个维度,得到基准向量,然后根据每个ID该类型中的特征数据得到每个ID的该类型的特征数据的用户向量;
步骤4-2-3,根据两个用户向量基于余弦相似度函数得到每组组合的两个ID中相同类型的特征数据之间的相似度。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,相同类型的特征数据之间的相似度采用以下方法得到:
Figure GDA0002242521800000041
S代表一个类型的特征数据之间的相似度,Ai表示ID-A向量的第i个维度的数值,Bi表示ID-B向量的第i个维度的数值,i表示基准向量中的一个维度,n表示基准向量的维数。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,所述相似度大于所述阈值,则该两个ID属于同一用户;所述相似度小于所述阈值,则该两个ID不属于同一用户。
进一步,在本发明提供的基于用户行为数据的用户标识关联方法中,还可以具有这样的特征:其中,步骤6中,采用图关联方法,将判断属于同一用户的两个ID连接,直接或间接具有连接关系的所有ID为同一用户,并将这些ID产生一个集合。
本发明的优点如下:
根据本发明所涉及的基于用户行为数据的用户标识关联方法,首先对海量的用户行为进行识别,统一格式后,提取与ID之间关联相关的特征数据,判断ID的类别,根据特征数据将属于个人ID的不同ID两两之间进行关联得到的不同ID之间相似度,并分别与阈值进行比较,判断关联的ID是够属于同一用户,最后根据ID的关联性得到属于同一用户的所有ID,根据这些ID对应的数据,能够分析出用户日常行为规律,因此,本发明的基于用户行为数据的用户标识关联方法能够对收集到的海量的用户行为进行分析,得到属于同一用户的所有ID,从而根据这些ID对应的数据掌握用户的日常行为规律。
附图说明
图1是本发明中基于用户行为数据的用户标识关联方法的流程图;
图2是本发明中用户行为关联后的关联图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明基于用户行为数据的用户标识关联方法作具体阐述。
如图1所示,在本实施例中,基于用户行为数据的用户标识关联方法包含以下步骤:
步骤S1,对海量的用户行为进行识别,并将每条用户行为中同一类型的数据的格式进行统一。
由于用户在不同场景下,会产生不同业务数据,而这些数据往往是异构的,会存在较大的不同。比如:同样是时间,有些业务数据使用“yyyymmddhhmiss”格式存放,有的用整数存放,有的用中文格式存放;ip数据有的采用“***.***.***.***”格式存放,有的采用长整形数据存放;url数据有的采用大写存放,通用采用小写的方式存放等。
为了得到海量用户的数据,首先要对不同来源数据类型进行识别,并且将同种类型的数据格式归整为一致。为后续计算关联,提供计算基础。
步骤S2,对于每条用户行为,从统一格式后的数据中提取与ID关联相关的特征数据。
由于用户行为中绝大部分数据都是裸数据,这些裸数据主要体现为用户上网日志明细(通常会包括时间戳、源ip、目标ip、浏览url、ua、经纬度、购买具体商品等等)、用户线下交易明细(通常包括ID账号、时间戳、具体地点、购买商品明细、金额等)、用户轨迹明细(通常包括ID账号、时间戳、具体经纬度地址)等。而一般这些数据中并不能直接提供ID之间的关联关系,需要从这些非结构化的数据中提取出能够进行ID之间关联的特征数据。
其中,ID的类型包括:ID账号数据,设备相关数据,地址位置、场所相关数据,线上行为数据线下行为数据、标签属性数据和时间数据等。
ID账号数据包括:设备号(imei、idfa、mac等)、社交账号(qq号、微信等)、通信账号(手机号、邮件号)、平台账号、网站登录账号、域下的cookie等。
设备相关数据包括:设备品牌、设备型号、操作系统、屏幕等设备相关信息等。
地址位置、场所相关数据包括:ip地址、经纬度、基站信息、POI特征等。
线上行为数据主要包括:使用的APP名称、使用过的APP类别、过问过的网站、访问过的网站类别、访问过的host、useragent(ua)等。
时间数据主要包括:日期类型(工作日、节假日),时段(2-6点、6-8点、8-9点、9-12点、12-14点、14点-17点、17点-19点、19点-22点、22点-02点)等。
步骤S3,计算ID的类别,其中,所述特征数据的ID类别包含个人ID、群体ID、组织ID、以及专用设备ID。
比如:QQ号为个人的,邮件号有属于个人的,也有属于公司的,手机设备和pad属于个人的,电脑有属于个人的也有属于公共的,多人上网卡属于公用设备。
在本实施例中,ID类别采用以下方法判断:
使用账号级别特征、设备ID级别特征计算ID类别。使用上网行为特征计算ID类别。使用设备特征信息计算ID类别。使用地理位置特征、场所特征计算ID类别。
ID类别也可以采用决策树模型进行判断。
采用决策树模型进行判断的方法如下:
步骤3-1,选取一个已知ID类别的用户行为样本,获取样本中ID在一段时间内的全部行为数据,并统计不同类型的ID下各行为数据的分布,得到决策树阈值。比如,一个电脑设备在一个月内出现的QQ数量、微信账号数量、APP数量、网站数量、host数量、IP数量、POI数量等的数据分布,得到关于电脑设备的决策树阈值。
步骤3-2,统计计算ID在一段时间内全部行为数据的分布,并与决策树阈值进行比较,小于决策树阈值,则该ID为非个人ID,大于等于决策树阈值,则该ID为个人ID。
步骤S4,根据特征数据将属于个人ID的不同ID两两之间进行关联得到的不同ID之间相似度。即仅需关联分类属于个人ID的ID。
ID类别属于非个人ID的作为不同个人ID之间关联的特征数据。
步骤S4-1,将不同的ID两两组合。
ID-A、ID-B的特征数据组合后为{A[set<设备相关数据>、set<ID账号数据>、set<地理位置、场所数据>、set<线上行为数据>、set<时间数据>],B[set<设备相关数据>、set<ID账号数据>、set<地理位置、场所数据>、set<线上行为数据>、set<时间数据>]}。
在本实施例中,ID-A的特征数据包含[set<操作系统(android)、设备类型(手机)、操作系统版本(6.0.2)、品牌(华为荣耀)、屏幕尺寸(4.1寸)>、set<QQ号(****)、手机号(****)、cookie(qq.com/***)>、set<APP(微信、大众点评,…)>]。
ID-B的特征数据包含[set<操作系统(android)、设备类型(手机)、操作系统版本(6.0.2)、品牌(华为荣耀)、屏幕尺寸(5.0寸)>、set<QQ号(****)>、set<APP(微信、携程,…)>、set<IP地址(****),POI(***,****)>]。
步骤S4-2,分别计算每组组合中相同类型的特征数据之间的相似度。
步骤S4-2-1,将每组组合中相同类型的特征数据进行交集,如果有交集,取其交集,然后进入步骤S4-2-2,如果无交集,则该类型的特征数据的相似度为0。
在本实施例中,以ID-A和ID-B的设备相关数据和ID账号数据为例,ID-A和ID-B的设备相关数据中均包含了操作系统、设备类型、操作系统版本、品牌、屏幕尺寸五个属性不同的特征数据。因此,ID-A和ID-B的设备相关数据相交后,有交集,交集为操作系统、设备类型、操作系统版本、品牌、屏幕尺寸五个属性不同的特征数据。ID-A和ID-B的ID账号数据中均包含QQ号,但ID-A的ID账号数据中还包含手机号和cookie,ID-B的ID账号数据中没有包含手机号和cookie,因此,ID-A和ID-B的ID账号数据交集后,交集中仅有QQ号。
步骤S4-2-2,将相同类型的特征数据中属性相同的特征数据进行比较,合并数据相同的两个数据,将合并后的数据和未合并的数据分别作为一个维度,得到基准向量,然后根据每个ID该类型中的特征数据得到每个ID的该类型的特征数据的用户向量,所述用户向量各个维度与所述基准向量各个维度一一对应,所述用户向量各个维度根据对应的所述基准向量各个维度的数据是否包含于所述用户ID该类型中的特征数据而赋值。
在本实施例中,以设备相关数据为例,ID-A的设备相关数据:操作系统为android、设备类型为手机、操作系统版本为6.0.2、品牌为华为荣耀、屏幕尺寸为4.1寸,ID-B的设备相关数据:操作系统为android、设备类型为手机、操作系统版本为6.0.2、品牌为华为荣耀、屏幕尺寸为5.0寸,其中,ID-A和ID-B的操作系统、设备类型、操作系统版本和品牌四个特征数据均相同,屏幕尺寸是不同的,因此,将操作系统、设备类型、操作系统版本和品牌的数据合并,得到的基准向量为
Figure GDA0002242521800000101
Figure GDA0002242521800000102
ID-A和ID-B的用户向量中各维度的数值确定方法为,以ID-A为例,ID-A中设备相关数据包含android,手机,6.0.2,华为荣耀,4.1寸,将用户行为A的用户向量中与基准向量为
Figure GDA0002242521800000111
中相同的数据均赋值为1,不同的数据均赋值为0,数值按照基准向量
Figure GDA0002242521800000112
中维度的顺序排列,得到ID-A的用户向量
Figure GDA0002242521800000113
Figure GDA0002242521800000114
同理,ID-B的用户向量为
Figure GDA0002242521800000115
Figure GDA0002242521800000116
步骤S4-2-3,根据两个用户向量基于余弦相似度函数得到每组组合的两个ID中相同类型的特征数据之间的相似度。
两个ID中相同类型的特征数据之间的相似度计算公式如下:
Figure GDA0002242521800000117
S’代表一个类型的特征数据之间的相似度,Ai表示ID-A向量的第i个维度的数值,Bi表示ID-B向量的第i个维度的数值,i表示基准向量中的一个维度,n表示基准向量的维数。
步骤S4-3,将每类特征数据赋予不同的权数,将每个特征数据的相似度乘以相应的权数后再相加得到两个ID之间的相似度。
两个ID之间的相似度计算公式如下:
S=a*S'd+b*S'i+c*S'p+d*S'o+e*S't
S为两个ID之间的相似度,S'd表示设备相关数据的相似度,a表示设备相关数据的权重;S'i表示ID账号数据的相似度,b表示ID账号数据的权重,S'p表示地理位置、场所数据的相似度,c表示地理位置、场所数据的权重,S'o表示线上行为数据的相似度,d表示线上行为数据的权重,S't表示时间数据的相似度,e表示时间数据的权重。
步骤S5,设定阈值,将不同ID之间的相似度均分别与阈值进行比较,确定相互关联的两个ID是否属于同一用户。
在本实施例中,阈值采用如下方法获得:选择一些已知的属于同一用户的多个ID作为样本,采用步骤S1-S4的步骤计算样本中属于同一用户的两个ID之间的相似度,根据这些相似度数据得到样本的S分布,根据样本的S分布和对准确度的要求确定阈值。
将两个ID之间的相似度与阈值进行比较,如果相似度大于等于阈值,则该两个ID属于同一用户,如果相似度小于阈值,则,该两个ID属于不同的用户。
步骤S6,根据ID之间的传递性,得到属于用一用户的所有ID的集合。
计算ID是否属于同一用户时是采用两两组合的方式,因此,计算的结果只是很多两个ID之间是否属于同一用户,而我们需要得到属于同一用户的全部ID,因此,我们需要对之前计算出的结果进行整理。根据ID之间的传递性,如果ID-A和ID-B属于同一用户,ID-A和ID-C属于同一用户,则ID-B和ID-C也属于同一用户,因此,ID-A、ID-B和ID-C均属于同一用户。
在本实施例中,将所有属于同一用户的ID进行关联时,采用图形关联方法,将属于同一用户的两两ID连在一起,所有直接、间接有连接的点都属于同一用户。如图2所示,其中,图2中U1A、U2A、…U9A表示9个用户,D1~D17,C1~C14,分别表示一个ID。以U3A为例,C4和D5之间有连接关系,属于同一用户;D5和C3之间有连接关系,属于同一用户;C3和D6之间有连接关系,属于同一用户,C4、D5、C3、D6四者均有直接或间接的连接关系,因此C4、D5、C3、D6属于同一用户。我们通过关联图可以很清楚的看到属于同一用户的所有ID。
通过对网络数据整合分析,我们可以从中了解大量用户的购物偏好,使得商家有针对性的进行商业活动、商业策划等。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。

Claims (9)

1.一种基于用户行为数据的用户标识关联方法,其特征在于,包括以下步骤:
步骤1,对海量的用户行为进行识别,并将每条用户行为中同一类型的数据的格式进行统一;
步骤2,对于每条用户行为,从统一格式后的数据中提取与ID关联相关的特征数据;
步骤3,计算ID的类别,所述ID的类别包含个人ID、群体ID、组织ID、以及专用设备ID;
步骤4,根据所述特征数据将属于个人ID的不同ID两两之间进行关联得到的不同ID之间相似度,所述不同ID之间的相似度采用以下方法得到:
步骤4-1,将不同的ID两两组合;
步骤4-2,分别计算每组组合中相同类型的特征数据之间的相似度,所述每组组合中相同类型的特征数据之间的相似度采用以下方法得到:
步骤4-2-1,将每组组合中相同类型的特征数据进行交集,如果有交集,取其交集,然后进入步骤4-2-2,如果无交集,则该类型的特征数据的相似度为0;
步骤4-2-2,将相同类型的特征数据中属性相同的特征数据进行比较,合并数据相同的两个数据,将合并后的数据和未合并的数据分别作为一个维度,得到基准向量,然后根据每个ID该类型中的特征数据得到每个ID的该类型的特征数据的用户向量,所述用户向量各个维度与所述基准向量各个维度一一对应,所述用户向量各个维度根据对应的所述基准向量各个维度的数据是否包含于所述用户ID该类型中的特征数据而赋值;
步骤4-2-3,根据两个用户向量基于余弦相似度函数得到每组组合的两个ID中相同类型的特征数据之间的相似度;
步骤4-3,将每类特征数据赋予不同的权数,将每类特征数据的相似度乘以相应的权数后再相加得到两个ID之间的相似度;
步骤5,设定阈值,将不同ID之间的相似度均分别与所述阈值进行比较,确定相互关联的两个ID是否属于同一用户;
步骤6,根据ID之间的传递性,得到属于同一用户的所有ID的集合。
2.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,所述步骤2中提取的用户行为之间关联相关的特征数据的类型包括但不限于:ID账号数据;设备相关数据;地理位置、场所数据;线上行为数据;线下行为数据;标签属性数据以及时间数据。
3.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,步骤3中计算得到的ID类别属于非个人ID的作为不同个人ID之间关联的特征数据。
4.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,所述步骤3中,ID类别采用以下方法判断:
使用账号级别特征、设备ID级别特征计算ID类别;
使用上网行为特征计算ID类别;
使用设备特征信息计算ID类别;
使用地理位置特征、场所特征计算ID类别。
5.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,所述步骤3中,ID类别采用决策树模型进行计算。
6.根据权利要求5所述的基于用户行为数据的用户标识关联方法,其特征在于:
采用决策树模型进行计算的方法如下:
步骤3-1,选取一个已知ID类别的用户行为样本,获取样本中ID在一段时间内的全部行为数据,并统计不同类型的ID下各行为数据的分布,得到决策树阈值;
步骤3-2,统计计算ID在一段时间内全部行为数据的分布,并与所述决策树阈值进行比较,小于所述决策树阈值,则该ID为非个人ID,大于等于所述决策树阈值,则该ID为个人ID。
7.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,相同类型的特征数据之间的相似度采用以下方法得到:
Figure FDA0002185189860000021
S代表一个类型的特征数据之间的相似度,表示A向量的第i个维度的数值,表示B向量的第i个维度的数值,i表示基准向量中的一个维度,n表示基准向量的维数。
8.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,所述相似度大于所述阈值,则该两个ID属于同一用户;
所述相似度小于所述阈值,则该两个ID不属于同一用户。
9.根据权利要求1所述的基于用户行为数据的用户标识关联方法,其特征在于:
其中,步骤6中,采用图关联方法,将判断属于同一用户的两个ID连接,直接或间接具有连接关系的所有ID为同一用户,并将这些ID产生一个集合。
CN201710711013.3A 2017-08-18 2017-08-18 基于用户行为数据的用户标识关联方法 Active CN107515915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710711013.3A CN107515915B (zh) 2017-08-18 2017-08-18 基于用户行为数据的用户标识关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710711013.3A CN107515915B (zh) 2017-08-18 2017-08-18 基于用户行为数据的用户标识关联方法

Publications (2)

Publication Number Publication Date
CN107515915A CN107515915A (zh) 2017-12-26
CN107515915B true CN107515915B (zh) 2020-02-18

Family

ID=60723178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710711013.3A Active CN107515915B (zh) 2017-08-18 2017-08-18 基于用户行为数据的用户标识关联方法

Country Status (1)

Country Link
CN (1) CN107515915B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596815A (zh) * 2018-04-08 2018-09-28 深圳市和讯华谷信息技术有限公司 基于移动终端的用户行为相似度识别方法、系统及装置
CN109388679A (zh) * 2018-09-05 2019-02-26 广州视源电子科技股份有限公司 族群营销中的用户族群构建方法、装置、存储介质及设备
CN110968573B (zh) * 2018-09-29 2023-03-21 北京小米移动软件有限公司 用户画像数据清洗方法及装置
CN110113664A (zh) * 2019-04-10 2019-08-09 华南理工大学 一种基于直播频道用户观看行为相似性的用户身份识别方法
CN110096499B (zh) * 2019-04-10 2021-08-10 华南理工大学 一种基于行为时间序列大数据的用户对象识别方法及系统
CN110046196A (zh) * 2019-04-16 2019-07-23 北京品友互动信息技术股份公司 标识关联方法及装置、电子设备
CN112488140A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 一种数据关联方法及装置
CN112487251A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 一种用户id数据关联方法及装置
CN110929105B (zh) * 2019-11-28 2022-11-29 广东云徙智能科技有限公司 一种基于大数据技术的用户id关联方法
CN117149597A (zh) * 2020-03-11 2023-12-01 北京水滴科技集团有限公司 用户行为分析系统、方法、存储介质及计算设备
CN112651433B (zh) * 2020-12-17 2021-12-14 广州锦行网络科技有限公司 一种特权账号异常行为分析方法
CN117574177B (zh) * 2024-01-15 2024-04-19 每日互动股份有限公司 一种用于用户扩线的数据处理方法、装置、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222348A (zh) * 2007-01-10 2008-07-16 阿里巴巴公司 统计网站真实用户的方法及系统
CN105608179A (zh) * 2015-12-22 2016-05-25 百度在线网络技术(北京)有限公司 确定用户标识的关联性的方法和装置
CN105677844A (zh) * 2016-01-06 2016-06-15 北京摩比万思科技有限公司 一种移动广告大数据的定向推送及用户跨屏识别方法
CN105912663A (zh) * 2016-04-12 2016-08-31 宁波极动精准广告传媒有限公司 一种基于大数据的用户标签合并方法
CN106302849A (zh) * 2016-08-04 2017-01-04 北京集奥聚合科技有限公司 一种通过运营商数据进行移固融合的方法
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其系统
CN106534164A (zh) * 2016-12-05 2017-03-22 公安部第三研究所 计算机中基于网络空间用户标识的有效虚拟身份刻画方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222348A (zh) * 2007-01-10 2008-07-16 阿里巴巴公司 统计网站真实用户的方法及系统
CN105608179A (zh) * 2015-12-22 2016-05-25 百度在线网络技术(北京)有限公司 确定用户标识的关联性的方法和装置
CN105677844A (zh) * 2016-01-06 2016-06-15 北京摩比万思科技有限公司 一种移动广告大数据的定向推送及用户跨屏识别方法
CN105912663A (zh) * 2016-04-12 2016-08-31 宁波极动精准广告传媒有限公司 一种基于大数据的用户标签合并方法
CN106302849A (zh) * 2016-08-04 2017-01-04 北京集奥聚合科技有限公司 一种通过运营商数据进行移固融合的方法
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其系统
CN106534164A (zh) * 2016-12-05 2017-03-22 公安部第三研究所 计算机中基于网络空间用户标识的有效虚拟身份刻画方法

Also Published As

Publication number Publication date
CN107515915A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515915B (zh) 基于用户行为数据的用户标识关联方法
Zimmeck et al. A privacy analysis of cross-device tracking
Lovelace et al. From big noise to big data: Toward the verification of large data sets for understanding regional retail flows
US8521680B2 (en) Inferring user-specific location semantics from user data
CN103176982B (zh) 一种电子图书推荐的方法及系统
CN109919652A (zh) 用户群体分类方法、装置、设备及存储介质
CN103218431B (zh) 一种能识别网页信息自动采集的系统
KR102121361B1 (ko) 사용자가 위치되는 지리적 위치의 유형을 식별하기 위한 방법 및 디바이스
KR20180103908A (ko) 지리적 지역 히트맵을 생성하기 위한 시스템, 방법, 및 디바이스
TW201935292A (zh) 投訴舉報類別的排序方法和裝置
Marakkalage et al. Understanding the lifestyle of older population: Mobile crowdsensing approach
Frias-Martinez et al. Cell phone analytics: Scaling human behavior studies into the millions
Iványi et al. Smart City: Studying smartphone application functions with city marketing goals based on consumer behavior of generation Z in Hungary
CN108153824A (zh) 目标用户群体的确定方法及装置
CN110392155A (zh) 通知消息的显示、处理方法、装置及设备
CN112241489A (zh) 信息推送方法、装置、可读存储介质和计算机设备
Harborth et al. A two-pillar approach to analyze the privacy policies and resource access behaviors of mobile augmented reality applications
CN105389714B (zh) 一种从行为数据识别用户特性的方法
Huang et al. On the understanding of interdependency of mobile app usage
CN111339438A (zh) 好友关系数据处理方法、服务器、终端设备及存储介质
Mrazovic et al. Mobics: Mobile platform for combining crowdsourcing and participatory sensing
CN107426338A (zh) 一种资讯管理方法及系统
CN107623605A (zh) 网络流量去重的方法和系统
Reda et al. Social networking in developing regions
Xu et al. Recommending locations based on users’ periodic behaviors

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant