CN109241421B - Id数据网处理方法、装置、计算设备及计算机存储介质 - Google Patents

Id数据网处理方法、装置、计算设备及计算机存储介质 Download PDF

Info

Publication number
CN109241421B
CN109241421B CN201810975677.5A CN201810975677A CN109241421B CN 109241421 B CN109241421 B CN 109241421B CN 201810975677 A CN201810975677 A CN 201810975677A CN 109241421 B CN109241421 B CN 109241421B
Authority
CN
China
Prior art keywords
data
relationship
subnets
subnet
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810975677.5A
Other languages
English (en)
Other versions
CN109241421A (zh
Inventor
王斌锋
马征
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201810975677.5A priority Critical patent/CN109241421B/zh
Publication of CN109241421A publication Critical patent/CN109241421A/zh
Application granted granted Critical
Publication of CN109241421B publication Critical patent/CN109241421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种ID数据网处理方法、装置、计算设备及计算机存储介质,其中,ID数据网处理方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据;对ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。该技术方案能够快速地将ID数据网划分为数个ID数据子网,与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据,有助于构建完整、有效的用户画像。

Description

ID数据网处理方法、装置、计算设备及计算机存储介质
技术领域
本发明涉及互联网技术领域,具体涉及一种ID数据网处理方法、装置、计算设备及计算机存储介质。
背景技术
为了满足用户不同的使用需求,人们已开发了上网、购物、订餐、订火车票、支付等多个业务可供用户选择与使用。业务会根据用户在业务中的账号或者用户所使用的设备等,为用户设置ID数据,用于对用户进行标识。可根据来自于多个业务的ID数据,构造ID数据网,基于ID数据网能够对用户性别、用户年龄、浏览喜好、点击喜好、活跃度、物品购买喜好、物品购买潜力、游戏喜好等用户特征进行分析,构建完整、有效的用户画像,以实现对新闻、游戏、广告等的精准推荐。然而多个业务的ID数据繁多,ID数据之间的关联关系复杂,数据处理量较大,且不同业务对于ID数据的设置规则不同,无法准确、快速地从ID数据网所包含的大量的ID数据中识别出对应于同一用户的ID数据。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的ID数据网处理方法、装置、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种ID数据网处理方法,该方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据;对ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。
进一步地,在获取包含ID数据以及ID数据之间的关联关系的ID数据网之前,该方法还包括:对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;将ID数据作为节点,按照ID数据之间的关联关系,确定节点之间的连接关系,构造得到ID数据网。
进一步地,在对ID数据网进行数据分析,得到数个ID数据子网之前,该方法还包括:对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;对ID数据网进行数据分析,得到数个ID数据子网进一步包括:对剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网。
进一步地,对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网进一步包括:对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;得到剪枝预处理后的ID数据网。
进一步地,对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次进一步包括:对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。
进一步地,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;若是,则去除该ID数据与该任一其他ID数据之间的关联关系。
进一步地,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。
进一步地,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。
进一步地,对ID数据网进行数据分析,得到数个ID数据子网进一步包括:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对;全量复制ID关系数据至内存中;将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。
进一步地,将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网进一步包括:将ID关系数据划分为多个分片;将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。
进一步地,将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果进一步包括:针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;迭代过程结束后,得到所有分片的比对组合结果。
进一步地,预设迭代条件包括:迭代次数达到预设迭代次数。
进一步地,对ID数据网进行数据分析,得到数个ID数据子网进一步包括:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系;将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。
进一步地,该方法还包括:为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;
利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网进一步包括:利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;第一ID数据子网所包含的ID数据的数量为2。
进一步地,利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网还包括:提取计数位为第二计数值的至少一个第一分组;针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同;利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组;针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位;提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;第二ID数据子网所包含的ID数据的数量为3。
进一步地,在对ID数据网进行数据分析,得到数个ID数据子网之后,该方法还包括:针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。
进一步地,针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网进一步包括:针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离;根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合;依据数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。
进一步地,根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合进一步包括:根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据;针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。
进一步地,依据数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网进一步包括:在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与该聚类集合之外的ID数据之间的关联关系;得到该ID数据子网所对应的数个第三ID数据子网。
根据本发明的另一方面,提供了一种ID数据网处理装置,该装置包括:获取模块,适于获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据;ID数据网分析模块,适于对ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。
进一步地,该装置还包括:日志数据分析模块,适于对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;构造模块,适于将ID数据作为节点,按照ID数据之间的关联关系,确定节点之间的连接关系,构造得到ID数据网。
进一步地,该装置还包括:剪枝预处理模块,适于对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;ID数据网分析模块进一步适于:对剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网。
进一步地,剪枝预处理模块进一步适于:对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;得到剪枝预处理后的ID数据网。
进一步地,剪枝预处理模块进一步适于:对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。
进一步地,剪枝预处理模块进一步适于:判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;若是,则去除该ID数据与该任一其他ID数据之间的关联关系。
进一步地,剪枝预处理模块进一步适于:判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。
进一步地,剪枝预处理模块进一步适于:判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。
进一步地,ID数据网分析模块进一步适于:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对;全量复制ID关系数据至内存中;将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。
进一步地,ID数据网分析模块进一步适于:将ID关系数据划分为多个分片;将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。
进一步地,ID数据网分析模块进一步适于:针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;迭代过程结束后,得到所有分片的比对组合结果。
进一步地,预设迭代条件包括:迭代次数达到预设迭代次数。
进一步地,ID数据网分析模块进一步适于:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系;将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。
进一步地,ID数据网分析模块进一步适于:为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;第一ID数据子网所包含的ID数据的数量为2。
进一步地,ID数据网分析模块进一步适于:提取计数位为第二计数值的至少一个第一分组;针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同;利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组;针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位;提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;第二ID数据子网所包含的ID数据的数量为3。
进一步地,该装置还包括:聚类分割模块,适于针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。
进一步地,聚类分割模块进一步适于:针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离;根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合;依据数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。
进一步地,聚类分割模块进一步适于:根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据;针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。
进一步地,聚类分割模块进一步适于:在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与该聚类集合之外的ID数据之间的关联关系;得到该ID数据子网所对应的数个第三ID数据子网。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述ID数据网处理方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述ID数据网处理方法对应的操作。
根据本发明提供的技术方案,对ID数据网所包含的ID数据以及ID数据之间的关联关系进行数据分析,能够快速地将ID数据网划分为数个ID数据子网,与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据;并且ID数据子网的数据量远远小于ID数据网的数据量,基于ID数据子网能够准确、快速地对用户特征进行分析,构建完整、有效的用户画像,以实现对新闻、游戏、广告等的精准推荐。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的ID数据网处理方法的流程示意图;
图2a示出了根据本发明另一个实施例的ID数据网处理方法的流程示意图;
图2b示出了ID数据网示意图;
图3示出了根据本发明一个实施例的ID数据网剪枝预处理方法的流程示意图;
图4示出了根据本发明一个实施例的ID数据网数据分析方法的流程示意图;
图5a示出了根据本发明另一个实施例的ID数据网数据分析方法的流程示意图;
图5b示出了对ID关系对进行有向正序和有向逆序的处理示意图;
图6示出了根据本发明一个实施例的ID数据子网处理方法的流程示意图;
图7示出了根据本发明一个实施例的ID数据网处理装置的结构框图;
图8示出了根据本发明一个实施例的ID数据网剪枝预处理装置的结构框图;
图9示出了根据本发明一个实施例的ID数据网数据分析装置的结构框图;
图10示出了根据本发明另一个实施例的ID数据网数据分析装置的结构框图;
图11示出了根据本发明一个实施例的ID数据子网处理装置的结构框图;
图12示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的ID数据网处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S100,获取包含ID数据以及ID数据之间的关联关系的ID数据网。
其中,可从数据分析系统等中获取预先构造的ID数据网,ID数据网可为根据多个业务的日志数据进行构造得到的,ID数据网包含有ID数据以及ID数据之间的关联关系,ID数据是指用于标识用户身份的数据,ID数据可包括:用户ID数据和/或设备ID数据。各个ID数据之间具有关联关系,关联关系包括直接关联关系和间接关联关系。
具体地,用户ID数据是指用户在业务中的账号数据,例如手机号、微信号、QQ号、浏览器ID等。例如,某一用户使用手机号“189****2677”登录了微信应用和QQ应用,且该用户在微信应用中的微信号为“wxid_1”,在QQ应用中的QQ号为“12345”,那么手机号“189****2677”与微信号“wxid_1”具有直接关联关系,手机号“189****2677”与QQ号“12345”也具有直接关联关系。
设备ID数据是指用户使用业务时所使用的设备的标识数据,例如移动设备的设备号的MD5值、移动设备的设备号+系统程序版本号+手机序列号的MD5值,移动设备的MAC地址的MD5值中的32位,移动设备的MAC地址的MD5值中的44位等。不同业务对于设备ID数据的设置规则不同。若通过同一设备利用多个用户ID数据使用过同一业务,那么该业务为该设备所标记的设备ID数据与上述多个用户ID数据都具有关联关系。例如,通过某手机使用微信号“wxid_1”和微信号“wxid_2”登录过微信应用,且微信应用将该手机的设备ID数据标记为“m1”,那么设备ID数据“m1”与微信号“wxid_1”具有直接关联关系,设备ID数据“m1”与微信号“wxid_2”也具有直接关联关系。
步骤S101,对ID数据网进行数据分析,得到数个ID数据子网。
其中,通过对ID数据网所包含的ID数据以及ID数据之间的关联关系进行数据分析,将ID数据网划分为数个ID数据子网。可依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数。不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。例如,数个ID数据子网包括200个所包含的ID数据的数量为2的ID数据子网、300个所包含的ID数据的数量为3的ID数据子网和100个所包含的ID数据的数量为4的ID数据子网,那么可依据ID数据子网所包含的ID数据的数量将这数个ID数据子网划分到3个ID数据子网集中,具体地,将200个所包含的ID数据的数量为2的ID数据子网划分到第一个ID数据子网集中,将300个所包含的ID数据的数量为3的ID数据子网划分到第二个ID数据子网集中,将100个所包含的ID数据的数量为4的ID数据子网划分到第三个ID数据子网集中。
与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可将ID数据子网所包含的ID数据识别为同一用户的ID数据。并且ID数据子网所包含的ID数据的数量远远小于ID数据网所包含的ID数据的数量,ID数据子网的数据量远远小于ID数据网的数据量,基于ID数据子网,能够准确、快速地对用户性别、用户年龄、浏览喜好、点击喜好、活跃度、物品购买喜好、物品购买潜力、游戏喜好等用户特征进行分析,构建完整、有效的用户画像。
根据本实施例提供的ID数据网处理方法,对ID数据网所包含的ID数据以及ID数据之间的关联关系进行数据分析,能够快速地将ID数据网划分为数个ID数据子网,与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据;并且ID数据子网的数据量远远小于ID数据网的数据量,基于ID数据子网能够准确、快速地对用户特征进行分析,构建完整、有效的用户画像,以实现对新闻、游戏、广告等的精准推荐。
图2a示出了根据本发明另一个实施例的ID数据网处理方法的流程示意图,如图2a所示,该方法包括如下步骤:
步骤S200,对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系。
其中,获取多个业务的日志数据,日志数据可以是由多个业务主动上传得到,也可以是向多个业务进行请求得到。针对一个业务的日志数据,日志数据中会记载有使用该业务的ID数据以及其他ID数据,说明使用该业务的ID数据与其他ID数据之间具有关联关系,通过对多个业务的日志数据进行数据分析,能够确定出ID数据以及ID数据之间的关联关系。具体地,ID数据可包括:用户ID数据和/或设备ID数据。
步骤S201,将ID数据作为节点,按照ID数据之间的关联关系,确定节点之间的连接关系,构造得到ID数据网。
在确定了ID数据以及ID数据之间的关联关系之后,即可根据所确定的ID数据以及ID数据之间的关联关系,构造ID数据网,具体地,将ID数据作为节点,按照ID数据之间的关联关系,确定节点之间的连接关系,从而构造得到ID数据网,该ID数据网包含有ID数据以及ID数据之间的关联关系,能够清楚地表明各个ID数据以及ID数据之间的关联关系。
假设所确定的ID数据包括“a1”、“b1”、“a2”、“b2”、“c2”、“a3”、“b3”、“c3”、“d3”、“a4”、“b4”、“c4”、“d4”、“e4”、“f4”、“g4”、“h4”,其中,ID数据“a1”与ID数据“b1”之间、ID数据“a2”与ID数据“b2”之间、ID数据“a2”与ID数据“c2”之间、ID数据“a3”与ID数据“b3”之间、ID数据“a3”与ID数据“c3”之间、ID数据“c3”与ID数据“d3”之间、ID数据“a4”与ID数据“b4”之间、ID数据“a4”与ID数据“c4”之间、ID数据“a4”与ID数据“f4”之间、ID数据“b4”与ID数据“d4”之间、ID数据“b4”与ID数据“e4”之间、ID数据“b4”与ID数据“h4”之间以及ID数据“e4”与ID数据“g4”之间具有直接关联关系,那么ID数据“b2”与ID数据“c2”之间、ID数据“b3”与ID数据“c3”之间、ID数据“a3”与ID数据“d3”等之间具有间接关联关系,则将ID数据“a1”至ID数据“h4”分别作为ID数据网中的节点a1至节点h4,并按照各个ID数据之间的关联关系,将ID数据网中的节点a1与节点b1相连,将节点a2分别与节点b2和节点c2相连,将节点a3分别与节点b3和节点c3相连,将节点c3与节点d3相连,将节点a4分别与节点b4、节点c4和节点f4相连,将节点b4分别与节点d4、节点e4和节点h4相连、将节点e4与节点g4相连,所构造得到的ID数据网210可如图2b所示。
步骤S202,获取包含ID数据以及ID数据之间的关联关系的ID数据网。
在完成ID数据网的构造后,获取该ID数据网,以便对该ID数据网进行剪枝预处理以及数据分析等处理。
步骤S203,对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网。
其中,可根据ID数据之间的关联频次以及与ID数据直接关联的其他ID数据的数量等,对ID数据网进行剪枝预处理,从而得到剪枝预处理后的ID数据网。具体地,可去除部分ID数据与其直接关联的其他ID数据之间的关联关系,实现了对ID数据网的剪枝预处理,有效地去除了ID数据网中ID数据之间不可靠的关联关系,不仅能够有助于提高ID数据网处理的准确度,而且还能够减少后续数据分析的数据量。
步骤S204,对剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网。
在得到剪枝预处理后的ID数据网之后,可通过对剪枝预处理后的ID数据网所包含的ID数据以及ID数据之间的关联关系进行数据分析,将该ID数据网划分为数个ID数据子网。可依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数。不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系。
步骤S205,针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网。
在经过步骤S204的数据分析之后所得到的数个ID数据子网中可能仍然包括有所包含的ID数据的数量较多的ID数据子网,这些ID数据子网中的ID数据虽然具有较强的关联关系,但可能并不属于同一用户的ID数据,若将这些ID数据识别为同一用户的ID数据,将导致基于这些ID数据子网分析得到的用户特征无法有效、真实地反映用户实际的情况。为了进一步提高这些ID数据子网的可靠性,还需对这些ID数据子网进行进一步处理,例如对这些ID数据子网进行聚类和分割。
具体地,可预先设置第一预设数量阈值和第二预设数量阈值,针对数个ID数据子网中的任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网,从而将该ID数据子网中具有更强的、更为可靠的关联关系的ID数据聚为一类,并分割至同一第三ID数据子网中。其中,任一是指任何一个;第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。与所包含的ID数据的数量大于第一预设数量阈值的ID数据子网相比,第三ID数据子网中的ID数据具有更强的、更为可靠的关联关系,可识别为同一用户的ID数据,基于第三ID数据子网能够准确、有效地对用户特征进行分析,以构建完整、有效的用户画像。而且第三ID数据子网的数据量远远小于所包含的ID数据的数量大于第一预设数量阈值的ID数据子网的数据量,更加便于进行用户特征分析,有助于提高分析效率。
本领域技术人员可根据实际需要对第一预设数量阈值和第二预设数量阈值进行设置,此处不做限定。例如,可将第一预设数量阈值设置为50,将第二预设数量阈值设置为10,那么针对数个ID数据子网中的任何一个所包含的ID数据的数量大于50的ID数据子网,都需要对该ID数据子网中的ID数据进行聚类和分割,将该ID数据子网分割为数个所包含的ID数据的数量小于或等于10的第三ID数据子网。
根据本实施例提供的ID数据网处理方法,通过对多个业务的日志数据进行数据分析,能够快速地构造得到ID数据网;并且对ID数据网进行剪枝预处理,有效、快速地去除了ID数据网中ID数据之间不可靠的关联关系,不仅能够有助于提高ID数据网处理的准确度,而且还能够减少数据分析的数据量;另外,对ID数据网所包含的ID数据以及ID数据之间的关联关系进行数据分析,能够快速地将ID数据网划分为数个ID数据子网,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据,基于ID数据子网能够准确、快速地对用户特征进行分析,以构建完整、有效的用户画像。
本发明还提供了一种ID数据网剪枝预处理方法,该方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网。其中,ID数据包括:用户ID数据和/或设备ID数据。下面通过图3所示的具体实施例对该ID数据网剪枝预处理方法进行描述。
图3示出了根据本发明一个实施例的ID数据网剪枝预处理方法的流程示意图,如图3所示,该方法包括如下步骤:
步骤S300,获取包含ID数据以及ID数据之间的关联关系的ID数据网。
对该步骤的描述可参照图1所示实施例中对步骤S100的描述,此处不再赘述。
步骤S301,对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次。
针对一个业务的日志数据,日志数据中会记载有使用该业务的ID数据以及其他ID数据,说明使用该业务的ID数据与其他ID数据之间具有关联关系,通过对多个业务的日志数据进行数据分析,不仅能够确定出ID数据以及ID数据之间的关联关系,还能够确定出ID数据之间的关联频次。具体地,对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次。在实际应用中,可按照预设单位时间来计算ID数据之间的实际关联频次。以预设单位时间为天为例,若通过对日志数据进行数据分析得到,某个ID数据与另一ID数据有50天具有关联关系,则将这两个ID数据之间的实际关联频次记为50。按照上述方法,计算得到每一个ID数据与其他ID数据之间的实际关联频次。
在实际应用中,还存在多个用户先后在不同时期通过同一设备使用同一业务的情况,这多个用户的用户ID数据都和该设备的设备ID数据之间具有关联关系,但其实际关联频次无法真实地反映该设备当前时期实际所对应的用户。例如,两个用户在同一个手机上使用360安全卫士应用,那么这两个用户的360账号都和该手机的设备ID数据之间具有关联关系,假设根据360安全卫士应用的日志数据得到,其中第一个360账号在1年前经常通过该手机登录360安全卫士应用,该第一个360账号与该手机的设备ID数据之间的实际关联频次为100,但是从半年前该第一个360账号不再通过该手机登录360安全卫士应用,而是第二个360账号从半年前开始经常通过该手机登录360安全卫士应用,该第二个360账号与该手机的设备ID数据之间的实际关联频次为50。虽然第一个360账号与该手机的设备ID数据之间的实际关联频次高于第二个360账号与该手机的设备ID数据之间的实际关联频次,但是第一个360账号对应的日志数据为一年前的日志数据,该日志数据的时间信息距离当前时间较远,显然第二个360账号对应的用户才是该手机当前时期实际所对应的用户,若仅根据实际关联频次无法真实地反映该手机当前时期实际所对应的用户。
为了解决上述问题,本发明为ID数据对应的日志数据引入了对应的时间权重,依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。其中,ID数据对应的日志数据所对应的时间权重的权值大小与ID数据对应的日志数据距离当前时间的远近程度相关。若ID数据对应的日志数据的时间信息距离当前时间越近,则ID数据对应的日志数据所对应的时间权重的权值越大;若ID数据对应的日志数据的时间信息距离当前时间越远,则ID数据对应的日志数据所对应的时间权重的权值越小。通过时间权重对ID数据之间的实际关联频次进行衰减处理,将衰减处理后所得到的数值作为ID数据之间的关联频次。通过这种方式所得到的ID数据之间的关联频次能够准确地反映当前时期ID数据之间真实的关联程度,具有较高的参考价值,有助于精准地对ID数据网进行剪枝预处理。
步骤S302,针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理。
本发明通过反复的数据分析设置了剪枝规则以及剪枝规则中所规定的各个阈值,其中,剪枝规则包括:针对ID数据网中的任一ID数据,若与该ID数据直接关联的其他ID数据的数量大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值,则去除该ID数据与该任一其他ID数据之间的关联关系;若与该ID数据直接关联的其他ID数据的数量大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值,则去除该ID数据与各个其他ID数据之间的关联关系;若该ID数据与各个其他ID数据之间的关联频次之和大于或等于第五阈值;则去除该ID数据与各个其他ID数据之间的关联关系;对于除上述三种情况之外的其他情况,则保留该ID数据与各个其他ID数据之间的关联关系,无需进行去除。本发明规定了只要满足上述三种需要去除关联关系的情况中的任一种,就去除对应的关联关系。
为了便于判断ID数据网中的任一ID数据是否符合上述剪枝规则,可先针对ID数据网中的任一ID数据,构建以该ID数据为中心的中间子网,具体地,根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据,其中,ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系,例如,ID数据“a1”与ID数据“b1”具有直接关联关系,那么所构建的对应的ID关系对为(a1,b1),a1和b1为该ID关系对中所包含的两个ID,并用()表示这两个ID之间具有关系。接着依主键ID分组方法,对所有ID关系对进行分组,根据分组结果得到中间子网,其中,依主键ID分组方法是指依照所设置的主键ID进行分组的方法。例如,依照所有ID关系对中的左侧的ID为主键ID,通过groupByKey方法对所有ID关系对进行分组,根据分组结果得到所有以左侧的ID为中心的中间子网,即得到了以ID数据网中的任一ID数据为中心的中间子网。在得到了中间子网之后,就可方便地进行ID数据是否符合上述剪枝规则的判断。
在实际应用中,在经过是否符合剪枝规则的判断后,可为ID关系对设置剪枝标记位,用于标记ID关系对中的两个ID之间的关系是否为需要去除的关联关系。若某个ID关系对中的两个ID之间的关系为需要去除的关联关系,则将该ID关系对的剪枝标记位设置为1;若某个ID关系对中的两个ID之间的关系不为需要去除的关联关系,则将该ID关系对的剪枝标记位设置为0。通过剪枝标记位能够清楚地获知ID关系对中的两个ID之间的关系是否为需要去除的关联关系。
具体地,针对ID数据网中的任何一个ID数据,可根据以该ID数据为中心的中间子网,判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;若是,则去除该ID数据与该任一其他ID数据之间的关联关系。其中,第一阈值可为2,第二阈值可为5,那么判断与该ID数据直接关联的其他ID数据的数量是否大于2且该ID数据与任一其他ID数据之间的关联频次小于或等于5;若是,说明该ID数据与该任一其他ID数据之间的关联关系为不可靠的关联关系,则去除该ID数据与该任一其他ID数据之间的关联关系。假设针对ID数据网中的ID数据“a4”,根据以ID数据“a4”为中心的中间子网可知,与ID数据“a4”直接关联的ID数据包括ID数据“b4”、ID数据“c4”和ID数据“f4”,其中,ID数据“a4”与ID数据“b4”之间的关联频次为20,ID数据“a4”与ID数据“c4”之间的关联频次为30,ID数据“a4”与ID数据“f4”之间的关联频次为3,那么与ID数据“a4”直接关联的其他ID数据的数量为3,大于2,且ID数据“a4”与ID数据“f4”之间的关联频次小于5,则去除ID数据“a4”与ID数据“f4”之间的关联关系。
针对ID数据网中的任何一个ID数据,还根据以该ID数据为中心的中间子网,判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。其中,第三阈值可为299,第四阈值可为100,那么判断与该ID数据直接关联的其他ID数据的数量是否大于299且该ID数据与各个其他ID数据之间的关联频次之和大于或等于100;若是,说明该ID数据与各个其他ID数据之间的关联关系均为不可靠的关联关系,则去除该ID数据与各个其他ID数据之间的关联关系。另外,还可判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。其中,第五阈值可为1000,那么判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于1000;若是,说明该ID数据与各个其他ID数据之间的关联关系均为不可靠的关联关系,则去除该ID数据与各个其他ID数据之间的关联关系。
步骤S303,得到剪枝预处理后的ID数据网。
在针对ID数据网中的任一ID数据都完成了是否符合剪枝规则的判断,并根据判断结果对该ID数据与其他ID数据之间的关联关系进行剪枝预处理之后,得到剪枝预处理后的ID数据网,从而有效地去除了ID数据网中ID数据之间不可靠的关联关系,使得剪枝预处理后的ID数据网中的ID数据之间的关联关系均为较强、可靠的关联关系,不仅能够有助于提高ID数据网处理的准确度,而且还能够减少后续数据分析的数据量。
根据本实施例提供的ID数据网剪枝预处理方法,对多个业务的日志数据进行数据分析,快速地得到ID数据之间的关联频次,针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理,有效、快速地去除了ID数据网中ID数据之间不可靠的关联关系,使得剪枝预处理后的ID数据网中的ID数据之间的关联关系均为较强、可靠的关联关系,不仅能够有助于提高ID数据网处理的准确度,而且还能够减少数据分析的数据量。可选地,还为日志数据引入了对应的时间权重,通过时间权重对ID数据之间的实际关联频次进行衰减处理,将衰减处理后所得到的数值作为ID数据之间的关联频次,以便准确地反映当前时期ID数据之间真实的关联程度,具有较高的参考价值,有助于精准地对ID数据网进行剪枝预处理。
本发明还提供了一种ID数据网数据分析方法,该方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对;对ID关系数据进行比对组合,得到数个ID数据子网。其中,ID数据包括:用户ID数据和/或设备ID数据。下面通过图4所示的具体实施例对该ID数据网数据分析方法进行描述。
图4示出了根据本发明一个实施例的ID数据网数据分析方法的流程示意图,如图4所示,该方法包括如下步骤:
步骤S400,获取包含ID数据以及ID数据之间的关联关系的ID数据网。
对该步骤的描述可参照图1所示实施例中对步骤S100的描述,此处不再赘述。
步骤S401,根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据。
在获取了ID数据网之后,就可根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据,所构建的ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系,例如,ID数据“a1”与ID数据“b1”具有直接关联关系,ID数据“a2”与ID数据“b2”具有直接关联关系,ID数据“a2”与ID数据“c2”具有直接关联关系,那么所构建的对应的ID关系对为(a1,b1)、(a2,b2)和(a2,c2),上述ID关系对分别包含有两个ID,并用()表示这两个ID之间具有关系。以ID关系对为(a1,b1)为例,所包含的两个ID分别为a1和b1,用()将这两个ID括在一起,表示这两个ID之间具有关系。针对ID数据网所包含的所有的ID数据以及所有的ID数据之间的关联关系,利用上述构建方法,构建数个ID关系对,从而完成ID关系数据的构建。
步骤S402,全量复制ID关系数据至内存中。
在进行比对组合之前,需要全量复制ID关系数据至内存中,使得内存中包括有全量的ID关系数据,从而能够快速、方便地对ID关系数据进行比对组合。
步骤S403,将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。
在将ID关系数据全量复制至内存中之后,即可将ID关系数据中的每一个ID关系对分别与全量复制到内存中的ID关系数据进行比对组合,然后根据比对组合结果进行数据整合,得到数个ID数据子网。其中,针对ID关系数据中的每一个ID关系对,通过比对从内存中的ID关系数据中找到与该ID关系对至少存在一个相同ID的ID关系对,按照ID关系对中所包含的两个ID之间的关系,将该ID关系对中的ID与所找到的ID关系对中的ID进行组合,得到该ID关系对的比对组合中间结果。例如,对于ID关系对(a2,b2),通过比对从内存中的ID关系数据中找到与该ID关系对(a2,b2)存在至少一个相同ID的ID关系对包括ID关系对(a2,b2)和ID关系对(a2,c2),那么将该ID关系对中的ID与所找到的ID关系对中的ID进行组合,所得到的该ID关系对(a2,b2)的比对组合中间结果为“c2-a2-b2”,其中,两个ID之间的“-”表示该两个ID之间具有关系。
考虑到所得到的比对组合中间结果可能仍然存在未完全组合的情况,接着将所有ID关系对的比对组合中间结果继续与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的比对组合中间结果,迭代执行本步骤,直至符合预设迭代条件。当迭代过程结束后,得到比对组合结果。其中,比对组合结果中记录了多组ID以及每组ID中ID之间的关系,每组ID中包括一个或多个ID。根据比对组合结果中的多组ID以及每组ID中ID之间的关系进行数据整合,得到数个ID数据子网,具体地,针对比对组合结果中多组ID中的任一组ID,按照该组ID中ID之间的关系进行数据整合,整合为一个ID数据子网。
可选地,可将ID关系数据划分为多个分片,通过分片并行地进行比对组合,以进一步提高ID数据网数据分析效率。将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果,然后将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。所有分片的比对组合结果记录了多组ID以及每组ID中ID之间的关系,根据所有分片的比对组合结果中的多组ID以及每组ID中ID之间的关系进行数据整合,得到数个ID数据子网。其中,针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果。具体地,针对该分片中的每一个ID关系对,通过比对从内存中的ID关系数据中找到与该ID关系对至少存在一个相同ID的ID关系对,按照ID关系对中所包含的两个ID之间的关系,将该ID关系对中的ID与所找到的ID关系对中的ID进行组合,得到该ID关系对的比对组合中间结果,直至该分片中所有ID关系对都完成了与内存中的ID关系数据的比对组合,得到该分片的比对组合中间结果,该分片的比对组合中间结果包括:该分片中的所有ID关系对的比对组合中间结果。
考虑到所得到的所有分片的比对组合中间结果可能仍然存在未完全组合的情况,本发明在得到所有分片的比对组合中间结果之后,迭代执行下列的中间比对步骤,直至符合预设迭代条件,其中,中间比对步骤为:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果。当迭代过程结束后,得到所有分片的比对组合结果。通过上述迭代执行的方式,能够将分片的比对组合中间结果进行充分地组合,以便进行数据整合。本领域技术人员可根据实际需要对预设迭代条件进行设置,此处不做限定。例如,预设迭代条件可包括:迭代次数达到预设迭代次数,其中,本领域技术人员可根据实际需要设置预设迭代次数,如将预设迭代次数设置为3。
根据本实施例提供的ID数据网数据分析方法,能够基于ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据,然后将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,准确、快速地得到数个ID数据子网,从而实现了对ID数据网的有效划分。可选地,还可将ID关系数据划分为多个分片,通过分片并行地与全量复制到内存中的ID关系数据进行比对组合,进一步提高了ID数据网数据分析效率。与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据,基于ID数据子网能够准确、快速地对用户特征进行分析,以构建完整、有效的用户画像。
本发明还提供了另一种ID数据网数据分析方法,该方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系;对ID关系数据进行分组,得到数个ID数据子网。其中,ID数据包括:用户ID数据和/或设备ID数据。下面通过图5所示的具体实施例对该ID数据网数据分析方法进行描述。
图5a示出了根据本发明另一个实施例的ID数据网数据分析方法的流程示意图,如图5a所示,该方法包括如下步骤:
步骤S500,获取包含ID数据以及ID数据之间的关联关系的ID数据网。
对该步骤的描述可参照图1所示实施例中对步骤S100的描述,此处不再赘述。
步骤S501,根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据。
其中,ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系。对该步骤的描述可参照图4所示实施例中对步骤S401的描述,此处不再赘述。
步骤S502,将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对。
为了便于进行分组处理,本发明设置了有向正序处理方法和有向逆序处理方法,具体地,将ID关系对中由左侧ID至右侧ID的顺序设置为正序,将ID关系对中由右侧ID至左侧ID设置为逆序,将ID关系对中的两个ID按照正序进行排序称为有向正序处理,将ID关系对中的两个ID按照逆序进行排序称为有向逆序处理。将每个ID关系对进行有向正序和有向逆序处理之后,会得到每个ID关系对所对应的两个ID有向关系对。为了能够方便地获知ID有向关系对是否对应于同一ID关系对,可为每个ID有向关系对设置关系位,其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同。
其中,对ID关系对进行有向正序和有向逆序的处理示意图可如图5b所示。图5b的左侧部分示出了ID关系数据所包括的ID关系对为(a1,b1)、(a2,b2)、(a2,c2)、(a3,b3)、(a3,c3)和(c3,d3)。针对ID关系对(a1,b1),将(a1,b1)进行有向正序处理,得到ID有向关系对(a1-b1-01),将(a1,b1)进行有向逆序处理,得到ID有向关系对(b1-a1-01),那么ID有向关系对(a1-b1-01)和ID有向关系对(b1-a1-01)为ID关系对(a1,b1)所对应的两个ID有向关系对,其中,这两个ID有向关系对中的关系位相同,且都为01。按照上述方式,分别对(a2,b2)、(a2,c2)、(a3,b3)、(a3,c3)和(c3,d3)进行有向正序和有向逆序处理,从而得到图5b的右侧部分所示的ID有向关系对。其中任一ID有向关系对中按照预设规则确定主键ID。本领域技术人员可根据实际需要设置预设规则,此处不做限定。例如,预设规则包括:将ID有向关系对中的左侧的ID作为主键ID。
步骤S503,利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。
其中,利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;第一ID数据子网所包含的ID数据的数量为2。其中,第一计数值为1。
以所有ID有向关系对为图5b的右侧部分所示的ID有向关系对为例,依照ID有向关系对中的左侧的ID为主键ID,通过groupByKey方法对所有ID有向关系对进行分组,即将主键ID相同的ID有向关系对分为一个第一分组,从而得到数个第一分组,这数个第一分组分别为包含有ID有向关系对(a1-b1-01)的第一分组1、包含有ID有向关系对(a2-b2-02)和(a2-c2-03)的第一分组2、包含有ID有向关系对(a3-b3-04)和(a3-c3-05)的第一分组3、包含有ID有向关系对(b1-a1-01)的第一分组4、包含有ID有向关系对(b2-a2-02)的第一分组5、包含有ID有向关系对(b3-a3-04)的第一分组6、包含有ID有向关系对(c2-a2-03)的第一分组7,包含有ID有向关系对(c3-a3-05)和(c3-d3-06)的第一分组8以及包含有ID有向关系对(d3-c3-06)的第一分组9。接着针对任何一个第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位,其中,第一分组1、第一分组4、第一分组5、第一分组6、第一分组7和第一分组9的计数位均为1,第一分组2、第一分组3以及第一分组8的计数位均为2。
从第一分组1至第一分组9中提取计数位为1的第一分组,所提取的第一分组包括第一分组1、第一分组4、第一分组5、第一分组6、第一分组7和第一分组9,接着按照关系位对所提取的这些第一分组所包含的ID有向关系对进行组合处理,也就是将所提取的这些第一分组中关系位相同的ID有向关系对组合为一个第一ID数据子网,第一ID数据子网所包含的ID数据的数量为2。在所提取的这些第一分组所包含的ID有向关系对中,只有ID有向关系对(a1-b1-01)和(b1-a1-01)的关系位相同,则将这两个ID有向关系对组合为一个第一ID数据子网,具体地,将a1和b1分别作为节点,按照a1和b1之间的关联关系,确定两个节点之间的连接关系,从而得到该第一ID数据子网。
通过上述分组处理方式,能够方便、快捷地得到所包含的ID数据的数量为2的第一ID数据子网。另外,本发明还能方便、快捷地得到所包含的ID数据的数量为3的第二ID数据子网,具体处理方式如下:
在上述分组处理过程中,在确定了所有第一分组的计数位之后,提取计数位为第二计数值的至少一个第一分组;针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及三个ID之间的关系;其中,任一ID有向关系组中按照预设规则确定主键ID;并为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同。接着利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组,针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位,然后提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;第二ID数据子网所包含的ID数据的数量为3。其中,第二计数值为2,第三计数值为1。
按照上述示例可知,第一分组1、第一分组4、第一分组5、第一分组6、第一分组7和第一分组9的计数位均为1,第一分组2、第一分组3以及第一分组8的计数位均为2,从第一分组1至第一分组9中提取计数位为2的第一分组,所提取的第一分组包括第一分组2、第一分组3以及第一分组8。针对第一分组2,第一分组2所包含的ID有向关系对为(a2-b2-02)和(a2-c2-03),根据ID有向关系对(a2-b2-02)和(a2-c2-03),得到第一分组2所对应的ID有向关系组,具体地,第一分组2所对应的ID有向关系组包括3个ID有向关系组,例如,所得到的第一分组2所对应的ID有向关系组包括ID有向关系组(a2-b2-c2-001)、ID有向关系组(b2-a2-c2-001)和ID有向关系组(c2-a2-b2-001),其中,这三个ID有向关系组中的关系位相同,且都为001。按照上述方式,分别得到第一分组3所对应的ID有向关系组和第一分组8所对应的ID有向关系组,其中,第一分组3所对应的ID有向关系组包括(a3-b3-c3-002)、(b3-a3-c3-002)和(c3-a3-b3-002),第一分组8所对应的ID有向关系组包括(c3-a3-d3-003)、(a3-c3-d3-003)和(d3-c3-a3-003)。依照ID有向关系组中的左侧的ID为主键ID,通过groupByKey方法对所有ID有向关系组进行分组,即将主键ID相同的ID有向关系组分为一个第二分组,从而得到数个第二分组,这数个第二分组分别为包含有ID有向关系组(a2-b2-c2-001)的第二分组1、包含有ID有向关系组(a3-b3-c3-002)和(a3-c3-d3-003)的第二分组2、包含有ID有向关系组(b2-a2-c2-001)的第二分组3、包含有ID有向关系组(b3-a3-c3-002)的第二分组4、包含有ID有向关系组(c2-a2-b2-001)的第二分组5、包含有ID有向关系组(c3-a3-b3-002)和(c3-a3-d3-003)的第二分组6以及包含有ID有向关系组(d3-c3-a3-003)的第二分组7。接着针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位,其中,第二分组1、第二分组3、第二分组4、第二分组5和第二分组7的计数位均为1,第二分组2和第二分组6的计数位均为2。
从第二分组1至第二分组7中提取计数位为1的第二分组,所提取的第二分组包括第二分组1、第二分组3、第二分组4、第二分组5和第二分组7,接着按照关系位对所提取的这些第二分组所包含的ID有向关系组进行组合处理,也就是将所提取的这些第二分组中关系位相同的ID有向关系组组合为一个第二ID数据子网,第二ID数据子网所包含的ID数据的数量为3。在所提取的这些第二分组所包含的ID有向关系组中,只有ID有向关系组(a2-b2-c2-001)、(b2-a2-c2-001)和(c2-a2-b2-001)的关系位相同,则将这三个ID有向关系组组合为一个第二ID数据子网,具体地,将a2、b2和c2分别作为节点,按照a2、b2和c2之间的关联关系,确定三个节点之间的连接关系,得到该第二ID数据子网,具体地,可按照ID有向关系组(a2-b2-c2-001)、(b2-a2-c2-001)和(c2-a2-b2-001)所对应的ID有向关系对(a2-b2-02)和(a2-c2-03),确定a2、b2和c2三个节点之间的连接关系,将节点a2与节点b2相连,将节点a2与节点c2相连,从而得到该第二ID数据子网。
通过上述分组处理方式,即可方便、快捷地得到所包含的ID数据的数量为2的第一ID数据子网和所包含的ID数据的数量为3的第二ID数据子网,当然本领域技术人员还可参照上述分组处理方式以此类推,得到所包含的ID数据的数量为4、5、6等的其他ID数据子网,此处不再赘述。
根据本实施例提供的ID数据网数据分析方法,能够基于ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据,接着通过有向正序和有向逆序处理,得到ID关系数据中每个ID关系对所对应的两个ID有向关系对,然后利用依主键ID分组方法,对所有ID有向关系对进行分组,有效地提高了ID数据网数据分析效率,能够准确、快速地得到数个ID数据子网,从而实现了对ID数据网的有效划分。可选地,利用所得到的分组的计数位以及为ID有向关系对和ID有向关系组所设置的关系位,能够方便、快捷地得到第一ID数据子网和第二ID数据子网。
本领域技术人员还可将图5a所示的ID数据网数据分析方法和图4所示的ID数据网数据分析方法相结合,进一步提高ID数据网数据分析效率。例如,先利用图5a所示的ID数据网数据分析方法对ID关系数据进行分组,得到所包含的ID数据的数量为2的第一ID数据子网和所包含的ID数据的数量为3的第二ID数据子网,接着将ID关系数据中除第一ID数据子网和第二ID数据子网所对应的ID关系对之外的其他ID关系对划分为多个分片,将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果,然后将所有分片的比对组合结果进行数据整合,得到所包含的ID数据的数量为4、5、6等的其他ID数据子网。通过这种处理方式不仅能够方便、快捷地得到所包含的ID数据的数量为2的第一ID数据子网和所包含的ID数据的数量为3的第二ID数据子网,而且还有效地减少了比对组合的数据处理量,提高了ID数据网数据分析效率。
本发明还提供了一种ID数据子网处理方法,该方法包括:计算数个ID数据子网中每一个ID数据子网所包含的ID数据的数量;提取所包含的ID数据的数量超过第一预设数量阈值的ID数据子网;针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。下面通过图6所示的具体实施例对该ID数据子网处理方法进行描述。
图6示出了根据本发明一个实施例的ID数据子网处理方法的流程示意图,如图6所示,该方法包括如下步骤:
步骤S600,计算数个ID数据子网中每一个ID数据子网所包含的ID数据的数量。
其中,数个ID数据子网是通过对ID数据网进行数据分析得到的,ID数据子网包含有ID数据以及ID数据之间的关联关系,ID数据子网所包含的ID数据的数量远远小于ID数据网所包含的ID数据的数量。数个ID数据子网中可能仍然包括有所包含的ID数据的数量较多的ID数据子网,这些ID数据子网中的ID数据虽然具有较强的关联关系,但可能并不属于同一用户的ID数据,若将这些ID数据识别为同一用户的ID数据,将导致基于这些ID数据子网分析得到的用户特征无法有效、真实地反映用户实际的情况。为了进一步提高这些ID数据子网的可靠性,还需对这些ID数据子网进行进一步处理。为了方便地从数个ID数据子网中找到需要进行处理的ID数据子网,可先计算数个ID数据子网中每一个ID数据子网所包含的ID数据的数量。
步骤S601,提取所包含的ID数据的数量超过第一预设数量阈值的ID数据子网。
在计算了每一个ID数据子网所包含的ID数据的数量之后,从数个ID数据子网中提取所包含的ID数据的数量超过第一预设数量阈值的ID数据子网,其中,本领域技术人员可根据实际需要对第一预设数量阈值进行设置,此处不做限定。例如,可将第一预设数量阈值设置为50,那么从数个ID数据子网中提取所包含的ID数据的数量超过50的ID数据子网。
步骤S602,在所提取的所包含的ID数据的数量超过第一预设数量阈值的ID数据子网中选择一未曾被选择过的ID数据子网。
在提取了所包含的ID数据的数量超过第一预设数量阈值的ID数据子网之后,为了能够有效地得到第三ID数据子网,针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网。具体地,在步骤S602中,在所提取的所包含的ID数据的数量超过第一预设数量阈值的ID数据子网中选择一未曾被选择过的ID数据子网。
步骤S603,对与该ID数据子网对应的多个业务的日志数据进行数据分析,确定该ID数据子网中ID数据之间的关联频次。
其中,可从多个业务的日志数据中查找与该ID数据子网对应的日志数据,具体地,针对一个业务的日志数据,日志数据中会记载有使用该业务的ID数据以及其他ID数据,说明使用该业务的ID数据与其他ID数据之间具有关联关系,那么可从多个业务的日志数据中查找与该ID数据子网中ID数据对应的日志数据,通过对与该ID数据子网对应的多个业务的日志数据进行数据分析,能够确定出该ID数据子网中ID数据之间的关联频次。
具体地,对与该ID数据子网对应的多个业务的日志数据进行数据分析,计算该ID数据子网中ID数据之间的实际关联频次。在实际应用中,可按照预设单位时间来计算ID数据之间的实际关联频次。以预设单位时间为天为例,若通过对日志数据进行数据分析得到,该ID数据子网中的某个ID数据与该ID数据子网中的另一ID数据有50天具有关联关系,则将这两个ID数据之间的实际关联频次记为50。按照上述方法,计算得到该ID数据子网中每一个ID数据与该ID数据子网中其他ID数据之间的实际关联频次。
考虑到在实际应用中,还存在多个用户先后在不同时期通过同一设备使用同一业务的情况,这多个用户的用户ID数据都和该设备的设备ID数据之间具有关联关系,但其实际关联频次无法真实地反映该设备当前时期实际所对应的用户。因此,本发明为ID数据对应的日志数据引入了对应的时间权重,依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。其中,ID数据对应的日志数据所对应的时间权重的权值大小与ID数据对应的日志数据距离当前时间的远近程度相关。若ID数据对应的日志数据的时间信息距离当前时间越近,则ID数据对应的日志数据所对应的时间权重的权值越大;若ID数据对应的日志数据的时间信息距离当前时间越远,则ID数据对应的日志数据所对应的时间权重的权值越小。通过时间权重对ID数据之间的实际关联频次进行衰减处理,将衰减处理后所得到的数值作为ID数据之间的关联频次。通过这种方式所得到的ID数据之间的关联频次能够准确地反映当前时期ID数据之间真实的关联程度,具有较高的参考价值,有助于准确地对该ID数据子网中的ID数据进行聚类。
步骤S604,针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离。
其中,该ID数据与其他ID数据之间的关联频次越大,所得到的该ID数据与其他ID数据之间的距离越小。本领域技术人员可根据实际需要设置具体计算方式,此处不做限定。例如,可用预设值除以该ID数据与其他ID数据之间的关联频次,然后将所得到的数值作为该ID数据与其他ID数据之间的距离。假设预设值为1,经步骤S603确定得到该ID数据子网中的ID数据“d5”与该ID数据子网中的ID数据“e5”的关联频次为50,那么用1除以该关联频次,得到数值0.02,然后将数值0.02作为ID数据“d5”与ID数据“e5”之间的距离。当针对该ID数据子网中的任一ID数据,都完成了该ID数据与其他ID数据之间的距离的计算之后,即得到了该ID数据子网中的ID数据之间的距离。
步骤S605,根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合。
本领域技术人员可根据实际需要对预设聚类规则进行设置,此处不做限定。例如,预设聚类规则规定了预设邻域半径、预设最小值和第二预设数量阈值,具体地,根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据,然后针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合,从而将该ID数据子网中具有更强的、更为可靠的关联关系的ID数据聚类为聚类集合。
其中,针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的距离,计算在该ID数据的预设邻域半径内的其他ID数据的数量,将该数量超过预设最小值的ID数据确定为核心ID数据。例如,预设邻域半径为1,预设最小值为3,该ID数据子网中所包含的ID数据包括“d5”、“e5”、“f5”、“g5”、“h5”等,针对ID数据“d5”,根据ID数据“d5”与其他ID数据之间的距离可知,ID数据“d5”与ID数据“e5”之间的距离、ID数据“d5”与ID数据“f5”之间的距离、ID数据“d5”与ID数据“g5”之间的距离以及ID数据“d5”与ID数据“h5”之间的距离均小于或等于1,ID数据“d5”与除ID数据“e5”、“f5”、“g5”和“h5”之外的ID数据的距离均大于1,那么在ID数据“d5”的预设邻域半径内存在的其他ID数据包括ID数据“e5”、“f5”、“g5”和“h5”,即在ID数据“d5”对应的预设邻域半径内的其他ID数据的数量为4,该数量超过预设最小值,则将ID数据“d5”确定为核心ID数据。按照上述方式,从该ID数据子网中的ID数据中确定出所有核心ID数据。
在确定出该ID数据子网中所有核心ID数据之后,针对所有核心ID数据中的任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。具体地,可根据该核心ID数据与查找到的其他ID数据之间的距离,从查找到的其他ID数据中选取数量小于第二预设数量阈值的ID数据,然后将该核心ID数据和所选取的ID数据进行聚类,得到一个聚类集合。例如,第二预设数量阈值为10,查找到的在该核心ID数据的预设邻域半径内的其他ID数据的数量有15个,大于第二预设数量阈值,那么可从查找到的15个其他ID数据中选取距离该核心ID数据最近的9个ID数据,将该核心ID数据和所选取的9个ID数据进行聚类,得到一个聚类集合。又如,查找到的在该核心ID数据的预设邻域半径内的其他ID数据的数量有8个,小于第二预设数量阈值,那么无需从这8个ID数据选取ID数据,可直接将该核心ID数据和这8个ID数据进行聚类,得到一个聚类集合。
步骤S606,依据数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。
在得到了数个聚类集合之后,需要依据数个聚类集合,对该ID数据子网进行分割。在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与该聚类集合之外的ID数据之间的关联关系,实现对该ID数据子网的有效分割,得到该ID数据子网所对应的数个第三ID数据子网。具体地,去除该聚类集合中的ID数据与其他聚类集合中的ID数据之间的关联关系以及去除该聚类集合中的ID数据与该ID数据子网中未被聚类至数个聚类集合中的ID数据之间的关联关系。例如,该聚类集合中的ID数据“d5”与另一聚类集合中的ID数据“a5”之间具有关联关系,该聚类集合中的ID数据“d5”还与该ID数据子网中未被聚类至数个聚类集合中的ID数据“b5”之间具有关联关系,那么可去除ID数据“d5”与ID数据“a5”之间的关联关系,并去除ID数据“d5”与ID数据“b5”之间的关联关系。
与所包含的ID数据的数量大于第一预设数量阈值的ID数据子网相比,第三ID数据子网中的ID数据具有更强的、更为可靠的关联关系,可识别为同一用户的ID数据,根据第三ID数据子网能够准确、有效地对用户特征进行分析,以构建完整、有效的用户画像。而且第三ID数据子网的数据量远远小于所包含的ID数据的数量大于第一预设数量阈值的ID数据子网的数据量,更加便于进行用户特征分析,有助于提高分析效率。在实际应用中,可为ID数据子网中需要去除关联关系的ID数据所对应的ID关系对设置分割标记位,用于标记ID关系对中的两个ID之间的关系是否为在分割过程中需要去除的关联关系。若某个ID关系对中的两个ID之间的关系为在分割过程中需要去除的关联关系,则将该ID关系对的分割标记位设置为1;若某个ID关系对中的两个ID之间的关系不为在分割过程中需要去除的关联关系,则将该ID关系对的分割标记位设置为0。通过分割标记位能够清楚地获知ID关系对中的两个ID之间的关系是否为在分割过程中需要去除的关联关系。
步骤S607,判断所提取的ID数据子网中的ID数据子网是否都被选择过;若是,则该方法结束;若否,则执行步骤S602。
如果判断得到所提取的所包含的ID数据的数量超过第一预设数量阈值的ID数据子网中的ID数据子网都被选择过,说明对于所提取的ID数据子网中的每一个ID数据子网都完成了对其中的ID数据进行聚类和分割,则该方法结束;如果判断得到未都被选择过,则执行步骤S602。
根据本实施例提供的ID数据子网处理方法,针对任一所包含的ID数据的数量超过第一预设数量阈值的ID数据子网,能够根据ID数据之间的关联频次以及预设聚类规则,将该ID数据子网中具有更强的、更为可靠的关联关系的ID数据聚为一类,并分割至同一第三ID数据子网中,从而得到对应的数个第三ID数据子网,实现了对ID数据子网的有效处理。与处理前的ID数据子网相比,第三ID数据子网中的ID数据具有更强的、更为可靠的关联关系,可识别为同一用户的ID数据,基于第三ID数据子网能够准确、有效地对用户特征进行分析,以构建完整、有效的用户画像。而且第三ID数据子网的数据量远远小于处理前的ID数据子网的数据量,更加便于进行用户特征分析,有助于提高分析效率。
图7示出了根据本发明一个实施例的ID数据网处理装置的结构框图,如图7所示,该装置包括:获取模块710和ID数据网分析模块720。
获取模块710适于:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据。
ID数据网分析模块720适于:对ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。
可选地,该装置还包括:日志数据分析模块730,适于对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;构造模块740,适于将ID数据作为节点,按照ID数据之间的关联关系,确定节点之间的连接关系,构造得到ID数据网。
可选地,该装置还包括:剪枝预处理模块750,适于对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;ID数据网分析模块720进一步适于:对剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网。
可选地,剪枝预处理模块750进一步适于:对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;得到剪枝预处理后的ID数据网。
可选地,剪枝预处理模块750进一步适于:对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。
可选地,剪枝预处理模块750进一步适于:判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;若是,则去除该ID数据与该任一其他ID数据之间的关联关系。剪枝预处理模块750进一步适于:判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。剪枝预处理模块750进一步适于:判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。
可选地,ID数据网分析模块720进一步适于:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对;全量复制ID关系数据至内存中;将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。
可选地,ID数据网分析模块720进一步适于:将ID关系数据划分为多个分片;将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。ID数据网分析模块720进一步适于:针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;迭代过程结束后,得到所有分片的比对组合结果。其中,预设迭代条件包括:迭代次数达到预设迭代次数。
可选地,ID数据网分析模块720进一步适于:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系;将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。ID数据网分析模块720进一步适于:为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;第一ID数据子网所包含的ID数据的数量为2。
可选地,ID数据网分析模块720进一步适于:提取计数位为第二计数值的至少一个第一分组;针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同;利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组;针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位;提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;第二ID数据子网所包含的ID数据的数量为3。
可选地,该装置还包括:聚类分割模块760,适于针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。
可选地,聚类分割模块760进一步适于:针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离;根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合;依据数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。聚类分割模块760进一步适于:根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据;针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。聚类分割模块760进一步适于:在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与其他聚类集合中的ID数据之间的关联关系;得到该ID数据子网所对应的数个第三ID数据子网。
根据本实施例提供的ID数据网处理装置,通过对多个业务的日志数据进行数据分析,能够快速地构造得到ID数据网;并且对ID数据网进行剪枝预处理,有效、快速地去除了ID数据网中ID数据之间不可靠的关联关系,不仅能够有助于提高ID数据网处理的准确度,而且还能够减少数据分析的数据量;另外,对ID数据网所包含的ID数据以及ID数据之间的关联关系进行数据分析,能够快速地将ID数据网划分为数个ID数据子网,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据,基于ID数据子网能够准确、快速地对用户特征进行分析,以构建完整、有效的用户画像。
图8示出了根据本发明一个实施例的ID数据网剪枝预处理装置的结构框图,如图8所示,该装置包括:获取模块810和剪枝预处理模块820。
获取模块810适于:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据。
剪枝预处理模块820适于:对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网。
可选地,剪枝预处理模块820进一步适于:对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;得到剪枝预处理后的ID数据网。
可选地,剪枝预处理模块820进一步适于:对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。剪枝预处理模块820进一步适于:判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;若是,则去除该ID数据与该任一其他ID数据之间的关联关系。剪枝预处理模块820进一步适于:判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。剪枝预处理模块820进一步适于:判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。
根据本实施例提供的ID数据网剪枝预处理装置,对多个业务的日志数据进行数据分析,快速地得到ID数据之间的关联频次,针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理,有效、快速地去除了ID数据网中ID数据之间不可靠的关联关系,使得剪枝预处理后的ID数据网中的ID数据之间的关联关系均为较强、可靠的关联关系,不仅能够有助于提高ID数据网处理的准确度,而且还能够减少数据分析的数据量。可选地,还为日志数据引入了对应的时间权重,通过时间权重对ID数据之间的实际关联频次进行衰减处理,将衰减处理后所得到的数值作为ID数据之间的关联频次,以便准确地反映当前时期ID数据之间真实的关联程度,具有较高的参考价值,有助于精准地对ID数据网进行剪枝预处理。
图9示出了根据本发明一个实施例的ID数据网数据分析装置的结构框图,如图9所示,该装置包括:获取模块910、第一构建模块920和比对组合模块930。
获取模块910适于:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据。
第一构建模块920适于:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对。
比对组合模块930适于:对ID关系数据进行比对组合,得到数个ID数据子网。
可选地,比对组合模块930进一步适于:全量复制ID关系数据至内存中;将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。比对组合模块930进一步适于:将ID关系数据划分为多个分片;将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。比对组合模块930进一步适于:针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;迭代过程结束后,得到所有分片的比对组合结果。其中,预设迭代条件包括:迭代次数达到预设迭代次数。
根据本实施例提供的ID数据网数据分析装置,能够基于ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据,然后将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,准确、快速地得到数个ID数据子网,从而实现了对ID数据网的有效划分。可选地,还可将ID关系数据划分为多个分片,通过分片并行地与全量复制到内存中的ID关系数据进行比对组合,进一步提高了ID数据网数据分析效率。与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据,基于ID数据子网能够准确、快速地对用户特征进行分析,以构建完整、有效的用户画像。
图10示出了根据本发明另一个实施例的ID数据网数据分析装置的结构框图,如图10所示,该装置包括:获取模块1010、第二构建模块1020和分组模块1030。
获取模块1010适于:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据。
第二构建模块1020适于:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系。
分组模块1030适于:对ID关系数据进行分组,得到数个ID数据子网。
可选地,分组模块1030进一步适于:将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。分组模块1030进一步适于:为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;第一ID数据子网所包含的ID数据的数量为2。
可选地,分组模块1030进一步适于:提取计数位为第二计数值的至少一个第一分组;针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同;利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组;针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位;提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;第二ID数据子网所包含的ID数据的数量为3。
根据本实施例提供的ID数据网数据分析装置,能够基于ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据,接着通过有向正序和有向逆序处理,得到ID关系数据中每个ID关系对所对应的两个ID有向关系对,然后利用依主键ID分组方法,对所有ID有向关系对进行分组,有效地提高了ID数据网数据分析效率,能够准确、快速地得到数个ID数据子网,从而实现了对ID数据网的有效划分。可选地,利用所得到的分组的计数位以及为ID有向关系对和ID有向关系组所设置的关系位,能够方便、快捷地得到第一ID数据子网和第二ID数据子网。
图11示出了根据本发明一个实施例的ID数据子网处理装置的结构框图,如图11所示,该装置包括:计算模块1110、提取模块1120和聚类分割模块1130。
计算模块1110适于:计算数个ID数据子网中每一个ID数据子网所包含的ID数据的数量。
提取模块1120适于:提取所包含的ID数据的数量超过第一预设数量阈值的ID数据子网。
聚类分割模块1130适于:针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。
可选地,聚类分割模块1130进一步适于:针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离;根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合;依据数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。
可选地,该装置还包括:关联频次确定模块1140,适于针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对与该ID数据子网对应的多个业务的日志数据进行数据分析,确定该ID数据子网中ID数据之间的关联频次。关联频次确定模块1140进一步适于:对与该ID数据子网对应的多个业务的日志数据进行数据分析,计算该ID数据子网中ID数据之间的实际关联频次;依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。
可选地,聚类分割模块1130进一步适于:根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据;针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。聚类分割模块1130进一步适于:在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与该聚类集合之外的ID数据之间的关联关系;得到该ID数据子网所对应的数个第三ID数据子网。
根据本实施例提供的ID数据子网处理装置,针对任一所包含的ID数据的数量超过第一预设数量阈值的ID数据子网,能够根据ID数据之间的关联频次以及预设聚类规则,将该ID数据子网中具有更强的、更为可靠的关联关系的ID数据聚为一类,并分割至同一第三ID数据子网中,从而得到对应的数个第三ID数据子网,实现了对ID数据子网的有效处理。与处理前的ID数据子网相比,第三ID数据子网中的ID数据具有更强的、更为可靠的关联关系,可识别为同一用户的ID数据,基于第三ID数据子网能够准确、有效地对用户特征进行分析,以构建完整、有效的用户画像。而且第三ID数据子网的数据量远远小于处理前的ID数据子网的数据量,更加便于进行用户特征分析,有助于提高分析效率。
本发明还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的ID数据网处理方法。
图12示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。如图12所示,该计算设备可以包括:处理器(processor)1202、通信接口(Communications Interface)1204、存储器(memory)1206、以及通信总线1208。其中:处理器1202、通信接口1204、以及存储器1206通过通信总线1208完成相互间的通信。通信接口1204,用于与其它设备比如客户端或其它服务器等的网元通信。处理器1202,用于执行程序1210,具体可以执行上述ID数据网处理方法实施例中的相关步骤。具体地,程序1210可以包括程序代码,该程序代码包括计算机操作指令。
处理器1202可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器1206,用于存放程序1210。存储器1206可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。程序1210具体可以用于使得处理器1202执行上述任意方法实施例中的ID数据网处理方法。程序1210中各步骤的具体实现可以参见上述ID数据网处理实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (36)

1.一种ID数据网处理方法,所述方法包括:
获取包含ID数据以及ID数据之间的关联关系的ID数据网;所述ID数据包括:用户ID数据和/或设备ID数据;
对所述ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将所述数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同;
在所述对所述ID数据网进行数据分析,得到数个ID数据子网之前,所述方法还包括:
对所述ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;
所述对所述ID数据网进行数据分析,得到数个ID数据子网进一步包括:对所述剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网;
所述对所述ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网进一步包括:
对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;
针对所述ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;
得到剪枝预处理后的ID数据网。
2.根据权利要求1所述的方法,其中,在所述获取包含ID数据以及ID数据之间的关联关系的ID数据网之前,所述方法还包括:
对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;
将所述ID数据作为节点,按照所述ID数据之间的关联关系,确定所述节点之间的连接关系,构造得到所述ID数据网。
3.根据权利要求1所述的方法,其中,所述对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次进一步包括:
对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;
依据所述ID数据之间的实际关联频次、所述ID数据对应的日志数据的时间信息以及时间权重,计算得到所述ID数据之间的关联频次。
4.根据权利要求1所述的方法,其中,所述根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:
判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;
若是,则去除该ID数据与该任一其他ID数据之间的关联关系。
5.根据权利要求1所述的方法,其中,所述根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:
判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;
若是,则去除该ID数据与各个其他ID数据之间的关联关系。
6.根据权利要求1所述的方法,其中,所述根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:
判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;
若是,则去除该ID数据与各个其他ID数据之间的关联关系。
7.根据权利要求1-6任一项所述的方法,其中,所述对所述ID数据网进行数据分析,得到数个ID数据子网进一步包括:
根据所述ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;所述ID关系数据包括数个ID关系对;
全量复制所述ID关系数据至内存中;
将所述ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。
8.根据权利要求7所述的方法,其中,所述将所述ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网进一步包括:
将所述ID关系数据划分为多个分片;
将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;
将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。
9.根据权利要求8所述的方法,其中,所述将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果进一步包括:
针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;
迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;
迭代过程结束后,得到所有分片的比对组合结果。
10.根据权利要求9所述的方法,其中,所述预设迭代条件包括:迭代次数达到预设迭代次数。
11.根据权利要求1-6任一项所述的方法,其中,所述对所述ID数据网进行数据分析,得到数个ID数据子网进一步包括:
根据所述ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;所述ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及所述两个ID之间的关系;
将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;
利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。
12.根据权利要求11所述的方法,其中,所述方法还包括:
为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;
所述利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网进一步包括:
利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;
针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;
提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;所述第一ID数据子网所包含的ID数据的数量为2。
13.根据权利要求12所述的方法,其中,所述利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网还包括:
提取计数位为第二计数值的至少一个第一分组;
针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及所述三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;
为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同;
利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组;
针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位;
提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;所述第二ID数据子网所包含的ID数据的数量为3。
14.根据权利要求1-6任一项所述的方法,其中,在所述对所述ID数据网进行数据分析,得到数个ID数据子网之后,该方法还包括:
针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;所述第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。
15.根据权利要求14所述的方法,其中,所述针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网进一步包括:
针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离;
根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合;
依据所述数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。
16.根据权利要求15所述的方法,其中,所述根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合进一步包括:
根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据;
针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。
17.根据权利要求15所述的方法,其中,所述依据所述数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网进一步包括:
在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与该聚类集合之外的ID数据之间的关联关系;
得到该ID数据子网所对应的数个第三ID数据子网。
18.一种ID数据网处理装置,所述装置包括:
获取模块,适于获取包含ID数据以及ID数据之间的关联关系的ID数据网;所述ID数据包括:用户ID数据和/或设备ID数据;
ID数据网分析模块,适于对所述ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将所述数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同;
所述装置还包括:
剪枝预处理模块,适于对所述ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;
所述ID数据网分析模块进一步适于:对所述剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网;
所述剪枝预处理模块进一步适于:
对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;
针对所述ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;
得到剪枝预处理后的ID数据网。
19.根据权利要求18所述的装置,其中,所述装置还包括:
日志数据分析模块,适于对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;
构造模块,适于将所述ID数据作为节点,按照所述ID数据之间的关联关系,确定所述节点之间的连接关系,构造得到所述ID数据网。
20.根据权利要求18所述的装置,其中,所述剪枝预处理模块进一步适于:
对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;
依据所述ID数据之间的实际关联频次、所述ID数据对应的日志数据的时间信息以及时间权重,计算得到所述ID数据之间的关联频次。
21.根据权利要求18所述的装置,其中,所述剪枝预处理模块进一步适于:
判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;
若是,则去除该ID数据与该任一其他ID数据之间的关联关系。
22.根据权利要求18所述的装置,其中,所述剪枝预处理模块进一步适于:
判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;
若是,则去除该ID数据与各个其他ID数据之间的关联关系。
23.根据权利要求18所述的装置,其中,所述剪枝预处理模块进一步适于:
判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;
若是,则去除该ID数据与各个其他ID数据之间的关联关系。
24.根据权利要求18-23任一项所述的装置,其中,所述ID数据网分析模块进一步适于:
根据所述ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;所述ID关系数据包括数个ID关系对;
全量复制所述ID关系数据至内存中;
将所述ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。
25.根据权利要求24所述的装置,其中,所述ID数据网分析模块进一步适于:
将所述ID关系数据划分为多个分片;
将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;
将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。
26.根据权利要求25所述的装置,其中,所述ID数据网分析模块进一步适于:
针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;
迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;
迭代过程结束后,得到所有分片的比对组合结果。
27.根据权利要求26所述的装置,其中,所述预设迭代条件包括:迭代次数达到预设迭代次数。
28.根据权利要求18-23任一项所述的装置,其中,所述ID数据网分析模块进一步适于:
根据所述ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;所述ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及所述两个ID之间的关系;
将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;
利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。
29.根据权利要求28所述的装置,其中,所述ID数据网分析模块进一步适于:
为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;
利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;
针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;
提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;所述第一ID数据子网所包含的ID数据的数量为2。
30.根据权利要求29所述的装置,其中,所述ID数据网分析模块进一步适于:
提取计数位为第二计数值的至少一个第一分组;
针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及所述三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;
为每个ID有向关系组设置关系位;其中,同一第一分组所对应的ID有向关系组的关系位相同,不同第一分组所对应的ID有向关系组的关系位不同;
利用依主键ID分组方法,对所有ID有向关系组进行分组,得到数个第二分组;
针对任一第二分组,根据该第二分组所包含的ID有向关系组的数量确定该第二分组的计数位;
提取计数位为第三计数值的至少一个第二分组,按照关系位对所提取的至少一个第二分组所包含的ID有向关系组进行组合处理,得到至少一个第二ID数据子网;所述第二ID数据子网所包含的ID数据的数量为3。
31.根据权利要求18-23任一项所述的装置,其中,所述装置还包括:
聚类分割模块,适于针对任一所包含的ID数据的数量大于第一预设数量阈值的ID数据子网,对该ID数据子网中的ID数据进行聚类和分割,得到该ID数据子网所对应的数个第三ID数据子网;所述第三ID数据子网所包含的ID数据的数量小于或等于第二预设数量阈值。
32.根据权利要求31所述的装置,其中,所述聚类分割模块进一步适于:
针对该ID数据子网中的任一ID数据,根据该ID数据与其他ID数据之间的关联频次,计算该ID数据与其他ID数据之间的距离;
根据该ID数据子网中的ID数据之间的距离以及预设聚类规则,对该ID数据子网中的ID数据进行聚类,得到数个聚类集合;
依据所述数个聚类集合,对该ID数据子网进行分割,得到该ID数据子网所对应的数个第三ID数据子网。
33.根据权利要求32所述的装置,其中,所述聚类分割模块进一步适于:
根据该ID数据子网中的ID数据之间的距离以及预设邻域半径,从该ID数据子网中的ID数据中确定出数个核心ID数据;
针对任一核心ID数据,查找该ID数据子网中在该核心ID数据的预设邻域半径内的其他ID数据,并按照第二预设数量阈值,将该核心ID数据和查找到的其他ID数据进行聚类,得到聚类集合。
34.根据权利要求32所述的装置,其中,所述聚类分割模块进一步适于:
在该ID数据子网中,针对任一聚类集合,去除该聚类集合中的ID数据与该聚类集合之外的ID数据之间的关联关系;
得到该ID数据子网所对应的数个第三ID数据子网。
35.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-17中任一项所述的ID数据网处理方法对应的操作。
36.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-17中任一项所述的ID数据网处理方法对应的操作。
CN201810975677.5A 2018-08-24 2018-08-24 Id数据网处理方法、装置、计算设备及计算机存储介质 Active CN109241421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810975677.5A CN109241421B (zh) 2018-08-24 2018-08-24 Id数据网处理方法、装置、计算设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810975677.5A CN109241421B (zh) 2018-08-24 2018-08-24 Id数据网处理方法、装置、计算设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109241421A CN109241421A (zh) 2019-01-18
CN109241421B true CN109241421B (zh) 2021-02-23

Family

ID=65068006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810975677.5A Active CN109241421B (zh) 2018-08-24 2018-08-24 Id数据网处理方法、装置、计算设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109241421B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954666A (zh) * 2019-11-26 2021-06-11 中兴通讯股份有限公司 一种用户画像方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224606A (zh) * 2015-09-02 2016-01-06 新浪网技术(中国)有限公司 一种用户标识的处理方法及装置
CN105227352A (zh) * 2015-09-02 2016-01-06 新浪网技术(中国)有限公司 一种用户标识集的更新方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780538A (zh) * 2016-03-23 2018-11-09 联邦快递服务公司 用于自调整无线节点网络中的节点的广播设定的系统、设备和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224606A (zh) * 2015-09-02 2016-01-06 新浪网技术(中国)有限公司 一种用户标识的处理方法及装置
CN105227352A (zh) * 2015-09-02 2016-01-06 新浪网技术(中国)有限公司 一种用户标识集的更新方法及装置

Also Published As

Publication number Publication date
CN109241421A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
WO2020215571A1 (zh) 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110209660B (zh) 欺诈团伙挖掘方法、装置及电子设备
WO2016074492A1 (zh) 基于社交平台的数据挖掘方法及装置
WO2020037931A1 (zh) 项目推荐方法、装置、计算机设备及存储介质
CN106682906B (zh) 一种风险识别、业务处理方法和设备
CN106302104B (zh) 一种用户关系识别方法及装置
CN108959370B (zh) 一种基于知识图谱中实体相似度的社区发现方法及装置
CN111090807B (zh) 一种基于知识图谱的用户识别方法及装置
CN108363686A (zh) 一种字符串分词方法、装置、终端设备及存储介质
CN110046196A (zh) 标识关联方法及装置、电子设备
CN105335956B (zh) 同源图像的校验方法及装置
CN111062013A (zh) 一种账号过滤方法、装置、电子设备及机器可读存储介质
JP6553816B2 (ja) ユーザデータ共有方法及び装置
CN109241421B (zh) Id数据网处理方法、装置、计算设备及计算机存储介质
US20190068745A1 (en) Method and apparatus for setting mobile device identifier
CN109145588A (zh) 数据处理方法及装置
CN109241419B (zh) Id数据网数据分析方法、装置及计算设备
CN109829099B (zh) Id数据子网处理方法、装置、计算设备及计算机存储介质
CN112241820B (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
CN106815221A (zh) 一种电信业务关系判定方法及装置
CN112532414A (zh) 确定isp归属的方法、装置、设备及计算机存储介质
CN111159347B (zh) 文章内容质量数据计算方法、计算设备及存储介质
CN115361231B (zh) 基于访问基线的主机异常流量检测方法、系统及设备
CN108154177A (zh) 业务识别方法、装置、终端设备及存储介质
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant