CN111008184B - 一种数据分析方法、装置、服务器及存储介质 - Google Patents

一种数据分析方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111008184B
CN111008184B CN201911229159.XA CN201911229159A CN111008184B CN 111008184 B CN111008184 B CN 111008184B CN 201911229159 A CN201911229159 A CN 201911229159A CN 111008184 B CN111008184 B CN 111008184B
Authority
CN
China
Prior art keywords
target
tag
app
association information
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911229159.XA
Other languages
English (en)
Other versions
CN111008184A (zh
Inventor
廖晨晓
于潇潇
周通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201911229159.XA priority Critical patent/CN111008184B/zh
Publication of CN111008184A publication Critical patent/CN111008184A/zh
Application granted granted Critical
Publication of CN111008184B publication Critical patent/CN111008184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种数据分析方法、装置、服务器及存储介质,接收到的数据分析请求指示多个应用程序app,获取指示多个设备的全量数据,根据全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带目标第二标签所属的第一标签的设备数量,计算目标app与目标第二标签的关联信息,利用数据分析请求指示的每个app与目标第二标签的关联信息计算目标第二标签的平均关联信息,基于目标app与目标第二标签的关联信息和平均关联信息,确定目标app相对于数据分析请求指示的app在目标第二标签的差异信息。本发明提供的技术方案,能够实现对不同app的用户异同的刻画。

Description

一种数据分析方法、装置、服务器及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种数据分析方法、装置、服务器及存储介质。
背景技术
当前互联网的激烈竞争环境中,各互联网公司旗下往往都存在着多条产品线来满足用户的不同需求,产品线可以认为是app(Application,应用程序)。互联网公司决策层需要对不同app之间用户群体差异有准确的了解,才能制定相应的经营与运营策略,实现公司业务的增长。由此,如何提供一种数据分析方法,以刻画不同app的用户异同就成为一个很重要的问题。
发明内容
有鉴于此,本申请提供一种数据分析方法、装置、服务器及存储介质,以实现对不同app的用户异同的刻画。技术方案如下:
本发明第一方面公开一种数据分析方法,包括:
接收数据分析请求,所述数据分析请求指示多个应用程序app;
获取指示多个设备的全量数据,所述全量数据包括所述设备的app安装列表和所述设备携带的至少一个标签,所述标签由第一标签和属于所述第一标签的第二标签构成;
根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息;
利用所述数据分析请求指示的每个app与所述目标第二标签的关联信息计算所述目标第二标签的平均关联信息;
基于所述目标app与所述目标第二标签的关联信息和所述平均关联信息,确定所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息。
可选的,还包括:
判断所述差异信息是否满足预设条件;
若所述差异信息满足预设条件,确定所述目标第二标签为所述目标app的差异标签。
可选的,所述获取指示多个设备的全量数据,包括:
获取多个设备中每个所述设备的app安装列表和运行日志;
对各个所述设备的运行日志进行数据清洗得到每个所述设备的目标运行日志;
根据各个所述设备的目标运行日志分别生成每个所述设备的标签。
可选的,所述根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息,包括:
获取所述全量数据指示的安装目标app的设备中携带目标第二标签的第一设备数量以及携带所述目标第二标签所属的第一标签的第二设备数量;
将所述第一设备数量占所述第二设备数量的比例确定为所述目标app与所述目标第二标签的关联信息。
可选的,所述根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息,包括:
获取所述全量数据指示的安装目标app的设备中携带目标第二标签的第一设备数量以及携带所述目标第二标签所属的第一标签的第二设备数量;
将所述第一设备数量占所述第二设备数量的比例确定为所述目标app与所述目标第二标签的初始关联信息;
获取所述目标第二标签所属的第一标签包括的各个第二标签,并根据所述目标app与所获取的每个所述第二标签的初始关联信息确定所述目标app与所述目标第二标签的关联信息。
可选的,所述根据所述目标app与所获取的每个所述第二标签的初始关联信息确定所述目标app与所述目标第二标签的关联信息,包括:
分别确定所述目标app与所获取的每个所述第二标签的初始关联信息;
对所确定的各个所述初始关联信息的关联值进行排序,根据所述目标app与所述目标第二标签的初始关联信息的关联值的排序位置,确定所述目标app与所述目标第二标签的关联信息。
可选的,所述根据所述目标app与所获取的每个所述第二标签的初始关联信息确定所述目标app与所述目标第二标签的关联信息,包括:
分别确定所述目标app与所获取的每个所述第二标签的初始关联信息;
从所确定的各个所述初始关联信息中选取关联值最大的第一初始关联信息和关联值最小的第二初始关联信息;
基于所述第一初始关联信息和所述第二初始关联信息对所述目标app与所述目标第二标签的初始关联信息进行数据标准化处理生成所述目标app与所述目标第二标签的关联信息。
本发明第二方面公开一种数据分析装置,包括:
接收单元,用于接收数据分析请求,所述数据分析请求指示多个应用程序app;
第一获取单元,用于获取指示多个设备的全量数据,所述全量数据包括所述设备的app安装列表和所述设备携带的至少一个标签,所述标签由第一标签和属于所述第一标签的第二标签构成;
第一计算单元,用于根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息;
第二计算单元,用于利用所述数据分析请求指示的每个app与所述目标第二标签的关联信息计算所述目标第二标签的平均关联信息;
第一确定单元,用于基于所述目标app与所述目标第二标签的关联信息和所述平均关联信息,确定所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息。
本发明第三方面公开一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现如上述本发明第一方面任意一项公开的数据分析方法。
本发明第四方面公开一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行如上述本发明第一方面任意一项公开的数据分析方法。
本发明提供的一种数据分析方法、装置、服务器及存储介质,接收到的数据分析请求指示多个app,基于全量数据可以分析出目标app与目标第二标签的关联信息,并根据数据分析请求指示的每个app与目标第二标签的关联信息确定目标第二标签的平均关联信息,进而基于目标app与目标第二标签的关联信息和目标第二标签的平均关联信息可以确定出目标app相对于数据分析请求指示的各个app在目标第二标签的差异信息。本申请可以基于全量数据分析目标app相对于数据分析请求指示的app分别在每个第二标签的差异信息,经由各个第二标签的差异信息可以体现目标app的用户和数据分析请求指示的app的用户之间的用户异同,进而实现了刻画不同app的用户异同的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种数据分析方法的流程示意图;
图2为本申请实施例提供的另一种数据分析方法的流程示意图;
图3为本申请实施例提供的一种数据分析装置的结构示意图;
图4为本申请实施例提供的一种服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本申请提供一种数据分析方法、装置、服务器及存储介质,以自动实现对不同app的用户异同的刻画,基于对不同app的用户异同的刻画可以便于互联网公司决策层了解不同app之间的用户的相同点和不同点,以指定相应的经营与运营策略。比如,可以根据不同app的用户异同,有选择向用户推荐app,进而增加用户对app的粘性。
参见图1为本申请实施例提供的一种数据分析方法流程图。
如图1所示,该方法包括:
S101、接收数据分析请求,数据分析请求指示多个应用程序app;
本申请实施例,可以提供数据分析界面,该数据分析界面显示有多个app,用户可以选取数据分析界面上的多个app中的任意一个或多个app作为待进行数据分析的app,进而通过发送数据分析请求的方式请求对所选取的app进行数据分析。
在本申请实施例中,预先设置有多个第一标签,以及针对每个第一标签而言,设置有属于该第一标签的多个第二标签。采集全量数据,全量数据指示多个设备,全量数据包括其指示的设备的app安装列表和其指示的设备携带的至少一个标签,所述标签由第一标签和属于第一标签的第二标签构成。相应的,对所选取的app进行数据分析的方式可以为:分别将每个app作为目标app,针对目标app而言,计算该目标app相对于数据分析请求指示的app分别在每个第二标签上的差异信息。比如,预先设置有3个第一标签,第一标签1、第一标签2和第一标签3,预先设置属于第一标签1的第二标签分别为第二标签1和第二标签2;属于第一标签2的第二标签为第二标签3;属于第一标签3的第二标签为第二标签4和第二标签5;则,针对每个目标app而言,计算该目标app相对于数据分析请求指示的app在第二标签1上的差异信息、该目标app相对于数据分析请求指示的app在第二标签2上的差异信息、该目标app相对于数据分析请求指示的app在第二标签3上的差异信息、该目标app相对于数据分析请求指示的app在第二标签4上的差异信息、该目标app相对于数据分析请求指示的app在第二标签5上的差异信息。
S102、获取指示多个设备的全量数据,全量数据包括设备的app安装列表和设备携带的至少一个标签,标签由第一标签和属于第一标签的第二标签构成;
本申请实施例中,采集全量数据的方式可以为:在app上集成数据采集功能,当设备安装集成有数据采集功能的app后,在设备的用户授权的情况下该app可以采集其所安装于的设备的app安装列表以及该app在其所安装于的设备上的运行日志。比如,app1具有数据采集功能,当设备安装app1后,在设备的用户授权的情况下app1可以采集设备的app安装列表以及该设备上app1的运行日志。基于此采集全量数据的方式可以采集多个设备的实际信息,设备的实际信息为安装于设备的具有数据采集功能的app采集到的该设备的app安装列表以及该具有数据采集功能的app在该设备上的运行日志,其中,该具有数据采集功能的app在该设备上的运行日志可以称为该设备的运行日志。
在采集全量数据后,可以基于对各个设备的运行日志进行数据清洗得到每个设备的目标运行日志,进而基于对各个设备的目标运行日志和app安装列表的分析,生成每个设备的标签,设备的标签由第一标签和属于第一标签的第二标签构成。其中,第一标签可以认为是类别标签,属于第一标签的第二标签可以认为是属于类别标签的子标签。
S103、根据全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带目标第二标签所属的第一标签的设备数量,计算目标app与目标第二标签的关联信息;
本申请实施例,计算目标app与目标第二标签的关联信息的方式可以为:获取全量数据中指示安装目标app的设备,根据全量数据包括的其指示的设备的标签,从安装目标app的设备中获取携带目标第二标签的设备的数量作为第一设备数量,从安装目标app的设备中获取携带目标第二标签所属的第一标签的设备的数量作为第二设备数量,根据第一设备数量和第二设备数量计算目标app与目标第二标签的关联信息。
作为本申请实施例的一种优选实施方式,当目标第二标签所属的第一标签为性别标签、年龄标签、地域标签、设备品牌标签、设备价格标签或者设备入市时长标签时,根据第一设备数量和第二设备数量计算目标app与目标第二标签的关联信息的方式可以为:将所述第一设备数量占所述第二设备数量的比例确定为所述目标app与所述目标第二标签的关联信息。即,将第一设备数量除以第二设备数量得到第一结果,根据第一结果生成目标app与目标第二标签的关联信息;关联信息表征目标app与目标第二标签的关联程度,关联信息的关联值可以为第一结果。
其中,当第一标签为性别标签时,属于第一标签的各个第二标签可以分别为性别女标签、性别男标签;当第一标签为年龄标签时,属于第一标签的各个第二标签可以分别为小于20周岁标签、20-50周岁标签、50周岁以上标签;当第一标签为地域标签时,可以分别将各个省作为一个第二标签;当第一标签为设备品牌标签时,可以将不同设备品牌分别作为一个第二标签;当第一标签为设备价格标签时,可以将属于第一标签的第二标签分别设置为小于1000元标签、大于等于1000元小于5000元标签、大于等于5000元标签等等;当第一标签为设备入市时长标签时,属于第一标签的各个第二标签可以分别为小于5年的标签、大于等于5年小于10年的标签、大于等于10年的标签。
比如,当目标第二标签所属的第一标签为性别标签、年龄标签、地域标签、设备品牌标签、设备价格标签或设备入市时长标签时,目标app与目标第二标签的关联信息的计算方式为:安装有目标app的设备中携带目标第二标签的设备的数量/安装有目标app的设备中携带目标第二标签所属第一标签的设备的数量。
以上仅仅是本申请实施例提供的一种第一标签和属于第一标签的第二标签的优选方式,有关预先设置的第一标签和第二标签的具体内容,发明人可根据自己的需求进行设置,在此不做限定。
作为本申请实施例的另一种优选实施方式,当目标第二标签所属的第一标签为商业兴趣标签、兴趣关键词标签、广告兴趣标签或明星兴趣标签时,根据第一设备数量和第二设备数量计算目标app与目标第二标签的关联信息的方式可以为:根据所述第一设备数量占所述第二设备数量的比例确定所述目标app与所述目标第二标签的初始关联信息(即,将第一设备数量除以第二设备数量得到第一结果,根据第一结果生成目标app与目标第二标签的初始关联信息,初始关联信息表征目标app与目标第二标签的关联程度,初始关联信息的关联值可以为第一结果);获取预先设置的该目标第二标签所属的第一标签包括的各个第二标签;针对所获取的每个第二标签,确定目标app与该第二标签的初始关联信息;对所确定的各个初始关联信息的关联值按照从大到小的顺序进行排序得到排序结果,将目标app与目标第二标签的初始关联信息的关联值在排序结果中的排序位置,确定为目标app与目标第二标签的关联信息的关联值。其中,可以将目标app与目标第二标签的初始关联信息的关联值在排序结果中的序号作为目标app与目标第二标签的关联信息的关联值。
其中,第一标签为商业兴趣标签时,属于第一标签的第二标签可以为理财标签、投资标签等等;第一标签为兴趣关键词标签时,属于第一标签的第二标签可以为影视标签、新闻标签等等;当第一标签为广告兴趣标签时,属于第一标签的第二标签可以为汽车标签、日用品标签等等;当第一标签为明星兴趣标签时,属于第一标签的第二标签可以为偶像明星标签、实力明星标签等等。
比如,当目标第二标签所属的第一标签为商业兴趣标签、兴趣关键词标签、广告兴趣标签或明星兴趣标签时,目标app与目标第二标签的关联信息的计算方式为:计算目标app与目标第二标签的初始关联信息(目标app与目标第二标签的初始关联信息中关联值为安装有目标app的设备中携带目标第二标签的设备的数量/安装有目标app的设备中携带目标第二标签所属第一标签的设备的数量);获取预先设置的目标第二标签所属的第一标签中的各个第二标签,确定目标app分别与所获取的每个第二标签的初始关联信息;对各个初始关联信息的关联值按照从大到小的顺序进行排序,将目标app与目标第二标签的序号作为目标app与目标第二标签的关联信息的关联值。
以上仅仅是本申请实施例提供的当第一标签为商业兴趣标签、兴趣关键词标签、广告兴趣标签、明星兴趣标签时,预先设置的属于第一标签的第二标签的优选内容,有关预先设置的第一标签、第二标签的具体内容,发明人可根据自己的需求进行设置,在此不做限定。
作为本申请实施例的又一种优选实施方式,当目标第二标签所属的第一标签为app安装类别标签时,根据第一设备数量和第二设备数量计算目标app与目标第二标签的关联信息的方式可以为:根据所述第一设备数量占所述第二设备数量的比例确定所述目标app与所述目标第二标签的初始关联信息(即,将第一设备数量除以第二设备数量得到第一结果,根据第一结果生成目标app与目标第二标签的初始关联信息,初始关联信息表征目标app与目标第二标签的关联程度,初始关联信息的关联值可以为第一结果);获取预先设置的该目标第二标签所属的第一标签包括的各个第二标签;针对所获取的每个第二标签,确定目标app与该第二标签的初始关联信息;从所确定的各个初始关联信息中选取关联值最大的初始关联信息作为第一初始关联信息,从所确定的各个初始关联信息中选取关联值最小的初始关联信息作为第二初始关联信息;利用第一初始关联信息和第二初始关联信息对目标app与目标第二标签的初始关联信息进行数据标准化处理得到目标app与目标第二标签的关联信息。
其中,第一标签为app安装类别标签时,属于第一标签的第二标签可以为游戏app安装类别标签、影视app安装类别标签、安全管理app安装类别标签等等。若设备的app安装列表中携带游戏类别的app,在生成设备的标签时所生成的app安装类别标签中包括游戏app安装类别标签;若设备的app安装列表中携带影视类别的app,在生成设备的标签时所生成的app安装类别标签中包括影视app安装类别标签;若设备的app安装列表中携带安全管理类别的app,在生成设备的标签时所生成的app安装类别标签中包括安全管理app安装类别标签。
比如,当目标第二标签所属的第一标签为app安装类别标签时,目标app与目标第二标签的关联信息的计算方式为:计算目标app与目标第二标签的初始关联信息(目标app与目标第二标签的初始关联信息中关联值为安装有目标app的设备中携带目标第二标签的设备的数量/安装有目标app的设备中携带目标第二标签所属第一标签的设备的数量);获取预先设置的目标第二标签所属的第一标签中的各个第二标签,确定目标app分别与所获取的每个第二标签的初始关联信息;从所确定的各个初始关联信息中选取关联值最大的第一初始关联信息和关联值最小的第二初始关联信息;利用第一初始关联信息和第二初始关联信息对目标app与目标第二标签的初始关联信息进行数据标准化处理生成目标app与目标第二标签的关联信息。
其中,利用第一初始关联信息和第二初始关联信息对目标app与目标第二标签的初始关联信息进行数据标准化处理生成目标app与目标第二标签的关联信息的方式参见如下公式1:
公式1:F=(X-min)/(max-min),其中,F为目标app与目标第二标签的关联信息的关联值,X为目标app与目标第二标签的初始关联信息的关联值,max为第一初始关联信息的关联值,min为第二初始关联信息的关联值。
以上仅仅是本申请实施例提供的当第一标签为app安装类别标签时,预先设置的属于第一标签的第二标签的优选内容,有关预先设置的第一标签、第二标签的具体内容,发明人可根据自己的需求进行设置,在此不做限定。
S104、利用数据分析请求指示的每个app与目标第二标签的关联信息计算目标第二标签的平均关联信息;
作为本申请实施例的一种优选实施方式,可以获取数据分析请求指示的各个app,针对数据分析请求指示的每个app而言,获取该app与目标第二标签的关联信息;将获取到的各个关联信息的关联值的平均值作为目标第二标签的平均关联信息。
比如,数据分析请求指示有3个app,分别为app1、app2和app3,app1与目标第二标签的关联信息的关联值为关联值1,app2与目标第二标签的关联信息的关联值为关联值2,app3与目标第二标签的关联信息的关联值为关联值3,计算关联值1、关联值2和关联值3的平均值,将该平均值作为目标第二标签的平均关联信息。其中,平均值=(关联值1+关联值2+关联值3)/3。
S105、基于目标app与目标第二标签的关联信息和平均关联信息,确定目标app相对于数据分析请求指示的app在目标第二标签的差异信息。
在本申请实施例中,在计算出目标app与目标第二标签的关联信息后,可以根据目标第二标签的平均关联信息进行计算,得到目标app与目标第二标签的差异信息。其中,差异信息表征目标app与数据分析请求指示的app相比偏向于目标第二标签的程度,差异信息携带差异值,差异值越大表征目标app在目标第二标签上越为突出。即,差异越大表征目标app相对于数据分析请求指示的app而言越偏向于目标第二标签。
作为本申请实施例的一种优选实施方式,目标app与计算目标app与目标第二标签的差异信息的差异值的方式可参见如下公式2:
公式2:目标app与目标第二标签的差异信息的差异值=(目标app与目标第二标签的关联信息的关联值/目标第二标签的平均关联信息-1)*100。
以上仅仅是本申请实施例提供的一种计算差异信息的优选方式,有关计算差异信息的具体方式,发明人可根据自己的需求进行设置,在此不做限定。
图2为本申请实施例提供的另一种数据分析方法流程图。
如图2所示,该方法包括:
S201、接收数据分析请求,数据分析请求指示多个应用程序app;
S202、获取指示多个设备的全量数据,全量数据包括设备的app安装列表和设备携带的至少一个标签,标签由第一标签和属于第一标签的第二标签构成;
S203、根据全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带目标第二标签所属的第一标签的设备数量,计算目标app与目标第二标签的关联信息;
S204、利用数据分析请求指示的每个app与目标第二标签的关联信息计算目标第二标签的平均关联信息;
S205、基于目标app与目标第二标签的关联信息和平均关联信息,确定目标app相对于数据分析请求指示的app在目标第二标签的差异信息;
本申请实施例提供的步骤S201-S205的执行方式与上述实施例提供的步骤S101-S105的执行方式相同,有关步骤S201-S205的具体执行方式请参见上述实施例对步骤S101-S105的详细描述,在此不做赘述。
S206、判断差异信息是否满足预设条件;若差异信息满足预设条件,执行步骤S207;若差异信息不满足预设条件,执行步骤S208;
本申请实施例,预设条件可以为预设值;若差异信息的差异值大于预设值,则说明差异信息满足预设条件;若差异信息的差异值不大于预设值,则说明差异信息不满足预设条件。比如,预设值可以为0.1;0.15;1;2.5等等,若预设为0.15时,若差异信息的差异值大于0.15,则说明差异信息满足预设条件,若差异信息的差异值不大于0.15,则说明差异信息不满足预设条件。
以上仅仅是本申请实施例提供的预设值的优选内容,有关预设值的具体内容,发明人可根据自己的需求进行设置,在此不做限定。
S207、确定目标第二标签为目标app的差异标签;
本申请实施例,当目标app相对于数据分析请求指示的app在目标第二标签的差异信息满足预设条件时,可以认为目标第二标签为目标app的差异标签。即,目标app相对于数据分析请求指示的app而言,在目标第二标签上较为突出。
S208、确定目标第二标签不为目标app的差异标签。
进一步的,本申请实施例提供的另一种数据分析方法,还包括:当目标app相对于数据分析请求指示的app在目标第二标签的差异信息不满足预设条件时,可以认为目标第二标签不为目标app的差异标签。即,目标app相对于数据分析请求指示的app而言,在目标第二标签上不突出。
本发明提供的一种数据分析方法,接收到的数据分析请求指示多个app,基于全量数据可以分析出目标app与目标第二标签的关联信息,并根据数据分析请求指示的每个app与目标第二标签的关联信息确定目标第二标签的平均关联信息,进而基于目标app与目标第二标签的关联信息和目标第二标签的平均关联信息可以确定出目标app相对于数据分析请求指示的各个app在目标第二标签的差异信息。本申请可以基于全量数据分析目标app相对于数据分析请求指示的app分别在每个第二标签的差异信息,经由各个第二标签的差异信息可以体现目标app的用户和数据分析请求指示的app的用户之间的用户异同,进而实现了刻画不同app的用户异同的目的。
图3为本申请实施例提供的一种数据分析装置的结构示意图。
如图所示,该装置包括:
接收单元31,用于接收数据分析请求,数据分析请求指示多个应用程序app;
第一获取单元32,用于获取指示多个设备的全量数据,全量数据包括设备的app安装列表和设备携带的至少一个标签,标签由第一标签和属于第一标签的第二标签构成;
第一计算单元33,用于根据全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带目标第二标签所属的第一标签的设备数量,计算目标app与目标第二标签的关联信息;
第二计算单元34,用于利用数据分析请求指示的每个app与目标第二标签的关联信息计算目标第二标签的平均关联信息;
第一确定单元35,用于基于目标app与目标第二标签的关联信息和平均关联信息,确定目标app相对于数据分析请求指示的app在目标第二标签的差异信息。
进一步的,本申请提供的一种数据分析装置还包括:
判断单元,用于判断差异信息是否满足预设条件;
第二确定单元,用于若差异信息满足预设条件,确定目标第二标签为目标app的差异标。
在本申请实施例中,第一获取单元32,包括:
第二获取单元,用于获取多个设备中每个设备的app安装列表和运行日志;
数据清洗单元,用于对各个设备的运行日志进行数据清洗得到每个设备的目标运行日志;
设备标签生成单元,用于根据各个设备的目标运行日志分别生成每个设备的标签。
在本申请实施例中,第一计算单元33,包括:
第三获取单元,用于获取全量数据指示的安装目标app的设备中携带目标第二标签的第一设备数量以及携带目标第二标签所属的第一标签的第二设备数量;
第三确定单元,用于将第一设备数量占第二设备数量的比例确定为目标app与所述目标第二标签的关联信息。
在本申请实施例中,第一计算单元33,包括:
第四获取单元,用于获取全量数据指示的安装目标app的设备中携带目标第二标签的第一设备数量以及携带目标第二标签所属的第一标签的第二设备数量;
第四确定单元,用于将第一设备数量占第二设备数量的比例确定为目标app与目标第二标签的初始关联信息;
第五确定单元,用于获取目标第二标签所属的第一标签包括的各个第二标签,并根据目标app与所获取的每个第二标签的初始关联信息确定目标app与目标第二标签的关联信息。
在本申请实施例中,第五确定单元,包括:
第六确定单元,用于分别确定目标app与所获取的每个第二标签的初始关联信息;
第七确定单元,用于对所确定的各个初始关联信息的关联值进行排序,根据目标app与目标第二标签的初始关联信息的关联值的排序位置,确定目标app与目标第二标签的关联信息。
在本申请实施例中,第五确定单元,包括:
第八确定单元,用于分别确定目标app与所获取的每个第二标签的初始关联信息;
选取单元,用于从所确定的各个初始关联信息中选取关联值最大的第一初始关联信息和关联值最小的第二初始关联信息;
数据标准化处理单元,用于基于第一初始关联信息和第二初始关联信息对目标app与目标第二标签的初始关联信息进行数据标准化处理生成目标app与目标第二标签的关联信息。
下面以数据分析方法应用于服务器为例,对本申请实施例提供的一种数据分析方法所适用于的服务器的硬件结构进行详细说明。
本申请实施例提供的一种数据分析方法可应用于服务器,该服务器可以是网络侧为用户提供服务的服务设备,其可能是多台服务器组成的服务器集群,也可能是单台服务器。
可选的,图4示出了本申请实施例提供的一种数据分析方法所适用于的服务器的硬件结构框图,参照图4,服务器的硬件结构可以包括:处理器41,通信接口42,存储器43和通信总线44;
在本发明实施例中,处理器41、通信接口42、存储器43、通信总线44的数量均可以为至少一个,且处理器41、通信接口42、存储器43通过通信总线44完成相互间的通信;
处理器41可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器43可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于:
接收数据分析请求,数据分析请求指示多个应用程序app;
获取指示多个设备的全量数据,全量数据包括设备的app安装列表和设备携带的至少一个标签,标签由第一标签和属于第一标签的第二标签构成;
根据全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带目标第二标签所属的第一标签的设备数量,计算目标app与目标第二标签的关联信息;
利用数据分析请求指示的每个app与目标第二标签的关联信息计算目标第二标签的平均关联信息;
基于目标app与目标第二标签的关联信息和平均关联信息,确定目标app相对于数据分析请求指示的app在目标第二标签的差异信息。
有关程序的功能可参见上文对本申请实施例提供的一种数据分析方法的详细描述,在此不做赘述。
进一步的,本申请实施例还提供一种计算机可读计算机存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令用于执行上述数据分析方法。
有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种数据分析方法的详细描述,在此不做赘述。
本发明提供的一种数据分析方法、装置、服务器及存储介质,接收到的数据分析请求指示多个app,基于全量数据可以分析出目标app与目标第二标签的关联信息,并根据数据分析请求指示的每个app与目标第二标签的关联信息确定目标第二标签的平均关联信息,进而基于目标app与目标第二标签的关联信息和目标第二标签的平均关联信息可以确定出目标app相对于数据分析请求指示的各个app在目标第二标签的差异信息。本申请可以基于全量数据分析目标app相对于数据分析请求指示的app分别在每个第二标签的差异信息,经由各个第二标签的差异信息可以体现目标app的用户和数据分析请求指示的app的用户之间的用户异同,进而实现了刻画不同app的用户异同的目的。
以上对本发明所提供的一种数据分析方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
接收数据分析请求,所述数据分析请求指示多个应用程序app;
获取指示多个设备的全量数据,所述全量数据包括所述设备的app安装列表和所述设备携带的至少一个标签,所述标签由第一标签和属于所述第一标签的第二标签构成;
根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息;
利用所述数据分析请求指示的每个app与所述目标第二标签的关联信息计算所述目标第二标签的平均关联信息;
基于所述目标app与所述目标第二标签的关联信息和所述平均关联信息,确定所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息,所述差异信息表征所述目标app与所述数据分析请求指示的app相比偏向于所述目标第二标签的程度,所述差异信息携带差异值,差异值越大表征所述目标app相对于所述数据分析请求指示的app而言越偏向于所述目标第二标签;
所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息的差异值的计算方式为:
所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息的差异值=(目标app与目标第二标签的关联信息的关联值/目标第二标签的平均关联信息-1)*100。
2.根据权利要求1所述的方法,其特征在于,还包括:
判断所述差异信息是否满足预设条件;
若所述差异信息满足预设条件,确定所述目标第二标签为所述目标app的差异标签。
3.根据权利要求1所述的方法,其特征在于,所述获取指示多个设备的全量数据,包括:
获取多个设备中每个所述设备的app安装列表和运行日志;
对各个所述设备的运行日志进行数据清洗得到每个所述设备的目标运行日志;
根据各个所述设备的目标运行日志分别生成每个所述设备的标签。
4.根据权利要求1所述的方法,其特征在于,所述根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息,包括:
获取所述全量数据指示的安装目标app的设备中携带目标第二标签的第一设备数量以及携带所述目标第二标签所属的第一标签的第二设备数量;
将所述第一设备数量占所述第二设备数量的比例确定为所述目标app与所述目标第二标签的关联信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息,包括:
获取所述全量数据指示的安装目标app的设备中携带目标第二标签的第一设备数量以及携带所述目标第二标签所属的第一标签的第二设备数量;
将所述第一设备数量占所述第二设备数量的比例确定为所述目标app与所述目标第二标签的初始关联信息;
获取所述目标第二标签所属的第一标签包括的各个第二标签,并根据所述目标app与所获取的每个所述第二标签的初始关联信息确定所述目标app与所述目标第二标签的关联信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标app与所获取的每个所述第二标签的初始关联信息确定所述目标app与所述目标第二标签的关联信息,包括:
分别确定所述目标app与所获取的每个所述第二标签的初始关联信息;
对所确定的各个所述初始关联信息的关联值进行排序,根据所述目标app与所述目标第二标签的初始关联信息的关联值的排序位置,确定所述目标app与所述目标第二标签的关联信息。
7.根据权利要求5所述的方法,其特征在于,所述根据所述目标app与所获取的每个所述第二标签的初始关联信息确定所述目标app与所述目标第二标签的关联信息,包括:
分别确定所述目标app与所获取的每个所述第二标签的初始关联信息;
从所确定的各个所述初始关联信息中选取关联值最大的第一初始关联信息和关联值最小的第二初始关联信息;
基于所述第一初始关联信息和所述第二初始关联信息对所述目标app与所述目标第二标签的初始关联信息进行数据标准化处理生成所述目标app与所述目标第二标签的关联信息。
8.一种数据分析装置,其特征在于,包括:
接收单元,用于接收数据分析请求,所述数据分析请求指示多个应用程序app;
第一获取单元,用于获取指示多个设备的全量数据,所述全量数据包括所述设备的app安装列表和所述设备携带的至少一个标签,所述标签由第一标签和属于所述第一标签的第二标签构成;
第一计算单元,用于根据所述全量数据指示的安装目标app的设备中携带目标第二标签的设备数量与携带所述目标第二标签所属的第一标签的设备数量,计算所述目标app与所述目标第二标签的关联信息;
第二计算单元,用于利用所述数据分析请求指示的每个app与所述目标第二标签的关联信息计算所述目标第二标签的平均关联信息;
第一确定单元,用于基于所述目标app与所述目标第二标签的关联信息和所述平均关联信息,确定所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息,所述差异信息表征所述目标app与所述数据分析请求指示的app相比偏向于所述目标第二标签的程度,所述差异信息携带差异值,差异值越大表征所述目标app相对于所述数据分析请求指示的app而言越偏向于所述目标第二标签;
所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息的差异值的计算方式为:
所述目标app相对于所述数据分析请求指示的app在所述目标第二标签的差异信息的差异值=(目标app与目标第二标签的关联信息的关联值/目标第二标签的平均关联信息-1)*100。
9.一种服务器,其特征在于,至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现如权利要求1-7任意一项所述的数据分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-7任意一项所述的数据分析方法。
CN201911229159.XA 2019-12-04 2019-12-04 一种数据分析方法、装置、服务器及存储介质 Active CN111008184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911229159.XA CN111008184B (zh) 2019-12-04 2019-12-04 一种数据分析方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911229159.XA CN111008184B (zh) 2019-12-04 2019-12-04 一种数据分析方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111008184A CN111008184A (zh) 2020-04-14
CN111008184B true CN111008184B (zh) 2023-09-08

Family

ID=70115586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911229159.XA Active CN111008184B (zh) 2019-12-04 2019-12-04 一种数据分析方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111008184B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173801A1 (zh) * 2016-04-07 2017-10-12 乐视控股(北京)有限公司 一种个性化多媒体推荐方法和装置
WO2018145554A1 (zh) * 2017-02-08 2018-08-16 腾讯科技(深圳)有限公司 数据处理方法、相关设备、系统以及计算机可读存储介质
CN109446442A (zh) * 2018-10-15 2019-03-08 北京字节跳动网络技术有限公司 用于处理信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173801A1 (zh) * 2016-04-07 2017-10-12 乐视控股(北京)有限公司 一种个性化多媒体推荐方法和装置
WO2018145554A1 (zh) * 2017-02-08 2018-08-16 腾讯科技(深圳)有限公司 数据处理方法、相关设备、系统以及计算机可读存储介质
CN109446442A (zh) * 2018-10-15 2019-03-08 北京字节跳动网络技术有限公司 用于处理信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾君枝 ; 李婷 ; .图书标签与书目记录的对比分析.情报理论与实践.2013,(11),全文. *

Also Published As

Publication number Publication date
CN111008184A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
US9710555B2 (en) User profile stitching
CN107315824B (zh) 用于生成热力图的方法和装置
CN106407210B (zh) 一种业务对象的展示方法和装置
US20130185294A1 (en) Recommender system, recommendation method, and program
EP3126940A1 (en) Systems and methods for optimizing content layout using behavior metrics
JP2015060331A (ja) 事後確率算出装置、事後確率算出方法、およびプログラム
CN109977296B (zh) 一种信息推送方法、装置、设备及存储介质
CN102298614A (zh) 一种确定网页收藏信息的收藏分类的方法、装置和设备
CN102262647A (zh) 信息处理装置、信息处理方法和程序
CN106951527B (zh) 一种歌曲推荐方法及装置
CN110704603A (zh) 一种通过资讯发掘当前热点事件的方法和装置
CN109474542A (zh) 基于业务规则的消息推送请求流量控制方法、装置及介质
JP2009163425A (ja) 広告サーバ及び広告管理方法
CN105426550A (zh) 一种基于用户质量模型的协同过滤标签推荐方法及系统
CN111353862A (zh) 商品的推荐方法和装置、电子设备和存储介质
US8700465B1 (en) Determining online advertisement statistics
CN114443735A (zh) 酒店数据映射规则生成方法、装置、设备及存储介质
CN111008184B (zh) 一种数据分析方法、装置、服务器及存储介质
CN103198120B (zh) 网页呈现方法和装置以及网页内容提供方法和系统
CN112561636A (zh) 一种推荐方法、装置、终端设备及介质
CN111080359B (zh) 一种标签算法确定方法、装置、服务器及存储介质
CN109271580B (zh) 搜索方法、装置、客户端和搜索引擎
CN112258242B (zh) 一种表单配置项数据推送方法和装置
US20110208738A1 (en) Method for Determining an Enhanced Value to Keywords Having Sparse Data
CN115130026A (zh) 目标对象的确定方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant