CN111612280B - 一种数据分析方法和装置 - Google Patents

一种数据分析方法和装置 Download PDF

Info

Publication number
CN111612280B
CN111612280B CN202010550665.5A CN202010550665A CN111612280B CN 111612280 B CN111612280 B CN 111612280B CN 202010550665 A CN202010550665 A CN 202010550665A CN 111612280 B CN111612280 B CN 111612280B
Authority
CN
China
Prior art keywords
path
file
file update
user
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010550665.5A
Other languages
English (en)
Other versions
CN111612280A (zh
Inventor
谢毅
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010550665.5A priority Critical patent/CN111612280B/zh
Publication of CN111612280A publication Critical patent/CN111612280A/zh
Application granted granted Critical
Publication of CN111612280B publication Critical patent/CN111612280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种数据分析方法和装置;本申请实施例可以获取至少一个用户针对应用的使用时间和文件更新数据,其中,文件更新数据包括应用的文件更新路径集合,文件更新路径集合包括至少一条文件更新路径、以及文件更新路径对应的文件更新时间;从文件更新路径集合中选取文件更新时间与使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定匹配文件更新路径为目标文件更新路径,得到应用的目标文件更新路径集合;基于目标文件更新路径集合对应用进行用户行为预测。该方案可以实现基于人工智能的用户行为预测。

Description

一种数据分析方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及一种数据分析方法和装置。
背景技术
随着大数据时代的到来,用户的网络行为可以通过应用来表现,因此,通过用户的应用数据对用户进行分析,可以更好地刻画用户的属性以及对应用进行用户行为预测,从而可以精准地对用户进行数据推荐与信息推送,例如,可以推荐用户可能感兴趣的内容、判断用户是否有还款能力,等等。
在对相关技术的研究和实践过程中,本申请的发明人发现,在基于应用数据进行用户分析的过程中,由于无法准确区分用户针对应用的活跃情况,而且,十分依赖于是否能够获取用户生成的内容,从而增加了基于应用数据进行用户分析的难度,也容易导致得到的结论错误率较高。
发明内容
本申请实施例提供一种数据分析方法及装置,可以通过分析用户针对应用的文件更新数据来进行用户行为预测。
本申请实施例提供一种数据分析方法,包括:
获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;
从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;
统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;
基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;
基于所述目标文件更新路径集合对所述应用进行用户行为预测。
相应的,本申请实施例还提供一种数据分析装置,包括:
获取单元,用于获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;
选取单元,用于从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;
统计单元,用于统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;
确定单元,用于基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;
预测单元,用于基于所述目标文件更新路径集合对所述应用进行用户行为预测。
在一实施例中,所述选取单元,包括:
路径提取子单元,用于从所述文件更新路径集合中提取待匹配的文件更新路径;
信息确定子单元,用于确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息;
匹配确定子单元,用于基于所述文件更新路径对应的关联信息,确定所述文件更新路径为所述匹配文件更新路径。
在一实施例中,所述使用时间包括开始使用时间和结束使用时间;所述信息确定子单元,用于:
确定所述文件更新时间对应的时间匹配精度;根据所述时间匹配精度,对所述文件更新时间进行时间数据截取;基于所述使用时间的开始使用时间和结束使用时间,生成所述用户的使用时间区间;若截取后的文件更新时间属于所述使用时间区间,则确定所述关联信息为完全关联。
在一实施例中,所述统计单元,包括:
频数计算子单元,用于计算所述匹配文件更新路径在各候选文件更新路径集合中出现的频数;
频数求和子单元,用于对所述频数进行求和操作,得到所述总频数。
在一实施例中,所述确定单元,包括:
阈值确定子单元,用于确定所述目标文件更新路径的用户覆盖数量阈值;
目标确定子单元,用于基于所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数,确定所述目标文件更新路径;
路径组合子单元,用于将所述目标文件更新路径进行组合,得到所述目标文件更新路径集合。
在一实施例中,所述阈值确定子单元,用于:
确定所述用户的用户数量;根据所述用户数量以及预设的用户覆盖比例,计算所述用户覆盖数量阈值。
在一实施例中,所述目标确定子单元,用于:
将所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数进行比较;将总频数大于或等于所述用户覆盖数量阈值的匹配文件更新路径确定为所述目标文件更新路径。
在一实施例中,所述预测单元,包括:
集合发送子单元,用于向所述应用的至少一个用户发送所述目标文件更新路径集合;
数据获取子单元,用于基于所述目标文件更新路径集合,获取所述用户的用户行为数据;
数据发送子单元,用于将所述用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。
在一实施例中,所述数据获取子单元,用于:
从所述目标文件更新路径集合中提取至少一条目标文件更新路径;基于所述目标文件更新路径对所述应用进行数据扫描,得到所述用户在所述目标文件更新路径上的文件更新数据;对所述文件更新数据进行数据解析,得到所述用户行为数据。
本申请实施例可以获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。
该方案可以对用户针对应用的使用时间和文件更新时间进行匹配,精准地区分用户针对应用的活跃度、并减少部分不活跃应用给用户行为预测带来的误差,从而实现了通过大数据真实还原用户使用应用的情况,并提高了用户行为预测的准确率。并且,本方案解放了用户行为预测对用户生成内容的依赖、且无需获取各应用的数据权限,从而可以降低基于应用数据进行用户行为分析的难度。此外,本方案从大量的文件更新路径中筛选出有限的目标文件更新路径,并基于该有限的目标文件更新路径针对应用进行用户行为预测,可以大大降低需要上报的数据量以及用户行为预测需要处理的数据量,同时也很好地保护了用户的隐私。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的数据分析方法的场景示意图;
图1b是本申请实施例提供的数据分析方法的流程图;
图1c是本申请实施例提供的数据分析方法的文件更新路径集合示意图;
图2a是本申请实施例提供的数据分析方法的另一流程示意图;
图2b是本申请实施例提供的数据分析方法的权限设置示意图;
图2c是本申请实施例提供的数据分析方法的文件更新指引示意图;
图2d是本申请实施例提供的数据分析方法的数据分析流程示意图;
图2e是本申请实施例提供的数据分析方法的另一数据分析流程示意图;
图3a是本申请实施例提供的数据分析装置的结构示意图;
图3b是本申请实施例提供的数据分析装置的另一结构示意图;
图3c是本申请实施例提供的数据分析装置的另一结构示意图;
图3d是本申请实施例提供的数据分析装置的另一结构示意图;
图3e是本申请实施例提供的数据分析装置的另一结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据分析方法及装置。具体地,本申请实施例提供适用于计算机设备的数据分析装置。其中,该计算机设备可以为终端或服务器等设备,该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
本申请实施例将以数据分析方法由服务器和终端共同执行为例,来介绍数据分析方法。
参考图1a,服务器10可以获取用户在终端20上使用应用(App l i cat i on,App)时产生的真实使用数据,具体地,该真实使用数据可以包括用户使用该应用的使用时间;此外,服务器10还可以获取终端20上该应用的文件更新数据。进一步地,服务器10可以根据获得的使用时间和文件更新数据,生成该应用的目标文件更新路径集合。在实际应用中,服务器10可以通过对该目标文件更新路径集合进行数据封装,生成该应用的配置文件,以便于基于终端20的配置文件请求向终端20下发该配置文件。
相应地,终端20可以向服务器10发送配置文件请求,并获得服务器10下发的配置文件。随后,终端20可以从该配置文件的目标文件更新路径集合中提取至少一条目标文件更新路径,并获取该应用在该目标文件更新路径上的文件更新数据,从而可以生成用户的用户行为数据,并将该生成的用户行为数据上报给服务器10,以触发服务器10基于各用户的用户行为数据对该应用进行用户行为预测。
因此,该数据分析系统,可以获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的一种数据分析方法,该方法涉及基于人工智能的用户行为预测。该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以数据分析方法由服务器执行为例来进行说明,具体的,由集成在服务器中的数据分析装置来执行,如图1b所述,该数据分析方法的具体流程可以如下:
101、获取至少一个用户针对应用的使用时间和文件更新数据,其中,该文件更新数据包括应用的文件更新路径集合,该文件更新路径集合包括至少一条文件更新路径、以及该文件更新路径对应的文件更新时间。
其中,用户针对应用的使用时间可以为用户使用应用的时间记录。由于用户对应用的使用可以包括多种情况,例如,可以将应用挂载在前台;可以将应用挂载在后台以使得该应用在后台运行;可以在使用完应用后将应用关闭;等等。因此,该使用记录可以记载用户在多种情况下的使用时间。
其中,用户针对应用的使用时间的获取方式可以有多种,比如,可以从用户上传的样本数据中解析出使用时间。具体地,样本数据的格式字段可以包括多个数据项,例如,可以包括设备标志、应用包名、应用版本、应用开始使用时间、以及应用结束使用时间等。此外,使用时间可以通过多种方式表现,例如,可以通过保存开始使用时间字段和结束使用时间字段来记录该使用时间。譬如,使用时间可以为:2020-01-20 05:23:29开始使用,2020-01-20 06:24:29结束使用。
在一实施例中,对于某应用,用户上传的样本数据为:AppPackageName,V3.2,2020-01-20 05:23:29开始使用,2020-01-20 06:24:29结束使用;相应地,可以从该样本数据中解析出如下数据:应用包名为AppPackageName,应用版本为V3.2,开始使用时间为2020-01-20 05:23:29,结束使用时间为2020-01-2006:24:29。
其中,用户针对应用的文件更新数据为应用执行文件更新操作时产生的相关数据,例如,应用的文件更新操作可以为应用垃圾清理操作,则相应地,文件更新数据可以为垃圾清理数据。
其中,文件更新数据中可以包括应用的文件更新路径集合,该文件更新路径集合可以由至少一条文件更新路径组成,且各文件更新路径具有与之对应的文件更新时间,例如,参考图1c,图中显示了某应用的文件更新路径集合,该文件更新路径集合中包括至少一条文件更新路径。
其中,文件更新路径可以为应用中发生了文件更新操作的路径。在一实施例中,对于运行在安卓系统中的某应用,当该应用的文件更新操作为垃圾清理操作时,该应用的文件更新路径集合中可以包括至少一条垃圾清理路径,例如,可以包括需要持久化储存的数据的存储路径,如files文件夹下的路径;也可以包括临时数据的缓存路径,如cache文件夹下的路径;等等。
其中,文件更新路径对应的文件更新时间记录了在该文件更新路径上发生了文件更新操作的具体时间。例如,当应用的文件更新操作为垃圾清理操作时,文件更新路径即为垃圾清理路径,该垃圾清理路径上第一次产生待清理的垃圾数据的时间可以为该垃圾文件生成时间,随后每次访问该垃圾清理路径时,即会对该垃圾文件生成时间进行更新,得到垃圾文件更新时间。在本实施例中,该垃圾文件更新时间即为文件更新路径对应的文件更新时间。
102、从文件更新路径集合中选取文件更新时间与该使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合。
其中,文件更新路径集合中包括至少一条文件更新路径,且由于在文件更新路径上发生的文件更新操作,可以是在用户使用应用期间发生的;也可以是在非用户使用应用期间发生的,例如系统的周期性更新或者扫描等。所以,并不能基于该文件更新路径集合中的文件更新路径对应的文件更新时间,来确定该文件更新路径上的文件更新操作是发生在用户使用应用期间。故需要从文件更新路径集合中进行文件更新路径的选取,以确保选取出的文件更新路径上的文件更新操作是在用户使用应用期间发生的。
从文件更新路径集合中选取文件更新路径的方式可以有多种,例如,可以从文件更新路径集合中选取文件更新时间与该使用时间相匹配的文件更新路径作为匹配文件更新路径,并通过将该匹配文件更新路径进行组合生成候选文件更新路径集合。具体地,步骤“从文件更新路径集合中选取文件更新时间与该使用时间相匹配的匹配文件更新路径”,可以包括:
从文件更新路径集合中提取待匹配的文件更新路径;
确定该文件更新路径的文件更新时间与使用时间之间的关联信息;
基于该文件更新路径对应的关联信息,确定该文件更新路径为匹配文件更新路径。
其中,由于文件更新路径集合中包括至少一条文件更新路径,因此,可以从该文件更新路径集合中提取待匹配的文件更新路径。例如,可以通过遍历该文件更新路径集合中的每一条文件更新路径,来确定待匹配的文件更新路径;又如,可以基于文件更新路径和使用时间所分别对应的应用版本来确定待匹配的文件更新路径,可以将与使用时间属于同一应用版本的文件更新路径确定为待匹配的文件更新路径;等等。
其中,关联信息可以为描述文件更新时间与使用时间之间关系的信息。例如,可以通过判断文件更新时间是否属于用户的使用时间来判断两者之间的关联关系;又如,可以通过将文件更新时间与用户的使用时间中的起止时间端点进行比较来判断两者之间的关联关系;等等。
其中,确定该文件更新路径的文件更新时间与使用时间是否匹配的方式可以有多种,例如,可以通过确定该文件更新时间与使用时间之间的关联信息,并基于该关联信息进一步地确定文件更新时间与使用时间是否相匹配。譬如,若文件更新时间与使用时间之间的关联信息为完全关联,则可以确定该文件更新时间与该使用时间相匹配。
使用时间可以包括开始使用时间和结束使用时间,因此,确定文件更新路径的文件更新时间与使用时间之间的关联信息,可以进一步地基于文件更新时间与开始使用时间和结束使用时间来确定。具体地,步骤“确定该文件更新路径的文件更新时间与使用时间之间的关联信息”,可以包括:
确定该文件更新时间对应的时间匹配精度;
根据该时间匹配精度,对文件更新时间进行时间数据截取;
基于该使用时间的开始使用时间和结束使用时间,生成该用户的使用时间区间;
若截取后的文件更新时间属于该使用时间区间,则确定关联信息为完全关联。
其中,时间匹配精度可以用于对时间数据进行度量,时间匹配精度按量级可分为:纳秒、皮秒、微秒、毫秒、秒、分、小时,等等。在实际应用中,文件更新时间对应的时间匹配精度可以基于业务需求进行设置,例如,可以时间匹配精度设置为毫秒,以时间对文件更新时间和使用时间进行高精度的匹配;又如,可以将时间匹配精度设置为小时,以时间对文件更新时间和使用时间进行模糊匹配,等等。
在本实施例中,可以将文件更新时间对应的时间匹配精度设置为秒,以实现对文件更新时间和使用时间进行普适性匹配。
其中,时间数据截取可以用于对时间数据进行转换,例如,可以通过时间数据截取将时间数据2020-3-20 16:25:10转换为2020-3-20 16:25,从而在该时间数据中舍弃了秒的信息,仅保留日期、分、小时的信息。
在确定文件更新时间对应的时间匹配精度后,可以对该文件更新时间进行时间数据截取,例如,对于文件更新时间2020-01-20 05:23:30,若其对应的时间匹配精度为分,则对该文件更新时间进行时间数据截取可以得到截取后的文件更新时间为2020-01-20 05:23;又如,对于文件更新时间2020-01-20 06:24:30,若其对应的时间匹配精度为秒,则对该文件更新时间进行时间数据截取可以得到截取后的文件更新时间为2020-01-20 06:24:30。
其中,使用时间区间用于记录用户针对应用的使用时间。可以将用户的开始使用时间和结束使用时间作为时间使用区间的左右端点,从而生成该用户的使用时间区间。例如,若用户的开始使用时间为2020-01-20 05:23:29,结束使用时间为2020-01-20 06:24:29,则该用户的使用时间区间可以为以2020-01-2005:23:29为左端点、以2020-01-20 06:24:29为右端点构成的连续时间区间。
值得注意的是,在实际应用中,由于用户在一天中可能在不同的时间片使用应用,使得用户在该天可能存在多个使用时间区间。因此,在后续确定文件更新时间与使用时间区间的关联关系时,可以将该天中的多个使用时间区间均纳入参考。
在确定截取后的文件更新时间和用户的使用时间区间后,可以通过判断该截取后的文件更新时间是否属于该使用时间区间,来确定文件更新时间与使用时间之间写关联信息。例如,若使用时间区间为以2020-01-20 05:23:29为左端点、以2020-01-20 06:24:29为右端点构成的连续时间区间,而截取后的文件更新时间为2020-01-20 04:50:29,由于该截取后的文件更新时间不属于该使用时间区间,则可以确定关联关系为不完全关联;又如,若截取后的文件更新时间为2020-01-20 04:50:29,由于该截取后的文件更新时间属于该使用时间区间,则可以确定关联关系为完全关联;等等。
103、统计匹配文件更新路径在各候选文件更新路径集合中出现的总频数。
其中,频数也称次数,可以表示变量值中代表某种特征的数出现的次数。因此,可以用匹配文件更新路径的频数表示匹配文件更新路径出现的次数、用匹配文件更新路径的总频数表示匹配文件更新路径出现的总次数。
由于每个用户具有其对应的候选文件更新路径集合,而每个候选文件更新路径集合所包括的匹配文件更新路径不尽相同,因此,有的匹配文件更新路径在许多候选文件更新路径集合中都出现、而有的匹配文件更新路径仅在少部分候选文件更新路径集合中出现。
又因为各用户的候选文件更新路径集合中包括的匹配文件更新路径,均为在该用户真实使用应用期间进行了文件更新操作的路径,故在各候选文件更新路径集合中出现次数较多的匹配文件更新路径,可以认为在较多用户使用应用期间都会执行文件更新操作的文件更新路径、即该匹配文件更新路径覆盖了更多的真实用户。
例如,对于即时通讯类软件,当用户使用聊天界面功能的时候,应用可以通过将用户在聊天界面上的缓存数据保存在预设的文件更新路径a中,从而实现在该文件更新路径上进行文件更新;当用户使用动态分享页面功能的时候,同理,应用可以将用户在动态分享界面上的缓存数据保存在预设的文件更新路径b中。由于对于该应用而言,用户使用聊天页面功能的频率远大于用户使用动态分享页面功能的频率,因此文件更新路径a相比文件更新路径b覆盖了更多的用户。
因此,确定在多个用户的候选文件更新路径集合中出现次数较多的匹配文件更新路径,可以通过统计匹配文件更新路径在各候选文件更新路径集合中出现的总频数后,进一步地基于该总频数进行确定。具体地,步骤“统计匹配文件更新路径在各候选文件更新路径集合中出现的总频数”,可以包括:
计算匹配文件更新路径在各候选文件更新路径集合中出现的频数;
对该频数进行求和操作,得到总频数。
其中,计算匹配文件更新路径在候选文件更新路径集合中出现的频数的方法可以有多种,例如,可以对候选文件更新路径集合进行遍历,并将该待计算的匹配文件更新路径与候选文件更新路径集合中的每条匹配文件更新路径集合进行比较,若候选文件更新路径集合中存在与该待计算的匹配文件更新路径一致的匹配文件更新路径,则可以确定该待计算的匹配文件更新路径在该候选文件更新路径集合中出现了、并可以将该出现的次数确定为频数。
进一步地,在确定了匹配文件更新路径在各个候选文件更新路径集合中出现的频数后,可以对该频数进行求和操作,得到该匹配文件更新路径的总频数。
其中,求和操作可以用于对频数进行数学上的求和,得到求和后的总频数。求和操作的实现方式可以有多种,例如,可以将各频数进行相加,得到总频数;又如,可以赋予各频数不同的权值,通过对各频数进行加权求和,得到总频数;等等。
在一实施例中,共有4个候选文件更新路径集合:集合1、集合2、集合3、以及集合4;各候选文件更新路径集合中均包括若干匹配文件更新路径,具体地,集合1中包括路径c、路径d;集合2中包括路径c、路径e;集合3中包括路径c;集合4中包括路径e。则路径c在集合1中出现的频数为1、在集合2出现的频数为1、在集合3出现的频数为1、在集合4出现的频数为0,那么可得路径c在各个候选文件更新路径集合中的出现的总频数为3。
104、基于匹配文件更新路径对应的总频数,确定该匹配文件更新路径为目标文件更新路径,得到应用的目标文件更新路径集合。
在实际应用中,可以基于业务需求从匹配文件更新路径中选取目标文件更新路径,从而得到应用的目标文件更新路径集合。例如,可以根据各匹配文件更新路径在各候选文件更新路径集合中出现的总频数,从各匹配文件更新路径中选取目标文件更新路径,使得选取得到的目标文件更新路径对应的总频数均满足预设的阈值,从而使得得到的目标文件更新路径集合能够满足业务需求。
在确定目标文件更新路径后,进一步地,可以通过将该目标文件更新路径进行组合,得到应用的目标文件更新路径集合。具体地,步骤“基于匹配文件更新路径对应的总频数,确定该匹配文件更新路径为目标文件更新路径,得到应用的目标文件更新路径集合”,可以包括:
确定目标文件更新路径的用户覆盖数量阈值;
基于用户覆盖数量阈值和匹配文件更新路径对应的总频数,确定目标文件更新路径;
将目标文件更新路径进行组合,得到目标文件更新路径集合。
其中,目标文件更新路径的用户覆盖数量阈值可以用于对该目标文件更新路径需要覆盖到的用户数量进行规定,例如,用户覆盖数量阈值可以规定该目标文件更新路径需要覆盖到的用户数量的最小值。譬如,当在步骤101中获取到了10000个用户针对应用的使用时间和文件更新数据时,若将目标文件更新路径的用户覆盖数量阈值设置为8000,则可以规定从匹配文件更新路径中选取出来的目标文件更新路径至少要覆盖到8000个用户,并以此作为目标文件更新路径的筛选条件。
确定用户覆盖数量阈值的方法可以有多种,例如,可以基于业务需求设置固定的数值,又如,可以基于业务需求设置该目标文件更新路径的用户覆盖比例,并基于该用户覆盖比例来计算用户覆盖数量阈值。
在确定了目标文件更新路径的用户覆盖数量阈值后,随后可基于该用户覆盖数量阈值进一步地确定目标文件更新路径,具体地,步骤“确定目标文件更新路径的用户覆盖数量阈值”,可以包括:
确定用户的用户数量;
根据该用户数量以及预设的用户覆盖比例,计算用户覆盖数量阈值。
其中,用户的用户数量可以为步骤101中获取的用户的数量。例如,在步骤101中获取了1000个用户针对应用的使用时间和文件更新数据时,用户数量即为1000。
其中,用户覆盖比例可以为0到100%之间的数字,该数字可以基于具体的业务需求进行设置。例如,在一即使通讯应用中,可以设置该应用的目标文件更新路径对应的用户覆盖比例为80%;又如,在一文字编辑应用中,可以设置该应用的目标文件更新路径对应的用户覆盖比例为70%;等等,即具体的数据可以基于不同的业务需求进行设置。
在一实施例中,步骤101中获取了100万个用户针对某视频处理应用的使用时间和文件更新数据,并且,基于业务需求,设置该视频处理应用的目标文件更新路径对应的用户覆盖比例为85%,那么,可以计算得到用户覆盖数量阈值为85万。
在确定了目标文件更新路径的用户覆盖数量阈值后,即可基于该用户覆盖数量阈值和各匹配文件更新数据对应的总频数,进一步地确定目标文件更新路径,具体地,步骤“基于用户覆盖数量阈值和匹配文件更新路径对应的总频数,确定目标文件更新路径”,可以包括:
将该用户覆盖数量阈值和匹配文件更新路径对应的总频数进行比较;
将总频数大于或等于用户覆盖数量阈值的匹配文件更新路径确定为目标文件更新路径。
在一实施例中,从各匹配文件更新路径中确定了4条目标文件更新路径:路径f、路径g、路径h、以及路径i,并且,各目标文件更新路径对应的总频数分别为:300、50、700、以及60。若计算得到的用户覆盖数量阈值为200,则由于路径f和路径h对应的总频数大于该用户覆盖数量阈值,则可以确定路径f以及路径h为匹配文件更新路径。
进一步地,在确定目标文件更新路径后,可以将该目标文件更新路径进行组合,得到应用的目标文件更新路径集合。
105、基于目标文件更新路径集合对应用进行用户行为预测。
其中,用户行为可以为用户在应用上产生的行为,例如,当某用户使用某应用的时候,用户行为可以包括该用户启动应用、浏览内容、查看图集、播放视频、文件更新,等等行为。
其中,用户行为预测可以用于对用户的兴趣、偏好、能力等进行预测,例如,可以通过用户行为预测对用户可能感兴趣的应用、用户可能感兴趣的文章、以及用户是否具有还款能力等进行预测。
进行用户行为预测的方式可以有多种,例如,可以基于用户行为数据对用户行为进行统计、分析,并进一步地进行用户行为预测;譬如,可以对用户行为数据进行预处理后建立不同颗粒度的用户标签,并基于应用的特点、用户标签的属性、业务的目标等建立用户行为预测模型,进一步地,可以利用收集到的用户行为数据对该用户行为预测模型进行训练,从而可以利用该用户行为预测模型针对应用进行准确的用户行为预测。
在本实施例中,可以通过目标文件更新路径集合获取用户针对应用的用户行为数据,并基于该用户行为数据,进一步地进行用户行为预测,例如,构建用户对应用的使用偏好、用户对应用类别的使用偏好,等等。具体地,步骤“基于目标文件更新路径集合对应用进行用户行为预测”,可以包括:
向应用的至少一个用户发送目标文件更新路径集合;
基于该目标文件更新路径集合,获取用户的用户行为数据;
将该用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。
其中,发送目标文件更新路径集合的方式可以有多种,例如,可以基于该目标文件更新路径集合生成配置文件,通过向用户发送该配置文件实现目标文件更新路径集合的分发。
其中,由于目标文件更新路径集合中包括至少一条目标文件更新路径,而当用户使用应用的时候,可能在该目标文件更新路径上进行文件更新操作,因此,可以基于该目标文件更新路径集合,获取用户的用户行为数据。具体地,步骤“基于该目标文件更新路径集合,获取用户的用户行为数据”,可以包括:
从目标文件更新路径集合中提取至少一条目标文件更新路径;
基于目标文件更新路径对应用进行数据扫描,得到用户在目标文件更新路径上的文件更新数据;
对该文件更新数据进行数据解析,得到用户行为数据。
其中,可以从该目标文件更新路径集合中进行路径提取,得到待进行数据扫描的目标文件更新路径。进一步地,可以对该目标文件更新路径进行数据扫描,以得到用户在该目标文件更新路径上的文件更新数据。
进行数据扫描的方式可以多种,例如,若文件更新操作为垃圾清理操作,则基于目标文件更新路径对应用进行数据扫描可以为在应用执行完垃圾清理操作后,获取应用在该目标文件更新路径上的垃圾清理结果数据。由于该目标文件更新路径为在用户使用应用期间执行了文件更新操作的路径,因此,可以确定该目标文件更新路径上产生的垃圾数据为用户使用应用期间产生的、而非无用户参与期间系统产生的,即该垃圾清理结果数据描述了用户使用应用期间产生的垃圾的清理结果,因此,相应地,可以基于该垃圾清理结果数据来分析用户行为。
其中,由于获取的文件更新数据中可以包括多个数据项,且并非所有数据项都描述了用户行为,因此,可以对该文件更新数据进行数据解析,进一步地得到描述了用户行为的用户行为数据。例如,当文件更新操作为垃圾清理操作时,获取的文件更新数据即为垃圾清理结果数据,具体地,该垃圾清理结果数据中可以包括多项数据,因此,可以对该垃圾清理结果数据进行数据解析,得到包括垃圾生成时间、垃圾更新时间、垃圾大小等描述了用户在使用应用期间的行为数据。
进一步地,在得到用户行为数据后,可以将该用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。具体地,该用户行为预测模型可以为预先训练好的机器学习模型,其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
在一实施例中,可以基于获得的用户行为数据,构建用户与应用的偏好向量映射(Embedding,向量映射),从而实现基于用户行为数据进行用户行为预测。譬如,可以基于用户的用户行为数据,生成可以表示该用户的特征向量,并且通过将各用户的特征向量一同输入到深度学习网络进行训练,以针对该应用进行用户行为预测。
由上可知,本实施例可以获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。
该方案可以对用户针对应用的使用时间和文件更新时间进行匹配,精准地区分用户针对应用的活跃度、并减少部分不活跃应用给用户行为预测带来的误差,从而实现了通过大数据真实还原用户使用应用的情况,并提高了用户行为预测的准确率。并且,本方案解放了用户行为预测对用户生成内容的依赖、且无需获取各应用的数据权限,从而可以降低基于应用数据进行用户行为分析的难度。此外,本方案从大量的文件更新路径中筛选出有限的目标文件更新路径,并基于该有限的目标文件更新路径针对应用进行用户行为预测,可以大大降低需要上报的数据量以及用户行为预测需要处理的数据量,同时也很好地保护了用户的隐私。
另外,由于可以通过设置用户覆盖比例的数值来调节目标文件更新路径所能覆盖到的用户比例,使得在目标文件更新路径的计算过程中,能够更好地在计算所需的计算力与结果的可信度之间进行平衡与取舍,也能够更好地把控基于目标文件更新路径获取到的用户行为数据的真实度。此外,本方案通过基于目标文件更新路径上的文件更新数据来获得用户的用户行为数据,使得用户行为数据的收集具有针对性、也降低了用户行为预测模型中用户行为数据收集的难度和量级,从而进一步地提升了用户行为预测的准确性。
根据上面实施例所描述的方法,以下将举例进一步详细说明。
在本实施例中,将以数据分析装置集成在服务器与终端为例进行说明,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群;该终端可以为手机、平板电脑、笔记本电脑等设备。
如图2a所示,一种数据分析方法,具体流程如下:
201、服务器获取至少一个终端用户针对应用的使用时间和文件更新数据,其中,该文件更新数据包括应用的文件更新路径集合,该文件更新路径集合包括至少一条文件更新路径、以及该文件更新路径对应的文件更新时间。
其中,使用时间的获取方式可以有多种,例如,由于目前大部分应用本身具有数据读写的相关权限,因此,可以选择开启了应用数据读取权限的终端用户作为样本用户或灰度用户,并获取该灰度用户针对应用的使用时间。参考图2b,可以在终端中设置权限开启的图标,若用户通过该图标开启了使用时间数据分析权限,则服务器可以相应地获得该用户的针对应用的使用时间数据。具体地,可以设置若开启了该使用时间数据分析权限,即可获得用户的栈顶使用数据,进而可以查看栈顶应用使用情况、栈顶应用所对应的应用包名称、当前运行程序的包名,等等数据。
其中,文件更新的方式可以有多种,比如,可以通过对应用进行垃圾清理实现文件更新。因此,用户的垃圾清理结果数据即可作为该用户的文件更新数据。文件更新数据的获取方式可以有多种,例如,参考图2c,用户可以在终端通过终端管理应用提供的“清理加速”功能进行文件更新,进一步地,可以将该垃圾清理操作的垃圾清理结果数据作为文件更新数据进行上传,服务器则相应地可以获得该用户的文件更新数据。
进一步地,对于同一应用,服务器可以根据使用时间和文件更新数据分别对应的应用版本,将获取到的用户的使用时间和文件更新数据进行分类,使得本方案中的数据分析方法是针对属于同一应用、且属于同一应用版本的使用时间和文件更新数据进行的。
在一实施例中,参考图2d,可以选择例如100万数量的灰度用户,并收集该灰度用户的各个应用的文件更新数据,具体地,该文件更新数据包括应用的文件更新路径集合,该文件更新路径集合包括至少一条文件更新路径、以及该文件更新路径对应的文件更新时间。此外,还可以将从其他渠道得到的优先用户的各个应用的当天使用情况作为用户的真实使用数据,具体地,该真实使用数据中可以包括用户对应用的使用时间。
202、服务器从文件更新路径集合中选取文件更新时间与使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合。
其中,可以通过用户针对应用的使用时间对该用户的文件更新路径进行筛选,具体地,可以将使用时间与文件更新路径的文件更新时间进行匹配,并将匹配通过的文件更新路径确定为匹配文件更新路径,进而得到用户的候选文件更新路径集合。
例如,服务器可以获取某用户针对某版本的应用的使用时间和文件更新数据,其中,该文件更新数据中包括该版本的应用的文件更新路径集合,该文件更新路径集合中包括至少一条文件更新路径。服务器可以从该文件更新路径集合中选取文件更新时间属于使用时间的文件更新路径作为匹配文件更新路径,并通过将匹配文件更新路径进行组合,得到该用户针对该版本的应用的候选文件更新路径集合。
203、服务器统计匹配文件更新路径在各候选文件更新路径集合中出现的总频数。
其中,从各用户的文件更新路径中选取出该用户的匹配文件更新路径后,服务器可以进一步从各用户的匹配文件更新路径中选取该用户的目标文件更新路径,具体地,可以基于匹配文件路径在各候选文件更新路径集合中出现的总频数进行目标文件更新路径的选取。
例如,可以通过计算匹配文件更新路径在各候选文件更新路径集合中出现的次数,即频数,并对该频数进行求和操作,得到该匹配文件更新路径对应的总频数。
204、服务器基于匹配文件更新路径对应的总频数,确定匹配文件更新路径为目标文件更新路径,得到应用的目标文件更新路径集合。
在一实施例中,服务器可以基于匹配文件更新路径对应的总频数,从各用户的匹配文件更新路径中选取出该应用在该应用版本下的目标文件更新路径,进而得到该应用在该应用版本下的目标文件更新路径集合。
其中,目标文件更新路径的选取方法可以有多种,例如,可以基于预设的用户覆盖比例与服务器获取到的用户数量,计算出该目标文件更新路径的用户覆盖阈值。进而将总频数大于等于该目标覆盖数量阈值的匹配文件更新路径确定为目标文件更新路径。
在一实施例中,参考图2d,服务器可以基于收集到的文件更新路径和包括使用时间的真实使用数据,进一步地确定应用的目标文件更新路径,从而得到应用的目标文件更新路径集合。具体地,可以基于生成的目标文件更新路径集合所对应的应用版本,相应地生成对应的目标文件更新路径集合配置文件,配置文件中可以包括应用包名、应用版本、应用目标文件更新路径集合等数据。进一步地,服务器可以将生成的配置文件定期地更新到服务端,以便能够响应中断的配置文件请求、下发最新的配置文件。
205、服务器向应用的至少一个终端用户发送该目标文件更新路径集合。
其中,服务器可以针对终端用户所使用的应用及应用版本,向该终端用户发送该应用在该应用版本下所对应的目标文件更新路径集合,使得本方案的数据分析方法能够更准确地进行。
在一实施例中,参考图2d,在目标文件更新路径集合更新到服务端后,终端可以拉取服务端的配置文件到本地,从而获得该目标文件更新路径集合。
在另一实施例中,参考图2e,终端可以基于应用及该应用的版本,定期地向云端或服务器端请求配置文件,例如,可以以周为周期、按周请求。云端或服务器端可以相应地下发最新版的配置文件;其中,配置文件中可以包括如下数据:配置文件版本、应用包名、应用版本、对应的目标文件更新路径集合,例如,配置文件v1.0,App1,App1版本,App1目标文件更新路径集合。
206、服务器基于该目标文件更新路径集合,获取用户的用户行为数据。
其中,在确定应用的目标文件更新路径集合后,由于该目标文件更新路径集合中包括至少一条目标文件更新路径,因此,服务器可以基于该目标文件更新路径集合,获取用户针对应用在该目标文件更新路径上的用户行为数据。
例如,服务器可以将该目标文件更新路径集合发送给终端,终端可以从该目标文件更新路径集合中提取至少一条目标文件更新路径,并基于该目标文件更新路径对应用进行数据扫描,得到用户在该目标文件更新路径上的文件更新数据,进而基于该文件更新数据得到用户行为数据。
在一实施例中,参考图2d,终端可以将拉取到的配置文件中的目标文件更新路径与应用的文件更新路径进行匹配,并上报该目标文件更新路径上的文件更新数据,例如,文件更新时间、文件大小等;因而相应地,服务器可以从终端上报的文件更新数据中解析出需要的用户行为数据。
在另一实施例中,参考图2e,终端在更新了配置文件后,可以进一步地从该更新后的配置文件中获取目标文件更新路径集合中的各目标文件更新路径,并将应用在该目标文件更新路径上的文件更新数据上报。文件更新数据中可以包括多个数据项,例如,可以包括应用包名、应用版本、目标文件更新路径的更新时间,等等。相应地,服务器可以从终端上报的文件更新数据中解析出需要的用户行为数据。
207、服务器将用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。
其中,用户行为预测模型可以为基于人工智能技术预先训练好的模型,具体地,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在一实施例中,服务器可以基于获得的用户行为数据,构建用户与应用类别偏好的向量映射,从而实现基于用户行为数据进行用户行为预测。譬如,可以基于用户的用户行为数据,生成可以表示该用户的特征向量,并且通过将各用户的特征向量一同输入到深度学习网络进行训练,以针对该应用进行用户行为预测。
由上可知,本申请实施例可以对用户针对应用的使用时间和文件更新时间进行匹配,精准地区分用户针对应用的活跃度、并减少部分不活跃应用给用户行为预测带来的误差,从而实现了通过大数据真实还原用户使用应用的情况,并提高了用户行为预测的准确率。并且,本方案解放了用户行为预测对用户生成内容的依赖、且无需获取各应用的数据权限,从而可以降低基于应用数据进行用户行为分析的难度。此外,本方案从大量的文件更新路径中筛选出有限的目标文件更新路径,并基于该有限的目标文件更新路径针对应用进行用户行为预测,可以大大降低需要上报的数据量以及用户行为预测需要处理的数据量,同时也很好地保护了用户的隐私。
而且,本方案通过设置灰度用户的方式大大降低了计算目标文件更新路径时所需的数据量,而通过将目标文件更新路径集合以配置文件的方式进行下发与更新,使得用户仅需基于配置文件中的目标文件更新路径进行文件更新数据的上报,大大降低了用户需要上报的数据量。另外,在应用的目标文件更新路径的计算过程中,对于同一应用的不同应用版本,对于生成不同的目标文件更新路径集合,使得后续基于该目标文件更新路径集合获取的用户行为数据具有更高的针对性,进而提高了用户行为预测的准确性。
为了更好地实施以上方法,相应的,本申请实施例还提供一种数据分析装置,其中,该数据分析装置可以集成在服务器或终端中。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群;该终端可以为手机、平板电脑、笔记本电脑等设备。
例如,如图3a所示,该数据分析装置可以包括获取单元301,选取单元302,统计单元303,确定单元304以及预测单元305,如下:
获取单元301,用于获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;
选取单元302,用于从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;
统计单元303,用于统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;
确定单元304,用于基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;
预测单元305,用于基于所述目标文件更新路径集合对所述应用进行用户行为预测。
在一实施例中,参考图3b,所述选取单元302,包括:
路径提取子单元3021,用于从所述文件更新路径集合中提取待匹配的文件更新路径;
信息确定子单元3022,用于确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息;
匹配确定子单元3023,用于基于所述文件更新路径对应的关联信息,确定所述文件更新路径为所述匹配文件更新路径。
在一实施例中,所述使用时间包括开始使用时间和结束使用时间;所述信息确定子单元3022,用于:
确定所述文件更新时间对应的时间匹配精度;根据所述时间匹配精度,对所述文件更新时间进行时间数据截取;基于所述使用时间的开始使用时间和结束使用时间,生成所述用户的使用时间区间;若所述截取后的文件更新时间属于所述使用时间区间,则确定所述关联信息为完全关联。
在一实施例中,参考图3c,所述统计单元303,包括:
频数计算子单元3031,用于计算所述匹配文件更新路径在各候选文件更新路径集合中出现的频数;
频数求和子单元3032,用于对所述频数进行求和操作,得到所述总频数。
在一实施例中,参考图3d,所述确定单元304,包括:
阈值确定子单元3041,用于确定所述目标文件更新路径的用户覆盖数量阈值;
目标确定子单元3042,用于基于所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数,确定所述目标文件更新路径;
路径组合子单元3043,用于将所述目标文件更新路径进行组合,得到所述目标文件更新路径集合。
在一实施例中,所述阈值确定子单元3041,用于:
确定所述用户的用户数量;根据所述用户数量以及预设的用户覆盖比例,计算所述用户覆盖数量阈值。
在一实施例中,所述目标确定子单元3042,用于:
将所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数进行比较;将总频数大于或等于所述用户覆盖数量阈值的匹配文件更新路径确定为所述目标文件更新路径。
在一实施例中,参考图3e,所述预测单元305,包括:
集合发送子单元3051,用于向所述应用的至少一个用户发送所述目标文件更新路径集合;
数据获取子单元3052,用于基于所述目标文件更新路径集合,获取所述用户的用户行为数据;
数据发送子单元3053,用于将所述用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。
在一实施例中,所述数据获取子单元3052,用于:
从所述目标文件更新路径集合中提取至少一条目标文件更新路径;基于所述目标文件更新路径对所述应用进行数据扫描,得到所述用户在所述目标文件更新路径上的文件更新数据;对所述文件更新数据进行数据解析,得到所述用户行为数据。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的数据分析装置中获取单元301获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;由选取单元302从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;由统计单元303统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;由确定单元304基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;由预测单元305基于所述目标文件更新路径集合对所述应用进行用户行为预测。
该方案可以对用户针对应用的使用时间和文件更新时间进行匹配,精准地区分用户针对应用的活跃度、并减少部分不活跃应用给用户行为预测带来的误差,从而实现了通过大数据真实还原用户使用应用的情况,并提高了用户行为预测的准确率。并且,本方案解放了用户行为预测对用户生成内容的依赖、且无需获取各应用的数据权限,从而可以降低基于应用数据进行用户行为分析的难度。此外,本方案从大量的文件更新路径中筛选出有限的目标文件更新路径,并基于该有限的目标文件更新路径针对应用进行用户行为预测,可以大大降低需要上报的数据量以及用户行为预测需要处理的数据量,同时也很好地保护了用户的隐私。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为服务器或终端等设备,如图4所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括有一个或一个以上计算机可读存储介质的存储器401、输入单元402、显示单元403、包括有一个或者一个以上处理核心的处理器404、以及电源405等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器401可用于存储软件程序以及模块,处理器404通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器401还可以包括存储器控制器,以提供处理器404和输入单元402对存储器401的访问。
输入单元402可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元402可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器404,并能接收处理器404发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元402还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元403可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元403可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,OrganicLight-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器404以确定触摸事件的类型,随后处理器404根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
处理器404是计算机设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器404可包括一个或多个处理核心;优选的,处理器404可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器404中。
计算机设备还包括给各个部件供电的电源405(比如电池),优选的,电源可以通过电源管理系统与处理器404逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源405还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,计算机设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,计算机设备中的处理器404会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器401中,并由处理器404来运行存储在存储器401中的应用程序,从而实现各种功能,如下:
获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例的计算机设备可以对用户针对应用的使用时间和文件更新时间进行匹配,精准地区分用户针对应用的活跃度、并减少部分不活跃应用给用户行为预测带来的误差,从而实现了通过大数据真实还原用户使用应用的情况,并提高了用户行为预测的准确率。并且,本方案解放了用户行为预测对用户生成内容的依赖、且无需获取各应用的数据权限,从而可以降低基于应用数据进行用户行为分析的难度。此外,本方案从大量的文件更新路径中筛选出有限的目标文件更新路径,并基于该有限的目标文件更新路径针对应用进行用户行为预测,可以大大降低需要上报的数据量以及用户行为预测需要处理的数据量,同时也很好地保护了用户的隐私。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种数据分析方法中的步骤。例如,该指令可以执行如下步骤:
获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据分析方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据分析方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据分析方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种数据分析方法,其特征在于,包括:
获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;
从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;
统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;
基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;
基于所述目标文件更新路径集合对所述应用进行用户行为预测。
2.根据权利要求1所述的数据分析方法,其特征在于,从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,包括:
从所述文件更新路径集合中提取待匹配的文件更新路径;
确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息;
基于所述文件更新路径对应的关联信息,确定所述文件更新路径为所述匹配文件更新路径。
3.根据权利要求2所述的数据分析方法,其特征在于,所述使用时间包括开始使用时间和结束使用时间;
确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息,包括:
确定所述文件更新时间对应的时间匹配精度;
根据所述时间匹配精度,对所述文件更新时间进行时间数据截取;
基于所述使用时间的开始使用时间和结束使用时间,生成所述用户的使用时间区间;
若截取后的文件更新时间属于所述使用时间区间,则确定所述关联信息为完全关联。
4.根据权利要求1所述的数据分析方法,其特征在于,统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数,包括:
计算所述匹配文件更新路径在各候选文件更新路径集合中出现的频数;
对所述频数进行求和操作,得到所述总频数。
5.根据权利要求1所述的数据分析方法,其特征在于,基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合,包括:
确定所述目标文件更新路径的用户覆盖数量阈值;
基于所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数,确定所述目标文件更新路径;
将所述目标文件更新路径进行组合,得到所述目标文件更新路径集合。
6.根据权利要求5所述的数据分析方法,其特征在于,确定所述目标文件更新路径的用户覆盖数量阈值,包括:
确定所述用户的用户数量;
根据所述用户数量以及预设的用户覆盖比例,计算所述用户覆盖数量阈值。
7.根据权利要求5所述的数据分析方法,其特征在于,基于所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数,确定所述目标文件更新路径,包括:
将所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数进行比较;
将总频数大于或等于所述用户覆盖数量阈值的匹配文件更新路径确定为所述目标文件更新路径。
8.根据权利要求1所述的数据分析方法,其特征在于,基于所述目标文件更新路径集合对所述应用进行用户行为预测,包括:
向所述应用的至少一个用户发送所述目标文件更新路径集合;
基于所述目标文件更新路径集合,获取所述用户的用户行为数据;
将所述用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。
9.根据权利要求8所述的数据分析方法,其特征在于,基于所述目标文件更新路径集合,获取所述用户的用户行为数据,包括:
从所述目标文件更新路径集合中提取至少一条目标文件更新路径;
基于所述目标文件更新路径对所述应用进行数据扫描,得到所述用户在所述目标文件更新路径上的文件更新数据;
对所述文件更新数据进行数据解析,得到所述用户行为数据。
10.一种数据分析装置,其特征在于,包括:
获取单元,用于获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;
选取单元,用于从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;
统计单元,用于统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;
确定单元,用于基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;
预测单元,用于基于所述目标文件更新路径集合对所述应用进行用户行为预测。
11.一种计算机设备,其特征在于,包括:包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质存储有多条指令,该指令能够被处理器进行加载,以执行如权利要求1至9任一项所述方法的步骤。
CN202010550665.5A 2020-06-16 2020-06-16 一种数据分析方法和装置 Active CN111612280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550665.5A CN111612280B (zh) 2020-06-16 2020-06-16 一种数据分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550665.5A CN111612280B (zh) 2020-06-16 2020-06-16 一种数据分析方法和装置

Publications (2)

Publication Number Publication Date
CN111612280A CN111612280A (zh) 2020-09-01
CN111612280B true CN111612280B (zh) 2023-10-10

Family

ID=72202596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550665.5A Active CN111612280B (zh) 2020-06-16 2020-06-16 一种数据分析方法和装置

Country Status (1)

Country Link
CN (1) CN111612280B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858719B (zh) * 2023-02-21 2023-05-23 四川邕合科技有限公司 一种基于大数据分析的sim卡活跃度预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3486771A1 (en) * 2017-11-20 2019-05-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd Prediction of applications to be preloaded based on observed user behaviour and the order of starting the applications
WO2019140702A1 (zh) * 2018-01-22 2019-07-25 华为技术有限公司 一种用户画像的生成方法及装置
CN110767308A (zh) * 2019-10-11 2020-02-07 平安医疗健康管理股份有限公司 信息推送方法、装置、计算机设备和存储介质
CN110798511A (zh) * 2019-10-14 2020-02-14 浙江每日互动网络科技股份有限公司 目标app的日活跃用户数量预测方法及计算机设备
CN111079056A (zh) * 2019-10-11 2020-04-28 深圳壹账通智能科技有限公司 提取用户画像的方法、装置、计算机设备和存储介质
CN111125519A (zh) * 2019-12-11 2020-05-08 腾讯科技(深圳)有限公司 用户行为预测方法、装置、电子设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3486771A1 (en) * 2017-11-20 2019-05-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd Prediction of applications to be preloaded based on observed user behaviour and the order of starting the applications
WO2019140702A1 (zh) * 2018-01-22 2019-07-25 华为技术有限公司 一种用户画像的生成方法及装置
CN110767308A (zh) * 2019-10-11 2020-02-07 平安医疗健康管理股份有限公司 信息推送方法、装置、计算机设备和存储介质
CN111079056A (zh) * 2019-10-11 2020-04-28 深圳壹账通智能科技有限公司 提取用户画像的方法、装置、计算机设备和存储介质
CN110798511A (zh) * 2019-10-14 2020-02-14 浙江每日互动网络科技股份有限公司 目标app的日活跃用户数量预测方法及计算机设备
CN111125519A (zh) * 2019-12-11 2020-05-08 腾讯科技(深圳)有限公司 用户行为预测方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN111612280A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111143697B (zh) 一种内容推荐的方法以及相关装置
CN111797288B (zh) 数据筛选方法、装置、存储介质及电子设备
CN111432347B (zh) 信息处理方法、装置、存储介质及电子设备
WO2021120875A1 (zh) 搜索方法、装置、终端设备及存储介质
CN111405030B (zh) 一种消息推送方法、装置、电子设备和存储介质
CN112995757B (zh) 视频剪裁方法及装置
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN115392405A (zh) 模型训练方法、相关装置及存储介质
CN111612280B (zh) 一种数据分析方法和装置
CN111611369B (zh) 基于人工智能的交互方法和相关装置
WO2017176562A1 (en) Identifying query abandonment using gesture movement
CN113886674A (zh) 资源推荐方法、装置、电子设备及存储介质
CN116307394A (zh) 产品用户体验评分方法、装置、介质及设备
CN107807940A (zh) 信息推荐方法和装置
CN114430504B (zh) 一种媒体内容的推荐方法以及相关装置
CN115984643A (zh) 模型训练方法、相关设备及存储介质
CN110750193B (zh) 一种基于人工智能的场景拓扑确定方法和装置
CN114625657A (zh) 模型解释方法、装置、电子设备及存储介质
CN110807330B (zh) 语义理解模型评估方法、装置及存储介质
KR102209100B1 (ko) 활동 데이터 분석을 통해 비정상 사용자 그룹을 탐지하는 방법 및 시스템
CN113313155A (zh) 数据处理方法和相关装置
CN114969493A (zh) 一种内容推荐方法和相关装置
CN113392686A (zh) 视频分析方法、装置及存储介质
CN114971662A (zh) 一种数据追踪方法、装置、设备及存储介质
CN113822435A (zh) 一种用户转化率的预测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant