CN111143682A - 一种数据处理方法、设备及存储介质 - Google Patents

一种数据处理方法、设备及存储介质 Download PDF

Info

Publication number
CN111143682A
CN111143682A CN201911382292.9A CN201911382292A CN111143682A CN 111143682 A CN111143682 A CN 111143682A CN 201911382292 A CN201911382292 A CN 201911382292A CN 111143682 A CN111143682 A CN 111143682A
Authority
CN
China
Prior art keywords
data
user
vector
period
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911382292.9A
Other languages
English (en)
Inventor
杨沛
杨帆
曾翔宇
张成松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201911382292.9A priority Critical patent/CN111143682A/zh
Publication of CN111143682A publication Critical patent/CN111143682A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法和设备,其中所述方法包括:获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;由统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。

Description

一种数据处理方法、设备及存储介质
技术领域
本申请涉及数据处理技术,具体涉及一种数据处理方法、设备及存储介质。
背景技术
相关技术中对用户喜好或偏好的统计大多基于用户发生的大量历史行为数据而得到。相关技术中的用户喜好或偏好的统计为大数据统计,无法获取到用户的精准喜好或偏好。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种数据处理方法、设备及存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据处理方法,所述方法包括:
获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;
获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
由统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
上述方案中,所述获得第二数据,包括:
获得第四数据,所述第四数据表征为用户针对所述各个对象而产生的使用数据;
将所述第四数据输入至所述统计模型,由所述统计模型对所述第四数据进行分析,得到所述第二数据;
所述基于所述第一数据和所述第二数据,获得第三数据,包括:
从所述第二数据中提取出对应于所述至少一个对象的使用程度的参数,将提取的参数作为所述第三数据。
上述方案中,在由统计模型对所述第一数据和所述第三数据进行处理之前,所述方法还包括:
对所述第一数据和第三数据进行预处理;
所述由所述统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,包括:
由所述统计模型对预处理后的所述第一数据和所述第三数据进行处理,得到所述处理结果,所述处理结果还表征为所述用户在所述一段时间内对所述至少一个对象的使用优先级。
上述方案中,所述获得第一数据,包括:
采集所述用户在所述一段时间内对所述至少一个对象中的各个对象的使用时长;
所述对所述第一数据和第三数据进行预处理,包括:
按照使用时长的大小,对所述至少一个对象中的各个对象进行排序;
将排序后的结果映射为第一向量,所述第一向量中的各元素表征为所述至少一个对象中的相应对象的使用时长信息;
将所述第三数据映射为第二向量,所述第二向量中的各元素表征为所述用户使用相应对象的程度的参数;
所述由所述统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,包括:
由统计模型对所述第一向量和所述第二向量进行处理,得到第三向量,所述第三向量表征为在所述一段时间内对所述至少一个对象的使用优先级。
上述方案中,在得到所述处理结果之后,所述方法还包括:
根据所述处理结果,对用户进行聚类、和/或推送与用户的行为特征相匹配的信息。
本申请实施例提供一种数据处理设备,所述设备包括:第一获得单元、第二获得单元、第三获得单元和统计模型;其中,
第一获得单元,用于获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;
第二获得单元,用于获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
第三获得单元,用于基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
统计模型,用于对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
上述方案中,第二获得单元,用于获得第四数据,所述第四数据表征为用户针对所述各个对象而产生的使用数据;将所述第四数据输入至所述统计模型,由所述统计模型对所述第四数据进行分析,得到所述第二数据;相应的,所述第三获得单元,用于从所述第二数据中提取出对应于所述至少一个对象的使用程度的参数,将提取的参数作为所述第三数据。
上述方案中,所述设备还包括预处理单元,用于对所述第一数据和第三数据进行预处理;
相应的,所述统计模型,用于对预处理后的所述第一数据和所述第三数据进行处理,得到所述处理结果,所述处理结果还表征为所述用户在所述一段时间内对所述至少一个对象的使用优先级。
上述方案中,所述第一获得单元,用于采集所述用户在所述一段时间内对所述至少一个对象中的各个对象的使用时长;
预处理单元,用于按照使用时长的大小,对所述至少一个对象中的各个对象进行排序;将排序后的结果映射为第一向量,所述第一向量中的各元素表征为所述至少一个对象中的相应对象的使用时长信息;将所述第三数据映射为第二向量,所述第二向量中的各元素表征为所述用户使用相应对象的程度的参数;
统计模型,用于对所述第一向量和所述第二向量进行处理,得到第三向量,所述第三向量表征为在所述一段时间内对所述至少一个对象的使用优先级。
上述方案中,所述设备包括:聚类和/或推送单元,用于根据所述处理结果,对用户进行聚类、和/或推送与用户的行为特征相匹配的信息。
本申请实施例提供的数据处理方法和设备,其中所述方法包括:获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;由统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
本申请实施例中,结合用户在一段时间内对对象进行使用的使用数据和对这个(些)对象的使用程度的参数进行用户的行为特征的统计,能够提高行为特征统计的准确性。且通过统计模型进行行为特征的统计,由于本申请实施例中的统计模型具有较强的鲁棒性,不易受外界影响,由其进行统计得出的结果也将更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的数据处理方法第一实施例的实现流程示意图;
图2为本申请提供的数据处理方法第二实施例的实现流程示意图;
图3为本申请提供的数据处理方法第三实施例的实现流程示意图;
图4为本申请提供的数据处理方法第四实施例的实现流程示意图;
图5为本申请提供的数据处理方法第五实施例的实现流程示意图;
图6为本申请提供的数据处理方法的原理示意图;
图7为本申请提供的数据处理设备实施例的组成结构示意图;
图8为本申请提供的数据处理设备实施例的硬件构成示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请提供一种数据处理方法的第一实施例,应用于设备中,该设备可以是用于用户的行为特征进行统计的设备如服务器、云台等。
步骤(S)101:获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;
本步骤中,对象指的是用户利用手机能够使用到的应用(App)、浏览的网页等数据。在实际应用中,用户根据自身的实际使用需求进行App和搜索引擎的安装,待到有使用需求时对其进行使用。前述的各个对象可视为用户在手机中安装的所有App和搜索引擎。对对象的使用数据可以是对对象的使用时长、使用频次等。
本步骤中,对某个(些)用户在一段时间内其所使用的App、浏览的网页的使用情况进行监控,从而获得第一数据。所述一段时间可以是任何合理的时间段、为预先设定好的,如一个月、三个月或半年等。
S102:获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
本步骤中,对象的使用程度的参数可以是任何能够表示为对象的使用时长大小、使用频次大小的数据。如使用时长的权重参数、使用频次的权重参数;可以理解,权重参数越大说明使用时长、使用频次等使用数据的重要性越强。
S103:基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
本步骤中,基于获得的用户对各个对象的使用程度的参数和用户在一段时间内对各个对象中的其中至少部分对象进行使用的使用数据,得到用户在该一段时间内对其使用的对象进行使用的使用程度的参数;
S104:由统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
本步骤中,由统计模型进行处理得到用户在该一段时间内的行为特征,由此统计出用户在一段时间内的爱好、习惯、偏好等。
前述S101~S104中,结合用户在一段时间内对对象进行使用的使用数据和对这个(些)对象的使用程度的参数进行用户的行为特征的统计,能够提高行为特征统计的准确性。且通过统计模型进行行为特征的统计,由于本申请实施例中的统计模型具有较强的鲁棒性,不易受外界影响,由其进行统计得出的结果也将更加准确。
在本申请一个可选的实施例中,前述S102:获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数的实现过程可通过如下方式来实现,如图2所示:
S1021:获得第四数据,所述第四数据表征为用户针对所述各个对象而产生的使用数据;
S1022:将所述第四数据输入至所述统计模型,由所述统计模型对所述第四数据进行分析,得到所述第二数据;
相应的,S103为:
S1031:从所述第二数据中提取出对应于所述至少一个对象的使用程度的参数,将提取的参数作为所述第三数据。
S1021和S1022的方案可以在S101之前实现。在S1021~S1022中,对某个(些)用户使用App、网页的情况、具体可以是对用户在第二时间段内的使用情况进行监控,将监控得到的使用情况(第四数据)作为统计模型的输入数据输入至统计模型中,由统计模型进行计算,得到用户对各个对象进行使用的使用程度的参数。前述的S101~S104中的一段时间可视为第一时间段,此处的第二时间段与第一时间段可以是指相同时间段,也可以指不同的时间段,视具体情况而灵活设定。由于本申请实施例中的统计模型具有较强的鲁棒性,不易受外界影响,由其进行表征为使用程度的参数的计算,可保证该参数的计算准确性。在实际应用中,可设置第二时间段足够长,由此可监测到用户对其手机中安装的各个应用的使用情况,通过统计模型即可得到用户对各个对象进行使用的使用程度的参数。在第一时间段内,用户可能仅对其手机中的部分应用进行使用,也可能对其手机中的全部应用进行使用。不论是使用全部应用还是使用部分应用,均需要从统计模型得到的用户对各个对象进行使用的使用程度的参数中,提取出用户在第一时间段内使用的应用、对应于该应用的使用程序的参数,得到用户在第一时间内对其使用的应用的使用程度。
在本申请一个可选的实施例中,在由统计模型对所述第一数据和所述第三数据进行处理之前,如图3所示,所述方法还包括:
S1041:对所述第一数据和第三数据进行预处理;
相应的,S104为:
S1042:由所述统计模型对预处理后的所述第一数据和所述第三数据进行处理,得到所述处理结果,所述处理结果还表征为所述用户在所述一段时间内对所述至少一个对象的使用优先级。
前述方案中,在获得第一数据和第三数据的情况下,先对第一数据和第三数据进行预处理,令统计模型对预处理后的第一数据和第三数据进行处理,得到用户在该段时间内的行为特征如对其在该段时间内使用的对象的使用优先级。结合用户在一段时间内对对象进行使用的使用数据和该一段时间内对这个(些)对象的使用程度的参数进行对对象的使用优先级的统计,能够提高统计的准确性。
在一个可选的实施例中,如图4所示,
S1011:采集所述用户在所述一段时间内对所述至少一个对象中的各个对象的使用时长;
本步骤作为获得第一数据的进一步说明,重复之处不赘述。
S102:获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
S103:基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
对S102和S103的说明具体请参见前述相关描述,重复之处不赘述。
S10411:按照使用时长的大小,对所述至少一个对象中的各个对象进行排序;将排序后的结果映射为第一向量,所述第一向量中的各元素表征为所述至少一个对象中的相应对象的使用时长信息;将所述第三数据映射为第二向量,所述第二向量中的各元素表征为所述用户使用相应对象的程度的参数;
S10421:由统计模型对所述第一向量和所述第二向量进行处理,得到第三向量,所述第三向量表征为在所述一段时间内对所述至少一个对象的使用优先级。
S101~S10421的方案中,采集用户在一段时间内对其在该时间段内使用的各个对象的使用时长,利用该使用时长进行对象的排序;将排序后的结果映射为第一向量,将第三数据映射为第二向量,由统计模型对第一向量和第二向量进行处理得到用户在该段时间内对其使用对象的使用优先级。前述方案中,结合用户在一段时间内对对象进行使用的使用数据和该一段时间内对这个(些)对象的使用程度的参数进行对对象的使用优先级的统计,能够提高统计的准确性。由具有鲁棒性的统计模型进行使用优先级的统计,可保证统计的准确性。
在一个可选的实施例中,如图5所示,在得到所述处理结果之后,所述方法还包括:
S105:根据所述处理结果,对用户进行聚类、和/或推送与用户的行为特征相匹配的信息。
在实际应用中,可得到各个用户的行为特征如偏好、喜好、爱好的情况下,可以对具有相同或相似行为特征的用户进行聚类,还可以为各个用户推送能够符合其行为特征的多媒体数据如视频、音频、网页、广告等。可以理解,对用户进行符合其行为特征的多媒体数据的推送可以是主动进行推送,也可以是基于一定的触发条件进行推送。如广告推广平台有新的广告需要推广的情况下,产生需要推送该广告的触发信号,响应该触发信号,将该广告推送至经常观看或有需要的相关用户。
下面以统计模型为自然语言模型word2vector模型、用户A为例进行本申请实施例技术方案的说明。
本应用场景中以训练阶段和应用阶段分别进行阐述。其中,训练阶段用于得到表征为用户对各个对象如App的使用程度的参数;应用阶段用于利用用户在一段时间内(第一时间段内)对App的使用情况对其行为特征进行统计。
用户A的手机端安装有N个App(App 1~App N)。本应用场景中先通过word2vector模型的训练得到用户A使用这些APP的使用程度。该训练过程是:在第二时间段内如1月-3月期间,服务器对用户A使用这些App的使用情况进行监控如对这些App的使用时长进行监控,从而得到第四数据。服务器按照使用时长的大小对这些App进行从大到小或从小到大的排序。本应用场景中以从大到小进行排序为例,服务器将排序结果作为word2vector模型的输入,由word2vector模型进行对这些App的使用程度参数的计算。本领域技术应该而知,word2vector模型可用函数y=f(x)=wixi来表示,训练的过程就是在利用已知的x和y来得到输出y和输入x之间的映射关系f。其中,i为在第二时间段内监控到的用户使用的App的总数量;xi表示在第二时间段内排序后的第i个App的使用时长;ωi表示第i个App对应的权重参数;其中,y为在第二时间段内监控到的用户使用的App。训练的过程就是在利用已知的输出y和输入x来求取各ωi的过程。在word2vector模型的损失函数或代价函数为最小使word2vector模型训练得到的ωi即为期望的ωi,分析模型训练完成。其中,损失函数或代价函数可采用平方损失函数或对数损失函数,具体请参见相关说明。期望的ωi如w1~wN即表征在第二时间段内对App 1~App N的使用程度。可以理解,通过训练过程得到用户A的对其手机上安装的各个App的使用程度,从而得到第二数据。本领域技术人员应该理解,
Figure BDA0002342582760000101
因为输入到word2vector模型的数据是按照对各App的使用时长从大到小进行排序的结果,所以经过word2vector模型的如上处理过程得到的是用户A在1月-3月期间对其使用的App的优先级排序结果。由前述内容可知,训练过程使用的训练数据如y和x容易采集或监控到,且本应用场景中的训练数据无需人工标注,即可实现对期望结果-对App 1~AppN的使用程度的获得,在工程上易于实现且word2vector模型具有鲁棒性,可使得期望结果获得更为准确。
在应用阶段,服务器对第一时间段内如3月的上半月的用户A的行为特征进行统计。服务器对用户A在这半个月内的对App的使用情况进行监控如对App的使用时长进行监控,从而得到第一数据。可以理解,在这半个月内用户A可以仅使用其手机中的部分App,也可能使用其手机中的全部App。为方便说明,假定这半个月用户仅使用了部分App如App1~App5(N>5)。从前述经训练得到的用户A的对其手机上安装的各个App的使用程度参数中,提取出对应于App1~App5的使用程度的参数。服务器将对应于App1~App5的使用程度的参数和这半个月内监控到的这几个App的使用时长作为word2vector模型的输入,由word2vector模型进行处理,进一步的将这几个App的使用时长集合为一向量(第三向量),将对应于App1~App5的使用程度的参数集合为另一向量(第四向量),将第三向量和第四向量进行相乘操作。可以理解,第三向量中的各元素分别表示为这半个月内监控到的App1~App5的使用时长;第四向量中的各元素分别表示为App1~App5的使用程度参数。二者相乘得到用户A在这半个月内的行为特征如对在这半个月内经常的App1~App5的概率。其中概率越大的说明该App在这5个App中被用户使用得越多。前述方案中服务器对用户A使用的App的监控结果是按照时间顺序进行记录,并将按照时间顺序记录的结果直接输入到word2vector模型中。此外,还可以在按照时间顺序进行记录之后,按照对各App的使用时长的大小进行排序。如按照使用时长从大到小的顺序进行排序,将排序后的结果集合为一向量(第一向量),将对应于排序后的各App的使用程度的参数集合为另一向量(第二向量),将这两个向量进行相乘操作,得到用户A在这半个月内的行为特征如对在这半个月内经常的App1~App5的概率。因为输入至word2vector模型的使用时长是经过从大到小进行排序的使用时长,所以第一向量和第二向量的相乘得到的用户A这半个月内使用App1~App5的概率也是从大到小进行排序的,也即得到是的这半个月内使用App1~App5中的优先级。
在应用阶段中,结合用户在第一时间段内对其使用的APP的使用时长和对这些App的使用程度的参数进行用户的行为特征的统计,也即从使用时长和使用程度两个方面入手进行行为特征的统计,可提高行为特征统计的准确性。此外,word2vector模型具有较强的鲁棒性,由其进行行为特征的统计可保证统计准确性。
在实际应用中,如果用户A这半个月内使用的App1~App5中App1代表A款游戏软件,则在该款游戏软件出现新的版本或者出现新的产品的过程中,服务器会优先将该版本或该产品推送给用户A,实现有针对性的推送。前述方案是对一个用户-用户A进行为例进行的说明,对其它用户的说明请参见前述过程,重复之处不赘述。通过对多个用户的如上处理得到各个用户在一段时间内如第一时间段内的行为特征,如此便可将有相同或相似行为特征的用户进行聚类。如果有需要,如用户A、B和用户C为经常使用A款游戏软件的用户,则向这些用户进行产品或新版本的推荐。
前述方案是以服务器监控的是对App的使用时长为例进行的说明,此外,还可以是对APP的使用频次为例进行说明,也可以是对用户在这半个月内的页面的浏览时长为例进行说明,大致过程参见前述说明,重复之处不赘述。前述方案中是以word2vector模型为统计模型为例进行的说明,此外神经网络模型、深度网络学习模型均可作为本申请实施例的统计模型。
图6为本申请实施例的一原理示意图。如图6所示,基于用户j在一段时间内如在第一时间段内的行为时长
Figure BDA0002342582760000121
如:在第一时间段内每个应用上的停留时长可表示
Figure BDA0002342582760000122
为序列
Figure BDA0002342582760000123
和/或在每个页面的浏览时长可表示为序列
Figure BDA0002342582760000124
得到基于时长排序(以从大到小为例)的用户行为目标实体序列
Figure BDA0002342582760000125
如:按照使用时长排序,得到在第一时间段内用户使用APP的序列为
Figure BDA0002342582760000126
按照浏览时长排序,用户浏览页面的序列为
Figure BDA0002342582760000127
等。各个用户通过前述的训练过程可得到表征为其使用各应用或浏览各页面的使用程度的参数为序列V=(v1,v2...vk)。对应于在第一时间段内使用的App,得到对应于这些APP的使用程度参数Tj=(v1,v2...vm)。将Tj=(v1,v2...vm)和
Figure BDA0002342582760000128
相乘,得到行为特征Uj=Tj*Ej,Uj可作为用户嵌入向量,该用户嵌入向量即可视为对用户的行为特征进行统计的结果。从原理示意图来看,本申请实施例在工程上易于实现,实现难度低,且可大大保证用户行为特征统计的准确性。
本申请实施例还提供一种数据处理设备,如图7所示,所述设备包括:第一获得单元701、第二获得单元702、第三获得单元703和统计模型704;其中,
第一获得单元701用于获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;
第二获得单元702用于获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
第三获得单元703用于基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
统计模型704用于对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
在一个可选的实施例中,第二获得单元702用于获得第四数据,所述第四数据表征为用户针对所述各个对象而产生的使用数据;将所述第四数据输入至所述统计模型704,由所述统计模型704对所述第四数据进行分析,得到所述第二数据;相应的,所述第三获得单元703用于从所述第二数据中提取出对应于所述至少一个对象的使用程度的参数,将提取的参数作为所述第三数据。
在一个可选的实施例中,所述设备包括:预处理单元,用于对所述第一数据和第三数据进行预处理;相应的,所述统计模型704用于对预处理后的所述第一数据和所述第三数据进行处理,得到所述处理结果,所述处理结果还表征为所述用户在所述一段时间内对所述至少一个对象的使用优先级。
在一个可选的实施例中,第一获得单元701用于采集所述用户在所述一段时间内对所述至少一个对象中的各个对象的使用时长;预处理单元,用于按照使用时长的大小,对所述至少一个对象中的各个对象进行排序;将排序后的结果映射为第一向量,所述第一向量中的各元素表征为所述至少一个对象中的相应对象的使用时长信息;将所述第三数据映射为第二向量,所述第二向量中的各元素表征为所述用户使用相应对象的程度的参数;统计模型704用于对所述第一向量和所述第二向量进行处理,得到第三向量,所述第三向量表征为在所述一段时间内对所述至少一个对象的使用优先级。
在一个可选的实施例中,所述设备包括:聚类和/或推送单元,用于根据所述处理结果,对用户进行聚类、和/或推送与用户的行为特征相匹配的信息。
可以理解,所述设备中的第一获得单元701、第二获得单元702、第三获得单元703和统计模型704在实际应用中均可由识别设备的中央处理器(CPU,Central ProcessingUnit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是,本申请实施例的数据处理设备,由于该数据处理设备解决问题的原理与前述的数据处理方法相似,因此,数据处理设备的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述,重复之处不再赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时至少用于执行图1至图6任一所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图8所示的存储器62。
本申请实施例还提供了一种数据处理设备。图8为本申请实施例的数据处理设备的硬件结构示意图,如图8所示,数据处理设备包括:用于进行数据传输的通信组件63、至少一个处理器61和用于存储能够在处理器61上运行的计算机程序的存储器62。终端中的各个组件通过总线系统64耦合在一起。可理解,总线系统64用于实现这些组件之间的连接通信。总线系统64除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统64。
其中,所述处理器61执行所述计算机程序时至少执行图1至图6任一所示方法的步骤。
可以理解,存储器62可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器61中,或者由处理器61实现。处理器61可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器61可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器62,处理器61读取存储器62中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,数据处理设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述的数据处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;
获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
由统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
2.根据权利要求1所述的方法,其特征在于,所述获得第二数据,包括:
获得第四数据,所述第四数据表征为用户针对所述各个对象而产生的使用数据;
将所述第四数据输入至所述统计模型,由所述统计模型对所述第四数据进行分析,得到所述第二数据;
所述基于所述第一数据和所述第二数据,获得第三数据,包括:
从所述第二数据中提取出对应于所述至少一个对象的使用程度的参数,将提取的参数作为所述第三数据。
3.根据权利要求1或2所述的方法,其特征在于,在由统计模型对所述第一数据和所述第三数据进行处理之前,所述方法还包括:
对所述第一数据和第三数据进行预处理;
所述由所述统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,包括:
由所述统计模型对预处理后的所述第一数据和所述第三数据进行处理,得到所述处理结果,所述处理结果还表征为所述用户在所述一段时间内对所述至少一个对象的使用优先级。
4.根据权利要求3所述的方法,其特征在于,所述获得第一数据,包括:
采集所述用户在所述一段时间内对所述至少一个对象中的各个对象的使用时长;
所述对所述第一数据和第三数据进行预处理,包括:
按照使用时长的大小,对所述至少一个对象中的各个对象进行排序;
将排序后的结果映射为第一向量,所述第一向量中的各元素表征为所述至少一个对象中的相应对象的使用时长信息;
将所述第三数据映射为第二向量,所述第二向量中的各元素表征为所述用户使用相应对象的程度的参数;
所述由所述统计模型对所述第一数据和所述第三数据进行处理,得到处理结果,包括:
由统计模型对所述第一向量和所述第二向量进行处理,得到第三向量,所述第三向量表征为在所述一段时间内对所述至少一个对象的使用优先级。
5.根据权利要求1或2所述的方法,其特征在于,在得到所述处理结果之后,所述方法还包括:
根据所述处理结果,对用户进行聚类、和/或推送与用户的行为特征相匹配的信息。
6.一种数据处理设备,所述设备包括:第一获得单元、第二获得单元、第三获得单元和统计模型;其中,
第一获得单元,用于获得第一数据,所述第一数据表征为用户对各个对象中的至少一个对象在一段时间内进行使用的使用数据;
第二获得单元,用于获得第二数据,所述第二数据表征为所述用户对所述各个对象的使用程度的参数;
第三获得单元,用于基于所述第一数据和所述第二数据,获得第三数据,所述第三数据表征为所述用户在所述一段时间内对所述至少一个对象进行使用的使用程度的参数;
统计模型,用于对所述第一数据和所述第三数据进行处理,得到处理结果,所述处理结果表征为所述用户在所述一段时间内的行为特征。
7.根据权利要求6所述的设备,其特征在于,
第二获得单元,用于获得第四数据,所述第四数据表征为用户针对所述各个对象而产生的使用数据;将所述第四数据输入至所述统计模型,由所述统计模型对所述第四数据进行分析,得到所述第二数据;相应的,所述第三获得单元,用于从所述第二数据中提取出对应于所述至少一个对象的使用程度的参数,将提取的参数作为所述第三数据。
8.根据权利要求6或7所述的设备,其特征在于,所述设备还包括预处理单元,用于对所述第一数据和第三数据进行预处理;
相应的,所述统计模型,用于对预处理后的所述第一数据和所述第三数据进行处理,得到所述处理结果,所述处理结果还表征为所述用户在所述一段时间内对所述至少一个对象的使用优先级。
9.根据权利要求8所述的设备,其特征在于,
所述第一获得单元,用于采集所述用户在所述一段时间内对所述至少一个对象中的各个对象的使用时长;
预处理单元,用于按照使用时长的大小,对所述至少一个对象中的各个对象进行排序;将排序后的结果映射为第一向量,所述第一向量中的各元素表征为所述至少一个对象中的相应对象的使用时长信息;将所述第三数据映射为第二向量,所述第二向量中的各元素表征为所述用户使用相应对象的程度的参数;
统计模型,用于对所述第一向量和所述第二向量进行处理,得到第三向量,所述第三向量表征为在所述一段时间内对所述至少一个对象的使用优先级。
10.根据权利要求6所述的设备,其特征在于,所述设备包括:聚类和/或推送单元,用于根据所述处理结果,对用户进行聚类、和/或推送与用户的行为特征相匹配的信息。
CN201911382292.9A 2019-12-27 2019-12-27 一种数据处理方法、设备及存储介质 Pending CN111143682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911382292.9A CN111143682A (zh) 2019-12-27 2019-12-27 一种数据处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911382292.9A CN111143682A (zh) 2019-12-27 2019-12-27 一种数据处理方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111143682A true CN111143682A (zh) 2020-05-12

Family

ID=70521253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911382292.9A Pending CN111143682A (zh) 2019-12-27 2019-12-27 一种数据处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111143682A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145937A (zh) * 2006-09-15 2008-03-19 腾讯科技(深圳)有限公司 显示访问量数据的方法及数据访问量发送装置
CN106354371A (zh) * 2016-09-06 2017-01-25 深圳市金立通信设备有限公司 一种应用排序的方法及终端
CN107506479A (zh) * 2017-09-12 2017-12-22 迅雷计算机(深圳)有限公司 一种对象推荐方法和装置
CN109934681A (zh) * 2019-03-13 2019-06-25 中国科学技术大学 用户感兴趣商品的推荐方法
US20190303941A1 (en) * 2018-03-29 2019-10-03 Paypal, Inc. Systems and methods for compressing behavior data using semi-parametric or non-parametric models
CN110413888A (zh) * 2019-07-24 2019-11-05 腾讯科技(深圳)有限公司 一种书籍推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145937A (zh) * 2006-09-15 2008-03-19 腾讯科技(深圳)有限公司 显示访问量数据的方法及数据访问量发送装置
CN106354371A (zh) * 2016-09-06 2017-01-25 深圳市金立通信设备有限公司 一种应用排序的方法及终端
CN107506479A (zh) * 2017-09-12 2017-12-22 迅雷计算机(深圳)有限公司 一种对象推荐方法和装置
US20190303941A1 (en) * 2018-03-29 2019-10-03 Paypal, Inc. Systems and methods for compressing behavior data using semi-parametric or non-parametric models
CN109934681A (zh) * 2019-03-13 2019-06-25 中国科学技术大学 用户感兴趣商品的推荐方法
CN110413888A (zh) * 2019-07-24 2019-11-05 腾讯科技(深圳)有限公司 一种书籍推荐方法及装置

Similar Documents

Publication Publication Date Title
CN109190024B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN104298679B (zh) 应用业务推荐方法及装置
CN104091276B (zh) 在线分析点击流数据的方法和相关装置及系统
CN110472154B (zh) 一种资源推送方法、装置、电子设备及可读存储介质
CN110413867B (zh) 用于内容推荐的方法及系统
US10346496B2 (en) Information category obtaining method and apparatus
CN104504149A (zh) 一种实现应用推荐的方法及装置
CN113505272B (zh) 基于行为习惯的控制方法和装置、电子设备和存储介质
CN108900619B (zh) 一种独立访客统计方法及装置
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN105354721B (zh) 一种识别机器操作行为的方法及装置
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
WO2022007626A1 (zh) 视频内容推荐方法、装置及计算机设备
CN110782291A (zh) 广告投放用户确定方法及装置、存储介质及电子装置
CN113076416A (zh) 信息热度评估方法、装置和电子设备
CN110895594A (zh) 一种页面展示的方法以及相关设备
CN110737691B (zh) 用于处理访问行为数据的方法和装置
US20140089525A1 (en) Compressed analytics data for multiple recurring time periods
CN104268189B (zh) 评价应用的方法及装置
CN111143682A (zh) 一种数据处理方法、设备及存储介质
CN115393100A (zh) 资源推荐方法及装置
CN110675205A (zh) 基于应用的竞品分析方法、装置及存储介质
CN113076450A (zh) 一种目标推荐列表的确定方法和装置
CN106503044B (zh) 兴趣特征分布获取方法及装置
CN112380417A (zh) 一种基于标签与图的网页推荐方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination