CN113806656A - 确定用户的特征的方法、设备及计算机可读介质 - Google Patents

确定用户的特征的方法、设备及计算机可读介质 Download PDF

Info

Publication number
CN113806656A
CN113806656A CN202010555053.5A CN202010555053A CN113806656A CN 113806656 A CN113806656 A CN 113806656A CN 202010555053 A CN202010555053 A CN 202010555053A CN 113806656 A CN113806656 A CN 113806656A
Authority
CN
China
Prior art keywords
period
long
feature
user
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010555053.5A
Other languages
English (en)
Other versions
CN113806656B (zh
Inventor
张舒博
郑理文
阙鑫地
林于超
林嵩晧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010555053.5A priority Critical patent/CN113806656B/zh
Priority claimed from CN202010555053.5A external-priority patent/CN113806656B/zh
Priority to PCT/CN2021/099703 priority patent/WO2021254269A1/zh
Publication of CN113806656A publication Critical patent/CN113806656A/zh
Application granted granted Critical
Publication of CN113806656B publication Critical patent/CN113806656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明涉及一种用于第一用户设备的确定用户的特征的方法,该第一用户设备可以获取用户在该设备上的短周期特征组,同时,第一用户设备也可以通过近场通信例如蓝牙或局域网从其它设备中获取该用户在其它设备上的短周期特征组。基于获取到的短周期特征组中的多个短周期特征确定两个或两个以上的长周期特征,进而基于该两个或两个以上的长周期特征进行信息熵的计算。基于信息熵大小,判断是否基于上述长周期特征来确定所述用户的所述特征。如果信息熵小于预设阈值,那么判断基于上述长周期特征来确定所述用户的所述特征,进而对用户进行画像。

Description

确定用户的特征的方法、设备及计算机可读介质
技术领域
本发明涉及通信技术领域,特别涉及一种用于第一用户设备的确定用户的特征的方法、设备及计算机可读介质。
背景技术
用户画像(User Profile,UP)是指根据用户的社会属性、生活习惯和消费行为等信息抽象出一个特征化的用户模型。构建用户画像的主要工作包括确定用户的特征,其是通过对用户信息分析、提炼而得以确定的。
通常,确定用户的特征需要通过多个终端在本地进行数据采集,进而将采集到的源数据打包上传至服务器集群,服务器集群进行分析进而确定用户特征。
上述确定用户特征的方法主要存在如下缺点:
(1)需要传输源数据,数据量较大,因此对带宽有一定要求;
(2)源数据上传至服务器集群,存在一定的安全、隐私风险;
(3)用户特征的确高度依赖服务器集群和设备联网,在广域网离线状态下用户特征无法确定和更新,因此也无法生成和更新用户画像。
发明内容
在第一方面,根据本申请的一些实施例提供的一种用于第一用户设备的确定用户的特征的方法。该方法通过获取第一长周期特征和至少一个第二长周期特征,从而根据第一长周期特征和至少一个第二长周期特征的第一信息熵,判断是否基于第一长周期特征和至少一个第二长周期特征来确定用户的特征。其中,第一长周期特征指示与第一用户设备对应的特征分量,且该特征分量是在第一预定周期内获取的在第一维度上的特征分量;至少一个第二长周期特征中的每个第二长周期特征指示与至少一个第二用户设备中的一个第二用户设备对应的特征分量,并且该特征分量是在第一预定周期内获取的在第一维度上的特征分量。
通过对长周期特征进行信息熵的运算,进而通过信息熵与熵阈值的比较,以确定用户特征,能够提高确定用户特征的准确度。而用户特征的准确度与用户画像的准确度息息相关,用户画像的准确度又决定是否能够为用户提供更贴切用户习惯的服务,从而能够进一步提高用户体验感。
在一些实施例中,获取第一长周期特征还包括:确定一个第一短周期特征组,其中一个第一短周期特征组与第一用户设备对应,并且一个第一短周期特征组中包括多个第一短周期特征,其中多个第一短周期特征中的每个第一短周期特征指示一特征分量,且该特征分量是由第一用户设备获取的在第二预定周期内并在第一维度上的特征分量;和对多个第一短周期特征进行融合,以获取第一长周期特征,其中,第一预定周期长于第二预定周期。
在一些实施例中,获取至少一个第二长周期特征还包括:确定至少一个第二短周期特征组,其中至少一个第二短周期特征组与至少一个第二用户设备对应,并且至少一个第二短周期特征组中的每个第二短周期特征组包括多个第二短周期特征,其中多个第二短周期特征中的每个第二短周期特征指示一特征分量,且该特征分量是由一个第二用户设备获取的在第一预定周期内并在第一维度上的特征分量;和对每个第二周期特征组中的多个第二短周期特征进行融合,以获取第二长周期特征,其中,第一预定周期大于第二预定周期。
在一些实施例中,该方法还包括:使用用户的用户账户登录第一用户设备和至少一个第二用户设备。
在一些实施例中,确定一个第一短周期特征组征,还包括:在第二预定周期内,获得多个第一打点信息包,多个第一打点信息包是用户进行与特征相关的行为或状态在第一维度上的多个打点信息包,其中多个第一打点信息包中的每个打点信息包包括时间戳,行为或状态,第一维度,以及特征分量中的至少两个;和对多个第一打点信息包进行融合,确定每个第一短周期特征。
在一些实施例中,确定至少一个第二短周期特征组,包括:从至少一个用户设备接收至少一个第二短周期特征组。
在一些实施例中,根据第一长周期特征和至少一个第二长周期特征的信息熵,判断是否基于第一长周期特征和至少一个第二长周期特征来确定用户的特征,还包括:根据第一长周期特征和至少一个第二长周期特征,获得第一信息熵;判断第一信息熵是否小于第一熵阈值;在第一信息熵小于第一熵阈值的情况下,判断基于第一长周期特征和至少一个第二长周期特征来确定用户的特征;和在信息熵大于或等于第一熵阈值的情况下,判断不根据第一长周期特征和至少一个第二长周期特征来确定用户的特征。
在一些实施例中,根据第一长周期特征和至少一个第二长周期特征,获得第一信息熵,还包括:根据下列公式获得第一信息熵
Figure BDA0002543921880000021
其中,H代表第一信息熵,Xi代表第一长周期特征和至少一个第二长周期特征中相互不重复的长周期特征中的第i个长周期特征,其中i为1至n的整数,并且N等于第一长周期特征和至少一个第二长周期特征中相互不重复的长周期特征的数量和,p(Xi)代表第i个长周期特征的概率。
在一些实施例中,该方法还包括:在判断根据第一长周期特征和至少一个第二长周期特征来确定用户的特征的情况下,根据第一长周期特征和至少一个第二长周期特征中每个长周期特征的概率,获得用户的特征;和根据用户的特征,对用户进行画像。
在一些实施例中,该方法还包括:在判断不根据第一长周期特征和至少一个第二长周期特征来确定用户的特征的情况下,获取至少一个第三长周期特征,其中至少一个长周期特征中的每个第三长周期特征指示与第一用户设备对应的在第一预定周期内并在在第一维度和第二维度上的特征分量;和判断是否根据至少一个第三长周期特征,获得用户的特征。
在一些实施例中,获取至少一个第三长周期特征还包括:确定一个第三短周期特征组,其中一个第三短周期特征组与第一用户设备对应,并且一个第三短周期特征组中包括多个第三短周期特征,其中多个第三短周期特征中的每个第三短周期特征指示一特征分量,并且该特征分量是由第一用户设备获取的在第二预定周期内并在第一维度和第二维度上的特征分量;和对多个第三短周期特征进行融合,以获取至少一个第三长周期特征。
在一些实施例中,确定一个第三短周期特征组,还包括:在第二预定周期内,获得多个第三打点信息包,多个第三打点信息包是用户进行与特征相关的行为和/或状态在第一维度和第二维度上的多个打点信息包,其中多个第三打点信息包中的每个打点信息包包括时间戳,行为和/或状态,第一维度、第二维度以及特征分量中的至少三个;和对多个第三打点信息包进行融合,确定每个第三短周期特征。
在一些实施例中,判断是否根据至少一个第三长周期特征,获得用户的特征,包括:在至少一个第三长周期特征包括多个第三长周期特征的情况下,根据多个第三长周期特征的第二信息熵,判断是否根据多个第三长周期获得用户的特征;和在至少一个第三长周期特征包括一个第三长周期特征的情况下,确定一个第三长周期特征作为用户的特征。
在一些实施例中,根据多个第三长周期特征的第二信息熵,判断是否根据多个第三长周期特征获得用户的特征,包括:根据多个第三长周期特征,获得第二信息熵;判断第二信息熵是否小于第二熵阈值;在第二信息熵小于第二熵阈值的情况下,判断根据多个第三长周期特征获得用户的特征;和在第二信息熵大于或等于第二熵阈值的情况下,判断不根据多个第三长周期获得用户的特征。
在一些实施例中,根据多个第三长周期特征,获得第二信息熵,还包括:
根据下列公式获得第二信息熵
Figure BDA0002543921880000031
其中,H代表第二信息熵,Xi代表多个第三长周期特征中相互不重复的第三长周期特征中的第i个长周期特征,其中i为1至N的整数,并且N等于多个第三长周期特征中相互不重复的第三长周期特征的数量和,p(Xi)代表第i个长周期特征的概率。
在一些实施例中,该方法还包括:在判断根据多个第三长周期特征获得用户的特征的情况下,根据多个第三长周期特征中每个第三长周期特征的概率,获得用户的特征;和根据用户的特征,对用户进行画像。
在一些实施例中,该方法还包括:在确定不根据至少一个第三长周期特征,获得用户的特征的情况下,接收来自至少一个第二用户设备中的一个第二用户设备的多个第四短周期特征,其中多个第四短周期特征中的每个第四短周期特征指示一特征分量,并且该特征分离是由一个第二用户设备获取的在第二预定周期内并在第一维度和第二维度上的特征分量;对多个第四短周期特征进行融合,以获得至少一个第四长周期特征,其中至少一个第四长周期特征中的每个第四长周期特征指示一个第二用户设备获取的在第一预定周期内并在第一维度和第二维度上的特征分量;判断是否根据至少一个第四长周期特征,获得用户的特征;和在确定不根据第一第四长周期特征,获得用户的特征的情况下,对于至少一个第二用户设备中的下一个第二用户设备,重复接收、融合、判断的步骤。
在一些实施例中,判断是否根据至少一个第四长周期特征,获得用户的特征,包括:
在至少一个第四长周期特征包括多个第四长周期特征的情况下,根据多个第四长周期特征的第三信息熵,判断是否根据多个第四长周期特征获得用户的特征;和在至少一个第三长周期特征包括一个第四长周期特征的情况下,确定一个第四长周期特征作为用户的特征。
在一些实施例中,根据多个第四长周期特征的第三信息熵,判断是否根据多个第四长周期特征获得用户的特征,包括:根据多个第四长周期特征,获得第三信息熵;判断第三信息熵是否小于第三熵阈值;在第三信息熵小于第二熵阈值的情况下,根据多个第四长周期特征中每个第四长周期特征的概率,确定用户的特征;和在第三信息熵大于或等于第三熵阈值的情况下,判断不根据多个第四长周期特征获得用户的特征。
在一些实施例中,根据多个第四长周期特征,获得第三信息熵,还包括:
根据下列公式获得第三信息熵
Figure BDA0002543921880000041
其中,H代表第三信息熵,Xi代表多个第四长周期特征中相互不重复的第四长周期特征中的第i个长周期特征,其中i为1至N的整数,并且N等于多个第四长周期特征中相互不重复的第四长周期特征的数量和,p(Xi)代表第i个长周期特征的概率。
在一些实施例中,该方法还包括:在判断根据多个第四长周期特征获得用户的特征的情况下,根据多个第四长周期特征中每个第四长周期特征的概率,获得用户的特征;和根据用户的特征,对用户进行画像。
在一些实施例中,融合包括取最大值和聚类中的至少一种。
在一些实施例中,第一维度包括设备、位置或者时间段。
在一些实施例中,第二维度包括设备,位置或者时间段,并且第一维度与第二维度不同。
在一些实施例中,时间段小于第二预定周期,或者,设备包括第一用户设备和至少一个第二用户设备中的一个。
在第二方面,根据本申请的一些实施例提供的一种用户设备,包括:处理器和存储介质,存储介质与处理器耦合,存储介质用于存储程序代码,当处理器从存储介质中读取程序代码,使得用户设备执行上述任一的方法。
在第三方面,根据本申请的一些实施例提供的一种机器可读存储介质,机器可读存储介质上存储有程序代码,程序代码在机器上执行时可使机器执行上述任一的方法。
附图说明
图1示出根据本申请一些实施例提供的一种确定用户的特征的系统;
图2示出根据本申请一些实施例提供的用于确定用户的特征的打点信息包的示意图;
图3示出根据本申请一些实施例提供的一种用户特征的示例;
图4示出根据本申请一些实施例提供的另一种用户特征的示例;
图5示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度上确定用户特征(最喜欢的应用)的方法的示意图;
图6示出根据本申请一些实施例提供的每日的在第一维度上的短周期特征的示意图;
图7示出根据本申请一些实施例提供的在不同层级上的长周期特征的示意图;
图8示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度和第二维度上确定用户特征(最喜欢的应用)的方法的示意图一;
图9示出根据本申请一些实施例提供的每日在第一维度、第二维度上的短周期特征的示意图;
图10示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度和第二维度上确定用户特征(最喜欢的应用)的方法的示意图二;
图11示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图一;
图12示出根据本申请一些实施例提供的每日在第一维度、第二维度、第三维度上的短周期特征的示意图;
图13示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图二;
图14示出根据本申请一些实施例提供的用户设备的框图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解,以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外,为了避免混乱或模糊本申请的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
此外,各种操作将以最有助于理解说明性实施例的方式被描述为多个离散操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是,这些操作不需要按呈现顺序执行。应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
应当理解的是,虽然在本文中使用了术语“第一”、“第二”等等来描述各个特征,但是这些特征不应当受这些术语限制。使用这些术语仅仅是为了进行区分,而不能理解为指示或暗示相对重要性。举例来说,在不背离示例性实施例的范围的情况下,第一特征可以被称为第二特征,并且类似地第二特征可以被称为第一特征。
除非上下文另有规定,否则术语“包含”、“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A)、(B)或(A和B)”。
如本文所使用的,术语“模块”、“单元”、“装置”可以指代,可以指或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组)和/或存储器(共享的、专用的或组)、组合逻辑电路、和/或提供所描述的功能的其他合适的组件,或者可以是专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组)和/或存储器(共享的、专用的或组)、组合逻辑电路、和/或提供所描述的功能的其他合适的组件的一部分。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施例作进一步地详细描述。
图1示出根据本申请一些实施例提供的一种确定用户的特征的系统。如图1所示的系统包括第一用户设备(例如用户设备A)和至少一个第二用户设备(例如用户设备B和用户设备C)。虽然图1中仅示出了两个第二电子设备,但是本领域技术人员可以理解的是,第二电子设备的个数还可以是1个,3个,5个等大于或小于2个的数量。
用户设备A、B、C两两之间可以是通过直连(例如图1中所示的Wi-Fi、蓝牙)的方式,或者是通过无线局域网(Wireless Local Area Network,WLAN)(如无线保真技术(Wireless Fidelity,Wi-Fi)),蓝牙技术(Bluetooth,BT),近场通讯技术(Near FieldCommunication,NFC),超宽带技术(Ultra Wide Band,UWB),红外技术(Infrared,IR),ZigBee技术,通用2.4G/5G频段无线通讯技术等实现的设备间的连接。本申请记载的设备A、B、C之间两两直连的示例包括通过蓝牙握手,或者通过WiFi在设备间互传数据。这样设置后,由于数据传输之间不需要依赖服务器集群,进而减小数据传输造成的安全和隐私风险,同时,可实现后续的离线计算。其次,跨设备的数据来源,提高后续计算的准确度。在其它实施例中,用户设备A、B、C两两之间也可以通过广域网的方式连接。
用户设备(可以包括但不限于用户设备A、B、C)可以是诸如手机、平板电脑、可穿戴设备(例如,手表、手环、头盔、耳机等)、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、智能家居设备(例如,智能电视,智能音箱,智能摄像头等)等电子设备。可以理解的是,本申请实施例对电子设备的具体类型不作任何限制。
如图1所示,用户设备A包括但不限于,数据采集单元101,短周期特征确定单元102,长周期特征确定单元103和用户特征确定单元104。用户设备B、C与用户设备A相似,也同样包括上述四个单元,在此不再赘述。
数据采集单元101用于采集源数据。数据采集单元101采集的源数据为预处理后未计算的数据。其中,预处理为常规的对数据进行抽取、转换和加载的过程。源数据用于记录用户的行为或状态的数据。用户的行为可以包括打开或退出设备上某一或某些应用的行为或其它。用户的状态可以包括用户处于某一或某些地点的状态或其它。用于记录用户的行为或状态的数据可以是打点数据,例如打点信息包。
根据本申请一些实施例,源数据可以是由用户设备周期性地记录用户的行为或状态而产生。根据本申请一些实施例,源数据也可以是用户设备基于特定的事件,例如运行特定的应用,而产生。
下面根据图2以描述打点信息包的其中一个示例。
图2示出根据本申请一些实施例提供的用于确定用户特征的打点信息包的示意图。打点信息包可以包括时间戳、与用户特征相关的行为或状态、维度以及用户特征在不同维度上的分量。如图2所示,时间戳可以是一个字符序列,唯一地标识某一刻的时间。
为了更清楚的介绍与用户特征相关的行为或状态,下面首先根据图3和图4对用户特征进行示例。图3示出根据本申请一些实施例提供的一种用户特征的示例。如图3所示,用户拥有用户设备A、B、C。如果在长周期(例如30天)内,用户在用户设备A和用户设备B上打开最多的应用为微信TM(WeChatTM,以下以“WeChat”表示),在用户设备C上打开最多的应用为爱奇艺TM(iQiyiTM,以下以“iQiyi””表示),那么,用户的特征可以是用户最喜欢的应用(例如WeChat)。图4示出根据本申请一些实施例提供的另一种用户特征的示例。如图4所示,用户拥有手机和电视。如果在长周期(例如30天)内,用户回归到设有电视的地方时,可选地将手机播放的视频转移至电视中继续播放,那么,用户的特征可以是用户最喜欢观看视频的设备(例如电视)。本领域技术人员可以理解的是,用户的特征还可以是其它与用户生活习惯、消费行为等相关的特征,在此不作具体限定。
以图3中的用户特征为用户最喜欢的应用为例,与用户特征相关的行为可以是,如图2所示的用户打开或退出设备上某一或某些应用的行为(数据类型);以图4中的用户特征为用户最喜欢观看视频的设备为例,与用户特征的相关的行为可以是打开视频软件(点击视频播放软件图标)、观看视频(保持视频播放软件在前台)、关闭视频软件(点击视频播放软件退出按钮)。以用户特征为用户最喜欢待的地点为例,与用户特征的相关的状态可以是用户设备处于某一位置的状态。
请继续参考图2,维度可以包括第一维度、第二维度和第三维度。其中,第一维度可以为设备,以图1中的系统为例,第一维度可以是用户设备A、用户设备B和用户设备C。第二维度可以是地点,例如家、公司、或其它。第三维度可以是时间段,例如以8小时均分0-8时、8-16时、16-24时,也可以是以4小时、1小时等均分,还可以是以非等分的方式,在此不作具体限定在其它实施例中,第二维度还可以为时间段(例如0-8时、8-16时、16-24时)或其它,第三维度可以为地点(例如家、公司、或其它)或其它,在此不对第一维度、第二维度和第三维度作具体限定。本领域技术人员还可以理解的是,维度还可以包括第四维度、第五维度、第七维度等,在此不再赘述。
用户特征是由用户特征在不同维度上的分量通过一系列计算获得的。以图3中的用户特征为用户最喜欢的应用为例,用户特征在第一维度(用户设备A)上的分量可以为,如图2所示的用户打开或退出用户设备A上的所对应的包名。
用户设备A可以从打点信息包中获取在第一维度上的打点数据,也可以从打点信息包中获取在第一维度和第二维度,或者,第一维度、第二维度和第三维度上的打点数据。在另一些实施例中,用户设备A还可以从打点信息包中获取四维、五维等大于三维的打点数据。在其它实施例中,打点信息包也可以不包括第一维度,在跨设备之间传输短周期特征的数据时,再标注打点信息包内的打点数据是来自哪个用户设备。
下面请继续参考图1,以描述用户设备A的其它三个单元。
短周期特征确定单元102用于接收来自数据采集单元101的数据,并根据该数据,确定用户的短周期特征。为了符合用户的生活习惯,短周期可以以1天计算。在另一些实施例中,短周期也可以以0.5天、1.5天、2天等大于或小于1天计算。在此不作具体限定。数据采集单元101可以一次将多个维度(例如如图2所示的三个维度)上的打点数据发送至短周期特征单元102,也可以一次仅发送一个维度(例如第一维度)上的打点数据至短周期特征单元102,在此不作具体限定。
基于数据采集单元101采集的源数据中的数据,短周期特征确定单元102可以是对该数据进行取最大值或聚类等数据处理手段,以确定用户的短周期特征。当源数据中包括用户打开或退出设备上某一或某些应用的行为时,那么,“取最大值”的处理可以理解为,在每个短周期的时间范围内,例如一天内,取出用户每日打开或退出次数最多的应用。例如,在源数据的打点信息包内包括2020年3月30日用户打开20次WeChatTM,10次QQTM(以下以“QQ””表示)和5次DingTalkTM(以下以“DingTalk”表示)的行为,那么,取最大值可以理解为,在该天内,从20次、10次和5次中取出次数最多的所对应的应用,例如WeChatTM。当源数据中的数据包括用户处于某一或某些地点的状态时,那么,聚类可以理解为,在每个短周期的时间范围内,例如一天内,对该用户每日的位置数据进行聚类。例如依次计算每个位置数据的周边数据的分布密度,对距离足够近的点进行聚合合并。如果有一个或若干点离所有点都比较远,则认为是奇异点,不进行聚合。
短周期特征为用户设备(例如用户设备A)获取在第一预定周期内并在某一或某些维度上的特征分量。例如,以第一预定周期为1天,维度为第一维度(用户设备A、B、C),用户的特征为用户最喜欢的应用为例,短周期特征可以为用户设备A获取的用户每日内在用户设备A上的最喜欢的应用,例如WeChat,或者,用户设备A获取的用户每日内在用户设备B上的最喜欢的应用,例如QQ,或者,用户设备A获取的用户每日内在用户设备C上的最喜欢的应用,例如iQiyi。
下面请继续参考图1,以说明用户设备A接收来自用户设备B、C的短周期特征。
如图1所示,用户设备B、C可以是通过直连(例如Wi-Fi、蓝牙或其它)或者是局域网的方式将由各自短周期特征确定单元102确定的短周期特征传输至用户设备A。用户设备A的数据采集单元101接收来自用户设备B、C的短周期特征。在其它一些实施例中,接收来自用户设备B、C的短周期特征,还可以是由用户设备A中的其它单元接收(图中未示出),在此不作具体限定。
当由用户设备A的短周期特征确定单元102接收时,用户设备A将自身确定的短周期特征和来自用户设备B、C的短周期特征一同传输至长周期特征确定单元103。当由用户设备A的长周期特征确定单元103接收时,用户设备A将自身确定的短周期特征传输至长周期特征确定单元103。由于用户设备A、B、C两两之间传输的是短周期特征而非源数据,从而大大提高用户的隐私性。例如便传输的数据被截获,用户的源数据也无法被获得。
如果用户设备A、B、C中有设备离开而不能够通过近场进行连接,例如用户设备A离开,那么,用户设备A的短周期特征确定单元102单独计算用户设备A的短周期特征,并不与用户设备B、C同步。而用户设备B、C之间相互传输自身的短周期特征。待用户设备A回归后,用户设备A将离开期间的短周期特征一同传输至用户设备B、C,同时,用户设备B、C也将各自的短周期特征传输至用户设备A,进而又实现用户设备A、B、C两两之间短周期特征的同步。这样设置后,例如即便用户有少部分的设备暂时离开(例如随用户一同出差,或发生故障,或没电)时,留存的用户设备仍能够进行用户特征的确定,不会耽误对用户进行画像。
长周期特征确定单元103用于接收来自短周期特征确定单元102的数据,并根据该数据,确定用户的长周期特征。长周期的概念是相对于短周期的定义而言。根据本申请的一些实施例,长周期以30天计算。在另一些实施例中,长周期也可以以60天、120天等大于或小于30天计算,在此不作具体限定,长周期要比短周期更长。短周期以1天计算。在另一些实施例中,短周期还可以是以0.5天、1.5天、2天等大于或小于1天计算,在此不作具体限定。
基于短周期特征确定单元102的数据,长周期特征确定单元103可以是对该数据进行取最大值或聚类等数据处理,以确定用户的长周期特征。当短周期特征确定单元102中的数据为用户在每个短周期上的最喜欢的应用,取最大值可以理解为,在长周期的时间范围内,例如30天内,取出用户在30天内出现次数最多的应用。取最大值后所得的结果例如为长周期特征。例如,以短周期为1天,长周期为30天计算。该长周期内包括30个短周期特征,30个短周期特征包括50次WeChat,30次QQ和10次DingTalk,那么,取最大值可以理解为,在该30天内,从50次、30次和10次中取出出现次数最多的所对应的应用(WeChat)。例如长周期特征为WeChat。当短周期特征确定单元102中的数据为用户在每个短周期上的最喜欢待的地点,聚类可以理解为,在长周期的时间范围内,例如30天内,对该用户在30天内的每个短周期上的最喜欢待的地点进行聚类。例如对该30个最喜欢待的地点,对相互之间足够近的点进行聚合合并,进而得到该30天内,用户最喜欢待的地点。
长周期特征为用户设备(例如用户设备A)获取的在第二预定周期内并在某一或某些维度上的特征分量。例如,以第二预定周期为30天,维度为第一维度(用户设备A、B、C),用户的特征为用户最喜欢的应用为例,长周期特征为用户设备A获取的用户在30天内并在用户设备A上的最喜欢的应用,例如WeChat,或者,用户设备A获取的用户在30天内在用户设备B上的最喜欢的应用,例如QQ,或者,用户设备A获取的用户在30天内在用户设备C上的最喜欢的应用,例如iQiyi。
如果累计多个短周期的时间长度小于长周期,那么,长周期特征确定单元103先不进行上述确定动作,直到累计多个短周期的时间长度等于长周期之后,再进行上述确定动作,以确定长周期特征。例如,以短周期为1天,长周期为30天计算。当累计多个短周期特征的时间长度为30天,那么长周期特征确定单元103先不进行对这30个短周期特征取最大值或聚类等数据处理,直至累计多个短周期的时间长度等于30天之后,再进行上述取最大值或聚类等数据处理,以确定长周期特征。
在另一些实施例中,如果累计多个短周期的时间长度小于长周期,那么,长周期特征确定单元103根据已有的多个短周期特征,以确定长周期特征。例如,以短周期为1天,长周期为30天计算。当累计多个短周期特征的时间长度为30天,那么长周期特征确定单元对已有的这30个短周期特征进行取最大值或聚类等数据处理,以确定长周期特征。
如果累计多个短周期的时间长度等于或大于长周期,那么,长周期特征确定单元103根据最近的长周期内的多个短周期特征,以确定长周期特征。例如,以短周期为1天,长周期为30天计算。当多个短周期的时间长度为40天时,那么,长周期特征确定单元103根据最近的30天(例如第11天至第40天)内的这30个短周期特征,以确定长周期特征。
用户特征确定单元104用于接收来自长周期特征确定单元103的数据,并根据该数据,确定用户特征,进而根据该用户特征,对用户进行画像。基于长周期特征确定单元103的数据,用户特征确定单元104对该数据进行信息熵运算,以确定用户特征。信息熵可以用以描述信源的不确定度。如果信息熵过大,那么,表示信源的不确定度较大;如果信息熵较小,那么,表示信源的不确定度较小。例如用户设备B、C的信源的不确定度大,表示来自这些设备的用户特征的准确度不高。用户特征的准确度决定了用户画像的准确度。
信源可以由上述长周期特征确定单元103确定的多个长周期特征组成。
信息熵的具体计算公式如下:
Figure BDA0002543921880000091
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征,i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。以第一维度(用户设备A、B、C)为例,用户设备A的长周期特征确定单元103确定用户设备A上的长周期特征为LPFA、用户设备B上的长周期特征为LPFB和用户设备C上的长周期特征为LPFC,LPFA、LPFB、LPFC分别为WeChat,WeChat,QQ,那么,相互不重叠的长周期特征为WeChat,QQ。
相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。例如,在上述例子中,相互不重叠的长周期特征的数量和为2。这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3。
第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。例如,在上述例子中,由于WeChat在三个长周期特征中出现2次,那么,WeChat在三个长周期特征中出现的概率为2/3,例如p(WeChat)=2/3;由于QQ在三个长周期特征中仅出现1次,那么,QQ在三个长周期特征中出现的概率为1/3,例如p(QQ)=1/3。
当计算出信息熵H后,需要将信息熵H与熵阈值作比较。如果信息熵H的计算值小于熵阈值,那么,说明该多个长周期特征的不确定度较小,因此可以根据相互不重叠的长周期特征中的出现概率最大的长周期特征,确定用户的特征。例如,在上述例子中,p(WeChat)的概率最大,那么,确定用户最喜欢的应用为WeChat。如果信息熵H的计算值等于或大于熵阈值,那么,说明该多个长周期特征的不确定较大,因此,需要通过增加维度重复上述过程,直至在某一维度上,信息熵H小于熵阈值,以确定用户的特征。
对于三个长周期特征进行信息熵的运算,熵阈值可以为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。需要说明的是,熵阈值的选定与长周期特征的个数相关。对于两个长周期特征,熵阈值的上限为1;对于三个长周期特征,熵阈值的上限为1.58;对于四个长周期特征,熵阈值的上限为2,在此不再赘述。
通过对长周期特征进行信息熵的运算,进而通过信息熵与熵阈值的比较,以确定用户特征,能够提高确定用户特征的准确度。而用户特征的准确度与用户画像的准确度息息相关,用户画像的准确度又决定是否能够为用户提供更贴合用户习惯的服务,从而能够进一步提高用户体验感。
图5示出根据本申请一些实施例提供的一种由图1中的用户设备A执行的在第一维度上确定用户特征(最喜欢的应用)的方法的示意图。
以下以确定用户特征为最喜欢的应用为例。本领域技术人员可以理解的是,也可以是以确定用户其它特征例如用户最喜欢观看视频的设备为例,在此不作具体限定。
如图5中的框501所示,用户设备A从数据采集单元101获取每日的在第一维度(例如用户设备A)上的多个打点信息包。关于打点信息包,请参考上文中对图2的描述,在此不再赘述。根据本申请的一些实施例,以“日(或天)”作为数据采集单元101采集获取打点信息包的时间周期的示例,但是本申请不限于此,也可以是其他的时间长度。
如图5中的框502所示,对用户设备A在第一维度上的多个打点信息包进行融合,获取用户设备A每日在第一维度上的短周期特征。第一维度可以是设备(例如用户设备A、B、C)。在其它实施例中,第一维度还可以是地点(例如家、公司、其它),或者,时间段(例如0-8时、8-16时、16-24时),在此不对第一维度作具体限定。也就是说,第一维度的选择是可以根据具体的业务来确定的。业务可以是确定用户最喜欢的应用,或者是确定用户最喜欢待的地方等。短周期以1天计算。本领域技术人员可以理解的是,除了以1天计算以外,短周期还可以是以0.5天、1.5天、2天等大于或小于1天计算。
多个打点信息包可以由数据采集单元101传输至短周期特征确定单元102,由短周期特征确定单元102对多个打点信息包进行融合,获取用户设备A每日的在第一维度(用户设备A)上的短周期特征(SPFA)。其中,SPF为短周期特征,下角标A表示用户设备A,同样的示例也可以应用于用户设备B、C。需要说明的是,融合可以为取最大值。取最大值可以理解为,对用户设备A每日的在第一维度(用户设备A)上的多个打点信息包内的打开或退出的应用取最大值,例如取出打开或退出次数最多的应用。例如,在第1天内,用户设备A在第一维度(用户设备A)上的多个打点信息包包括打开2次DingTalk,5次QQ,10次WeChat的行为,那么,取最大值为,从2次、5次和10次中取出次数最多的所对应的应用(WeChat)。例如在第1天内,用户设备A在第一维度(用户设备A)上的短周期特征(SPFA 1)为WeChat。其中,SPF表示短周期特征,下角标A表示用户设备A,上角标1表示第1天。同样的示例可以应用于用户设备B、C。
本领域技术人员可以理解的是,对于不同用户行为或状态,可以采取不同的融合方式,取最大值仅为数据融合的一种处理手段,数据融合还可以是聚类等其它处理手段,在此不作具体限定。
如图5中的框503所示,接收来自用户设备B在第一维度(用户设备B)上的每日的短周期特征(SPFB),来自用户设备C在第一维度(用户设备C)上的每日的短周期特征(SPFC)。用户设备B、C根据各自的短周期特征确定单元102获取每日的在第一维度(用户设备B、C)上的短周期特征(SPFB、SPFC),再通过例如直连或局域网的方式将短周期特征(SPFB、SPFC)传输至用户设备A。用户设备A接收来自用户设备B、C的每日的在第一维度上的短周期特征(SPFB、SPFC),同时,用户设备A也将自身的短周期特征(SPFA)通过例如直连或局域网的方式分别传输至用户设备B、C,例如用户设备A、B、C每日进行一次短周期特征的同步。接收用户设备B、C的短周期特征(SPFB、SPFC)可以由用户设备A的短周期特征102接收,也可以由用户设备A的长周期特征103接收,在此不作具体限定。
由于用户设备A、B、C两两之间同步的是短周期特征而非源数据,从而大大提高用户的隐私性。例如便传输的数据被截获,用户的源数据也无法被获得。
如图5中的框504所示,累计用户设备A、B、C中短周期特征的天数D。
用户设备A、B、C中短周期特征的天数D可以由用户设备A的短周期特征确定单元102累计。在一些实施例中,用户设备A、B、C三者中的短周期特征的天数均相等,那么,天数D等于任一用户设备A、B、C中的短周期特征的天数D。例如,用户设备A、B、C三者中的短周期特征的天数分别为30天、30天、30天,那么天数D等于30天。在另一些实施例中,用户设备A、B、C三者中的短周期特征的天数不相等,那么,天数D可以为用户设备A、B、C中的短周期特征的天数的最大值或最小值。例如,用户设备A随用户出差14天,在用户设备A未回归与用户设备B、C进行同步时,用户设备A、B、C三者中的短周期特征的天数分别为30天、44天、44天,那么,天数D可以为任何天数,例如3天、7天、或30天。
如图5中的框505所示,确定天数D是否等于或大于长周期。天数D是否等于长周期可以由用户设备A的短周期特征确定单元102确定,也可以由用户设备A的长周期特征确定单元103确定。
如图5中的框501所示,如果天数D小于长周期,那么,重复上述框501-504的步骤。在另一些实施例中,如果天数D小于长周期,那么,用户设备A的长周期确定单元103可以对已有的用户设备A、B、C的多个短周期特征(SPFA、SPFB、SPFC)做融合,获得用户设备A的长周期特征(LPFA),用户设备B的长周期特征(LPFB),用户设备C的长周期特征(LPFC),例如不需要重复上述框501-504的步骤。
如图5中的框506所示,如果天数D等于或大于长周期,那么对最近的长周期内的用户设备A的短周期特征(SPFA),用户设备B的短周期特征(SPFB)和用户设备C的短周期特征(SPFC)进行融合,获得在最近的长周期内并在第一维度上的用户设备A的长周期特征(LPFA),用户设备B的长周期特征(LPFB),用户设备C的长周期特征(LPFC)。
在另一些实施例中,当天数D等于长周期后再从数据采集单元101获取每日的在第一维度上的打点信息包时,那么,可以跳过框504和框505的步骤,直接进入框506,以在最近的长周期内对第一维度上的用户设备A的长周期特征(LPFA),用户设备B的长周期特征(LPFB),用户设备C的长周期特征(LPFC)进行更新。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
以下根据图6来说明短周期特征的示例,然后继续说明根据短周期特征确定长周期特征。
图6示出根据本申请一些实施例提供的每日的在第一维度上的最喜欢的应用的示意图。如图6所示,以短周期为1天为例。其中,FavoriteApp表示用户最喜欢的应用,下角标表示哪个用户设备,上角标表示第几天,同样的示例可以应用于用户设备B、C。
FavoriteAppA 1表示在第1天的用户设备A上的用户最喜欢的应用。FavoriteAppA 30表示在第30天的用户设备A上的用户最喜欢的应用。FavoriteAppB 1表示在第1天的用户设备B上的用户最喜欢的应用,FavoriteAppB 30表示在第30天的用户设备B上的用户最喜欢的应用。FavoriteAppC 1表示在第1天的用户设备C上的用户最喜欢的应用,FavoriteAppC 30表示在第30天的用户设备C上的用户最喜欢的应用。
如果用户设备A的长周期确定单元103已获取如图6所示的短周期特征,那么,用户设备A的长周期确定单元103可以在第一维度上对该短周期特征取最大值。对于用户设备A,在FavoriteAppA 1至FavoriteAppA 30中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在30天内并在第一维度上的长周期特征(LPFA)。对于用户设备B,在FavoriteAppB 1至FavoriteAppB 30中取出用户设备B上30天内出现次数最多的应用,作为用户设备B在30天内并在第一维度上的长周期特征(LPFB)。对于用户设备C,在FavoriteAppC 1至FavoriteAppC 30中取出用户设备C上30天内出现次数最多的应用,作为用户设备C在30天内并在第一维度上的长周期特征(LPFC)。
例如,FavoriteAppA 1至FavoriteAppA 15均为WeChat,FavoriteAppA 16至FavoriteAppA 25均为QQ,FavoriteAppA 26至FavoriteAppA 30均为DingTalk,例如出现15次WeChat,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(WeChat),例如用户设备A在30天内并在第一维度上的长周期特征(LPFA)为WeChat。FavoriteAppB 1至FavoriteAppB 15均为QQ,FavoriteAppB 16至FavoriteAppB 25均为WeChat,FavoriteAppB 26至FavoriteAppB 30均为DingTalk,例如出现15次QQ,10次WeChat和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(QQ),例如用户设备B在30天内并在第一维度上的长周期特征(LPFB)为QQ。FavoriteAppC 1至FavoriteAppC 15均为iQiyi,FavoriteAppC 16至FavoriteAppC 25均为QQ,FavoriteAppC 26至FavoriteAppC 30均为DingTalk,例如出现15次iQiyi,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(iQiyi),例如用户设备C在30天内并在第一维度上的长周期特征(LPFC)为iQiyi。
以下根据图7以示出长周期特征的其中一个示例。
图7示出根据本申请一些实施例提供的在不同层级上的长周期特征的示意图。如图7中的第一层所示,以用户设备A为Phone1,用户设备B为Phone2,用户设备C为TV1为例。
用户设备A、B、C在第一维度上的长周期特征的LPFA、LPFB、LPFC结果可以记为:
"Phone1":"WeChat",
"Phone2":"QQ",
"TV1":"iQiyi"
在另一些实施例中,如果用户设备A、B、C在第一维度上的长周期特征LPFA、LPFB、LPFC的结果均相同(例如均为WeChat),那么,用户设备A、B、C在第一维度上的长周期特征的LPFA、LPFB、LPFC结果可以记为:
"com.tencent.wechat"
下面请继续参考图5所示的一种由图1中的用户设备A执行的在第一维度上确定用户特征(最喜欢的应用)的方法的示意图,以说明以下流程。
如图5的框507所示,对用户设备A、B、C上的相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000131
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备A的长周期特征LPFA为WeChat,用户设备B的长周期特征LPFB为QQ,用户设备C的长周期特征LPFC为QQ,那么,相互不重叠的长周期特征为WeChat和QQ,例如X1=WeChat,X2=QQ;相互不重叠的长周期特征的数量和为2,这是由于三个长周期特征中包括两个相互重叠的长周期特征QQ,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于WeChat在三个长周期特征中仅出现一次,而QQ在三个长周期特征中出现两次,
例如P
Figure BDA0002543921880000141
Figure BDA0002543921880000142
例如,
Figure BDA0002543921880000143
如图5中的框508所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个用户设备,熵阈值可以为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个用户设备,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图5中的框509所示,如果信息熵小于熵阈值,那么,根据用户设备A、B、C中相互不重叠的长周期特征概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户特征确定单元104根据用户设备A、B、C上相互不重叠的长周期特征中概率最高的长周期特征QQ,确定用户特征,例如用户最喜欢的应用为QQ。
如图5中的框510所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户特征确定单元104完成。
如图5中的501所示,对用户进行画像后重复上述步骤,以对用户画像进行更新。
如图5中的框C1,如果信息熵大于或等于熵阈值,那么,不根据用户设备A、B、C上相互不重叠的长周期特征确定用户特征,而是通过增加维度,以进一步确定用户特征,具体请参考图8。
本申请中,由于用户设备A、B、C两两之间传输的是短周期特征而非源数据,从而大大提高用户的隐私性。例如便传输的数据被截获,用户的源数据也无法被获得。其次,通过对长周期特征进行信息熵的运算,进而通过信息熵与熵阈值的比较,以确定用户特征,能够提高确定用户特征的准确度。而用户特征的准确度与用户画像的准确度息息相关,用户画像的准确度又决定是否能够为用户提供更贴切用户习惯的服务,从而能够进一步提高用户体验感。
图8示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度和第二维度上确定用户特征(最喜欢的应用)的方法的示意图一。
如图8的框801所示,用户设备A从数据采集单元101获取最近的长周期内的在第一维度和第二维度上的每日的打点信息包。关于打点信息包,请参考上文中对图2的描述,在此不再赘述。第二维度可以为地点(例如家、公司、其它)。本领域技术人员可以理解的是,第二维度也可以是设备(用户设备A、B、C),或者,时间段(例如0-8时、8-16时、16-24时),在此不作具体限定。需要说明的是,短周期可以以1天计算,还可以是以0.5天、1.5天、2天等大于或小于1天计算;长周期可以以30天计算,还可以是60天、120天等大于或小于30天的天数计算,在此不作具体限定。
如图8中的框802所示,对用户设备A在第一维度和第二维度上的多个打点信息包进行融合,获取用户设备A在最近长周期内的在第一维度(用户设备A)和第二维度(家、公司、其它)上的每日的短周期特征(SPFA,家、SPFA,公司、SPFA,其它)。其中,SPF表示短周期特征,下角标表示用户设备A在家或公司或其它地点。
多个打点信息包可以由数据采集单元101传输至短周期特征确定单元102,由短周期特征确定单元102对多个打点信息包进行融合,获取用户设备A在第一维度和第二维度上的每日的短周期特征(SPFA,家、SPFA,公司、SPFA,其它)。需要说明的是,融合可以为取最大值。取最大值可以理解为,对用户设备A每日的在第一维度(用户设备A)和第二维度(家、公司、其它)上的多个打点信息包内的打开或退出的应用取最大值,例如取出打开或退出次数最多的应用。
例如,在第1天内,用户设备A在家中的多个打点信息包内包括打开2次DingTalk,5次QQ,10次WeChat的行为,那么,取最大值为,从2次、5次和10次中取出次数最多的所对应的应用(WeChat),例如在第1天内,用户设备A在第一维度(用户设备A)和第二维度(家)上的短周期特征(SPFA,家 1)为WeChat。其中,SPF表示短周期特征,下角标A-家表示用户设备A在家的地点,上角标1表示第1天。同样的示例可以应用于用户设备B、C。在第1天内,用户设备A在公司中的多个打点信息包内包括打开10次DingTalk,5次QQ,2次WeChat的行为,那么,取最大值为,从10次、5次和2次中取出次数最多的所对应的应用(DingTalk),例如在第1天内,用户设备A在第一维度(用户设备A)和第二维度(公司)上的短周期特征(SPFA,公司 1)为DingTalk。在第1天内,用户设备A在其它地点中的多个打点信息包内包括打开5次DingTalk,5次QQ,5次WeChat的行为,那么,取最大值为,从5次、5次、5次中取出次数最多的所对应的应用。由于均为5次,那么,取最大值的结果为无法计算,例如在第1天内用户设备A在第一维度(用户设备A)和第二维度(其它)上的短周期特征(SPFA,其它 1)为Null。
本领域技术人员可以理解的是,对于不同用户行为或状态,可以采取不同的融合方式,取最大值仅为数据融合的一种处理手段,数据融合还可以是聚类等其它处理手段,在此不作具体限定。
如图8中的框803所示,对最近长周期内的用户设备A的短周期特征(SPFA,家、SPFA,公司、SPFA,其它)进行融合,获取用户设备A的长周期特征(LPFA,家、LPFA,公司、LPFA,其它)。其中,LPF为长周期特征,下角标为用户设备A在家或公司或其它地点上。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度和第二维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
以下根据图9来说明短周期特征的示例,然后继续说明根据短周期特征确定长周期特征。
图9示出根据本申请一些实施例提供的每日在第一维度、第二维度上的短周期特征的示意图。如图9所示,以短周期为1天为例。其中,FavoriteApp表示用户最喜欢的应用,下角标表示哪个用户设备在家或公司或其它地点,上角标1表示第几天,同样的示例可以应用于用户设备B、C。
FavoriteAppA 1 ,Home表示用户设备A在家的第1天的短周期特征,FavoriteAppA 1, Company表示用户设备A在公司的第1天的短周期特征,FavoriteAppA 1 ,Other表示用户设备A在其它地点的第1天的短周期特征。FavoriteAppA 30 ,Home表示用户设备A在家的第30天的短周期特征,FavoriteAppA 30 ,Company表示用户设备A在公司的第30天的短周期特征,FavoriteAppA 30 ,Other表示用户设备A在其它地点的第30天的短周期特征。
FavoriteAppB 1 ,Home表示用户设备B在家的第1天的短周期特征,FavoriteAppB 1 ,Company表示用户设备B在公司的第1天的短周期特征,FavoriteAppB 1 ,Other表示用户设备B在其它地点的第1天的短周期特征。FavoriteAppB 30 ,Home表示用户设备B在家的第30天的短周期特征,FavoriteAppB 30 ,Company表示用户设备B在公司的第30天的短周期特征,FavoriteAppB 30Other表示用户设备B在其它地点的第30天的短周期特征。
FavoriteAppC 1 ,Home表示用户设备C在家的第1天的短周期特征,FavoriteAppC 1 ,Company表示用户设备C在公司的第1天的短周期特征,FavoriteAppC 1 ,Other表示用户设备C在其它地点的第1天的短周期特征。FavoriteAppC 30 ,Home表示用户设备C在家的第30天的短周期特征,FavoriteAppC 30 ,Company表示用户设备C在公司的第30天的短周期特征,FavoriteAppC 30Other表示用户设备C在其它地点的第30天的短周期特征。
以下以用户设备A获取的用户在用户设备A并在第一维度和第二维度上的长周期特征为例。
如果用户设备A的长周期特征确定单元103已获取如图9所示的短周期特征,那么,用户设备A的长周期特征确定单元103在第一维度(例如用户设备A)和第二维度(家、公司、其它)上对该短周期特征取最大值。对于地点为家的,在FavoriteAppA 1 ,Home至在FavoriteAppA 30 ,Home中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)和第二维度(家)上的长周期特征(LPFA-家)。对于地点为公司的,在FavoriteAppA 1 ,Company至在FavoriteAppA 30 ,Company中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)和第二维度(公司)上的长周期特征(LPFA-公司)。对于地点为其它的,在FavoriteAppA 1 ,Other至在FavoriteAppA 30 ,Other中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)和第二维度(其它)上的长周期特征(LPFA-其它)。
例如,FavoriteAppA 1 ,Home至FavoriteAppA 15 ,Home均为WeChat,FavoriteAppA 16 ,Home至FavoriteAppA 25 ,Home均为QQ,FavoriteAppA 26 ,Home至FavoriteAppA 30 ,Home均为DingTalk,例如出现15次WeChat,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(WeChat),例如用户设备A在30天内并在第一维度(用户设备A)和第二维度(家)上的长周期特征(LPFA,家)为WeChat。FavoriteAppA 1 ,Company至FavoriteAppA 5 ,Company均为QQ,FavoriteAppA 6 ,Company至FavoriteAppA 15 ,Company均为WeChat,FavoriteAppA 16Company至FavoriteAppA 30 ,Company均为DingTalk,例如出现15次DingTalk,10次WeChat和5次QQ,那么,从15次、10次和5次中取出出现次数最多的应用(DingTalk),例如用户设备A在30天内并在第一维度(用户设备A)和第二维度(公司)上的长周期特征(LPFA,公司)为DingTalk。FavoriteAppA 1 ,Other至FavoriteAppA 10 ,Other均为iQiyi,FavoriteAppA 11 ,Other至FavoriteAppA 20 ,Other均为QQ,FavoriteAppA 21 ,Other至FavoriteAppA 30 ,Other均为DingTalk,例如出现10次iQiyi,10次QQ和10次DingTalk,那么,从30次、30次和30次中取出出现次数最多的应用的结果为无法计算,例如用户设备A在30天内并在第一维度(用户设备A)和第二维度(其它)上的长周期特征(LPFA,其它)为Null。
以下根据图7以示出长周期特征的其中一个示例。
图7示出根据本申请一些实施例提供的在不同层级上的长周期特征的示意图。如图7中的第二层所示,以用户设备A为Phone1为例。
用户设备A在第一维度和第二维度上的长周期特征的LPFA-家、LPFA-公司、LPFA-其它结果可以记为
"Phone1":
"Home":"WeChat",
"Company":"DingTalk",
"Other":null
下面请继续参考图8所示的一种在场景一下由图1中的用户设备A执行的在第一维度和第二维度上确定用户特征(最喜欢的应用)的方法的示意图一,继续说明以下流程。
如图8的框804所示,对用户设备A上相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000171
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备A的长周期特征LPFA,家为WeChat,LPFA,公司为DingTalk,LPFA,其它为WeChat,那么,相互不重叠的长周期特征为DingTalk和WeChat,例如X1=DingTalk,X2=WeChat;相互不重叠的长周期特征的数量为2,这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于DingTalk在三个长周期特征中仅出现一次,而WeChat在三个长周期特征中出现两次,
例如
Figure BDA0002543921880000181
Figure BDA0002543921880000182
例如,
Figure BDA0002543921880000183
如图8中的框805所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个地点,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个地点,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图8中的框806所示,如果信息熵小于熵阈值,那么,根据用户设备A中相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户特征确定单元104根据用户设备A中相互不重叠的长周期特征概率最高的长周期特征WeChat,确定用户特征,例如用户最喜欢的应用为WeChat。
如图8中的框807所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如图8中的框C2,如果信息熵大于或等于熵阈值,那么,不根据用户设备A上相互不重叠的长周期特征确定用户特征,而是通过至少一个第二用户设备(例如用户设备B、C)上的数据,以进一步确定用户特征,具体请参考图10。
图10示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度和第二维度上确定用户特征(最喜欢的应用)的方法的示意图二。
如图10中的框1001所示,接收来自用户设备B在最近的长周期内在第一维度(用户设备B)和第二维度(例如家、公司、其它)上的每日的短周期特征(SPFB,家、SPFB,公司、SPFB,其它)。接收来自用户设备B在最近的长周期内在第一维度和第二维度上的每日的短周期特征(SPFB,家、SPFB,公司、SPFB,其它)可以由用户设备A的短周期特征确定单元102接收,也可以由用户设备A的长周期特征确定单元接收103。
用户设备B根据各自的短周期特征确定单元102获取在第一维度和第二维度上每日的短周期特征(SPFB,家、SPFB,公司、SPFB,其它),再通过例如直连或局域网的方式将短周期特征(SPFB,家、SPFB,公司、SPFB,其它)传输至用户设备A,用户设备A接收来自用户设备B、C的在第一维度第二维度上的每日的短周期特征(SPFB,家、SPFB,公司、SPFB,其它)。接收用户设备B的短周期特征(SPFB,家、SPFB,公司、SPFB,其它)可以由用户设备A的短周期特征102接收,也可以由用户设备A的长周期特征103接收,在此不作具体限定。
如图10中的框1002所示,对最近的长周期内的用户设备B的短周期特征(SPFB,家、SPFB,公司、SPFB,其它)进行融合,获取用户设备B的长周期特征(LPFB,家、LPFB,公司、LPFB,其它)。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度和第二维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
关于短周期特征,具体请参考上述图9中的说明,在此不再赘述。
以下以用户设备A获取用户在用户设备B并在第一维度和第二维度上的长周期特征为例。
如果用户设备A的长周期特征确定单元103已获取如图9所示的短周期特征,那么,用户设备A的长周期特征确定单元103在第一维度(用户设备B)和第二维度(家、公司、其它)上对该短周期特征取最大值。对于地点为家的,在FavoriteAppB 1 ,Home至在FavoriteAppB 30 ,Home中取出用户设备A上30天内出现次数最多的应用,作为用户设备B在第一维度和第二维度上的长周期特征(LPFB,家)。对于地点为公司的,在FavoriteAppB 1 ,Company至在FavoriteAppB 30 ,Company中取出用户设备B上30天内出现次数最多的应用,作为用户设备B在第一维度和第二维度上的长周期特征(LPFB,公司)。对于地点为其它的,在FavoriteAppB 1 ,Other至在FavoriteAppB 30 ,Other中取出用户设备B上30天内出现次数最多的应用,作为用户设备B在第一维度和第二维度上的长周期特征(LPFB,其它)。
例如,FavoriteAppB 1 ,Home至FavoriteAppB 15 ,Home均为WeChat,FavoriteAppB 16 ,Home至FavoriteAppB 25 ,Home均为QQ,FavoriteAppB 26 ,Home至FavoriteAppB 30 ,Home均为DingTalk,例如出现15次WeChat,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(WeChat),例如用户设备B在30天内并在第一维度和第二维度上的长周期特征(LPFB,家)为WeChat。FavoriteAppB 1 ,Company至FavoriteAppB 5 ,Company均为QQ,FavoriteAppB 6 ,Company至FavoriteAppB 15 ,Company均为WeChat,FavoriteAppB 15 ,Company至FavoriteAppA 30 ,Company均为DingTalk,例如出现15次DingTalk,10次WeChat和5次QQ,那么,从15次、10次和5次中取出出现次数最多的应用(DingTalk),例如用户设备B在30天内并在第一维度和第二维度上的长周期特征(LPFB,公司)为DingTalk。FavoriteAppB 1Other至FavoriteAppB 10 ,Other均为iQiyi,FavoriteAppB 11 ,Other至FavoriteAppB 20 ,Other均为QQ,FavoriteAppB 21 ,Other至FavoriteAppB 30 ,Other均为DingTalk,例如出现10次iQiyi,10次QQ和10次DingTalk,那么,从10次、10次和10次中取出出现次数最多的应用的结果为无法计算,例如用户设备B在30天内并在第一维度和第二维度上的长周期特征(LPFB,其它)为Null。
下面请继续参考图10所示的一种在场景一下由图1中的用户设备A执行的在第一维度和第二维度上确定用户特征(最喜欢的应用)的方法的示意图二,以说明以下流程。
如图10中的框1003所示,对用户设备B上的相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000201
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备B上的长周期特征LPFB,家为WeChat,LPFB,公司为DingTalk,LPFB,其它为WeChat,那么,相互不重叠的长周期特征为DingTalk和WeChat,例如X1=DingTalk,X2=WeChat;相互不重叠的长周期特征的数量为2,这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于DingTalk在三个长周期特征中仅出现一次,而WeChat在三个长周期特征中出现两次,
例如
Figure BDA0002543921880000202
Figure BDA0002543921880000203
例如,
Figure BDA0002543921880000204
如图10中的框1004所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个地点,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个地点,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图10中的框1005所示,如果信息熵小于熵阈值,那么,根据用户设备B上相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户设备A的用户特征确定单元104根据用户设备B上相互不重叠的长周期特征概率最高的长周期特征WeChat,确定用户特征,例如用户最喜欢的应用为WeChat。
如图10中的框1006所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如图10中的虚线框所示,如果信息熵大于或等于熵阈值,那么,不根据用户设备B上相互不重叠的长周期特征确定用户特征,对用户设备C重复执行虚线框步骤,在此不再赘述。
如图10中的1007所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个地点,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个地点,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图10中的框1008所示,如果信息熵小于熵阈值,那么,根据用户设备C上相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。
如图10中的框1009所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如图10中的框C3所示,如果信息熵大于或等于熵阈值,那么,不根据用户设备C中相互不重叠的长周期特征确定用户特征,而是通过增加维度,以进一步确定用户特征,具体请参考图11。
图11示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图一。
如图11的框1101所示,用户设备A从数据采集单元101获取最近的长周期内的第一维度、第二维度和第三维度上的每日的打点信息包。关于打点信息包,请参考上文中对图2的描述,在此不再赘述。第三维度可以为时间段(例如0-8时、8-16时、16-24时)。本领域技术人员可以理解的是,第三维度也可以是设备(用户设备A、B、C),或者,地点(例如家、公司、其它),在此不作具体限定。需要说明的是,短周期可以以1天计算,还可以是以0.5天、1.5天、2天等大于或小于1天计算;长周期可以以30天计算,还可以是60天、120天等大于或小于30天的天数计算,在此不作具体限定。
如图11中的框1102所示,对用户设备A在第一维度、第二维度和第三维度上的多个打点信息包进行融合,获取用户设备A在最近长周期内的在第一维度(用户设备A)、第二维度(家、公司、其它)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(例如,SPFA,家,0-8、SPFA,家,8-16、SPFA,家,16-24,或SPFA,公司,0-8、SPFA,公司,8-16、SPFA,公司,16-24,或SPFA,其它,0-8、SPFA,其它,8-16、SPFA,其它,16-24),其中,SPF表示短周期特征,下角标表示用户设备A在某一时间段(例如0-8时、8-16时、16-24时)并在某一地点(例如家、公司、其它)。
以下以用户设备A首先在最近长周期内(例如30天或其它)的在第一维度(用户设备A)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(SPFA,家,0-8、SPFA,家,8-16、SPFA,家,16-24)为例。
本领域技术人员可以理解的是,也可以以用户设备A首先在最近长周期内(例如30天或其它)的在第一维度(用户设备A)、第二维度(公司)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(SPFA,公司,0-8、SPFA,公司,8-16、SPFA,公司,16-24)为例,还可以是以用户设备A首先在最近长周期内(例如30天或其它)的在第一维度(用户设备A)、第二维度(其它)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(SPFA,公司,0-8、SPFA,公司,8-16、SPFA,公司,16-24)为例。
多个打点信息包由数据采集单元101传输至短周期特征确定单元102,由短周期特征确定单元102对多个打点信息包进行融合,获取用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(SPFA,家,0-8、SPFA,家,8-16、SPFA,家,16-24)。需要说明的是,融合可以为取最大值。取最大值可以理解为,对用户设备A每日的在第一维度(用户设备A)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上的多个打点信息包内的打开或退出的应用取最大值,例如取出打开或退出次数最多的应用。
例如,在第1天内,用户设备A在用户设备A上的在家中并在0-8时的时间段上的多个打点信息包内包括打开2次DingTalk,5次QQ,10次WeChat的行为,那么,取最大值为,从2次、5次和10次中取出次数最多的所对应的应用(WeChat),例如在第1天内,用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(0-8时)上的短周期特征(SPFA,家,0-8 1)为WeChat。其中,SPF表示短周期特征,下角标A-家-0-8表示用户设备A在家的地点并在0-8的时间段上,上角标1表示第1天。在第1天内,用户设备A在用户设备A上的在家中并在8-16时的时间段上的多个打点信息包内包括打开10次QQ,5次WeChat,2次DingTalk的行为,那么,取最大值为,从10次、5次、2次中取出次数最多的所对应的应用(QQ),例如在第1天内,用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(8-16时)上的短周期特征(SPFA,家,8-16 1)为QQ。在第1天内,用户设备A在用户设备A上的在家中并在16-24时的时间段上的多个打点信息包内包括打开5次DingTalk,5次QQ,5次WeChat的行为,那么,取最大值为,从5次、5次、5次中取出次数最多的所对应的应用。由于均为5次,那么,取最大值的结果为无法计算,例如在第1天内,用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(16-24时)上的短周期特征(SPFA,家,16-24 1)为Null。
本领域技术人员可以理解的是,对于不同用户行为或状态,可以采取不同的融合方式,取最大值仅为数据融合的一种处理手段,数据融合还可以是聚类等其它处理手段,在此不作具体限定。
如图11中的框1103所示,对最近长周期内的用户设备A的短周期特征(SPFA,家,0-8、SPFA,家,8-16、SPFA,家,16-24)进行融合,获取用户设备A的长周期特征(LPFA,家,0-8、LPFA,家,8-16、LPFA,家,16-24)。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度、第二维度和第三维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
以下根据图12来说明短周期特征的示例,然后继续说明根据短周期特征确定长周期特征。
图12示出根据本申请一些实施例提供的每日在第一维度、第二维度、第三维度上的短周期特征的示意图。如图12所示,以短周期为1天为例。其中,FavoriteApp表示用户最喜欢的应用,下角标表示哪个用户设备在某一时间段(例如0-8时、8-16时、16-24时)并在某一地点(例如家、公司、其它),上角标表示第几天,同样的示例可以应用于用户设备B、C。
FavoriteAppA 1 ,Home,0-8表示用户设备A在家并在0-8时间段上的第1天的短周期特征,FavoriteAppA 1 ,Home,8-16表示用户设备A在家并在8-16时间段上的第1天的短周期特征,FavoriteAppA 1 ,Home,16-24表示用户设备A在家并在16-24时间段上的第1天的短周期特征。
FavoriteAppA 1 ,Company,0-8表示用户设备A在公司并在0-8时间段上的第1天的短周期特征,FavoriteAppA 1 ,Company,8-16表示用户设备A在公司并在8-16时间段上的第1天的短周期特征,FavoriteAppA 1 ,Company,16-24表示用户设备A在公司并在16-24时间段上的第1天的短周期特征。
FavoriteAppA 1 ,Other,0-8表示用户设备A在其它地点并在0-8时间段上的第1天的短周期特征。FavoriteAppA 1 ,Other,8-16表示用户设备A在其它地点并在8-16时间段上的第1天的短周期特征。FavoriteAppA 1 ,Other,16-24表示用户设备A在其它地点并在16-24时间段上的第1天的短周期特征。
FavoriteAppA 30 ,Home,0-8表示用户设备A在家并在0-8时间段上的第30天的短周期特征,FavoriteAppA 30 ,Home,8-16表示用户设备A在家并在8-16时间段上的第30天的短周期特征,FavoriteAppA 30 ,Home,16-24表示用户设备A在家并在16-24时间段上的第30天的短周期特征。
FavoriteAppA 30 ,Company,0-8表示用户设备A在公司并在0-8时间段上的第30天的短周期特征,FavoriteAppA 30 ,Company,8-16表示用户设备A在公司并在8-16时间段上的第30天的短周期特征,FavoriteAppA 30 ,Company,16-24表示用户设备A在公司并在16-24时间段上的第30天的短周期特征。
FavoriteAppA 30 ,Other,0-8表示用户设备A在其它地点并在0-8时间段上的第30天的短周期特征。FavoriteAppA 30 ,Other,8-16表示用户设备A在其它地点并在8-16时间段上的第30天的短周期特征。FavoriteAppA 30 ,Other,16-24表示用户设备A在其它地点并在16-24时间段上的第30天的短周期特征。
用户设备B、C的情况请参照上述用户设备A类推,在此不再赘述。
如果用户设备A的长周期确定单元103已获取如图12所示的短周期特征,那么,长周期确定单元103在第一维度(用户设备A)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上对该短周期特征取最大值。对于0-8时间段的,在FavoriteAppA 1 ,Home,0-8至FavoriteAppA 30 ,Home,0-8中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(0-8时)上的长周期特征(LPFA家,0-8)。对于8-16时间段的,在FavoriteAppA 1 ,Home,8-16至FavoriteAppA 30 ,Home,8-16中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(8-16时)上的长周期特征(LPFA,家,8-16)。对于16-24时间段的,在FavoriteAppA 1 ,Home,16-24至FavoriteAppA 30 ,Home,16-24中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(家)和第三维度(16-24时)上的长周期特征(LPFA,家,16-24)。
例如,FavoriteAppA 1 ,Home,0-8至FavoriteAppA 15 ,Home,0-8均为WeChat,FavoriteAppA 16Home,0-8至FavoriteAppA 25 Home,0-8均为QQ,FavoriteAppA 26 ,Home,0-8至FavoriteAppA 30 ,Home,0-8均为DingTalk,例如出现15次WeChat,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(WeChat),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,家,0-8)为WeChat。FavoriteAppA 1 ,Home,8-16至FavoriteAppA 15 ,Home,8-16均为QQ,FavoriteAppA 16 ,Home,8-16至FavoriteAppA 25 ,Home,8-16均为WeChat,FavoriteAppA 26 ,Home,8-16至FavoriteAppA 30 ,Home,8-16均为DingTalk,例如出现15次QQ,10次WeChat和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(QQ),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,家,8-16)为QQ。FavoriteAppA 1 ,Home,16-24至FavoriteAppA 10 ,Home,16-24均为iQiyi,FavoriteAppA 11 ,Home,16-24至FavoriteAppA 20 ,Home,16-24均为QQ,FavoriteAppA 21 ,Home,16-24至FavoriteAppA 30 ,Home,16-24均为DingTalk,例如出现10次iQiyi,10次QQ和10次DingTalk,那么,从10次、10次和10次中取出出现次数最多的应用的结果为无法计算,例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,家,16-24)为Null。
以下根据图7以示出长周期特征的其中一个示例。图7示出根据本申请一些实施例提供的在不同层级上的长周期特征的示意图。如图7中的第三层所示,以用户设备A为Phone1为例。
用户设备A在第一维度、第二维度和第三维度上的长周期特征的LPFA,家,0-8、LPFA,家,8-16、LPFA,家,16-24结果可以记为
Figure BDA0002543921880000241
下面请继续参考图11所示一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图一,以说明以下流程。
如图11的框1104所示,对用户设备A中相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000242
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备A上的长周期特征LPFA,家,0-8为WeChat,LPFA,家,8-16为DingTalk,LPFA,家,16-24为WeChat,那么,相互不重叠的长周期特征为DingTalk和WeChat,例如X1=DingTalk,X2=WeChat;相互不重叠的长周期特征的数量为2,这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于DingTalk在三个长周期特征中仅出现一次,而WeChat在三个长周期特征中出现两次,
例如
Figure BDA0002543921880000251
Figure BDA0002543921880000252
例如,
Figure BDA0002543921880000253
如图11中的框1105所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个时间段,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个时间段,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图11中的框1106所示,如果信息熵小于熵阈值,那么,根据用户设备A中相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户特征确定单元104根据用户设备A中相互不重叠的长周期特征概率最高的长周期特征WeChat,确定用户特征,例如用户最喜欢的应用为WeChat。
如图11中的框1107所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如果信息熵大于或等于熵阈值,那么,不根据该相互不重叠的长周期特征确定用户特征,而是通过对用户设备A上的不同地点(例如公司)做上述类似步骤。
如图11中的框1108,对最近长周期内的用户设备A的短周期特征(SPFA,公司,0-8、SPFA,公司,8-16、SPFA,公司,16-24)进行融合,获取用户设备A的长周期特征(LPFA,公司,0-8、LPFA,公司,8-16、LPFA,公司,16-24)。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度、第二维度和第三维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
关于短周期特征,具体请参考上述图12中的说明,在此不再赘述。
以下以用户设备A获取用户在用户设备A且在公司地点不同时间段(0-8时、8-16时、16-24时)上的长周期特征为例。
如果用户设备A的长周期确定单元103已获取如图12所示的短周期特征,那么,长周期确定单元103在第一维度(用户设备A)、第二维度(公司)和第三维度(0-8时、8-16时、16-24时)上对该短周期特征取最大值。对于0-8时间段的,在FavoriteAppA 1 ,Company,0-8至FavoriteAppA 30 ,Company,0-8中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(公司)和第三维度(0-8时)上的长周期特征(LPFA,公司,0-8)。对于8-16时间段的,在FavoriteAppA 1 ,Company,8-16至FavoriteAppA 30 ,Company,8-16中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(公司)和第三维度(8-16时)上的长周期特征(LPFA,公司,8-16)。对于16-24时间段的,在FavoriteAppA 1 ,Company,16-24至FavoriteAppA 30 ,Company,16-24中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(公司)和第三维度(16-24时)上的长周期特征(LPFA,公司,16-24)。
例如,FavoriteAppA 1 ,Company,0-8至FavoriteAppA 15 ,Company,0-8均为WeChat,FavoriteAppA 16Company,0-8至FavoriteAppA 25 Company,0-8均为QQ,FavoriteAppA 26 ,Company,0-8至FavoriteAppA 30Company,0-8均为DingTalk,例如出现15次WeChat,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(WeChat),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,公司,0-8)为WeChat。FavoriteAppA 1 ,Company,8-16至FavoriteAppA 15 ,Company,8-16均为QQ,FavoriteAppA 16 ,Company,8-16至FavoriteAppA 25 ,Company,8-16均为WeChat,FavoriteAppA 26 ,Company,8-16至FavoriteAppA 30 ,Company,8-16均为DingTalk,例如出现15次QQ,10次WeChat和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(QQ),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,公司,8-16)为QQ。FavoriteAppA 1 ,Company,16-24至FavoriteAppA 10 ,Company,16-24均为iQiyi,FavoriteAppA 11 ,Company,16-24至FavoriteAppA 20 ,Company,16-24均为QQ,FavoriteAppA 21 ,Company,16-24至FavoriteAppA 30 ,Company,16-24均为DingTalk,例如出现10次iQiyi,10次QQ和10次DingTalk,那么,从10次、10次和10次中取出出现次数最多的应用的结果为无法计算,例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,公司,16-24)为Null。
下面请继续参考图11所示一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图一,以说明以下流程。
如图11的框1109所示,对用户设备A上相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000261
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备A上的长周期特征LPFA,公司,0-8为WeChat,LPFA,公司,8-16为DingTalk,LPFA,公司,16-24为WeChat,那么,相互不重叠的长周期特征为DingTalk和WeChat,例如X1=DingTalk,X2=WeChat;相互不重叠的长周期特征的数量为2,这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于DingTalk在三个长周期特征中仅出现一次,而WeChat在三个长周期特征中出现两次,
例如
Figure BDA0002543921880000271
Figure BDA0002543921880000272
例如,
Figure BDA0002543921880000273
如图11中的框1110所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个时间段,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个时间段,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图11中的框1111所示,如果信息熵小于熵阈值,那么,根据用户设备A中相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户特征确定单元104根据用户设备A中相互不重叠的长周期特征概率最高的长周期特征WeChat,确定用户特征,例如用户最喜欢的应用为WeChat。
如图11中的框1112所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如果信息熵大于或等于熵阈值,那么,不根据用户设备A中相互不重叠的长周期特征确定用户特征,而是通过对用户设备A上的不同地点(例如其它)做上述类似步骤。
如图11中的框1113所示,对最近长周期内的用户设备A的短周期特征(SPFA,其它,0-8、SPFA,其它,8-16、SPFA,其它,16-24)进行融合,获取用户设备A的长周期特征(LPFA,其它,0-8、LPFA,其它,8-16、LPFA,其它,16-24)。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度、第二维度和第三维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
关于短周期特征,具体请参考上述图12中的说明,在此不再赘述。
以下以用户设备A获取的用户在用户设备A且在其它地点不同时间段(0-8时、8-16时、16-24时)上的长周期特征为例。
如果用户设备A的长周期确定单元103已获取如图12所示的短周期特征,那么,长周期确定单元103在第一维度(用户设备A)、第二维度(其它)和第三维度(0-8时、8-16时、16-24时)上对该短周期特征取最大值。对于0-8时间段的,在FavoriteAppA 1 ,Other,0-8至FavoriteAppA 30 ,Other,0-8中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(其它)和第三维度(0-8时)上的长周期特征(LPFA,其它,0-8)。对于8-16时间段的,在FavoriteAppA 1 ,Other,8-16至FavoriteAppA 30 ,Other,8-16中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(其它)和第三维度(8-16时)上的长周期特征(LPFA,其它,8-16)。对于16-24时间段的,在FavoriteAppA 1 ,Other,16-24至FavoriteAppA 30 ,Other,16-24中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备A)、第二维度(其它)和第三维度(16-24时)上的长周期特征(LPFA,公司,16-24)。
例如,FavoriteAppA 1 ,Other,0-8至FavoriteAppA 15 ,Other,0-8均为WeChat,FavoriteAppA 16Other,0-8至FavoriteAppA 25 Other,0-8均为QQ,FavoriteAppA 26 ,Other,0-8至FavoriteAppA 30 ,Other,0-8均为DingTalk,例如出现50次WeChat,30次QQ和10次DingTalk,那么,从50次、30次和10次中取出出现次数最多的应用(WeChat),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,其它,0-8)为WeChat。FavoriteAppA 1 ,Other,8-16至FavoriteAppA 15 ,Other,8-16均为QQ,FavoriteAppA 16 ,Other,8-16至FavoriteAppA 25 ,Other,8-16均为WeChat,FavoriteAppA 26 ,Other,8-16至FavoriteAppA 30 ,Other,8-16均为DingTalk,例如出现15次QQ,10次WeChat和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(QQ),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,其它,8-16)为QQ。FavoriteAppA 1 ,Other,16-24至FavoriteAppA 10 ,Other,16-24均为iQiyi,FavoriteAppA 11 ,Other,16-24至FavoriteAppA 20 ,Other,16-24均为QQ,FavoriteAppA 21 ,Other,16-24至FavoriteAppA 30 ,Other,16-24均为DingTalk,例如出现10次iQiyi,10次QQ和10次DingTalk,那么,从10次、10次和10次中取出出现次数最多的应用的结果为无法计算,例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFA,其它,16-24)为Null。、
下面请继续参考图11所示一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图一,以说明以下流程。
如图11的框1114所示,对用户设备A上相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000281
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备A的长周期特征LPFA,其它,0-8为WeChat,LPFA,其它,8-16为DingTalk,LPFA,其它,16-24为WeChat,那么,相互不重叠的长周期特征为DingTalk和WeChat,例如X1=DingTalk,X2=WeChat;相互不重叠的长周期特征的数量为2,这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于DingTalk在三个长周期特征中仅出现一次,而WeChat在三个长周期特征中出现两次,
例如
Figure BDA0002543921880000291
Figure BDA0002543921880000292
例如,
Figure BDA0002543921880000293
如图11中的框1115所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个时间段,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个时间段,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图11中的框1116所示,如果信息熵小于熵阈值,那么,根据用户设备A中相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户特征确定单元104根据用户设备A中相互不重叠的长周期特征概率最高的长周期特征WeChat,确定用户特征,例如用户最喜欢的应用为WeChat。
如图11中的框1117所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如图11中的框C4所示,如果信息熵大于或等于熵阈值,那么,不根据用户设备A中相互不重叠的长周期特征确定用户特征,而是通过至少一个第二用户设备(例如用户设备B、C)上的数据,以进一步确定用户特征,具体请参考图13。
图13示出根据本申请一些实施例提供的一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图二。
以下以用户设备B在最近长周期内(例如30天或其它)的在第一维度(用户设备B)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(SPFB-家-0-8、SPFB-家-8-16、SPFB-家-16-24)为例。
如图13中的框1301所示,接收来自用户设备B在最近的长周期内在第一维度(用户设备B)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上的每日的短周期特征(SPFB,家,0-8、SPFB,家,8-16、SPFB,家,16-24)。接收来自用户设备B在最近的长周期内在第一维度、第二维度和第三维度上的每日的短周期特征(SPFB,家,0-8、SPFB,家,8-16、SPFB,家,16-24)可以由用户设备A的短周期特征确定单元102接收,也可以由用户设备A的长周期特征确定单元接收103,在此不作具体限定。
用户设备B根据各自的短周期特征确定单元102获取在第一维度、第二维度和第三维度上每日的短周期特征(SPFB,家,0-8、SPFB,家,8-16、SPFB,家,16-24),再通过例如直连或局域网的方式将短周期特征(SPFB,家,0-8、SPFB,家,8-16、SPFB,家,16-24)传输至用户设备A,用户设备A接收来自用户设备B、C的在第一维度、第二维度和第三维度上的每日的短周期特征(SPFB,家,0-8、SPFB,家,8-16、SPFB,家,16-24)。
如图13中的框1302所示,对最近的长周期内的用户设备B的短周期特征(SPFB,家,0-8、SPFB,家,8-16、SPFB,家,16-24)进行融合,获取用户设备B的长周期特征(LPFB,家,0-8、LPFB,家,8-16、LPFB,家,16-24)。
需要说明的是,融合可以为取最大值。取最大值可以理解为,在最近的长周期内,对在第一维度和第二维度上的多个短周期特征取最大值,例如取出出现次数最多的短周期特征。取最大值后所得的结果例如为长周期特征。
关于短周期特征,具体请参考上述图12中的说明,在此不再赘述。
以下以获取用户设备A的用户在用户设备B上且在家位置上的不同时间段(0-8时、8-16时、16-24时)的长周期特征为例。
如果用户设备A的长周期确定单元103已获取如图12所示的短周期特征,那么,长周期确定单元103在第一维度(用户设备B)、第二维度(家)和第三维度(0-8时、8-16时、16-24时)上对该短周期特征取最大值。对于0-8时间段的,在FavoriteAppB 1 ,Home,0-8至FavoriteAppB 30 ,Home,0-8中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备B)、第二维度(家)和第三维度(0-8时)上的长周期特征(LPFB,家,0-8)。对于8-16时间段的,在FavoriteAppB 1 ,Home,8-16至FavoriteAppB 30 ,Home,8-16中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备B)、第二维度(家)和第三维度(8-16时)上的长周期特征(LPFB,家,8-16)。对于16-24时间段的,在FavoriteAppB 1 ,Home,16-24至FavoriteAppB 30 ,Home,16-24中取出用户设备A上30天内出现次数最多的应用,作为用户设备A在第一维度(用户设备B)、第二维度(家)和第三维度(16-24时)上的长周期特征(LPFA,家,16-24)。
例如,FavoriteAppB 1 ,Home,0-8至FavoriteAppB 15 ,Home,0-8均为WeChat,FavoriteAppB 16Home,0-8至FavoriteAppB 25 Home,0-8均为QQ,FavoriteAppB 26 ,Home,0-8至FavoriteAppB 30 ,Home,0-8均为DingTalk,例如出现15次WeChat,10次QQ和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(WeChat),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFB,家,0-8)为WeChat。FavoriteAppB 1 ,Home,8-16至FavoriteAppB 15 ,Home,8-16均为QQ,FavoriteAppB 16 ,Home,8-16至FavoriteAppB 25 ,Home,8-16均为WeChat,FavoriteAppB 26 ,Home,8-16至FavoriteAppB 30 ,Home,8-16均为DingTalk,例如出现15次QQ,10次WeChat和5次DingTalk,那么,从15次、10次和5次中取出出现次数最多的应用(QQ),例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFB,家,8-16)为QQ。FavoriteAppB 1 ,Home,16-24至FavoriteAppB 10 ,Home,16-24均为iQiyi,FavoriteAppB 11 ,Home,16-24至FavoriteAppB 20 ,Home,16-24均为QQ,FavoriteAppB 21 ,Home,16-24至FavoriteAppB 30 ,Home,16-24均为DingTalk,例如出现10次iQiyi,10次QQ和10次DingTalk,那么,从30次、30次和30次中取出出现次数最多的应用的结果为无法计算,例如用户设备A在30天内并在第一维度、第二维度和第三维度上的长周期特征(LPFB,家,16-24)为Null。
下面请继续参考图13所示的一种在场景一下由图1中的用户设备A执行的在第一维度、第二维度、第三维度上确定用户特征(最喜欢的应用)的方法的示意图二,以说明以下流程。
如图13中的框1303所示,对用户设备上的相互不重叠的长周期特征,计算信息熵。信息熵的计算可以由用户设备A的长周期确定单元103计算,也可以由用户设备A的特征确定单元104计算。
信息熵的具体计算公式如下:
Figure BDA0002543921880000311
在公式1中,
H代表信息熵;
Xi代表相互不重叠的长周期特征中的第i个长周期特征;
i为1至n的整数;
N等于相互不重叠的长周期特征的数量和;
p(Xi)代表第i个长周期特征的概率。
在上述公式1中,相互不重叠的长周期特征,表示在多个长周期特征中两两之间互为不同的长周期特征。相互不重叠的长周期特征的数量和,表示在多个长周期特征中两两之间互为不同的长周期特征的数量和。第i个长周期特征的概率,表示第i个长周期特征在全部长周期特征中出现的概率。
例如,用户设备A在用户设备B上且在家位置的不同时间段上的长周期特征LPFB,家,0-8为WeChat,LPFB,家,8-16为DingTalk,LPFB,家,16-24为WeChat,那么,相互不重叠的长周期特征为DingTalk和WeChat,例如X1=DingTalk,X2=WeChat;相互不重叠的长周期特征的数量为2,这是由于三个长周期特征中包括一个相互重叠的长周期特征WeChat,因此,相互不重叠的长周期特征的数量和为2而非3,例如N=2;由于DingTalk在三个长周期特征中仅出现一次,而WeChat在三个长周期特征中出现两次,
例如
Figure BDA0002543921880000312
Figure BDA0002543921880000313
例如,
Figure BDA0002543921880000314
如图13中的框1304所示,判断信息熵是否小于熵阈值。
判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个时间段,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个时间段,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图13中的框1305所示,如果信息熵小于熵阈值,那么,根据用户设备B上相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。用户特征可以是由用户设备A的用户特征确定单元104确定。例如上述例子中,信息熵H=1.35<1.4,那么,用户设备A的用户特征确定单元104根据用户设备B上相互不重叠的长周期特征概率最高的长周期特征WeChat,确定用户特征,例如用户最喜欢的应用为WeChat。
如图13中的框1306所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如图13中的虚线框所示,如果信息熵大于或等于熵阈值,那么,不根据用户设备B中相互不重叠的长周期特征确定用户特征,对用户设备C重复执行虚线框步骤,在此不再赘述。
如图13中的1307所示,判断信息熵是否小于熵阈值。判断信息熵是否小于熵阈值可以由用户设备A的长周期确定单元103判断,也可以由用户设备A的特征确定单元104判断。
对于三个时间段,熵阈值为1.4。本领域技术人员可以理解的是,具体熵阈值的选定可以根据用户对结果的容忍度做适当调整,例如对于三个时间段,熵阈值还可以是1.3,1.45等大于或小于1.4的数值。
如图13中的框1308所示,如果信息熵小于熵阈值,那么,根据用户设备C中相互不重叠的长周期特征中概率最高的长周期特征,确定用户特征。
如图13中的框1309所示,根据用户特征,对用户进行画像。对用户进行画像可以是由用户设备A的用户特征确定单元104完成。
如图13中的框1310所示,如果信息熵大于或等于熵阈值,那么,无法确定用户特征,进而无法对用户进行画像。无法对用户进行画像说明该用户的行为或状态时不具备学习性或当前粒度下不可学习,其可以用于判断数据是否是人工随机产生的,例如用户虚假用户的识别工作。
本申请中,由于用户设备A、B、C两两之间传输的是短周期特征而非源数据,从而大大提高用户的隐私性。例如便传输的数据被截获,用户的源数据也无法被获得。其次,基于信息熵的多终端融合画像算法,解决了现有算法无法自适配细分例如时间或地点的问题,自动分支提升对用户进行画像的精度,同时自动剪枝有效降低数据计算量。
图14示出根据本申请一些实施例提供的用户设备的框图。
如图14所示,用户设备可以包括一个或多个处理器1402,与处理器1402中的至少一个连接的系统控制逻辑1408,与系统控制逻辑1408连接的系统内存1404,与系统控制逻辑1408连接的非易失性存储器(NVM)1406,以及与系统控制逻辑1408连接的网络接口1410。
处理器1402可以包括一个或多个单核或多核处理器。处理器1402可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任何组合。在本文的实施例中,处理器1402可以被配置为执行根据如图5、8、10、11和13所示的各种实施例的一个或多个实施例。
在一些实施例中,系统控制逻辑1408可以包括任意合适的接口控制器,以向处理器1402中的至少一个和/或与系统控制逻辑1408通信的任意合适的设备或组件提供任意合适的接口。
在一些实施例中,系统控制逻辑1408可以包括一个或多个存储器控制器,以提供连接到系统内存1404的接口。系统内存1404可以用于加载以及存储数据和/或指令。在一些实施例中设备1400的内存1404可以包括任意合适的易失性存储器,例如合适的动态随机存取存储器(DRAM)。
NVM/存储器1406可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中,NVM/存储器1406可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备,例如HDD(Hard Disk Drive,硬盘驱动器),CD(Compact Disc,光盘)驱动器,DVD(Digital Versatile Disc,数字通用光盘)驱动器中的至少一个。
NVM/存储器1406可以包括安装在设备1400的装置上的一部分存储资源,或者它可以由设备访问,但不一定是设备的一部分。例如,可以经由网络接口1410通过网络访问NVM/存储1406。
特别地,系统内存1404和NVM/存储器1406可以分别包括:指令1420的暂时副本和永久副本。指令1420可以包括:由处理器1402中的至少一个执行时导致设备1400实施如图3-4所示的方法的指令。在一些实施例中,指令1420、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑1408,网络接口1410和/或处理器1402中。
网络接口1410可以包括收发器,用于为设备1400提供无线电接口,进而通过一个或多个网络与任意其他合适的设备(如前端模块,天线等)进行通信。在一些实施例中,网络接口1410可以集成于设备1400的其他组件。例如,网络接口1410可以集成于处理器1402的,系统内存1404,NVM/存储器1406,和具有指令的固件设备(未示出)中的至少一种,当处理器1402中的至少一个执行所述指令时,设备1400实现图5、8、10、11和13所示的各种实施例的一个或多个实施例。通信模块
网络接口1410可以进一步包括任意合适的硬件和/或固件,以提供多输入多输出无线电接口。例如,网络接口1410可以是网络适配器,无线网络适配器,电话调制解调器和/或无线调制解调器。
在一个实施例中,处理器1402中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑封装在一起,以形成系统封装(SiP)。在一个实施例中,处理器1402中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑集成在同一管芯上,以形成片上系统(SoC)。
设备1400可以进一步包括:输入/输出(I/O)设备1412。I/O设备1412可以包括用户界面,使得用户能够与设备1400进行交互;外围组件接口的设计使得外围组件也能够与设备1400交互。在一些实施例中,设备1400还包括传感器,用于确定与设备1400相关的环境条件和位置信息的至少一种。
在一些实施例中,用户界面可包括但不限于显示器(例如,液晶显示器,触摸屏显示器等),扬声器,麦克风,一个或多个相机(例如,静止图像照相机和/或摄像机),手电筒(例如,发光二极管闪光灯)和键盘。
在一些实施例中,外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。
在一些实施例中,传感器可包括但不限于陀螺仪传感器,加速度计,近程传感器,环境光线传感器和定位单元。定位单元还可以是网络接口910的一部分或与网络接口910交互,以与定位网络的组件(例如,全球定位系统(GPS)卫星)进行通信。
本申请的各方法实施方式均可以以软件、磁件、固件等方式实现。
可将程序代码应用于输入指令,以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的计算机可读存储介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
在一些情况下,指令转换器可用来将指令从源指令集转换至目标指令集。例如,指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其它方式将指令转换成将由核来处理的一个或多个其它指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质的途径分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制、但不限于、软盘、光盘、光盘、只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于通过电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)通过因特网传输信息的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可以不需要这样的特定布置和/或排序。在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims (27)

1.一种用于第一用户设备的确定用户的特征的方法,其特征在于,包括
获取第一长周期特征,其中所述第一长周期特征指示与所述第一用户设备对应的特征分量,且该特征分量是在第一预定周期内获取的在第一维度上的特征分量;
获取至少一个第二长周期特征,其中所述至少一个第二长周期特征中的每个第二长周期特征指示与至少一个第二用户设备中的一个第二用户设备对应的特征分量,并且该特征分量是在所述第一预定周期内获取的在所述第一维度上的特征分量;
根据所述第一长周期特征和所述至少一个第二长周期特征的第一信息熵,判断是否基于所述第一长周期特征和所述至少一个第二长周期特征来确定所述用户的所述特征。
2.如权利要求1所述的方法,其特征在于,所述获取第一长周期特征还包括:
确定一个第一短周期特征组,其中所述一个第一短周期特征组与所述第一用户设备对应,并且所述一个第一短周期特征组中包括多个第一短周期特征,其中所述多个第一短周期特征中的每个第一短周期特征指示一特征分量,且该特征分量是由所述第一用户设备获取的在第二预定周期内并在第一维度上的特征分量;和
对所述多个第一短周期特征进行融合,以获取所述第一长周期特征,
其中,所述第一预定周期长于所述第二预定周期。
3.如权利要求1-2所述的方法,其特征在于,所述获取至少一个第二长周期特征还包括:
确定至少一个第二短周期特征组,其中所述至少一个第二短周期特征组与至少一个第二用户设备对应,并且所述至少一个第二短周期特征组中的每个第二短周期特征组包括多个第二短周期特征,其中所述多个第二短周期特征中的每个第二短周期特征指示一特征分量,且该特征分量是由所述一个第二用户设备获取的在所述第一预定周期内并在所述第一维度上的特征分量;和
对所述每个第二周期特征组中的所述多个第二短周期特征进行融合,以获取所述第二长周期特征,
其中,所述第一预定周期大于所述第二预定周期。
4.如权利要求1-3所述的方法,其特征在于,还包括:
使用所述用户的用户账户登录所述第一用户设备和所述至少一个第二用户设备。
5.如权利要求1-4所述的方法,其特征在于,所述确定一个第一短周期特征组征,还包括:
在所述第二预定周期内,获得多个第一打点信息包,所述多个第一打点信息包是所述用户进行与所述特征相关的行为或状态在所述第一维度上的多个打点信息包,其中所述多个第一打点信息包中的每个打点信息包包括时间戳,所述行为或状态,所述第一维度,以及所述特征分量中的至少两个;和
对所述多个第一打点信息包进行所述融合,确定所述每个第一短周期特征。
6.如权利要求1-5中任一权利要求所述的方法,其特征在于,所述确定至少一个第二短周期特征组,包括:从所述至少一个用户设备接收所述至少一个第二短周期特征组。
7.如权利要求1-6中任一权利要求所述的方法,其特征在于,所述根据所述第一长周期特征和所述至少一个第二长周期特征的信息熵,判断是否基于所述第一长周期特征和所述至少一个第二长周期特征来确定所述用户的所述特征,还包括:
根据所述第一长周期特征和所述至少一个第二长周期特征,获得所述第一信息熵;
判断所述第一信息熵是否小于第一熵阈值;
在所述第一信息熵小于所述第一熵阈值的情况下,判断基于所述第一长周期特征和所述至少一个第二长周期特征来确定所述用户的所述特征;和
在所述信息熵大于或等于所述第一熵阈值的情况下,判断不根据所述第一长周期特征和所述至少一个第二长周期特征来确定所述用户的所述特征。
8.如权利要求7所述的方法,其特征在于,所述根据所述第一长周期特征和所述至少一个第二长周期特征,获得所述第一信息熵,还包括:根据下列公式获得所述第一信息熵
Figure FDA0002543921870000021
其中,H代表所述第一信息熵,Xi代表所述第一长周期特征和所述至少一个第二长周期特征中相互不重复的长周期特征中的第i个长周期特征,其中i为1至n的整数,并且N等于所述第一长周期特征和所述至少一个第二长周期特征中相互不重复的长周期特征的数量和,p(Xi)代表所述第i个长周期特征的概率。
9.如权利要求1-8中任一权利要求所述的方法,其特征在于,还包括:在判断根据所述第一长周期特征和所述至少一个第二长周期特征来确定所述用户的所述特征的情况下,
根据所述第一长周期特征和所述至少一个第二长周期特征中每个长周期特征的概率,获得所述用户的所述特征;和
根据所述用户的所述特征,对所述用户进行画像。
10.如权利要求1-9中任一权利要求所述的方法,其特征在于,还包括:在判断不根据所述第一长周期特征和所述至少一个第二长周期特征来确定所述用户的所述特征的情况下,
获取至少一个第三长周期特征,其中所述至少一个长周期特征中的每个第三长周期特征指示与所述第一用户设备对应的在所述第一预定周期内并在在第一维度和第二维度上的特征分量;和
判断是否根据所述至少一个第三长周期特征,获得所述用户的所述特征。
11.如权利要求10所述的方法,其特征在于,所述获取至少一个第三长周期特征还包括:
确定一个第三短周期特征组,其中所述一个第三短周期特征组与所述第一用户设备对应,并且所述一个第三短周期特征组中包括多个第三短周期特征,其中所述多个第三短周期特征中的每个第三短周期特征指示一特征分量,并且该特征分量是由所述第一用户设备获取的在所述第二预定周期内并在所述第一维度和第二维度上的特征分量;和
对所述多个第三短周期特征进行融合,以获取所述至少一个第三长周期特征。
12.如权利要求7所述的方法,其特征在于,所述确定一个第三短周期特征组,还包括:
在所述第二预定周期内,获得多个第三打点信息包,所述多个第三打点信息包是所述用户进行与所述特征相关的行为和/或状态在所述第一维度和所述第二维度上的多个打点信息包,其中所述多个第三打点信息包中的每个打点信息包包括时间戳,所述行为和/或所述状态,所述第一维度、所述第二维度以及所述特征分量中的至少三个;和
对所述多个第三打点信息包进行所述融合,确定所述每个第三短周期特征。
13.如权利要求10-12中任一权利要求所述的方法,其特征在于,所述判断是否根据所述至少一个第三长周期特征,获得所述用户的所述特征,包括:
在所述至少一个第三长周期特征包括多个第三长周期特征的情况下,根据所述多个第三长周期特征的第二信息熵,判断是否根据所述多个第三长周期获得所述用户的所述特征;和
在所述至少一个第三长周期特征包括一个第三长周期特征的情况下,确定所述一个第三长周期特征作为所述用户的所述特征。
14.如权利要求10-13中任一权利要求所述的方法,其特征在于,所述根据所述多个第三长周期特征的第二信息熵,判断是否根据所述多个第三长周期特征获得所述用户的所述特征,包括:
根据所述多个第三长周期特征,获得所述第二信息熵;
判断所述第二信息熵是否小于第二熵阈值;
在所述第二信息熵小于所述第二熵阈值的情况下,判断根据所述多个第三长周期特征获得所述用户的所述特征;和
在所述第二信息熵大于或等于所述第二熵阈值的情况下,判断不根据所述多个第三长周期获得所述用户的所述特征。
15.如权利要求14所述的方法,其特征在于,所述根据所述多个第三长周期特征,获得所述第二信息熵,还包括:
根据下列公式获得所述第二信息熵
Figure FDA0002543921870000031
其中,H代表所述第二信息熵,Xi代表所述多个第三长周期特征中相互不重复的第三长周期特征中的第i个长周期特征,其中i为1至N的整数,并且N等于所述多个第三长周期特征中相互不重复的第三长周期特征的数量和,p(Xi)代表所述第i个长周期特征的概率。
16.如权利要求10-15中任一权利要求所述的方法,其特征在于,还包括:在判断根据所述多个第三长周期特征获得所述用户的所述特征的情况下,
根据所述多个第三长周期特征中每个第三长周期特征的概率,获得所述用户的所述特征;和
根据所述用户的所述特征,对所述用户进行画像。
17.如权利要求10-16中任一权利要求所述的方法,其特征在于,还包括:在确定不根据所述至少一个第三长周期特征,获得所述用户的所述特征的情况下,
接收来自所述至少一个第二用户设备中的一个第二用户设备的多个第四短周期特征,其中所述多个第四短周期特征中的每个第四短周期特征指示一特征分量,并且该特征分离是由所述一个第二用户设备获取的在所述第二预定周期内并在所述第一维度和第二维度上的特征分量;
对所述多个第四短周期特征进行融合,以获得至少一个第四长周期特征,其中所述至少一个第四长周期特征中的每个第四长周期特征指示所述一个第二用户设备获取的在所述第一预定周期内并在所述第一维度和所述第二维度上的特征分量;
判断是否根据所述至少一个第四长周期特征,获得所述用户的所述特征;和
在确定不根据所述第一第四长周期特征,获得所述用户的所述特征的情况下,对于所述至少一个第二用户设备中的下一个第二用户设备,重复所述接收、融合、判断的步骤。
18.如权利要求17所述的方法,其特征在于,所述判断是否根据所述至少一个第四长周期特征,获得所述用户的所述特征,包括:
在所述至少一个第四长周期特征包括多个第四长周期特征的情况下,根据所述多个第四长周期特征的第三信息熵,判断是否根据所述多个第四长周期特征获得所述用户的所述特征;和
在所述至少一个第三长周期特征包括一个第四长周期特征的情况下,确定所述一个第四长周期特征作为所述用户的所述特征。
19.如权利要求18所述的方法,其特征在于,所述根据所述多个第四长周期特征的第三信息熵,判断是否根据所述多个第四长周期特征获得所述用户的所述特征,包括:
根据所述多个第四长周期特征,获得所述第三信息熵;
判断所述第三信息熵是否小于第三熵阈值;
在所述第三信息熵小于所述第二熵阈值的情况下,根据所述多个第四长周期特征中每个第四长周期特征的概率,确定所述用户的所述特征;和
在所述第三信息熵大于或等于所述第三熵阈值的情况下,判断不根据所述多个第四长周期特征获得所述用户的所述特征。
20.如权利要求19所述的方法,其特征在于,所述根据所述多个第四长周期特征,获得所述第三信息熵,还包括:
根据下列公式获得所述第三信息熵
Figure FDA0002543921870000051
其中,H代表所述第三信息熵,Xi代表所述多个第四长周期特征中相互不重复的第四长周期特征中的第i个长周期特征,其中i为1至N的整数,并且N等于所述多个第四长周期特征中相互不重复的第四长周期特征的数量和,p(Xi)代表所述第i个长周期特征的概率。
21.如权利要求17-20中任一权利要求所述的方法,其特征在于,还包括:在判断根据所述多个第四长周期特征获得所述用户的所述特征的情况下,
根据所述多个第四长周期特征中每个第四长周期特征的概率,获得所述用户的所述特征;和
根据所述用户的所述特征,对所述用户进行画像。
22.如权利要求1-21中任一权利要求所述的方法,其特征在于,所述融合包括取最大值和聚类中的至少一种。
23.如权利要求1-22中任一权利要求所述的方法,其特征在于,所述第一维度包括设备、位置或者时间段。
24.如权利要求10-21中任一权利要求所述的方法,其特征在于,所述第二维度包括设备,位置或者时间段,并且所述第一维度与所述第二维度不同。
25.如权利要求24所述的方法,其特征在于,所述时间段小于所述第二预定周期,或者,所述设备包括所述第一用户设备和所述至少一个第二用户设备中的一个。
26.一种用户设备,其特征在于,包括:
处理器和存储介质,所述存储介质与所述处理器耦合,所述存储介质用于存储程序代码,当所述处理器从所述存储介质中读取所述程序代码,使得所述用户设备执行如权利要求1-25中任一权利要求所述的方法。
27.一种机器可读存储介质,其特征在于,所述机器可读存储介质上存储有程序代码,所述程序代码在机器上执行时可使所述机器执行如权利要求1-25中任一权利要求所述的方法。
CN202010555053.5A 2020-06-17 2020-06-17 确定用户的特征的方法、设备及计算机可读介质 Active CN113806656B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010555053.5A CN113806656B (zh) 2020-06-17 确定用户的特征的方法、设备及计算机可读介质
PCT/CN2021/099703 WO2021254269A1 (zh) 2020-06-17 2021-06-11 确定用户的特征的方法、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555053.5A CN113806656B (zh) 2020-06-17 确定用户的特征的方法、设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN113806656A true CN113806656A (zh) 2021-12-17
CN113806656B CN113806656B (zh) 2024-04-26

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059780A1 (en) * 2009-05-22 2012-03-08 Teknologian Tutkimuskeskus Vtt Context recognition in mobile devices
US10075846B1 (en) * 2017-08-10 2018-09-11 The Florida International University Board Of Trustees Method for continuous user authentication with wearables
CN109145932A (zh) * 2017-06-28 2019-01-04 中兴通讯股份有限公司 用户性别预测方法、装置及设备
CN109840788A (zh) * 2017-11-27 2019-06-04 北京京东尚科信息技术有限公司 用于分析用户行为数据的方法及装置
CN110431535A (zh) * 2018-01-22 2019-11-08 华为技术有限公司 一种用户画像的生成方法及装置
CN110431585A (zh) * 2018-01-22 2019-11-08 华为技术有限公司 一种用户画像的生成方法及装置
CN110472485A (zh) * 2019-07-03 2019-11-19 华为技术有限公司 识别身份的方法和装置
CN111191092A (zh) * 2019-12-31 2020-05-22 腾讯科技(深圳)有限公司 画像数据处理方法和画像模型训练方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059780A1 (en) * 2009-05-22 2012-03-08 Teknologian Tutkimuskeskus Vtt Context recognition in mobile devices
CN109145932A (zh) * 2017-06-28 2019-01-04 中兴通讯股份有限公司 用户性别预测方法、装置及设备
US10075846B1 (en) * 2017-08-10 2018-09-11 The Florida International University Board Of Trustees Method for continuous user authentication with wearables
CN109840788A (zh) * 2017-11-27 2019-06-04 北京京东尚科信息技术有限公司 用于分析用户行为数据的方法及装置
CN110431535A (zh) * 2018-01-22 2019-11-08 华为技术有限公司 一种用户画像的生成方法及装置
CN110431585A (zh) * 2018-01-22 2019-11-08 华为技术有限公司 一种用户画像的生成方法及装置
CN110472485A (zh) * 2019-07-03 2019-11-19 华为技术有限公司 识别身份的方法和装置
CN111191092A (zh) * 2019-12-31 2020-05-22 腾讯科技(深圳)有限公司 画像数据处理方法和画像模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘星辰: "基于文本挖掘的用户画像系统的设计与实现", 《中国优秀硕士学位论文全文数据库》, pages 138 - 638 *

Also Published As

Publication number Publication date
WO2021254269A1 (zh) 2021-12-23

Similar Documents

Publication Publication Date Title
CN109890067B (zh) 对特定路线上的特定位置进行识别的方法及电子设备
AU2015219766B2 (en) Electronic device and method for processing image
CN105247845A (zh) 用于选择媒体项目的系统和方法
EP3158825B1 (en) Media processing services on an access node
WO2021254269A1 (zh) 确定用户的特征的方法、设备及计算机可读介质
CN103999455A (zh) 协作交叉平台视频捕捉
CN105022760B (zh) 一种新闻推荐方法及装置
CN112199174A (zh) 消息发送的控制方法、装置、电子设备及计算机可读存储介质
CN111126594A (zh) 基于边缘计算的神经网络模型动态切分方法及装置
CN112218034A (zh) 视频处理方法、系统、终端和存储介质
CN106572131A (zh) 物联网中媒体数据分享的方法及系统
CN112463391B (zh) 内存控制方法、内存控制装置、存储介质与电子设备
US20230344740A1 (en) Sla performance prediction method and related apparatus, and device
CN113806656B (zh) 确定用户的特征的方法、设备及计算机可读介质
CN113395319B (zh) 网络故障感知的方法、系统、电子设备及存储介质
US9549042B2 (en) Context recognition and social profiling using mobile devices
CN106775815B (zh) 一种应用程序数据迁移的方法及装置
CN114648712B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN113721836A (zh) 一种数据去重方法及装置
CN113342505A (zh) 线程识别方法、线程识别装置、存储介质与电子设备
CN112786070A (zh) 音频数据处理方法、装置、存储介质与电子设备
CN114816686A (zh) 计算任务的处理方法、电子设备以及存储介质
CN114546511A (zh) 插件管理方法、系统及装置
WO2022228196A1 (zh) 一种视频处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant