CN106850314A - 一种用于确定用户属性模型及用户属性信息的方法与设备 - Google Patents
一种用于确定用户属性模型及用户属性信息的方法与设备 Download PDFInfo
- Publication number
- CN106850314A CN106850314A CN201710138471.2A CN201710138471A CN106850314A CN 106850314 A CN106850314 A CN 106850314A CN 201710138471 A CN201710138471 A CN 201710138471A CN 106850314 A CN106850314 A CN 106850314A
- Authority
- CN
- China
- Prior art keywords
- vector
- equipment
- information
- application
- user property
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的目的之一是提供一种用于确定用户属性信息的方法和设备,包括:基于训练特征向量进行训练学习,得到对应的用户属性模型;根据设备应用使用信息确定对应的设备应用特征向量;将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。本申请还有一个目的是提供一种用于确定用户属性模型的方法和设备。本申请基于设备信息对用户基础属性进行预测,减少了信息获取对渠道的依赖;堆叠式网络结构提高了预测准确性和效率。
Description
技术领域
本申请涉及通信领域,尤其涉及一种用于确定用户属性信息及用户属性模型的方法与设备。
背景技术
随着时代的发展,各类智能移动终端产品进入人们的生活,人们对网络也越发依赖。
画像数据指的是对一个人(用户)、一台终端设备或任何一个物体的表述标签信息。其中,在用户画像中,包括一些基础属性,例如性别、年龄、地域、群组等重要特征。在社交网络中,用户通常能准确填写自己的个人信息,但是并不排除偏差的可能性,并且这些用户信息通常由社交网站掌握且属于个人隐私,无法获取。在无法准确获取用户信息的情况下,即使能够获得用户的性别和年龄等的偏向信息,也能为商业决策提供参考。
目前,利用网络和移动终端挖掘用户属性的研究成果越来越多。但是这些研究成果,多基于对用户网页浏览记录、新闻广告点击记录等大量用户日志信息进行分析,这些信息来源渠道众多且内容复杂多变。
发明内容
本申请的一个目的是提供一种用于确定用户属性信息及用户属性模型的方法与设备。
根据本申请的一个方面,提供了一种用于确定用户属性信息的方法,该方法包括:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
根据本申请的另一个方面,提供了一种用于确定用户属性模型的方法,该方法包括:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
根据本申请的一个方面,提供了一种用于确定用户属性信息的设备,该设备包括:
第一一装置,用于基于训练特征向量进行训练学习,得到对应的用户属性模型;
第一二装置,用于根据设备应用使用信息确定对应的设备应用特征向量;
第一三装置,用于将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
根据本申请的另一个方面,提供了一种用于确定用户属性模型的设备,该设备包括:
第二一装置,用于基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
根据本申请的一个方面,提供了一种用于确定用户属性信息的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
根据本申请的另一个方面,提供了一种用于确定用户属性模型的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
根据本申请的一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
根据本申请的另一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
与现有技术相比,本申请至少具有以下有益效果:
1)获取用户属性模型,并通过所获取的用户属性模型对用户的基础信息进行预测,提高了用户基础信息预测的效率和准确性;
2)通过获取设备信息、应用信息以及用户统计信息建立用户属性模型并对用户基础信息进行预测,大大减少了信息获取过程对信息渠道的依赖,并克服了用户网页浏览日志、社交关系及新闻广告浏览记录等信息量大、数据动态不稳定和难以获取等缺点,提高了决策效率和准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个实施例的一种用于确定用户属性信息的方法流程图;
图2示出根据本申请另一个实施例的一种用于确定用户属性信息的方法流程图;
图3示出根据本申请再一个实施例的一种用于确定用户属性信息的方法的子步骤流程图;
图4示出根据本申请又一个实施例的一种用于确定用户属性信息的方法流程图;
图5示出根据本申请还一个实施例的一种用于确定用户属性模型的方法流程图;
图6示出根据本申请一个实施例的一种用于确定用户属性信息的设备结构图;
图7示出根据本申请另一个实施例的一种用于确定用户属性信息的设备结构图;
图8示出根据本申请再一个实施例的一种用于确定用户属性信息的设备的装置子单元结构图;
图9示出根据本申请又一个实施例的一种用于确定用户属性信息的设备结构图;
图10示出根据本申请还一个实施例的一种用于确定用户属性信息的设备结构图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。
图1示出了根据本申请一个方面的一种用于确定用户属性信息的方法,该方法包括步骤S11、步骤S12和步骤S13。
其中,在步骤S11中,第一设备1基于训练特征向量进行训练学习,得到对应的用户属性模型;在步骤S12中,第一设备1根据设备应用使用信息确定对应的设备应用特征向量;在步骤S13中,第一设备1将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
具体来说,在步骤S11中,第一设备1基于训练特征向量进行训练学习,得到对应的用户属性模型是指,基于训练特征向量,不断调整对应的用户属性模型的模型参数,直至得到最终的模型参数,从而得到与所述训练特征向量对应的用户属性模型。
优选地,所述训练特征向量包括设备信息向量、应用安装信息向量、应用活跃信息向量,以及根据它们中的至少一项进行统计处理而获得的属性统计向量中的至少一种。其中,设备信息向量与设备本身的信息相对应,例如,手机的品牌、型号、屏幕分辨率、价格区间等信息;应用安装信息向量与设备上安装的应用及其类别相对应;应用活跃信息向量与设备上所安装应用的打开次数、使用时长、产生流量等信息相对应。相对于用户的社交信息,这些信息较易获取,对渠道的依赖性低;同时,避免了对用户网页浏览日志、社交关系及新闻广告浏览记录等数据量大、数据动态不稳定和难以获取等缺点,提高了决策效率和准确性。
优选地,所述设备信息向量包括:移动设备的品牌信息向量、移动设备的型号信息向量、移动设备的屏幕分辨率信息向量和移动设备的价格信息向量中的至少一项。其中,移动设备的品牌信息向量对应该移动设备的品牌信息。此外,优选地,补充参考图2,在步骤S14中,第一设备1根据用于训练的设备应用使用信息确定对应的训练特征向量,然后在步骤S11’中,第一设备1基于所述训练特征向量进行训练学习得到对应的用户属性模型。其中,所述设备应用使用信息可包括但不限于:设备信息、应用安装信息、应用活跃信息。其中进一步优选地,步骤S14包含子步骤S14a。在子步骤S14a中,第一设备1根据用于训练的设备应用使用信息中设备上应用安装信息,以及应用安装向量模型,生成对应的应用安装信息向量。用于训练用户属性模型的训练特征向量包括相应的设备信息向量、应用安装信息向量、应用活跃信息向量、根据其他训练特征向量统计处理并向量化后得到的属性统计向量中的一个或多个。
例如,以苹果、三星和华为这三个手机品牌为例,苹果设备对应的移动设备的品牌信息向量为[1,0,0],三星设备对应的移动设备的品牌信息向量为[0,1,0],华为设备对应的移动设备的品牌信息向量为[0,0,1]。同样,移动设备的型号向量对应该移动设备的型号信息,移动设备的屏幕分辨率信息向量对应该移动设备的屏幕分辨率信息,各自对应的向量与前述品牌信息类似。对于移动设备的价格信息,可将手机价格区间按照一定步长划分区间,当移动设备的价格落在某个区间,向量对应位置置1,否则置0,例如某台移动设备的价格为1400元,价格区间的划分为[0-500,501-1000,1001-1500,1501-2000],则该移动设备的价格信息对应的移动设备的价格信息向量为[0,0,1,0]。
前述应用安装信息向量对应该移动设备上的应用安装信息。例如,将达到一定安装量的应用加入一个应用库,该应用库包含用户所安装的应用名,也可进一步包含每个应用对应的应用类别;应用安装信息向量包含应用安装向量和应用类别向量。其中,应用安装向量对应用户安装的应用包名,维度对应应用库中应用的个数;应用类别向量对应应用安装类别,维度对应应用库中应用的类别数。例如,对于一个只包含5个应用的应用库,其中包含(应用1,应用2,应用3,应用4,应用5),分别对应类别(社交,运动,社交,视频,工具),某台移动设备上安装了应用1和应用5,那么对应的应用安装向量为[1,0,0,0,1],应用安装类别向量[1,0,0,1](分别对应相应的社交类别和工具类别)。
前述应用活跃信息向量反映实际使用中,特定用户对每个应用的偏好程度,对每个应用而言,打开次数、使用时长、产生流量等信息可体现用户之间的差异性。更加优选地是,参考图3,步骤S14还包括子步骤S14b,在子步骤S14b中,第一设备1根据用于训练的设备应用使用信息中设备上应用被使用信息,以及与所述应用安装向量模型相对应的应用活跃向量模型,生成对应的经归一化的应用活跃信息向量。应用的活跃信息的来源包括但不限于:用户打开应用的次数,和/或用户使用的应用产生的流量统计信息。以应用打开次数和应用产生流量为例,结合前述应用安装信息产生应用活跃信息向量。例如,前述安装了应用1和应用5的移动设备,对应的应用活跃信息向量为[应用1流量/次数,0,0,0,应用5流量/次数],对应的活跃类别向量为[社交流量/次数,0,0,工具流量/次数]。为消除指标的量纲的影响,可将各数据标准化,例如进行归一化。此外,归一化操作还可加快训练网络的收敛。
设备信息向量和/或应用安装信息向量和/或应用活跃信息向量对应的属性统计信息对应各移动设备的用户,是根据其他训练特征向量进行统计处理之后获得的,可用于获取相应的属性统计向量。
优选地,该属性统计信息为概率信息。其中,步骤S11包含子步骤S11a(未示出)和子步骤S11b(未示出)。在子步骤S11a中,第一设备1对设备信息向量和/或应用安装信息向量和/或应用活跃信息向量按属性特征进行统计处理,以获得所述训练特征向量对应的属性统计信息;在子步骤S11b中,第一设备1基于所述设备信息向量和/或应用安装信息向量和/或应用活跃信息向量及所述属性统计信息进行训练学习得到对应的用户属性模型。其中,用于训练用户属性模型的属性统计信息可以是向量形式,即,将属性统计信息向量化得到用户的属性统计向量,再基于训练特征向量训练用户属性模型,其中训练特征向量包括设备信息向量和/或应用安装信息向量和/或应用活跃信息向量和/或属性统计向量。例如,根据人工标记的数据,或根据由用户自愿填写的相应数据,对用户的某类特征进行统计处理,得出该类特征在不同性别、年龄段、群体之间的概率,即为该训练特征向量对应的属性统计信息;然后,将该属性统计信息向量化,得到用户的属性统计向量,并基于其他训练特征向量和该属性统计向量调整参数,得到对应的用户属性模型。由该模型预测用户的性别和年龄取向,即可为商业决策提供参考信息,并不限于需要准确获知用户的性别和年龄数据,从而提高了决策效率。以某款手机男性用户概率为0.4、女性概率为0.6、年龄分布概率为(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)为例,对应的用户属性统计向量为[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他属性统计信息对应的统计特征类推,不再赘述。
在步骤S12中,第一设备1根据设备应用使用信息确定对应的设备应用特征向量。具体来讲,在步骤S12中,第一设备1根据对应的用户设备上安装的应用的相关信息,例如,应用的安装信息、应用活跃信息和/或应用的类别信息,确定与应用相关信息相对应的设备应用特征向量。其中,设备应用使用信息和训练特征向量相对应,依据设备应用使用信息获得的设备应用特征向量也相对应。例如,当训练特征向量包含应用的安装信息、应用活跃信息和/或应用的类别信息,相应地,设备应用特征向量也对应地包含应用的安装信息、应用活跃信息和/或应用的类别信息,并且格式相同。在某些情况下,训练特征向量和设备应用特征向量是通过同种方式获取的,例如都是系统收集设备上的应用的安装信息、应用活跃信息和/或应用的类别信息而获得的,其中训练特征向量包含人工标记;在另一些情况下,训练特征向量和设备应用特征向量是通过不同方式获取的,例如训练特征向量是根据由用户自愿填写的相应数据获得的,而设备应用特征向量是系统收集设备上的应用的安装信息、应用活跃信息和/或应用的类别信息而获得的。
在步骤S13中,第一设备1将所述设备应用特征向量作用于所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。具体来讲,在步骤S13中,第一设备1在得到与所述训练特征向量对应的用户属性模型后,将新的、需要获取对应的用户属性信息的设备所对应的设备应用特征向量,作为所述用户属性模型的输入,从而获得相对应的用户属性信息,即完成对用户基础属性的预测。
其中,若在训练用户属性模型时,除了设备信息向量、应用安装信息向量、应用活跃信息向量等训练特征向量之外,根据对应的属性统计信息所得到的属性统计向量也被作为输入,则相应地,在将待预测用户的设备应用特征向量输入所述用户属性模型时,也将待预测用户的设备应用特征向量所对应的用户属性统计向量同时作用于该用户属性模型,以预测用户基础属性。
优选地,所述训练特征向量的部分或全部为稀疏化向量,例如,在品牌信息向量中,只有与该设备的品牌相对应的维度置1,其余维度均为0;进一步地,根据其他训练特征向量统计处理后获取的属性统计向量也为稀疏化向量,例如,用户的年龄分布特征向量仅将与用户对应的年龄段所对应的维度置1,其余维度均为0。稀疏化向量便于生成,且在向量维度较高的情况下,能大大节省计算资源,例如对于二分查找而言,向量稀疏度越高,相比于遍历的方法节省的计算资源就越可观。
参考图4,在步骤S11”中,第一设备1基于训练特征向量及所述训练特征向量对应的属性统计信息进行分阶段训练学习得到对应的用户属性模型,其中,在初始训练学习阶段使用adam训练算法,当训练过程中的验证集误差低于误差阈值时改用梯度下降算法训练学习。例如,拟采用神经网络对用户进行分类,在训练网络参数时,采用分阶段训练法,首先随机初始化神经网络的权重,在开始训练时采用adam训练算法,选取适当的训练参数进行训练并更新网络参数,并设置误差阈值,当验证集的误差低于该误差阈值,就认为验证集误差不再减小,停止训练并保留网络参数;随后改用梯度下降算法,选取适当的学习率在已经获得的网络参数上对网络进行微调,直至验证集误差不再减小,获得最终的网络参数。分阶段训练的好处在于,能够加快网络的收敛速度,并且能够克服网络达到次优解或者最优解时网络发散的问题。
除以上所述训练算法之外,还可采用SGD(stochastic gradient descent,随机梯度下降)、Momentum、Adagrad、Adadelta等算法。
优选地,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个或几个学习网络的输入。例如,以堆叠的深度网络为例,其可以输出多个目标,下一个深度网络堆叠在上一个或几个深度网络上,本网络的输入为上一个或几个的输出。这种堆叠的学习网络结构能够使得网络在不同的输出点拟合不同的目标结果,从而提高了决策效率和用户基础信息预测的准确性。其中,用于堆叠的学习网络包括但不限于神经网络、逻辑回归、决策树、随机森林、支持向量机、聚类和/或遗传算法等,或者它们的堆叠/嵌套。
根据本申请另一个方面,提供了一种用于确定用户属性模型的方法,该方法包括步骤S21。
在步骤S21中,第二设备2基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
优选地,所述训练特征向量包括设备信息向量、应用安装信息向量、应用活跃信息向量,以及根据它们中的至少一项进行统计处理而获得的属性统计向量中的至少一种。其中,设备信息向量与设备本身的信息相对应,例如,手机的品牌、型号、屏幕分辨率、价格区间等信息;应用安装信息向量与设备上安装的应用及其类别相对应;应用活跃信息向量与设备上所安装应用的打开次数、使用时长、产生流量等信息相对应。相对于用户的社交信息,这些信息较易获取,对渠道的依赖性低;同时,避免了对用户网页浏览日志、社交关系及新闻广告浏览记录等数据量大、数据动态不稳定和难以获取等缺点,提高了决策效率和准确性。
优选地,所述设备信息向量包括:移动设备的品牌信息向量、移动设备的型号信息向量、移动设备的屏幕分辨率信息向量和移动设备的价格信息向量中的至少一项。其中,移动设备的品牌信息向量对应该移动设备的品牌信息。此外,优选地,第二设备2根据用于训练的设备应用使用信息确定对应的训练特征向量,然后基于所述训练特征向量及所述训练特征向量对应的属性统计信息进行训练学习得到对应的用户属性模型。其中,所述设备应用使用信息可包括但不限于:设备信息、应用安装信息、应用活跃信息。其中进一步优选地,第二设备2根据用于训练的设备应用使用信息中设备上应用安装信息,以及应用安装向量模型,生成对应的应用安装信息向量。
例如,以苹果、三星和华为这三个手机品牌为例,苹果设备对应的移动设备的品牌信息向量为[1,0,0],三星设备对应的移动设备的品牌信息向量为[0,1,0],华为设备对应的移动设备的品牌信息向量为[0,0,1]。同样,移动设备的型号向量对应该移动设备的型号信息,移动设备的屏幕分辨率信息向量对应该移动设备的屏幕分辨率信息,各自对应的向量与前述品牌信息类似。对于移动设备的价格信息,可将手机价格区间按照一定步长划分区间,当移动设备的价格落在某个区间,向量对应位置置1,否则置0,例如某台移动设备的价格为1400元,价格区间的划分为[0-500,501-1000,1001-1500,1501-2000],则该移动设备的价格信息对应的移动设备的价格信息向量为[0,0,1,0]。
前述应用安装信息向量对应该移动设备上的应用安装信息。例如,将达到一定安装量的应用加入一个应用库,该应用库包含用户所安装的应用名,也可进一步包含每个应用对应的应用类别;应用安装信息向量包含应用安装向量和应用类别向量。其中,应用安装向量对应用户安装的应用包名,维度对应应用库中应用的个数;应用类别向量对应应用安装类别,维度对应应用库中应用的类别数。例如,对于一个只包含5个应用的应用库,其中包含(应用1,应用2,应用3,应用4,应用5),分别对应类别(社交,运动,社交,视频,工具),某台移动设备上安装了应用1和应用5,那么对应的应用安装向量为[1,0,0,0,1],应用安装类别向量[1,0,0,1](分别对应相应的社交类别和工具类别)。
前述应用活跃信息向量反映实际使用中,特定用户对每个应用的偏好程度,对每个应用而言,打开次数、使用时长、产生流量等信息可体现用户之间的差异性。更加优选地是,第二设备2根据用于训练的设备应用使用信息中设备上应用被使用信息,以及与所述应用安装向量模型相对应的应用活跃向量模型,生成对应的经归一化的应用活跃信息向量。应用的活跃信息的来源包括但不限于:用户打开应用的次数,和/或用户使用的应用产生的流量统计信息。以应用打开次数和应用产生流量为例,结合前述应用安装信息产生应用活跃信息向量。例如,前述安装了应用1和应用5的移动设备,对应的应用活跃信息向量为[应用1流量/次数,0,0,0,应用5流量/次数],对应的活跃类别向量为[社交流量/次数,0,0,工具流量/次数]。为消除指标的量纲的影响,可将各数据标准化,例如进行归一化。此外,归一化操作还可加快训练网络的收敛。
前述设备信息向量和/或应用安装信息向量和/或应用活跃信息向量对应的属性统计信息对应各移动设备的用户,是根据其他训练特征向量进行统计处理之后获得的。
优选地,该属性统计信息为概率信息。其中,第二设备2对设备信息向量和/或应用安装信息向量和/或应用活跃信息向量按属性特征进行统计处理,以获得所述训练特征向量对应的属性统计信息,再基于所述设备信息向量和/或应用安装信息向量和/或应用活跃信息向量及所述属性统计信息进行训练学习得到对应的用户属性模型。其中,用于训练用户属性模型的属性统计信息可以是向量形式,即,将属性统计信息向量化得到用户的属性统计向量,再基于训练特征向量训练用户属性模型,其中训练特征向量包括设备信息向量和/或应用安装信息向量和/或应用活跃信息向量和/或属性统计向量。例如,根据人工标记的数据,或根据由用户自愿填写的相应数据,对用户的某类特征进行统计处理,得出该类特征在不同性别、年龄段、群体之间的概率,即为该训练特征向量对应的属性统计信息;然后,将该属性统计信息向量化,得到用户的属性统计向量,并基于前述训练特征向量和该属性统计向量调整参数,得到对应的用户属性模型。由该模型预测用户的性别和年龄取向,即可为商业决策提供参考信息,并不限于需要准确获知用户的性别和年龄数据,从而提高了决策效率。以某款手机男性用户概率为0.4、女性概率为0.6、年龄分布概率为(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)为例,对应的用户属性统计向量为[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他属性统计信息对应的统计特征类推,不再赘述。
参考图5,优选地,本方法还包括步骤S22和步骤S23。其中,在步骤S22中,第二设备2根据设备应用使用信息确定对应的设备应用特征向量。具体来讲,在步骤S22中,第二设备2根据对应的用户设备上安装的应用的相关信息,例如,应用的安装信息、应用活跃信息和/或应用的类别信息,确定与应用相关信息相对应的设备应用特征向量。
在步骤S23中,第二设备2将所述设备应用特征向量作用于所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。具体来讲,在步骤S23中,第二设备2在得到与所述训练特征向量对应的用户属性模型后,将新的、需要获取对应的用户属性信息的设备所对应的设备应用特征向量,作为所述用户属性模型的输入,从而获得相对应的用户属性信息,即完成对用户基础属性的预测。
其中,若在训练用户属性模型时,除了设备信息向量、应用安装信息向量、应用活跃信息向量等训练特征向量之外,根据对应的属性统计信息所得到的属性统计向量也被作为输入,则相应地,在将待预测用户的设备应用特征向量输入所述用户属性模型时,也将待预测用户的设备应用特征向量所对应的用户属性统计向量同时作用于该用户属性模型,以预测用户基础属性。
另外,待预测用户的设备应用使用信息和训练特征向量相对应,依据设备应用使用信息获得的设备应用特征向量也相对应。例如,当训练特征向量包含应用的安装信息、应用活跃信息和/或应用的类别信息,相应地,设备应用特征向量也对应地包含应用的安装信息、应用活跃信息和/或应用的类别信息,并且格式相同。在某些情况下,训练特征向量和设备应用特征向量是通过同种方式获取的,例如都是系统收集设备上的应用的安装信息、应用活跃信息和/或应用的类别信息而获得的,其中训练特征向量包含人工标记;在另一些情况下,训练特征向量和设备应用特征向量是通过不同方式获取的,例如训练特征向量是根据由用户自愿填写的相应数据获得的,而设备应用特征向量是系统收集设备上的应用的安装信息、应用活跃信息和/或应用的类别信息而获得的。
优选地,所述训练特征向量的部分或全部为稀疏化向量,例如,在品牌信息向量中,只有与该设备的品牌相对应的维度置1,其余维度均为0;进一步地,根据其他训练特征向量统计处理后获取的属性统计向量也为稀疏化向量,例如,用户的年龄分布特征向量仅将与用户对应的年龄段所对应的维度置1,其余维度均为0。稀疏化向量便于生成,且在向量维度较高的情况下,能大大节省计算资源,例如对于二分查找而言,向量稀疏度越高,相比于遍历的方法节省的计算资源就越可观。
第二设备2基于训练特征向量及所述训练特征向量对应的属性统计信息进行分阶段训练学习得到对应的用户属性模型,其中,在初始训练学习阶段使用adam训练算法,当训练过程中的验证集误差低于误差阈值时改用梯度下降算法训练学习。例如,拟采用神经网络对用户进行分类,在训练网络参数时,采用分阶段训练法,首先随机初始化神经网络的权重,在开始训练时采用adam训练算法,选取适当的训练参数进行训练并更新网络参数,并设置误差阈值,当验证集的误差低于该误差阈值,就认为验证集误差不再减小,停止训练并保留网络参数;随后改用梯度下降算法,选取适当的学习率在已经获得的网络参数上对网络进行微调,直至验证集误差不再减小,获得最终的网络参数。分阶段训练的好处在于,能够加快网络的收敛速度,并且能够克服网络达到次优解或者最优解时网络发散的问题。
除以上所述训练算法之外,还可采用SGD(stochastic gradient descent,随机梯度下降)、Momentum、Adagrad、Adadelta等算法。
优选地,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个或几个学习网络的输入。例如,以堆叠的深度网络为例,其可以输出多个目标,下一个深度网络堆叠在上一个或几个深度网络上,本网络的输入为上一个或几个的输出。这种堆叠的学习网络结构能够使得网络在不同的输出点拟合不同的目标结果,从而提高了决策效率和用户基础信息预测的准确性。其中,用于堆叠的学习网络包括但不限于神经网络、逻辑回归、决策树、随机森林、支持向量机、聚类和/或遗传算法等,或者它们的堆叠/嵌套。
图6示出了根据本申请一个方面的一种用于确定用户属性信息的设备,其中,第一设备1包括第一一装置11、第一二装置12和第一三装置13。
其中,第一一装置11基于训练特征向量进行训练学习,得到对应的用户属性模型;第一二装置12根据设备应用使用信息确定对应的设备应用特征向量;第一三装置13将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
具体来说,第一一装置11基于训练特征向量进行训练学习,得到对应的用户属性模型是指,基于训练特征向量,不断调整对应的用户属性模型的模型参数,直至得到最终的模型参数,从而得到与所述训练特征向量对应的用户属性模型。
优选地,所述训练特征向量包括设备信息向量、应用安装信息向量、应用活跃信息向量,以及根据它们中的至少一项进行统计处理而获得的属性统计向量中的至少一种。其中,设备信息向量与设备本身的信息相对应,例如,手机的品牌、型号、屏幕分辨率、价格区间等信息;应用安装信息向量与设备上安装的应用及其类别相对应;应用活跃信息向量与设备上所安装应用的打开次数、使用时长、产生流量等信息相对应。相对于用户的社交信息,这些信息较易获取,对渠道的依赖性低;同时,避免了对用户网页浏览日志、社交关系及新闻广告浏览记录等数据量大、数据动态不稳定和难以获取等缺点,提高了决策效率和准确性。
优选地,所述设备信息向量包括:移动设备的品牌信息向量、移动设备的型号信息向量、移动设备的屏幕分辨率信息向量和移动设备的价格信息向量中的至少一项。其中,移动设备的品牌信息向量对应该移动设备的品牌信息。此外,优选地,补充参考图7,第一四装置14根据用于训练的设备应用使用信息确定对应的训练特征向量,然后第一一装置11基于所述训练特征向量进行训练学习得到对应的用户属性模型。其中,所述设备应用使用信息可包括但不限于:设备信息、应用安装信息、应用活跃信息。其中进一步优选地,第一四装置14包含第一四一单元14a。第一四一单元14a根据用于训练的设备应用使用信息中设备上应用安装信息,以及应用安装向量模型,生成对应的应用安装信息向量。用于训练用户属性模型的训练特征向量包括相应的设备信息向量、应用安装信息向量、应用活跃信息向量、根据其他训练特征向量统计处理并向量化后得到的属性统计向量中的一个或多个。
例如,以苹果、三星和华为这三个手机品牌为例,苹果设备对应的移动设备的品牌信息向量为[1,0,0],三星设备对应的移动设备的品牌信息向量为[0,1,0],华为设备对应的移动设备的品牌信息向量为[0,0,1]。同样,移动设备的型号向量对应该移动设备的型号信息,移动设备的屏幕分辨率信息向量对应该移动设备的屏幕分辨率信息,各自对应的向量与前述品牌信息类似。对于移动设备的价格信息,可将手机价格区间按照一定步长划分区间,当移动设备的价格落在某个区间,向量对应位置置1,否则置0,例如某台移动设备的价格为1400元,价格区间的划分为[0-500,501-1000,1001-1500,1501-2000],则该移动设备的价格信息对应的移动设备的价格信息向量为[0,0,1,0]。
前述应用安装信息向量对应该移动设备上的应用安装信息。例如,将达到一定安装量的应用加入一个应用库,该应用库包含用户所安装的应用名,也可进一步包含每个应用对应的应用类别;应用安装信息向量包含应用安装向量和应用类别向量。其中,应用安装向量对应用户安装的应用包名,维度对应应用库中应用的个数;应用类别向量对应应用安装类别,维度对应应用库中应用的类别数。例如,对于一个只包含5个应用的应用库,其中包含(应用1,应用2,应用3,应用4,应用5),分别对应类别(社交,运动,社交,视频,工具),某台移动设备上安装了应用1和应用5,那么对应的应用安装向量为[1,0,0,0,1],应用安装类别向量[1,0,0,1](分别对应相应的社交类别和工具类别)。
前述应用活跃信息向量反映实际使用中,特定用户对每个应用的偏好程度,对每个应用而言,打开次数、使用时长、产生流量等信息可体现用户之间的差异性。更加优选地是,参考图8,第一四装置14还包括第一四二单元14b,第一四二单元14b根据用于训练的设备应用使用信息中设备上应用被使用信息,以及与所述应用安装向量模型相对应的应用活跃向量模型,生成对应的经归一化的应用活跃信息向量。应用的活跃信息的来源包括但不限于:用户打开应用的次数,和/或用户使用的应用产生的流量统计信息。以应用打开次数和应用产生流量为例,结合前述应用安装信息产生应用活跃信息向量。例如,前述安装了应用1和应用5的移动设备,对应的应用活跃信息向量为[应用1流量/次数,0,0,0,应用5流量/次数],对应的活跃类别向量为[社交流量/次数,0,0,工具流量/次数]。为消除指标的量纲的影响,可将各数据标准化,例如进行归一化。此外,归一化操作还可加快训练网络的收敛。
设备信息向量和/或应用安装信息向量和/或应用活跃信息向量对应的属性统计信息对应各移动设备的用户,是根据其他训练特征向量进行统计处理之后获得的,可用于获取相应的属性统计向量。
优选地,该属性统计信息为概率信息。其中,第一一装置11包含第一一一单元11a(未示出)和第一一一单元11b(未示出)。第一一一单元11a对设备信息向量和/或应用安装信息向量和/或应用活跃信息向量按属性特征进行统计处理,以获得所述训练特征向量对应的属性统计信息;第一一二单元11b基于所述设备信息向量和/或应用安装信息向量和/或应用活跃信息向量及所述属性统计信息进行训练学习得到对应的用户属性模型。其中,用于训练用户属性模型的属性统计信息可以是向量形式,即,将属性统计信息向量化得到用户的属性统计向量,再基于训练特征向量训练用户属性模型,其中训练特征向量包括设备信息向量和/或应用安装信息向量和/或应用活跃信息向量和/或属性统计向量。例如,根据人工标记的数据,或根据由用户自愿填写的相应数据,对用户的某类特征进行统计处理,得出该类特征在不同性别、年龄段、群体之间的概率,即为该训练特征向量对应的属性统计信息;然后,将该属性统计信息向量化,得到用户的属性统计向量,并基于其他训练特征向量和该属性统计向量调整参数,得到对应的用户属性模型。由该模型预测用户的性别和年龄取向,即可为商业决策提供参考信息,并不限于需要准确获知用户的性别和年龄数据,从而提高了决策效率。以某款手机男性用户概率为0.4、女性概率为0.6、年龄分布概率为(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)为例,对应的用户属性统计向量为[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他属性统计信息对应的统计特征类推,不再赘述。
第一二装置12根据设备应用使用信息确定对应的设备应用特征向量。具体来讲,第一二装置12根据对应的用户设备上安装的应用的相关信息,例如,应用的安装信息、应用活跃信息和/或应用的类别信息,确定与应用相关信息相对应的设备应用特征向量。
第一三装置13将所述设备应用特征向量作用于所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。具体来讲,第一三装置13在得到与所述训练特征向量对应的用户属性模型后,将新的、需要获取对应的用户属性信息的设备所对应的设备应用特征向量,作为所述用户属性模型的输入,从而获得相对应的用户属性信息,即完成对用户基础属性的预测。
其中,若在训练用户属性模型时,除了设备信息向量、应用安装信息向量、应用活跃信息向量等训练特征向量之外,根据对应的属性统计信息所得到的属性统计向量也被作为输入,则相应地,在将待预测用户的设备应用特征向量作用于所述用户属性模型时,也将所述设备应用特征向量所对应的用户属性统计向量同时作用于该用户属性模型,以预测用户基础属性。
优选地,所述训练特征向量的部分或全部为稀疏化向量,例如,在品牌信息向量中,只有与该设备的品牌相对应的维度置1,其余维度均为0;进一步地,根据其他训练特征向量统计处理后获取的属性统计向量也为稀疏化向量,例如,用户的年龄分布特征向量仅将与用户对应的年龄段所对应的维度置1,其余维度均为0。稀疏化向量便于生成,且在向量维度较高的情况下,能大大节省计算资源,例如对于二分查找而言,向量稀疏度越高,相比于遍历的方法节省的计算资源就越可观。
参考图9,在第一设备1’中,第一一装置11基于训练特征向量及所述训练特征向量对应的属性统计信息进行分阶段训练学习得到对应的用户属性模型,其中,在初始训练学习阶段使用adam训练算法,当训练过程中的验证集误差低于误差阈值时改用梯度下降算法训练学习。例如,拟采用神经网络对用户进行分类,在训练网络参数时,采用分阶段训练法,首先随机初始化神经网络的权重,在开始训练时采用adam训练算法,选取适当的训练参数进行训练并更新网络参数,并设置误差阈值,当验证集的误差低于该误差阈值,就认为验证集误差不再减小,停止训练并保留网络参数;随后改用梯度下降算法,选取适当的学习率在已经获得的网络参数上对网络进行微调,直至验证集误差不再减小,获得最终的网络参数。分阶段训练的好处在于,能够加快网络的收敛速度,并且能够克服网络达到次优解或者最优解时网络发散的问题。
除以上所述训练算法之外,还可采用SGD(stochastic gradient descent,随机梯度下降)、Momentum、Adagrad、Adadelta等算法。
优选地,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个或几个学习网络的输入。例如,以堆叠的深度网络为例,其可以输出多个目标,下一个深度网络堆叠在上一个或几个深度网络上,本网络的输入为上一个或几个的输出。这种堆叠的学习网络结构能够使得网络在不同的输出点拟合不同的目标结果,从而提高了决策效率和用户基础信息预测的准确性。其中,用于堆叠的学习网络包括但不限于神经网络、逻辑回归、决策树、随机森林、支持向量机、聚类和/或遗传算法等,或者它们的堆叠/嵌套。
根据本申请另一个方面,提供了一种用于确定用户属性模型的设备,其中,第二设备2包括第二一装置21。
第二一装置21基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
优选地,所述训练特征向量包括设备信息向量、应用安装信息向量、应用活跃信息向量,以及根据它们中的至少一项进行统计处理而获得的属性统计向量中的至少一种。其中,设备信息向量与设备本身的信息相对应,例如,手机的品牌、型号、屏幕分辨率、价格区间等信息;应用安装信息向量与设备上安装的应用及其类别相对应;应用活跃信息向量与设备上所安装应用的打开次数、使用时长、产生流量等信息相对应。相对于用户的社交信息,这些信息较易获取,对渠道的依赖性低;同时,避免了对用户网页浏览日志、社交关系及新闻广告浏览记录等数据量大、数据动态不稳定和难以获取等缺点,提高了决策效率和准确性。
优选地,所述设备信息向量包括:移动设备的品牌信息向量、移动设备的型号信息向量、移动设备的屏幕分辨率信息向量和移动设备的价格信息向量中的至少一项。其中,移动设备的品牌信息向量对应该移动设备的品牌信息。此外,优选地,第二设备2根据用于训练的设备应用使用信息确定对应的训练特征向量,然后基于所述训练特征向量及所述训练特征向量对应的属性统计信息进行训练学习得到对应的用户属性模型。其中,所述设备应用使用信息可包括但不限于:设备信息、应用安装信息、应用活跃信息。其中进一步优选地,第二设备2根据用于训练的设备应用使用信息中设备上应用安装信息,以及应用安装向量模型,生成对应的应用安装信息向量。
例如,以苹果、三星和华为这三个手机品牌为例,苹果设备对应的移动设备的品牌信息向量为[1,0,0],三星设备对应的移动设备的品牌信息向量为[0,1,0],华为设备对应的移动设备的品牌信息向量为[0,0,1]。同样,移动设备的型号向量对应该移动设备的型号信息,移动设备的屏幕分辨率信息向量对应该移动设备的屏幕分辨率信息,各自对应的向量与前述品牌信息类似。对于移动设备的价格信息,可将手机价格区间按照一定步长划分区间,当移动设备的价格落在某个区间,向量对应位置置1,否则置0,例如某台移动设备的价格为1400元,价格区间的划分为[0-500,501-1000,1001-1500,1501-2000],则该移动设备的价格信息对应的移动设备的价格信息向量为[0,0,1,0]。
前述应用安装信息向量对应该移动设备上的应用安装信息。例如,将达到一定安装量的应用加入一个应用库,该应用库包含用户所安装的应用名,也可进一步包含每个应用对应的应用类别;应用安装信息向量包含应用安装向量和应用类别向量。其中,应用安装向量对应用户安装的应用包名,维度对应应用库中应用的个数;应用类别向量对应应用安装类别,维度对应应用库中应用的类别数。例如,对于一个只包含5个应用的应用库,其中包含(应用1,应用2,应用3,应用4,应用5),分别对应类别(社交,运动,社交,视频,工具),某台移动设备上安装了应用1和应用5,那么对应的应用安装向量为[1,0,0,0,1],应用安装类别向量[1,0,0,1](分别对应相应的社交类别和工具类别)。
前述应用活跃信息向量反映实际使用中,特定用户对每个应用的偏好程度,对每个应用而言,打开次数、使用时长、产生流量等信息可体现用户之间的差异性。更加优选地是,第二设备2根据用于训练的设备应用使用信息中设备上应用被使用信息,以及与所述应用安装向量模型相对应的应用活跃向量模型,生成对应的经归一化的应用活跃信息向量。应用的活跃信息的来源包括但不限于:用户打开应用的次数,和/或用户使用的应用产生的流量统计信息。以应用打开次数和应用产生流量为例,结合前述应用安装信息产生应用活跃信息向量。例如,前述安装了应用1和应用5的移动设备,对应的应用活跃信息向量为[应用1流量/次数,0,0,0,应用5流量/次数],对应的活跃类别向量为[社交流量/次数,0,0,工具流量/次数]。为消除指标的量纲的影响,可将各数据标准化,例如进行归一化。此外,归一化操作还可加快训练网络的收敛。
前述设备信息向量和/或应用安装信息向量和/或应用活跃信息向量对应的属性统计信息对应各移动设备的用户,是根据其他训练特征向量进行统计处理之后获得的。
优选地,该属性统计信息为概率信息。其中,第二设备2对设备信息向量和/或应用安装信息向量和/或应用活跃信息向量按属性特征进行统计处理,以获得所述训练特征向量对应的属性统计信息,再基于所述设备信息向量和/或应用安装信息向量和/或应用活跃信息向量及所述属性统计信息进行训练学习得到对应的用户属性模型。其中,用于训练用户属性模型的属性统计信息可以是向量形式,即,将属性统计信息向量化得到用户的属性统计向量,再基于训练特征向量训练用户属性模型,其中训练特征向量包括设备信息向量和/或应用安装信息向量和/或应用活跃信息向量和/或属性统计向量。例如,根据人工标记的数据,或根据由用户自愿填写的相应数据,对用户的某类特征进行统计处理,得出该类特征在不同性别、年龄段、群体之间的概率,即为该训练特征向量对应的属性统计信息;然后,将该属性统计信息向量化,得到用户的属性统计向量,并基于前述训练特征向量和该属性统计向量调整参数,得到对应的用户属性模型。由该模型预测用户的性别和年龄取向,即可为商业决策提供参考信息,并不限于需要准确获知用户的性别和年龄数据,从而提高了决策效率。以某款手机男性用户概率为0.4、女性概率为0.6、年龄分布概率为(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)为例,对应的用户属性统计向量为[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他属性统计信息对应的统计特征类推,不再赘述。
参考图10,优选地,第二设备2还包括第二二装置22和第二三装置23。其中,第二二装置22根据设备应用使用信息确定对应的设备应用特征向量。具体来讲,第二二装置22根据对应的用户设备上安装的应用的相关信息,例如,应用的安装信息、应用活跃信息和/或应用的类别信息,确定与应用相关信息相对应的设备应用特征向量。
第二三装置23将所述设备应用特征向量作用于所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。具体来讲,第二三装置23在得到与所述训练特征向量对应的用户属性模型后,将新的、需要获取对应的用户属性信息的设备所对应的设备应用特征向量,作为所述用户属性模型的输入,从而获得相对应的用户属性信息,即完成对用户基础属性的预测。
其中,若在训练用户属性模型时,除了设备信息向量、应用安装信息向量、应用活跃信息向量等训练特征向量之外,根据对应的属性统计信息所得到的属性统计向量也被作为输入,则相应地,在将待预测用户的设备应用特征向量输入所述用户属性模型时,也将待预测用户的设备应用特征向量所对应的用户属性统计向量同时作用于该用户属性模型,以预测用户基础属性。
另外,待预测用户的设备应用使用信息和训练特征向量相对应,依据设备应用使用信息获得的设备应用特征向量也相对应。例如,当训练特征向量包含应用的安装信息、应用活跃信息和/或应用的类别信息,相应地,设备应用特征向量也对应地包含应用的安装信息、应用活跃信息和/或应用的类别信息,并且格式相同。在某些情况下,训练特征向量和设备应用特征向量是通过同种方式获取的,例如都是系统收集设备上的应用的安装信息、应用活跃信息和/或应用的类别信息而获得的,其中训练特征向量包含人工标记;在另一些情况下,训练特征向量和设备应用特征向量是通过不同方式获取的,例如训练特征向量是根据由用户自愿填写的相应数据获得的,而设备应用特征向量是系统收集设备上的应用的安装信息、应用活跃信息和/或应用的类别信息而获得的。
优选地,所述训练特征向量的部分或全部为稀疏化向量,例如,在品牌信息向量中,只有与该设备的品牌相对应的维度置1,其余维度均为0;进一步地,根据其他训练特征向量统计处理后获取的属性统计向量也为稀疏化向量,例如,用户的年龄分布特征向量仅将与用户对应的年龄段所对应的维度置1,其余维度均为0。稀疏化向量便于生成,且在向量维度较高的情况下,能大大节省计算资源,例如对于二分查找而言,向量稀疏度越高,相比于遍历的方法节省的计算资源就越可观。
第二设备2基于训练特征向量及所述训练特征向量对应的属性统计信息进行分阶段训练学习得到对应的用户属性模型,其中,在初始训练学习阶段使用adam训练算法,当训练过程中的验证集误差低于误差阈值时改用梯度下降算法训练学习。例如,拟采用神经网络对用户进行分类,在训练网络参数时,采用分阶段训练法,首先随机初始化神经网络的权重,在开始训练时采用adam训练算法,选取适当的训练参数进行训练并更新网络参数,并设置误差阈值,当验证集的误差低于该误差阈值,就认为验证集误差不再减小,停止训练并保留网络参数;随后改用梯度下降算法,选取适当的学习率在已经获得的网络参数上对网络进行微调,直至验证集误差不再减小,获得最终的网络参数。分阶段训练的好处在于,能够加快网络的收敛速度,并且能够克服网络达到次优解或者最优解时网络发散的问题。
除以上所述训练算法之外,还可采用SGD(stochastic gradient descent,随机梯度下降)、Momentum、Adagrad、Adadelta等算法。
优选地,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个或几个学习网络的输入。例如,以堆叠的深度网络为例,其可以输出多个目标,下一个深度网络堆叠在上一个或几个深度网络上,本网络的输入为上一个或几个的输出。这种堆叠的学习网络结构能够使得网络在不同的输出点拟合不同的目标结果,从而提高了决策效率和用户基础信息预测的准确性。其中,用于堆叠的学习网络包括但不限于神经网络、逻辑回归、决策树、随机森林、支持向量机、聚类和/或遗传算法等,或者它们的堆叠/嵌套。
根据本申请的一个方面,提供了一种用于确定用户属性信息的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
根据本申请的另一个方面,提供了一种用于确定用户属性模型的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
根据本申请的一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
根据本申请的另一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
以上详细描述了本申请的较佳具体实施例。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (26)
1.一种用于确定用户属性信息的方法,其中,该方法包括:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
2.根据权利要求1所述的方法,其中,所述基于训练特征向量进行训练学习,得到对应的用户属性模型包括:
对训练特征向量按属性特征进行统计处理,以获得所述训练特征向量对应的属性统计信息;
基于所述训练特征向量进行训练学习得到对应的用户属性模型。
3.根据权利要求1或2所述的方法,其中,所述训练特征向量包括以下至少任一项:
设备信息向量;
应用安装信息向量;
应用活跃信息向量;
属性统计向量,其中所述属性统计向量是基于对所述设备信息向量、所述应用安装信息向量和所述应用活跃信息向量中的至少一项进行的统计处理获得的。
4.根据权利要求3所述的方法,其中,所述方法还包括:
根据用于训练的设备应用使用信息确定对应的训练特征向量;
其中,所述基于训练特征向量进行训练学习,得到对应的用户属性模型包括:
基于所述训练特征向量进行训练学习得到对应的用户属性模型。
5.根据权利要求3所述的方法,其中,所述设备信息向量包括以下至少任一项:
移动设备的品牌信息向量;
移动设备的型号信息向量;
移动设备的屏幕分辨率信息向量;
移动设备的价格信息向量。
6.根据权利要求4所述的方法,其中,所述训练特征向量包括应用安装信息向量;
其中,所述根据用于训练的设备应用使用信息确定对应的训练特征向量包括:
根据用于训练的设备应用使用信息中设备上应用安装信息,以及应用安装向量模型,生成对应的应用安装信息向量。
7.根据权利要求6所述的方法,其中,所述训练特征向量还包括应用活跃信息向量;
其中,所述根据用于训练的设备应用使用信息确定对应的训练特征向量还包括:
根据用于训练的设备应用使用信息中设备上应用被使用信息,以及与所述应用安装向量模型相对应的应用活跃向量模型,生成对应的经归一化的应用活跃信息向量。
8.根据权利要求3所述的方法,其中,所述训练特征向量包括稀疏向量;
其中,所述基于训练特征向量进行训练学习,得到对应的用户属性模型包括:
基于训练特征向量进行分阶段训练学习得到对应的用户属性模型,其中,在初始训练学习阶段使用adam训练算法,当训练过程中的验证集误差低于误差阈值时改用梯度下降算法训练学习。
9.根据权利要求1所述的方法,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
10.一种用于确定用户属性模型的方法,其中,该方法包括:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
11.根据权利要求10所述的方法,其中,所述方法还包括:
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
12.一种用于确定用户属性信息的设备,其中,该设备包括:
第一一装置,用于基于训练特征向量进行训练学习,得到对应的用户属性模型;
第一二装置,用于根据设备应用使用信息确定对应的设备应用特征向量;
第一三装置,用于将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
13.根据权利要求12所述的设备,其中,所述第一一装置用于:
对训练特征向量按属性特征进行统计处理,以获得所述训练特征向量对应的属性统计信息;
基于所述训练特征向量进行训练学习得到对应的用户属性模型。
14.根据权利要求12或13所述的设备,其中,所述训练特征向量包括以下至少任一项:
设备信息向量;
应用安装信息向量;
应用活跃信息向量;
属性统计向量,其中所述属性统计向量是基于对所述设备信息向量、所述应用安装信息向量和所述应用活跃信息向量中的至少一项进行的统计处理获得的。
15.根据权利要求14所述的设备,其中,所述设备还包括:
第一四装置,用于根据用于训练的设备应用使用信息确定对应的训练特征向量;
其中,所述第一一装置用于:
基于所述训练特征向量进行训练学习得到对应的用户属性模型。
16.根据权利要求14所述的设备,其中,所述设备信息向量包括以下至少任一项:
移动设备的品牌信息向量;
移动设备的型号信息向量;
移动设备的屏幕分辨率信息向量;
移动设备的价格信息向量。
17.根据权利要求15所述的设备,其中,所述训练特征向量包括应用安装信息向量;
其中,所述第一四装置用于:
根据用于训练的设备应用使用信息中设备上应用安装信息,以及应用安装向量模型,生成对应的应用安装信息向量。
18.根据权利要求17所述的设备,其中,所述训练特征向量还包括应用活跃信息向量;
其中,所述第一四装置还用于:
根据用于训练的设备应用使用信息中设备上应用被使用信息,以及与所述应用安装向量模型相对应的应用活跃向量模型,生成对应的经归一化的应用活跃信息向量。
19.根据权利要求14所述的设备,其中,所述训练特征向量包括稀疏向量;
其中,所述第一一装置用于:
基于训练特征向量进行分阶段训练学习得到对应的用户属性模型,其中,在初始训练学习阶段使用adam训练算法,当训练过程中的验证集误差低于误差阈值时改用梯度下降算法训练学习。
20.根据权利要求12所述的设备,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
21.一种用于确定用户属性模型的设备,其中,该设备包括:
第二一装置,用于基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
22.根据权利要求21所述的设备,其中,所述设备还包括:
第二二装置,用于根据设备应用使用信息确定对应的设备应用特征向量;
第二三装置,用于将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
23.一种用于确定用户属性信息的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
24.一种用于确定用户属性模型的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
25.一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
基于训练特征向量进行训练学习,得到对应的用户属性模型;
根据设备应用使用信息确定对应的设备应用特征向量;
将所述设备应用特征向量输入所述用户属性模型以获得所述设备应用使用信息对应用户的用户属性信息。
26.一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
基于训练特征向量进行训练学习得到对应的用户属性模型,其中,所述用户属性模型包括多个学习网络,其中,至少一个学习网络的输出被作为另一个学习网络的输入。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611186280 | 2016-12-20 | ||
CN2016111862805 | 2016-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106850314A true CN106850314A (zh) | 2017-06-13 |
CN106850314B CN106850314B (zh) | 2021-06-15 |
Family
ID=59144135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710138471.2A Active CN106850314B (zh) | 2016-12-20 | 2017-03-09 | 一种用于确定用户属性模型及用户属性信息的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106850314B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451854A (zh) * | 2017-07-12 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 确定用户类型的方法及装置、电子设备 |
CN109840550A (zh) * | 2019-01-14 | 2019-06-04 | 华南理工大学 | 一种基于深度神经网络的移动用户应用偏好识别方法 |
CN110012060A (zh) * | 2019-02-13 | 2019-07-12 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN110379418A (zh) * | 2019-06-28 | 2019-10-25 | 西安交通大学 | 一种语音对抗样本生成方法 |
CN111079023A (zh) * | 2019-12-30 | 2020-04-28 | Oppo广东移动通信有限公司 | 目标帐户的识别方法、装置、终端及存储介质 |
CN111178925A (zh) * | 2018-11-09 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 用户画像的属性预测方法、装置、服务器和计算机可读介质 |
CN111339406A (zh) * | 2020-02-17 | 2020-06-26 | 北京百度网讯科技有限公司 | 个性化推荐方法、装置、设备及存储介质 |
WO2020151152A1 (zh) * | 2019-01-24 | 2020-07-30 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN111800537A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 终端使用状态的评估方法、装置、存储介质及电子设备 |
CN112488742A (zh) * | 2019-09-12 | 2021-03-12 | 北京三星通信技术研究有限公司 | 用户属性信息的预测方法、装置、电子设备及存储介质 |
CN112700285A (zh) * | 2021-01-08 | 2021-04-23 | 北京明略昭辉科技有限公司 | 用于预测用户属性标签的方法及装置、设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092638A1 (en) * | 2014-09-30 | 2016-03-31 | Baxter Corporation Englewood | Management of Medication Preparation with Formulary Management |
CN105550278A (zh) * | 2015-12-10 | 2016-05-04 | 天津海量信息技术有限公司 | 基于深度学习的网页区域识别算法 |
CN105608171A (zh) * | 2015-12-22 | 2016-05-25 | 青岛海贝易通信息技术有限公司 | 用户画像构建方法 |
CN105933425A (zh) * | 2016-05-18 | 2016-09-07 | 北京奇虎科技有限公司 | 推荐应用的方法及装置 |
-
2017
- 2017-03-09 CN CN201710138471.2A patent/CN106850314B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092638A1 (en) * | 2014-09-30 | 2016-03-31 | Baxter Corporation Englewood | Management of Medication Preparation with Formulary Management |
CN105550278A (zh) * | 2015-12-10 | 2016-05-04 | 天津海量信息技术有限公司 | 基于深度学习的网页区域识别算法 |
CN105608171A (zh) * | 2015-12-22 | 2016-05-25 | 青岛海贝易通信息技术有限公司 | 用户画像构建方法 |
CN105933425A (zh) * | 2016-05-18 | 2016-09-07 | 北京奇虎科技有限公司 | 推荐应用的方法及装置 |
Non-Patent Citations (1)
Title |
---|
方媛 等: "深度学习技术在电信运营商网络大数据中的应用", 《互联网天地》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451854A (zh) * | 2017-07-12 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 确定用户类型的方法及装置、电子设备 |
CN107451854B (zh) * | 2017-07-12 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 确定用户类型的方法及装置、电子设备 |
CN111178925A (zh) * | 2018-11-09 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 用户画像的属性预测方法、装置、服务器和计算机可读介质 |
CN109840550A (zh) * | 2019-01-14 | 2019-06-04 | 华南理工大学 | 一种基于深度神经网络的移动用户应用偏好识别方法 |
WO2020151152A1 (zh) * | 2019-01-24 | 2020-07-30 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN110012060A (zh) * | 2019-02-13 | 2019-07-12 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN110012060B (zh) * | 2019-02-13 | 2023-04-18 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN111800537A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 终端使用状态的评估方法、装置、存储介质及电子设备 |
CN110379418B (zh) * | 2019-06-28 | 2021-08-13 | 西安交通大学 | 一种语音对抗样本生成方法 |
CN110379418A (zh) * | 2019-06-28 | 2019-10-25 | 西安交通大学 | 一种语音对抗样本生成方法 |
CN112488742A (zh) * | 2019-09-12 | 2021-03-12 | 北京三星通信技术研究有限公司 | 用户属性信息的预测方法、装置、电子设备及存储介质 |
CN111079023A (zh) * | 2019-12-30 | 2020-04-28 | Oppo广东移动通信有限公司 | 目标帐户的识别方法、装置、终端及存储介质 |
CN111339406A (zh) * | 2020-02-17 | 2020-06-26 | 北京百度网讯科技有限公司 | 个性化推荐方法、装置、设备及存储介质 |
CN112700285A (zh) * | 2021-01-08 | 2021-04-23 | 北京明略昭辉科技有限公司 | 用于预测用户属性标签的方法及装置、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106850314B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106850314A (zh) | 一种用于确定用户属性模型及用户属性信息的方法与设备 | |
US20220366309A1 (en) | Classifying user behavior as anomalous | |
Bobadilla et al. | Improving collaborative filtering recommender system results and performance using genetic algorithms | |
Han et al. | Collection channel and production decisions in a closed-loop supply chain with remanufacturing cost disruption | |
Dinh et al. | A projection algorithm for solving pseudomonotone equilibrium problems and it's application to a class of bilevel equilibria | |
Berman et al. | The multiple gradual cover location problem | |
US20190166007A1 (en) | Efficiency indexes | |
US9483520B1 (en) | Analytic data focus representations for visualization generation in an information processing system | |
Berman et al. | Location of congested capacitated facilities with distance-sensitive demand | |
Jie et al. | Game-theoretic online resource allocation scheme on fog computing for mobile multimedia users | |
Singh et al. | Matheuristic approaches for Q-coverage problem versions in wireless sensor networks | |
Chiu et al. | Assessing sustainable effectiveness of the adjustment mechanism of a ubiquitous clinic recommendation system | |
Wong et al. | Online role mining for context-aware mobile service recommendation | |
Ahmadi-Javid et al. | An efficient optimization procedure for designing a capacitated distribution network with price-sensitive demand | |
Jamali et al. | An imperialist competitive algorithm for virtual machine placement in cloud computing | |
Pan et al. | An efficiency approach for RBAC reconfiguration with minimal roles and perturbation | |
US10977684B2 (en) | Generating and distributing digital surveys based on predicting survey responses to digital survey questions | |
Chen et al. | A recommendation approach for rating prediction based on user interest and trust value | |
Yu et al. | Fair multi-influence maximization in competitive social networks | |
Aljunid et al. | An improved ALS recommendation model based on apache spark | |
US11093838B2 (en) | Adaptive selection of user to database mapping | |
Arora et al. | IM-GSO: A community directed group search optimization approach for influence maximization | |
Yadav et al. | Developing an intelligent cloud for higher education | |
Wang et al. | Prediction of purchase behaviors across heterogeneous social networks | |
Syntetos et al. | Forecasting of compound Erlang demand |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |