CN112488742A - 用户属性信息的预测方法、装置、电子设备及存储介质 - Google Patents
用户属性信息的预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112488742A CN112488742A CN201910866676.1A CN201910866676A CN112488742A CN 112488742 A CN112488742 A CN 112488742A CN 201910866676 A CN201910866676 A CN 201910866676A CN 112488742 A CN112488742 A CN 112488742A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- input
- weight
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 239000013598 vector Substances 0.000 claims description 178
- 239000013604 expression vector Substances 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 198
- 230000006870 function Effects 0.000 description 18
- 230000006399 behavior Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000007958 sleep Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 230000036578 sleeping time Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 241000234435 Lilium Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229940127554 medical product Drugs 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000004622 sleep time Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Entrepreneurship & Innovation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例提供了一种用户属性信息的预测方法、装置、电子设备及存储介质,该方法包括:获取用户的输入相关信息;确定输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征之间的交叉特征信息;根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。基于本申请实施例所提供的方案,能够有效提升用户属性信息预测的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种用户属性信息的预测方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的快速发展,用户画像已越来越受到互联网厂商和终端厂商的重视。在构建用户画像时,用户的各属性信息的预测也是不可或缺的一部分,如对用户年龄、性别等信息进行预测,以构建更为准确的用户画像。目前现有技术中,虽然已经存在很多的用户属性信息的预测方案,但这些方案的预测准确性仍都有待提升。
发明内容
本申请的目的旨在提供了一种用户属性信息的预测方法、装置、电子设备及存储介质,以提高用户属性信息预测的准确性。本申请实施例提供的方案如下:
第一方面,本申请实施例提供了一种用户属性信息的预测方法,该方法包括:
获取用户的输入相关信息;
确定输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征信息之间的交叉特征信息;
根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。
第二方面,本申请实施例提供了一种用户属性信息的预测方法,该方法包括:
获取用户的输入相关信息,输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息;
根据输入相关信息,预测用户的用户属性信息。
第三方面,本申请实施例提供了一种用户属性信息的预测装置,该装置包括:
输入相关信息获取模块,用于获取用户的输入相关信息;
特征相关信息确定模块,用于确定输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征信息之间的交叉特征信息;
属性信息预测模块,用于根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。
第四方面,本申请实施例提供了一种用户属性信息的预测装置,该装置包括:
输入相关信息获取模块,用于获取用户的输入相关信息,输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息;
属性信息预测模块,用于根据输入相关信息,预测用户的用户属性信息。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括存储器和处理器;其中,存储器中存储有计算机程序;处理器用于调用该计算机程序,以执行本申请第一方面和/或第二方面所提供的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,计算机程序被处理器执行时实现本申请第一方面和/或第二方面所提供的方法。
本申请所提供的技术方案的有益效果将在后文中结合具体实施例以及附图进行详细的描述,在此不在介绍。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1示出了本申请一实施例提供的一种用户属性信息的预测方法的流程示意图;
图2示出了本申请另一实施例提供的一种用户属性信息的预测方法的流程示意图;
图3示出了现有一种确定应用程序使用模式的表示向量的原理示意图;
图4示出了本申请一示例中提供的一种确定应用程序使用模式的表示向量的原理示意图;
图5示出了本申请一示例中提供的一种用户作息模式信息的表示向量的示意图;
图6本申请实施例提供的一种用户年龄和性别预测系统的原理示意图;
图7示出了本申请一示例中提供的一种用户属性信息预测方法的原理示意图;
图8示出了本申请一示例中提供的一种权重学习网络的结构示意图;
图9示出了本申请一示例中提供的一种用户属性预测及应用的流程示意图;
图10示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为了更好的说明及理解本申请实施例所提供的方案,下面首先对与本申请有关的相关技术进行简单介绍说明。
用户画像,又称用户角色,也可看作是真实用户的虚拟代表,最初是在电商领域得到应用的。在大数据时代背景下,可以将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,或根据用户的行为特点的差异区分为不同类型,基于这些标签或行为类型的不同为用户提供有针对性的服务,使服务更加聚焦和个性化。
在用户画像技术领域,基于用户统计学信息(包括用户年龄,性别,职业,婚姻,文化程度,健康水平,收入等)的推荐几乎是最容易实现的推荐方法。例如,基于用户的年龄、性别的不同来区分用户,从而为不同类型的用户进行个性化推荐。但是用户统计学信息都是比较难以直接获取的,所以目前一般采用预测技术获得用户的年龄和性别等基本人口统计学信息。其中,上述用户统计学信息也可以称为用户人口统计学信息,或称为用户属性信息。
通过对现有应用需求的分析,本申请发明人发现,用户年龄和性别等信息预测技术的发展趋势如下:
首先,用户画像是现代互联网服务向个性化服务演进的重要基石,而基于年龄与性别等用户人口统计学信息的个性化服务的实现方法又是最易实现的,因此,对预测性别与年龄的准确率有了越来越高的要求。其次,年龄与性别等用户人口统计学信息是用户的核心隐私,预测年龄与性别的用户数据也都涉及用户隐私,同时用户越来越重视个人隐私的保护,因此,预防和避免隐私泄露是个性化服务良性发展的基石。再者,用户画像有可能作为终端设备的一个基础的中间层服务,来为不同的上层应用提供服务,因此,也在普适性和鲁棒性对预测方法有新的要求。
目前,基于对于用户年龄与性别等信息的预测主要分为三种:基于人脸图像识别的预测,基于用户语音分析的预测,基于用户活动数据的挖掘的预测。基于服务商、设备商、以及用户不断提高的需求,本申请的发明人发现现有的年龄与性别等预测技术,在预测准确率,隐私管控,普适性和鲁棒性等方面均存在不足或问题,具体如下:
1)预测的准确率不高:
考虑到年龄与性别等信息的预测会被应用到越来越多的应用中,甚至会作为终端系统的一个基础的中间层服务,所以用户量不是以某个具体应用的用户量而是整个终端的用户量,这意味着即使准确率只提高1%,其对应的用户量也是海量的,因此对准确率的追求会越来越高,目前的预测准确率仍有待提升。
2)没有普适性和鲁棒性:
有些场景或环境不允许拍照和录音,基于隐私泄露风险的考虑能够授权图像和语音预测的用户也是有限的,所以基于图像和语音的预测存在普适性问题。另外,图像的拍摄和语音的录制容易受到环境因素的影响而产生噪音,所以基于图像和语音的预测也存在鲁棒性问题。
为了解决现有预测技术中所存在的多个问题中的至少一个,本申请实施例提供了一种用户属性信息的预测方法,其中,可以理解的是,该用户属性信息包括但不限于用户的年龄、性别等基本信息,还可以是用户的职业等其他属性信息。也就是说,本申请实施例所提供的该预测方法,能够根据实际应用需求,来配置被用于预测各种用户属性信息。
基于现有年龄与性别等信息预测技术存在的上述两个主要问题,本申请的目的是能够为终端设备提供一个具有更高准确率,普适和鲁棒性高的年龄与性别等用户属性信息的预测方法。更进一步希望能够基于这些方法把用户画像作为终端设备的一个基础的系统层面的中间层服务,使不同的上层应用在用户授权后通过调用该服务能够为用户提供各种个性化的应用级服务,从而更好地满足用户需求。通过该方案,可以有效的降低各上层服务大量抓取用户数据进行预测的必要性,使设备商具有了从服务商方面获得个性化服务的收益的可能,保护用户隐私的同时降低了终端设备合规的难度。
具体而言,本申请可以使用深度学习的方法进行预测,具体可以基于用户的姓名、APP(应用程序,application)使用信息、作息模式等信息对用户的年龄与性别等用户属性信息进行预测。针对现有技术存在的问题,本申请主要采取以下的方法去解决这些问题,方案如下:
1)如何提高年龄和性别预测的准确率
在数据方面:首先,本申请提出一个更精细地记录和提取APP用户使用模式的方法;其次,本申请首次把用户作息模式的信息加入到用户属性信息(如年龄与性别)的预测中;最后,本申请提出可以对用户的姓名,APP使用模式,作息模式等多种类型的信息合并起来进行联合预测。
在预测方法(也可以称为预测算法或预测模型)方面:首先,基于同类数据内部的关联性和不同类型数据信息之间的关联性的考虑,设计一个新的深度神经网络,对数据之间的关联性进行充分的提取。具体而言,创造性地使用交叉特征的权重表达数据间的关联性并提出了学习交叉权重的具体方法。其次,为了充分提取数据中暗含的信息,本申请提出用隐式变量去学习和表达特定数据的权重。
本申请实施例提出的深度神经网络也可以称为深度神经网络模型、深度学习网络、深度学习模型、深度网络模型等等。
2)如何提高预测方法的可用性和普适性
由于本申请所提供的方案可以不使用(当然在能够获取到时,同样也可以使用)场景限制和易受环境影响的图像数据和语音数据,而可以基于采用不易变化和无需申请特殊权限的用户活动数据,如用户的姓名、APP使用模式、作息模式等信息,因此,本申请实施例所提供的方案,在数据获得方面没有任何准入门槛即可以无需申请权限,原始数据的获得不易受到外部环境因素影响,数据的获得过程对用户来说是无感的,不打扰用户,所以本申请的方案具有良好的普适性与鲁棒性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1中示出了本申请实施例所提供的一种用户属性信息的预测方法的流程示意图,如图中所示,该方法主要可以包括以下几个步骤:
步骤S110:获取用户的输入相关信息;
步骤S120:确定输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征信息之间的交叉特征信息;
步骤S130:根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。
其中,用户输入相关信息包括与用户有关联的输入信息,如用户在终端设备上的操作信息,或者用户所使用的该终端设备的一些相关信息等。本申请实施例中,用户输入相关信息具体可以包括能够获取到的用户的一些非敏感或非隐私性的数据,也可以包括用户授权或允许获取的数据。也就是说:从本申请的预测方法本身来讲并没有限制使用何种类型的输入数据,预测方法能够接受不同类型的数据源。因此如果用户同意或授权,本申请同样可以将能够获取到的用户的各类相关信息用于预测,如将经过特征提取的面部图像、语音数据等也用于预测,这将进一步提高本申请的预测准确度。
作为可选方案,用户输入相关信息可以包括以下信息中的至少一项:
用户姓名;设定时段内用户对终端设备的设备使用信息;设定时段内用户的作息模式信息;用户图像;用户语音数据;用户社交关系数据等。
在获取到用户的各输入相关信息后,即可以根据获取到的这些信息得到相应的各特征信息,这些特征信息可以包括单一特征信息和交叉特征信息中的至少一项。其中,交叉特征信息可以是两个或者两个以上的单一特征信息之间的交叉特征信息。
交叉特征能够反映其所对应的多个单一特征信息之间的交互信息,因此,在预测用户属性信息时,可以将交叉特征信息用于用户信息的预测,以提高预测的准确性。
在实际应用中,由于不同的单一特征信息所包含的信息以及信息的重要程度通常都是不同的,因此,本申请实施例所提供的该预测方案,在基于单一特征信息预测用户信息时,还可以分别确定各单一特征信息所对应的权重信息,以使得不同的单一特征信息在预测用户属性信息时起到不同的作用。同样的,由于交叉特征信息是多个单一特征信息之间的交互信息的表征,因此,不同的交叉特征信息所包含的信息及信息的重要程度也通常是不同的,所以在采用交叉特征信息预测用户属性信息时,还可以确定各交叉特征信息各自对应的权重信息,以使不同的交叉特征信息也可以起到不同程度的作用。
本申请实施例所提供的用户属性信息的预测方法,在进行用户属性信息预测时,能够基于输入的用户相关信息所对应的各特征信息、以及各特征信息所对应的权重信息,实现预测,该方案基于权重信息,能够使不同的特征信息在预测时起到各自相应的作用,从而更好的满足实际预测需求,提高预测效果。
本申请的可选实施例中,用户属性信息可以包括用户年龄信息和/或用户性别信息等,除了年龄和性别,其他的用户属性信息(如职业,婚姻,文化程度,健康水平,收入等用户统计学信息)都适用本申请技术方案,也在本申请技术方案保护范围之内。
本申请的可选实施例中,确定各特征信息分别对应的权重信息,包括:
确定各特征信息分别对应的权重输入信息;
根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息。
其中,权重输入信息即能够影响权重信息的相关信息,本申请实施例中,权重输入信息具体可以是基于特征信息来确定的,从而能够基于各特征信息自身所包含的信息实现相应权重信息的确定。如果权重信息是基于深度神经网络来获得的,那么权重输入信息也可以认为是深度神经网络的输入信息,也就是说,先对各特征信息进行处理,得到权重输入信息,然后再通过深度神经网络,基于权重输入信息获得各特征信息分别对应的权重信息。
本申请的可选实施例中,确定各特征信息分别对应的权重输入信息,包括:
确定各特征信息分别对应的输入向量信息;
根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息。
具体的,对于每个特征信息而言,其所对应的权重输入信息可以基于该特征信息所对应的输入向量信息来确定。其中,确定特征信息所对应的输入向量信息的具体方式,可以根据实际需求配置,理论上,只要该输入向量信息能够表征相对应的特征信息所包含的信息内容即可。
本申请的可选实施例中,确定各单一特征信息分别对应的输入向量信息,包括:
针对各单一特征信息,分别根据单一特征信息以及所述单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息;
和/或
确定各交叉特征信息分别对应的输入向量信息,包括:
针对各交叉特征信息对应的至少两个单一特征信息,分别根据单一特征信息以及所述单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息,将确定出的至少两个输入向量信息确定为交叉特征信息对应的输入向量信息。
也就是说,对于每个单一特征信息而言,该单一特征信息的输入向量信息可以是基于该特征信息以及该特征信息对应的隐向量,来确定其对应的输入向量信息。对于每个交叉特征信息而言,则是可以基于该交叉特征信息所对应的每个单一特征信息对应的输入向量信息来确定的,而其所对应的每个单一特征信息对应的输入向量信息,也同样是可以根据单一特征信息及其对应的隐向量来确定的。
本申请所提供的可选方案中,在确定每个特征信息的权重时,可采用基于特征信息所对应的单一特征信息的隐向量(也可以称为隐式特征向量)来学习每个单一特征信息的输入向量信息,由于隐式特征向量包含了关于特征信息的一些隐式信息(即隐含信息),而这些信息有助于权重信息的学习,比如,如果一个单一特征信息是用于表征用户对于一个APP的使用信息,那么该单一特征信息所对应的隐式特征向量可以解释为该APP的功能构成信息,例如,该APP可能70%的功能是聊天,20%的功能是通话,10%的功能是支付等,因此,该基于特征信息所对应的单一特征信息以及单一特征信息的隐向量来确定输入向量信息的方案,能够更好的学习到每个单一特征信息或者单一特征信息所对应的交叉特征信息的权重信息,从而能够提高预测的准确性。
可选的,上述根据单一特征信息以及单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息,具体可以包括:
将单一特征信息与单一特征信息对应的隐向量进行乘积运算,获得单一特征信息对应的输入向量信息。
本申请的可选实施例中,权重输入信息为能够表征各输入向量信息的元素间关系的输入矩阵。
需要说明的是,在实际应用中,对于一个单一特征信息而言,上述各输入向量信息可以是该单一特征信息对应的输入向量信息,即一个单一特征信息的权重输入信息为能够表征该单一特征信息对应的输入向量信息的元素之间的关系的输入矩阵,例如,对于单一特征信息的输入向量信息为a,其权重输入信息可以是能够表征a中元素之间的关联矩阵。对于交叉特征信息,该权重输入信息则是能够表征该交叉特征信息所对应的多个单一特征信息的输入向量信息的元素间的关联矩阵,如对于交叉特征信息b,假设其所对应的单一特征信息为特征信息a1和a2,则该交叉特征信息所对应的权重输入信息则为能够表征a1的输入向量信息和a2的输入向量信息的元素间的关联矩阵。
本申请实施例提供的该方案,能够有效学习到特征信息所对应的各输入向量信息的对应位的元素之间、以及非对应位的元素之间的交互信息,与现有的只基于对应位的元素之间的交互信息来确定权重输入信息的方式,而忽略了非对应位之间的交互信息的方式相比,能够学习到更多更准确的权重输入信息,从而能够进一步提高预测的准确性。
本申请的可选实施例中,根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息,包括:
针对各特征信息,分别将特征信息对应的各输入向量信息之间进行外积运算;
将外积运算结果确定为特征信息对应的权重输入信息。
具体的,作为一可选方式,对于一个特征信息,可以直接通过计算该特征信息所对应的各输入向量信息之间的外积,来得到对应的权重输入信息。由于两个输入向量信息之间的外积也是一个矩阵,因此,可以通过外积运算来捕获到各输入向量信息之间的交互信息,并基于该运算结果得到更加准确的权重输入信息。
需要说明的是,对于单一特征信息而言,该特征信息所对应的各输入向量信息可以为该特征信息所对应的输入向量信息本身,此时,上述外积即为该输入向量信息自身对应的外积,即将该输入向量信息与该输入向量信息进行外积运算。例如,对于单一特征信息的输入向量信息为a,其权重输入信息可以为a和a的外积运算结果。
本申请的可选实施例中,根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息,包括:
根据各特征信息分别对应的权重输入信息,通过权重学习网络,确定各特征信息分别对应的权重信息。
在实际应用中,对于各特征信息(单一特征信息和/或交叉特征信息),在确定出特征信息所对应的权重输入信息之后,即可以将权重输入信息输入至训练好的权重学习网络中,以通过该权重学习网络得到各特征信息所对应的权重信息。
可选的,在各特征信息包括单一特征信息和交叉特征信息时,单一特征信息所对应的第一权重学习网络和交叉特征信息所对应的第二权重学习网络可以是同一个神经网络,也可以是不同的神经网络。
作为一可选方案,第一权重学习网络和第二权重学习网络可以为同一神经网络。
在实际应用中,若第一权重学习网络和第二权重学习网络采用同一神经网络时,在对权重学习网络进行训练时,可以同时利用单一特征信息和交叉特征信息来共同学习模型的参数,从而可以使得学习出来的模型参数更加地准确,并通过训练得到的权重学习网络来分别预测单一特征信息和交叉特征信息所对应的权重信息。基于该方案,通过复用权重学习网络,可以进一步建立起单一特征和交叉特征之间的关联关系,提升预测的准确度。
需要说明的是,权重学习网络的具体网络结构可以根据实际需求配置,如可以是浅层神经网络,也可以是深层神经网络。
本申请的可选实施例中,权重学习网络可以包括:对权重输入信息进行特征提取的特征提取模块和根据所提取的特征预测特征信息对应的权重信息的权重学习模块。
需要说明的是,特征提取模块和权重学习模块的具体网络结构也可以根据实际需求配置,如各模块可以包括一个或多个相应的网络层,如特征提取模块具体可以包括一个或多个卷积层,权重学习模块可以包括一个或多个全连接层。
基于该方案,可以通过特征提取模块(如卷积神经网络)来实现对权重输入信息的局部高阶特征的提取,从而可以基于所提取到的高层特征,更好的预测得到每个特征信息的权重信息。
本申请的可选实施例中,特征提取模块通过至少两种卷积参数,对输入信息进行特征提取;和/或,
权重学习模块包括依次级联的至少两个全连接层。
其中,卷积参数可以包括但不限于卷积核大小、卷积层的通道数等参数。在实际应用中,可以通过多种卷积参数来捕获权重输入信息所对应的多种不同的特征信息,例如,至少两种卷积参数可以是两种卷积核大小,此时,则可以通过该特征提取模块学到权重输入信息所对应的不同区域的特征信息。例如,特征提取模块可以包含多个卷积和池化层,每一卷积层可以包含不同维度的卷积核,对应不同的卷积参数。卷积和池化层中卷积核的大小、卷积核的个数、每一层的参数可以预先设定。
对于权重学习模块,具体可以通过全连接层结构来实现,该结构的输入为特征提取模块的输出即所提取的特征,输出为权重信息。采用具有多个级联的全连接层结构的权重学习模块,相对于单一全连接层结构来说,多个全连接层能够更好地拟合复杂函数,因而能够更好地学习特征的权重信息。
本申请的可选实施例中,权重学习网络为深度学习网络。
本申请的可选实施例中,根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息,具体可以包括:
根据各特征信息分别对应的权重信息,确定加权处理后的各特征信息;
根据加权处理后的各特征信息,预测用户属性信息。
具体的,在确定出各特征信息的所对应的权重信息之后,即可以根据各特征信息所对应的权重信息,对各特征信息进行融合,具体可以为加权求和处理,得到融合后的特征信息,并基于该融合后的特征信息,预测出用户属性信息。
可选的,根据加权处理后的各特征信息,预测用户属性信息,具体可以包括:
将加权处理的各特征信息以及设定的偏置信息相加运算,根据相加运算得到的结果确定用户属性信息。
可以理解的是,在实际应用中,在得到相加运算结果之后,可以根据实际所需要预测的用户属性信息,基于相加运算结果,采用预配置的与要预测的用户属性信息相对应的预测网络,实现用户属性信息的预测。
具体的,例如,对于用户性别信息的预测,由于是一个二分类问题,因此可以采用一个二分类预测方法,如具体可以采用sigmoid函数,此时,则可以根据上述相加运算结果,通过该sigmoid函数,预测用户性别,其中,该sigmoid函数的输出具体可以是一个概率值,在预测出概率值之后,具体可以根据该概率值与设定阈值的比较结果,确定出用户性别,如概率值大于设定阈值,用户性别为男性,概率值不大于设定值,用户性别则为女性。
而对于用户年龄信息的预测,由于年龄预测结果可以是一个年龄范围,也可以是一个年龄值,因此,可以根据实际应用需求,配置相应的预测方法。例如,可以通过softmax函数,基于上述相加运算结果,通过该softmax函数,可以将相加运算结果映射为一个列向量,该列向量中的每个元素可以对应为一个预划分好的年龄段,该列向量中的各元素的元素值具体可以为用户的年龄对为各元素所对应的年龄段的概率,则可以根据该列向量,将其中概率值最大的元素对应的年龄段,确定为用户的年龄段。
需要说明的是,在实际应用中,在确定出各特征信息以及各特征信息所对应的权重信息后,基于这些信息来预测用户属性信息的具体实现方式,可以是多样可选的,对于不同的需求,均是可调整或配置的。
作为一种可选方案,本申请实施例所提供的该预测方法整体上可以采用用户属性信息预测模型来实现,该模型可以包括上述权重学习网络,还可以包括:
隐向量确定模块,用于确定各单一特征信息的隐向量;
权重输入信息确定模块,用于分别根据单一特征信息以及单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息,和/或,针对各交叉特征信息对应的至少两个单一特征信息,分别根据单一特征信息以及所述单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息,将确定出的至少两个输入向量信息确定为交叉特征信息对应的输入向量信息;以及用于根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息;
权重学习网络,用于根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息;
属性信息预测模块,用于根据各特征信息分别对应的权重信息,确定加权处理后的各特征信息,根据加权处理后的各特征信息,预测用户属性信息。
具体的,在采用用户属性信息预测模型来实现时,由于模型的各模块和/或各网络部分作为一个整体,因此,可以采用端到端的训练方式进行模型所有参数的训练,对所有模型参数进行同步学习,而且可以同时利用单一特征信息和交叉特征信息来共同学习,可以使得学习出来的参数更加的准确,从而在基于训练后的模型进行用户属性信息进行预测时,能够进一步提升预测准确度。
本申请的可选实施例中,输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息。
其中,作息模式信息具体可以指代用户的起床时间(Wakeup Time)和就寝时间(Bedtime)。一般来说,用户的作息模式与用户的年龄、性别等具有一定的相关性。例如,年龄大的人更倾向于拥有比较规律的作息模式,例如每天22:00睡觉,6:00起床,无论是工作日还是周末,而一名在校学生可能在不同的日期(工作日和周末)里有不同的作息模式,例如:在工作日可能每天23:00睡觉,8:00起床,但是到周末睡觉时间可能被推迟到24:00以后,起床时间则会被推迟到10:00。因此,用户的作息模式可以被用来辅助预测用户的年龄和性别,本申请通过引入用户作息模式到用户画像系统即用户属性信息的预测,可以有效提高预测用户的年龄和性别等属性信息的准确度。
本申请的可选实施例中,设备使用信息包括使用时间、使用时长和使用次数中的至少一项。
本申请的可选实施例中,确定输入相关信息对应的各特征信息,包括:
将用户的作息模式信息对应的表示向量和/或设备使用信息对应的表示向量进行拼接,得到输入相关信息对应的各单一特征信息。
具体的,对于所获取到的各用户输入相关信息,可以分别确定出各用户属性信息的表示向量,并通过将得到的各表示向量拼接,得到对应的特征向量信息,而该特征向量信息中的每个元素即可以作为一个单一特征信息。而对于交叉特征信息,则可以由至少两个单一特征信息得到的,具体的,可以是至少两个单一特征信息的乘积。
其中,确定各输入相关信息的表示向量的具体方式,可以根据实际需求选择,如可以根据各相关信息的信息类型,来选择相对应的向量编码方式将信息转化为表示向量,例如,对于用户姓名,可以采用独热编码即独热表达方式(One-Hot representation)、词袋编码(Bag-of-Words Representation)等,对于用户对终端设备的设备使用信息,可以通过二进制编码即二进制表达方式(Binary representation),得到对应的表示向量。
需要说明的是,基于本申请实施例所提供的上述预测方案中,输入相关信息可以包括但不限于上述用户作息模式信息、设备使用信息等,还可以包括其他能够获取到用户的输入相关信息,如用户姓名、用户图像等。另外,确定各输入相关信息的表示向量的具体方式,本申请实施例也不做限定,可以采用现有技术方案,也可以采用本申请实施例中下文中所提供的确定各输入相关信息的表示向量的方案。
对于上述用户的作息模式信息和/或用户对终端设备的设备使用信息、基于各信息预测用户属性信息的具体可选实施方式、以及相应的技术效果将在下文描述的实施例中进行详细说明,在此不再描述。
本申请实施例还提供了一种用户属性信息的预测方法,如图2中所示,该预测方法具体可以包括:
步骤S210:获取用户的输入相关信息,输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息;
步骤S220:根据输入相关信息,预测用户的用户属性信息。
由前文的描述可知,作息模式信息包括起床时间和就寝时间。用户的作息模式与用户的年龄、性别等具有很大的相关性。因此,用户的作息模式可以被用来预测用户的年龄和性别等用户属性信息,本申请通过引入用户作息模式到用户画像系统即用户属性信息的预测,可以有效提高预测用户的年龄和性别等属性信息的准确度。
在实际应用中,在进行用户属性信息的预测时,由于很多的用户信息,例如用户的面部图像和语音信息等都是非常敏感和隐私的,终端商或者服务商很难说服其用户授权使用面部图像和语音信息来预测年龄和性别。即使用户授权,实施方案也必须提供足够安全与合规的隐私数据管理方案,这将在技术方案和运营成本上给厂商增加很大的挑战。
此外,理论上不同的服务只能拥有服务本身的用户数据,只能对服务内用户活动进行分析。但是不同的服务可能拥有不同的用户数据,在不同的服务内的用户活动习惯也不同,这造成了服务商为提高准确率都希望抓取更多用户数据,尽可能记录用户活动,进而尽可能更多地申请权限,甚至在不同服务间进行数据的共享和协作。这些行为极大的危害用户的隐私,侵犯了用户的权力,也在合规上给运营服务的厂商带来很大的风险。
正是考虑用户的面部图像和语音数据等是非常敏感和隐私的,也是需要额外申请摄像头和麦克风权限的,所以本申请实施例所提供的该预测方法,可以基于用户的作息模式信息和设备使用信息等不需要特殊访问权限的输入相关信息,即可实现用户属性信息的预测。在实际操作过程中,可以在数据存储方面对原始数据进行脱敏与加密等预处理操作,降低隐私泄露的风险。这些设计从源头上为本申请减少隐私泄露和降低了合规的难度。
本申请的可选实施例中,获取用户的作息模式信息,包括:
获取终端设备的设备状态信息;
根据设备状态信息,确定用户的作息模式信息。
其中,设备状态信息可以包括设备的熄屏时间和亮屏时间。
为了得到用户的作息模式,本申请在终端侧即用户终端设备可以通过收集一段时间内终端的屏幕熄屏和亮屏数据,具体为熄屏时间和亮屏时间,并由终端或服务器(终端将收集到的数据发送给服务器),通过对熄屏时间和亮屏时间的深入分析,可以估计得到用户在该时间段的作息模式信息。
具体的,根据设备状态信息,确定用户在设定时段内的作息模式信息,包括:
将每个熄屏时间和对应的亮屏时间作为一个第一候选区间,对连续且时间间隔小于第四设定值的不同第一候选区间进行合并,得到各第二候选区间;对合并后的满足任一删除条件的第二候选区间进行删除,得到各第三候选区间,删除条件包括区间的时间间隔小于第一设定值或者区间的时间间隔大于第二设定值;
基于每天所对应的各第三候选区间的熄屏时间和亮屏时间,确定每天的起床时间和就寝时间;
根据每天的起床时间和就寝时间,确定用户在设定时段内的作息模式信息。
在实际生活中,由于用户在夜间睡眠状态下,用户的终端设备通常都是处于熄屏状态,该睡眠状态前后两次的亮屏时间点的间隔很长,而在用户非夜间睡眠状态下,终端设备的亮屏和熄屏状态的切换相对会比较频繁,因此,基于终端设备的亮屏时间和熄屏时间,可以确定出用户的起床时间和就寝时间。
具体的,本申请实施例提供的上述方案中,对应的息屏时间和亮屏时间,为相邻的一次熄屏时间点和一次亮屏时间点,即相邻的亮屏时刻和熄屏时刻可以对应为一个时间区间,即第一候选区间,由于用户在夜间睡眠状态下,对应的第一候选区间的时长应该是在一个相对合理的较长的时长(对应于第二设定值)内,且该时长不会太短(对应于第一设定值)因此,区间的时长小于第一设定值或者大于第二设定值时,则可以认为该区间为非睡眠状态所对应的区间,可以剔除,从而基于每天所对应的剔除后的各候选区间,确定出每天的起床时间和就寝时间。
本申请的可选实施例中,根据设备状态信息,确定用户在设定时段内的作息模式信息,具体可以包括:
根据设备状态信息以及预设的场景划分规则,确定用户在至少两种不同场景下的作息模式信息。
在实际应用中,由于用户在不同的场景下的作息模式相差较多,例如,对于大多数用户而言,用户在周末的作息模式和工作日的作息模式通常不同,因此,为了提高所确定出的作息模式信息的准确性,可以基于设定时段内不同场景下的设备状态信息,确定用户在设定时段内的不同场景下的作息模式信息。
本申请的可选实施例中,设备状态信息还可以包括设备的运动状态信息,上述删除条件还包括:
设备处于非静止状态且非静止状态的持续时长大于第三设定值,其中,设备是否处于非静止状态是基于设备的运动状态信息确定的。
由于用户在就寝时间,终端设备是静止状态,而在非就寝时间,终端设备通常是处于运动状态的,因此,为了提高所确定的用户作息模式的准确性,还可以参考终端设备的运动状态信息,对上述各候选区间进行进一步的过滤。
本申请的可选实施例中,设备使用信息可以包括但不限于用户对终端应用程序的使用信息(例如用户在何时用了哪个APP多长时间等)和用户的网页浏览信息(主要可以包括但不限于用户在浏览页面中的搜索、浏览等行为所产生的使用信息)中的至少一项。设备使用信息可以包括使用时间、使用时长和使用次数中的至少一项。
本申请的可选实施例中,根据设备使用信息,预测用户的用户属性信息,具体可以包括:
基于设备使用信息以及预设的划分规则,确定用户在至少两种不同状态下的设备使用信息;
根据各状态下的设备使用信息,预测用户属性信息。
其中,上述划分规则包括但不限于场景划分规则和/或时间划分规则。
当前,手机、PAD等各种终端设备已经成为人们日常生活操作频率最多的设备之一,而各种APP、网页的多媒体应用也已经成为人们日常生活中不可或缺的一部分,大量的APP能够满足人们不同方面的需求,因此,用户每天在终端设备上都会产生了大量应用程序使用信息,如APP操作行为数据、网页浏览数据等等,这些行为数据与用户的生活或工作状态密切相关,用户的APP操作行为数据能够反映用户的个人喜好、行为模式等用户特征,而这些用户特征往往与用户的年龄、性别等因素存在着强相关性,因此,用户在终端设备上的APP行为数据可以被用于刻画用户画像,例如预测用户的年龄和性别,用户的兴趣推断等。
目前,已知部分用户画像系统会采用二进制(即0-1)表示方式来表征用户在终端上的APP使用模式,然而,这种表示方式只能表明用户在一段时期内是否使用过这个APP,并没有考虑用户在什么时候使用和具体使用时长等有用信息,因此,这种粗糙的APP使用模式不具备良好的区分度,也就是说,不能够很好地反应不同用户之间的APP使用行为差异。例如,用户A和用户B在过去一段时期内都使用某款APP,用户A只在平时晚上少量使用,而用户B是每天都会花费大量时间在使用该APP上,然而,在采取二进制表示方法时,这两个用户的APP使用模式是一样的。
一般来说,不同年龄和性别的用户存在着不同的APP使用模式,具体可能表现为:
1)男性和女性可能在某些应用上的使用时间或使用时长是不同的,例如,女士和男士都会使用某款购物APP,但是女士可能在该应用上花费明显更多的时间;
2)老年人和年轻人在使用APP的时间或时长上也可能有很大的不同,例如,老年人一般生活比较规律,入睡时间较早,因此,23:00后就不会再使用手机,而年轻人很有可能使用各类APP直到深夜。
此外,同一用户在不同的时间点(或上下文)可能也会表现出不同的APP使用模式,比如,大部人在工作日白天都需要工作或者学习,而晚上在家休息,因而,用户在工作时和在家时很有可能表现出不一样的APP使用行为;此外,用户经常在不同的状态中切换,比如通勤、工作或学习、吃饭等,在各种不同场景中可能会表现出不一样的行为模式。因此,一个用户的APP使用模式和时间点(或上下文)是密切相关的。
基于上述考虑,本申请提供一种更加精细的APP使用模式即用户对终端设备的设备使用信息的表达方式,具体的,一种可选方式中,该表达方式考虑了用户每次使用应用程序和/或浏览网页的具体时间点、使用时长、使用次数等信息,从而能够将用户的应用程序或网页使用模式刻画得更加精细,得到更加详细、能够更好的反映出用户的个性化特征。另一可选方式中,考虑到前文中所描述的,即使是同一用户,在不同的时间或不同的场景下,用户对终端设备的设备使用信息也很可能会存在较大差异,可以根据实际应用需求,配置一定的划分规则,以基于该划分规则,可以基于更细粒度的用户在不同状态下的设备使用信息,实现对用户属性信息的预测,提高预测效果。
可选的,根据输入相关信息,预测用户的用户属性信息,包括:
将用户的作息模式信息对应的表示向量和/或设备使用信息对应的表示向量进行拼接;根据拼接得到的特征信息,预测用户的用户属性信息。
其中,在实际应用中,确定各输入相关信息的表示向量的具体方式本申请实施例不做限定,可以根据实际需求配置,只要所确定出的表示向量能够很好的表征出各用户信息即可,如可以根据信息的类型,配置相应的向量转换方式。如对于上述用户对终端设备的设备使用信息,在该设备使用信息包括使用时长时,则一个使用时长所对应的表示向量,则能够反映出该时长信息,而不同使用时长各自所对应的表示向量之间,则能够反映出各不同时长的时长信息、以及各不同时长之间的时长关系。
可选的,在用户的作息模式信息对应有至少两种不同场景下的作息模式信息,用户的作息模式信息对应的表示向量则可以包括各场景下的作息模式信息的表示向量,同样的,在设备使用信息包含至少两种不同状态下的设备使用信息时,该设备使用信息对应的表示向量则可以包括各状态下的设备使用信息的表示向量,例如,可以按照工作日和周末的场景划分规则,确定出一定时段内,用户在工作日场景下对APP的使用数据的表示向量,以及用户在周末场景下对APP的使用数据的表示向量;再例如,还可以将每天划分为多个时段,分别确定用户在每天每个不同时段的设备使用信息的表示向量。在确定出各输入相关信息所对应的各向量之后,通过各向量拼接,即可得到用于预测用户属性信息的特征信息。
可选的,用户属性信息包括用户年龄信息和/或用户性别信息。
需要说明的是,本申请实施例中,在根据拼接得到的特征信息,预测用户的用户属性信息时,具体的预测实现方式,可以基于本申请实施例所提供的得到特征信息的该方式,采用现有预测技术实现,也可以采用本申请图1中所示的方法来实现。也就是说,本申请实施例的图1和图2中所示的两种预测方式,可以相互结合使用,也可以单独使用。
为了能够更好的理解本申请实施例中所提供的方案,下面结合一些具体示例对前文中所描述的方案进行描述说明。在下文的描述示例中,为了描述方便,将特征信息简称为了特征,即单一特征信息简称为单一特征,交叉特征信息简称为交叉特征;将权重信息简称了权重或权重因子。
示例一
该示例中以用户姓名中“名”为例,对确定用户的输入相关信息的表示向量的方式进行说明。
一般来说,用户的姓名由姓和名两部分组成,而名的这一部分往往暗含着用户的性别信息。例如,中国女性的名经常包含“婷”、“丽”、“娟”等常用字,而男性的姓名经常包含“强”、“军”、“建”等常用字;韩国女性的姓名多为“(秀雅)”等,而男性的姓名多为“(哲洙)”等;英语系国家女性的姓名多为“Lily”、“Amy”等,而男性的姓名多为“Mike”、“Michael”等。
此外,不同时代的人们所取的姓名都具有一定时代性,而每个时代的人,其姓名都有一定共性,因此,用户的名也能够在一定程度上反映出用户所出生的时代,也就是说跟用户的年龄具有相关性。
为了充分利用用户的姓名信息,本申请中将用户的名用向量化的方式进行编码,本示例中,以两种不同的编码方式进行了说明:
1)独热编码:在这种方式中,将用户的名当作一个整体来考虑,假设所有用户一共拥有n个不同的名,每个名按照一定的顺序给分配一个唯一的索引值,该索引值的取值范围为[0,n-1],索引值为0,则对应为第一个名,那么,任意一个用户的名可以表示成为一个维度为1*n的向量,即1行n列的行向量,在该向量中,该用户的名所对应的位的值置为1,其余位的值为0。例如,对于“爱国”这个名来说,假设其索引值为1,那么该名可以表示为如下的一个向量:
该示例中,“爱国”这一名所对应的索引值为1,即n个不同的名中的第二个名字,则只有表示向量的第二个元素的值为1,其余元素的值均为0。
2)词袋编码:不同于独热编码,词袋编码模型并不将用户的名当做一个整体来考虑,而是将名拆分为一个个独立的字符来考虑,例如,将“爱国”这个名拆分成“爱”和“国”两个中文字符,并对每个独立的字符进行编码表示。假设所有用户的名中一共包含m个不同的中文字符,同理,每个中文字符可以按照一定的顺序给分配一个唯一的索引值,该索引值的取值范围为[0,m-1],那么,任意一个用户的名可以表示成为一个维度为1*m的向量,在该向量中,该用户名所包含的中文字符的对应索引位的值为1,其余位的值为0。例如,对于“爱国”这个名来说,假设中文字符“爱”和“国”的索引分别对应0和m-1,那么该名可以表示为如下的一个向量:
需要说明的是,在实际应用中,根据不同的实际应用场景,可以配置不同的表示向量编码方式。例如,对于类似于中文和韩文这样的文字,本示例中上述两种编码格式都可以采用,但是通常来说,词袋编码相对于独热编码具有更好地通用性,例如,假设用户的名由一个常见字和一个生僻字组成,当将该名当作一个整体来考虑时,由于该名比较少见,因此很难学习到有用信息,因此独热编码的效果并不好,但如果采用词袋编码,则可以利用其中常见字的信息来进行后续的预测;然而,对于像英文这种语言,每个词由多个独立的英文字符构成,而单独的英文字符本身并不具备任何特殊含义,因此上述两种方式中,则更加适合采取独热编码的方式进行表示。
当然,在实际应用中,该示例适用于能够获取到用户的“名”的应用场景中,如用户已经在其终端设备或终端设备上所安装的应用的“账号(Account)”服务中填写过姓名信息,且同意基于其姓名信息能够被用于用户画像描述的场景下,如果未获取到用户的“名”,则可以基于其他获取到的用户的输入相关信息进行用户属性信息的预测。
示例二
该示例中以用户对终端设备的使用时长,并按照场景(工作日或周末)和时段(不同场景下每天的不同时段)的不同,来确定用户在各种不同状态下的使用时长的向量表示为例,对确定相关信息的表示向量的方案进行说明。具体的以用户在一定时段中的不同场景下,在不同的时段中使用APP的平均时长为例,来得到各场景下不同的时段的APP平均使用时长的表示向量,通过确定出的表示向量则实现了用户对APP的使用信息的表达,例如,可以反映出:
1)在过去一段时期内的每个工作日的12:00至18:00,用户A平均使用某APP大约15分钟左右;
2)在过去一段时期内的每个周末的18:00至24:00,用户B平均使用某APP大约90分钟左右。这种表示方法能够为后续的年龄和性别预测提供了更多的信息输入,因此,能够帮助提升预测的准确率。
具体的,本示例中提供的确定用于表征APP使用信息的表示向量的方式如下:
1)首先,对日期的类型进行类别划分,比如,将每个日期分为工作日(Weekday)或者周末(Weekend),当然,也可以按照星期一、星期二、……、星期天、或者每天等进行划分。
2)其次,将每天的24小时划分为若干个记录时间段,例如,可以以每6小时作为一个区间,将一天划分为[00:00,06:00)、[06:00,12:00)、[12:00,18:00)以及[18:00,24:00)这4个时间段,当然,也可以采取其他的分割方式,例如按每个小时进行划分等,在本示例中,将每个划分的时间段用符号Ti来表示,i的取值为1至4,T1则表示第一个时间段,即每天的0点至6点这一时段。
3)根据分析收集上来的用户的APP使用行为数据,即用户对APP的使用信息,在一个统计时期内(例如,过去30天内),将用户在记录时间段Ti内每次使用某个APP的时间进行加和,从而得到用户在记录时间段Ti内使用某个APP的总时间。
本示例中采用向量化地表示方法来表示用户在记录时间段Ti使用所有APP的总时间,假设有一共有n个APP,可以给每个APP按一定顺序从0到n-1依次编号,那么,用户在记录时间段Ti使用每个APP的总时长就可以表示为一个长度为n的向量,向量中的每一位表示用户使用对应APP的总时间。如表1所示的一个示例中,表示出了用户在工作日的4个不同时间段内的APP使用总时长。如对于时间段T2,在工作日的该时段内,用户对n个A的APP中的前5个APP的使用总时长分别为0、10分钟、60分钟、5分钟、20分钟等等。
表1:按日期类型和时间段记录用户的APP使用情况
可以理解的是,在实际应用中,APP的集合可以采用不同的选择方式,如可以选择统计到的所有的APP并可以不断更新该集合,此时n等于所有APP的数量,也可以对所有的APP按照一定的规则进行筛选,挑选出一定数量的最有效用的APP。
4)将用户在记录时间段Ti的总时间除以统计时期内该日期类型中记录时间段Ti出现的总次数,便得到用户在中记录时间段Ti内的平均使用时长。
5)通过上述几个步骤可以计算出每个用户的APP使用情况,在得到所有用户的APP使用情况之后,可以选择将每个记录时间段Ti中向量中的每个值按列(当然也可以按行)进行归一化(Normalization)操作,如将数值范围限定在[0,1]区间内。可选的,可以采用最小值-最大值归一化(Min-Max Normalization)方式进行归一化操作,该归一化操作的数学表达式为:
其中,v为原始值即归一化前的数值,max和min分别表示一列元素中的最大值和最小值。
6)最后,可以将每个用户的每种日期类型下的不同时间段的向量全部拼接起来成为一个统一的向量,成为用户APP使用信息的最终表达形式,即一定时段内用户的APP使用信息的向量表示即表示向量。
作为一个直观的示例,图3和图4直观地展示了采用现有的二进制表达方式的用户APP使用信息和本申请实施例所提出的用户APP使用信息的表达方式之间区别的一个例子,图3中表示二进制表达方式的用户APP使用信息,其中,Ai=1表示该统计时期内用户使用过第i个APP;Ai=0表示该统计时期内用户未使用过第i个APP;图4表示本申请实施例所提供的APP使用信息的表示方法,该表示方法可以分别表示工作日和周末,每天按照每6个小时分为T1,T2,T3,T4共4个时间段,在每个时间段内具体记录了某个应用的平均使用时长信息(该示例中为归一化后的时长)。从图3和图4中可以直观地看出,相对于二进制的表示方式,本申请所提出的表示方法包含了更多的精细化信息,这些信息将有助于用户属性信息的预测准确度。
示例三
本示例中对基于终端设备的状态信息,确定用户作息模式的方式进行详细说明。
为了得到用户的作息模式,首先可以在终端侧收集一段时间内终端设备的熄屏数据、亮屏数据以及终端的运动数据,基于获取到的这些数据来确定用户作息模式,具体如下:
1)首先,可以对用户终端的屏幕熄屏/亮屏数据进行过滤,去除一些噪音数据,例如,由于系统消息推送引起的亮屏数据等;
2)将过滤后的屏幕熄屏/亮屏数据,按照[亮屏时间,熄屏时间]组成一个个小的候选区间;
3)将这些候选区间按照一定规则进行合并,例如,如果两个连续区间之间的时间间隔小于10分钟,则将这两个区间进行合并;
4)将合并完的区间再进行一次过滤,例如,剔除掉区间时间跨度小于2小时或者大于16小时的区间;
5)根据终端的运动数据再次去区间进行过滤,筛选出的区间需满足条件:在该区间所表示的时间范围内,终端的运动状态处于“非静止”(non-stationary)状态的持续时间小于一定的阈值;
6)在过滤后剩下的候选区间内,计算亮屏时间和熄屏时间的中位数,将亮屏时间的中位数作为某一天的起床时间,同理,将熄屏时间的中位数当作某一天的就寝时间;
需要说明的是,在实际应用中,起床时间和就寝时间通常都是一个时间点,可以直接对该时间点进行后续表示向量的转化,但是这样会存在数据量过大的问题,为了便于数据处理,在确定出某一天的起床时间点之后,可以将该时间点最接近的整点时刻的表示向量作为该时间点的表示向量,也可以将该时间点所在的时间段的表示向量作为该时间点的表示向量,当然也可以基于其他预配置的方式进行一些预处理后,基于预处理后的数据确定实际所使用的表示向量。例如,对于早上时间8:15,可以将8:00的表示向量作为8:15的表示向量,由于8:15位于8:00和9:00之间,也可以将该时段所对应的表示向量作为8:15的表示向量。
7)根据不同的日期类型来计算平均每个日期类型的平均起床时间和就寝时间。日期类型的划分可以分为:将每个日期分为工作日或者周末,当然,也可以按照星期一、星期二、……、星期天等进行划分;
8)为了将用户的作息时间向量化,本示例中将一天24小时按每一个小时划分为24个区间,并使用一个向量来表示这24个区间。针对每种日期类型,就寝时间和起床时间分别用一个向量来表示,本示例中采用独热编码方式进行编码,每种日期类型都包含两个向量。表2展示了一个用户作息模式的例子,如表中所示,假设该用户在工作日于[22:00,23:00]时间段睡觉,并于[05:00,06:00]时间段起床,在周末于[01:00,02:00]时间段睡觉,并于[11:00,12:00]时间段起床,则该用户作息模式的向量化表示如图5中所示,例如,对应就寝时间[22:00,23:00],其表示向量为[0,0,…,1,0]。
日期类型 | 就寝时间 | 起床时间 |
工作日 | [22:00,23:00] | [05:00,06:00] |
周末 | [01:00,02:00] | [11:00,12:00] |
表2
可见,该示例中,则是就寝时间或起床时间所在的时段来表征就寝时间或起床时间,如只要确定出的用户的就寝时间是在22:00至23:00之间,则该就寝时间的表示向量则可以表示为上述向量形式。当然,在实际应用中,可以根据需要进行不同的时段划分方式,如可以更细化划分粒度。对应于上述示例一至示例三,假设在实际应用中,可以获取到用户的姓名、用户对终端设备上的APP的使用信息、以及终端设备的状态信息(即可以确定出用户的作息模式信息),在确定出各信息所对应的表示向量后,则可以把用户的名的表示向量、精细化的APP使用信息的表示向量、以及作息模式表示向量拼接到一起组成用户的特征向量,以用于后续用户属性信息的预测,如将特征向量作为用于预测年龄和性别的神经网络模型的输入向量用于后续的性别和年龄预测。
注意,本申请除了利用用户姓名、精细化的APP使用信息、以及作息模式构成这三种数据之外,也可以利用用户的图像,用户的语音数据等其他用户相关的数据,只要能够采取某种手段提取出这种数据的特征,并采用向量化的表达方式即可,不再进行详述。
综上,本申请实施例所提供的用户属性信息预测方法,可以从两个方面实现对预测准确性的提升,具体如下:
1.数据的利用和表示
在数据利用方面,本申请首次提出利用用户的睡眠模式即作息模式来进行性别和年龄的预测,因用户的作息模式与用户的性别和年龄等信息有相关性,因此,新引入的这部分将有助于提升预测的准确度。
在数据表示方面,相对于现有比较粗糙的数据表示方法,如中文姓名、用户的APP使用信息等,本申请的可选实施例中提出了更加精细化地表示方法,该表示方法可使得输入向量能够包含更多的有用信息,因而有助于提升预测的准确度。
2.预测方法方面
在预测方法方面,本申请提出了一种新的预测方法(也可以称为预测算法或预测模型),其核心是提出了一个新的权重学习网络,该权重学习网络通过外积操作来捕获输入向量之间的各种交互信息,并利用深度学习技术中的卷积神经网络和多层感知机等技术,使得学习出来的特征的权重更加准确,因此,能够提升年龄和性别预测的准确度。
在实际应用中,本申请实施例提供的用户属性信息的预测方法,具体可以通过深度学习网络来实现,下面结合具体的示例,对本申请所提供的方案的上述两个方面进行详细说明。为了描述方便,下文中会以用户年龄、用户性别作为具体的用户属性信息进行说明。
需要说明的是,本申请提供的预测方法,具体可以由服务器端执行,也可以由终端设备来执行,还可以由终端设备和服务器端来共同执行,如一些步骤(如确定用户作息模式信息的步骤)可以由终端设备执行完成后,将执行结果发送至服务器端,服务器端再基于终端设备发送来的数据执行其他步骤。
为了更好的理解本申请实施例的方案的具体实现以及对应的效果,下面首先对现有的一种用户年龄和性别的预测方案的流程进行介绍,具体流程如下:
1)在终端侧收集各类用户信息和行为数据,如用户ID、APP使用行为数据、网页浏览数据等,并上传至服务器端。
2)服务器端通过用户ID得到用户的姓名,对用户的APP使用行为数据、网页浏览数据等进行分析,获得用户的APP使用信息和网页浏览信息。
4)特征向量作为预测模型的输入,输入到模型中,基于模型的预测方法对用户的年龄和性别进行预测,常用预测方法一般为采用线性支持向量机(Linear SVM)、梯度提升树(Gradient Boosting Decision Tree)、逻辑回归(logistic regression)、随机森林(Random Forest)等方法。
5)年龄的输出类别为:假设年龄类别划分为四类,如年龄段有低到高分别为:1)小于18,2)18~34,3)35~54,4)大于55,即一个类别对应一个年龄范围;姓名的输出类别为:1)男性,2)女性。
本申请实施例所提供的预测方案,是在继承了现有预测方案的隐私风险小、普适性和鲁棒性好的前提下,为了进一步提高预测的准确率,提出的新的年龄与性别预测方法。
图6中示出了基于本申请实施例所提供的预测方法的一种可选的年龄与性别预测系统的总体框图,如图6所示,该预测系统的基本工作过程可以包括:
1)在终端侧采集用户的ID标识、以及用户在终端上的行为数据,可以包括但不限于图中所示出的用户的APP使用行为数据(包括用户在何时使用某个APP多长时间等信息,如图中所示的应用使用时间和时长)、终端的熄屏/亮屏数据、终端的运动数据等,并将用户的ID标识、APP使用行为数据上传给服务器端进行分析,本示例中,终端的熄屏/亮屏数据、终端的运动数据可以保留在终端侧进行分析,如图6中所示,当然也可以将终端的熄屏/亮屏数据、终端的运动数据也上传至服务器端,由服务器端进行分析;
2)服务器端通过用户的ID标识可以通过查询“账号(Account)”服务(可以理解为用于存储用户ID和用户姓名的映射关系的用户数据库),从存储的用户数据中获得用户的姓名(如果存在的话),从用户的姓名中提取出用户的名(也就是除去用户的姓),并将用户的名表示成一个向量,可以采用现有或本申请前文实施例中所提供的方案;
3)服务器端中的应用使用模式分析器通过对所有用户过去一段时间的APP使用信息(该示例中为图中所示的应用使用时间和使用时长)进行大数据分析,得到每个用户在在不同时段类型(例如:工作日的6:00-12:00)中的使用每个APP的平均时间,最后将所有用户的数据进行过滤(Filtering)和归一化(Normalization)处理,以得到每个用户在每个时段类型中使用APP的归一化平均使用时长(Normalized Average App Usage Duration),这种表示方式可以更好地表示出用户的APP使用信息,最后采用向量化的方式来表示分析后的数据,得到用户对终端设备的设备使用信息(对应图中的应用使用模式)的表示向量的方式可以采用本申请前文实施例中所提供的方案;
4)终端侧中的作息模式分析器通过分析用户在过去一段时间内的终端的熄屏/亮屏数据、终端的运动数据(也就是前文描述的终端的运动数据),来估算用户的作息规律,得到用户在不同统计模式下的起床时间和就寝时间,同样也采用向量化地表达方式来表示用户的作息模式信息,可参见前文实施例中的描述;
在下文的示例中,假设年龄的预测共分为4类,分别是:1)18岁以下、2)18到34岁、3)35到54岁、4)55岁以上,即每一类对应一个年龄范围;而性别的预测只包含两类:1)男性以及2)女性。
可以理解的是,由于年龄预测是一个多元分类问题,而性别预测是一个二元分类问题,这两种预测问题虽然可以共用同样的方法,但是在方法的设计或使用方式上会略有不同,这对本领域技术人员来说是清楚的。另外,上述描述中年龄类别的数量是可以根据实际需要设置的,如可以更加细化,分为更多的类别,上述描述中的类别数量以及每个类别对应的年龄范围指示一个示例。
由于年龄预测通常是一个多元分类问题,而性别预测的结果只包含两类,即男性以及女性,因此,性别预测是一个二元分类问题。由于多元分类问题可以看作是二元分类的一种扩展,因此,下文中将首先介绍二元分类的方法,即性别预测的方法。
图7示出了性别预测方法的网络结构的原理示意图,如图7中所示,该网络结构的数学表达式可以表示为:
该表达式中,表示预测方法(也可以称为预测算法或预测模型)的输入向量,分别由用户姓名、精细化的APP使用信息、以及作息模式信息的表示向量构成,其中xi、xj分别表示特征向量中的第i个单一特征和第j个单一特征;同样的,针对每个单一特征都对应一个隐式特征向量d为隐式特征向量空间的维度;w0表示全局偏置。
此外,在该公式中,f(.,.)表示本申请提出的一个权重学习网络(WeightingNetwork),该权重学习网络的作用是分来用来学习单一特征和交叉特征的权重,即本示例中,用于确定单一特征的第一权重的权重学习网络和用于确定交叉特征的第二权重的权重学习网络为同一个。为描述介绍,将权重学习网络表示为函数作为一可选方案,权重学习网络的网络结构如图8所示,其中z是权重学习网络的输出,对于二元分类问题,z为一个实值,对于多元分类问题,z可以是一个列向量,列向量的每个元素对应一个分类类别。
由图8可以看出,本示例中的权重学习网络可以包括依次级联的外积计算模块、特征提取模块和权重学习模块,其中,特征提取模块包括多个卷积模块(卷积模块具体可以包括卷积和池化层等),每个卷积模块的卷积核的大小不同,权重学习模块可以包括多层级的全连接层结构。
在该权重学习网络中,数据的处理流程如下:
2)接着,将矩阵输入到多个卷积和池化层中,每一卷积层可以包含不同维度的卷积核,卷积和池化层中卷积核的大小、卷积核的个数、每一层的参数可以根据经验或实验确定;
3)将最后一个卷积和池化层的所有输出进行扁平化处理,得到一个中间向量;
4)将该中间向量输入到多个全连接层中,全连接层的个数以及每一层的结点个数可以由经验或实验结果决定;
5)最后,输出最终结果z。
下面将对本申请实施例的预测方法中的权重学习网络和针对单一特征的权重学习方法进行具体介绍:
1)权重学习网络
首先,本申请中的权重学习网络可以利用外积来计算两个输入向量之间的交互关系,外积的结果是一个矩阵,并非一个向量,外积相对于元素积来说有如下几个优势:
a、通过观察上述外积和元素积的具体数学公式,可以发现,外积的结果包含了元素积的所有结果,具体来说,对于两个输入向量,它们元素积的结果是它们外积矩阵中的主对角线上的所有元素,因此,外积相对内积来说包含了更多关于两个输入向量之间的交互信息,这些增加的信息是两个输入向量之间非对应位之间的交互信息;
b、外积的结果是一个矩阵形式,因此,可以很容易地来应用先进的卷积神经网络(Convolutional Neural Network,简写CNN)来提取高级特征和拟合复杂函数,卷积神经网络被广泛地应用于计算机视觉领域,具有良好的效果。
其次,本申请的权重学习网络可以利用卷积神经网络来提取外积矩阵中的局部高阶特征,使用不同的卷积核可以捕获矩阵中不同区域的特征。
再者,本申请的权重学习网络在最后采用了多个全连接层,而并非单一全连接层,通常来说,多个全连接层相对于单一全连接层来说,能够更好地拟合复杂函数,因而能够更好地学习特征的权重。
另外,本申请的权重学习网络的目标是直接用来学习各种特征的权重,权重学习网络输出的结果直接就是学习出来的权重,而注意力网络需要跟其他的因式来共同表示出特征的权重,因此,权重学习网络更加具有针对性。
2)单一特征的权重学习
首先,本申请的预测方法可以基于单一特征xi所对应的隐式特征向量来学习单一特征xi的权重,使用隐式特征向量来学习单一特征权重的动机是因为隐式特征向量包含了关于特征的一些隐式信息,而这些信息有助于权重的学习,比如,如果一个单一特征是一个对应于APP的使用信息的单一特征的话,那么其所对应的隐式特征向量可以认为是表示了该APP的功能构成信息。
其次,从本申请的网络结构的数学表达式公式中可以看到,在单一特征的权重学习中也可以利用本申请所提出的权重学习网络,这样做的好处是通过复用权重学习网络可以建立起单一特征和交叉特征之间的关联关系,通过这种方式,可以同时利用单一特征和交叉特征的信息来共同学习模型的参数(即隐式特征向量和权重学习网络),可以使得学习出来的参数更加地准确,因此提升预测的准确度。
需要说明的是,本申请实施例所提供的预测方法的具体实施例方式并不是唯一的,可以根据实际需要采用不同的处理方式。
作为本申请实施例的一种可选变形方式,本申请的预测方法的表达式可以变形为:
通过对比表达式(1)和表达式(2)可以看出,表达式(1)与表达式(2)的区别在于:在单一特征的权重学习部分,可以采用一个变量wi来表示单一特征xi的权重,在这种表示方法下,单一特征和交叉特征的学习是相互独立的。也就是说,本申请的方案在实施时,交叉特征的权重学习方式可以采用本申请实施例所提供的、基于交叉特征所对应的两个单一特征的隐向量来确定权重的方式。
作为本申请实施例的另一种可选变形方式,本申请的预测方法的表达式还可以变形为:
通过对比表达式(3)和表达式(1)可以看出,表达式(3)与表达式(1)的区别在于:在单一特征的权重学习部分可以采用自定义的函数该函数的自变量是即单一特征的隐向量,该函数的具体形式,可以根据实际需求设置,在这种表示方法下,单一特征和交叉特征的学习通过建立起相关性。也就是说,本申请的方案在实施时,单一特征的权重和交叉特征的权重都可以与单一特征的隐向量关联,两者可以采用相同原理的方案确定,如前文中所提供的同一权重学习网络来学习,也可以采用不同的权重学习网络或权重学习函数来实现。
再者,本申请实施例所提供的方案在实施时,对于所要预测的用户属性信息的不同,方法的实施也会有所不同,例如,对于年龄和性别两种用户属性信息而言,由于年龄的预测是一个多元分类问题,并不能直接套用性别预测所使用的二元分类方法,但是可以基于本申请所提供的预测方法的原理,采用不同的思路实现不同分类问题的解决,下面以两种不同的思路为例,对本申请方法的实施进行说明:第一种是对二元分类方法进行调整,以使其适应多元分类问题;第二种是将多元分类问题转换成多个二元分类问题。下文将分别对这两种方式分别进行介绍。
1、对二元分类方法进行调整
在性别预测方法中,权重学习网络的输出z是一个实值,因此只能用来解决二元分类问题。因此,为了适应多分类问题,需要将权重学习网络的输出z从一个实值变为一个向量即可,向量的长度等于类别的个数,即如果是包含K个类别的多元分类问题,那么z的维度是1*K,对应地,变量w0也需要转变成一个维度为1*K的向量。
2、多元分类问题转化成二元分类问题
在这种方式下,不需要对原有的公式进行修改,而是对多元分类问题进行转化,也可以存在多种不同的处理方法,如采用一对多法(one-versus-rest)或者一对一法(one-versus-one),下文将分别对这两种方法进行解释说明:
1)一对多法
在这种方法下,对于包含K个类别的多元分类问题,可以使用现有的二元分类方法构造出K个不同的二元分类模型,这K个模型在模型训练时依次把某个类别的样本归为一类,剩下属于其他类别的样本归为另一类,因此,相当于把原始的K分类问题转化成为K个二元分类问题,在模型预测的时候,这K个二元分类模型将分别对输入向量进行预测,取得分最高的那个最为最终的预测类别。
2)一对一法
不同于上述的一对多法,一对一法对于包含K个类别的多元分类问题,将使用现有的二元分类方法构造出个不同的二元分类模型,对于每个分类模型,在训练时,可以挑选两类不同类别之间的样本进行训练。在预测阶段即在训练完成后的使用阶段,这个二元分类模型将分别对输入向量进行预测,可以将其中得票数最多的那个类将作为最终的预测类别。
现有的预测方法中,通常是在单一服务内,基于用户活动数据的挖掘得到预测结果,此时的预测结果理论上只能在该服务内部使用。而本申请所提供的方案,实现了在终端系统层面对用户属性信息的预测,因此,本申请的方案可以在终端系统层面提供年龄和性别等信息的预测服务,基于本申请实施例的预测结果,可以方便上层服务的开发和运营,更好的满足实际应用需求。
对于用户年龄和性别等各属性信息的预测,在实际应用中的作用已经越来越突出。作为一实际应用中的示例,图9中示出了一种采集用户的输入相关信息,基于采集到的数据实现用户年龄和性别的预测,以及基于预测结果实现用户个性化信息推荐的完整的流程示意图,如图9所示,主要可以包括:
首先是数据收集,即用户的输入相关信息的获取。输入相关信息主要可包括用户的账户信息,该账户信息可以是用户标识,可以为用户名,也可以是其他用户标识,基于该标识可以通过查询用户账户数据库中得知用户姓名;APP使用信息即设备使用信息的一种,对于本申请所提供的预测方案,输入相关信息还可以包括用户的作息模式信息(可以根据终端设备的亮屏时间和熄屏时间等确定)。另外,输入相关信息还可以包括能够获取到的其他用户数据,如用户的网页浏览和搜索信息等等。
基于本申请实施例所提供的方案,对于获取到的细粒度APP使用信息,如APP使用时间、使用时长等,则可以得到细粒度的设备使用信息相应的表示向量,对于获取到的用户作息模式信息,进一步得到用户作息模式所对应的表示向量,同样的,可以确定出用户姓名、其他用户数据所对应的表示向量,之后可以将各信息对应的表示向量进行拼接,得到输入相关信息所对应的各单一特征信息,并可以基于单一特征信息得到交叉特征信息,之后即可基于本申请实施例所提供的预测方法(图中所示的用户属性信息预测模型)实现用户属性信息(如年龄和/或性别等)的预测。且与现有技术相比,基于申请实施例所提供的方案能够有效提高预测准确率。
在实际应用场景中,在预测出用户年龄和性别之后,即可基于预测结果为用户进行个性化推荐,如可以对于不同年龄和性别的用户进行有针对性行的定向广告推荐,如图中所示的一示意结果中,对于年龄段为18~34岁的男性,可以进行与游戏、运动、电子产品等有关的广告的推荐,而对于年龄相对较大的用户,可以进行与保健/医疗产品等相关的广告推荐。此外,还可以在一些应答场景中为不同年龄和性别的用户采用不同的回复模式,如在语音应答场景(如语音导航、语音搜索、智能答复系统等)中,如图中所示的在个性化语音聊天的场景中,可以为18~34岁的男性,推荐使用可爱女性音调或者卖萌回复的方式进行语音播放,可以为18~34岁的女性,推荐使用成熟磁性男性音调和活泼回复的方式进行语音播放等,还可以应用在其他个性化推荐场景中。而基于本申请实施例所提供的方案,能够有效提高预测准确率,在实际应用场景中,可更好的提升用户的使用体验。对应于图1中所示的方法,本申请实施例还提供了一种用户属性信息的预测装置,该装置包括输入相关信息获取模块、特征相关信息确定模块、以及属性信息预测模块,其中:
输入相关信息获取模块,用于获取用户的输入相关信息;
特征相关信息确定模块,用于确定输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征信息之间的交叉特征信息;
属性信息预测模块,用于根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。
可选的,特征相关信息确定模块在确定各特征信息分别对应的权重信息,时,具体用于:
确定各特征信息分别对应的权重输入信息;
根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息。
可选的,特征相关信息确定模块在确定各特征信息分别对应的权重输入信息时,具体用于:
确定各特征信息分别对应的输入向量信息;
根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息。
可选的,特征相关信息确定模块在确定各单一特征信息分别对应的输入向量信息时,具体用于:
针对各单一特征信息,分别根据单一特征信息以及单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息;
和/或
特征相关信息确定模块在确定交叉特征分别对应的输入向量信息时,具体用于:
针对各交叉特征信息对应的至少两个单一特征信息,分别根据单一特征信息以及单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息,将确定出的至少两个输入向量信息确定为交叉特征信息对应的输入向量信息。
可选的,权重输入信息为能够表征各输入向量信息的元素间关系的输入矩阵。
可选的,特征相关信息确定模块在根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息时,具体用于:
针对各特征信息,分别将特征信息对应的各输入向量信息之间进行外积运算;
将外积运算结果确定为特征信息对应的权重输入信息。
可选的,特征相关信息确定模块在根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息时,具体用于:
根据各特征信息分别对应的权重输入信息,通过权重学习网络,确定各特征信息分别对应的权重信息。
可选的,权重学习网络包括:对权重输入信息进行特征提取的特征提取模块和根据所提取的特征预测特征信息对应的权重信息的权重学习模块。
可选的,特征提取模块通过至少两种卷积参数,对权重输入信息进行特征提取;
和/或
权重学习模块包括依次级联的至少两个全连接层。
可选的,权重学习网络为深度学习网络。
可选的,属性信息预测模块具体用于:
根据各特征信息分别对应的权重信息,确定加权处理后的各特征信息;
根据加权处理后的各特征信息,预测用户属性信息。
可选的,输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息。
可选的,设备使用信息包括使用时间、使用时长和使用次数中的至少一项。
可选的,特征相关信息确定模块在确定输入相关信息对应的各特征信息时,具体用于:
将用户的作息模式信息对应的表示向量和/或设备使用信息对应的表示向量进行拼接,得到输入相关信息对应的各单一特征信息。
可选的,用户属性信息包括用户年龄信息和/或用户性别信息。
对应于图2中所示的方法,本申请实施例还提供了一种用户属性信息的预测装置,该装置包括输入相关信息获取模块和属性信息预测模块,其中:
输入相关信息获取模块,用于获取用户的输入相关信息,输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息;
属性信息预测模块,用于根据输入相关信息,预测用户的用户属性信息。
可选的,设备使用信息包括使用时间、使用时长和使用次数中的至少一项。
可选的,属性信息预测模块具体用于:
将用户的作息模式信息对应的表示向量和/或设备使用信息对应的表示向量进行拼接;
根据拼接得到的特征信息,预测用户的用户属性信息。
可选的,用户属性信息包括用户年龄信息和/或用户性别信息。
可以理解的是,本申请实施例的所提供的各模块,可以具有实现本申请实施例所提供的方法中的相应步骤的功能。其中,该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。上述各模块可以是软件和/或硬件,各模块可以单独实现,也可以多个模块集成实现。对于用户属性信息的预测装置的各模块的功能描述具体可以参见上述各实施例中的方法中的相应描述,在此不再赘述。
此外,本申请实施例的装置的各功能模块,在实际应用中,可以根据实际应用需求,运行于终端设备和/或服务器中。
基于相同的原理,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器;存储器中存储有计算机程序;处理器,用于调用计算机程序,以执行本申请任一实施例中所提供的方法。
基于相同的原理,本申请实施例还提供了一种计算机可读存储介质,其特征在于,存储介质中存储有计算机程序,计算机程序被处理器执行时实现本申请任一实施例中所提供的方法。
作为一可选方案,图10中示出了本申请实施例所适用的一种电子设备的结构示意图,如图10所示,图该电子设备4000可以包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述任一方法实施例所示的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (23)
1.一种用户属性信息的预测方法,其特征在于,包括:
获取用户的输入相关信息;
确定所述输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,所述输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征信息之间的交叉特征信息;
根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。
2.根据权利要求1所述的方法,其特征在于,确定各特征信息分别对应的权重信息,包括:
确定各特征信息分别对应的权重输入信息;
根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息。
3.根据权利要求2所述的方法,其特征在于,确定各特征信息分别对应的权重输入信息,包括:
确定各特征信息分别对应的输入向量信息;
根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息。
4.根据权利要求3所述的方法,其特征在于,确定各单一特征信息分别对应的输入向量信息,包括:
针对各单一特征信息,分别根据单一特征信息以及所述单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息;
和/或
确定各交叉特征信息分别对应的输入向量信息,包括:
针对各交叉特征信息对应的至少两个单一特征信息,分别根据单一特征信息以及所述单一特征信息对应的隐向量,确定单一特征信息对应的输入向量信息,将确定出的至少两个输入向量信息确定为交叉特征信息对应的输入向量信息。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述权重输入信息为能够表征各输入向量信息的元素间关系的输入矩阵。
6.根据权利要求3至5中任一项所述的方法,其特征在于,根据各特征信息分别对应的输入向量信息,确定各特征信息分别对应的权重输入信息,包括:
针对各特征信息,分别将特征信息对应的各输入向量信息之间进行外积运算;
将外积运算结果确定为特征信息对应的权重输入信息。
7.根据权利要求2至6中任一项所述的方法,其特征在于,根据各特征信息分别对应的权重输入信息,确定各特征信息分别对应的权重信息,包括:
根据各特征信息分别对应的权重输入信息,通过权重学习网络,确定各特征信息分别对应的权重信息。
8.根据权利要求7所述的方法,其特征在于,所述权重学习网络包括:对权重输入信息进行特征提取的特征提取模块和根据所提取的特征预测特征信息对应的权重信息的权重学习模块。
9.根据权利要求8所述的方法,其特征在于,所述特征提取模块通过至少两种卷积参数,对权重输入信息进行特征提取;
和/或
所述权重学习模块包括依次级联的至少两个全连接层。
10.根据权利要求7至9中任一项所述的方法,其特征在于,所述权重学习网络为深度学习网络。
11.根据权利要求2至10中任一项所述的方法,其特征在于,根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息,包括:
根据各特征信息分别对应的权重信息,确定加权处理后的各特征信息;
根据加权处理后的各特征信息,预测用户属性信息。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息。
13.根据权利要求12所述的方法,其特征在于,所述设备使用信息包括使用时间、使用时长和使用次数中的至少一项。
14.根据权利要求12或13所述的方法,其特征在于,确定所述输入相关信息对应的各特征信息,包括:
将所述用户的作息模式信息对应的表示向量和/或所述设备使用信息对应的表示向量进行拼接,得到所述输入相关信息对应的各单一特征信息。
15.根据权利要求1至14中任一项所述的方法,其特征在于,所述用户属性信息包括用户年龄信息和/或用户性别信息。
16.一种用户属性信息的预测方法,其特征在于,包括:
获取用户的输入相关信息,所述输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息;
根据所述输入相关信息,预测所述用户的用户属性信息。
17.根据权利要求16所述的方法,其特征在于,所述设备使用信息包括使用时间、使用时长和使用次数中的至少一项。
18.根据权利要求16或17所述的方法,其特征在于,根据所述输入相关信息,预测所述用户的用户属性信息,包括:
将所述用户的作息模式信息对应的表示向量和/或所述设备使用信息对应的表示向量进行拼接;
根据拼接得到的特征信息,预测所述用户的用户属性信息。
19.根据权利要求16至18中任一项所述的方法,其特征在于,所述用户属性信息包括用户年龄信息和/或用户性别信息。
20.一种用户属性信息的预测装置,其特征在于,包括:
输入相关信息获取模块,用于获取用户的输入相关信息;
特征相关信息确定模块,用于确定所述输入相关信息对应的各特征信息以及各特征信息分别对应的权重信息,所述输入相关信息对应的各特征信息包括:用户各输入相关信息分别对应的单一特征信息,和/或至少两个单一特征信息之间的交叉特征信息;
属性信息预测模块,用于根据各特征信息以及各特征信息分别对应的权重信息,预测用户属性信息。
21.一种用户属性信息的预测装置,其特征在于,包括:
输入相关信息获取模块,用于获取用户的输入相关信息,所述输入相关信息包括用户的作息模式信息,和/或,用户对终端设备的设备使用信息;
属性信息预测模块,用于根据所述输入相关信息,预测所述用户的用户属性信息。
22.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器中存储有计算机程序;
所述处理器,用于调用所述计算机程序,以执行权利要求1至19中任一项所述的方法。
23.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至19中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910866676.1A CN112488742A (zh) | 2019-09-12 | 2019-09-12 | 用户属性信息的预测方法、装置、电子设备及存储介质 |
US17/018,664 US11694059B2 (en) | 2019-09-12 | 2020-09-11 | Method, apparatus, electronic device and storage medium for predicting user attribute |
PCT/KR2020/012356 WO2021049921A1 (en) | 2019-09-12 | 2020-09-14 | Method, apparatus, electronic device and storage medium for predicting user attribute |
EP20863662.1A EP3973418A4 (en) | 2019-09-12 | 2020-09-14 | METHOD, DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIUM FOR PREDICTING A USER FEATURE |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910866676.1A CN112488742A (zh) | 2019-09-12 | 2019-09-12 | 用户属性信息的预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112488742A true CN112488742A (zh) | 2021-03-12 |
Family
ID=74866780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910866676.1A Pending CN112488742A (zh) | 2019-09-12 | 2019-09-12 | 用户属性信息的预测方法、装置、电子设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11694059B2 (zh) |
EP (1) | EP3973418A4 (zh) |
CN (1) | CN112488742A (zh) |
WO (1) | WO2021049921A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706040A (zh) * | 2021-09-01 | 2021-11-26 | 深圳前海微众银行股份有限公司 | 风险识别方法、装置、设备及存储介质 |
CN113919585A (zh) * | 2021-10-29 | 2022-01-11 | 中国联合网络通信集团有限公司 | 一种营销时间预测方法、装置、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11615782B2 (en) * | 2020-11-12 | 2023-03-28 | Sony Interactive Entertainment Inc. | Semi-sorted batching with variable length input for efficient training |
CN114462073A (zh) * | 2021-12-21 | 2022-05-10 | 北京旷视科技有限公司 | 去标识化效果评估方法、装置、存储介质及产品 |
CN115601402B (zh) * | 2022-12-12 | 2023-03-28 | 知行汽车科技(苏州)股份有限公司 | 针对柱面图检测框的目标后处理方法、装置、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203395A (zh) * | 2016-07-26 | 2016-12-07 | 厦门大学 | 基于多任务深度学习的人脸属性识别方法 |
CN106850314A (zh) * | 2016-12-20 | 2017-06-13 | 上海掌门科技有限公司 | 一种用于确定用户属性模型及用户属性信息的方法与设备 |
WO2017203262A2 (en) * | 2016-05-25 | 2017-11-30 | Metail Limited | Method and system for predicting garment attributes using deep learning |
WO2018231455A1 (en) * | 2017-06-14 | 2018-12-20 | Microsoft Technology Licensing, Llc | Sleep monitoring from implicitly collected computer interactions |
US10216551B1 (en) * | 2016-03-01 | 2019-02-26 | Intertrust Technologies Corporation | User information determination systems and methods |
CN109885834A (zh) * | 2019-02-18 | 2019-06-14 | 中国联合网络通信集团有限公司 | 一种用户年龄性别的预测方法及装置 |
CN110012060A (zh) * | 2019-02-13 | 2019-07-12 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN110046550A (zh) * | 2019-03-14 | 2019-07-23 | 中山大学 | 基于多层特征学习的行人属性识别系统及方法 |
CN110134466A (zh) * | 2018-02-02 | 2019-08-16 | 北京三星通信技术研究有限公司 | 信息处理方法和终端设备 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8447652B2 (en) | 2011-05-31 | 2013-05-21 | Yahoo! Inc. | System and method for targeting advertising to a device based on installed applications |
US8375331B1 (en) | 2011-08-23 | 2013-02-12 | Google Inc. | Social computing personas for protecting identity in online social interactions |
US8914496B1 (en) | 2011-09-12 | 2014-12-16 | Amazon Technologies, Inc. | Tracking user behavior relative to a network page |
US8983888B2 (en) * | 2012-11-07 | 2015-03-17 | Microsoft Technology Licensing, Llc | Efficient modeling system for user recommendation using matrix factorization |
US10102307B2 (en) * | 2013-03-15 | 2018-10-16 | Oath Inc. | Method and system for multi-phase ranking for content personalization |
CN104090886B (zh) | 2013-12-09 | 2015-09-09 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
KR101573601B1 (ko) | 2014-03-10 | 2015-12-04 | 단국대학교 산학협력단 | 사용자 프로파일과 상황 정보를 이용한 선호도 기반 하이브리드 필터링 콘텐츠 추천 장치 및 방법 |
US10147041B2 (en) * | 2015-07-14 | 2018-12-04 | Facebook, Inc. | Compatibility prediction based on object attributes |
US10157351B1 (en) * | 2015-10-20 | 2018-12-18 | Amazon Technologies, Inc. | Persona based data mining system |
US11574207B2 (en) * | 2016-09-16 | 2023-02-07 | Oracle International Corporation | Proximal factorization machine interface engine |
US10691751B2 (en) * | 2017-01-23 | 2020-06-23 | The Trade Desk, Inc. | Data processing system and method of associating internet devices based upon device usage |
KR101913845B1 (ko) | 2017-02-24 | 2018-11-01 | (주)에프앤아이 | 사용자의 심리 상태 데이터를 획득하고 상기 사용자의 심리 상태에 대하여 판단하기 위한 방법, 이를 이용한 사용자 단말, 서버, 및 심리 상태 판단용 키트 |
WO2018227823A1 (zh) | 2017-06-16 | 2018-12-20 | 华为技术有限公司 | 一种生成用户画像的方法和终端 |
CN109145932A (zh) | 2017-06-28 | 2019-01-04 | 中兴通讯股份有限公司 | 用户性别预测方法、装置及设备 |
US10943171B2 (en) * | 2017-09-01 | 2021-03-09 | Facebook, Inc. | Sparse neural network training optimization |
US20190073580A1 (en) * | 2017-09-01 | 2019-03-07 | Facebook, Inc. | Sparse Neural Network Modeling Infrastructure |
US11144812B2 (en) * | 2017-09-01 | 2021-10-12 | Facebook, Inc. | Mixed machine learning architecture |
US11003992B2 (en) * | 2017-10-16 | 2021-05-11 | Facebook, Inc. | Distributed training and prediction using elastic resources |
CN109376927A (zh) | 2018-10-24 | 2019-02-22 | 阿里巴巴集团控股有限公司 | 一种用户年龄预测方法、装置及设备 |
-
2019
- 2019-09-12 CN CN201910866676.1A patent/CN112488742A/zh active Pending
-
2020
- 2020-09-11 US US17/018,664 patent/US11694059B2/en active Active
- 2020-09-14 EP EP20863662.1A patent/EP3973418A4/en active Pending
- 2020-09-14 WO PCT/KR2020/012356 patent/WO2021049921A1/en unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10216551B1 (en) * | 2016-03-01 | 2019-02-26 | Intertrust Technologies Corporation | User information determination systems and methods |
WO2017203262A2 (en) * | 2016-05-25 | 2017-11-30 | Metail Limited | Method and system for predicting garment attributes using deep learning |
CN106203395A (zh) * | 2016-07-26 | 2016-12-07 | 厦门大学 | 基于多任务深度学习的人脸属性识别方法 |
CN106850314A (zh) * | 2016-12-20 | 2017-06-13 | 上海掌门科技有限公司 | 一种用于确定用户属性模型及用户属性信息的方法与设备 |
WO2018231455A1 (en) * | 2017-06-14 | 2018-12-20 | Microsoft Technology Licensing, Llc | Sleep monitoring from implicitly collected computer interactions |
CN110134466A (zh) * | 2018-02-02 | 2019-08-16 | 北京三星通信技术研究有限公司 | 信息处理方法和终端设备 |
CN110012060A (zh) * | 2019-02-13 | 2019-07-12 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN109885834A (zh) * | 2019-02-18 | 2019-06-14 | 中国联合网络通信集团有限公司 | 一种用户年龄性别的预测方法及装置 |
CN110046550A (zh) * | 2019-03-14 | 2019-07-23 | 中山大学 | 基于多层特征学习的行人属性识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
HE,KK等: "Adaptively Weighted Multi-task Deep Network for Person Attribute Classification", 《25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 1 January 2017 (2017-01-01), pages 1636 - 1644 * |
黄立威等: "基于深度学习的推荐系统研究综述", 《计算机学报》, no. 7, 5 March 2018 (2018-03-05), pages 191 - 219 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706040A (zh) * | 2021-09-01 | 2021-11-26 | 深圳前海微众银行股份有限公司 | 风险识别方法、装置、设备及存储介质 |
CN113706040B (zh) * | 2021-09-01 | 2024-05-28 | 深圳前海微众银行股份有限公司 | 风险识别方法、装置、设备及存储介质 |
CN113919585A (zh) * | 2021-10-29 | 2022-01-11 | 中国联合网络通信集团有限公司 | 一种营销时间预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210081755A1 (en) | 2021-03-18 |
US11694059B2 (en) | 2023-07-04 |
WO2021049921A1 (en) | 2021-03-18 |
EP3973418A4 (en) | 2022-07-27 |
EP3973418A1 (en) | 2022-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112488742A (zh) | 用户属性信息的预测方法、装置、电子设备及存储介质 | |
Unger et al. | Context-aware recommendations based on deep learning frameworks | |
Zhao et al. | Modeling temporal-spatial correlations for crime prediction | |
US9183497B2 (en) | Performance-efficient system for predicting user activities based on time-related features | |
CN109960761B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
May Petry et al. | MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings | |
CN111723292B (zh) | 基于图神经网络的推荐方法、系统、电子设备及存储介质 | |
CN103678647A (zh) | 一种实现信息推荐的方法及系统 | |
CN111949886B (zh) | 一种用于信息推荐的样本数据生成方法和相关装置 | |
CN114118192A (zh) | 用户预测模型的训练方法、预测方法、装置及存储介质 | |
US6542878B1 (en) | Determining whether a variable is numeric or non-numeric | |
KR20180009408A (ko) | 소셜 네트워크 분석과 온톨로지를 이용한 장소성 추출 시스템 및 방법 | |
Zhao et al. | MDLF: A multi-view-based deep learning framework for individual trip destination prediction in public transportation systems | |
Yang et al. | Attention mechanism and adaptive convolution actuated fusion network for next POI recommendation | |
Hussain et al. | Incorporating weather updates for public transportation users of recommendation systems | |
CN107295105A (zh) | 儿童行为的分析方法及终端设备、计算机可读存储介质 | |
Lee et al. | A study on the context-aware hybrid bayesian recommender system on the mobile devices | |
Liao et al. | Location prediction through activity purpose: integrating temporal and sequential models | |
CN115545943A (zh) | 一种图谱的处理方法、装置及设备 | |
CN115630219A (zh) | 推荐模型的训练方法、装置和计算机设备 | |
El Alami et al. | Improving Neighborhood-Based Collaborative Filtering by a Heuristic Approach and an Adjusted Similarity Measure. | |
CN113626697A (zh) | 一种基于anchor-LDA和卷积神经网络的兴趣点推荐方法 | |
Yu et al. | Traffic flow prediction based on depthwise separable convolution fusion network | |
CN117556149B (zh) | 资源推送方法、装置、电子设备和存储介质 | |
Liu et al. | An improved matrix factorization model under multidimensional context situation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |