CN104102819A

CN104102819A - 一种用户自然属性的确定方法和装置

Info

Publication number: CN104102819A
Application number: CN201410302923.2A
Authority: CN
Inventors: 何飞; 傅一峰
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2014-10-15
Anticipated expiration: 2034-06-27
Also published as: CN104102819B

Abstract

本发明实施例提供了一种用户自然属性的确定方法和装置，该方法包括：根据第一用户的自然属性和行为，确定包含第一用户的自然属性和第一用户的用户特征向量的样本；对第一用户的用户特征向量中的特征进行归一化处理；通过包含归一化处理后的第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；根据第二用户的行为，确定第二用户的用户特征向量，其中，第二用户为待确定自然属性的用户；对第二用户的用户特征向量中的特征进行归一化处理；将归一化处理后的第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出第二用户的自然属性。本申请提高了确定用户自然属性的准确性。

Description

一种用户自然属性的确定方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种用户自然属性的确定方法和装置。

背景技术

互联网公司及其产品是以服务用户为基础的，因此，只有提高对来访用户的认知,才能更好地服务用户,提高用户忠诚度,最终留住用户。然而，互联网公司的用户是亿为单位来计算的，并且，注册用户比例非常低，无法覆盖足够用户。因此，需要通过技术手段获知非注册用户的自然属性，以便更好的服务用户。

现有技术中，对用户的认知方法包括：通过模型获取与已知用户的年龄或性别等自然属性相关的搜索行为和网页；根据与已知用户的自然属性相关的搜索行为和网页，建立预测模型；使用预测模型预测未知用户的自然属性。

在实现本发明的过程中，发明人发现，由于互联网的用户很多，每个用户的行为都是不一样的，如果将每个用户的每种行为都用来进行预测，计算量非常大，预测效率很低，有时甚至无法预测出结果。

另外，现有技术中，在现有技术中，直接使用用户行为对应的特征的原始值来预测用户的自然属性，这些原始值不能体现出特征对自然属性的影响，因此，预测的准确度较低。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：如何提高确定用户自然属性的准确性。

发明内容

本发明实施例所要解决的技术问题是提供一种用户自然属性的确定方法，以便提高确定用户自然属性的准确性。

相应的，本发明实施例还提供了一种用户自然属性的确定装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明公开了一种用户自然属性的确定方法，包括：根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；对所述第一用户的用户特征向量中的特征进行归一化处理；通过包含归一化处理后的所述第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；对所述第二用户的用户特征向量中的特征进行归一化处理；将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。

优选地，对所述第一用户的用户特征向量中的特征进行归一化处理，包括：

使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

其中，tf₁为所述第一用户使用第一特征的频次,sum_freq₁为所述第一用户的所有特征的频次之和，total_user是用户总数，user_uv表示第一特征被user_uv个用户覆盖到，score_user,feature为所述第一特征归一化之后的取值；

对所述第二用户的用户特征向量中的特征进行归一化处理，包括：

使用以下公式对所述第二用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

其中，tf为所述第二用户使用第一特征的频次,sum_freq为所述第二用户的所有特征的频次之和。

优选地，在对所述第一用户的用户特征向量中的特征进行归一化处理之前，所述方法还包括：确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，其中，所述N为0～1之间的浮点数，M为正整数；滤除所述第一用户的用户特征向量中除所述M个特征之外的特征；在对所述第二用户的用户特征向量中的特征进行归一化处理之前，所述方法还包括：滤除所述第二用户的用户特征向量中除所述M个特征之外的特征。

优选地，确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，包括：

通过以下公式,确定所述用户向量中的每个特征的覆盖率cov_feature，并过滤掉其中cov_feature小于N的特征:

{cov}_{feature} = \frac{{uv}_{feature}}{{uv}_{all}}

其中，uv_feature是此特征覆盖的用户数，uv_all是用户总数；

通过以下公式，确定所述第一用户的用户特征向量中覆盖率超过N的特征中每个特征的自然属性区分度discri_{feature,profile}：

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

其中，i的取值为1～N，uv_i为当前特征在当前自然属性的第i个取值上的覆盖人数，rate_i为当前自然属性第i个取值在所有用户中所占的比例；

选择自然属性区分度最高的M个特征作为所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征。

优选地，所述第一用户为注册用户，所述注册用户的自然属性是通过所述注册用户的注册信息得到的；所述行为包括：观影行为和搜索行为。

为了解决上述问题，本发明公开了一种用户自然属性的确定装置，包括：第一确定模块，用于根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；第一归一化处理模块，用于对所述第一用户的用户特征向量中的特征进行归一化处理；获取模块，用于通过包含归一化处理后的所述第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；第二确定模块，用于根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；第二归一化处理模块，用于对所述第二用户的用户特征向量中的特征进行归一化处理；第三确定模块，用于将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。

优选地，所述第一归一化处理模块用于使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

所述第二归一化处理模块用于使用以下公式对所述第二用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

优选地，所述装置还包括：

第四确定模块，用于在对所述第一用户的用户特征向量中的特征进行归一化处理之前，确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，其中，所述N为0～1之间的浮点数，M为正整数；

滤除模块，用于在对所述第一用户的用户特征向量中的特征进行归一化处理之前，滤除所述第一用户的用户特征向量中除所述M个特征之外的特征；在对所述第二用户的用户特征向量中的特征进行归一化处理之前，滤除所述第二用户的用户特征向量中除所述M个特征之外的特征。

优选地，所述第四确定模块用于：

{cov}_{feature} = \frac{{uv}_{feature}}{{uv}_{all}}

其中，uv_feature是此特征覆盖的用户数，uv_all是用户总数；

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

与现有技术相比，本发明实施例包括以下优点：

在现有技术中，直接使用用户行为对应的特征的原始值来预测用户的自然属性，这些原始值不能体现出特征对自然属性的影响，因此，预测的准确度较低。在本申请中，将用户行为对应的特征进行归一化处理，使特征取值位于[0,1]，使模型训练时收敛速度大幅度加快，从而提高了确定用户自然属性的效率，并且，归一化使特征取值有良好的抗噪性和区分性，因此，本申请一定程度上提高了确定用户自然属性的准确度。

附图说明

图1是本发明的一种用户自然属性的确定方法实施例的步骤流程图；

图2是本发明的另一种用户自然属性的确定方法实施例的步骤流程图；

图3是本发明的又一种用户自然属性的确定方法实施例的步骤流程图；

图4是本发明的一种用户自然属性的确定装置实施例的结构框图；

图5是本发明的一种用户自然属性的确定装置实施例的优选的结构框图；

图6是本发明的另一种用户自然属性的确定装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；对所述第一用户的用户特征向量中的特征进行归一化处理；通过包含归一化处理后的所述第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；对所述第二用户的用户特征向量中的特征进行归一化处理；将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。在本申请中，将用户行为对应的特征进行归一化处理，使特征取值位于[0,1]，使模型训练时收敛速度大幅度加快，从而提高了确定用户自然属性的效率，并且，归一化使特征取值有良好的抗噪性和区分性，因此，本实施例一定程度上提高了确定用户自然属性的准确度。

参照图1，示出了本发明的一种用户自然属性的确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；其中，用户的性别、年龄等和用户相关的属性称为用户自然属性(Profile)。

在本发明实施例的一个优选实例中，所述第一用户为注册用户，所述注册用户的自然属性是通过所述注册用户的注册信息得到的；所述行为包括：观影行为和搜索行为。

在具体实现时，用户特征向量简称为用户向量，用户向量可以包括多个维度的数据，这多个维度包括能够体现用户行为的特征。这多个维度也可以包含要预测的自然属性之外的自然属性。该要预测的自然属性可以作为一个标签和用户特征向量组成一个样本。用户行为可以包括用户的观影行为、用户的搜索行为、用户的观看广告的行为等，这些都可以通过用户浏览网页的历史记录获得。可以使用用户向量的一些维度表示用户的自然属性，例如表示用户的性别和年龄等；可以使用用户向量的另一些维度表示用户的观影行为，每一个维度表示一种观影行为，例如，表示观影的种类、年代、影片的演员、导演等；可以使用用户向量的又一些维度表示用户的搜索行为，每一个维度可以表示用户搜索的一个关键词。例如，可以将用户向量的第一维度设为性别，当第一维度值为1时，用户性别为男，当第一维度值为2时，用户性别为女，如表1所示；将用户向量的第二维度设为年龄段，例如，第二维度值为601时，用户年龄段在12-18岁之间，具体如表2所示；用户向量的第三维度为用户观看韩剧的维度，第三维度的值表示用户观看韩剧的次数；用户向量的第四维度为用户观看影片的出版年代，例如，当第四维度的值为1时，表示用户观看影片的出版年代为20世纪90年代；用户向量的第N维度表示用户搜索“韩剧”的次数；用户向量的第N+1维度表示用户搜索“喜剧”等。通过该实施例，可以将注册用户的自然属性和用户的行为特征关联起来。

表1

性别	名称	分类标签值
			男	Male	1
女	Female	2

表2

步骤104，对第一用户的用户特征向量中的特征进行归一化处理；

在本发明实施例的一个优选实例中，使用以下公式对第一用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

其中，tf₁为第一用户使用第一特征的频次,sum_freq₁为第一用户的所有特征的频次之和，total_user是第一用户和第二用户的总数，user_uv表示第一特征被user_uv个用户覆盖到，score_user,feature为第一特征归一化之后的取值。

，并过滤掉其中cov_feature小于N的特征:是训练集中此特征覆盖的用户数，uv_all是训练集中用户总数；：的取值为1～N，uv_i为当前特征在当前自然属性的第i个取值上的覆盖人数，rate_i为当前自然属性第i个取值在训练集中的比例；步骤106，通过包含归一化处理后的第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型。

多个第一用户的样本组成样本集，样本集的全部或部分为训练集，采用逻辑回归的方法将训练集训练成逻辑回归机器学习模型。样本集中除训练集之外的部分组成测试集，通过测试集可以验证学习模型的准确性。通过本步骤，针对每个自然属性训练出一个对应的逻辑回归机器学习模型。

步骤108，根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；

其中，第二用户可以是未注册的用户，因此不知道该用户的自然属性，但是，根据该用户的历史行为，例如观影行为和检索行为，可以采用和步骤102类似的方式，获得第二用户的用户向量。

步骤110，对第二用户的用户特征向量中的特征进行归一化处理；

在本发明实施例的一个优选实例中，使用以下公式对所述第二用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

其中，tf为第二用户使用第一特征的频次,sum_freq为第二用户的所有特征的频次之和。

步骤112，将归一化处理后的第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出第二用户的自然属性。

在具体实现中，当学习模型建立起来之后，将未注册用户的用户向量应用到该学习模型中，无需进行其他操作，即可确定出该未注册用户的自然属性，学习模型在此处起到一个黑盒子的作用。

在本实施例中，将用户行为对应的特征进行归一化处理，使特征取值位于[0,1]，使模型训练时收敛速度大幅度加快，从而提高了确定用户自然属性的效率，并且，归一化使特征取值有良好的抗噪性和区分性，因此，本实施例一定程度上提高了确定用户自然属性的准确度。

参照图2，示出了本发明的一种用户自然属性的确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202，根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；其中，用户的性别、年龄等和用户相关的属性称为用户自然属性(Profile)。

步骤204，确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，其中，所述N为0～1之间的浮点数，M为正整数；

在本发明实施例的一个优选实例中，可以通过以下公式，确定所述用户向量中的每个特征的覆盖率cov_feature，并过滤掉其中cov_feature小于N的特征:

{cov}_{feature} = \frac{{uv}_{feature}}{{uv}_{all}}

其中，多个样本为样本集，部分或全部的样本集为训练集，uv_feature是训练集中此特征覆盖的用户数，uv_all是训练集中用户总数；

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

其中，i的取值为1～N，uv_i为当前特征在当前自然属性的第i个取值上的覆盖人数，rate_i为当前自然属性第i个取值在训练集中的比例；

步骤206，滤除所述第一用户的用户特征向量中除所述M个特征之外的特征；通过该步骤，第一用户的用户向量中仅保留覆盖率高于N的特征中自然属性区分度最高的M个特征和自然属性。

步骤208，对所述第一用户的用户特征向量中的特征进行归一化处理；

在具体实现时，可以使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

为所述第一用户使用第一特征的频次,sum_freq为所述第一用户的所有特征的频次之和，是训练集中表示第一特征被user_uv个用户覆盖到，score_user,feature为所述第一特征归一化之后的取值。步骤210，通过包含归一化处理后的所述注册用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；

步骤212，根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；

其中，第二用户可以是未注册的用户，因此不知道该用户的自然属性，但是，根据该用户的历史行为，例如观影行为和检索行为，可以采用和步骤202类似的方式，获得第二用户的用户向量。

步骤214，滤除所述第二用户的用户特征向量中除所述M个特征之外的特征；

由于建立的模型中仅包含M个特征，因此，第二用户的用户向量也简化成仅包含着M个特征之内的特征，这样，有利于简化运算。

在具体实现时，在滤除第二用户的用户向量中除M个特征之外的特征的同时，还可以滤除第二用户的用户向量中用户覆盖率低于预设值的特征。

步骤216，对所述第二用户的用户特征向量中的特征进行归一化处理；

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

其中，tf为第二用户使用第一特征的频次,sum_freq为第二用户的所有特征的频次之和。步骤218，将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。

在本实施例中，在仅保留M个特征的基础上，对保留的M个特征进行归一化处理，使特征取值位于[0,1]，使模型训练时收敛速度大幅度加快，进一步提高了确定用户自然属性的效率，并且，归一化使特征取值有良好的抗噪性和区分性，因此，本实施例一定程度上提高了确定用户自然属性的准确度。

参照图3，示出了本发明的一种用户自然属性的确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤302，根据自然属性对注册用户数据进行过滤、清洗、和转换,得到格式化的用户自然属性标签。

用户在注册过程中会填写相应的自然属性信息，可以据此查找到用户填写的自然属性。

步骤304，将用户的自然属性和用户观影行为、用户搜索行为、用户视频点击行为、用户广告点击行为等用户行为对应起来，生成原始的用户向量，其中，用户行为也被称为用户特征，故用户向量也被称为用户特征向量。具体流程可以参见步骤102，在此不再赘述。

步骤306，根据已有的用户自然属性，以高用户覆盖率和提高自然属性区分度为原则来筛选，过滤掉用户覆盖率低和自然属性区别度小的特征。其中，用户覆盖率是相对方便计算的，可以采用上述实施例中的计算用户覆盖率的公式来计算。用户特征(Feature)的自然属性(profile)区分度(discri_{feature,profile})通过以下公式来计算：

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

(公式1)

其中，i的取值为1～N，N为正整数，uv_i为当前特征在当前自然属性的第i个取值上的覆盖人数，rate_i为当前自然属性第i个取值在选定用户群中的比例，discri_{feature,profile}越大表示此特征在此自然属性中区分度越大；然后，根据上述公式的计算结果选择出用户向量中自然属性区分度最高的M个特征。

步骤308，基于新的特征空间更新原始用户特征向量,然后，为每个用户的每个特征计算一个得分，该得分用来表示此特征对于该用户的重要程度，从而生成归一化的用户特征向量。

在具体实现时，可以采用一种“TF-IDF”的计算公式为每个用户user的每个特征feature计算得分:

{score}_{user, feature} = sig \mod (\frac{tf}{\sqrt{sum_freq}} \log \frac{total_user}{user_uv})

(公式2)

其中，tf为此特征在该user中的频次,sum_freq是指该user的所有特征频次之和，total_user是所有用户数量.user_uv是指该特征被user_uv个用户覆盖到。

其中，TF-IDF是文本领域用来计算一个词重要程度得分的公式，本实施例提出的“类TF-IDF”得分计算公式部分借鉴了TF-IDF计算权重的思想。

步骤310，基于步骤308中生成的用户特征向量来训练逻辑回归(LR)机器学习模型，通过10折交叉验证(10-foldCross Validation)来验证该模型的性能，从而选择一个性能优秀的模型，其中，每个自然属性对应一个模型。

步骤312，对来访用户进行类似步骤304-308的处理，生成该用户对应的用户特征向量，使用步骤310中生成的模型来预测用户自然属性。在预测出用户的自然属性之后，可以将用户自然属性预测结果保留并合并到已知用户的数据中，形成已知用户自然属性的结果集。

步骤314，将步骤312获得的结果通过超文本传输协议(HypertextTransfer Protocol，HTTP)线上接口或HDFS(Hadoop Distributed File System,是一种分布式的文件系统)批量读取接口提供给需要的部门。

在本实施例中，用户自然属性可以被定义成有限个类别，例如：性别被定义为男、女(参见表1),年龄段被定义为有限个区间(参见表2)，对于每一维自然属性，采用分类的方法来确定的用户当前维自然属性的取值。然后，基于用户观影行为和用户搜索行为等用户行为，以注册用户标签为标签数据来训练分类器(一种计算机程序,通过对已知类标签的数据的自动学习,可自动将未知类标签的数据分到已知类别,常用于预测领域。分类是指分类器将数据分到已知类别的动作)，然后，分类器根据已知标签数据进行学习，完成分类器模型的训练，并使用该模型用来预测来访问用户相应的自然属性。

在本实施例中，在特征选择过程中，使用用户覆盖率进行初次过滤可以去掉大量长尾特征，再次通过自然属性区分度过滤掉部分区分度小的特征,如此，特征选择后的用户特征具有良好地区分度和覆盖度。然后，将用户特征得分的归一化，这充分考虑当前用户的某个特征、所有特征、和特征的重要程度之前的关系，归一化采用“类TF-IDF”的得分计算方法，使用sigmoid函数进行将得分映射0.0～1.0，达到了去除异常数据和提高特征取值区分度的作用。经过特征选择和得分归一化后的用户特征量，能够明显提高模型训练的时间效率和模型性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明一种用户自然属性的确定装置实施例的结构框图，具体可以包括如下模块：

第一确定模块402，用于根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；

第一归一化处理模块404，用于对所述第一用户的用户特征向量中的特征进行归一化处理；

获取模块406，用于通过包含归一化处理后的所述第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；

第二确定模块408，用于根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；

第二归一化处理模块410，用于对所述第二用户的用户特征向量中的特征进行归一化处理；

第三确定模块412，用于将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。

在本发明实施例的一个优选实例中，所述第一归一化处理模块404用于使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

所述第二归一化处理模块410用于使用以下公式对所述第二用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

在本发明实施例的一个优选实例中，如图5所示，所述装置还包括：

第四确定模块502，用于在对所述第一用户的用户特征向量中的特征进行归一化处理之前，确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，其中，所述N为0～1之间的浮点数，M为正整数；

滤除模块504，用于在对所述第一用户的用户特征向量中的特征进行归一化处理之前，滤除所述第一用户的用户特征向量中除所述M个特征之外的特征；在对所述第二用户的用户特征向量中的特征进行归一化处理之前，滤除所述第二用户的用户特征向量中除所述M个特征之外的特征。

在本发明实施例的一个优选实例中，所述第四确定模块502用于：

{cov}_{feature} = \frac{{uv}_{feature}}{{uv}_{all}}

其中，uv_feature是此特征覆盖的用户数，uv_all是用户总数；

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

为所述第一用户使用第一特征的频次,sum_freq为所述第一用户的所有特征的频次之和，多个样本为样本集，部分或全部的样本集为训练集，total_user是训练集中第一用户的总数，user_uv表示第一特征被user_uv个用户覆盖到，score_user,feature为所述第一特征归一化之后的取值。，并过滤掉其中cov_feature小于N的特征:是训练集中此特征覆盖的用户数，uv_all是训练集中用户总数；：的取值为1～N，uv_i为当前特征在当前自然属性的第i个取值上的覆盖人数，rate_i为当前自然属性第i个取值在训练集中的比例；

图6示出了本发明一种用户自然属性的确定装置实施例的结构框图，如图6所示，该装置包括：

用户特征向量生成模块602，用于生成原始用户特征向量，将生成的特征向量提供给模型训练模块和用户预测模块使用，该模块可以实现第一确定模块402和第二确定模块408的功能，具体内容可以参照图4和图5所示的实施例，在此不再赘述。

模型训练模块604，用于基于原始用户特征进行特征选择，生成归一化的特征向量，基于归一化特征向量训练逻辑回归机器学习模型，并进行评估，选择出性能优秀的模型。该模块可以实现第四确定模块502、滤除模块504、获取模块406和第一归一化处理模块404的功能，具体内容可以参照图4和图5所示的实施例，在此不再赘述。

用户预测模块606，用于基于原始用户特征，将来访问用户表示成归一化的用户特征向量，使用模型训练模块生成和选定的模型来预测用户自然属性。用户预测模块还用于向外提供请求接口，返回用户自然属性。该模块可以实现滤除模块504、第三确定模块412和第二归一化处理模块410的功能，具体内容可以参照图4和图5所示的实施例，在此不再赘述。

由于用户特征向量的维度一般都非常高,而过高的用户特征维度可能导致训练时间过长甚至无法训练，选择出有限地最有效特征集可以提高分类器的训练时间效率。用户特征归一中对用户特征计算得分的计算不仅影响分类器的训练时间效率,而且极大的影响着分类器的分类性能(如准确率),对训练分类器至关重要。因此，本实施例既能提高确定用户自然属性的效率，又能提高其准确性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种用户自然属性的确定方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户自然属性的确定方法，其特征在于，包括：

根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；

对所述第一用户的用户特征向量中的特征进行归一化处理；

通过包含归一化处理后的所述第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；

根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；

对所述第二用户的用户特征向量中的特征进行归一化处理；

将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。

2.根据权利要求1所述的方法，其特征在于，

对所述第一用户的用户特征向量中的特征进行归一化处理，包括：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

3.根据权利要求1所述的方法，其特征在于，

在对所述第一用户的用户特征向量中的特征进行归一化处理之前，所述方法还包括：确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，其中，所述N为0～1之间的浮点数，M为正整数；滤除所述第一用户的用户特征向量中除所述M个特征之外的特征；

在对所述第二用户的用户特征向量中的特征进行归一化处理之前，所述方法还包括：滤除所述第二用户的用户特征向量中除所述M个特征之外的特征。

4.根据权利要求3所述的方法，其特征在于，确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的M个特征，包括：

{cov}_{feature} = \frac{{uv}_{feature}}{{uv}_{all}}

其中，uv_feature是此特征覆盖的用户数，uv_all是用户总数；

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

5.根据权利要求1至4中任一项所述的方法，其特征在于，

所述第一用户为注册用户，所述注册用户的自然属性是通过所述注册用户的注册信息得到的；所述行为包括：观影行为和搜索行为。

6.一种用户自然属性的确定装置，其特征在于，包括：

第一确定模块，用于根据第一用户的自然属性和行为，确定包含所述第一用户的自然属性和所述第一用户的用户特征向量的样本，其中，所述第一用户为已知自然属性的用户，所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的；

第一归一化处理模块，用于对所述第一用户的用户特征向量中的特征进行归一化处理；

获取模块，用于通过包含归一化处理后的所述第一用户的用户特征向量的样本，获得每个自然属性对应的逻辑回归机器学习模型；

第二确定模块，用于根据第二用户的行为，确定所述第二用户的用户特征向量，其中，所述第二用户为待确定自然属性的用户；

第二归一化处理模块，用于对所述第二用户的用户特征向量中的特征进行归一化处理；

第三确定模块，用于将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中，确定出所述第二用户的自然属性。

7.根据权利要求6所述的装置，其特征在于，

所述第一归一化处理模块用于使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理：

{score}_{user, feature 1} = sigmoid (\frac{{tf}_{1}}{\sqrt{sum_{freq}_{1}}} \log \frac{total_user}{user_uv})

其中，sigmoid函数为

sigmoid (x) = \frac{2}{1 + e^{- x}} - 1

{score}_{user, feature 2} = sigmoid (\frac{{tf}_{2}}{\sqrt{sum_{freq}_{2}}} \log \frac{total_user}{user_uv})

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述第四确定模块用于：

{cov}_{feature} = \frac{{uv}_{feature}}{{uv}_{all}}

其中，uv_feature是此特征覆盖的用户数，uv_all是用户总数；

{discri}_{feature, profile} = \max (\frac{{uv}_{i}}{{rate}_{i}} / Σ \frac{{uv}_{i}}{{rate}_{i}})

10.根据权利要求6至9中任一项所述的装置，其特征在于，