CN103729785B

CN103729785B - 一种视频用户性别分类方法及其装置

Info

Publication number: CN103729785B
Application number: CN201410037302.6A
Authority: CN
Inventors: 房晓宇; 江建博; 朱凯泉; 章岑; 张缓迅; 姚键; 潘柏宇; 卢述奇
Original assignee: Unification Infotech (beijing) Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2014-01-26
Filing date: 2014-01-26
Publication date: 2015-02-25
Anticipated expiration: 2034-01-26
Also published as: CN103729785A

Abstract

一种视频用户性别分类方法及其装置，利用视频内容的标签，来分析用户的观看行为，从而判别用户的自然属性。特定属性的用户只会观看其感兴趣内容的视频。通过分析用户观看过的内容，可以预测用户的性别属性。本发明能够自动识别用户的性别，从而了解用户的购买倾向，可以投其所好地投放广告，提高广告投放的价值；能够了解用户感兴趣的视频内容，从而为用户提供个性化的视频推荐；可以减少用户观看不感兴趣广告的数量，提升用户的观看体验。

Description

一种视频用户性别分类方法及其装置

技术领域

本申请涉及视频用的性别分类领域，特别的，涉及一种视频用户性别分类方法及其装置。

背景技术

视频网站盈利的一个重要的收入来源就是广告收入。而目前视频网站上的视频广告投放常常会遇到这样的问题：如何将某些特定的产品定向投放给特定属性的人群。例如：将化妆品广告投放给年轻女性用户，将游戏推荐给男性用户等。用户属性（性别、年龄、月收入、身份职业、受教育程度等）反映了其作为消费者的基本特点，并直接决定他（她）的购买倾向和消费能力。这就需要广告投放系统能够知道用户的属性。然而，目前视频网站的用户大多不会登陆，用户的属性处于未知状态。因此，如何根据用户的观看行为，来判断用户的属性就成了一个非常重要的问题。

在用户属性的众多类别中，用户性别是用户属性的重要维度。不同性别的用户对于不同的产品广告的接受度就大不相同。因此，如何准确地预测用户的性别，成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种根据用户的观看行为来分类用户性别的方法。根据用户观看行为来分类用户性别的方法，通过分析用户的历史观看信息，得到用户感兴趣的内容，从而利用用户观看的视频内容来预测用户的性别属性。

为达此目的，本发明采用以下技术方案：

一种视频用户性别分类方法，包括如下步骤：

标签属性提取步骤：利用标定用户的观看记录，以及视频的标签信息，提取每一个标签观看人群的男女构成，将所述标签的男女观众所占比例作为所述视频的标签的标签属性，其中所述标定用户指的是已知性别的用户；

特性标签筛选步骤：根据所得到的标签属性，选择性别区分性显著地标签，作为特性标签，过滤掉没有区分性或者区分性小的标签；

标签特征定义步骤：针对每个特性标签的性别比例，得到所述特性标签的标签特征；

观看行为特征提取步骤：根据用户的观看记录，找到该用户一段时间内观看的所有视频，将这些视频对应到其各自的特性标签，利用所述特性标签的标签特征，来获得该用户这段时间内观看行为特征；

性别分类模型训练步骤：通过已知性别用户以及其在一段时间内观看行为特征，利用分类器训练得到性别分类模型；

性别分类预测步骤：对于每一个未知性别用户，利用其一段时间内观看行为特征，结合所述性别分类模型，判定其性别属性。

优选地，所述标签属性提取步骤，具体包括如下步骤：

首先，从带标签的视频库中，提取出每一个视频的所有标签，

然后，利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数，

最后，计算每个标签的男女观看比例，从而得到所述标签属性；

所述特性标签筛选步骤，具体包括如下步骤：

首先，设定充分统计量阈值N_t，性别区分性阈值P_t,

然后，以所述标签的统计量作为统计量表述，以所述标签的男女所占比率的差的绝对值作为标签的区分性表述，

最后，分别将所述统计量表述与所述充分统计量阈值N_t做比较，所述区分性表述与性别区分性阈值P_t做比较，将区分性表述小于性别区分性阈值P_t或者所述统计量表述小于所述充分统计量阈值N_t的标签滤除，剩余的标签作为特性标签；

所述标签特征定义步骤具体为，利用公式（1）定义标签特征，

公式（1）

其中，标示观看该标签的男性比率，表示一段时间内该标签的男性观众观看次数，表示一段时间内该标签的总观看次数，0.5为归一化参数；

观看行为特征提取步骤，具体包括如下步骤：

首先统计用户在一段时间内，观看的视频，每个视频包括若干个标签，将视频对应到各自的特征标签，得到用户在该一段时间内的标签集合{tag ¹ ,...,tag ^m}，利用公式（2）计算该用户的观看行为特征：

公式（2）

其中，为该用户在tag ⁱ上的观看次数，为该用户这段时间内总的观看次数。

优选地，所述性别分类模型训练步骤，具体包括：利用已知的一组训练数据S={(x ₁ ,y ₁ ), (x ₂ ,y ₂ )…, (x _p ,y _p )}为支持向量, 该组训练数据包括p个已知性别用户，对于每个已知性别用户，x _i为已知性别用户的观看行为特征，y _i为已知性别用户的性别标记，男为1，女为-1，利用支持向量机对函数（1）进行最大化：

函数（1）

其中，i=1,…,p，，并且满足，k为核函数，为朗格朗日乘数，训练函数（1）得到满足条件的；

所述性别分类预测步骤，具体包括：

对于未知用户的用户行为特征，利用函数（2）得到分类结果:

函数（2）

其中，b为分类超平面的偏移常数，通过所述分类结果的值是正或负来判断未知用户的性别。

优选地，在所述特性标签筛选步骤中，充分统计量阈值N_t为30，性别区分性阈值P_t为0.7。

优选地，在所述性别分类预测步骤中，分类超平面的偏移常数b可调。

本发明还公开了一种视频用户性别分类装置，包括如下单元：

标签属性提取单元：利用标定用户的观看记录，以及视频的标签信息，提取每一个标签观看人群的男女构成，将所述标签的男女观众所占比例作为所述视频的标签的标签属性，其中所述标定用户指的是已知性别的用户；

特性标签筛选单元：根据所得到的标签属性，选择性别区分性显著地标签，作为特性标签，过滤掉没有区分性或者区分性小的标签；

标签特征定义单元：针对每个特性标签的性别比例，得到所述特性标签的标签特征；

观看行为特征提取单元：根据用户的观看记录，找到该用户一段时间内观看的所有视频，将这些视频对应到其各自的特性标签，利用所述特性标签的标签特征，来获得该用户这段时间内观看行为特征；

性别分类模型训练单元：通过已知性别用户以及其在一段时间内观看行为特征，利用分类器训练得到性别分类模型；

性别分类预测单元：对于每一个未知性别用户，利用其一段时间内观看行为特征，结合所述性别分类模型，判定其性别属性。

优选地，所述标签属性提取单元，具体为：

所述特性标签筛选单元，具体为：

首先，设定充分统计量阈值N_t，性别区分性阈值P_t,

所述标签特征定义单元具体为，利用公式（1）定义标签特征，

公式（1）

观看行为特征提取单元，具体为：

公式（2）

优选地，所述性别分类模型训练单元，具体包括：利用已知的一组训练数据S={(x ₁ ,y ₁ ), (x ₂ ,y ₂ )…, (x _p ,y _p )}为支持向量, 该组训练数据包括p个已知性别用户，对于每个已知性别用户，x _i为已知性别用户的观看行为特征，y _i为已知性别用户的性别标记，男为1，女为-1，利用支持向量机对函数（1）进行最大化：

函数（1）

所述性别分类预测单元，具体包括：

函数（2）

其中，b为分类超平面的偏移常数，通过所述分类结果是正或负来判断未知用户的性别。

优选地，在所述特性标签筛选单元中，充分统计量阈值N_t为30，性别区分性阈值P_t为0.7。

优选地，在所述性别分类预测单元中，分类超平面的偏移常数b可调。

本发明能够自动识别用户的性别，从而了解用户的购买倾向，可以投其所好地投放广告，提高广告投放的价值；能够了解用户感兴趣的视频内容，从而为用户提供个性化的视频推荐；可以减少用户观看不感兴趣广告的数量，提升用户的观看体验。

附图说明

图1 是根据本发明的视频用户性别分类方法的流程图；

图2是根据本发明的视频用户性别分类装置的系统框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

根据图1，公开了根据本发明的视频用户性别分类方法，其包括如下步骤：

标签属性提取步骤S110：利用标定用户的观看记录，以及视频的标签信息，提取每一个标签观看人群的男女构成，将所述标签的男女观众所占比例作为所述视频的标签的标签属性，其中所述标定用户指的是已知性别的用户；

特性标签筛选步骤S120：根据所得到的各个标签属性，选择性别区分性显著地标签，也就是区分明显的标签，作为特性标签，过滤掉没有区分性或者区分性小的标签；

标签特征定义步骤S130：针对每个特性标签的性别比例，得到所述特性标签的标签特征；

观看行为特征提取步骤S140：根据用户的观看记录，找到该用户一段时间内观看的所有视频，将这些视频对应到其各自的特性标签，利用所述特性标签的标签特征，来获得该用户这段时间内观看行为特征；

性别分类模型训练步骤S150：通过已知性别用户以及其在一段时间内观看行为特征，利用分类器（例如：线性分类器、支持向量机等）训练得到性别分类模型，即分类超平面。

性别分类预测步骤S160：对于每一个未知性别用户，利用其一段时间内观看行为特征，结合所述性别分类模型，使用相同的所述分类器判定其性别属性。

具体而言，对于标签属性提取步骤S110，视频标签是指对视频内容简短的描述词，反映了视频的内容的基本信息。不同性别的用户感兴趣的内容是有区别的。例如：年轻女性会对“瘦身瑜伽”视频感兴趣，而男性更倾向于观看“足球”视频。这里的“瘦身瑜伽”、“足球”就是视频的标签。而标签的观众男女构成百分比即可作为该标签的特征属性。而同一视频可能会存在多个标签。

因此，标签属性提取步骤S110，具体包括如下步骤：

首先，从带标签的视频库中，提取出每一个视频的所有标签。本领域技术人员应当知道，一个视频可能含有多个标签，一个标签也可能被多个视频包含。

然后，利用有标定的用户一段时间内（例如：三个月）的观看记录统计每一个标签上的不同性别的观看次数；

最后，计算每个标签的男女观看比例，从而得到所述标签属性。

具体而言，特性标签筛选步骤S120，不是所有的标签都有区分性，例如：某个视频的标签是“电视剧”，而观看这一内容视频的男女比率是近似相同的，则可以判定这一标签对于性别分类没有什么作用，甚至可能带来干扰。因此，对于标签的筛选对于性别分类十分重要。另外，由于某些标签观看的人数十分稀少，不足以在统计意义上得到该标签的特征属性，例如：标签A仅仅被一位用户观看过，这名用户是男性，那么并不能因此得到结论“观看标签A的用户百分之百是男性”，因此这些不具有充分统计信息的标签不应该被作为特征标签。

因此，所述特性标签筛选步骤S120，具体包括如下步骤：

首先，设定充分统计量阈值N_t，性别区分性阈值P_t,

最后，分别将所述统计量表述与所述充分统计量阈值N_t做比较，所述区分性表述与性别区分性阈值P_t做比较，将区分性表述小于性别区分性阈值P_t或者所述统计量表述小于所述充分统计量阈值N_t的标签滤除，剩余的标签作为特性标签。

优选的，在标签特征定义步骤S130中，利用公式（1）定义标签特征，

其中，标示观看该标签的男性比率，表示一段时间内该标签的男性观众观看次数，表示一段时间内该标签的总观看次数，0.5为归一化参数。该一段时间可以为一周。

根据标签特征，可以生成每个用户一段时间内的观看行为特征。所述观看行为特征提取步骤S140，具体包括如下步骤：

首先统计用户在一段时间内，例如一周，观看的视频，每个视频包括若干个标签，将视频对应到各自的特征标签，得到用户在该一段时间内的标签集合{tag ¹ ,...,tag ^m}，利用公式（2）计算该用户的观看行为特征：

公式（2）

其中，为该用户在tag ⁱ上的观看次数，为该用户这段时间内总的观看次数。可以看出，观看行为特征是一个向量的形式。

性别分类模型训练步骤S150，得到了用户观看行为特征，可以利用不同的分类器，例如，线性分类器，或者支持向量机训练得到性别分类模型，即分类超平面。

例如，对于支持向量机可以利用标定样本训练一个高维空间的分类超平面，来分类数据。

具体而言：利用已知的一组训练数据S={(x ₁ ,y ₁ ), (x ₂ ,y ₂ )…, (x _p ,y _p )}为支持向量, 该组训练数据包括p个已知性别用户，对于每个已知性别用户，x _i为已知性别用户的观看行为特征，y _i为已知性别用户的性别标记，男为1，女为-1。利用支持向量机对函数（1）进行最大化：

函数（1）

其中，i=1,…,p，，并且满足，k为核函数，为朗格朗日乘数。训练函数（1）得到满足条件的。

因此，在接下来的性别分类预测步骤S160中，

函数（2）

其中，b为分类超平面的偏移常数，该参数可调。通过所述分类结果是正或负来来正还是负来判断是男还是女。

以下通过如下实施例来说明本发明的视频用户性别分类方法中的相关步骤：

实施例一、

某个视频网站上包含一组视频{V ₁ ,...,V _K},每一个视频在用户上传时都标定了若干的标签，该网站通过注册用户及问卷调查得到了少量有性别标定用户的观看记录，要求提取视频标签的标签特征并筛选出有效标签集。

首先，提取出每个视频的所有标签，得到所有视频的标签集；

然后，根据有性别标定用户的观看记录，统计每个标签上男女用户的观看次数；

之后，计算每个标签的用户人群男女所占比率，计算标签属性和标签特征，同时，计算标签的总的被观看次数；

最后，将男女所占比率差的绝对值作为标签的区分性表述，将每个标签上总的观看次数作为标签的统计量表述，按照性别区分性阈值（Pt）和充分统计量阈值(Nt),进行标签筛选，将区分性表述小于Pt或者充分统计量小于Nt的标签滤除，符合约束条件的标签构建标签属性表，构建的标签属性表示如表1；

表标签属性表示例

实例二：用户分类模型的训练实施例

用户性别预测时，需要使用已经训练好的分类模型。分类模型的构建可以通过分类器在有性别标定的用户观看记录中所提取的用户的观看行为特征的集上学习训练得到的。具体的实施过程如下：

首先，收集若干有性别标定的用户，作为训练数据集；

然后，取得训练数据集中用户一段时间内（例如：一周）的观看记录；

之后，构建训练数据的观看行为特征，即：提取每个用户所观看的视频标签，通过标签属性表，计算用户这段时间内观看行为特征；

最后，利用训练数据的观看行为特征的特征集，通过最大化目标函数：

得到性别分类的模型。

实例三：某视频网站的一位未知用户性别预测实例

某一用户在一周内观看了视频V1,...,Vn，要求对其进行性别预测。

首先，根据视频数据库提取该用户观看视频的标签集合{tag¹,...,tag^m}，并统计该用户观看每个标签的次数。

然后，根据标签属性表，查找每一个标签的标签特征，如果标签属性表不存在某一标签，则认为该标签对于判定用户性别无作用，将其从标签集合滤除；如果存在，则将正则化后的特征值作为该用户在该标签维度上的观看行为特征。

其中，为该用户在tag ⁱ上的观看次数，为该用户这段时间内总的有效观看次数，为查表所得的标签特征。例如用户U _i观看了标签{美容健身(1次)、瘦身瑜珈(2次)、中文配音(2次)}，则根据表1得到的特征为（1*(-0.49)/(1+2),2*(-0.49)/(1+2)）=（-0.163, -0.327），注意此处“中文配音”为无作用标签，被滤除，在其上的两次观看为无效观看，不计入总的观看次数。

最后，利用性别分类模型训练模块相同的分类器，根据性别分类模型训练模块得到的性别分类模型（即分类超平面），通过如下公式：

对该未知用户进行性别预测，在根据结果的正负值来判断用户的性别。该正负的判断与样本标签的正负是一致的。

进一步地，所述标签属性提取单元，具体为：

所述特性标签筛选单元，具体为：

首先，设定充分统计量阈值N_t，性别区分性阈值P_t,

公式（1）

观看行为特征提取单元，具体为：

公式（2）

进一步地，所述性别分类模型训练单元，具体包括：利用已知的一组训练数据S={(x ₁ ,y ₁ ), (x ₂ ,y ₂ )…, (x _p ,y _p )}为支持向量, 该组训练数据包括p个已知性别用户，对于每个已知性别用户，x _i为已知性别用户的观看行为特征，y _i为已知性别用户的性别标记，男为1，女为-1，利用支持向量机对函数（1）进行最大化：

函数（1）

所述性别分类预测单元，具体包括：

函数（2）

其中，b为分类超平面的偏移常数，通过所述分类结果是正或负来来判断未知用户的性别。

进一步的，在所述特性标签筛选单元中，充分统计量阈值N_t为30，性别区分性阈值P_t为0.7。

进一步的，在所述性别分类预测单元中，分类超平面的偏移常数b可调。

本发明利用视频内容的标签，来分析用户的观看行为，从而判别用户的自然属性。特定属性的用户只会观看其感兴趣内容的视频。通过分析用户观看过的内容，可以预测用户的性别属性。

本发明具有如下优点：

（1）本发明能够自动识别用户的性别，从而了解用户的购买倾向，可以投其所好地投放广告，提高广告投放的价值；

（2）本发明能够了解用户感兴趣的视频内容，从而为用户提供个性化的视频推荐；

（3）本发明可以减少用户观看不感兴趣广告的数量，提升用户的观看体验。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种视频用户性别分类方法，包括如下步骤：

性别分类预测步骤：对于每一个未知性别用户，利用其一段时间内观看行为特征，结合所述性别分类模型，判定其性别属性；

其中，所述标签属性提取步骤，具体包括如下步骤：

所述特性标签筛选步骤，具体包括如下步骤：

首先，设定充分统计量阈值N_t，性别区分性阈值P_t,

所述标签特征定义步骤具体为，利用公式(1)定义标签特征F_tag，

F_{tag} = P_{male} - 0.5 = \frac{C_{male}}{C_{all}} - 0.5

公式(1)

其中，P_male标示观看该标签的男性比率，C_male表示一段时间内该标签的男性观众观看次数，C_all表示一段时间内该标签的总观看次数，0.5为归一化参数；

观看行为特征提取步骤，具体包括如下步骤：

首先统计用户在一段时间内，观看的视频，每个视频包括若干个标签，将视频对应到各自的特征标签，得到用户在该一段时间内的标签集合{tag¹,...,tag^m}，利用公式(2)计算该用户的观看行为特征F_user：

F_{user} = \frac{&lang; n_{{tag}^{1}} F_{{tag}^{1}}, . . ., n_{{tag}^{m}} F_{{tag}^{m}} &rang;}{N}

公式(2)

其中，为该用户在tagⁱ上的观看次数，为该用户这段时间内总的观看次数。

2.根据权利要求1所述的视频用户性别分类方法，其特征在于：

所述性别分类模型训练步骤，具体包括：利用已知的一组训练数据S＝{(x₁,y₁),(x₂,y₂)…,(x_p,y_p)}为支持向量,该组训练数据包括p个已知性别用户，对于每个已知性别用户，x_i为已知性别用户的观看行为特征，y_i为已知性别用户的性别标记，男为1，女为-1，利用支持向量机对函数(1)进行最大化：

L (α) = Σ_{i = 1}^{p} α_{i} - \frac{1}{2} Σ_{i = 1}^{p} Σ_{j = 1}^{p} α_{i} α_{j} y_{i} y_{j} k (x_{i}, x_{j})

函数(1)

其中，i＝1,…,p，α_i≥0，并且满足k为核函数，α为朗格朗日乘数，训练函数(1)得到满足条件的α；

所述性别分类预测步骤，具体包括：

对于未知用户的用户行为特征F_user，利用函数(2)得到分类结果:

Z (F_{user}) = Σ_{j = 1}^{p} α_{j} y_{j} k (x_{j}, F_{user}) + b

函数(2)

其中，b为分类超平面的偏移常数，通过所述分类结果Z(F_user)的值是正或负来判断未知用户的性别。

3.根据权利要求2所述的视频用户性别分类方法，其特征在于：

在所述特性标签筛选步骤中，充分统计量阈值N_t为30，性别区分性阈值P_t为0.7。

4.根据权利要求3所述的视频用户性别分类方法，其特征在于：

在所述性别分类预测步骤中，分类超平面的偏移常数b可调。

5.一种视频用户性别分类装置，包括如下单元：

性别分类预测单元：对于每一个未知性别用户，利用其一段时间内观看行为特征，结合所述性别分类模型，判定其性别属性；

其中，所述标签属性提取单元，具体为：

所述特性标签筛选单元，具体为：

首先，设定充分统计量阈值N_t，性别区分性阈值P_t,

所述标签特征定义单元具体为，利用公式(1)定义标签特征F_tag，

F_{tag} = P_{male} - 0.5 = \frac{C_{male}}{C_{all}} - 0.5

公式(1)

观看行为特征提取单元，具体为：

F_{user} = \frac{&lang; n_{{tag}^{1}} F_{{tag}^{1}}, . . ., n_{{tag}^{m}} F_{{tag}^{m}} &rang;}{N}

公式(2)

6.根据权利要求5所述的视频用户性别分类装置，其特征在于：

所述性别分类模型训练单元，具体包括：利用已知的一组训练数据S＝{(x₁,y₁),(x₂,y₂)…,(x_p,y_p)}为支持向量,该组训练数据包括p个已知性别用户，对于每个已知性别用户，x_i为已知性别用户的观看行为特征，y_i为已知性别用户的性别标记，男为1，女为-1，利用支持向量机对函数(1)进行最大化：

L (α) = Σ_{i = 1}^{p} α_{i} - \frac{1}{2} Σ_{i = 1}^{p} Σ_{j = 1}^{p} α_{i} α_{j} y_{i} y_{j} k (x_{i}, x_{j})

函数(1)

所述性别分类预测单元，具体包括：

Z (F_{user}) = Σ_{j = 1}^{p} α_{j} y_{j} k (x_{j}, F_{user}) + b

函数(2)

其中，b为分类超平面的偏移常数，通过所述分类结果Z(F_user)是正或负来判断未知用户的性别。

7.根据权利要求6所述的视频用户性别分类装置，其特征在于：

在所述特性标签筛选单元中，充分统计量阈值N_t为30，性别区分性阈值P_t为0.7。

8.根据权利要求7所述的视频用户性别分类装置，其特征在于：

在所述性别分类预测单元中，分类超平面的偏移常数b可调。