CN103729785B - 一种视频用户性别分类方法及其装置 - Google Patents

一种视频用户性别分类方法及其装置 Download PDF

Info

Publication number
CN103729785B
CN103729785B CN201410037302.6A CN201410037302A CN103729785B CN 103729785 B CN103729785 B CN 103729785B CN 201410037302 A CN201410037302 A CN 201410037302A CN 103729785 B CN103729785 B CN 103729785B
Authority
CN
China
Prior art keywords
user
label
viewing
sex
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410037302.6A
Other languages
English (en)
Other versions
CN103729785A (zh
Inventor
房晓宇
江建博
朱凯泉
章岑
张缓迅
姚键
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Unification Infotech (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unification Infotech (beijing) Co Ltd filed Critical Unification Infotech (beijing) Co Ltd
Priority to CN201410037302.6A priority Critical patent/CN103729785B/zh
Publication of CN103729785A publication Critical patent/CN103729785A/zh
Application granted granted Critical
Publication of CN103729785B publication Critical patent/CN103729785B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种视频用户性别分类方法及其装置,利用视频内容的标签,来分析用户的观看行为,从而判别用户的自然属性。特定属性的用户只会观看其感兴趣内容的视频。通过分析用户观看过的内容,可以预测用户的性别属性。本发明能够自动识别用户的性别,从而了解用户的购买倾向,可以投其所好地投放广告,提高广告投放的价值;能够了解用户感兴趣的视频内容,从而为用户提供个性化的视频推荐;可以减少用户观看不感兴趣广告的数量,提升用户的观看体验。

Description

一种视频用户性别分类方法及其装置
技术领域
本申请涉及视频用的性别分类领域,特别的,涉及一种视频用户性别分类方法及其装置。
背景技术
视频网站盈利的一个重要的收入来源就是广告收入。而目前视频网站上的视频广告投放常常会遇到这样的问题:如何将某些特定的产品定向投放给特定属性的人群。例如:将化妆品广告投放给年轻女性用户,将游戏推荐给男性用户等。用户属性(性别、年龄、月收入、身份职业、受教育程度等)反映了其作为消费者的基本特点,并直接决定他(她)的购买倾向和消费能力。这就需要广告投放系统能够知道用户的属性。然而,目前视频网站的用户大多不会登陆,用户的属性处于未知状态。因此,如何根据用户的观看行为,来判断用户的属性就成了一个非常重要的问题。
在用户属性的众多类别中,用户性别是用户属性的重要维度。不同性别的用户对于不同的产品广告的接受度就大不相同。因此,如何准确地预测用户的性别,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种根据用户的观看行为来分类用户性别的方法。根据用户观看行为来分类用户性别的方法,通过分析用户的历史观看信息,得到用户感兴趣的内容,从而利用用户观看的视频内容来预测用户的性别属性。
为达此目的,本发明采用以下技术方案:
一种视频用户性别分类方法,包括如下步骤:
标签属性提取步骤:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选步骤:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义步骤:针对每个特性标签的性别比例,得到所述特性标签的标签特征;
观看行为特征提取步骤:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练步骤:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型;
性别分类预测步骤:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性。
优选地,所述标签属性提取步骤,具体包括如下步骤:
首先,从带标签的视频库中,提取出每一个视频的所有标签,
然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,
最后,计算每个标签的男女观看比例,从而得到所述标签属性;
所述特性标签筛选步骤,具体包括如下步骤:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签;
所述标签特征定义步骤具体为,利用公式(1)定义标签特征                                               
          公式(1)
其中,标示观看该标签的男性比率,表示一段时间内该标签的男性观众观看次数,表示一段时间内该标签的总观看次数,0.5为归一化参数;
观看行为特征提取步骤,具体包括如下步骤:
首先统计用户在一段时间内,观看的视频,每个视频包括若干个标签,将视频对应到各自的特征标签,得到用户在该一段时间内的标签集合{tag 1 ,...,tag m },利用公式(2)计算该用户的观看行为特征
      公式(2)
其中,为该用户在tag i 上的观看次数,为该用户这段时间内总的观看次数。
   优选地,所述性别分类模型训练步骤,具体包括:利用已知的一组训练数据S={(x 1 ,y 1 ), (x 2 ,y 2 )…, (x p ,y p )}为支持向量, 该组训练数据包括p个已知性别用户,对于每个已知性别用户,x i 为已知性别用户的观看行为特征,y i 为已知性别用户的性别标记,男为1,女为-1,利用支持向量机对函数(1)进行最大化:
      函数(1)
其中,i=1,…,p,,并且满足k为核函数,为朗格朗日乘数,训练函数(1)得到满足条件的
所述性别分类预测步骤,具体包括:
对于未知用户的用户行为特征,利用函数(2)得到分类结果:
      函数(2)
其中,b为分类超平面的偏移常数,通过所述分类结果的值是正或负来判断未知用户的性别。
优选地,在所述特性标签筛选步骤中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
优选地,在所述性别分类预测步骤中,分类超平面的偏移常数b可调。
本发明还公开了一种视频用户性别分类装置,包括如下单元:
标签属性提取单元:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选单元:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义单元:针对每个特性标签的性别比例,得到所述特性标签的标签特征;
观看行为特征提取单元:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练单元:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型;
性别分类预测单元:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性。
优选地,所述标签属性提取单元,具体为:
首先,从带标签的视频库中,提取出每一个视频的所有标签,
然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,
最后,计算每个标签的男女观看比例,从而得到所述标签属性;
所述特性标签筛选单元,具体为:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签;
所述标签特征定义单元具体为,利用公式(1)定义标签特征
           公式(1)
其中,标示观看该标签的男性比率,表示一段时间内该标签的男性观众观看次数,表示一段时间内该标签的总观看次数,0.5为归一化参数;
观看行为特征提取单元,具体为:
首先统计用户在一段时间内,观看的视频,每个视频包括若干个标签,将视频对应到各自的特征标签,得到用户在该一段时间内的标签集合{tag 1 ,...,tag m },利用公式(2)计算该用户的观看行为特征
      公式(2)
其中,为该用户在tag i 上的观看次数,为该用户这段时间内总的观看次数。
   优选地,所述性别分类模型训练单元,具体包括:利用已知的一组训练数据S={(x 1 ,y 1 ), (x 2 ,y 2 )…, (x p ,y p )}为支持向量, 该组训练数据包括p个已知性别用户,对于每个已知性别用户,x i 为已知性别用户的观看行为特征,y i 为已知性别用户的性别标记,男为1,女为-1,利用支持向量机对函数(1)进行最大化:
      函数(1)
其中,i=1,…,p,,并且满足k为核函数,为朗格朗日乘数,训练函数(1)得到满足条件的
所述性别分类预测单元,具体包括:
对于未知用户的用户行为特征,利用函数(2)得到分类结果:
      函数(2)
其中,b为分类超平面的偏移常数,通过所述分类结果是正或负来判断未知用户的性别。
优选地,在所述特性标签筛选单元中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
优选地,在所述性别分类预测单元中,分类超平面的偏移常数b可调。
本发明能够自动识别用户的性别,从而了解用户的购买倾向,可以投其所好地投放广告,提高广告投放的价值;能够了解用户感兴趣的视频内容,从而为用户提供个性化的视频推荐;可以减少用户观看不感兴趣广告的数量,提升用户的观看体验。
附图说明
图1 是根据本发明的视频用户性别分类方法的流程图;
图2是根据本发明的视频用户性别分类装置的系统框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
根据图1,公开了根据本发明的视频用户性别分类方法,其包括如下步骤:
标签属性提取步骤S110:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选步骤S120:根据所得到的各个标签属性,选择性别区分性显著地标签,也就是区分明显的标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义步骤S130:针对每个特性标签的性别比例,得到所述特性标签的标签特征;
观看行为特征提取步骤S140:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练步骤S150:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器(例如:线性分类器、支持向量机等)训练得到性别分类模型,即分类超平面。
性别分类预测步骤S160:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,使用相同的所述分类器判定其性别属性。
具体而言,对于标签属性提取步骤S110,视频标签是指对视频内容简短的描述词,反映了视频的内容的基本信息。不同性别的用户感兴趣的内容是有区别的。例如:年轻女性会对“瘦身瑜伽”视频感兴趣,而男性更倾向于观看“足球”视频。这里的“瘦身瑜伽”、“足球”就是视频的标签。而标签的观众男女构成百分比即可作为该标签的特征属性。而同一视频可能会存在多个标签。
因此,标签属性提取步骤S110,具体包括如下步骤:
首先,从带标签的视频库中,提取出每一个视频的所有标签。本领域技术人员应当知道,一个视频可能含有多个标签,一个标签也可能被多个视频包含。
然后,利用有标定的用户一段时间内(例如:三个月)的观看记录统计每一个标签上的不同性别的观看次数;
最后,计算每个标签的男女观看比例,从而得到所述标签属性。
具体而言,特性标签筛选步骤S120,不是所有的标签都有区分性,例如:某个视频的标签是“电视剧”,而观看这一内容视频的男女比率是近似相同的,则可以判定这一标签对于性别分类没有什么作用,甚至可能带来干扰。因此,对于标签的筛选对于性别分类十分重要。另外,由于某些标签观看的人数十分稀少,不足以在统计意义上得到该标签的特征属性,例如:标签A仅仅被一位用户观看过,这名用户是男性,那么并不能因此得到结论“观看标签A的用户百分之百是男性”,因此这些不具有充分统计信息的标签不应该被作为特征标签。
因此,所述特性标签筛选步骤S120,具体包括如下步骤:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签。
优选的,在标签特征定义步骤S130中,利用公式(1)定义标签特征
其中,标示观看该标签的男性比率,表示一段时间内该标签的男性观众观看次数,表示一段时间内该标签的总观看次数,0.5为归一化参数。该一段时间可以为一周。
观看行为特征提取步骤S140:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
根据标签特征,可以生成每个用户一段时间内的观看行为特征。所述观看行为特征提取步骤S140,具体包括如下步骤:
首先统计用户在一段时间内,例如一周,观看的视频,每个视频包括若干个标签,将视频对应到各自的特征标签,得到用户在该一段时间内的标签集合{tag 1 ,...,tag m },利用公式(2)计算该用户的观看行为特征
      公式(2)
其中,为该用户在tag i 上的观看次数,为该用户这段时间内总的观看次数。可以看出,观看行为特征是一个向量的形式。
性别分类模型训练步骤S150,得到了用户观看行为特征,可以利用不同的分类器,例如,线性分类器,或者支持向量机训练得到性别分类模型,即分类超平面。
例如,对于支持向量机可以利用标定样本训练一个高维空间的分类超平面,来分类数据。
具体而言:利用已知的一组训练数据S={(x 1 ,y 1 ), (x 2 ,y 2 )…, (x p ,y p )}为支持向量, 该组训练数据包括p个已知性别用户,对于每个已知性别用户,x i 为已知性别用户的观看行为特征,y i 为已知性别用户的性别标记,男为1,女为-1。利用支持向量机对函数(1)进行最大化:
      函数(1)
其中,i=1,…,p,,并且满足k为核函数,为朗格朗日乘数。训练函数(1)得到满足条件的
因此,在接下来的性别分类预测步骤S160中,
对于未知用户的用户行为特征,利用函数(2)得到分类结果:
      函数(2)
其中,b为分类超平面的偏移常数,该参数可调。通过所述分类结果是正或负来来正还是负来判断是男还是女。
以下通过如下实施例来说明本发明的视频用户性别分类方法中的相关步骤:
实施例一、
某个视频网站上包含一组视频{V 1 ,...,V K },每一个视频在用户上传时都标定了若干的标签,该网站通过注册用户及问卷调查得到了少量有性别标定用户的观看记录,要求提取视频标签的标签特征并筛选出有效标签集。
首先,提取出每个视频的所有标签,得到所有视频的标签集;
然后,根据有性别标定用户的观看记录,统计每个标签上男女用户的观看次数;
之后,计算每个标签的用户人群男女所占比率,计算标签属性和标签特征,同时,计算标签的总的被观看次数;
最后,将男女所占比率差的绝对值作为标签的区分性表述,将每个标签上总的观看次数作为标签的统计量表述,按照性别区分性阈值(Pt)和充分统计量阈值(Nt),进行标签筛选,将区分性表述小于Pt或者充分统计量小于Nt的标签滤除,符合约束条件的标签构建标签属性表,构建的标签属性表示如表1;
表  标签属性表示例
实例二:用户分类模型的训练实施例
用户性别预测时,需要使用已经训练好的分类模型。分类模型的构建可以通过分类器在有性别标定的用户观看记录中所提取的用户的观看行为特征的集上学习训练得到的。具体的实施过程如下:
首先,收集若干有性别标定的用户,作为训练数据集;
然后,取得训练数据集中用户一段时间内(例如:一周)的观看记录;
之后,构建训练数据的观看行为特征,即:提取每个用户所观看的视频标签,通过标签属性表,计算用户这段时间内观看行为特征;
最后,利用训练数据的观看行为特征的特征集,通过最大化目标函数:
得到性别分类的模型。
实例三:某视频网站的一位未知用户性别预测实例
某一用户在一周内观看了视频V1,...,Vn,要求对其进行性别预测。
首先,根据视频数据库提取该用户观看视频的标签集合{tag1,...,tagm},并统计该用户观看每个标签的次数
然后,根据标签属性表,查找每一个标签的标签特征,如果标签属性表不存在某一标签,则认为该标签对于判定用户性别无作用,将其从标签集合滤除;如果存在,则将正则化后的特征值作为该用户在该标签维度上的观看行为特征
其中,为该用户在tag i 上的观看次数,为该用户这段时间内总的有效观看次数,为查表所得的标签特征。例如用户U i 观看了标签{美容健身(1次)、瘦身瑜珈(2次)、中文配音(2次)},则根据表1得到的特征为(1*(-0.49)/(1+2),2*(-0.49)/(1+2))=(-0.163, -0.327),注意此处“中文配音”为无作用标签,被滤除,在其上的两次观看为无效观看,不计入总的观看次数。
最后,利用性别分类模型训练模块相同的分类器,根据性别分类模型训练模块得到的性别分类模型(即分类超平面),通过如下公式:
对该未知用户进行性别预测,在根据结果的正负值来判断用户的性别。该正负的判断与样本标签的正负是一致的。
本发明还公开了一种视频用户性别分类装置,包括如下单元:
标签属性提取单元:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选单元:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义单元:针对每个特性标签的性别比例,得到所述特性标签的标签特征;
观看行为特征提取单元:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练单元:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型;
性别分类预测单元:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性。
进一步地,所述标签属性提取单元,具体为:
首先,从带标签的视频库中,提取出每一个视频的所有标签,
然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,
最后,计算每个标签的男女观看比例,从而得到所述标签属性;
所述特性标签筛选单元,具体为:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签;
所述标签特征定义单元具体为,利用公式(1)定义标签特征
            公式(1)
其中,标示观看该标签的男性比率,表示一段时间内该标签的男性观众观看次数,表示一段时间内该标签的总观看次数,0.5为归一化参数;
观看行为特征提取单元,具体为:
首先统计用户在一段时间内,观看的视频,每个视频包括若干个标签,将视频对应到各自的特征标签,得到用户在该一段时间内的标签集合{tag 1 ,...,tag m },利用公式(2)计算该用户的观看行为特征
      公式(2)
其中,为该用户在tag i 上的观看次数,为该用户这段时间内总的观看次数。
    进一步地,所述性别分类模型训练单元,具体包括:利用已知的一组训练数据S={(x 1 ,y 1 ), (x 2 ,y 2 )…, (x p ,y p )}为支持向量, 该组训练数据包括p个已知性别用户,对于每个已知性别用户,x i 为已知性别用户的观看行为特征,y i 为已知性别用户的性别标记,男为1,女为-1,利用支持向量机对函数(1)进行最大化:
      函数(1)
其中,i=1,…,p,,并且满足k为核函数,为朗格朗日乘数,训练函数(1)得到满足条件的
所述性别分类预测单元,具体包括:
对于未知用户的用户行为特征,利用函数(2)得到分类结果:
      函数(2)
其中,b为分类超平面的偏移常数,通过所述分类结果是正或负来来判断未知用户的性别。
进一步的,在所述特性标签筛选单元中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
进一步的,在所述性别分类预测单元中,分类超平面的偏移常数b可调。
本发明利用视频内容的标签,来分析用户的观看行为,从而判别用户的自然属性。特定属性的用户只会观看其感兴趣内容的视频。通过分析用户观看过的内容,可以预测用户的性别属性。
本发明具有如下优点:
(1)本发明能够自动识别用户的性别,从而了解用户的购买倾向,可以投其所好地投放广告,提高广告投放的价值;
(2)本发明能够了解用户感兴趣的视频内容,从而为用户提供个性化的视频推荐; 
(3)本发明可以减少用户观看不感兴趣广告的数量,提升用户的观看体验。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (8)

1.一种视频用户性别分类方法,包括如下步骤:
标签属性提取步骤:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选步骤:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义步骤:针对每个特性标签的性别比例,得到所述特性标签的标签特征;
观看行为特征提取步骤:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练步骤:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型;
性别分类预测步骤:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性;
其中,所述标签属性提取步骤,具体包括如下步骤:
首先,从带标签的视频库中,提取出每一个视频的所有标签,
然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,
最后,计算每个标签的男女观看比例,从而得到所述标签属性;
所述特性标签筛选步骤,具体包括如下步骤:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签;
所述标签特征定义步骤具体为,利用公式(1)定义标签特征Ftag
F tag = P male - 0.5 = C male C all - 0.5    公式(1)
其中,Pmale标示观看该标签的男性比率,Cmale表示一段时间内该标签的男性观众观看次数,Call表示一段时间内该标签的总观看次数,0.5为归一化参数;
观看行为特征提取步骤,具体包括如下步骤:
首先统计用户在一段时间内,观看的视频,每个视频包括若干个标签,将视频对应到各自的特征标签,得到用户在该一段时间内的标签集合{tag1,...,tagm},利用公式(2)计算该用户的观看行为特征Fuser
F user = ⟨ n tag 1 F tag 1 , . . . , n tag m F tag m ⟩ N    公式(2)
其中,为该用户在tagi上的观看次数,为该用户这段时间内总的观看次数。
2.根据权利要求1所述的视频用户性别分类方法,其特征在于:
所述性别分类模型训练步骤,具体包括:利用已知的一组训练数据S={(x1,y1),(x2,y2)…,(xp,yp)}为支持向量,该组训练数据包括p个已知性别用户,对于每个已知性别用户,xi为已知性别用户的观看行为特征,yi为已知性别用户的性别标记,男为1,女为-1,利用支持向量机对函数(1)进行最大化:
L ( α ) = Σ i = 1 p α i - 1 2 Σ i = 1 p Σ j = 1 p α i α j y i y j k ( x i , x j )    函数(1)
其中,i=1,…,p,αi≥0,并且满足k为核函数,α为朗格朗日乘数,训练函数(1)得到满足条件的α;
所述性别分类预测步骤,具体包括:
对于未知用户的用户行为特征Fuser,利用函数(2)得到分类结果:
Z ( F user ) = Σ j = 1 p α j y j k ( x j , F user ) + b    函数(2)
其中,b为分类超平面的偏移常数,通过所述分类结果Z(Fuser)的值是正或负来判断未知用户的性别。
3.根据权利要求2所述的视频用户性别分类方法,其特征在于:
在所述特性标签筛选步骤中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
4.根据权利要求3所述的视频用户性别分类方法,其特征在于:
在所述性别分类预测步骤中,分类超平面的偏移常数b可调。
5.一种视频用户性别分类装置,包括如下单元:
标签属性提取单元:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选单元:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义单元:针对每个特性标签的性别比例,得到所述特性标签的标签特征;
观看行为特征提取单元:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练单元:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型;
性别分类预测单元:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性;
其中,所述标签属性提取单元,具体为:
首先,从带标签的视频库中,提取出每一个视频的所有标签,
然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,
最后,计算每个标签的男女观看比例,从而得到所述标签属性;
所述特性标签筛选单元,具体为:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签;
所述标签特征定义单元具体为,利用公式(1)定义标签特征Ftag
F tag = P male - 0.5 = C male C all - 0.5    公式(1)
其中,Pmale标示观看该标签的男性比率,Cmale表示一段时间内该标签的男性观众观看次数,Call表示一段时间内该标签的总观看次数,0.5为归一化参数;
观看行为特征提取单元,具体为:
首先统计用户在一段时间内,观看的视频,每个视频包括若干个标签,将视频对应到各自的特征标签,得到用户在该一段时间内的标签集合{tag1,...,tagm},利用公式(2)计算该用户的观看行为特征Fuser
F user = ⟨ n tag 1 F tag 1 , . . . , n tag m F tag m ⟩ N    公式(2)
其中,为该用户在tagi上的观看次数,为该用户这段时间内总的观看次数。
6.根据权利要求5所述的视频用户性别分类装置,其特征在于:
所述性别分类模型训练单元,具体包括:利用已知的一组训练数据S={(x1,y1),(x2,y2)…,(xp,yp)}为支持向量,该组训练数据包括p个已知性别用户,对于每个已知性别用户,xi为已知性别用户的观看行为特征,yi为已知性别用户的性别标记,男为1,女为-1,利用支持向量机对函数(1)进行最大化:
L ( α ) = Σ i = 1 p α i - 1 2 Σ i = 1 p Σ j = 1 p α i α j y i y j k ( x i , x j )    函数(1)
其中,i=1,…,p,αi≥0,并且满足k为核函数,α为朗格朗日乘数,训练函数(1)得到满足条件的α;
所述性别分类预测单元,具体包括:
对于未知用户的用户行为特征Fuser,利用函数(2)得到分类结果:
Z ( F user ) = Σ j = 1 p α j y j k ( x j , F user ) + b    函数(2)
其中,b为分类超平面的偏移常数,通过所述分类结果Z(Fuser)是正或负来判断未知用户的性别。
7.根据权利要求6所述的视频用户性别分类装置,其特征在于:
在所述特性标签筛选单元中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
8.根据权利要求7所述的视频用户性别分类装置,其特征在于:
在所述性别分类预测单元中,分类超平面的偏移常数b可调。
CN201410037302.6A 2014-01-26 2014-01-26 一种视频用户性别分类方法及其装置 Expired - Fee Related CN103729785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410037302.6A CN103729785B (zh) 2014-01-26 2014-01-26 一种视频用户性别分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410037302.6A CN103729785B (zh) 2014-01-26 2014-01-26 一种视频用户性别分类方法及其装置

Publications (2)

Publication Number Publication Date
CN103729785A CN103729785A (zh) 2014-04-16
CN103729785B true CN103729785B (zh) 2015-02-25

Family

ID=50453846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410037302.6A Expired - Fee Related CN103729785B (zh) 2014-01-26 2014-01-26 一种视频用户性别分类方法及其装置

Country Status (1)

Country Link
CN (1) CN103729785B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636504A (zh) * 2015-03-10 2015-05-20 飞狐信息技术(天津)有限公司 一种识别用户性别的方法及系统
EP3188094A1 (en) * 2015-12-30 2017-07-05 Xiaomi Inc. Method and device for classification model training

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298728B (zh) * 2014-09-28 2018-11-27 北京奇艺世纪科技有限公司 一种通过互联网投放视频广告的方法和系统
CN104598648B (zh) * 2015-02-26 2017-12-26 苏州大学 一种微博用户交互式性别识别方法及装置
CN104991899B (zh) * 2015-06-02 2018-06-19 广州酷狗计算机科技有限公司 用户属性的识别方法及装置
CN105069041A (zh) * 2015-07-23 2015-11-18 合一信息技术(北京)有限公司 基于视频用户性别分类的广告投放方法
CN106055617A (zh) * 2016-05-26 2016-10-26 乐视控股(北京)有限公司 一种数据推送方法及装置
CN107463564A (zh) * 2016-06-02 2017-12-12 华为技术有限公司 服务器中数据的特征分析方法和装置
CN106327341A (zh) * 2016-08-15 2017-01-11 首都师范大学 基于联合主题的微博用户性别推断方法及系统
CN108256537A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户性别预测方法和系统
CN108961019B (zh) * 2017-05-17 2022-12-16 腾讯科技(深圳)有限公司 一种用户账户的检测方法和装置
CN107341200A (zh) * 2017-06-20 2017-11-10 北京微影时代科技有限公司 判断观影用户性别的方法及影片推荐方法
CN110020155A (zh) 2017-12-06 2019-07-16 广东欧珀移动通信有限公司 用户性别识别方法及装置
CN109213802B (zh) * 2018-08-16 2020-12-22 北京百度网讯科技有限公司 用户画像构建方法、装置、终端和计算机可读存储介质
CN110401873A (zh) * 2019-06-17 2019-11-01 北京奇艺世纪科技有限公司 视频剪辑方法、装置、电子设备和计算机可读介质
CN110287372B (zh) * 2019-06-26 2021-06-01 广州市百果园信息技术有限公司 用于负反馈的标签确定方法、视频推荐方法及其装置
CN110704680B (zh) * 2019-08-20 2022-10-04 咪咕文化科技有限公司 标签生成方法、电子设备及存储介质
CN113891121A (zh) * 2021-09-29 2022-01-04 北京百度网讯科技有限公司 视频字幕处理方法、视频字幕展示方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060003257A (ko) * 2004-07-05 2006-01-10 주식회사 소디프 이앤티 음악 선곡 추천 서비스 시스템과 음악 선곡 추천 서비스제공방법
CN103164470A (zh) * 2011-12-15 2013-06-19 盛大计算机(上海)有限公司 基于用户性别判别结果的定向应用方法及其系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636504A (zh) * 2015-03-10 2015-05-20 飞狐信息技术(天津)有限公司 一种识别用户性别的方法及系统
EP3188094A1 (en) * 2015-12-30 2017-07-05 Xiaomi Inc. Method and device for classification model training

Also Published As

Publication number Publication date
CN103729785A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN103729785B (zh) 一种视频用户性别分类方法及其装置
US11048752B2 (en) Estimating social interest in time-based media
US20220335077A1 (en) Topic and time based media affinity estimation
CN109672939B (zh) 一种标记视频内容热度的方法及装置
CN110111128B (zh) 一种公寓电梯广告播放方法、装置及设备
US20170091822A1 (en) Electronic digital display screen having a content scheduler operable via a cloud based content management system
US9043860B2 (en) Method and apparatus for extracting advertisement keywords in association with situations of video scenes
US20160071120A1 (en) Generating Audience Response Metrics and Ratings from Social Interest In Time-Based Media
JP5830545B2 (ja) コンテンツ提供方法及びそのシステム
CN107483982B (zh) 一种主播推荐方法与装置
CN106407241A (zh) 视频推荐方法及系统
CN103559206A (zh) 一种信息推荐方法及系统
CN103984741B (zh) 用户属性信息提取方法及其系统
CN108073671A (zh) 业务对象推荐方法、装置和电子设备
CN107103485B (zh) 一种根据影院访客信息的自动广告推荐方法和系统
CN102609523A (zh) 基于物品分类和用户分类的协同过滤推荐算法
CN103870454A (zh) 数据推荐方法及系统
CN105208411B (zh) 一种实现数字电视目标受众统计的方法及装置
Arantes et al. Understanding video-ad consumption on YouTube: a measurement study on user behavior, popularity, and content properties
CN104636504A (zh) 一种识别用户性别的方法及系统
CN105590240A (zh) 一种品牌广告效果优化的离散计算方法
CN110851718A (zh) 一种基于长短时记忆网络以及用户评论的电影推荐方法
CN105809275A (zh) 一种物品评分预测方法及装置
US20120317106A1 (en) Information Providing System
Zheng et al. A scalable purchase intention prediction system using extreme gradient boosting machines with browsing content entropy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer D

Patentee after: YOUKU INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer D

Patentee before: HEYI INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200317

Address after: 310005 room 513, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer D

Patentee before: YOUKU INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150225

Termination date: 20210126

CF01 Termination of patent right due to non-payment of annual fee