一种基于VideoBag特征的精准广告投放系统及方法
技术领域
本发明属于互联网技术领域,特别涉及一种广告投放系统及方法。
背景技术
广告投放是互联网最常用的信息传播模式之一。对于视频网站,目前最主要的广告投放方式还是基于内容定向、时间定向和频道定向的,以上的广告投放方式最大的缺点是目标受众到达率低。
发明内容
本发明的目的是:提供一种针对目标受众投放广告,从而有效提升广告效果的系统和方法。
本发明的技术方案是:一种基于VideoBag特征的精准广告投放系统,它包括:用户数据采集模块,视频节目鉴别能力计算和排序模块,VideoBag打包模块,权重计算模块,用户特征表生成模块,用户性别分类模型训练模块,用户年龄段分类模型训练模块,用户性别与年龄段预测模块,广告投放模块;
所述用户数据采集模块获取用户视频节目观看日志,并通过网上投递的调查问卷,收集用户性别、年龄信息;
所述视频节目鉴别能力计算和排序模块利用所述用户数据采集模块收集的用户性别、年龄信息,计算各视频节目的性别鉴别能力I1和年龄鉴别能力I2:
I1=(man_view-woman_view)/(man_view+woman_view)
I2=(in_group_view-not_in_group_view)/(in_group_view+not_in_group_view)
式中:man_view为该视频节目被男性观看的次数,woman_view为被女性观看的数次;in_group_view为该视频节目被属于年龄段[min_age,max_age]用户的观看次数,not_in_group_view为不属于年龄段[min_age,max_age]用户的观看次数;
将所有视频节目分别按I1、I2值大小进行两个排序,分别称为I1排序和I2排序;在每个排序中为每个视频节目赋予相应ID编号;
所述VideoBag打包模块将所述视频节目鉴别能力计算和排序模块给出的I1排序和I2排序,分别依序每m个视频节目打包在一起得到一个VideoBag,最后一个VideoBag中视频节目不足m个则按实际数量;从1开始,为每个VideoBag赋予一个编号,从而得到分别对应I1排序和I2排序的两个VideoBag序列;
所述权重计算模块计算各个VideoBag中所有视频节目的I1或I2绝对值的平均值;并令其为本VideoBag的权重Weight;
所述用户特征表生成模块从所述用户数据采集模块获取的用户视频节目观看日志,将每个用户在一段时间内观看的所有视频节目列表,将该表中的每一视频节目在I1排序和I2排序中的ID编号转换成所在VideoBag的编号和权重Weight,得到每个用户的特征列表;
由于观看次数过少的样本数据噪声较大,故剔除观看视频节目次数少于k次的用户样本;
设得到UserNum个已知性别、所属年龄段的用户特征列表;将这UserNum个用户特征列表分为两部分,一部分用于训练,另一部分由于用户测试;
所述用户性别分类模型训练模块使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成模块提供的一部分用户特征列表,将其中男性用户作为正样本、女性用户作为反样本进行训练,并以所述用户特征表生成模块提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为性别模型;
所述用户年龄段分类模型训练模块使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成模块提供的一部分用户特征列表,将其中年龄属于要求年龄段[min_age,max_age]的用户作为正样本、其他年龄段的用户作为反样本进行训练,并以所述用户特征表生成模块提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为年龄段模型;
所述用户性别与年龄段预测模块对所述用户数据采集模块获取的性别、年龄段未知的用户,依据其视频节目观看日志,使用所述性别模型预测其性别,使用所述年龄段模型预测其年龄段,得到对该用户性别与年龄段的预测结果;基于预测结果,对该用户赋予性别、年龄段标签;
所述广告投放模块根据所述用户性别与年龄段预测模块给出的用户性别、年龄段标签,按照某广告投放的目标人群,向具有适合性别、年龄段的用户投放该广告。
一种基于VideoBag特征的精准广告投放方法,它依序执行以下步骤:
A.用户数据采集步骤,它获取用户视频节目观看日志,并通过网上投递的调查问卷,收集用户性别、年龄信息;
B.视频节目鉴别能力计算和排序步骤,它利用所述用户数据采集步骤收集的用户性别、年龄信息,计算各视频节目的性别鉴别能力I1和年龄鉴别能力I2:
I1=(man_view-woman_view)/(man_view+woman_view)
I2=(in_group_view-not_in_group_view)/(in_group_view+not_in_group_view)式中:man_view为该视频节目被男性观看的次数,woman_view为被女性观看的数次;in_group_view为该视频节目被属于年龄段[min_age,max_age]用户的观看次数,not_in_group_view为不属于年龄段[min_age,max_age]用户的观看次数;
将所有视频节目分别按I1、I2值大小进行两个排序,分别称为I1排序和I2排序;在每个排序中为每个视频节目赋予相应ID编号;
C.VideoBag打包步骤,它将所述视频节目鉴别能力计算和排序步骤给出的I1排序和I2排序,分别依序每m个视频节目打包在一起得到一个VideoBag,最后一个VideoBag中视频节目不足m个则按实际数量;从1开始,为每个VideoBag赋予一个编号,从而得到分别对应I1排序和I2排序的两个VideoBag序列;
D.权重计算步骤,它计算各个VideoBag中所有视频节目的I1或I2绝对值的平均值;并令其为本VideoBag的权重Weight;
E.用户特征表生成步骤,它从所述用户数据采集步骤获取的用户视频节目观看日志,将每个用户在一段时间内观看的所有视频节目列表,将该表中的每一视频节目在I1排序和I2排序中的ID编号转换成所在VideoBag的编号和权重Weight,得到每个用户的特征列表;
由于观看次数过少的样本数据噪声较大,故剔除观看视频节目次数少于k次的用户样本;
设得到UserNum个已知性别、所属年龄段的用户特征列表;将这UserNum个用户特征列表分为两部分,一部分用于训练,另一部分用于用户测试;
F.用户性别分类模型训练步骤,它使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成步骤提供的一部分用户特征列表,将其中男性用户作为正样本、女性用户作为反样本进行训练,并以所述用户特征表生成步骤提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为性别模型;
G.用户年龄段分类模型训练步骤,它使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成步骤提供的一部分用户特征列表,将其中年龄属于要求年龄段[min_age,max_age]的用户作为正样本、其他年龄段的用户作为反样本进行训练,并以所述用户特征表生成步骤提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为年龄段模型;
H.用户性别与年龄段预测步骤,它对所述用户数据采集步骤获取的性别、年龄段未知的用户,依据其视频节目观看日志,使用所述性别模型预测其性别,使用所述年龄段模型预测其年龄段,得到对该用户性别与年龄段的预测结果;基于预测结果,对该用户赋予性别、年龄段标签;
I.广告投放步骤,它根据所述用户性别与年龄段预测步骤给出的用户性别、年龄段标签,按照某广告投放的目标人群,向具有适合性别、年龄段的用户投放该广告。
本发明直接利用用户的观看行为对目标受众进行高精度的性别、年龄的分类,在较大程度上提升了广告到达目标受众的精确度,从而有效地提升了广告效果。
附图说明
附图为本发明中一种基于VideoBag特征的精准广告投放系统的结构框图。
具体实施方式
实施例1:参见附图,一种基于VideoBag特征的精准广告投放系统,它包括:用户数据采集模块1,视频节目鉴别能力计算和排序模块2,VideoBag打包模块3,权重计算模块4,用户特征表生成模块5,用户性别分类模型训练模块6,用户年龄段分类模型训练模块7,用户性别与年龄段预测模块8,广告投放模块9;
所述用户数据采集模块1获取用户视频节目观看日志,并通过网上投递的调查问卷,收集用户性别、年龄信息;
所述视频节目鉴别能力计算和排序模块2利用所述用户数据采集模块1收集的用户性别、年龄信息,计算各视频节目的性别鉴别能力I1和年龄鉴别能力I2:
I1=(man_view-woman_view)/(man_view+woman_view)
I2=(in_group_view-not_in_group_view)/(in_group_view+not_in_group_view)式中:man_view为该视频节目被男性观看的次数,woman_view为被女性观看的数次;in_group_view为该视频节目被属于年龄段[min_age,max_age]用户(如25~40岁的用户)的观看次数,not_in_group_view为不属于年龄段[min_age,max_age]用户(如25~40岁以外的用户)的观看次数;
将所有视频节目分别按I1、I2值大小进行两个排序,分别称为I1排序和I2排序;在每个排序中为每个视频节目赋予相应ID编号;
所述VideoBag打包模块3将所述视频节目鉴别能力计算和排序模块2给出的I1排序和I2排序,分别依序每m个视频节目打包在一起得到一个VideoBag,最后一个VideoBag中视频节目不足m个则按实际数量;从1开始,为每个VideoBag赋予一个编号,从而得到分别对应I1排序和I2排序的两个VideoBag序列;
所述权重计算模块4计算各个VideoBag中所有视频节目的I1或I2绝对值的平均值;并令其为本VideoBag的权重Weight;
所述用户特征表生成模块5从所述用户数据采集模块1获取的用户视频节目观看日志,将每个用户在一段时间内观看的所有视频节目列表,将该表中的每一视频节目在I1排序和I2排序中的ID编号转换成所在VideoBag的编号和权重Weight,得到每个用户的特征列表;
由于观看次数过少的样本数据噪声较大,故剔除观看视频节目次数少于k次的用户样本;
设得到UserNum个已知性别、所属年龄段的用户特征列表;将这UserNum个用户特征列表分为两部分,一部分用于训练,另一部分用于用户测试;
所述用户性别分类模型训练模块6使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成模块5提供的一部分用户特征列表,将其中男性用户作为正样本、女性用户作为反样本进行训练,并以所述用户特征表生成模块5提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为性别模型;
所述用户年龄段分类模型训练模块7使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成模块5提供的一部分用户特征列表,将其中年龄属于要求年龄段[min_age,max_age]的用户作为正样本、其他年龄段的用户作为反样本进行训练,并以所述用户特征表生成模块5提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为年龄段模型;
所述用户性别与年龄段预测模块8对所述用户数据采集模块1获取的性别、年龄段未知的用户,依据其视频节目观看日志,使用所述性别模型预测其性别,使用所述年龄段模型预测其年龄段,得到对该用户性别与年龄段的预测结果;基于预测结果,对该用户赋予性别、年龄段标签;
所述广告投放模块9根据所述用户性别与年龄段预测模块8给出的用户性别、年龄段标签,以及所述用户数据采集模块1收集的用户性别、年龄信息,按照某广告投放的目标人群,向具有适合性别、年龄段的用户投放该广告。
实施例2:在实施例1所述的基于VideoBag特征的精准广告投放系统中,所述VideoBag打包模块3中,m取值为6000;所述用户特征表生成模块5中,k取值为5;所述用户特征表生成模块5和所述用户性别分类模型训练模块6、所述用户年龄段分类模型训练模块7中,用于训练的用户特征列表为30%UserNum个,其余70%UserNum个用于测试。
实施例3:一种基于VideoBag特征的精准广告投放方法,它依序执行以下步骤:
A.用户数据采集步骤,它获取用户视频节目观看日志,并通过网上投递的调查问卷,收集用户性别、年龄信息;
B.视频节目鉴别能力计算和排序步骤,它利用所述用户数据采集步骤收集的用户性别、年龄信息,计算各视频节目的性别鉴别能力I1和年龄鉴别能力I2:
I1=(man_view-woman_view)/(man_view+woman_view)
I2=(in_group_view-not_in_group_view)/(in_group_view+not_in_group_view)式中:man_view为该视频节目被男性观看的次数,woman_view为被女性观看的数次;in_group_view为该视频节目被属于年龄段[min_age,max_age]用户(如25~40岁的用户)的观看次数,not_in_group_view为不属于年龄段[min_age,max_age]用户(如25~40岁以外的用户)的观看次数;
将所有视频节目分别按I1、I2值大小进行两个排序,分别称为I1排序和I2排序;在每个排序中为每个视频节目赋予相应ID编号;
C.VideoBag打包步骤,它将所述视频节目鉴别能力计算和排序步骤给出的I1排序和I2排序,分别依序每m个视频节目打包在一起得到一个VideoBag,最后一个VideoBag中视频节目不足m个则按实际数量;从1开始,为每个VideoBag赋予一个编号,从而得到分别对应I1排序和I2排序的两个VideoBag序列;
D.权重计算步骤,它计算各个VideoBag中所有视频节目的I1或I2绝对值的平均值;并令其为本VideoBag的权重Weight;
E.用户特征表生成步骤,它从所述用户数据采集步骤获取的用户视频节目观看日志,将每个用户在一段时间内观看的所有视频节目列表,将该表中的每一视频节目在I1排序和I2排序中的ID编号转换成所在VideoBag的编号和权重Weight,得到每个用户的特征列表;
由于观看次数过少的样本数据噪声较大,故剔除观看视频节目次数少于k次的用户样本;
设得到UserNum个已知性别、所属年龄段的用户特征列表;将这UserNum个用户特征列表分为两部分,一部分用于训练,另一部分用于用户测试;
F.用户性别分类模型训练步骤,它使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成步骤提供的一部分用户特征列表,将其中男性用户作为正样本、女性用户作为反样本进行训练,并以所述用户特征表生成步骤提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为性别模型;
G.用户年龄段分类模型训练步骤,它使用支持向量机作为分类器,按照机器学习分类算法的常规方式进行训练,训练数据来源为所述用户特征表生成步骤提供的一部分用户特征列表,将其中年龄属于要求年龄段[min_age,max_age]的用户作为正样本、其他年龄段的用户作为反样本进行训练,并以所述用户特征表生成步骤提供的另一部分用户特征列表为测试数据进行测试,训练结果为支持向量机分类模型,选择测试结果最优的训练结果,命名该模型为年龄段模型;
H.用户性别与年龄段预测步骤,它对所述用户数据采集步骤获取的性别、年龄段未知的用户,依据其视频节目观看日志,使用所述性别模型预测其性别,使用所述年龄段模型预测其年龄段,得到对该用户性别与年龄段的预测结果;基于预测结果,对该用户赋予性别、年龄段标签;
I.广告投放步骤,它根据所述用户性别与年龄段预测步骤给出的用户性别、年龄段标签,按照某广告投放的目标人群,向具有适合性别、年龄段的用户投放该广告。
实施例4:在实施例3所述的基于VideoBag特征的精准广告投放方法中,所述VideoBag打包步骤中,m取值为6000;所述用户特征表生成步骤中,k取值为5;所述用户特征表生成步骤和所述用户性别分类模型训练步骤、所述用户年龄段分类模型训练步骤中,用于训练的用户特征列表为30%UserNum个,其余70%UserNum个用于测试。