CN103488764A

CN103488764A - 个性化视频内容推荐方法和系统

Info

Publication number: CN103488764A
Application number: CN201310446815.8A
Authority: CN
Inventors: 刘赵杰
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2014-01-01
Anticipated expiration: 2033-09-26
Also published as: CN103488764B

Abstract

本发明公开了一种个性化视频内容推荐方法和系统，涉及视频处理技术领域。该方法包括：获得所述音频流中各个语音片段的说话人声纹特征参数；将所述说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段；在所述视频流与所述候选语音片段对应的镜头中进行所述感兴趣演员的人脸识别；根据所述人脸识别结果确定用户的与所述感兴趣演员相关的视频片段。通过提取语音的声纹特征，和感兴趣演员的声纹进行匹配，启发性地引导到感兴趣的视频片段，从而加速定位到可能出现感兴趣演员的人脸的视频镜头。声纹的提取运算量较小，可以大大减小视频人脸检测需要的运算，速度快，更容易提供用户感兴趣的内容。

Description

个性化视频内容推荐方法和系统

技术领域

本发明涉及视频处理技术领域，特别涉及一种个性化视频内容推荐方法和系统。

背景技术

随着互联网的迅速发展，如今网络视频已成为人们现在获取信息和娱乐的主要来源之一，各类多媒体应用不断涌现，互联网和电视节目日趋丰富，视频数量快速增长。这些视频中包含了大量有用的信息。然而，由于这些视频是无序地分布在世界各地，视频中包含的信息无法被有效地访问和利用。用户没有时间也不可能浏览这海量的视频内容，如何使得用户迅速访问到感兴趣的视频越来越重要，也越来越难。

这就要求有一种能够快速而且准确地查找访问这些视频的技术，视频分类技术就能很好的解决这一难题。

现有的视频的分类方法，存在以下缺陷：在对视频的分类方法中仅仅采用语音识别或者简单的视频特征匹配，对于视频内容的检测和分类准确率较低，且计算量过大。

发明内容

本发明的一个目的是提供一种用于个性化视频内容推荐的技术方案。

根据本发明的第一方面，提供了一种个性化视频内容推荐方法，包括：

对视频进行解析获得视频流和音频流；

获得所述音频流中各个语音片段的说话人声纹特征参数；

将所述说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段；

在所述视频流与所述候选语音片段对应的镜头中进行所述感兴趣演员的人脸识别；

根据所述人脸识别结果确定用户的与所述感兴趣演员相关的视频片段。

可选地，获得所述音频流中各个语音片段的说话人声纹特征参数包括：

将所述视频帧分割为各个镜头；

获得与各个镜头对应的音频片段；

对所述音频片段进行分割获得各个语音片段；

对各个语音片段提取说话人声纹特征参数。

可选地，该方法还包括：通过字幕信息初步筛选感兴趣演员的视频。

可选地，感兴趣演员的人脸识别采用HAAR-AdaBoost算法。

可选地，将所述说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段包括：

通过所述说话人声纹特征参数与感兴趣演员的声纹特征模型和通用背景模型的似然比确定是否属于所述感兴趣演员的声音；

如果是，则确定所述语音片段为候选语音片段。

根据本发明的另一方面，提供一种个性化视频内容推荐系统，包括：

视频解析单元，用于对视频进行解析获得视频流和音频流；

声纹特征提取单元，用于获得所述音频流中各个语音片段的说话人声纹特征参数；

候选语音片段确定单元，用于将所述说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段；

人脸识别单元，用于在所述视频流与所述候选语音片段对应的镜头中进行所述感兴趣演员的人脸识别；

感兴趣视频片段确定单元，用于根据所述人脸识别结果确定用户的与所述感兴趣演员相关的视频片段。

可选地，声纹特征提取单元将所述视频帧分割为各个镜头；获得与各个镜头对应的音频片段；对所述音频片段进行分割获得各个语音片段；对各个语音片段提取说话人声纹特征参数。

可选地，该系统还包括：字幕初筛单元，用于通过字幕信息初步筛选感兴趣演员的视频。

可选地，人脸识别单元对感兴趣演员的人脸识别采用HAAR-AdaBoost算法。

本发明的一个优点在于，通过提取语音的声纹特征和感兴趣演员的声纹进行匹配，启发性地引导到感兴趣的视频片段，从而加速定位到可能出现感兴趣演员的人脸的视频镜头。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1示出根据本发明的个性化视频内容推荐方法的一个实施例的流程图。

图2示出根据本发明的个性化视频内容推荐方法的另一个实施例的流程图。

图3示出根据本发明的个性化视频内容推荐系统的一个实施例的结构图。

图4示出根据本发明的个性化视频内容推荐系统的另一个实施例的结构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

现有的通用视频推荐系统效果并不理想，限定领域的视频推荐系统，如新闻、体育节目的视频推荐系统，也很难做到个性化处理，从而真正满足用户的兴趣。本发明人发现，演员是一个非常好的个性化主题，很多用户都有自己喜欢的演员，也希望能及时了解自己喜爱的演员的视频相关情况，真正做到个性化视频推荐。

如图1所示，步骤102，对视频进行解析获得视频流和音频流。

步骤104，获得音频流中各个语音片段的说话人声纹特征参数。

步骤106，将说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段。

例如，预先采集用户感兴趣演员的语音，建立感兴趣演员的语音库，通过提取该演员的声纹特征参数训练该演员的声纹特征模型，例如采用混合高斯模型(Gaussian Mixture Model，GMM)模拟各个演员的声纹特征模型，并训练单独的通用背景模型(UniversalBackgroundModel，UBM)，通过比较演员的声纹特征模型及背景模型相对于输入语音信号的声纹特征的似然比确定是否属于该演员的声音。具体地，根据感兴趣演员的声纹特征模型及背景模型的似然比和预置阈值的大小判断是否为目标感兴趣演员。

步骤108，在视频流与候选语音片段对应的镜头中进行感兴趣演员的人脸识别。

例如，预先获取感兴趣演员的人脸数据，建立演员人脸库。从演员人脸库中提取感兴趣演员人脸的特征向量，建立人脸模型。例如，采用HAAR-AdaBoost算法进行人脸识别。稍后具体介绍HARR-AdaBoost算法。

步骤110，根据人脸识别结果确定与感兴趣演员相关的视频片段。

通常的视频推荐系统容易采用人脸识别等方式来定位感兴趣的镜头或者进行视频浏览，语音通常经过识别来获得文本信息。上述实施例中，不是对语音进行文本识别，而是只提取语音的声纹特征，和感兴趣演员的声纹进行匹配，启发性地引导到感兴趣的视频片段，从而加速定位到可能出现感兴趣演员的人脸的视频镜头。声纹的提取运算量较小，可以大大减小视频人脸检测需要的运算，速度快，更容易提供用户感兴趣的内容。

HARR-AdaBoost人脸检测训练算法的两重要方面是特征选取和特征计算；选取的特征为矩特征为Haar特征，计算的方法为积分图。

（1）Haar特征：

Haar特征分为三类：边缘特征、线性特征、中心特征和对角线特征，组合成特征模板。特征模板内有白色和黑色两种矩形，并定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。在确定了特征形式后Harr-like特征的数量就取决于训练样本图像矩阵的大小，特征模板在子窗口内任意放置，一种形态称为一种特征，找出所有子窗口的特征是进行弱分类训练的基础。

（2）积分图：

积分图(Integral Image)主要的思想是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中，当要计算某个区域的像素和时可以直接索引数组的元素，不用重新计算这个区域的像素和，从而加快了计算。“积分图"能够在多种尺度下，使用相同的时间来计算不同的特征，因此大大提高了检测速度。

目标检测方法。首先，利用感兴趣演员样本的harr特征进行分类器训练，得到一个级联的boosted分类器。训练样本分为正例样本和反例样本，其中正例样本是指感兴趣演员人脸样本，反例样本指其它任意图片，所有的样本图片都被归一化为同样的尺寸大小。

分类器训练完以后，就可以应用于输入图像中的感兴趣区域(与训练样本相同的尺寸)的检测。检测到目标区域，分类器输出为1，否则输出为0。为了检测整副图像，可以在图像中移动搜索窗口，检测每一个位置来确定可能的目标。为了搜索不同大小的目标物体，分类器被设计为可以进行尺寸改变，这样比改变待检图像的尺寸大小更为有效。所以，为了在图像中检测未知大小的目标物体，扫描程序通常需要用不同比例大小的搜索窗口对图片进行几次扫描。

分类器中的“级联”是指最终的分类器是由几个简单分类器级联组成。在图像检测中，被检窗口依次通过每一级分类器，这样在前面几层的检测中大部分的候选区域就被排除了，全部通过每一级分类器检测的区域即为目标区域。目前支持这种分类器的boosting技术包括Discrete Adaboost,Real Adaboost,Gentle Adaboost and Logitboost。"boosted"即指级联分类器的每一层都可以从中选取一个boosting算法(权重投票)，并利用基础分类器的自我训练得到。基础分类器是至少有两个叶结点的决策树分类器。Haar特征是基础分类器的输入，主要描述如下。目前的算法主要利用下面的Harr特征。

如图2所示，步骤102，提取视频中的字幕信息，通过字幕信息中的演员表对感兴趣演员的视频进行初筛。如果演员表中包括感兴趣演员，则进行感兴趣视频片段的定位。

步骤204，对视频进行解析获得视频流和音频流，获得音频流中各个语音片段的说话人声纹特征参数。例如，将视频帧分割为各个镜头；获得与各个镜头对应的音频片段；对音频片段进行分割获得各个语音片段；对各个语音片段提取说话人声纹特征参数。

步骤206，将说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段。

步骤208，在视频流与候选语音片段对应的镜头中进行感兴趣演员的人脸识别。

步骤210，根据人脸识别结果确定与感兴趣演员相关的视频片段。

上述实施例中，通过提取字幕信息对演员表进行初筛，可以更快地定位与感兴趣演员相关的视频，避免了无关视频的相关计算工作，提高了处理效率。

图3示出根据本发明的个性化视频内容推荐系统的一个实施例的结构图。如图3所示，该系统包括：视频解析单元31，用于对视频进行解析获得视频流和音频流；

声纹特征提取单元32，用于获得所述音频流中各个语音片段的说话人声纹特征参数；

候选语音片段确定单元33，用于将所述说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段；

人脸识别单元34，用于在所述视频流与所述候选语音片段对应的镜头中进行所述感兴趣演员的人脸识别；

感兴趣视频片段确定单元35，用于根据所述人脸识别结果确定用户的与所述感兴趣演员相关的视频片段。

在一个实施例中，声纹特征提取单元将所述视频帧分割为各个镜头；获得与各个镜头对应的音频片段；对所述音频片段进行分割获得各个语音片段；对各个语音片段提取说话人声纹特征参数。人脸识别单元对感兴趣演员的人脸识别采用HAAR-AdaBoost算法。

图4示出根据本发明的个性化视频内容推荐系统的另一个实施例的结构图。在该实施例中，还包括：字幕初筛单元46，用于通过字幕信息初步筛选感兴趣演员的视频。

至此，已经详细描述了根据本发明的个性化视频内容推荐方法和系统。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种个性化视频内容推荐方法，其特征在于，包括：

对视频进行解析获得视频流和音频流；

获得所述音频流中各个语音片段的说话人声纹特征参数；

2.根据权利要求1所述的方法，其特征在于，所述获得所述音频流中各个语音片段的说话人声纹特征参数包括：

将所述视频帧分割为各个镜头；

获得与各个镜头对应的音频片段；

对所述音频片段进行分割获得各个语音片段；

对各个语音片段提取说话人声纹特征参数。

3.根据权利要求1所述的方法，其特征在于，还包括：

通过字幕信息初步筛选感兴趣演员的视频。

4.根据权利要求1所述的方法，其特征在于，所述感兴趣演员的人脸识别采用HAAR-AdaBoost算法。

5.根据权利要求1所述的方法，其特征在于，所述将所述说话人声纹特征参数与感兴趣演员的声纹特征模型进行声纹匹配获得候选语音片段

如果是，则确定所述语音片段为候选语音片段。

6.一种个性化视频内容推荐系统，其特征在于，包括：

视频解析单元，用于对视频进行解析获得视频流和音频流；

7.根据权利要求6所述的系统，其特征在于，所述声纹特征提取单元将所述视频帧分割为各个镜头；获得与各个镜头对应的音频片段；对所述音频片段进行分割获得各个语音片段；对各个语音片段提取说话人声纹特征参数。

8.根据权利要求6所述的系统，其特征在于，还包括：

字幕初筛单元，用于通过字幕信息初步筛选感兴趣演员的视频。

9.根据权利要求6所述的系统，其特征在于，所述人脸识别单元对感兴趣演员的人脸识别采用HAAR-AdaBoost算法。