CN104715023B

CN104715023B - 基于视频内容的商品推荐方法和系统

Info

Publication number: CN104715023B
Application number: CN201510093789.4A
Authority: CN
Inventors: 兰细鹏; 王涛; 杨琛; 张彦刚; 朱成
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2018-08-03
Anticipated expiration: 2035-03-02
Also published as: CN104715023A

Abstract

本发明提供了一种基于视频内容的商品推荐方法和系统，以解决商品推荐结果精准度低的问题。一种基于视频内容的商品推荐方法，包括：对目标视频抽取关键帧；根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。本发明在进行商品推荐时考虑了视频内容，对视频内容进行了分析，得到的商品推荐信息与目标视频的内容息息相关，因此提高了商品推荐结果的精准度。

Description

基于视频内容的商品推荐方法和系统

技术领域

本发明涉及计算机数据处理技术领域，特别是涉及一种基于视频内容的商品推荐方法和系统。

背景技术

随着电子商务的不断发展，越来越多的用户选择在网上进行购物。用户通过浏览器访问电子商务网站，就可以方便地选择自己所需要的商品。在很多情况下，电子商务网站会向用户进行商品推荐，例如，用户购买了某一种商品之后，会向其推荐与该商品相似或者关联的商品，又如，还可以向用户推荐新的上架的商品，打折的商品，热销的商品等等。

一般来说，目前互联网上的电子商务网站是基于商品销售排行、用户对商品的评价评分或者对用户在电子商务网站的其他行为数据的分析来进行商品推荐。用户在观看影视剧时，往往会插播广告，这些插播广告涉及的商品推荐信息多种多样，但上述商品推荐信息基本上与视频内容无关，也就是说用户无论观看的是哪部影视剧，会出现相同的商品推荐信息，导致商品推荐信息不够精准，与视频内容匹配度低。

发明内容

本发明提供了一种基于视频内容的商品推荐方法和系统，以解决商品推荐结果精准度低的问题。

为了解决上述问题，本发明公开了一种基于视频内容的商品推荐方法，包括：对目标视频抽取关键帧；根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

可选地，所述对目标视频抽取关键帧包括：对目标视频进行镜头检测，提取若干个镜头；对每个镜头抽取关键帧，并将各镜头所抽取的关键帧作为所述目标视频的关键帧。

可选地，所述对目标视频进行镜头检测，提取若干个镜头，包括：提取所述目标视频各帧的颜色直方图特征；根据所述各帧的颜色直方图特征计算相邻两帧的颜色直方图的相似性；当所述相邻两帧的颜色直方图的相似性小于相似阈值时，将所述相邻两帧的边界点确定为镜头边界；按照所述镜头边界提取镜头。

可选地，所述根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体，包括：根据物体的对象性调整各关键帧的分辨率，计算调整后各关键帧的梯度幅值；按照预设框的大小在各关键帧中取所述预设框内的像素点，送入训练完成的级联支持向量机计算得分，当所述得分大于分数阈值时，判断为检测到物体，并将该物体作为其所在关键帧的候选物体。

可选地，所述通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品，包括：预设多个类别的商品样本，并依据所述商品样本设计训练的网络结构；根据所述网络结构训练得到卷积神经网络模型；当所述各关键帧的候选物体与所述卷积神经网络模型中的商品样本一致时，将所述候选物体确定为其所在关键帧的商品，并将所述商品样本的类别作为所述商品的标签。

可选地，所述对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签，包括：调取电商的商品标签；以所述各关键帧的商品的标签为关键字，将所述各关键帧的商品的标签映射到所述电商的商品标签，并作为所述各关键帧的商品标签。

可选地，所述对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签之后，还包括：获取所述各关键帧的商品标签对应的分数，并依据所述商品标签对应的分数对所述各关键帧的商品标签进行过滤。

本发明还公开了一种基于视频内容的商品推荐系统，包括：关键帧抽取模块，用于对目标视频抽取关键帧；物体检测模块，用于根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；商品识别模块，用于通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；关键字映射模块，用于对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；输出模块，用于将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

可选地，所述关键帧抽取模块包括：镜头检测子模块，用于对目标视频进行镜头检测，提取若干个镜头；关键帧子模块，用于对每个镜头抽取关键帧。

可选地，所述镜头检测子模块，具体用于提取所述目标视频各帧的颜色直方图特征；根据所述各帧的颜色直方图特征计算相邻两帧的颜色直方图的相似性；当所述相邻两帧的颜色直方图的相似性小于相似阈值时，将所述相邻两帧的边界点确定为镜头边界；按照所述镜头边界提取镜头。

可选地，所述物体检测模块，具体用于根据物体的对象性调整各关键帧的分辨率，计算调整后各关键帧的梯度幅值；按照预设框的大小在各关键帧中取所述预设框内的像素点，送入训练完成的级联支持向量机计算得分，当所述得分大于分数阈值时，判断为检测到物体，并将该物体作为其所在关键帧的候选物体。

可选地，所述商品识别模块，具体用于预设多个类别的商品样本，并依据所述商品样本设计训练的网络结构；根据所述网络结构训练得到卷积神经网络模型；当所述各关键帧的候选物体与所述卷积神经网络模型中的商品样本一致时，将所述候选物体确定为其所在关键帧的商品，并将所述商品样本的类别作为所述商品的标签。

可选地，所述关键字映射模块，具体用于调取电商的商品标签；以所述各关键帧的商品的标签为关键字，将所述各关键帧的商品的标签映射到所述电商的商品标签，并作为所述各关键帧的商品标签。

可选地，所述系统还包括：过滤模块，用于所述关键字映射模块对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签之后，获取所述各关键帧的商品标签对应的分数，并依据所述商品标签对应的分数对所述各关键帧的商品标签进行过滤。

与现有技术相比，本发明包括以下优点：

根据本发明的基于视频内容的商品推荐方法，首先，通过对目标视频抽取关键帧，将对目标视频的处理转化为对关键帧的处理，可以减少计算量，加快处理速度；其次，根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体，可以将对关键帧全图识别转化为对物体检测后每个候选物体的识别，这样做相比全图识别可以提高商品识别的准确率；然后，通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品，而卷积神经网络模型是深层模型，相比于浅层模型可以提高对所述各关键帧的候选物体进行识别的准确率。再次，对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；接着，将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。本发明在进行商品推荐时考虑了视频内容，通过前述步骤对视频内容进行了分析，得到的商品推荐信息与目标视频的内容息息相关，由此解决了商品推荐结果精准度低的问题，取得了与视频内容精准贴合，提高商品推荐结果与目标视频的匹配度，从而提高了商品推荐结果的精准度的有益效果。

附图说明

图1示出了根据本发明一个实施例的一种基于视频内容的商品推荐方法的流程图；

图2示出了根据本发明一个实施例的一种基于视频内容的商品推荐方法的流程图；

图3示出了根据本发明一个实施例的目标视频的关键帧A的示意图；

图4示出了根据本发明一个实施例的目标视频的关键帧B的示意图；

图5示出了根据本发明一个实施例的输出商品推荐信息的示意图；

图6示出了根据本发明一个实施例的一种基于视频内容的商品推荐系统的结构框图；

图7示出了根据本发明一个实施例的一种基于视频内容的商品推荐系统的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一：

参照图1，示出了本发明实施例一种基于视频内容的商品推荐方法的流程图，本实施例具体可以包括以下步骤：

步骤101，对目标视频抽取关键帧。

本实施例中对目标视频抽取关键帧，可以采用基于颜色(或直方图)帧差方法，基于运动分析方法或基于视频帧聚类方法来实现。其中，通过视频帧聚类方法抽取视频的关键帧，即通过聚类分析将视频镜头的帧分成若干类，选取最靠近聚类中心的点表示聚类的点，最终形成视频序列的关键帧集合。需要说明的是，本实施例对目标视频抽取关键帧所采用的具体方法不做限制，可以将目标视频的关键帧抽取出来即可。

步骤102，根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体。

视频的每个关键帧中都包含多个物体，人们主要通过视觉系统对形形色色的物体进行分类和辨别，计算机则根据物体的对象性对各关键帧进行物体检测，将各关键帧中的物体检测出来。根据物体的对象性对各关键帧进行物体检测时，首先建立待检测物体图像的一种知识表示模型，在一定量的训练样本中学习得到一组满足预定要求的模型参数；同时根据物体图像的表示模型，建立一套从实际图像中进行推理的物体检测算法，通过在视频中测试可获得物体检测的泛化能力。

所谓物体检测，通俗来讲是使得计算机具有和人类一样的，对于在任意环境下观察到的任意物体进行检测、分割和识别的能力。本实施例中根据物体的对象性对各关键帧进行物体检测，可以通过物体特征提取的方法来进行物体检测，根据提取到的物体特征来判断关键帧中的物体属于什么类别。形状、纹理和颜色等特征是最常用的物体特征，其中形状特征是反映出物体最直接的视觉特征，大部分物体可以通过分辨其形状来进行判别，可以采用基于轮廓的方法或基于区域的方法来提取物体的形状特征；纹理特征是与物体表面结构和材质有关的物体的内在特征，反映出来的是物体的全局特征，可以采用统计方法如灰度共生矩阵纹理特征分析方法、几何法(建立在基本的纹理兀素理论基础上的一种纹理特征分析方法)、模型法(将图像的构造模型的参数作为纹理特征)、信号处理法(主要是小波变换为主)等方法来提取纹理特征。颜色特征描述了物体的表面性质，反映出的是物体的全局特征，物体的颜色特征是基于像素点的特征，只要是属于物体区域内的像素点都会有贡献，可以采用颜色直方图、颜色集、颜色矩等方式来提取颜色特征。

需要说明的是，本实施例中根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体。具体实现时，可以将物体检测所检测出来的所有物体都作为其所在关键帧的候选物体，也可以筛选出一部分物体作为候选物体，具体的筛选方法本实施例不做限制。

步骤103，通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品。

通过对各关键帧进行物体检测所得到的候选物体并非都是商品，商品是具有价值和使用价值，用于满足购买者欲望和需求的物体。CNN卷积神经网络模型是一种深度模型，卷积神经网络模型在原始的输入中应用可训练的滤波器和局部邻域池化操作，得到一个分级的且逐渐复杂的特征表示。如果采用合适的规则化项来训练，卷积神经网络模型可以达到非常好的效果。卷积神经网络模型是一种可以直接在原始输入就大展拳脚的深度模型。

卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。网络中包含一些简单元和复杂元，分别记为S-元和C-元。S-元聚合在一起组成S-面，S-面聚合在一起组成S-层，用Us表示。C-元、C-面和C-层(Us)之间存在类似的关系。网络的任一中间级由S-层与C-层串接而成，而输入级只含一层，它直接接受二维视觉模式，样本特征提取步骤已嵌入到卷积神经网络模型的互联结构中。一般地，Us为特征提取层，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来；Uc是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数，降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(S-层)都紧跟着一个用来求局部平均与二次提取的计算层(C-层)，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。因此本实施例通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别。

本实施例通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，即从各关键帧的候选物体中识别出哪些候选物体属于商品，然后将这些属于商品的候选物体作为各关键帧的商品。

步骤104，对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签。

本实施例中对所述各关键帧的商品进行关键字映射，关键字映射是将商品的标签映射到电商的商品标签，即找各关键帧的商品的标签和电商的商品标签之间的对应关系。各关键帧的商品的标签可以包括商品名称，而电商的商品标签除了包括商品名称之外，还包括商品价格、商品图片等信息。

步骤105，将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

由于商品标签已经包含了商品名称、商品图片、商品价格等信息，因此本实施例可以直接将所述各关键帧的商品标签确定为将要推荐的商品信息，即所述目标视频的商品推荐信息。本实施例在输出所述商品推荐信息的时候，可以在视频播放器中选择一个区域输出所述商品推荐信息，也可以在目标视频播放的过程中，将所述商品推荐信息作为广告进行插播，还可以在目标视频播放结束时，输出所述目标视频的商品推荐信息，本实施例对所述目标视频的商品推荐信息的输出方式和输出时间不做具体限制。

本实施例首先对目标视频抽取关键帧，然后根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；接着通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；然后对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；最后将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。本实施例所得到的商品推荐信息是通过上述步骤对目标视频的内容进行分析得到的，因此本实施例中的商品推荐信息与目标视频的内容息息相关，提高了商品推荐结果与目标视频的匹配度，相应提高了商品推荐结果的精准度。

实施例二：

在上述实施例的基础上，本实施例继续论述基于视频内容的商品推荐方法。

参照图2，示出了本发明实施例一种基于视频内容的商品推荐方法的流程图，本实施例具体可以包括以下步骤：

步骤201，对目标视频抽取关键帧。

本实施例中对目标视频抽取关键帧，具体可以包括以下子步骤：

子步骤一，对目标视频进行镜头检测，提取若干个镜头。首先，提取所述目标视频各帧的颜色直方图特征；其次，根据所述各帧的颜色直方图特征计算相邻两帧的颜色直方图的相似性；再次，当所述相邻两帧的颜色直方图的相似性小于相似阈值时，将所述相邻两帧的边界点确定为镜头边界；最后，按照所述镜头边界提取镜头。需要说明的是，本实施例中所述相似阈值可以是预先设定的阈值，本实施例对相似阈值的具体数值不做限制。

子步骤二，对每个镜头抽取关键帧，并将各镜头所抽取的关键帧作为所述目标视频的关键帧。本实施例中对镜头抽取关键帧，可以采用基于颜色(或直方图)帧差方法抽取关键帧，也可以基于运动分析方法或基于视频帧聚类方法来抽取关键帧，可以按照固定的时间间隔来提取关键帧，也可以通过计算相邻几帧在颜色(或灰度)上的差异来确定是否是关键帧，还可以基于运动分析的方法来抽取关键帧。本实施例对上述抽取关键帧所采用的具体方法不做限制。需要说明的是，本实施例通过上述子步骤一和子步骤二，将对目标视频的处理转化为对关键帧的处理，可以减少计算量，加快处理速度。

步骤202，根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体。

本实施例中所述根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体，具体可以通过以下方式来实现：首先，根据物体的对象性调整各关键帧的分辨率，计算调整后各关键帧的梯度幅值；其次，按照预设框的大小在各关键帧中取所述预设框内的像素点，送入训练完成的级联支持向量机计算得分，当所述得分大于分数阈值时，判断为检测到物体，并将该物体作为其所在关键帧的候选物体。换句话说，本实施例利用ObjectNess对每个镜头的关键帧进行物体检测，获取物体的proposals，可以通过将各关键帧中的待识别图像进行resize，计算resize后图像的梯度幅值。然后逐点取8*8大小的框，送入训练好的级联支持向量机cascade-svm，计算得分。如果分数大于预设的分数阈值，则判定待识别图像为物体，如果分数未达到预设的分数阈值，则判定待识别图像为非物体。

需要说明的是，本实施例中根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体。具体实现时，可以将物体检测所检测出来的所有物体都作为其所在关键帧的候选物体，也可以筛选出一部分物体作为候选物体，例如在利用ObjectNess对每个镜头的关键帧进行物体检测，获取物体的proposals后，选取分数较高的一些proposals作为各关键帧的候选物体，具体的筛选方法本实施例不做限制。

需要说明的是，本实施例根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体，可以将对关键帧全图识别转化为对ObjectNess后每个proposals的识别，这样做相比全图识别可以提高商品识别的准确率。并且相比采用Selective Search、Sliding Windows获取proposals的方法可以大大提高计算速度。

步骤203，通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品。

本实施例中所述通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品标签，具体可以通过以下方式来实现：首先，预设多个类别的商品样本，并依据所述商品样本设计训练的网络结构；其次，根据所述网络结构训练得到卷积神经网络模型；最后，当所述各关键帧的候选物体与所述卷积神经网络模型中的商品样本一致时，将所述候选物体确定为其所在关键帧的商品，并将所述商品样本的类别作为所述商品的标签。具体实现时，可以准备好N类的商品样本，然后设计训练的网络结构，接着利用caffe训练框架训练获取一个模型，再利用训练好的模型即可对每个proposals进行识别，最终获取该proposal属于每类的概率,最大概率对应的类别即为该proposal的类别，对应地，可以获取所述候选物体属于各类商品样本的概率，并将最大概率对应的商品样本的类别作为该候选物体的类别。

本实施例采用卷积神经网络模型(CNN)进行proposals识别，而卷积神经网络模型是深层模型，相比于浅层模型可以提高对所述各关键帧的候选物体进行识别的准确率。

步骤204，对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签。

本实施例中所述对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签，具体可以先调取电商的商品标签；再以所述各关键帧的商品的标签为关键字，将所述各关键帧的商品的标签映射到所述电商的商品标签，并作为所述各关键帧的商品标签。

需要说明的是，关键字映射是将商品的标签映射到电商的商品标签，即找商品的标签和电商的商品标签之间的对应关系。商品的标签可以包括商品名称，而电商的商品标签除了包括商品名称之外，还包括商品价格、商品图片等信息，例如爱奇艺电商的商品标签、淘宝卖家的商品标签等。

步骤205，获取所述各关键帧的商品标签对应的分数，并依据所述商品标签对应的分数对所述各关键帧的商品标签进行过滤。

本实施例中所述过滤是指对所述目标视频的各关键帧中标签分数较低的商品标签进行过滤，推荐分数较高的商品标签给用户，即执行后续步骤206时将分数较高的商品标签作为目标视频的商品推荐信息进行输出。具体实现时，可以判断所述各关键帧的商品标签对应的分数是否达到分数阈值，将所述各关键帧的商品标签中分数达到分数阈值的商品标签作为所述目标视频的商品推荐信息进行输出。即当所述商品标签对应的分数达到分数阈值时，将所述商品标签作为目标视频的商品推荐信息进行输出；当所述商品标签对应的分数未达到分数阈值时，将所述商品标签过滤掉。

本实施例中将分数阈值设置为200，以图3所示的目标视频的关键帧A的示意图为例进行说明，关键帧A中有多个物体，进行关键字映射得到的商品标签有下列标签1、标签2、标签3和标签4，具体如下：

标签1：西服；分数：577；

标签2：领带；分数：354；

标签3：蜡烛；分数：200；

标签4：杯子；分数：54；

根据本实施例中的分数阈值200，将标签4进行过滤，保留标签1、标签2和标签3以在后续推荐给用户。

再以图4所示的目标视频的关键帧B的示意图为例进行说明，关键帧B中有多个物体，进行关键字映射得到的商品标签有下列标签5、标签6、标签7，具体如下：

标签5：百叶窗；分数：1003；

标签6：钢琴；分数：441；

标签7：办公桌；分数：82；

根据本实施例中的分数阈值200，将标签7进行过滤，保留标签5、标签6以在后续推荐给用户。

需要说明的是，本实施例对每个镜头的关键帧的proposals的识别结果进行统计过滤，剔除了分数较低的商品标签，这样做可以进一步提高商品推荐的准确性。

步骤206，将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

本实施例中具体将步骤205过滤后的各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。而过滤后的商品标签已经包含了商品名称、商品图片、商品价格等信息，因此本实施例可以将过滤后的所述各关键帧的商品标签确定为所述目标视频的商品推荐信息。

需要说明的是，本实施例在输出所述商品推荐信息的时候，可以在视频播放器中选择一个区域输出所述商品推荐信息，如图5所示在目标视频的右侧弹出商品推荐框进行商品推荐。本实施例也可以在目标视频播放的过程中，将所述商品推荐信息作为广告进行插播，还可以在目标视频播放结束时，输出所述目标视频的商品推荐信息，本实施例对所述目标视频的商品推荐信息的输出方式和输出时间不做具体限制。

本实施例与实施例一相比，在将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息之前增加了过滤步骤(步骤205)，剔除了分数较低的商品标签，可以进一步提高商品推荐的准确性。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

实施例三：

在上述实施例的基础上，本实施例还公开了一种基于视频内容的商品推荐系统。

参照图6，示出了本发明实施例一种基于视频内容的商品推荐系统的结构框图，本实施例具体可以包括：关键帧抽取模块601、物体检测模块602、商品识别模块603、关键字映射模块604和输出模块605，其中：

关键帧抽取模块601，用于对目标视频抽取关键帧。

物体检测模块602，用于根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体。物体检测模块602根据物体的对象性对关键帧抽取模块601抽取的各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体。

商品识别模块603，用于通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品。商品识别模块603通过卷积神经网络模型对所述物体检测模块602获取到的各关键帧的候选物体进行商品识别，得到各关键帧的商品。

关键字映射模块604，用于对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签。关键字映射模块604对所述商品识别模块603得到的各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签。

输出模块605，用于将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。输出模块605将所述关键字映射模块604得到的各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

本实施例首先通过关键帧抽取模块601对目标视频抽取关键帧，然后物体检测模块602根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；接着商品识别模块603通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；然后关键字映射模块604对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；最后输出模块605将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。本实施例的商品推荐系统所得到的商品推荐信息是通过对目标视频的内容进行分析得到的，因此本实施例中的商品推荐信息与目标视频的内容息息相关，提高了商品推荐结果与目标视频的匹配度，相应提高了商品推荐结果的精准度。

在本发明的一种可选实施例中，所述关键帧抽取模块包括：镜头检测子模块，用于对目标视频进行镜头检测，提取若干个镜头；关键帧子模块，用于对每个镜头抽取关键帧。

在本发明的一种可选实施例中，所述镜头检测子模块，具体用于提取所述目标视频各帧的颜色直方图特征；根据所述各帧的颜色直方图特征计算相邻两帧的颜色直方图的相似性；当所述相邻两帧的颜色直方图的相似性小于相似阈值时，将所述相邻两帧的边界点确定为镜头边界；按照所述镜头边界提取镜头。

在本发明的一种可选实施例中，所述物体检测模块，具体用于根据物体的对象性调整各关键帧的分辨率，计算调整后各关键帧的梯度幅值；按照预设框的大小在各关键帧中取所述预设框内的像素点，送入训练完成的级联支持向量机计算得分，当所述得分大于分数阈值时，判断为检测到物体，并将该物体作为其所在关键帧的候选物体。

在本发明的一种可选实施例中，所述商品识别模块，具体用于预设多个类别的商品样本，并依据所述商品样本设计训练的网络结构；根据所述网络结构训练得到卷积神经网络模型；当所述各关键帧的候选物体与所述卷积神经网络模型中的商品样本一致时，将所述候选物体确定为其所在关键帧的商品，并将所述商品样本的类别作为所述商品的标签。

在本发明的一种可选实施例中，所述关键字映射模块，具体用于调取电商的商品标签；以所述各关键帧的商品的标签为关键字，将所述各关键帧的商品的标签映射到所述电商的商品标签，并作为所述各关键帧的商品标签。

在本发明实施例的如图7所示的一种可选示例中，所述商品推荐系统还包括：过滤模块606，用于所述关键字映射模块对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签之后，获取所述各关键帧的商品标签对应的分数，并依据所述商品标签对应的分数对所述各关键帧的商品标签进行过滤。

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种基于视频内容的商品推荐方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视频内容的商品推荐方法，其特征在于，包括：

对目标视频抽取关键帧；

根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；

通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；

对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；

获取所述各关键帧的商品标签对应的分数，并依据所述商品标签对应的分数对所述各关键帧的商品标签进行过滤；

将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

2.根据权利要求1所述的方法，其特征在于，所述对目标视频抽取关键帧包括：

对目标视频进行镜头检测，提取若干个镜头；

对每个镜头抽取关键帧，并将各镜头所抽取的关键帧作为所述目标视频的关键帧。

3.根据权利要求2所述的方法，其特征在于，所述对目标视频进行镜头检测，提取若干个镜头，包括：

提取所述目标视频各帧的颜色直方图特征；

根据所述各帧的颜色直方图特征计算相邻两帧的颜色直方图的相似性；

当所述相邻两帧的颜色直方图的相似性小于相似阈值时，将所述相邻两帧的边界点确定为镜头边界；

按照所述镜头边界提取镜头。

4.根据权利要求1所述的方法，其特征在于，所述根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体，包括：

根据物体的对象性调整各关键帧的分辨率，计算调整后各关键帧的梯度幅值；

按照预设框的大小在各关键帧中取所述预设框内的像素点，送入训练完成的级联支持向量机计算得分，当所述得分大于分数阈值时，判断为检测到物体，并将该物体作为其所在关键帧的候选物体。

5.根据权利要求1所述的方法，其特征在于，所述通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品，包括：

预设多个类别的商品样本，并依据所述商品样本设计训练的网络结构；

根据所述网络结构训练得到卷积神经网络模型；

当所述各关键帧的候选物体与所述卷积神经网络模型中的商品样本一致时，将所述候选物体确定为其所在关键帧的商品，并将所述商品样本的类别作为所述商品的标签。

6.根据权利要求5所述的方法，其特征在于，所述对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签，包括：

调取电商的商品标签；

以所述各关键帧的商品的标签为关键字，将所述各关键帧的商品的标签映射到所述电商的商品标签，并作为所述各关键帧的商品标签。

7.一种基于视频内容的商品推荐系统，其特征在于，包括：

关键帧抽取模块，用于对目标视频抽取关键帧；

物体检测模块，用于根据物体的对象性对各关键帧进行物体检测，将检测到的物体作为各关键帧的候选物体；

商品识别模块，用于通过卷积神经网络模型对所述各关键帧的候选物体进行商品识别，得到各关键帧的商品；

关键字映射模块，用于对所述各关键帧的商品进行关键字映射，得到对应的商品标签作为所述各关键帧的商品标签；

过滤模块，获取所述各关键帧的商品标签对应的分数，并依据所述商品标签对应的分数对所述各关键帧的商品标签进行过滤；

输出模块，用于将所述各关键帧的商品标签确定为所述目标视频的商品推荐信息，并进行输出。

8.根据权利要求7所述的系统，其特征在于，所述关键帧抽取模块包括：

镜头检测子模块，用于对目标视频进行镜头检测，提取若干个镜头；

关键帧子模块，用于对每个镜头抽取关键帧。

9.根据权利要求8所述的系统，其特征在于：

所述镜头检测子模块，具体用于提取所述目标视频各帧的颜色直方图特征；根据所述各帧的颜色直方图特征计算相邻两帧的颜色直方图的相似性；当所述相邻两帧的颜色直方图的相似性小于相似阈值时，将所述相邻两帧的边界点确定为镜头边界；按照所述镜头边界提取镜头。

10.根据权利要求8所述的系统，其特征在于：

所述物体检测模块，具体用于根据物体的对象性调整各关键帧的分辨率，计算调整后各关键帧的梯度幅值；按照预设框的大小在各关键帧中取所述预设框内的像素点，送入训练完成的级联支持向量机计算得分，当所述得分大于分数阈值时，判断为检测到物体，并将该物体作为其所在关键帧的候选物体。

11.根据权利要求7所述的系统，其特征在于：

所述商品识别模块，具体用于预设多个类别的商品样本，并依据所述商品样本设计训练的网络结构；根据所述网络结构训练得到卷积神经网络模型；当所述各关键帧的候选物体与所述卷积神经网络模型中的商品样本一致时，将所述候选物体确定为其所在关键帧的商品，并将所述商品样本的类别作为所述商品的标签。

12.根据权利要求7所述的系统，其特征在于：

所述关键字映射模块，具体用于调取电商的商品标签；以所述各关键帧的商品的标签为关键字，将所述各关键帧的商品的标签映射到所述电商的商品标签，并作为所述各关键帧的商品标签。