CN104657468B

CN104657468B - 基于图像与文本的视频的快速分类方法

Info

Publication number: CN104657468B
Application number: CN201510075140.XA
Authority: CN
Inventors: 胡卫明; 付志康; 李兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2018-07-31
Anticipated expiration: 2035-02-12
Also published as: CN104657468A

Abstract

本发明提供一种基于图像与文本的视频的快速分类方法，所述方法包括：分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型，从而生成对应视频类型的图像训练集及文本训练集；在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型，以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型；分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测，并对两个预测结果执行或运算作为检出类型。本发明所述方法能够实现对视频的快速分类。

Description

基于图像与文本的视频的快速分类方法

技术领域

本发明涉及图像或视频检测领域，特别涉及一种基于图像与文本的视频的快速分类方法。

背景技术

随着互联网的快速发展，电影已经成为人们业余生活中不可缺少的一部分。目前为止、还没有对电影的种类做出统一的规定，电影的类型大体分为：恐怖、爱情、动作、喜剧、科幻等等。电影网站上都会人工给电影标上类型标签，所以、实现电影的快速分类是很有必要。

电影类型的检测基本上都是基于视频内容本身检测。视频内容的检测包括：镜头边界的检测、关键帧的检测和音频特征的检测。镜头边界检测的基本假设是相邻两个镜头的内容存在较大的差异。因此，可以通过测量相邻帧之间的差异程度来确定镜头的边界。镜头视频关键帧的特征包括:视频关键帧的颜色、对比度、明亮度、纹理等特征。通过提取这些特征对视频的关键帧进行检测。音频特征主要有：时域特征、频域特征和声学感知特征等。

基于视频内容检测的问题有：需要的数据量大、检测视频较慢、在没有视频内容本身的情况下显然无法完成检测任务，同时准确率不是很高。

发明内容

本发明的第一个方面是提供能够对视频进行快速分类的基于图像与文本的视频的快速分类方法，包括：

分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型，从而生成对应视频类型的图像训练集及文本训练集；

在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型，以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型；

分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测，并对两个预测结果执行或运算作为检出类型。

本发明的有益效果为：

本发明基于图像与文本的视频的快速分类方法通过比较图像特征信息和文本特征信息，并通过或运算检测出视频的类型，能够实现根据少量的图像标引信息及文字标引信息对视频进行快速分类，而不需要获取视频进行检测，能够提高视频的分类效率。

附图说明

图1是本发明基于图像与文本的视频的快速分类方法实施例一的流程图；

图2是本发明基于图像与文本的视频的快速分类方法实施例一的原理图。

具体实施方式

图1是本发明基于图像与文本的视频的快速分类方法实施例一的流程图，图2是本发明基于图像与文本的视频的快速分类方法实施例一的原理图，如图1和图2所示，本发明基于图像与文本的视频的快速分类方法实施例一，包括：

S101、分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型，从而生成对应视频类型的图像训练集及文本训练集；

优选的，所述视频可以是电影，所述图像可以是电影海报，所述文本可以是电影的内容简介或电影标引文字等，此时只需很少的数据量即可实现检测，且能使后续的检测速度更快；具体的，在搜集中外视频网站上的电影常见类型时，确定常见的电影类型：恐怖片、爱情片、喜剧片和动作片；然后搜集尽可能多的这四种类型的电影的海报和剧情介绍，分别建立电影海报的图像训练集和电影剧情介绍的文本训练集；

S102、在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型，以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型；优选的，所述图像特征信息可以包括颜色情感特征、颜色和谐度特征、边缘特征、纹理特征、颜色变化特征和人脸的数量中的任意一个或其组合；优选的，利用得到的每个图像的特征信息及其对应的图像训练支持向量机得到图像预测模型，同理，利用得到的每个文本特征信息及其对应的标签训练支持向量机得到文本预测模型；优选的，所述图像特征信息包括颜色情感特征，所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色情感特征的提取，包括：

S1021、将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间和CIELCH颜色空间，根据公式(2)、(3)、和(4)计算活动性activity、热度heat、和重要性weight：

weight＝-1.8+0.45cos(h-10°)+0.04(100-L^*) (2)

heat＝-0.5+0.02(C^*)^1.07cos(h-50°) (3)

其中，(L^*,C^*,h^*)，(L^*,a^*,b^*)分别是颜色空间CIELCH和CIELAB的颜色分量；

再根据公式(1)计算颜色情感特征EI(x,y)：

优选的，所述图像特征信息包括颜色和谐度特征，所述在每个图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型包括颜色和谐度特征的提取，包括：

S1022、将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间，根据公式(5)～(16)计算色调因子H_H、亮度因子H_L、和饱和度因子H_C：

E_C＝0.5+0.5tanh(-2+0.5C_ab ^*) (5)

H_s＝0.08-0.14sin(h_ab+50°)-0.07sin(2h_ab+90°) (6)

H_SY＝E_C(H_S+E_Y) (8)

H_H＝H_SY1+H_SY2 (9)

L_sum＝L₁ ^*+L₂ ^* (10)

H_Lsum＝0.28+0.54tanh(-3.88+0.029ΔL_sum) (11)

ΔL＝|L^* ₁-L^* ₂| (12)

H_ΔL＝0.14+0.15tanh(-2+0.2ΔL) (13)

H_L＝H_Lsum+H_ΔL (14)

H_C＝0.04+0.53tanh(0.8-0.045ΔC) (16)

再根据公式(17)计算颜色和谐度特征CH以确定所述图像特征信息：

CH＝H_H+H_L+H_C (17)

其中，h_ab和C^* _ab分别表示CIELAB颜色空间中的色调和色饱和度，ΔH^* _ab和ΔC_ab ^*则分别表示在CIELAB颜色空间中的色调差值和色饱和度差值，L₁ ^*和L^* ₂分别是一个颜色对在CIELAB颜色空间中的亮度值，优选的，所述颜色和谐度特征可以为图像中每个像素和其四周8个像素平均值的和谐度值。

优选的，所述图像特征信息包括边缘特征，所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型包括边缘特征的提取，包括：

S1023、将所述图像特征信息从RGB颜色空间转换到HSV颜色空间；

将所述HSV颜色空间中的V通道量用高斯滤波器进行滤波、再与边缘检测器进行掩膜，并计算超过阈值的像素的个数得到边缘特征。

其中，所述的边缘特征为每个像素的V通道经过高斯滤波器滤波后，得到的值与边缘检测器掩模后，统计值大于0.5的像素的个数。

优选的，所述图像特征信息包括纹理特征，所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型中的所述图像特征信息的提取包括纹理特征的提取，包括：

S1024、根据公式(18)计算纹理特征：

其中，(β，γ)为韦布分布参数；参数β表示的是图像的对比度；参数γ则表示的是图像的颗粒度；

需要说明的是，纹理特征与图像情感有密切的关系，所述的纹理特征包括图像块的符合韦布分布的宽度参数和峰值参数特征，场景的空间纹理特征符合韦布分布wb(y)，韦伯分布中的参数对图像纹理的空间结构具有很完整的表示x为随机变量，β值越大图像对比度越大，γ值越大表示图像颗粒度越小。

S1025、优选的，所述在每个文本训练集上分别提取所述文本特征信息进行训练从而创建文本预测模型、、以及所述提取待检测的视频的文本特征信息在所述文本预测模型上进行预测中的所述文本特征信息的提取包括：

S10251、对所述文本信息执行去标点符和去停留词的预处理；当所述文本信息包含英文时，还包括对所述文本信息进一步执行还原词型的处理；也即先去除文本中的标点符号、和停留词；当涉及的电影是外国电影，剧情介绍是使用英文文本，因此要对所述文本特征信息中的英文单词进行词型的还原；

S10252、从所述处理后的文本信息中提取特征词并建立词包模型；优选的，所述从处理后的文本信息中提取特征词并构建词包模型包括：

S10253、使用信息增益公式(21)、(22)、(23)获取所述文本信息中的特征词从而生成词包模型：

IG(T)＝H(C)-H(C|T) (21)

其中、P(C_i)表示类型C_i出现的概率，P(t)表示特征T出现的概率；P(C_i|t)表示出现T的时候，类型c_i出现的概率。

S10254、将所述词包模型变换到向量空间表示并在标签训练支持向量机上训练，从而创建文本预测模型。

S103、分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测，并对两个预测结果执行或运算作为检出类型。

优选的，当所述图像特征信息包括颜色情感特征时，相应的，所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型包括颜色情感特征的提取的子步骤S1031，过程与S1021中颜色情感特征的提取过程相似，不再赘述。

同理，优选的，当所述图像特征信息包括颜色和谐度特征时，相应的，所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色和谐度特征的提取的子步骤S1032，过程与S1022中颜色和谐度特征的提取过程相似，不再赘述；

优选的，当所述图像特征信息包括边缘特征时，相应的，所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括边缘特征的提取的子步骤S1033，过程与S1023中边缘特征的提取过程相似，不再赘述；

优选的，当所述图像特征信息包括纹理特征时，相应的，所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括纹理特征的提取的子步骤S1034，过程与S1024中纹理特征的提取过程相似，不再赘述；

优选的，相应的，所述提取待检测的视频的文本特征信息在所述文本预测模型上进行预测中的所述文本特征信息的提取包括子步骤S10351、S10352、S10353、S10354，过程与分别与S10251、S10252、S10253、S10254所给出的文本特征信息的提取过程相似，不再赘述；

优选的，分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测，并对两个预测结果执行或运算作为检出类型还包括：

S1036、根据图像预测模型对待检测的视频的图像特征信息进行预测得到结果Y₁；并根据文本预测模型对待检测的视频的文本信息进行预测得到结果Y₂；

S1037、判断所述两个预测结果Y₁和Y₂，当Y₁和Y₂为相同的视频类型时，将所述相同的视频类型作为检出类型，也即预测输出类型；

当Y₁和Y₂为不同的视频类型时，将所述Y₁作为检出类型。

需要说明的是，所述方法能够根据图像和文本等少量数据即实现视频分类，采用一台具有2.67G赫兹中央处理器和4G字节内存的计算机，并用C++语言编制所涉及到的程序，因此仅需使用少量的计算资源。

本发明基于图像与文本的视频的快速分类方法实施例一通过比较图像特征信息和文本特征信息，并通过或运算检测出视频的类型，能够实现根据少量的图像描述信息及内容简介等文本信息对视频进行快速分类，而不需要获取视频进行检测，能够提高视频的分类效率。

图1是本发明基于图像与文本的视频的快速分类方法实施例一的流程图，图2是本发明基于图像与文本的视频的快速分类方法实施例一的原理图，如图1和图2所示，本发明基于图像与文本的视频的快速分类方法实施例二中的S201与实施例一中的S101对应相同，不同之处在于S202与S203，其中，实施例二中的S2021～S2024分别与实施例一中的S1021～S1024对应相同，实施例二中S1027与实施例一中S1025对应相同且子步骤对应相同，但S202还包括：

优选的，所述图像特征信息包括颜色变化特征，相应的，所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型中的所述图像特征信息的提取包括颜色变化特征的提取，包括：

S2025、将所述图像特征信息从RGB颜色空间转换到Luv颜色空间，根据公式(19)和(20)计算颜色变化特征Δ_F:

Δ_F＝det(ρ) (20)

其中，Δ_F＝det(ρ)表示颜色变化特征，所述的颜色变化特征为图像在Luv空间、每个像素3个通道产生的协方差矩阵的行列式，Luv颜色空间具有空间统一性。

优选的，所述图像特征信息包括人脸的数量，相应的，所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型中的所述图像特征信息的提取包括人脸的数量的获取，包括：

S2026、采用Opencv自带的人脸检测模型对所述图像中人脸的数量进行检测。

举例来说，采用opencv自带的模型对海报中人脸的个数进行检测时，一般的，恐怖海报中没有正常的人脸，爱情海报中大多是两个人，喜剧海报中人脸个数大于两个，因而通过计算电影海报图像中人脸的个数，即所述提取待检测视频的图像中的人脸的个数可以用来表达不同电影的视频类型。

相应的，实施例二中S2031～S2034与实施例一中S1031～S1034对应相同且子步骤对应相同，实施例二中S2037与实施例一中S1035对应相同且子步骤对应相同，实施例二中S2038～S2039与实施例一中S1036～S1037对应相同，但S203还包括S2035和S2036：

优选的，当所述图像特征信息包括颜色变化特征时，相应的，所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色变化特征的提取的子步骤S2035，过程与S2025中颜色变化特征的提取过程相似，不再赘述；

优选的，当所述图像特征信息包括人脸的数量时，相应的，所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括人脸的数量的提取的子步骤S2036，过程与S2026中人脸的数量的提取过程相似，不再赘述；

本发明基于图像与文本的视频的快速分类方法实施二通过增加人脸数量检测和颜色变化特征检测，能加使更图像检测模型更加准确。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于图像与文本的视频的快速分类方法，其特征在于，包括：

分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型，从而生成对应视频类型的图像训练集及文本训练集；所述视频为网站电影，所述图像为网站电影海报，所述文本为网站电影的内容简介；

分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测，并对两个预测结果执行或运算作为检出类型；

其中，

所述图像特征信息包括颜色情感特征、颜色和谐度特征、边缘特征、纹理特征、颜色变化特征和人脸的数量中的任意一个或其组合；

若所述图像特征信息包括颜色情感特征，则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色情感特征的提取，包括：

将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间和CIELCH颜色空间，根据公式(2)、(3)、和(4)计算活动性activity、热度heat、和重要性weight：

weight＝-1.8+0.45cos(h^*-10°)+0.04(100-L^*) (2)

heat＝-0.5+0.02(C^*)^1.07cos(h^*-50°) (3)

其中，(L^*,C^*,h^*)，(L^*,a^*,b^*)分别是颜色空间CIELCH和CIELAB的颜色分量；(L^*,C^*,h^*)在颜色空间CIELCH里指明度值、饱和度值和色调角度值；(L^*,a^*,b^*)在颜色空间CIELAB里指明度值、红/绿值和黄/蓝值；

再根据公式(1)计算颜色情感特征EI(x,y)：

2.根据权利要求1所述的基于图像与文本的视频的快速分类方法，其特征在于，若所述图像特征信息包括颜色和谐度特征，则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色和谐度特征的提取，包括：

将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间，根据公式(5)～(16)计算色调因子H_H、亮度因子H_L和饱和度因子H_C：

E_c＝0.5+0.5tanh(-2+0.5C_ab ^*) (5)

H_s＝0.08-0.14sin(h_ab+50°)-0.07sin(2h_ab+90°) (6)

H_SY＝E_C(H_S+E_Y) (8)

H_H＝H_SY1+H_SY2 (9)

L_sum＝L₁ ^*+L₂ ^* (10)

H_Lsum＝0.28+0.54tanh(-3.88+0.029L_sum) (11)

ΔL＝|L^* ₁-L^* ₂| (12)

H_ΔL＝0.14+0.15tanh(-2+0.2ΔL) (13)

H_L＝H_Lsum+H_ΔL (14)

H_C＝0.04+0.53tanh(0.8-0.045ΔC) (16)

CH＝H_H+H_L+H_C (17)；

其中，h_ab和C^* _ab分别表示CIELAB颜色空间中的色调和色饱和度，ΔH_ab ^*和ΔC_ab ^*则分别表示在CIELAB颜色空间中的色调差值和色饱和度差值，L₁ ^*和L₂ ^*分别是一个颜色对在CIELAB颜色空间中的亮度值；H_SY1和H_SY2分别表示一个颜色对经公式(5)-(8)运算所得的结果；ΔH_ab ^*和ΔC_ab ^*则分别表示像素的RGB值转换到CIELAB空间后的两种色调差值和色饱和度差值。

3.根据权利要求1所述的基于图像与文本的视频的快速分类方法，其特征在于，若所述图像特征信息包括边缘特征，则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括边缘特征的提取，包括：

将所述图像特征信息从RGB颜色空间转换到HSV颜色空间；

4.根据权利要求1所述的基于图像与文本的视频的快速分类方法，其特征在于，若所述图像特征信息包括纹理特征，则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括纹理特征的提取，包括：

根据公式(18)计算纹理特征：

其中，(β,γ)为韦布分布参数；参数β表示的是图像的对比度；参数γ则表示的是图像的颗粒度；x和y相等，都指像素的灰度值。

5.根据权利要求1所述的基于图像与文本的视频的快速分类方法，其特征在于，若所述图像特征信息包括颜色变化特征，则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色变化特征的提取，包括：

将所述图像特征信息从RGB颜色空间转换到Luv颜色空间，根据公式(19)和(20)计算颜色变化特征Δ_F：

Δ_F＝det(ρ) (20)

其中，Δ_F＝det(ρ)表示颜色变化特征；表示L和L的协方差矩阵，表示L和u的协方差矩阵，表示L和v的协方差矩阵；表示u和u的协方差矩阵；表示u和v的协方差矩阵；表示v和v的协方差矩阵。

6.根据权利要求1所述的基于图像与文本的视频的快速分类方法，其特征在于，所述在每个文本训练集上分别提取文本特征信息进行训练从而创建文本预测模型、以及所述提取待检测的视频的文本特征信息在所述文本预测模型上进行预测中的所述文本特征信息的提取包括：

对所述文本信息执行去标点符和去停留词的预处理；

从所述处理后的文本信息中提取特征词并建立词包模型；

将所述词包模型变换到向量空间表示并在标签训练支持向量机上训练，从而创建文本预测模型。

7.根据权利要求6所述的基于图像与文本的视频的快速分类方法，其特征在于，“从所述处理后的文本信息中提取特征词并构建词包模型”包括：

使用信息增益公式(21)、(22)、(23)获取所述文本信息中的特征词从而生成词包模型：

IG(T)＝H(C)-H(C|T) (21)

其中、P(C_i)表示类型C_i出现的概率，P(t)表示特征T出现的概率；P(C_i|t)表示出现T的时候，类型C_i出现的概率；IG(T)表示特征T的信息增益；H(C)表示信息熵；H(C|T)表示随机变量T给定的条件下随机变量C的条件熵；表示特征T不出现的概率，与P(t)相反；表示特征T不出现的时候，类型C_i出现的概率。

8.根据权利要求1所述的基于图像与文本的视频的快速分类方法，其特征在于，所述分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测，并对两个预测结果执行或运算作为检出类型包括：

根据图像预测模型对待检测的视频的图像特征信息进行预测得到结果Y₁；

根据文本预测模型对待检测的视频的文本信息进行预测得到结果Y₂；

判断所述两个预测结果Y₁和Y₂，当Y₁和Y₂为相同的视频类型时，将所述相同的视频类型作为检出类型；

当Y₁和Y₂为不同的视频类型时，将所述Y₁作为检出类型。