CN104657468B - 基于图像与文本的视频的快速分类方法 - Google Patents

基于图像与文本的视频的快速分类方法 Download PDF

Info

Publication number
CN104657468B
CN104657468B CN201510075140.XA CN201510075140A CN104657468B CN 104657468 B CN104657468 B CN 104657468B CN 201510075140 A CN201510075140 A CN 201510075140A CN 104657468 B CN104657468 B CN 104657468B
Authority
CN
China
Prior art keywords
image
text
video
color
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510075140.XA
Other languages
English (en)
Other versions
CN104657468A (zh
Inventor
胡卫明
付志康
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510075140.XA priority Critical patent/CN104657468B/zh
Publication of CN104657468A publication Critical patent/CN104657468A/zh
Application granted granted Critical
Publication of CN104657468B publication Critical patent/CN104657468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于图像与文本的视频的快速分类方法,所述方法包括:分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型,从而生成对应视频类型的图像训练集及文本训练集;在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型,以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型;分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型。本发明所述方法能够实现对视频的快速分类。

Description

基于图像与文本的视频的快速分类方法
技术领域
本发明涉及图像或视频检测领域,特别涉及一种基于图像与文本的视频的快速分类方法。
背景技术
随着互联网的快速发展,电影已经成为人们业余生活中不可缺少的一部分。目前为止、还没有对电影的种类做出统一的规定,电影的类型大体分为:恐怖、爱情、动作、喜剧、科幻等等。电影网站上都会人工给电影标上类型标签,所以、实现电影的快速分类是很有必要。
电影类型的检测基本上都是基于视频内容本身检测。视频内容的检测包括:镜头边界的检测、关键帧的检测和音频特征的检测。镜头边界检测的基本假设是相邻两个镜头的内容存在较大的差异。因此,可以通过测量相邻帧之间的差异程度来确定镜头的边界。镜头视频关键帧的特征包括:视频关键帧的颜色、对比度、明亮度、纹理等特征。通过提取这些特征对视频的关键帧进行检测。音频特征主要有:时域特征、频域特征和声学感知特征等。
基于视频内容检测的问题有:需要的数据量大、检测视频较慢、在没有视频内容本身的情况下显然无法完成检测任务,同时准确率不是很高。
发明内容
本发明的第一个方面是提供能够对视频进行快速分类的基于图像与文本的视频的快速分类方法,包括:
分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型,从而生成对应视频类型的图像训练集及文本训练集;
在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型,以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型;
分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型。
本发明的有益效果为:
本发明基于图像与文本的视频的快速分类方法通过比较图像特征信息和文本特征信息,并通过或运算检测出视频的类型,能够实现根据少量的图像标引信息及文字标引信息对视频进行快速分类,而不需要获取视频进行检测,能够提高视频的分类效率。
附图说明
图1是本发明基于图像与文本的视频的快速分类方法实施例一的流程图;
图2是本发明基于图像与文本的视频的快速分类方法实施例一的原理图。
具体实施方式
图1是本发明基于图像与文本的视频的快速分类方法实施例一的流程图,图2是本发明基于图像与文本的视频的快速分类方法实施例一的原理图,如图1和图2所示,本发明基于图像与文本的视频的快速分类方法实施例一,包括:
S101、分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型,从而生成对应视频类型的图像训练集及文本训练集;
优选的,所述视频可以是电影,所述图像可以是电影海报,所述文本可以是电影的内容简介或电影标引文字等,此时只需很少的数据量即可实现检测,且能使后续的检测速度更快;具体的,在搜集中外视频网站上的电影常见类型时,确定常见的电影类型:恐怖片、爱情片、喜剧片和动作片;然后搜集尽可能多的这四种类型的电影的海报和剧情介绍,分别建立电影海报的图像训练集和电影剧情介绍的文本训练集;
S102、在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型,以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型;优选的,所述图像特征信息可以包括颜色情感特征、颜色和谐度特征、边缘特征、纹理特征、颜色变化特征和人脸的数量中的任意一个或其组合;优选的,利用得到的每个图像的特征信息及其对应的图像训练支持向量机得到图像预测模型,同理,利用得到的每个文本特征信息及其对应的标签训练支持向量机得到文本预测模型;优选的,所述图像特征信息包括颜色情感特征,所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色情感特征的提取,包括:
S1021、将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间和CIELCH颜色空间,根据公式(2)、(3)、和(4)计算活动性activity、热度heat、和重要性weight:
weight=-1.8+0.45cos(h-10°)+0.04(100-L*) (2)
heat=-0.5+0.02(C*)1.07cos(h-50°) (3)
其中,(L*,C*,h*),(L*,a*,b*)分别是颜色空间CIELCH和CIELAB的颜色分量;
再根据公式(1)计算颜色情感特征EI(x,y):
优选的,所述图像特征信息包括颜色和谐度特征,所述在每个图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型包括颜色和谐度特征的提取,包括:
S1022、将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间,根据公式(5)~(16)计算色调因子HH、亮度因子HL、和饱和度因子HC
EC=0.5+0.5tanh(-2+0.5Cab *) (5)
Hs=0.08-0.14sin(hab+50°)-0.07sin(2hab+90°) (6)
HSY=EC(HS+EY) (8)
HH=HSY1+HSY2 (9)
Lsum=L1 *+L2 * (10)
HLsum=0.28+0.54tanh(-3.88+0.029ΔLsum) (11)
ΔL=|L* 1-L* 2| (12)
HΔL=0.14+0.15tanh(-2+0.2ΔL) (13)
HL=HLsum+HΔL (14)
HC=0.04+0.53tanh(0.8-0.045ΔC) (16)
再根据公式(17)计算颜色和谐度特征CH以确定所述图像特征信息:
CH=HH+HL+HC (17)
其中,hab和C* ab分别表示CIELAB颜色空间中的色调和色饱和度,ΔH* ab和ΔCab *则分别表示在CIELAB颜色空间中的色调差值和色饱和度差值,L1 *和L* 2分别是一个颜色对在CIELAB颜色空间中的亮度值,优选的,所述颜色和谐度特征可以为图像中每个像素和其四周8个像素平均值的和谐度值。
优选的,所述图像特征信息包括边缘特征,所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型包括边缘特征的提取,包括:
S1023、将所述图像特征信息从RGB颜色空间转换到HSV颜色空间;
将所述HSV颜色空间中的V通道量用高斯滤波器进行滤波、再与边缘检测器进行掩膜,并计算超过阈值的像素的个数得到边缘特征。
其中,所述的边缘特征为每个像素的V通道经过高斯滤波器滤波后,得到的值与边缘检测器掩模后,统计值大于0.5的像素的个数。
优选的,所述图像特征信息包括纹理特征,所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型中的所述图像特征信息的提取包括纹理特征的提取,包括:
S1024、根据公式(18)计算纹理特征:
其中,(β,γ)为韦布分布参数;参数β表示的是图像的对比度;参数γ则表示的是图像的颗粒度;
需要说明的是,纹理特征与图像情感有密切的关系,所述的纹理特征包括图像块的符合韦布分布的宽度参数和峰值参数特征,场景的空间纹理特征符合韦布分布wb(y),韦伯分布中的参数对图像纹理的空间结构具有很完整的表示x为随机变量,β值越大图像对比度越大,γ值越大表示图像颗粒度越小。
S1025、优选的,所述在每个文本训练集上分别提取所述文本特征信息进行训练从而创建文本预测模型、、以及所述提取待检测的视频的文本特征信息在所述文本预测模型上进行预测中的所述文本特征信息的提取包括:
S10251、对所述文本信息执行去标点符和去停留词的预处理;当所述文本信息包含英文时,还包括对所述文本信息进一步执行还原词型的处理;也即先去除文本中的标点符号、和停留词;当涉及的电影是外国电影,剧情介绍是使用英文文本,因此要对所述文本特征信息中的英文单词进行词型的还原;
S10252、从所述处理后的文本信息中提取特征词并建立词包模型;优选的,所述从处理后的文本信息中提取特征词并构建词包模型包括:
S10253、使用信息增益公式(21)、(22)、(23)获取所述文本信息中的特征词从而生成词包模型:
IG(T)=H(C)-H(C|T) (21)
其中、P(Ci)表示类型Ci出现的概率,P(t)表示特征T出现的概率;P(Ci|t)表示出现T的时候,类型ci出现的概率。
S10254、将所述词包模型变换到向量空间表示并在标签训练支持向量机上训练,从而创建文本预测模型。
S103、分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型。
优选的,当所述图像特征信息包括颜色情感特征时,相应的,所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型包括颜色情感特征的提取的子步骤S1031,过程与S1021中颜色情感特征的提取过程相似,不再赘述。
同理,优选的,当所述图像特征信息包括颜色和谐度特征时,相应的,所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色和谐度特征的提取的子步骤S1032,过程与S1022中颜色和谐度特征的提取过程相似,不再赘述;
优选的,当所述图像特征信息包括边缘特征时,相应的,所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括边缘特征的提取的子步骤S1033,过程与S1023中边缘特征的提取过程相似,不再赘述;
优选的,当所述图像特征信息包括纹理特征时,相应的,所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括纹理特征的提取的子步骤S1034,过程与S1024中纹理特征的提取过程相似,不再赘述;
优选的,相应的,所述提取待检测的视频的文本特征信息在所述文本预测模型上进行预测中的所述文本特征信息的提取包括子步骤S10351、S10352、S10353、S10354,过程与分别与S10251、S10252、S10253、S10254所给出的文本特征信息的提取过程相似,不再赘述;
优选的,分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型还包括:
S1036、根据图像预测模型对待检测的视频的图像特征信息进行预测得到结果Y1;并根据文本预测模型对待检测的视频的文本信息进行预测得到结果Y2
S1037、判断所述两个预测结果Y1和Y2,当Y1和Y2为相同的视频类型时,将所述相同的视频类型作为检出类型,也即预测输出类型;
当Y1和Y2为不同的视频类型时,将所述Y1作为检出类型。
需要说明的是,所述方法能够根据图像和文本等少量数据即实现视频分类,采用一台具有2.67G赫兹中央处理器和4G字节内存的计算机,并用C++语言编制所涉及到的程序,因此仅需使用少量的计算资源。
本发明基于图像与文本的视频的快速分类方法实施例一通过比较图像特征信息和文本特征信息,并通过或运算检测出视频的类型,能够实现根据少量的图像描述信息及内容简介等文本信息对视频进行快速分类,而不需要获取视频进行检测,能够提高视频的分类效率。
图1是本发明基于图像与文本的视频的快速分类方法实施例一的流程图,图2是本发明基于图像与文本的视频的快速分类方法实施例一的原理图,如图1和图2所示,本发明基于图像与文本的视频的快速分类方法实施例二中的S201与实施例一中的S101对应相同,不同之处在于S202与S203,其中,实施例二中的S2021~S2024分别与实施例一中的S1021~S1024对应相同,实施例二中S1027与实施例一中S1025对应相同且子步骤对应相同,但S202还包括:
优选的,所述图像特征信息包括颜色变化特征,相应的,所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型中的所述图像特征信息的提取包括颜色变化特征的提取,包括:
S2025、将所述图像特征信息从RGB颜色空间转换到Luv颜色空间,根据公式(19)和(20)计算颜色变化特征ΔF:
ΔF=det(ρ) (20)
其中,ΔF=det(ρ)表示颜色变化特征,所述的颜色变化特征为图像在Luv空间、每个像素3个通道产生的协方差矩阵的行列式,Luv颜色空间具有空间统一性。
优选的,所述图像特征信息包括人脸的数量,相应的,所述在每个图像训练集上分别提取所述图像特征信息进行训练从而创建图像预测模型中的所述图像特征信息的提取包括人脸的数量的获取,包括:
S2026、采用Opencv自带的人脸检测模型对所述图像中人脸的数量进行检测。
举例来说,采用opencv自带的模型对海报中人脸的个数进行检测时,一般的,恐怖海报中没有正常的人脸,爱情海报中大多是两个人,喜剧海报中人脸个数大于两个,因而通过计算电影海报图像中人脸的个数,即所述提取待检测视频的图像中的人脸的个数可以用来表达不同电影的视频类型。
相应的,实施例二中S2031~S2034与实施例一中S1031~S1034对应相同且子步骤对应相同,实施例二中S2037与实施例一中S1035对应相同且子步骤对应相同,实施例二中S2038~S2039与实施例一中S1036~S1037对应相同,但S203还包括S2035和S2036:
优选的,当所述图像特征信息包括颜色变化特征时,相应的,所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色变化特征的提取的子步骤S2035,过程与S2025中颜色变化特征的提取过程相似,不再赘述;
优选的,当所述图像特征信息包括人脸的数量时,相应的,所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括人脸的数量的提取的子步骤S2036,过程与S2026中人脸的数量的提取过程相似,不再赘述;
本发明基于图像与文本的视频的快速分类方法实施二通过增加人脸数量检测和颜色变化特征检测,能加使更图像检测模型更加准确。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于图像与文本的视频的快速分类方法,其特征在于,包括:
分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型,从而生成对应视频类型的图像训练集及文本训练集;所述视频为网站电影,所述图像为网站电影海报,所述文本为网站电影的内容简介;
在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型,以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型;
分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型;
其中,
所述图像特征信息包括颜色情感特征、颜色和谐度特征、边缘特征、纹理特征、颜色变化特征和人脸的数量中的任意一个或其组合;
若所述图像特征信息包括颜色情感特征,则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色情感特征的提取,包括:
将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间和CIELCH颜色空间,根据公式(2)、(3)、和(4)计算活动性activity、热度heat、和重要性weight:
weight=-1.8+0.45cos(h*-10°)+0.04(100-L*) (2)
heat=-0.5+0.02(C*)1.07cos(h*-50°) (3)
其中,(L*,C*,h*),(L*,a*,b*)分别是颜色空间CIELCH和CIELAB的颜色分量;(L*,C*,h*)在颜色空间CIELCH里指明度值、饱和度值和色调角度值;(L*,a*,b*)在颜色空间CIELAB里指明度值、红/绿值和黄/蓝值;
再根据公式(1)计算颜色情感特征EI(x,y):
2.根据权利要求1所述的基于图像与文本的视频的快速分类方法,其特征在于,若所述图像特征信息包括颜色和谐度特征,则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色和谐度特征的提取,包括:
将所述图像特征信息从RGB颜色空间转换到CIELAB颜色空间,根据公式(5)~(16)计算色调因子HH、亮度因子HL和饱和度因子HC
Ec=0.5+0.5tanh(-2+0.5Cab *) (5)
Hs=0.08-0.14sin(hab+50°)-0.07sin(2hab+90°) (6)
HSY=EC(HS+EY) (8)
HH=HSY1+HSY2 (9)
Lsum=L1 *+L2 * (10)
HLsum=0.28+0.54tanh(-3.88+0.029Lsum) (11)
ΔL=|L* 1-L* 2| (12)
HΔL=0.14+0.15tanh(-2+0.2ΔL) (13)
HL=HLsum+HΔL (14)
HC=0.04+0.53tanh(0.8-0.045ΔC) (16)
再根据公式(17)计算颜色和谐度特征CH以确定所述图像特征信息:
CH=HH+HL+HC (17);
其中,hab和C* ab分别表示CIELAB颜色空间中的色调和色饱和度,ΔHab *和ΔCab *则分别表示在CIELAB颜色空间中的色调差值和色饱和度差值,L1 *和L2 *分别是一个颜色对在CIELAB颜色空间中的亮度值;HSY1和HSY2分别表示一个颜色对经公式(5)-(8)运算所得的结果;ΔHab *和ΔCab *则分别表示像素的RGB值转换到CIELAB空间后的两种色调差值和色饱和度差值。
3.根据权利要求1所述的基于图像与文本的视频的快速分类方法,其特征在于,若所述图像特征信息包括边缘特征,则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括边缘特征的提取,包括:
将所述图像特征信息从RGB颜色空间转换到HSV颜色空间;
将所述HSV颜色空间中的V通道量用高斯滤波器进行滤波、再与边缘检测器进行掩膜,并计算超过阈值的像素的个数得到边缘特征。
4.根据权利要求1所述的基于图像与文本的视频的快速分类方法,其特征在于,若所述图像特征信息包括纹理特征,则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括纹理特征的提取,包括:
根据公式(18)计算纹理特征:
其中,(β,γ)为韦布分布参数;参数β表示的是图像的对比度;参数γ则表示的是图像的颗粒度;x和y相等,都指像素的灰度值。
5.根据权利要求1所述的基于图像与文本的视频的快速分类方法,其特征在于,若所述图像特征信息包括颜色变化特征,则所述在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型、以及所述提取待检测的视频的图像特征信息在所述图像预测模型上进行预测中的所述图像特征信息的提取包括颜色变化特征的提取,包括:
将所述图像特征信息从RGB颜色空间转换到Luv颜色空间,根据公式(19)和(20)计算颜色变化特征ΔF
ΔF=det(ρ) (20)
其中,ΔF=det(ρ)表示颜色变化特征;表示L和L的协方差矩阵,表示L和u的协方差矩阵,表示L和v的协方差矩阵;表示u和u的协方差矩阵;表示u和v的协方差矩阵;表示v和v的协方差矩阵。
6.根据权利要求1所述的基于图像与文本的视频的快速分类方法,其特征在于,所述在每个文本训练集上分别提取文本特征信息进行训练从而创建文本预测模型、以及所述提取待检测的视频的文本特征信息在所述文本预测模型上进行预测中的所述文本特征信息的提取包括:
对所述文本信息执行去标点符和去停留词的预处理;
从所述处理后的文本信息中提取特征词并建立词包模型;
将所述词包模型变换到向量空间表示并在标签训练支持向量机上训练,从而创建文本预测模型。
7.根据权利要求6所述的基于图像与文本的视频的快速分类方法,其特征在于,“从所述处理后的文本信息中提取特征词并构建词包模型”包括:
使用信息增益公式(21)、(22)、(23)获取所述文本信息中的特征词从而生成词包模型:
IG(T)=H(C)-H(C|T) (21)
其中、P(Ci)表示类型Ci出现的概率,P(t)表示特征T出现的概率;P(Ci|t)表示出现T的时候,类型Ci出现的概率;IG(T)表示特征T的信息增益;H(C)表示信息熵;H(C|T)表示随机变量T给定的条件下随机变量C的条件熵;表示特征T不出现的概率,与P(t)相反;表示特征T不出现的时候,类型Ci出现的概率。
8.根据权利要求1所述的基于图像与文本的视频的快速分类方法,其特征在于,所述分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型包括:
根据图像预测模型对待检测的视频的图像特征信息进行预测得到结果Y1
根据文本预测模型对待检测的视频的文本信息进行预测得到结果Y2
判断所述两个预测结果Y1和Y2,当Y1和Y2为相同的视频类型时,将所述相同的视频类型作为检出类型;
当Y1和Y2为不同的视频类型时,将所述Y1作为检出类型。
CN201510075140.XA 2015-02-12 2015-02-12 基于图像与文本的视频的快速分类方法 Active CN104657468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510075140.XA CN104657468B (zh) 2015-02-12 2015-02-12 基于图像与文本的视频的快速分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510075140.XA CN104657468B (zh) 2015-02-12 2015-02-12 基于图像与文本的视频的快速分类方法

Publications (2)

Publication Number Publication Date
CN104657468A CN104657468A (zh) 2015-05-27
CN104657468B true CN104657468B (zh) 2018-07-31

Family

ID=53248596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510075140.XA Active CN104657468B (zh) 2015-02-12 2015-02-12 基于图像与文本的视频的快速分类方法

Country Status (1)

Country Link
CN (1) CN104657468B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260398A (zh) * 2015-09-17 2016-01-20 中国科学院自动化研究所 一种基于海报与剧情介绍的电影类型的快速分类方法
CN105893927B (zh) * 2015-12-18 2020-06-23 乐视云计算有限公司 动画视频识别与编码方法及装置
CN107814021A (zh) * 2017-10-11 2018-03-20 侯翠侠 一种数字电影分类装置
CN110019939A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 视频热度预测方法、装置、终端设备及介质
CN108153908A (zh) * 2018-01-18 2018-06-12 逄泽沐风 电影海报分析方法与系统
CN108650524B (zh) * 2018-05-23 2022-08-16 腾讯科技(深圳)有限公司 视频封面生成方法、装置、计算机设备及存储介质
CN108898165B (zh) * 2018-06-12 2021-11-30 浙江大学 一种平面广告风格的识别方法
CN109151563A (zh) * 2018-08-31 2019-01-04 李叶 音频强度自动修改平台
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109903349B (zh) * 2019-01-28 2021-07-02 浙江工商大学 一种基于最大似然估计的颜色和谐度预测方法
CN110059225B (zh) * 2019-03-11 2022-02-15 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN110879974B (zh) * 2019-11-01 2020-10-13 北京微播易科技股份有限公司 一种视频分类方法和装置
CN112800919A (zh) * 2021-01-21 2021-05-14 百度在线网络技术(北京)有限公司 一种检测目标类型视频方法、装置、设备以及存储介质
CN114443896B (zh) * 2022-01-25 2023-09-15 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276417A (zh) * 2008-04-17 2008-10-01 上海交通大学 基于内容的互联网动画媒体垃圾信息过滤方法
CN102034096A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 基于自顶向下运动注意机制的视频事件识别方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103218608A (zh) * 2013-04-19 2013-07-24 中国科学院自动化研究所 一种网络暴力视频的识别方法
CN103473555A (zh) * 2013-08-26 2013-12-25 中国科学院自动化研究所 基于多视角多示例学习的恐怖视频场景识别方法
CN103714094A (zh) * 2012-10-09 2014-04-09 富士通株式会社 识别视频中的对象的设备和方法
CN103838835A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 一种网络敏感视频检测方法
CN103854014A (zh) * 2014-02-25 2014-06-11 中国科学院自动化研究所 一种基于上下文稀疏表示的恐怖视频识别方法及装置
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
CA2817103C (en) * 2010-11-11 2016-04-19 Google Inc. Learning tags for video annotation using latent subtags

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276417A (zh) * 2008-04-17 2008-10-01 上海交通大学 基于内容的互联网动画媒体垃圾信息过滤方法
CN102034096A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 基于自顶向下运动注意机制的视频事件识别方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103714094A (zh) * 2012-10-09 2014-04-09 富士通株式会社 识别视频中的对象的设备和方法
CN103218608A (zh) * 2013-04-19 2013-07-24 中国科学院自动化研究所 一种网络暴力视频的识别方法
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN103473555A (zh) * 2013-08-26 2013-12-25 中国科学院自动化研究所 基于多视角多示例学习的恐怖视频场景识别方法
CN103838835A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 一种网络敏感视频检测方法
CN103854014A (zh) * 2014-02-25 2014-06-11 中国科学院自动化研究所 一种基于上下文稀疏表示的恐怖视频识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Horror video scene recognition via multiple-instance learning;Jianchao Wang etal;《Acoustics, Speech and Signal Processing(ICASSP),2011 IEEE International Conference on》;20110527;第1325-1328页 *

Also Published As

Publication number Publication date
CN104657468A (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN104657468B (zh) 基于图像与文本的视频的快速分类方法
Gu et al. Deep dual-channel neural network for image-based smoke detection
Jin et al. A novel method of automatic plant species identification using sparse representation of leaf tooth features
Wu et al. Towards good practices for action video encoding
Narihira et al. Learning lightness from human judgement on relative reflectance
CN104572735B (zh) 一种图片标注词推荐方法及装置
CN106203461B (zh) 一种图像处理方法及装置
US20150278605A1 (en) Apparatus and method for managing representative video images
Liu et al. Attention-aware color theme extraction for fabric images
Niu et al. Image segmentation algorithm for disease detection of wheat leaves
Liang et al. AC-BLSTM: asymmetric convolutional bidirectional LSTM networks for text classification
CN107862692A (zh) 一种基于卷积神经网络的织带断痕缺陷检测方法
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN108460010A (zh) 一种基于情感分析的综合评分模型实现方法
CN104661037A (zh) 压缩图像量化表篡改的检测方法和系统
CN108280480A (zh) 一种基于残差共生概率的隐写图像载体安全性评价方法
CN106203448B (zh) 一种基于非线性尺度空间的场景分类方法
Shinahara et al. Serif or sans: Visual font analytics on book covers and online advertisements
Thyagharajan et al. Prevalent color extraction and indexing
CN105260398A (zh) 一种基于海报与剧情介绍的电影类型的快速分类方法
Amante et al. Fuzzy Color Space Segmentation to Identify the Same Dominant Colors as Users.
Wang et al. The research of ear identification based on improved algorithm of moment invariant
CN108022241B (zh) 一种面向水下图像集的一致性增强质量评价方法
Kumar et al. Classification of facial expressions based on transitions derived from third order neighborhood LBP
Solli et al. Color harmony for image indexing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant