CN104679779B - 视频分类的方法和装置 - Google Patents

视频分类的方法和装置 Download PDF

Info

Publication number
CN104679779B
CN104679779B CN201310631901.6A CN201310631901A CN104679779B CN 104679779 B CN104679779 B CN 104679779B CN 201310631901 A CN201310631901 A CN 201310631901A CN 104679779 B CN104679779 B CN 104679779B
Authority
CN
China
Prior art keywords
motion
video
phrase
videos
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310631901.6A
Other languages
English (en)
Other versions
CN104679779A (zh
Inventor
王利民
乔宇
黎伟
许春景
汤晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310631901.6A priority Critical patent/CN104679779B/zh
Priority to EP14866346.1A priority patent/EP3067831A4/en
Priority to PCT/CN2014/075510 priority patent/WO2015078134A1/zh
Publication of CN104679779A publication Critical patent/CN104679779A/zh
Priority to US15/167,388 priority patent/US10002296B2/en
Application granted granted Critical
Publication of CN104679779B publication Critical patent/CN104679779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种视频分类的方法和装置,涉及电子信息技术领域,能够提高视频分类的精确度。本发明的方法包括:按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合;利用所述运动原子集合和所述分段结果,生成能够表达复杂运动模式的运动短语集合,并生成基于所述运动短语集合的所述样本视频库中的视频的描述向量;利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。本发明适用于视频分类的场景中。

Description

视频分类的方法和装置
技术领域
本发明涉及电子信息技术领域,尤其涉及一种视频分类的方法和装置。
背景技术
随着视频数据的大量增加,用户逐个浏览视频,根据视频中人物的运动信息对视频进行分类需要耗费大量的时间和精力。虽然现在已经可以针对视频中一些如行走、跑步等简单的运动对视频进行分类,但是视频中的运动往往比较复杂,如体育活动等,针对简单运动对视频分类已经不能满足用户的需要了。为了能够针对这些视频中较为复杂且连续的运动对视频进行分类,现有技术从视频中提取一些局部区域的特征,如HOG(Histogram ofOriented Gradients,方向梯度直方图)等特征,根据这些特征进行类聚,形成运动原子,运动原子是具有某些共性的简单运动模式,之后计算待检测视频与这些运动原子的响应,将得到的响应组成向量,再根据得到的向量对待检测视频进行分类。
但是,视频中总是会出现具有较强时序关系的复杂运动,通过由运动原子得到的向量对待检测视频进行分类,难以保证分类的精确度。因此,在现有技术采用了另一种方法,将视频中的较复杂运动按时间分解成一些由简单运动组成的片段,每一个片段都对应一个时间点,在进行分类时,按照时间顺序将每一个片段与样本分解出的片段进行比对,得到每一个片段各自的比对得分,将这些比对得分进行加权求和得到最终的比对得分,根据最终的比对得分对视频进行分类。
但是,对于较连续且持续时间较长的复杂运动,现有技术很难将这样的复杂运动恰当的分解成由简单运动组成的片段,而且当视频中复杂运动的分解时间点设置不同时,与样本分解出的片段进行比对后得到的比对得分也不同,从而导致视频分类产生多个不同的结果,难以统一,视频分类的精确度也比较低。
发明内容
本发明的实施例提供一种视频分类的方法和装置,能够提高视频分类的精确度。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供一种视频分类的方法,包括:
按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合,所述样本视频库包括至少一个视频,所述运动原子集合中的运动原子是根据所述样本视频库中的视频生成的;
利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量;
利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
结合第一方面,在第一种可能的实现方式中,所述利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量,包括:
根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合,所述运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子;
筛选所述运动短语,并得到筛选结果;
根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量。
结合第一方面和第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述样本视频库包括至少二个视频,并且所述样本视频库中的视频的类型相同。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,还包括:
获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取一个运动短语的代表 性参数Rep(P1,c),A为运动原子,t为所述样本视频库中视频 中的时间点,σ为高斯分布的标准差,V为所述样本视频库中的视频,P1为所述一个运动短 语,r(V,P1)为所述一个运动短语P1对所述样本视频库中的视频的响应, ORi指计 算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应,S(P1,c)表示和所述 一个运动短语响应最大的所述样本视频库中的视频的集合,c为所述样本视频库中的视频 的类型的标识,Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特 征,Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分,N(t′|t,σ) 是指以t为均值,σ为标准差的高斯分布,Ω(t)指以t为中心的一个邻域;
获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的 覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet (P1,c), Tc为所述样本视频库中标识为c的视频分段得到的片段的数量,为所述运动短语集合, 且所述一个运动短语包含的所述运动原子所属视频类型的标识为c;
针对所述运动短语集合中的每一个运动短语,执行上述过程,并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值;
所述筛选所述运动短语,得到筛选结果,包括:
根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+△RepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果,m1为大于等于1的正整数;
从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子;
重复上述过程,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果,所述第n筛选结果为按照Rep(Pn,c)+△RepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子,n为大于等于1的正整数;
根据所述第1至第n筛选结果,生成所述描述向量。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述样本视频库包括至少二个视频,并且所述样本视频库包括至少二种类型的视频;所述根据筛选结果,生成与所述样本视频库中的视频对应的描述向量,包括:
根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合;
根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频,包括:
生成所述待检测视频对应的响应向量;
获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则,所述第一分类规则用于确定所述待检测视频的所属类型;
根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
结合第一方面和第一方面的第二种可能的实现方式,在第六种可能的实现方式中,所述利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频,包括:
生成所述待检测视频对应的响应向量。;
根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则,所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同;
检测所述待检测视频的响应向量是否符合所述第二分类规则;
若符合,则确定所述待检测视频与所述样本视频库中的视频的类型相同。
结合第一方面,在第七种可能的实现方式中,还包括:
获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语,所述主要运动短语为与所述至少一个分量对应的运动短语;
获取并显示所述待检测视频的关键帧,所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。
第二方面,本发明实施例提供一种视频分类的装置,包括:
第一生成模块,用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合,所述样本视频库包括至少一个视频,所述运动原子集合中的运动原子是根据所述样本视频库中的视频生成的;
第二生成模块,用于利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量;
分类模块,用于利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
结合第二方面,在第一种可能的实现方式中,所述第二生成模块,包括:
第一生成单元,用于根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合,所述运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子;
筛选单元,用于筛选所述运动短语,并得到筛选结果;
第二生成单元,用于根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量。
结合第二方面和第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述样本视频库包括至少二个视频,并且所述样本视频库中的视频的类型相同。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子;所述第二生成模块,还包括:
第一获取单元,用于获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取 一个运动短语的代表性参数Rep(P1,c),A为运动原子,t为所 述样本视频库中视频中的时间点,σ为高斯分布的标准差,V为所述样本视频库中的视频,P1 为所述一个运动短语,r(V,P1)为所述一个运动短语P1对所述样本视频库中的视频的响应,ORi指计 算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应,S(P1,c)表示和所述 一个运动短语响应最大的所述样本视频库中的视频的集合,c为所述样本视频库中的视频 的类型的标识,Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特 征,Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分,N(t′|t,σ) 是指以t为均值,σ为标准差的高斯分布,Ω(t)指以t为中心的一个邻域;
第二获取单元,用于获取所述一个运动短语的覆盖性参数并根据 所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参 数的贡献值△RepSet(P1,c),Tc为所述样本视频库中标识为c 的视频分段得到的片段的数量,为所述运动短语集合,且所述一个运动短语包含的所述 运动原子所属视频类型的标识为c;
针对所述运动短语集合中的每一个运动短语,执行上述过程,并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值;
所述筛选单元,包括:
筛选子单元,用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+△RepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果,m1为大于等于1的正整数;
添加子单元,用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子;
连续运行所述筛选子单元和所述添加子单元,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果,所述第n筛选结果为按照Rep(Pn,c)+△RepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子,n为大于等于1的正整数;
第一生成子单元,用于根据所述第1至第n筛选结果,生成所述描述向量。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述样本视频库包括至少二个视频,并且所述样本视频库包括至少二种类型的视频;
所述第二生成单元,包括:
集合子单元,用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合;
第二生成子单元,用于根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
结合第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述分类模块,包括:
第三生成单元,用于生成所述待检测视频对应的响应向量;
第三获取单元,用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则,所述第一分类规则用于确定所述待检测视频的所属类型;
第一分类单元,用于根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
结合第二方面和第二方面的第二种可能的实现方式,在第六种可能的实现方式中,所述分类模块,包括:
第四生成单元,用于生成所述待检测视频对应的响应向量;
第四获取单元,用于根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则,所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同;
检测单元,用于检测所述待检测视频的响应向量是否符合所述第二分类规则;
第二分类单元,用于当符合时,确定所述待检测视频与所述样本视频库中的视频的类型相同。
结合第二方面,在第七种可能的实现方式中,还包括:
获取模块,用于获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语,所述主要运动短语为与所述至少一个分量对应的运动短语;
显示模块,用于获取并显示所述待检测视频的关键帧,所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。
本发明实施例提供的一种视频分类的方法和装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的。而现有技术中根据运动原子得到待检测视频对应的向量的方案如图1a所示,由于运动原子不含有时间因素,无法体现连续复杂运动的运动原子之间的时序关系。而本发明根据运动原子,生成了运动短语,又根据运动短语生成了描述向量,运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子,用于描述连续复杂运动的运动原子之间的时序关系,例如:采用SVM分类器将待检测视频分类,本发明的方案如图1b所示。现有技术中将视频按时间分解成简单片段的方案,由于分解片段的时间设置点选择不同,会导致视频分类结果也不同,因此难以恰当的将连续复杂运动分解成简单运动组成的片段,从而导致分类结果不精确。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,以及根据运动短语生成的描述向量,从而能够对包括长时间的连续复杂运动的视频进行准确分类。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1a为现有技术中的一种视频分类的方法的举例流程图;
图1b为本发明提供的一种视频分类的方法的举例流程图;
图1c为本发明实施例提供的一种视频分类的方法的流程图;
图2为本发明实施例提供的一种视频分类的方法的一种具体实现方式的流程图;
图3a为本发明实施例提供的一种视频分类的方法的另一种具体实现方式的流程图;
图3b为本发明实施例提供的一种视频分类的方法的又一种具体实现方式的流程图;
图3c为本发明实施例提供的或操作和与操作的举例说明示意图;
图4a为本发明实施例提供的一种视频分类的方法的再一种具体实现方式的流程图;
图4b为本发明实施例提供的显示视频中的主要信息的举例说明示意图;
图5本发明实施例提供的一种视频分类的装置的结构示意图;
图6为本发明实施例提供的一种视频分类的装置的一种具体实现方式的结构示意图;
图7为本发明实施例提供的另一种视频分类的装置的结构示意图;
图8为本发明实施例提供的另一种视频分类的装置的一种具体实现方式的结构示意图;
图9为本发明实施例提供的另一种视频分类的装置的另一种具体实现方式的结构示意图;
图10为本发明实施例提供的另一种视频分类的装置的又一种具体实现方式的结构示意图;
图11为本发明实施例提供的又一种视频分类的装置的结构示意图;
图12为本发明实施例提供的一种视频分类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供的技术方案能够根据待检测视频中的运动信息,生成运动原子集合,最终得到样本视频库中的视频的描述向量,利用描述向量对待检测视频进行分类。在实际应用中,本方案可以将待检测视频粗略分为大类,如音乐视频、体育视频或舞蹈视频等;视频也可以将待检测视频详细分为小类,如短跑视频、跳高视频或跳远视频等。
本发明实施例提供了一种视频分类的方法,如图1c所示,包括:
101,按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合。
其中,样本视频库中的视频可以根据用户分类的需求来选择,比如:用户想要将待检测视频分为舞蹈视频、话剧视频、体育视频三大类型,那么可以选择舞蹈视频、话剧视频、体育视频这三大类型的视频放入样本视频库,作为样本视频库中的视频。再比如:用户想要将待检测的体育类视频分为跳高视频、游泳视频、体操视频三个较小的类型,那么可以选择跳高视频、游泳视频、体操视频三个较小的类型的视频放入样本视频库,作为样本视频库中的视频。
其中,样本视频库包括至少一个视频,运动原子集合中的运动原子是根据样本视 频库中的视频生成的。系统将样本视频库中的每个视频分成长度相等的视频片段,相邻视 频片段之间有一定的时间重叠,比如:视频片段1是视频中00:00:00-00:01:00的片段,与视 频片段1相邻的视频片段2是视频中00:00:30-00:01:30的片段。系统对每一个视频片段提 取低层视频特征,低层视频特征可以是HOG(Histogram of Oriented Gradients,方向梯度 直方图)特征、稠密轨迹特征等,得到低层视频特征的集合,低层视频特征的集合可以表示 为N为样本视频库中的视频数,k为每个视频分解成的视频片段数,hi是一个d 维的向量,d由具体的低层视频特征决定,根据公式 得到低层视频特征的相似度参数Sim(hi,hj),μ为所有向量两两之间欧式距离的均值, 表示hi的第K维分量。系统再根据低层视频特征的相似度参数,利用聚类算法形成运动原 子,聚类算法可以是近邻传播算法等。由运动原子得到运动原子集合。
102,利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量。
其中,运动原子集合中的运动原子按照一定时间顺序发生,可以形成运动短语,利用运动短语与样本视频库中的视频计算响应,将得到的响应的值组成样本视频库中的视频的描述向量,从而达到将视频的内容量化的目的。
103,利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
其中,利用样本视频库中的视频的描述向量,可以形成视频分类的规则,通过确定待检测视频与样本视频库中哪一种视频的类型相同,将待检测视频分类。
本发明实施例提供的一种视频分类的方法,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,以及根据运动短语生成的描述向量,从而能够对包括长时间的连续复杂运动的视频进行准确分类。
可选的,在图1所示的方案的基础上,本发明实施例还提供了一种视频分类的方法的具体方案,对图1中的102的执行过程进一步细化,其中,102可以具体实现为1021-1023,如图2所示,包括:
1021,根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合。
其中,运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子,运动短语可以表示运动原子之间的时序关系。
1022,筛选所述运动短语,并得到筛选结果。
其中,如果在运动原子集合中共有M个运动原子,样本视频库中的每个视频被分解为k个片段,那么可能生成2M×k个运动短语,大量的运动短语使得分类过程中的计算量增大,此时通过筛选出具有良好的代表性、覆盖性和判别性的运动短语作为筛选结果,进行之后的流程。
1023,根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量。
其中,利用筛选结果中的运动短语与样本视频库中的视频计算响应,将得到的响应的值组成样本视频库中的视频的描述向量,从而达到将视频的内容量化的目的。
本发明实施例提供的一种视频分类的方法,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,并对运动短语进行筛选,根据筛选结果,生成描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,并减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类。
可选的,在图2所示的方案的基础上,本发明实施例还提供了一种视频分类的方法的具体方案,在图2中的1022细化的执行过程中增加了1024-1025,并对图2中的1022和103的执行过程进一步细化,其中,1022可以具体实现为10221-10224,103可以具体实现为1031a-1034a,如图3a所示,包括:
1024,获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P1,c)。
其中,A为运动原子,t为样本视频库中视频中的时间 点,σ为高斯分布的标准差,V为样本视频库中的视频,P1为一个运动短语,而且这一个运动 短语P1包括运动原子集合中的1个运动原子;r(V,P1)为一个运动短语P1对样本视频库中的 视频的响应,表示运动短语中的或操作,或操作指计算样本视频库中的同种类型的视频与时 间位于邻近区域的运动短语中的运动原子单元的响应,并选取时间位于邻近区域的响应最 大的运动原子单元的响应值;表示运动短语中的与操作,与操作指在或操 作中选取的响应最大的运动原子单元的响应中取最小值,当这个最小值大于预设的阈值 时,表示运动短语与样本视频库中的视频匹配度高,例如:如图3c所示,OR为或操作,AND为 与操作,运动原子单元1与运动原子单元2的时间位于相邻区域,运动原子单元3与运动原子 单元4的时间位于相邻区域,对运动原子单元1与运动原子单元2进行或操作,运动原子单元 1的响应大于运动原子单元2的响应,选取运动原子单元1的响应值,同时对运动原子单元3 与运动原子单元3进行或操作,运动原子单元4的响应大于运动原子单元3的响应,选取运动 原子单元4的响应值,再对比运动原子单元1的响应与运动原子单元4的响应,选取运动原子 单元1的响应与运动原子单元4的响应中最小的响应值;S(P1,c)表示和一个运动短语响应 最大的样本视频库中的视频的集合,c为样本视频库中的视频的类型的标识,Φ(V,t′)为样 本视频库中视频中以t′开始的分段结果的视频特征,Score(Φ(V,t′),A)是将Φ(V,t′)输 入到支持向量机SVM分类器得到的得分,N(t′|t,σ)是指以t为均值,σ为标准差的高斯分布, Ω(t)指以t为中心的一个邻域。
其中,代表性参数要求运动短语对某一类型的视频有尽可能大的反应,表示该运动短语对于这一类型的视频具有代表性。
进一步的,运动短语P1对某一种类型的视频的判别性参数Dis(P1,c)表示运动短语对某一种类型的视频的代表性与其他类型的视频的差异,判别性参数越大,表示运动短语的判别性能越好,C表示样本视频库中的所有的视频的类型。
1025,获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P1,c)。
其中, Tc为样本视频库中标识为c的视频分段得到的片段的数量,为运动短语集合,且一个运 动短语包含的运动原子所属视频类型的标识为c。
其中,覆盖性要求筛选出的运动短语生成的运动短语集合能够尽量覆盖各个类型的视频。
其中,针对所述运动短语集合中的每一个运动短语执行104-105,并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值。
10221,根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+△RepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果。
其中,m1为大于等于1的正整数,m1可以是系统根据样本视频库中的视频的类型和数量设定的值,也可以由用户设定并输入。
10222,从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子。
其中,系统可以从运动原子集合中提取的运动原子加入第1筛选结果中的运动短语,运用遍历的方法生成具有2个运动原子的新的运动短语,在生成的新的运动短语中的这2个运动原子不在同一时间点发生。
10223,重复上述过程,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果。
其中,比如:运动短语集合中的运动短语包括运动原子集合中的1个运动原子,通过10221,得到第1筛选结果,再通过10222,得到具有2个运动原子的新的运动短语,再通过10221的过程对具有2个运动原子的新的运动短语进行筛选,得到第2筛选结果,再通过10222的过程得到具有3个运动原子的新的运动短语,以此类推,直至得到第n筛选结果。
其中,第n筛选结果为按照Rep(Pn,c)+△RepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子,n为大于等于1的正整数,n可以是系统根据样本视频库中的视频的类型和数量设定的值,也可以由用户设定并输入。
10224,根据所述第1至第n筛选结果,生成所述描述向量。
其中,第1筛选结果中的运动短语包括运动原子集合中的1个运动原子,第2筛选结果中的运动短语包括运动原子集合中的2个运动原子,以此类推,第n筛选结果中的运动短语包括运动原子集合中的n个运动原子。
其中,根据第1至第n筛选结果中的运动短语,生成筛选出的运动短语的集合,将筛选出的运动短语的集合作为基底,得到样本视频库中的视频的描述向量,样本视频库中的每一个视频都有对应的描述向量,描述向量中的每一个分量都是第1至第n筛选结果中的运动短语对样本视频库中的视频的响应。
1031a,生成所述待检测视频对应的响应向量。
其中,将10224中得到的筛选出的运动短语的集合作为基底,生成待检测视频对应的响应向量,响应向量中的分量是第1至第n筛选结果中的运动短语对待检测视频的响应。
1032a,根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则。
其中,样本视频库包括至少二个视频,并且样本视频库中的视频的类型相同。根据描述向量,可以生成第二分类规则,比如:使用SVM(Support Vector Machine,支持向量机)分类器进行分类,将得到的样本视频库中的视频的描述向量加入SVM分类器,SVM分类器会生成分类规则,分类规则可以是第二分类规则,第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。
1033a,检测所述待检测视频的响应向量是否符合所述第二分类规则。
其中,利用1032a中生成的第二分类规则检测待检测视频的响应向量,从而确定待检测视频是否与样本库中的视频的类型相同。
1034a,若符合,则确定所述待检测视频与所述样本视频库中的视频的类型相同。
其中,样本视频库包括至少二个视频,并且样本视频库中的视频的类型相同,如果待检测视频的响应向量符合第二分类规则,则确定待检测视频的类型与样本视频库中的视频的类型相同;如果待检测视频的响应向量不符合第二分类规则,则确定待检测视频的类型与样本视频库中的视频的类型不同,从而对检测视频进行分类。比如:样本视频库包括五个视频,且五个视频的类型均为舞蹈类视频,检测待检测视频的种类是否为舞蹈类,对待检测视频进行分类,可以将待检测视频分为舞蹈类视频和非舞蹈类视频两个类型。
本发明实施例提供的一种视频分类的方法,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,对每一个运动短语计算代表性参数和覆盖性参数的贡献值,首先生成包括一个运动原子的运动短语,根据代表性参数和覆盖性参数的贡献值,筛选出具有良好代表性和覆盖性的运动短语,得到第1筛选结果,再将一个运动原子加入第1筛选结果中的运动短语,得到新的运动短语,再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选,得到第2筛选结果,以此类推,重复该过程,直至得到第n筛选结果,根据第1至第n筛选结果,生成描述向量,利用描述向量,生成第二分类规则,得到待检测视频的响应向量,检测待检测视频的类型是否与样本视频库中的视频的类型相同,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类。
进一步的,在图2和图3a所示的方案的基础上,本发明实施例还提供了一种视频分类的方法的具体方案,对图2中的1023和103的执行过程进一步细化,其中,1023可以具体实现为10231-10232,103可以具体实现为1031b-1033b,如图3b所示,包括:
10231,根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合。
其中,样本视频库包括至少二个视频,并且样本视频库包括至少二种类型的视频。样本视频库中的每一个类型的视频都具有对应的第1至第n筛选结果,将样本视频库中不同类型的视频对应的第1至第n筛选结果合并,得到筛选结果集合,该筛选结果集合包括样本视频库中所有不同类型的视频对应的运动短语。
10232,根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
其中,将筛选结果集合中的运动短语作为基底,生成样本视频库中的视频对应的描述向量,样本视频库中的每一个视频都有对应的描述向量,描述向量中的每一个分量都是样本视频库中不同类型的视频对应的第1至第n筛选结果中的运动短语对样本视频库中的视频的响应。
1031b,生成所述待检测视频对应的响应向量。
其中,将10232中得到的筛选结果集合中的运动短语作为基底,生成待检测视频对应的响应向量,响应向量中的分量是样本视频库中不同类型的视频对应的第1至第n筛选结果中的运动短语对待检测视频的响应。
1032b,获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则。
其中,样本视频库包括至少二个视频,并且样本视频库包括至少二种类型的视频。根据样本视频库中各个不同类型的视频对应的所述描述向量,生成第一分类规则,比如:使用SVM(Support Vector Machine,支持向量机)分类器进行分类,将得到的样本视频库中不同类型的视频的描述向量加入SVM分类器,SVM分类器会生成分类规则,分类规则可以是第一分类规则,第一分类规则用于确定待检测视频的所属类型。
1033b,根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
其中,样本视频库包括至少二种类型的视频,第一分类规则用于确定待检测视频的所属类型,比如:样本视频库中包括三种类型的视频,分别是舞蹈类视频、体育类视频、杂技类视频,使用SVM(Support Vector Machine,支持向量机)分类器对待检测视频进行分类,在1032b中生成了第一分类规则,将1031b中得到的待检测视频的响应向量加入SVM分类器,根据第一分类规则,SVM分类器将待检测视频分为舞蹈类视频、体育类视频、杂技类视频三类中的其中一类。
本发明实施例提供的一种视频分类的方法,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,对每一个运动短语计算代表性参数和覆盖性参数的贡献值,首先生成包括一个运动原子的运动短语,根据代表性参数和覆盖性参数的贡献值,筛选出具有良好代表性和覆盖性的运动短语,得到第1筛选结果,再将一个运动原子加入第1筛选结果中的运动短语,得到新的运动短语,再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选,得到第2筛选结果,以此类推,重复该过程,直至得到第n筛选结果,将样本库中不同类型的视频对应的第1至第n筛选结果合并,得到筛选结果集合,并根据筛选结果集合生成描述向量,利用描述向量,生成第一分类规则,得到待检测视频的响应向量,确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,减少了生成描述向量的时间,并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。
可选的,在图2所示的方案的基础上,本发明实施例还提供了一种视频分类的方法的具体方案,增加了104-105,能够提取并显示待检测视频的主要信息,如图4a所示,包括:
104,获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语。
其中,待检测视频的响应向量中的分量可以是筛选出的运动短语对待检测视频的响应,分量越大,表示待检测视频与该分量对应的运动短语的匹配程度越高。
其中,主要运动短语为与至少一个分量对应的运动短语,比如:待检测视频的响应向量具有10个分量,将10个分量按照由大到小的顺序排列,获取前3个分量,并得到这前三个分量对应的运动短语,这前三个分量对应的运动短语就是主要运动短语。
105,获取并显示所述待检测视频的关键帧。
其中,关键帧与主要运动短语中的每个运动原子单元的响应最大,所以关键帧能够表示待检测视频中的最主要的信息,系统除了显示待检测视频的关键帧,还可以显示关键帧附近的帧,从而将待检测视频中的包括运动的主要内容呈现出来,例如:如图4b所示,在一个视频中的跳远动作的连续的9帧中,通过104-105的过程,可以得知关键帧为第2帧与第6帧,显示关键帧和关键帧附近的帧,所以显示第1-3帧和第5-7帧。
本发明实施例提供的一种视频分类的方法,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,并对运动短语进行筛选,根据筛选结果,生成描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的,还可以根据待检测视频的响应向量中的分量,得到主要运动短语,从而得到并显示关键帧。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,并减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类;同时,还可以利用待检测视频的响应向量中的分量,得到并显示待检测视频的关键帧,将待检测视频的主要内容清楚简要的呈现出来,使得用户能够快速了解视频的主要内容。
本发明实施例还提供了一种视频分类的装置200,如图5所示,包括:
第一生成模块201,用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合。
其中,样本视频库包括至少一个视频,运动原子集合中的运动原子是根据样本视频库中的视频生成的。
第二生成模块202,用于利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量。
分类模块203,用于利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,以及根据运动短语生成的描述向量,从而能够对包括长时间的连续复杂运动的视频进行准确分类。
可选的,如图6所示,所述第二生成模块202,包括:
第一生成单元2021,用于根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合。
其中,运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子。
可选的,样本视频库包括至少二个视频,并且样本视频库中的视频的类型相同。
筛选单元2022,用于筛选所述运动短语,并得到筛选结果。
第二生成单元2023,用于根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,并对运动短语进行筛选,根据筛选结果,生成描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,并减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类。
可选的,如图7所示,所述第二生成模块202,还包括:
第一获取单元2024,用于获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P1,c)。
其中,A为运动原子,t为样本视频库中视频中的时间 点,σ为高斯分布的标准差,V为样本视频库中的视频,P1为一个运动短语,r(V,P1)为一个运 动短语P1对样本视频库中的视频的响应, ORi指计算样本视频库中的视频与时 间相邻的运动原子单元的响应,S(P1,c)表示和一个运动短语响应最大的样本视频库中的 视频的集合,c为样本视频库中的视频的类型的标识,Φ(V,t′)为样本视频库中视频中以t′ 开始的分段结果的视频特征,Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类 器得到的得分,N(t′|t,σ)是指以t为均值,σ为标准差的高斯分布,Ω(t)指以t为中心的一 个邻域。
其中,运动短语集合中的运动短语包括一个运动原子集合中的运动原子。
第二获取单元2025,用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P1,c)。
其中, Tc为样本视频库中标识为c的视频分段得到的片段的数量,为运动短语集合,且一个运 动短语包含的运动原子所属视频类型的标识为c。
针对所述运动短语集合中的每一个运动短语,运行上述单元,并得到运动短语集合中的每一个运动短语的代表性参数和贡献值。
所述筛选单元2022,包括:
筛选子单元20221,用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+△RepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果,m1为大于等于1的正整数。
添加子单元20222,用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子。
连续运行所述筛选子单元和所述添加子单元,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果,所述第n筛选结果为按照Rep(Pn,c)+△RepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子,n为大于等于1的正整数。
第一生成子单元20223,用于根据所述第1至第n筛选结果,生成所述描述向量。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,对每一个运动短语计算代表性参数和覆盖性参数的贡献值,首先生成包括一个运动原子的运动短语,根据代表性参数和覆盖性参数的贡献值,筛选出具有良好代表性和覆盖性的运动短语,得到第1筛选结果,再将一个运动原子加入第1筛选结果中的运动短语,得到新的运动短语,再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选,得到第2筛选结果,以此类推,重复该过程,直至得到第n筛选结果,根据第1至第n筛选结果,生成描述向量,利用描述向量,生成第二分类规则,得到待检测视频的响应向量,检测待检测视频的类型是否与样本视频库中的视频的类型相同,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类。
可选的,如图8所示,所述第二生成单元2023,包括:
集合子单元20231,用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合。
其中,样本视频库包括至少二个视频,并且样本视频库包括至少二种类型的视频。
第二生成子单元20232,用于根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,对每一个运动短语计算代表性参数和覆盖性参数的贡献值,首先生成包括一个运动原子的运动短语,根据代表性参数和覆盖性参数的贡献值,筛选出具有良好代表性和覆盖性的运动短语,得到第1筛选结果,再将一个运动原子加入第1筛选结果中的运动短语,得到新的运动短语,再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选,得到第2筛选结果,以此类推,重复该过程,直至得到第n筛选结果,将样本库中不同类型的视频对应的第1至第n筛选结果合并,得到筛选结果集合,并根据筛选结果集合生成描述向量,利用描述向量,生成第一分类规则,得到待检测视频的响应向量,确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,减少了生成描述向量的时间,并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。
可选的,如图9所示,所述分类模块203,包括:
第三生成单元2031,用于生成所述待检测视频对应的响应向量。
第三获取单元2032,用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则。
其中,第一分类规则用于确定待检测视频的所属类型。
第一分类单元2033,用于根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,对每一个运动短语计算代表性参数和覆盖性参数的贡献值,首先生成包括一个运动原子的运动短语,根据代表性参数和覆盖性参数的贡献值,筛选出具有良好代表性和覆盖性的运动短语,得到第1筛选结果,再将一个运动原子加入第1筛选结果中的运动短语,得到新的运动短语,再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选,得到第2筛选结果,以此类推,重复该过程,直至得到第n筛选结果,将样本库中不同类型的视频对应的第1至第n筛选结果合并,得到筛选结果集合,并根据筛选结果集合生成描述向量,利用描述向量,生成第一分类规则,得到待检测视频的响应向量,确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,减少了生成描述向量的时间,并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。
可选的,如图10所示,所述分类模块203,包括:
第四生成单元2034,用于生成所述待检测视频对应的响应向量。
第四获取单元2035,用于根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则。
其中,第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。
检测单元2036,用于检测所述待检测视频的响应向量是否符合所述第二分类规则。
第二分类单元2037,用于当符合时,确定所述待检测视频与所述样本视频库中的视频的类型相同。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,对每一个运动短语计算代表性参数和覆盖性参数的贡献值,首先生成包括一个运动原子的运动短语,根据代表性参数和覆盖性参数的贡献值,筛选出具有良好代表性和覆盖性的运动短语,得到第1筛选结果,再将一个运动原子加入第1筛选结果中的运动短语,得到新的运动短语,再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选,得到第2筛选结果,以此类推,重复该过程,直至得到第n筛选结果,根据第1至第n筛选结果,生成描述向量,利用描述向量,生成第二分类规则,得到待检测视频的响应向量,检测待检测视频的类型是否与样本视频库中的视频的类型相同,从而达到视频分类的目的。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类。
可选的,如图11所示,所述装置200,还包括:
获取模块204,用于获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语。
其中,主要运动短语为与至少一个分量对应的运动短语。
显示模块205,用于获取并显示所述待检测视频的关键帧。
其中,关键帧与主要运动短语中的每个运动原子单元的响应最大。
本发明实施例提供的一种视频分类的装置,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,并对运动短语进行筛选,根据筛选结果,生成描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的,还可以根据待检测视频的响应向量中的分量,得到主要运动短语,从而得到并显示关键帧。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,并减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类;同时,还可以利用待检测视频的响应向量中的分量,得到并显示待检测视频的关键帧,将待检测视频的主要内容清楚简要的呈现出来,使得用户能够快速了解视频的主要内容。
本发明实施例还提供了一种视频分类系统300,如图12所示,包括:至少一个处理器301,例如CPU,至少一个通信总线302,存储器303,至少一个网络接口304或者用户接口305。通信总线302用于实现这些组件之间的连接通信。可选的,用户接口305包括显示器、键盘、鼠标、触摸屏等设备。存储器303可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
具体的,存储器303可以用于存储样本视频库和样本视频库中的视频的分段结果,还可以用于存储运动原子集合、样本视频库中的视频的描述向量和运动短语集合,还可以用于存储运动短语的筛选结果、样本视频库中的视频的类型和待检测视频的响应向量,还可以用于存储运动短语的代表性参数、覆盖性参数和覆盖性参数的贡献值等等,还可以用于存储生成的第一分类规则和第二分类规则。
具体的,处理器301可以用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合;以及,用于利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量;以及,用于利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
其中,样本视频库包括至少一个视频,运动原子集合中的运动原子是根据样本视频库中的视频生成的。
具体的,处理器301还可以用于根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合;以及,用于筛选所述运动短语,并得到筛选结果;以及,用于根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量。
其中,运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子。
具体的,处理器301还可以用于获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P1,c);以及,用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P1,c),以及,用于针对所述运动短语集合中的每一个运动短语,执行上述过程,并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值。
其中,A为运动原子,t为样本视频库中视频中的时间 点,σ为高斯分布的标准差,V为样本视频库中的视频,P1为一个运动短语,r(V,P1)为一个运 动短语P1对样本视频库中的视频的响应, ORi指计算样本视频库中的视频与时 间相邻的运动原子单元的响应,S(P1,c)表示和一个运动短语响应最大的样本视频库中的 视频的集合,c为样本视频库中的视频的类型的标识,Φ(V,t′)为样本视频库中视频中以t′ 开始的分段结果的视频特征,Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类 器得到的得分,N(t′|t,σ)是指以t为均值,σ为标准差的高斯分布,Ω(t)指以t为中心的一 个邻域。
其中,Tc为样本视频库 中标识为c的视频分段得到的片段的数量,为运动短语集合,且一个运动短语包含的运 动原子所属视频类型的标识为c。
其中,样本视频库包括至少二个视频,并且样本视频库中的视频的类型相同。运动短语集合中的运动短语包括一个运动原子集合中的运动原子。
具体的,处理器301还可以用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+△RepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果;以及,用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子;以及,用于重复上述过程,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果,所述第n筛选结果为按照Rep(Pn,c)+△RepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子;以及,用于根据所述第1至第n筛选结果,生成所述描述向量。
其中,m1为大于等于1的正整数,n为大于等于1的正整数。
具体的,处理器301还可以用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合;以及,用于根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
其中,样本视频库包括至少二个视频,并且样本视频库包括至少二种类型的视频。
具体的,处理器301还可以用于生成所述待检测视频对应的响应向量;以及,用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则;以及,用于根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
其中,第一分类规则用于确定待检测视频的所属类型。
具体的,处理器301还可以用于生成所述待检测视频对应的响应向量;以及,用于根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则;以及,用于检测所述待检测视频的响应向量是否符合所述第二分类规则;以及,用于当符合时,确定所述待检测视频与所述样本视频库中的视频的类型相同。
其中,第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。
具体的,处理器301还可以用于获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语;以及,用于获取并显示所述待检测视频的关键帧。
其中,主要运动短语为与至少一个分量对应的运动短语。关键帧与主要运动短语中的每个运动原子单元的响应最大。
本发明实施例提供的一种视频分类系统,能够将样本视频库中的视频分段,生成运动原子,并利用分段结果和运动原子生成样本视频库中的视频的运动短语,并对运动短语进行筛选,根据筛选结果,生成描述向量,利用描述向量,确定与样本视频库中视频类型相同的待检测视频,从而达到视频分类的目的,还可以根据待检测视频的响应向量中的分量,得到主要运动短语,从而得到并显示关键帧。与现有技术相比,本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量,使得描述向量以量化数据的形式反映出在连续复杂运动中,在时间点附近按照时序关系排列的运动原子,并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程,实现了在分类过程中既包括了视频的时间因素,也包括了用于表示视频中具体动作、内容的运动原子,并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语,对运动短语进行筛选,筛选结果中的运动短语具有良好的代表性、覆盖性和判别性,减少了生成描述向量需要的运动短语的数量,使得得到的描述向量更加精简,并减少了生成描述向量的时间,并且能够对包括长时间的连续复杂运动的视频进行准确分类;同时,还可以利用待检测视频的响应向量中的分量,得到并显示待检测视频的关键帧,将待检测视频的主要内容清楚简要的呈现出来,使得用户能够快速了解视频的主要内容。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (14)

1.一种视频分类的方法,其特征在于,包括:
按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合,所述样本视频库包括至少一个视频,所述运动原子集合中的运动原子是根据所述样本视频库中的视频生成的;
利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量,包括:根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合,所述运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子;筛选所述运动短语,并得到筛选结果;根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量;
利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
2.根据权利要求1所述的方法,其特征在于,所述样本视频库包括至少二个视频,并且所述样本视频库中的视频的类型相同。
3.根据权利要求2所述的视频分类的方法,其特征在于,所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子;所述方法还包括:
获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P1,c),A为运动原子,t为所述样本视频库中视频中的时间点,σ为高斯分布的标准差,V为所述样本视频库中的视频,P1为所述一个运动短语,r(V,P1)为所述一个运动短语P1对所述样本视频库中的视频的响应, ORi指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应,S(P1,c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合,c为所述样本视频库中的视频的类型的标识,Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特征,Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分,N(t′|t,σ)是指以t为均值,σ为标准差的高斯分布,Ω(t)指以t为中心的一个邻域;
获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值ΔRepSet(P1,c), Tc为所述样本视频库中标识为c的视频分段得到的片段的数量,为所述运动短语集合,且所述一个运动短语包含的所述运动原子所属视频类型的标识为c;
针对所述运动短语集合中的每一个运动短语,执行上述过程,并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值;
所述筛选所述运动短语,得到筛选结果,包括:
根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+ΔRepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果,m1为大于等于1的正整数;
从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子;
重复上述过程,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果,所述第n筛选结果为按照Rep(Pn,c)+ΔRepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子,n为大于等于1的正整数;
根据所述第1至第n筛选结果,生成所述描述向量。
4.根据权利要求3所述的视频分类的方法,其特征在于,所述样本视频库包括至少二个视频,并且所述样本视频库包括至少二种类型的视频;
所述根据筛选结果,生成与所述样本视频库中的视频对应的描述向量,包括:
根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合;
根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
5.根据权利要求4所述的方法,其特征在于,所述利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频,包括:
生成所述待检测视频对应的响应向量;
获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则,所述第一分类规则用于确定所述待检测视频的所属类型;
根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
6.根据权利要求1或2所述的视频分类的方法,其特征在于,所述利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频,包括:
生成所述待检测视频对应的响应向量;
根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则,所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同;
检测所述待检测视频的响应向量是否符合所述第二分类规则;
若符合,则确定所述待检测视频与所述样本视频库中的视频的类型相同。
7.根据权利要求1所述的视频分类的方法,其特征在于,还包括:
获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语,所述主要运动短语为与所述至少一个分量对应的运动短语;
获取并显示所述待检测视频的关键帧,所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。
8.一种视频分类的装置,其特征在于,包括:
第一生成模块,用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果,并生成运动原子集合,所述样本视频库包括至少一个视频,所述运动原子集合中的运动原子是根据所述样本视频库中的视频生成的;
第二生成模块,用于利用所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的描述向量,包括:第一生成单元,用于根据所述运动原子集合和所述分段结果,生成对应于所述样本视频库中的视频的运动短语集合,所述运动短语集合包括至少二个运动短语,一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子;筛选单元,用于筛选所述运动短语,并得到筛选结果;第二生成单元,用于根据所述筛选结果,生成与所述样本视频库中的视频对应的描述向量;
分类模块,用于利用所述描述向量,确定与所述样本视频库中的视频的类型相同的待检测视频。
9.根据权利要求8所述的装置,其特征在于,所述样本视频库包括至少二个视频,并且所述样本视频库中的视频的类型相同。
10.根据权利要求9所述的装置,其特征在于,所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子;所述第二生成模块,还包括:
第一获取单元,用于获取运动原子单元π(A,t,σ),并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P1,c),A为运动原子,t为所述样本视频库中视频中的时间点,σ为高斯分布的标准差,V为所述样本视频库中的视频,P1为所述一个运动短语,r(V,P1)为所述一个运动短语P1对所述样本视频库中的视频的响应, ORi指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应,S(P1,c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合,c为所述样本视频库中的视频的类型的标识,Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特征,Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分,N(t′|t,σ)是指以t为均值,σ为标准差的高斯分布,Ω(t)指以t为中心的一个邻域;
第二获取单元,用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值ΔRepSet(P1,c), Tc为所述样本视频库中标识为c的视频分段得到的片段的数量,为所述运动短语集合,且所述一个运动短语包含的所述运动原子所属视频类型的标识为c;
针对所述运动短语集合中的每一个运动短语,执行上述过程,并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值;
所述筛选单元,包括:
筛选子单元,用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值,按照Rep(P1,c)+ΔRepSet(P1,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序,并将前m1个运动短语作为第1筛选结果,m1为大于等于1的正整数;
添加子单元,用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语,使得所述第1筛选结果中的运动短语具有2个运动原子;
连续运行所述筛选子单元和所述添加子单元,直至得到第n-1筛选结果,再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语,使得所述第n-1筛选结果中的运动短语具有n个运动原子,再根据所述第n-1筛选结果中的运动短语得到第n筛选结果,所述第n筛选结果为按照Rep(Pn,c)+ΔRepSet(Pn,c)的值由大到小的顺序排列的前mn个运动短语,mn为大于等于1的正整数,第n筛选结果中的运动短语具有n个运动原子,n为大于等于1的正整数;
第一生成子单元,用于根据所述第1至第n筛选结果,生成所述描述向量。
11.根据权利要求10所述的视频分类的装置,其特征在于,所述样本视频库包括至少二个视频,并且所述样本视频库包括至少二种类型的视频;
所述第二生成单元,包括:
集合子单元,用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果,得到筛选结果集合;
第二生成子单元,用于根据所述筛选结果集合,生成所述样本视频库中的视频对应的描述向量。
12.根据权利要求11所述的装置,其特征在于,所述分类模块,包括:
第三生成单元,用于生成所述待检测视频对应的响应向量;
第三获取单元,用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量,并根据所述描述向量,得到第一分类规则,所述第一分类规则用于确定所述待检测视频的所属类型;
第一分类单元,用于根据所述第一分类规则和所述响应向量,确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同,并将所述待检测视频分类。
13.根据权利要求8或9所述的装置,其特征在于,所述分类模块,包括:
第四生成单元,用于生成所述待检测视频对应的响应向量;
第四获取单元,用于根据所述样本视频库中各个视频对应的描述向量,得到第二分类规则,所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同;
检测单元,用于检测所述待检测视频的响应向量是否符合所述第二分类规则;
第二分类单元,用于当符合时,确定所述待检测视频与所述样本视频库中的视频的类型相同。
14.根据权利要求8所述的装置,其特征在于,还包括:
获取模块,用于获取所述待检测视频的响应向量中的至少一个分量,并根据所述至少一个分量得到主要运动短语,所述主要运动短语为与所述至少一个分量对应的运动短语;
显示模块,用于获取并显示所述待检测视频的关键帧,所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。
CN201310631901.6A 2013-11-29 2013-11-29 视频分类的方法和装置 Active CN104679779B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310631901.6A CN104679779B (zh) 2013-11-29 2013-11-29 视频分类的方法和装置
EP14866346.1A EP3067831A4 (en) 2013-11-29 2014-04-16 VIDEO CLASSIFICATION PROCESS AND DEVICE
PCT/CN2014/075510 WO2015078134A1 (zh) 2013-11-29 2014-04-16 视频分类的方法和装置
US15/167,388 US10002296B2 (en) 2013-11-29 2016-05-27 Video classification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310631901.6A CN104679779B (zh) 2013-11-29 2013-11-29 视频分类的方法和装置

Publications (2)

Publication Number Publication Date
CN104679779A CN104679779A (zh) 2015-06-03
CN104679779B true CN104679779B (zh) 2019-02-01

Family

ID=53198281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310631901.6A Active CN104679779B (zh) 2013-11-29 2013-11-29 视频分类的方法和装置

Country Status (4)

Country Link
US (1) US10002296B2 (zh)
EP (1) EP3067831A4 (zh)
CN (1) CN104679779B (zh)
WO (1) WO2015078134A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108353213A (zh) * 2015-10-30 2018-07-31 惠普发展公司,有限责任合伙企业 视频内容概括和类选择
CN108288015B (zh) * 2017-01-10 2021-10-22 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN108154137B (zh) * 2018-01-18 2020-10-20 厦门美图之家科技有限公司 视频特征学习方法、装置、电子设备及可读存储介质
CN108769823B (zh) * 2018-05-28 2019-05-28 广州虎牙信息科技有限公司 直播间显示方法、装置、设备
CN110096605B (zh) * 2019-04-26 2021-06-04 北京迈格威科技有限公司 图像处理方法及装置、电子设备、存储介质
CN110163129B (zh) * 2019-05-08 2024-02-13 腾讯科技(深圳)有限公司 视频处理的方法、装置、电子设备及计算机可读存储介质
CN111125432B (zh) * 2019-12-25 2023-07-11 重庆能投渝新能源有限公司石壕煤矿 一种视频匹配方法及基于该方法的培训快速匹配系统
CN112100436B (zh) * 2020-09-29 2021-07-06 新东方教育科技集团有限公司 舞蹈片段识别方法、舞蹈片段识别装置和存储介质
TWI816072B (zh) * 2020-12-10 2023-09-21 晶睿通訊股份有限公司 物件識別方法及其監控系統
CN113362800B (zh) * 2021-06-02 2024-09-20 深圳云知声信息技术有限公司 用于语音合成语料库的建立方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
CN103177091A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 视频分类方法和系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965645B2 (en) * 2001-09-25 2005-11-15 Microsoft Corporation Content-based characterization of video frame sequences
KR100876280B1 (ko) * 2001-12-31 2008-12-26 주식회사 케이티 통계적 모양기술자 추출 장치 및 그 방법과 이를 이용한 동영상 색인 시스템
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
JP5553152B2 (ja) * 2010-04-09 2014-07-16 ソニー株式会社 画像処理装置および方法、並びにプログラム
CN101894276B (zh) * 2010-06-01 2012-09-05 中国科学院计算技术研究所 人体动作识别的训练方法和识别方法
CN102034096B (zh) * 2010-12-08 2013-03-06 中国科学院自动化研究所 基于自顶向下运动注意机制的视频事件识别方法
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US8699852B2 (en) * 2011-10-10 2014-04-15 Intellectual Ventures Fund 83 Llc Video concept classification using video similarity scores
US8867891B2 (en) * 2011-10-10 2014-10-21 Intellectual Ventures Fund 83 Llc Video concept classification using audio-visual grouplets
CN102663409B (zh) * 2012-02-28 2015-04-22 西安电子科技大学 一种基于hog-lbp描述的行人跟踪方法
CN102682302B (zh) * 2012-03-12 2014-03-26 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN103164694B (zh) * 2013-02-20 2016-06-01 上海交通大学 一种人体动作识别的方法
US9420331B2 (en) * 2014-07-07 2016-08-16 Google Inc. Method and system for categorizing detected motion events
US9224044B1 (en) * 2014-07-07 2015-12-29 Google Inc. Method and system for video zone monitoring

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
CN103177091A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 视频分类方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Language-Motivated Approaches to Action Recognition;Manavender R. Malgireddy et al.;《Journal of Machine Learning Research》;20130713;2189-2212
Motionlets: Mid-Level 3D Parts for Human Motion Recognition;LiMin Wang et al.;《IEEE Conference on Computer Vision and Pattern Recognition》;20130628;2674-2681

Also Published As

Publication number Publication date
US20160275355A1 (en) 2016-09-22
US10002296B2 (en) 2018-06-19
EP3067831A1 (en) 2016-09-14
WO2015078134A1 (zh) 2015-06-04
CN104679779A (zh) 2015-06-03
EP3067831A4 (en) 2016-12-07

Similar Documents

Publication Publication Date Title
CN104679779B (zh) 视频分类的方法和装置
Senst et al. Crowd violence detection using global motion-compensated lagrangian features and scale-sensitive video-level representation
US10528821B2 (en) Video segmentation techniques
Wang et al. Mining motion atoms and phrases for complex action recognition
Ma et al. A saliency prior context model for real-time object tracking
Cao et al. Self-adaptively weighted co-saliency detection via rank constraint
US8233676B2 (en) Real-time body segmentation system
Cheng et al. Efficient salient region detection with soft image abstraction
Meng et al. Object co-segmentation based on shortest path algorithm and saliency model
Du et al. Geometric hypergraph learning for visual tracking
Zhuge et al. Boundary-guided feature aggregation network for salient object detection
Li et al. Graph mode-based contextual kernels for robust SVM tracking
Haq et al. Video summarization techniques: a review
CN104036287A (zh) 一种基于人类运动显著轨迹的视频分类方法
Yi et al. Motion keypoint trajectory and covariance descriptor for human action recognition
Choi et al. A spatio-temporal pyramid matching for video retrieval
Zheng et al. Distinctive action sketch for human action recognition
Ming et al. Uniform local binary pattern based texture-edge feature for 3D human behavior recognition
Broadwell et al. Comparative K-Pop Choreography Analysis through Deep-Learning Pose Estimation across a Large Video Corpus.
Thiruthuvanathan et al. Multimodal emotional analysis through hierarchical video summarization and face tracking
Sowmyayani et al. STHARNet: Spatio-temporal human action recognition network in content based video retrieval
Mokayed et al. Anomaly detection in natural scene images based on enhanced fine-grained saliency and fuzzy logic
Ye et al. Saliency detection via similar image retrieval
Liu et al. A similarity alignment model for video copy segment matching
Sidiropoulos et al. Video tomographs and a base detector selection strategy for improving large-scale video concept detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant