CN107087211A - 一种主持人镜头检测方法及装置 - Google Patents

一种主持人镜头检测方法及装置 Download PDF

Info

Publication number
CN107087211A
CN107087211A CN201710202164.6A CN201710202164A CN107087211A CN 107087211 A CN107087211 A CN 107087211A CN 201710202164 A CN201710202164 A CN 201710202164A CN 107087211 A CN107087211 A CN 107087211A
Authority
CN
China
Prior art keywords
frame
video
host
posture
camera lens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710202164.6A
Other languages
English (en)
Other versions
CN107087211B (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710202164.6A priority Critical patent/CN107087211B/zh
Publication of CN107087211A publication Critical patent/CN107087211A/zh
Application granted granted Critical
Publication of CN107087211B publication Critical patent/CN107087211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种主持人镜头检测方法及装置,其中,所述主持人镜头检测方法包括:获取包括多个视频帧的视频;按照视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;分别将每一个镜头的关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。相比较于现有的主持人镜头检测方法,通过本发明实施例主持人镜头检测方法及装置,可以实现简化主持人镜头检测过程、提高主持人镜头检测性能的目的。

Description

一种主持人镜头检测方法及装置
技术领域
本发明涉及视频处理技术领域,特别是涉及一种主持人镜头检测方法及装置。
背景技术
新闻视频中蕴含着大量的最新资讯信息,对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行拆分、上线,供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多,除卫视台外还存在各类地方台,如果需要对所有的新闻进行分割的话,需要耗费大量的人力进行切分。同时由于新闻的时效性,对于新闻视频的分割的速度要求也是十分严格的,所以给人工分割带来的更大的压力,新闻都是在某个时间(如中午12点)大量播出,为了保证时效性,需要在规定的时间内尽快将整个的新闻节目切割成独立新闻条目,而不能采用积压任务后期处理的方式进行生产。所以自动的新闻视频拆分就显得尤为重要。
通过对大量新闻节目的观察发现,新闻主持人在新闻开始和结束的位置总是以特定的方式出现,如双人同时出现;在播报每条新闻之前或者之后都会出现单个主持人的特写镜头,总结每条新闻或者铺垫新闻的内容。因此可以利用主持人在视频中出现的信息对视频进行拆分,主持人在视频中出现的信息为自动的新闻拆分算法提供了重要的线索。
现有的主持人镜头检测方法,是通过人为设计主持人特征(例如人脸检测和背景描述),提取这些特征、并根据这些特征检测主持人在视频中出现的信息。可以看出,现有的这种方法需要人为设计主持人特征,如此使得主持人检测过程复杂。
发明内容
本发明实施例的目的在于提供一种主持人镜头检测方法及装置,以简化检测过程。具体技术方案如下:
一方面,本发明实施例提供了一种主持人镜头检测方法,包括:
获取包括多个视频帧的视频;
按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;
分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,所述主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
可选的,所述根据多个训练样本,通过深度学习和神经网络模型得到的分类器,包括:
收集人工标记完成的多个训练样本,其中,所述训练样本包括已标记图像人物姿态类别的视频帧;
将多个训练样本,作为所述神经网络模型的输入,通过深度学习方法,训练得到所述主持人分类器。
可选的,所述分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头,包括:
统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别;
在所述镜头的图像人物姿态类别为主持人姿态类时,确定所述镜头为主持人镜头,其中,所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。
可选的,所述确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别,包括:
将每一个镜头的所述关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,所述图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类;
确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。
可选的,所述按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧,包括:
计算每一个视频帧的颜色直方图特征;
根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置;
根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,所述抽取关键帧间隔,根据所述镜头的开始位置、结束位置以及所述预设个数得到。
可选的,所述根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,包括:
在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在所述相邻视频帧之间进行镜头分割;
将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在所述当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在所述当前视频帧与所述第一视频帧之间进行镜头分割,其中,第一视频帧包括时域序列在所述当前视频帧之前的视频帧。
另一方面,本发明实施例还提供了一种主持人镜头检测装置,包括:
获取模块,用于获取包括多个视频帧的视频;
抽取关键帧模块,用于按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;
检测模块,用于分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,所述主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
可选的,所述检测模块包括:
收集子模块,用于收集人工标记完成的多个训练样本,其中,所述训练样本包括已标记图像人物姿态类别的视频帧;
训练子模块,用于将多个训练样本,作为所述神经网络模型的输入,通过深度学习方法,训练得到所述主持人分类器。
可选的,所述检测模块,包括:
第一确定子模块,用于统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别;
第二确定子模块,用于在所述镜头的图像人物姿态类别为主持人姿态类时,确定所述镜头为主持人镜头,其中,所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。
可选的,所述第一确定子模块,包括:
置信度单元,用于将每一个镜头的所述关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,所述图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类;
确定单元,用于确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。
可选的,所述抽取关键帧模块,包括:
计算子模块,用于计算每一个视频帧的颜色直方图特征;
划分子模块,用于根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置;
抽取子模块,用于根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,所述抽取关键帧间隔,根据所述镜头的开始位置、结束位置以及所述预设个数得到。
可选的,所述划分子模块,包括:
第一划分单元,用于在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在所述相邻视频帧之间进行镜头分割;
第二划分单元,用于将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在所述当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在所述当前视频帧与所述第一视频帧之间进行镜头分割,其中,第一视频帧包括时域序列在所述当前视频帧之前的视频帧。
本发明实施例提供的主持人镜头检测的方法及装置,可以按照视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取多个镜头的预设个数的关键帧;将每一个镜头的关键帧,输入至提前训练好的主持人分类器,得到每一个关键帧的图像类别。不需要人为设计、描述主持人特征,而是利用训练好的分类器得到每一个关键帧的图像类别,简化了主持人检测过程,提高主持人镜头检测的性能。同时,通过镜头的关键帧的图像类别得到每个镜头的图像类别,进而为视频自动拆条提供了有力证据。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例主持人镜头检测方法的流程图;
图2为本发明实施例主持人分类器中深度学习框架的示意图;
图3为本发明实施例主持人镜头检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过对于大量视频的观察发现,主持人的出现是一个重要的分割线索,为了更好地利用主持人对视频进行分割,本发明实施例提供了一种主持人镜头检测方法,在现有的主持人镜头检测的基础上,简化主持人镜头检测过程、提高检测性能。
图1为本发明实施例主持人镜头检测方法的流程图,参照图1对本发明实施例主持人镜头检测方法进行详细说明,包括:
步骤101,获取包括多个视频帧的视频。
为了检测视频中,哪些视频帧、哪些位置的视频帧是主持人镜头,首先需要获取视频。其中,视频可以是不同内容形式的视频。例如:经济类新闻视频、娱乐视频以及体育新闻视频等。
新闻视频中蕴含着大量的最新资讯信息,对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的对每日播出的整条新闻视频进行拆分、上线,供用户对其中感兴趣的每条新闻进行点击观看。通过对新闻视频中主持人镜头检测,进而根据主持人出现的信息对新闻视频进行拆分、上线,进而提供给用户,以使用户可以根据自己的兴趣,选择自己感兴趣的新闻观看。
步骤102,按照视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧。
在检测主持人镜头时,可以将全部的视频帧都进行检测,但是由于很多视频帧时间存在重复的信息,造成了很多不必要的计算,使得计算复杂度很高。所以一般情况下,都会采取措施去除冗余信息,进而减少计算量。
为了减少主持人镜头检测过程的计算量,可以将视频中相似的视频帧进行聚类,合并为一个镜头;并从中挑选出代表这个镜头内容的关键帧。通过检测关键帧是否是主持人镜头,实现检测整个视频中多个视频帧是否是主持人镜头。
镜头通常是在一个场景下拍摄的,所以一个镜头下的各视频帧会有相当多的重复信息。因此,通常选取能够描述镜头主要内容的视频帧作为关键帧,来简洁的表达镜头的信息。一个镜头可以有一个或多个关键帧,这取决于镜头内容的复杂程度。
视频中相似的视频帧,根据视频帧之间的相似度选取。其中,视频帧之间的相似度可以通过各个视频帧之间像素的平均距离或者各个视频帧的纹理信息相似性评价。
选取镜头的关键帧,一般去掉重复(或冗余)视频帧。当选取多个关键帧时,用于关键帧选取的准则,是以视频帧之间相似度作为衡量依据,每次寻找关键帧都保证各关键帧之间具有最小相似度,以使关键帧带有最大信息量。
步骤103,分别将每一个镜头的关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
将选取的每个镜头的关键帧,作为已训练完成的主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,即得到关键帧属于、按照关键帧中主持人出现的姿态、进行分类得到的类别中的哪一类。进而统计每个镜头的关键帧的图像人物姿态类别,最终得到该镜头是否是主持人镜头。根据上述选取镜头的关键帧的过程,可以看到,关键帧可以表示镜头的信息,所以可以通过关键帧的图像人物姿态类别,可以准确地检测镜头是否是主持人镜头。
本发明实施例主持人镜头检测方法,通过对视频进行镜头分割,选取每个镜头的关键帧;对于每个镜头的关键帧,利用训练完成的主持人分类器进行分类,得到的每个关键帧的图像人物姿态类别;然后根据每个镜头的关键帧的图像人物姿态类别,得到镜头的图像人物姿态类别,最终检测镜头是否是主持人镜头。本发明实施例主持人镜头检测方法,不依赖于人为设计的描述特征(例如人脸检测、背景描述),自动从大数据中学习区分特征,分类性能更好,使得主持人镜头检测过程更加简便,可以更加快速地实现主持人镜头的检测,同时提高检测性能。
需要重点说明的是,主持人分类器是提前已经训练完成的分类器,在需要检测关键帧的图像人物姿态类别时,直接将关键帧输入至该主持人分类器,就可以得到关键帧的图像人物姿态类别。
主持人分类器的训练:收集未标注的训练样本并进行人工标注,对于有标注类别的样本以及预先设定好的网络结构,进行网络训练的过程,其中,未标注的训练样本,是从大量的视频中选取的视频帧。在本发明实施例一种可选的实施例中,主持人分类器的训练过程包括:
首先,收集人工标记完成的多个训练样本,其中,训练样本包括已标记图像人物姿态类别的视频帧。
从不同频道、不同新闻节目的视频中抽取预设数量的视频帧;其中,预设数量可以根据实际需要进行设置,任何能够实现本发明实施例方案的视频帧的数量,均属于本发明实施例的保护范围,一般情况下是抽取几十万个视频帧作为训练样本。
对抽取出的这些视频帧进行人工标记,标记抽取出的每一个视频帧的图像人物姿态类别,其中,根据主持人在视频帧中出现的姿态,对视频帧进行划分,标记每一个视频帧的图像人物姿态类别。在实际应用中,视频的种类多种多样,图像人物姿态类别对应的也可以是多种多样的;但是因为本发明实施例只关注视频帧中是否有主持人、视频帧中主持人是以什么姿态出现,所以本发明实施例只针对主持人,对视频帧进行图像人物姿态类别的划分。
当然,针对主持人在视频帧中出现的姿态,不同的用户也可以划分得到不同的图像人物姿态类别,本发明实施例通过统计大量的新闻视频,最终将图像人物姿态类别定义为:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类。
人工将不同频道、不同新闻节目的视频中抽取的视频帧,分别分类、标记为双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类四个类别;并收集这些标记完成的视频帧,作为训练样本。
然后,将多个训练样本,作为神经网络模型的输入,通过深度学习方法,训练得到主持人分类器。
根据深度学习网络模型,训练主持人分类器。需要说明的是,通过深度学习框架:Caffe(Convolution Architecture For Feature Extraction,卷积神经网络框架)、Torch(大量机器学习算法支持的科学计算框架)、以及Theano(使用符号计算深度学习框架)等都可以完成训练主持人分类器的任务。本发明实施例不对使用的深度学习网络模型作限制,通过任意的深度学习网络模型,完成对主持人分类器的训练都在本发明实施例保护范围内。
在本发明实施例一种可实现方式中,因为Caffe深度学习框架的简单性、快速性以及开放性,本发明实施例利用Caffe训练主持人分类器,下面具体结合图2进行详细说明,图2为本发明实施例主持人分类器中深度学习框架的示意图。
利用Caffe开源的深度学习框架进行训练,具体训练过程包括:Caffe遵循了神经网络的一个简单假设——所有的计算都是以layer层的形式表示的,layer层做的事情就是获得一些数据,然后输出计算以后的结果。比如说卷积——就是输入一个图像,然后和这一层的参数做卷积,然后输出卷积的结果。每一个层级(layer)需要做两个计算:即前向传递时,一层一层输出,若输出层得到的结果与期望值有差别则进行反向传递,根据其误差运用梯度下降法来更新其权重及阈值,重复若干次,直到误差函数到达全局最小值。前向forward是从输入计算输出,然后反向backward是从上面给的梯度来计算相对于输入的梯度,只要这两个函数实现了以后,就可以把很多层连接成一个网络,如此就可以输入视频帧,计算需要的输出(例如视频帧的图像人物姿态类别)。
主持人分类器训练完成后,分别将每一个镜头的关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头,具体包括:
统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为镜头的图像人物姿态类别。
在镜头的图像人物姿态类别为主持人姿态类时,则确定镜头为主持人镜头,其中,主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。例如,在新闻联播开始时、两个新闻主持人坐姿同时出现的姿态,即为双人主持人坐姿类;娱乐新闻视频中,娱乐主持人,一个人站着播报节目结束出现的姿态,即为单人主持人站姿类。
每一个关键帧输入至主持人分类器,通过主持人分类器可以得到,每一个关键帧的图像人物姿态类别。统计每一个镜头中关键帧对应的各个图像人物姿态类别出现的次数,选取出现次数最多的图像人物姿态类别,为该镜头的图像人物姿态类别,如此则可确定镜头的图像人物姿态类别。
具体地,在本发明实施例一种可实现的实施方式中,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为镜头的图像人物姿态类别,包括:
将每一个镜头的关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类;
确定置信度最大时、对应的图像人物姿态类别是关键帧的图像人物姿态类别。
对于镜头检测后,每一个镜头获得的关键帧,输入到训练好的主持人分类器中,获得关键帧属于:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类四个类别的,每个类别对应的置信度概率输出P1,P2,P3,P4,选择其中的最大值对应的类别作为这个关键帧的图像人物姿态类别。例如:P1是(P1,P2,P3,P4)中的最大值,这个关键帧属于双人主持人坐姿类。
然后,判断该镜头的图像人物姿态类别是否是双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类这三种类别中的一种,如果是双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类这三种类别中的一种,则说明该镜头的图像人物姿态类别为主持人姿态类,即该镜头是主持人镜头;如果不是双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类这三种类别中的一种,则说明该镜头的图像人物姿态类别不是主持人姿态类,即该镜头不是主持人镜头,如此对所有镜头都进行判断、检测,就可以完成对主持人镜头的检测。
通过本发明实施例更加简便、性能更好的主持人镜头检测方法,为新闻视频的拆条提供有力依据,实现新闻的自动拆条,节省人力。
通过上述内容可知,为了减少主持人镜头检测过程的计算量,可以将视频中相似的视频帧进行聚类,合并为一个镜头;并从中挑选出代表这个镜头内容的关键帧。通过检测关键帧是否是主持人镜头,实现检测整个视频中多个视频帧是否是主持人镜头。在本发明实施例一种可选的实施例中,按照视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧,包括:
第一步,计算每一个视频帧的颜色直方图特征。
对于输入的每一个视频帧,计算RGB空间的颜色直方图特征H[i]。
第二步,根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置。
具体的,根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,包括:
在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在相邻视频帧之间进行镜头分割。
将相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在当前视频帧与第一视频帧之间进行镜头分割,其中,第一视频帧包括时域序列在当前视频帧之前的视频帧。
计算时域相邻视频帧的颜色直方图特征之间的欧式距离,如果该欧式距离大于预先设定的阈值Th1,则认为镜头发生了切变,在该相邻视频帧之间进行镜头分割,记录开始位置s和结束位置e之间的所有视频帧为一个镜头;同时,将相邻视频帧中、时域序列在前的视频帧作为当前视频帧,计算当前视频帧同其之前的n帧之间的颜色直方图特征的欧式距离,如果该欧式距离大于预先设定的阈值Th2,则认为在此处发生了镜头渐变,记录开始位置s和这个结束位置e之间的所有视频帧为一个镜头。如果没有符合上述条件,认为仍然在一个镜头内部,继续检测镜头分割点,在所有满足上述条件的视频帧之间进行镜头分割,完成镜头划分。
第三步,根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,抽取关键帧间隔,根据镜头的开始位置、结束位置以及预设个数得到的。
根据预先设定的帧数m,在镜头中抽取m帧作为关键帧,计算抽取视频帧的间隔gap=(e-s)/(m+1),从镜头开始以gap为间隔抽取视频帧,作为该镜头的关键帧,其中,s为该镜头的开始位置,e为该镜头的结束位置。
本发明实施例还提供了一种主持人镜头检测装置,图3为本发明实施例主持人镜头检测装置的结构示意图,参照图3对本发明实施例主持人镜头检测装置进行详细说明,包括:
获取模块301,用于获取包括多个视频帧的视频。
抽取关键帧模块302,用于按照视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧。
检测模块303,用于分别将每一个镜头的关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
本发明实施例主持人镜头检测装置,通过获取模块301、抽取关键帧模块302以及检测模块303,对视频进行镜头分割,选取每个镜头的关键帧;对于每个镜头的关键帧,利用训练完成的主持人分类器进行分类,得到的每个关键帧的图像人物姿态类别;然后根据每个镜头的关键帧的图像人物姿态类别,得到镜头的图像人物姿态类别,最终检测镜头是否是主持人镜头。本发明实施例主持人镜头检测方法,不依赖于人为设计的描述特征(例如人脸检测、背景描述),自动从大数据中学习区分特征,分类性能更好,使得主持人镜头检测过程更加简便,可以更加快速地实现主持人镜头的检测,同时提高检测性能。
可选的,本发明实施例中检测模块303包括:
收集子模块,用于收集人工标记完成的多个训练样本,其中,训练样本包括已标记图像人物姿态类别的视频帧。
训练子模块,用于将多个训练样本,作为神经网络模型的输入,通过深度学习方法,训练得到主持人分类器。
可选的,本发明实施例中检测模块303,包括:
第一确定子模块,用于统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为镜头的图像人物姿态类别。
第二确定子模块,用于在镜头的图像人物姿态类别为主持人姿态类时,确定镜头为主持人镜头,其中,主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。
可选的,本发明实施例中第一确定子模块,包括:
置信度单元,用于将每一个镜头的关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类。
确定单元,用于确定置信度最大时、对应的图像人物姿态类别是关键帧的图像人物姿态类别。
可选的,本发明实施例中抽取关键帧模块,包括:
计算子模块,用于计算每一个视频帧的颜色直方图特征。
划分子模块,用于根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置。
抽取子模块,用于根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,抽取关键帧间隔,根据镜头的开始位置、结束位置以及预设个数得到。
可选的,本发明实施例中划分子模块,包括:
第一划分单元,用于在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在相邻视频帧之间进行镜头分割。
第二划分单元,用于将相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在当前视频帧与第一视频帧之间进行镜头分割,其中,第一视频帧包括时域序列在当前视频帧之前的视频帧。
需要说明的是,本发明实施例的装置是应用上述主持人镜头检测方法的装置,则上述主持人镜头检测方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种主持人镜头检测方法,其特征在于,包括:
获取包括多个视频帧的视频;
按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;
分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,所述主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
2.根据权利要求1所述的主持人镜头检测方法,其特征在于,所述根据多个训练样本,通过深度学习和神经网络模型得到的分类器,包括:
收集人工标记完成的多个训练样本,其中,所述训练样本包括已标记图像人物姿态类别的视频帧;
将多个训练样本,作为所述神经网络模型的输入,通过深度学习方法,训练得到所述主持人分类器。
3.根据权利要求1所述的主持人镜头检测方法,其特征在于,所述分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头,包括:
统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别;
在所述镜头的图像人物姿态类别为主持人姿态类时,确定所述镜头为主持人镜头,其中,所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。
4.根据权利要求3所述的主持人镜头检测方法,其特征在于,所述确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别,包括:
将每一个镜头的所述关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,所述图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类;
确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。
5.根据权利要求1所述的主持人镜头检测方法,其特征在于,所述按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧,包括:
计算每一个视频帧的颜色直方图特征;
根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置;
根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,所述抽取关键帧间隔,根据所述镜头的开始位置、结束位置以及所述预设个数得到。
6.根据权利要求5所述的主持人镜头检测方法,其特征在于,所述根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,包括:
在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在所述相邻视频帧之间进行镜头分割;
将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在所述当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在所述当前视频帧与所述第一视频帧之间进行镜头分割,其中,第一视频帧包括时域序列在所述当前视频帧之前的视频帧。
7.一种主持人镜头检测装置,其特征在于,包括:
获取模块,用于获取包括多个视频帧的视频;
抽取关键帧模块,用于按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;
检测模块,用于分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,所述主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
8.根据权利要求7所述的主持人镜头检测装置,其特征在于,所述检测模块包括:
收集子模块,用于收集人工标记完成的多个训练样本,其中,所述训练样本包括已标记图像人物姿态类别的视频帧;
训练子模块,用于将多个训练样本,作为所述神经网络模型的输入,通过深度学习方法,训练得到所述主持人分类器。
9.根据权利要求7所述的主持人镜头检测装置,其特征在于,所述检测模块,包括:
第一确定子模块,用于统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别;
第二确定子模块,用于在所述镜头的图像人物姿态类别为主持人姿态类时,确定所述镜头为主持人镜头,其中,所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。
10.根据权利要求9所述的主持人镜头检测装置,其特征在于,所述第一确定子模块,包括:
置信度单元,用于将每一个镜头的所述关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,所述图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类;
确定单元,用于确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。
11.根据权利要求7所述的主持人镜头检测装置,其特征在于,所述抽取关键帧模块,包括:
计算子模块,用于计算每一个视频帧的颜色直方图特征;
划分子模块,用于根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置;
抽取子模块,用于根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,所述抽取关键帧间隔,根据所述镜头的开始位置、结束位置以及所述预设个数得到。
12.根据权利要求11所述的主持人镜头检测装置,其特征在于,所述划分子模块,包括:
第一划分单元,用于在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在所述相邻视频帧之间进行镜头分割;
第二划分单元,用于将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在所述当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在所述当前视频帧与所述第一视频帧之间进行镜头分割,其中,第一视频帧包括时域序列在所述当前视频帧之前的视频帧。
CN201710202164.6A 2017-03-30 2017-03-30 一种主持人镜头检测方法及装置 Active CN107087211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710202164.6A CN107087211B (zh) 2017-03-30 2017-03-30 一种主持人镜头检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710202164.6A CN107087211B (zh) 2017-03-30 2017-03-30 一种主持人镜头检测方法及装置

Publications (2)

Publication Number Publication Date
CN107087211A true CN107087211A (zh) 2017-08-22
CN107087211B CN107087211B (zh) 2020-12-11

Family

ID=59614257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710202164.6A Active CN107087211B (zh) 2017-03-30 2017-03-30 一种主持人镜头检测方法及装置

Country Status (1)

Country Link
CN (1) CN107087211B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798313A (zh) * 2017-11-22 2018-03-13 杨晓艳 一种人体姿态识别方法、装置、终端和存储介质
CN107864334A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种使用深度学习的智能镜头拍摄方法及系统
CN107977645A (zh) * 2017-12-19 2018-05-01 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
CN108093314A (zh) * 2017-12-19 2018-05-29 北京奇艺世纪科技有限公司 一种视频新闻拆分方法及装置
CN108537134A (zh) * 2018-03-16 2018-09-14 北京交通大学 一种视频语义场景分割及标注方法
CN110502995A (zh) * 2019-07-19 2019-11-26 南昌大学 基于细微面部动作识别的驾驶员打哈欠检测方法
CN110610500A (zh) * 2019-09-06 2019-12-24 北京信息科技大学 基于动态语义特征的新闻视频自适应拆条方法
CN110941594A (zh) * 2019-12-16 2020-03-31 北京奇艺世纪科技有限公司 一种视频文件的拆分方法、装置、电子设备及存储介质
CN111046825A (zh) * 2019-12-19 2020-04-21 杭州晨鹰军泰科技有限公司 人体姿态识别方法、装置、系统及计算机可读存储介质
CN111444819A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN111684460A (zh) * 2018-04-27 2020-09-18 上海趋视信息科技有限公司 检测人类对象的姿态的系统和方法
CN112016427A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 一种视频拆条方法和装置
CN112702632A (zh) * 2019-10-22 2021-04-23 中国移动通信集团吉林有限公司 直播节目注入方法、装置、系统、存储介质和计算机设备
CN116405745A (zh) * 2023-06-09 2023-07-07 深圳市信润富联数字科技有限公司 视频信息的提取方法、装置、终端设备及计算机介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662046A (zh) * 2004-02-28 2005-08-31 三星电子株式会社 用于确定主持人镜头的装置和方法
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN101790049A (zh) * 2010-02-25 2010-07-28 深圳市茁壮网络股份有限公司 一种新闻节目视频分段方法及系统
CN102682302A (zh) * 2012-03-12 2012-09-19 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN105718871A (zh) * 2016-01-18 2016-06-29 成都索贝数码科技股份有限公司 一种基于统计的视频主持人识别方法
US20170083770A1 (en) * 2014-12-19 2017-03-23 Amazon Technologies, Inc. Video segmentation techniques

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662046A (zh) * 2004-02-28 2005-08-31 三星电子株式会社 用于确定主持人镜头的装置和方法
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN101790049A (zh) * 2010-02-25 2010-07-28 深圳市茁壮网络股份有限公司 一种新闻节目视频分段方法及系统
CN102682302A (zh) * 2012-03-12 2012-09-19 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
US20170083770A1 (en) * 2014-12-19 2017-03-23 Amazon Technologies, Inc. Video segmentation techniques
CN105718871A (zh) * 2016-01-18 2016-06-29 成都索贝数码科技股份有限公司 一种基于统计的视频主持人识别方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107864334A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种使用深度学习的智能镜头拍摄方法及系统
CN107798313A (zh) * 2017-11-22 2018-03-13 杨晓艳 一种人体姿态识别方法、装置、终端和存储介质
CN107977645A (zh) * 2017-12-19 2018-05-01 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
CN108093314A (zh) * 2017-12-19 2018-05-29 北京奇艺世纪科技有限公司 一种视频新闻拆分方法及装置
CN108093314B (zh) * 2017-12-19 2020-09-01 北京奇艺世纪科技有限公司 一种视频新闻拆分方法及装置
CN108537134B (zh) * 2018-03-16 2020-06-30 北京交通大学 一种视频语义场景分割及标注方法
CN108537134A (zh) * 2018-03-16 2018-09-14 北京交通大学 一种视频语义场景分割及标注方法
US11783635B2 (en) 2018-04-27 2023-10-10 Shanghai Truthvision Information Technology Co., Ltd. Systems and methods for detecting a posture of a human object
CN111684460B (zh) * 2018-04-27 2023-09-22 上海趋视信息科技有限公司 检测人类对象的姿态的系统和方法
CN111684460A (zh) * 2018-04-27 2020-09-18 上海趋视信息科技有限公司 检测人类对象的姿态的系统和方法
CN110502995A (zh) * 2019-07-19 2019-11-26 南昌大学 基于细微面部动作识别的驾驶员打哈欠检测方法
CN110502995B (zh) * 2019-07-19 2023-03-14 南昌大学 基于细微面部动作识别的驾驶员打哈欠检测方法
CN110610500A (zh) * 2019-09-06 2019-12-24 北京信息科技大学 基于动态语义特征的新闻视频自适应拆条方法
CN112702632B (zh) * 2019-10-22 2022-12-30 中国移动通信集团吉林有限公司 直播节目注入方法、装置、系统、存储介质和计算机设备
CN112702632A (zh) * 2019-10-22 2021-04-23 中国移动通信集团吉林有限公司 直播节目注入方法、装置、系统、存储介质和计算机设备
CN110941594B (zh) * 2019-12-16 2023-04-18 北京奇艺世纪科技有限公司 一种视频文件的拆分方法、装置、电子设备及存储介质
CN110941594A (zh) * 2019-12-16 2020-03-31 北京奇艺世纪科技有限公司 一种视频文件的拆分方法、装置、电子设备及存储介质
CN111046825A (zh) * 2019-12-19 2020-04-21 杭州晨鹰军泰科技有限公司 人体姿态识别方法、装置、系统及计算机可读存储介质
CN111444819A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN111444819B (zh) * 2020-03-24 2024-01-23 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN112016427A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 一种视频拆条方法和装置
CN116405745A (zh) * 2023-06-09 2023-07-07 深圳市信润富联数字科技有限公司 视频信息的提取方法、装置、终端设备及计算机介质

Also Published As

Publication number Publication date
CN107087211B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN107087211A (zh) 一种主持人镜头检测方法及装置
CN108600865B (zh) 一种基于超像素分割的视频摘要生成方法
CN109922373A (zh) 视频处理方法、装置及存储介质
CN106203498B (zh) 一种城市场景垃圾检测方法及系统
CN110298231B (zh) 一种用于篮球比赛视频进球判定的方法及系统
CN107180074A (zh) 一种视频分类方法及装置
CN110363131B (zh) 基于人体骨架的异常行为检测方法、系统及介质
CN102547141B (zh) 基于体育赛事视频的视频数据筛选方法及装置
CN106682108A (zh) 一种基于多模态卷积神经网络的视频检索方法
CN109697416A (zh) 一种视频数据处理方法和相关装置
CN108416314B (zh) 图片重要人脸检测方法
CN107220604A (zh) 一种基于视频的跌倒检测方法
CN100559880C (zh) 一种基于自适应st区的高清视频图像质量评价方法及装置
CN1586069A (zh) 在广播事件中对观众呈现徽标的识别和鉴定
CN108537157B (zh) 一种基于人工智能分类实现的视频场景判断方法与装置
CN109344688A (zh) 一种基于卷积神经网络的监控视频中人的自动识别方法
CN102595206B (zh) 基于体育赛事视频的数据同步方法及装置
CN106611160A (zh) 一种基于卷积神经网络的图像头发识别方法及其装置
CN106874827A (zh) 视频识别方法和装置
CN107862241A (zh) 一种基于明星识别的衣服时尚挖掘方法及视觉感知系统
CN108093314A (zh) 一种视频新闻拆分方法及装置
CN107798276A (zh) 一种人脸图像的年龄变换方法及装置
CN114100103B (zh) 一种基于关键点识别的跳绳计数检测系统及方法
CN106709438A (zh) 一种基于视频会议的人数统计方法
CN108540833A (zh) 一种基于镜头的电视广告识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant