CN106658169B - 一种基于深度学习多层次分割新闻视频的通用方法 - Google Patents
一种基于深度学习多层次分割新闻视频的通用方法 Download PDFInfo
- Publication number
- CN106658169B CN106658169B CN201611173080.6A CN201611173080A CN106658169B CN 106658169 B CN106658169 B CN 106658169B CN 201611173080 A CN201611173080 A CN 201611173080A CN 106658169 B CN106658169 B CN 106658169B
- Authority
- CN
- China
- Prior art keywords
- video
- news
- face
- logo
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000005266 casting Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 13
- 238000013434 data augmentation Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000003707 image sharpening Methods 0.000 claims description 2
- 241000894007 species Species 0.000 claims description 2
- 238000013461 design Methods 0.000 claims 1
- 238000009432 framing Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 3
- 238000007429 general method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002070 germicidal effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44004—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于深度学习多层次分割新闻视频的通用方法属于计算机人工智能和视频处理领域。本发明首先根据频道标识符(logo)及主持人脸的特点,进行针对性的方式处理,提高后续训练及检测效果;然后,考虑到多类新闻视频之间的差异性,本文率先提出预先进行新闻logo识别,将识别后的频道再输入至各自的人脸检测通道中依次识别的方法,进而提高了视频分割的通用性;最后,基于主持环节的共同点,本文提出采用人工特征及时间阈值的交叉检测进行精筛选,进而最终检测到各频道的主持环节,实现分割多类新闻视频的通用方法。本方法大大增强了分割各类新闻视频的普适性,进而更好地代替手动分割视频方法,极大地减少了人力成本,提高视频处理的效率。
Description
技术领域
本发明属于计算机人工智能和视频处理领域,具体来说,涉及到一种基于深度学习多层次分割新闻视频的通用方法。
背景技术
多媒体技术和互联网的发展给我们的日常生活带来了很多的视频资源,如何对海量的数字媒体进行有效的管理、组织、检索成为了图像处理领域里的热门研究课题。传统的方法一般是采用人工手段对视频各部分的段落进行手动的事件分割,并对分割后的事件加入人为描述信息,但是这样不仅耗时而且掺杂了许许多多人为的主观因素。事件分割作为视频标注检索的首要工作,起到了关键的作用。
新闻视频与人类的日常生活密切相关,新闻视频均由多段独立的新闻事件组成,事件与事件之间会存在主持人播报环节,由于新闻事件之间的复杂性,因此希望通过利用主持人播报环节找到事件之间的分割点。同一频道的主持人位置相对固定,但背景不同;然而在不同频道之间,主持人所处位置却也不同。因此,需要一种通用的方法来解决多类新闻频道之间的事件分割问题。
另外,深度学习作为当下热门人工智能方法在图像处理领域发挥了至关重要的作用,并且在图像处理领域也取得了傲人的成绩。因此,本方法主要是基于深度学习的多层次分割新闻视频的通用方法。
事件分割本身是视频标注检索的首要工作,面向多类频道的分割方法能够提高新闻视频分割的普适性。基于深度学习能够减少人工提取特征的局限性,进而提高了方法的准确率。本方法旨在面向多类新闻视频时能够起到自动分割新闻事件的作用,在保证准确率的前提下,提高时效性,节省人力成本,极大地提高工作效率。
发明内容
本发明首先根据频道标识符(logo)及主持人脸的特点,有别于统一的数据处理方式,对其进行针对性的方式处理,提高后续训练及检测效果;然后,考虑到多类新闻视频之间的差异性,本文率先提出预先进行新闻logo识别,将识别后的频道再输入至各自的人脸检测通道中依次识别的方法,进而提高了视频分割的通用性;最后,基于主持环节的共同点,本文提出采用人工特征及时间阈值的交叉检测进行精筛选,进而最终检测到各频道的主持环节,实现分割多类新闻视频的通用方法。本方法大大增强了分割各类新闻视频的普适性,进而更好地代替手动分割视频方法,极大地减少了人力成本,提高视频处理的效率。
本发明采用的技术方案是:
一种基于深度学习多层次分割新闻视频的通用方法,其特征在于,包括以下步骤:
1、训练数据的准备、扩张及预处理
本文应用两种不同的深度网络模型进行训练检测,需要大量的logo数据以及人脸数据进行训练,因此,需要针对不同的数据类型,进行不同方式的数据获取及扩张,增强训练模型的鲁棒性,提高检测效果。具体步骤如下:
(1.1)获取数据
首先将获取到的视频拆分成帧序列。
本文针对人脸图片的特性,提出一种提取人脸正样本和负样本的方法:设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动,当窗口与人脸的交集大于60%,视为正样本;本文为保证网络能够收敛,负样本之间需要存在共性,故提出只有当窗口与人脸交集在15%-30%之间,才将其视为负样本。
对于logo区域的提取,本文采用固定大小n*n的矩形窗口在视频logo处统一进行截取,得到logo的图片。
(1.2)数据扩张
由于训练深度网络需要大量的数据,仅将视频中获取到的图片用于训练远远不够。于是需要对训练数据进行不同方式的数据扩张,加大数据量,提高训练及检测效果。
针对新闻logo图片,我们对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像。本方法扩大了数据量,加快网络的收敛速度,从而提高了检测效果。
针对人脸图片,本文对(1.1)中得到的所有人脸样本进行不同比例的裁剪,然后放大到原来尺寸M*M,这样不仅会加强人脸的细节部分,还会将原来数据集扩大。针对主持人头部扭转的情况,本实验将所有人脸数据进行左右各45度方向的旋转,这样不仅增强了训练结果的旋转鲁棒性,又将数据扩大。
(1.3)预处理
本文将logo图片及人脸样本进行同样的去均值处理,求得所有图片像素矩阵的均值,作为中心,然后将输入图片减去均值,再做后续操作。去均值操作能够进一步提高训练效果。
(1.4)标注数据集
最后,将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注;对于得到的logo图片,根据需要检测的类别,对其进行标注。
2、两类深度网络的构建与训练
本文涉及到logo图片的识别及主持人脸的检测,所以根据图像类型的不同,大小的不同,特征的不同,采用两种不同的网络进行训练,以便得到最优的检测结果。
基于logo图片形状规则,大小与种类固定的特性,本文提出,对构建的网络,根据需要分割的视频类数O,预先设置输出为O类的分类器。相比之下,人脸的训练数据包含了更大的差异性,需要采用更加深度的网络进行训练,对于人脸网络的分类器,本文只需要对人脸做出检测(只要检测出是否存在人脸即可),故采用二分类的分类器。
综上所述,本文提出采用两种不同的深度网络进行训练与检测,具体内容如下:
(2.1)构建logo卷积神经网络。
卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器。
网络输入层的输入固定为n*n像素点大小。共由两层卷积层,两层Max池化层交替组合而成,然后连接全连接层,最后一层本文将根据频道种类数O,设计出输出为O类的softmax分类器进行分类。
(2.2)构建人脸卷积神经网络
对于人脸卷积神经网络输入层的输入固定为M*M像素点大小。人脸网络是由四层卷积层,两层Max池化层交替连接而成的,最后一层的卷积层选择用两个特征核进行全卷积滑动,输出两张全局特征图,进而输出至softmax二分类器中进行检测。
(2.3)训练卷积神经网络。
向两个构建完成的网络输入训练图片,根据卷积神经网络算法逐层计算后,得到输出值,反向传播,计算每个输出值与对应图片所属类别的误差,根据最小误差准则,修正网络每层的参数,将误差最小化,逐渐使训练的网络收敛,分别得到logo识别模型以及人脸检测模型用于以后的环节当中。
3、频道种类的识别
由于视频种类多样,想找到一种通用的方法对所有种类的视频进行事件的自动分割并不可能,因此需要大量的人力用于手动分割视频事件,这样不仅消耗了大量的人工成本,而且效率也不高。
不同新闻视频之间存在明显的差异性及共同点。新闻视频的差异性表现在不同频道的主持人位置及大小范围的各不相同。针对差异性,本文率先提出一种预先识别频道类别,根据频道类别再进行主持人播报场景检测的方法。另一方面新闻视频的共性表现在:1、所有新闻视频logo出现的位置相同;2、所有新闻均是播报环节与事件环节依次更替进行。针对这些共性,本文提出:1、根据每个新闻视频logo位置的不变性,即可统一对所有新闻视频固定位置范围进行logo的识别。2、只要识别出主持人播报环节即可将左右视频段视为事件环节,进而实现新闻视频的自动分割。
本方法利用(2.3)训练生成的logo识别模型对待检测视频的固定矩形框区域(也就是logo所在的n*n像素区域)进行频道类别的识别。logo卷积神经网络预先识别出频道类别,将识别后的频道输入至主持人脸检测环节当中,实现后续操作。本方法能够在保证分割效率的基础上,使分割变得更加便捷、高效,能够对更多频道的视频进行自动分割,提高分割视频方法的通用性。
4、主持人场景的检测及分割
本文根据频道识别后的视频特点进行进一步的场景检测。场景检测根据频道特性,分为初步检测和二次筛选两个部分。具体内容如下:
(4.1)基于深度网络的初步检测
不同频道的主持人位置截然不同,由于镜头的距离导致主持人脸的范围也大不相同,故本文基于这一新闻视频特性提出,根据频道类别O提前分别设定好O类固定位置及固定大小的人脸检测矩形框P1,P2,P3…….PO,采用(2.3)中训练得到的人脸检测模型对矩形框内的人脸进行检测。如果模型检测为人脸,则初步判断为主持播报场景,进而能够得到多个主持播报场景的候选视频段。
(4.2)基于颜色特征及时间阈值的交叉筛选
针对在同一视频中主持人穿着不变以及主持环节持续时间的规律,同时兼顾视频检测分割的实时性,旨在视频播放完成后便得到最终的分割片段,故本方法提出采用颜色特征和经过人为大量观察后所得到的时间阈值T,对(4.1)中初步筛选得到的候选视频段进行交叉筛选,在保证实时性的基础上,进一步剔除干扰视频段。交叉筛选内容具体如下:首先,依据O类新闻频道,在频道检测过程中为不同节目的主持人的衣着位置人工设定好固定大小的O类矩形框Q1,Q2,Q3……QO以将衣着范围确定;然后,对矩形框内区域进行RGB空间的颜色特征提取,计算每个候选视频段中的平均颜色特征向量;最后,利用欧式距离度量每个视频段的平均颜色特征向量与同一视频中的所有候选视频段的平均颜色特征向量之间的距离,经过大量实验总结观察得出,当距离小于阈值L且检测出的视频段持续时间均大于时间阈值T时,则最终确认该视频段为主持人播报场景。
最终,本文通过基于两类深度网络的初筛选以及基于颜色特征和时间阈值的交叉检测,自动筛选得到了最终的主持人播报场景。
(4.3)视频分割
基于新闻视频之间存在的共性,本文提出在检测出主持人播报场景后,可以对整个视频中主持播报场景时域两边的视频段自动判断为新闻事件场景,从而进行时域上的分割,最终实现了一种基于深度学习多层次分割新闻视频的通用方法。本方法能够达到非常高的准确率,并且对于多类频道的新闻有着很好的效果,不仅节省了手动分割视频场景的人力成本,而且还极大地提高了分割新闻视频场景的效率。
有益效果
1、本发明根据训练数据的不同及其特性,采用针对性的数据处理方法,能够为接下来的检测提供帮助,进而提高分割准确率。
2、本发明依据不同新闻之间的差异性以及共同性,对新闻视频进行先类别、后场景的分层次检测。这样远远提高了分割方法的普适性,大大降低了工作人员手动分割新闻视频的人工成本。
3、本发明首先采用两类深度网络进行初步筛选,然后结合传统特征与新闻视频的时长特性进行二次交叉筛选,进而实现新闻视频自动分割的通用方法。在保证时效性的基础上,能够进一步得到更准确的分割结果。
附图说明
图1是本发明的整体流程图;
具体实施方式
图1是本发明的整体流程图,下面为本发明的具体实施步骤:
1、训练数据的准备、扩张及预处理
为了使训练模型的收敛程度更好,更快,检测准确率更高,需要将现有的视频内数据进行针对性的数据扩张以及预处理提高检测效果。具体训练数据准备及数据预处理的步骤如下:
(1.1)初步获取logo及人脸训练数据
本实验选取九类新闻视频进行测试,分别为:CCTV1、CCTV2、CCTV3、CCTV4、CCTV5、CCTV9、CCTV13、上海电视台、辽宁电视台。将所有实验视频拆分成帧序列,然后获取每帧logo相同位置处的28*28的矩形区域。
本实验采取一种固定的提取人脸正样本和负样本的方法:设定一个60*60像素区域的滑动窗口,在图片上进行步长为20像素的滑动,当窗口与人脸的交集大于60%,视为正样本;当窗口与人脸交集在10%-30%之间,视为负样本。
(1.2)数据扩张
针对视频中的logo图片,本文采用锐化的方式对图片进行处理,另外将处理前的logo图像进行保留,这样不仅提高了训练的鲁棒性,还将原来的数据集扩大为原来的两倍,进而加快模型收敛。
针对人脸样本,本实验固定(1.1)中所有获得的正负人脸样本的左上角(0,0)点对其裁剪,剪裁为原图的70%、80%、90%三类大小,然后再放大为原来(60*60)的尺寸,这样不仅会加强人脸的细节部分,提高训练模型的鲁棒性,还会将原来数据扩大,加强模型的收敛,防止训练模型欠拟合;尽管播报环节的主持人所处位置不变,可是仍会有一些面部表情的变化,以及头部的扭转,故本实验将所有的人脸数据进行左右各45度方向的旋转,这样增强了训练数据的旋转鲁棒性,又将数据扩大。
(1.3)预处理
将得到的图像数据进行去均值处理,求得所有图片像素矩阵的均值作为中心,然后将输入图片减掉均值,再做后续的操作。去均值能够进一步提高检测效果。
(1.4)标注数据集
本文选择九类新闻视频作为试验对象,进而将得到的logo数据分为九类,依次为CCTV1、CCTV2、CCTV3、CCTV4、CCTV5、CCTV9、CCTV13、上海电视台、辽宁电视台;将得到的人脸数据分为正样本和负样本两类,最后,对所有数据进行标注。
2、两类深度网络的构建与训练
将步骤1中标注好的图像数据输入至卷积神经网络中进行训练,本文采用两种深度网络分别对多类logo图片以及人脸图片的所有正负样本进行训练。方法具体步骤如下:
(2.1)构建及训练logo的卷积神经网络。
将(1.4)中标注好的九类logo数据均作为训练数据,最后得到标注好的训练数据共18000张,每一类图片2000张左右。高斯随机初始化卷积神经网络参数。logo卷积神经网络的网络结构是:使用28*28像素的输入图片,两层卷积层,两层池化层,每批次训练图片为128张。第一层卷积层由6个5*5的卷积核构成,每个卷积核与输入图片的局部5*5区域相连进行滑动卷积,卷积公式如下:
其中σ为激活函数,Mat为图像矩阵,表示卷积运算,W表示卷积核,b表示偏移量。
其中激活函数公式如下(这里取Relu激活函数):
σ=Max(0,x) (2)
卷积核在图片上滑动,输出6张24*24的特征图,卷积核的目的是进行不同方式的卷积得到不同特性的特征。然后连接Max池化层进行降维,减少数据量,其中Max池化层的卷积核为2*2,滑动步长为2,得到6张12*12的特征图。第二层卷积层包含16个5*5的卷积核,故滑动卷积后得到16张8*8的特征图,再连接一层Max池化层,得到16张4*4的特征图。为了将局部特征融合在一起形成全局特征,获取更大的信息量,所以将得到的特征图输入至全连接层。网络的最后连接一个输出为九类的softmax分类器进行分类,根据上一层全连接层得到的结果,softmax分类器输出该图片属于某一类别的概率值,概率值最大者即为频道的正确类别。至此logo的卷积神经网络构建完毕。
训练过程:将每个图像训练数据通过卷积神经网络算法进行逐层计算后,得到输出值,计算获取每个输出值与对应的图像训练数据所属类别的误差。根据最小误差准则,通过所述误差进行逐层修正所述深度卷积神经网络分类器中各层参数。当误差逐渐下降趋于稳定,判断网络已经收敛,训练结束,生成检测模型。
(2.2)构建及训练人脸卷积神经网络。
卷积神经网络使用60*60像素的输入图片,每批次训练图片256张,共四层卷积层,第一层卷积层采用32个卷积核与原图5*5区域进行滑动卷积,得到32张56*56的特征图,然后连接一个2*2像素的Max池化层降低特征图的数据量,得到32张28*28的特征图,将其输入至第二层卷积层,采用64个卷积核与上一层特征图进行5*5区域滑动卷积,得到64张24*24的特征图,再次用Max池化层降低数据量,得到64张12*12的特征图。第三层卷积层,采用64个3*3的卷积特征核滑动卷积,得到64张10*10的特征图,将结果直接输入到第四层卷积层中。最后一层卷积层用2个卷积核分别进行一个10*10的全卷积,进而得到最后的两张特征图。将两张特征图输入至最后的softmax层进行检测。至此人脸卷积神经网络构建完成。训练过程依照(2.1)中训练过程进行。
3、频道种类的识别
由于新闻频道非常之多,故本实验选取九类新闻节目进行实验,对九类新闻视频的固定位置处的logo图片进行识别分类。首先,将待检测视频输入至logo检测算法中,根据新闻视频logo固定不变的特性,预先设定视频的左上角28*28区域处的矩形框,用训练生成的logo识别模型对矩形框进行识别分类,根据softmax层输出分类概率大小,概率最高的一类即为最终识别的频道类别。通过本文设计的新闻logo识别方法能够提前识别出频道的类别,将识别分类后的频道输入至对应频道的主持人脸检测通道中去。
正是因为本文提出的基于深度网络预先对频道logo进行识别,才能够提高识别效率,使分割方法变得更加便捷、通用,能够使其对更多种类的新闻视频进行分割,提高了分割视频方法的通用性。
4、主持人场景的检测及分割
(4.1)基于深度网络的初步检测
根据3中得到的识别结果,将识别分类后的九类视频输入至对应的主持播报检测通道中,不同的通道检测的区域不同,如:CCTV13中尽管主持背景复杂,但是根据场景特点,该节目的主持人的面部始终处于横坐标720<X<810,纵坐标170<Y<250之间。具体步骤如下:
首先,根据logo卷积神经网络的输出类别,将输出视频输入至对应类别的检测通道中;然后,每个通道依据各自频道主持人的位置及面部大小,提前设置该通道的矩形检测框,足以将主持人脸完全包围(如步骤3中识别出频道类别为CCTV13,则将其输入至CCTV13的主持播报环节检测当中,然后预先在CCTV13的检测通道中设置720<X<810,170<Y<250像素范围内,设置90*80尺寸的矩形框);最后,对输入通道后的视频矩形框处,均采用(2.2)中训练好的人脸模型进行检测,根据模型得到的最后一层输出的特征图,将检测到的特征图进行归一化以及二值化处理,计算矩形框区域内特征数值为1的个数,进行累加,如果数值大于该频道预先设定好的阈值U,(节目不同,阈值也不相同)则初步检测为主持人播报环节,进而从整个视频中获得多个候选主持播报环节的视频段。
(4.2)基于颜色特征及时间阈值的交叉筛选
针对在同一视频内每个新闻主持人衣着固定的特点,以及主持播报环节持续时间的规律,另一方面,考虑到检测视频的实时性,希望视频播放完成后便得到分割片段,故采用颜色特征与时间阈值交叉筛选的方式进一步从候选视频段中得到最终的主持播报环节。
首先,对于不同的新闻频道,预先手动设置固定大小及位置的衣服矩形框,每一类频道的衣服矩形框位置及大小固定,然而不同频道的衣服位置及大小不同;然后,对(4.1)中获取的候选视频段,进行衣服矩形框处的颜色特征提取,提取公式如下:
式中pi,j表示彩色图像第i个颜色通道分量中灰度为j的像素出现的概率,N表示衣服矩形框中的像素个数,通过上述公式求出候选视频段中各自的平均特征向量;最后,利用欧式距离度量每个候选视频段的平均特征向量与同一视频内的所有候选视频段的平均特征向量之间的距离,经过大量的实验观察所得,当欧式距离差值小于给定距离阈值0.4,同时视频段的持续时间大于给定的时间阈值5秒,则最终将其判断为主持播报场景视频段。
(4.3)分割视频
通过步骤(4.1)(4.2)分别经过深度网络的初步检测,以及颜色特征和时间阈值的二次交叉筛选,得到了最终的主持人播报场景。根据新闻视频之间的共性:主持播报场景与新闻事件场景之间均是依次进行的,故可以判断出主持播报场景左右两个时间区域内的视频均为新闻事件场景,最终,便可将主持播报环节与新闻事件环节分割开。
具体效果说明
本实验是一种基于深度学习多层次分割新闻视频的通用方法。本文将待检测的完整新闻视频输入至实验系统中,即可在无需人为干预的情况下,能够自动对待检测的多类新闻视频进行有效的时域分割,将新闻事件与主持播报环节分割开。本方法处理的过程完全自动同时能够达到很好的时效性,能够在新闻视频时长的1.5倍时间内处理完成;而且对于大量的实时视频有着较好的分割效果,经过大量实验可得视频分割的准确率能够达到95.2%,完全可以代替人工来分割新闻视频,进而节省大量人力成本,极大地提高了工作效率。
Claims (1)
1.一种基于深度学习多层次分割新闻视频的通用方法,其特征在于,包括以下步骤:
1)、训练数据的准备、扩张及预处理
具体步骤如下:
(1.1)获取数据
首先将获取到的视频拆分成帧;
设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动,当窗口与人脸的交集大于60%,视为正样本;只有当窗口与人脸交集在15%-30%之间,才将其视为负样本;
对于logo区域的提取,采用固定大小n*n的矩形窗口在视频logo处统一进行截取,得到logo的图片;
(1.2)数据扩张
针对新闻logo图片,对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像;对(1.1)中得到的人脸图片裁剪,然后放大到原来尺寸,这样不仅会加强人脸的细节部分,还会将原来数据集扩大;针对主持人头部扭转的情况,将所有人脸数据进行左右各45度方向的旋转;
(1.3)预处理
将logo及人脸图片进行同样的去均值处理,求得所有图片像素矩阵的均值,作为中心,然后将输入图片减去均值,再做后续操作;
(1.4)标注数据集
最后,将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注;对于得到的logo数据,根据需要检测的类别,对其标注;
2)、两类深度网络的构建与训练
(2.1)构建logo卷积神经网络;
卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器;
网络输入层的输入固定为n*n像素点大小;共由两层卷积层,两层Max池化层交替组合而成,然后连接全连接层,最后一层本文将根据频道种类数O,设计出输出为O类的softmax分类器进行分类;
(2.2)构建人脸卷积神经网络
对于人脸卷积神经网络输入层的输入固定为M*M像素点大小;人脸网络是由四层卷积层,两层Max池化层交替连接而成的,最后一层的卷积层选择用两个特征核进行全卷积滑动,输出两张全局特征图,进而输出至softmax二分类器中进行检测;
(2.3)训练卷积神经网络;
向两个构建完成的网络输入训练图片,根据卷积神经网络算法逐层计算后,得到输出值,反向传播,计算每个输出值与对应图片所属类别的误差,根据最小误差准则,修正网络每层的参数,将误差最小化,逐渐使训练的网络收敛,分别得到训练模型,用于以后的检测当中;
3)、频道种类的识别
预先识别频道类别,根据频道类别再进行主持人播报场景检测的方法;另一方面新闻视频的共性表现在:所有新闻视频logo出现的位置相同;所有新闻均是播报环节与事件环节依次更替进行;根据每个新闻视频logo位置的不变性,统一对所有新闻视频固定位置范围进行logo的识别;将识别后的频道输入,然后识别出主持人播报环节即可将左右视频段视为事件环节,进而实现新闻视频的自动分割;
4)、主持人场景的检测及分割
场景检测根据频道特性,分为初步检测和二次筛选两个部分;具体内容如下:
(4.1)基于深度网络的初步检测
根据频道类别提前设定好固定位置及大小的人脸检测矩形框,采用(2.3)中训练好的人脸卷积神经网络对矩形框内的人脸进行检测;如果出现人脸,则初步判断为主持播报场景,进而采集到多个主持播报场景的候选视频段;
(4.2)基于颜色特征及时间阈值的交叉筛选
首先,依据不同的新闻频道,在每个通道中为不同节目的主持人的衣着位置设定好矩形框以将衣着范围确定;然后,对矩形框内区域进行RGB空间的颜色特征提取,计算每个候选视频段中的平均颜色特征向量;最后,利用欧式距离度量每个视频段的平均颜色特征向量与所有候选视频段的平均颜色特征向量之间的距离,当距离均小于阈值且检测出的视频段持续时间大于时间阈值时,则确定该视频段为主持人播报场景;
通过基于两类深度网络的初筛选以及基于颜色特征和时间阈值的交叉检测,自动筛选得到了最终的主持人播报场景;
(4.3)视频分割
对整个视频中主持播报场景时域两边的视频段自动判断为新闻事件场景,从而进行时域上的分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611173080.6A CN106658169B (zh) | 2016-12-18 | 2016-12-18 | 一种基于深度学习多层次分割新闻视频的通用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611173080.6A CN106658169B (zh) | 2016-12-18 | 2016-12-18 | 一种基于深度学习多层次分割新闻视频的通用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106658169A CN106658169A (zh) | 2017-05-10 |
CN106658169B true CN106658169B (zh) | 2019-06-07 |
Family
ID=58823109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611173080.6A Expired - Fee Related CN106658169B (zh) | 2016-12-18 | 2016-12-18 | 一种基于深度学习多层次分割新闻视频的通用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106658169B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN108038455A (zh) * | 2017-12-19 | 2018-05-15 | 中国科学院自动化研究所 | 基于深度学习的仿生机器孔雀图像识别方法 |
CN108537157B (zh) * | 2018-03-30 | 2019-02-12 | 特斯联(北京)科技有限公司 | 一种基于人工智能分类实现的视频场景判断方法与装置 |
CN109246038B (zh) * | 2018-09-10 | 2021-04-20 | 东南大学 | 一种数据模型双驱动的gfdm接收机及方法 |
CN109472243B (zh) * | 2018-11-15 | 2021-08-17 | 北京奇艺世纪科技有限公司 | 新闻节目分割方法及装置 |
CN109348289B (zh) * | 2018-11-15 | 2021-08-24 | 北京奇艺世纪科技有限公司 | 新闻节目的标题提取方法及装置 |
CN109492594A (zh) * | 2018-11-16 | 2019-03-19 | 西安电子科技大学 | 基于深度学习网络的课堂听课者抬头率检测方法 |
CN109784144A (zh) * | 2018-11-29 | 2019-05-21 | 北京邮电大学 | 一种亲属关系识别方法及系统 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN109919106B (zh) * | 2019-03-11 | 2023-05-12 | 同济大学 | 渐进式目标精细识别与描述方法 |
CN110276416B (zh) * | 2019-07-02 | 2023-04-28 | 广东省智能机器人研究院 | 一种滚动轴承故障预测方法 |
CN111460226A (zh) * | 2020-04-01 | 2020-07-28 | 山东云缦智能科技有限公司 | 一种基于深度学习的视频人物检索方法及检索系统 |
CN111541939B (zh) * | 2020-04-30 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种视频拆分方法、装置、电子设备及存储介质 |
CN111626193A (zh) * | 2020-05-26 | 2020-09-04 | 北京嘀嘀无限科技发展有限公司 | 一种面部识别方法、面部识别装置及可读存储介质 |
CN111432140B (zh) * | 2020-06-15 | 2020-09-15 | 成都索贝数码科技股份有限公司 | 一种利用人工神经网络进行电视新闻拆条的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101867729A (zh) * | 2010-06-08 | 2010-10-20 | 上海交通大学 | 基于人物特征的新闻视频正式独白镜头的检测方法 |
CN101976258A (zh) * | 2010-11-03 | 2011-02-16 | 上海交通大学 | 基于对象分割和特征加权融合的视频语义提取方法 |
CN106021442A (zh) * | 2016-05-16 | 2016-10-12 | 江苏大学 | 一种网络新闻概要提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
-
2016
- 2016-12-18 CN CN201611173080.6A patent/CN106658169B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101867729A (zh) * | 2010-06-08 | 2010-10-20 | 上海交通大学 | 基于人物特征的新闻视频正式独白镜头的检测方法 |
CN101976258A (zh) * | 2010-11-03 | 2011-02-16 | 上海交通大学 | 基于对象分割和特征加权融合的视频语义提取方法 |
CN106021442A (zh) * | 2016-05-16 | 2016-10-12 | 江苏大学 | 一种网络新闻概要提取方法 |
Non-Patent Citations (1)
Title |
---|
基于人脸检测与SIFT的播音员镜头检测;杨武夷;《软件学报》;20090930;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN106658169A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106658169B (zh) | 一种基于深度学习多层次分割新闻视频的通用方法 | |
CN111652326B (zh) | 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统 | |
CN107092926A (zh) | 基于深度学习的服务机器人物体识别算法 | |
CN107909138A (zh) | 一种基于安卓平台的类圆颗粒物计数方法 | |
CN112085734B (zh) | 一种基于gan的图像修复的缺陷检测方法 | |
CN107808358A (zh) | 图像水印自动检测方法 | |
CN114092769B (zh) | 基于联邦学习的变电站多场景巡检分析方法 | |
CN104166983A (zh) | 基于结合图割(Graph Cut)的Vibe改进算法的运动目标实时提取方法 | |
CN103295013A (zh) | 一种基于成对区域的单幅图像阴影检测方法 | |
CN111028203B (zh) | 一种基于显著性的cnn盲图像质量评估方法 | |
CN106506901A (zh) | 一种显著性视觉注意模型的混合式数字图像半色调方法 | |
CN111783693A (zh) | 果蔬采摘机器人的智能识别方法 | |
CN111612718A (zh) | 一种引入注意力机制的人脸图像修复方法 | |
CN108961227A (zh) | 一种基于空域和变换域多特征融合的图像质量评价方法 | |
CN102737367A (zh) | 基于颜色特征的茶叶图像增强和分割方法 | |
CN103996023A (zh) | 基于深度信念网络的光场人脸识别方法 | |
CN111046782A (zh) | 一种用于苹果采摘机器人的果实快速识别方法 | |
CN115830302B (zh) | 一种多尺度特征提取融合配电网设备定位识别方法 | |
CN111813996B (zh) | 基于单帧和连续多帧抽样并行的视频搜索方法 | |
CN112115824B (zh) | 果蔬检测方法、装置、电子设备以及计算机可读介质 | |
CN116124783A (zh) | 一种毛坯布织造的瑕疵检测方法及装置 | |
CN115330721A (zh) | 基于形状和颜色信息的香蕉果梳饱满度检测方法与系统 | |
CN109740667B (zh) | 一种基于质量排序网络和语义分类的图像质量评价方法 | |
CN113343942A (zh) | 一种遥感图像缺陷检测方法 | |
CN102278979B (zh) | 一种水稻移栽分蘖的自动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190607 Termination date: 20211218 |