CN109151615B - 视频处理方法、计算机设备和计算机存储介质 - Google Patents
视频处理方法、计算机设备和计算机存储介质 Download PDFInfo
- Publication number
- CN109151615B CN109151615B CN201811298759.7A CN201811298759A CN109151615B CN 109151615 B CN109151615 B CN 109151615B CN 201811298759 A CN201811298759 A CN 201811298759A CN 109151615 B CN109151615 B CN 109151615B
- Authority
- CN
- China
- Prior art keywords
- video
- length
- segmentation point
- segment
- video content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 63
- 230000008569 process Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000012935 Averaging Methods 0.000 description 6
- 238000003475 lamination Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
一种视频处理方法、计算机设备和计算机存储介质,一个实施例的方法包括:从待处理视频中获取一段视频内容作为当前视频内容段;分析所述当前视频内容段是否有分割点;若有分割点,确定各分割点在所述当前视频内容段中的第一位置,根据所述第一位置和所述待处理视频的视频总长度,确定各分割点在所述待处理视频中的第二位置;若无分割点,或者确定各分割点在所述待处理视频中的第二位置之后,从所述待处理视频中获取下一段视频内容作为当前视频内容段,返回分析所述当前视频内容段是否有分割点,直至所述待处理视频的各段视频内容均分析完毕。本申请实施例提高了视频拆条的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频处理方法、计算机设备和计算机存储介质。
背景技术
随着计算机等各种技术的发展,出现了对视频进行智能拆条的技术需求,如新媒体节目等。新媒体节目的生成实际上是对传统媒体节目的二次加工过程,其以有传统电视媒体的节目、各类机构视频成品、影视公司影视作品等为主要内容来源,在对其拆条和编目后用于IPTV(交互式网络电视)、OTT(采用IP流等技术形成的一种新的电视形态)、手机电视、新闻APP(Application,计算机应用程序)等全媒体应用。其中,拆条是指将一个长视频中的视频条目在原视频中标记出来,便于对视频条目的定位,这里的视频条目可能是一个完整节目,也可能是节目中的短节目或者广告。其中,视频条目与视频条目的之间的临界帧被称为分割点,在视频拆条时,可以有不同的粒度,如若将一个长视频拆条成一个个完整的节目,则称为大粒度拆条,若是将大粒度拆条后的视频条目进一步拆分成更小的视频条目,则称为小粒度拆条。
在目前进行视频拆条时,通常是由人工逐帧预览手动拆条,或者根据节目的时长大致地进行拆条,然而这些方式均耗时费力,且需要人工干预才能达到预期的拆条标准,效率低。
发明内容
基于此,有必要提供一种视频处理方法、计算机设备和计算机存储介质。
一种视频处理方法,所述方法包括:
从待处理视频中获取一段视频内容作为当前视频内容段;
分析所述当前视频内容段是否有分割点;
若有分割点,确定各分割点在所述当前视频内容段中的第一位置,根据所述第一位置和所述待处理视频的视频总长度,确定各分割点在所述待处理视频中的第二位置;
若无分割点,或者确定各分割点在所述待处理视频中的第二位置之后,从所述待处理视频中获取下一段视频内容作为当前视频内容段,返回分析所述当前视频内容段是否有分割点,直至所述待处理视频的各段视频内容均分析完毕。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现如上所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的方法的步骤。
如上所述的实施例中的视频处理方法、计算机设备和计算机存储介质,每次从待处理视频中获取一视频内容段,分析其是否包含有分割点,若有分割点,再确定出分割点在该视频内容段中的位置,据此确定分割点在整个待处理视频中的视频总长度,从而通过对各视频内容段逐段进行分析,可以较为准确地进行视频拆条,提高了视频拆条的效率。
附图说明
图1为一个实施例中的视频处理方法的流程示意图;
图2为一个实施例中的获取视频内容段的示意图;
图3为一个实施例中的分割点分析模型在前的部分网络结构示意图;
图4为一个实施例中的分割点网络模型在后的部分网络结构示意图;
图5为一个实施例中的分割点回归定位模型在前的部分网络结构示意图;
图6为一个实施例中的分割点回归定位模型在后的部分网络结构示意图;
图7为一个实施例中计算机设备的内部结构图;
图8为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的视频处理方法,可以由任何需要或者可以要对视频进行拆条的设备执行,这样的设备可以是用户终端、服务器等,用户终端可以是指移动终端、智能终端、智能穿戴式设备等等,服务器可以是一个单独的服务器,也可以是由多个服务器组成的服务器集群。其中,在下述本申请各实施例的说明中,涉及训练模型的过程,可以有执行该视频处理方法的设备进行,也可以是由第三方设备进行,执行该视频处理方法的设备从第三方设备获得第三方设备训练获得的模型进行使用。为了便于说明,在下述各实施例中,未对此进行明确区分。
参考图1所示,一个实施例中的视频处理方法,包括下述步骤S101至步骤S104。
步骤S101:从待处理视频中获取一段视频内容作为当前视频内容段。
待处理视频是指本申请的视频处理方法所需要对其进行处理的视频对象,可以通过任何可能的方式获得该待处理视频。在从待处理视频中获取的一段视频内容的长度,可以结合实际需要进行设定,如300帧或者其他长度。其中,在每一次循环过程中获取一段视频内容时,可以每次获取的视频内容段的相同可以均相同。一个实施例中,若最后一次获取的视频内容段的长度不够该长度,则可以通过对其补齐来得到当前视频内容段。
参考图2所示,一个实施例中在获取一段视频内容时,可以在对整个的待处理视频的其中一段视频内容(如图2的t1-t2之间的视频内容段)处理完毕后,将该段视频内容之后的一段视频内容(如图2的t2-t3之间的视频内容段)作为当前视频内容段。
步骤S102:分析所述当前视频内容段是否有分割点。
在一个实施例中,可以基于预先训练获得的模型(本申请实施例中称为分割点分类模型),来分析当前视频内容段是否有分割点。分析时,将当前视频内容段或者提取该当前视频内容段的特征输入该分割点分类模型,从而得到该当前视频内容段是否有分割点的分析结果。
一个实施例中的该分割点分类模型包括:依次连接的输入层、卷积层、预定数目的卷积块、池化层、flatten层和全连接层。其中,任意一个卷积块可以包括两个正则化层(如batch_normalization层)、两个激活层(activation层)和一个卷积层。可以理解,在其他实施例中,该分割点分类模型可以具有其他的神经网络结构。
一个实施例中,在训练获得分割点分析模型时,可以基于视频数据集,确定各训练样本,然后基于确定各训练样本进行训练获得分割点分析模型。这里的视频内容集中的视频可以为用任何可能的方式获得的视频,一个实施例中可以采用Youtube8M数据集作为该视频内容集。Youtube8M数据集包含800亿的视频,每个视频至少有1000帧,长度在120秒到150秒之间,都与一个知识图谱实体相关联,从而可以丰富训练样本。
一个实施例中,在基于视频数据集,确定各训练样本时,可以包括下述步骤S1021至步骤S1025。
步骤S1021:采用图像表征模型,提取视频数据集中的各视频的视频特征。
上述图像分类模型,可以是采用已有的各种图像表征模型,一个实施例中可以是Inception-v3模型(Inception-V3 image annotation model,深度神经网络Inception-v3模型),可以理解,在其他实施例中,也可以采用其他的图像表征模型。
在提取视频数据集中各视频的视频特征时,所采用的时间分辨率可以基于实际技术需要进行设定,一个实施例中,可以以每秒1帧的时间分辨率进行提取。一个实施例中,提取的视频数据集中各视频的视频特征时,可以提取该视频的视频级特征(video-level)和帧级特征(frame-level)这两种类型的特征,提取的这些特征通常已经包含了众多的特征类型,一个实施例中提取的视频特征可以包含视频类别,如体育、广告、学习、新闻、音乐、游戏、食品、动物等。
步骤S1022:基于各视频的视频特征确定模型训练所需的各初始样本文件。
一个实施例中,基于各视频的视频特征确定模型训练所需各初始样本文件,可以包括步骤S10221和步骤S10222。
步骤S10221:对各视频的视频特征分别进行降维处理,获得降维处理后的视频特征,降维处理后的视频特征包括视频类别。一个实施例中,可以进行PCA(PrincipalComponent Analysis,主成分分析)降维处理,可以理解,在其他实施例中,也可以采用其他的降维处理方式。
步骤S10222:基于各视频对应的视频类别,将预定视频类别对应的视频,作为初始样本文件。这里的预定视频类别,可以基于实际需要进行设定,一个实施例中的预定视频类别可以包括:sports(体育)、Ads(广告)、news(新闻)、musics(音乐)、games(游戏)。
获得的初始样本文件,可以为TFRecord格式,由于TFRecord格式的文件可以将样本和标签放在一起,作为模型之前的预处理步骤,可以极大地提高效率和节约运行的内存。
步骤S1023:从各初始样本文件中随机选取两个初始样本文件。
一个实施例中,在此次是循环执行的选取的情况下,如上一次已经执行随机选取的过程,则在此次随机选取两个初始样本文件时,一个实施例中可以在选取的两个初始样本文件与之前同一次选取的两个初始样本文件相同时,可以重新选取两个初始样本文件,只要有至少其中一个初始样本文件与之前任何一次同时选取的两个初始样本文件不同。如此次是第二次选取过程,上一次选取的两个初始样本文件为a、b,此次仍然随机选择出a、b,则可以认为此次选取无效,若此次随机选择出a、c,或随机选择出c、d,则均可以认为此次选取无效。
步骤S1024:从两个所述初始样本文件中分别随机选取两个视频,基于随机选取的两个视频进行组合,获得组合后视频,基于组合后视频确定初始训练样本。
在随机选取两个视频时,可以采用任何可能的方式进行选取,如从其中一个初始样本文件中选取一个视频,从另外一个初始样本文件中选取了另一个视频。在基于随机选取的两个视频进行组合,获得组合后视频时,一个实施例中,可以通过对随机选取的这两个视频直接进行组合,从而获得组合后视频。可以理解,在其他实施例中,也可以选用其他的方式进行组合。
在基于组合后视频确定初始训练样本时,在一个实施例中,可以是直接将该组合后视频作为初始训练样本。在另一个实施例中,可以对组合后视频进行规整化处理,并将规整化处理后的视频确定为初始训练样本。规整化处理可以重新调整组合视频特征的行数、列数、和维数。
一个实施例中,在上述组合后视频的长度小于预定视频长度时,可以将组合后视频补齐为预定视频长度之后,再进行规整化处理。其中,一个实施例中,在将组合后视频补齐为预定视频长度时,通过补零的方式进行补齐。可以理解,在其他实施例中,也可以采用其他的方式进行补齐。
一个实施例中,在上述在组合后视频的长度大于预定视频长度时,可以从组合后视频中截取长度为预定视频长度的视频,进行规整化处理,如可以从组合后视频中截取位置在前,且长度为预定视频长度的视频,进行规整化处理。可以理解,在其他实施例中,也可以采用其他的方式进行预定视频长度的视频的截取。
步骤S1025:返回步骤S1023的从各初始样本文件中随机选取两个初始样本文件的过程,直至获得的初始训练样本的数目达到预定样本数目,并将获得的各初始训练样本作为各训练样本。
步骤S103:若有分割点,确定各分割点在当前视频内容段中的位置(本申请实施例中称为第一位置),根据所述第一位置和所述待处理视频的视频总长度,确定各分割点在待处理视频中的位置(本申请实施例中称为第二位置)。
如上所述,第一位置指确定的分割点在当前视频内容段中的位置,第二位置指确定的分割点在整个待处理视频中的位置。参考图2所示,假设整个待处理视频的时间长度为0至T,当前选取的当前视频内容段为时间t2至t3之间的视频内容段,在时间t2至t3之间的视频内容段中确定了一个分割点P,则第一位置指分割点P相对于t2-t3的视频内容段的位置,第二位置指分割点P相对于0-T的整个待处理视频的位置。
在一个实施例中,可以基于预先训练获得的模型(本申请实施例中称为分割点回归定位模型),来确定各分割点在当前视频内容段中的位置。处理时,将当前视频内容段输入该分割点回归定位模型,从而得到各分割点在当前视频内容段中的位置。一个实施例中的分割点回归定位模型可以包括:依次连接的输入层、卷积层、预定数目的卷积块、池化层、flatten层、全卷积层和全连接层,其中,任意一个卷积块包括两个正则化层(batch_normalization层)、两个激活层(activation层)和一个卷积层。可以理解,在其他实施例中,该分割点回归定位模型可以具有其他的神经网络结构。
一个实施例中,在训练获得分割点回归定位模型时,可以基于视频数据集,确定各训练样本,然后基于确定各训练样本进行训练获得分割点回归定位模型。这里的视频内容集,可以与上述训练获得分割点分析模型时的视频内容集相同,如Youtube8M数据集。
一个实施例中,在训练获得分割点回归定位模型时,在基于视频数据集,确定各训练样本时,可以包括下述步骤S1031至步骤S1035。
步骤S1031:采用图像分类模型,提取视频数据集中的各视频的视频特征。
一个实施例中,采用的视频表征模型以及提取视频特征的方式,可以与上述训练获得分割点分类模型时的方式相同,此处不再赘述。如视频表征模型可以是Inception-v3模型,提取视频数据集中各视频的视频特征时,可以提取该视频的视频级特征(video-level)和帧级特征特征(frame-level)这两种类型的特征。
步骤S1032:基于各视频的视频特征确定模型训练所需各初始样本文件。
一个实施例中,基于各视频的视频特征确定各初始样本文件的方式,可以与上述训练获得分割点分析模型时确定各初始样本文件的方式相同,如对各视频的视频特征分别进行降维处理,获得降维处理后的视频特征,降维处理后的视频特征包括视频类别。然后基于各视频对应的视频类别,将预定视频类别对应的视频,作为初始样本文件。
步骤S1033:从各初始样本文件中随机选取两个初始样本文件。
步骤S1034:从两个所述初始样本文件中分别随机选取两个视频,基于随机选取的两个视频进行组合,获得组合后视频,基于组合后视频确定初始视频训练样本。
在随机选取两个视频时,可以采用任何可能的方式进行选取,如从其中一个初始样本文件中选取一个视频,从另外一个初始样本文件中选取了另一个视频。在基于随机选取的两个视频进行组合,获得组合后视频时,一个实施例中,可以基于生成的随机数,对随机选取的两个视频进行组合,获得组合后视频。其中,随机数大于预定值且小于预定视频长度值。
一个实施例中,基于生成的随机数,对随机选取的两个视频进行组合,获得组合后视频,可以包括步骤S10341至步骤S10343。
步骤S10341:从随机选取的两个视频的其中一个视频中,选取长度为随机数的第一视频段。一个实施例中,可是从该视频中的任何位置选取出长度为随机数的第一视频段。在另一个实施例中,可以是从该视频为0的位置(初始位置)选取连续的长度为随机数的第一视频段。
步骤S10342:从随机选取的两个视频的另一个视频中,选取长度为预定视频长度值减去随机数的第二视频段。一个实施例中,可是从该视频中的任何位置选取出长度为预定视频长度值减去随机数的第二视频段。在另一个实施例中,可以是从该视频为0的位置(初始位置)选取连续的长度为预定视频长度值减去随机数的第二视频段。在另一个实施例中,可以是从该视频为随机数的位置选取连续的长度为预定视频长度值减去随机数的第二视频段。其中,当该视频的随机数之后的视频长度不够预定视频长度值减去随机数时,可以通过对随机数之后的视频段补齐之后获得该第二视频段。
步骤S10343:对第一视频段和第二视频段进行组合,获得组合后视频。从而,由于第一视频段总是固定位随机数,从而可以将该随机数作为该组合后视频的分割点的位置,从而可以据此为样本进行后续的训练过程。
在基于组合后视频确定初始训练样本时,可以与上述训练分割点分析模型时相同的方式进行,如可以是直接将该组合后视频作为初始训练样本,也可以是对组合后视频进行形状重组处理,并将形状重组处理后的视频确定为初始训练样本。
一个实施例中,在上述组合后视频的长度小于预定视频长度时,可以将组合后视频补齐为预定视频长度之后,再进行规整化处理。一个实施例中,在上述在组合后视频的长度大于预定视频长度时,可以从组合后视频中长度为预定视频长度的视频,进行规整化处理,如可以从组合后视频中截取位置在前,且长度为预定视频长度的视频,进行规整化处理。可以理解,在其他实施例中,也可以采用其他的方式进行预定视频长度的视频的截取,如若不是从组合后视频的开始位置截取,则需结合截取点位置、以及上述随机数,确定截取后的视频的分割点。
步骤S1035:返回步骤S1033的从各初始样本文件中随机选取两个初始样本文件的过程,直至获得的初始训练样本的数目达到预定样本数目,并将获得的各初始训练样本作为各训练样本。
步骤S104:若上述步骤S102的分析结果为无分割点,或者上述步骤S103确定各分割点在所述待处理视频中的第二位置之后,从所述待处理视频中获取下一段视频内容作为当前视频内容段,返回上述步骤S102的分析所述当前视频内容段是否有分割点的过程,直至所述待处理视频的各段视频内容均分析完毕。
基于如上所述的实施例,以下结合一个详细的实施例进行详细举例说明。
如上所述,基于本申请的实施例,需先进行训练获得分割点分析模型和分割点回归定位模型。本实施例的分割点分析模型和分割点回归定位模型,可以采用深度学习的框架Keras。结合图2至图5所示,在训练时,数据集可采用Youtube8M训练数据集。Youtube8M数据集包含800亿的视频,每个视频至少有1000帧,长度在120秒到150秒之间,都与一个知识图谱实体相关联。可使用已经在ImageNet上训练得到的Inception-V3 image annotationmodel,以每秒1帧的时间分辨率提取这些视频的video-level和frame-level这两种类型的特征之后,进行PCA降维处理的视频特征。其中,其总共包含4800个类别,本实施例中提取出类别为sports(体育)、Ads(广告)、news(新闻)、musics(音乐)、games(游戏)的视频作为数据集。
在该实施例中,参考图3、图4所示,在训练获得分割点分析模型时,输入数据的形状为300x1024x1,神经网络使用resnet34,最后一层全连接层使用的激活函数采用relu函数,损失函数采用交叉熵。
参考图3、4所示,由于模型的神经网络的输入尺寸为300x1024x1,因此需要将送入网络的数据处理成300x1024x1,本实施例中,可从YouTube8M数据集中随机选取2个视频进行组合。由于在本实施例中的预定视频长度值为300,因此,若组合后的视频的长度小于300,则将少于300的部分补零,若组合后的视频的长度大于300,则只截取前300的长度的视频,最终组合成300x1024的矩形,然后再利用reshape函数进行调整之后变成300x1024x1的形状。循环执行上述过程,直至取够一个batch_size(一次训练的数据量的大小)的数据,然后送入神经网络。
从而,在该实施例中,测试的输入数据为从YouTube8M数据集中挑选出来的sports、Ads、news、musics、games等5大类视频节目组合而成的长视频,一个实施例中的长视频的长度约有27分钟左右,以每秒一帧提取过特征之后得到的tfrecord文件的矩形长度1464帧,宽是1024。
结合图3、图4所示,上述处理后的数据送入神经网络resnet34,送入的数据的尺寸为Nonex300x1024x1,经过第一层卷积层conv2d_1:Conv2D之后得到Nonex150x512x64,经过maxpooling之后得到Nonex75x256x64,之后接8个卷积块,每个卷积块由2个batch_normalization、activation和一个卷积层组成,最后输出形状10x32x512,经过1层池化层average_pooling(average_pooling 2d_1:Average_Pooling2D)之后得到Nonex1x1x512,经过flatten层(flatten_1:Flatten)之后,经全连接层(dense_1:Dense)的全连接处理得到Nonex2。
如上所述,在训练过程中,经过神经网络后得到Nonex2。一个实施例中,训练过程中采用的损失函数可以是交叉熵,学习率可以是0.001,优化函数可选用Adam。一个实施例中训练过程和验证数据的过程可以同时进行,训练时,可以使用fit_generator函数训练模型。
在该实施例中,参考图5、图6所示,在训练获得分割点定位回归模型时,输入的数据形状是300x1024x2,神经网络可依然选用resnet34,且在该分割点定位回归模型的神经网络中,相对于分割点分析模型的神经网络而言,可在全连接层之前添加一层全卷积层,最后一层的全连接层的激活函数可选用linear函数,训练过程中的损失函数可选用mean_absulate_error函数。
参考图5、6所示,由于模型的神经网络的输入尺寸为300x1024x2,因此需要将送入网络的数据处理成300x1024x2,本实施例中,可从下载的YouTube8M目录下的train目录下随机选取2个tfrecord文件作为初始样本文件,然后分别从这2个tfrecord文件中随机选取2个视频组合。其中,在组合之前先生成一个随机数,由于在本实施例中的预定视频长度值为300,因此该随机数的范围可在(20,280)之间,其中,随机选取的其中一个视频的长度取零到随机数的长度,另一个视频的长度取随机数到300或者到300-视频的长度(此时组合后的视频的长度小于300)。若组合后的视频的长度小于300,则将少于300的部分补零,若组合后的视频的长度大于300,则只截取前300的长度的视频,其中,输入神经网络时,输入的第一个维度取300x1024的矩形,第二个维度使用对组合视频的一个聚类列表生成300x1024维的矩形。然后再利用reshape函数进行调整之后变成300x1024x1的形状。循环执行上述过程,直至取够一个batch_size(一次训练的数据量的大小)的数据,然后送入神经网络。
从而,在该实施例中,测试的输入数据为从YouTube8M的测试数据集中挑选出来的sports、Ads、news、musics、games等5大类视频节目组合而成的长视频,一个实施例中的长视频的长度约有27分钟左右,以每秒一帧提取过特征之后得到的tfrecord文件的矩形长度1464帧,宽是1024。
结合图5、图6所示,上述处理后的数据送入神经网络resnet34,送入的数据的尺寸为300x1024x2,经过第一层卷积层conv2d_1:Conv2D之后得到150x512x64,经过maxpooling之后得到75x256x64,之后接8个卷积块,每个卷积块由2个batch_normalization、activation和一层卷积组成,最后输出形状10x32x512,经过1层池化层average_pooling(average_pooling 2d_1:Average_Pooling2D)之后得到1x1x512,之后经过一层全卷积层(rpn_conv1:Conv2D)得到1x1x300,经过flatten层(flatten_1:Flatten)之后,经1层全连接层(dense_1:Dense)得到300维,再经最后一层全连接(dense_2:Dense)之后输出回归结果。
如上所述,在训练过程中,经过神经网络后得到回归结果。一个实施例中,训练过程中采用的损失函数可以是mean_absulate_error函数,学习率可以是0.0003,优化函数可选用Adam。
在实际进行视频拆条时,同时加载训练好的分割点分析模型和分割点定位回归模型之后,对视频提取特征(如每秒5帧进行提取)得到tfrecord格式文件。然后,每次循环取长视频中的300长度,将300x1024的数据,通过reshape函数处理为300x1024x1后,送入分割点分类模型。
若分割点分类模型中的分析结果为此段长度视频中有分割点,那么将上述得到的300x1024的数据作为第一个维度的矩形数据,同时将该300x1024的矩形数据送入到聚类函数中,得到聚类列表生成的300x1024的矩形数据,并将其作为第二个维度的矩形数据,然后经transpose函数之后,形状变成300x1024x2送入到分割点定位回归模型,确定出分割点在该段长度视频中的位置,并存到列表中。并取下一个300x1024的视频,重复上述过程。
若分割点分析模型中的分析结果为此段长度视频中没有分割点,则取下一个300x1024的视频,重复上述过程。
重复上述过程,直至整个待处理视频均处理完毕,各视频段的分割点均确定完毕,然后基于各分割点在原视频段中的位置,将其还原为分割点在整个原视频上的长度位置,然后据此生成json文件进行存储。
在一个实施例中,上述视频处理方法,可以由服务器执行,因此,一个实施例中提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理方法。
在一个实施例中,上述视频处理方法,可以由用户使用的终端执行,因此,一个实施例中提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
据此,在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上所述的任意实施例中的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
据此,在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种视频处理方法,所述方法包括:
从待处理视频中获取一段视频内容作为当前视频内容段,每次获取的视频内容段的长度相同;
基于预先训练获得的分割点分类模型,分析所述当前视频内容段是否有分割点;
若有分割点,基于预先训练获得的分割点回归定位模型确定各分割点在所述当前视频内容段中的第一位置,根据所述第一位置和所述待处理视频的视频总长度,确定各分割点在所述待处理视频中的第二位置;
若无分割点,或者确定完各分割点在所述待处理视频中的第二位置之后,从所述待处理视频中获取下一段视频内容作为当前视频内容段,返回分析所述当前视频内容段是否有分割点,直至所述待处理视频的各段视频内容均分析完毕;
在基于视频数据集,确定训练获得所述分割点分析模型或者所述分割点回归定位模型的各训练样本时,包括:
采用图像表征模型,提取视频数据集中的各视频的视频特征;
基于各视频的视频特征确定模型训练所需的各初始样本文件;
从各初始样本文件中随机选取两个初始样本文件;
从两个所述初始样本文件中分别随机选取两个视频,基于随机选取的两个视频进行组合,获得组合后视频,基于组合后视频确定初始训练样本;
返回从各初始样本文件中随机选取两个初始样本文件的过程,直至获得的初始训练样本的数目达到预定样本数目,并将获得的各初始训练样本作为各训练样本;
其中,基于随机选取的两个视频进行组合,获得组合后视频,包括:在训练获得所述分割点分析模型时,对随机选取的两个视频直接进行组合,获得组合后视频;在训练获得所述分割点回归定位模型时,从随机选取的两个视频的其中一个视频中,选取长度为所述随机数的第一视频段;从随机选取的两个视频的另一个视频中,选取长度为预定视频长度值减去所述随机数的第二视频段;对所述第一视频段和所述第二视频段进行组合,获得所述组合后视频;
基于组合后视频确定初始训练样本,包括:
在所述组合后视频的长度小于预定视频长度时,将组合后视频补齐为预定视频长度;
在所述组合后视频的长度大于预定视频长度时,从组合后视频中截取位置在前的长度为预定视频长度的视频;
对所述组合后视频进行规整化处理,并将规整化处理后的视频确定为初始训练样本。
2.根据权利要求1所述的方法,其特征在于,所述视频内容段的长度为300帧。
3.根据权利要求1所述的方法,其特征在于,最后一次获取的视频内容段的长度不够所述长度时,通过对最后一次获取的视频内容段补齐得到所述当前视频内容段。
4.根据权利要求1所述的方法,其特征在于,基于各视频的视频特征确定各初始样本文件,包括:
对各视频的视频特征分别进行降维处理,获得降维处理后的视频特征,降维处理后的视频特征包括视频类别;
基于各视频对应的视频类别,将预定视频类别对应的视频,作为初始样本文件。
5.根据权利要求1所述的方法,其特征在于:所述分割点分类模型包括:依次连接的输入层、卷积层、预定数目的卷积块、池化层、flatten层和全连接层,任意一个卷积块包括两个正则化层、两个激活层和一个卷积层。
6.根据权利要求1所述的方法,其特征在于,采用图像表征模型,以每秒1帧的时间分辨率提取视频数据集中的各视频的视频特征。
7.根据权利要求1所述的方法,其特征在于,所述图像表征模型为Inception-v3模型。
8.根据权利要求1所述的方法,其特征在于,从各初始样本文件中随机选取两个初始样本文件,包括:
若上一次已经执行随机选取的过程,则在此次随机选取两个初始样本文件时,在选取的两个初始样本文件与之前同一次选取的两个初始样本文件相同时,重新选取两个初始样本文件,直至至少其中一个初始样本文件与之前任何一次同时选取的两个初始样本文件不同。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811298759.7A CN109151615B (zh) | 2018-11-02 | 2018-11-02 | 视频处理方法、计算机设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811298759.7A CN109151615B (zh) | 2018-11-02 | 2018-11-02 | 视频处理方法、计算机设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109151615A CN109151615A (zh) | 2019-01-04 |
CN109151615B true CN109151615B (zh) | 2022-01-25 |
Family
ID=64807364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811298759.7A Active CN109151615B (zh) | 2018-11-02 | 2018-11-02 | 视频处理方法、计算机设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109151615B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166828A (zh) * | 2019-02-19 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种视频处理方法和装置 |
CN111738041A (zh) * | 2019-09-30 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 一种视频分割方法、装置、设备及介质 |
CN112714339B (zh) * | 2019-10-24 | 2023-04-28 | 上海哔哩哔哩科技有限公司 | 无序的视频采样方法、可读存储介质及计算机设备 |
CN113438500B (zh) * | 2020-03-23 | 2023-03-24 | 阿里巴巴集团控股有限公司 | 视频处理方法、装置、电子设备及计算机存储介质 |
CN111865702A (zh) * | 2020-08-04 | 2020-10-30 | 北京航空航天大学 | 基于卷积神经网络的网络故障诊断方法及装置 |
CN114882333B (zh) * | 2021-05-31 | 2024-09-06 | 北京百度网讯科技有限公司 | 数据处理模型的训练方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8437573B1 (en) * | 2007-08-31 | 2013-05-07 | Adobe Systems Incorporated | Systems and methods for mask generation for an image or video |
CN104778230A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种视频数据切分模型的训练、视频数据切分方法和装置 |
CN105915950A (zh) * | 2015-12-15 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 快捷播放视频的方法、装置、服务器及终端 |
CN107241618A (zh) * | 2017-08-07 | 2017-10-10 | 苏州市广播电视总台 | 收录方法和收录装置 |
CN107948732A (zh) * | 2017-12-04 | 2018-04-20 | 京东方科技集团股份有限公司 | 视频的播放方法、视频播放装置及系统 |
CN108235116A (zh) * | 2017-12-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 特征传播方法和装置、电子设备、程序和介质 |
CN108235141A (zh) * | 2018-03-01 | 2018-06-29 | 北京网博视界科技股份有限公司 | 直播视频转碎片化点播的方法、装置、服务器和存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6462754B1 (en) * | 1999-02-22 | 2002-10-08 | Siemens Corporate Research, Inc. | Method and apparatus for authoring and linking video documents |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN104185088B (zh) * | 2014-03-03 | 2017-05-31 | 无锡天脉聚源传媒科技有限公司 | 一种视频处理方法及装置 |
CN104159152B (zh) * | 2014-08-26 | 2017-10-13 | 中译语通科技(北京)有限公司 | 一种针对影视视频的时间轴自动产生方法 |
US9436876B1 (en) * | 2014-12-19 | 2016-09-06 | Amazon Technologies, Inc. | Video segmentation techniques |
EP3166075B1 (en) * | 2015-11-05 | 2020-08-05 | Facebook, Inc. | Systems and methods for processing content using convolutional neural networks |
CN106874921B (zh) * | 2015-12-11 | 2020-12-04 | 清华大学 | 图像分类方法和装置 |
CN105677735B (zh) * | 2015-12-30 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN108154137B (zh) * | 2018-01-18 | 2020-10-20 | 厦门美图之家科技有限公司 | 视频特征学习方法、装置、电子设备及可读存储介质 |
CN108647571B (zh) * | 2018-03-30 | 2021-04-06 | 国信优易数据股份有限公司 | 视频动作分类模型训练方法、装置及视频动作分类方法 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
-
2018
- 2018-11-02 CN CN201811298759.7A patent/CN109151615B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8437573B1 (en) * | 2007-08-31 | 2013-05-07 | Adobe Systems Incorporated | Systems and methods for mask generation for an image or video |
CN104778230A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种视频数据切分模型的训练、视频数据切分方法和装置 |
CN105915950A (zh) * | 2015-12-15 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 快捷播放视频的方法、装置、服务器及终端 |
CN107241618A (zh) * | 2017-08-07 | 2017-10-10 | 苏州市广播电视总台 | 收录方法和收录装置 |
CN107948732A (zh) * | 2017-12-04 | 2018-04-20 | 京东方科技集团股份有限公司 | 视频的播放方法、视频播放装置及系统 |
CN108235116A (zh) * | 2017-12-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 特征传播方法和装置、电子设备、程序和介质 |
CN108235141A (zh) * | 2018-03-01 | 2018-06-29 | 北京网博视界科技股份有限公司 | 直播视频转碎片化点播的方法、装置、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109151615A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109151615B (zh) | 视频处理方法、计算机设备和计算机存储介质 | |
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
US20210192220A1 (en) | Video classification method and apparatus, computer device, and storage medium | |
CN111144937B (zh) | 广告素材确定方法、装置、设备及存储介质 | |
CN111050193B (zh) | 用户画像构建方法、装置、计算机设备和存储介质 | |
CN106339507B (zh) | 流媒体消息推送方法和装置 | |
CN109753601B (zh) | 推荐信息点击率确定方法、装置及电子设备 | |
US20170257653A1 (en) | Shot structure of online video as a predictor of success | |
CN110909205A (zh) | 一种视频封面确定方法、装置、电子设备及可读存储介质 | |
CN112784141B (zh) | 搜索结果质量确定方法、装置、存储介质和计算机设备 | |
CN112395500A (zh) | 内容数据推荐方法、装置、计算机设备及存储介质 | |
CN110198482B (zh) | 一种视频重点桥段标注方法、终端及存储介质 | |
US9679380B2 (en) | Emotion modification for image and video content | |
CN112291589B (zh) | 视频文件的结构检测方法、装置 | |
CN111476216A (zh) | 人脸识别方法、装置、计算机设备和可读存储介质 | |
CN116977774A (zh) | 图像生成方法、装置、设备和介质 | |
CN112084954A (zh) | 视频目标的检测方法、装置、电子设备及存储介质 | |
US20160027050A1 (en) | Method of providing advertisement service using cloud album | |
CN115329131A (zh) | 素材标签推荐方法、装置、电子设备及存储介质 | |
CN110162689B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
US20240062545A1 (en) | Information processing device, information processing method, and recording medium | |
Jiménez | Web page classification based on unsupervised learning using MIME type analysis | |
CN110933504B (zh) | 视频推荐方法、装置、服务器和存储介质 | |
CN116129881A (zh) | 语音任务处理方法、装置、电子设备及存储介质 | |
CN115408559A (zh) | 视频推荐、模型训练方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |