CN106550268A

CN106550268A - 视频处理方法和视频处理装置

Info

Publication number: CN106550268A
Application number: CN201611216701.4A
Authority: CN
Inventors: 卢伟超
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-03-29
Anticipated expiration: 2036-12-26
Also published as: CN106550268B

Abstract

本发明提供一种视频处理方法和视频处理装置。其中，该视频处理方法包括：获取待处理视频的简介信息；提取所述待处理视频的音频文件；将所述音频文件转换为文本文件；基于所述简介信息遍历所述文本文件，确定所述文本文件中与所述简介信息匹配的文本信息；根据所述文本信息所对应的音频在所述待处理视频中的帧位置，将所述待处理视频中相应帧位置的帧确定为关键帧；基于确定的关键帧生成所述待处理视频的简介视频。本发明提供的技术方案能够有效提高简介视频的生成效率。

Description

视频处理方法和视频处理装置

技术领域

本发明涉及视频编辑技术领域，具体涉及一种视频处理方法和视频处理装置。

背景技术

视频编辑分为线性编辑和非线性编辑。线性编辑是电视节目的传统编辑方式，在传统的视频编辑中，镜头拍摄、剪辑通常以录像带为存储介质，由于素材在录像带上是顺序存放的，要完成编辑必须反复搜索和复制，并在另一录像带重新安排这些素材，这种编辑方法被称之为线性编辑方法。

非线性编辑是传统设备同计算机技术结合的产物，自数字技术发展起来之后出现了专用的非线性编辑机，可以不按照素材在磁带上的线性位置进行更方便的处理。实际上个人计算机(PC，Personal Computer)也可以作为一台非线性编辑机，因为所有的素材都捕捉到磁盘上，可以随时处理任何时间线位置上的内容。由于非线性编辑方式相对于线性编辑方式更为便利，因此，目前几乎都采用非线性编辑方式编辑视频。

视频剪辑是视频编辑中的一个处理环节，视频剪辑就是对视频进行切割、合并，通过二次编码生成具有不同表现力的新视频的过程。例如，为了方便用户了解视频内容，视频剪辑人员对视频进行剪辑，以生成该视频的视频简介片头(也即简介视频)，使得用户能够通过该简介视频对视频内容有一个基本的了解。目前，视频剪辑工作在很大程度上还依赖于人工处理，需要视频剪辑人员逐帧观看视频并对该视频进行剪辑处理。由于视频的数据量通常很多，因此，通过视频剪辑的方式生成简介视频需要耗费大量的人工交互时间，生成效率低下。

发明内容

本发明提供一种视频处理方法和视频处理装置，用于提高简介视频的生成效率。

本发明第一方面提供一种视频处理方法，包括：

获取待处理视频的简介信息；

提取所述待处理视频的音频文件；

将所述音频文件转换为文本文件；

基于所述简介信息遍历所述文本文件，确定所述文本文件中与所述简介信息匹配的文本信息；

根据所述文本信息所对应的音频在所述待处理视频中的帧位置，将所述待处理视频中相应帧位置的帧确定为关键帧；

基于确定的关键帧生成所述待处理视频的简介视频。

本发明第二方面提供一种视频处理装置，包括：

获取单元，用于获取待处理视频的简介信息；

提取单元，用于提取所述待处理视频的音频文件；

转换单元，用于将所述提取单元提取的音频文件转换为文本文件；

文本信息确定单元，用于基于所述获取单元获取的简介信息遍历所述文本文件，确定所述文本文件中与所述简介信息匹配的文本信息；

关键帧确定单元，用于根据所述文本信息所对应的音频在所述待处理视频中的帧位置，将所述待处理视频中相应帧位置的帧确定为关键帧；

生成单元，用于基于所述关键帧确定单元确定的关键帧生成所述待处理视频的简介视频。

由上可见，本发明方案通过获取待处理视频的简介信息，并基于该简介信息遍历由该待处理视频的音频文件转换得到的文本文件，从中确定与该简介信息匹配的文本信息，之后根据该文本信息所对应的音频在该待处理视频中的帧位置确定出该待处理视频中的关键帧，基于确定的关键帧生成该处理视频的简介视频，从而实现了基于简介信息的简介视频自动化生成，有效提高了简介视频的生成效率。并且，由于生成该简介视频的关键帧是基于该文本信息所确定的，而该文本信息又与该待处理视频的简介信息相关，因此，基于本发明方案生成的简介视频能在一定程度上体现出待处理视频的简介信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的视频处理方法一个实施例流程示意图；

图2为本发明提供的视频处理装置一个实施例结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法，请参阅图1所示，本发明实施例中的视频处理方法可以包括如下步骤：

步骤101、获取待处理视频的简介信息；

本发明实施例中，待处理视频的简介信息是指对待处理视频的视频内容进行简单介绍的信息。

在一种应用场景中，可以为用户提供待处理视频的简介信息输入接口，由用户通过该简介信息输入接口输入该待处理视频的简介信息。步骤101具体表现为获取输入的待处理视频的简介信息。

在另一种应用场景中，可以基于待处理视频的名称从网络或本地或其它设备上自动抓取该待处理视频的简介信息。具体地，在一种实现方式中，可以基于该待处理视频的名称，以网络爬虫方式抓取与该待处理视频相关的信息集，由于抓取的信息集除了包含该待处理视频的简介信息之外，还可能包含其它与该待处理视频相关的信息(例如角色信息、评价信息等)，因此，在以网络爬虫方式抓取与该待处理视频相关的信息集之后，进一步从抓取的信息集中提取该待处理视频的简介信息。具体地，上述从抓取的信息集中提取该待处理视频的简介信息可以包括：对上述信息集中的信息进行语义分析，从上述信息集中筛选出符合预设的视频简介语义的候选信息；提取筛选出的一候选信息作为上述待处理视频的简介信息。进一步，若筛选出的候选信息为两条以上，则还可以分别计算各条候选信息与上述待处理视频的相关度分数，之后提取相关度分数最高的一候选信息作为上述待处理视频的简介信息。当然，当筛选出的候选信息为两条以上时，也可以从多条候选信息中随机提取一候选信息作为上述待处理视频的简介信息。具体地，上述网络爬虫方式可以采用通用网络爬虫(GPWC，General Purpose Web Crawler)方式、聚焦网络爬虫(FWC，Focused WebCrawler)方式、增量式网络爬虫(IWC，Incremental Web Crawler)方式、深层网络爬虫(DWC，Deep Web Crawler)方式或其它网络爬虫方式，此处不做限定。

当然，除上述两种应用场景外，步骤101也可以采取其它方式获取待处理视频的简介信息，本发明实施例中不对上述简介信息的具体获取方式进行限定。

步骤102、提取上述待处理视频的音频文件；

由于视频通常是由音频流和视频流通过容器文件(即Container)封装而成，因此，在播放视频时候通常会先调用分离器(即Splitter)将封装合成的视频“分离”成独立的音频流和视频码流，然后再调用解码器对这些独立的音频流和视频流进行解码输出。

由于视频中的音频流和视频流实际上的独立存在的，故在步骤102中，可以从待处理视频中提取出音频文件，该音频文件也即以文件形式表现的音频流。

步骤103、将上述音频文件转换为文本文件；

具体地，可以从上述音频文件中提取语音特征信号，基于提取的语音特征信号以及预设的声学模型、语言模型及词典，寻找能够以最大概率输出该语音特征信号的词串，将寻找到的词串作为上述文本文件的文本信息，进而实现将上述音频文件转换为文本文件。其中，上述声学模型可以采用基于一阶隐马尔科夫模型进行建模。上述语言模型可以对所要转换的语言(例如中文)进行建模，具体地，上述语音模型可以采用汉语N元文法统计语言模型或其变体，或者，上述语音模型也可以采用正则语言、上下文无关文法或其它语言模型。上述词典可以包含系统所能处理的词汇集及其发音，上述发音词典实际提供了上述声学模型与上述语言模型间的映射。进一步，为了提高文本转换的准确性，可以在对提取的语音特征信号进行文本转换之前，先对提取的语音特征信号进行预处理，以尽可能降低环境噪声、信道、说话人等因素对语音特征信号造成的影响。

步骤104、基于上述简介信息遍历上述文本文件，确定上述文本文件中与上述简介信息匹配的文本信息；

在步骤104中，可以基于上述简介信息，通过语义分析技术遍历上述文本信息，从上述文本文件中确定出与该简介信息匹配的文本信息。

步骤105、根据上述文本信息所对应的音频在上述待处理视频中的帧位置，将上述待处理视频中相应帧位置的帧确定为关键帧；

由于上述文本信息为上述文本文件中的信息，而上述文本文件是由上述待处理视频的音频文件转换得到，因此，上述文本文件中的文本信息在上述音频文件中都存在对应的音频。在步骤105中，根据上述文本信息所对应的音频在上述待处理视频中的帧位置，将上述待处理视频中相应帧位置的帧确定为关键帧。举例说明，设上述文本信息所对应的音频在上述待处理视频中的帧位置包括：上述待处理视频的第5分10秒至第5分20秒的帧位置和上述待处理视频的第20分15秒至第20分30秒的帧位置，则将上述待处理视频的第5分10秒至第5分20秒的帧位置和上述待处理视频的第20分15秒至第20分30秒的帧位置确定为关键帧。

步骤106、基于确定的关键帧生成上述待处理视频的简介视频；

本发明实施例中，在步骤105确定出关键帧后，即可基于确定的关键帧的帧位置和相应的帧视频(包含音频流和视频流)，生成上述待处理视频的简介视频。以步骤105中的举例进一步说明，在将上述待处理视频的第5分10秒至第5分20秒的帧位置和上述待处理视频的第20分15秒至第20分30秒的帧位置确定为关键帧之后，在步骤106中，可由上述待处理视频的第5分10秒至第5分20秒的帧位置对应的帧视频和上述待处理视频的第20分15秒至第20分30秒的帧位置对应的帧视频合成上述待处理视频的简介视频。

进一步，在步骤106之后，还可以向预设的视频播放平台输出上述待处理视频的简介视频。以便用户可通过该视频播放平台播放该简介视频了解上述待处理视频的视频内容。

需要说明的是，本发明实施例中的视频处理方法可以由视频处理装置执行，该视频处理装置可以集成电子设备(例如PC、智能手机、平板电脑和智能电视等)中，此处不作限定。

由上可见，本发明实施例中的视频处理方法通过获取待处理视频的简介信息，并基于该简介信息遍历由该待处理视频的音频文件转换得到的文本文件，从中确定与该简介信息匹配的文本信息，之后根据该文本信息所对应的音频在该待处理视频中的帧位置确定出该待处理视频中的关键帧，基于确定的关键帧生成该处理视频的简介视频，从而实现了基于简介信息的简介视频自动化生成，有效提高了简介视频的生成效率。并且，由于生成该简介视频的关键帧是基于该文本信息所确定的，而该文本信息又与该待处理视频的简介信息相关，因此，基于本发明实施例中的视频处理方法生成的简介视频能在一定程度上体现出待处理视频的简介信息。

本发明实施例还提供一种视频处理装置，如图2所示，该视频处理装置200包括：

获取单元201，用于获取待处理视频的简介信息；

提取单元202，用于提取所述待处理视频的音频文件；

转换单元203，用于将提取单元202提取的音频文件转换为文本文件；

文本信息确定单元204，用于基于获取单元201获取的简介信息遍历所述文本文件，确定所述文本文件中与所述简介信息匹配的文本信息；

关键帧确定单元205，用于根据所述文本信息所对应的音频在所述待处理视频中的帧位置，将所述待处理视频中相应帧位置的帧确定为关键帧；

生成单元206，用于基于关键帧确定单元205确定的关键帧生成所述待处理视频的简介视频。

可选的，获取单元201包括：

子抓取单元，用于基于所述待处理视频的名称，以网络爬虫方式抓取与所述待处理视频相关的信息集；

子提取单元，用于从所述子抓取单元抓取的信息集中提取所述待处理视频的简介信息。

可选的，所述子提取单元具体用于：对所述信息集中的信息进行语义分析，从所述信息集中筛选出符合预设的视频简介语义的候选信息；提取筛选出的一候选信息作为所述待处理视频的简介信息。

可选的，上述子提取单元具体还用于：当筛选出的候选信息为两条以上时，分别计算各条候选信息与所述待处理视频的相关度分数；提取相关度分数最高的一候选信息作为所述待处理视频的简介信息。

可选的，本发明实施例中的视频处理装置还包括：

输出单元，用于向预设的视频播放平台输出所述待处理视频的简介视频。

需要说明的是，本发明实施例中的视频处理装置可以集成电子设备(例如PC、智能手机、平板电脑和智能电视等)中，此处不作限定。

应理解，本发明实施例中的视频处理装置的各个功能模块的功能可以根据上述方法实施例中的视频处理方法具体实现，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

由上可见，本发明实施例中的视频处理装置通过获取待处理视频的简介信息，并基于该简介信息遍历由该待处理视频的音频文件转换得到的文本文件，从中确定与该简介信息匹配的文本信息，之后根据该文本信息所对应的音频在该待处理视频中的帧位置确定出该待处理视频中的关键帧，基于确定的关键帧生成该处理视频的简介视频，从而实现了基于简介信息的简介视频自动化生成，有效提高了简介视频的生成效率。并且，由于生成该简介视频的关键帧是基于该文本信息所确定的，而该文本信息又与该待处理视频的简介信息相关，因此，基于本发明实施例中的视频处理装置生成的简介视频能在一定程度上体现出待处理视频的简介信息。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置可以通过其它的方式实现。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种视频处理方法和视频处理装置的描述，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频的简介信息；

提取所述待处理视频的音频文件；

将所述音频文件转换为文本文件；

基于确定的关键帧生成所述待处理视频的简介视频。

2.根据权利要求1所述的视频处理方法，其特征在于，所述获取待处理视频的简介信息，包括：

基于所述待处理视频的名称，以网络爬虫方式抓取与所述待处理视频相关的信息集；

从抓取的信息集中提取所述待处理视频的简介信息。

3.根据权利要求2所述的视频处理方法，其特征在于，所述从抓取的信息集中提取所述待处理视频的简介信息，包括：

对所述信息集中的信息进行语义分析，从所述信息集中筛选出符合预设的视频简介语义的候选信息；

提取筛选出的一候选信息作为所述待处理视频的简介信息。

4.根据权利要求3所述的视频处理方法，其特征在于，若筛选出的候选信息为两条以上，则所述提取筛选出的一候选信息作为所述待处理视频的简介信息，包括：

分别计算各条候选信息与所述待处理视频的相关度分数；

提取相关度分数最高的一候选信息作为所述待处理视频的简介信息。

5.根据权利要求1至4任一项所述的视频处理方法，其特征在于，所述基于确定的关键帧生成所述待处理视频的简介视频，之后包括：

向预设的视频播放平台输出所述待处理视频的简介视频。

6.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待处理视频的简介信息；

提取单元，用于提取所述待处理视频的音频文件；

7.根据权利要求6所述的视频处理装置，其特征在于，

所述获取单元包括：

8.根据权利要求7所述的视频处理装置，其特征在于，

所述子提取单元具体用于：对所述信息集中的信息进行语义分析，从所述信息集中筛选出符合预设的视频简介语义的候选信息；提取筛选出的一候选信息作为所述待处理视频的简介信息。

9.根据权利要求8所述的视频处理装置，其特征在于，所述子提取单元具体还用于：当筛选出的候选信息为两条以上时，分别计算各条候选信息与所述待处理视频的相关度分数；提取相关度分数最高的一候选信息作为所述待处理视频的简介信息。

10.根据权利要求9所述的视频处理装置，其特征在于，所述视频处理装置还包括：