CN110113677A

CN110113677A - 视频主题的生成方法和装置

Info

Publication number: CN110113677A
Application number: CN201810102238.3A
Authority: CN
Inventors: 钱允忠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2019-08-09

Abstract

本申请公开了一种视频主题的生成方法和装置。该视频主题的生成方法包括：获取视频生成条件；获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；利用所述关键帧生成视频主题。本发明实施例提出的视频主题的生成方法和装置，能够自动把一部长视频根据视频生成条件——例如内容看点、人物介绍、人物关系、剧情介绍等，将视频文件利用内容特征进行帧的筛选，浓缩成一部或多部短视频，可以根据用户的兴趣提取相关的视频内容，避免了人工处理视频造成的费时、不准确的问题，为生成视频主题提供了方便。

Description

视频主题的生成方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种视频主题的生成方法和装置。

背景技术

视频作为多媒体信息载体，是现今社会人们获取信息的重要手段。相对于文字和图片，视频能够承载更多的信息，更快捷准确地表达所需要表达的内容。

作为视频生成的过程，视频的拍摄者通过摄像装置，将原始素材(例如多帧画面和对应的音频)采集并存储于摄像装置中，并利用视频生成工具处理这些原始视频，使之生成指定格式的视频文件，供观看者观看。

但是，现有技术中，视频的观看者很难直接从一段视频中一眼看出该视频的大致内容。使用者无法必须看完全部内容，才能了解视频的内容和自己关心的部分。

为了解决这个问题，现在市场上出现很多的视频处理软件，把一部长视频处理成一部或多部短视频，生成视频主题，供使用者快速获取视频内容，如：Pinnacle Studio、会声会影、SmartSound、Adobe Premiere、Pinnacle Edition等软件。这些软件都有一个共同的特点，就是需要人工参与，需要专业的视频处理师进行处理。在人工处理前，必须先看完整部视频，了解视频的内容信息才能进行裁剪，存在效率低下的问题；此外，针对同一个视频文件，如果希望生成不同侧重点的视频文件，人工处理必须重复观看视频，进一步造成了效率低下的问题。

发明内容

鉴于上述问题，本发明一实施例提出一种视频主题的生成方法和装置，以解决现有技术存在的问题。

为了解决上述问题，本申请一实施例公开一种视频主题的生成方法，包括：

获获取视频生成条件；

获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；

将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；

利用所述关键帧生成视频主题。

获取视频生成条件；

确定视频文件中与所述视频生成条件匹配的视频帧；

利用确定出的所述视频帧生成视频主题。

为解决上述问题，本发明实施例还提出一种视频主题的生成装置，包括：

获取模块，用于获取视频生成条件；

特征提取模块，用于获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；

关键帧筛选模块，用于将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；

生成模块，用于利用所述关键帧生成视频主题。

获取模块，用于获取视频生成条件；

确定模块，用于确定视频文件中与所述视频生成条件匹配的视频帧；

生成模块，用于利用确定出的所述视频帧生成视频主题。

由上述可知，本申请实施例包括以下优点：

本发明实施例提出的视频主题的生成方法和装置，能够自动把一部长视频根据视频生成条件——例如内容看点、人物介绍、人物关系、剧情介绍等，将视频文件利用内容特征进行帧的筛选，浓缩成一部或多部短视频，可以根据用户的兴趣提取相关的视频内容，生成视频主题，避免了人工处理视频造成的费时、不准确的问题，为生成视频主题提供了极大的便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例的视频主题的生成方法的流程图。

图2是本申请实施例的视频主题生成方法的界面示意图。

图3是本申请第二实施例的视频主题的生成方法的流程图。

图4是本申请第二实施例的视频主题的生成方法中步骤S203的子步骤的流程图。

图5是本申请第二实施例的视频主题的生成方法中步骤S202的子步骤的流程图。

图6是本申请第二实施例的视频主题的生成方法中步骤S201的子步骤的流程图。

图7是本申请第三实施例的视频主题的生成方法的流程图。

图8是本申请第四实施例的视频主题的生成装置的方框图。

图9是本申请第五实施例的视频主题的生成装置的方框图。

图10是本申请第六实施例的视频主题的生成装置的方框图。

图11示意性地示出了用于执行根据本发明的方法的服务器的框图；以及

图12示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请的核心思想之一在于，提出一种视频主题的生成方法，通过获取视频文件的视频帧对应的内容特征，利用内容特征选取匹配视频生成条件的视频帧，生成视频主题。视频主题是指能够反映视频至少某一方面内容的、长度小于原视频文件的缩短后视频文件，也称为短视频、视频缩略等。

以下通过多个实施例详细进行说明。

第一实施例

本发明第一实施例提出一种视频主题的生成方法。图1所示为本发明第一实施例的视频主题的生成方法的步骤流程图，图2是本申请实施例的视频主题生成方法的界面示意图。结合图1和图2所示，本发明实施例的视频主题的生成方法包括如下步骤：

S101，获取视频生成条件；

在这一步骤中，执行主体，例如用于生成视频主题的客户端或者服务器，可以获得需要生成的视频主题的视频生成条件。视频生成条件例如可以包括内容看点、人物、剧情等，在特定视频中，还可以包括具体的视频内容相关的信息。

例如图2所示，在该视频主题生成程序的人机交互界面中，可以预先设置多个视频生成条件供操作者选择，这些视频生成条件可以作为关键词推荐给用户，该生成条件例如是的内容看点(例如图2所示的合约、医院)、人物(例如图2所示的“A女士”、“B男士”)、剧情(例如图2所示的“情感纠纷”、“剧情主线”等)等。在该生成界面中，也可以设置默认生成条件(例如当用户不进行选择时，设定“剧情主线”为默认)，或者由操作者进行输入，如图2中的“请输入关键词”的条目。本发明并不以此为限。

S102，获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；

在这一步骤中可以针对多个视频帧分别提取内容特征，或者从存储区域(例如本地或者远端的存储单元)获取事先提取的、分别针对多个视频帧的内容特征。上述的内容特征可以包括从视频帧的图像中获得的图像内容，和从音频中获得的台词内容识别后获得的文本内容，或者从视频文件的内嵌或外挂字幕中获得的字幕内容理解后获得文本内容。

视频帧的图像和音频内容例如可以通过下述方式获得：

由于业界存在多个视频编码标准，也就对应地存在多种内容特征的获取方式。例如按照视频封装协议，生成基于时间轴的视频文件，可以为如下格式：

“视频起始符+视频数据1(图像数据)+视频结束符+音频起始符+音频数据1+音频结束符+视频起始符+视频数据2+视频结束符+音频起始符+音频数据2+音频结束符……”

因此，可以从上述两个视频起始符之间获得视频数据，从两个音频起始符之间获得音频数据，再将获得的视频数据和音频数据对应到每一视频帧。例如每一帧的时间长度为1/24秒，则所获取的0秒-1/24秒之间的视频数据作为第一帧视频帧的图像数据；所获取的0秒-1/24秒之间的音频数据作为第一帧视频帧的音频数据。此外，一些视频文件中包含内嵌或者外挂的字幕。可以从视频文件中提取字幕，获得文本内容。

在获得了视频帧的图像和音频之后，可以通过下述方式获得图像内容和文本内容：

图像内容：图像内容例如为图像轮廓特征，可以利用现有的图像算法，例如利用机器学习的卷积神经网络模型，获得多个视频帧的每一帧的图像轮廓特征。在获取图像轮廓特征之后，可以利用至少一个预置的主题图像信息与该视频帧中获得的图像内容进行标记。例如，预置的主题图像信息包括医院场景、A女士头像、B男士头像、合约签署场景等图像，当视频帧中出现对应的内容时，例如出现A女士的特写时，通过卷积神经网络模型判断该帧图像与A女士头像相符，可以将该视频帧标记为“A女士”，并将该标记作为该被标记的视频帧的图像内容。再例如，当视频帧中出现医院场景时，通过卷积神经网络模型判断该帧图像与医院场景相符，可以将该视频帧标记为“医院场景”，并将该标记作为该被标记的视频帧的图像内容。

文本内容：文本内容可以通过字幕或者音频获得。例如，可以获取视频的字幕，生成文本内容；也可以将音频——例如台词进行内容识别，将语义转化为文字，获得文本内容。在另一种情况下，当视频画面中出现文字时，可以利用机器学习的卷积神经网络模型识别文字的内容，记录该视频帧的图像中出现的文本内容。例如在一些电视剧中，当首次出现某一人物时，会在人物旁边标注姓名。可以利用机器学习的卷积神经网络模型识别出人物旁标注的姓名，作为该视频帧对应的文本内容。

值得注意的是，由于一帧视频帧的时间很短，例如只有1/24秒，而一句台词的长度可能为数秒。因此一句台词可以对应于数帧视频，即同一文本内容可以对应于数帧视频。在操作中，可以记录起始帧、终止帧等信息，并将这些视频帧对应于同一文本内容。

S103，将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；

在步骤S101中已获取了操作者输入的或者默认设置的视频生成条件，在这一步骤中，可以根据步骤S102获取的内容特征与这一视频生成条件匹配，将能够匹配的视频帧作为关键帧。

例如，当视频生成条件设定为主演“A女士”，则可以将多个视频帧中内容特征包括A女士的视频帧选择作为关键帧。再例如，当视频生成条件设定为“公司合并”，则将文本内容包括“公司合并”的视频帧作为关键帧。例如，获得台词或字幕内容中出现“听说A公司和B公司合并了”的多个视频帧的视频帧的起始帧、终止帧的位置，之后通过起始帧、终止帧的位置信息，从保存的全部视频帧中取出对应范围的视频帧，作为关键帧。

S104，利用所述关键帧生成视频主题。

在这一步骤中，在从多个视频帧中筛选出上述关键帧之后，可以利用时间轴将上述筛选出的视频帧进行排序，并经过编码获得视频主题。同样地，利用关键帧生成视频主题也可以不是按照时间排列的，而是利用主题内容等其他方式。

可选地，在步骤S101之前，所述方法还可以包括：

S100，获得待生成视频主题的视频文件。

在这一步骤中，执行主体可以通过导入或者从云端抓取的方式，获得需要生成视频主题的视频文件，视频文件包括多个视频帧。

通过上述可知，本发明第一实施例提出的视频主题的生成方法至少具有如下技术效果：

本发明实施例提出的视频主题的生成方法和装置，能够自动根据视频生成条件——例如内容看点、人物介绍、人物关系、剧情介绍等，将视频文件的视频帧童年过内容特征进行帧的筛选，浓缩成一部或多部短视频，本发明提供的方案可以根据用户的兴趣或者备选的主题提取相关的视频内容，避免了人工处理视频造成的费时、不准确的问题，非常方便。

第二实施例

本发明第二实施例提出一种视频主题的生成方法。图2所示为本发明第二实施例的视频主题的生成方法的步骤流程图。如图2所示，本发明实施例的视频主题的生成方法如下步骤：

S203，获取视频生成条件；

S204，获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；

S205，将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；

S208，利用所述关键帧生成视频主题。

上述步骤S203至步骤S205与上一实施例的步骤S101至步骤S103相同或相似，上述步骤S208与上一实施例的步骤S104相同或相似，在此不再赘述。本实施例重点说明与上一实施例的不同之处。

在本实施例的视频主题的生成方法的一可选实施例中，所述内容特征包括图像内容，如图4所示，所述步骤S204，即获取视频文件的多个视频帧对应的内容特征的步骤，例如可以包括如下子步骤：

S204a，利用至少一个预置主题图像信息，对所述多个视频帧中的至少一个视频帧进行标记；

S204b，将所述标记作为被标记的视频帧的图像内容。

在子步骤S204a中，举例来说，预置主题图像信息包括医院场景、A女士头像、B男士头像、合约签署场景等图像，当视频帧中出现对应的内容时，例如出现A女士的特写时，通过卷积神经网络模型判断该帧图像与A女士头像相符，可以将该视频帧标记为“A女士”，并将该标记作为图像内容。再例如，当视频帧中出现医院场景时，通过卷积神经网络模型判断该帧图像与医院场景相符，可以将该视频帧标记为“医院场景”，并将该标记作为图像内容。之后在步骤S204b中，将上述标记——“A女士”、“医院场景”等作为视频帧的图像内容。

在本发明视频主题生成方法的一个可选实施例中，所述内容特征包括文本内容，所述步骤S204，即获取视频文件的多个视频帧对应的内容特征的步骤例如可以包括如下子步骤：

S204c，获取所述视频文件的音频数据；

S204d，对所述音频数据进行内容识别，获得文本内容。

在步骤S204c中，可以从视频文件中抓取视频帧对应的音频数据(例如台词内容)；在步骤S204d中，可以根据音频数据进行内容识别，例如利用现有的音频识别方式将该音频内容转换为文字，获得文本内容。将音频转化为文本内容的方式是本领域技术人员可以获知的，在此不再赘述。

S204e，判断该视频帧是否对应字幕信息；

S204f，当该视频帧对应字幕信息时，获得该视频帧对应的字幕信息相关的文本内容。

在上述步骤S204e中，可以在视频文件的信息中进行查找，确认是否对应字幕信息，例如确认视频文件包括了字幕。

字幕可以为内嵌的字幕或者外挂的字幕。当字幕为内嵌时，可以从视频文件中通过与音频相同的获取方式，获取字幕；当字幕为外挂时，该外挂字幕通常可以作为独立的文件存储。在这种方式下，可以获取外挂的字幕。在步骤S204f中，可以将字幕作为相应的文本内容。例如，某一段字幕作为文本内容，对应若干视频帧。

需要注意的是，上述的步骤S204a至S204b、步骤S204c和S204d、步骤S204e和S204f可以单独执行。即，步骤S204可以包括上述任意一组，或者上述三组之间的两两组合、三组的组合。本发明并不限定必须全部执行。

在本发明视频主题生成方法的一个可选实施例中，所述步骤S204，即获取视频文件的视频帧对应的内容特征的步骤之前，所述方法还可以包括如下步骤：

S200，从多个视频帧中选择满足筛选条件的视频帧。

在这一步骤中，可以通过预先筛选的方式，初步筛选出符合条件的视频帧，这样的处理能够避免针对过多的视频帧进行计算，降低计算装置的计算量。

在本发明视频主题生成方法的一个可选实施例中，所述步骤S200即从多个视频帧中选择满足筛选条件的视频帧的步骤例如可以包括如下子步骤：

S200a，确定该视频帧的图像质量；

S200b，从多个视频帧中选择图像质量满足阈值条件的视频帧。

在这一步骤中，视频帧的图像质量可以通过视频帧的分辨率来衡量。例如在RTP/RTMP的传输格式的视频文件中，在视频文件的active SPS的码流的第一位SPS中，存在pic_width-in-mbs-minus1和pic_height-in_map_units-minus1这两项数据，可以通过这两项数据计算出视频帧的分辨率，用于衡量视频帧的图像质量。

此外，图像质量还可以包括视频帧的数据量、图像压缩率等，该数据量和图像压缩率可以直接从视频文件的视频帧的关联信息中计算获得或者直接获得，在此不再赘述。

在步骤S200a中，可以通过视频文件中的视频帧相关的信息计算出视频帧的图像质量，再在子步骤S200b中选择满足阈值条件——例如图像质量高于某一指定值，作为筛选出的视频帧，用于后续选取关键帧。

在本发明视频主题生成方法的另一个可选实施例中，所述S200即从多个视频帧中选择满足筛选条件的视频帧的步骤例如可以包括如下子步骤：

S200c获取视频文件对应的至少一个人物图像；

S200d，判断该视频帧中是否包括人像；

S200e，当该视频帧的图像中包括人像时，判断该人像是否与其中一个人物图像匹配；

S200f，当判断为匹配时，将所述视频帧作为满足筛选条件的视频帧。

在步骤S200c中，可以通过视频文件的附带信息，获取视频文件相关的人物列表，例如演员列表等。根据演员列表，获取部分或全部的演员的人物图像，例如头像、全身像等。在步骤S200d中，可以通过机器学习的方式，识别视频帧中是否有人像存在。之后，在步骤S200e可以中判断视频帧的人像是否与获取的至少一个演员的人像匹配。当匹配时，在步骤S200f中将该视频帧作为筛选出的视频帧，用于后续选取关键帧。

在这一步骤中，视频文件的附带信息可以是与视频文件关联的信息，例如：数字化视频、编码格式、视频时长、视频图像质量分、视频语言、视频总帧数、帧率、视频是否带字幕。这些附带信息可以保存在本地或者远端的特定的存储位置，并与视频文件相关联。

在本发明视频主题生成方法的一个可选实施例中，所述步骤S200即从多个视频帧中选择满足筛选条件的视频帧的步骤还可以包括如下子步骤：

S200g，判断该视频文件是否包括字幕；

S200h，当该视频文件包括字幕时，获得该视频文件的字幕文字；

S200h，针对多个视频帧，判断视频帧的字幕文字是否与所述视频生成条件匹配；

S200j，当所述字幕文字与所述视频生成条件匹配时，将所述视频帧作为满足筛选条件的视频帧。

在步骤S200g和S200h中，与步骤S202f和S202g相似地，在预筛选阶段也可以利用字幕来进行筛选。利用已有的字幕可以快捷、方便地与视频生成条件匹配，获得与视频生成条件相匹配的视频帧，作为预筛选出的视频帧，用于后续选取关键帧。

需要注意的是，上述的步骤S200a和S200b、步骤S200c至S200f、步骤S200g至S200j可以单独执行。即，步骤S200的预筛选步骤可以包括上述任意一组，或者上述三组之间的两两组合、三组的组合。本发明并不限定必须全部执行。

在本发明视频主题生成方法的一个可选实施例中，在步骤S200即从多个视频帧中选择满足筛选条件的视频帧的步骤之后，例如在步骤S204即获取视频文件的视频帧对应的内容特征的步骤之前，所述方法还可以包括如下步骤：

S201，判断满足筛选条件的视频帧中是否存在相似帧；

S202，当存在相似帧时，根据指定条件从所述相似帧中选择其中一帧作为满足筛选条件的视频帧。

在步骤S200的预筛选中可能因为字幕、图像等选取出多个相似帧，例如同一字幕内容可以对应多个视频帧。在步骤S201中，可以通过图像色差、透明度、台词的含义等来判断所选的多个视频帧是否为相似的关键帧。当相似度高于指定值时，认为两个或多个视频帧是相似的。在步骤S202中，可以选择其中一帧作为满足筛选条件的视频帧，剔除多个相似帧中的其余帧。选择的依据可以是根据图像质量等，在此不再赘述。

在本发明视频主题生成方法的一个可选实施例中，所述步骤S205即将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧的步骤之后，所述方法还可以包括如下步骤：

S206，判断所选的关键帧中的前后两个关键帧的相似度；

S207，当所述相似度不满足相似度阈值时，在所述前后两个关键帧之间插入补充视频帧。

在这一步骤中，举例来说，可以通过帧和帧之间的场景切换是否相差很大(例如场景切换的幅度超出了特定的阈值)，前一帧的声音是否正常结束等方法来判断内容是否跳跃和/或连贯性是否低于指定值，从而获得前后两个关键帧的相似度阈值。如果跳跃非常大或者连贯性低,可以认为相似度不满足相似度阈值。作为一种解决方式，可以通过图像以及声音的相似度计算，在所述前后两个关键帧之间插入补充视频帧，补全视频帧。

在本发明视频主题生成方法的一个可选实施例中，所述S208即利用所述关键帧生成视频主题的步骤之后，所述方法还包括：

S209，判断所述视频主题的长度是否大于指定时长；

S210，当所述视频主题的长度大于指定时长时，对所述视频主题进行裁剪。

在这一步骤中，可以检查当前短视频的时长是否是满足输入值(例如图2操作者输入的内容)，若不满足，可以在视频头部和尾部进行平均裁剪，保证视频长度在阈值以下。

在本发明视频主题生成方法的一个可选实施例中，步骤S208，即利用所述关键帧生成视频主题的步骤可以包括：

将所述多个关键帧编码，生成视频主题。

在这一步骤中，可以利用现有的多种方式对筛选出的关键帧进行编码，从而生成视频主题。

综上所述，本实施例提出的视频主题的生成方法至少具有如下优点：

本发明实施例提出的视频主题的生成方法，能够自动把一部长视频根据视频生成条件——例如内容看点、人物介绍、人物关系、剧情介绍等，将视频文件利用内容特征进行帧的筛选，浓缩成一部或多部短视频，可以根据用户的兴趣提取相关的视频内容，避免了人工处理视频造成的费时、不准确的问题，非常方便。

除此之外，本实施例提出的视频主题的生成方法至少还包括如下优点：

在本发明可选实施例中，增加了视频帧的初步筛选的步骤，通过相对简单的预筛选可以大量去除不相关的视频帧，在后续进行内容特征的匹配时可以减少执行主体的计算量。

此外，通过从视频文件相关的信息中提取所需要的信息，例如演员表等，与视频帧的内容做出匹配，可以高效、准确地筛选出与主题相关的视频帧。再者，在筛选之后可以对相似帧进行去重，以避免重复，也可以通过算法增加或删除视频图像帧，保证内容的连贯性，同时可以对超出指定时间长度的视频主题进行平均裁剪，保证了生成的视频主题时间可控。

第三实施例

本发明第三实施例提出了一种视频主题的生成方法，如图7所示，该方法可以包括如下步骤：

S1001，获取视频生成条件；

S1002，确定视频文件中与所述视频生成条件匹配的视频帧；

在这一步骤中，可以从视频文件的多个视频帧中选择与视频生成条件匹配的视频帧，用于后续生成视频主题。

例如，视频生成条件为视频帧的属性满足指定要求，例如视频帧的数据量大于特定值，或者视频帧关联的字幕的数据量大于特定值，表示这一视频帧的画面清晰度比较高，或者信息量较大；因此可以根据生成条件确定出与生成条件相匹配的视频帧，用于生成视频主题。

或者，这一步骤中可以获取视频文件的多个视频帧对应的内容特征，内容特征例如可以包括图像内容和/或文本内容等，再将所述内容特征与所述视频生成条件匹配的视频帧作为所确定出的视频帧；并在后续利用所确定出的视频帧生成视频主题。

S1003，利用确定出的所述视频帧生成视频主题。

在这一步骤中，在从视频文件中确定出视频帧之后，可以利用时间轴将上述筛选出的视频帧进行排序，并经过编码，生成符合视频生成条件的视频主题。同样地，利用确定出的视频帧生成视频主题的过程中，视频帧也可以不是按照时间排列的，而是利用主题内容等其他方式对视频帧进行排列。

由上述可知，本发明实施例提出的视频主题的生成方法，可以根据视频生成条件——例如用户的兴趣提取相关的视频内容，确定出视频文件中与生成条件匹配的视频帧，并根据确定出的视频帧自动把一部长视频浓缩成一部或多部短视频，避免了人工处理视频造成的费时、不准确的问题，为生成视频帧提供了方便。

第四实施例

本发明第四实施例提出一种视频主题的生成装置，如图8所示，该装置包括：

获取模块701，用于获取视频生成条件；

特征提取模块702，用于获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；

关键帧筛选模块703，用于将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；

生成模块704，用于利用所述关键帧生成视频主题。

本实施例提出的视频主题生成装置至少具有如下优点：

本发明实施例提出的视频主题的生成装置，能够自动把一部长视频根据视频生成条件——例如内容看点、人物介绍、人物关系、剧情介绍等，将视频文件利用内容特征进行帧的筛选，浓缩成一部或多部短视频，可以根据用户的兴趣提取相关的视频内容，避免了人工处理视频造成的费时、不准确的问题，非常方便。

第五实施例

本发明第五实施例提出一种视频主题的生成装置，如图9所示，该装置包括：

获取模块801，用于获取视频生成条件；

特征提取模块802，用于获取视频文件的多个视频帧对应的内容特征，所述内容特征包括图像内容和/或文本内容；

关键帧筛选模块803，用于将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；

生成模块804，用于利用所述关键帧生成视频主题。

在本发明视频主题生成装置的一个实施例中，所述内容特征包括图像内容，所述特征提取模块802例如可以包括如下子模块：

标记子模块，用于利用至少一个预置主题图像信息，对所述多个视频帧中的至少一个视频帧进行标记；

选取子模块，用于将所述标记作为被标记的视频帧的图像内容。

在本发明视频主题生成装置的一个实施例中，所述内容特征包括文本内容，所述特征提取模块802例如可以包括：

音频数据获取子模块，用于获取所述视频文件的音频数据；

识别子模块，用于对所述音频数据进行内容识别，获得文本内容。

字幕判断模块，用于判断该视频帧是否对应字幕信息；

文本内容获取模块，用于当该视频帧对应字幕信息时，获得该视频帧的字幕对应的文本内容。

在本发明视频主题生成装置的一个实施例中，所述装置还包括：

筛选模块805，用于从多个视频帧中选择满足筛选条件的视频帧。

在本发明视频主题生成装置的一个实施例中，所述筛选模块805例如可以包括：

图像质量计算子模块，用于确定视频帧的图像质量；

图像质量筛选子模块，用于从多个视频帧中选择图像质量满足阈值条件的视频帧。

人物图像获取子模块，用于获取视频文件对应的人物图像；

人像判断子模块，用于判断该视频帧中是否包括人像；

第一匹配判断子模块，用于当该视频帧的图像中包括人像时，判断该人像是否与其中一个人物图像匹配；

第一选取子模块，用于当判断为匹配时，将所述视频帧作为满足筛选条件的视频帧。

字幕判断子模块，用于判断该视频文件是否包括字幕；

字幕文字获取子模块，用于当该视频文件包括字幕时，获得该视频文件的字幕文字；

第二匹配判断子模块，用于针对多个视频帧，判断视频帧对应的字幕文字是否与所述视频生成条件匹配；

第二选取子模块，用于当所述字幕文字与所述视频生成条件匹配时，将所述视频帧作为满足筛选条件的视频帧。

在本发明视频主题生成装置的一个实施例中，所述装置还可以包括：

相似帧判断模块806，用于判断满足筛选条件的视频帧中是否存在相似帧；

筛选模块807，用于当存在相似帧时，根据指定条件从所述相似帧中选择其中一帧作为满足筛选条件的视频帧。

相似度判断模块808，用于判断所选的关键帧中的前后两个关键帧的相似度；

视频帧插入模块809，用于当所述相似度不满足相似度阈值时，在所述前后两个关键帧之间插入补充视频帧。

长度判断模块810，用于判断所述视频主题的长度是否大于指定时长；

裁剪模块811，用于当所述视频主题的长度大于指定时长时，对所述视频主题进行裁剪。

在本发明视频主题生成装置的一个实施例中，所述生成模块还用于将所述多个关键帧编码，生成视频主题。

综上所述，本实施例提出的视频主题生成装置至少具有如下优点：

本发明实施例提出的视频主题的生成方法和装置，能够自动把一部长视频根据视频生成条件——例如内容看点、人物介绍、人物关系、剧情介绍等，将视频文件利用内容特征进行帧的筛选，浓缩成一部或多部短视频，可以根据用户的兴趣提取相关的视频内容，避免了人工处理视频造成的费时、不准确的问题，非常方便。

除此之外，本实施例提出的视频主题生成装置至少还包括如下优点：

在本发明可选实施例中，通过关键帧初步筛选，可以大量去除不相关的视频帧，在后续进行内容特征的匹配时可以减少执行主体的计算量。

此外，通过从视频文件相关的信息中提取所需要的信息，例如演员表等，与视频帧的内容做出匹配，可以高效、准确地筛选出与主题相关的视频帧。

再者，在筛选之后可以对相似帧进行去重，以避免重复，也可以通过算法增加或删除视频图像帧，保证内容的连贯性，同时可以对超出指定时间长度的视频主题进行平均裁剪，保证了生成的视频主题时间可控。

第六实施例

本发明第六实施例提出一种视频主题的生成装置，如图10所示，该装置包括：

获取模块1101，用于获取视频生成条件；

确定模块1102，用于确定视频文件中与所述视频生成条件匹配的视频帧；

生成模块1103，用于利用确定出的视频帧生成视频主题。

由上述可知，本发明实施例提出的视频主题的生成装置，可以根据视频生成条件——例如用户的兴趣提取相关的视频内容，确定出视频文件中与生成条件匹配的视频帧，并根据确定出的视频帧自动把一部长视频浓缩成一部或多部短视频，避免了人工处理视频造成的费时、不准确的问题，为生成视频帧提供了方便。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

图11为本申请一实施例提供的终端设备的硬件结构示意图。如图11所示，该终端设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器93中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述处理器91例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。

可选的，上述输入设备90可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；可选的，上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中数据处理装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图12为本申请另一实施例提供的终端设备的硬件结构示意图。图12是对图11在实现过程中的一个具体的实施例。如图12所示，本实施例的终端设备包括处理器101以及存储器102。

处理器101执行存储器102所存放的计算机程序代码，实现上述实施例中图1至图7的视频主题的生成方法。

存储器102被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。存储器102可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，处理器101设置在处理组件100中。该终端设备还可以包括：通信组件103，电源组件104，多媒体组件105，音频组件106，输入/输出接口107和/或传感器组件108。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件100通常控制终端设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令，以完成上述图1至图7方法的全部或部分步骤。此外，处理组件100可以包括一个或多个模块，便于处理组件100和其他组件之间的交互。例如，处理组件100可以包括多媒体模块，以方便多媒体组件105和处理组件100之间的交互。

电源组件104为终端设备的各种组件提供电力。电源组件104可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件105包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件106被配置为输出和/或输入音频信号。例如，音频组件106包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中，音频组件106还包括一个扬声器，用于输出音频信号。

输入/输出接口107为处理组件100和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件108包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件108可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件108可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件108还可以包括摄像头等。

通信组件103被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务端建立通信。

由上可知，在图12实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图9实施例中的输入设备的实现方式。

本申请实施例提供了一种终端设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如本申请实施例中一个或多个所述的视频主题的生成方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频主题的生成方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频主题的生成方法，其特征在于，包括：

获取视频生成条件；

将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；以及

利用所述关键帧生成视频主题。

2.根据权利要求1所述的方法，其特征在于，所述内容特征包括图像内容，所述获取视频文件的多个视频帧对应的内容特征的步骤包括：

利用至少一个预置主题图像信息，对所述多个视频帧中的至少一个视频帧进行标记；

将所述标记作为被标记的视频帧的图像内容。

3.根据权利要求1所述的方法，其特征在于，所述内容特征包括文本内容，所述获取视频文件的多个视频帧对应的内容特征的步骤包括：

获取所述视频文件的音频数据；

对所述音频数据进行内容识别，获得文本内容。

4.根据权利要求1所述的方法，其特征在于，所述内容特征包括文本内容，所述获取视频文件的多个视频帧对应的内容特征的步骤包括：

判断该视频帧是否对应字幕信息；

当该视频帧对应字幕信息时，获得该视频帧对应的字幕信息相关的文本内容。

5.根据权利要求1所述的方法，其特征在于，所述获取视频文件的多个视频帧对应的内容特征的步骤之前，所述方法还包括：

从多个视频帧中选择满足筛选条件的视频帧。

6.根据权利要求5所述的方法，其特征在于，所述从多个视频帧中选择满足筛选条件的视频帧的步骤包括：

确定视频帧的图像质量；

从多个视频帧中选择图像质量满足阈值条件的视频帧。

7.根据权利要求5所述的方法，其特征在于，所述从多个视频帧中选择满足筛选条件的视频帧的步骤包括：

获取视频文件对应的至少一个人物图像；

判断该视频帧中是否包括人像；

当该视频帧中包括人像时，判断该人像是否与其中一个人物图像匹配；

当判断为匹配时，将所述视频帧作为满足筛选条件的视频帧。

8.根据权利要求5所述的方法，其特征在于，所述从多个视频帧中选择满足筛选条件的视频帧的步骤包括：

判断该视频文件是否包括字幕；

当该视频文件包括字幕时，获得该视频文件的字幕文字；

针对多个视频帧，判断视频帧的字幕文字是否与所述视频生成条件匹配；

当所述字幕文字与所述视频生成条件匹配时，将所述视频帧作为满足筛选条件的视频帧。

9.根据权利要求5所述的方法，其特征在于，在从多个视频帧中选择满足筛选条件的视频帧的步骤之后，所述方法还包括：

判断满足筛选条件的视频帧中是否存在相似帧；

当存在相似帧时，根据指定条件从所述相似帧中选择其中一帧作为满足筛选条件的视频帧。

10.根据权利要求1所述的方法，其特征在于，将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧的步骤之后，所述方法还包括：

判断所选的关键帧中的前后两个关键帧的相似度；

当所述相似度不满足相似度阈值时，在所述前后两个关键帧之间插入补充视频帧。

11.根据权利要求1所述的方法，其特征在于，利用所述关键帧生成视频主题的步骤之后，所述方法还包括：

判断所述视频主题的长度是否大于指定时长；

当所述视频主题的长度大于指定时长时，对所述视频主题进行裁剪。

12.根据权利要求1所述的方法，其特征在于，利用所述关键帧生成视频主题的步骤包括：

将所述多个关键帧编码，生成视频主题。

13.一种视频主题的生成方法，其特征在于，包括：

获取视频的生成条件；

确定视频文件中与所述视频生成条件匹配的视频帧；以及

利用确定出的所述视频帧生成视频主题。

14.一种视频主题的生成装置，其特征在于，包括：

获取模块，用于获取视频生成条件；

关键帧筛选模块，用于将所述内容特征与所述视频生成条件匹配的视频帧作为关键帧；以及

生成模块，用于利用所述关键帧生成视频主题。

15.根据权利要求14所述的装置，其特征在于，所述内容特征包括图像内容，所述特征提取模块包括：

16.根据权利要求14所述的装置，其特征在于，所述内容特征包括文本内容，所述特征提取模块包括：

音频数据获取子模块，用于获取所述视频文件的音频数据；

17.根据权利要求14所述的装置，其特征在于，所述内容特征包括文本内容，所述特征提取模块包括：

字幕判断模块，用于判断该视频帧是否对应字幕信息；

文本内容获取模块，用于当该视频帧对应字幕信息时，获得该视频帧的字幕相关的文本内容。

18.根据权利要求14所述的装置，其特征在于，所述装置还包括：

筛选模块，用于从多个视频帧中选择满足筛选条件的视频帧。

19.根据权利要求18所述的装置，其特征在于，所述筛选模块包括：

图像质量计算子模块，用于确定视频帧的图像质量；

图像质量分筛选子模块，用于从多个视频帧中选择图像质量满足阈值条件的视频帧。

20.根据权利要求18所述的装置，其特征在于，所述筛选模块包括：

人物图像获取子模块，用于获取视频文件对应的至少一个人物图像；

人像判断子模块，用于判断该视频帧中是否包括人像；

21.根据权利要求18所述的装置，其特征在于，所述筛选模块包括：

字幕判断子模块，用于判断该视频文件是否包括字幕；

第二匹配判断子模块，用于针对多个视频帧，判断视频帧的字幕文字是否与所述视频生成条件匹配；

22.根据权利要求18所述的装置，其特征在于，所述装置还包括：

相似帧判断模块，用于判断满足筛选条件的视频帧中是否存在相似帧；

筛选模块，用于当存在相似帧时，根据指定条件从所述相似帧中选择其中一帧作为满足筛选条件的视频帧。

23.根据权利要求14所述的装置，其特征在于，所述装置还包括：

相似度判断模块，用于判断所选的关键帧中的前后两个关键帧的相似度；

插入模块，用于当所述相似度不满足相似度阈值时，在所述前后两个关键帧之间插入补充视频帧。

24.根据权利要求14所述的装置，其特征在于，所述装置还包括：

长度判断模块，用于判断所述视频主题的长度是否大于指定时长；

裁剪模块，用于当所述视频主题的长度大于指定时长时，对所述视频主题进行裁剪。

25.根据权利要求14所述的装置，其特征在于，所述生成模块用于：

将所述多个关键帧编码，生成视频主题。

26.一种视频主题的生成方法，其特征在于，包括：

获取模块，用于获取视频生成条件；

确定模块，用于确定视频文件中与所述视频生成条件匹配的视频帧；以及

生成模块，用于利用确定出的视频帧生成视频主题。

27.一种终端设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如权利要求1-13中一个或多个所述的方法。

28.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如权利要求1-13中一个或多个所述的方法。