CN110366050A

CN110366050A - 视频数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN110366050A
Application number: CN201810317689.9A
Authority: CN
Inventors: 涂畅; 周伟浩
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2019-10-22

Abstract

本发明实施例提供了一种视频数据的处理方法、装置、电子设备及存储介质，以提高视频数据的整理效率。所述的方法包括：通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；通过第二模型对所述向量集合进行处理，得到目标序列；依据所述目标序列生成所述视频数据的视频摘要。能够自动提取片段并合成为视频摘要，避免人工整理的繁琐过程，提高处理效率。

Description

视频数据的处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频数据的处理方法、一种视频数据的处理装置、一种电子设备，以及一种存储介质。

背景技术

视频数据如电影、电视剧等通常都比较长，为了便于用户快速了解视频中的内容，通常会制作视频的摘要数据，例如视频的预告片，文字简介等摘要。

发明人在实现本发明的过程中发现，视频数据的摘要数据通常都是人工整理的，例如预告片通常是通过人工的方式在视频数据中寻找所需的片段并剪辑，再合成一个小视频作为视频摘要，文字简介通常是剧本的大纲等。但是，这样比较浪费人力和时间，整理视频摘要的效率很低。

发明内容

本发明实施例所要解决的技术问题是提供一种视频数据的处理方法，以提高视频数据的整理效率。

相应的，本发明实施例还提供了一种视频数据的处理装置、一种电子设备及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种视频数据的处理方法，包括：通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；通过第二模型对所述向量集合进行处理，得到目标序列；依据所述目标序列生成所述视频数据的视频摘要。

可选的，所述依据所述目标序列生成所述视频数据的视频摘要，包括：依据所述目标序列确定至少一个目标视频片段，其中，所述目标视频片段包括至少一帧视频图像；依据所述至少一个目标视频片段合成所述视频数据的视频摘要。

可选的，所述通过第一模型对视频数据进行处理之前，还包括：对所述视频数据进行分割，得到多个分段视频数据，所述分段视频数据包括至少一帧视频图像。

可选的，所述通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合，包括：通过所述第一模型对所述分段视频数据进行向量化处理，得到所述分段视频数据对应的分段向量；将所述分段向量按照预设的规则构成所述视频数据的向量集合。

可选的，所述通过第二模型对所述向量集合进行处理，得到目标序列，包括：采用所述第二模型对所述向量集合中向量进行识别并分析重点内容，得到由所述视频数据的重点内容对应标识构成的目标序列。

可选的，所述目标序列包括以下至少一种：由重点内容对应各帧图像数据的图像标识构成的目标序列；由重点内容对应分段视频数据的分段标识构成的目标序列。

可选的，依据所述目标序列确定至少一个目标视频片段，包括：针对由重点内容对应各帧图像数据的图像标识构成的目标序列，提取所述目标序列中图像标识对应的视频图像，构成至少一个目标视频片段；或，针对由重点内容对应分段视频数据的分段标识构成的目标序列，将所述分段标识对应的分段视频数据作为目标视频片段。

可选的，所述第一模型包括：卷积神经网络模型；所述第二模型包括：长短期记忆网络模型和注意力模型。

可选的，所述依据所述至少一个目标视频片段合成所述视频数据的视频摘要，包括：将至少一个目标视频片段按照设定顺序进行合成，得到所述视频数据的视频摘要，所述设定顺序包括以下至少一种：时间顺序、内容顺序。

可选的，所述依据所述目标序列生成所述视频数据的视频摘要，包括：针对所述目标序列，获取所述第二模型对应的文本识别结果；依据所述文本识别结果生成所述视频数据对应的文本视频摘要。

本发明实施例还公开了一种数据处理装置，包括：向量处理模块，用于通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；序列生成模块，用于通过第二模型对所述向量集合进行处理，得到目标序列；摘要合成模块，用于依据所述目标序列生成所述视频数据的视频摘要。

可选的，所述摘要合成模块，包括：片段确定子模块，用于依据所述目标序列确定至少一个目标视频片段，其中，所述目标视频片段包括至少一帧视频图像；合成子模块，用于依据所述至少一个目标视频片段合成所述视频数据的视频摘要。

可选的，还包括：视频划分模块，用于对所述视频数据进行分割，得到多个分段视频数据，所述分段视频数据包括至少一帧视频图像。

可选的，所述向量处理模块，用于通过所述第一模型对所述分段视频数据进行向量化处理，得到所述分段视频数据对应的分段向量；将所述分段向量按照预设的规则构成所述视频数据的向量集合。

可选的，所述序列生成模块，用于采用所述第二模型对所述向量集合中向量进行识别并分析重点内容，得到由所述视频数据的重点内容对应标识构成的目标序列。

可选的，所述片段确定子模块，用于针对由重点内容对应各帧图像数据的图像标识构成的目标序列，提取所述目标序列中图像标识对应的视频图像，构成至少一个目标视频片段；或，针对由重点内容对应分段视频数据的分段标识构成的目标序列，将所述分段标识对应的分段视频数据作为目标视频片段。

可选的，所述摘要合成模块，用于将至少一个目标视频片段按照设定顺序进行合成，得到所述视频数据的视频摘要，所述设定顺序包括以下至少一种：时间顺序、内容顺序。

可选的，所述摘要合成模块，包括：片段确定子模块，用于针对所述目标序列，获取所述第二模型对应的文本识别结果；合成子模块，用于依据所述文本识别结果生成所述视频数据对应的文本视频摘要。

本发明实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例所述的视频数据的处理方法。

本发明实施例还提供了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；通过第二模型对所述向量集合进行处理，得到目标序列；依据所述目标序列生成所述视频数据的视频摘要。

可选的，包含用于进行以下操作的指令：所述通过第一模型对视频数据进行处理之前，对所述视频数据进行分割，得到多个分段视频数据，所述分段视频数据包括至少一帧视频图像。

本发明实施例包括以下优点：

本发明实施例可通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合，再通过第二模型对所述向量集合进行处理，得到目标序列，依据目标序列可以得到所述视频数据的视频摘要，能够自动提取片段并合成为视频摘要，避免人工整理的繁琐过程，提高处理效率。

附图说明

图1是本发明的一种视频数据的处理方法实施例的步骤流程图；

图2是本发明的另一种视频数据的处理方法实施例的步骤流程图；

图3是本发明的一种视频数据的处理装置实施例的结构框图；

图4是本发明的另一种视频数据的处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于视频数据的处理的电子设备的结构框图；

图6是本发明实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例基于设定模型对视频数据进行处理，其中，通过模型可对视频数据中的视频图像进行识别，从而能够从视频数据中提取出重点的片段，从而合成得到视频数据的视频摘要，能够有效的提高处理效率。

其中，设定模型包括第一模型和第二模型，其中，第一模型用于对图像进行向量化处理，第二模型用于识别图像内容并提取重点内容。可基于第一模型将视频数据中各视频图像转化为向量，然后采用第二模型对各视频图像的向量进行识别确定出对应的内容，并且从该视频图像中挑选出重点内容对应的视频图像帧，从而得到相应的目标视频片段。

其中，设定模型可依据数学模型通过训练得到，数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型，数学模型是针对参照某种事物系统的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的某种系统的纯关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合，通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外，还有用其他数学工具，如代数、几何、拓扑、数理逻辑等描述的模型。数学模型描述的是系统的行为和特征而不是系统的实际结构。

参照图1，示出了本发明的一种视频数据的处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合。

可将视频数据输入第一模型，通过第一模型的处理得到视频数据对应帧视频图像的向量或视频数据中分段视频的分段向量，从而可整合得到该视频数据的向量集合。

步骤104，通过第二模型对所述向量集合进行处理，得到目标序列。

然后将向量集合中各向量输入到第二模型中，通过第二模型识别各视频图像对应向量的内容，再从中抽取出重点内容对应的目标帧，构成相应的目标序列。

目标可以由视频数据中的重点内容确定，不同视频数据其对应的目标不同，不同类型的视频数据也可具有不同的重点。以电影为例，武侠片可将打斗场景作为重点，爱情片可将感情场景作为重点，恐怖片可将恐怖场景作为重点等。从而能够通过训练模型，使得模型能够自动从视频数据中提取相应场景对应的片段。又如，电影电视等视频数据的播放画面有时会在不同情节、场景之间跳跃，因此可以在一个场景、情节中提取相关的一帧或多帧作为重点内容，实现对终点内容的筛选，得到对应的目标序列。

步骤106，依据所述目标序列生成所述视频数据的视频摘要。

依据该目标序列确定相应帧的视频图像构成目标视频片段，然后将各目标视频片段可进行合成，例如按照时间顺序，又如按照内容等进行合成，然后可以合成得到相应的子视频或者介绍文本等，作为该视频数据的视频摘要，从而能够简要介绍视频的内容。其中，视频摘要指的是该视频数据的摘要信息，如采用介绍文本作为摘要信息，又如采用视频作为摘要信息等。本发明实施例中视频摘要包括：视频形式的摘要信息和文本形式的摘要信息。

例如对于一部电影，可以按照时间顺序合成各目标视频片段，得到视频摘要，作为该电影的预告片。又如将一部电影对应各目标视频片段按照内容进行合成，可以得到男、女主各自的预告，感情预告、剧情预告等多种视频摘要。

综上，通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合，再通过第二模型对所述向量集合进行处理，得到目标序列，依据目标序列得到所述视频数据的视频摘要，能够自动提取片段并合成为视频摘要，避免人工整理的繁琐过程，提高处理效率。

其次，现有技术对于文字介绍等摘要信息通常是依据剧本大纲等生成，但是剧本在拍摄过程中通常会修改，用户在查询一些百科、视频介绍信息等经常会发现与实际剧情不符的问题。而本发明实施例可识别视频的内容来得到文本摘要信息，从而可以提高摘要的准确性，减少出现摘要和实际剧情不符的问题。

视频播放过程中一个场景或情节通常会播放一段时间，因此还可将视频数据按照时间、帧数等规则进行划分，得到相应的分段数据，从而便于后续处理时减少数据量。本发明实施例中，可采用设定模型对视频数据中各帧视频图像进行处理，因此再将视频数据输入设定模型之前，还可对视频数据进行分割，如得到多个分段视频数据，每个分段视频数据包括至少一帧视频图像。其中，分割的方式可依据需求设定，如每1秒、10秒的视频作为一个分段视频数据，或者每1帧、100帧视频图像作为一个分段视频数据等。例如视频数据为A，则可以得到相应的分段视频数据A1，A2，A3，…，An，便于后续对各分段视频数据分别进行处理。其中，分段数据通常是一个场景或情节对应的视频数据，因此各帧视频图像之间往往有部分内容是相同的，因此在后续处理过程中可以取出其中的一帧或几帧进行处理来识别该片段的内容，或者对于一个片段中各帧视频图像相似部分可以依据之前的识别结果确定，并识别视频图像中不同的部分，减少处理的数据量。

本发明实施例中，第一模型可采用各种能够进行图像向量化处理的模型实现，如所述第一模型包括卷积神经网络(Convolutional Neural Network，CNN)模型。所述第二模型可采用各种能够进行图像识别以及提取重点内容的模型实现，例如可在长短期记忆网络(Long Short-Term Memory，LSTM)模型上引入注意力机制，其中，LSTM模型可对图像内容进行识别，注意力机制可进行重点内容的提取，从而实现识别视频中图像的内容并提取重点内容构成视频摘要的目的，则第二模型包括：LSTM模型和注意力(Attention)模型。

其中，卷积神经网络CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现，一个卷积神经网络由很多层组成，如卷积层、池化层等。LSTM是一种时间递归神经网络，能够学习长期依赖关系，可用来处理有时序联系的信息。Attention模型最初应用于图像识别，模仿人看图像时，目光的焦点在不同的物体上移动。当神经网络对图像或语言进行识别时，每次集中于部分特征上，识别更加准确。

本发明实施例以两个模型作为设定模型举例论述，实际处理中还可将上述各种处理模型整合为一个设定模型，或者每一种处理对应一个模型等，本发明实施例对此不作限定。

参照图2，示出了本发明的另一种视频数据的处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202，对所述视频数据进行分割，得到多个分段视频数据，所述分段视频数据包括至少一帧视频图像。

在获取到视频数据后，可对视频数据进行分割，得到多个分段视频数据。其中，分割方式可依据需求设定，如每1、10秒分割一次，又如每1帧或100帧切分一次等，从而得到的分段视频数据可为一段视频，也可为一帧视频图像或多帧视频图像等。

例如视频数据为A，则可以得到相应的分段视频数据A1，A2，A3，…，An，便于后续对各分段视频数据分别进行处理。

步骤204，通过第一模型对所述分段视频数据进行向量化处理，得到所述分段视频数据对应的分段向量。

步骤206，将所述分段向量按照预设的规则构成所述视频数据的向量集合。

为了便于进行图像的识别，可以对视频数据中视频图像进行向量化处理。因此对于分割得到的各分段视频数据，可将各分段视频数据分别输入第一模型，通过第一模型对分段视频数据中各帧视频图像进行处理，得到分段视频数据对应的分段向量，其中，每个分段视频数据包括一帧或多帧视频图像，该分段视频数据的分段向量可依据视频图像确定。例如分段视频数据包括一帧视频图像，则该分段视频数据的分段向量为该帧视频图像的向量，若分段视频数据包括多帧视频图像，则该分段视频数据的分段向量可基于分段视频数据中每一帧或设定帧确定。例如将每一小段分段视频数据Ai通过CNN模型，通过该CNN模型对各帧视频图像中的像素点进行处理，可转化得到对应的分段向量Bi，然后可以将分段向量按照设定的规则进行整合，如按照视频数据对应时间顺序整合等，得到所述视频数据的向量集合。

例如，上述分段视频数据A1，A2，A3，…，An，可通过CNN模型进行处理，转化得到一组分段向量B1，B2，B3，…，Bn。可将上述分段向量按照按照在视频数据中的时间先后顺序，构成向量集合，也可作为一个输入序列(B1，B2，B3，…，Bn)。

步骤208，采用第二模型对所述向量集合中向量进行识别并分析重点内容，得到由所述视频数据的重点内容对应标识构成的目标序列。

将向量集合中各向量作为输入序列输入到第二模型中，采用第二模型对向量集合中各帧视频图像对应的向量进行识别，识别出图像中的内容，如两个男人打斗，又如一个小狗在奔跑等，并且该第二模型还能够依据所识别出各帧视频图像的内容，提取出重点内容，以及重点内容对应的标识，从而基于所提取的标识可构成一个或多个目标序列。

所述目标序列包括以下至少一种：由重点内容对应各帧图像数据的图像标识构成的目标序列；由重点内容对应分段视频数据的分段标识构成的目标序列。

本发明一个可选实施例中，在将向量集合输入到第二模型后，每个向量可作为一个独立的个体进行图像识别，得到该向量对应视频图像的内容，从向量对应的多帧视频图像中提取重点内容，从而得到相应视频图像的图像标识构成目标序列。其中，图像标识可为图像帧编号、时间戳等能够唯一指示一个视频图像的标识信息。其中，为了保持视频的特性，可提取向量对应帧视频图像及其关联帧视频图像的图像标识到目标序列中，如以向量对应帧视频图像为中心取前后30帧视频图像的图像标识添加到目标序列中，又如以该帧视频图像为起点获取后50帧视频图像的图像标识添加到目标序列中，或者依据内容选择连续的N帧视频图像的图像标识添加到目标序列等，从而便于构成一小段视频。

本发明另一个可选实施例中，将向量集合输入到第二模型后，每个向量可作为一个独立的个体进行内容识别，得到该向量对应的一段视频内容，可以通过对每个向量的识别，得到该向量对应分段视频数据的视频内容，然后以每个分段视频数据为单位进行重点内容的提取，该重点内容对应分段视频数据的分段标识可构成目标序列，其中，分段标识用于唯一指示一个分段视频数据。

例如，可在深度学习的LSTM模型中引入注意力机制，如采用LSTM模型和注意力模型共同训练得到第二模型，使得第二模型能够基于重点选择向量，如基于LSTM模型识别向量得到对应帧图像数据的内容，并基于注意力模型选择重点内容。其中，可从输入的n个分段视频数据对应分段向量中，重点选择出一部分分段视频数据的分段标识，构成输出序列，例如选择出k个片段，则目标序列包括A3，A4，A14，A100，…，An。

例如通过第二片段从动作电影中识别出打斗的片段作为重点，又如从爱情电影中识别出男女主相处的片段作为重点等。

步骤210，依据所述目标序列确定至少一个目标视频片段。

基于上述目标序列可获取相应的视频图像构成目标视频片段，从而得到一个或多个目标视频片段，其中，每一个目标视频片段可以看作一小段视频。

其中，针对由重点内容对应各帧图像数据的图像标识构成的目标序列，提取所述目标序列中图像标识对应的视频图像，构成至少一个目标视频片段。对于目标序列中的图像标识，可以获取各图像标识对应的视频图像，然后将图像数据按照时间顺序构成至少一个目标视频片段。其中，若按照上述获取重点内容的视频图像及其关联帧视频图像的图像标识，则这些重点内容的视频图像及其关联帧图像可构成目标视频片段，从而得到多个目标视频片段。

针对由重点内容对应分段视频数据的分段标识构成的目标序列，将所述分段标识对应的分段视频数据作为目标视频片段。若目标序列包括分段标识，则每个分段标识对应的分段视频数据即可为一个目标视频片段，如获取该分段标识对应分段视频数据的视频图像构成目标视频片段，或者直接获取分割的相应分段视频数据等，从而目标序列中包括多个分段视频数据，即可得到多个目标视频片段。

步骤212，将至少一个目标视频片段按照设定顺序进行合成，得到所述视频数据的视频摘要。

将各目标视频片段按照设定顺序进行合成，其中，可按照时间前后顺序，或者按照内容顺序等进行合成，得到所述视频数据的视频摘要。

上述图2的实施例以生成视频形式的摘要信息为例，实际处理中还可生成文本形式的摘要信息，其中，所述依据所述目标序列生成所述视频数据的视频摘要，包括：针对所述目标序列，获取所述第二模型对应的文本识别结果；依据所述文本识别结果生成所述视频数据对应的文本视频摘要。依据所述目标序列确定至少一个目标视频片段，然后可以依据第二模型得到所述至少一个目标视频片段的文本识别结果，其中，该文本识别结果可在第二模型输出目标序列时同步输出，每个目标分段数据的分段标识对应文本识别结果。然后采用该文本识别结果生成相应的文本视频摘要，例如按照目标序列中各视频片段的顺序整理文本视频摘要，又如依据内容顺序整理文本视频摘要等。

本发明一个示例中，假设100分钟的视频数据B需要得到视频摘要，可将该视频数据B分割为多个分段视频数据，如按照5秒为间隔进行分割，则可得到100*60/5＝1200个分段视频数据。将这些分段视频数据分别输入到CNN模型中进行处理，得到1200个分段向量，采用这些分段向量构成该视频数据B的向量集合。然后将向量集合B输入到由LSTM模型和注意力模型构成的第二模型中，从而通过第二模型可识别出每个分段向量中各帧视频图像对应的内容，从而得到对应分段视频数据的内容，再基于各分段视频数据的内容识别出重点内容对应的分段视频数据的分段标识，将各分段标识构成目标序列。基于该目标序列可提取相应分数数据作为目标分段数据，从而按照设定顺序构成子视频或文本介绍等作为视频摘要。

本发明的另一个示例中，假设100分钟的视频数据B需要得到视频摘要，可将该视频数据B分割为多个分段视频数据，如每帧视频图像分割为一个分段视频数据。将这些分段视频数据分别输入到CNN模型中进行处理，从而可以分段向量即各视频图像对应的向量，采用这些向量构成该视频数据B的向量集合。然后将向量集合B输入到由LSTM模型和注意力模型构成的第二模型中，从而通过第二模型可识别出每个向量对应帧视频图像对应的内容，再基于各帧视频图像的内容识别出重点内容，基于该重点内容对应视频图像及关联帧视频图像的图像标识构成目标序列。基于该目标序列可提取视频图像及关联帧视频图像构成一个或多个目标分段数据，从而按照设定顺序构成子视频或文本介绍等作为视频摘要。

本发明实施例中，设定模型可为预先训练好的模型，其中，可基于预先获取的视频数据及其视频摘要作为训练数据进行模型训练，如从数据库或网络抓取视频数据及其视频摘要等，通过模型训练获取能够进行处理的设定模型，从而基于设定模型自动生成视频数据的视频摘要。

本发明实施例可基于深度学习的CNN模型、LSTM模型以及注意力机制等，根据跳跃时间点的目标序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要输出，从而为视频自动生成视频摘要。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本发明实施例还提供了一种视频数据的处理装置，应用于终端设备、服务器等电子设备中。

参照图3，示出了本发明的一种视频数据的处理装置实施例的结构框图，具体可以包括如下模块：

向量处理模块302，用于通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合。

序列生成模块304，用于通过第二模型对所述向量集合进行处理，得到目标序列。

摘要合成模块306，用于依据所述目标序列生成所述视频数据的视频摘要。

综上，通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合，再通过第二模型对所述向量集合进行处理，得到目标序列，依据目标序列确定至少一个目标视频片段，其中，所述目标视频片段包括至少一帧视频图像，从而从视频数据中提取出所需的片段，然后将至少一个目标视频片段进行合成，得到所述视频数据的视频摘要，自动提取片段并合成为视频摘要，避免人工整理的繁琐过程，提高处理效率。

参照图4，示出了本发明的另一种视频数据的处理装置实施例的结构框图，具体可以包括如下模块：

视频划分模块308，用于对所述视频数据进行分割，得到多个分段视频数据，所述分段视频数据包括至少一帧视频图像。

所述摘要合成模块306包括：片段确定子模块3062和合成子模块3064。

一个可选实施例中，所述片段确定子模块3062，用于依据所述目标序列确定至少一个目标视频片段，其中，所述目标视频片段包括至少一帧视频图像。所述合成子模块3064，用于依据所述至少一个目标视频片段合成所述视频数据的视频摘要。

另一个可选实施例中，所述片段确定子模块3062，用于针对所述目标序列，获取所述第二模型对应的文本识别结果。所述合成子模块3064，用于依据所述文本识别结果生成所述视频数据对应的文本视频摘要。

其中，所述第一模型包括：卷积神经网络CNN模型；所述第二模型包括：长短期记忆网络LSTM模型和注意力(Attention)模型。

所述向量处理模块302，用于通过第一模型对所述分段视频数据进行向量化处理，得到所述分段视频数据对应的分段向量；将所述分段向量按照预设的规则构成所述视频数据的向量集合。

所述序列生成模块304，用于采用第二模型对所述向量集合中向量进行识别并分析重点内容，得到由所述视频数据的重点内容对应标识构成的目标序列。其中，所述目标序列包括以下至少一种：由重点内容对应各帧图像数据的图像标识构成的目标序列；由重点内容对应分段视频数据的分段标识构成的目标序列。

所述片段确定子模块3062，用于针对由重点内容对应各帧图像数据的图像标识构成的目标序列，提取所述目标序列中图像标识对应的视频图像，构成至少一个目标视频片段；或，针对由重点内容对应分段视频数据的分段标识构成的目标序列，将所述分段标识对应的分段视频数据作为目标视频片段。

所述摘要合成模块306，用于将至少一个目标视频片段按照设定顺序进行合成，得到所述视频数据的视频摘要，所述设定顺序包括以下至少一种：时间顺序、内容顺序。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5是根据一示例性实施例示出的一种用于视频数据的处理的电子设备500的结构框图。例如，电子设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，电子设备500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制电子设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为电子设备500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当电子设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为电子设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为电子设备500的显示器和小键盘，传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变，用户与电子设备500接触的存在或不存在，电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由电子设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种输入方法，所述方法包括：通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；通过第二模型对所述向量集合进行处理，得到目标序列；依据所述目标序列生成所述视频数据的视频摘要。

图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器800上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种输入方法和装置、一种电子设备以及一种存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频数据的处理方法，其特征在于，包括：

通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；

通过第二模型对所述向量集合进行处理，得到目标序列；

依据所述目标序列生成所述视频数据的视频摘要。

2.根据权利要求1所述的方法，其特征在于，所述依据所述目标序列生成所述视频数据的视频摘要，包括：

依据所述目标序列确定至少一个目标视频片段，其中，所述目标视频片段包括至少一帧视频图像；

依据所述至少一个目标视频片段合成所述视频数据的视频摘要。

3.根据权利要求1所述的方法，其特征在于，通过第一模型对视频数据进行处理之前，还包括：

对所述视频数据进行分割，得到多个分段视频数据，所述分段视频数据包括至少一帧视频图像。

4.根据权利要求3所述的方法，其特征在于，所述通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合，包括：

通过所述第一模型对所述分段视频数据进行向量化处理，得到所述分段视频数据对应的分段向量；

将所述分段向量按照预设的规则构成所述视频数据的向量集合。

5.根据权利要求1所述的方法，其特征在于，所述通过第二模型对所述向量集合进行处理，得到目标序列，包括：

采用所述第二模型对所述向量集合中向量进行识别并分析重点内容，得到由所述视频数据的重点内容对应标识构成的目标序列。

6.根据权利要求2所述的方法，其特征在于，所述目标序列包括以下至少一种：

由重点内容对应各帧图像数据的图像标识构成的目标序列；

由重点内容对应分段视频数据的分段标识构成的目标序列。

7.根据权利要求6所述的方法，其特征在于，依据所述目标序列确定至少一个目标视频片段，包括：

针对由重点内容对应各帧图像数据的图像标识构成的目标序列，提取所述目标序列中图像标识对应的视频图像，构成至少一个目标视频片段；或，

针对由重点内容对应分段视频数据的分段标识构成的目标序列，将所述分段标识对应的分段视频数据作为目标视频片段。

8.根据权利要求1-7任一所述的方法，其特征在于，所述第一模型包括：卷积神经网络模型；所述第二模型包括：长短期记忆网络模型和注意力模型。

9.根据权利要求1所述的方法，其特征在于，所述依据所述至少一个目标视频片段合成所述视频数据的视频摘要，包括：

将至少一个目标视频片段按照设定顺序进行合成，得到所述视频数据的视频摘要，所述设定顺序包括以下至少一种：时间顺序、内容顺序。

10.根据权利要求1所述的方法，其特征在于，所述依据所述目标序列生成所述视频数据的视频摘要，包括：

针对所述目标序列，获取所述第二模型对应的文本识别结果；

依据所述文本识别结果生成所述视频数据对应的文本视频摘要。

11.一种数据处理装置，其特征在于，包括：

向量处理模块，用于通过第一模型对视频数据进行处理，得到所述视频数据对应的向量集合；

序列生成模块，用于通过第二模型对所述向量集合进行处理，得到目标序列；

摘要合成模块，用于依据所述目标序列生成所述视频数据的视频摘要。

12.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-10任一所述的视频数据的处理方法。

13.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

通过第二模型对所述向量集合进行处理，得到目标序列；

依据所述目标序列生成所述视频数据的视频摘要。