CN108683924B

CN108683924B - 一种视频处理的方法和装置

Info

Publication number: CN108683924B
Application number: CN201810539152.7A
Authority: CN
Inventors: 马龙飞
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2021-12-28
Anticipated expiration: 2038-05-30
Also published as: CN108683924A

Abstract

本发明实施例提供了一种视频处理的方法和装置，所述方法包括：获取目标视频数据；从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；针对每个第一字幕片段，确定对应的第一字幕向量；将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息。通过本发明实施例，实现了基于视频字幕，自动生成视频的内容描述，提升了内容描述生成的效率，减少了人力成本。

Description

一种视频处理的方法和装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频处理的方法和装置。

背景技术

随着互联网技术的发展，电视剧、电影等视频资源越来越多，且部分视频资源的篇幅较长，用户若完整观看需要花费用户大量的时间。

目前，对于没有时间观看视频，或者，不想完整观看视频的用户，通常可以采用人工的方式，即由工作人员在观看视频资源后，用语言文字总结出视频资源的主要内容，并发布给需要观看的用户。

然而，这种人工的方式通常只针对热度较高的视频资源，不可能对每个视频资源进行总结，且每次总结都需要工作人员完整观看该视频资源，效率低且花费大量的人力成本。

发明内容

鉴于上述问题，提出了本发明实施例以便提供克服上述问题或者至少部分地解决上述问题的一种视频处理的方法和装置。

为了解决上述问题，本发明实施例公开了一种视频处理的方法，所述方法包括：

获取目标视频数据；

从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；

针对每个第一字幕片段，确定对应的第一字幕向量；

将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息。

可选地，所述基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段的步骤包括：

分别确定多个第一关键帧对应的第一播放时间点；

针对每个第一关键帧，将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段；

从所述目标视频数据的字幕信息中，提取出所述第一播放时段对应的字幕，得到一个或多个第一字幕片段。

可选地，所述从所述目标视频数据中，确定多个第一关键帧的步骤包括：

确定所述目标视频数据中每个图像帧对应的第一特征向量；其中，所述每个图像帧按在所述目标视频数据中的播放顺序进行排列；

根据所述第一特征向量，确定多个第一关键帧。

可选地，所述根据所述第一特征向量，确定多个第一关键帧的步骤包括：

针对相邻图像帧，计算所述第一特征向量的差异值；其中，所述相邻图像帧为相邻排列的两个图像帧；

当检测到所述差异值大于预设差异值时，将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧，作为第一关键帧。

可选地，所述针对每个第一字幕片段，确定对应的第一字幕向量的步骤包括：

分别对所述一个或多个第一字幕片段进行分词处理，并对所述分词处理后的第一字幕片段进行去重处理，得到一个或多个字词；

针对每个第一字幕片段，以所述一个或多个字词的数量为向量长度，对所述第一字幕片段进行编码，得到对应的第一字幕向量。

可选地，在所述获取目标视频数据的步骤之前，还包括：

获取样本视频数据；

从所述样本视频数据中，确定多个第二关键帧，并基于所述多个第二关键帧，将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段；

针对每个第二字幕片段，确定对应的第二字幕向量和内容描述向量；

采用基于注意力机制的循环神经网络，对所述第二字幕向量和所述内容描述向量进行训练，以建立数据模型。

本发明实施例还提供了一种视频处理的装置，所述装置包括：

目标视频数据获取模块，用于获取目标视频数据；

第一字幕片段确定模块，用于从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；

第一字幕向量确定模块，用于针对每个第一字幕片段，确定对应的第一字幕向量；

内容描述信息生成模块，用于将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息。

可选地，所述第一字幕片段确定模块包括：

第一播放时间点确定子模块，用于分别确定多个第一关键帧对应的第一播放时间点；

第一播放时段确定子模块，用于针对每个第一关键帧，将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段；

第一字幕片段提取子模块，用于从所述目标视频数据的字幕信息中，提取出所述第一播放时段对应的字幕，得到一个或多个第一字幕片段。

可选地，所述第一字幕片段确定模块还包括：

第一关键帧确定子模块，用于确定所述目标视频数据中每个图像帧对应的第一特征向量；其中，所述每个图像帧按在所述目标视频数据中的播放顺序进行排列；

第一关键帧确定子模块，用于根据所述第一特征向量，确定多个第一关键帧。

可选地，所述第一关键帧确定子模块包括：

差异值计算单元，用于针对相邻图像帧，计算所述第一特征向量的差异值；其中，所述相邻图像帧为相邻排列的两个图像帧；

第一关键帧作为单元，用于当检测到所述差异值大于预设差异值时，将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧，作为第一关键帧。

可选地，所述第一字幕向量确定模块包括：

分词去重子模块，用于分别对所述一个或多个第一字幕片段进行分词处理，并对所述分词处理后的第一字幕片段进行去重处理，得到一个或多个字词；

编码子模块，用于针对每个第一字幕片段，以所述一个或多个字词的数量为向量长度，对所述第一字幕片段进行编码，得到对应的第一字幕向量。

可选地，还包括：

样本视频数据获取模块，用于获取样本视频数据；

第二字幕片段确定模块，用于从所述样本视频数据中，确定多个第二关键帧，并基于所述多个第二关键帧，将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段；

向量确定模块，用于针对每个第二字幕片段，确定对应的第二字幕向量和内容描述向量；

数据模型建立模块，用于采用基于注意力机制的循环神经网络，对所述第二字幕向量和所述内容描述向量进行训练，以建立数据模型。

本发明实施例包括以下优点：

在本发明实施例中，通过获取目标视频数据，从目标视频数据中，确定多个第一关键帧，并基于多个第一关键帧，将目标视频数据的字幕信息划分为一个或多个第一字幕片段，然后针对每个第一字幕片段，确定对应的第一字幕向量，将第一字幕向量输入预先建立的数据模型，并接收数据模型输出针对目标视频数据的内容描述信息，实现了基于视频字幕，自动生成视频的内容描述，提升了内容描述生成的效率，减少了人力成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种视频处理的方法的步骤流程图；

图2是本发明实施例的另一种视频处理的方法的步骤流程图；

图3是本发明实施例的一种图像帧的示意图；

图4是本发明实施例的另一种视频处理的方法的步骤流程图；

图5是本发明实施例的一种Encoder-Decoder架构的示意图；

图6是本发明实施例的一种视频处理的装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明实施例的一种视频处理的方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取目标视频数据；

作为一种示例，目标视频数据可以为电视剧、电影、监控录像等。

在本发明实施例中，客户端可以向服务器获取视频数据列表，并展示给用户，视频数据列表可以包括多个视频数据的标识。

当用户需要获知视频数据列表中某个视频数据的视频内容时，如某一集电视剧的剧情，其可以在客户端中选定目标视频数据的标识，客户端可以将目标视频数据的标识发送至服务器，服务器可以获取目标视频数据，或者，服务器也可以根据后台人员的操作直接获取目标视频数据。

步骤102，从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；

由于目标视频数据是由多个图像帧组成，而相邻的图像帧之间可能表征同一视频内容，服务器可以对各个图像帧进行特征检测，并可以根据特征检测的结果，从多个图像帧中确定第一关键帧。

在确定第一关键帧后，可以获取目标视频数据的字幕信息，然后可以根据第一关键帧对应的播放时间点，将字幕信息划分为一个或多个字幕片段。

步骤103，针对每个第一字幕片段，确定对应的第一字幕向量；

在获得第一字幕片段后，可以对该第一字幕片段进行编码转换，得到对应的第一字幕向量，以便于数据模型进行处理。

步骤104，将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息。

作为一种示例，内容描述信息可以为文本信息。

在获得第一字幕向量后，服务器可以将每个第一字幕片段对应的第一字幕向量输入数据模型，数据模型可以将分别确定每个第一字幕向量对应的内容描述信息，并可以将每个第一字幕向量对应的内容描述信息组织成针对目标视频数据的内容描述信息。

参照图2，示出了本发明实施例的另一种视频处理的方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取目标视频数据；

步骤202，确定所述目标视频数据中每个图像帧对应的第一特征向量；其中，所述每个图像帧按在所述目标视频数据中的播放顺序进行排列；

其中，每个图像帧可以按在目标视频数据中的播放顺序进行排列。

在获得目标视频数据后，服务器可以对目标视频数据进行解码，从中提取出组成目标视频数据的多个图像帧。

针对每个图像帧，服务器可以采用卷积神经网络(Convolutional NeuralNetwork，CNN)，如采用训练好的VGG16模型，分别对图像帧进行图像特征提取，如可以在前几层抽取图像的底层边缘特征，如图像的垂线等，后续层逐渐抽取更抽象的特征，进而得到每个图像帧对应的第一特征向量。

步骤203，根据所述第一特征向量，确定多个第一关键帧；

由于相邻的图像帧之间可能表征同一视频内容，而表征同一视频内容的图像帧对应的第一特征向量的差异较小，服务器可以根据第一特征向量的差异，从目标视频数据的多个图像帧中确定第一关键帧。

具体的，步骤203可以包括如下子步骤：

子步骤11，针对相邻图像帧，计算所述第一特征向量的差异值；其中，所述相邻图像帧为相邻排列的两个图像帧；

其中，相邻图像帧可以为相邻排列的两个图像帧。

针对相邻排列的两个图像帧，服务器可以按照预设的差异值公式，计算两个图像帧对应的第一特征向量的差异值。

例如，相邻排列的两个图像帧对应的第一特征向量分别为：A＝[1，2，3]，B＝[4，5，6]，则差异值为：

子步骤12，当检测到所述差异值大于预设差异值时，将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧，作为第一关键帧。

由于图像帧是按在目标视频数据中的播放顺序进行排列，当检测到差异值大于预设差异值时，则可以将相邻排列的两个图像帧中排列在后的图像帧，作为第一关键帧，得到至少两个关键帧。

需要说明的是，为了保证目标视频数据的完整性，可以将在目标视频数据中的播放顺序排列为第一个的图像帧，作为一个第一关键帧，即将目标视频数据的第一个图像帧作为第一关键帧，也可以将按在目标视频数据中的播放顺序排列为最后一个的图像帧，作为一个第一关键帧，即将目标视频数据的最后一个图像帧作为第一关键帧。

如图3，在图像帧的示意图中，可以将第一个图像帧a、差异值大于预设差异值的图像帧b、c，以及最后一个图像帧d，作为第一关键帧。

步骤204，分别确定多个第一关键帧对应的第一播放时间点；

在目标视频数据中，每个图像帧与播放时间相对应，在确定第一关键帧后，可以确定每个第一关键帧对应的第一播放时间点，如1分30秒。

步骤205，针对每个第一关键帧，将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段；

由于每个图像帧可以按在目标视频数据中的播放顺序进行排列，多个第一关键帧之间也可以按在目标视频数据中的播放顺序进行排列，针对每个第一关键帧，可以将该第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段。

例如，第一关键帧对应的第一播放时间点为1分30秒，该第一关键帧的后一个第一关键帧对应的播放时间点为2分30秒，则第一播放时段为1分30秒至2分30秒。

步骤206，从所述目标视频数据的字幕信息中，提取出所述第一播放时段对应的字幕，得到一个或多个第一字幕片段；

在目标视频数据中，字幕信息与播放时间相对应，在确定第一播放时段后，可以从字幕信息中提取出第一播放时段对应的字幕，得到一个或多个第一字幕片段。

步骤207，针对每个第一字幕片段，确定对应的第一字幕向量；

具体的，步骤207可以包括如下子步骤：

子步骤21，分别对所述一个或多个第一字幕片段进行分词处理，并对所述分词处理后的第一字幕片段进行去重处理，得到一个或多个字词；

在具体实现中，可以对第一字幕片段进行切分，然后再去除其中重复的字词，得到一个或多个字词。

例如，第一字幕片段包括文本a“我爱故宫”和文本b“北京故宫”，对文本a进行分词处理后，得到“我”、“爱”、“故宫”3个字词，对文本b进行分词处理后，得到“北京”、“故宫”2个字词，然后进行去重处理，得到“我”、“爱”、“北京”、“故宫”4个字词。

子步骤22，针对每个第一字幕片段，以所述一个或多个字词的数量为向量长度，对所述第一字幕片段进行编码，得到对应的第一字幕向量。

在获得一个或多个字词后，可以统计一个或多个字词的数量，然后可以以该数量为向量长度，对第一字幕片段进行编码，如独热编码(One-Hot Encoding)，并在编码后，组织成第一字幕向量。

例如，“我”、“爱”、“北京”、“故宫”为4个字词，向量长度为4，则对文本a进行独热编码为：[1，0，0，0]、[0，1，0，0]、[0，0，0，1]，对文本b进行独热编码为：、[0，0，1，0]、[0，0，0，1]。

步骤208，将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息。

在获得第一字幕向量后，服务器可以将每个第一字幕片段对应的第一字幕向量输入数据模型，数据模型可以将分别确定每个第一字幕向量对应的内容描述信息，并将每个第一字幕向量对应的内容描述信息组织成针对目标视频数据的内容描述信息。

在一种示例中，可以根据第一播放时段，确定每个第一字幕片段对应的视频片段，并建立每个第一字幕向量对应的内容描述信息与视频片段的关联关系，以将该内容描述信息作为该视频片段的文本摘要，便于用户获取视频片段的视频内容。

而且，通过分别确定多个第一关键帧对应的第一播放时间点，然后针对每个第一关键帧，将第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段，并提取出第一播放时段对应的第一字幕片段，实现了基于图像特征对字幕进行划分，并采用划分后的字幕生成内容描述，保证内容描述的准确性、完整性。

参照图4，示出了本发明实施例的另一种视频处理的方法的步骤流程图，具体可以包括如下步骤：

步骤401，获取样本视频数据；

在本发明实施例中，服务器可以获得多个样本数据视频，以进行模型训练，建立数据模型，如样本视频数据可以为电视剧、电影、监控录像等。

步骤402，从所述样本视频数据中，确定多个第二关键帧，并基于所述多个第二关键帧，将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段；

在获得样本视频数据后，可以确定目标视频数据中每个图像帧对应的第二特征向量，并可以根据第二特征向量，确定多个第二关键帧。

在一种示例中，可以针对相邻图像帧，计算第二特征向量的差异值，当检测到差异值大于预设差异值时，将差异值大于预设差异值对应的相邻图像帧中后一个图像帧，作为第二关键帧。

在确定第二关键帧后，可以分别确定多个第二关键帧对应的第二播放时间点，针对每个第二关键帧，可以将第二关键帧与后一个第二关键帧对应的第二播放时间点组成第二播放时段，然后可以从目标视频数据的字幕信息中，提取出第二播放时段对应的字幕，得到一个或多个第二字幕片段。

步骤403，针对每个第二字幕片段，确定对应的第二字幕向量和内容描述向量；

在获得第二字幕片段后，可以将分别对一个或多个第二字幕片段进行分词处理，并对分词处理后的第二字幕片段进行去重处理，得到一个或多个字词，然后针对每个第二字幕片段，以一个或多个字词的数量为向量长度，对第二字幕片段进行编码，得到对应的第二字幕向量。

针对每个第二字幕片段，可以获取对应的原始内容描述，然后可以对原始内容描述进行分词处理，并对分词处理后的原始内容描述进行去重处理，得到一个或多个字词，然后以一个或多个字词的数量为向量长度，对原始内容描述进行编码，得到每个第二字幕片段对应的内容描述向量。

作为一种示例，原始内容描述可以为文本信息，其可以为后台工作人员在人工观看每个第二播放时段对应的视频数据后，采用人工标注的方式输入原始内容描述，以表征每个第二字幕片段对应的视频内容。

需要说明的是，由于步骤402、步骤403中关于第二关键帧、第二字幕片段、第二字幕向量的部分与上文中关于第一关键帧、第一字幕片段、第一字幕向量的部分相对应，相关术语和描述可以参考上文，此处不再重复。

步骤404，采用基于注意力机制的循环神经网络，对所述第二字幕向量和所述内容描述向量进行训练，以建立数据模型。

在本发明实施例中，可以采用Encoder-Decoder架构进行模型训练，Encoder-Decoder架构即为编码-解码模型，如图5，编码即为将输入序列X转化成一个固定长度的向量C，如将输入的第二字幕片段转化成第二字幕向量，解码即为将之前生成的固定向量C再转化成输出序列Y，如第二字幕向量再转化成内容描述信息。

其中，Encoder可以采用卷积神经网络，Encoder输出即为上文中的第二字幕向量和内容描述向量，Decoder可以采用循环神经网络(Recurrent Neural Networks，RNN)，Encoder的输出可以作为Decoder的输入。

在模型训练的过程中，可以在Decoder中采用基于注意力机制的循环神经网络，注意力机制可以通过调整模型参数，确定字幕中的关注位置，然后基于调整后的模型参数，建立数据模型。

例如，在第二字幕片段为“C罗在冲突围追拦截后，从左边轻轻带过，来到球门前轻轻一脚踢进了这一球”时，由于文本内容很长，若不加入注意力机制则可能会在读入很长的文本后会遗忘前面的内容，注意力机制使得模型在看到文本时，将注意力集中在“C罗踢进一球”的部分。

在生成内容描述信息的过程中，注意机制可以进行注意力运算，计算字幕片段中文本对应的softmax概率，将softmax概率最大的文本作为关注位置，得到对应的内容描述信息，从而使得数据模型能够输出更加流畅、更具有逻辑性的内容描述信息。

例如，在上一刻输出的内容描述信息为“爱”时，通过注意力机制，数据模型会关注第二字幕片段中“故宫”的文本，得到当前的内容描述信息为“故宫”。

又如，在上述“C罗在冲突围追拦截后，从左边轻轻带过，来到球门前轻轻一脚踢进了这一球”的例子中，Decoder在读入末尾的“球”词汇时，注意力记住会关注在前面的“C罗”和“踢进”，抓住了文本的重点。

在本发明实施例中，通过获取样本视频数据，从样本视频数据中，确定多个第二关键帧，并基于多个第二关键帧，将样本视频数据的字幕信息划分为一个或多个第二字幕片段，然后针对每个第二字幕片段，确定对应的第二字幕向量和内容描述向量，采用基于注意力机制的循环神经网络，对第二字幕向量和内容描述向量进行训练，以建立数据模型，实现了采用视频字幕进行模型训练，且通过引入注意力机制，保证了数据模型生成内容描述的流畅性、逻辑性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明实施例的一种视频处理的装置的结构框图，具体可以包括如下模块：

目标视频数据获取模块601，用于获取目标视频数据；

第一字幕片段确定模块602，用于从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；

第一字幕向量确定模块603，用于针对每个第一字幕片段，确定对应的第一字幕向量；

内容描述信息生成模块604，用于将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息。

在本发明一种实施例中，所述第一字幕片段确定模块602包括：

在本发明一种实施例中，所述第一字幕片段确定模块602还包括：

在本发明一种实施例中，所述第一关键帧确定子模块包括：

在本发明一种实施例中，所述第一字幕向量确定模块603包括：

在本发明一种实施例中，还包括：

样本视频数据获取模块，用于获取样本视频数据；

在本发明实施例中，通过设置目标视频数据获取模块，用于获取目标视频数据，设置第一字幕片段确定模块，用于从目标视频数据中，确定多个第一关键帧，并基于多个第一关键帧，将目标视频数据的字幕信息划分为一个或多个第一字幕片段，并设置第一字幕向量确定模块，用于针对每个第一字幕片段，确定对应的第一字幕向量，设置内容描述信息生成模块，用于将第一字幕向量输入预先建立的数据模型，并接收数据模型输出针对所述目标视频数据的内容描述信息，实现了基于视频字幕，自动生成视频的内容描述，提升了内容描述生成的效率，减少了人力成本。

本发明实施例还公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的一种视频处理的方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的一种视频处理的方法的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频处理的方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理的方法，其特征在于，所述方法包括：

获取目标视频数据；

从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧对应的播放时间点，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；

针对每个第一字幕片段，确定对应的第一字幕向量；

将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息；

其中，所述从所述目标视频数据中，确定多个第一关键帧的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一关键帧，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段的步骤包括：

分别确定多个第一关键帧对应的第一播放时间点；

3.根据权利要求1或2所述的方法，其特征在于，所述针对每个第一字幕片段，确定对应的第一字幕向量的步骤包括：

4.根据权利要求1所述的方法，其特征在于，在所述获取目标视频数据的步骤之前，还包括：

获取样本视频数据；

5.一种视频处理的装置，其特征在于，所述装置包括：

目标视频数据获取模块，用于获取目标视频数据；

第一字幕片段确定模块，用于从所述目标视频数据中，确定多个第一关键帧，并基于所述多个第一关键帧对应的播放时间点，将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段；

内容描述信息生成模块，用于将所述第一字幕向量输入预先建立的数据模型，并接收所述数据模型输出针对所述目标视频数据的内容描述信息；

其中，所述第一字幕片段确定模块还包括：

第一关键帧确定子模块，用于确定所述目标视频数据中每个图像帧对应的第一特征向量；其中，所述每个图像帧按在所述目标视频数据中的播放顺序进行排列；针对相邻图像帧，计算所述第一特征向量的差异值；其中，所述相邻图像帧为相邻排列的两个图像帧；当检测到所述差异值大于预设差异值时，将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧，作为第一关键帧。

6.根据权利要求5所述的装置，其特征在于，所述第一字幕片段确定模块包括：

7.根据权利要求5或6所述的装置，其特征在于，所述第一字幕向量确定模块包括：

8.根据权利要求5所述的装置，其特征在于，还包括：

样本视频数据获取模块，用于获取样本视频数据；