CN110929094A

CN110929094A - 一种视频标题处理方法和装置

Info

Publication number: CN110929094A
Application number: CN201911144894.0A
Authority: CN
Inventors: 韩庆宏
Original assignee: Beijing Shannon Huiyu Technology Co Ltd
Current assignee: Beijing Shannon Huiyu Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-27
Anticipated expiration: 2039-11-20
Also published as: CN110929094B

Abstract

本发明提供了一种视频标题处理方法和装置，其中，该方法包括：获取视频片段和所述视频片段的音频文本；从所述视频片段的音频文本中提取出所述视频片段的关键信息；利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示；利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题。通过本发明实施例提供的视频标题处理方法和装置，可以降低生成视频标题时的人工成本，提高视频标题的生成效率。

Description

一种视频标题处理方法和装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种视频标题处理方法和装置。

背景技术

目前，随着近几年视频信息的爆发式增长，人们每天都能够接触到海量的视频片段(如新闻视频、影视作品、自媒体自拍视频等)，从大量视频片段中提取出视频片段的重要内容，成为一个迫切需求。生成视频标题便是一种高效的解决手段，视频标题旨在视频片段基础上得到包含视频关键信息的文本，以对视频片段的内容进行概括描述。用户通过阅读视频标题快速了解视频片段的内容。

为了生成视频片段的视频标题，需要由人工浏览视频片段，概括出视频片段的中心思想，并以概括出的中心思想作为视频片段的视频标题。

生成视频片段的视频标题的过程由人工完成，具有人工成本高且效率低的缺陷。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种视频标题处理方法和装置。

第一方面，本发明实施例提供了一种视频标题处理方法，包括：

获取视频片段和所述视频片段的音频文本；

从所述视频片段的音频文本中提取出所述视频片段的关键信息；

利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示；

利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题。

第二方面，本发明实施例还提供了一种视频标题处理装置，包括：

获取模块，用于获取视频片段和所述视频片段的音频文本；

提取模块，用于从所述视频片段的音频文本中提取出所述视频片段的关键信息；

处理模块，用于利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示；

生成模块，用于利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题_。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种视频标题处理装置，所述视频标题处理装置包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行上述第一方面所述的方法的步骤。

本发明实施例上述第一方面至第四方面提供的方案中，通过从视频片段的音频文本中提取出所述视频片段的关键信息，然后利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，最后利用序列生成模型，对综合向量表示进行处理，得到所述视频片段的视频标题，与相关技术中由人工观看视频后概括得到视频片段的视频标题的方式相比，生成视频片段的视频标题的过程无需人工参与，降低了生成视频标题时的人工成本，提高了视频标题的生成效率；而且，利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，可以大大提高生成视频标题的准确率，从而提升了自动生成视频片段的视频标题的质量，具有巨大的扩展潜力。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种视频标题处理方法的流程图；

图2示出了本发明实施例2所提供的一种视频标题处理装置的结构示意图；

图3示出了本发明实施例3所提供的另一种视频标题处理装置的结构示意图。

具体实施方式

目前，随着近几年视频信息的爆发式增长，人们每天都能够接触到海量的视频片段(如新闻视频、影视作品、自媒体自拍视频等)，从大量视频片段(尤其是时长大于20分钟的视频片段)中提取出视频片段的重要内容，成为一个迫切需求。生成视频标题便是一种高效的解决手段，视频标题旨在视频片段基础上得到包含视频关键信息的文本，以对视频片段的内容进行概括描述。用户通过阅读视频标题快速了解视频片段的内容，从而方便用户把握视频片段的重点，无需在不想观看的视频片段上浪费时间。

为了生成视频片段的视频标题，需要由人工浏览视频片段，概括出视频片段的中心思想，并以概括出的中心思想作为视频片段的视频标题。但每天产生的新的视频片段数量特别巨大，且有很多视频片段的时长较长，需要大量工作人员长时间观看视频片段后才能总结出视频片段的视频标题。所以目前生成视频片段的视频标题的过程由人工完成，具有人工成本高且效率低的缺陷。

基于此，本申请各实施例提出一种视频标题处理方法和装置，通过从视频片段的音频文本中提取出所述视频片段的关键信息，然后利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，最后利用序列生成模型，对综合向量表示进行处理，得到所述视频片段的视频标题，生成视频片段的视频标题的过程无需人工参与，降低了生成视频标题时的人工成本，提高了视频标题的生成效率。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。

实施例1

本实施例提出一种视频标题处理方法，执行主体是服务器。

所述服务器，可以采用现有的任何可以对视频片段和所述视频片段的音频文本进行处理，得到所述视频片段的视频标题的计算设备，这里不再一一赘述。

参见图1所示的一种视频标题处理方法的流程图，本实施例提出一种视频标题处理方法，包括以下具体步骤：

步骤100、获取视频片段和所述视频片段的音频文本。

在上述步骤100中，所述服务器获取的视频片段，可以是视频制作人员制作好视频片段后上传到服务器中的；也可以是服务器通过互联网爬取的视频片段。

所述服务器在获取到视频片段后，会提取出所述视频片段的音频，并将提取出的音频发送给工作人员，工作人员在接收到音频后，会收听音频的内容，并整理得到所述视频片段的音频文本。

所述音频文本，用于记载视频片段中各个角色的对话内容。

在一个实施方式中，当所述视频片段是影视作品片段时，工作人员在收听该视频片段的音频后，会整理出以下音频文本：

男主角(男主角姓名)：“……”。

男配角(男配角姓名)：“……”。

女主角(女主角姓名)：“……”。

男主角(男配角姓名)：“……”。

当然，音频文本还可以有其他形式，这里不再一一赘述。

工作人员在整理得到所述视频片段的音频文本后，就会将所述视频片段的音频文本发送给服务器。

所述服务器在接收到工作人员发送的视频片段的音频文本后，会将音频文本中记载的各个角色的对话内容整理成一整句话的形式。然后继续执行以下步骤102，从所述视频片段的音频文本中提取出所述视频片段的关键信息。

步骤102、从所述视频片段的音频文本中提取出所述视频片段的关键信息。

所述关键信息，用于指音频文本中可以用来概括该音频文本所在视频片段的视频标题的字符。

所述字符，可以是但不限于：字、词组和短语。

具体地，为了从所述视频片段的音频文本中提取出所述视频片段的关键信息，上述步骤102可以执行以下步骤(1)至步骤(3)：

(1)利用预训练模型(Bidirectional Encoder Representations fromTransformers，BERT)对所述视频片段的音频文本进行处理，得到文本预训练词向量；

(2)获取问题模板，并利用所述BERT对所述问题模板中的问题进行处理，得到问题预训练词向量；

(3)利用机器阅读理解模型对所述文本预训练词向量和所述问题预训练词向量进行处理，从所述视频片段的音频文本中提取出所述视频片段的关键信息。

在上述步骤(1)中，所述BERT，运行在所述服务器中。

所述服务器利用BERT对所述视频片段的音频文本进行处理得到文本预训练词向量的过程，为现有技术，这里不再赘述。

所述文本预训练词向量，用于表示音频文本经过BERT处理后得到的向量表示。

在上述步骤(2)中，所述问题模板，缓存在服务器中，用于存储有能够提示服务器从所述视频片段的音频文本中提取出所述视频片段的关键信息的问题。

所述问题预训练词向量，用于表示问题模板中的各问题经过BERT处理后得到的向量表示。

在一个实施方式中，所述问题，可以是但不限于：“该视频片段的主角有哪些？”、“主角之间的对话内容是什么？”以及“通过主角之间的对话确定可以确定主角在做什么？”。

通过以上这些问题，可以帮助服务器从所述视频片段的音频文本中提取出所述视频片段的关键信息。

与上述步骤(1)中得到文本预训练词向量的过程类似，利用所述BERT对所述问题模板中的问题进行处理，得到问题预训练词向量的具体过程也是现有技术，这里不再赘述。

为了从所述视频片段的音频文本中提取出所述视频片段的关键信息，上述步骤(3)可以执行以下步骤(31)至步骤(32)：

(31)利用机器阅读理解模型从所述音频文本的文本预训练词向量中提取出能够作为回答所述问题预训练词向量对应问题的答案的词向量，并将提取出的词向量作为关键信息向量表示；

(32)将所述关键信息向量表示对应的音频文本中的字符确定为所述视频片段的关键信息。

在上述步骤(31)中，所述机器阅读理解模型，运行在所述服务器中。

这里，利用机器阅读理解模型从所述音频文本的文本预训练词向量中提取出能够回答所述问题预训练词向量对应问题的词向量的过程，就是使机器阅读理解模型利用问题预训练词向量对应问题，从所述音频文本的文本预训练词向量中找出能够回答所述问题预训练词向量对应问题的答案的过程。即以问答的方式，从所述视频片段的音频文本中提取出所述视频片段的关键信息。

在上述步骤(32)中，基于所述关键信息向量表示，从服务器缓存的字典中查询出与所述关键信息向量表示对应的字符，并将确定出的所述字符确定为所述视频片段的关键信息。

所述字典，存储有所有字符与向量表示的对应关系。

通过以上步骤(31)至步骤(32)描述的内容可以看出，使用了基于机器阅读理解模型的问答框架，使机器阅读理解模型利用问题预训练词向量对应问题，从所述音频文本的文本预训练词向量中提取出能够作为回答所述问题预训练词向量对应问题的答案的词向量，并将提取出的词向量作为关键信息向量表示；巧妙使用了自然语言的问答机制，可以更精确的从所述视频片段的音频文本中提取出所述视频片段的关键信息，提高了后续利用关键信息生成视频标题的准确率。

通过以上步骤(1)至步骤(3)描述的内容可以看出，使用了自然语言处理中前沿的预训练模型和机器阅读理解模型对所述视频片段的音频文本进行处理，可以进一步提高从所述视频片段的音频文本中提取出所述视频片段的关键信息的精确度，取得了效果上的最优。

在通过以上步骤102从所述视频片段的音频文本中提取出所述视频片段的关键信息后，可以继续执行以下步骤104，对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示。

步骤104、利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示。

为了得到所述视频片段与所述视频片段的关键信息的综合向量表示，所述步骤104可以执行以下步骤(1)至步骤(3)：

(1)对所述视频片段进行均匀采样，得到所述视频片段的多个视频帧；

(2)利用卷积神经网络和残差网络对所述多个视频帧进行建模处理，得到所述视频片段中多个所述视频帧的图像向量表示；

(3)利用双流自注意力模型对所述视频片段的图像向量表示和所述视频片段的关键信息的关键信息向量表示进行处理，得到所述视频片段的视频帧与所述视频片段的关键信息的综合向量表示。

在上述步骤(1)中，所述服务器可以使用现有的任何视频处理软件，对所述视频片段进行均匀采样，得到所述视频片段的多个视频帧。

在一个实施方式中，所述均匀采样的采样频率，可以是从视频片段中每十个视频帧均匀采样出一个视频帧的采样频率，从而得到多个视频帧。当然，也可以使用其他的采样频率，对视频片段进行均匀采样，这里不再赘述。

在上述步骤(2)中，卷积神经网络和残差网络分别运行在所述服务器中。

利用卷积神经网络和残差网络对所述多个视频帧进行建模处理，得到所述视频片段的图像向量表示的过程为现有技术，这里不再赘述。

在上述步骤(3)中，所述双流自注意力模型，就是符合双流自注意力机制的计算模型。

在一个实施方式中，所述双流自注意力模型，可以采用(Bi-DirectionalAttention Flow for Machine Comprehension，BiDAF)模型。

所述双流自注意力机制，就是让两个不相关的数据(在本实施例中是所述视频片段的图像向量表示和所述视频片段的关键信息的关键信息向量表示)能够相互关注。

具体来说，服务器将所述视频片段中多个视频帧的图像向量表示和所述视频片段的关键信息的关键信息向量表示输入到所述双流自注意力模型中后，所述双流自注意力模型可以先让关键信息去关注所述视频片段的多个视频帧，确定不同关键信息分别对应的视频片段的视频帧；然后让视频片段的多个视频帧去关注关键信息，确定不同视频片段的视频帧分别对应的关键信息，通过双流自注意力机制把所述视频片段的关键信息和视频帧两个方面联系起来。从而能够得到一个最终整合关键信息和视频帧的图像信息的综合向量表示，并将综合向量表示返回服务器。

所述综合向量表示，是视频片段的音频文本的关键信息和视频帧通过所述双流自注意力模型互相关注且充分交互后，得到的向量表示。

步骤106、利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题。

在上述步骤106中，所述序列生成模型，可以采用(Sequence to Sequence，Seq2Seq)模型，运行在所述服务器中。

所述序列生成模型在接收到服务器输入的综合向量表示后，对所述综合向量表示进行处理，得到所述视频片段的视频标题。具体的处理过程是现有技术，这里不再赘述。

综上所述，本实施例提出的视频标题处理方法，通过从视频片段的音频文本中提取出所述视频片段的关键信息，然后利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，最后利用序列生成模型，对综合向量表示进行处理，得到所述视频片段的视频标题，与相关技术中由人工观看视频后概括得到视频片段的视频标题的方式相比，生成视频片段的视频标题的过程无需人工参与，降低了生成视频标题时的人工成本，提高了视频标题的生成效率；而且，利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，可以大大提高生成视频标题的准确率，从而提升了自动生成视频片段的视频标题的质量，具有巨大的扩展潜力。

实施例2

本实施例提出一种视频标题处理装置，用于执行上述实施例1提出的视频标题处理方法。

参见图2所示的一种视频标题处理装置的结构示意图，本实施例提出一种视频标题处理装置，包括：

获取模块200，用于获取视频片段和所述视频片段的音频文本；

提取模块202，用于从所述视频片段的音频文本中提取出所述视频片段的关键信息；

处理模块204，用于利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示；

生成模块206，用于利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题。

所述提取模块，具体用于：

利用预训练模型BERT对所述视频片段的音频文本进行处理，得到文本预训练词向量；

获取问题模板，并利用所述BERT对所述问题模板中的问题进行处理，得到问题预训练词向量；

利用机器阅读理解模型对所述文本预训练词向量和所述问题预训练词向量进行处理，从所述视频片段的音频文本中提取出所述视频片段的关键信息。

所述提取模块，用于利用机器阅读理解模型对所述文本预训练词向量和所述问题预训练词向量进行处理，从所述视频片段的音频文本中提取出所述视频片段的关键信息，包括：

利用机器阅读理解模型从所述音频文本的文本预训练词向量中提取出能够作为回答所述问题预训练词向量对应问题的答案的词向量，并将提取出的词向量作为关键信息向量表示；

将所述关键信息向量表示对应的音频文本中的字符确定为所述视频片段的关键信息。

所述处理模块，具体用于：

对所述视频片段进行均匀采样，得到所述视频片段的多个视频帧；

利用卷积神经网络和残差网络对多个所述视频帧进行建模处理，得到所述视频片段中多个所述视频帧的图像向量表示；

利用双流自注意力模型对所述视频片段的图像向量表示和所述视频片段的关键信息的关键信息向量表示进行处理，得到所述视频片段的视频帧与所述视频片段的关键信息的综合向量表示。

综上所述，本实施例提出的视频标题处理装置，通过从视频片段的音频文本中提取出所述视频片段的关键信息，然后利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，最后利用序列生成模型，对综合向量表示进行处理，得到所述视频片段的视频标题，与相关技术中由人工观看视频后概括得到视频片段的视频标题的方式相比，生成视频片段的视频标题的过程无需人工参与，降低了生成视频标题时的人工成本，提高了视频标题的生成效率；而且，利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，可以大大提高生成视频标题的准确率，从而提升了自动生成视频片段的视频标题的质量，具有巨大的扩展潜力。

实施例3

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的数据处理方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图3所示的另一种视频标题处理装置的结构示意图，本实施例还提出一种视频标题处理装置，上述视频标题处理装置包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述视频标题处理装置包括有存储器55。

本实施例中，上述视频标题处理装置还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(4)：

(1)获取视频片段和所述视频片段的音频文本；

(2)从所述视频片段的音频文本中提取出所述视频片段的关键信息；

(3)利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示；

(4)利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题。

收发机53，用于在处理器52的控制下接收和发送数据。

在图3中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由通用处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

综上所述，本实施例提出的计算机可读存储介质和视频标题处理装置，通过从视频片段的音频文本中提取出所述视频片段的关键信息，然后利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，最后利用序列生成模型，对综合向量表示进行处理，得到所述视频片段的视频标题，与相关技术中由人工观看视频后概括得到视频片段的视频标题的方式相比，生成视频片段的视频标题的过程无需人工参与，降低了生成视频标题时的人工成本，提高了视频标题的生成效率；而且，利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，可以大大提高生成视频标题的准确率，从而提升了自动生成视频片段的视频标题的质量，具有巨大的扩展潜力。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频标题处理方法，其特征在于，包括：

获取视频片段和所述视频片段的音频文本；

2.根据权利要求1所述的方法，其特征在于，所述从所述视频片段的音频文本中提取出所述视频片段的关键信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用机器阅读理解模型对所述文本预训练词向量和所述问题预训练词向量进行处理，从所述视频片段的音频文本中提取出所述视频片段的关键信息，包括：

4.根据权利要求1所述的方法，其特征在于，利用双流自注意力模型对所述视频片段和所述视频片段的关键信息进行处理，得到所述视频片段与所述视频片段的关键信息的综合向量表示，包括：

5.一种视频标题处理装置，其特征在于，包括：

获取模块，用于获取视频片段和所述视频片段的音频文本；

生成模块，用于利用序列生成模型，对所述综合向量表示进行处理，得到所述视频片段的视频标题。

6.根据权利要求5所述的装置，其特征在于，所述提取模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述提取模块，用于利用机器阅读理解模型对所述文本预训练词向量和所述问题预训练词向量进行处理，从所述视频片段的音频文本中提取出所述视频片段的关键信息，包括：

8.根据权利要求5所述的装置，其特征在于，所述处理模块，具体用于：

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-4任一项所述的方法的步骤。

10.一种视频标题处理装置，其特征在于，所述视频标题处理装置包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行权利要求1-4任一项所述的方法的步骤。