CN116958866A

CN116958866A - 视频标题的生成方法、装置、设备、存储介质及程序产品

Info

Publication number: CN116958866A
Application number: CN202310814210.3A
Authority: CN
Inventors: 乔凌峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-10-27

Abstract

本申请公开了一种视频标题的生成方法、装置、设备、存储介质及程序产品，涉及机器学习领域。该方法包括：获取第一视频，第一视频对应有视频帧序列和语音文本；通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，至少一个动作预测标签用于描述第一视频中的动作行为；通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络，通过加入动作预测标签指导标题生成模型生成视频预测标题，提高了对第一视频中多个事件的区分度，提升了标题生成质量。

Description

视频标题的生成方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及机器学习领域，特别涉及一种视频标题的生成方法、装置、设备、存储介质及程序产品。

背景技术

在信息爆炸的时代，根据视频自动生成文字内容是一个具有吸引力的新技术。该技术生成的文字内容包括标题、视频简介等在视频理解领域中具有较高的应用价值。因为标题与简介等可以概括视频内容，让人们能够快速获取他们的重要信息。具体地，视频文字生成任务是给定一个视频，算法生成一个简短、简洁、易读、具有吸引力的文本。

相关技术中，通过构建编码器和解码器形成一个序列到序列的标题生成模型，通过编码器把视频转化为特征向量，用于理解视频信息，通过解码器基于特征向量生成视频标题。

然而，视频标题生成的数据往往是多事件的，上述方法提取的是整个视频的视觉表达，对视频中多个事件的理解与区分度较差，标题生成质量较差。

发明内容

本申请实施例提供了一种视频标题的生成方法、装置、设备、存储介质及程序产品，能够提高生成视频标题的质量。所述技术方案如下。

一方面，提供了一种视频标题的生成方法，所述方法包括：

获取第一视频，所述第一视频是待生成标题的视频，所述第一视频对应有视频帧序列和语音文本，所述视频帧序列包括所述第一视频中的多个视频帧；

通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测，得到至少一个动作预测标签，所述至少一个动作预测标签用于描述所述第一视频中的动作行为；

通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测，得到视频预测标题，所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。

另一方面，提供了一种视频标题的生成装置，所述装置包括：

视频获取模块，用于获取第一视频，所述第一视频是待生成标题的视频，所述第一视频对应有视频帧序列和语音文本，所述视频帧序列包括所述第一视频中的多个视频帧；

动作预测模块，用于通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测，得到至少一个动作预测标签，所述至少一个动作预测标签用于描述所述第一视频中的动作行为；

标题预测模块，用于通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测，得到视频预测标题，所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的视频标题的生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的视频标题的生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的视频标题的生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取待生成标题的第一视频，第一视频对应有视频帧序列和语音文本，视频帧序列中包括第一视频中的多个视频帧，通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，至少一个动作预测标签用于描述第一视频中的动作行为，通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，其中，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络，通过基于视频帧序列得到的动作预测标签指导标题生成模型生成视频预测标题，即，在标题预测过程中增加视频中多个事件分别对应的视觉表达，由于事件往往可以基于动作理解进行区分，因此提高了对视频中多个事件的理解和区分度，进而提高了标题生成质量。

另一方面，本申请实施例提供的方法，通过端到端的标题生成模型直接基于第一视频得到视频预测标题，即，基于共同训练得到的动作预测网络和标题预测网络，提升了网络之间的关联性，避免了标题预测过程中多个阶段不同网络之间的信息损失，从而提高了标题生成质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的视频标题的生成方法的流程图；

图3是本申请一个示例性实施例提供的标题生成模型结构示意图；

图4是本申请一个示例性实施例提供的标题生成模型的训练方法流程图；

图5是本申请一个示例性实施例提供的候选标题生成模型结构示意图；

图6是本申请一个示例性实施例提供的第一预测损失确定方法流程图；

图7是本申请一个示例性实施例提供的第二预测损失确定方法流程图；

图8是本申请一个示例性实施例提供的视频标题的生成装置的结构框图；

图9是本申请一个示例性实施例提供的视频标题的生成装置模块的结构框图；

图10是本申请一个示例性实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

应当理解，尽管在本公开可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在信息爆炸的时代，根据视频自动生成文字内容是一个具有吸引力的新技术。该技术生成的文字内容包括标题、视频简介等在视频理解领域中具有较高的应用价值。因为标题与简介等可以概括视频内容，让人们能够快速获取他们的重要信息。具体地，视频文字生成任务是给定一个视频，算法生成一个简短、简洁、易读、具有吸引力的文本。相关技术中，通过构建编码器和解码器形成一个序列到序列的标题生成模型，通过编码器把视频转化为特征向量，用于理解视频信息，通过解码器基于特征向量生成视频标题。然而，视频标题生成的数据往往是多事件的，上述方法提取的是整个视频的视觉表达，对视频中多个事件的理解与区分度较差，标题生成质量较差。

本申请实施例中提供的视频标题的生成方法，通过获取待生成标题的第一视频，第一视频对应有视频帧序列和语音文本，视频帧序列中包括第一视频中的多个视频帧，通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，至少一个动作预测标签用于描述第一视频中的动作行为，通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，其中，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络，通过基于视频帧序列得到的动作预测标签指导标题生成模型生成视频预测标题，即，在标题预测过程中增加视频中多个事件分别对应的视觉表达，由于事件往往可以基于动作理解进行区分，因此提高了对视频中多个事件的理解和区分度，进而提高了标题生成质量。

首先，对本申请实施环境进行介绍。请参考图1，其示出了本申请一个示例性实施例提供的实施环境示意图，该实施环境中包括：终端110。

终端110中存储有第一视频，并部署有标题预测模型111，终端110通过将第一视频输入标题预测模型111，输出得到第一视频对应的视频预测标题。其中，第一视频是待生成标题的视频，第一视频对应有视频帧序列和语音文本，视频帧序列中包括第一视频中的多个视频帧，标题预测模型111中包括动作预测网络和标题预测网络，动作预测网络用于对第一视频进行动作预测，标题预测网络用于对第一视频进行标题预测。终端110在通过标题预测模型111生成第一视频的标题过程中，通过标题生成模型111中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，通过标题生成模型111中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，其中，至少一个动作预测标签用于描述第一视频中的动作行为，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络。

在一些实施例中，终端110中安装有视频编辑软件或社交软件等具有视频标题生成功能的应用程序，用户可以通过该应用程序自动生成第一视频的视频标题，第一视频可以是用户通过实时拍摄得到的视频，也可以是用户从终端110中预先存储的视频中选中的视频或者从中截取的视频片段。示意性的，以该应用程序实现为社交软件为例，用户可以通过该社交软件发布视频，当用户将第一视频上传至该社交软件后，用户可以编辑第一视频的视频标题，也可以由该社交软件通过终端110中部署的标题预测模型111对第一视频进行标题预测，得到视频预测标题，并将得到的视频预测标题作为第一视频的视频标题发布第一视频。

在一些实施例中，该实施环境中还包括服务器120和通信网络130，终端110和服务器120通过通信网络130进行数据传输。

在一些实施例中，终端110中存储有第一视频，服务器120中部署有标题预测模型，当终端110需要自动生成第一视频的视频标题时，终端110通过通信网络130向服务器120发送第一视频，服务器120基于第一视频获取第一视频对应的视频帧序列和语音文本并输入标题预测模型，通过标题预测模型中的动作预测网络对视频帧序列进行动作预测，得到至少一个动作预测标签，通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，由服务器120通过通信网络130向终端110发送视频预测标题。

上述终端是可选的，终端可以是台式计算机、膝上型便携计算机、手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture Experts Group AudioLayer III，MP3)播放器、动态影像专家压缩标准音频层4(Moving Picture Experts GroupAudio Layer IV，MP4)播放、智能电视、智能车载等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云安全、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如，本申请中涉及到操作数据和帐号信息等都是在充分授权的情况下获取的。

示意性的，请参考图2，其示出了本申请一个示例性实施例提供的视频标题的生成方法的流程图，该方法可以应用于终端，也可以应用于服务器，也可以同时应用于终端和服务器，本申请实施例以该方法应用于终端为例进行说明，如图2所示，该方法包括如下步骤：

步骤210，获取第一视频。

其中，第一视频是待生成标题的视频，第一视频对应有视频帧序列和语音文本，视频帧序列包括第一视频中的多个视频帧。

在一些实施例中，第一视频可以是终端预先存储的视频，也可以是终端实时拍摄获取的视频。

在一些实施例中，第一视频是由多个视频帧组成的，视频帧序列可以包括第一视频中的全部视频帧，也可以包括第一视频中的部分视频帧。

以视频帧序列包括第一视频中的部分视频帧为例，视频帧序列是对第一视频中的视频帧进行抽取得到的，可选地，视频帧序列中包括的多个视频帧可以是基于第一视频中的全部视频帧按照预设时间间隔采样得到的部分视频帧，也可以是对第一视频中的全部视频帧进行筛选得到的包括预设内容的部分视频帧，例如，筛选第一视频中包含指定人物、场景、动作等至少一个符合预设内容的视频帧形成视频帧序列。

在一些实施例中，语音文本是第一视频中人声语音对应的文本内容。可选地，语音文本可以是终端预先存储的文本文件，也可以是在获取第一视频后对第一视频进行自动语音识别(Automatic Speech Recognition，ASR)得到文本内容。

步骤220，通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签。

其中，至少一个动作预测标签用于描述第一视频中的动作行为。

在一些实施例中，动作预测标签中包括动作行为类别、该动作行为在第一视频中的起始时刻和该动作行为在第一视频中的结束时刻。

示意性的，动作预测标签可以记为(a，t_s，t_e)，其中，a为动作行为类别，例如“跑步”、“游泳”等，t_s为该动作行为在第一视频中的起始时刻，t_e为该动作行为在第一视频中的结束时刻。

在一些实施例中，动作预测标签中的动作行为类别可以实现为预设的类别标识，即，可以将动作行为类别a量化为类别标识id，id＝1，2，……为预设的标识集合，其中，id＝0表示“其它”，即可以理解为没有动作行为。

示意性的，将“跑步”的类别标识预设为1，“游泳”的类别标识预设为2，则动作预测标签(1，5，7)用于表示视频帧序列中第5秒到第7秒的动作行为是跑步，动作预测标签(2，10，20)用于表示视频帧序列中第10秒到第20秒的动作行为是游泳，动作预测标签(0，30，60)用于表示视频帧序列中第30秒到第60秒的动作行为属于“其它”类型。

在一些实施例中，在对视频帧序列进行动作预测之前，对视频帧序列进行序列化转换，得到多个视频时序特征向量，基于多个视频时序特征向量进行动作预测得到上述至少一个动作预测标签。可选地，步骤220包括如下三步：

第一步，按照预设时序窗口尺寸对样本视频帧序列进行时序划分，得到多个视频时序特征向量。

在一些实施例中，序列化转换实现为以预设的时序窗口尺寸对视频帧序列进行序列划分，得到多个视频时序特征向量，其中，时序窗口尺寸实现为预设时长。

示意性的，视频帧序列包括第一视频中第0秒到第60秒的视频内容，假设预设的时序窗口尺寸为5秒，对视频帧序列进行划分，得到12个视频时序特征向量，分别对应第一视频中第0-5秒、第6-10秒、第11-15秒，……，第56-60秒的视频内容。

第二步，通过动作预测网络对多个视频时序特征向量进行动作预测，得到多个时序动作标签。

其中，多个时序动作标签与多个视频时序特征向量一一对应。

在一些实施例中，将多个视频时序特征向量输入动作预测网络，得到多个时序动作标签，时序动作标签中包括视频时序特征向量对应的动作类别以及视频时序特征向量的时间戳，也即，单个视频时序特征向量对应一个时序动作标签。

第三步，将多个时序动作标签中连续且属于同一动作行为的时序动作标签进行合并，得到至少一个动作预测标签。

其中，动作预测标签中包括第一视频中动作行为的类别、以及动作行为在第一视频中的起始时刻和结束时刻。

示意性的，以视频帧序列包括第一视频中第0秒到第60秒的视频内容，预设的时序窗口尺寸为5秒，多个视频时序特征向量分别对应第0-5秒、第6-10秒、第11-15秒，……，第56-60秒为例，假设第0-25秒的5个视频时序特征向量分别对应的时序动作标签中的动作行为类别都属于“跑步”，第26-55秒的6个视频时序特征向量分别对应的时序动作标签中的动作行为类别都属于“其他”，第56-60秒的视频时序特征向量对应的时序动作标签中的动作行为类别都属于“散步”，则基于上述三种动作行为类别对连续的时序动作标签进行合并，得到三个动作预测标签，分别为(跑步，0，25)、(其他，26，55)和(散步，56，60)。若动作预测标签中的动作行为类别实现为类别标识，假设“跑步”对应的类别标识预设为1，“散步”对应的类别标识预设为3，“其他”对应的类别标识预设为0，则上述三个动作预测标签分别为(0，0，25)、(1，26，55)、(3，56，60)。

可选地，动作预测网络可以采用变形金刚(Transformer)模型中的编码(Encoder)模型结构，也可以使用多种视频理解算法，例如视频动作检测(Video Action Detection)、物体检测(Video Object Detection)、视频片段检索(Video Moment Retrieval)、视频拆条(Video Segmentation)等，本申请对此不加以限定。

步骤230，通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题。

其中，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络。

在一些实施例中，在进行标题预测之前，对视频帧序列和语音文本进行预处理，即，对视频帧序列进行序列化转换得到多个视频时序特征向量，对语音文本进行序列化转换得到多个语音时序特征。其中，序列化转换是指按照预设的时序窗口尺寸对视频帧序列和语音文本进行序列划分。可选地，可以按照相同的时序窗口尺寸对视频帧序列和语音文本进行序列划分，也可以按照不同的时序窗口尺寸分别对视频帧序列和语音文本进行序列划分。上述视频时序特征向量对应有第一序列长度，语音时序特征对应有第二序列长度，第一序列长度用于指示视频时序特征向量的数量，第二序列长度用于指示语音时序特征的数量。

在一些实施例中，通过标题生成模型中的标题预测网络对多个视频时序特征向量、多个语音时序特征和至少一个动作预测标签进行标题预测，得到视频预测标题。

在一些实施例中，标题预测模型中的标题预测网络中包括编码器和解码器，其中，编码器用于对第一视频进行特征提取，解码器用于对第一视频进行标题预测，则步骤230可以包括如下步骤：

第一步，通过编码器对视频帧序列和语音文本进行特征提取，得到视频特征向量。

可选地，编码器可以采用Transformer模型中的Encoder模型结构，也可以采用长短期记忆网络(Long Short-Term Memory，LSTM)或者卷积神经网络(ConvolutionalNeural Networks，CNN)等模型结构，本申请对此不加以限定。

在一些实施例中，先对视频帧序列和语音文本进行序列化转换得到多个视频时序特征向量和多个语音时序特征，将多个视频时序特征向量和多个语音时序特征输入编码器，输出得到视频特征向量。

示意性的，假设视频帧序列记作T，语音文本记作V，将视频时序特征向量记作语音时序特征记作/>其中，n_t与n_v为序列长度，分别用于指示视频时序特征向量数量和语音时序特征数量，d为特征向量维度，则将视频特征向量记作

第二步，通过解码器对视频特征向量和至少一个动作预测标签进行标题预测，得到视频预测标题。

可选地，解码器可以采用Transformer模型中的解码(Decoder)模型结构，也可以采用LSTM或者CNN等模型结构，本申请对此不加以限定。

在一些实施例中，将视频特征向量和至少一个动作预测标签输入解码器，基于自回归算法输出得到视频预测标题。

在一些实施例中，上述基于自回归算法的标题预测过程可以实现为，将视频特征向量和至少一个动作预测标签输入解码器，通过解码器将至少一个动作预测标签作为起始字符串，并基于视频特征向量逐字输出视频预测标题，其中，起始字符串用于指导生成视频预测标题中的第一个标题字符。

示意性的，第一视频实现为一段旅游记录视频，得到的至少一个动作预测标签指示了“游泳”、“餐厅用餐”和“休息”等动作行为，将动作预测标签作为起始字符串“游泳|餐厅用餐|休息”，并基于视频特征向量，逐字生成“旅游vlog”这一视频预测标题。

示意性的，请参考图3，图3是本申请一个示例性实施例提供的标题生成模型结构示意图，如图3所示，标题生成模型300中包括动作预测网络310和标题预测网络320，标题预测网络320中包括编码器321和解码器322，获取第一视频，第一视频对应有视频帧序列和语音文本，将基于视频帧序列和语音文本得到的多个视频时序特征向量和多个语音时序特征输入编码器321得到视频特征向量，并将多个视频时序特征向量输入动作预测网络310得到至少一个动作预测标签，将视频特征向量和至少一个动作预测标签输入解码器322得到视频预测标题。

综上所述，本申请实施例提供的方法，通过获取待生成标题的第一视频，第一视频对应有视频帧序列和语音文本，视频帧序列中包括第一视频中的多个视频帧，通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，至少一个动作预测标签用于描述第一视频中的动作行为，通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，其中，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络，通过基于视频帧序列得到的动作预测标签指导标题生成模型生成视频预测标题，即，在标题预测过程中增加视频中多个事件分别对应的视觉表达，由于事件往往可以基于动作理解进行区分，因此提高了对视频中多个事件的理解和区分度，进而提高了标题生成质量。

本申请实施例提供的方法，通过对视频帧序列进行序列化转换，得到多个视频时序特征向量，通过动作预测网络对多个视频时序特征向量进行动作预测，得到多个时序动作标签，多个时序动作标签与多个视频时序特征向量一一对应，将多个时序动作标签中连续且属于同一动作行为的时序动作标签进行合并，得到至少一个动作预测标签，动作预测标签中包括第一视频中的动作行为类别、以及动作行为在第一视频中的起始时刻和结束时刻，细化了动作预测的特征单位，提高了动作预测的准确性。

本申请实施例提供的方法，通过编码器对视频帧序列和语音文本进行特征提取，得到视频特征向量，通过解码器对视频特征向量和至少一个动作预测标签进行标题预测，得到视频预测标题，明确了标题生成模型中标题预测网络的结构，完善了标题预测过程。

本申请实施例提供的方法，通过将视频特征向量和至少一个动作预测标签输入解码器，通过解码器将至少一个动作预测标签作为起始字符串，并基于视频特征向量逐字输出视频预测标题，其中，起始字符串用于指导生成视频预测标题中的第一个标题字符，明确了动作预测标签在标题预测过程中的指导方式，并明确了逐字生成的标题预测方式，提高了标题生成的质量。

在一些实施例中，本申请实施例提供的视频标题的生成方法在进行标题预测之前还包括标题生成模型的训练过程，请参考图4，图4是本申请一个示例性实施例提供的标题生成模型的训练方法流程图，该方法可以应用于终端，也可以应用于服务器，也可以同时应用于终端和服务器，本申请实施例以该方法应用于终端为例进行说明，如图4所示，该方法包括如下步骤：

步骤410，获取样本视频。

其中，样本视频标注有参考标题标签和至少一个参考动作标签，参考标题标签用于指示样本视频的视频标题，参考动作标签用于描述样本视频中的动作行为。样本视频对应有样本视频帧序列和样本语音文本，样本视频帧序列包括样本视频中的多个视频帧。

在一些实施例中，样本视频是终端预先存储的、用于训练标题生成模型的视频。

在一些实施例中，样本视频是由多个视频帧组成的，样本视频帧序列可以包括样本视频中的全部视频帧，也可以包括样本视频中的部分视频帧。

以样本视频帧序列包括样本视频中的部分视频帧为例，样本视频帧序列是对样本视频中的视频帧进行抽取得到的，可选地，样本视频帧序列中包括的多个视频帧可以是基于样本视频中的全部视频帧按照预设时间间隔采样得到的部分视频帧，也可以是对样本视频中的全部视频帧进行筛选得到的包括预设内容的部分视频帧，例如，筛选样本视频中包含指定人物、场景、动作等至少一个符合预设内容的视频帧形成样本视频帧序列。

在一些实施例中，样本语音文本是样本视频中人声语音对应的文本内容。可选地，样本语音文本可以是终端预先存储的文本文件，也可以是在获取样本视频后对样本视频进行自动语音识别得到文本内容。

在一些实施例中，参考动作标签中包括动作行为类别、该动作行为在样本视频中的起始时刻和结束时刻。

示意性的，样本视频标注有参考动作标签(起床，9，20)、(刷牙，30，40)，用于表示样本视频中第9秒到第20秒执行动作行为“起床”，第30秒到第40秒执行动作行为“刷牙”。

步骤420，通过候选标题生成模型中的候选动作预测网络对样本视频帧序列进行动作预测，得到至少一个候选动作标签。

在一些实施例中，参考动作标签和候选动作标签中的动作行为类别可以实现为预设的类别标识，即，可以将动作行为类别a量化为类别标识id，id＝1，2，……为预设的标识集合，其中，id＝0表示“其它”，即可以理解为没有动作行为。

示意性的，将“跑步”的类别标识预设为1，则参考动作标签(1，5，7)用于表示样本视频帧序列中第5秒到第7秒的动作行为是跑步，候选动作标签(1，5，10)用于表示候选动作预测网络预测样本视频帧序列中第5秒到第10秒的动作行为是跑步。

在一些实施例中，在对样本视频帧序列进行动作预测之前，对样本视频帧序列进行序列化转换，得到多个样本时序特征向量，基于多个样本时序特征向量进行动作预测得到上述至少一个候选动作标签。可选地，步骤420包括如下三步：

第一步，按照预设的时序窗口尺寸对样本视频帧序列进行时序划分，得到多个样本时序特征向量。

在一些实施例中，序列化转换实现为以预设的时序窗口尺寸对样本视频帧序列进行序列划分，得到多个样本时序特征向量，其中，时序窗口尺寸实现为预设时长。

示意性的，样本视频帧序列包括样本视频中第0秒到第60秒的视频内容，假设预设的时序窗口尺寸为5秒，对视频帧序列进行划分，得到12个样本时序特征向量，分别对应样本视频中第0-5秒、第6-10秒、第11-15秒，……，第56-60秒的视频内容。

第二步，通过候选动作预测网络对多个样本时序特征向量进行动作预测，得到多个样本时序动作标签。

其中，多个样本时序动作标签与多个样本时序特征向量一一对应。

在一些实施例中，将多个样本时序特征向量输入候选动作预测网络，得到多个样本时序动作标签，样本时序动作标签中包括样本时序特征向量对应的动作类别以及样本时序特征向量的时间戳，也即，单个样本时序特征向量对应一个样本时序动作标签。

第三步，将多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到至少一个候选动作标签。

示意性的，以样本视频帧序列包括样本视频中第0秒到第60秒的视频内容，预设的时序窗口尺寸为5秒，多个样本时序特征向量分别对应第0-5秒、第6-10秒、第11-15秒，……，第56-60秒为例，假设第0-25秒的5个样本时序特征向量分别对应的样本时序动作标签中的动作行为类别都属于“跑步”，第26-55秒的6个样本时序特征向量分别对应的样本时序动作标签中的动作行为类别都属于“其他”，第56-60秒的样本时序特征向量对应的样本时序动作标签中的动作行为类别都属于“散步”，则基于上述三种动作行为类别对连续的样本时序动作标签进行合并，得到三个候选动作标签，分别为(跑步，0，25)、(其他，26，55)和(散步，56，60)。若候选动作标签中的动作行为类别实现为类别标识，假设“跑步”对应的类别标识预设为1，“散步”对应的类别标识预设为3，“其他”对应的类别标识预设为0，则上述三个候选动作标签分别为(0，0，25)、(1，26，55)、(3，56，60)。

在一些实施例中，通过对动作行为的持续时长进行筛选，确定候选动作标签，即，上述第三步可以实现为，将多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到至少一个样本预测标签，样本预测标签中包括动作行为的类别，以及动作行为在样本视频中的起始时刻和结束时刻；基于动作行为在样本视频中的起始时刻和结束时刻，确定动作行为在样本视频中的持续时长；将持续时长达到预设时长阈值的动作行为作为候选动作行为，并基于候选动作行为确定至少一个候选动作标签，候选动作标签中包括候选动作行为的类别，以及候选动作行为在样本视频中的起始时刻和结束时刻。

可选地，在基于持续时长确定候选动作行为时，可以包括“其他”类别的动作行为，也可以排除“其他”类别的动作行为。

示意性的，以样本视频帧序列包括样本视频中第0秒到第60秒的视频内容，预设的时序窗口尺寸为5秒，多个样本时序特征向量分别对应第0-5秒、第6-10秒、第11-15秒，……，第56-60秒为例，假设第0-25秒的5个样本时序特征向量分别对应的样本时序动作标签中的动作行为类别都属于“跑步”，第26-55秒的6个样本时序特征向量分别对应的样本时序动作标签中的动作行为类别都属于“其他”，第56-60秒的样本时序特征向量对应的样本时序动作标签中的动作行为类别都属于“散步”，则基于上述三种动作行为类别对连续的样本时序动作标签进行合并，得到三个样本预测标签，分别为(跑步，0，25)、(其他，26，55)和(散步，56，60)，对应的持续时长分别为25秒、29秒和4秒，假设预设时长阈值为25秒，则将持续时长达到25秒的动作行为作为候选动作行为，即“跑步”和“其他”，并基于候选动作行为确定两个候选动作标签为(跑步，0，25)和(其他，26，55)。

步骤430，通过候选标题生成模型中的候选标题预测网络对样本视频帧序列、样本语音文本和至少一个候选动作标签进行标题预测，得到样本预测标题。

在一些实施例中，候选标题预测网络中包括候选编码器和候选解码器，其中，候选编码器用于对样本视频进行特征提取，候选解码器用于对样本视频进行标题预测，则步骤430可以包括如下步骤：

第一步，通过候选编码器对样本视频帧序列和样本语音文本进行特征提取，得到样本视频特征向量。

可选地，编码器可以采用Transformer模型中的Encoder模型结构，也可以采用LSTM或者CNN等模型结构，本申请对此不加以限定。

第二步，通过候选解码器对样本视频特征向量和至少一个候选动作标签进行标题预测，得到样本预测标题。

可选地，解码器可以采用Transformer模型中的Decoder模型结构，也可以采用LSTM或者CNN等模型结构，本申请对此不加以限定。

可选地，步骤430还可以实现为如下步骤：

步骤A，获取预设的多个模板动作类别。

其中，多个模板动作类别分别对应有标题模板内容，标题模板内容是预设的文本内容。

在一些实施例中，预设的多个模板动作类别可以实现为明星动作、热门动作等，例如，明星a在某综艺中执行过动作行为b，将动作行为b作为一个预设的模板动作类别。

示意性的，假设球星A的投篮动作属于预设的模板动作类别，可以预设对应的标题模板内容为“模仿球星A！”，假设热门动作“光盘行动”属于预设的模板动作类别，可以预设对应的标题模板内容为“光盘NO.1就是我”。

步骤B，从至少一个候选动作标签中确定动作行为持续时长最长的候选动作标签为目标候选动作标签，并将目标候选动作标签中动作行为的类别与多个模板动作类别进行匹配。

在一些实施例中，候选动作标签中包括动作行为的类别，以及动作行为在样本视频中的起始时刻和结束时刻，基于起始时刻和结束时刻确定动作行为的持续时长，并从至少一个候选动作标签中确定持续时长最长的候选动作标签为目标候选动作标签。

可选地，可以通过预设算法计算目标候选动作标签中动作行为的类别与多个模板动作类别对应的多个匹配度评分，并将分值最高的匹配度评分作为目标候选动作标签的目标匹配度评分，也可以通过预先训练好的行为匹配模型实现上述匹配过程。

步骤C，响应于多个模板动作类别中，存在目标模板动作类别与目标候选动作标签中动作行为的类别匹配成功，获取与目标模板动作类别对应的标题模板内容。

可选地，若目标匹配度评分高于预设评分阈值，则视为匹配成功；或者，当目标模板动作类别与目标候选动作标签中动作行为的类别对应的类别标识完全一致时，视为匹配成功。

示意性的，假设目标候选动作标签中动作行为的类别为“光剑变身”，对应的类别标识为30，多个模板动作类别分别为“光盘行动”、“光剑比赛”、“投篮比拼”，对应的类别标识分别为15、30、99，对应的标题模板内容分别为“光盘NO.1就是我”、“光剑变身！”、“模仿球星A！”，则响应于“光剑比赛”与“光剑变身”匹配成功，获取标题模板内容“光剑变身！”。

步骤D，基于标题模板内容，通过候选标题预测网络对样本视频帧序列、样本语音文本和至少一个候选动作标签进行标题预测，得到样本预测标题。

在一些实施例中，将标题模板内容作为样本预测标题中的部分文本内容进行输出。

可选地，将标题模板内容作为样本预测标题中的起始文本内容。

示意性的，假设通过候选标题预测网络对样本视频帧序列、样本语音文本和至少一个候选动作标签进行标题预测，得到的标题内容为“运动vlog”，标题模板内容为“模仿球星A！”，则基于标题模板内容，得到样本预测标题为“模仿球星A！——运动vlog”。

步骤440，基于至少一个候选动作标签和至少一个参考动作标签之间的差异确定第一预测损失，基于样本预测标题和参考标题标签之间的差异确定第二预测损失。

在一些实施例中，使用交叉熵损失计算第一预测损失和第二预测损失。

在一些实施例中，将至少一个候选动作标签和至少一个参考动作标签按照多个样本时序特征向量进行划分，也即按照同一个时序窗口尺寸进行划分，得到多个时序参考标签和多个样本时序动作标签，其中，多个时序参考标签和多个样本时序动作标签一一对应，则，基于多个时序参考标签和多个样本时序动作标签之间的差异确定第一预测损失。

在一些实施例中，基于样本预测标题和参考标题标签中的多个字符之间的差异，逐字确定第二预测损失。

步骤450，基于第一预测损失和第二预测损失，对候选标题生成模型中的候选动作预测网络和候选标题预测网络共同进行训练，得到包括动作预测网络和标题预测网络的标题生成模型。

在一些实施例中，将第一预测损失和第二预测损失的和确定为目标预测损失，并基于目标预测损失对候选标题生成模型中的候选动作预测网络和候选标题预测网络共同进行训练，得到包括动作预测网络和标题预测网络的标题生成模型。

示意性的，请参考图5，图5是本申请一个示例性实施例提供的候选标题生成模型结构示意图，如图5所示，候选标题生成模型500中包括候选动作预测网络510和候选标题预测网络520，获取样本视频，样本视频对应有样本视频帧序列和样本语音文本，样本视频还标注有至少一个参考动作标签和参考标题标签通过候选动作预测网络510对样本视频对应的样本视频帧序列进行动作预测，得到至少一个候选动作标签，通过候选标题预测网络520对样本视频帧序列、样本语音文本和至少一个候选动作标签进行标题预测，得到样本预测标题，基于候选动作标签和参考动作标签之间的差异确定第一预测损失，基于样本预测标题和参考标题标签之间的差异确定第二预测损失，基于第一预测损失和第二预测损失之和，对候选标题生成模型中的候选动作预测网络和候选标题预测网络共同进行训练，得到包括动作预测网络和标题预测网络的标题生成模型。

综上所述，本申请实施例提供的方法，通过获取标注有参考标题标签和至少一个参考动作标签的样本视频，样本视频对应有样本视频帧序列和样本语音文本，通过候选标题生成模型中的候选动作预测网络对样本视频帧进行动作预测，得到至少一个候选动作标签，通过候选标题生成模型中的候选标题预测网络对样本视频帧序列、样本语音文本和至少一个候选动作标签进行标题预测，得到样本预测标题，基于至少一个候选动作标签和至少一个参考动作标签之间的差异确定第一预测损失，基于样本预测标题和参考标题标签之间的差异确定第二预测损失，基于第一预测损失和第二预测损失，对候选标题生成模型中的候选动作预测网络和候选标题预测网络共同进行训练，得到包括动作预测网络和标题预测网络的标题生成模型，明确了对标题生成模型的训练方法，通过共同训练候选动作预测网络和候选标题预测网络，提高了动作预测网络和标题预测网络之间的关联性，降低了标题生成模型在标题预测过程中的信息损失，提高了标题生成质量。

本申请实施例提供的方法，通过对样本视频帧序列进行序列化转换，得到多个样本时序特征向量，通过候选动作预测网络对多个样本时序特征向量进行动作预测，得到多个样本时序动作标签，多个样本时序动作标签与多个样本时序特征向量一一对应，将多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到至少一个候选动作标签，明确了候选动作标签的获取方式，基于样本时序特征向量确定的多个样本时序动作标签为第一预测损失的确定方式提供了基础。

本申请实施例提供的方法，通过将多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到至少一个样本预测标签，样本预测标签中包括动作行为的类别，以及动作行为在样本视频中的起始时刻和结束时刻；基于动作行为在样本视频中的起始时刻和结束时刻，确定动作行为在样本视频中的持续时长；将持续时长达到预设时长阈值的动作行为作为候选动作行为，并基于候选动作行为确定至少一个候选动作标签，候选动作标签中包括候选动作行为的类别，以及候选动作行为在样本视频中的起始时刻和结束时刻，实现了对候选动作标签的筛选，确保将持续时长达到预设时长阈值的动作行为对应的候选动作标签用于进行标题预测，提高了标题预测质量。

请参考图6，图6是本申请一个示例性实施例提供的第一预测损失确定方法流程图，该方法可以应用于终端，也可以应用于服务器，也可以同时应用于终端和服务器，本申请实施例以该方法应用于终端为例进行说明，如图6所示，该方法包括如下步骤：

步骤610，按照多个样本时序特征向量对至少一个参考动作标签进行时序划分，得到多个时序参考标签。

其中，多个时序参考标签与多个样本时序特征向量一一对应。

示意性的，假设样本视频帧序列包括样本视频中第0秒到第60秒的视频内容，预设的时序窗口尺寸为5秒，多个样本时序特征向量分别对应第0-5秒、第6-10秒、第11-15秒，……，第56-60秒，样本视频标注有两个个参考动作标签，分别为(1，9，20)，(2，31，40)，其中，1为动作行为“起床”对应的类别标识，2为动作行为“刷牙”对应的类别标识，两个个参考动作标签分别用于表示在样本视频第9-20秒执行动作行为“起床”，第31-40秒执行动作行为“刷牙”，对其余时长对应的动作标识赋值为0，即自动获取其余参考动作标签为(0，0，8)，(0，21，30)，(0，41，60)，对上述多个参考动作标签进行时序划分，分别得到时序参考标签(1，10，15)，(1，16，20)，(2，30，35)，(2，36，40)，以及其余样本时序特征向量对应的类别标识为0的时序参考标签，其中，虽然第9-10秒执行动作行为“起床”，但由于第5-10秒的样本时序特征向量以“其他”类型的动作行为为主，即“其他”持续时长大于“起床”，因此将该样本时序特征向量对应的时序参考标签记作(0，5，10)。

步骤620，基于多个时序动作标签和多个时序参考标签之间的差异，确定多个时序动作损失。

示意性的，将时序动作损失记作loss_i，则时序动作损失的计算公式如下：

loss_i＝-a′_ilog(a_i)-(1-a′_i)log(1-a_i)，

其中，a_i为时序动作标签中的类别标识，a′_i为时序参考标签中的类别标识。

步骤630，将多个时序动作损失之和确定为第一预测损失。

示意性的，将第一预测损失记作loss_action，则第一预测损失的计算公式如下：

其中，n_v为样本时序特征向量的序列长度，也即样本时序特征向量的数量。

综上所述，本申请实施例提供的方法，通过按照多个样本时序特征向量对至少一个参考动作标签进行时序划分，得到多个时序参考标签，基于多个时序动作标签和多个时序参考标签之间的差异，确定多个时序动作损失，将多个时序动作损失之和确定为第一预测损失，明确了第一预测损失的确定方式，基于多个时序动作标签和多个时序参考标签，提高了第一预测损失的精确度，从而提高动作预测的准确性。

请参考图7，图7是本申请一个示例性实施例提供的第二预测损失确定方法流程图，该方法可以应用于终端，也可以应用于服务器，也可以同时应用于终端和服务器，本申请实施例以该方法应用于终端为例进行说明，如图7所示，该方法包括如下步骤：

步骤710，基于样本预测标题和参考标题标签之间的字符差异，逐字确定多个字符生成损失。

示意性的，将字符生成损失记作loss_j，则时序动作损失的计算公式如下：

loss_j＝-t′_jlog(t_j)-(1-t′_j)log(1-t_j)，

其中，t_j为样本预测标题中的第j个字符，t′_j为参考标题标签中的第j个字符。

若样本预测标题和参考标题标签中的字符数量不一致，例如，样本预测标题中包含5个字符，参考标题标签中包含6个字符，则前5个字符对应的字符生成损失为loss_j，参考标题标签中第6个字符对应的字符生成损失以预设损失值计算，例如，将第6个字符生成损失记为1。

步骤720，将多个字符生成损失之和确定为第二预测损失。

示意性的，将第二预测损失记作loss_tg，则第二预测损失的计算公式如下：

其中，n为参考标题标签中的字符数量。

综上所述，本申请实施例提供的方法，通过基于样本预测标题和参考标题标签之间的字符差异，逐字确定多个字符生成损失，将多个字符生成损失之和确定为第二预测损失，明确了逐字确定第二预测损失的方式，提高了第二预测损失的精确度，并提高了标题预测的准确性。

图8是本申请一个示例性实施例提供的视频标题的生成装置的结构框图，如图8所示，该装置包括如下部分：

视频获取模块810，用于获取第一视频，所述第一视频是待生成标题的视频，所述第一视频对应有视频帧序列和语音文本，所述视频帧序列包括所述第一视频中的多个视频帧；

动作预测模块820，用于通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测，得到至少一个动作预测标签，所述至少一个动作预测标签用于描述所述第一视频中的动作行为；

标题预测模块830，用于通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测，得到视频预测标题，所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。

请参考图9，图9是本申请一个示例性实施例提供的视频标题的生成装置模块的结构框图，如图9所示，在一些实施例中，所述标题预测网络中包括编码器和解码器，所述编码器用于对所述第一视频进行特征提取，所述解码器用于对所述第一视频进行标题预测；所述标题预测模块830，包括：

特征提取单元831，用于通过所述编码器对所述视频帧序列和所述语音文本进行特征提取，得到视频特征向量；

标题预测单元832，用于通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测，得到所述视频预测标题。

在一些实施例中，所述标题预测单元832，用于将所述视频特征向量和所述至少一个动作预测标签输入所述解码器，通过所述解码器将所述至少一个动作预测标签作为起始字符串，并基于所述视频特征向量逐字输出所述视频预测标题，所述起始字符串用于指导生成所述视频预测标题中的第一个标题字符。

在一些实施例中，所述动作预测模块820，用于：

按照预设时序窗口尺寸对所述视频帧序列进行时序划分，得到多个视频时序特征向量；

通过所述动作预测网络对所述多个视频时序特征向量进行动作预测，得到多个时序动作标签，所述多个时序动作标签与所述多个视频时序特征向量一一对应；

将所述多个时序动作标签中连续且属于同一动作行为的时序动作标签进行合并，得到所述至少一个动作预测标签，所述动作预测标签中包括所述第一视频中动作行为的类别、以及所述动作行为在所述第一视频中的起始时刻和结束时刻。

在一些实施例中，所述装置还包括模型训练模块840，包括：

样本视频获取单元841，用于获取样本视频，所述样本视频标注有参考标题标签和至少一个参考动作标签，所述参考标题标签用于指示所述样本视频的视频标题，所述参考动作标签用于描述所述样本视频中的动作行为，所述样本视频对应有样本视频帧序列和样本语音文本，所述样本视频帧序列包括所述样本视频中的多个视频帧；

候选动作预测单元842，用于通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测，得到至少一个候选动作标签；

样本标题预测单元843，用于通过所述候选标题生成模型中的候选标题预测网络对所述样本视频帧序列、所述样本语音文本和所述至少一个候选动作标签进行标题预测，得到样本预测标题；

预测损失确定单元844，用于基于所述至少一个候选动作标签和所述至少一个参考动作标签之间的差异确定第一预测损失，基于所述样本预测标题和所述参考标题标签之间的差异确定第二预测损失；

模型训练单元845，用于基于所述第一预测损失和所述第二预测损失，对所述候选标题生成模型中的所述候选动作预测网络和所述候选标题预测网络共同进行训练，得到包括所述动作预测网络和所述标题预测网络的所述标题生成模型。

在一些实施例中，所述候选动作预测单元842，包括：

序列转换子单元801，用于按照预设时序窗口尺寸对所述样本视频帧序列进行时序划分，得到多个样本时序特征向量；

动作预测子单元802，用于通过所述候选动作预测网络对所述多个样本时序特征向量进行动作预测，得到多个样本时序动作标签，所述多个样本时序动作标签与所述多个样本时序特征向量一一对应；

标签合并子单元803，用于将所述多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到所述至少一个候选动作标签。

在一些实施例中，所述标签合并子单元803，用于：

将所述多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到至少一个样本预测标签，所述样本预测标签中包括所述动作行为的类别，以及所述动作行为在所述样本视频中的起始时刻和结束时刻；

基于所述动作行为在所述样本视频中的所述起始时刻和所述结束时刻，确定所述动作行为在所述样本视频中的持续时长；

将所述持续时长达到预设时长阈值的所述动作行为作为候选动作行为，并基于所述候选动作行为确定所述至少一个候选动作标签，所述候选动作标签中包括所述候选动作行为的类别，以及所述候选动作行为在所述样本视频中的起始时刻和结束时刻。

在一些实施例中，所述预测损失确定单元844，包括：

第一损失确定子单元804，用于按照所述多个样本时序特征向量对所述至少一个参考动作标签进行时序划分，得到多个时序参考标签，所述多个时序参考标签与所述多个样本时序特征向量一一对应；基于所述多个时序动作标签和所述多个时序参考标签之间的差异，确定多个时序动作损失；将所述多个时序动作损失之和确定为所述第一预测损失；

第二损失确定子单元805，用于基于所述样本预测标题和所述参考标题标签之间的字符差异，逐字确定多个字符生成损失；将所述多个字符生成损失之和确定为所述第二预测损失。

在一些实施例中，所述样本标题预测单元843，用于：

获取预设的多个模板动作类别，所述多个模板动作类别分别对应有标题模板内容，所述标题模板内容是预设的文本内容；

从所述至少一个候选动作标签中确定所述动作行为持续时长最长的候选动作标签为目标候选动作标签，并将所述目标候选动作标签中动作行为的类别与所述多个模板动作类别进行匹配；

响应于所述多个模板动作类别中，存在目标模板动作类别与所述目标候选动作标签中动作行为的类别匹配成功，获取与所述目标模板动作类别对应的标题模板内容；

基于所述标题模板内容，通过所述候选标题预测网络对所述样本视频帧序列、所述样本语音文本和所述至少一个候选动作标签进行标题预测，得到所述样本预测标题。

综上所述，本申请实施例提供的装置，通过获取待生成标题的第一视频，第一视频对应有视频帧序列和语音文本，视频帧序列中包括第一视频中的多个视频帧，通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，至少一个动作预测标签用于描述第一视频中的动作行为，通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，其中，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络，通过基于视频帧序列得到的动作预测标签指导标题生成模型生成视频预测标题，即，在标题预测过程中增加视频中多个事件分别对应的视觉表达，由于事件往往可以基于动作理解进行区分，因此提高了对视频中多个事件的理解和区分度，进而提高了标题生成质量。

需要说明的是：上述实施例提供的视频标题的生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图10示出了本申请一个示例性实施例提供的终端1000的结构框图。该终端1000可以是：智能手机、平板电脑、MP3播放器、MP4播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的视频标题的生成方法。

在一些实施例中，终端1000还包括其他组件，本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请的实施例还提供了一种计算机设备，该计算机设备可以实现为如图1所示的终端或者服务器。该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频标题的生成方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的视频标题的生成方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例提供的视频标题的生成方法。

可选地，该计算机可读存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、固态硬盘(Solid State Drives，SSD)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(Resistance Random AccessMemory，ReRAM)和动态随机存取存储器(Dynamic Random Access Memory，DRAM)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频标题的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述标题预测网络中包括编码器和解码器，所述编码器用于对所述第一视频进行特征提取，所述解码器用于对所述第一视频进行标题预测；

所述通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测，得到视频预测标题，包括：

通过所述编码器对所述视频帧序列和所述语音文本进行特征提取，得到视频特征向量；

通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测，得到所述视频预测标题。

3.根据权利要求2所述的方法，其特征在于，所述通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测，得到所述视频预测标题，包括：

将所述视频特征向量和所述至少一个动作预测标签输入所述解码器，通过所述解码器将所述至少一个动作预测标签作为起始字符串，并基于所述视频特征向量逐字输出所述视频预测标题，所述起始字符串用于指导生成所述视频预测标题中的第一个标题字符。

4.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述视频帧序列，通过标题生成模型中的动作预测网络对所述第一视频进行动作预测，得到至少一个动作预测标签，包括：

5.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述视频帧序列，通过标题生成模型中的动作预测网络对所述第一视频进行动作预测，得到至少一个动作预测标签之前，还包括：

获取样本视频，所述样本视频标注有参考标题标签和至少一个参考动作标签，所述参考标题标签用于指示所述样本视频的视频标题，所述参考动作标签用于描述所述样本视频中的动作行为，所述样本视频对应有样本视频帧序列和样本语音文本，所述样本视频帧序列包括所述样本视频中的多个视频帧；

通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测，得到至少一个候选动作标签；

通过所述候选标题生成模型中的候选标题预测网络对所述样本视频帧序列、所述样本语音文本和所述至少一个候选动作标签进行标题预测，得到样本预测标题；

基于所述至少一个候选动作标签和所述至少一个参考动作标签之间的差异确定第一预测损失，基于所述样本预测标题和所述参考标题标签之间的差异确定第二预测损失；

基于所述第一预测损失和所述第二预测损失，对所述候选标题生成模型中的所述候选动作预测网络和所述候选标题预测网络共同进行训练，得到包括所述动作预测网络和所述标题预测网络的所述标题生成模型。

6.根据权利要求5所述的方法，其特征在于，所述通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测，得到至少一个候选动作标签，包括：

按照预设时序窗口尺寸对所述样本视频帧序列进行时序划分，得到多个样本时序特征向量；

通过所述候选动作预测网络对所述多个样本时序特征向量进行动作预测，得到多个样本时序动作标签，所述多个样本时序动作标签与所述多个样本时序特征向量一一对应；

将所述多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到所述至少一个候选动作标签。

7.根据权利要求6所述的方法，其特征在于，所述将所述多个样本时序动作标签中连续且属于同一动作行为的样本时序动作标签进行合并，得到所述至少一个候选动作标签，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述至少一个候选动作标签和所述至少一个参考动作标签之间的差异确定第一预测损失，包括：

按照所述多个样本时序特征向量对所述至少一个参考动作标签进行时序划分，得到多个时序参考标签，所述多个时序参考标签与所述多个样本时序特征向量一一对应；

基于所述多个时序动作标签和所述多个时序参考标签之间的差异，确定多个时序动作损失；

将所述多个时序动作损失之和确定为所述第一预测损失。

9.根据权利要求5所述的方法，其特征在于，所述基于所述样本预测标题和所述参考标题标签之间的差异确定第二预测损失，包括：

基于所述样本预测标题和所述参考标题标签之间的字符差异，逐字确定多个字符生成损失；

将所述多个字符生成损失之和确定为所述第二预测损失。

10.根据权利要求5所述的方法，其特征在于，所述通过所述候选标题生成模型中的候选标题预测网络对所述样本视频帧序列、所述样本语音文本和所述至少一个候选动作标签进行标题预测，得到样本预测标题，包括：

11.一种视频标题的生成装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至10任一所述的视频标题的生成方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的视频标题的生成方法。

14.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一所述的视频标题的生成方法。