CN114386480A

CN114386480A - 视频内容描述模型的训练方法、应用方法、设备及介质

Info

Publication number: CN114386480A
Application number: CN202111499121.1A
Authority: CN
Inventors: 郑锋; 刘柱
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-22

Abstract

本发明提供一种视频内容描述模型的训练方法、应用方法、设备及介质，所述训练方法包括获取目标视频和目标视频的内容描述，从内容描述中提取出动词和模板，将动词和模板进行编码处理与特征采样得到第一隐变量特征，对目标视频进行特征提取得到目标视觉特征，根据第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型，本发明根据视频描述模型可以生成开放式的描述，即从很多角度，运用不同的表达生成各异的描述。

Description

视频内容描述模型的训练方法、应用方法、设备及介质

技术领域

本发明涉及计算机技术领域，具体是视频内容描述技术领域，涉及一种视频内容描述模型的训练方法、应用方法、设备及介质。

背景技术

近年来，随着信息技术不断发展以及智能设备迭代升级，人们更加倾向利用视频来传达信息，使得各种类型的视频数据规模愈加庞大，同时也带来巨大挑战。例如，视频内容分享网站上每分钟都有成百上千的视频数据上传到服务器，若由人工来审核这些视频是否合规则非常耗时耗力，而借助视频描述的方法则可显著提高审核工作的效率，节省大量时间开销和人力成本。视频内容描述技术主要可广泛应用在于视频标题生成、视频检索、帮助视障人群理解视频等实际场景。相关技术中的方法仅专注于产生唯一的尽可能准确的语句，无法向人一样生成开放式的描述。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种视频内容描述模型的训练方法、应用方法、设备及介质，能够生成开放式的描述，即从很多角度，运用不同的表达生成各异的描述。

根据本发明的第一方面实施例的视频内容描述模型的训练方法，包括：

获取目标视频和所述目标视频的内容描述；

从所述内容描述中提取出动词和模板，所述模板是对应所述目标视频的目标内容描述分离动词后余下的部分；

将所述动词和所述模板进行编码处理与特征采样，得到第一隐变量特征；

对所述目标视频进行特征提取，得到目标视觉特征；

根据所述第一隐变量特征和所述目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型。

根据本发明第一方面实施例的训练方法，至少具有如下有益效果：获取目标视频和目标视频的内容描述，从内容描述中提取出动词和模板，将动词和模板进行编码处理与特征采样得到第一隐变量特征，对目标视频进行特征提取得到目标视觉特征，根据第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型，本发明根据视频描述模型可以生成开放式的描述，即从很多角度，运用不同的表达生成各异的描述。

根据本发明的一些实施例，所述将所述动词和所述模板进行编码处理与特征采样，得到第一隐变量特征，包括：

将所述动词和所述模板输入后验隐变量编码器进行编码处理，得到已编码动作隐变量和已编码模板隐变量；

将所述已编码模板隐变量输入预设第一神经网络模型，得到模板隐变量后验分布；

将所述已编码动作隐变量和所述模板隐变量后验分布输入所述第一神经网络模型进行处理，得到动作隐变量后验分布；

对所述动作隐变量后验分布和所述模板隐变量后验分布进行特征采样，得到第一动作隐变量特征和第一模板隐变量特征；

根据所述第一动作隐变量特征和所述第一模板隐变量特征得到第一隐变量特征。

根据本发明的一些实施例，所述根据所述第一隐变量特征和所述目标视觉特征对所述先验隐变量编码器和所述语言解码器进行数据逼近处理，得到视频内容描述模型，包括：

将所述第一隐变量特征和所述视觉特征代入所述语言解码器，得到初始解码结果；

将所述初始解码结果、所述第一隐变量特征输入预设损失函数以对所述先验隐变量编码器和所述语言解码器进行训练，得到视频内容描述模型。

根据本发明的一些实施例，所述将所述初始解码结果、所述第一隐变量特征输入预设损失函数以对所述先验隐变量编码器和所述语言解码器进行训练，得到视频内容描述模型，包括：

将所述初始解码结果、所述隐变量特征输入预设损失函数得到损失数值；

根据所述损失数值调节所述语言解码器的参数，得到已训练语言解码器；

根据所述损失数值调节所述先验隐变量编码器的参数使得目标先验分布接近所述第一隐变量特征，得到已训练先验隐变量编码器；

基于所述已训练语言解码器和所述已训练先验隐变量编码器得到视频内容描述模型。

根据本发明的一些实施例，所述对所述目标视频进行特征提取，得到目标视觉特征，包括：

利用预训练的深度卷积神经网络对视频进行特征提取，得到所述目标视觉特征。

根据本发明的一些实施例，在对所述目标视频进行特征提取，得到目标视觉特征之前，所述训练方法还包括：

对所述目标视频进行预处理，得到预处理的目标视频。

根据本发明的第二方面实施例的一种视频内容描述的应用方法，包括：

获取待分析视频，并提取所述待分析视频的视频视觉特征；

根据视频内容描述模型得到第二隐变量特征；

将所述第二隐变量特征和所述视频视觉特征代入所述视频内容描述模型，得到视频内容描述，所述视频内容描述模型根据如本发明第一方面实施例任一项训练方法训练得到。

根据本发明第二方面实施例的应用方法，至少具有如下有益效果：从已训练好的视频内容描述模型中得到第二隐变量特征，根据第二隐变量特征和提取的视频视觉特征生成新的视频内容描述，当获取的第二隐变量特征不同，那么得到的视频内容描述也就不同，即可生成开放性的视频描述，使用多种不同的应用场景，满足实际对多样性视频描述的需求。

根据本发明的一些实施例，所述根据视频内容描述模型得到第二隐变量特征，包括：

根据所述视频内容描述模型得到动作隐变量先验分布和模板隐变量先验分布；

根据对所述动作隐变量先验分布和所述模板隐变量先验分布分别采样得到第二动作隐变量特征和第二模板隐变量特征；

根据所述第二动作隐变量特征和所述第二模板隐变量特征得到第二隐变量特征。

根据本发明的第三方面实施例的一种计算机设备，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有程序，所述程序被所述处理器执行时所述处理器用于执行：

如本发明第一方面实施例任一项的训练方法；或

如本发明第二方面实施例任一项的应用方法。

根据本发明的第四方面实施例的一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储有计算机程序，在所述计算机程序被计算机执行时，所述计算机用于执行：

如本发明第一方面实施例任一项的训练方法；或

如本发明第二方面实施例任一项的应用方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明一个实施例提供的视频内容描述模型的训练方法的流程图；

图2为本发明另一个实施例提供的视频内容描述模型的训练方法的流程图；

图3为本发明另一个实施例提供的视频内容描述模型的训练方法的流程图；

图4为本发明另一个实施例提供的视频内容描述模型的训练方法的流程图；

图5为本发明另一个实施例提供的视频内容描述模型的训练方法的流程图；

图6为本发明另一个实施例提供的视频内容描述模型的训练方法的流程图；

图7是本发明一个实施例提供的视频内容描述模型的应用方法的流程图；

图8是本发明另一个实施例提供的视频内容描述模型的应用方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

视频描述(Video Captioning)是一种将给定的视频内容用单句话进行断言式的描述的技术。这一技术的成熟可以在很多场景下协助未来的人工智能：海量的短视频平台，如抖音、快手或者新闻平台等需要自动的自然语言的描述(例如，标题)；盲人可以通过语音助手对周围场景的描述帮助自己导航；其他和视频相关的任务，如检索，视觉问答等也需要视频的描述进行辅助训练。另一方面，视频场景本身复杂多样，加之自然语言的歧义性，人类倾向于采用不同的、开放性的描述来描绘周围场景。这种不确定性的描绘在一些讲求开放性的视频描述应用中尤为重要，例如，看图说话的教育应用中，智能助手往往需要给出多样描述去引导学生；盲人可能不满足或者不理解语音助手对当前场景的说明，需要让它换一种方式“说话”；不同的用户对于视频媒体段视频的描述可能需要用不同的语言以适应不同的群体的理解。然而，当前的视频描述应用大多没有考虑到这种开放性，无法产生多样的视频描述，无法满足带有歧义的场景，且相关技术的搜索空间很大，效率较低。

基于此，本发明提供一种视频内容描述模型的训练方法、应用方法、设备及介质，该训练方法包括获取目标视频和目标视频的内容描述，从内容描述中提取出动词和模板，将动词和模板进行编码处理与特征采样得到第一隐变量特征，对目标视频进行特征提取得到目标视觉特征，根据第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型，本发明可根据视频描述模型可以生成开放式的描述，即从很多角度，运用不同的表达生成各异的描述。

下面结合附图，对本发明实施例作进一步阐述。

参考图1，本发明的一个实施例提供了一种视频内容描述模型的训练方法，该训练方法包括但不限于：

步骤S110，获取目标视频和目标视频的内容描述；

步骤S120，从内容描述中提取出动词和模板，模板是对应目标视频的目标内容描述分离动词后余下的部分；

步骤S130，将动词和模板进行编码处理与特征采样，得到第一隐变量特征；

步骤S140，对目标视频进行特征提取，得到目标视觉特征；

步骤S150，根据第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型。

具体的，设动词为v，将目标视频的内容描述中的动词v利用自然语言词性标注的工具识别并分离出来；其剩余的部分m被称作模板。如“乐队在玩吉他”中提取出“玩”这一动词，和“乐队在[空]吉他”的模板。需要说明的是，[空]代表一个特殊字符。

具体的，在变分自编码器器下，将动词和模板进行编码处理与特征采样得到第一隐变量特征，由于第一隐变量特征是根据动词和模板进行编码处理与特征采样得到的，第一隐变量具有反映视频内容描述的功能，在本实施例中，第一隐变量特征与视频视觉特征进行结合输入解码器将得到新的视频内容描述。

在一实施例中，根据第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型，首先，第一隐变量特征与视频视觉特征进行结合输入解码器能得到新的视频内容描述，再根据第一隐变量和得到的新的视频内容描述对先验隐变量编码器和语言解码器进行数据逼近处理，以使从先验隐变量编码器中可以得到先验隐变量，和得到一个根据隐变量足够可以恢复原始描述的解码器，进而得到能生成多样性视频描述的视频描述模型。

本发明的另一个实施例还提供了一种训练方法，如图2所示，图2是图1中步骤S130的细化流程的另一个实施例的示意图，该步骤S130包括但不限于：

步骤S210，将动词和模板输入后验隐变量编码器进行编码处理，得到已编码动作隐变量和已编码模板隐变量；

步骤S220，将已编码模板隐变量输入预设第一神经网络模型，得到模板隐变量后验分布；

步骤S230，将已编码动作隐变量和模板隐变量后验分布输入第一神经网络模型进行处理，得到动作隐变量后验分布；

步骤S240，对动作隐变量后验分布和模板隐变量后验分布进行特征采样，得到第一动作隐变量特征和第一模板隐变量特征；

步骤S250，根据第一动作隐变量特征和第一模板隐变量特征得到第一隐变量特征。

具体的，后验隐变量编码器首先对模板m的每个时间点t(m_t)进行编码得到已编码模板隐变量，其中，预设第一神经网络模型为长短时记忆模型(Long short-term memory,LSTM)和深度全连接网络(Full Connected Networks,FCNs)，已编码模板隐变量通过一个长短时记忆模型(Long short-term memory,LSTM)和深度全连接网络(Full ConnectedNetworks,FCNs)推断出模板隐变量的分布，在变分自编码器(Variational Auto-Encoders，VAEs)的架构下，该分布为近似的模板隐变量后验分布。该后验分布往往是相互独立的多变量高斯分布，FCNs的输出即为模板信息的高斯分布的均值和方差。

具体的，后验隐变量编码器对动词进行编码处理得到已编码动作隐变量，将已编码动作隐变量和模板隐变量后验分布输入一个长短时记忆模型(Long short-termmemory,LSTM)和深度全连接网络(Full Connected Networks,FCNs)推断出动作隐变量的分布。同理，该分布为近似的动作隐变量后验分布。FCNs的输出为动作信息的高斯分布的均值和方差。

在一实施例中，对动作隐变量后验分布和模板隐变量后验分布进行特征采样，得到动作隐变量特征和模板隐变量特征，根据动作隐变量特征和模板隐变量特征得到第一隐变量特征，可根据将第一隐变量特征作为参数，以生成新的视频内容描述。

本发明的另一个实施例还提供了一种训练方法，如图3所示，图3是图1中步骤S150的细化流程的另一个实施例的示意图，该步骤S150包括但不限于：

步骤S310，将第一隐变量特征和视觉特征代入语言解码器，得到初始解码结果；

步骤S320，将初始解码结果、第一隐变量特征输入预设损失函数以对先验隐变量编码器和语言解码器进行训练，得到视频内容描述模型。

具体的，第一隐变量特征与视频视觉特征进行结合输入解码器能得到新的视频内容描述，进而得到初始解码结果。

在一实施例中，将初始解码结果、第一隐变量特征输入预设损失函数以对先验隐变量编码器和语言解码器进行训练，旨在通过预设损失函数根据初始解码结果和第一隐变量特征得到视频内容描述模型。

本发明的另一个实施例还提供了一种训练方法，如图4所示，图4是图3中步骤S320的细化流程的另一个实施例的示意图，该步骤S320包括但不限于：

步骤S410，将初始解码结果、第一隐变量特征输入预设损失函数得到损失数值；

步骤S420，根据损失数值调节语言解码器的参数，得到已训练语言解码器；

步骤S430，根据损失数值调节隐变量编码器的参数使得目标先验分布接近第一隐变量特征，得到已训练先验隐变量编码器；

步骤S440，基于已训练语言解码器和已训练先验隐变量编码器得到视频内容描述模型。

具体的，将初始解码结果、第一隐变量特征输入预设损失函数以对先验隐变量编码器和语言解码器进行训练，得到视频内容描述模型。预设损失函数如下：

其中，q和p分别为动作隐变量和模板隐变量的后验分布和先验分布，由于它们都是高斯分布，它们的KL距离可以显式地求得。x_t-1是解码器上一个时间点预测出来的单字，z_t则是当前隐变量解码器解码出来的隐变量，x_t是当前时刻预测出来的单字，由神经网络预测出来的值作为模型可以得到x_t的概率。根据损失数值调节语言解码器的参数，使得预测解码结果接近实际解码结果，得到已训练语言解码器。根据损失数值调节隐变量编码器的参数使得目标先验分布接近第一隐变量特征，得到已训练先验隐变量编码器。该目标函数旨在得到一个根据隐变量足够可以恢复原始描述的解码器和一个近似后验分布的先验隐变量编码器。

需要说明的是，该损失函数来自于VAE框架下，通过逼近数据的实际后验和近似后验，最终所推出的数据似然函数的下界(Evidence Lower Bound,ELBO)。前一项负责重建损失，旨在增加隐变量恢复出原始描述的忠实程度，表现为条件似然函数(以隐变量为条件)。后一项是先验和后验的距离(用KL表示两个分布间的距离)，通过缩短这一距离，可以使先验分布更加接近后验分布，而后验分布是从数据中学习到的，是有信息的，从而先验也逐渐具备了这种能力。而在应用阶段，后验是不可知的，而接近后验分布的先验分布，先验分布训练阶段可知，才具备可以“恢复”数据的潜力。

本发明的另一个实施例还提供了一种训练方法，如图5所示，图5是图1中步骤S140的细化流程的另一个实施例的示意图，该步骤S140包括但不限于：

步骤S510，利用预训练的深度卷积神经网络对视频进行特征提取，得到目标视觉特征。

在一实施例中，视频编码器利用预训练的深度卷积神经网络(ConvolutionalNeural Networks，CNNs)对视频进行特征提取，得到目标视觉特征，旨在将目标视觉特征和第一隐变量特征输入语言解码器，以进行视频内容描述模型的训练。

本发明的另一个实施例还提供了一种训练方法，如图6所示，在图5步骤S510之前，还包括但不限于：

步骤S610，对目标视频进行预处理，得到预处理的目标视频。

在一实施例中，在对目标视频进行特征提取前，需要对视频做采样等的预处理，以符合深度模型对其输入的需要。

参考图7，本发明的一个实施例提供了一种视频内容描述模型的应用方法，该应用方法包括但不限于：

步骤S710，获取待分析视频，并提取待分析视频的视频视觉特征；

步骤S720，根据视频内容描述模型得到第二隐变量特征；

步骤S730，将第二隐变量特征和视频视觉特征代入视频内容描述模型，得到视频内容描述。

在一实施例中，从已训练好的视频内容描述模型中得到第二隐变量特征，根据第二隐变量特征和提取的视频视觉特征生成新的视频内容描述，当获取的第二隐变量特征不同，那么得到的视频内容描述也就不同，即可生成开放性的视频描述，使用多种不同的应用场景，满足实际对多样性视频描述的需求。

需要说明的是，本发明实施例的视频内容描述通过获取第二隐变量特征和视频视觉生成，有效提高了视频内容描述的生成效率。

本发明的另一个实施例还提供了一种视频内容描述模型的应用方法，如图8所示，图8是图7中步骤S720的细化流程的另一个实施例的示意图，该步骤S720包括但不限于：

步骤S810，根据视频内容描述模型得到动作隐变量先验分布和模板隐变量先验分布；

步骤S820，根据对动作隐变量先验分布和模板隐变量先验分布分别采样得到第二动作隐变量特征和第二模板隐变量特征；

步骤S830，根据第二动作隐变量特征和第二模板隐变量特征得到第二隐变量特征。

在一实施例中，从视频内容描述模型中得到动作隐变量先验分布和模板隐变量先验分布，在经过训练阶段学习的先验分布已具备解码功能，从学习好的动作隐变量先验分布和模板隐变量先验分布中采样，解码出相应描述。由于每次采样出的隐变量特征不同，生成的描述也不相同，但它们都可以用来描述相应视频。

在一实施例中，从已训练过的先验隐变量编码器中得到动作隐变量和模板隐变量的先验分布，从先验分布中可以采样出动作和模板隐变量特征，再将它们连接起来，同视频视觉特征一起作为解码器的输入，预测出新的描述。应用阶段本发明不需要采用传统的集束搜索的方式，而是从先验分布中采多次隐变量，对于每个采出的隐变量，都可以输入到神经网络出得到一个最终的句子。同时这种采样方式属于并行方式，即可以句子与句子之前的生成过程相互独立，这样可以有效避免集束搜索方法中的很广的搜索空间和串行搜索带来的低效率问题。

本发明的一个实施例提供了一种视频内容描述模型的训练装置，该训练装置包括但不限于：

第一获取模块：用于获取目标视频和目标视频的内容描述；

第一处理模块：用于从内容描述中提取出动词和模板，模板是对应目标视频的目标内容描述分离动词后余下的部分；

特征处理模块：用于将动词和模板进行编码处理与特征采样，得到第一隐变量特征；

第二获取模块：用于对目标视频进行特征提取，得到目标视觉特征；

模型生成模块：将第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型。

在一实施例中，本发明的训练装置通过获取目标视频和目标视频的内容描述，从内容描述中提取出动词和模板，将动词和模板进行编码处理与特征采样得到第一隐变量特征，对目标视频进行特征提取得到目标视觉特征，根据第一隐变量特征和目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型，本发明可根据视频描述模型可以生成开放式的描述，即从很多角度，运用不同的表达生成各异的描述。

本发明的一个实施例提供了一种视频内容描述模型的应用装置，该应用装置包括但不限于：

第三获取模块：用于获取待分析视频，并提取待分析视频的视频视觉特征；

第四获取模块：用于根据视频内容描述模型得到第二隐变量特征；

视频内容描述生成模块：用于将第二隐变量特征和视频视觉特征代入视频内容描述模型，得到视频内容描述，视频内容描述模型根据如本发明上述任一项实施例的训练方法训练得到。

在一实施例中，本发明提供的应用装置从已训练好的视频内容描述模型中得到第二隐变量特征，根据第二隐变量特征和提取的视频视觉特征生成新的视频内容描述，当获取的第二隐变量特征不同，那么得到的视频内容描述也就不同，即可生成开放性的视频描述，使用多种不同的应用场景，满足实际对多样性视频描述的需求。

其中，一种视频内容描述模型的应用装置的具体执行步骤参照上述一种视频内容描述模型的应用方法，此处不再赘述。

本发明实施例还提供了一种计算机设备，包括：至少一个处理器，以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上任一项方法实施例中的训练方法和应用方法。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，一个或多个控制处理器执行上述方法实施例中的训练方法，例如，执行以上描述的图1中的方法步骤S110至S150、图2中的方法步骤S210至S250、图3中的方法步骤S310至S320、图4中的方法步骤S410至S440、图5中的方法步骤S510、图6中的方法步骤S610。一个或多个控制处理器执行上述方法实施例中的应用方法，例如，执行以上描述的图7中的方法步骤S710至S730、图8中的方法步骤S810至S830。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种视频内容描述模型的训练方法，其特征在于，包括：

获取目标视频和所述目标视频的内容描述；

对所述目标视频进行特征提取，得到目标视觉特征；

2.根据权利要求1所述的视频内容描述模型的训练方法，其特征在于，所述将所述动词和所述模板进行编码处理与特征采样，得到第一隐变量特征，包括：

3.根据权利要求1所述的视频内容描述模型的训练方法，其特征在于，所述根据所述第一隐变量特征和所述目标视觉特征对先验隐变量编码器和语言解码器进行数据逼近处理，得到视频内容描述模型，包括：

将所述第一隐变量特征和所述视觉特征代入语言解码器，得到初始解码结果；

将所述初始解码结果、所述第一隐变量特征输入预设损失函数以对所述先验隐变量编码器和所述语言解码器进行数据逼近处理进行训练，得到视频内容描述模型。

4.根据权利要求3所述的视频内容描述模型的训练方法，其特征在于，所述将所述初始解码结果、所述第一隐变量特征输入预设损失函数以对所述先验隐变量编码器和所述语言解码器进行数据逼近处理进行训练，得到视频内容描述模型，包括：

5.根据权利要求1所述的视频内容描述模型的训练方法，其特征在于，所述对所述目标视频进行特征提取，得到目标视觉特征，包括：

6.根据权利要求5所述的视频内容描述模型的训练方法，其特征在于，在对所述目标视频进行特征提取，得到目标视觉特征之前，所述训练方法还包括：

对所述目标视频进行预处理，得到预处理的目标视频。

7.一种视频内容描述模型的应用方法，其特征在于，包括：

获取待分析视频，并提取所述待分析视频的视频视觉特征；

根据所述视频内容描述模型得到第二隐变量特征；

将所述第二隐变量特征和所述视频视觉特征代入所述视频内容描述模型，得到视频内容描述，所述视频内容描述模型根据如权利要求1至6任一项所述的方法训练得到。

8.根据权利要求7所述的视频内容描述模型的应用方法，其特征在于，所述根据视频内容描述模型得到第二隐变量特征，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有程序，所述程序被所述处理器执行时所述处理器用于执行：

如权利要求1至6中任一项所述的训练方法；或

如权利要求7至8中任一项所述的应用方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储有计算机程序，在所述计算机程序被计算机执行时，所述计算机用于执行：

如权利要求1至6中任一项所述的训练方法；或

如权利要求7至8中任一项所述的应用方法。