CN115495615B

CN115495615B - 视频与文本的互检方法、装置、设备、存储介质及终端

Info

Publication number: CN115495615B
Application number: CN202211420795.2A
Authority: CN
Inventors: 赵坤; 王立; 李仁刚; 赵雅倩; 范宝余; 鲁璐; 郭振华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-02-28
Anticipated expiration: 2042-11-15
Also published as: CN115495615A

Abstract

本申请公开了计算机技术领域内的一种视频与文本的互检方法、装置、设备、存储介质及终端。本申请在确定目标视频中每帧画面的特征后，利用以强化学习方式训练得到的视频播放模型确定目标视频中每帧画面的播放速度，得到目标视频的播放控制策略，通过播放控制策略可以在目标视频中选择出能够表示视频画面转折点的多帧关键画面，后续检索与这些关键画面匹配的目标文本。该方案不以视频里的全部帧进行检索，而是从中选出能够表示视频画面转折点的一些关键画面进行检索，降低了数据处理量，保障了检索精度，提升了检索效率。本申请提供的一种视频与文本的互检装置、设备、存储介质及终端，也同样具有上述技术效果。

Description

视频与文本的互检方法、装置、设备、存储介质及终端

技术领域

本申请涉及计算机技术领域，特别涉及一种视频与文本的互检方法、装置、设备、存储介质及终端。

背景技术

目前，很多视频与文本都是对应存在的，如：做饭视频与做饭步骤，课程讲解视频与课程作业，科普视频与相关文本示意。因此可以通过视频检索到对应的文本。但视频的数据量一般较大，故通过视频检索对应的文本时，需要较多算力先行处理大量视频数据才能进行后续的检索步骤，造成检索效率低下。

因此，如何提高通过视频检索对应文本的效率，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种视频与文本的互检方法、装置、设备、存储介质及终端，以提高通过视频检索对应文本的效率。其具体方案如下：

第一方面，本申请提供了一种视频与文本的互检方法，包括：

获取目标视频；

确定目标视频中每帧画面的特征；

将所述目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，以使所述视频播放模型针对所述目标视频输出播放控制策略；所述播放控制策略包括：所述目标视频中每帧画面的播放速度；

基于所述播放控制策略在所述目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合；

检索与所述关键画面集合匹配的目标文本。

可选地，所述基于所述播放控制策略在所述目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合，包括：

基于所述播放控制策略确定所述目标视频中每帧画面的播放速度；

使播放速度不低于预设上限值的连续画面构成一个视频片段，使播放速度不高于预设下限值的连续画面构成另一视频片段，使播放速度介于预设上限值和预设下限值之间的连续画面构成又一视频片段；

在每个视频片段中分别选择视频画面，并使选择到的所有视频画面构成所述关键画面集合。

可选地，所述在每个视频片段中分别选择视频画面，包括：

在每个视频片段中随机选择预设数量帧视频画面；

或

按照每个视频片段对应的预设选择步长计算在每个视频片段中可选的帧数量，基于每个视频片段对应的预设选择步长和可选的帧数量在每个视频片段中分别选择视频画面。

可选地，任一视频片段中可选的帧数量按照第一公式进行计算；所述第一公式为：z=(t_start-t_end)/S；其中，z为当前视频片段中可选的帧数量，t_start为当前视频片段的起始帧，t_end为当前视频片段的结束帧，S为当前视频片段对应的预设选择步长。

可选地，所述检索与所述关键画面集合匹配的目标文本，包括：

确定所述关键画面集合对应的视频特征序列；

检索与所述视频特征序列匹配的文本特征；

将所述文本特征对应的文本数据确定为所述目标文本。

可选地，任一文本数据对应的文本特征的生成过程包括：

将任一文本数据的内容编码为多个数据节点，并基于各数据节点以及不同数据节点之间的连接关系构造图结构；

使所述图结构中具有连接关系的数据节点相互融合，得到更新后的图结构；

确定更新后的图结构的图编码结果，并拼接所述图编码结果与当前文本数据的标题特征，得到当前文本数据对应的文本特征。

可选地，所述将任一文本数据的内容编码为多个数据节点，并基于各数据节点以及不同数据节点之间的连接关系构造图结构；使所述图结构中具有连接关系的数据节点相互融合，得到更新后的图结构，包括：

提取当前文本数据中各个步骤的步骤特征和原料特征，并将所述步骤特征和所述原料特征作为所述数据节点；

确定任意步骤特征需连接的原料特征，并基于所有步骤特征、所有原料特征以及各步骤特征需连接的原料特征构造异质图作为所述图结构；

针对所述异质图，基于任意步骤特征所连接的各原料特征更新当前步骤特征，基于任意原料特征所连接的各步骤特征更新当前原料特征，以使所述异质图中具有连接关系的步骤特征和原料特征相互融合，得到更新后的图结构。

可选地，所述确定任意步骤特征需连接的原料特征，包括：

若任一步骤特征包括任一操作原料，则确定当前步骤特征需连接当前操作原料对应的原料特征；

或

基于任一步骤特征与所有原料特征之间的连接强度选择当前步骤特征需连接的原料特征。

可选地，基于任一步骤特征与所有原料特征之间的连接强度选择当前步骤特征需连接的原料特征，包括：

若任一步骤特征与任一原料特征之间的连接强度大于预设阈值，则确定当前步骤特征需连接当前原料特征；

或

对任一步骤特征与所有原料特征之间的连接强度进行归一化处理，将归一化处理后的各连接强度作为抽样概率，按照各抽样概率选择当前步骤特征需连接的原料特征；

或

将任一步骤特征与所有原料特征之间的连接强度归类至多个区间，在每个区间内以概率采样方式或均值采样方式选择目标数量个连接强度，将所选择的连接强度对应的原料特征确定为当前步骤特征需连接的原料特征。

可选地，所述基于任意步骤特征所连接的各原料特征更新当前步骤特征，基于任意原料特征所连接的各步骤特征更新当前原料特征，包括：

基于任意步骤特征所连接的各原料特征计算当前步骤特征的附加步骤特征，将所述附加步骤特征补充至当前步骤特征；

基于任意原料特征所连接的各步骤特征计算当前原料特征的附加原料特征，将所述附加原料特征补充至当前原料特征。

可选地，所述确定更新后的图结构的图编码结果，包括：

对更新后的图结构中的所有步骤特征进行正序编码和倒序编码，得到正序编码结果和倒序编码结果；

取所述正序编码结果和所述倒序编码结果的均值作为所述图编码结果。

可选地，所述确定所述关键画面集合对应的视频特征序列，包括：

提取所述关键画面集合中各关键画面的空间特征和时间特征；

使所述关键画面集合中各关键画面的空间特征和时间特征构成所述视频特征序列。

可选地，还包括：

若获取到待检索文本数据，则确定所述待检索文本数据对应的待检索文本特征；

检索与所述待检索文本特征匹配的视频特征序列，并确定检索到的视频特征序列对应的目标视频。

可选地，所述视频播放模型的训练过程包括：

将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使所述初始模型针对所述目标特征输出目标播放速度；

基于所述目标播放速度确定跳帧个数，并基于所述跳帧个数、所述目标特征以及所述目标特征的邻居特征计算目标奖励值；

根据所述目标奖励值与前一次迭代输出的奖励值的差值更新所述初始模型的模型参数，得到更新后的模型；

若达到最大迭代次数，则将更新后的模型作为所述视频播放模型；否则，用更新后的模型替换所述初始模型，并基于所述跳帧个数在所述训练视频中确定下一帧训练画面的目标特征，以训练更新后的模型。

可选地，所述将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使所述初始模型针对所述目标特征输出目标播放速度，包括：

将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入所述初始模型，以使所述初始模型计算所述目标特征对应的预测加速度，基于所述预测加速度与前一次迭代输出的加速度计算所述目标特征对应的目标加速度，基于所述目标加速度和前一次迭代输出的播放速度计算所述目标播放速度。

第二方面，本申请提供了一种视频与文本的互检装置，包括：

获取模块，用于获取目标视频；

帧特征确定模块，用于确定目标视频中每帧画面的特征；

策略确定模块，用于将所述目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，以使所述视频播放模型针对所述目标视频输出播放控制策略；所述播放控制策略包括：所述目标视频中每帧画面的播放速度；

画面选择模块，用于基于所述播放控制策略在所述目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合；

检索模块，用于检索与所述关键画面集合匹配的目标文本。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的视频与文本的互检方法。

第四方面，本申请提供了一种存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的视频与文本的互检方法。

第五方面，本申请提供了一种终端，所述终端用于提交文本或视频至服务器，以使所述服务器执行上述任一项所述的方法；所述终端还用于接收并显示所述服务器返回的检索结果。

通过以上方案可知，本申请提供了一种视频与文本的互检方法，包括：获取目标视频；确定目标视频中每帧画面的特征；将所述目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，以使所述视频播放模型针对所述目标视频输出播放控制策略；所述播放控制策略包括：所述目标视频中每帧画面的播放速度；基于所述播放控制策略在所述目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合；检索与所述关键画面集合匹配的目标文本。

可见，本申请在确定目标视频中每帧画面的特征后，将目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，从而可使视频播放模型确定目标视频中每帧画面的播放速度，得到目标视频的播放控制策略，通过播放控制策略可以在目标视频中选择出能够表示视频画面转折点的多帧关键画面，后续检索与这些关键画面匹配的目标文本，即可实现：通过视频检索对应文本。在该方案中，并不以视频里的全部帧进行检索，而是从中选出能够表示视频画面转折点的一些关键画面。因为视频中往往存在重复的或无明显变化的画面，因此没有必要对视频里的全部帧进行检索，本申请从视频里选出少量关键画面进行检索，不仅可以降低数据处理量，还可以保障检索精度，提升检索效率。

相应地，本申请提供的一种视频与文本的互检装置、设备、存储介质及终端，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种视频与文本的互检方法流程图；

图2为本申请公开的一种播放控制策略的曲线示意图；

图3为本申请公开的一种异质图示意图；

图4为本申请公开的一种3D卷积网络示意图；

图5为本申请公开的一种图文互检网络的数据逻辑示意图；

图6为本申请公开的一种视频与文本的互检装置示意图；

图7为本申请公开的一种电子设备示意图；

图8为本申请公开的一种终端示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，通过视频检索对应的文本时，需要较多算力先行处理大量视频数据才能进行后续的检索步骤，造成检索效率低下。为此，本申请提供了一种检索方案，能够从视频里选出少量关键画面进行检索，不仅可以降低数据处理量，还可以保障检索精度，提升检索效率。

参见图1所示，本申请实施例公开了一种视频与文本的互检方法，包括：

S101、获取目标视频，确定目标视频中每帧画面的特征。

在本实施例中，目标视频中每帧画面的特征可以通过卷积神经网络确定，例如：可以使用ResNet-50模型提取目标视频中每帧画面的嵌入式特征，从而确定目标视频中每帧画面的特征。

S102、将目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，以使视频播放模型针对目标视频输出播放控制策略。

其中，播放控制策略包括：目标视频中每帧画面的播放速度。也即，本实施例提供的视频播放模型能够给每帧确定一个播放速度，当然也可能跳过某些帧。如果某些帧能够表示视频画面转折点，那么这些帧的播放速度就较慢；如果某些连续帧的画面基本不变，那么这些连续帧的播放速度就较快，或其中有些帧会被跳过。被跳过的帧的播放速度为0。依据此原理，可以利用强化学习方式训练得到视频播放模型，从而利用此视频播放模型确定每个帧的播放速度，汇总这些播放速度即可得到播放控制策略，依据此播放控制策略从视频中选出各个关键帧。

S103、基于播放控制策略在目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合。

在一种具体实施方式中，基于播放控制策略在目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合，包括：基于播放控制策略确定目标视频中每帧画面的播放速度；使播放速度不低于预设上限值的连续画面构成一个视频片段，使播放速度不高于预设下限值的连续画面构成另一视频片段，使播放速度介于预设上限值和预设下限值之间的连续画面构成又一视频片段；在每个视频片段中分别选择视频画面，并使选择到的所有视频画面构成关键画面集合。

如图2所示，一个视频有n帧，使用上限值1和下限值-1将该视频划分为[0,t1]、[t1,t2]、[t2,t3]、[t3,t4]、[t3,t5]、[t5,t6]等多个视频片段。可见，播放速度不低于预设上限值的连续画面的视频片段可以有多个，播放速度不高于预设下限值的连续画面构成的视频片段也可以有多个，播放速度介于预设上限值和预设下限值之间的连续画面构成的视频片段同样可以有多个。因此按照此方式可针对一个视频得到多个视频片段，而每个视频片段都对应有一个预设选择步长，用于控制对应视频片段内可选的帧数量。例如：针对图2所示视频片段[0,t1]，由于播放速度呈上升趋势，说明画面越来越相近，存在关键帧的可能性较小，因此预设选择步长可以较大，以使可选的帧数量变少。而针对图2所示视频片段[t2,t3]，由于播放速度呈下降趋势，说明画面越来越不同，存在关键帧的可能性较大，因此预设选择步长可以较小，以使可选的帧数量变多。

在一种具体实施方式中，在每个视频片段中分别选择视频画面，包括：在每个视频片段中随机选择预设数量帧视频画面；或按照每个视频片段对应的预设选择步长计算在每个视频片段中可选的帧数量，基于每个视频片段对应的预设选择步长和可选的帧数量在每个视频片段中分别选择视频画面。其中，任一视频片段中可选的帧数量按照第一公式进行计算；第一公式为：z=(t_start-t_end)/S；其中，z为当前视频片段中可选的帧数量，t_start为当前视频片段的起始帧，t_end为当前视频片段的结束帧，S为当前视频片段对应的预设选择步长。

S104、检索与关键画面集合匹配的目标文本。

在一种具体实施方式中，检索与关键画面集合匹配的目标文本，包括：确定关键画面集合对应的视频特征序列；检索与视频特征序列匹配的文本特征；将文本特征对应的文本数据确定为目标文本。本实施例基于各关键画面的视频特征序列检索对应的文本特征，不仅可以提升检索效率，还可以保证检索准确率。

可见，本实施例在确定目标视频中每帧画面的特征后，将目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，从而可使视频播放模型针对目标视频输出播放控制策略，通过播放控制策略可以在目标视频中选择出能够表示视频画面转折点的多帧关键画面，后续检索与这些关键画面匹配的目标文本，即可实现：通过视频检索对应文本。在该方案中，并不以视频里的全部帧进行检索，而是从中选出能够表示视频画面转折点的一些关键画面。因为视频中往往存在重复的或无明显变化的画面，因此没有必要对视频里的全部帧进行检索，本申请从视频里选出少量关键画面进行检索，不仅可以降低数据处理量，还可以保障检索精度，提升检索效率。

基于上述实施例，需要说明的是，任一文本数据对应的文本特征的生成过程包括：将任一文本数据的内容编码为多个数据节点，并基于各数据节点以及不同数据节点之间的连接关系构造图结构；使图结构中具有连接关系的数据节点相互融合，得到更新后的图结构；确定更新后的图结构的图编码结果，并拼接图编码结果与当前文本数据的标题特征，得到当前文本数据对应的文本特征。

其中，将任一文本数据的内容编码为多个数据节点，并基于各数据节点以及不同数据节点之间的连接关系构造图结构；使图结构中具有连接关系的数据节点相互融合，得到更新后的图结构，包括：提取当前文本数据中各个步骤的步骤特征和原料特征，并将步骤特征和原料特征作为数据节点；确定任意步骤特征需连接的原料特征，并基于所有步骤特征、所有原料特征以及各步骤特征需连接的原料特征构造异质图作为图结构；针对异质图，基于任意步骤特征所连接的各原料特征更新当前步骤特征，基于任意原料特征所连接的各步骤特征更新当前原料特征，以使异质图中具有连接关系的步骤特征和原料特征相互融合，得到更新后的图结构。如图3所示，步骤特征v ₁ ^ins 、v ₂ ^ins 、v ₃ ^ins 、v ₄ ^ins和原料特征v ₁ ^ing 、v ₂ ^ing 、 v ₃ ^ing构成了异质图这一图结构，由于该图结构中包含不同类型的节点，故称为异质图。

当前文本数据可以为菜谱、操作说明书等。若当前文本数据为菜谱，则将菜谱中的制作步骤编码为步骤特征，将菜谱中的制作原料编码为原料特征，那么步骤特征和原料特征即为数据节点。若当前文本数据为操作说明书，则将操作说明书中的操作步骤编码为步骤特征，将操作说明书中需操作的各个原料器件编码为原料特征，

在一种具体实施方式中，确定任意步骤特征需连接的原料特征，包括：若任一步骤特征包括任一操作原料，则确定当前步骤特征需连接当前操作原料对应的原料特征；例如：菜谱中的某一制作步骤中有提到“鸡蛋”这一原料，那么该制作步骤对应的步骤特征需要连接鸡蛋争议操作原料对应的原料特征。或基于任一步骤特征与所有原料特征之间的连接强度选择当前步骤特征需连接的原料特征。

其中，基于任一步骤特征与所有原料特征之间的连接强度选择当前步骤特征需连接的原料特征，包括：若任一步骤特征与任一原料特征之间的连接强度大于预设阈值，则确定当前步骤特征需连接当前原料特征；或对任一步骤特征与所有原料特征之间的连接强度进行归一化处理，将归一化处理后的各连接强度作为抽样概率，按照各抽样概率选择当前步骤特征需连接的原料特征；或将任一步骤特征与所有原料特征之间的连接强度归类至多个区间，在每个区间内以概率采样方式或均值采样方式选择目标数量个连接强度，将所选择的连接强度对应的原料特征确定为当前步骤特征需连接的原料特征。

具体的，异质图中不同类型节点之间的连接强度可以通过神经网络确定。其中，基于连接强度确定需连接的节点时，认为异质图中不同类型节点之间都可以存在连接关系，本实施例保留其中连接关系强度较强、较稳定的。

当通过神经网络确定连接强度时，仅采用阈值方式选择连接强度大于预设阈值的连接边，未免具有一定的随机性。对此，可以通过概率采样方法克服此缺陷。

其中，通过概率采样方法确定连接边的具体过程包括：第一种：对于每一个步骤特征，对该步骤特征和与其连接的所有原料特征的连接强度值进行归一化。即：该步骤特征和与其连接的所有原料特征的连接强度值之和为1。随后将归一化后的连接强度值作为抽样概率，按概率抽样n个，所抽到的n个即为选择的连接边。第二种：设置采样区间，将神经网络输出的各个连接强度值划分至各个采样区间，在各个采样区间内抽取相应数量的连接边。

其中，采样区间如表1所示。

表1

如表1所示，对于落入区间[a,b）内的连接强度值，直接一次性抽取出N1条边，采样方法为概率采样或均值采样。对于落入区间[b,c）内的连接强度值，直接一次性抽取出N2条边，采样方法为概率采样或均值采样。对于落入区间[c,无穷]的连接强度值，采样N3条边，采样方法为概率采样或均值采样。其中，n为需要选择的边个数，n=N1+N2+N3=pl×H。H是一个固定值，代表边的连接关系数量比例值；p1为权重参数，若本实施例使用模型训练方式实现，则该值随模型训练过程更新。N1=p2×n，N2=p3×n，N3=p4×n，其中，p2、p3、p4代表区间连接关系数量比例值，用于确定：在需要选择的边个数n固定时，在各个区间内分别选几条边。p2+p3+p4=1。

在一种具体实施方式中，基于任意步骤特征所连接的各原料特征更新当前步骤特征，基于任意原料特征所连接的各步骤特征更新当前原料特征，包括：基于任意步骤特征所连接的各原料特征计算当前步骤特征的附加步骤特征，将附加步骤特征补充至当前步骤特征；基于任意原料特征所连接的各步骤特征计算当前原料特征的附加原料特征，将附加原料特征补充至当前原料特征。

在一种具体实施方式中，确定更新后的图结构的图编码结果，包括：对更新后的图结构中的所有步骤特征进行正序编码和倒序编码，得到正序编码结果和倒序编码结果；取正序编码结果和倒序编码结果的均值作为图编码结果。其中，在更新图结构时，步骤特征和原料特征进行了相互融合，因此可以摒弃更新后的图结构中的原料特征，只对步骤特征进行编码，从而确定图编码结果。其中，正序编码和倒序编码可通过BiLSTM（双向长短期记忆神经网络）确定。

在一种具体实施方式中，确定关键画面集合对应的视频特征序列，包括：提取关键画面集合中各关键画面的空间特征和时间特征，以提取画面中更深层次更丰富的特征，从而提升特征精度；使关键画面集合中各关键画面的空间特征和时间特征构成视频特征序列。其中，关键画面的空间特征和时间特征可通过3D卷积网络提取。

在一种具体实施方式中，还包括：若获取到待检索文本数据，则确定待检索文本数据对应的待检索文本特征；检索与待检索文本特征匹配的视频特征序列，并确定检索到的视频特征序列对应的目标视频。该实施方式可通过文本检索到对应的视频，而上述实施例通过视频可检索到相应文本，由此就实现了文本与视频的互检。

基于上述实施例，需要说明的是，视频播放模型的训练过程包括：将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使初始模型针对所述目标特征输出目标播放速度；基于目标播放速度确定跳帧个数，并基于跳帧个数、所述目标特征以及所述目标特征的邻居特征计算目标奖励值；根据目标奖励值与前一次迭代输出的奖励值的差值更新初始模型的模型参数，得到更新后的模型；若达到最大迭代次数，则将更新后的模型作为视频播放模型；否则，用更新后的模型替换初始模型，并基于跳帧个数在训练视频中确定下一帧训练画面的目标特征，以训练更新后的模型。目标特征的邻居特征为目标特征周围的M-1个特征。

其中，基于跳帧个数在训练视频中确定下一目标特征时，可参照如下过程：目标特征与某一视频的第一帧画面对应，并且第一次计算得到的目标播放速度为2，那么跳帧个数即为2，那么下一目标特征为：该视频的第4帧画面的特征。可见，跳帧个数与当前帧画面的播放速度相等。其中，被跳过的帧的播放速度和加速度可认为是0。

在一种具体实施方式中，将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使初始模型针对所述目标特征输出目标播放速度，包括：将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使初始模型计算所述目标特征对应的预测加速度，基于预测加速度与前一次迭代输出的加速度计算所述目标特征对应的目标加速度，基于目标加速度和前一次迭代输出的播放速度计算目标播放速度。

其中，所述目标特征对应的目标加速度的计算公式为：

。其中，

为目标加速度，

为前一次迭代输出的加速度，

为本次输出的预测加速度。

和

为预置常数，用于调节本次预测加速度和前一次迭代输出的加速度对目标加速度的影响大小。

其中，目标播放速度的计算公式为：

。其中，v _t为目标播放速度，

为前一次迭代输出的播放速度，a为预置常数，在区间[0,1]取值。

为目标加速度。

下述实施例以食谱和制作视频二者的互检为例，进行方案介绍，该方案模型为基础进行具体实现。

首先对食谱进行处理，将食谱分为操作步骤、成分信息和菜名三个部分，将操作步骤和成分信息用图结构表示后进行编码；将菜名作为标题，直接通过Bert模型提取其中的标题特征（title特征）。

如图3所示，将操作步骤、成分信息用异质图表示，图中每个圆圈表示一个节点，第一行是步骤节点（即步骤特征），第二行是成分节点（即原料特征）。

具体的，各个节点可以用Bert模型对操作步骤和成分信息进行处理获得。Bert模型输出的成分节点和步骤节点都是高维向量，具体为d维实向量。节点之间的边可以通过文本比对方法确定。例如：如果某一成分在某一步骤中出现，则该步骤和该成分之间连接一条边（即：有连接关系）。当然，也可以基于上述实施例提供的连接强度进行边的确定。

在构建得到异质图后，对异质图进行更新。也就是：使图中有连接关系的节点相互融合。本实施例采用图注意力网络实现该步骤。

具体的，首先对步骤节点特征进行更新，遍历每个步骤节点，并计算当前步骤节点所连接的各个成分节点对应的权重z _qp，

。

其中，W _a、W _b、W _c是R^d×d维矩阵，

代表矩阵乘法，也代表了向量映射。

代表步骤节点q处的节点特征，

代表成分节点p处的节点特征。若步骤节点q与成分节点p有连接，则用分节点p处的节点特征去更新步骤节点q处的节点特征，此时借助步骤节点q所连接的成分节点p对应的权重z _qp进行计算。对于每个步骤节点，如果有N _p个成分节点与其相连，则需要计算N _p个权重z _qp。

假设针对一个步骤节点，计算得到了N _p个z _qp，那么采用下述公式进行权重的归一化，具体公式为：

。归一化的权重为

，exp代表求指数函数。

代表求取所有与该步骤节点相连的所有成分节点的权重总和。

下一步利用公式

计算步骤节点的节点特征的附加值。其中，

代表超参数，在[0,1]区间取值；W _v是R^d×d维矩阵；

是原

的附加值。如果原

连接有N _p个成分节点，则

乘N _p个附加特征得到

。

进一步，使用公式

将附加值

与未更前的初始特征

相加，从而得到更新后的

。

同理，对成分节点也做相同的计算与更新，具体可参照上述过程。如此一个轮次的更新就算完成。

当采用图注意力网络实现上述步骤时，可以设置T层图注意力网络，也即：按照上述逻辑进行T轮更新。在每一次更新完成后，可以采用全连接层对当前各节点特征进行再编码。具体公式为：

。FFN代表全连接层。

、

代表第t+1层图注意力网络需要处理的节点特征。

、

代表第t层图注意力网络输出的节点特征。

下面用BiLSTM进一步挖掘步骤节点的时序信息，实现对节点特征的归纳综合，打包成一个向量。BiLSTM提取所有步骤节点的时序信息的公式为：

，

。其中，向左和向右的箭头代表编码的方向。即步骤节点特征的正序编码和倒序编码，所以有2个公式。

代表BiLSTM中第q个单元的输出，箭头方向不同代表步骤节点输入顺序不同。

则代表BiLSTM中第q-1个单元的输出，也即第q个单元的上一个状态的输出。

假设制作步骤共有Q步，将其按照步骤的顺序和逆序，分别输入到BiLSTM中，最后得到所有步骤节点的BiLSTM编码，公式如下：

。

如上公式所示，我们取顺序输出结果和逆序输出结果，求和后取平均值作为整个文本特征的输出。其中，

代表文本特征的输出，用来进行下一步的检索。

之后，将

特征与title特征进行融合，公式为：

，此处的[]代表特征拼接，即特征首尾相连。

会经过一个全连接层进行特征映射，得到新维度的向量，用来和视频的编码特征进行匹配。使用全连接层进行特征映射用公式表示为：

，最终就输出了文本特征。

下面对制作视频进行处理。一条视频由上千帧图像组成，直接使用所有图像帧进行视频特征抽取会带来极大的计算量，甚至是无法实现的，同时过多的图像帧也带来大量的冗余信息，不利于视频特征的有效表达。为此，本实施例从视频里抽取出一些关键帧，然后据此关键帧确定视频特征。

其中，检测关键帧的目标是通过在给定的视频中跳过大量相似的帧来创建快进视频，从而筛选出关键帧。据此，定义D={p ₁,p ₂,…p _N}代表视频的N帧图像，N为总帧数。为了获得各帧图像的嵌入特征，我们将每帧图像输入到卷积神经网络，获取图像分类层之前的global pooling 层的特征,代表每张图像的嵌入式特征。本实施例使用ResNet-50，来获得图像嵌入特征E={e ₁,e ₂,…e _N}。

下一步用以上得到的视频帧特征训练Agent（强化学习模型），训练目标借助如下报酬函数：

实现，其中，t表示当前时刻；r _t+n代表第t+n帧的奖励值；T代表针对当前输入给模型的特征计算得到的跳帧个数，也就是当前计算得到的播放速度，n∈[0,T]；

代表折扣系数。其中，

。在r _t的计算公式中，M代表当前目标特征e _t与其邻居特征的总数；e _t+i表示所述目标特征之后的i个特征；e _t-i表示所述目标特征之前的i个特征。可见，处于区间[e _t-i,e _t+i]中的特征总数即为M，将区间[e _t-i,e _t+i]中的e _t去掉，即可得到e _t的邻居特征。

具体的训练过程可以参照如下过程：设置存储模块，用于存储过去时刻的奖励值、播放速度以及加速度。

（1）设当前时刻为t，从存储模块中读取当前时刻t的上一时刻的奖励值：

，上一时刻的加速度：

，上一时刻的播放速度：

，以备后续计算使用。

（2）计算目标播放速度和加速度。

建立由两层全连接网络构成加速度预测器，该加速度预测器的输入为当前时刻t的输入特征e _t，以及e _t其前后的M-1帧特征。该加速度预测器用f _w(.)表示，该加速度预测器可认为是强化学习模型的一部分。

加速度预测器针对其输入[e _t-i,e _t+i]，预测得到的加速度值为

。

（3）根据上一时刻的加速度

和预测加速度

来计算当前加速度，计算公式为：

。

（4）根据上一时刻的速度

和当前加速度

来计算当前速度，计算公式为：

。

（5）根据当前帧的播放速度v _t来进行跳帧，跳帧数T=v _t。

（6）计算当前时刻的奖励值：

。

（7）将当前时刻计算得到播放速度v _t，当前时刻的加速度

，当前时刻的奖励值

存入存储模块，以备下一迭代时刻的计算。

（8）计算当前时刻奖励值与上一时刻奖励值的差值，即

。使用

训练加速度预测器的参数以及强化学习模型中其他部分的参数，使

向不断变大的方向发展。在达到最大迭代次数时，停止训练，输出当前的强化学习模型，作为视频播放模型。

其中，强化学习模型可以是任意能实现上述计算原理的结构，如：可以使用两层全连接构成的加速度预测器加上其他部分构成，也可以借助其他网络结构实现。

通过以上报酬函数，Agent可以针对每一视频帧特征采取必须的行动，即：给每一帧创建最佳播放策略，如：减速、加速、保持。具体的，处理机构针对一个视频帧可以计算速度v、加速度ω以及奖励值，通过增加、减少或保持当前的加速度，来反过来影响速度。在下一次迭代时，会根据当前速度和加速度确定下一次迭代的速度、加速度以及奖励值。因此，Agent在整个视频帧遍历过程中，会根据动态变化的速度跳过某些帧。

据此，Agent可以针对一个做饭视频学习并输出最佳的播放策略。为便于对播放策略进行可视化，可将播放策略绘制成曲线，如图2所示。为使曲线更加平滑，可以通过均值滤波等方式去除其中的较大值，后续可基于曲线进行关键帧的选取。

需要说明的是，若视频播放表示为减速，则说明此阶段的视频帧比较重要，视频画面变化较大，应该多抽取一些关键帧。若视频播放表示为加速，则说明此阶段的视频帧重复较大或大致相同，视频画面变化较小，应该少抽取一些关键帧。基于此原则，可以采用以下方式进行关键帧的选取。

选取关键帧的方法具体包括：设置一个上限值和一个下限值，将图2所示的播放策略曲线分段，具体可以分为在上限值和下限值之间的区域、超过上限值的区域、超过下限值的区域等。这样一段曲线可以分成很多个小区域，如[0,t1]、[t1,t2]、[t2,t3]、[t3,t4]等。对于不同的区域可以采取不同的抽取策略，例如：对于超过上限值的区域[t1,t2]，说明视频加速播放，应该少抽取一些视频帧；此时按照预设步长S1抽取视频关键帧，首先计算抽取的帧的个数：z=(t2-t1)/S1，如果z＞1，则z向下取整；如果z<1，则向上取整，使其为1，即该区域至少取1帧图像。当然，也可以随机在这个区域抽取z帧图像。同理，对于超过下限值的区域[t3,t4]，代表视频一直在减速，说明视频变化快，内容很多，需要抽取更多的帧，此时设置较小的步长S2抽取相应的视频关键帧，首先计算抽取的帧个数：z=(t2-t1)/S2；如果z＞1，则z向下取整；如果z<1，则向上取整，使其为1，即该区域至少取1帧图像。当然，也可以随机在这个区域抽取z帧图像。同理，对于在上限值和下限值之间的区域[t4,t5]，代表视频是中等变化区域，我们设置中等步长S3抽取相应的视频关键帧，该区域需抽取的帧个数如上述计算方式相同，不再赘述。

按照如上方法取完视频帧以后，就得到了能够表示整个视频的关键帧图像，这些帧构成整个视频的关键帧序列，记为R={l ₁,l ₂,…l _Z}，Z是关键帧的总数量，用于后面的检索处理。

之后，通过3D卷积网络提取关键帧序列特征，以获取视频关键帧的时序特征、空间特征等，捕捉关键帧序列中的多维信息内容。3D卷积网络可以如图4所示，3D卷积网络可以为3D残差网络，包括3D卷积层conv1；3D降采样层MaxPool3d；4个3D残差卷积层：conv2_x、conv3_x、conv4_x、conv5_x；3D 池化层AvgPool3；全连接层linear。关键帧序列R={l ₁,l ₂,… l _Z}通过3D残差网络可以获得相应的特征表示e _video，其是一个向量，在本实施例中的维度是1024维。

以上所述的文本处理过程和视频处理过程可参照图5。基于此逻辑可实现包括：文本编码模块、视频编码模块以及检索模块的图文互检网络，其中，文本编码模块可以包括：Bert、异质图生成模块、图注意力网络、BiLSTM等。视频编码模块可以包括：卷积网络、强化学习模型、帧选取模块、3D残差网络等。相应的，训练图文互检网络可用如下损失函数：

由于视频和文本成对出现，故一个文本特征对应一个视频编码。在损失函数的设计中，我们对于这种成对的数据，会遍历每一个视频编码和文本编码，并求取平均值。每次遍历共遍历N个成对的样本。例如：首先对视频特征

进行遍历（共N个），遍历选中的那个就称为

，a代表anchor（锚点样本）。与锚点样本成对的文本特征编码记为

，p代表positive。同理，在本次遍历中，与

不配对的文本特征记为

。▽是超参数，在训练时固定，可以设置为0.3。

同理，对于文本特征也做相同的遍历操作，

代表遍历中被选中的那个样本，与其对应的视频特征样本记为

，不对应的记为

。▽是超参数。

使用以上loss函数在训练中进行梯度反传，对网络中的各组成部分进行参数更新。若当前结果与预期不相符，则基于误差进行反向传播，以进行模型训练。训练结束后，保存训练好的所有网络组成部分的参数。

若需进行图文互检，则使用图文互检网络处理文本或视频，从而可得到文本编码或视频编码，对此文本编码或视频编码，就可以确定与其成对的另一个。具体的，文本编码和视频编码成对与否，可采用欧式距离进行匹配，将欧式距离最小的一个作为成对编码。

可见，本实施例能够进行视频和文本的互检。在该方案中，并不以视频里的全部帧进行检索，而是从中选出能够表示视频画面转折点的一些关键画面。因为视频中往往存在重复的或无明显变化的画面，因此没有必要对视频里的全部帧进行检索，本申请从视频里选出少量关键画面进行检索，不仅可以降低数据处理量，还可以保障检索精度，提升检索效率。

下面对本申请实施例提供的一种视频与文本的互检装置进行介绍，下文描述的一种视频与文本的互检装置与上文描述的一种视频与文本的互检方法可以相互参照。

参见图6所示，本申请实施例公开了一种视频与文本的互检装置，包括：

获取模块601，用于获取目标视频；

帧特征确定模块602，用于确定目标视频中每帧画面的特征；

策略确定模块603，用于将目标视频中各帧画面的特征输入以强化学习方式训练得到的视频播放模型，以使视频播放模型针对目标视频输出播放控制策略；其中，播放控制策略包括：目标视频中每帧画面的播放速度；

画面选择模块604，用于基于播放控制策略在目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合；

检索模块605，用于检索与关键画面集合匹配的目标文本。

在一种具体实施方式中，画面选择模块包括：

播放速度确定单元，用于基于播放控制策略确定目标视频中每帧画面的播放速度；

划分单元，用于使播放速度不低于预设上限值的连续画面构成一个视频片段，使播放速度不高于预设下限值的连续画面构成另一视频片段，使播放速度介于预设上限值和预设下限值之间的连续画面构成又一视频片段；

选择单元，用于在每个视频片段中分别选择视频画面，并使选择到的所有视频画面构成关键画面集合。

在一种具体实施方式中，选择单元具体用于：

在每个视频片段中随机选择预设数量帧视频画面；

或

在一种具体实施方式中，任一视频片段中可选的帧数量按照第一公式进行计算；所述第一公式为：z=(t_start-t_end)/S；其中，z为当前视频片段中可选的帧数量，t_start为当前视频片段的起始帧，t_end为当前视频片段的结束帧，S为当前视频片段对应的预设选择步长。

在一种具体实施方式中，检索模块包括：

视频特征序列确定单元，用于确定关键画面集合对应的视频特征序列；

文本检索单元，用于检索与视频特征序列匹配的文本特征；将文本特征对应的文本数据确定为目标文本。

在一种具体实施方式中，还包括文本特征生成模块，该模块用于实现任一文本数据对应的文本特征的生成过程。

文本特征生成模块包括：

图构造单元，用于将任一文本数据的内容编码为多个数据节点，并基于各数据节点以及不同数据节点之间的连接关系构造图结构；

图更新单元，用于使图结构中具有连接关系的数据节点相互融合，得到更新后的图结构；

拼接单元，用于确定更新后的图结构的图编码结果，并拼接图编码结果与当前文本数据的标题特征，得到当前文本数据对应的文本特征。

在一种具体实施方式中，图构造单元用于提取当前文本数据中各个步骤的步骤特征和原料特征，并将步骤特征和原料特征作为数据节点；确定任意步骤特征需连接的原料特征，并基于所有步骤特征、所有原料特征以及各步骤特征需连接的原料特征构造异质图作为图结构；图更新单元用于针对异质图，基于任意步骤特征所连接的各原料特征更新当前步骤特征，基于任意原料特征所连接的各步骤特征更新当前原料特征，以使异质图中具有连接关系的步骤特征和原料特征相互融合，得到更新后的图结构。

在一种具体实施方式中，图构造单元包括：

第一子单元，用于若任一步骤特征包括任一操作原料，则确定当前步骤特征需连接当前操作原料对应的原料特征；

或

第二子单元，用于基于任一步骤特征与所有原料特征之间的连接强度选择当前步骤特征需连接的原料特征。

在一种具体实施方式中，第二子单元具体用于：

或

在一种具体实施方式中，图更新单元具体用于：

基于任意步骤特征所连接的各原料特征计算当前步骤特征的附加步骤特征，将附加步骤特征补充至当前步骤特征；

基于任意原料特征所连接的各步骤特征计算当前原料特征的附加原料特征，将附加原料特征补充至当前原料特征。

在一种具体实施方式中，拼接单元具体用于：

取正序编码结果和倒序编码结果的均值作为图编码结果。

在一种具体实施方式中，视频特征序列确定单元具体用于：

提取关键画面集合中各关键画面的空间特征和时间特征；

使关键画面集合中各关键画面的空间特征和时间特征构成视频特征序列。

在一种具体实施方式中，检索模块还用于：

若获取到待检索文本数据，则确定待检索文本数据对应的待检索文本特征；

检索与待检索文本特征匹配的视频特征序列，并确定检索到的视频特征序列对应的目标视频。

在一种具体实施方式中，还包括训练模块，用于训练视频播放模型，该训练模块包括：

处理单元，用于将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使初始模型针对所述目标特征输出目标播放速度；

奖励计算单元，用于基于目标播放速度确定跳帧个数，并基于跳帧个数、所述目标特征以及所述目标特征的邻居特征计算目标奖励值；

模型更新单元，用于根据目标奖励值与前一次迭代输出的奖励值的差值更新初始模型的模型参数，得到更新后的模型；

迭代单元，用于若达到最大迭代次数，则将更新后的模型作为视频播放模型；否则，用更新后的模型替换初始模型，并基于跳帧个数在训练视频中确定下一帧训练画面的目标特征，以训练更新后的模型。

在一种具体实施方式中，处理单元具体用于：

将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使初始模型计算所述目标特征对应的预测加速度，基于预测加速度与前一次迭代输出的加速度计算所述目标特征对应的目标加速度，基于目标加速度和前一次迭代输出的播放速度计算目标播放速度。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种视频与文本的互检装置，能够进行视频和文本的互检。在该方案中，并不以视频里的全部帧进行检索，而是从中选出能够表示视频画面转折点的一些关键画面。因为视频中往往存在重复的或无明显变化的画面，因此没有必要对视频里的全部帧进行检索，本申请从视频里选出少量关键画面进行检索，不仅可以降低数据处理量，还可以保障检索精度，提升检索效率。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与上文描述的一种视频与文本的互检方法及装置可以相互参照。

参见图7所示，本申请实施例公开了一种电子设备，包括：

存储器701，用于保存计算机程序；

处理器702，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

进一步的，本申请实施例还提供了一种服务器来作为上述电子设备。该服务器，具体可以包括：至少一个处理器、至少一个存储器、电源、通信接口、输入输出接口和通信总线。其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行，以实现前述任一实施例公开的视频与文本的互检方法中的相关步骤。

本实施例中，电源用于为服务器上的各硬件设备提供工作电压；通信接口能够为服务器创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统、计算机程序及数据等，存储方式可以是短暂存储或者永久存储。

其中，操作系统用于管理与控制服务器上的各硬件设备以及计算机程序，以实现处理器对存储器中数据的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序除了包括能够用于完成前述任一实施例公开的视频与文本的互检方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据除了可以包括虚拟机等数据外，还可以包括虚拟机的开发商信息等数据。

进一步的，本申请实施例还提供了一种终端来作为上述电子设备。该终端具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端包括有：处理器和存储器。

其中，处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器至少用于存储以下计算机程序，其中，该计算机程序被处理器加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的视频与文本的互检方法中的相关步骤。另外，存储器所存储的资源还可以包括操作系统和数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于应用程序的更新信息。

在一些实施例中，终端还可包括有显示屏、输入输出接口、通信接口、传感器、电源以及通信总线。

下面对本申请实施例提供的一种存储介质进行介绍，下文描述的一种存储介质与上文描述的一种视频与文本的互检方法、装置及设备可以相互参照。

一种存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的视频与文本的互检方法。

其中，存储介质为计算机可读存储介质，该存储介质可以是非暂态的，还可包括高速随机存取存储介质，以及非易失性存储介质。另外，存储介质所存储的资源还可以包括操作系统和数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于应用程序的更新信息、前述视频与文本的互检方法实现的程序。

下面对本申请实施例提供的一种终端进行介绍，下文描述的一种终端与上文描述的一种视频与文本的互检方法、装置及设备可以相互参照。

请参见图8，本实施例提供了一种终端，该终端用于提交文本或视频至服务器，以使服务器执行上述任一实施例所述的方法；该终端还用于接收并显示所述服务器返回的检索结果。

本实施例提供的终端具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端包括有：处理器和存储器。

在一些实施例中，本实施例提供的终端还可包括有显示屏、输入输出接口、通信接口、传感器、电源以及通信总线。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频与文本的互检方法，其特征在于，包括：

获取目标视频；

确定目标视频中每帧画面的特征；

检索与所述关键画面集合匹配的目标文本；

其中，所述视频播放模型的训练过程包括：

基于所述目标播放速度确定跳帧个数，并基于所述跳帧个数、所述目标特征以及所述邻居特征计算目标奖励值；

若达到最大迭代次数，则将更新后的模型作为所述视频播放模型；否则，用更新后的模型替换所述初始模型，并基于所述跳帧个数在所述训练视频中确定下一目标特征，以训练更新后的模型；

其中，所述将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使所述初始模型针对所述目标特征输出目标播放速度，包括：

将训练视频中的任一帧画面的目标特征以及所述邻居特征输入所述初始模型，以使所述初始模型计算所述目标特征对应的预测加速度，基于所述预测加速度与前一次迭代输出的加速度计算所述目标特征对应的目标加速度，基于所述目标加速度和前一次迭代输出的播放速度计算所述目标播放速度。

2.根据权利要求1所述的方法，其特征在于，所述基于所述播放控制策略在所述目标视频中选择能够表示视频画面转折点的多帧关键画面，得到关键画面集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述在每个视频片段中分别选择视频画面，包括：

在每个视频片段中随机选择预设数量帧视频画面；

或

4.根据权利要求3所述的方法，其特征在于，

任一视频片段中可选的帧数量按照第一公式进行计算；所述第一公式为：z=(t_start-t_end)/S；其中，z为当前视频片段中可选的帧数量，t_start为当前视频片段的起始帧，t_end为当前视频片段的结束帧，S为当前视频片段对应的预设选择步长。

5.根据权利要求1所述的方法，其特征在于，所述检索与所述关键画面集合匹配的目标文本，包括：

确定所述关键画面集合对应的视频特征序列；

检索与所述视频特征序列匹配的文本特征；

将所述文本特征对应的文本数据确定为所述目标文本。

6.根据权利要求5所述的方法，其特征在于，任一文本数据对应的文本特征的生成过程包括：

7.根据权利要求6所述的方法，其特征在于，所述将任一文本数据的内容编码为多个数据节点，并基于各数据节点以及不同数据节点之间的连接关系构造图结构；使所述图结构中具有连接关系的数据节点相互融合，得到更新后的图结构，包括：

8.根据权利要求7所述的方法，其特征在于，所述确定任意步骤特征需连接的原料特征，包括：

或

9.根据权利要求8所述的方法，其特征在于，基于任一步骤特征与所有原料特征之间的连接强度选择当前步骤特征需连接的原料特征，包括：

或

10.根据权利要求7所述的方法，其特征在于，所述基于任意步骤特征所连接的各原料特征更新当前步骤特征，基于任意原料特征所连接的各步骤特征更新当前原料特征，包括：

11.根据权利要求6所述的方法，其特征在于，所述确定更新后的图结构的图编码结果，包括：

12.根据权利要求5所述的方法，其特征在于，所述确定所述关键画面集合对应的视频特征序列，包括：

13.根据权利要求5至12任一项所述的方法，其特征在于，还包括：

14.一种视频与文本的互检装置，其特征在于，包括：

获取模块，用于获取目标视频；

帧特征确定模块，用于确定目标视频中每帧画面的特征；

检索模块，用于检索与所述关键画面集合匹配的目标文本；

其中，还包括训练模块，用于训练所述视频播放模型，该训练模块包括：

处理单元，用于将训练视频中的任一帧画面的目标特征以及所述目标特征的邻居特征输入初始模型，以使所述初始模型针对所述目标特征输出目标播放速度；

奖励计算单元，用于基于所述目标播放速度确定跳帧个数，并基于所述跳帧个数、所述目标特征以及所述邻居特征计算目标奖励值；

模型更新单元，用于根据所述目标奖励值与前一次迭代输出的奖励值的差值更新所述初始模型的模型参数，得到更新后的模型；

迭代单元，用于若达到最大迭代次数，则将更新后的模型作为所述视频播放模型；否则，用更新后的模型替换所述初始模型，并基于所述跳帧个数在所述训练视频中确定下一目标特征，以训练更新后的模型；

其中，所述处理单元具体用于：

15.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至13任一项所述的方法。

16.一种存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的方法。

17.一种终端，其特征在于，所述终端用于提交文本或视频至服务器，以使所述服务器执行如权利要求1至13任一项所述的方法；所述终端还用于接收并显示所述服务器返回的检索结果。