CN113177538A

CN113177538A - 一种视频循环识别方法、装置、计算机设备及存储介质

Info

Publication number: CN113177538A
Application number: CN202110731049.4A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-07-27
Anticipated expiration: 2041-06-30
Also published as: WO2023273628A1; EP4239585A1; CN113177538B; US20230093746A1

Abstract

本申请实施例公开了一种视频循环识别方法、装置、计算机设备及存储介质，包括：获取待识别视频的目标视频片段对，确定第一目标编码特征和第二目标编码特征；获取目标网络模型；将第一目标编码特征输入至与第一模态信息相关联的第一目标序列模型，通过第一序列表征学习层和第一相似度度量层，输出目标视频片段对的第一目标相似结果；将第二目标编码特征输入至与第二模态信息相关联的第二目标序列模型，通过第二序列表征学习层和第二相似度度量层，输出目标视频片段对的第二目标相似结果；将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果。采用本申请实施例，可以提高视频循环识别的准确率。

Description

一种视频循环识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频循环识别方法、装置、计算机设备及存储介质。

背景技术

轮播识别是指对不断重复的某一视频片段的视频循环识别，以提高视频质量。若将现有的图像识别技术应用于视频循环识别的过程，则具有图像识别功能的计算机设备在提取到某一待识别视频的每一视频帧的图像特征时，可以将每一视频帧的图像特征分别与后续视频帧的图像特征进行逐帧匹配，以根据统计到的重复帧的数量比例来判断重复的视频片段。发明人发现一旦基于统计到的重复帧的数量比例来进行视频循环识别，这将导致该计算机设备会误将关系错乱的重复视频帧判决为循环视频帧，以至于不支持视频剪辑等应用场景。此外，这种视频循环识别方案在不同视频帧的比对过程中，仅关注参与比对的两个图像帧之间的图像特征是否匹配，而并未充分利用整个视频信息，从而降低了视频循环识别的准确率。

发明内容

本申请实施例提供一种视频循环识别方法、装置、计算机设备及存储介质，可以提高视频循环识别的准确率。

本申请实施例一方面提供一种视频循环识别方法，包括：

获取待识别视频的目标视频片段对，确定目标视频片段对的第一目标编码特征和第二目标编码特征；第一目标编码特征所对应的第一模态信息不同于第二目标编码特征所对应的第二模态信息；

获取用于对待识别视频进行循环识别的目标网络模型；目标网络模型包括与第一模态信息相关联的第一目标序列模型和与第二模态信息相关联的第二目标序列模型；第一目标序列模型包括第一序列表征学习层和第一相似度度量层；第二目标序列模型包括第二序列表征学习层和第二相似度度量层；

将第一目标编码特征输入至第一目标序列模型，通过第一序列表征学习层对第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出目标视频片段对的第一目标相似结果；

将第二目标编码特征输入至第二目标序列模型，通过第二序列表征学习层对第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至第二相似度度量层，由第二相似度度量层输出目标视频片段对的第二目标相似结果；

将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果；循环比对结果用于指示待识别视频的视频类型。

本申请实施例一方面提供一种视频循环识别装置，包括：

目标编码特征获取模块，用于获取待识别视频的目标视频片段对，确定目标视频片段对的第一目标编码特征和第二目标编码特征；第一目标编码特征所对应的第一模态信息不同于第二目标编码特征所对应的第二模态信息；

目标网络模型获取模块，用于获取用于对待识别视频进行循环识别的目标网络模型；目标网络模型包括与第一模态信息相关联的第一目标序列模型和与第二模态信息相关联的第二目标序列模型；第一目标序列模型包括第一序列表征学习层和第一相似度度量层；第二目标序列模型包括第二序列表征学习层和第二相似度度量层；

第一目标相似结果确定模块，用于将第一目标编码特征输入至第一目标序列模型，通过第一序列表征学习层对第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出目标视频片段对的第一目标相似结果；

第二目标相似结果确定模块，用于将第二目标编码特征输入至第二目标序列模型，通过第二序列表征学习层对第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至第二相似度度量层，由第二相似度度量层输出目标视频片段对的第二目标相似结果；

目标相似结果比对模块，用于将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果；循环比对结果用于指示待识别视频的视频类型。

其中，该目标编码特征获取模块包括：

分段处理单元，用于在获取到待识别视频时，确定待识别视频的视频时长，且基于视频时长对待识别视频进行分段处理，得到N个视频片段；N为正整数；

目标视频对确定单元，用于从N个视频片段中获取视频片段P_i和视频片段P_j，将视频片段P_i和视频片段P_j作为待识别视频的目标视频片段对；i和j均为小于或者等于N的正整数，且i不等于j；

第一特征提取单元，用于对目标视频片段对中的每个视频片段分别进行第一特征提取，得到目标视频片段对的第一目标编码特征；

第二特征提取单元，用于对目标视频片段对中的每个视频片段分别进行第二特征提取，得到目标视频片段对的第二目标编码特征。

其中，第一模态信息为视频模态信息；

该第一特征提取单元包括：

待处理视频帧确定子单元，用于将目标视频片段对中的每个视频片段对应的视频帧分别作为待处理视频帧，且基于待处理视频帧的帧率，确定抽帧参数；

待编码视频帧确定子单元，用于基于抽帧参数对待处理视频帧进行抽帧处理，得到与待处理视频帧相关联的待编码视频帧；

视频编码特征确定子单元，用于获取与视频模态信息相关联的视频编码模型，将待编码视频帧输入至视频编码模型，通过视频编码模型对待编码视频帧进行编码处理，得到待编码视频帧对应的视频编码特征；

第一目标编码特征确定子单元，用于基于待编码视频帧对应的视频编码特征，得到目标视频片段对的第一目标编码特征；第一目标编码特征包括视频片段P_i对应的视频编码特征S_i，以及视频片段P_j对应的视频编码特征S_j。

其中，第二模态信息为音频模态信息；

该第二特征提取单元包括：

待编码音频帧确定子单元，用于将目标视频片段对中的每个视频片段对应的音频帧分别作为待处理音频帧，且对待处理音频帧进行音频准备处理，得到与待处理音频帧相关联的待编码音频帧；

音频编码特征确定子单元，用于获取与音频模态信息相关联的音频编码模型，将待编码音频帧输入至音频编码模型，通过音频编码模型对待编码音频帧进行编码处理，得到待编码音频帧对应的音频编码特征；

第二目标编码特征确定子单元，用于基于待编码音频帧对应的音频编码特征，得到目标视频片段对的第二目标编码特征；第二目标编码特征包括视频片段P_i对应的音频编码特征Y_i，以及视频片段P_j对应的音频编码特征Y_j。

其中，目标视频片段对包括视频片段P_i和视频片段P_j；i和j均为小于或者等于N的正整数，且i不等于j；N为待识别视频中的视频片段的总数量；第一序列表征学习层包括与视频片段P_i相关联的第一网络层和与视频片段P_j相关联的第二网络层，且第一网络层与第二网络层具有相同的网络结构；

该第一目标相似结果确定模块包括：

目标编码特征输入单元，用于将第一目标编码特征输入至第一目标序列模型；第一目标编码特征包括视频编码特征S_i和视频编码特征S_j；视频编码特征S_i为视频片段P_i在第一模态信息下的编码特征；视频编码特征S_j为视频片段P_j在第一模态信息下的编码特征；

第一序列特征学习单元，用于通过第一序列表征学习层中的第一网络层，对视频编码特征S_i进行序列特征学习，得到视频编码特征S_i对应的学习特征X_i；

第二序列特征学习单元，用于通过第一序列表征学习层中的第二网络层，对视频编码特征S_j进行序列特征学习，得到视频编码特征S_j对应的学习特征X_j；

相似度输出单元，用于将学习特征X_i和学习特征X_j作为第一目标学习特征，且将第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出第一目标学习特征的相似度；

相似结果确定单元，用于基于第一目标学习特征的相似度，确定目标视频片段对的第一目标相似结果。

其中，第一网络层包括第一子网络层、第二子网络层、第三子网络层以及第四子网络层；

该第一序列特征学习单元包括：

第一特征转换子单元，用于通过第一网络层中的第一子网络层，对视频编码特征S_i进行特征转换，得到视频编码特征S_i对应的第一转换特征；

第二特征转换子单元，用于将第一转换特征输入至第二子网络层，通过第二子网络层对第一转换特征进行特征转换，得到第一转换特征对应的第二转换特征；

第三特征转换子单元，用于将第二转换特征输入至第三子网络层，通过第三子网络层对第二转换特征进行特征转换，得到第二转换特征对应的第三转换特征；

最大池化处理子单元，用于将第三转换特征输入至第四子网络层，通过第四子网络层中的最大池化层，对第三转换特征进行最大池化处理，得到视频编码特征S_i对应的学习特征X_i。

其中，第一子网络层包括第一卷积层、第二卷积层以及空洞卷积层；

该第一特征转换子单元还用于：

在将视频编码特征S_i输入至第一网络层中的第一子网络层时，通过空洞卷积层对视频编码特征S_i进行卷积处理，得到视频编码特征S_i对应的第一卷积特征；

通过第一卷积层，对视频编码特征S_i进行卷积处理，得到视频编码特征S_i对应的第二卷积特征，且将第二卷积特征输入至第二卷积层，通过第二卷积层对第二卷积特征进行卷积处理，得到第三卷积特征；

将第一卷积特征和第三卷积特征进行拼接处理，得到视频编码特征S_i对应的第一转换特征。

其中，该目标相似结果比对模块包括：

比对单元，用于将第一目标相似结果和第二目标相似结果进行比对；

第一结果确定单元，用于若第一目标相似结果指示目标视频片段对在第一模态信息下相似，且第二目标相似结果指示目标视频片段对在第二模态信息下相似，则得到目标视频片段对的循环视频结果；

第二结果确定单元，用于若第一目标相似结果指示目标视频片段对在第一模态信息下不相似，或者第二目标相似结果指示目标视频片段对在第二模态信息下不相似，则得到目标视频片段对的非循环视频结果；

循环比对结果确定单元，用于将循环视频结果或者非循环视频结果作为目标视频片段对的循环比对结果。

其中，该装置还包括：

视频类型确定模块，用于若循环比对结果为循环视频结果，则确定待识别视频的视频类型为循环视频类型；

循环提示信息生成模块，用于基于循环视频类型生成循环提示信息，将循环提示信息返回至用户终端；用户终端为待识别视频的发送端。

其中，该装置还包括：

样本视频对获取模块，用于获取用于训练初始网络模型的样本视频片段对以及样本视频片段对的样本标签；初始网络模型包括第一初始序列模型和第二初始序列模型；第一初始序列模型包括第一序列表征学习层和第一相似度度量层；第二初始序列模型包括第二序列表征学习层和第二相似度度量层；

样本编码特征获取模块，用于分别获取样本视频片段对在第一模态信息下的第一样本编码特征和在第二模态信息下的第二样本编码特征；

第一预测相似结果确定模块，用于将第一样本编码特征输入至第一初始序列模型，通过第一初始序列模型中的第一序列表征学习层和第一相似度度量层，输出样本视频片段对的第一预测相似结果；

第二预测相似结果确定模块，用于将第二样本编码特征输入至第二初始序列模型，通过第二初始序列模型中的第二序列表征学习层和第二相似度度量层，输出样本视频片段对的第二预测相似结果；

预测相似结果比对模块，用于将第一预测相似结果和第二预测相似结果进行比对，得到样本视频片段对的预测循环结果对应的预测标签；

迭代训练模块，用于基于预测标签和样本标签，对初始网络模型进行迭代训练，将迭代训练后的初始网络模型作为用于对待识别视频进行循环识别的目标网络模型。

其中，样本视频片段对包括正样本视频片段对和负样本视频片段对；正样本视频片段对为携带第一样本标签的视频片段对；负样本视频片段对为携带第二样本标签的视频片段对；第一样本标签和第二样本标签均属于样本标签；预测循环结果包括正样本视频片段对的第一预测循环结果和负样本视频片段对的第二预测循环结果；预测标签包括第一预测循环结果对应的第一预测标签和第二预测循环结果对应的第二预测标签；

该迭代训练模块包括：

损失权重参数确定单元，用于基于样本标签所指示的正样本视频片段对和负样本视频片段对之间的样本比例，确定与初始网络模型的模型损失函数相关联的损失权重参数；

样本损失确定单元，用于基于第一预测标签和第一样本标签，得到正样本视频片段对的正样本损失，且基于第二预测标签和第二样本标签，得到负样本视频片段对的负样本损失；

迭代训练单元，用于基于正样本损失、负样本损失以及损失权重参数，得到模型损失函数对应的模型损失，且基于模型损失，对初始网络模型进行迭代训练，得到模型训练结果；

第一模型确定单元，用于若模型训练结果指示迭代训练后的初始网络模型满足模型收敛条件，则将满足模型收敛条件的初始网络模型作为用于对待识别视频进行循环识别的目标网络模型。

其中，该迭代训练模块还包括：

参数调整单元，用于若模型训练结果指示迭代训练后的初始网络模型不满足模型收敛条件，则基于不满足模型收敛条件的模型损失函数，对初始网络模型的模型参数进行调整；

第二模型确定单元，用于将调整模型参数后的初始网络模型作为过渡网络模型，对过渡网络模型进行迭代训练，直到迭代训练后的过渡网络模型满足模型收敛条件时，将满足模型收敛条件的过渡网络模型作为用于对待识别视频进行循环识别的目标网络模型。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，该计算机设备在对待识别视频进行循环识别时，可以事先获取待识别视频的目标视频片段对，并确定目标视频片段对的第一目标编码特征以及第二目标编码特征。其中，这里的第一目标编码特征对应的第一模态信息(例如，视频模态信息)不同于第二目标编码特征对应的第二模态信息(例如，音频模态信息)。在获取到用于对待识别视频进行循环的目标网络模型时，该计算机设备可以充分利用该目标视频片段对的视频信息，即不仅可以通过目标网络模型中的第一目标序列模型，确定该目标视频片段对在第一模态信息下的第一目标相似结果，还可以通过目标网络模型中的第二目标序列模型，确定该目标视频片段对在第二模态信息下的第二目标相似结果。进一步地，该计算机设备可以将该第一目标相似结果和第二目标相似结果进行比对，以更加准确的得到该目标视频片段对的循环比对结果，进而提高了视频循环识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种基于多模态信息的视频对循环识别模型的模型架构图；

图3是本申请实施例提供的一种视频循环识别方法的流程示意图；

图4是本申请实施例提供的一种残差块的结构示意图；

图5是本申请实施例提供的一种目标序列模型的结构示意图；

图6是本申请实施例提供的一种深度神经网络的网络示意图；

图7是本申请实施例提供的一种视频循环识别方法的流程示意图；

图8是本申请实施例提供的一种数据交互的场景示意图；

图9是本申请实施例提供的一种视频循环识别装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端。如图1所示，该用户终端集群具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。其中，这里的网络连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本申请在此不做限制。

其中，该用户终端集群中的每个用户终端均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有视频循环识别功能的智能终端。应当理解，如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端)，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的服务器10之间进行数据交互。其中，该应用客户端可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、教育客户端、直播客户端等应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。

如图1所示，本申请实施例中的服务器10可以为该应用客户端对应的服务器。该服务器10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。其中，本申请实施例将不对用户终端和服务器的数量进行限制。

为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如，本申请实施例可以将图1所示的用户终端100a作为目标用户终端，该目标用户终端中可以集成有目标应用(即应用客户端)。此时，该目标用户终端可以通过该应用客户端对应的业务数据平台与服务器10之间实现数据交互。其中，这里的目标应用可以运行有已经训练完成的目标网络模型，该目标网络模型是一种基于多模态信息的视频对循环识别模型，该目标网络模型可以为用于对待识别视频进行循环识别的神经网络模型，通过该目标网络模型的循环比对结果可以预测待识别视频的视频类型，即判断该待识别视频是否为循环视频，以便后续处理(例如，审核拦截等)。

应当理解，本申请实施例提出了一种基于目标网络模型的视频循环识别方法，该方法可以涉及人工智能领域中的机器学习方向。可以理解的是，所谓人工智能(ArtificialIntelligence，简称AI)是利用数字计算机或者数字计算机控制的计算模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，由于属于循环视频类型的视频在视频播放过程中的视频质量较差，为了有效提高视频质量，因此在视频审核过程中，需要对视频进行循环识别。可以理解的是，视频信息是非常丰富的，可以包括视频模态信息、音频模态信息、台词文本模态信息、视频标题模态信息以及封面模态信息等等多种模态信息，每种模态信息所刻画的视频维度均不同。因此，在对某一视频进行循环识别时，本申请实施例提供了一种基于多模态信息的视频对循环识别模型(即目标网络模型)。

可以理解的是，为了充分利用视频的多模态信息，本申请实施例所涉及的目标网络模型可以包括多个与某种模态信息相关联的目标序列模型(即序列相似度学习模型)，且一个目标序列模型用于确定目标视频片段对在对应模态信息下的目标相似结果。比如，该目标网络模型中可以包括与视频模态信息相关联的目标序列模型(例如，目标序列模型1)、与音频模态信息相关联的目标序列模型(例如，目标序列模型2)、与台词文本模态信息相关联的目标序列模型(例如，目标序列模型3)、与视频标题模态信息相关联的目标序列模型(例如，目标序列模型4)、与封面模态信息相关联的目标序列模型(例如，目标序列模型5)等。

比如，具备视频循环识别功能的计算机设备(例如，图1所示的用户终端100a或者图1所示的服务器10)可以运行有上述目标网络模型，该目标网络模型中的目标序列模型可以以2个为例，具体可以包括与第一模态信息(例如，视频模态信息)相关联的第一目标序列模型和与第二模态信息(例如，音频模态信息)相关联的第二目标序列模型。可以理解的是，该计算机设备在对待识别视频进行循环识别时，可以事先获取待识别视频的目标视频片段对，并确定目标视频片段对的第一目标编码特征以及第二目标编码特征。在获取到目标网络模型时，该计算机设备可以充分利用该目标视频片段对的视频信息，即不仅可以通过目标网络模型中的第一目标序列模型，确定该目标视频片段对在第一模态信息下的第一目标相似结果，还可以通过目标网络模型中的第二目标序列模型，确定该目标视频片段对在第二模态信息下的第二目标相似结果。进一步地，该计算机设备可以将该第一目标相似结果和第二目标相似结果进行比对，以更加准确的得到该目标视频片段对的循环比对结果，进而提高了视频循环识别的准确率。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种基于多模态信息的视频对循环识别模型的模型架构图。如图2所示，本申请实施例中的计算机设备可以为具备视频循环识别功能的计算机设备，该计算机设备可以为上述图1所示的用户终端集群中的任意一个用户终端，例如，用户终端100a，该计算机设备也可以为上述图1所示的服务器10，这里将不对计算机设备进行限定。

其中，本申请实施例中的计算机设备在获取到图2所示的视频2V时，可以将该视频2V作为待识别视频，以对该视频2V进行视频审核。该视频2V可以为与该计算机设备具有网络连接关系的某一用户终端所发送的视频。应当理解，该计算机设备在获取到该视频2V时，可以对该视频2V进行分段处理，以得到N个视频片段，进而可以根据这N个视频片段，确定视频2V的目标视频片段对。其中，这里的N为正整数。

比如，若图2所示的视频2V的视频时长为20秒，则该计算机设备可以选取一个切割间隔时长(例如，5秒)，将该视频2V均匀的切分为4个视频片段，如图2所示，这4个视频片段按时间轴的顺序排列，可以依次包括视频片段P₁、视频片段P₂、视频片段P₃以及视频片段P₄。进一步地，该计算机设备可以从这4个视频片段中随机选取两个视频片段，以组成该视频2V的目标视频片段对。其中，该视频2V的目标视频片段对具体可以包括：由视频片段P₁和视频片段P₂所组成的目标视频片段对(例如，视频片段对2a)、由视频片段P₁和视频片段P₃所组成的目标视频片段对(例如，视频片段对2b)、由视频片段P₁和视频片段P₄所组成的目标视频片段对(例如，视频片段对2c)、由视频片段P₂和视频片段P₃所组成的目标视频片段对(例如，视频片段对2d)、由视频片段P₂和视频片段P₄所组成的目标视频片段对(例如，视频片段对2e)、由视频片段P₃和视频片段P₄所组成的目标视频片段对(例如，视频片段对2f)。

为了提高视频循环识别的准确率，本申请实施例中的计算机设备需要充分利用目标视频片段对的多模态信息，因此，该计算机设备可以确定每个目标视频片段对的目标编码特征。其中，这里的目标编码特征可以包括每个目标视频片段对在第一模态信息下的编码特征(即第一目标编码特征)、以及在第二模态信息下的编码特征(即第二目标编码特征)。比如，这里的第一模态信息可以为视频模态信息，这里的第二模态信息可以为不同于第一模态信息的音频模态信息。如图2所示，视频片段对2a的第一目标编码特征可以为编码特征21a，且该视频片段对2a的第二目标编码特征可以为编码特征22a。视频片段对2b的第一目标编码特征可以为编码特征21b，且该视频片段对2b的第二目标编码特征可以为编码特征22b。以此类推，该视频片段对2f的第一目标编码特征可以为编码特征21f，且该视频片段对2f的第二目标编码特征可以为编码特征22f。

可以理解的是，该视频片段对2a的目标编码特征可以包括编码特征21a(例如，视频编码特征S₁和视频编码特征S₂)、以及编码特征22a(例如，音频编码特征Y₁和音频编码特征Y₂)。其中，视频编码特征S₁是指视频片段对2a中的视频片段P₁在第一模态信息下的编码特征，音频编码特征Y₁是指视频片段对2a中的视频片段P₁在第二模态信息下的编码特征；视频编码特征S₂是指视频片段对2a中的视频片段P₂在第一模态信息下的编码特征，音频编码特征Y₂是指视频片段对2a中的视频片段P₂在第二模态信息下的编码特征。

进一步地，该计算机设备可以获取用于对待识别视频进行循环识别的目标网络模型(例如，图2所示的目标网络模型2000M)。其中，该目标网络模型2000M中可以包括与第一模态信息相关联的目标序列模型210M(即第一目标序列模型)、和与第二模态信息相关联的目标序列模型220M(即第二目标序列模型)。其中，本申请实施例可以将目标序列模型210M(即第一目标序列模型)中的序列表征学习层称之为第一序列表征学习层，且将第一目标序列模型中的相似度度量层称之为第一相似度度度量层。本申请实施例可以将目标序列模型220M(即第二目标序列模型)中的序列表征学习层称之为第二序列表征学习层，且将第二目标序列模型中的相似度度量层称之为第二相似度度度量层。

可以理解的是，该计算机设备可以将目标视频片段对的第一目标编码特征输入至目标序列模型210M，通过该第一序列表征学习层，对第一目标编码特征进行序列特征学习，且将序列特征学习到的第一目标学习特征输入至第一相似度度量层，由该第一相似度度量层输出目标视频片段对的第一目标相似结果(例如，图2所示的目标相似结果1G)。其中，目标相似结果1G中的数值“0”可以指示目标视频片段对在第一模态信息下不相似，目标相似结果1G中的数值“1”可以表示目标视频片段对在第一模态信息下相似。与此同时，该计算机设备可以将目标视频片段对的第二目标编码特征输入至目标序列模型220M，通过该第二序列表征学习层，对第二目标编码特征进行序列特征学习，且将序列特征学习到的第二目标学习特征输入至第二相似度度量层，由该第二相似度度量层输出目标视频片段对的第二目标相似结果(例如，图2所示的目标相似结果2G)。其中，目标相似结果2G中的数值“0”可以指示目标视频片段对在第二模态信息下不相似，目标相似结果2G中的数值“1”可以表示目标视频片段对在第二模态信息下相似。此时，该计算机设备可以将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果。

比如，针对视频片段对2a这一目标视频片段对而言，该计算机设备可以将该视频片段对2a的编码特征21a输入至图2所示的目标序列模型210M，通过该目标序列模型210M中的第一序列表征学习层和第一相似度度量层，输出视频片段对2a的第一目标相似结果(例如，数值为“0”的相似结果)，这意味着该视频片段对2a在第一模态信息下不相似。与此同时，该计算机设备还可以将该视频片段对2a的编码特征22a输入至图2所示的目标序列模型220M，通过该目标序列模型220M中的第二序列表征学习层和第二相似度度量层，可以输出视频片段对2a的第二目标相似结果(例如，数值为“1”的相似结果)，这意味着该视频片段对2a在第二模态信息下相似。此时，该计算机设备可以将视频片段对2a的第一目标相似结果和视频片段对2a的第二目标相似结果进行比对，从而可以得到视频片段对2a的循环比对结果(例如，数值为“0”的非循环视频结果)，这意味着该视频片段对2a中的两个视频片段并不重复。

又比如，针对视频片段对2d这一目标视频片段对而言，该计算机设备可以将该视频片段对2d的编码特征21d输入至图2所示的目标序列模型210M，通过该目标序列模型210M中的第一序列表征学习层和第一相似度度量层，输出视频片段对2d的第一目标相似结果(例如，数值为“1”的相似结果)，这意味着该视频片段对2d在第一模态信息下相似。与此同时，该计算机设备还可以将该视频片段对2d的编码特征22d输入至图2所示的目标序列模型220M，通过该目标序列模型220M中的第二序列表征学习层和第二相似度度量层，可以输出视频片段对2d的第二目标相似结果(例如，数值为“1”的相似结果)，这意味着该视频片段对2d在第二模态信息下相似。此时，该计算机设备可以将视频片段对2d的第一目标相似结果和视频片段对2d的第二目标相似结果进行比对，从而可以得到视频片段对2d的循环比对结果(例如，数值为“1”的循环视频结果)，这意味着该视频片段对2d中的两个视频片段互相重复。

其中，目标视频片段对的循环比对结果可以用于指示待识别视频的视频类型。可以理解的是，若图2所示的循环比对结果中不存在数值为“1”的循环视频结果，即全为数值为“0”的非循环视频结果，则该计算机设备可以将视频2V的视频类型确定为非循环视频类型。可选的，若图2所示的循环比对结果中存在数值为“1”的循环视频结果，则该计算机设备可以直接将视频2V的视频类型确定为循环视频类型。

由此可见，本申请实施例中的计算机设备在对视频2V进行循环识别时，可以充分利用视频2V的目标视频片段对的多模态信息，不仅需要通过目标网络模型2000M中的与第一模态信息相关联的目标序列模型210M，确定视频2V的目标视频片段对的第一相似结果，还需要通过目标网络模型2000M中的与第二模态信息相关联的目标序列模型220M，确定视频2V的目标视频片段对的第二相似结果，进而可以基于目标视频片段对的第一相似结果和第二相似结果，共同确定目标视频片段对的循环比对结果，以根据循环比对结果确定待识别视频的视频类型，进而提高了视频循环识别的准确率。

其中，具备视频循环识别功能的计算机设备通过一种基于多模态信息的视频对循环识别模型(即目标网络模型)，确定目标视频片段对的循环比对结果的具体实现方式可以参见下述图3-图8所对应的实施例。

进一步地，请参见图3，图3是本申请实施例提供的一种视频循环识别方法的流程示意图。如图3所示，该方法可以由具备视频循环识别功能的计算机设备执行，该计算机设备可以为用户终端(例如，上述图1所示的用户终端集群中的任意一个用户终端，例如，具备模型应用功能的用户终端100a)，也可以为服务器(例如，上述图1所示的服务器10)，在此不做限定。为便于理解，本申请实施例以该方法由具备视频循环识别功能的服务器执行为例进行说明，该方法至少可以包括以下步骤S101-步骤S105：

步骤S101，获取待识别视频的目标视频片段对，确定目标视频片段对的第一目标编码特征和第二目标编码特征。

具体地，该计算机设备在获取到待识别视频时，可以对待识别视频进行分段处理，以得到N个视频片段。其中，这里的N为正整数。其中，这里的待识别视频可以为与计算机设备具有网络连接关系的用户终端所发送的，也可以为该计算机设备对应的用户通过该计算机设备的摄像组件所采集到的，还可以为该计算机设备对应的用户通过应用客户端所剪辑的，这里将不对待识别视频的获取方式进行限定。进一步地，该计算机设备可以从N个视频片段中获取视频片段P_i和视频片段P_j，且将视频片段P_i和视频片段P_j作为待识别视频的目标视频片段对；其中，这里的i和j均为小于或者等于N的正整数，且i不等于j。进一步地，该计算机设备可以对目标视频片段对中的每个视频片段分别进行第一特征提取，得到目标视频片段对的第一目标编码特征(即某一模态信息下的编码特征)。与此同时，该计算机设备还可以对目标视频片段对中的每个视频片段分别进行第二特征提取，得到目标视频片段对的第二目标编码特征(即另一模态信息下的编码特征)。

应当理解，该计算机设备通过目标网络模型对待识别视频进行循环识别的过程中可以包括视频准备过程(即分段处理和特征提取处理)。由于对待识别视频进行分段处理后所得到的视频片段的段长与后续输入至目标网络模型的输入特征相关，因此，该计算机设备需要根据实际应用情况并综合考虑目标网络模型的模型处理速率，合理选取用于对待识别视频进行分段处理的切割间隔时长。其中，可以理解的是，该计算机设备在对获取到的待识别视频进行分段处理时，可以先确定该待识别视频的视频时长，进而可以基于确定的视频时长，对获取到的待识别视频进行分段处理，以得到N个视频片段。

其中，该计算机设备可以获取视频时长对应的切割时长选择范围，进而可以从切割时长范围中，选取一个数值(stime)作为切割间隔时长，且根据切割间隔时长对待识别视频进行分段处理，从而得到N个视频片段。比如，若计算机设备获取到的待识别视频(例如，视频1)的视频时长为20秒，则该计算机设备可以获取该视频时长对应的切割时长选择范围(例如，[4,10])，进而可以在这一切割时长选择范围内选取一个数值(例如，5秒)作为切割间隔时长，进而可以根据切割间隔时长，对视频1进行分段处理，换言之，该计算机设备可以每隔5秒切分一段，从而得到4个具有5秒视频时长的视频片段。

可选的，该计算机设备还可以根据待识别视频的视频时长，先对待识别视频进行均匀分段处理，以将该待识别视频一分为二，从而得到两段具有相同时长的视频片段(例如，初始视频片段)，进而可以对每一个初始视频片段再进行均匀分段处理，直到分段处理后的初始视频片段的视频时长达到某一时长阈值(例如，10秒)时，结束对待识别视频的分段处理。比如，若该计算机获取到的待识别视频(例如，视频2)的视频时长为40秒，则该计算机设备可以先对该视频2进行分段处理，以得到两段具有20秒视频时长的初始视频片段(例如，初始视频片段a和初始视频片段b)，然后再对初始视频片段a进行分段处理，以得到两段具有10秒视频时长的视频片段(例如，视频片段P₁和视频片段P₂)，且对初始视频片段b进行分段处理，以得到两段具有10秒视频时长的视频片段(例如，视频片段P₃和视频片段P₄)。其中，该计算机设备对视频2进行分段处理后所得到的视频片段可以为4个具有10秒视频时长的视频片段。

进一步地，该计算机设备可以从N个视频片段中获取视频片段P_i和视频片段P_j，且将视频片段P_i和视频片段P_j作为待识别视频的目标视频片段对。应当理解，为了充分利用目标视频片段对的多模态信息，该计算机设备不仅可以对目标视频片段对中的每个视频片段分别进行第一特征提取，得到目标视频片段对的第一目标编码特征，还可以对目标视频片段对中的每个视频片段分别进行第二特征提取，得到目标视频片段对的第二目标编码特征。

其中，可以理解的是，在第一模态信息为视频模态信息时，该计算机设备可以将目标视频片段对中的每个视频片段对应的视频帧分别作为待处理视频帧，且基于待处理视频帧的帧率确定抽帧参数。进一步地，该计算机设备可以基于抽帧参数对待处理视频帧进行抽帧处理，得到与待处理视频帧相关联的待编码视频帧。比如，当待处理视频帧为视频时长为6秒，且该待处理视频帧的帧率为25fps时，这意味着该待处理视频帧可以每秒传输25帧视频帧。此时，该计算机设备可以根据确定的抽帧参数(例如，每秒均匀抽取3帧视频帧)，对该待处理视频帧进行抽帧处理，以得到18帧视频帧，进而可以将这18帧视频帧作为与待处理视频帧相关联的待编码视频帧。

进一步地，该计算机设备可以获取与视频模态信息相关联的视频编码模型。其中，这里的视频编码模型可以是基于样本图像数据库所训练的，该样本图像数据库可以为一个用于视觉对象识别软件研究的大型可视化数据库。可选的，该视频编码模型还可以为开源的模型，例如，该视频编码模型可以为Imagenet预训练模型，该Imagenet预训练模型是一种基于大型通用物体识别开源数据集(例如，imagenet数据集)所训练的深度学习网络模型。可以理解的是，该计算机设备可以采用开源的Imagenet预训练模型中的残差网络(例如，ResNet-101)中的池化结果作为视频编码特征。

进一步地，请参见表1，表1是本申请实施例提供的一种残差网络结构示意表。其中，该残差网络结构示意表为ResNet-101的网络结构，该表1中可以包括卷积层(Layername)、输出图像尺寸(Output size)以及每一个卷积层中的卷积信息。如表1所示，残差网络结构示意表中可以包括7个卷积网络层，具体可以包括卷积网络层1(例如，Conv1)、卷积网络层2(例如，Conv2_x)、卷积网络层3(例如，Conv3_x)、卷积网络层4(例如，Conv4_x)、卷积网络层5(例如，Conv5_x)、卷积网络层6(例如，Max pool，即池化层)以及卷积网络层7(例如，full connection，即全连接层)。其中，残差网络中的101层网络是指卷积网络层和全连接层的层数，而并未计算激活层或者池化层。

如表1所示，卷积网络层1中具有64个7x7的卷积，且步幅为2。而卷积网络层2、卷积网络层3、卷积网络层4以及卷积网络层5均为一种残差块(blocks)，例如，卷积网络层2中包括一个最大池化层(步幅为2的3x3的池化层)以及3个残差块，且每个残差块均包括3层，具体可以包括64个1x1的卷积、64个3x3的卷积、256个1x1的卷积。其中，全连接层中的N可以为学习的类别数量。具体请参见下述表1：

表1

为便于理解，进一步地，请参见图4，图4是本申请实施例提供的一种残差块的结构示意图。如图4所示，残差块4k可以为上述表1中的卷积网络层2中的一个残差块。其中，该残差块4k中可以包括3个卷积层，具体可以包括卷积层41j(例如，64个1x1的卷积)、卷积层42j(例如，64个3x3的卷积)以及卷积层43j(例如，256个1x1的卷积)。

其中，计算机设备通过图4所示的残差块4k对输入特征进行卷积处理的过程中，既保持了精度又减少了计算量。如图4所示，计算机设备在将特征1(例如，一个具有256维度的输入特征)输入至该残差块4k中的卷积层41j时，可以用64个1x1卷积对该特征1进行降维处理，以得到特征2(例如，具有64维的降维特征)，以减少计算量。然后，该计算机设备可以将特征2输入至卷积层42j，进而可以用64个3x3的卷积对特征2进行卷积处理，得到图4所示的特征3(例如，具有64维的卷积特征)。最后，该计算机设备可以将特征3输入至卷积层43j，以通过256个1x1卷积进行特征还原，从而可以得到图4所示的特征4(例如，具有256维的还原特征)。其中，该特征4可以通过卷积层43j的输出特征以及特征1的残差所共同确定。图4中的线性整流函数(Rectified Linear Unit，relu)，又称修正线性单元，是一种人工神经网络中常用的激活函数。

应当理解，本申请实施例中的计算机设备可以将待编码视频帧输入至上述视频编码模型，进而可以通过该视频编码模型，对待编码视频帧进行编码处理，以得到待编码视频帧对应的视频编码特征。进一步地，该计算机设备可以基于待编码视频帧对应的视频编码特征，得到目标视频片段对的第一目标编码特征。其中，第一目标编码特征包括视频片段P_i对应的视频编码特征S_i，以及视频片段P_j对应的视频编码特征S_j。

比如，该计算机设备可以将目标视频片段对中的视频片段P_i对应的待编码视频帧输入至视频编码模型，由该视频编码模型输出视频片段P_i对应的视频编码特征S_i。又比如，该计算机设备可以将目标视频片段对中的视频片段P_j对应的待编码视频帧输入至视频编码模型，由该视频编码模型输出视频片段P_j对应的视频编码特征S_j。此时，该计算机设备可以将视频编码特征S_i和视频编码特征S_j作为目标视频片段对的第一目标编码特征。

其中，可以理解的是，在第二模态信息为音频模态信息时，该计算机设备可以将目标视频片段对中的每个视频片段对应的音频帧分别作为待处理音频帧，且对待处理音频帧进行音频准备处理，得到与待处理音频帧相关联的待编码音频帧。其中，该计算机设备在对待处理音频帧进行音频准备处理的过程中，可以对待处理音频帧进行重采样，进而可以对重采样后的待处理音频帧进行短时傅里叶变换，以得到待处理音频帧对应的频谱图。进一步地，该计算机设备可以将该频谱图映射到滤波器组中，以得到该待处理音频帧对应的初始声谱。该计算机设备可以通过下述公式(1)，确定初始声谱对应的稳定声谱，且根据组帧时长(例如，0.96秒)对该稳定声谱进行组帧处理，以得到待编码视频帧。

具体地，计算机设备确定稳定声谱的计算公式可以为下述公式(1)所示：

S=log(mel-spectrum+0.01) (1)

其中，mel-spectrum是指初始声谱，0.01是指偏置参数，以避免初始声谱为0时需要取对数的情况。

比如，该计算机设备可以对待处理音频帧进行重采样，以得到16kHZ的单声道音频，进而可以通过使用25毫秒的Hann时窗，10毫秒的帧移，对重采样后的待处理音频帧进行短时傅里叶变换，以得到对应的频谱图。进一步地，该计算机设备可以将该频谱图映射到梅尔标度滤波器组(mel-scale filter banks，mel滤波器组)，以得到待处理音频帧对应的初始声谱(例如，梅尔声谱，mel声谱)。进一步地，该计算机设备可以通过上述公式(1)，确定mel声谱对应的稳定的mel声谱(即稳定声谱)。该计算机设备在得到稳定声谱之后，可以根据0.96秒的组帧时长，对稳定声谱进行组帧处理，且组帧处理过程中并没有帧的重叠，每一帧都包含64个mel频带，时长为10毫秒(即总共96帧)。

进一步地，该计算机设备可以获取与音频模态信息相关联的音频编码模型。其中，这里的音频编码模型可以是基于样本音频数据集所训练的，该样本音频数据集可以为携带有音频标记的视频音轨(例如，10秒时长的音频)组成的数据集。可选的，该音频编码模型还可以为开源的模型，例如，该音频编码模型还可以为Vggish模型，该Vggish模型旨在为音频事件检测提取常见的大规模评估任务，且可以每秒提取1个128维的编码特征。其中，该Vggish模型的输出的音频编码特征的数据格式可以为[nums_frames，128]，其中，nums_frames可以为待编码音频帧的帧长，nums_frames=待处理音频帧的音频时长/0.96。

应当理解，本申请实施例中的计算机设备可以将待编码音频帧输入至上述音频编码模型，通过音频编码模型对待编码音频帧进行编码处理，得到待编码音频帧对应的音频编码特征。进一步地，该计算机设备可以基于待编码音频帧对应的音频编码特征，得到目标视频片段对的第二目标编码特征。其中，第二目标编码特征包括视频片段P_i对应的音频编码特征Y_i，以及视频片段P_j对应的音频编码特征Y_j。

比如，该计算机设备可以将目标视频片段对中的视频片段P_i对应的待编码音频帧输入至音频编码模型，由该音频编码模型输出视频片段P_i对应的音频编码特征Y_i。又比如，该计算机设备可以将目标视频片段对中的视频片段P_j对应的待编码音频帧输入至音频编码模型，由该音频编码模型输出视频片段P_j对应的音频编码特征Y_j。此时，该计算机设备可以将音频编码特征Y_i和音频编码特征Y_j作为目标视频片段对的第二目标编码特征。

其中，本申请实施例中的视频编码模型和音频编码模型可以独立于本申请实施例中的目标网络模型，还可以是该目标网络模型中的两个子模型，这里将不对其进行限定。

步骤S102，获取用于对待识别视频进行循环识别的目标网络模型。

具体地，该计算机设备还可以获取用于对待识别视频进行循环识别的目标网络模型(例如，图2所示的目标网络模型2000M)。其中，该目标网络模型可以包括与第一模态信息相关联的第一目标序列模型(例如，图2所示的目标序列模型210M)、和与第二模态信息相关联的第二目标序列模型(例如，图2所示的目标序列模型220M)，且第一目标序列模型可以包括第一序列表征学习层和第一相似度度量层，第二目标序列模型包括第二序列表征学习层和第二相似度度量层。

例如，该第一目标序列模型可以为与视频模态信息相关联的序列相似度学习模型，该第一目标序列模型可以用于识别该目标视频片段对在视频模态信息下的目标相似结果，该第二目标序列模型可以为与音频模态信息相关联的序列相似度学习模型，该第二目标序列模型可以用于识别待目标视频片段对在音频模态信息下的目标相似结果。

步骤S103，将第一目标编码特征输入至第一目标序列模型，通过第一序列表征学习层对第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出目标视频片段对的第一目标相似结果。

其中，该目标视频片段对可以包括视频片段P_i和视频片段P_j；i和j均为小于或者等于N的正整数，且i不等于j，这里的N可以为待识别视频中的视频片段的总数量。本申请实施例中的第一目标序列模型中的第一序列表征学习层可以包括与视频片段P_i相关联的第一网络层和与视频片段P_j相关联的第二网络层，且该第一网络层与该第二网络层具有相同的网络结构。具体地，该计算机设备可以将第一目标编码特征输入至第一目标序列模型。这里的第一目标编码特征可以包括视频编码特征S_i和视频编码特征S_j，视频编码特征S_i可以为视频片段P_i在第一模态信息下的编码特征；视频编码特征S_j可以为视频片段P_j在第一模态信息下的编码特征。进一步地，该计算机设备可以通过第一序列表征学习层中的第一网络层，对视频编码特征S_i进行序列特征学习，得到视频编码特征S_i对应的学习特征X_i。同理，该计算机设备可以通过第一序列表征学习层中的第二网络层，对视频编码特征S_j进行序列特征学习，得到视频编码特征S_j对应的学习特征X_j。进一步地，该计算机设备可以将学习特征X_i和学习特征X_j作为第一目标学习特征，且将第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出第一目标学习特征的相似度。此时，该计算机设备可以基于第一目标学习特征的相似度，确定目标视频片段对的第一目标相似结果。

可以理解的是，本申请实施例中的相似度度量层(即Similarity层)均可以采用cosine-similarity这一计算方法，对输入至该相似度度量层的两个特征计算相似度。具体计算公式可以参见下述公式(2)：

L(x,y)=x^Ty (2)

其中，这里的x可以为输入至该相似度度量层的一个输入特征，y为输入至该相似度度量层的另一个输入特征。

比如，若该相似度度量层为第一目标序列模型中的第一相似度度量层，则这里的x可以为该第一目标序列模型中的第一网络层所输出的学习特征X_i，这里的y可以为该第一目标序列模型中的第二网络层所输出的学习特征X_j。

为便于理解，进一步地，请参见图5，图5是本申请实施例提供的一种目标序列模型的结构示意图。如图5所示，本申请实施例中的目标序列模型500M可以为与某一模态信息相关联的目标序列模型。例如，该目标序列模型500M可以为上述图2所示的目标网络模型2000M中的目标序列模型210M，即与第一模态信息(例如，视频模态信息)相关联的目标序列模型。

其中，本申请实施例中的待识别视频的目标视频片段对可以包括视频片段P₁和视频片段P₂，该视频片段P₁在视频模态信息下的视频编码特征可以为图5所示的视频编码特征5S₁，且该视频片段P₂在视频模态信息下的视频编码特征可以为图5所示的视频编码特征5S₂。

如图5所示，该目标序列模型500M中可以包括图5所示的序列表征学习层51L(即第一序列表征学习层)和相似度度量层52L(例如，第一相似度度量层)，且该序列表征学习层51L中可以包括网络层511L以及网络层512L。其中，网络层511L可以为与视频片段P₁相关联的第一网络层，该网络层512L可以为与视频片段P₂相关联的第二网络层，且该网络层511L与该网络层512L具有相同的网络结构。

可以理解的是，在本申请实施例中，计算机设备可以将视频编码特征5S₁和视频编码特征5S₂一并输入至图5所示的序列表征学习层51L，以得到目标视频片段对的第一目标学习特征。换言之，该计算机设备可以将视频编码特征5S₁输入至序列表征学习层51L中的网络层511L，通过该网络层511L对视频编码特征5S₁进行序列特征学习，得到该视频编码特征5S₁对应的学习特征5X₁。与此同时，该计算机设备还可以将视频编码特征5S₂输入至序列表征学习层51L中的网络层512L，通过该网络层512L对视频编码特征5S₂进行序列特征学习，得到该视频编码特征5S₂对应的学习特征5X₂。

为便于理解，进一步地，请参见表2，表2是本申请实施例提供的一种深度神经网络(Deep Neural Networks，简称DNN)的网络结构示意表。其中，表2所示的深度神经网络可以用于对视频片段对应的模态编码特征进行序列特征学习。例如，表2所示的网络结构示意表可以为图5所示的网络层511L对应的网络结构示意表或者网络层512L对应的网络结构示意表。

其中，该表2中可以包括子网络层、子网络层中的每个卷积层(Layer name)、每个卷积层的输入/输出特征尺寸(Input/Output size)以及每个卷积层中的卷积核(Kernel)。如表2所示，本申请实施例中的第一序列表征学习层中的第一网络层可以包括第一子网络层(例如，子网络层L₁)、第二子网络层(例如，子网络层L₂)、第三子网络层(例如，子网络层L₃)以及第四子网络层(例如，子网络层L₄)。其中，表2所示的每个卷积层中的步幅(stride)和空洞卷积参数(dilate)均可以根据实际情况进行动态调整。具体请参见下述表2：

表2

在通过第一序列表征学习中的第一网络层，对视频编码特征S_i进行序列特征学习的具体实施方式中，该计算机设备可以通过第一网络层中的第一子网络层，对视频编码特征S_i进行特征转换，从而可以得到视频编码特征S_i对应的第一转换特征。其中，第一网络层中的第一子网络层可以包括第一卷积层(例如，表2所示的Conv1这一卷积层)、第二卷积层(例如，表2所示的Conv2这一卷积层)以及空洞卷积层(例如，表2所示的Conv3这一卷积层)。比如，Conv3这一空洞卷积层中的步幅和空洞卷积参数均可以为2。该特征拼接层(例如，表2所示的Concate这一拼接层)用于将Conv1这一卷积层中的输出特征和Conv2这一卷积层的输出特征进行拼接处理，以得到用于输入至第二子网络层中的输入特征。

可以理解的是，在该计算机设备将视频编码特征S_i输入至第一网络层中的第一子网络层(例如，表2所示的子网络层L₁)时，该计算机设备可以通过空洞卷积层，对视频编码特征S_i进行卷积处理，以得到视频编码特征S_i对应的第一卷积特征。与此同时，该计算机设备还可以通过第一卷积层，对视频编码特征S_i进行卷积处理，以得到视频编码特征S_i对应的第二卷积特征，且将该第二卷积特征输入至第二卷积层，通过第二卷积层对第二卷积特征进行卷积处理，以得到第三卷积特征。此时，该计算机设备可以将第一卷积特征和第三卷积特征进行拼接处理，从而得到视频编码特征S_i对应的第一转换特征。

进一步地，该计算机设备可以先将第一转换特征输入至第二子网络层(例如，表2所示的子网络层L₂)，通过第二子网络层对第一转换特征进行特征转换，从而得到第一转换特征对应的第二转换特征。然后，该计算机设备可以将第二转换特征输入至第三子网络层，通过第三子网络层对第二转换特征进行特征转换，以得到第二转换特征对应的第三转换特征。最后，该计算机设备再将第三转换特征输入至第四子网络层，通过第四子网络层中的最大池化层，对第三转换特征进行最大池化处理，以得到视频编码特征S_i对应的学习特征X_i。

为便于理解，进一步地，请参见图6，图6是本申请实施例提供的一种深度神经网络的网络示意图。其中，该深度神经网络(例如，图6所示的网络层6L)可以用于对目标视频片段对中的某一视频片段对应的编码特征进行序列特征学习。该网络层6L可以为上述图5所示的网络层511L或者上述图5所示的网络层512L。

其中，该网络层6L可以包括子网络层6L₁(即第一子网络层)、子网络层6L₂(即第二子网络层)、子网络层6L₃(即第三子网络层)以及子网络层6L₄(即第四子网络层)。如图6所示，该子网络层6L₁可以包括第一卷积层(例如，卷积层601j)、第二卷积层(例如，卷积层602j)以及空洞卷积层(例如，卷积层603j)。可以理解的是，空洞卷积层可以包括以下作用：(1)扩大感受野：在深度神经网络中为了增加感受野且降低计算量，往往需要进行降采样以增加感受野，但这样将会导致空间分辨率降低。为了能不丢失分辨率，且仍然扩大感受野，本申请实施例可以使用空洞卷积。(2)捕获多尺度上下文信息：空洞卷积层中的空洞卷积参数(dilation rate)可以根据实际情况设置，具体含义是指在卷积核中填充(dilationrate-1)个0，因此，当设置不同dilation rate时，感受野就会不一样，也即获取了多尺度信息。

其中，图6所示的卷积层603j可以为空洞卷积参数为2的卷积层，即空洞卷积层，这意味着该计算机设备可以在卷积核中填充1个0。如图6中的区域Q₁所示，该计算机设备可以根据卷积层603j中的3×3的卷积核，会在图像中找到5×5的区域，并从中根据空洞卷积参数的数值选择对应位置进行相乘操作。其中，图6所示的卷积层601j和卷积层602j均可以为空洞卷积参数为1的卷积层，即常规卷积层。可以理解的是，当空洞卷积参数的为1时，这意味着该计算机设备无法在卷积核中填充0，如图6中的区域Q₂所示，该计算机设备可以根据卷积层601中的3×3的卷积核，会在图像中找到3×3的区域。

其中，根据上述表2所示，该计算机设备在对特征1(例如，具有18×2048维度的视频编码特征S_i)进行序列特征学习的具体实施方式中，可以将该特征1作为子网络层6L₁的输入特征。此时，该计算机设备可以通过该子网络层6L₁中的卷积层603j中的1024个7×7的卷积核，对该特征1进行卷积处理进行卷积处理，得到第一卷积特征(例如，具有9×1024维度的特征2)。与此同时，该计算机设备还可以通过该子网络层6L₁中的卷积层601j中的1024个7×7的卷积核，对该特征1进行卷积处理，得到第二卷积特征(例如，具有18×1024维度的特征3)。进一步地，该计算机设备可以将该特征3作为卷积层602j的输入特征，通过卷积层602j中的1024个7×7的卷积核，对特征3进行卷积处理，得到第二卷积特征(例如，具有18×1024维度的特征4)。进一步地，该计算机设备可以将特征2和特征4进行拼接处理，得到子网络6L₁的输出特征(即具有27×1024维度的第一转换特征)。

然后，该计算机设备可以将具有27×1024维度的第一转换特征输入至子网络6L₂，通过该子网络6L₂中的卷积层604j中的1024个1×1的卷积核、卷积层605j中的1024个3×3的卷积核、以及卷积层606j中的1024个1×1的卷积核，得到具有14×1024维度的第二转换特征。

进一步地，该计算机设备可以将具有14×1024维度的第二转换特征输入至图6所示的子网络6L₃，通过该子网络6L₃中的卷积层607j中的512个1×1的卷积核、卷积层608j中的512个3×3的卷积核、以及卷积层609j中的512个1×1的卷积核，得到具有7×512维度的第三转换特征。

最后，该计算机设备可以将具有7×512维度的第三转换特征输入至图6所示的子网络6L₄，通过该子网络6L₄中的卷积层610j(即最大池化层)中的512个1×7的卷积核，对第三转换特征进行最大池化处理，得到具有1×512维度的学习特征X_i。

同理，该计算机设备可以将视频编码特征S_j输入至与图6所示的网络层6L具有相同网络结构的第二网络层中，可以得到视频编码特征S_j对应的学习特征X_j，且将学习特征X_i和学习特征X_j作为目标视频片段对的第一目标学习特征。

如图5所示，该计算机设备确定的第一目标学习特征可以为图5所示的学习特征5X₁和学习特征5X₂，此时，该计算机设备将学习特征5X₁和学习特征5X₂一并输入至图5所示的相似度度量层52L，由该相似度度量层52L输出学习特征5X₁和学习特征5X₂的相似度，进而可以基于相似度度量层52L输出的相似度，确定目标视频片段对的第一目标相似结果。

其中，这里的相似度度量层52L输出的相似度可以采用sigmod这一激活函数映射到0至1之间。如图5所示，该计算机设备可以获取与目标序列模型500M相关联的相似阈值(例如，0.5)，其中，这里的相似阈值可以根据实际情况进行动态调整。若学习特征5X₁和学习特征5X₂的相似度(例如，0.4)未达到相似阈值，则该计算机设备可以确定该目标视频片段对的第一目标相似结果指示视频片段P₁和视频片段P₂在视频模态信息下不相似。若学习特征5X₁和学习特征5X₂的相似度(例如，0.8)达到相似阈值，则该计算机设备可以该确定目标视频片段对的第一目标相似结果指示视频片段P₁和视频片段P₂在视频模态信息下相似。

步骤S104，将第二目标编码特征输入至第二目标序列模型，通过第二序列表征学习层对第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至第二相似度度量层，由第二相似度度量层输出目标视频片段对的第二目标相似结果。

具体地，该计算机设备可以将第二目标编码特征输入至与第二模态信息相关联的第二目标序列模型。这里的第二目标编码特征可以包括音频编码特征Y_i和音频编码特征Y_j，音频编码特征Y_i可以为视频片段P_i在第二模态信息下的编码特征；音频编码特征Y_j可以为视频片段P_j在第二模态信息下的编码特征。进一步地，该计算机设备可以通过第二序列表征学习层中的与音频编码特征Y_i相关联的网络层(即第三网络层)，对音频编码特征Y_i进行序列特征学习，得到音频编码特征Y_i对应的学习特征Z_i。同理，该计算机设备可以通过第二序列表征学习层中的与音频编码特征Y_j相关联网络层(即第四网络层)，对音频编码特征Y_j进行序列特征学习，得到音频编码特征Y_j对应的学习特征Z_j。进一步地，该计算机设备可以将学习特征Z_i和学习特征Z_j作为第二目标学习特征，且将第二目标学习特征输入至第二相似度度量层，由第二相似度度量层输出第二目标学习特征的相似度。此时，该计算机设备可以基于第二目标学习特征的相似度，确定目标视频片段对的第二目标相似结果。

其中，该计算机设备确定目标视频片段的第二目标相似结果的具体实施方式可以参见上述步骤S103中确定目标视频片段的第一目标相似结果的具体实施方式，这里将不再继续进行赘述。

步骤S105，将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果。

具体地，该计算机设备可以将第一目标相似结果和第二目标相似结果进行比对。若第一目标相似结果指示目标视频片段对在第一模态信息下相似，且第二目标相似结果指示目标视频片段对在第二模态信息下相似，则该计算机设备可以得到目标视频片段对的循环视频结果。可选的，若第一目标相似结果指示目标视频片段对在第一模态信息下不相似，或者第二目标相似结果指示目标视频片段对在第二模态信息下不相似，则该计算机设备可以得到目标视频片段对的非循环视频结果。此时，该计算机设备可以将循环视频结果或者非循环视频结果作为目标视频片段对的循环比对结果。其中，目标视频片段对的循环比对结果可以用于指示待识别视频的视频类型。

可以理解的是，若目标视频片段对的第一目标相似结果与第二目标相似结果均为数值为“1”的相似结果，则该计算机设备可以确定该目标视频片段对的循环比对结果为数值为“1”的循环视频结果，这意味着目标视频片段对中的两个视频片段中的画面和音频均互相重复。可选的，若目标视频片段对的第一目标相似结果或者第二目标相似结果为数值为“0”的相似结果，则该计算机设备可以确定该目标视频片段对的循环比对结果为数值为“0”的非循环视频结果，这意味着目标视频片段对中的两个视频片段不重复。

进一步地，请参见图7，图7是本申请实施例提供的一种视频循环识别方法的流程示意图。该方法可以由具备视频循环识别功能的计算机设备执行。其中，该计算机设备可以为用户终端(例如，上述图1所示的用户终端集群中的任意一个用户终端，例如，用户终端100a)，也可以为服务器(例如，上述图1所示的服务器10)。该方法还可以由具备模型应用功能的用户终端和具备模型训练功能的服务器共同执行。在此不做限定。该方法至少可以包括以下步骤S201-步骤S211：

步骤S201，获取待识别视频的目标视频片段对，确定目标视频片段对的第一目标编码特征和第二目标编码特征。

步骤S202，获取用于对待识别视频进行循环识别的目标网络模型。

步骤S203，将第一目标编码特征输入至第一目标序列模型，通过第一序列表征学习层对第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出目标视频片段对的第一目标相似结果。

步骤S204，将第二目标编码特征输入至第二目标序列模型，通过第二序列表征学习层对第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至第二相似度度量层，由第二相似度度量层输出目标视频片段对的第二目标相似结果。

步骤S205，将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果。

其中，本申请实施例中的视频循环识别方法可以包括模型训练过程以及模型应用过程。可以理解的是，该步骤S201-步骤S205阐述了模型应用过程，该模型应用过程的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S105的描述，这里将不再继续进行赘述。

若循环比对结果为循环视频结果，则该计算机设备可以确定待识别视频的视频类型为循环视频类型，进一步地，该计算机设备还可以基于循环视频类型生成循环提示信息，且将循环提示信息返回至用户终端。其中，该用户终端可以为待识别视频的发送端。

为便于理解，进一步地，请参见图8，图8是本申请实施例提供的一种数据交互的场景示意图。如图8所示，本申请实施例中的服务器80B可以为具备视频循环识别功能的计算机设备，该服务器80B可以为上述图1所示的服务器10。本申请实施例中的用户终端80A可以为与服务器80B具有网络连接关系的用户终端，例如，该用户终端可以为上述图1所示的用户终端集群中的任意一个用户终端，例如，用户终端100b。

如图8所示，用户终端80A可以将待识别视频8V发送至服务器80B，以使该服务器80B获取训练好的目标网络模型，对待识别视频8V进行循环识别，以确定该待识别视频8V的视频类型。其中，如图8所示，该服务器80B接收到该待识别视频8V时，可以对该待识别8V进行分段处理，以获取该待识别视频8V的目标视频片段对。其中，该待识别视频8V的目标视频片段对可以包括图8所示的视频片段P₁和视频片段P₂。

进一步地，该服务器80B可以确定目标视频片段对的第一目标编码特征和第二目标编码特征。在获取到目标网络模型(例如，图8所示的网络模型8000M)时，该服务器80B可以将第一目标编码特征和第二目标编码特征一并输入至网络模型8000M，由该网络模型8000M对这一目标视频片段对进行循环识别，以得到该目标视频片段对的循环比对结果。

可以理解的是，若该循环比对结果为循环视频结果，则该服务器80B可以确定待识别视频8V的视频类型为循环视频类型，此时，该服务器80B可以基于确定的循环视频类型，生成用于提示该用户终端80A的循环提示信息(例如，图8所示的循环提示信息80F)，进一步地，该服务器80B可以将该循环提示信息80F返回至用户终端80A。

应当理解，该用户终端80A可以根据循环提示信息80F，确定是否需要服务器80B对待识别视频8V进行过滤处理。当用户终端80A对应的用户确定待识别视频8V中的重复片段需要进行过滤时，该用户可以执行用于指示服务器80B对该待识别视频8V进行过滤的触发操作，以使用户终端在响应该触发操作时，向服务器80B发送过滤请求。服务器80B在接收到该过滤请求时，可以对待识别视频8V进行过滤处理，进而可以将过滤处理后的待识别视频8V存储至服务器80B的数据库。

可以理解的是，在服务器80B为接入至区块链网络中的区块链节点时，该服务器80B还可以将该过滤处理后的待识别视频8V进行打包处理，生成包含过滤处理后的待识别视频8V的待验证区块，进而可以将该待验证区块广播至区块链网络中的共识节点，以使共识节点进行区块共识，且在接收到的区块共识节点指示共识成功时，服务器80B可以将该待验证区块写入至区块链网络中的区块链，即将过滤处理后的待识别视频8V写入区块链网络。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

其中，该模型训练过程具体可以参见下述步骤S206-步骤S211的描述。

步骤S206，获取用于训练初始网络模型的样本视频片段对以及样本视频片段对的样本标签。

具体地，该计算机设备可以从样本视频片段集合中随机获取一个视频片段(例如，视频片段A)，以作为初始样本视频片段。进一步地，该计算机设备可以对该初始样本视频片段进行整体攻击(加高斯噪声、改变视频片段A的视频帧率)，以得到该初始样本视频片段对应的目标样本视频片段。进一步地，该计算机设备可以为这一初始样本视频片段和这一目标样本视频片段所组成的视频片段对进行标注，以得到携带第一样本标签(例如，正样本标签)的视频片段对。其中，本申请实施例可以将携带第一样本标签的视频片段对称之为正样本视频片段对。此外，该计算机设备还可以从样本视频片段集中选择K个与初始样本视频片段不重复的视频片段，进而可以分别对选择的K个视频片段中的每个视频片段与该初始样本视频片段进行标注，以得到K个携带第二样本标签(例如，负样本标签)的视频片段对。其中，本申请实施例可以将携带第二样本标签的视频片段对称之为负样本视频片段对。进一步地，该计算机设备可以将正样本视频片段对和负样本视频片段对作为用于训练初始网络模型的样本视频片段对，且将第一样本标签和第二样本标签均称之为对应样本视频片段对的样本标签。

比如，该计算机设备在获取正样本视频片段对时，可以对视频片段A进行均匀抽帧处理，使得视频片段A的帧率由原来的25fps更新为12fps，进而可以将具有25fps的视频片段A和具有12fps的视频片段A作为需要标注互相重复的正样本视频片段对。

步骤S207，分别获取样本视频片段对在第一模态信息下的第一样本编码特征和在第二模态信息下的第二样本编码特征。

具体地，该计算机设备可以对样本视频片段对中的每个视频片段分别进行第一特征提取，得到样本视频片段对的第一样本编码特征(即第一模态信息下的编码特征)。与此同时，该计算机设备还可以对样本视频片段对中的每个视频片段分别进行第二特征提取，得到样本视频片段对的第二样本编码特征(即第二模态信息下的编码特征)。

其中，样本视频片段对可以包括第一样本视频片段(例如，视频片段A)和第二样本视频片段(例如，视频片段B)。该样本视频片段对的第一样本编码特征可以包括视频片段A在第一模态信息下的视频编码特征(例如，视频编码特征S_A)、以及视频片段B在第一模态信息下的视频编码特征(例如，视频编码特征S_B)。该样本视频片段对的第二样本编码特征可以包括视频片段A在第二模态信息下的视频编码特征(例如，音频编码特征Y_A)、以及视频片段B在第二模态信息下的视频编码特征(例如，音频编码特征Y_B)。

步骤S208，将第一样本编码特征输入至第一初始序列模型，通过第一初始序列模型中的第一序列表征学习层和第一相似度度量层，输出样本视频片段对的第一预测相似结果。

其中，第一初始序列模型中的第一序列表征学习层可以包括与视频片段A相关联的第一网络层和与视频片段B相关联的第二网络层，且该第一网络层与该第二网络层具有相同的网络结构。具体地，该计算机设备可以将第一样本编码特征输入至第一初始序列模型。进一步地，该计算机设备可以通过第一初始序列模型中的第一序列表征学习层中的第一网络层，对视频编码特征S_A进行序列特征学习，得到视频编码特征S_A对应的学习特征X_A。同理，该计算机设备可以通过第一序列表征学习层中的第二网络层，对视频编码特征S_B进行序列特征学习，得到视频编码特征S_B对应的学习特征X_B。进一步地，该计算机设备可以将学习特征X_A和学习特征X_B作为第一样本学习特征，且将第一样本学习特征输入至第一相似度度量层，由第一相似度度量层输出第一样本学习特征的相似度。此时，该计算机设备可以基于第一样本学习特征的相似度，确定样本视频片段对的第一预测相似结果。

步骤S209，将第二样本编码特征输入至第二初始序列模型，通过第二初始序列模型中的第二序列表征学习层和第二相似度度量层，输出样本视频片段对的第二预测相似结果。

具体地，该计算机设备可以将第二样本编码特征输入至与第二模态信息相关联的第二初始序列模型。进一步地，该计算机设备可以通过第二序列表征学习层中的与音频编码特征Y_A相关联的网络层(即第三网络层)，对音频编码特征Y_A进行序列特征学习，得到音频编码特征Y_A对应的学习特征Z_A。同理，该计算机设备可以通过第二序列表征学习层中的与音频编码特征Y_B相关联网络层(即第四网络层)，对音频编码特征Y_B进行序列特征学习，得到音频编码特征Y_B对应的学习特征Z_B。进一步地，该计算机设备可以将学习特征Z_A和学习特征Z_B作为第二样本学习特征，且将第二样本学习特征输入至第二相似度度量层，由第二相似度度量层输出第二样本学习特征的相似度。此时，该计算机设备可以基于第二样本学习特征的相似度，确定样本视频片段对的第二预测相似结果。

其中，该步骤S207步骤S209的具体实施方式可参见上述图3所对应实施例中对步骤S102-步骤S104的描述，这里将不再继续进行赘述。

步骤S210，将第一预测相似结果和第二预测相似结果进行比对，得到样本视频片段对的预测循环结果对应的预测标签。

具体地，该计算机设备可以将第一预测相似结果和第二预测相似结果进行比对。若第一预测相似结果指示样本视频片段对在第一模态信息下相似，且第二预测相似结果指示样本视频片段对在第二模态信息下相似，则该计算机设备可以得到样本视频片段对的循环视频结果。可选的，若第一预测相似结果指示样本视频片段对在第一模态信息下不相似，或者第二预测相似结果指示样本视频片段对在第二模态信息下不相似，则该计算机设备可以得到样本视频片段对的非循环视频结果。此时，该计算机设备可以将循环视频结果或者非循环视频结果作为样本视频片段对的预测循环结果，进而可以基于预测循环结果确定样本视频片段对对应的预测标签。

其中，这里的预测循环结果可以包括正样本视频片段对的第一预测循环结果和负样本视频片段对的第二预测循环结果；这里的预测标签可以包括第一预测循环结果对应的第一预测标签和第二预测循环结果对应的第二预测标签。

步骤S211，基于预测标签和样本标签，对初始网络模型进行迭代训练，将迭代训练后的初始网络模型作为用于对待识别视频进行循环识别的目标网络模型。

具体地，该计算机设备可以基于样本标签所指示的正样本视频片段对和负样本视频片段对之间的样本比例，确定与初始网络模型的模型损失函数相关联的损失权重参数。进一步地，该计算机设备可以基于第一预测标签和第一样本标签，得到正样本视频片段对的正样本损失，且基于第二预测标签和第二样本标签，得到负样本视频片段对的负样本损失。此时，该计算机设备可以基于正样本损失、负样本损失以及损失权重参数，以得到模型损失函数对应的模型损失，进而可以基于模型损失，对初始网络模型进行迭代训练，得到模型训练结果。进一步地，该计算机设备可以基于模型训练结果，确定用于对待识别视频进行循环识别的目标网络模型。

具体地，本申请实施例中的初始网络模型的模型损失函数可以参见下述公式(3)-(4)：

(3)

(4)

其中，L(x,y)是指由初始网络模型输出的预测相似结果，(例如，数值为“1”或者数值为“0”的预测相似结果)。

可以为计算机设备基于第一预测标签和第一样本标签所得到的正样本视频片段对的正样本损失，

可以为该计算机设备基于第二预测标签和第二样本标签所得到的负样本视频片段对的负样本损失。这里的K是指与初始网络模型的模型损失函数相关联的损失权重参数。比如，若样本标签所指示的正样本视频片段对和负样本视频片段对之间的样本比例为1:10，则这里的损失权重参数可以为0.1。

应当理解，该计算机设备在基于模型损失对初始网络模型进行迭代训练的过程中，可以采用基于SGD(Stochastic Gradient Descent)的梯度下降法确定初始网络模型的模型参数w和偏置参数b，在每次迭代过程中，通过将确定到的模型损失(即预测结果误差)反向传播到初始网络模型，进而可以确定梯度并更新该初始网络模型的参数。

首先，该计算机设备可以初始网络模型的模型参数可以进行参数初始化，即所有卷积层可以采用方差为0.01，均值为0的高斯分布进行初始化。其次，该计算机设备可以设置学习参数，使得所有网络参数都需要学习。该计算机设备可以将初始网络模型的学习率设置为0.005。进一步地，该计算机设备在对初始网络模型进行迭代训练时，可以进行多轮迭代，即该计算机设备可以将样本视频片段对划分多个批次，并将每个批次所抓取的一定数量的样本视频片段对作为当前的训练样本。

具体过程可以为：该计算机设备可以把初始网络模型的所有参数都设为学习状态，对该初始网络模型进行迭代训练时，需要对当前批次所抓取的样本视频片段对的样本编码特征(例如，第一样本编码特征以及第二样本编码特征)进行前向计算，以得到预测循环结果，进而可以根据此样本视频片段对的预测循环结果计算损失函数，把模型损失值回传到初始网络模型中，进而可以通过采用SGD随机梯度下降法，后向计算并得到全部模型参数的更新值，以更新模型参数，从而实现一次权重优化。

其中，该计算机设备还可以获取与初始网络模型相关联的模型收敛条件，其中，该模型收敛条件可以为模型损失持续N轮(例如，10轮)未继续下降，即停止模型训练。可选的，该模型收敛条件还可以为模型损失小于模型收敛条件中的损失阈值，即停止模型训练。这里将不对其进行限定。

可以理解的是，若模型训练结果指示迭代训练后的初始网络模型满足模型收敛条件，则将满足模型收敛条件的初始网络模型作为用于对待识别视频进行循环识别的目标网络模型。可选的，若模型训练结果指示迭代训练后的初始网络模型不满足模型收敛条件，则该计算机设备可以基于不满足模型收敛条件的模型损失函数，对初始网络模型的模型参数进行调整。进一步地，该计算机设备可以将调整模型参数后的初始网络模型作为过渡网络模型，对过渡网络模型进行迭代训练，直到迭代训练后的过渡网络模型满足模型收敛条件时，将满足模型收敛条件的过渡网络模型作为用于对待识别视频进行循环识别的目标网络模型。

由此可见，本申请实施例的计算机设备通过对样本视频片段对的样本编码特征(即第一样本编码特征和第二样本编码特征)，对初始网络模型进行迭代，以得到用于对待识别视频进行循环识别的目标网络模型，在出现大量待识别视频时，无需人工参与视频循环识别，可以直接通过该目标网络模型，快速确定待识别视频的视频类型，以判断该待识别视频的视频类型，进而可以提高视频循环识别的效率。此外，由于训练好的目标网络模型是基于不同模态信息的样本编码特征所训练的，因此，训练好的目标网络模型在进行循环识别时，能够充分利用待识别视频的多模态信息，提高循环识别的准确率。可以理解的是，由于目标网络模型可以基于样本视频片段对在多模态信息下的样本编码特征进行训练，进而可以快速支持更丰富的业务扩展，即根据业务需求，定制不同类型目标网络模型。例如，该计算机设备可以训练一个关注视频模态信息、音频模态信息以及台词文本模态信息的目标网络模型。又比如，该计算机设备还可以训练一个关注音频模态信息、视频标题模态信息以及封面模态信息的目标网络模型，这里将不对其进行限定。

进一步地，请参见图9，图9是本申请实施例提供的一种视频循环识别装置的结构示意图。如图9所示，该视频循环识别装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如，该视频循环识别装置1为一个应用软件；该视频循环识别装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该视频循环识别装置1可以运行于具有视频循环识别功能的计算机设备，该计算机设备可以为上述图1所对应实施例中的服务器10，也可以为上述图1所对应实施例中的用户终端集群中的任意一个运行有目标网络模型的用户终端，例如，用户终端100a。该视频循环识别装置1可以包括：目标编码特征获取模块11，目标网络模型获取模块12，第一目标相似结果确定模块13，第二目标相似结果确定模块14，目标相似结果比对模块15，视频类型确定模块16，循环提示信息生成模块17，样本视频对获取模块18，样本编码特征获取模块19，第一预测相似结果确定模块20，第二预测相似结果确定模块21，预测相似结果比对模块22以及迭代训练模块23。

该目标编码特征获取模块11，用于获取待识别视频的目标视频片段对，确定目标视频片段对的第一目标编码特征和第二目标编码特征；第一目标编码特征所对应的第一模态信息不同于第二目标编码特征所对应的第二模态信息；

其中，该目标编码特征获取模块11包括：分段处理单元111，目标视频对确定单元112，第一特征提取单元113以及第二特征提取单元114。

该分段处理单元111，用于在获取到待识别视频时，确定待识别视频的视频时长，且基于视频时长对待识别视频进行分段处理，得到N个视频片段；N为正整数；

该目标视频对确定单元112，用于从N个视频片段中获取视频片段P_i和视频片段P_j，将视频片段P_i和视频片段P_j作为待识别视频的目标视频片段对；i和j均为小于或者等于N的正整数，且i不等于j；

该第一特征提取单元113，用于对目标视频片段对中的每个视频片段分别进行第一特征提取，得到目标视频片段对的第一目标编码特征；

其中，第一模态信息为视频模态信息；

该第一特征提取单元113包括：待处理视频帧确定子单元1131，待编码视频帧确定子单元1132，视频编码特征确定子单元1133以及第一目标编码特征确定子单元1134。

该待处理视频帧确定子单元1131，用于将目标视频片段对中的每个视频片段对应的视频帧分别作为待处理视频帧，且基于待处理视频帧的帧率，确定抽帧参数；

该待编码视频帧确定子单元1132，用于基于抽帧参数对待处理视频帧进行抽帧处理，得到与待处理视频帧相关联的待编码视频帧；

该视频编码特征确定子单元1133，用于获取与视频模态信息相关联的视频编码模型，将待编码视频帧输入至视频编码模型，通过视频编码模型对待编码视频帧进行编码处理，得到待编码视频帧对应的视频编码特征；

该第一目标编码特征确定子单元1134，用于基于待编码视频帧对应的视频编码特征，得到目标视频片段对的第一目标编码特征；第一目标编码特征包括视频片段P_i对应的视频编码特征S_i，以及视频片段P_j对应的视频编码特征S_j。

其中，该待处理视频帧确定子单元1131，待编码视频帧确定子单元1132，视频编码特征确定子单元1133以及第一目标编码特征确定子单元1134的具体实现方式可以参见上述图3所对应实施例中对第一目标编码特征的描述，这里将不再继续进行赘述。

该第二特征提取单元114，用于对目标视频片段对中的每个视频片段分别进行第二特征提取，得到目标视频片段对的第二目标编码特征。

其中，第二模态信息为音频模态信息；

该第二特征提取单元114包括：待编码音频帧确定子单元1141，音频编码特征确定子单元1142以及第二目标编码特征确定子单元1143。

该待编码音频帧确定子单元1141，用于将目标视频片段对中的每个视频片段对应的音频帧分别作为待处理音频帧，且对待处理音频帧进行音频准备处理，得到与待处理音频帧相关联的待编码音频帧；

该音频编码特征确定子单元1142，用于获取与音频模态信息相关联的音频编码模型，将待编码音频帧输入至音频编码模型，通过音频编码模型对待编码音频帧进行编码处理，得到待编码音频帧对应的音频编码特征；

该第二目标编码特征确定子单元1143，用于基于待编码音频帧对应的音频编码特征，得到目标视频片段对的第二目标编码特征；第二目标编码特征包括视频片段P_i对应的音频编码特征Y_i，以及视频片段P_j对应的音频编码特征Y_j。

其中，该待编码音频帧确定子单元1141，音频编码特征确定子单元1142以及第二目标编码特征确定子单元1143的具体实现方式可以参见上述图3所对应实施例中对第二目标编码特征的描述，这里将不再继续进行赘述。

其中，该分段处理单元111，目标视频对确定单元112，第一特征提取单元113以及第二特征提取单元114的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述，这里将不再继续进行赘述。

该目标网络模型获取模块12，用于获取用于对待识别视频进行循环识别的目标网络模型；目标网络模型包括与第一模态信息相关联的第一目标序列模型和与第二模态信息相关联的第二目标序列模型；第一目标序列模型包括第一序列表征学习层和第一相似度度量层；第二目标序列模型包括第二序列表征学习层和第二相似度度量层；

该第一目标相似结果确定模块13，用于将第一目标编码特征输入至第一目标序列模型，通过第一序列表征学习层对第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出目标视频片段对的第一目标相似结果；

该第一目标相似结果确定模块13包括：目标编码特征输入单元131，第一序列特征学习单元132，第二序列特征学习单元133，相似度输出单元134以及相似结果确定单元135。

该目标编码特征输入单元131，用于将第一目标编码特征输入至第一目标序列模型；第一目标编码特征包括视频编码特征S_i和视频编码特征S_j；视频编码特征S_i为视频片段P_i在第一模态信息下的编码特征；视频编码特征S_j为视频片段P_j在第一模态信息下的编码特征；

该第一序列特征学习单元132，用于通过第一序列表征学习层中的第一网络层，对视频编码特征S_i进行序列特征学习，得到视频编码特征S_i对应的学习特征X_i；

该第一序列特征学习单元132包括：第一特征转换子单元1321，第二特征转换子单元1322，第三特征转换子单元1323以及最大池化处理子单元1324。

该第一特征转换子单元1321，用于通过第一网络层中的第一子网络层，对视频编码特征S_i进行特征转换，得到视频编码特征S_i对应的第一转换特征；

该第一特征转换子单元1321还用于：

该第二特征转换子单元1322，用于将第一转换特征输入至第二子网络层，通过第二子网络层对第一转换特征进行特征转换，得到第一转换特征对应的第二转换特征；

该第三特征转换子单元1323，用于将第二转换特征输入至第三子网络层，通过第三子网络层对第二转换特征进行特征转换，得到第二转换特征对应的第三转换特征；

该最大池化处理子单元1324，用于将第三转换特征输入至第四子网络层，通过第四子网络层中的最大池化层，对第三转换特征进行最大池化处理，得到视频编码特征S_i对应的学习特征X_i。

其中，该第一特征转换子单元1321，第二特征转换子单元1322，第三特征转换子单元1323以及最大池化处理子单元1324的具体实现方式可以参见上述图6所对应实施例中对学习特征的描述，这里将不再继续进行赘述。

该第二序列特征学习单元133，用于通过第一序列表征学习层中的第二网络层，对视频编码特征S_j进行序列特征学习，得到视频编码特征S_j对应的学习特征X_j；

该相似度输出单元134，用于将学习特征X_i和学习特征X_j作为第一目标学习特征，且将第一目标学习特征输入至第一相似度度量层，由第一相似度度量层输出第一目标学习特征的相似度；

该相似结果确定单元135，用于基于第一目标学习特征的相似度，确定目标视频片段对的第一目标相似结果。

其中，该目标编码特征输入单元131，第一序列特征学习单元132，第二序列特征学习单元133，相似度输出单元134以及相似结果确定单元135的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

该第二目标相似结果确定模块14，用于将第二目标编码特征输入至第二目标序列模型，通过第二序列表征学习层对第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至第二相似度度量层，由第二相似度度量层输出目标视频片段对的第二目标相似结果；

该目标相似结果比对模块15，用于将第一目标相似结果和第二目标相似结果进行比对，得到目标视频片段对的循环比对结果；循环比对结果用于指示待识别视频的视频类型。

其中，该目标相似结果比对模块15包括：比对单元151，第一结果确定单元152，第二结果确定单元153以及循环比对结果确定单元154。

该比对单元151，用于将第一目标相似结果和第二目标相似结果进行比对；

该第一结果确定单元152，用于若第一目标相似结果指示目标视频片段对在第一模态信息下相似，且第二目标相似结果指示目标视频片段对在第二模态信息下相似，则得到目标视频片段对的循环视频结果；

该第二结果确定单元153，用于若第一目标相似结果指示目标视频片段对在第一模态信息下不相似，或者第二目标相似结果指示目标视频片段对在第二模态信息下不相似，则得到目标视频片段对的非循环视频结果；

该循环比对结果确定单元154，用于将循环视频结果或者非循环视频结果作为目标视频片段对的循环比对结果。

其中，该比对单元151，第一结果确定单元152，第二结果确定单元153以及循环比对结果确定单元154的具体实现方式可以参见上述图3所对应实施例中对步骤S105的描述，这里将不再继续进行赘述。

该视频类型确定模块16，用于若循环比对结果为循环视频结果，则确定待识别视频的视频类型为循环视频类型；

该循环提示信息生成模块17，用于基于循环视频类型生成循环提示信息，将循环提示信息返回至用户终端；用户终端为待识别视频的发送端。

该样本视频对获取模块18，用于获取用于训练初始网络模型的样本视频片段对以及样本视频片段对的样本标签；初始网络模型包括第一初始序列模型和第二初始序列模型；第一初始序列模型包括第一序列表征学习层和第一相似度度量层；第二初始序列模型包括第二序列表征学习层和第二相似度度量层；

该样本编码特征获取模块19，用于分别获取样本视频片段对在第一模态信息下的第一样本编码特征和在第二模态信息下的第二样本编码特征；

该第一预测相似结果确定模块20，用于将第一样本编码特征输入至第一初始序列模型，通过第一初始序列模型中的第一序列表征学习层和第一相似度度量层，输出样本视频片段对的第一预测相似结果；

该第二预测相似结果确定模块21，用于将第二样本编码特征输入至第二初始序列模型，通过第二初始序列模型中的第二序列表征学习层和第二相似度度量层，输出样本视频片段对的第二预测相似结果；

该预测相似结果比对模块22，用于将第一预测相似结果和第二预测相似结果进行比对，得到样本视频片段对的预测循环结果对应的预测标签；

该迭代训练模块23，用于基于预测标签和样本标签，对初始网络模型进行迭代训练，将迭代训练后的初始网络模型作为用于对待识别视频进行循环识别的目标网络模型。

该迭代训练模块23包括：损失权重参数确定单元231，样本损失确定单元232，迭代训练单元233，第一模型确定单元234，参数调整单元235以及第二模型确定单元236。

该损失权重参数确定单元231，用于基于样本标签所指示的正样本视频片段对和负样本视频片段对之间的样本比例，确定与初始网络模型的模型损失函数相关联的损失权重参数；

该样本损失确定单元232，用于基于第一预测标签和第一样本标签，得到正样本视频片段对的正样本损失，且基于第二预测标签和第二样本标签，得到负样本视频片段对的负样本损失；

该迭代训练单元233，用于基于正样本损失、负样本损失以及损失权重参数，得到模型损失函数对应的模型损失，且基于模型损失，对初始网络模型进行迭代训练，得到模型训练结果；

该第一模型确定单元234，用于若模型训练结果指示迭代训练后的初始网络模型满足模型收敛条件，则将满足模型收敛条件的初始网络模型作为用于对待识别视频进行循环识别的目标网络模型。

该参数调整单元235，用于若模型训练结果指示迭代训练后的初始网络模型不满足模型收敛条件，则基于不满足模型收敛条件的模型损失函数，对初始网络模型的模型参数进行调整；

该第二模型确定单元236，用于将调整模型参数后的初始网络模型作为过渡网络模型，对过渡网络模型进行迭代训练，直到迭代训练后的过渡网络模型满足模型收敛条件时，将满足模型收敛条件的过渡网络模型作为用于对待识别视频进行循环识别的目标网络模型。

其中，该损失权重参数确定单元231，样本损失确定单元232，迭代训练单元233，第一模型确定单元234，参数调整单元235以及第二模型确定单元236的具体实现方式可以参见上述图7所对应实施例中对步骤S211的描述，这里将不再继续进行赘述。

其中，该目标编码特征获取模块11，目标网络模型获取模块12，第一目标相似结果确定模块13，第二目标相似结果确定模块14，目标相似结果比对模块15，视频类型确定模块16，循环提示信息生成模块17，样本视频对获取模块18，样本编码特征获取模块19，第一预测相似结果确定模块20，第二预测相似结果确定模块21，预测相似结果比对模块22以及迭代训练模块23的具体实现方式可以参见上述图7所对应实施例中对步骤S201-步骤S211的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图10，图10是本申请实施例提供的一种计算机设备的示意图。如图10所示，该计算机设备1000可以为具备视频循环识别功能的计算机设备，该计算机设备1000可以包括：至少一个处理器1001，例如，CPU，至少一个网络接口1004，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。其中，在一些实施例中，该计算机设备还可以包括图10所示的用户接口1003，比如，若该计算机设备为图1所示的具有视频循环识别功能的用户终端(例如，用户终端100a)，则该计算机设备还可以包括该用户接口1003，其中，该用户接口1003可以包括显示屏(Display)、键盘(Keyboard)等。

在图10所示的计算机设备1000中，网络接口1004主要用于进行网络通信；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3和图7所对应实施例中对该视频循环识别方法的描述，也可执行前文图9所对应实施例中对该视频循环识别装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图3和图7中各个步骤所提供的视频循环识别方法，具体可参见图3以及图7各个步骤所提供的实现方式，在此不再赘述。

计算机可读存储介质可以是前述任一实施例提供的数据传输装置或者计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smartmedia card，SMC)，安全数字(secure digital， SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图3或者图7所对应实施例中对视频循环识别方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程视频循环识别设备的处理器以产生一个机器，使得通过计算机或其他可编程视频循环识别设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程视频循环识别设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程视频循环识别设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频循环识别方法，其特征在于，包括：

获取待识别视频的目标视频片段对，确定所述目标视频片段对的第一目标编码特征和第二目标编码特征；所述第一目标编码特征所对应的第一模态信息不同于所述第二目标编码特征所对应的第二模态信息；

获取用于对所述待识别视频进行循环识别的目标网络模型；所述目标网络模型包括与所述第一模态信息相关联的第一目标序列模型和与所述第二模态信息相关联的第二目标序列模型；所述第一目标序列模型包括第一序列表征学习层和第一相似度度量层；所述第二目标序列模型包括第二序列表征学习层和第二相似度度量层；

将所述第一目标编码特征输入至所述第一目标序列模型，通过所述第一序列表征学习层对所述第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至所述第一相似度度量层，由所述第一相似度度量层输出所述目标视频片段对的第一目标相似结果；

将所述第二目标编码特征输入至所述第二目标序列模型，通过所述第二序列表征学习层对所述第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至所述第二相似度度量层，由所述第二相似度度量层输出所述目标视频片段对的第二目标相似结果；

将所述第一目标相似结果和所述第二目标相似结果进行比对，得到所述目标视频片段对的循环比对结果；所述循环比对结果用于指示所述待识别视频的视频类型。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别视频的目标视频片段对，确定所述目标视频片段对的第一目标编码特征和第二目标编码特征，包括：

在获取到待识别视频时，确定所述待识别视频的视频时长，且基于所述视频时长对所述待识别视频进行分段处理，得到N个视频片段；所述N为正整数；

从所述N个视频片段中获取视频片段P_i和视频片段P_j，将所述视频片段P_i和所述视频片段P_j作为所述待识别视频的目标视频片段对；所述i和所述j均为小于或者等于所述N的正整数，且所述i不等于所述j；

对所述目标视频片段对中的每个视频片段分别进行第一特征提取，得到所述目标视频片段对的第一目标编码特征；

对所述目标视频片段对中的每个视频片段分别进行第二特征提取，得到所述目标视频片段对的第二目标编码特征。

3.根据权利要求2所述的方法，其特征在于，所述第一模态信息为视频模态信息；

所述对所述目标视频片段对中的每个视频片段分别进行第一特征提取，得到所述目标视频片段对的第一目标编码特征，包括：

将所述目标视频片段对中的每个视频片段对应的视频帧分别作为待处理视频帧，且基于所述待处理视频帧的帧率，确定抽帧参数；

基于所述抽帧参数对所述待处理视频帧进行抽帧处理，得到与所述待处理视频帧相关联的待编码视频帧；

获取与所述视频模态信息相关联的视频编码模型，将所述待编码视频帧输入至所述视频编码模型，通过所述视频编码模型对所述待编码视频帧进行编码处理，得到所述待编码视频帧对应的视频编码特征；

基于所述待编码视频帧对应的视频编码特征，得到所述目标视频片段对的第一目标编码特征；所述第一目标编码特征包括所述视频片段P_i对应的视频编码特征S_i，以及所述视频片段P_j对应的视频编码特征S_j。

4.根据权利要求2所述的方法，其特征在于，所述第二模态信息为音频模态信息；

所述对所述目标视频片段对中的每个视频片段分别进行第二特征提取，得到所述目标视频片段对的第二目标编码特征，包括：

将所述目标视频片段对中的每个视频片段对应的音频帧分别作为待处理音频帧，且对所述待处理音频帧进行音频准备处理，得到与所述待处理音频帧相关联的待编码音频帧；

获取与所述音频模态信息相关联的音频编码模型，将所述待编码音频帧输入至所述音频编码模型，通过所述音频编码模型对所述待编码音频帧进行编码处理，得到所述待编码音频帧对应的音频编码特征；

基于所述待编码音频帧对应的音频编码特征，得到所述目标视频片段对的第二目标编码特征；所述第二目标编码特征包括所述视频片段P_i对应的音频编码特征Y_i，以及所述视频片段P_j对应的音频编码特征Y_j。

5.根据权利要求1所述的方法，其特征在于，所述目标视频片段对包括视频片段P_i和视频片段P_j；所述i和所述j均为小于或者等于N的正整数，且所述i不等于所述j；所述N为所述待识别视频中的视频片段的总数量；所述第一序列表征学习层包括与所述视频片段P_i相关联的第一网络层和与所述视频片段P_j相关联的第二网络层，且所述第一网络层与所述第二网络层具有相同的网络结构；

所述将所述第一目标编码特征输入至所述第一目标序列模型，通过所述第一序列表征学习层对所述第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至所述第一相似度度量层，由所述第一相似度度量层输出所述目标视频片段对的第一目标相似结果，包括：

将所述第一目标编码特征输入至所述第一目标序列模型；所述第一目标编码特征包括视频编码特征S_i和视频编码特征S_j；所述视频编码特征S_i为所述视频片段P_i在所述第一模态信息下的编码特征；所述视频编码特征S_j为所述视频片段P_j在所述第一模态信息下的编码特征；

通过所述第一序列表征学习层中的所述第一网络层，对所述视频编码特征S_i进行序列特征学习，得到所述视频编码特征S_i对应的学习特征X_i；

通过所述第一序列表征学习层中的所述第二网络层，对所述视频编码特征S_j进行序列特征学习，得到所述视频编码特征S_j对应的学习特征X_j；

将所述学习特征X_i和所述学习特征X_j作为第一目标学习特征，且将所述第一目标学习特征输入至所述第一相似度度量层，由所述第一相似度度量层输出所述第一目标学习特征的相似度；

基于所述第一目标学习特征的相似度，确定所述目标视频片段对的第一目标相似结果。

6.根据权利要求5所述的方法，其特征在于，所述第一网络层包括第一子网络层、第二子网络层、第三子网络层以及第四子网络层；

所述通过所述第一序列表征学习层中的所述第一网络层，对所述视频编码特征S_i进行序列特征学习，得到所述视频编码特征S_i对应的学习特征X_i，包括：

通过所述第一网络层中的所述第一子网络层，对所述视频编码特征S_i进行特征转换，得到所述视频编码特征S_i对应的第一转换特征；

将所述第一转换特征输入至所述第二子网络层，通过所述第二子网络层对所述第一转换特征进行特征转换，得到所述第一转换特征对应的第二转换特征；

将所述第二转换特征输入至所述第三子网络层，通过所述第三子网络层对所述第二转换特征进行特征转换，得到所述第二转换特征对应的第三转换特征；

将所述第三转换特征输入至所述第四子网络层，通过所述第四子网络层中的最大池化层，对所述第三转换特征进行最大池化处理，得到所述视频编码特征S_i对应的学习特征X_i。

7.根据权利要求6所述的方法，其特征在于，所述第一子网络层包括第一卷积层、第二卷积层以及空洞卷积层；

所述通过所述第一网络层中的所述第一子网络层，对所述视频编码特征S_i进行特征转换，得到所述视频编码特征S_i对应的第一转换特征，包括：

在将所述视频编码特征S_i输入至所述第一网络层中的所述第一子网络层时，通过所述空洞卷积层对所述视频编码特征S_i进行卷积处理，得到所述视频编码特征S_i对应的第一卷积特征；

通过所述第一卷积层，对所述视频编码特征S_i进行卷积处理，得到所述视频编码特征S_i对应的第二卷积特征，且将所述第二卷积特征输入至所述第二卷积层，通过所述第二卷积层对所述第二卷积特征进行卷积处理，得到第三卷积特征；

将所述第一卷积特征和所述第三卷积特征进行拼接处理，得到所述视频编码特征S_i对应的第一转换特征。

8.根据权利要求1所述的方法，其特征在于，所述将所述第一目标相似结果和所述第二目标相似结果进行比对，得到所述目标视频片段对的循环比对结果，包括：

将所述第一目标相似结果和所述第二目标相似结果进行比对；

若所述第一目标相似结果指示所述目标视频片段对在所述第一模态信息下相似，且所述第二目标相似结果指示所述目标视频片段对在所述第二模态信息下相似，则得到所述目标视频片段对的循环视频结果；

若所述第一目标相似结果指示所述目标视频片段对在所述第一模态信息下不相似，或者所述第二目标相似结果指示所述目标视频片段对在所述第二模态信息下不相似，则得到所述目标视频片段对的非循环视频结果；

将所述循环视频结果或者所述非循环视频结果作为所述目标视频片段对的循环比对结果。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述循环比对结果为循环视频结果，则确定所述待识别视频的视频类型为循环视频类型；

基于所述循环视频类型生成循环提示信息，将所述循环提示信息返回至用户终端；所述用户终端为所述待识别视频的发送端。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于训练初始网络模型的样本视频片段对以及所述样本视频片段对的样本标签；所述初始网络模型包括第一初始序列模型和第二初始序列模型；所述第一初始序列模型包括所述第一序列表征学习层和所述第一相似度度量层；所述第二初始序列模型包括所述第二序列表征学习层和所述第二相似度度量层；

分别获取所述样本视频片段对在所述第一模态信息下的第一样本编码特征和在所述第二模态信息下的第二样本编码特征；

将所述第一样本编码特征输入至所述第一初始序列模型，通过所述第一初始序列模型中的所述第一序列表征学习层和所述第一相似度度量层，输出所述样本视频片段对的第一预测相似结果；

将所述第二样本编码特征输入至所述第二初始序列模型，通过所述第二初始序列模型中的所述第二序列表征学习层和所述第二相似度度量层，输出所述样本视频片段对的第二预测相似结果；

将所述第一预测相似结果和所述第二预测相似结果进行比对，得到所述样本视频片段对的预测循环结果对应的预测标签；

基于所述预测标签和所述样本标签，对所述初始网络模型进行迭代训练，将迭代训练后的初始网络模型作为用于对所述待识别视频进行循环识别的所述目标网络模型。

11.根据权利要求10所述的方法，其特征在于，所述样本视频片段对包括正样本视频片段对和负样本视频片段对；所述正样本视频片段对为携带第一样本标签的视频片段对；所述负样本视频片段对为携带第二样本标签的视频片段对；所述第一样本标签和所述第二样本标签均属于所述样本标签；所述预测循环结果包括所述正样本视频片段对的第一预测循环结果和所述负样本视频片段对的第二预测循环结果；所述预测标签包括所述第一预测循环结果对应的第一预测标签和所述第二预测循环结果对应的第二预测标签；

所述基于所述预测标签和所述样本标签，对所述初始网络模型进行迭代训练，将迭代训练后的初始网络模型作为用于对所述待识别视频进行循环识别的所述目标网络模型，包括：

基于所述样本标签所指示的所述正样本视频片段对和所述负样本视频片段对之间的样本比例，确定与所述初始网络模型的模型损失函数相关联的损失权重参数；

基于所述第一预测标签和所述第一样本标签，得到所述正样本视频片段对的正样本损失，且基于所述第二预测标签和所述第二样本标签，得到所述负样本视频片段对的负样本损失；

基于所述正样本损失、所述负样本损失以及所述损失权重参数，得到所述模型损失函数对应的模型损失，且基于所述模型损失，对所述初始网络模型进行迭代训练，得到模型训练结果；

若所述模型训练结果指示迭代训练后的初始网络模型满足模型收敛条件，则将满足所述模型收敛条件的初始网络模型作为用于对所述待识别视频进行循环识别的所述目标网络模型。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

若所述模型训练结果指示迭代训练后的初始网络模型不满足模型收敛条件，则基于不满足所述模型收敛条件的所述模型损失函数，对所述初始网络模型的模型参数进行调整；

将调整模型参数后的初始网络模型作为过渡网络模型，对所述过渡网络模型进行迭代训练，直到迭代训练后的过渡网络模型满足所述模型收敛条件时，将满足所述模型收敛条件的过渡网络模型作为用于对所述待识别视频进行循环识别的所述目标网络模型。

13.一种视频循环识别装置，其特征在于，包括：

目标编码特征获取模块，用于获取待识别视频的目标视频片段对，确定所述目标视频片段对的第一目标编码特征和第二目标编码特征；所述第一目标编码特征所对应的第一模态信息不同于所述第二目标编码特征所对应的第二模态信息；

目标网络模型获取模块，用于获取用于对所述待识别视频进行循环识别的目标网络模型；所述目标网络模型包括与所述第一模态信息相关联的第一目标序列模型和与所述第二模态信息相关联的第二目标序列模型；所述第一目标序列模型包括第一序列表征学习层和第一相似度度量层；所述第二目标序列模型包括第二序列表征学习层和第二相似度度量层；

第一目标相似结果确定模块，用于将所述第一目标编码特征输入至所述第一目标序列模型，通过所述第一序列表征学习层对所述第一目标编码特征进行序列特征学习，将序列特征学习到的第一目标学习特征输入至所述第一相似度度量层，由所述第一相似度度量层输出所述目标视频片段对的第一目标相似结果；

第二目标相似结果确定模块，用于将所述第二目标编码特征输入至所述第二目标序列模型，通过所述第二序列表征学习层对所述第二目标编码特征进行序列特征学习，将序列特征学习到的第二目标学习特征输入至所述第二相似度度量层，由所述第二相似度度量层输出所述目标视频片段对的第二目标相似结果；

目标相似结果比对模块，用于将所述第一目标相似结果和所述第二目标相似结果进行比对，得到所述目标视频片段对的循环比对结果；所述循环比对结果用于指示所述待识别视频的视频类型。

14.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。