CN113822117A

CN113822117A - 一种数据处理方法、设备以及计算机可读存储介质

Info

Publication number: CN113822117A
Application number: CN202110627161.3A
Authority: CN
Inventors: 何盛烽; 任苏成; 孙子荀; 邓大付; 王巨宏; 郑宇飞
Original assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Current assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-12-21
Anticipated expiration: 2041-06-04
Also published as: CN113822117B

Abstract

本申请实施例公开一种基于人工智能的数据处理方法、设备以及计算机可读存储介质，其中，方法包括：获取第一视频帧、第二视频帧、第一光流数据以及第二光流数据；根据第一视频帧、第二视频帧、第一光流数据以及第二光流数据获取显著对象特征；根据第一视频帧以及第一光流数据获取第一运动对象特征，根据第二视频帧以及第二光流数据获取第二运动对象特征；根据第一视频帧以及第二视频帧获取第一循环对象特征，根据第一光流数据以及第二光流数据获取第二循环对象特征；根据显著对象特征、第一运动对象特征、第二运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。采用本申请，可以提高视频中的目标对象的识别准确率。

Description

一种数据处理方法、设备以及计算机可读存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

背景技术

随着深度学习技术的快速普及，以及计算能力的提升，语义分割技术的性能大幅提升。视频对象分割是语义分割的重点课题之一，在学术界与工业界均受到了广泛的重视。

提取视频中的重点区域，可以作为视频理解、图像修改、目标追踪等任务的预处理步骤。现有的视频对象分割方法可分为两类：半监督视频对象分割(Semi-supervised，VOS)和无监督视频对象分割(unsupervised video object segmentation,UVOS)，半监督视频对象分割方法在测试阶段需要提供一帧图像中的目标物体的标签，与半监督VOS方法相比，UVOS方法不需要任何人工标注。

现有的无监督视频对象分割方法主要应用光流来捕获运动信息，然而，光流很难区分动态背景物体和前景物体，甚至会将视频中的动态背景物体识别为前景物体(即下述的目标对象)，明显地，直接将运动线索映射到外观特征可能会在定位目标对象时误导UVOS模型，进而降低视频中的目标对象的识别准确率。

发明内容

本申请实施例提供一种数据处理方法、设备以及计算机可读存储介质，可以提高视频中的目标对象的识别准确率。

本申请实施例一方面提供了一种数据处理方法，包括：

获取视频中的第一视频帧以及第二视频帧，获取第一视频帧对应的第一光流数据，以及第二视频帧对应的第二光流数据；

根据第一视频帧、第二视频帧、第一光流数据以及第二光流数据，获取显著对象特征；

根据第一视频帧以及第一光流数据之间的外观与运动的关联关系，获取第一运动对象特征，根据第二视频帧以及第二光流数据之间的外观与运动的关联关系，获取第二运动对象特征；

根据第一视频帧以及第二视频帧之间的外观关联关系，获取第一循环对象特征，根据第一光流数据以及第二光流数据之间的运动关联关系，获取第二循环对象特征；

根据显著对象特征、第一运动对象特征、第二运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。

本申请实施例一方面提供了一种数据处理方法，包括：

获取训练样本集；训练样本集包括样本视频中的第一样本视频帧，以及第二样本视频帧、第一样本视频帧对应的第一样本光流数据、第二样本视频帧对应的第二样本光流数据、第一样本视频帧对应的第一标签图像，以及第二样本视频帧对应的第二标签图像；

将第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据分别输入至样本视频对象分割模型；

在样本视频对象分割模型中，根据第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据，获取预测显著对象特征；

根据第一样本视频帧以及第一样本光流数据之间的外观与运动的关联关系，获取第一预测运动对象特征，根据第二样本视频帧以及第二样本光流数据之间的外观与运动的关联关系，获取第二预测运动对象特征；

根据第一样本视频帧以及第二样本视频帧之间的外观关联关系，获取第一预测循环对象特征，根据第一样本光流数据以及第二样本光流数据之间的运动关联关系，获取第二预测循环对象特征；

根据预测显著对象特征、第一预测运动对象特征、第二预测运动对象特征、第一预测循环对象特征以及第二预测循环对象特征，确定第一样本视频帧对应的第一预测外观特征，第二样本视频帧对应的第二预测外观特征，第一样本光流数据对应的第一预测运动特征，第二样本光流数据对应的第二预测运动特征；

根据第一预测外观特征、第二预测外观特征、第一预测运动特征、第二预测运动特征、第一标签图像，以及第二标签图像，对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型；视频对象分割模型用于识别视频中的目标对象。

本申请实施例一方面提供了一种数据处理装置，包括：

第一获取模块，用于获取视频中的第一视频帧以及第二视频帧，获取第一视频帧对应的第一光流数据，以及第二视频帧对应的第二光流数据；

第二获取模块，用于根据第一视频帧、第二视频帧、第一光流数据以及第二光流数据，获取显著对象特征；

第三获取模块，用于根据第一视频帧以及第一光流数据之间的外观与运动的关联关系，获取第一运动对象特征，根据第二视频帧以及第二光流数据之间的外观与运动的关联关系，获取第二运动对象特征；

第四获取模快，用于根据第一视频帧以及第二视频帧之间的外观关联关系，获取第一循环对象特征，根据第一光流数据以及第二光流数据之间的运动关联关系，获取第二循环对象特征；

识别对象模块，用于根据显著对象特征、第一运动对象特征、第二运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。

其中，数据处理装置还包括：

第五获取模块，用于获取视频对象分割模型，将第一视频帧、第二视频帧、第一光流数据以及第二光流数据分别输入至视频对象分割模型；视频对象分割模型包括第一卷积网络层以及编码网络层；

生成特征模块，用于通过第一卷积网络层，对第一视频帧进行特征卷积处理，生成第一初始外观特征，对第二视频帧进行特征卷积处理，生成第二初始外观特征，对第一光流数据进行特征卷积处理，生成第一初始运动特征，对第二光流数据进行特征卷积处理，生成第二初始运动特征；

则第二获取模块，具体用于通过编码网络层，分别对第一初始外观特征、第二初始外观特征、第一初始运动特征，以及第二初始运动特征进行特征提取，得到显著对象特征；

则第三获取模块，具体用于通过编码网络层，识别第一初始外观特征以及第一初始运动特征之间的外观与运动的关联关系，根据第一初始外观特征以及第一初始运动特征之间的外观与运动的关联关系，获取第一运动对象特征；

第三获取模块，还具体用于通过编码网络层，识别第二初始外观特征以及第二初始运动特征之间的外观与运动的关联关系，根据第二初始外观特征以及第二初始运动特征之间的外观与运动的关联关系，获取第二运动对象特征；

则第四获取模块，具体用于通过编码网络层，识别第一初始外观特征以及第二初始外观特征之间的外观关联关系，根据外观关联关系，获取第一循环对象特征；

第四获取模块，还具体用于通过编码网络层，识别第一初始运动特征以及第二初始运动特征之间的运动关联关系，根据运动关联关系，获取第二循环对象特征。

其中，编码网络层包括第二卷积网络层以及第一互助变换网络层；

第二获取模块，包括：

第一处理单元，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第二处理单元，用于通过第一互助变换网络层，对由第一待编码外观特征组成的特征对进行相似性处理，得到第一视频帧对应的第一对比度，对由第二待编码外观特征组成的特征对进行相似性处理，得到第二视频帧对应的第二对比度，对由第一待编码运动特征组成的特征对进行相似性处理，得到第一光流数据对应的第三对比度，对由第二待编码运动特征组成的特征对进行相似性处理，得到第二光流数据对应的第四对比度；

第一确定单元，用于将第一对比度、第二对比度、第三对比度以及第四对比度，均确定为显著对象特征。

其中，编码网络层包括第二卷积网络层以及第二互助变换网络层；

第三获取模块，包括：

第三处理单元，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征；

第二确定单元，用于在第二互助变换网络层中，通过第一待编码外观特征过滤第一待编码运动特征中的异常运动特征，将过滤异常运动特征后的第一待编码运动特征，确定为第一光流数据对应的运动对象特征；

第二确定单元，还用于通过第一待编码运动特征增强第一待编码外观特征中的运动对象特征，将增强运动对象特征后的第一待编码外观特征，确定为第一视频帧对应的运动对象特征；

第二确定单元，还用于将第一光流数据对应的运动对象特征以及第一视频帧对应的运动对象特征，确定为第一运动对象特征。

其中，编码网络层包括第二卷积网络层以及第二互助变换网络层，第二互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；

第三获取模块，包括：

第一生成单元，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征；

第二生成单元，用于通过互助缩放组件，对第一待编码外观特征进行特征缩放处理，得到外观缩放特征，对第一待编码运动特征进行特征缩放处理，得到运动缩放特征；

第二生成单元，还用于通过互助变换组件，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据变换后的外观缩放特征以及运动缩放特征，得到运动增强特征，对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据变换后的运动缩放特征以及外观缩放特征，得到外观增强特征；

第二生成单元，还用于通过互助门控组件，对外观增强特征进行特征平衡处理，得到第一视频帧对应的运动对象特征，对运动增强特征进行特征平衡处理，得到第一光流数据对应的运动对象特征；

第二生成单元，还用于将第一光流数据对应的运动对象特征以及第一视频帧对应的运动对象特征，确定为第一运动对象特征。

其中，第二生成单元，包括：

第一处理子单元，用于在互助缩放组件中，对第一待编码外观特征以及第一待编码运动特征进行特征组合处理，得到待编码组合特征；

第一处理子单元，还用于对待编码组合特征进行特征压缩处理，得到编码压缩特征；

第一处理子单元，还用于对编码压缩特征进行特征激励处理，得到针对第一待编码外观特征的第一权重，以及针对第一待编码运动特征的第二权重；

第一生成子单元，用于根据第一待编码外观特征以及第一权重，生成外观缩放特征，根据第一待编码运动特征以及第二权重，生成运动缩放特征。

其中，第二生成单元，包括：

第二处理子单元，用于在互助变换组件中，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征；

第二处理子单元，还用于对外观缩放特征以及运动缩放特征的转置矩阵进行相似性处理，得到针对运动缩放特征的第一相似矩阵；

第二处理子单元，还用于根据变换后的外观缩放特征以及第一相似矩阵，对运动缩放特征进行特征增强处理，得到运动增强特征；

第三处理子单元，用于对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征；

第三处理子单元，还用于对运动缩放特征以及外观缩放特征的转置矩阵进行相似性处理，得到针对外观缩放特征的第二相似矩阵；

第三处理子单元，还用于根据变换后的运动缩放特征以及第二相似矩阵，对外观缩放特征进行特征增强处理，得到外观增强特征。

其中，第二生成单元，包括：

第二生成子单元，用于在互助门控组件中，根据外观增强特征以及运动增强特征，生成针对外观增强特征的第一互助矩阵，以及针对运动增强特征的第二互助矩阵；

第二生成子单元，还用于通过第一互助矩阵，对外观增强特征进行特征平衡处理，得到第一视频帧对应的运动对象特征，通过第二互助矩阵，对运动增强特征进行特征平衡处理，得到第一光流数据对应的运动对象特征。

第三获取模块，包括：

第四处理单元，用于通过第二卷积网络层，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第三确定单元，用于在第二互助变换网络层中，通过第二待编码外观特征过滤第二待编码运动特征中的异常运动特征，将过滤异常运动特征后的第二待编码运动特征，确定为第二光流数据对应的运动对象特征；

第三确定单元，还用于通过第二待编码运动特征增强第二待编码外观特征中的运动对象特征，将增强运动对象特征后的第二待编码外观特征，确定为第二视频帧对应的运动对象特征；

第三确定单元，还用于将第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征，确定为第二运动对象特征。

第三获取模块，包括：

第三生成单元，用于通过第二卷积网络层，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第四生成单元，用于通过互助缩放组件，对第二待编码外观特征进行特征缩放处理，得到外观缩放特征，对第二待编码运动特征进行特征缩放处理，得到运动缩放特征；

第四生成单元，还用于通过互助变换组件，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据变换后的外观缩放特征以及运动缩放特征，得到运动增强特征，对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据变换后的运动缩放特征以及外观缩放特征，得到外观增强特征；

第四生成单元，还用于通过互助门控组件，对外观增强特征进行特征平衡处理，得到第二视频帧对应的运动对象特征，对运动增强特征进行特征平衡处理，得到第二光流数据对应的运动对象特征；

第四生成单元，还用于将第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征，确定为第二运动对象特征。

其中，编码网络层包括第二卷积网络层以及第三互助变换网络层；

第四获取模快，包括：

第五处理单元，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征；

第五生成单元，用于在第三互助变换网络层中，通过第一待编码外观特征增强第二待编码外观特征中的相关外观特征，得到第一视频帧对应的循环对象特征，通过第二待编码外观特征增强第一待编码外观特征中的相关外观特征，得到第二视频帧对应的循环对象特征；

第五生成单元，还用于将第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，确定为第一循环对象特征。

其中，编码网络层包括第二卷积网络层以及第三互助变换网络层，第三互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；

第四获取模快，包括：

第六处理单元，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征；

第六生成单元，用于通过互助缩放组件，对第一待编码外观特征进行特征缩放处理，得到第一视频帧对应的外观缩放特征，对第二待编码外观特征进行特征缩放处理，得到第二视频帧对应的外观缩放特征；

第六生成单元，还用于通过互助变换组件，对第一视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第一视频帧对应的外观缩放特征，根据变换后的第一视频帧对应的外观缩放特征以及第二视频帧对应的外观缩放特征，得到第一视频帧对应的外观增强特征，对第二视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第二视频帧对应的外观缩放特征，根据变换后的第二视频帧对应的外观缩放特征以及第一视频帧对应的外观缩放特征，得到第二视频帧对应的外观增强特征；

第六生成单元，还用于通过互助门控组件，对第一视频帧对应的外观增强特征进行特征平衡处理，得到第一视频帧对应的循环对象特征，对第二视频帧对应的外观增强特征进行特征平衡处理，得到第二视频帧对应的循环对象特征；

第六生成单元，还用于将第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，确定为第一循环对象特征。

其中，第六生成单元，包括：

第四处理子单元，用于在互助缩放组件中，对第一待编码外观特征以及第二待编码外观特征进行特征组合处理，得到待编码组合特征；

第四处理子单元，还用于对待编码组合特征进行特征压缩处理，得到编码压缩特征；

第四处理子单元，还用于对编码压缩特征进行特征激励处理，得到针对第一待编码外观特征的第一权重，以及针对第二待编码外观特征的第二权重；

第三生成子单元，用于根据第一待编码外观特征以及第一权重，生成第一视频帧对应的外观缩放特征，根据第二待编码外观特征以及第二权重，生成第二视频帧对应的外观缩放特征。

其中，第六生成单元，包括：

第五处理子单元，用于在互助变换组件中，对第一视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第一视频帧对应的外观缩放特征；

第五处理子单元，还用于对第一视频帧对应的外观缩放特征以及第二视频帧对应的外观缩放特征的转置矩阵进行相似性处理，得到针对第二视频帧对应的外观缩放特征的第一相似矩阵；

第五处理子单元，还用于根据变换后的第一视频帧对应的外观缩放特征以及第一相似矩阵，对第二视频帧对应的外观缩放特征进行特征增强处理，得到第二视频帧对应的外观增强特征；

第六处理子单元，用于对第二视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第二视频帧对应的外观缩放特征；

第六处理子单元，还用于对第二视频帧对应的外观缩放特征以及第一视频帧对应的外观缩放特征的转置矩阵进行相似性处理，得到针对第一视频帧对应的外观缩放特征的第二相似矩阵；

第六处理子单元，还用于根据变换后的第一视频帧对应的外观缩放特征以及第二相似矩阵，对第一视频帧对应的外观缩放特征进行特征增强处理，得到第一视频帧对应的外观增强特征。

其中，第六生成单元，包括：

第四生成子单元，用于在互助门控组件中，根据第一视频帧对应的外观增强特征以及第二视频帧对应的外观增强特征，生成针对第一视频帧对应的外观增强特征的第一互助矩阵，以及针对第二视频帧对应的外观增强特征的第二互助矩阵；

第四生成子单元，还用于通过第一互助矩阵，对第一视频帧对应的外观增强特征进行特征平衡处理，得到第一视频帧对应的循环对象特征，通过第二互助矩阵，对第二视频帧对应的外观增强特征进行特征平衡处理，得到第二视频帧对应的循环对象特征。

第四获取模快，包括：

第七处理单元，用于通过第二卷积网络层，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第七生成单元，用于在第三互助变换网络层中，通过第一待编码运动特征增强第二待编码运动特征中的相关运动特征，得到第一光流数据对应的循环对象特征，通过第二待编码运动特征增强第一待编码运动特征中的相关运动特征，得到第二光流数据对应的循环对象特征；

第七生成单元，还用于将第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征，确定为第二循环对象特征。

第四获取模快，包括：

第八处理单元，用于通过第二卷积网络层，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第八生成单元，用于通过互助缩放组件，对第一待编码运动特征进行特征缩放处理，得到第一光流数据对应的运动缩放特征，对第二待编码运动特征进行特征缩放处理，得到第二光流数据对应的运动缩放特征；

第八生成单元，还用于通过互助变换组件，对第一光流数据对应的运动缩放特征进行特征变换处理，得到变换后的第一光流数据对应的运动缩放特征，根据变换后的第一光流数据对应的运动缩放特征以及第二光流数据对应的运动缩放特征，得到第一光流数据对应的运动增强特征，对第二光流数据对应的运动缩放特征进行特征变换处理，得到变换后的第二光流数据对应的运动缩放特征，根据变换后的第二光流数据对应的运动缩放特征以及第一光流数据对应的运动缩放特征，得到第二光流数据对应的运动增强特征；

第八生成单元，还用于通过互助门控组件，对第一光流数据对应的运动增强特征进行特征平衡处理，得到第一光流数据对应的循环对象特征，对第二光流数据对应的运动增强特征进行特征平衡处理，得到第二光流数据对应的循环对象特征；

第八生成单元，还用于将第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征，确定为第二循环对象特征。

其中，第一运动对象特征包括第一光流数据对应的运动对象特征，以及第一视频帧对应的运动对象特征，第二运动对象特征包括第二光流数据对应的运动对象特征，以及第二视频帧对应的运动对象特征，第一循环对象特征包括第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，第二循环对象特征包括第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征；视频对象分割模型还包括第一融合网络层以及第二融合网络层；

识别对象模块，包括：

第一组合单元，用于对第一待编码外观特征、第一对比度、第一视频帧对应的运动对象特征以及第一视频帧对应的循环对象特征进行特征组合处理，得到第一视频帧对应的第一编码外观特征；

第二组合单元，用于对第二待编码外观特征、第二对比度、第二视频帧对应的运动对象特征以及第二视频帧对应的循环对象特征进行特征组合处理，得到第二视频帧对应的第二编码外观特征；

第三组合单元，用于对第一待编码运动特征、第三对比度、第一光流数据对应的运动对象特征以及第一光流数据对应的循环对象特征进行特征组合处理，得到第一光流数据对应的第一编码运动特征；

第四组合单元，用于对第二待编码运动特征、第四对比度、第二光流数据对应的运动对象特征以及第二光流数据对应的循环对象特征进行特征组合处理，得到第二光流数据对应的第二编码运动特征；

第九处理单元，用于通过第一融合网络层，对第一编码外观特征以及第一编码运动特征进行特征融合处理，得到第一编码融合特征，通过第二融合网络层，对第二编码外观特征以及第二编码运动特征进行特征融合处理，得到第二编码融合特征；

识别对象单元，用于根据第一编码外观特征、第二编码外观特征、第一编码融合特征以及第二编码融合特征，识别视频中的目标对象。

其中，第一融合网络层包括通道注意力组件以及空间注意力组件；

第九处理单元，包括：

第七处理子单元，用于在过通道注意力组件中，对第一编码外观特征以及第一编码运动特征进行特征组合处理，得到编码组合特征；

第七处理子单元，还用于对编码组合特征进行特征压缩处理，得到编码压缩特征；

第七处理子单元，还用于对编码压缩特征进行特征激励处理，得到针对第一编码外观特征的第一外观权重，根据第一外观权重，生成针对第一编码运动特征的第一运动权重；

第七处理子单元，还用于根据第一编码外观特征以及第一外观权重，生成通道外观特征，根据第一编码运动特征以及第一运动权重，生成通道运动特征；

第八处理子单元，用于在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征；

第八处理子单元，还用于根据空间外观特征以及空间运动特征，生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；

第八处理子单元，还用于根据通道外观特征以及第二外观权重，生成待融合外观特征，根据通道运动特征以及第二运动权重，生成待融合运动特征；

第八处理子单元，还用于对待融合外观特征以及待融合运动特征进行特征融合处理，得到第一编码融合特征。

其中，第二融合网络层包括通道注意力组件以及空间注意力组件；

第九处理单元，包括：

第九处理子单元，用于在过通道注意力组件中，对第二编码外观特征以及第二编码运动特征进行特征组合处理，得到编码组合特征；

第九处理子单元，还用于对编码组合特征进行特征压缩处理，得到编码压缩特征；

第九处理子单元，还用于对编码压缩特征进行特征激励处理，得到针对第二编码外观特征的第一外观权重，根据第一外观权重，生成针对第一编码运动特征的第一运动权重；

第九处理子单元，还用于根据第二编码外观特征以及第一外观权重，生成通道外观特征，根据第二编码运动特征以及第一运动权重，生成通道运动特征；

第十处理子单元，用于在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征；

第十处理子单元，还用于根据空间外观特征以及空间运动特征，生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；

第十处理子单元，还用于根据通道外观特征以及第二外观权重，生成待融合外观特征，根据通道运动特征以及第二运动权重，生成待融合运动特征；

第十处理子单元，还用于对待融合外观特征以及待融合运动特征进行特征融合处理，得到第二编码融合特征。

其中，视频对象分割模型还包括第三卷积网络层以及解码网络层；

识别对象单元，包括：

第五生成子单元，用于通过第三卷积网络层，对第一编码外观特征以及第二编码外观特征分别进行特征卷积处理，生成第一视频帧对应的第一待解码外观特征，以及第二视频帧对应的第二待解码外观特征；

第六生成子单元，用于通过解码网络层，对第一待解码外观特征以及第一编码融合特征进行特征解码处理，生成第一视频帧对应的第一解码外观特征，对第二待解码外观特征以及第二编码融合特征进行特征解码处理，生成第二视频帧对应的第二解码外观特征；

第六生成子单元，还用于根据第一解码外观特征确定第一视频帧的目标对象，根据第二解码外观特征确定第二视频帧的目标对象；

识别对象子单元，用于根据第一视频帧的目标对象以及第二视频帧的目标对象，识别视频中的目标对象。

本申请实施例一方面提供了一种数据处理装置，包括：

第一获取模块，用于获取训练样本集；训练样本集包括样本视频中的第一样本视频帧，以及第二样本视频帧、第一样本视频帧对应的第一样本光流数据、第二样本视频帧对应的第二样本光流数据、第一样本视频帧对应的第一标签图像，以及第二样本视频帧对应的第二标签图像；

输入样本模块，用于将第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据分别输入至样本视频对象分割模型；

第二获取模块，用于在样本视频对象分割模型中，根据第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据，获取预测显著对象特征；

第二获取模块，还用于根据第一样本视频帧以及第一样本光流数据之间的外观与运动的关联关系，获取第一预测运动对象特征，根据第二样本视频帧以及第二样本光流数据之间的外观与运动的关联关系，获取第二预测运动对象特征；

第二获取模块，还用于根据第一样本视频帧以及第二样本视频帧之间的外观关联关系，获取第一预测循环对象特征，根据第一样本光流数据以及第二样本光流数据之间的运动关联关系，获取第二预测循环对象特征；

预测特征模块，用于根据预测显著对象特征、第一预测运动对象特征、第二预测运动对象特征、第一预测循环对象特征以及第二预测循环对象特征，确定第一样本视频帧对应的第一预测外观特征，第二样本视频帧对应的第二预测外观特征，第一样本光流数据对应的第一预测运动特征，第二样本光流数据对应的第二预测运动特征；

生成模型模块，用于根据第一预测外观特征、第二预测外观特征、第一预测运动特征、第二预测运动特征、第一标签图像，以及第二标签图像，对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型；视频对象分割模型用于识别视频中的目标对象。

其中，生成模型模块，包括：

第一确定单元，用于根据第一预测外观特征以及第一标签图像之间的交叉熵，确定第一样本视频帧的交叉熵损失值L_b1，根据第一预测外观特征以及第一标签图像之间的相似性，确定第一样本视频帧的相似性损失值L_s1，根据第一预测外观特征以及第一标签图像之间的重合度，确定第一样本视频帧的重合度损失值L_i1；

第二确定单元，用于根据第一预测运动特征以及第一标签图像之间的交叉熵，确定第一样本光流数据的交叉熵损失值L_b2，根据第一预测运动特征以及第一标签图像之间的相似性，确定第一样本光流数据的相似性损失值L_s2，根据第一预测运动特征以及第一标签图像之间的重合度，确定第一样本光流数据的重合度损失值L_i2；

第三确定单元，用于根据第二预测外观特征以及第二标签图像之间的交叉熵，确定第二样本视频帧的交叉熵损失值L_b3，根据第二预测外观特征以及第二标签图像之间的相似性，确定第二样本视频帧的相似性损失值L_s3，根据第二预测外观特征以及第二标签图像之间的重合度，确定第二样本视频帧的重合度损失值L_i3；

第四确定单元，用于根据第二预测运动特征以及第二标签图像之间的交叉熵，确定第二样本光流数据的交叉熵损失值L_b4，根据第二预测运动特征以及第二标签图像之间的相似性，确定第二样本光流数据的相似性损失值L_s4，根据第二预测运动特征以及第二标签图像之间的重合度，确定第二样本光流数据的重合度损失值L_i4；

第五确定单元，用于根据交叉熵损失值L_b1、相似性损失值L_s1、重合度损失值L_i1、交叉熵损失值L_b2、相似性损失值L_s2、重合度损失值L_i2、交叉熵损失值L_b3、相似性损失值L_s3、重合度损失值L_i3、交叉熵损失值L_b4、相似性损失值L_s4以及重合度损失值L_i4，确定样本视频对象分割模型的总损失值，根据总损失值对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使得计算机设备执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

在本申请实施例中，首先通过单帧以及单流数据，获取显著对象特征，通过外观与运动的关联关系，获取运动对象特征(包括第一运动对象特征以及第二运动对象特征)，通过外观关联关系获取第一循环对象特征，通过运动关联关系，获取第二循环对象特征；然后通过关联显著对象特征、运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。上述可知，本申请通过交互机制(包括外观与运动的关联关系、外观关联关系以及运动关联关系)，可以让输入数据(包括视频帧以及光流数据)有机地协调起来，并通过关联显著对象特征、运动对象特征和循环对象特征三个关键因素，识别视频中的目标对象，从而可以有效地消除视频中的模糊干扰，以突出外观显著的运动对象(即目标对象)，故可以提高视频中的目标对象的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种数据处理的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种视频对象分割模型的结构示意图；

图5是本申请实施例提供的一种第一融合网络层的结构示意图；

图6是本申请实施例提供的一种数据处理方法的流程示意图；

图7是本申请实施例提供的一种互助变换网络的结构示意图；

图8是本申请实施例提供的一种数据处理方法的流程示意图；

图9是本申请实施例提供的一种数据处理方法的流程示意图；

图10是本申请实施例提供的一种数据处理装置的结构示意图；

图11是本申请实施例提供的一种数据处理装置的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，首先对部分名词进行以下简单解释：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

无监督视频对象分割：分割出视频中的主要物体(primary objects)，无监督不是指训练阶段没有标签而是指测试阶段没有视频第一帧的主要物体的标签。

本申请实施例提供的方案涉及人工智能的计算机视觉技术以及深度学习等技术，具体通过如下实施例进行说明。

请参见图1，图1是本申请实施例提供的一种系统架构示意图。如图1所示，该系统可以包括服务器10a以及用户终端集群，用户终端集群可以包括：用户终端10b、用户终端10c、...、用户终端10d，可以理解的是，上述系统可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。

其中，用户终端集群之间可以存在通信连接，例如用户终端10b与用户终端10c之间存在通信连接，用户终端10b与用户终端10d之间存在通信连接。同时，用户终端集群中的任一用户终端可以与服务器10a存在通信连接，例如用户终端10b与服务器10a之间存在通信连接，用户终端10c与服务器10a之间存在通信连接。其中，上述的通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本申请在此不做限制。

应当理解，如图1所示的用户终端集群中的每个用户终端均可以安装有应用客户端，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的服务器10a之间进行数据交互，即上述的通信连接。其中，该应用客户端可以为社交客户端、多媒体客户端(例如视频客户端)、娱乐客户端(例如游戏客户端)、教育客户端、直播客户端等具有加载视频功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。

服务器10a通过通信连接功能为用户终端集群提供服务，当用户终端(可以是用户终端10b、用户终端10c或用户终端10d)获取到视频，并需要对视频进行处理时，例如识别视频中的目标对象(即主要物体)，用户终端可以将视频或视频对应的视频帧发送至服务器10a。服务器10a接收到用户终端所发送的视频或视频对应的视频帧后，基于提前训练好的视频对象分割模型对视频中的任意两帧视频帧，以及该两帧视频帧分别对应的光流数据进行语义分割，得到该两帧视频帧分别对应的语义分割图像，任意一张语义分割图像包含了对应的视频帧中的目标对象(也可以称之为前景对象)以及背景对象(指代视频帧中除了前景对象的其他对象)，服务器10a可以根据两张语义分割图像中的目标对象，确定该视频的目标对象。后续，服务器10a可以将生成的两张语义分割图像、两帧视频帧以及目标对象发送至用户终端。

用户终端接收到服务器10a发送的两张语义分割图像、两帧视频帧以及目标对象后，可以在其对应的屏幕上显示该两张语义分割图像、两帧视频帧以及目标对象。若用户终端的本地存储了训练好的视频对象分割模型，可以在用户终端本地识别视频中的目标对象，其识别过程与服务器识别视频帧中的目标对象的过程一致。其中，由于训练视频对象分割模型涉及到大量的离线计算，因此用户终端本地的视频对象分割模型可以是由服务器10a训练完成后发送至用户终端。

其中，图1中的服务器10a、用户终端10b、用户终端10c、...、用户终端10d均可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID，mobileinternet device)、POS(Point Of Sales，销售点)机、可穿戴设备(例如智能手表、智能手环等)等。

需要说明的是，上述服务器10a、用户终端10b、用户终端10c、...、用户终端10d均可以为区块链网络中的区块链节点，全文叙述的数据(例如上述的视频、两帧视频帧、两张语义分割图像以及目标对象)，可以进行存储，存储方式可以是区块链节点根据数据生成区块，并将区块添加至区块链中进行存储的方式。

区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式，主要用于对数据按时间顺序进行整理，并加密成账本，使其不可被篡改和伪造，同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库，该数据库中的每个节点均存储一条相同的区块链，区块链网络可以将节点区分为核心节点、数据节点以及轻节点。核心节点、数据节点以及轻节点共同组成区块链节点。其中核心节点负责区块链全网的共识，也就是说核心节点为区块链网络中的共识节点。对于区块链网络中的交易数据被写入账本的流程可以为，区块链网络中的数据节点或轻节点获取到交易数据，将交易数据在区块链网络中传递(也就是节点以接力棒的方式进行传递)，直到共识节点收到该交易数据，共识节点再将该交易数据打包进区块，对该区块执行共识，待共识完成后将该交易数据写入账本。此处以视频、两帧视频帧、两张语义分割图像以及目标对象示例交易数据，服务器10a(区块链节点)在通过对交易数据的共识后，根据交易数据生成区块，将区块存储至区块链网络中；而对于交易数据(即视频、两帧视频帧、两张语义分割图像以及目标对象)的读取，则可以由区块链节点在区块链网络中，获取到包含该交易数据的区块，进一步，在区块中获取交易数据。

可以理解的是，本申请实施例所提供的数据处理方法可以由计算机设备执行，计算机设备包括但不限于用户终端或服务器。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

进一步地，请参见图2，图2是本申请实施例提供的一种数据处理的场景示意图。如图2所示，视频20a包括至少两帧视频帧，至少两帧视频帧可以包括视频帧201a、…、视频帧202a，其中，视频帧201a以及视频帧202a可以为相邻帧，例如分别为视频20a中的第一视频帧以及第二视频帧，视频帧201a以及视频帧202a可以不为相邻帧，例如分别为视频20a中的第一视频帧以及第三视频帧，此处不对视频帧201a以及视频帧202a的相邻关系进行限定。

计算机设备从视频20a中获取第一视频帧201a以及第二视频帧202a，如图2所示，第一视频帧201a以及第二视频帧202a均包括小卖部、扶梯以及人像(即图2中的小女孩)，本申请实施例不对获取视频20a中的视频帧的技术进行限定，该技术可以为计算机编程语言(例如Python-OpenCv)。计算机设备获取视频20a中每一帧视频帧分别对应的光流数据，本申请实施例不对获取视频20a中每一帧视频帧分别对应的光流数据的技术进行限定，该技术可以为光流方程(Optical Flow equation)、Horn–Schunck光流(一种光流算法)、总变差正则化(Total Variation Regularization)等。计算机设备从每一帧视频帧分别对应的光流数据中，获取第一视频帧201a对应的第一光流数据201b，以及第二视频帧202a对应的第二光流数据202b。

计算机设备获取预先训练好的视频对象分割模型20c，请再参见图2，本申请实施例提供的视频对象分割模型20c可以包括外观流202c以及运动流201c，且外观流202c以及运动流201c之间可以进行特征数据交互。计算机设备将第一视频帧201a以及第二视频帧202a，均输入至视频对象分割模型20c中的外观流202c中，将第一光流数据201b以及第二光流数据202b均输入值视频对象分割模型20c中的运动流201c中。此处暂不对视频对象分割模型20c的结构展开描述，可以参见下文图3所对应的实施例中关于该模型的详细描述。

在视频对象分割模型20c对第一视频帧201a、第二视频帧202a、第一光流数据201b以及第二光流数据202b分别进行处理之后，获取外观流202c输出的与第一视频帧201a相对应的第一语义分割图像201d(可以等同于下文描述的第一解码外观特征)，与第二视频帧202a相对应的第二语义分割图像202d(可以等同于下文描述的第二解码外观特征)。明显地，第一语义分割图像201d以及第二语义分割图像202d均确定人像为主要物体(即目标对象)，将视频帧中的其他物体视为背景物体，例如小卖部以及扶梯。此时，计算机设备可以根据第一语义分割图像201d以及第二语义分割图像202d确定视频20a中的目标对象为对象20e(即人像)。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行，该计算机设备可以包括图1中的用户终端以及服务器。如图3所示，该数据处理过程可以包括如下步骤。

步骤S101，获取视频中的第一视频帧以及第二视频帧，获取第一视频帧对应的第一光流数据，以及第二视频帧对应的第二光流数据。

具体的，获取视频对象分割模型，将第一视频帧、第二视频帧、第一光流数据以及第二光流数据分别输入至视频对象分割模型；视频对象分割模型包括第一卷积网络层以及编码网络层；通过第一卷积网络层，对第一视频帧进行特征卷积处理，生成第一初始外观特征，对第二视频帧进行特征卷积处理，生成第二初始外观特征，对第一光流数据进行特征卷积处理，生成第一初始运动特征，对第二光流数据进行特征卷积处理，生成第二初始运动特征。

本申请实施例不对视频的类型进行限定，包括两帧及两帧以上视频帧的视频均可。计算机设备获取视频中的任意两帧视频帧，分别为第一视频帧以及第二视频帧，从视频对应的光流数据中，获取与第一视频帧相关联的第一光流数据，以及与第二视频帧相关联的第二光流数据。

计算机设备获取视频对象分割模型，将第一视频帧、第二视频帧、第一光流数据以及第二光流数据分别输入至视频对象分割模型，请一并参见图4，图4是本申请实施例提供的一种视频对象分割模型的结构示意图。如图4所示，视频对象分割模型40a包括第一卷积网络层(等同于图4中两个网络层H)以及编码网络层40b，可以理解的是，编码网络层40b可以包括一个编码网络层，或者多个编码网络层，本申请不对编码网络层的总数量进行限定，实际应用时，可以根据场景进行设定。本申请实施例不对视频对象分割模型40a中的各个网络层进行限定，可以基于任意一种神经网络构成，例如卷积神经网络(ConvolutionalNeural Networks,CNN)、残差网络(Residual Network,ResNet)等网络。

本申请实施例以编码网络层40b包括4个编码网络层示例，如图4所示，网络层S1以及网络层H1可以组成第一编码网络层，网络层S2以及网络层H2可以组成第二编码网络层，网络层S3以及网络层H3可以组成第三编码网络层，网络层S4以及网络层H4可以组成第四编码网络层；图4为了美观以及清晰，只将网络层S1以及网络层H1标记于编码网络层40b内，但上述的第二编码网络层、第三编码网络层以及第四编码网络层均属于编码网络层40b。

当第一视频帧、第二视频帧、第一光流数据以及第二光流数据，分别输入至图像分割模型40a的第一卷积网络层(等同于图4中两个网络层H)后，第一卷积网络层可以对第一视频帧进行特征卷积处理，生成第一初始外观特征，可以对第二视频帧进行特征卷积处理，生成第二初始外观特征，可以对第一光流数据进行特征卷积处理，生成第一初始运动特征，可以对第二光流数据进行特征卷积处理，生成第二初始运动特征。可以理解的是，本申请实施例中的第一卷积网络层可以包括一般的卷积层以及一般的池化层，此处不分开示例，将第一视频帧、第二视频帧、第一光流数据以及第二光流数据作为输入数据，第一卷积网络层从输入数据中学习特征信息，即对第一视频帧、第二视频帧、第一光流数据以及第二光流数据中的特征信息分别进行卷积运算，获得对应的不同像素点上最显著的特征信息。

进行卷积运算后，已经提取到输入数据的特征信息，但仅仅通过卷积运算提取的特征数量大，为了减少计算量，可以进行池化运算，也就是将从输入数据中通过卷积运算提取的特征信息传输至池化层，对提取的特征信息进行聚合统计，得到聚合统计后的特征信息(包括第一初始外观特征、第二初始外观特征、第一初始运动特征、第二初始运动特征)，聚合统计后的特征信息的数量级，远远低于卷积运算提取到的特征信息的数量级，同时还会提高分割效果。常用的池化方法包括但不限于平均池化运算方法和最大池化运算方法，平均池化运算方法是在一个特征信息集合里计算出一个平均特征信息代表该特征信息集合的特征；最大池化运算是在一个特征信息集合里提取出最大特征信息代表该特征信息集合的特征。

可以理解的是，第一卷积网络层中的卷积层可以只有一个，也可以有多个，同理，池化层可以只有一个，也可以有多个。

请再参见图4，视频对象分割模型40a由两个网络流组成，即以第一视频帧以及第二视频帧为输入数据的外观流，和以第一光流数据以及第二光流数据为输入数据的运动流，外观流以及运动流均是具有跳跃连接的编码器-解码器架构，编码器等同于上述的编码网络层40b，解码器等同于图4中的解码网络层40c。可以理解的是，第一编码网络层、第二编码网络层、第三编码网络层以及第四编码网络层的内部结构一致，区别在于输入的数据不同，以及输出的数据不同，但处理数据的过程一致，故本申请实施例仅以第一编码网络层为例，叙述编码网络层对数据的处理过程，其他编码网络层对数据的处理过程可以参见下面的描述。

本申请为了提高视频中的目标对象的识别准确率，在第一编码网络层中构建了一个统一的编码框架，即互助变换网络(Reciprocal Transformation Network，RT-Net)，等同于图4中的网络层H1，该互助变换网络层可以实现域内和跨域的特征交互，即计算所有成对特征的相似性。为了补充目标对象的外观/运动表示，互助变换网络层消除不一致的外观或不准确的光流中的模糊性，将底层信息相互变换，具体过程请参见步骤S102以及步骤S105的描述。

步骤S102，根据第一视频帧、第二视频帧、第一光流数据以及第二光流数据，获取显著对象特征。

具体的，通过编码网络层，分别对第一初始外观特征、第二初始外观特征、第一初始运动特征，以及第二初始运动特征进行特征提取，得到显著对象特征。

其中，编码网络层包括第二卷积网络层以及第一互助变换网络层；通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；通过第一互助变换网络层，对由第一待编码外观特征组成的特征对进行相似性处理，得到第一视频帧对应的第一对比度，对由第二待编码外观特征组成的特征对进行相似性处理，得到第二视频帧对应的第二对比度，对由第一待编码运动特征组成的特征对进行相似性处理，得到第一光流数据对应的第三对比度，对由第二待编码运动特征组成的特征对进行相似性处理，得到第二光流数据对应的第四对比度；将第一对比度、第二对比度、第三对比度以及第四对比度，均确定为显著对象特征。

为了目标对象不受共动离群点的干扰，本申请相互进化和整合网络中的外观表示和运动表示，使得显著对象特征、运动对象特征以及循环对象特征都可以被考虑，并根据三个对象特征产生一个整体的决策，为此，在第一编码网络层(等同于图4中的网络层H1)中提出了一个互助变换网络，互助变换网络由三个组件组成，即互助缩放组件、互助变换组件以及互助门控组件。本申请利用互助变换网络增强成对的外观特征和运动特征，以识别三种类型的候选主要对象，即帧内的显著对象、运动对象和视频中的重复对象。本步骤主要叙述特征对由单一的外观特征组成，或由单一的运动特征组成。

请再参见图4，第一编码网络层包括第二卷积网络层(等同于图4中的两个网络层S1)，以及第一互助变换网络层(可以包括图4中的互助变换网络R₁₂、互助变换网络R₁₄、互助变换网络R₁₆以及互助变换网络R₁₈)。第二卷积网络层对第一初始外观特征、第二初始外观特征、第一初始运动特征以及第二初始运动特征的处理过程，与第一卷积网络层对第一视频帧、第二视频帧、第一光流数据以及第二光流数据的处理过程一致，故此处不再详细叙述，可以参见步骤S101中的描述。可以理解的是，第一初始外观特征以及第二初始外观特征，作为输入数据输入至属于外观流中的第二卷积网络层，第一初始运动特征以及第二初始运动特征，作为输入数据输入至属于运动流中的第二卷积网络层。

通过第二卷积网络层，本申请可以获取第一视频帧对应的第一待编码外观特征(可以等同于图4中的特征

)，第二视频帧对应的第二待编码外观特征(可以等同于图4中的特征

)，第一光流数据对应的第一待编码运动特征(可以等同于图4中的特征

)，第二光流数据对应的第二待编码运动特征(可以等同于图4中的特征

)，其中特征

中的上标“1”，用于表征该特征属于第一编码网络层，若属于第二编码网络层中的特征，则上标为2，若属于其他编码网络层，则上标为对应的数字即可；下标“a”，用于表征该特征属于视频帧中的特征，若属于光流数据中的特征，则下标为“m”；下标“1”，用于表征该特征属于第一视频帧中的特征，若属于第二视频帧中的特征，则完整的下标为“a2”。

请再参见图4，通过互助变换网络R₁₄，对由第一待编码外观特征(即特征

)组成的特征对进行相似性处理，得到第一视频帧对应的第一对比度，可以理解的是，该特征对包括两个特征

由于输入相同，所以输出也是相同的。互助变换网络R₁₂包括互助缩放组件、互助变换组件以及互助门控组件，互助缩放组件可以调整特征

的权重，生成针对由第一待编码外观特征组成的特征对的外观缩放特征；将此处的外观缩放特征再次作为特征对输入至互助变换组件，该组件可以测量两个外观缩放特征之间的相似性，生成针对由两个外观缩放特征组成的特征对的外观增强特征；将此处的外观增强特征再次作为特征对输入至互助门控组件，该组件可以平衡两个外观增强特征，输出两个第一对比度，可以理解的是，两个第一对比度相同。

通过互助变换网络R₁₂，对由第二待编码外观特征(即特征

)组成的特征对进行相似性处理，得到第二视频帧对应的第二对比度；通过互助变换网络R₁₆，对由第一待编码运动特征(即特征

)组成的特征对进行相似性处理，得到第一光流数据对应的第三对比度；通过互助变换网络R₁₈，对由第二待编码运动特征(即特征

)组成的特征对进行相似性处理，得到第二光流数据对应的第四对比度；第二对比度、第三对比度以及第四对比度分别对应的具体生成过程，可以参见第一对比度的具体生成过程，区别仅在于输入数据的不同，致使输出数据不同，故此处不再一一进行赘述。

上述可知，为了识别单个帧中的显著对象，互助变换网络通过测量待编码外观特征或待编码运动特征的自相似性来获取帧内对比度，其表示可以如下公式:

其中，公式(1)—公式(4)中的i均表示特征处于编码器网络的第i阶段，在本申请实施例中，i＝1、2、3、4，为了便于理解以及叙述不累赘，本申请仅叙述图4中的第一编码网络层(即第1阶段)。公式(1)中的F_RTM可以表示图4中的互助变换网络R₁₄，

下标的含义与上文叙述的特征

中的下标含义一致，故此处不再进行赘述，θ_a1表示互助变换网络R₁₄中与特征

相关联的模型参数，

表示第一视频帧对应的第一对比度，a1→a1表示输入数据为两个特征

公式(2)中的F_RTM可以表示图4中的互助变换网络R₁₂，θ_a2表示互助变换网络R₁₂中与特征

相关联的模型参数，

表示第二视频帧对应的第二对比度，a2→a2表示输入数据为两个特征

公式(3)中的F_RTM可以表示图4中的互助变换网络R₁₆，θ_m1表示互助变换网络R₁₆中与特征

相关联的模型参数，

表示第一光流数据对应的第三对比度，m1→m1表示输入数据为两个特征

公式(4)中的F_RTM可以表示图4中的互助变换网络R₁₈，θ_m2表示互助变换网络R₁₈中与特征

相关联的模型参数，

表示第二光流数据对应的第四对比度，m2→m2表示输入数据为两个特征

步骤S103，根据第一视频帧以及第一光流数据之间的外观与运动的关联关系，获取第一运动对象特征，根据第二视频帧以及第二光流数据之间的外观与运动的关联关系，获取第二运动对象特征。

具体的，通过编码网络层，识别第一初始外观特征以及第一初始运动特征之间的外观与运动的关联关系，根据第一初始外观特征以及第一初始运动特征之间的外观与运动的关联关系，获取第一运动对象特征。

其中，编码网络层包括第二卷积网络层以及第二互助变换网络层；通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征；在第二互助变换网络层中，通过第一待编码外观特征过滤第一待编码运动特征中的异常运动特征，将过滤异常运动特征后的第一待编码运动特征，确定为第一光流数据对应的运动对象特征；通过第一待编码运动特征增强第一待编码外观特征中的运动对象特征，将增强运动对象特征后的第一待编码外观特征，确定为第一视频帧对应的运动对象特征；将第一光流数据对应的运动对象特征以及第一视频帧对应的运动对象特征，确定为第一运动对象特征。

具体的，通过编码网络层，识别第二初始外观特征以及第二初始运动特征之间的外观与运动的关联关系，根据第二初始外观特征以及第二初始运动特征之间的外观与运动的关联关系，获取第二运动对象特征。

其中，编码网络层包括第二卷积网络层以及第二互助变换网络层；通过第二卷积网络层，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；在第二互助变换网络层中，通过第二待编码外观特征过滤第二待编码运动特征中的异常运动特征，将过滤异常运动特征后的第二待编码运动特征，确定为第二光流数据对应的运动对象特征；通过第二待编码运动特征增强第二待编码外观特征中的运动对象特征，将增强运动对象特征后的第二待编码外观特征，确定为第二视频帧对应的运动对象特征；将第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征，确定为第二运动对象特征。

本申请中，根据输入特征(包括图4中的特征

特征

特征

以及特征

)，互助变换网络能够交互和增强不同来源的特征，以识别单个帧中的显著对象、运动对象和反复出现的对象，在本步骤中，叙述第一运动对象特征以及第二运动对象特征的具体生成过程。请再参见图4，第二互助变换网络层可以包括图4中的互助变换网络R₁₅以及互助变换网络R₁₁，互助变换网络R₁₅以及互助变换网络R₁₁均包括互助缩放组件、互助变换组件以及互助门控组件。

计算机设备将第一待编码外观特征(等同于图4中特征

)，以及第一待编码运动特征(等同于图4中特征

)作为互助变换网络R₁₅的输入数据，在互助变换网络R₁₅中，通过第一待编码外观特征过滤第一待编码运动特征中的异常运动特征，该异常运动特征可以包括运动背景对象的信息，将过滤异常运动特征后的第一待编码运动特征，确定为第一光流数据对应的运动对象特征；通过第一待编码运动特征增强第一待编码外观特征中的运动对象特征，将增强运动对象特征后的第一待编码外观特征，确定为第一视频帧对应的运动对象特征。上述可知，本申请提出的交互机制(即互助变换网络)可以让第一待编码外观特征以及第一待编码运动对象特征有机地协调，从而有效地消除视频中的模糊干扰，此外，可以从运动特征中排除运动背景对象的信息，增强运动特征，进而在去除共动异常点的同时，又可以聚焦于外观显著的运动对象。

通过互助变换网络R₁₁，计算机设备可以得到第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征。由于第一运动对象特征的具体生成过程，与第二运动对象特征的具体生成过程一致，两者区别仅在于输入数据不同，所以本申请实施例仅叙述第一运动对象特征的具体生成过程，第二运动对象特征的具体生成过程，可以参见第一运动对象特征的具体生成过程。

通过计算显著外观(包括第一待编码外观对象特征)，和运动线索(包括第一待编码运动对象特征)的相似度，计算机设备可以将两个特征相关联，识别出运动目标，同样，通过将两个特征相关联，可以消除随主要物体共同运动的异常物体，第一运动对象特征以及第二运动对象特征的计算表示可以如下公式:

公式(5)以及公式(6)中的部分含义可以参见步骤S102中公式(1)—公式(4)中的解释，此处不再进行赘述。其中，公式(5)中的F_RTM可以表示图4中的互助变换网络R₁₅，θ_a1m1表示互助变换网络R₁₅中与特征

以及特征

相关联的模型参数，

表示第一光流数据对应的运动对象特征，

表示第一视频帧对应的运动对象特征，a1→m1以及m1→a1均表示输入数据为特征

以及特征

公式(6)中的F_RTM可以表示图4中的互助变换网络R₁₁，θ_a2m2表示互助变换网络R₁₁中与特征

以及特征

相关联的模型参数，

表示第二光流数据对应的运动对象特征，

表示第二视频帧对应的运动对象特征，a2→m2以及m2→a2均表示输入数据为特征

以及特征

步骤S104，根据第一视频帧以及第二视频帧之间的外观关联关系，获取第一循环对象特征，根据第一光流数据以及第二光流数据之间的运动关联关系，获取第二循环对象特征。

具体的，通过编码网络层，识别第一初始外观特征以及第二初始外观特征之间的外观关联关系，根据外观关联关系，获取第一循环对象特征。

其中，编码网络层包括第二卷积网络层以及第三互助变换网络层；通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征；在第三互助变换网络层中，通过第一待编码外观特征增强第二待编码外观特征中的相关外观特征，得到第一视频帧对应的循环对象特征，通过第二待编码外观特征增强第一待编码外观特征中的相关外观特征，得到第二视频帧对应的循环对象特征；将第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，确定为第一循环对象特征。

具体的，通过编码网络层，识别第一初始运动特征以及第二初始运动特征之间的运动关联关系，根据运动关联关系，获取第二循环对象特征。

其中，编码网络层包括第二卷积网络层以及第三互助变换网络层；通过编码网络层，识别第一初始运动特征以及第二初始运动特征之间的运动关联关系，根据运动关联关系，获取第二循环对象特征，包括：通过第二卷积网络层，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；在第三互助变换网络层中，通过第一待编码运动特征增强第二待编码运动特征中的相关运动特征，得到第一光流数据对应的循环对象特征，通过第二待编码运动特征增强第一待编码运动特征中的相关运动特征，得到第二光流数据对应的循环对象特征；将第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征，确定为第二循环对象特征。

在本步骤中，叙述第一循环对象特征以及第二循环对象特征的具体生成过程。请再参见图4，第三互助变换网络层可以包括图4中的互助变换网络R₁₃以及互助变换网络R₁₇，互助变换网络R₁₃以及互助变换网络R₁₇均包括互助缩放组件、互助变换组件以及互助门控组件。

计算机设备将第一待编码外观特征(等同于图4中特征

)，以及第二待编码外观特征(等同于图4中特征

)作为互助变换网络R₁₃的输入数据，在互助变换网络R₃中，通过第一待编码外观特征增强第二待编码外观特征中的相关外观特征，得到第一视频帧对应的循环对象特征，通过第二待编码外观特征增强第一待编码外观特征中的相关外观特征，得到第二视频帧对应的循环对象特征，上述操作可以弥补第一待编码外观特征以及第二待编码外观特征之间的注意差距。

通过互助变换网络R₁₇，计算机设备可以得到第二光流数据对应的循环对象特征以及第一光流数据对应的循环对象特征。由于第一循环对象特征的具体生成过程，与第二循环对象特征的具体生成过程一致，两者区别仅在于输入数据不同，所以本申请实施例仅叙述第一循环对象特征的具体生成过程，第二运动对象特征的具体生成过程，可以参见第一运动对象特征的具体生成过程。

为了识别重复出现的对象，本申请将测量输入帧之间的时空相关性，以及输入流之间的时空相关性，以便在两个单独的帧或者两个单独的数据流中捕获长程相关性。第一循环对象特征以及第二循环对象特征的计算表示可以如下公式:

公式(7)以及公式(8)中的部分含义可以参见步骤S102中公式(1)—公式(4)中的解释，此处不再进行赘述。其中，公式(7)中的F_RTM可以表示图4中的互助变换网络R₁₃，θ_a1a2表示互助变换网络R₁₃中与特征

以及特征

相关联的模型参数，

表示第二视频帧对应的循环对象特征，

表示第一视频帧对应的循环对象特征，a1→a2以及a2→a1均表示输入数据为特征

以及特征

公式(8)中的F_RTM可以表示图4中的互助变换网络R₁₇，θ_m1m2表示互助变换网络R₁₇中与特征

以及特征

相关联的模型参数，

表示第二光流数据对应的循环对象特征，

表示第一光流数据对应的循环对象特征，m1→m2以及m2→m1均表示输入数据为特征

以及特征

综合步骤S102-步骤S104，可知给定两个特征(该两个特征可以是外观特征或运动特征的任意一对)，互助变换网络可以对该两个特征进行相互进化和集成。

步骤S105，根据显著对象特征、第一运动对象特征、第二运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。

具体的，第一运动对象特征包括第一光流数据对应的运动对象特征，以及第一视频帧对应的运动对象特征，第二运动对象特征包括第二光流数据对应的运动对象特征，以及第二视频帧对应的运动对象特征，第一循环对象特征包括第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，第二循环对象特征包括第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征；视频对象分割模型还包括第一融合网络层以及第二融合网络层。

对第一待编码外观特征、第一对比度、第一视频帧对应的运动对象特征以及第一视频帧对应的循环对象特征进行特征组合处理，得到第一视频帧对应的第一编码外观特征；对第二待编码外观特征、第二对比度、第二视频帧对应的运动对象特征以及第二视频帧对应的循环对象特征进行特征组合处理，得到第二视频帧对应的第二编码外观特征；对第一待编码运动特征、第三对比度、第一光流数据对应的运动对象特征以及第一光流数据对应的循环对象特征进行特征组合处理，得到第一光流数据对应的第一编码运动特征；对第二待编码运动特征、第四对比度、第二光流数据对应的运动对象特征以及第二光流数据对应的循环对象特征进行特征组合处理，得到第二光流数据对应的第二编码运动特征；通过第一融合网络层，对第一编码外观特征以及第一编码运动特征进行特征融合处理，得到第一编码融合特征，通过第二融合网络层，对第二编码外观特征以及第二编码运动特征进行特征融合处理，得到第二编码融合特征；根据第一编码外观特征、第二编码外观特征、第一编码融合特征以及第二编码融合特征，识别视频中的目标对象。

其中，第一融合网络层包括通道注意力组件以及空间注意力组件；通过第一融合网络层，得到第一编码融合特征的具体过程可以包括：在过通道注意力组件中，对第一编码外观特征以及第一编码运动特征进行特征组合处理，得到编码组合特征；对编码组合特征进行特征压缩处理，得到编码压缩特征；对编码压缩特征进行特征激励处理，得到针对第一编码外观特征的第一外观权重，根据第一外观权重，生成针对第一编码运动特征的第一运动权重；根据第一编码外观特征以及第一外观权重，生成通道外观特征，根据第一编码运动特征以及第一运动权重，生成通道运动特征；在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征；根据空间外观特征以及空间运动特征，生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；根据通道外观特征以及第二外观权重，生成待融合外观特征，根据通道运动特征以及第二运动权重，生成待融合运动特征；对待融合外观特征以及待融合运动特征进行特征融合处理，得到第一编码融合特征。

其中，第二融合网络层包括通道注意力组件以及空间注意力组件；通过第二融合网络层，得到第二编码融合特征的具体过程包括：在过通道注意力组件中，对第二编码外观特征以及第二编码运动特征进行特征组合处理，得到编码组合特征；对编码组合特征进行特征压缩处理，得到编码压缩特征；对编码压缩特征进行特征激励处理，得到针对第二编码外观特征的第一外观权重，根据第一外观权重，生成针对第一编码运动特征的第一运动权重；根据第二编码外观特征以及第一外观权重，生成通道外观特征，根据第二编码运动特征以及第一运动权重，生成通道运动特征；在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征；根据空间外观特征以及空间运动特征，生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；根据通道外观特征以及第二外观权重，生成待融合外观特征，根据通道运动特征以及第二运动权重，生成待融合运动特征；对待融合外观特征以及待融合运动特征进行特征融合处理，得到第二编码融合特征。

为了关联时空域的特征，本申请实施例提出了互助变换网络来互助变换图4中的特征

特征

以及特征

即给定成对特征，互助变换网络支持域内和跨域特征交互，以分别识别单个帧中的显著对象、移动对象和循环对象。

第一视频帧对应的第一编码外观特征(等同于图4中的特征

)是帧内对比度、时间一致性和运动信息的组合，同理，第二视频帧对应的第二编码外观特征(等同于图4中的特征

)亦如此，第一编码外观特征以及第二编码外观特征的计算表示可以如下公式:

公式(9)以及公式(10)中的公式含义可以参见上述公式(1)—公式(8)中的解释，此处不再进行赘述。

类似地，第一编码运动特征以及第二编码运动特征的计算表示可以如下公式:

公式(11)以及公式(12)中的公式含义可以参见上述公式(1)—公式(8)中的解释，此处不再进行赘述。

可以理解的是，上述步骤仅以图4中第一编码网络层为例叙述，而图4中包括四个编码网络层，所以第一编码网络层的输出(包括特征

特征

特征

以及特征

)将作为第二编码网络层(包括图4中的网络层S2以及网络层H2)的输入，同理，第二编码网络层的输出将作为第三编码网络层的输入，第三编码网络层的输出将作为第四编码网络层的输入；实际应用时，编码网络层40b可以为任意层数，各个编码网络层之间的数据关系如上述所述，直至最后一个编码网络层的输出至第三卷积网络层(等同于图4中的4个网络层D)。

请再参见图4，视频对象分割模40a还包括第一融合网络层(包括图4中的3个网络层R1)以及第二融合网络层(包括图4中的3个网络层R2)。第一融合网络层用于融合第一融合编码外观特征以及第一编码运动特征，并将融合结果与相应的解码网络层连接；例如图4中，通过一个网络层R1，将第一编码网络层输出的第一编码外观特征(等同于图4中的特征

)，以及第一编码运动特征(等同于图4中的特征

)进行特征融合处理，并将融合结果(等同于第一编码融合结果)输入至外观流中的倒数第一解码网络层；通过一个网络层R1，将第二编码网络层输出的编码外观特征以及编码运动特征进行特征融合处理，并将融合结果输入至外观流中的倒数第二解码网络层；通过一个网络层R1，将第三编码网络层输出的编码外观特征以及编码运动特征进行特征融合处理，并将融合结果输入至外观流中的倒数第三解码网络层。

第二融合网络层用于融合第二融合编码外观特征以及第二编码运动特征，并将融合结果与相应的解码网络层连接；例如图4中，通过一个网络层R2，将第一编码网络层输出的第二编码外观特征(等同于图4中的特征

)，以及第二编码运动特征(等同于图4中的特征

)进行特征融合处理，并将融合结果(等同于第二编码融合结果)输入至外观流中的倒数第一解码网络层；通过一个网络层R1，将第二编码网络层输出的编码外观特征以及编码运动特征进行特征融合处理，并将融合结果输入至外观流中的倒数第二解码网络层；通过一个网络层R1，将第三编码网络层输出的编码外观特征以及编码运动特征进行特征融合处理，并将融合结果输入至外观流中的倒数第三解码网络层。

可以理解的是，本申请实施例中的第一融合网络层以及第二融合网络层，根据网络特性，也可以称之为时空注意融合模块(Spatial Temporal Attention Fusion Module，STAFM)，可以理解的是，图4中示例的3个第一融合网络层以及3个第二融合网络层的网络结构是一致的，区别仅在于输入的数据不同，为了便于理解以及叙述不累赘，本申请实施例将以外观流中的第一个第一融合网络层为例，叙述时空注意融合模块的内部结构，以及对输入数据的处理过程。

本申请旨在通过通道注意力组件和空间注意力组件，有选择地融合每个网络阶段的外观特征和运动特征。请一并参见图5，图5是本申请实施例提供的一种第一融合网络层的结构示意图。如图5所示，第一融合网络层包括通道注意力组件以及空间注意力组件；在过通道注意力组件中，对特征501a(此处可以指代第一编码外观特征，即图4中的特征

)，以及特征502a(此处可以指代第一编码运动特征，即图4中的特征

)进行特征组合处理，得到编码组合特征，对编码组合特征进行特征压缩处理，得到编码压缩特征50b，该过程可以用如下公式表示：

A_c＝F_c(X_a；X_m) (13)

其中，公式(13)中的X_a用于表示特征

X_m用户表示特征

(X_a；X_m)用于表示编码组合特征，F_c用于表示压缩处理，A_c用于表示编码压缩特征50b。

对编码压缩特征50b进行特征激励处理，计算机设备得到针对第一编码外观特征(即特征501a)的第一外观权重(等同于图5中的w_c)，根据第一外观权重，生成针对第一编码运动特征(即特征502a)的第一运动权重(等同于图5中的1-w_c)，上述过程可以用如下公式表示：

w_c＝σ(FC(φ(FC(A_c；θ₁)；θ₂))) (14)

其中，公式(14)中的FC表示全连接层，φ表示ReLU激活函数，全连接层和激活函数共同充当激励作用，θ₁表示通道注意力中针对特征501a的网络参数，组件θ₂表示通道注意力中针对特征502a的网络参数，w_c∈(0，1)，表示门。公式(15)中的

表示第一外观权重，

表示第一运动权重。

最后使用门控来增强运动特征和外观特征，即根据第一编码外观特征以及第一外观权重，生成通道外观特征，根据第一编码运动特征以及第一运动权重，生成通道运动特征，上述过程可以用如下公式表示：

其中，公式(16)中的X′_a表示通道外观特征，公式(12)中的X′_m表示通道运动特征。

请再参见图5，在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征。该过程可以用如下公式表示：

其中，公式(18)-公式(19)中的MaxPool表示最大池化处理，AvgPool表示平均池化处理，P_a表示空间外观特征，P_m表示空间运动特征。

根据空间外观特征以及空间运动特征，计算机设备生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；该过程可以用如下公式表示：

P′_a＝P′,P′_mm＝1-P′ (21)

其中，公式(20)中的Conv表示卷积处理，θ_p表示空间注意力组件中的参数，P′_a表示第二外观权重，P′_m表示第二运动权重。

最后，本申请根据通道外观特征以及第二外观权重，生成待融合外观特征；根据通道运动特征以及第二运动权重，生成待融合运动特征；对待融合外观特征以及待融合运动特征进行特征融合处理，得到第一编码融合特征(等同于图5中的特征50c)。该过程可以用如下公式表示：

X″_a＝P′_a⊙X′_a+P′_mm⊙X′_m (22)

其中，X″_a表示第一编码融合特征。

本申请利用时空注意融合模块对图像的待编码外观特征和待编码运动特征进行融合，并将融合后的特征反馈给解码端，生成最终的预测值。请再参见图4，视频对象分割模型40a还包括第三卷积网络层(包括图4中4个网络层D)以及解码网络层40c；通过第三卷积网络层，对第一编码外观特征以及第二编码外观特征分别进行特征卷积处理，生成第一视频帧对应的第一待解码外观特征，以及第二视频帧对应的第二待解码外观特征，实际应用时，是将编码网络层40b中最后一层编码网络层的输出，输入至第三卷积网络层中。在运动流的解码器网络中，通过跳跃连接将低层编码特征与相应的解码层连接，而外观流的解码器利用第一融合网络层的融合结果得出最终结果，通过解码网络层，对第一待解码外观特征以及第一编码融合特征进行特征解码处理，生成第一视频帧对应的第一解码外观特征，对第二待解码外观特征以及第二编码融合特征进行特征解码处理，生成第二视频帧对应的第二解码外观特征；根据第一解码外观特征确定第一视频帧的目标对象，根据第二解码外观特征确定第二视频帧的目标对象；根据第一视频帧的目标对象以及第二视频帧的目标对象，识别视频中的目标对象。

本申请实施例提出一种新的互助变换网络，通过关联帧内对比度(intra-framecontrast)、运动线索(motion cues)和重现对象的时间一致性(temporal coherence ofrecurring objects)三个关键因素来发现主要对象，互助变换网络中的交互机制使得三个关键因素能够有机地协调起来，从而有效地消除视频中的模糊干扰，即互助变换网络能够对外观特征进行交互变换，增强运动特征，还可以从运动特征中排除运动背景对象的信息，从而在去除共动异常点的同时聚焦于外观显著的运动对象。

本方案可用于提取视频中的重点区域，可以作为视频理解、图像修改、目标追踪等任务的预处理步骤。经过模型压缩之后，可以部署在手机端，可用于手机相机的美颜的前景背景区分，为后续背景虚化、人像处理做准备。

在本申请实施例中，首先通过单帧以及单流数据，获取显著对象特征，通过外观与运动的关联关系，获取运动对象特征(包括第一运动对象特征以及第二运动对象特征)，通过外观关联关系获取第一循环对象特征，通过运动关联关系，获取第二循环对象特征；然后通过关联显著对象特征、运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。上述可知，本申请通过交互机制(包括外观与运动的关联关系、外观关联关系以及运动关联关系)，可以让输入数据(包括视频帧以及光流数据)有机地协调起来，并通过关联显著对象特征、运动对象特征和循环对象特征三个关键因素，识别视频中的目标对象，从而可以有效地消除视频中的模糊干扰，在去除共动异常点的同时聚焦于外观显著的运动对象(即目标对象)，故可以提高视频中的目标对象的识别准确率。

进一步地，请参见图6，图6是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行，该计算机设备可以包括图1中的用户终端以及服务器。如图6所示，该数据处理方法可以包括以下步骤S1031-步骤S1035，且步骤S1031-步骤S1035为图3所对应实施例中步骤S103的一个具体实施例。

步骤S1031，通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征。

具体的，编码网络层包括第二卷积网络层以及第二互助变换网络层，第二互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件，互助缩放组件用于调整不同语义的权重，互助变换组件用于测量特征映射之间的相似性，互助门控组件用于平衡变换后的特征。

步骤S1032，通过互助缩放组件，对第一待编码外观特征进行特征缩放处理，得到外观缩放特征，对第一待编码运动特征进行特征缩放处理，得到运动缩放特征。

具体的，通过互助缩放组件，得到第一视频帧对应的外观缩放特征，以及第一光流数据对应的运动缩放特征的具体过程可以包括：在互助缩放组件中，对第一待编码外观特征以及第一待编码运动特征进行特征组合处理，得到待编码组合特征；对待编码组合特征进行特征压缩处理，得到编码压缩特征；对编码压缩特征进行特征激励处理，得到针对第一待编码外观特征的第一权重，以及针对第一待编码运动特征的第二权重；根据第一待编码外观特征以及第一权重，生成第一视频帧对应的外观缩放特征，根据第一待编码运动特征以及第二权重，生成第一光流数据对应的运动缩放特征。

请一并参见图7，图7是本申请实施例提供的一种互助变换网络的结构示意图。可以理解的是，图7中的输入特征701a可以为图4中的特征

特征

特征

以及特征

中的任意一个特征，输入特征702a可以为与输入特征701a处于相同时空域的任意一个特征。本申请实施例是生成第一运动对象特征以及第二运动对象特征，故设定输入特征701a以及输入特征702a分别为特征

以及特征

此时生成第一运动对象特征，设定输入特征701a以及输入特征702a分别为特征

以及特征

此时生成第二运动对象特征。

在本申请实施例仅以输入特征701a为特征

以及输入特征702a为特征

为例叙述，其他输入特征对均可参见下面的描述，不再一一进行赘述。

在深层神经网络中，特征通道代表不同的语义，因此，可以相应地缩放通道的值，以便调整不同主要对象对不同源的特征的关注，特别是，由于运动特征主要集中在运动物体上，而外观特征集中在显著物体上，所以互助缩放可以弥补它们之间的注意差距。同样地，对于两个不同帧的外观特征，互助缩放可以使它们将注意力集中在不同的对象上。在互助缩放组件中，计算机设备对第一待编码外观特征(可以等同于图7中的输入特征701a)，以及第一待编码运动特征(可以等同于图7中的输入特征702a)进行特征组合处理，得到待编码组合特征(可以等同于图7中的特征70b)；对待编码组合特征进行特征压缩处理，得到编码压缩特征(可以等同于图7中的特征70c)；计算机设备对编码压缩特征进行特征激励处理，得到针对第一待编码外观特征的第一权重(可以等同于图7中的权重701d)，以及针对第一待编码运动特征的第二权重(可以等同于图7中的权重702d)；根据第一待编码外观特征以及第一权重，生成第一视频帧对应的外观缩放特征，根据第一待编码运动特征以及第二权重，生成第一光流数据对应的运动缩放特征。上述过程可以用如下公式表示：

A_c＝F_c(F_a；F_b) (23)

w₁＝σ(FC(φ(FC(A_c；θ₁)；θ₂₁))) (24)

w₂＝σ(FC(φ(FC(A_c；θ₁)；θ₂₂))) (25)

F′_a＝w₁⊙F_a+F_a (26)

F′_b＝w₂⊙F_b+F_b (27)

其中，公式(23)—公式(27)中的部分含义请参见上文公式中的解释，此处不再进行赘述。公式(23)中的F_a表示输入特征701a，在本申请实施例中等同于特征

F_b表示输入特征702a，在本申请实施例中等同于特征

公式(24)中的θ₁以及θ₂₁均表示互助缩放组件中的参数，w₁表示第一权重；公式(25)中的θ₁以及θ₂₂均表示互助缩放组件中的参数，w₂表示第二权重；公式(26)中的F′_a表示第一视频帧对应的外观缩放特征，公式(27)中的F′_b表示第一光流数据对应的运动缩放特征。

步骤S1033，通过互助变换组件，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据变换后的外观缩放特征以及运动缩放特征，得到运动增强特征，对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据变换后的运动缩放特征以及外观缩放特征，得到外观增强特征。

具体的，通过互助变换组件，得到第一光流数据对应的运动增强特征，以及第一视频帧对应的外观增强特征的具体过程可以包括：在互助变换组件中，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征；对外观缩放特征以及运动缩放特征的转置矩阵进行相似性处理，得到针对运动缩放特征的第一相似矩阵；根据变换后的外观缩放特征以及第一相似矩阵，对运动缩放特征进行特征增强处理，得到第一光流数据对应的运动增强特征；对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征；对运动缩放特征以及外观缩放特征的转置矩阵进行相似性处理，得到针对外观缩放特征的第二相似矩阵；根据变换后的运动缩放特征以及第二相似矩阵，对外观缩放特征进行特征增强处理，得到第一视频帧对应的外观增强特征。

在互助变换组件中，目标是测量特征映射之间的相似性，并对两个特征进行变换以增强表示，其过程如上段所述。为了降低网络复杂度，本申请实施例通过两个独立的卷积运算来获取整体位置相似矩阵S，可以用如下公式表示：

其中，公式(28)—公式(31)的部分含义请参见上文中公式的解释，此处不再一一进行赘述。公式(28)中的

表示对F′_a进行卷积处理之后的特征，θ_a表示互助变换组件中针对F′_a的参数；公式(29)中的

表示对F′_b进行卷积处理之后的特征，θ_b表示互助变换组件中针对F′_b的参数；公式(30)中的S_a→b表示F′_b的整体位置相似矩阵，公式(31)中的S_b→a表示F′_a的整体位置相似矩阵。

与非互助变换组件不同，本申请实施例中的互助变换组件使用两个特征相互补偿，该过程可以用如下公式表示：

其中，公式(32)中的F″_a→b是F′_b增强后的特征，即第一光流数据对应的运动增强特征，公式(33)中的F″_b→a是F′_a增强后的特征，即第一视频帧对应的外观增强特征。

通过互助变换组件，可以在不同来源的特征之间增强运动线索，具体来说，可以先将运动特征转化为外观特征，以提高对运动目标的分割能力，然后再将外观特征相互转化为运动特征，以消除共同运动的孤立点。

步骤S1034，通过互助门控组件，对外观增强特征进行特征平衡处理，得到第一视频帧对应的运动对象特征，对运动增强特征进行特征平衡处理，得到第一光流数据对应的运动对象特征。

具体的，通过互助门控组件，得到第一视频帧对应的运动对象特征，以及第一光流数据对应的运动对象特征的具体过程可以包括：在互助门控组件中，根据外观增强特征以及运动增强特征，生成针对外观增强特征的第一互助矩阵，以及针对运动增强特征的第二互助矩阵；通过第一互助矩阵，对外观增强特征进行特征平衡处理，得到第一视频帧对应的运动对象特征，通过第二互助矩阵，对运动增强特征进行特征平衡处理，得到第一光流数据对应的运动对象特征。

变换后的特征通常具有不同程度的重要性，例如，像背景变化或运动模糊这样的外观或运动噪声应该被视为不太重要的干扰因素，因此，本申请设计了一种互助门控机制来平衡不同的变换特征，可以用如下公式表示：

其中，公式(34)—公式(35)中的σ表示sigmoid函数，Ga，Gb∈(0，1)是平衡变换特征的互助门，θ₁以及θ₂均表示互助门控组件中的参数。

最后将互助门应用于输入特征，如下述公式所示：

X_a→b＝G_b⊙F″_a→b+F″_a→b (36)

X_b→a＝G_b⊙F″_b→a+F″_b→a (37)

其中，公式(36)中的X_a→b表示第一光流数据对应的运动对象特征，等同于图7中的特征702e，公式(37)中的X_b→a表示第一视频帧对应的运动对象特征，等同于图7中的特征701e。

步骤S1035，将第一光流数据对应的运动对象特征以及第一视频帧对应的运动对象特征，确定为第一运动对象特征。

具体的，该过程可以参见上文公式(11)，此处不再进行赘述。

其中，编码网络层包括第二卷积网络层以及第二互助变换网络层，第二互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；通过第二卷积网络层，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；通过互助缩放组件，对第二待编码外观特征进行特征缩放处理，得到外观缩放特征，对第二待编码运动特征进行特征缩放处理，得到运动缩放特征；通过互助变换组件，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据变换后的外观缩放特征以及运动缩放特征，得到运动增强特征，对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据变换后的运动缩放特征以及外观缩放特征，得到外观增强特征；通过互助门控组件，对外观增强特征进行特征平衡处理，得到第二视频帧对应的运动对象特征，对运动增强特征进行特征平衡处理，得到第二光流数据对应的运动对象特征；将第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征，确定为第二运动对象特征。

可以理解的是，第二运动对象特征的获取过程与第一运动对象特征的获取过程一致，区别仅在于输入特征不同，故此处不再赘述第二运动对象特征的获取过程，请参见上文针对第一运动对象特征的获取过程的描述。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理方法的流程示意图。如图8所示，该数据处理方法可以包括以下步骤S1041-步骤S1045，且步骤S1041-步骤S1045为图3所对应实施例中步骤S104的一个具体实施例。

步骤S1041，通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征。

步骤S1042，通过互助缩放组件，对第一待编码外观特征进行特征缩放处理，得到第一视频帧对应的外观缩放特征，对第二待编码外观特征进行特征缩放处理，得到第二视频帧对应的外观缩放特征。

步骤S1043，通过互助变换组件，对第一视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第一视频帧对应的外观缩放特征，根据变换后的第一视频帧对应的外观缩放特征以及第二视频帧对应的外观缩放特征，得到第一视频帧对应的外观增强特征，对第二视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第二视频帧对应的外观缩放特征，根据变换后的第二视频帧对应的外观缩放特征以及第一视频帧对应的外观缩放特征，得到第二视频帧对应的外观增强特征。

步骤S1044，通过互助门控组件，对第一视频帧对应的外观增强特征进行特征平衡处理，得到第一视频帧对应的循环对象特征，对第二视频帧对应的外观增强特征进行特征平衡处理，得到第二视频帧对应的循环对象特征。

步骤S1045，将第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，确定为第一循环对象特征。

可以理解的是，图7中的输入特征701a可以为图4中的特征

特征

特征

以及特征

中的任意一个特征，输入特征702a可以为与输入特征701a处于相同时空域的任意一个特征。本申请实施例是生成第一循环对象特征以及第二循环对象特征，故设定输入特征701a以及输入特征702a分别为特征

以及特征

此时生成第一循环对象特征，设定输入特征701a以及输入特征702a分别为特征

以及特征

此时生成第二循环对象特征。

可以理解的是，循环对象特征的获取过程与运动对象特征的获取过程一致，区别仅在于输入特征不同，故此处不再赘述循环运动对象特征的获取过程，请参见上文图6所对应的实施例中针对第一运动对象特征的获取过程的描述。

其中，编码网络层包括第二卷积网络层以及第三互助变换网络层，第三互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；通过第二卷积网络层，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；通过互助缩放组件，对第一待编码运动特征进行特征缩放处理，得到第一光流数据对应的运动缩放特征，对第二待编码运动特征进行特征缩放处理，得到第二光流数据对应的运动缩放特征；通过互助变换组件，对第一光流数据对应的运动缩放特征进行特征变换处理，得到变换后的第一光流数据对应的运动缩放特征，根据变换后的第一光流数据对应的运动缩放特征以及第二光流数据对应的运动缩放特征，得到第一光流数据对应的运动增强特征，对第二光流数据对应的运动缩放特征进行特征变换处理，得到变换后的第二光流数据对应的运动缩放特征，根据变换后的第二光流数据对应的运动缩放特征以及第一光流数据对应的运动缩放特征，得到第二光流数据对应的运动增强特征；通过互助门控组件，对第一光流数据对应的运动增强特征进行特征平衡处理，得到第一光流数据对应的循环对象特征，对第二光流数据对应的运动增强特征进行特征平衡处理，得到第二光流数据对应的循环对象特征；将第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征，确定为第二循环对象特征。

进一步地，请参见图9，图9是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行，该计算机设备可以包括图1中的用户终端以及服务器。如图9所示，该数据处理过程可以包括如下步骤。

步骤S201，获取训练样本集；训练样本集包括样本视频中的第一样本视频帧，以及第二样本视频帧、第一样本视频帧对应的第一样本光流数据、第二样本视频帧对应的第二样本光流数据、第一样本视频帧对应的第一标签图像，以及第二样本视频帧对应的第二标签图像。

具体的，本申请实施例不限定目标对象，故在实际应用时，只需替换训练样本集，即可实现任意物体的分割，比如人物、动物、车辆、天空等。

步骤S202，将第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据分别输入至样本视频对象分割模型。

步骤S203，在样本视频对象分割模型中，根据第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据，获取预测显著对象特征。

步骤S204，根据第一样本视频帧以及第一样本光流数据之间的外观与运动的关联关系，获取第一预测运动对象特征，根据第二样本视频帧以及第二样本光流数据之间的外观与运动的关联关系，获取第二预测运动对象特征。

步骤S205，根据第一样本视频帧以及第二样本视频帧之间的外观关联关系，获取第一预测循环对象特征，根据第一样本光流数据以及第二样本光流数据之间的运动关联关系，获取第二预测循环对象特征。

步骤S206，根据预测显著对象特征、第一预测运动对象特征、第二预测运动对象特征、第一预测循环对象特征以及第二预测循环对象特征，确定第一样本视频帧对应的第一预测外观特征，第二样本视频帧对应的第二预测外观特征，第一样本光流数据对应的第一预测运动特征，第二样本光流数据对应的第二预测运动特征。

具体的，步骤S201-步骤S206的具体过程可以参见上文图3所对应的实施例中的描述，此处不再进行赘述。

步骤S207，根据第一预测外观特征、第二预测外观特征、第一预测运动特征、第二预测运动特征、第一标签图像，以及第二标签图像，对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型；视频对象分割模型用于识别视频中的目标对象。

具体的，根据第一预测外观特征以及第一标签图像之间的交叉熵，确定第一样本视频帧的交叉熵损失值L_b1，根据第一预测外观特征以及第一标签图像之间的相似性，确定第一样本视频帧的相似性损失值L_s1，根据第一预测外观特征以及第一标签图像之间的重合度，确定第一样本视频帧的重合度损失值L_i1；根据第一预测运动特征以及第一标签图像之间的交叉熵，确定第一样本光流数据的交叉熵损失值L_b2，根据第一预测运动特征以及第一标签图像之间的相似性，确定第一样本光流数据的相似性损失值L_s2，根据第一预测运动特征以及第一标签图像之间的重合度，确定第一样本光流数据的重合度损失值L_i2；根据第二预测外观特征以及第二标签图像之间的交叉熵，确定第二样本视频帧的交叉熵损失值L_b3，根据第二预测外观特征以及第二标签图像之间的相似性，确定第二样本视频帧的相似性损失值L_s3，根据第二预测外观特征以及第二标签图像之间的重合度，确定第二样本视频帧的重合度损失值L_i3；根据第二预测运动特征以及第二标签图像之间的交叉熵，确定第二样本光流数据的交叉熵损失值L_b4，根据第二预测运动特征以及第二标签图像之间的相似性，确定第二样本光流数据的相似性损失值L_s4，根据第二预测运动特征以及第二标签图像之间的重合度，确定第二样本光流数据的重合度损失值L_i4；根据交叉熵损失值L_b1、相似性损失值L_s1、重合度损失值L_i1、交叉熵损失值L_b2、相似性损失值L_s2、重合度损失值L_i2、交叉熵损失值L_b3、相似性损失值L_s3、重合度损失值L_i3、交叉熵损失值L_b4、相似性损失值L_s4以及重合度损失值L_i4，确定样本视频对象分割模型的总损失值，根据总损失值对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型。

可以理解的是，样本视频对象分割模型初期提取的特征不完整，因此第一预测外观特征与第一标签图像存在误差，同理，第二预测外观特征与第二标签图像存在误差，第一预测运动特征与第一标签图像存在误差，第二预测运动特征与第二标签图像存在误差；所以样本视频对象分割模型存在较大的模型损失值，需要不断地调整样本视频对象分割模型中模型参数的权值，直至模型损失值收敛，将调整后的视频对象分割模型确定为视频对象分割模型。本申请实施例采用交叉熵损失、结构相似性指数(structural similarityindex，SSIM)损失和重合度(Intersection over Union，IoU)损失，确定模型总损失值，可以用如下公式表示：

l_bce(S,GT)＝GT×logS+(1-GT)×(1-log(1-S)) (38)

其中，交叉熵损失l_bce测量两个概率分布之间的距离，公式(38)中的S表示样本视频对象分割模型预测的特征，可以包括第一预测外观特征、第二预测外观特征、第一预测运动特征以及第二预测运动特征，GT表示标签图像，包括第一标签图像以及第二标签图像；l_bce(S,GT)可以包括上述的交叉熵损失值L_b1、交叉熵损失值L_b2、交叉熵损失值L_b3以及交叉熵损失值L_b4；交叉熵损失l_bce在像素级测量预测特征的质量。

SSIM损失有助于样本视频对象分割模型更加关注目标边界信息，本申请实施例令x＝{x_i:i＝1，...，N²}为N×N的预测的显著图(可以根据预测特征生成)的区块，{y_i:i＝1，...，N²}为N×N的标签图像的区块，可以如下公式计算SSIM损失值：

其中，公式(39)中的μ_x，μ_y分别表示预测的区块对应的均值和标签图像的区块对应的均值；σ_x,σ_y分别表示预测的区块对应的方差和标签图像的区块对应的方差，σ_xy是协方差，本申请实施例通将常数参数c₁＝0.01²,常数参数c2＝0.03²,作为保持损失函数的稳定性。l_ssim(S,GT)可以包括上述的相似性损失值L_s1、相似性损失值L_s2、相似性损失值L_s3以及相似性损失值L_s4；l_ssim(S,GT)在区块级测量预测特征的质量。

交并比广泛用于检测和分割任务中的评估和损失函数，其中交并比损失函数定义为如下公式：

其中，l_iou(S,GT)可以包括上述的重合度损失值L_i1、重合度损失值L_i2、重合度损失值L_i3以及重合度损失值L_i4；l_iou(S，GT)在对象级测量预测特征的质量。

总结上述三种损失函数，样本视频对象分割模型总的损失函数为：

L＝l_bce(S，GT)+l_ssim(S，GT)+l_iou(S，GT) (41)

本申请实施例不对样本视频对象分割模型中的各个网络层进行限定，可以为基于任意一种神经网络组成，例如卷积神经网络(Convolutional Neural Networks,CNN)、残差网络(Residual Network,ResNet)等网络。

进一步地，请参见图10，图10是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示，该数据处理装置1可以包括：第一获取模块11、第二获取模块12、第三获取模块13、第四获取模快14以及识别对象模块15。

第一获取模块11，用于获取视频中的第一视频帧以及第二视频帧，获取第一视频帧对应的第一光流数据，以及第二视频帧对应的第二光流数据；

第二获取模块12，用于根据第一视频帧、第二视频帧、第一光流数据以及第二光流数据，获取显著对象特征；

第三获取模块13，用于根据第一视频帧以及第一光流数据之间的外观与运动的关联关系，获取第一运动对象特征，根据第二视频帧以及第二光流数据之间的外观与运动的关联关系，获取第二运动对象特征；

第四获取模快14，用于根据第一视频帧以及第二视频帧之间的外观关联关系，获取第一循环对象特征，根据第一光流数据以及第二光流数据之间的运动关联关系，获取第二循环对象特征；

识别对象模块15，用于根据显著对象特征、第一运动对象特征、第二运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。

其中，第一获取模块11、第二获取模块12、第三获取模块13、第四获取模快14以及识别对象模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

再请参见图10，数据处理装置1还可以包括：第五获取模块16以及生成特征模块17。

第五获取模块16，用于获取视频对象分割模型，将第一视频帧、第二视频帧、第一光流数据以及第二光流数据分别输入至视频对象分割模型；视频对象分割模型包括第一卷积网络层以及编码网络层；

生成特征模块17，用于通过第一卷积网络层，对第一视频帧进行特征卷积处理，生成第一初始外观特征，对第二视频帧进行特征卷积处理，生成第二初始外观特征，对第一光流数据进行特征卷积处理，生成第一初始运动特征，对第二光流数据进行特征卷积处理，生成第二初始运动特征；

则第二获取模块12，具体用于通过编码网络层，分别对第一初始外观特征、第二初始外观特征、第一初始运动特征，以及第二初始运动特征进行特征提取，得到显著对象特征；

则第三获取模块13，具体用于通过编码网络层，识别第一初始外观特征以及第一初始运动特征之间的外观与运动的关联关系，根据第一初始外观特征以及第一初始运动特征之间的外观与运动的关联关系，获取第一运动对象特征；

第三获取模块13，还具体用于通过编码网络层，识别第二初始外观特征以及第二初始运动特征之间的外观与运动的关联关系，根据第二初始外观特征以及第二初始运动特征之间的外观与运动的关联关系，获取第二运动对象特征；

则第四获取模块14，具体用于通过编码网络层，识别第一初始外观特征以及第二初始外观特征之间的外观关联关系，根据外观关联关系，获取第一循环对象特征；

第四获取模块14，还具体用于通过编码网络层，识别第一初始运动特征以及第二初始运动特征之间的运动关联关系，根据运动关联关系，获取第二循环对象特征。

其中，第一获取模块11、第二获取模块12、第三获取模块13、第四获取模块14、识别对象模块15、第五获取模块16以及生成特征模块17的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

再请参见图10，编码网络层包括第二卷积网络层以及第一互助变换网络层；

第二获取模块12可以包括：第一处理单元121、第二处理单元122以及第一确定单元123。

第一处理单元121，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第二处理单元122，用于通过第一互助变换网络层，对由第一待编码外观特征组成的特征对进行相似性处理，得到第一视频帧对应的第一对比度，对由第二待编码外观特征组成的特征对进行相似性处理，得到第二视频帧对应的第二对比度，对由第一待编码运动特征组成的特征对进行相似性处理，得到第一光流数据对应的第三对比度，对由第二待编码运动特征组成的特征对进行相似性处理，得到第二光流数据对应的第四对比度；

第一确定单元123，用于将第一对比度、第二对比度、第三对比度以及第四对比度，均确定为显著对象特征。

其中，第一处理单元121、第二处理单元122以及第一确定单元123的具体功能实现方式可以参见上述图3对应实施例中的步骤S102，这里不再进行赘述。

再请参见图10，编码网络层包括第二卷积网络层以及第二互助变换网络层；

第三获取模块13可以包括：第三处理单元131以及第二确定单元132。

第三处理单元131，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征；

第二确定单元132，用于在第二互助变换网络层中，通过第一待编码外观特征过滤第一待编码运动特征中的异常运动特征，将过滤异常运动特征后的第一待编码运动特征，确定为第一光流数据对应的运动对象特征；

第二确定单元132，还用于通过第一待编码运动特征增强第一待编码外观特征中的运动对象特征，将增强运动对象特征后的第一待编码外观特征，确定为第一视频帧对应的运动对象特征；

第二确定单元132，还用于将第一光流数据对应的运动对象特征以及第一视频帧对应的运动对象特征，确定为第一运动对象特征。

其中，第三处理单元131以及第二确定单元132的具体功能实现方式可以参见上述图3对应实施例中的步骤S103，这里不再进行赘述。

再请参见图10，编码网络层包括第二卷积网络层以及第二互助变换网络层，第二互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；

第三获取模块13可以包括：第一生成单元133以及第二生成单元134。

第一生成单元133，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征；

第二生成单元134，用于通过互助缩放组件，对第一待编码外观特征进行特征缩放处理，得到外观缩放特征，对第一待编码运动特征进行特征缩放处理，得到运动缩放特征；

第二生成单元134，还用于通过互助变换组件，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据变换后的外观缩放特征以及运动缩放特征，得到运动增强特征，对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据变换后的运动缩放特征以及外观缩放特征，得到外观增强特征；

第二生成单元134，还用于通过互助门控组件，对外观增强特征进行特征平衡处理，得到第一视频帧对应的运动对象特征，对运动增强特征进行特征平衡处理，得到第一光流数据对应的运动对象特征；

第二生成单元134，还用于将第一光流数据对应的运动对象特征以及第一视频帧对应的运动对象特征，确定为第一运动对象特征。

其中，第一生成单元133以及第二生成单元134的具体功能实现方式可以参见上述图6对应实施例中的步骤S1031-步骤S1035，这里不再进行赘述。

再请参见图10，第二生成单元134可以包括：第一处理子单元1341以及第一生成子单元1342。

第一处理子单元1341，用于在互助缩放组件中，对第一待编码外观特征以及第一待编码运动特征进行特征组合处理，得到待编码组合特征；

第一处理子单元1341，还用于对待编码组合特征进行特征压缩处理，得到编码压缩特征；

第一处理子单元1341，还用于对编码压缩特征进行特征激励处理，得到针对第一待编码外观特征的第一权重，以及针对第一待编码运动特征的第二权重；

第一生成子单元1342，用于根据第一待编码外观特征以及第一权重，生成外观缩放特征，根据第一待编码运动特征以及第二权重，生成运动缩放特征。

其中，第一处理子单元1341以及第一生成子单元1342的具体功能实现方式可以参见上述图3对应实施例中的步骤S1032，这里不再进行赘述。

再请参见图10，第二生成单元134可以包括：第二处理子单元1343以及第三处理子单元1344。

第二处理子单元1343，用于在互助变换组件中，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征；

第二处理子单元1343，还用于对外观缩放特征以及运动缩放特征的转置矩阵进行相似性处理，得到针对运动缩放特征的第一相似矩阵；

第二处理子单元1343，还用于根据变换后的外观缩放特征以及第一相似矩阵，对运动缩放特征进行特征增强处理，得到运动增强特征；

第三处理子单元1344，用于对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征；

第三处理子单元1344，还用于对运动缩放特征以及外观缩放特征的转置矩阵进行相似性处理，得到针对外观缩放特征的第二相似矩阵；

第三处理子单元1344，还用于根据变换后的运动缩放特征以及第二相似矩阵，对外观缩放特征进行特征增强处理，得到外观增强特征。

其中，第二处理子单元1343以及第三处理子单元1344的具体功能实现方式可以参见上述图6对应实施例中的步骤S1033，这里不再进行赘述。

再请参见图10，第二生成单元134可以包括：第二生成子单元1345。

第二生成子单元1345，用于在互助门控组件中，根据外观增强特征以及运动增强特征，生成针对外观增强特征的第一互助矩阵，以及针对运动增强特征的第二互助矩阵；

第二生成子单元1345，还用于通过第一互助矩阵，对外观增强特征进行特征平衡处理，得到第一视频帧对应的运动对象特征，通过第二互助矩阵，对运动增强特征进行特征平衡处理，得到第一光流数据对应的运动对象特征。

其中，第二生成子单元1345的具体功能实现方式可以参见上述图3对应实施例中的步骤S1034，这里不再进行赘述。

第三获取模块13可以包括：第四处理单元135以及第三确定单元136。

第四处理单元135，用于通过第二卷积网络层，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第三确定单元136，用于在第二互助变换网络层中，通过第二待编码外观特征过滤第二待编码运动特征中的异常运动特征，将过滤异常运动特征后的第二待编码运动特征，确定为第二光流数据对应的运动对象特征；

第三确定单元136，还用于通过第二待编码运动特征增强第二待编码外观特征中的运动对象特征，将增强运动对象特征后的第二待编码外观特征，确定为第二视频帧对应的运动对象特征；

第三确定单元136，还用于将第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征，确定为第二运动对象特征。

其中，第四处理单元135以及第三确定单元136的具体功能实现方式可以参见上述图3对应实施例中的步骤S103，这里不再进行赘述。

第三获取模块13可以包括：第三生成单元137以及第四生成单元138。

第三生成单元137，用于通过第二卷积网络层，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第四生成单元138，用于通过互助缩放组件，对第二待编码外观特征进行特征缩放处理，得到外观缩放特征，对第二待编码运动特征进行特征缩放处理，得到运动缩放特征；

第四生成单元138，还用于通过互助变换组件，对外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据变换后的外观缩放特征以及运动缩放特征，得到运动增强特征，对运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据变换后的运动缩放特征以及外观缩放特征，得到外观增强特征；

第四生成单元138，还用于通过互助门控组件，对外观增强特征进行特征平衡处理，得到第二视频帧对应的运动对象特征，对运动增强特征进行特征平衡处理，得到第二光流数据对应的运动对象特征；

第四生成单元138，还用于将第二光流数据对应的运动对象特征以及第二视频帧对应的运动对象特征，确定为第二运动对象特征。

其中，第三生成单元137以及第四生成单元138的具体功能实现方式可以参见上述图6对应实施例中的步骤S1031-步骤S1035，这里不再进行赘述。

再请参见图10，编码网络层包括第二卷积网络层以及第三互助变换网络层；

第四获取模快14可以包括：第五处理单元141以及第五生成单元142。

第五处理单元141，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征；

第五生成单元142，用于在第三互助变换网络层中，通过第一待编码外观特征增强第二待编码外观特征中的相关外观特征，得到第一视频帧对应的循环对象特征，通过第二待编码外观特征增强第一待编码外观特征中的相关外观特征，得到第二视频帧对应的循环对象特征；

第五生成单元142，还用于将第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，确定为第一循环对象特征。

其中，第五处理单元141以及第五生成单元142的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

再请参见图10，编码网络层包括第二卷积网络层以及第三互助变换网络层，第三互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；

第四获取模快14可以包括：第六处理单元143以及第六生成单元144。

第六处理单元143，用于通过第二卷积网络层，对第一初始外观特征进行特征卷积处理，生成第一视频帧对应的第一待编码外观特征，对第二初始外观特征进行特征卷积处理，生成第二视频帧对应的第二待编码外观特征；

第六生成单元144，用于通过互助缩放组件，对第一待编码外观特征进行特征缩放处理，得到第一视频帧对应的外观缩放特征，对第二待编码外观特征进行特征缩放处理，得到第二视频帧对应的外观缩放特征；

第六生成单元144，还用于通过互助变换组件，对第一视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第一视频帧对应的外观缩放特征，根据变换后的第一视频帧对应的外观缩放特征以及第二视频帧对应的外观缩放特征，得到第一视频帧对应的外观增强特征，对第二视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第二视频帧对应的外观缩放特征，根据变换后的第二视频帧对应的外观缩放特征以及第一视频帧对应的外观缩放特征，得到第二视频帧对应的外观增强特征；

第六生成单元144，还用于通过互助门控组件，对第一视频帧对应的外观增强特征进行特征平衡处理，得到第一视频帧对应的循环对象特征，对第二视频帧对应的外观增强特征进行特征平衡处理，得到第二视频帧对应的循环对象特征；

第六生成单元144，还用于将第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，确定为第一循环对象特征。

其中，第六处理单元143以及第六生成单元144的具体功能实现方式可以参见上述图8对应实施例中的步骤S1041-步骤S1045，这里不再进行赘述。

再请参见图10，第六生成单元144可以包括：第四处理子单元1441以及第三生成子单元1442。

第四处理子单元1441，用于在互助缩放组件中，对第一待编码外观特征以及第二待编码外观特征进行特征组合处理，得到待编码组合特征；

第四处理子单元1441，还用于对待编码组合特征进行特征压缩处理，得到编码压缩特征；

第四处理子单元1441，还用于对编码压缩特征进行特征激励处理，得到针对第一待编码外观特征的第一权重，以及针对第二待编码外观特征的第二权重；

第三生成子单元1442，用于根据第一待编码外观特征以及第一权重，生成第一视频帧对应的外观缩放特征，根据第二待编码外观特征以及第二权重，生成第二视频帧对应的外观缩放特征。

其中，第四处理子单元1441以及第三生成子单元1442的具体功能实现方式可以参见上述图8对应实施例中的步骤S1042，这里不再进行赘述。

再请参见图10，第六生成单元144可以包括：第五处理子单元1443以及第六处理子单元1444。

第五处理子单元1443，用于在互助变换组件中，对第一视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第一视频帧对应的外观缩放特征；

第五处理子单元1443，还用于对第一视频帧对应的外观缩放特征以及第二视频帧对应的外观缩放特征的转置矩阵进行相似性处理，得到针对第二视频帧对应的外观缩放特征的第一相似矩阵；

第五处理子单元1443，还用于根据变换后的第一视频帧对应的外观缩放特征以及第一相似矩阵，对第二视频帧对应的外观缩放特征进行特征增强处理，得到第二视频帧对应的外观增强特征；

第六处理子单元1444，用于对第二视频帧对应的外观缩放特征进行特征变换处理，得到变换后的第二视频帧对应的外观缩放特征；

第六处理子单元1444，还用于对第二视频帧对应的外观缩放特征以及第一视频帧对应的外观缩放特征的转置矩阵进行相似性处理，得到针对第一视频帧对应的外观缩放特征的第二相似矩阵；

第六处理子单元1444，还用于根据变换后的第一视频帧对应的外观缩放特征以及第二相似矩阵，对第一视频帧对应的外观缩放特征进行特征增强处理，得到第一视频帧对应的外观增强特征。

其中，第五处理子单元1443以及第六处理子单元1444的具体功能实现方式可以参见上述图8对应实施例中的步骤S1043，这里不再进行赘述。

再请参见图10，第六生成单元144可以包括：第四生成子单元1445。

第四生成子单元1445，用于在互助门控组件中，根据第一视频帧对应的外观增强特征以及第二视频帧对应的外观增强特征，生成针对第一视频帧对应的外观增强特征的第一互助矩阵，以及针对第二视频帧对应的外观增强特征的第二互助矩阵；

第四生成子单元1445，还用于通过第一互助矩阵，对第一视频帧对应的外观增强特征进行特征平衡处理，得到第一视频帧对应的循环对象特征，通过第二互助矩阵，对第二视频帧对应的外观增强特征进行特征平衡处理，得到第二视频帧对应的循环对象特征。

其中，第四生成子单元1445的具体功能实现方式可以参见上述图8对应实施例中的步骤S1044，这里不再进行赘述。

第四获取模快14可以包括：第七处理单元145以及第七生成单元146。

第七处理单元145，用于通过第二卷积网络层，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第七生成单元146，用于在第三互助变换网络层中，通过第一待编码运动特征增强第二待编码运动特征中的相关运动特征，得到第一光流数据对应的循环对象特征，通过第二待编码运动特征增强第一待编码运动特征中的相关运动特征，得到第二光流数据对应的循环对象特征；

第七生成单元146，还用于将第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征，确定为第二循环对象特征。

其中，第七处理单元145以及第七生成单元146的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

第四获取模快14可以包括：第八处理单元147以及第八生成单元148。

第八处理单元147，用于通过第二卷积网络层，对第一初始运动特征进行特征卷积处理，生成第一光流数据对应的第一待编码运动特征，对第二初始运动特征进行特征卷积处理，生成第二光流数据对应的第二待编码运动特征；

第八生成单元148，用于通过互助缩放组件，对第一待编码运动特征进行特征缩放处理，得到第一光流数据对应的运动缩放特征，对第二待编码运动特征进行特征缩放处理，得到第二光流数据对应的运动缩放特征；

第八生成单元148，还用于通过互助变换组件，对第一光流数据对应的运动缩放特征进行特征变换处理，得到变换后的第一光流数据对应的运动缩放特征，根据变换后的第一光流数据对应的运动缩放特征以及第二光流数据对应的运动缩放特征，得到第一光流数据对应的运动增强特征，对第二光流数据对应的运动缩放特征进行特征变换处理，得到变换后的第二光流数据对应的运动缩放特征，根据变换后的第二光流数据对应的运动缩放特征以及第一光流数据对应的运动缩放特征，得到第二光流数据对应的运动增强特征；

第八生成单元148，还用于通过互助门控组件，对第一光流数据对应的运动增强特征进行特征平衡处理，得到第一光流数据对应的循环对象特征，对第二光流数据对应的运动增强特征进行特征平衡处理，得到第二光流数据对应的循环对象特征；

第八生成单元148，还用于将第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征，确定为第二循环对象特征。

其中，第八处理单元147以及第八生成单元148的具体功能实现方式可以参见上述图8对应实施例中的步骤S1041-步骤S1045，这里不再进行赘述。

再请参见图10，第一运动对象特征包括第一光流数据对应的运动对象特征，以及第一视频帧对应的运动对象特征，第二运动对象特征包括第二光流数据对应的运动对象特征，以及第二视频帧对应的运动对象特征，第一循环对象特征包括第一视频帧对应的循环对象特征以及第二视频帧对应的循环对象特征，第二循环对象特征包括第一光流数据对应的循环对象特征以及第二光流数据对应的循环对象特征；视频对象分割模型还包括第一融合网络层以及第二融合网络层；

识别对象模块15可以包括：第一组合单元151、第二组合单元152第三组合单元153、第四组合单元154、第九处理单元155以及识别对象单元156。

第一组合单元151，用于对第一待编码外观特征、第一对比度、第一视频帧对应的运动对象特征以及第一视频帧对应的循环对象特征进行特征组合处理，得到第一视频帧对应的第一编码外观特征；

第二组合单元152，用于对第二待编码外观特征、第二对比度、第二视频帧对应的运动对象特征以及第二视频帧对应的循环对象特征进行特征组合处理，得到第二视频帧对应的第二编码外观特征；

第三组合单元153，用于对第一待编码运动特征、第三对比度、第一光流数据对应的运动对象特征以及第一光流数据对应的循环对象特征进行特征组合处理，得到第一光流数据对应的第一编码运动特征；

第四组合单元154，用于对第二待编码运动特征、第四对比度、第二光流数据对应的运动对象特征以及第二光流数据对应的循环对象特征进行特征组合处理，得到第二光流数据对应的第二编码运动特征；

第九处理单元155，用于通过第一融合网络层，对第一编码外观特征以及第一编码运动特征进行特征融合处理，得到第一编码融合特征，通过第二融合网络层，对第二编码外观特征以及第二编码运动特征进行特征融合处理，得到第二编码融合特征；

识别对象单元156，用于根据第一编码外观特征、第二编码外观特征、第一编码融合特征以及第二编码融合特征，识别视频中的目标对象。

其中，第一组合单元151、第二组合单元152第三组合单元153、第四组合单元154、第九处理单元155以及识别对象单元156的具体功能实现方式可以参见上述图3对应实施例中的步骤S105，这里不再进行赘述。

再请参见图10，第一融合网络层包括通道注意力组件以及空间注意力组件；

第九处理单元155可以包括：第七处理子单元1551以及第八处理子单元1552。

第七处理子单元1551，用于在过通道注意力组件中，对第一编码外观特征以及第一编码运动特征进行特征组合处理，得到编码组合特征；

第七处理子单元1551，还用于对编码组合特征进行特征压缩处理，得到编码压缩特征；

第七处理子单元1551，还用于对编码压缩特征进行特征激励处理，得到针对第一编码外观特征的第一外观权重，根据第一外观权重，生成针对第一编码运动特征的第一运动权重；

第七处理子单元1551，还用于根据第一编码外观特征以及第一外观权重，生成通道外观特征，根据第一编码运动特征以及第一运动权重，生成通道运动特征；

第八处理子单元1552，用于在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征；

第八处理子单元1552，还用于根据空间外观特征以及空间运动特征，生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；

第八处理子单元1552，还用于根据通道外观特征以及第二外观权重，生成待融合外观特征，根据通道运动特征以及第二运动权重，生成待融合运动特征；

第八处理子单元1552，还用于对待融合外观特征以及待融合运动特征进行特征融合处理，得到第一编码融合特征。

其中，第七处理子单元1551以及第八处理子单元1552的具体功能实现方式可以参见上述图3对应实施例中的步骤S105，这里不再进行赘述。

再请参见图10，第二融合网络层包括通道注意力组件以及空间注意力组件；

第九处理单元155可以包括：第九处理子单元1553以及第十处理子单元1554。

第九处理子单元1553，用于在过通道注意力组件中，对第二编码外观特征以及第二编码运动特征进行特征组合处理，得到编码组合特征；

第九处理子单元1553，还用于对编码组合特征进行特征压缩处理，得到编码压缩特征；

第九处理子单元1553，还用于对编码压缩特征进行特征激励处理，得到针对第二编码外观特征的第一外观权重，根据第一外观权重，生成针对第一编码运动特征的第一运动权重；

第九处理子单元1553，还用于根据第二编码外观特征以及第一外观权重，生成通道外观特征，根据第二编码运动特征以及第一运动权重，生成通道运动特征；

第十处理子单元1554，用于在空间注意力组件中，对通道外观特征进行特征池化处理，得到空间外观特征，对通道运动特征进行特征池化处理，得到空间运动特征；

第十处理子单元1554，还用于根据空间外观特征以及空间运动特征，生成针对通道外观特征的第二外观权重，根据第二外观权重，生成针对通道运动特征的第二运动权重；

第十处理子单元1554，还用于根据通道外观特征以及第二外观权重，生成待融合外观特征，根据通道运动特征以及第二运动权重，生成待融合运动特征；

第十处理子单元1554，还用于对待融合外观特征以及待融合运动特征进行特征融合处理，得到第二编码融合特征。

其中，第九处理子单元1553以及第十处理子单元1554的具体功能实现方式可以参见上述图3对应实施例中的步骤S105，这里不再进行赘述。

再请参见图10，视频对象分割模型还包括第三卷积网络层以及解码网络层；

识别对象单元156可以包括：第五生成子单元1561、第六生成子单元1562以及识别对象子单元1563。

第五生成子单元1561，用于通过第三卷积网络层，对第一编码外观特征以及第二编码外观特征分别进行特征卷积处理，生成第一视频帧对应的第一待解码外观特征，以及第二视频帧对应的第二待解码外观特征；

第六生成子单元1562，用于通过解码网络层，对第一待解码外观特征以及第一编码融合特征进行特征解码处理，生成第一视频帧对应的第一解码外观特征，对第二待解码外观特征以及第二编码融合特征进行特征解码处理，生成第二视频帧对应的第二解码外观特征；

第六生成子单元1562，还用于根据第一解码外观特征确定第一视频帧的目标对象，根据第二解码外观特征确定第二视频帧的目标对象；

识别对象子单元1563，用于根据第一视频帧的目标对象以及第二视频帧的目标对象，识别视频中的目标对象。

其中，第五生成子单元1561、第六生成子单元1562以及识别对象子单元1563的具体功能实现方式可以参见上述图3对应实施例中的步骤S105，这里不再进行赘述。

在本申请实施例中，首先通过单帧以及单流数据，获取显著对象特征，通过外观与运动的关联关系，获取运动对象特征(包括第一运动对象特征以及第二运动对象特征)，通过外观关联关系获取第一循环对象特征，通过运动关联关系，获取第二循环对象特征；然后通过关联显著对象特征、运动对象特征、第一循环对象特征以及第二循环对象特征，识别视频中的目标对象。上述可知，本申请通过交互机制(包括外观与运动的关联关系、外观关联关系以及运动关联关系)，可以让输入数据(包括视频帧以及光流数据)有机地协调起来，并通过关联显著对象特征、运动对象特征和循环对象特征三个关键因素，识别视频中的目标对象，从而可以有效地消除视频中的模糊干扰，在去除共动异常点的同时聚焦于外观显著的运动对象(即目标对象)，故可以提高视频中的目标对象的识别准确率。进一步地，请参见图11，图11是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示，该数据处理装置2可以包括：第一获取模块21、输入样本模块22、第二获取模块23、预测特征模块24以及生成模型模块25。

第一获取模块21，用于获取训练样本集；训练样本集包括样本视频中的第一样本视频帧，以及第二样本视频帧、第一样本视频帧对应的第一样本光流数据、第二样本视频帧对应的第二样本光流数据、第一样本视频帧对应的第一标签图像，以及第二样本视频帧对应的第二标签图像；

输入样本模块22，用于将第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据分别输入至样本视频对象分割模型；

第二获取模块23，用于在样本视频对象分割模型中，根据第一样本视频帧、第二样本视频帧、第一样本光流数据以及第二样本光流数据，获取预测显著对象特征；

第二获取模块23，还用于根据第一样本视频帧以及第一样本光流数据之间的外观与运动的关联关系，获取第一预测运动对象特征，根据第二样本视频帧以及第二样本光流数据之间的外观与运动的关联关系，获取第二预测运动对象特征；

第二获取模块23，还用于根据第一样本视频帧以及第二样本视频帧之间的外观关联关系，获取第一预测循环对象特征，根据第一样本光流数据以及第二样本光流数据之间的运动关联关系，获取第二预测循环对象特征；

预测特征模块24，用于根据预测显著对象特征、第一预测运动对象特征、第二预测运动对象特征、第一预测循环对象特征以及第二预测循环对象特征，确定第一样本视频帧对应的第一预测外观特征，第二样本视频帧对应的第二预测外观特征，第一样本光流数据对应的第一预测运动特征，第二样本光流数据对应的第二预测运动特征；

生成模型模块25，用于根据第一预测外观特征、第二预测外观特征、第一预测运动特征、第二预测运动特征、第一标签图像，以及第二标签图像，对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型；视频对象分割模型用于识别视频中的目标对象。

其中，第一获取模块21、输入样本模块22、第二获取模块23、预测特征模块24以及生成模型模块25的具体功能实现方式可以参见上述图9对应实施例中的步骤S201-步骤S207，这里不再进行赘述。

再请参见图11，生成模型模块25可以包括：第一确定单元251、第二确定单元252、第三确定单元253、第四确定单元254以及第五确定单元255。

第一确定单元251，用于根据第一预测外观特征以及第一标签图像之间的交叉熵，确定第一样本视频帧的交叉熵损失值L_b1，根据第一预测外观特征以及第一标签图像之间的相似性，确定第一样本视频帧的相似性损失值L_s1，根据第一预测外观特征以及第一标签图像之间的重合度，确定第一样本视频帧的重合度损失值L_i1；

第二确定单元252，用于根据第一预测运动特征以及第一标签图像之间的交叉熵，确定第一样本光流数据的交叉熵损失值L_b2，根据第一预测运动特征以及第一标签图像之间的相似性，确定第一样本光流数据的相似性损失值L_s2，根据第一预测运动特征以及第一标签图像之间的重合度，确定第一样本光流数据的重合度损失值L_i2；

第三确定单元253，用于根据第二预测外观特征以及第二标签图像之间的交叉熵，确定第二样本视频帧的交叉熵损失值L_b3，根据第二预测外观特征以及第二标签图像之间的相似性，确定第二样本视频帧的相似性损失值L_s3，根据第二预测外观特征以及第二标签图像之间的重合度，确定第二样本视频帧的重合度损失值L_i3；

第四确定单元254，用于根据第二预测运动特征以及第二标签图像之间的交叉熵，确定第二样本光流数据的交叉熵损失值L_b4，根据第二预测运动特征以及第二标签图像之间的相似性，确定第二样本光流数据的相似性损失值L_s4，根据第二预测运动特征以及第二标签图像之间的重合度，确定第二样本光流数据的重合度损失值L_i4；

第五确定单元255，用于根据交叉熵损失值L_b1、相似性损失值L_s1、重合度损失值L_i1、交叉熵损失值L_b2、相似性损失值L_s2、重合度损失值L_i2、交叉熵损失值L_b3、相似性损失值L_s3、重合度损失值L_i3、交叉熵损失值L_b4、相似性损失值L_s4以及重合度损失值L_i4，确定样本视频对象分割模型的总损失值，根据总损失值对样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型。

其中，第一确定单元251、第二确定单元252、第三确定单元253、第四确定单元254以及第五确定单元255的具体功能实现方式可以参见上述图9对应实施例中的步骤S207，这里不再进行赘述。

进一步地，请参见图12，图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示，该计算机设备1000可以为上述图3对应实施例中的计算机设备，该计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图12所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3、图6、图8以及图9所对应实施例中对数据处理方法的描述，也可执行前文图10所对应实施例中对数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，该计算机设备2000可以为上述图9对应实施例中的计算机设备，上述计算机设备2000可以包括：处理器2001，网络接口2004和存储器2005，此外，上述计算机设备2000还可以包括：用户接口2003，和至少一个通信总线2002。其中，通信总线2002用于实现这些组件之间的连接通信。其中，用户接口2003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图13所示，作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备2000中，网络接口2004可提供网络通讯功能；而用户接口2003主要用于为用户提供输入的接口；而处理器2001可以用于调用存储器2005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备2000可执行前文图3、图6、图8以及图9所对应实施例中对数据处理方法的描述，也可执行前文图12所对应实施例中对数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图3、图6、图8以及图9中各个步骤所提供的数据处理方法，具体可参见上述图3、图6、图8以及图9各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前图3、图6、图8以及图9所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取视频中的第一视频帧以及第二视频帧，获取所述第一视频帧对应的第一光流数据，以及所述第二视频帧对应的第二光流数据；

根据所述第一视频帧、所述第二视频帧、所述第一光流数据以及所述第二光流数据，获取显著对象特征；

根据所述第一视频帧以及所述第一光流数据之间的外观与运动的关联关系，获取第一运动对象特征，根据所述第二视频帧以及所述第二光流数据之间的外观与运动的关联关系，获取第二运动对象特征；

根据所述第一视频帧以及所述第二视频帧之间的外观关联关系，获取第一循环对象特征，根据所述第一光流数据以及所述第二光流数据之间的运动关联关系，获取第二循环对象特征；

根据所述显著对象特征、所述第一运动对象特征、所述第二运动对象特征、所述第一循环对象特征以及所述第二循环对象特征，识别所述视频中的目标对象。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取视频对象分割模型，将所述第一视频帧、所述第二视频帧、所述第一光流数据以及所述第二光流数据分别输入至所述视频对象分割模型；视频对象分割模型包括第一卷积网络层以及编码网络层；

通过所述第一卷积网络层，对所述第一视频帧进行特征卷积处理，生成第一初始外观特征，对所述第二视频帧进行特征卷积处理，生成第二初始外观特征，对所述第一光流数据进行特征卷积处理，生成第一初始运动特征，对所述第二光流数据进行特征卷积处理，生成第二初始运动特征；

则所述根据所述第一视频帧、所述第二视频帧、所述第一光流数据以及所述第二光流数据，获取显著对象特征，包括：

通过所述编码网络层，分别对所述第一初始外观特征、所述第二初始外观特征、所述第一初始运动特征，以及所述第二初始运动特征进行特征提取，得到所述显著对象特征；

则所述根据所述第一视频帧以及所述第一光流数据之间的外观与运动的关联关系，获取第一运动对象特征，根据所述第二视频帧以及所述第二光流数据之间的外观与运动的关联关系，获取第二运动对象特征，包括：

通过所述编码网络层，识别所述第一初始外观特征以及所述第一初始运动特征之间的外观与运动的关联关系，根据所述第一初始外观特征以及所述第一初始运动特征之间的外观与运动的关联关系，获取所述第一运动对象特征；

通过所述编码网络层，识别所述第二初始外观特征以及所述第二初始运动特征之间的外观与运动的关联关系，根据所述第二初始外观特征以及所述第二初始运动特征之间的外观与运动的关联关系，获取所述第二运动对象特征；

则所述根据所述第一视频帧以及所述第二视频帧之间的外观关联关系，获取第一循环对象特征，根据所述第一光流数据以及所述第二光流数据之间的运动关联关系，获取第二循环对象特征，包括：

通过所述编码网络层，识别所述第一初始外观特征以及所述第二初始外观特征之间的外观关联关系，根据所述外观关联关系，获取所述第一循环对象特征；

通过所述编码网络层，识别所述第一初始运动特征以及所述第二初始运动特征之间的运动关联关系，根据所述运动关联关系，获取所述第二循环对象特征。

3.根据权利要求2所述的方法，其特征在于，所述编码网络层包括第二卷积网络层以及第一互助变换网络层；

所述通过所述编码网络层，分别对所述第一初始外观特征、所述第二初始外观特征、所述第一初始运动特征，以及所述第二初始运动特征进行特征提取，得到所述显著对象特征，包括：

通过所述第二卷积网络层，对所述第一初始外观特征进行特征卷积处理，生成所述第一视频帧对应的第一待编码外观特征，对所述第二初始外观特征进行特征卷积处理，生成所述第二视频帧对应的第二待编码外观特征，对所述第一初始运动特征进行特征卷积处理，生成所述第一光流数据对应的第一待编码运动特征，对所述第二初始运动特征进行特征卷积处理，生成所述第二光流数据对应的第二待编码运动特征；

通过所述第一互助变换网络层，对由所述第一待编码外观特征组成的特征对进行相似性处理，得到所述第一视频帧对应的第一对比度，对由所述第二待编码外观特征组成的特征对进行相似性处理，得到所述第二视频帧对应的第二对比度，对由所述第一待编码运动特征组成的特征对进行相似性处理，得到所述第一光流数据对应的第三对比度，对由所述第二待编码运动特征组成的特征对进行相似性处理，得到所述第二光流数据对应的第四对比度；

将所述第一对比度、所述第二对比度、所述第三对比度以及所述第四对比度，均确定为所述显著对象特征。

4.根据权利要求2所述的方法，其特征在于，所述编码网络层包括第二卷积网络层以及第二互助变换网络层；

所述通过所述编码网络层，识别所述第一初始外观特征以及所述第一初始运动特征之间的外观与运动的关联关系，根据所述第一初始外观特征以及所述第一初始运动特征之间的外观与运动的关联关系，获取所述第一运动对象特征，包括：

通过所述第二卷积网络层，对所述第一初始外观特征进行特征卷积处理，生成所述第一视频帧对应的第一待编码外观特征，对所述第一初始运动特征进行特征卷积处理，生成所述第一光流数据对应的第一待编码运动特征；

在所述第二互助变换网络层中，通过所述第一待编码外观特征过滤所述第一待编码运动特征中的异常运动特征，将过滤异常运动特征后的第一待编码运动特征，确定为所述第一光流数据对应的运动对象特征；

通过所述第一待编码运动特征增强所述第一待编码外观特征中的运动对象特征，将增强运动对象特征后的第一待编码外观特征，确定为所述第一视频帧对应的运动对象特征；

将所述第一光流数据对应的运动对象特征以及所述第一视频帧对应的运动对象特征，确定为所述第一运动对象特征。

5.根据权利要求2所述的方法，其特征在于，所述编码网络层包括第二卷积网络层以及第二互助变换网络层，所述第二互助变换网络层包括互助缩放组件、互助变换组件以及互助门控组件；

通过所述互助缩放组件，对所述第一待编码外观特征进行特征缩放处理，得到外观缩放特征，对所述第一待编码运动特征进行特征缩放处理，得到运动缩放特征；

通过所述互助变换组件，对所述外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据所述变换后的外观缩放特征以及所述运动缩放特征，得到运动增强特征，对所述运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据所述变换后的运动缩放特征以及所述外观缩放特征，得到外观增强特征；

通过所述互助门控组件，对所述外观增强特征进行特征平衡处理，得到所述第一视频帧对应的运动对象特征，对所述运动增强特征进行特征平衡处理，得到所述第一光流数据对应的运动对象特征；

6.根据权利要求5所述的方法，其特征在于，所述通过所述互助缩放组件，对所述第一待编码外观特征进行特征缩放处理，得到外观缩放特征，对所述第一待编码运动特征进行特征缩放处理，得到运动缩放特征，包括：

在所述互助缩放组件中，对所述第一待编码外观特征以及所述第一待编码运动特征进行特征组合处理，得到待编码组合特征；

对所述待编码组合特征进行特征压缩处理，得到编码压缩特征；

对所述编码压缩特征进行特征激励处理，得到针对所述第一待编码外观特征的第一权重，以及针对所述第一待编码运动特征的第二权重；

根据所述第一待编码外观特征以及所述第一权重，生成所述外观缩放特征，根据所述第一待编码运动特征以及所述第二权重，生成所述运动缩放特征。

7.根据权利要求5所述的方法，其特征在于，所述通过所述互助变换组件，对所述外观缩放特征进行特征变换处理，得到变换后的外观缩放特征，根据所述变换后的外观缩放特征以及所述运动缩放特征，得到运动增强特征，对所述运动缩放特征进行特征变换处理，得到变换后的运动缩放特征，根据所述变换后的运动缩放特征以及所述外观缩放特征，得到外观增强特征，包括：

在所述互助变换组件中，对所述外观缩放特征进行特征变换处理，得到所述变换后的外观缩放特征；

对所述外观缩放特征以及所述运动缩放特征的转置矩阵进行相似性处理，得到针对所述运动缩放特征的第一相似矩阵；

根据所述变换后的外观缩放特征以及所述第一相似矩阵，对所述运动缩放特征进行特征增强处理，得到所述运动增强特征；

对所述运动缩放特征进行特征变换处理，得到变换后的运动缩放特征；

对所述运动缩放特征以及所述外观缩放特征的转置矩阵进行相似性处理，得到针对所述外观缩放特征的第二相似矩阵；

根据所述变换后的运动缩放特征以及所述第二相似矩阵，对所述外观缩放特征进行特征增强处理，得到所述外观增强特征。

8.根据权利要求5所述的方法，其特征在于，所述通过所述互助门控组件，对所述外观增强特征进行特征平衡处理，得到所述第一视频帧对应的运动对象特征，对所述运动增强特征进行特征平衡处理，得到所述第一光流数据对应的运动对象特征，包括：

在所述互助门控组件中，根据所述外观增强特征以及所述运动增强特征，生成针对所述外观增强特征的第一互助矩阵，以及针对所述运动增强特征的第二互助矩阵；

通过所述第一互助矩阵，对所述外观增强特征进行特征平衡处理，得到所述第一视频帧对应的运动对象特征，通过所述第二互助矩阵，对所述运动增强特征进行特征平衡处理，得到所述第一光流数据对应的运动对象特征。

9.根据权利要求2所述的方法，其特征在于，所述编码网络层包括第二卷积网络层以及第三互助变换网络层；

所述通过所述编码网络层，识别所述第一初始外观特征以及所述第二初始外观特征之间的外观关联关系，根据所述外观关联关系，获取所述第一循环对象特征，包括：

通过所述第二卷积网络层，对所述第一初始外观特征进行特征卷积处理，生成所述第一视频帧对应的第一待编码外观特征，对所述第二初始外观特征进行特征卷积处理，生成所述第二视频帧对应的第二待编码外观特征；

在所述第三互助变换网络层中，通过所述第一待编码外观特征增强所述第二待编码外观特征中的相关外观特征，得到所述第一视频帧对应的循环对象特征，通过所述第二待编码外观特征增强所述第一待编码外观特征中的相关外观特征，得到所述第二视频帧对应的循环对象特征；

将所述第一视频帧对应的循环对象特征以及所述第二视频帧对应的循环对象特征，确定为所述第一循环对象特征。

10.根据权利要求3所述的方法，其特征在于，所述第一运动对象特征包括所述第一光流数据对应的运动对象特征，以及所述第一视频帧对应的运动对象特征，所述第二运动对象特征包括所述第二光流数据对应的运动对象特征，以及所述第二视频帧对应的运动对象特征，所述第一循环对象特征包括所述第一视频帧对应的循环对象特征以及所述第二视频帧对应的循环对象特征，所述第二循环对象特征包括所述第一光流数据对应的循环对象特征以及所述第二光流数据对应的循环对象特征；所述视频对象分割模型还包括第一融合网络层以及第二融合网络层；

所述根据所述显著对象特征、所述第一运动对象特征、所述第二运动对象特征、所述第一循环对象特征以及所述第二循环对象特征，识别所述视频中的目标对象，包括：

对所述第一待编码外观特征、所述第一对比度、所述第一视频帧对应的运动对象特征以及所述第一视频帧对应的循环对象特征进行特征组合处理，得到所述第一视频帧对应的第一编码外观特征；

对所述第二待编码外观特征、所述第二对比度、所述第二视频帧对应的运动对象特征以及所述第二视频帧对应的循环对象特征进行特征组合处理，得到所述第二视频帧对应的第二编码外观特征；

对所述第一待编码运动特征、所述第三对比度、所述第一光流数据对应的运动对象特征以及所述第一光流数据对应的循环对象特征进行特征组合处理，得到所述第一光流数据对应的第一编码运动特征；

对所述第二待编码运动特征、所述第四对比度、所述第二光流数据对应的运动对象特征以及所述第二光流数据对应的循环对象特征进行特征组合处理，得到所述第二光流数据对应的第二编码运动特征；

通过所述第一融合网络层，对所述第一编码外观特征以及所述第一编码运动特征进行特征融合处理，得到第一编码融合特征，通过所述第二融合网络层，对所述第二编码外观特征以及所述第二编码运动特征进行特征融合处理，得到第二编码融合特征；

根据所述第一编码外观特征、所述第二编码外观特征、所述第一编码融合特征以及所述第二编码融合特征，识别所述视频中的所述目标对象。

11.根据权利要求10所述的方法，其特征在于，所述第一融合网络层包括通道注意力组件以及空间注意力组件；

所述通过所述第一融合网络层，对所述第一编码外观特征以及所述第一编码运动特征进行特征融合处理，得到第一编码融合特征，包括：

在过所述通道注意力组件中，对所述第一编码外观特征以及所述第一编码运动特征进行特征组合处理，得到编码组合特征；

对所述编码组合特征进行特征压缩处理，得到编码压缩特征；

对所述编码压缩特征进行特征激励处理，得到针对所述第一编码外观特征的第一外观权重，根据所述第一外观权重，生成针对所述第一编码运动特征的第一运动权重；

根据所述第一编码外观特征以及所述第一外观权重，生成通道外观特征，根据所述第一编码运动特征以及所述第一运动权重，生成通道运动特征；

在所述空间注意力组件中，对所述通道外观特征进行特征池化处理，得到空间外观特征，对所述通道运动特征进行特征池化处理，得到空间运动特征；

根据所述空间外观特征以及所述空间运动特征，生成针对所述通道外观特征的第二外观权重，根据所述第二外观权重，生成针对所述通道运动特征的第二运动权重；

根据所述通道外观特征以及所述第二外观权重，生成待融合外观特征，根据所述通道运动特征以及所述第二运动权重，生成待融合运动特征；

对所述待融合外观特征以及所述待融合运动特征进行特征融合处理，得到所述第一编码融合特征。

12.根据权利要求11所述的方法，其特征在于，所述视频对象分割模型还包括第三卷积网络层以及解码网络层；

所述根据所述第一编码外观特征、所述第二编码外观特征、所述第一编码融合特征以及所述第二编码融合特征，识别所述视频中的所述目标对象，包括：

通过所述第三卷积网络层，对所述第一编码外观特征以及所述第二编码外观特征分别进行特征卷积处理，生成所述第一视频帧对应的第一待解码外观特征，以及所述第二视频帧对应的第二待解码外观特征；

通过所述解码网络层，对所述第一待解码外观特征以及所述第一编码融合特征进行特征解码处理，生成所述第一视频帧对应的第一解码外观特征，对所述第二待解码外观特征以及所述第二编码融合特征进行特征解码处理，生成所述第二视频帧对应的第二解码外观特征；

根据所述第一解码外观特征确定所述第一视频帧的目标对象，根据所述第二解码外观特征确定所述第二视频帧的目标对象；

根据所述第一视频帧的目标对象以及所述第二视频帧的目标对象，识别所述视频中的所述目标对象。

13.一种数据处理方法，其特征在于，包括：

获取训练样本集；所述训练样本集包括样本视频中的第一样本视频帧，以及第二样本视频帧、所述第一样本视频帧对应的第一样本光流数据、所述第二样本视频帧对应的第二样本光流数据、所述第一样本视频帧对应的第一标签图像，以及所述第二样本视频帧对应的第二标签图像；

将所述第一样本视频帧、所述第二样本视频帧、所述第一样本光流数据以及所述第二样本光流数据分别输入至样本视频对象分割模型；

在所述样本视频对象分割模型中，根据所述第一样本视频帧、所述第二样本视频帧、所述第一样本光流数据以及所述第二样本光流数据，获取预测显著对象特征；

根据所述第一样本视频帧以及所述第一样本光流数据之间的外观与运动的关联关系，获取第一预测运动对象特征，根据所述第二样本视频帧以及所述第二样本光流数据之间的外观与运动的关联关系，获取第二预测运动对象特征；

根据所述第一样本视频帧以及所述第二样本视频帧之间的外观关联关系，获取第一预测循环对象特征，根据所述第一样本光流数据以及所述第二样本光流数据之间的运动关联关系，获取第二预测循环对象特征；

根据所述预测显著对象特征、所述第一预测运动对象特征、所述第二预测运动对象特征、所述第一预测循环对象特征以及所述第二预测循环对象特征，确定所述第一样本视频帧对应的第一预测外观特征，所述第二样本视频帧对应的第二预测外观特征，所述第一样本光流数据对应的第一预测运动特征，所述第二样本光流数据对应的第二预测运动特征；

根据所述第一预测外观特征、所述第二预测外观特征、所述第一预测运动特征、所述第二预测运动特征、所述第一标签图像，以及所述第二标签图像，对所述样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型；所述视频对象分割模型用于识别视频中的目标对象。

14.根据权利要求13所述的方法，其特征在于，所述根据所述第一预测外观特征、所述第二预测外观特征、所述第一预测运动特征、所述第二预测运动特征、所述第一标签图像，以及所述第二标签图像，对所述样本视频对象分割模型中的模型参数进行调整，生成视频对象分割模型，包括：

根据所述第一预测外观特征以及所述第一标签图像之间的交叉熵，确定所述第一样本视频帧的交叉熵损失值L_b1，根据所述第一预测外观特征以及所述第一标签图像之间的相似性，确定所述第一样本视频帧的相似性损失值L_s1，根据所述第一预测外观特征以及所述第一标签图像之间的重合度，确定所述第一样本视频帧的重合度损失值L_i1；

根据所述第一预测运动特征以及所述第一标签图像之间的交叉熵，确定所述第一样本光流数据的交叉熵损失值L_b2，根据所述第一预测运动特征以及所述第一标签图像之间的相似性，确定所述第一样本光流数据的相似性损失值L_s2，根据所述第一预测运动特征以及所述第一标签图像之间的重合度，确定所述第一样本光流数据的重合度损失值L_i2；

根据所述第二预测外观特征以及所述第二标签图像之间的交叉熵，确定所述第二样本视频帧的交叉熵损失值L_b3，根据所述第二预测外观特征以及所述第二标签图像之间的相似性，确定所述第二样本视频帧的相似性损失值L_s3，根据所述第二预测外观特征以及所述第二标签图像之间的重合度，确定所述第二样本视频帧的重合度损失值L_i3；

根据所述第二预测运动特征以及所述第二标签图像之间的交叉熵，确定所述第二样本光流数据的交叉熵损失值L_b4，根据所述第二预测运动特征以及所述第二标签图像之间的相似性，确定所述第二样本光流数据的相似性损失值L_s4，根据所述第二预测运动特征以及所述第二标签图像之间的重合度，确定所述第二样本光流数据的重合度损失值L_i4；

根据所述交叉熵损失值L_b1、所述相似性损失值L_s1、所述重合度损失值L_i1、所述交叉熵损失值L_b2、所述相似性损失值L_s2、所述重合度损失值L_i2、所述交叉熵损失值L_b3、所述相似性损失值L_s3、所述重合度损失值L_i3、所述交叉熵损失值L_b4、所述相似性损失值L_s4以及所述重合度损失值L_i4，确定所述样本视频对象分割模型的总损失值，根据所述总损失值对所述样本视频对象分割模型中的模型参数进行调整，生成所述视频对象分割模型。

15.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1至14任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。