CN116171462A

CN116171462A - 对象序列的识别方法、网络训练方法、装置、设备及介质

Info

Publication number: CN116171462A
Application number: CN202180002796.2A
Authority: CN
Inventors: 陈景焕; 马佳彬
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2021-09-22
Filing date: 2021-09-27
Publication date: 2023-05-26
Also published as: WO2023047162A1; AU2021240205B1

Abstract

提供了一种对象序列的识别方法、网络训练方法、装置、设备及存储介质，其中，所述方法包括：获取对象序列的图像；采用对象序列的识别网络对对象序列的图像进行特征提取；其中，对象识别的识别网络在训练过程的监督信息包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一样本图像中样本对象序列的类别的第二监督信息；每一样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；确定对象序列中的每个对象的类别。

Description

对象序列的识别方法、网络训练方法、装置、设备及介质

相关申请的交叉引用

本申请要求在2021年9月22日提交新加坡知识产权局、申请号为10202110498V的新加坡专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，涉及但不限于一种对象序列的识别方法、网络训练方法、装置、设备及介质。

背景技术

图像中的序列识别是计算机视觉中的一个重要研究问题。序列识别算法在场景文字识别、车牌识别等场景中有广泛应用。相关技术中，采用神经网络对序列式对象的图像进行识别，其中，神经网络可以由序列式对象中的对象的类别作为监督信息训练得出。

相关技术中，采用常用的序列识别方法对图像中的对象序列进行序列识别效果不佳。

发明内容

本申请实施例提供一种对象序列的识别技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供的一种对象序列的识别方法，所述方法包括：

获取对象序列的图像；

采用对象序列的识别网络对所对象序列的图像进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程的监督信息至少包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一所述样本图像中的样本对象序列的类别的第二监督信息；每一所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；

基于所述特征序列，确定所述对象序列中的每个对象的类别。

在一些实施例中，所述采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列，包括：采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图；对所述特征图进行拆分，得到所述特征序列。如此，便于后续对特征序列中的对象的类别进行更加精准地识别。

在一些实施例中，所述采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图，包括：采用所述卷积子网络，在所述对象序列的图像的第一方向的长度维度上对所述对象序列的图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；基于所述对象序列的图像的第二方向的长度，提取所述对象序列的图像的第二方向的长度维度上的特征，得到第二维度特征；基于所述第一维度特征和所述第二维度特征，得到所述特征图。如此，能够尽可能多的保留对象序列的图像在第二方向维度上的特征信息。

在一些实施例中，所述对所述特征图进行拆分，得到所述特征序列，包括：沿着所述第一方向对所述特征图进行池化，得到已池化特征图；沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。如此，通过沿着第一方向对特征图进行池化后，并沿着第二方向对特征图进行拆分，从而使得特征序列能够包括对象序列的图像沿第二方向的更多细节信息。

本申请实施例提供一种对象序列的识别网络的训练方法，所述方法包括：获取样本图像组；其中，所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；每一帧所述样本图像包括样本对象序列的类别标注信息；

将所述样本图像组输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；

对所述样本特征序列中的所述样本对象进行类别预测，得到所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别；

基于所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别，确定第一损失和第二损失集合；其中，所述第一损失与所述样本图像中的多帧不同样本图像之间的相似度负相关且所述多帧不同样本图像之间的相似度基于所述多帧不同样本图像的样本特征序列和/或所述多帧不同样本图像所包括的样本对象序列的预测类别确定，所述第二损失集合中的第二损失用于表征所述每一帧样本图像中的样本对象序列的类别标注信息与所述样本对象序列中每个样本对象的预测类别的差异；

根据所述第一损失和所述第二损失集合，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。如此，在训练过程中，引入对对象序列进行监督的第二损失集合和对一组样本图像中图像之间的相似度进行监督的第一损失，能够提高对图像中每个对象的类别的识别精度。

在一些实施例中，所述获取样本图像组，包括：获取包含样本对象序列的样本视频流；对所述样本视频流中的多帧样本图像进行样本对象序列检测，得到所述多帧样本图像中每一帧样本图像包含的样本对象序列的样本位置；在所述多帧样本图像中，确定满足预设时序条件、且包含的样本对象序列的样本位置之间满足预设一致性条件的至少两帧样本图像，形成所述样本图像组。如此，能够提高样本图像组数据的丰富性。

在一些实施例中，所述将所述样本图像组输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列，包括：采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图；对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。如此，能够得到保留了更多第二方向特征的样本特征序列，便于提高后续对样本特征序列中的样本对象的类别进行识别的精准度。

在一些实施例中，所述采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图，包括：采用所述卷积子网络，在每一样本图像的第一方向的长度维度上对所述样本图像组中每一样本图像进行下采样，得到第一维度样本特征，所述第一方向不同于所述样本对象序列中的样本对象的排序方向；基于所述样本图像组中每一样本图像的第二方向的长度，提取所述样本图像组中每一样本图像的第二方向的长度维度上的特征，得到第二维度样本特征；基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像组中每一样本图像的样本特征图。如此，能够尽可能多的保留样本图像组中每一样本图像在第二方向维度上的特征信息。

在一些实施例中，所述对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列，包括：沿着所述第一方向，对所述样本图像组中每一样本图像的样本特征图进行池化，得到所述样本图像组中每一样本图像的已池化样本特征图；沿着所述第二方向，对所述样本图像组中每一样本图像的已池化样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。如此，能够得到保留了更多第二方向特征的样本特征序列，便于后续对样本特征序列中的样本对象的类别进行更加精准地识别。

在一些实施例中，所述根据所述第一损失和所述第二损失集合，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件，包括：对所述第一损失和所述第二损失集合进行加权融合，得到总损失；基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。如此，将两个损失函数相融合作为总损失，采用该总损失训练网络，能够提高网络的对象识别性能。

在一些实施例中，所述对所述第一损失和所述第二损失集合进行加权融合，得到总损失，包括：采用预设第一权重对所述第一损失进行调整，得到第三损失；基于所述样本图像组中样本图像的数量，确定类别监督权重；其中，所述同一样本图像组中的多个不同样本图像对应的类别监督权重相同；基于所述类别监督权重和预设第二权重，对所述第二损失集合中的第二损失进行融合，得到第四损失；基于所述第三损失和所述第四损失，确定所述总损失。如此，采用第三损失和第四损失融合得到的总损失，对待训练的对象序列的识别网络进行训练，能够提高整个网络的预测效果，从而能够得到性能较高的对象识别网络。

在一些实施例中，所述基于所述类别监督权重和预设第二权重，对所述第二损失集合中的第二损失进行融合，得到第四损失，包括：将所述类别监督权重分别赋予所述第二损失集合中的每一第二损失，得到包括至少两个已更新损失的已更新损失集合；将所述已更新损失集合中的已更新损失进行融合，得到融合损失；采用所述预设第二权重对所述融合损失进行调整，得到所述第四损失。如此，在训练过程中，通过将一组样本图像中每一样本图像的预测结果的CTC损失进行融合，能够提高训练得到的识别网络的性能。

本申请实施例提供一种对象序列的识别装置，所述装置包括：

第一获取模块，用于对象序列的图像；

第一提取模块，用于采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程的监督信息至少包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一所述样本图像中的样本对象序列的类别的第二监督信息；每一所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；

第一确定模块，用于基于所述特征序列，确定所述对象序列中的每个对象的类别。

在一些实施例中，所述第一提取模块，包括：第一特征提取子模块，用于采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图；第一拆分子模块，用于对所述特征图进行拆分，得到所述特征序列。

在一些实施例中，所述第一特征提取子模块，包括：第一下采样子单元，用于采用所述卷积子网络，在所述对象序列的图像的第一方向的长度维度上对所述对象序列的图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；第一特征提取子单元，用于基于所述对象序列的图像的第二方向的长度，提取所述对象序列的图像的第二方向的长度维度上的特征，得到第二维度特征；第一特征图确定子单元，用于基于所述第一维度特征和所述第二维度特征，得到所述特征图。

在一些实施例中，所述第一拆分子模块，包括：第一池化子单元，用于沿着所述第一方向对所述特征图进行池化，得到已池化特征图；第一拆分子单元，用于沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。

本申请实施例提供一种对象序列的识别网络的训练装置，所述装置包括：

第二获取模块，用于获取样本图像组；其中，所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；每一帧样本图像包括样本对象序列的类别标注信息；

第二提取模块，用于将所述样本图像组输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；

第二预测模块，用于所述样本特征序列中的所述样本对象进行类别预测，得到所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别；

第二确定模块，用于基于所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别，确定第一损失和第二损失集合；其中，所述第一损失与所述样本图像中的多帧不同样本图像之间的相似度负相关且所述多帧不同样本图像之间的相似度基于所述多帧不同样本图像的样本特征序列和/或所述多帧不同样本图像所包括的样本对象序列的预测类别确定，所述第二损失集合中的第二损失用于表征所述每一帧样本图像中的样本对象序列的类别标注信息与所述样本对象序列中每个样本对象的预测类别的差异；

第一调整模块，用于根据所述第一损失和所述第二损失集合，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，所述第二获取模块，包括：第二获取子模块，用于获取包含样本对象序列的样本视频流；第二检测子模块，用于对所述样本视频流中的多帧样本图像进行样本对象序列检测，得到所述多帧样本图像中每一帧样本图像包含的样本对象序列的样本位置；第二形成子模块，用于在所述多帧样本图像中，确定满足预设时序条件、且包含的样本对象序列的样本位置之间满足预设一致性条件的至少两帧样本图像，形成所述样本图像组。

在一些实施例中，所述第二提取模块，包括：第二特征提取子模块，用于采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图；第二拆分子模块，用于对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

在一些实施例中，所述第二特征提取子模块，包括：第二下采样子单元，用于采用所述卷积子网络，在每一样本图像的第一方向的长度维度上对所述样本图像组中每一样本图像进行下采样，得到第一维度样本特征，所述第一方向不同于所述样本对象序列中的样本对象的排序方向；第二特征提取子单元，用于基于所述样本图像组中每一样本图像的第二方向的长度，提取所述样本图像组中每一样本图像的第二方向的长度维度上的特征，得到第二维度样本特征；第二特征图确定子单元，用于基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像组中每一样本图像的样本特征图。

在一些实施例中，所述第二拆分子模块，包括：第二池化子单元，用于沿着所述第一方向，对所述样本图像组中每一样本图像的样本特征图进行池化，得到所述样本图像组中每一样本图像的已池化样本特征图；第二拆分子单元，用于沿着所述第二方向，对所述样本图像组中每一样本图像的已池化样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

在一些实施例中，所述第一调整模块，包括：融合子模块，用于对所述第一损失和所述第二损失集合进行加权融合，得到总损失；调整子模块，用于基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，所述融合子模块，包括：第一调整单元，用于采用预设第一权重对所述第一损失进行调整，得到第三损失；权重确定单元，用于基于所述样本图像组中样本图像的数量，确定类别监督权重；其中，所述同一样本图像组中的多个不同样本图像对应的类别监督权重相同；融合单元，用于基于所述类别监督权重和预设第二权重，对所述第二损失集合中的第二损失进行融合，得到第四损失；确定单元，用于基于所述第三损失和所述第四损失，确定所述总损失。

在一些实施例中，所述融合单元，包括：赋予子单元，用于将所述类别监督权重分别赋予所述第二损失集合中的每一第二损失，得到包括至少两个已更新损失的已更新损失集合；融合子单元，用于将所述已更新损失集合中的已更新损失进行融合，得到融合损失；调整子单元，用于采用所述预设第二权重对所述融合损失进行调整，得到所述第四损失。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的对象序列的识别方法；或，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的对象序列的识别网络训练方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的对象序列的识别方法；或，该计算机可执行指令被执行后，能够实现上述的对象序列的识别网络训练方法。

本申请实施例提供一种对象序列的识别方法、网络训练方法、装置、设备及介质，首先，通过至少包括：样本图像组中的至少两帧从同一视频流中提取出的不同样本图像之间的相似度进行监督的第一监督信息，以及对每一样本图像组中样本对象序列的类别进行监督的第二监督信息的对象序列的识别网络，对对象序列的图像进行特征提取，得到特征序列；然后基于特征序列确定对象序列中的每个对象的类别。这样，提高了对象序列的识别网络对相似图片的特征提取和识别结果的一致性，具有较好的鲁棒性，提升了对象序列识别的识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请实施例提供的第一种对象序列的识别方法的实现流程示意图；

图2为本申请实施例提供的第二种对象序列的识别方法的实现流程示意图；

图3为本申请实施例提供的对象序列的识别网络的训练方法的实现流程示意图；

图4为本申请实施例提供的对象序列的识别网络的结构示意图；

图5为本申请实施例提供的对象序列的识别网络的应用场景示意图；

图6A为本申请实施例提供的对象序列的识别装置的结构组成示意图；

图6B为本申请实施例提供的对象序列的识别网络的训练装置的结构组成示意图；

图7为本申请实施例提供的计算机设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)深度学习(Deep Learning，DL)是机器学习(Machine Learning，ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标：人工智能(ArtificialIntelligence，AI)；DL是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助；它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

2)成对损失(pair loss)，在DL中，很多度量学习的方法都是使用成对的样本进行损失计算的。例如，在训练模型的过程，随意的选取两个样本，使用模型提取特征，并计算两个样本特征之间的距离。如果这两个样本属于同一个类别，那希望两个样本之间的距离应该尽量的小，甚至为0；如果这两个样本属于不同的类别，那希望两个样本之间的距离应该尽量的大，甚至是无穷大。基于这一原则，衍生出许多不同类型的特征对损失，使用这些损失对样本对之间的距离进行计算，并根据生成的损失使用各种优化方法对模型进行更新。

3)时序类分类(Connectionist Temporal Classification，CTC)是计算一种损失值，主要的优点是可以对没有对齐的数据进行自动对齐，主要用在没有事先对齐的序列化数据训练上。比如，语音识别、光学字符识别(Optical Character Recognition，OCR)识别等等。在本申请实施例中，CTC损失可以用来在对网络的训练前期，对序列的整体预测情况进行监督。

下面说明本申请实施例提供的对象序列的识别的设备的示例性应用，本申请实施例提供的设备可以实施为具有图像采集功能的笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

本申请实施例提供一种对象序列的识别方法，如图1所示，结合图1所示步骤进行说明：

步骤S101，获取对象序列的图像。

在一些实施例中，对象序列可以是由任意对象呈序列式排布形成的序列，具体的对象类型不做特殊限定。对象序列的图像可以是包括对象序列的外观信息的图像。对象序列的图像可以是任一具有图像采集功能的电子设备采集得到的图像，也可以是从其他电子设备或服务器获取到的图像。

在一些实施例中，对象序列的图像为至少一帧图像，该至少一帧图像可以是图像的时序上满足预设时序条件的图像，且同一对象序列在至少一帧图像中的位置之间满足预设一致性条件的图像。同时，至少一帧图像可以是经过预处理后的图像，比如，图像尺寸统一和/或图像像素值统一的图像。

在一些实施例中，对象序列的图像可以是游戏场景下采集得到的图像，那么对象序列可以是该游戏场所内的游戏中的游戏币等；或者，对象序列的图像为多种不同材质或颜色的木板堆叠场景下采集到的图像，那么对象序列可以是堆叠在一起的一摞板材；或者，对象序列的图像为书本堆叠场景下采集到的图像，那么对象序列可以是堆叠在一起的一摞书本。

在一些可能的实现方式中，对获取的视频流进行预处理，得到对象序列的图像，即上述步骤S101可以通过以下过程实现：

第一步，获取至少一个对象序列的视频流。

在一些实施例中，可以通过任一具有视频采集功能的电子设备采集得到至少一个对象序列的视频流。其中，视频流包括的图像帧的数量可以是两个及以上；其中，视频流的每一帧图像画面中对象序列所处的位置信息可以相同，也可不同。同时视频流的每一帧图像之间在时序上可以是连续，也可以是不连续的。

第二步，按照预设图像参数，对所述视频帧的图像参数进行预处理，得到所述对象序列的图像。

在一些实施例中，预设图像参数可以是预设图像尺寸参数和/或预设图像的像素参数。比如，预设图像参数为事先设定好的图像宽度、图像高宽和图像宽度的预设比例，那么可以将视频流的每一帧图像的宽度统一调整为事先设定好的图像宽度，以及对视频流的每一帧图像的高度保持比例调整，同时对于高度不足的图像，在未达到预设高度的图像区域中进行像素填充，从而得到对象序列的图像；其中，像素填充的像素值可以随实际需求而定；或者，预设图像参数为事先设定好的图像像素参数，那么将视频流的每一帧图像的图像像素进行归一化操作，比如，将每一帧图像的每一像素值缩放至(0，1)之间，以得到对象序列的图像。

在一些实施例中，通过对视频流的每一帧图像的图像参数进行调整，能够得到图像参数统一的对象序列的图像。这样，能够减小对象序列的图像在后期处理过程中产生形变的概率，进而能够提高对象序列的图像画面中的对象序列的识别精度。

步骤S102，采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列。

在一些实施例中，对象序列的识别网络在训练过程的监督信息至少包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一样本图像中的样本对象序列的类别的第二监督信息；每一样本图像组包括从同个视频流中提取出的至少两帧样本图像，每一样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个样本图像组内的各帧样本图像中的位置之间满足预设一致性条件。其中，样本图像的时序可以是其在视频流中的时序位置，或者是样本图像的采集时间。样本图像之间的时序之间满足预设时序条件，可以是样本图像在视频流中的时序位置之间的距离小于预设的阈值，或者可以样本图像的采集时间之间的距离小于预设的阈值。

在一些实施例中，同一样本对象序列在一个样本图像组内的各帧样本图像中的位置之间满足预设一致性条件，可以是样本对象序列在样本图像组中每一样本图像的画面中位置相同，或相似度满足预设阈值；也可是样本对象序列所对应的检测框在样本图像组中每一样本图像的区域相同或相似度满足预设阈值。

在一些实施例中，采用对象序列的识别网络对对象序列的图像进行特征提取，得到特征序列；特征序列中的每个特征可以对应对象序列中的一个对象，或者特征序列中的多个特征与对象序列中的一个对象对应。

在一些实施例中，将对象序列的图像输入到对象序列的识别网络中，首先，可以采用对象序列的识别网络中的卷积神经网络部分，对对象序列的图像进行特征提取，得到特征图；其次，根据按照一定的方式，对特征图进行拆分，从而将卷积神经网络提取到的特征图拆分成若干特征序列。这样，以便于后续对对象序列的图像中的对象序列中每个对象进行分类。

步骤S103，基于所述特征序列，确定所述对象序列中的每个对象的类别。

在一些实施例中，对特征序列中的每个特征进行类别预测，得到特征序列中每一特征的分类结果，然后基于特征序列的分类结果，确定至少一个对象序列中每个对象的类别信息。其中，特征序列中包括多个特征；每一特征的分类结果可以是每一特征对应的对象类别。

在一些实施例中，对象序列中的每个对象的类别包括每一对象的类别和对象序列中一类对象的序列长度。

在一些实施例中，可以采用对象序列的识别网络中的分类器，对特征序列中的特征的类别进行预测，从而得到对象序列的每一对象的类别的的预测概率。特征序列的分类结果能够表征该特征序列中包括的对象序列属于每一分类标签对应的类别的概率；在一个特征序列对应的一组概率中，将概率值大于一定阈值的分类标签对应的类别作为该特征序列中的特征对应的对象的类别。

本申请实施例提供的对象序列的识别方法，首先，通过至少包括样本图像组中的至少两帧从同一视频流中提取出的样本图像之间的相似度进行监督的第一监督信息，以及对每一样本图像组中的样本对象序列的类别进行监督的第二监督信息的对象序列的识别网络，对对象序列的图像进行特征提取，得到特征序列；然后基于特征序列确定对象序列中的每个对象的类别。这样，提高了对象序列的识别网络对相似图片的特征提取和识别结果的一致性，具有较好的鲁棒性，提升了对象序列识别的识别精度。

在一些实施例中，采用对残差网络(Residual Network，ResNet)的结构进行微调后的卷积网络，实现对对象序列的图像的特征提取，从而得到特征序列，即上述步骤S102可以通过图2所示的步骤实现，图2为本申请实施例提供的对象序列的识别方法的另一种实现流程示意图，结合图1和图2所示的步骤进行以下说明：

步骤S201，采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图。

在一些实施例中，对象序列的识别网络中的卷积子网络可以是基于ResNet网络结构进行微调后得到的卷积网络；其中，对象序列的识别网络中的卷积子网络可以是将ResNet网络中的三层卷积的块调整为平行堆叠相同拓扑结构的多个块得到的，也可以是将ResNet网络中第三层(layer3)和第四层(layer4)各自最后一个步长Stride为(2，2)的卷积层改为Stride(1，2)的卷积层得到的。

在一些实施例中，可以采用对象序列的识别网络中的卷积子网络，对对象序列的图像中的高层次特征进行提取，从而得到特征图；其中，该高层次特征可以是对象序列的图像中较为复杂的，而非图像中的纹理、颜色、边缘以及棱角等特征信息。比如，可以是金色的头发、缤纷的花儿等。

在一些可能的实现方式中，在对象序列的识别网络中，对对象序列的图像进行特征提取，从而得到宽度发生变化、高度保持不变的特征图，即上述步骤S201可以通过以下步骤S211至步骤S213(图中未示出)实现：

步骤S211，采用所述卷积子网络，在所述对象序列的图像的第一方向的长度维度上对所述对象序列的图像进行下采样，得到第一维度特征。

在一些实施例中，第一方向不同于对象序列中的对象的排列方向。比如，如果对象序列是在高度方向上排列或堆叠的多个对象，即对象序列中对象的排列方向为高度方向，那么第一方向可以为该对象序列的宽度方向。如果对象序列是沿水平方向排列的多个对象，即对象序列中对象的排列方向为水平方向，那么第一方向可以为该对象序列的高度方向。

在一些实施例中，将ResNet网络结构中的layer3和layer4的卷积层的最后一个Stride中的第一方向的Stride保持为2不变，并将该调整后的ResNet网络结构得到的卷积网络作为对象序列的识别网络中的卷积子网络。这样，能够实现对对象序列的图像在第一图像的第一方向的长度维度上进行下采样，也就是说，得到的特征图的第一方向的长度为对象序列的图像的第一方向的长度的一半。以对象序列为高度方向上堆叠的多个对象为例，将ResNet网络结构中的layer3和layer4的卷积层的最后一个Stride中的宽度步长保持为2不变；这样，就实现了在对象序列的图像的宽度维度上进行下采样，将得到的特征图的宽度变为第一图像的宽度的一半。

步骤S212，基于所述对象序列的图像的第二方向的长度，提取所述对象序列的图像的第二方向的长度维度上的特征，得到第二维度特征。

在一些实施例中，第二方向与对象序列中对象的排列方向相同，将ResNet网络结构中的layer3和layer4的卷积层的最后一个Stride中的第二方向的Stride从2变为1。这样，能够实现在对象序列的图像的第二方向的长度维度上不进行下采样，即保持对象序列的图像在第二方向的长度；同时在该对象序列的图像的第二方向的长度维度进行特征提取，得到与对象序列的图像的第二方向长度相同的第二维度特征。

步骤S213，基于所述第一维度特征和所述第二维度特征，得到所述特征图。

在一些实施例中，将对象序列的图像的第一维度特征与对象序列的图像的第二维度特征相结合，能够得到对象序列的图像的特征图。

在一些实施例中，将ResNet中第三层和第四层的卷积层最后一个Stride为(2，2)改为Stride为(1，2)，从而使得在高度维度上不对对象序列的图像进行下采样，同时在宽度维度上对对象序列的图像进行下采样。这样，能够尽可能多的保留对象序列的图像在高度维度上的特征信息。

步骤S202，对所述特征图进行拆分，得到所述特征序列。

在一些实施例中，可以是基于特征图的维度信息，对特征图进行拆分，从而得到特征序列。特征图的维度信息包括第一方向的维度和第二方向的维度。比如，维度信息为高度维度和宽度维度，那么基于高度纬度和宽度维度对该特征图进行拆分，从而得到对象序列的图像的特征序列。其中，基于高度维度和宽度维度对特征图进行拆分，可以是等尺寸信息进行拆分。

在一些实施例中，首先，通过在特征图的第一方向的维度对特征图进行池化，然后，在特征图的第二方向的维度对该特征图进行拆分操作，从而将该特征图拆分为特征序列。这样，采用基于两个损失函数训练得到的对象序列的识别网络，对对象序列的图像进行特征提取，得到特征图，并对该特征图按照维度信息进行拆分，从而能够得到保留了更多第二方向的特征序列，便于后续对特征序列中的对象序列类别进行更加精准地识别。

在一些可能的实现方式中，沿着第一方向的维度对特征图进行池化，得到已池化图，并沿着第二方向的维度对得到的已池化图进行拆分，得到特征序列，即上述步骤S202可以通过步骤S221和步骤222(图示未示出)实现：

步骤S221，沿着所述第一方向对所述特征图进行池化，得到已池化特征图。

在一些实施例中，沿着特征图的第一方向的维度，对特征图进行平均池化，同时保持特征图在第二方向的维度和通道维度不变，得到已池化特征图。比如，特征图的维度为2048*40*16(其中，通道维度是2048，高维度是40，宽度维度是16)，经过在第一方向的维度上进行平均池化后，从而得到维度为2048*40*1的已池化特征图。

步骤S222，沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。

在一些实施例中，沿着特征图的第二方向的维度，对已池化特征图进行拆分，得到特征序列；其中，对已池化特征图进行拆分的数量可以是基于已池化特征图的第二方向的维度的长度确定的。比如，特征图的第二方向的长度为60，那么可以将已池化特征图拆分为60个向量。其中，特征序列中每一特征对应的尺寸信息相同。

基于上述步骤S221和步骤S222，假设已池化特征图为的维度2048*40*1，沿着特征图的第二方向的维度将已池化特征图进行拆分，得到40个2048维的向量；其中，每个向量对应特征图中第二方向1/40图像区域对应的特征。如此，在第一方向为对象序列的宽度方向，第二方向为对象序列的高度方向的情况下，通过沿着第一方向对特征图进行池化得到已池化特征图，沿着第二方向对已池化特征图进行拆分，从而使得特征序列能够保留对象序列的图像在高度方向的更多细节信息。

在一些实施例中，首先，沿着特征图的宽度维度对该特征图进行池化；然后，沿着特征图的高度维度对该特征图对应的已池化特征图进行拆分操作，从而将该特征图拆分为特征序列。这样，采用基于图像相似度损失函数和特征序列对齐损失函数训练得到的对象序列的识别网络，对对象序列的图像进行特征提取得到特征图，并对该特征图按照维度信息进行拆分，从而能够得到保留更多高度方向特征的特征序列，便于后续对对象序列中的每个对象的类别进行更加精准地识别。

在一些实施例中，对象序列的识别网络用于对对象的类别进行识别，对象序列的识别网络为对待训练的对象序列的识别网络进行训练得到的，待训练的对象序列的识别网络的训练过程可以通过如图3所示的步骤实现，图3为本申请实施例提供的对象序列的识别网络的训练方法的实现流程示意图，结合图3进行以下说明：

步骤S31，获取样本图像组。

在一些实施例中，样本图像组可以是任一具有图像采集功能的电子设备采集得到的图像信息。其中，样本图像组包括从一个视频流中提取出的至少两帧样本图像，每一样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；每一帧样本图像包括样本对象序列的类别标注信息。

在这里，样本图像的时序可以是其在视频流中的时序位置，或者是样本图像的采集时间。样本图像之间的时序之间满足预设时序条件，可以是样本图像在视频流中的时序位置之间的距离小于预设的阈值，或者可以样本图像的采集时间之间的距离小于预设的阈值。

在一些实施例中，样本图像组中的各帧样本图像中包含同一样本对象序列。在视频流的多帧时序接近的样本图像中，样本对象序列一般不会发生较大的位置变化。因此，可以将时序之间的满足预设的时序条件，且同一样本对象序列在多帧图像中的位置之间未发生大幅变化的多帧图像作为相似的多帧图像。其中，上述预设一致性条件是指位置之间的差异不超过预设的差异范围。例如，对视频流中的连续图像帧进行检测，获得每一帧图像中的对象序列的检测框，判断该检测框在多帧连续或非连续的图像中位置是否发生超过上述差异范围的变化，由此可以确定每一个样本图像组中所包含的样本图像之间具有较高的关联性和相似性，进而可以提升基于样本图像组训练得到对象的识别网络在对象序列识别任务中的精度。

在一些实施例中，样本图像组可以是经过预处理后得到的图像信息，比如，样本图像组中的每一样本图像的图像尺寸统一和/或图像像素值统一。

在一些实施例中，样本图像组可以是由样本对象序列在样本图像的画面中位置相同，或相似度大于预设阈值，且图像样本组中的图像时序上满足预设时序条件的图像；也可以是样本对象序列所对应的检测框在样本图像的区域相同或相似度大于预设阈值，且图像样本组中的图像时序上满足预设时序条件的图像。

在一些可能的实现方式中，可以通过样本对象序列的位置信息以及样本图像的时序信息，从第一样本视频流中得到样本图像组，即上述步骤S31可以通过以下步骤S311至步骤S313(图中未示出)来实现：

步骤S311，获取包含样本对象序列的样本视频流。

在一些实施例中，首先，可以通过具有视频采集功能的设备对具有样本对象的场景进行视频采集，得到样本视频流；然后，对样本视频流中每一样本图像中样本对象序列的类别进行标注，以得到样本视频流。其中，该样本视频流可以是一组视频或多组视频随机组合。

步骤S312，对所述样本视频流中的多帧样本图像进行样本对象序列检测，得到所述多帧样本图像中每一帧样本图像包含的样本对象序列的样本位置。

在一些实施例中，可以通过经过训练的检测模型对样本视频流的每一样本图像画面中的样本对象序列进行检测，确定样本对象序列对应的检测框，从而基于该检测框在每一样本图像的位置信息，确定样本对象序列在每一样本图像中的样本位置。其中，样本对象序列在每一样本图像中的样本位置可以使用二维坐标进行表示。

步骤S313，在所述多帧样本图像中，确定满足预设时序条件、且包含的样本对象序列的样本位置之间满足预设一致性条件的至少两帧样本图像，形成所述样本图像组。

在一些实施例中，根据样本对象序列在样本视频流的每一样本图像中的样本位置，以及每一样本图像的时序信息，在多帧样本图像中，确定满足预设时序条件、且包含的样本对象序列的样本位置之间满足预设一致性条件的至少两帧样本图像为一组样本图像组。其中，每一样本图像组中样本对象序列在对应的图像中的样本位置满足预设一致性条件，同时样本图像组的数量可以是一个，两个以上，每一样本图像组中样本图像的数量可以是两个及以上。

在一些实施例中，也可以对多组样本图像组中的任一样本图像组中的样本图像进行图像尺寸和/或图像像素处理；然后，再对处理之后的任一样本图像组中的样本图像进行数据增强，比如：水平翻转、增加随机像素扰动、调整图像清晰度或亮度、裁剪、扭曲图像特征或随机微调高宽比等，从而得到与样本图像组中的每一样本图像的画面内容相关的多帧图像，同时可以将该多帧图像与样本图像进行组合，从而生成该样本图像组。如此，能够提高样本图像组数据的丰富性。

在一些可能的实现方式中，依次对样本图像组中的样本图像进行图像参数调整、数据增强，从而得到样本图像组，即首先按照预设图像参数，对所述样本图像组中每一样本图像的图像参数进行预处理，得到中间样本图像组；然后，，对所述中间样本图像组中每一中间样本图像进行数据增强，得到所述样本图像组。其实现过程与对获取的视频流进行预处理，以得到对象序列的图像类似。如此，能够提高样本图像组数据的丰富性，同时能够提高待训练对象序列的识别网络整体的鲁棒性，进而能够提高的图像画面中的对象序列中每个对象识别精度。

步骤S32，将所述样本图像组输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列。

在一些实施例中，采用对残差网络的结构进行微调后的卷积网络，对样本图像组中每一样本图像进行特征提取，从而得到每一样本图像的样本特征序列。

在一些可能的实现方式中，首先，对样本图像组中每一样本图像进行特征提取，然后对该特征图进行拆分操作，从而得到样本特征序列，即上述步骤S32可以通过以下步骤S321和步骤S322(图中未示出)来实现：

步骤S321，采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图。

在一些实施例中，待训练的对象序列的识别网络中的卷积子网络可以是基于ResNet网络结构进行微调后得到的卷积网络。比如，可以采用待训练的对象序列的识别网络中的卷积子网络，对样本图像组中每一样本图像中的高层次特征进行提取，从而得到样本图像组中每一样本图像的样本特征图。

在一些可能的实现方式中，可以对样本图像组中每一样本图像进行特征提取，从而得到宽度发生变化、高度保持不变的特征图，即上述步骤S321可以通过以下过程来实现：

首先，采用所述卷积子网络，在每一样本图像的第一方向的长度维度上对所述样本图像组中每一样本图像进行下采样，得到第一维度样本特征。

所述第一方向不同于所述样本对象序列中的样本对象的排序方向。

其次，基于所述样本图像组中每一样本图像的第二方向的长度，提取所述样本图像组中每一样本图像的第二方向的长度维度上的特征，得到第二维度样本特征。

然后，基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像组中每一样本图像的样本特征图。

在一些实施例中，上述的实现过程与上述实施例中步骤S211至步骤S213的实现过程类似；其中，在第一方向为样本对象序列的宽度方向，第二方向为样本对象序列的高度方向的情况下，首先，设定该卷积子网络的layer3和layer4的卷积层的最后一个步长中的宽度步长保持为2不变，高度步长从2变为1，以得到样本图像对应的第一维度样本特征和第二维度样本特征；然后，将第一维度样本特征与第二维度样本特征相结合，能够得到样本图像组中每一样本图像的特征图。这样，能够尽可能多的保留每一样本图像在高度维度上的特征信息。

步骤S322，对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

这里，步骤S322的实现过程与上述步骤S202的实现过程类似，即，基于高度维度和宽度维度，对该样本特征图做不同的处理，得到样本特征序列。

在一些可能的实现方式中，沿着第一方向的维度对每一样本图像的样本特征图进行池化，得到已池化样本特征图，并沿着第二方向的维度对得到的已池化样本特征图进行拆分，得到每一样本图像的样本特征序列，即上述步骤S322可以通过以下过程来实现：

首先，沿着所述第一方向，对所述样本图像组中每一样本图像的样本特征图进行池化，得到所述样本图像组中每一样本图像的已池化样本特征图。

然后，沿着所述第二方向，对所述样本图像组中每一样本图像的已池化样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

这里，上述的实现过程与上述步骤S221和步骤S222的实现过程类似；即沿着样本特征图的高度维度，对每一样本图像的样本特征图进行拆分，得到每一样本图像的特征序列。如此，通过在宽度方向对样本特征图进行池化后，再在高度方向对样本特征图进行拆分，从而使得样本特征序列能够包括每一样本图像沿高度方向的更多细节信息。

在一些实施例中，采用待训练的对象序列的识别网络，对样本图像组中每一样本图像进行特征提取，得到样本特征图，并对该样本特征图按照维度信息进行拆分，从而能够得到保留了更多高度方向特征的样本特征序列，便于后续对样本特征序列中的样本对象的类别进行更加精准地识别。

步骤S33，对所述样本特征序列中的所述样本对象进行类别预测，得到所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别。

在一些实施例中，可以采用待训练的对象序列的识别网络中的分类器，对样本图像组中，每一样本图像的样本特征序列中的样本特征对应的样本对象的类别进行预测，从而得到每一样本特征对应的样本对象的预测概率。

在一些实施例中，将样本特征序列输入到待训练的对象序列的识别网络的分类器中进行类别预测，得到每一个样本特征序列的样本分类结果。

步骤S34，基于所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别，确定第一损失和第二损失集合。

在一些实施例中，所述第一损失与所述样本图像中的多帧不同样本图像之间的相似度负相关且所述多帧不同样本图像之间的相似度基于所述多帧不同样本图像的样本特征序列和/或所述多帧不同样本图像所包括的样本对象序列的预测类别确定，所述第二损失集合中的第二损失用于表征所述每一帧样本图像中的样本对象序列的类别标注信息与所述样本对象序列中每个样本对象的预测类别的差异。

在一些实施例中，可以采用待训练的对象序列的识别网络中的分类器输出的每一样本对象序列的分类结果以及每一样本对象序列的类别的真值信息，确定对每一样本图像包括的样本对象序列中每个样本对象的分类结果进行监督的第二损失，得到第二损失集合。其中，第二损失集合包括的第二损失的数量与样本图像组中样本图像的数量相同；同时第二损失集合可以是CTC损失集合。

在一些实施例中，采用CTC损失作为第二损失，采用成对损失作为第一损失。在样本图像组中，对于每一样本图像，通过将分类器输出的该样本图像的样本对象序列的分类结果以及该样本图像中样本对象序列的类别的真值标签，作为CTC损失的输入，得到该样本图像的第二损失，以预测该样本图像的样本特征序列中每一样本对象的类别；这样基于一组样本图像，可得到第二损失集合。同时基于样本图像组中的多帧不同样本图像之间的样本相似度，以及样本图像组中不同样本图像之间的真值相似度，确定对样本图像组中多帧不同样本图像之间的相似度进行监督的第一损失；其中，第一损失可以是pair loss。

在一些实施例中，采用成对损失作为第一损失，比如，成对损失的实现形式可以从衡量分布差异性的损失中选择，比如，回归损失(L2 loss)，余弦损失(cos loss)，相对熵损失(Kullback–Leibler divergence loss)等。

步骤S35，根据所述第一损失和所述第二损失集合，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

这里，通过比较样本图像组中不同样本图像之间的相似度与不同样本图像之间的相似度真值，可以确定第一损失；通过比较该预测类别中表征每一样本对象序列中每个样本对象的类别和每一类样本对象的序列的每个样本对象的类别真值信息，可以确定第二损失集合。通过该第一损失和第二损失集合相融合，对待训练的对象序列的识别网络的权重值进行调整，使得训练好的对象序列的识别网络输出的样本对象的类别损失收敛。

通过上述步骤S31至步骤S36，在待训练的对象序列的识别网络中，基于图像组，引入对对象序列进行监督的第二损失集合和对一组样本图像中的不同图像之间的相似度进行监督的第一损失，能够提高对相似图像的特征提取一致性，从而整体提高该网络的类别预测效果。

在一些可能的实现方式中，通过对第一损失和第二损失集合进行调整，得到总损失，同时基于该总损失对待训练的对象序列的识别网络的网络参数进行调整，得到对象序列的识别网络，即上述步骤S36可以通过以下步骤S361和步骤S362来实现：

步骤S361，对所述第一损失和所述第二损失集合进行加权融合，得到总损失。

在一些实施例中，采用不同的权重分别对第一损失和第二损失集合进行加权，将加权调整后的第一损失和第二损失集合进行融合，得到总损失。

在一些可能的实现方式中，通过为第一损失和第二损失集合设定预设调整参数，得到总损失，即上述步骤S361可以通过以下过程实现：

第一步，采用预设第一权重对所述第一损失进行调整，得到第三损失。

在一些实施例中，采用预设第一权重对第一损失进行调整，得到第三损失；其中，第一权重可以是事先设定好的数值，也可以是基于待训练的对象序列的识别网络在训练过程中的参数确定的。

第二步，基于所述样本图像组中样本图像的数量，确定类别监督权重。

在一些实施例中，同一样本图像组中的多个不同样本图像对应的类别监督权重相同；基于样本图像组中样本图像的数量，确定类别监督权重。这样多个类别监督调权重可以为同一个数值，也可以是不同的数值，但是多个类别监督调整的和为1。比如，样本图像组中样本图像的数量为n，那么类别监督权重可以是1/n。

在一些实施例中，样本图像组中样本图像的数量为2，那么类别监督权重可以是0.5；或者，样本图像组样本图像的数量为3，那么类别监督权重可以是0.33。

第三步，基于所述类别监督权重和预设第二权重，对所述第二损失集合中的第二损失进行融合，得到第四损失。

在一些实施例中，预设第一权重和预设第二权重之间可以具有预设关系，比如，预设第一权重和预设第二权重之间的比例是固定不变的；或者预设第一权重和预设第二权重之间的差值是固定不变的。

在一些实施例中，基于类别监督权重和预设第二权重，对第二损失集合中的第二损失进行调整，得到第四损失；比如，可以是将类别监督权重与预设第二权重相乘之后，依次对第二损失集合中的每一第二损失进行调整，进而得到调整后的第二损失集合，并将调整后的第二损失集合中的多个损失进行求和，得到第四损失；或者，可以是将类别监督权重与预设第二权重相加之后，依次对第二损失集合中的每一第二损失进行调整，进而得到调整后的第二损失集合，并将调整后的第二损失集合中的多个损失进行求和，得到第四损失。

在一些可能的实现方式中，通过类别监督权重对第二损失集合中的每一第二损失进行调整，从而得到第四损失，即可以通过以下过程来实现：

首先，将所述类别监督权重分别赋予所述第二损失集合中的每一第二损失，得到包括至少两个已更新损失的已更新损失集合。

在一些实施例中，将类别监督权重分别赋予第二损失集合中的每一第二损失，得到每一第二失对应的已更新损失，进而基于每一第二损失对应的已更新损失，得到已更新损失集合；其中，已更新损失集合中每一已更新损失与第一损失集合中每一第二失之间具有映射关系。

其次，将所述已更新损失集合中的已更新损失进行融合，得到融合损失。

在一些实施例中，可以将已更新损失集合中的每一已更新损失进行求和，得到融合损失。

最后，采用所述预设第二权重对所述融合损失进行调整，得到所述第四损失。

在一些实施例中，采用预设第二权重对融合损失进行调整，可以是将预设第二权重和融合损失进行相乘，从而得到第四损失；也可以是将预设第二权重和融合损失进行相除，从而得到第四损失。其中，预设第二权重可以是事先设定好的数值，也可以是基于待训练的对象序列的识别网络在训练过程的参数确定的。

这里，依次通过与样本图像组中的样本图像的数量相关联的类别监督权重，以及预设第一权重对第二损失集合进行调整，从而得到第四损失。如此，能够使得对一组样本图像中样本对象的类别监督的第二损失集合在训练过程具有较好的表现，同时能够进一步优化待训练的对象序列的识别网络的网络参数。

第四步，基于所述第三损失和所述第四损失，确定所述总损失。

在一些实施例中，基于第三损失和第四损失，确定总损失；其中，总损失可以是将第三损失和第四损失进行相加确定的。

步骤S362，基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，采用第三损失和第四损失进行融合得到的总损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的对象序列的识别网络输出的分类结果的损失满足收敛条件；如此，通过对待训练的对象序列的识别网络进行训练，能够提高整个网络的预测效果，从而能够得到性能较高的对象序列的识别网络。

下面结合一个具体实施例对上述对象序列的识别网络的训练方法进行说明，以应用场景为游戏场所为例，对游戏场所中的对象(比如，游戏币)进行识别为例；然而值得注意的是，该具体实施例仅是为了更好地说明本申请实施例，并不构成对本申请实施例的不当限定。

图像中的序列识别算法在场景文字识别、车牌识别等场景中有广泛应用。在相关技术中，主要是由卷积神经网络提取图像特征+对每个切片特征进行分类预测结合CTC损失函数去重并监督预测输出构成的，在文字识别和车牌识别任务中都能适用。

然而，对于游戏场所中的游戏币序列识别问题，由于堆叠的游戏币序列通常序列长度较长，且对于每个游戏币的面额和类型预测准确度有较高的要求；基于深度学习方法对堆叠的游戏币进行序列识别的方式效果不佳。

基于此，本申请实施例提供一种对象序列的识别方法，在基于CTC损失的游戏币识别的基础上，增加基于成对图像的特征相似度的pair loss，从而能够提高对相似图像的特征提取一致性，进而能够实现准确的识别对象序列中每个对象。

图4为本申请实施例提供的对象序列的识别网络的结构示意图，结合图4进行以下说明，该对象序列的识别网络的框架包括以下模块：

视频帧组构建模块401，用于对训练视频流数据中的每一帧视频构建对应的视频帧组，得到样本视频帧组。

其中，在游戏场所中，通常以视频流数据作为输入，然而游戏币识别的输入一般为目标检测模型的游戏币检测框对应的图像区域。在连续的视频流数据中，可以基于时序信息和样本对象序列对应的检测框信息，通过一定的筛选条件，比如：连续视频帧中样本对象序列的检测框坐标一致，得到包含相同游戏币信息的游戏币序列视频帧组，即每组视频帧具有相同的标签。每组视频帧中任意两帧视频，便能形成视频帧组，以便后续对模型进行训练。同时也可在每组视频帧中挑选两帧以上的视频帧形成组合以进行训练。

同时，还对视频帧组每一帧视频进行预处理，包括：保持高宽比调整图像大小、图像像素值归一化等操作。其中，保持长宽比调整图像大小的操作为：将多帧视频帧的宽调整到统一大小，如此能够减少由于输入视频帧中的游戏币数量不等，图像高宽比差距大，如果不保持多帧视频帧的高宽比调整到统一大小，那么这多帧视频帧会产生巨大的形变。比如，对于图像高度不足最大高度的图像，在剩余不足最大高度的位置填充(127，127，127)灰色均值像素值。对为丰富样本图像集，对处理后的视频帧还可以进行数据增强操作，比如：水平翻转、增加随机像素扰动、调整图像清晰度或亮度、裁剪、扭曲图像特征或随机微调高宽比。如此，能够提高待训练网络整体的鲁棒性。

特征提取模块402，对处理后的视频帧组中的视频帧进行特征提取，得到特征序列4031和4032。

首先，利用待训练的对象序列的识别网络中的卷积神经网络部分对输入的视频帧提取高层次特征。该卷积神经网络部分是基于ResNet的网络结构进行微调得到的；比如，将ResNet网络结构中layer3和layer4的卷积层的最后一个Stride为(2，2)的改为Stride(1，2)。这样，使得得到的特征图在高度维度上不进行下采样，在宽度维度上进行下采样变为原来的一半，即得到视频帧组每一视频帧的特征图；如此，能够尽可能多的保留高度维度上的特征信息。然后，对视频帧组每一视频帧的特征图进行拆分操作，即将卷积神经网络提取的特征图拆分成若干特征序列，以便于后续分类器与损失函数计算。在实现特征图拆分时沿着特征图宽度方向做平均池化，高度方向和通道维度都不变；比如，特征图的尺寸是2048*40*8(通道维度是2048，高维度是40，宽度维度是8)，经过宽度方向的平均池化后变成2048*40*1的特征图，并沿着高度维度将特征图拆开，变成40个2048维的向量，每个向量对应原图中高度方向1/40区域对应的特征。

如果样本图像如图5所示，为本申请实施例提供的对象序列的识别网络的应用场景示意图；其中，包括多个游戏币，那么按照图像501的高维度进行划分，得到特征序列，一个特征序列中包括小于等于一个游戏币的特征。

其次，使用n分类器对视频帧组中每一视频帧的对象序列中每一对象的类别进行预测，从而得到每个特征序列的预测概率。这里，n为游戏币种类总数。

同时，还可以确定视频帧组中不同视频帧之间的相似度，即特征相似度404。

损失模块，针对卷积网络得到的特征序列，利用成对损失406确定视频帧组不同视频帧的特征相似度，并以提高相似度为优化目标，对网络进行监督。针对所有特征序列分类的预测概率，利用CTC损失405以及CTC损失407，分别对视频帧组每一视频帧的对象序列的预测结果进行监督。

其中，将成对损失406、CTC损失405以及CTC损失407融合得到总损失408，比如：成对损失406L_pair，CTC损失405L_ctc1和CTC损失407L_ctc2(比如，视频帧组包括2帧视频帧)，对应的总损失为L＝α(0.5L_ctc1+0.5L_ctc2)+βL_pair；同时成对损失406的可以从衡量分布差异性的损失中选择。其中，α和β的取值可以基于实际应用设定为α:β＝1:10。

最后，根据特征序列的分类结果按照上述损失函数的计算结果进行反向传播，更新网络参数权重。在测试阶段，根据CTC损失函数后处理规则对特征序列的分类结果进行处理，得到预测的游戏币序列结果，包括游戏币序列长度和每个游戏币对应的分类。

在本申请实施例中，在不引入额外参数或网络结构更改的情况下，能够提升对序列长度的预测结果，同时提高对象的类别的识别精度，最终提高整体识别结果，特别是在包括堆叠的游戏币的场景中得到较大提升。

基于前述实施例，本申请实施例提供一种对象序列的识别装置，图6A为本申请实施例提供的一种对象序列的识别装置的结构组成示意图，如图6A所示，所述对象序列的识别装置600包括：

第一获取模块601，用于对象序列的图像；

第一提取模块602，用于采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程的监督信息至少包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一所述样本图像中的样本对象序列的类别的第二监督信息；每一所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；

第一确定模块603，用于基于所述特征序列，确定所述对象序列中的每个对象的类别。

在一些实施例中，所述第一提取模块602，包括：第一特征提取子模块，用于采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图；第一拆分子模块，用于对所述特征图进行拆分，得到所述特征序列。

在一些实施例中，所述第一特征提取子模块，包括：第一下采样子单元，用于采用所述卷积子网络，在在所述对象序列的图像的第一方向的长度维度上对所述对象序列的图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；第一特征提取子单元，用于基于所述对象序列的图像的第二方向的长度，提取所述对象序列的图像的第二方向的长度维度上的特征，得到第二维度特征；第一特征图确定子单元，用于基于所述第一维度特征和所述第二维度特征，得到所述特征图。

本申请实施例还提供一种对象序列的识别网络的训练装置，图6B为本申请实施例提供的一种对象序列的识别网络的训练装置的结构组成示意图，如图6B所示，所述对象序列的识别网络的训练装置610包括：

第二获取模块611，用于获取样图像组；其中，所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且同一样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；每一帧所述样本图像包括样本对象序列的类别标注信息；

第二提取模块612，用于将所述样本图像组输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；

第二预测模块613，用于所述样本特征序列中的所述样本对象进行类别预测，得到所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别；

第二确定模块614，用于基于所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别，确定第一损失和第二损失集合；其中，所述第一损失与所述样本图像中的多帧不同样本图像之间的相似度负相关且所述多帧不同样本图像之间的相似度基于所述多帧不同样本图像的样本特征序列和/或所述多帧不同样本图像所包括的样本对象序列的预测类别确定，所述第二损失集合中的第二损失用于表征所述每一帧样本图像中的样本对象序列的类别标注信息与所述样本对象序列中每个样本对象的预测类别的差异；

第一调整模块615，用于根据所述第一损失和所述第二损失集合，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，所述第二获取模块611，包括：第二获取子模块，用于获取包含样本对象序列的样本视频流；第二检测子模块，用于对所述样本视频流中的多帧样本图像进行样本对象序列检测，得到所述多帧样本图像中每一帧样本图像包含的样本对象序列的样本位置；第二形成子模块，用于在所述多帧样本图像中，确定满足预设时序条件、且包含的样本对象序列的样本位置之间满足预设一致性条件的至少两帧样本图像，形成所述样本图像组。

在一些实施例中，所述第二提取模块612，包括：第二特征提取子模块，用于采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图；第二拆分子模块，用于对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

在一些实施例中，所述第一调整模块615，包括：融合子模块，用于对所述第一损失和所述第二损失集合进行加权融合，得到总损失；调整子模块，用于基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请的装置实施例中未披露的技术细节，请参照本申请的方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述人体与人手的关联方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是具有摄像头的智能手机、平板电脑等)执行本申请实施例各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

基于同一技术构思，本申请实施例提供一种计算机设备，用于实施上述方法实施例记载的对象序列的识别方法、对象序列的识别网络的训练方法。图7为本申请实施例提供的一种计算机设备的组成结构示意图，如图7所示，所述计算机设备700包括：一个处理器701、至少一个通信总线、通信接口702、至少一个外部通信接口和存储器703。其中，通信接口702配置为实现这些组件之间的连接通信。其中，通信接口702可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器701，配置为执行存储器中对象识别程序、对象识别网络训练程序，以实现上述实施例提供的对象序列的识别方法、对象序列的识别网络的训练方法。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中任一所述的对象的识别方法、对象序列的识别网络的训练方法。

相应地，本申请实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时，用于实现上述实施例中任一所述的对象序列的识别方法、对象序列的识别网络的训练方法。

相应地，本申请实施例中，还提供了一种计算机程序产品，当该计算机程序产品被电子设备的处理器执行时，其用于实现上述实施例中任一所述的对象序列的识别方法、对象序列的识别网络的训练方法。

以上对象识别装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请对象识别装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ReadOnly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对象序列的识别方法，所述方法包括：

获取对象序列的图像；

采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程的监督信息至少包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一所述样本图像中的样本对象序列的类别的第二监督信息；每一所述样本图像组包括从一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且一个样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；

2.根据权利要求1所述的方法，其中，所述采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列，包括：

采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图；

对所述特征图进行拆分，得到所述特征序列。

3.根据权利要求2所述的方法，其中，所述采用所述对象序列的识别网络中的卷积子网络，对所述对象序列的图像进行特征提取，得到特征图，包括：

采用所述卷积子网络，在所述对象序列的图像的第一方向的长度维度上对所述对象序列的图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；

基于所述对象序列的图像的第二方向的长度，提取所述对象序列的图像的第二方向的长度维度上的特征，得到第二维度特征；

基于所述第一维度特征和所述第二维度特征，得到所述特征图。

4.根据权利要求3所述的方法，其中，所述对所述特征图进行拆分，得到所述特征序列，包括：

沿着所述第一方向对所述特征图进行池化，得到已池化特征图；

沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。

5.一种对象序列的识别网络的训练方法，所述方法包括：

获取样本图像组；其中，所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且一个样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；每一帧所述样本图像包括样本对象序列的类别标注信息；

根据所述第一损失和所述第二损失集合，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

6.根据权利要求5所述的方法，其中，所述获取样本图像组，包括：

获取包含样本对象序列的样本视频流；

对所述样本视频流中的多帧样本图像进行样本对象序列检测，得到所述多帧样本图像中每一帧样本图像包含的样本对象序列的样本位置；

在所述多帧样本图像中，确定满足预设时序条件、且包含的样本对象序列的样本位置之间满足预设一致性条件的至少两帧样本图像，形成所述样本图像组。

7.根据权利要求5或6所述的方法，其中，所述将所述样本图像组输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列，包括：

采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图；

对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

8.根据权利要求7所述的方法，其中，所述采用所述待训练的对象序列的识别网络中的卷积子网络，对所述样本图像组中每一样本图像进行特征提取，得到所述样本图像组中每一样本图像的样本特征图，包括：

采用所述卷积子网络，在每一样本图像的第一方向的长度维度上对所述样本图像组中每一样本图像进行下采样，得到第一维度样本特征，所述第一方向不同于所述样本对象序列中的样本对象的排序方向；

基于所述样本图像组中每一样本图像的第二方向的长度，提取所述样本图像组中每一样本图像的第二方向的长度维度上的特征，得到第二维度样本特征；

基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像组中每一样本图像的样本特征图。

9.根据权利要求8所述的方法，其中，所述对所述样本图像组中每一样本图像的样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列，包括：

沿着所述第一方向，对所述样本图像组中每一样本图像的样本特征图进行池化，得到所述样本图像组中每一样本图像的已池化样本特征图；

沿着所述第二方向，对所述样本图像组中每一样本图像的已池化样本特征图进行拆分，得到所述样本图像组中每一样本图像的样本特征序列。

10.根据权利要求5至9任一项所述的方法，其中，所述根据所述第一损失和所述第二损失集合，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件，包括：

对所述第一损失和所述第二损失集合进行加权融合，得到总损失；

基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

11.根据权利要求10所述的方法，其中，所述对所述第一损失和所述第二损失集合进行加权融合，得到总损失，包括：

采用预设第一权重对所述第一损失进行调整，得到第三损失；

基于所述样本图像组中样本图像的数量，确定类别监督权重；其中，所述同一样本图像组中的多个不同样本图像对应的类别监督权重相同；

基于所述类别监督权重和预设第二权重，对所述第二损失集合中的第二损失进行融合，得到第四损失；

基于所述第三损失和所述第四损失，确定所述总损失。

12.根据权利要求11所述的方法，其中，所述基于所述类别监督权重和预设第二权重，对所述第二损失集合中的第二损失进行融合，得到第四损失，包括：

将所述类别监督权重分别赋予所述第二损失集合中的每一第二损失，得到包括至少两个已更新损失的已更新损失集合；

将所述已更新损失集合中的已更新损失进行融合，得到融合损失；

采用所述预设第二权重对所述融合损失进行调整，得到所述第四损失。

13.一种对象序列的识别装置，所述装置包括：

第一获取模块，用于获取对象序列的图像；

第一提取模块，用于采用对象序列的识别网络对所述对象序列的图像进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程的监督信息至少包括：样本图像组中的至少两帧样本图像之间的相似度的第一监督信息，以及每一所述样本图像中的样本对象序列的类别的第二监督信息；每一所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且一个样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；

14.一种对象序列识别网络的训练装置，所述装置包括：

第二获取模块，用于获取样本图像组；其中，所述样本图像组包括从同一个视频流中提取出的至少两帧样本图像，每一所述样本图像组中的各帧样本图像的时序之间满足预设时序条件，且一个样本对象序列在一个所述样本图像组内的各帧样本图像中的位置之间满足预设一致性条件；每一帧所述样本图像包括样本对象序列的类别标注信息；

第二预测模块，用于对所述样本特征序列中的所述样本对象进行类别预测，得到所述样本图像组中每一样本图像包括的样本对象序列中每个样本对象的预测类别；

15.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时配置为：

获取对象序列的图像；

16.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时配置为：

17.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后配置为：

获取对象序列的图像；

18.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后配置为：

19.一种计算机程序，包括可由电子设备执行的计算机指令，其中，所述计算机指令在被所述电子设备中的处理器执行时配置为：

获取对象序列的图像；

20.一种计算机程序，包括可由电子设备执行的计算机指令，其中，所述计算机指令在被所述电子设备中的处理器执行时配置为：