CN116157801A

CN116157801A - 对象序列的识别方法、网络训练方法、装置、设备及介质

Info

Publication number: CN116157801A
Application number: CN202180002770.8A
Authority: CN
Inventors: 陈景焕; 马佳彬
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2021-09-22
Filing date: 2021-09-27
Publication date: 2023-05-23
Also published as: AU2021240212A1; WO2023047159A1

Abstract

提供了一种对象序列的识别方法、网络训练方法、装置、设备及介质，其中，所述方法包括：获取对象序列的第一图像；将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程中的监督信息至少包括：样本对象序列中每一样本对象的类别监督信息和所述样本对象序列中每一类样本对象的序列长度监督信息；基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息。

Description

对象序列的识别方法、网络训练方法、装置、设备及介质

相关申请的交叉引用

本申请要求在2021年9月22日提交新加坡知识产权局、申请号为10202110495U的新加坡专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，涉及但不限于一种对象序列的识别方法、网络训练方法、装置、设备及介质。

背景技术

图像中的序列识别是计算机视觉中的一个重要研究问题。序列识别算法在场景文字识别、车牌识别等场景中有广泛应用。相关技术中，采用神经网络对序列式对象的图像进行识别，其中，神经网络可以由序列式对象中的对象的类别作为监督信息训练得出。

在一些场景中，对象序列的长度较长，且对这些对象进行识别的准确度要求较高，相关技术中的序列识别方法难以达到满足要求的序列识别效果。

发明内容

本申请实施例提供一种对象序列的识别技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种对象序列的识别方法，所述方法包括：

获取对象序列的第一图像；

将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程中的监督信息至少包括：样本对象序列中每一样本对象的类别监督信息和样本对象序列中每一类样本对象的序列长度监督信息；

基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息。

在一些实施例中，所述将将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列，包括：采用所述对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图；对所述特征图进行拆分，得到所述特征序列。如此，便于后续对特征序列中的对象类别进行更加精准地识别。

在一些实施例中，所述采用对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图，包括：采用所述卷积子网络，在所述第一图像的第一方向的长度维度上对所述第一图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；基于所述第一图像的第二方向的长度，提取所述第一图像的第二方向的长度维度上的特征，得到第二维度特征；基于所述第一维度特征和所述第二维度特征，得到所述特征图。如此，能够尽可能多的保留第一图像在第二方向维度上的特征信息。

在一些实施例中，所述对所述特征图进行拆分，得到所述特征序列，包括：沿着所述第一方向对所述特征图进行池化，得到已池化特征图；沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。如此，通过在第一方向对特征图进行池化后，在第二方向对特征图进行拆分，从而使得特征序列能够包括第一图像沿第二方向的更多细节信息。

在一些实施例中，所述基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息，包括：采用所述对象序列的识别网络的分类器，预测所述特征序列中每个特征对应的类别；基于所述特征序列中的每个特征对应的类别的预测结果，确定所述对象序列中的每一对象的类别；在所述特征序列中，确定属于同一类对象的目标特征的序列长度；基于所述对象序列中的每一对象的类别和每一类对象对应的目标特征的序列长度，得到所述对象序列的类别信息。如此，通过对特征序列的分类结果，采用CTC损失函数的后处理规则进行处理，能够使得预测到的每一对象的类别以及对象序列长度更加精确。

本申请实施例提供一种对象序列的识别网络的训练方法，所述方法包括：获取样本图像，所述样本图像包括样本对象序列和样本对象序列的类别标注信息；将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；基于所述样本特征序列，采用所述待训练的对象序列的识别网络的分类器，对所述样本对象序列中的样本对象进行类别预测，得到所述样本对象序列的类别预测结果，所述样本对象序列的类别预测结果包括所述样本对象序列中每一个样本对象的类别预测信息；基于所述样本对象序列的类别预测结果确定第一损失和第二损失，其中，所述第一损失用于基于样本对象序列的类别标注信息监督所述样本对象序列的类别预测结果，所述第二损失用于基于所述样本对象序列的类别标注信息监督所述样本对象序列中的每一类样本对象的数量；根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的对象序列的识别网络输出的分类结果的损失满足收敛条件。如此，通过引入对整体序列进行监督的第一损失和对序列中每个类别的个数进行监督的第二损失，能够整体提高该网络的类别预测效果。

在一些实施例中，所述所述将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列，包括：采用所述待训练的对象序列的识别网络中的卷积子网络对所述样本图像进行特征提取，得到所述样本图像的样本特征图；对所述样本特征图进行拆分，得到所述样本特征序列。如此，能够得到保留了更多第二方向特征的样本特征序列，能够提高对网络进行训练的准确度。

在一些实施例中，所述采用所述待训练的对象序列的识别网络中的卷积子网络对所述样本图像进行特征提取，得到所述样本图像的样本特征图，包括：采用所述卷积子网络，在所述样本图像的第一方向的长度维度上对所述样本图像进行下采样，得到第一维度样本特征，所述第一方向不同于所述样本图像中的样本对象序列的排列方向；基于所述样本图像的第二方向的长度，提取在所述样本图像的第二方向的长度维度上的特征，得到第二维度样本特征；基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像的所述样本特征图。如此，能够尽可能多的保留每一样本图像在第二方向维度上的特征信息。

在一些实施例中，所述对所述样本特征图进行拆分，得到所述样本特征序列，包括：沿着所述第一方向对所述样本特征图进行池化，得到已池化样本特征图；沿着所述第二方向对所述已池化样本特征图进行拆分，得到所述样本特征序列。如此，通过在第一方向维度对样本特征图进行池化后，在第二方向维度对样本特征图进行拆分，从而使得样本特征序列能够保留样本图像在第二方向维度上的更详细的信息。

在一些实施例中，所述根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件，包括：对所述第一损失和所述第二损失进行加权融合，得到总损失；基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。如此，将两个损失函数相融合作为总损失，采用该总损失训练网络，能够提高网络的对象识别性能。

在一些实施例中，所述对所述第一损失和所述第二损失进行加权融合，得到总损失，包括：

将第一动态权重赋予所述第一损失，得到第一动态损失；其中，在训练次数达到第一阈值或训练时间达到第一时长的情况下，所述第一动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐减小；

将第二动态权重赋予所述第二损失，得到第二动态损失；其中，在训练次数达到第二阈值或训练时间达到第二时长的情况下，所述第二动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐增大；将所述第一动态损失和所述第二动态损失进行融合，得到所述总损失。如此，两个损失函数的权重使用动态调整的方式，能够提高整个网络的预测效果，从而能够得到性能较高的对象序列的识别网络。

本申请实施例提供一种对象序列的识别装置，所述装置包括：

第一获取模块，用于获取对象序列的第一图像；

第一提取模块，用于将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程中的监督信息至少包括：样本对象序列中每一样本对象的类别监督信息和样本对象序列中每一类样本对象的序列长度监督信息；

第一预测模块，用于基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息。

在一些实施例中，所述第一提取模块，包括：

第一提取子模块，用于采用所述对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图；

第一拆分子模块，用于对所述特征图进行拆分，得到所述特征序列。

在一些实施例中，所述第一提取子模块，包括：

第一下采样单元，用于采用所述卷积子网络，在所述第一图像的第一方向的长度维度上对所述第一图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；

第一提取单元，用于基于所述第一图像的第二方向的长度，提取所述第一图像的第二方向的长度维度上的特征，得到第二维度特征；

第一确定单元，用于基于所述第一维度特征和所述第二维度特征，得到所述特征图。

在一些实施例中，所述第一拆分子模块，包括：

第一池化单元，用于沿着所述第一方向对所述特征图进行池化，得到已池化特征图；

第一拆分单元，用于沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。

在一些实施例中，所述第一预测模块，包括：

第一预测子模块，用于采用所述对象序列的识别网络的分类器，预测所述特征序列中每个特征对应的类别；

第一确定子模块，用于基于所述特征序列中的每个特征对应的类别的预测结果，确定所述对象序列中的每一对象的类别；

第二确定子模块，用于在所述特征序列中，确定属于同一类对象的目标特征的序列长度；

第三确定子模块，用于基于所述对象序列中的每一对象的类别和每一类对象对应的目标特征的序列长度，得到所述对象序列的类别信息。

本申请实施例中提供一种对象序列的识别网络的训练装置，包括：

第二获取模块，用于获取样本图像，所述样本图像包括样本对象序列和样本对象序列的类别标注信息；

第二提取模块，用于将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；

第二预测模块，用于基于所述样本特征序列，采用所述待训练的对象序列的识别网络的分类器，对所述样本对象序列中的样本对象进行类别预测，得到所述样本对象序列的类别预测结果，所述样本对象序列的类别预测结果包括所述样本对象序列中每一个样本对象的类别预测信息；

第一确定模块，用于基于所述样本对象序列的类别预测结果确定第一损失和第二损失，其中，所述第一损失用于基于样本对象序列的类别标注信息监督所述样本对象序列的类别预测结果，所述第二损失用于基于所述样本对象序列的类别标注信息监督所述样本对象序列中的每一类样本对象的数量；

第一调整模块，用于根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，所述第二提取模块，包括：

第二提取子模块，用于采用所述待训练的对象序列的识别网络中的卷积子网络对所述样本图像进行特征提取，得到所述样本图像的样本特征图；

第二拆分子模块，用于对所述样本特征图进行拆分，得到所述样本特征序列。

在一些实施例中，所述第二提取子模块，包括：

第二下采样单元，用于采用所述卷积子网络，在所述样本图像的第一方向的长度维度上对所述样本图像进行下采样，得到第一维度样本特征，所述第一方向不同于所述样本图像中的样本对象序列的排列方向；

第二提取单元，用于基于所述样本图像的第二方向的长度，提取在所述样本图像的第二方向的长度维度上的特征，得到第二维度样本特征；

第二确定单元，用于基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像的所述样本特征图。

在一些实施例中，所述第二拆分子模块，包括：

第二池化单元，用于沿着所述第一方向对所述样本特征图进行池化，得到已池化样本特征图；

第二拆分单元，用于沿着所述第二方向对所述已池化样本特征图进行拆分，得到所述样本特征序列。

在一些实施例中，所述第一调整模块，包括：

第一融合子模块，用于对所述第一损失和所述第二损失进行加权融合，得到总损失；

第一调整子模块，用于基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，所述第一融合子模块，包括：

第一赋予单元，用于将第一动态权重赋予所述第一损失，得到第一动态损失；其中，在训练次数达到第一阈值或训练时间达到第一时长的情况下，所述第一动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐减小；

第二赋予单元，用于将第二动态权重赋予所述第二损失，得到第二动态损失；其中，在训练次数达到第二阈值或训练时间达到第二时长的情况下，所述第二动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐增大；

第一融合单元，用于将所述第一动态损失和所述第二动态损失进行融合，得到所述总损失。

对应地，本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的对象序列的识别方法；或，该计算机可执行指令被执行后，能够实现上述的对象序列的识别网络的训练方法。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的对象序列的识别方法；或，，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的对象序列的识别网络的训练方法。

本申请实施例提供一种对象序列的识别方法、装置、设备及存储介质，通过首先，对第一图像进行特征提取，得到特征序列；然后，对特征序列中的对象序列进行类别预测，使得到的特征序列中的对象序列的分类结果较为准确；最后，通过对特征序列中的对象序列的分类结果进行进一步的处理，以确定多个对象序列的类别信息。这样，即使对象序列的特征序列较长，仍能够提高对特征序列中对象序列进行识别的精度。

附图说明

图1为本申请实施例提供的对象序列的识别方法的实现流程示意图；

图2A为本申请实施例提供的对象序列的识别方法的另一实现流程示意图；

图2B为本申请实施例提供的对象序列的识别网络的训练方法的实现流程示意图；

图3为本申请实施例提供的对象序列的识别网络的结构示意图；

图4为本申请实施例提供的对象序列的识别网络的应用场景示意图；

图5A为本申请实施例对象序列的识别装置的结构组成示意图；

图5B为本申请实施例对象序列的识别装置的另一结构组成示意图；

图6为本申请实施例计算机设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)聚合交叉熵(Agregation Cross-Entropy，ACE)：首先，ACE不是通过最大化每个位置处的预测概率来最小化损失函数，而是通过不考虑序列之间的顺序，只关心每个类的累计概率来简化问题，只要求网络精确预测每一类的字符数来最小化损失函数。其次，ACE能够解决二维预测问题。

2)时序类分类(Connectionist Temporal Classification，CTC)是计算一种损失值，主要的优点是可以对没有对齐的数据进行自动对齐，主要用在没有事先对齐的序列化数据训练上。比如，语音识别、光学字符识别(Optical Character Recognition，OCR)识别等等。在本申请实施例中，CTC损失可以用来在对网络的训练前期，对序列的整体预测情况进行监督。

下面说明本申请实施例提供的对象序列的识别的设备的示例性应用，本申请实施例提供的设备可以实施为具有图像采集功能的笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

本申请实施例提供一种对象序列的识别方法，如图1所示，结合如图1所示步骤进行说明：

步骤S101，获取对象序列的第一图像。

在一些实施例中，对象序列可以是由任意对象呈序列式排布形成的序列，具体的对象类型不做特殊限定。比如，第一图像为游戏场所采集到的图像，那么对象序列可以是该游戏场所内的游戏中的游戏币等；或者，第一图像为多种不同材质或颜色的木板堆叠场景下采集到的图像，那么对象序列可以是堆叠在一起的一摞板材。

第一图像为至少一帧图像，该至少一帧图像为尺寸信息和像素值均满足一定条件的图像，是经过尺寸调整和像素值归一化的图像。

在一些可能的实现方式中，通过对获取的第二图像进行预处理，作为能够输入到对象序列的识别网络中的第一图像，即上述步骤S101可以通过以下步骤S111和S112(图示未示出)实现：

步骤S111，获取至少一个对象序列的第二图像。

这里，第二图像可以是包括对象序列的外观信息的图像，第二图像可以是任意采集设备采集到的图像，还可以是从互联网或者其他设备获取到的图像或者视频中的任意一帧。比如，第二图像为从网络中获取到的画面内容包括对象序列的一帧图像；或者，第二图像为画面内容包括对象序列的视频片段等。

步骤S112，基于预设图像参数，对所述第二图像的图像参数进行预处理，得到所述第一图像。

在一些可能的实现方式中，预设图像参数包括：图像宽度、高度和图像像素值等。首先，按照预设尺寸，对所述原始图像的尺寸信息进行调整，得到已调整的图像；其中，预设尺寸为设定的预设宽度，高宽和宽度的预设比例。比如，按照该预设宽度将多帧原始图像的宽度统一调整为该预设宽度。然后，对所述已调整的图像的像素值进行归一化，得到第一图像。比如，对于高度不足预设高度的原始图像，在未达到预设高度的图像区域中进行像素填充；比如，填充灰色像素值。这样，调整了尺寸信息之后，使得到的第一图像的尺寸中高度和宽度的比例都是统一的，能够减少图像在处理过程中产生的形变。

步骤S102，将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列。

在一些实施例中，所述对象序列的识别网络在训练过程中的监督信息至少包括：样本对象序列中每一样本对象的类别监督信息和样本对象序列中每一类样本对象的序列长度监督信息。通过将第一图像输入到对象序列的识别网络中，采用对象序列的识别网络中的卷积神经网络部分对第一图像进行特征提取，得到特征图；并按照一定的方式对特征图进行拆分，从而将卷积神经网络提取到的特征图拆分成若干特征序列，以便于后续对该第一图像中的对象序列进行分类。特征序列中为特征图中的特征形成的序列。在一些可能的实现方式中，可以是按照特征图的高度对特征图进行拆分，得到特征序列，特征序列中的每个特征可以对应对象序列中的一个对象，或者特征序列中的多个特征与对象序列中的一个对象对应。

步骤S103，基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息。

在一些实施例中，采用所述分类器，对特征序列中的特征进行类别预测，得到每个特征的分类结果；并基于所述特征序列的分类结果，确定所述至少一个对象序列的类别信息。采用对象序列的识别网络中的分类器，对特征序列中的特征的类别进行预测，从而得到特征序列对应的对象序列的类别的预测概率。

在一些实施例中，类别信息包括每一对象的类别和所述对象序列中一类对象的序列长度。特征序列的分类结果能够表征该特征序列中包括的特征属于每一分类标签对应的类别的概率；在一个特征序列对应的一组概率中，将概率值大于一定阈值的分类标签对应的类别作为该特征序列中特征对应的对象的类别；如此，通过对特征序列中的特征进行类别预测，可以得到每一特征的类别，每一特征的类别即为该特征对应的对象的类别；这样，属于同一类的特征序列，即为同一对象对应的特征序列，那么同一类特征的类别即为该类特征所对应的对象的类别，进而能够得到对象序列中每个对象的类别。

在本申请实施例中，通过首先，对第一图像进行特征提取，得到特征序列；然后，对特征序列中的特征对应的对象进行类别预测，使得到的对象的分类结果较为准确。这样，即使对象序列的特征序列较长，仍能够提高识别对象序列的精度。

在一些实施例中，采用对残差网络(ResNet)的结构进行微调后的卷积网络，实现对第一图像的特征提取，从而得到特征序列，即上述步骤S102可以通过图2所示的步骤实现，图2为本申请实施例提供的对象序列的识别方法的另一实现流程示意图，结合图2进行以下说明：

步骤S201，采用对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图。

在一些实施例中，所述对象序列的识别网络是基于对样本图像的整体进行监督的第一损失和对所述样本图像中的每一类对象进行监督的第二损失训练得到的；采用对象序列的识别网络中的卷积网络部分对第一图像进行特征提取，得到特征图。对象序列的识别网络中的卷积网络部分可以是基于ResNet网络结构进行微调后得到的。

在一些可能的实现方式中，在对象序列的识别网络中，通过采用对步长进行调整后的卷积网络，对第一图像进行特征提取，从而得到高度保持不变，宽度变化的特征图，即上述步骤S201可以通过以下步骤S211至213(图示未示出)实现：

步骤S211，采用所述卷积子网络，在所述第一图像的第一方向的长度维度上对所述第一图像进行下采样，得到第一维度特征。

在一些可能的实现方式中，将调整后的ResNet网络结构作为对第一图像进行特征提取的卷积网络。第一方向不同于所述对象序列中的对象的排列方向。比如，如果对象序列是在高度方向上排列或堆叠的多个对象，即对象序列中对象的排列方向为高度方向，那么第一方向可以为该对象序列的宽度方向。如果对象序列是沿水平方向排列的多个对象，即对象序列中对象的排列方向为水平方向，那么第一方向可以为该对象序列的高度方向。比如，将该ResNet网络结构中的第三层(layer3)和第四层(layer4)的卷积层的最后一个步长(Stride)中的第一方向的步长保持为2不变；这样，就实现了在第一图像的第一方向的长度维度上进行下采样，将得到的特征图的第一方向的长度变为第一图像的第一方向的长度的一半。以对象序列为高度方向上堆叠的多个对象为例，将该ResNet网络结构中的第三层(layer3)和第四层(layer4)的卷积层的最后一个步长(Stride)中的宽度步长保持为2不变；这样，就实现了在第一图像的宽度维度上进行下采样，将得到的特征图的宽度变为第一图像的宽度的一半。

步骤S212，基于所述第一图像的第二方向的长度，提取所述第一图像的第二方向的长度维度上的特征，得到第二维度特征。

在一些可能的实现方式中，第二方向与对象序列中对象的排列方向相同，将该残差网络结构中的第三层和第四层的卷积层的最后一个步长中的第二方向的步长从2变为1；这样，就实现了在第一图像的第二方向的长度维度上不进行下采样，即保持第一图像的第二方向的长度，在该第一图像的第二方向的长度维度上进行特征提取，得到与第一图像的第二方向长度相同的第二维度特征。

在一个具体例子中，以对象序列的排列方向为高度方向为例，将该残差网络结构中的第三层和第四层的卷积层的最后一个步长中的高度步长从2变为1；这样，就实现了在第一图像的高度维度上不进行下采样，即保持第一图像的高度，在该第一图像的高度维度进行特征提取，得到与第一图像的高度相同的特征。

步骤S213，基于所述第一维度特征和所述第二维度特征，得到所述特征图。

在一些可能的实现方式中，将第一维度特征与第二维度特征相结合，组成该第一图像的特征图。

在上述步骤S211至213中，在第一图像的第二方向的长度维度上不对第一图像进行下采样，使得第二方向的维度特征的维度与第一图像的第二方向的维度相同，在与对象的排列方向不同的第一方向维度上对第一图像进行下采样，使得第一方向维度特征的长度变为第一图像的在第一方向的长度的一半；如此，能够尽可能多的保留第一图像在对象序列的排列方向维度上的特征信息。在对象序列的排列方向为高度方向的情况下，将ResNet中第三层和第四层的最后一个Stride为(2，2)的卷积层改为Stride为(1，2)的卷积层，从而使得在高度维度上不对第一图像进行下采样，使得高度维度特征的维度与第一图像的高度相同，在宽度维度上对第一图像进行下采样，使得宽度维度特征的宽度变为第一图像的宽度的一半；如此，能够尽可能多的保留第一图像在高度维度上的特征信息。

步骤S202，对所述特征图进行拆分，得到所述特征序列。

在一些实施例中，基于所述特征图的维度信息，对所述特征图进行拆分，得到所述特征序列。特征图的维度信息包括第一方向的维度和第二方向的维度(比如，宽度维度和高度维度)，基于这样两个维度对该特征图做不同的处理，得到特征序列。比如，首先，通过在特征图的第一方向的维度对该特征图进行池化，然后，在特征图的第二方向的维度对该特征图进行拆分操作，从而将该特征图拆分为特征序列。这样，采用基于两个损失函数训练得到的对象序列的识别网络，对图像进行特征提取，并对该特征图按照维度信息进行拆分，从而能够得到保留了更多第二方向的特征的特征序列，便于后续对特征序列中的对象序列类别进行更加精准地识别。

在一些可能的实现方式中，在第一方向的维度对特征图进行池化，并沿着第二方向的维度对该特征图进行拆分，得到特征序列，即上述步骤S202可以通过步骤S221和222(图示未示出)实现：

步骤S221，沿着所述第一方向对所述特征图进行池化，得到已池化特征图。

在一些实施例中，沿着该特征图的第一方向维度，对该特征图进行平均池化，并保持该特征图在第二方向的维度和通道维度不变，得到已池化特征图。比如，以对象序列中对象的排列方向为沿高度排列为例，沿所述维度信息中的宽度维度对所述特征图进行池化，得到已池化特征图。第一特征图的维度为2048*40*16(其中，通道维度是2048，高维度是40，宽度维度是16)，经过宽度维度的平均池化后变成2048*40*1的已池化特征图。

步骤S222，沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。

在一些实施例中，沿着所述特征图的第二方向维度，对所述已池化特征图进行拆分，得到所述特征序列。对已池化特征图进行拆分的数量可以是基于特征图的第二方向的长度确定的；比如，特征图第二方向的长度为60，那么将该已池化特征图拆分为60个向量。在一个具体例子中，以对象序列中对象的排列方向为沿高度排列为例，基于高度维度，对已池化特征图进行拆分，得到所述特征序列。如果已池化特征图为2048*40*1，沿着高度维度将已池化特征图进行拆分，得到40个2048维的向量，每个向量对应原始第一图像中高度方向1/40图像区域对应的特征。如此，通过在与对象排列方向不同的第一方向对特征图进行池化后，在与对象排列方向相同的第二方向对特征图进行拆分，从而使得特征序列能够包括第一图像沿第二方向的更多细节信息。

在一些实施例中，通过对特征序列的分类结果进行进一步的处理，预测每一对象的类别和对象序列的长度，即上述步骤S104可以通过以下步骤S141至143(图示未示出)实现：

步骤S141，采用所述对象序列的识别网络的分类器，预测所述特征序列中每个特征对应的类别。

在一些实施例中，将特征序列输入分类器，以预测该特征序列中每一特征对应的类别。比如，对象序列的总类别数为n，那么采用具有n个类别标签的分类器，对特征序列中的特征的类别进行预测，从而得到特征序列中的特征对应于这n个类别标签中的每一个类别标签的预测概率。

步骤S142，基于所述特征序列中的每个特征对应的类别的预测结果，确定所述对象序列中的每一对象的类别。

在一些实施例中，对特征图进行拆分之后，特征序列中包括的是待识别图像在第二方向维度上的多个特征向量，即该特征向量为待识别图像的部分特征，可能包括一个或多个对象序列的全部特征，或者是包括一个对象序列的部分特征。这样，将特征序列中每一特征对应的对象的分类结果相结合，能够准确地识别出第一图像中对象序列中每一个对象的类别。

步骤S143，在所述特征序列中，确定属于同一类对象的目标特征的序列长度。

在一些实施例中，首先，在特征序列中，确定属于同一类对象的特征集合；然后，确定这些特征所组成的序列的序列长度。在一个具体例子中，以对象序列为沿高度方向堆叠的游戏币为例，在特征序列中，确定属于同一类游戏币的特征所对应的游戏币序列长度。其中，游戏币的类别包括：游戏币的面值、游戏币的图案和游戏币所适用的游戏等。每一类别对象的目标特征的序列长度都是不确定的；这样，就实现了将定长的特征序列，转变为不定长的目标特征的序列长度。

步骤S144，基于所述对象序列中的每一对象的类别和每一类对象对应的目标特征的序列长度，得到所述对象序列的类别信息。

在一些实施例中，将每一对象的类别和每一类对象对应的序列长度，作为至少一个对象的类别信息。这样，通过对特征序列的分类结果，采用CTC损失函数的后处理规则进行处理，能够使得预测到的每一对象的类别以及对象序列长度更加精确。

在一些实施例中，对象序列的识别网络用于对对象序列中对象的类别进行识别，对象序列的识别网络为对待训练的对象序列的识别网络进行训练得到的，待训练的对象序列的识别网络的训练过程可以通过如图2B所示的步骤实现，图2B为本申请实施例提供的对象序列的识别网络的训练方法的实现流程示意图，结合图2B进行以下说明：

步骤S21，获取样本图像。

在一些实施例中，样本图像包括样本对象序列和样本对象序列的类别标注信息。该样本图像可以是采集的画面包括样本对象的多帧已标注图像，还可以是对于采集的图像进行预处理后得到的样本图像。

步骤S22，将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列。

在一些实施例中，首先，对样本图像集进行预处理，使得样本图像集中的样本图像的尺寸是统一的；然后，再对处理后的样本图像进行特征提取，得到样本特征序列。

在一些可能的实现方式中，通过对采集到的样本原始图像进行预处理，并对预处理后的图像进行数据增强，将预处理后的图像和增强的图像相结合作为样本图像，即上述步骤S21可以通过以下过程实现：

首先，获取已标注所述样本对象的样本原始图像。

这里，可以是采用图像采集设备对具有样本对象的场景进行图像采集，得到该样本原始图像。该样本原始图像为多帧图像。

其次，按照预设图像参数，对所述样本原始图像的图像参数进行预处理，得到已调整图像。

这里，按照预设尺寸，对画面包括所述样本对象的样本原始图像的尺寸信息进行调整，并对调整后的图像进行像素值的归一化操作。预设尺寸为设定的预设宽度，高宽和宽度的预设比例。按照该预设宽度将多帧样本原始图像的宽度统一调整为该预设宽度。对于高度不足预设高度的样本原始图像，在未达到预设高度的图像区域中进行像素填充；比如，填充灰色像素值。这样，调整了尺寸信息之后，使得到的多帧已调整图像的尺寸中高度和宽度的比例都是统一的，能够减少多帧已调整图像在处理过程中产生的形变。

再次，对所述已调整图像进行数据增强，得到已增强图像。

这里，数据增强包括：随机翻转、随机裁剪、随机微调高宽比、随机旋转等操作；这样，对多帧已调整图像进行随机翻转、随机裁剪、随机微调高宽比、随机旋转等操作，能够得到更加丰富的样本图像。

最后，将所述已增强图像和所述已调整图像，作为所述样本图像集。

这里，样本图像为所述样本图像集中的任一图像。将已进行尺寸统一的已调整图像和进行已增强图像相结合，作为样本图像集，能够丰富样本图像，而且能够提高待训练网络整体的鲁棒性。

步骤S23，基于所述样本特征序列，采用所述待训练的对象序列的识别网络的分类器，对所述样本对象序列中的样本对象进行类别预测，得到所述样本对象序列的类别预测结果。

在一些实施例中，将样本特征序列输入到待训练的对象序列的识别网络的分类器中进行类别预测，得到样本特征序列中每一个样本特征对应的类别预测结果。

在一些可能的实现方式中，通过分析样本对象的所有类别，设定分类器的分类标签，从而预测每一样本特征序列对应的类别预测结果，即上述步骤S23可以通过以下过程实现：

首先，确定所述样本图像集中包括的所述样本对象的总类别。

这里，分析样本图像所在场景下，样本对象的所有类别。比如，在游戏场景下，样本对象为游戏币，确定所有游戏币的类别，即游戏币的总类别。

然后，基于所述总类别，确定所述待训练的对象序列的识别网络的分类器的分类标签。

这里，按照样本对象的总类别，设定分类器的分类标签，这样该分类器就能够预测样本图像中的样本对象属于任一类别的概率。

最后，采用具有所述分类标签的所述分类器，对所述样本特征序列中的样本对象进行类别预测，得到所述样本特征序列的类别预测结果。

这里，采用具有多类分类标签的分类器，预测每一样本特征序列中对象属于每一类的概率，能够得到该样本特征序列的类别预测结果；基于该类别预测结果可以确定该样本特征序列中包括的对象最有可能的类别。如此，通过分析对象的总类别，设定分类器所具有的分类标签，能够更加精确地预测样本特征序列中的对象的类别。

步骤S24，基于所述样本对象序列的类别预测结果确定第一损失和第二损失。

在一些实施例中，第一损失用于基于样本对象序列的类别标注信息监督所述样本对象序列的类别预测结果，所述第二损失用于基于所述样本对象序列的类别标注信息监督所述样本对象序列中的每一类样本对象的数量。在一些可能的实现方式中，采用CTC损失作为第一损失，采用ACE损失作为第二损失。通过将分类器输出的每一样本特征序列的分类结果以及每一样本特征序列中样本对象的真值信息，作为CTC损失的输入，预测类别预测结果中的同一个样本对象以及该样本对象的类别，从而能够预测出这一帧样本图像中包括的每一个样本对象的类别。将分类器输出的每一样本特征序列的分类结果以及每一样本特征序列中样本对象的真值信息，作为ACE损失的输入，预测属于同一类样本对象的数量，即每一类样本对象所对应的序列长度。

步骤S25，根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，通过比较该分类结果中表征每一样本对象的类别和每一样本对象的真值信息，可以确定第一损失；通过比较该分类结果中表征同一类样本对象的序列和每一类样本对象的序列长度真值，可以确定第二损失。通过该第一损失和第二损失相结合，对待训练的对象序列的识别网络的权重值和调整量进行调整，使得训练好的对象序列的识别网络输出的样本对象的类别和同一类样本对象的序列长度的损失收敛。

通过上述步骤S21至步骤S25，在待训练的对象序列的识别网络中，引入对整体序列进行监督的第一损失和对序列中每个类别的个数进行监督的第二损失，能够整体提高该网络的类别预测效果。

在一些实施例中，在待训练的对象序列的识别网络中，采用卷积子网络，实现对样本图像的特征提取，从而得到样本特征序列，即上述步骤S22可以通过以下步骤S231和232实现(图示未示出)：

步骤S231，采用所述待训练的对象序列的识别网络中的卷积子网络对所述样本图像进行特征提取，得到所述样本图像的样本特征图。

在一些实施例中，采用对残差网络的结构进行微调后的卷积网络作为该待训练识别网络的卷积子网络，对样本图像进行特征提取，得到样本特征图。

在一些可能的实现方式中，在待训练的对象序列的识别网络中，通过采用对步长进行调整后的卷积子网络，对样本图像进行特征提取，从而得到高度保持不变，宽度变化的样本特征图，即上述步骤S231可以通过以下步骤实现：

第一步，采用所述卷积子网络，在所述样本图像的第一方向的长度维度上对所述样本图像进行下采样，得到第一维度样本特征。

这里，第一步的实现过程与上述步骤S211的实现过程类似；即，在样本对象序列的排列方向为沿高度方向堆叠的情况下，在所述样本图像的宽度维度上对所述样本图像进行下采样，得到第一维度样本特征。设定该卷积子网络的layer3和layer4的卷积层的最后一个步长中的宽度步长保持为2不变，高度步长从2变为1。

第二步，基于所述样本图像的第二方向的长度，提取在所述样本图像的第二方向的长度维度上的特征，得到第二维度样本特征。

这里，第二步的实现过程与上述步骤S212的实现过程类似；在样本对象序列的排列方向为沿高度方向堆叠的情况下，基于样本图像的高度，在所述样本图像的高度维度上进行特征提取，得到第二维度样本特征。比如，设定该卷积子网络的layer3和layer4的卷积层的最后一个步长中的高度从2变为1，这样，就实现了在样本图像的高度维度上不进行下采样，即保持样本图像的第二维度样本特征。

第三步，基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像的所述样本特征图。

这里，将第一维度样本特征与第二维度样本特征相结合，组成该样本图像的样本特征图。

上述第一步至第三步，在样本对象序列的排列方向为沿高度方向堆叠的情况下，将ResNet中第三层和第四层的最后一个Stride为(2，2)的卷积层改为Stride为(1，2)的卷积层，作为该待训练的对象序列的识别网络的卷积子网络；如此，能够尽可能多的保留样本图像在排列方向的维度上的特征信息。

步骤S232，对所述样本特征图进行拆分，得到所述样本特征序列。

这里，步骤S232的实现过程与上述步骤S202的实现过程类似；即，基于第一方向的维度和第二方向的维度，对该样本特征图做不同的处理，得到样本特征序列。比如，在第一方向的维度上对样本特征图进行池化，在第二方向的维度上对样本特征图进行拆分成多个特征向量，组成样本特征序列；如此，能够得到保留了更多样本对象排列方向的维度特征的样本特征序列，能够提高对网络进行训练的准确度。

在一些可能的实现方式中，在第一方向的维度对样本特征图进行池化，并沿着第二方向的维度对该样本特征图进行拆分，得到样本特征序列，即上述步骤S232可以通过以下步骤实现：

第一步，沿着所述第一方向对所述样本特征图进行池化，得到已池化样本特征图。

这里，第一步的实现过程与上述步骤S221的实现过程类似；即，沿着该样本特征图的第一方向的维度，对该样本特征图进行平均池化，并保持该样本特征图在第二方向的维度和通道维度不变，得到已池化样本特征图。

第二步，沿着所述第二方向对所述已池化样本特征图进行拆分，得到所述样本特征序列。

这里，第二步的实现过程与上述步骤S222的实现过程类似；即，沿着所述样本特征图的第二方向的维度，对所述已池化样本特征图进行拆分，得到所述样本特征序列。比如，样本特征图第二方向的维度为40，那么将该已池化样本特征图拆分为40个向量，组成样本特征序列。如此，通过在第二方向的维度对样本特征图进行池化后，在第二方向的维度对样本特征图进行拆分，从而使得样本特征序列能够保留样本图像在第二方向的维度上的更详细的信息。

在一些实施例中，通过对第一损失和第二损失进行动态加权融合，提高待训练的对象序列的识别网络的对象序列的识别性能，即上述步骤S25可以通过以下步骤S251和S252实现：

步骤S251，对所述第一损失和所述第二损失进行加权融合，得到总损失。

在一些实施例中，采用不同的动态权重分别对第一损失和第二损失进行加权，将加权调整后的第一损失和第二损失进行融合，得到该总损失。

在一些可能的实现方式中，通过为第一损失和第二损失设定动态调整参数，得到该总损失，即上述步骤S251可以通过以下过程实现：

首先，将第一动态权重赋予所述第一损失，得到第一动态损失。

在一些实施例中，在训练次数达到第一阈值或训练时间达到第一时长的情况下，所述第一动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐减小。即第一动态权重随着所述待训练的对象序列的识别网络的训练过程逐渐减小。这样，在对待训练的对象序列的识别网络进行训练的过程中，在训练前期采用作为第一损失的CTC损失，基于分类器输出的特征序列的分类结果，对特征序列中属于同一对象的序列进行监督，这样CTC损失在该网络的训练前期具有较好的表现。

其次，将第二动态权重赋予所述第二损失，得到第二动态损失。

在一些实施例中，在训练次数达到第二阈值或训练时间达到第二时长的情况下，所述第二动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐增大，即所述第二动态权重随着所述待训练的对象序列的识别网络的训练过程逐渐增大。这样，在对待训练的对象序列的识别网络进行训练的过程中，在训练后期采用作为第二损失的ACE损失，基于分类器输出的特征序列的分类结果，对特征序列中每一类的对象的数量进行监督，这样ACE损失在该网络的训练后期具有较好的表现。

最后，将所述第一动态损失和所述第二动态损失进行融合，得到所述总损失。

在一些实施例中，将第一动态权重赋予第一损失，将第二动态权重赋予第二损失之后，将两个损失函数进行相加，得到该待训练的对象序列的识别网络的总损失。如此，采用第一动态损失和第二动态损失进行融合得到的总损失，通过采用该总损失训练对象序列的识别网络，能够提高网络的鲁棒性。

步骤S252，基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，采用第一动态损失和第二动态损失进行融合得到的总损失，对待训练的对象序列的识别网络进行训练，能够提高整个网络的预测效果，从而能够得到性能较高的对象序列的识别网络。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以应用场景为游戏场所为例，对游戏场所中的对象(比如，游戏币)进行识别为例，进行说明。

图像中的序列识别算法在场景文字识别、车牌识别等场景中有广泛应用。在相关技术中，主要是由卷积神经网络提取图像特征+对每个切片特征进行分类预测结合CTC损失函数去重并监督预测输出构成的，在文字识别和车牌识别任务中都能适用。

然而，对于游戏场所中的游戏币序列识别问题，由于游戏币序列通常序列长度较长，且对于每个游戏币的面额和类型预测准确度有较高的要求。

基于此，本申请实施例提供一种对象序列的识别方法，通过将CTC损失融合ACE损失并动态调整相应的权重，在对象序列的识别网络中加强对序列长度的监督，实现准确的对象序列的识别。

图3为本申请实施例提供的对象序列的识别网络的结构示意图，结合图3进行以下说明，该对象序列的识别网络的框架包括以下模块：

图像输入模块301，用于对样本图像集中的每一样本图像进行预处理，得到处理后的样本图像集。

在一些可能的实现方式中，对一帧样本图像进行预处理主要包括：保持高宽比调整图像大小、图像像素值归一化等操作。其中，保持长宽比调整图像大小的操作为，将多帧样本图像的宽调整到统一大小；为了减少由于输入图像中的游戏币数量不等，图像高宽比差距大，如果不保持多帧图像的高宽比调整到统一大小，那么这多帧图像会产生巨大的形变，本申请实施例对于图像高度不足最大高度的图像，在剩余不足最大高度的位置填充(127，127，127)灰色均值像素值。对为丰富样本图像集，对处理后的样本图像仅数据增强步骤；比如，对处理后的样本图像孔美新随机翻转、随机裁剪、随机微调高宽比、随机旋转等操作，如此，能够提高待训练网络整体的鲁棒性。

特征提取模块302，对处理后的样本图像进行特征提取，得到特征序列303。

在一些可能的实现方式中，首先，利用待训练的对象序列的识别网络中的卷积神经网络部分对输入的样本图像提取高层次特征。该卷积神经网络部分是基于ResNet的网络结构进行微调得到的；比如，对ResNet网络结构中layer3和layer4的最后一个Stride为(2，2)的卷积层改为Stride(1，2)；这样，使得特征图在高度维度上不进行下采样，在宽度维度上进行下采样变为原来的一半，如此，能够尽可能多的保留高度维度上的特征信息。然后，对特征图进行拆分操作，即将卷积神经网络提取的特征图拆分成若干特征序列，以便于后续分类器与损失函数计算。在实现特征图拆分时沿着特征图宽度方向做平均池化，高度方向和通道维度都不变；比如，特征图的尺寸是2048*40*8(通道维度是2048，高维度是40，宽度维度是8)，经过宽度方向的平均池化后变成2048*40*1的特征图，并沿着高度维度将特征图拆开，变成40个2048维的向量，每个向量对应原图中高度方向1/40区域对应的特征。

在一个具体例子中，如果样本图像如图4所示，包括多个游戏币，那么按照图像401的高维度进行划分，得到特征序列，一个特征序列中包括小于等于一个游戏币的特征。

分类器，对特征序列，使用n分类器进行游戏币类别预测，得到每个特征序列的预测概率。

这里，n为游戏币种类总数。

损失模块，针对所有特征序列分类的预测概率，采用动态调整的方式，将CTC损失304和ACE损失305相结合，同时对预测结果进行监督。

在一些可能的实现方式中，该待训练的对象序列的识别网络中，CTC损失304和ACE损失305结合组成总损失306，可以表示为：L＝αL_ctc+βL_ace。由于CT损失对于序列的整体预测情况的监督效果在训练前期表现较好，而到了训练后期，ACE损失对于序列中每个类别的个数也就是序列长度的预测进行额外监督，从而提高整体的预测效果。因此，两个损失函数的权重使用动态调整的方式，第一动态权重α随着训练过程逐渐变小，而第二动态权重β随着训练过程逐渐增大。

最后，根据特征序列的分类结果按照上述损失函数的计算结果进行反向传播，更新网络参数权重。在测试阶段，根据CTC损失函数后处理规则对特征序列的分类结果进行处理，得到预测的游戏币序列结果，包括游戏币序列长度和每个游戏币对应的分类。

在本申请实施例中，在不引入额外参数或网络结构更改的情况下，能够提升对序列长度的预测结果，同时提高类别的识别精度，最终提高整体识别结果，特别是在长游戏币序列的场景得到较大提升。

本申请实施例提供一种对象序列的识别装置，图5A为本申请实施例对象序列的识别装置的结构组成示意图，如图5A所示，所述对象序列的识别装置500包括：

第一获取模块501，用于获取对象序列的第一图像；

第一提取模块502，用于将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程中的监督信息至少包括：样本对象序列中每一样本对象的类别监督信息和样本对象序列中每一类样本对象的序列长度监督信息；

第一预测模块503，用于基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息。

在一些实施例中，所述第一提取模块502，包括：

在一些实施例中，所述第一提取子模块，包括：

在一些实施例中，所述第一拆分子模块，包括：

在一些实施例中，所述第一预测模块503，包括：

本申请实施例提供一种对象序列的识别网络的训练装置，图5B为本申请实施例对象序列的识别网络的训练装置的结构组成示意图，如图5B所示，所述对象序列的识别网络的训练装置510包括：

第二获取模块511，用于获取样本图像，所述样本图像包括样本对象序列和样本对象序列的类别标注信息；

第二提取模块512，用于将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；

第二预测模块513，用于基于所述样本特征序列，采用所述待训练的对象序列的识别网络的分类器，对所述样本对象序列中的样本对象进行类别预测，得到所述样本对象序列的类别预测结果，所述样本对象序列的类别预测结果包括所述样本对象序列中每一个样本对象的类别预测信息；

第一确定模块514，用于基于所述样本对象序列的类别预测结果确定第一损失和第二损失，其中，所述第一损失用于基于样本对象序列的类别标注信息监督所述样本对象序列的类别预测结果，所述第二损失用于基于所述样本对象序列的类别标注信息监督所述样本对象序列中的每一类样本对象的数量；

第一调整模块515，用于根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的对象序列的识别网络输出的分类结果的损失满足收敛条件。

在一些实施例中，所述第二提取模块512，包括：

在一些实施例中，所述第二提取子模块，包括：

在一些实施例中，所述第二拆分子模块，包括：

在一些实施例中，所述第一调整模块515，包括：

在一些实施例中，所述第一融合子模块，包括：

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的对象序列的识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的对象序列的识别方法。

本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的对象序列的识别方法。

本申请实施例提供一种计算机设备，图6为本申请实施例计算机设备的组成结构示意图，如图6所示，所述计算机设备600包括：一个处理器601、至少一个通信总线、通信接口602、至少一个外部通信接口和存储器603。其中，通信接口602配置为实现这些组件之间的连接通信。其中，通信接口602可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器601，配置为执行存储器中图像处理程序，以实现上述实施例提供的对象序列的识别方法。

以上对象序列的识别装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请对象序列的识别装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ReadOnly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对象序列的识别方法，包括：

获取对象序列的第一图像；

将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列；其中，所述对象序列的识别网络在训练过程中的监督信息至少包括：样本对象序列中每一样本对象的类别监督信息和所述样本对象序列中每一类样本对象的序列长度监督信息；

2.根据权利要求1所述的方法，其中，所述将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列，包括：

采用所述对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图；

对所述特征图进行拆分，得到所述特征序列。

3.根据权利要求2所述的方法，其中，所述采用对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图，包括：

采用所述卷积子网络，在所述第一图像的第一方向的长度维度上对所述第一图像进行下采样，得到第一维度特征，所述第一方向不同于所述对象序列中的对象的排列方向；

基于所述第一图像的第二方向的长度，提取所述第一图像的第二方向的长度维度上的特征，得到第二维度特征；

基于所述第一维度特征和所述第二维度特征，得到所述特征图。

4.根据权利要求3所述的方法，其中，所述对所述特征图进行拆分，得到所述特征序列，包括：

沿着所述第一方向对所述特征图进行池化，得到已池化特征图；

沿着所述第二方向对所述已池化特征图进行拆分，得到所述特征序列。

5.根据权利要求1至4任一项所述的方法，其中，所述基于所述特征序列，采用所述对象序列的识别网络的分类器预测所述对象序列的类别，得到所述对象序列的类别信息，包括：

采用所述对象序列的识别网络的分类器，预测所述特征序列中每个特征对应的类别；

基于所述特征序列中的每个特征对应的类别的预测结果，确定所述对象序列中的每一对象的类别；

在所述特征序列中，确定属于同一类对象的目标特征的序列长度；

基于所述对象序列中的每一对象的类别和每一类对象对应的目标特征的序列长度，得到所述对象序列的类别信息。

6.一种对象序列的识别网络的训练方法，包括：

获取样本图像，所述样本图像包括样本对象序列和样本对象序列的类别标注信息；

将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列；

基于所述样本特征序列，采用所述待训练的对象序列的识别网络的分类器，对所述样本对象序列中的样本对象进行类别预测，得到所述样本对象序列的类别预测结果，所述样本对象序列的类别预测结果包括所述样本对象序列中每一个样本对象的类别预测信息；

基于所述样本对象序列的类别预测结果确定第一损失和第二损失，其中，所述第一损失用于基于样本对象序列的类别标注信息监督所述样本对象序列的类别预测结果，所述第二损失用于基于所述样本对象序列的类别标注信息监督所述样本对象序列中的每一类样本对象的数量；

根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的对象序列的识别网络输出的分类结果的损失满足收敛条件。

7.根据权利要求6所述的方法，其中，所述将所述样本图像输入待训练的对象序列的识别网络中，进行特征提取，得到样本特征序列，包括：

采用所述待训练的对象序列的识别网络中的卷积子网络对所述样本图像进行特征提取，得到所述样本图像的样本特征图；

对所述样本特征图进行拆分，得到所述样本特征序列。

8.根据权利要求7所述的方法，其中，所述采用所述待训练的对象序列的识别网络中的卷积子网络对所述样本图像进行特征提取，得到所述样本图像的样本特征图，包括：

采用所述卷积子网络，在所述样本图像的第一方向的长度维度上对所述样本图像进行下采样，得到第一维度样本特征，所述第一方向不同于所述样本图像中的样本对象序列的排列方向；

基于所述样本图像的第二方向的长度，提取在所述样本图像的第二方向的长度维度上的特征，得到第二维度样本特征；

基于所述第一维度样本特征和所述第二维度样本特征，得到所述样本图像的所述样本特征图。

9.根据权利要求8所述的方法，其中，所述对所述样本特征图进行拆分，得到所述样本特征序列，包括：

沿着所述第一方向对所述样本特征图进行池化，得到已池化样本特征图；

沿着所述第二方向对所述已池化样本特征图进行拆分，得到所述样本特征序列。

10.根据权利要求6至9任一项所述的方法，其中，所述根据所述第一损失和所述第二损失，对待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件，包括：

对所述第一损失和所述第二损失进行加权融合，得到总损失；

基于所述总损失，对所述待训练的对象序列的识别网络的网络参数进行调整，以使调整后的所述对象序列的识别网络输出的分类结果的损失满足收敛条件。

11.根据权利要求10所述的方法，其中，所述对所述第一损失和所述第二损失进行加权融合，得到总损失，包括：

将第二动态权重赋予所述第二损失，得到第二动态损失；其中，在训练次数达到第二阈值或训练时间达到第二时长的情况下，所述第二动态权重随着所述待训练的对象序列的识别网络的训练次数和/或训练时长的增加逐渐增大；

将所述第一动态损失和所述第二动态损失进行融合，得到所述总损失。

12.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被处理器执行后配置为：

获取对象序列的第一图像；

13.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被处理器执行后配置为：

14.一种计算机设备，其中，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时配置为：

获取对象序列的第一图像；

15.根据权利要求14所述的计算机设备，其中，在将所述第一图像输入对象序列的识别网络中，进行特征提取，得到特征序列时，所述处理器配置为：

对所述特征图进行拆分，得到所述特征序列。

16.根据权利要求15所述的计算机设备，其中，在采用对象序列的识别网络中的卷积子网络对所述第一图像进行特征提取，得到特征图时，所述处理器配置为：

17.根据权利要求16所述的计算机设备，其中，在对所述样本特征图进行拆分，得到所述样本特征序列时，所述处理器配置为：

18.一种计算机设备，其中，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时配置为：

19.一种计算机程序，包括可由电子设备执行的计算机指令，其中，所述计算机指令在被所述电子设备中的处理器执行时配置为：

获取对象序列的第一图像；

20.一种计算机程序，包括可由电子设备执行的计算机指令，其中，所述计算机指令在被所述电子设备中的处理器执行时配置为：