CN108230291B

CN108230291B - 物体识别系统训练方法、物体识别方法、装置和电子设备

Info

Publication number: CN108230291B
Application number: CN201710201585.7A
Authority: CN
Inventors: 周彧聪; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2020-09-29
Anticipated expiration: 2037-03-30
Also published as: CN108230291A

Abstract

本发明实施例提供一种物体识别系统训练方法、物体识别方法、装置和电子设备。物体识别系统训练方法包括：基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，共享图像特征数据为经过卷积的各样本图像的图像特征数据；根据共享图像特征数据并基于权重生成神经网络确定样本图像序列中各样本图像的图像特征权重数据；根据共享图像特征数据以及图像特征权重数据确定特征损失信息，特征损失信息用于表达样本图像序列的特征损失状态；根据特征损失信息调整共享神经网络和/或权重生成神经网络的网络参数。能够克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

Description

物体识别系统训练方法、物体识别方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于图像的物体识别技术。

背景技术

随着计算机视觉技术的发展，物体识别是计算机视觉应用中的核心任务。物体识别就是对于给定的两组物体图像(通常来自于不同摄像头采集的数据)，判别其是否是相同的物体对象(如人脸、人体、车辆等)。在物体识别任务中，输入数据通常是由包含每个物体的多张图像构成的序列，每个序列中的多张图像展现了不同角度、姿态等形式的物体。

通常，现有方法利用卷积神经网络对一个序列中的所有图像分别提取特征，再将提取到的特征进行简单的平均或池化，作为该序列的最终特征。最终特征用于后续的物体识别。然而，在上述方法中，提取序列的特征时仅仅是对序列中各个图像的特征进行简单融合，而未考虑序列中图像之间的差异如光照、清晰度、角度等因素的影响，使得在图像之间差异较大的情况下，融合得到的特征的判别力下降，训练出的物体识别网络的识别效果不佳。

发明内容

本发明实施例的目的在于，提供一种物体识别网络训练方案和物体识别方案。

根据本发明实施例的一方面，提供一种物体识别网络训练方法，包括：基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据；根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态；根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，所述根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息之前，还包括：根据所述共享图像特征数据并基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据；所述根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，包括：根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息。

可选地，所述根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数之前，包括：根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据；根据各所述物体分类预测数据确定物体分类的分类损失信息；所述根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数，包括：根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，所述根据各所述物体分类预测数据确定物体分类的分类损失信息之后，所述方法还包括：根据所述分类损失信息和所述特征损失信息，调整所述特征生成神经网络的网络参数。

可选地，所述根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息包括：根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取各个样本图像的加权图像特征数据；根据各个样本图像的加权图像特征数据确定所述样本图像序列的特征表达的特征损失信息。

可选地，所述样本图像序列包括含有物体的基准图像序列和泛样本图像序列。

可选地，所述根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息还包括：根据所述基准图像序列和所述泛样本图像序列的各所述分类图像特征数据和相应的各所述图像特征权重数据分别获取所述基准图像序列和泛样本图像序列的序列融合特征数据；根据所述基准图像序列和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息。

可选地，所述泛样本图像序列包括正样本图像序列和负样本图像序列。

可选地，所述根据所述基准图像序列和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息包括：根据将基准图像序列的序列融合特征数据和正样本图像序列的序列融合特征数据之间的差异最小化，并且将基准图像序列的序列融合特征数据和负样本图像序列的序列融合特征数据之间的差异最大化的规则设置特征表达的损失计算函数。

可选地，所述根据所述分类损失信息和所述特征损失信息，根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数包括：根据所述分类损失信息和所述特征损失信息确定综合损失信息；根据所述综合损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，所述根据所述分类损失信息和所述特征损失信息确定综合损失信息之后，所述方法还包括：根据所述综合损失信息，调整所述特征生成神经网络的网络参数。

根据本发明实施例的第二方面，提供一种物体识别方法，包括：基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据；根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据；根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据；根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

可选地，所述根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据包括：根据各所述第一共享图像特征数据并基于特征生成神经网络，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据并基于特征生成神经网络，提取所述第二图像序列中各图像的第二分类图像特征数据。

可选地，所述根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象包括：根据所述第一融合图像特征数据和第二融合图像特征数据计算所述第一图像序列和所述第二图像序列的特征相似度值；如果所述特征相似度值超过预定的特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中含有相同的物体对象。

可选地，所述共享神经网络和/或权重生成神经网络通过如第一方面所述的任一物体识别系统训练方法训练获得。

可选地，所述特征生成神经网络通过如第一方面所述的任一物体识别系统训练方法训练获得。

根据本发明实施例的第三方面，提供一种物体识别系统训练装置，包括：共享特征获取模块，用于基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；特征权重确定模块，用于根据所述共享特征获取模块提取的共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据；特征损失确定模块，用于根据共享特征获取模块提取的共享图像特征数据以及所述特征权重确定模块确定的图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态；网络参数更新模块，用于根据所述特征损失确定模块确定的特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，所述装置还包括：分类特征提取模块，用于在所述特征损失确定模块根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息之前，根据所述共享图像特征数据并基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据；所述特征损失确定模块用于根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息。

可选地，所述装置还包括：物体分类预测模块，用于在所述网络参数更新模块根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数之前，根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据；分类损失确定模块，用于根据所述物体分类预测模块获取到的各所述物体分类预测数据确定物体分类的分类损失信息；所述网络参数更新模块用于根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，所述网络参数更新模块还用于根据所述分类损失确定模块确定的分类损失信息和所述特征损失确定模块确定的特征损失信息，调整所述特征生成神经网络的网络参数。

可选地，所述特征损失确定模块用于根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取各个样本图像的加权图像特征数据，并且根据各个样本图像的加权图像特征数据确定所述样本图像序列的特征表达的特征损失信息。

可选地，所述特征损失确定模块还用于：根据所述基准图像序列和所述泛样本图像序列的各所述分类图像特征数据和相应的各所述图像特征权重数据分别获取所述基准图像序列和泛样本图像序列的序列融合特征数据；根据所述基准图像序列和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息。

可选地，所述特征损失确定模块用于根据将基准图像序列的序列融合特征数据和正样本图像序列的序列融合特征数据之间的差异最小化，并且将基准图像序列的序列融合特征数据和负样本图像序列的序列融合特征数据之间的差异最大化的规则设置特征表达的损失计算函数。

可选地，所述网络参数更新模块用于根据所述分类损失信息和所述特征损失信息确定综合损失信息，并且根据所述综合损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，所述网络参数更新模块还用于根据所述综合损失信息，调整所述特征生成神经网络的网络参数。

根据本发明实施例的第四方面，提供一种物体识别装置，包括：共享特征获取模块，用于基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；分类特征提取模块，用于根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据；特征权重确定模块，用于根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据；特征融合模块，用于根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据；物体识别模块，用于根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

可选地，所述分类特征提取模块用于根据各所述第一共享图像特征数据并基于特征生成神经网络，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据并基于特征生成神经网络，提取所述第二图像序列中各图像的第二分类图像特征数据。

可选地，所述物体识别模块包括：相似度计算单元，用于根据所述第一融合图像特征数据和第二融合图像特征数据计算所述第一图像序列和所述第二图像序列的特征相似度值；物体识别单元，用于：如果所述特征相似度值超过预定的特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中含有相同的物体对象。

根据本发明实施例的第五方面，提供一种第一电子设备。第一电子设备包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如上述第一方面提供的物体识别系统训练方法对应的操作。

根据本发明实施例的第五方面，提供一种第二电子设备。第二电子设备包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如上述第二方面提供的物体识别方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据可执行指令，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；用于根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据的可执行指令；用于根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息的可执行指令，所述特征损失信息用于表达所述样本图像序列的特征损失状态；用于根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数的可执行指令。

根据本发明实施例的又一方面，还提供了另一种计算机可读存储介质，所述计算机可读存储介质存储有：用于基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据的可执行指令，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；用于根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据的可执行指令；用于根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据的可执行指令；用于根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据的可执行指令；用于根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象的可执行指令。

根据本发明实施例的物体识别系统训练方案和物体识别方案，通过使用样本图像序列来训练至少包括共享神经网络和权重生成神经网络的物体识别系统，无需提供样本图像序列中的图像特征的特征权重，而是自动学习特征权重，使得在较为复杂的实际应用场景中，当使用该物体识别系统对图像序列进行物体识别或匹配时，能够充分利用从权重生成神经网络得到的图像特征权重数据，为物体突出的图像特征生成较高的权重值来进行物体识别或匹配等，从而克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

附图说明

图1是示出根据本发明实施例一的物体识别系统训练方法的流程图；

图2是示出根据本发明实施例二的物体识别系统训练方法的流程图；

图3是示出根据本发明实施例三的物体识别系统训练方法的流程图；

图4是示出根据本发明实施例四的物体识别系统训练方法的流程图；

图5是示出根据本发明实施例五的物体识别方法的流程图；

图6是示出根据本发明实施例六的物体识别方法的流程图；

图7是示出根据本发明实施例七的物体识别系统训练装置的逻辑框图；

图8是示出根据本发明实施例八的物体识别系统训练装置的逻辑框图；

图9是示出根据本发明实施例九的物体识别装置的逻辑框图；

图10是示出根据本发明实施例十的物体识别装置的逻辑框图；

图11是示出根据本发明实施例十一的第一电子设备的结构示意图；

图12是示出根据本发明实施例十二的第二电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明实施例的示例性实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

图1是示出根据本发明实施例一的物体识别系统训练方法的流程图。

这里，训练的物体识别系统至少包括用于从图像提取共享图像特征数据的共享神经网络以及用于基于前述共享图像特征数据确定图像特征权重的权重生成神经网络，这些图像特征权重与用于物体的分类识别的图像特征相应。

本发明提出的物体识别系统训练方法以及物体识别方法均针对包括多个时序上连续的多个图像的图像序列进行处理，例如通过摄像头拍摄的视频帧序列或通过视频制作工具制作的视频图像序列。

参照图1，在步骤S110，基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据。

可从公开图库选取多个样本图像序列，也可以自行采集作为训练样本的多个样本图像序列。样本图像序列的多个样本图像可记录有同一物体对象，这样的样本图像序列可作为正样本图像序列。当然，也可以选取记录不同物体对象的图像序列作为负样本图像序列。可使用正样本图像序列来训练该物体识别系统，也可以结合使用正样本图像序列和负样本图像序列来训练该物体识别系统，以提高图像特征提取的性能。

这里的共享神经网络是包括多个卷积层的卷积神经网络，用于从图像提取共享图像特征数据，这些共享图像特征数据是经过卷积的图像特征数据，例如图像特征向量、图像特征参数等。

物体识别系统中的其他神经网络可对这些共享图像特征数据进行进一步的处理(例如卷积、分类、下采样等)，以得到预期的识别、分类、映射等处理结果。

具体地，将样本图像序列中的各样本图像输入共享神经网络执行例如卷积等处理，分别提取到各样本图像的共享图像特征数据。

在步骤S120，根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据。

这里的图像特征权重数据是指用于物体识别的分类图像特征的权重数据。在实施例一的物体识别系统训练方法中训练的权重生成神经网络用于根据图像序列的共享图像特征数据生成物体的分类图像特征的权重数据。

例如，假设要识别的物体对象为人，则通过权重生成神经网络对图像中记录的人的分类图像特征(如轮廓特征、头部区域特征、肢体区域特征等)分别生成权重数据。

具体地，将这些共享图像特征数据输入权重生成神经网络，来获得各样本图像的图像特征权重数据作为检测结果，以作为后续训练处理的依据。

在步骤S130，根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态。

这里，根据共享图像特征数据和图像特征权重数据，确定用于表达所述样本图像序列的特征损失状态的特征损失信息作为训练评价指标，以对训练的物体识别系统进行训练、优化调整。

例如，可根据从任一样本图像序列中各样本图像的图像特征权重数据来计算其差值或欧式距离等作为该特征损失信息；也可以根据共享图像特征数据获取到样本图像序列中各样本图像的其他物体识别信息，再根据获取到的其他物体识别信息来确定该特征损失信息。

此后，在步骤S140，根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

具体地，可将特征损失信息反传给共享神经网络和/或权重生成神经网络，以迭代地减小该共享神经网络和/或权重生成神经网络的检测偏差，调整两个神经网络或任一神经网络的网络参数，如各层的权值矩阵等，使得这两个神经网络或任一神经网络迭代地收敛，以训练获得共享神经网络和/或权重生成神经网络。

根据本发明实施例一的物体识别系统训练方法，通过使用样本图像序列来训练至少包括共享神经网络和权重生成神经网络的物体识别系统，无需提供样本图像序列中的图像特征的特征权重，而是自动学习特征权重，使得在较为复杂的实际应用场景中，当使用该物体识别系统对图像序列进行物体识别或匹配时，能够充分利用从权重生成神经网络得到的图像特征权重数据，为物体突出的图像特征生成较高的权重值来进行物体识别或匹配等，从而克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

实施例二

图2是示出根据本发明实施例二的物体识别系统训练方法的流程图。

这里，训练的物体识别系统除包括前述共享神经网络和权重生成神经网络以外，还包括用于基于前述共享图像特征数据提取分类图像特征数据的特征生成神经网络，这些分类图像特征数据用于物体的分类识别，与前述权重生成神经网络确定的图像特征权重对应。

参照图2，在步骤S210，基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据。

在完成步骤S210的处理后，可分别执行步骤S220和步骤S230。在此，可按照任何顺序执行步骤S220和S230，即先后执行步骤S220和S230、先后执行步骤S230和S220或并行地执行步骤S220和S230。

在步骤S220，根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据。

步骤S210和S220的处理分别与步骤S110和S120的处理类似，在此不予赘述。

在步骤S230，根据所述共享图像特征数据并基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据。

具体地，将这些共享图像特征数据输入特征生成神经网络，获得各样本图像的分类图像特征数据作为又一检测结果，以作为后续训练处理的依据。

在完成步骤S220和S230后，执行步骤S240：根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息。

也就是说，在步骤S240，结合各分类图像特征数据和相应的图像特征权重数据来计算物体特征表达的特征损失信息。

例如，可根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取各个样本图像的加权图像特征数据，再根据各个样本图像的加权图像特征数据确定所述样本图像序列的特征表达的特征损失信息。

由于根据前述加权处理，可获得任一样本图像序列中各样本图像的加权图像特征数据，因此，可对样本图像序列中各样本图像的加权图像特征数据来计算其欧式距离、余弦距离等作为该特征损失信息。

在步骤S250，根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可与步骤S140类似地执行步骤S250。在此基础上，还可以根据所述特征损失信息调整特征生成神经网络的网络参数。

在此，可将特征损失信息分别反传给共享神经网络、权重生成神经网络和/或特征生成神经网络，在梯度下降的过程中迭代地减小各网络的检测偏差，用以调整共享神经网络、权重生成神经网络和/或特征生成神经网络的网络参数。

根据本发明实施例二的物体识别系统训练方法，通过使用样本图像序列来训练包括共享神经网络、特征生成神经网络和权重生成神经网络的物体识别系统，在训练过程中，无需提供样本图像序列中的图像特征的特征权重，而是自动学习特征权重，并且通过结合提取的分类图像特征数据和图像特征权重数据来生成监督信号，对前述神经网络进行训练。在较为复杂的实际应用场景中，当使用该物体识别系统对图像序列进行物体识别或匹配时，能够充分利用从特征生成神经网络和权重生成神经网络得到的分类图像特征数据以及其图像特征权重数据，为物体突出的图像特征生成较高的权重值来进行物体识别或匹配等，从而克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

实施例三

图3是示出根据本发明实施例三的物体识别系统训练方法的流程图。

参照图3，根据本发明实施例三的物体识别系统训练方法中的步骤S310、S320、S330和S340分别与前述步骤S210、S220、S230和S240的处理类似，在此不予赘述。

根据本发明实施例三，在完成步骤S330的处理后，执行步骤S350和步骤S360。

在步骤S350，根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据。

可通过任何现有的图像分析技术来获取样本图像序列中各样本图像的物体分类预测数据，以取得样本图像序列的物体识别预测数据，例如，预测样本图像序列中记录的是人、车辆、狗、荷花等物体类别。

可选地，基于预先训练的物体分类神经网络并根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据。在获取物体分类预测数据的过程中，还可获取物体分类的预测置信度等信息。

在步骤S360，根据各所述物体分类预测数据确定物体分类的分类损失信息。

例如，可通过在步骤S350获取到的物体分类预测数据和样本图像序列的物体标注(ground truth)来确定该分类损失信息，还可结合物体分类的预测置信度信息来计算该分类损失信息。将该分类损失信息作为另一检测结果的评估指标来进一步训练物体识别系统的各个神经网络。

在步骤S370，根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

也就是说，在该步骤，结合确定的分类损失信息和特征损失信息来对共享神经网络和/或所述权重生成神经网络的训练进行监督。

例如，根据所述分类损失信息和所述特征损失信息确定综合损失信息，再根据所述综合损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

类似地，在步骤S370，还可根据所述综合损失信息，调整特征生成神经网络的网络参数。

根据本发明实施例三的物体识别系统训练方法，通过使用样本图像序列来训练包括共享神经网络、特征生成神经网络和权重生成神经网络的物体识别系统，在训练过程中，无需提供样本图像序列中的图像特征的特征权重，而是自动学习特征权重，并且通过结合特征损失信息和分类损失信息两种损失信息来生成监督信号，对前述神经网络进行训练，提高训练出的各个神经网络的准确性。在较为复杂的实际应用场景中，当使用该物体识别系统对图像序列进行物体识别或匹配时，能够为物体突出的图像特征生成较高的权重值来进行物体识别或匹配等，从而克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

实施例四

图4是示出根据本发明实施例四的物体识别系统训练方法的流程图。

参照图4，在步骤S410，基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据。

根据本实施例，为了更好地对物体识别系统的训练进行监督，将每个样本图像序列设置为包括含有物体的基准图像序列和相应的泛样本图像序列。其中，基准图像序列包含作为物体的识别、匹配参照的图像序列，泛样本图像序列包括与所述物体的识别匹配相关的图像序列。

以人脸识别为例，可以从图像样本库中随机进行采样，来选取含有李四的脸部的基准图像序列，该基准图像序列中可含有例如李四的正面人脸、多个不同侧面角度的人脸、不同距离拍摄到的人脸等样本图像的图像序列。此外，可选取在特定场景中姿态、角度、距离相对单一的属于李四的脸或不属于李四的脸的样本图像的图像序列作为该样本图像序列的泛样本图像序列。

在该步骤，基于共享神经网络分别提取各个样本图像序列的基准图像序列和泛样本图像序列中各样本图像的共享图像特征数据。

这里，泛样本图像序列可仅包括正样本图像序列或仅包括负样本图像序列，也可以包括正样本图像序列和负样本图像序列两者。正样本图像序列包含属于同一物体的多个样本图像的图像序列；负样本图像序列包含不属于同一物体的多个样本图像的图像序列。通常，一同使用正样本图像序列和负样本图像序列来进行训练能够得到更好的网络收敛效果和物体识别的性能。

在步骤S420，根据各个样本图像序列的基准图像序列和泛样本图像序列的共享图像特征数据，基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据，并且基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据。

在此，可通过与前述步骤S220和S230类似的处理，得到各个样本图像序列的基准图像序列和泛样本图像序列中的各个样本图像的分类图像特征数据以及相应的图像特征权重数据。

在步骤S430，根据所述基准图像序列和所述泛样本图像序列的各所述分类图像特征数据和相应的各所述图像特征权重数据分别获取所述基准图像序列和泛样本图像序列的序列融合特征数据。

对于任一样本图像序列来说，从其基准图像序列和泛样本图像序列均获取到分类图像特征数据和相应的图像特征权重数据，因此为了对提取到的这些数据进行评估，对该样本图像序列的基准图像序列的分类图像特征数据和相应的图像特征权重数据进行融合，得到整个基准图像序列的序列融合特征数据，并且对该样本图像序列的泛样本图像序列的分类图像特征数据和相应的图像特征权重数据进行融合，得到整个泛样本图像序列的序列融合特征数据。

这里，可先获取每个图像序列(基准图像序列和泛样本图像序列)中的各样本图像的各个加权图像特征数据，再将各个加权图像特征数据分别进行求和平均，得到基准图像序列的各个序列融合特征数据和泛样本图像序列的各个序列融合特征数据。

在步骤S440，根据所述基准图像序列的序列融合特征数据和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息。

可通过计算基准图像序列的各个序列融合特征数据和泛样本图像序列的各个序列融合特征数据之间的差值或欧式距离值，再根据各个差值或欧式距离值来计算特征表达的特征损失信息。

具体地，对于泛样本图像序列中的正样本图像序列，根据将基准图像序列的序列融合特征数据和正样本图像序列的序列融合特征数据之间的差异最小化的规则来设置特征表达的损失计算函数。

具体地，对于泛样本图像序列中的负样本图像序列，根据将基准图像序列的序列融合特征数据和负样本图像序列的序列融合特征数据之间的差异最大化的规则设置特征表达的损失计算函数。

例如，对于包括基准图像序列、正样本图像序列和负样本图像序列的样本图像序列来说，可计算该三个序列之间的三元损失值。三元损失是一种用来评估三元组(即基准图像序列、正样本图像序列和负样本图像序列)是否符合期望的三元损失函数。三元损失函数的目标是正样本特征和基准特征尽量相近，同时负样本特征和基准特征尽量不同。如果一个三元组符合这样的期望，则三元损失值较小，否则三元损失值较大。在本实施例中，网络训练的目标是三元损失值越小越好。

在本实施例中，网络训练的目标是使三元损失值尽可能地最小化。可采用下式(2)设置三元损失函数：

其中，f(x_i ^a)为基准图像序列的序列融合特征数据，f(x_i ^p)为正样本图像序列的序列融合特征数据，f(x_i ⁿ)为负样本图像序列的序列融合特征数据，α为预设的正常数，通常α的取值为1，N为总样本的个数，i为样本的序号。

在步骤S450，根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据。

在此，可通过与前述步骤S350类似的处理，得到各个样本图像序列的基准图像序列和泛样本图像序列中的各个样本图像的物体分类预测数据。

在步骤S460，根据各所述物体分类预测数据确定物体分类的分类损失信息。

也就是说，对基准图像序列、正样本图像序列以及负样本图像序列中的每张图像进行物体分类。

可例如，根据真实的物体分类数据和相应的物体分类预测数据确定各个物体分类的损失值，再对由基准图像序列、正样本图像序列以及负样本图像序列获得的各个物体分类的损失值求平均值，得到该分类损失信息。

在步骤S470，根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络、特征生成神经网络和/或所述权重生成神经网络的网络参数。该步骤的处理与前述步骤S370的处理类似，在此不予赘述。

根据本发明实施例四的物体识别系统训练方法，通过使用包括的样本图像序列，来训练包括共享神经网络、特征生成神经网络和权重生成神经网络的物体识别系统，在训练过程中，将各个基准图像序列和泛样本图像序列的分类图像特征数据和图像特征权重数据进行融合，来自动学习图像特征权重数据以及计算融合特征的特征损失数据，并且通过结合特征损失信息和分类损失数据两种损失信息来生成监督信号，对前述神经网络进行训练，进一步提高训练出的各个神经网络的准确性。

在较为复杂的实际应用场景中，当使用该物体识别系统对图像序列进行物体识别或匹配时，能够克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到更为准确、理想的识别结果。

实施例五

图5是示出根据本发明实施例五的物体识别方法的流程图。

根据本发明实施例的物体识别方法用于对两个图像序列(第一图像序列和第二图像序列)进行比对、匹配，确定该两个图像序列是否含有统一物体。

参照图5，在步骤S510，基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据。

可基于前述实施例一～实施例四中描述的任一方法训练得到的共享神经网络，与步骤S110的处理类似地，提取各个第一共享图像特征数据和各个第二共享图像特征数据。

在步骤S520，根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据。

也可以使用任何现有的用于提取图像分类特征数据的方法来提取各个第一分类图像特征数据和第二分类图像特征数据，在此不予赘述。

在步骤S530，根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据。

可基于前述实施例一～实施例四中描述的任一方法训练得到的权重生成神经网络，与步骤S120的处理类似地，获取各个第一图像特征权重数据和第二图像特征权重数据。

需要指出，可并行地执行步骤S520和S530，也可以顺序地执行步骤S520和S530或步骤S530和S520。

在步骤S540，根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据。

具体地，可根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取第一图像序列中各个图像的加权图像特征数据以及第二图像序列中各个图像的加权图像特征数据；此后，将第一图像序列中各个图像的加权图像特征数据进行融合(例如求和或求和平均)，获得第一图像序列的第一融合图像特征数据，并且将将第二图像序列中各个图像的加权图像特征数据进行融合(例如求和或求和平均)，获得第二图像序列的第二融合图像特征数据。

在步骤S550，根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

具体地，将第一融合图像特征数据和第二融合图像特征数据进行比对，根据比对结果来确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

也就是说，如果第一融合图像特征数据和第二融合图像特征数据相互接近到一定程度，则可确定第一图像序列和第二图像序列中含有相同的物体对象；反之，则确定该两个图像序列不含有同一物体。

这里所说的确定第一图像序列和所述第二图像序列中含有相同的物体对象是指，第一图像序列中的物体对象和所述第二图像序列中的物体对象具有相同的表象物理特征。例如，长相相同的人(如从长相上近乎相同的双胞胎)、外表相同的狗、同一款车型的车辆等，而不是指物体的同一对象个体(如同一人、同一条狗等)。

根据本发明实施例五的物体识别方法，由于使用了如前实施例训练得到的共享神经网络和权重生成神经网络的物体识别系统，因此当在较为复杂的实际应用场景中，使用该物体识别系统对两个图像序列进行物体匹配时，能够充分利用从权重生成神经网络得到的图像特征权重数据，为物体突出的图像特征生成较高的权重值，并且通过比对两个图像序列的融合图像特征数据来确定两个图像序列是否含有相同的物体对象，从而克服被比对的两个图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

实施例六

图6是示出根据本发明实施例六的物体识别方法的流程图。

如图6所示，步骤S610、步骤S630和S640的处理分别与前述步骤S510、S530和S540相应，在此不予赘述。

在步骤S620，根据各所述第一共享图像特征数据并基于特征生成神经网络，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据并基于特征生成神经网络，提取所述第二图像序列中各图像的第二分类图像特征数据。

可例如，基于前述实施例二～实施例四中描述的任一方法训练得到的特征生成神经网络，与步骤S230的处理类似地，获取各个第一分类图像特征数据和第二分类图像特征数据。

在步骤S650，根据所述第一融合图像特征数据和第二融合图像特征数据计算所述第一图像序列和所述第二图像序列的特征相似度值。

可通过例如，计算第一融合图像特征数据和第二融合图像特征数据之间的余弦相似度或欧式距离来计算该特征相似度值。

在步骤S660，根据计算出的特征相似度值确定所述第一图像序列和所述第二图像序列中含有相同的物体对象。

具体地，如果计算出的特征相似度值超过预定的特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中含有相同的物体对象；如果计算出的特征相似度值不超过该特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中不含有相同的物体对象。

可根据识别精确度的要求设置该特征相似度阈值，例如0.85、0.92或0.95等。

根据本发明实施例六的物体识别方法，根据本发明实施例五的物体识别方法，由于使用了如前实施例训练得到的共享神经网络、特征生成神经网络和权重生成神经网络的物体识别系统，因此当使用该物体识别系统对两个图像序列进行物体匹配时，能够提取较准确的分类图像特征数据，并且充分利用从权重生成神经网络得到的图像特征权重数据。为物体突出的图像特征生成较高的权重值，并且通过比对两个图像序列的融合图像特征数据来确定两个图像序列是否含有相同的物体对象，从而克服被比对的两个图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到更为准确、理想的识别结果。

实施例七

图7是示出根据本发明实施例七的物体识别系统训练装置的逻辑框图。

参照图7，本发明实施例七的物体识别系统训练装置包括：第一共享特征获取模块710、第一特征权重确定模块720、特征损失确定模块730和网络参数更新模块740。

第一共享特征获取模块710用于基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据。

第一特征权重确定模块720用于根据所述第一共享特征获取模块提取的共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据。

特征损失确定模块730用于根据第一共享特征获取模块提取的共享图像特征数据以及所述第一特征权重确定模块确定的图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态。

网络参数更新模块740用于根据所述特征损失确定模块确定的特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

本实施例的物体识别系统训练装置用于实现前述方法实施例中相应的物体识别系统训练方法，且具有相应方法实施例的有益效果，在此不再赘述。

实施例八

图8是示出根据本发明实施例八的物体识别系统训练装置的逻辑框图。

参照图8，根据本发明实施例八的深度神经网络模型训练装置还包括：第一分类特征提取模块750，用于在所述特征损失确定模块根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息之前，根据所述共享图像特征数据并基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据。

相应地，特征损失确定模块730用于根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息。

可选地，根据本发明实施例八的深度神经网络模型训练装置还包括：物体分类预测模块760，用于在所述网络参数更新模块根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数之前，根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据；分类损失确定模块770，用于根据所述物体分类预测模块获取到的各所述物体分类预测数据确定物体分类的分类损失信息。

相应地，网络参数更新模块740用于根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，网络参数更新模块740还用于根据所述分类损失确定模块确定的分类损失信息和所述特征损失确定模块确定的特征损失信息，调整所述特征生成神经网络的网络参数。

可选地，特征损失确定模块730用于根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取各个样本图像的加权图像特征数据，并且根据各个样本图像的加权图像特征数据确定所述样本图像序列的特征表达的特征损失信息。

可选地，特征损失确定模块730还用于：根据所述基准图像序列和所述泛样本图像序列的各所述分类图像特征数据和相应的各所述图像特征权重数据分别获取所述基准图像序列和泛样本图像序列的序列融合特征数据；根据所述基准图像序列和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息。

可选地，特征损失确定模块730用于根据将基准图像序列的序列融合特征数据和正样本图像序列的序列融合特征数据之间的差异最小化，并且将基准图像序列的序列融合特征数据和负样本图像序列的序列融合特征数据之间的差异最大化的规则设置特征表达的损失计算函数。

根据本发明的另一可选实施方式，网络参数更新模块740用于根据所述分类损失信息和所述特征损失信息确定综合损失信息，并且根据所述综合损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

可选地，网络参数更新模块740还用于根据所述综合损失信息，调整所述特征生成神经网络的网络参数。

实施例九

图9是示出根据本发明实施例九的物体识别装置的逻辑框图。

参照图9，根据本发明实施例九的物体识别装置包括第二共享特征获取模块910、第二分类特征提取模块920、第二特征权重确定模块930、特征融合模块940和物体识别模块950。

第二共享特征获取模块910用于基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据。

第二分类特征提取模块920用于根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据。

第二特征权重确定模块930用于根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据。

特征融合模块940用于根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据。

物体识别模块950用于根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

本实施例的物体识别装置用于实现前述方法实施例中相应的物体识别方法，且具有相应方法实施例的有益效果，在此不再赘述。

实施例十

图10是示出根据本发明实施例十的物体识别装置的逻辑框图。

在根据本发明实施例十的物体识别装置中，第二分类特征提取模块920用于根据各所述第一共享图像特征数据并基于特征生成神经网络，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据并基于特征生成神经网络，提取所述第二图像序列中各图像的第二分类图像特征数据。

可选地，物体识别模块950包括：相似度计算单元9501和物体识别单元9502。

相似度计算单元9501用于根据所述第一融合图像特征数据和第二融合图像特征数据计算所述第一图像序列和所述第二图像序列的特征相似度值。

物体识别单元9502用于：如果所述特征相似度值超过预定的特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中含有相同的物体对象。

可选地，所述共享神经网络和/或权重生成神经网络通过前述任一训练方法训练获得。

可选地，所述特征生成神经网络通过前述任一训练方法训练获得。

实施例十一

图11是示出根据本发明实施例十一的第一电子设备的结构示意图。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本发明实施例的终端设备或服务器的第一电子设备1100的结构示意图。

如图11所示，第一电子设备1100包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个第一中央处理单元(CPU)1101，和/或一个或多个第一图像处理器(GPU)1113等，第一处理器可以根据存储在第一只读存储器(ROM)1102中的可执行指令或者从第一存储部分1108加载到第一随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。第一通信元件包括第一通信组件1112和第一通信接口1109。其中，第一通信组件1112可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，第一通信接口1109包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，第一通信接口1109经由诸如因特网的网络执行通信处理。

第一处理器可与第一只读存储器1102和/或第一随机访问存储器1103中通信以执行可执行指令，通过第一总线1104与第一通信组件1112相连、并经通信组件1112与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据；根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态；根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

此外，在第一RAM 1103中，还可存储有装置操作所需的各种程序和数据。第一CPU1101、第一ROM1102以及第一RAM1103通过第一总线1104彼此相连。在有第一RAM1103的情况下，第一ROM1102为可选模块。第一RAM1103存储可执行指令，或在运行时向第一ROM1102中写入可执行指令，可执行指令使第一处理器1101执行上述通信方法对应的操作。第一输入/输出(I/O)接口1105也连接至第一总线1104。第一通信组件1112可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第一I/O接口1105：包括键盘、鼠标等的第一输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第一输出部分1107；包括硬盘等的第一存储部分1108；以及包括诸如LAN 卡、调制解调器等的网络接口卡的第一通信接口1109。第一驱动器1110也根据需要连接至第一I/O接口1105。第一可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第一驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入第一存储部分1108。

需要说明的，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，第一通信组件1112可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，用于执行基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据的可执行指令，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；用于根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据的可执行指令；用于根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态的可执行指令；用于根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数的可执行指令。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从第一可拆卸介质1111被安装。在该计算机程序被第一中央处理单元(CPU)1101执行时，执行本发明实施例的方法中限定的上述功能。

本发明实施例十一提供的第一电子设备，通过使用样本图像序列来训练至少包括共享神经网络和权重生成神经网络的物体识别系统，无需提供样本图像序列中的图像特征的特征权重，而是自动学习特征权重，使得在较为复杂的实际应用场景中，当使用该物体识别系统对图像序列进行物体识别或匹配时，能够充分利用从权重生成神经网络得到的图像特征权重数据，为物体突出的图像特征生成较高的权重值来进行物体识别或匹配等，从而克服图像序列中的多个图像之间存在例如光照、清晰度等差异，在复杂的应用场景中也能够得到较为准确、理想的识别结果。

实施例十二

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图12，其示出了适于用来实现本发明实施例的终端设备或服务器的第二电子设备1200的结构示意图。

如图12所示，第二电子设备1200包括一个或多个第二处理器、第二通信元件等，所述一个或多个第二处理器例如：一个或多个第二中央处理单元(CPU)1201，和/或一个或多个第二图像处理器(GPU)1213等，第二处理器可以根据存储在第二只读存储器(ROM)1202中的可执行指令或者从第二存储部分1208加载到第二随机访问存储器(RAM)1203中的可执行指令而执行各种适当的动作和处理。第二通信元件包括第二通信组件1212和第二通信接口1209。其中，第二通信组件1212可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，第二通信接口1209包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，第二通信接口1209经由诸如因特网的网络执行通信处理。

第二处理器可与第二只读存储器1202和/或第二随机访问存储器1203中通信以执行可执行指令，通过第二总线1204与第二通信组件1212相连、并经第二通信组件1212与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据；根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据；根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据；根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

此外，在第二RAM 1203中，还可存储有装置操作所需的各种程序和数据。第二CPU1201、第二ROM1202以及第二RAM1203通过第二总线1204彼此相连。在有第二RAM1203的情况下，第二ROM1202为可选模块。第二RAM1203存储可执行指令，或在运行时向第二ROM1202中写入可执行指令，可执行指令使第二处理器1201执行上述通信方法对应的操作。第二输入/输出(I/O)接口1205也连接至第二总线1204。第二通信组件1212可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第二I/O接口1205：包括键盘、鼠标等的第二输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第二输出部分1207；包括硬盘等的第二存储部分1208；以及包括诸如LAN 卡、调制解调器等的网络接口卡的第二通信接口1209。第二驱动器1210也根据需要连接至第二I/O接口1205。第二可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第二驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入第二存储部分1208。

需要说明的，如图12所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，第二通信组件可1212分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，用于执行基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据的可执行指令，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；用于根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据的可执行指令；用于根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据的可执行指令；用于根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据的可执行指令；用于根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象的可执行指令。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从第二可拆卸介质1211被安装。在该计算机程序被第二中央处理单元(CPU)1201执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

需要指出，根据实施的需要，可将本发明中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种物体识别系统训练方法，包括：

基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；

根据所述共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据；

根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态；

根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

2.根据权利要求1所述的方法，其中，

所述根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息之前，还包括：

根据所述共享图像特征数据并基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据；

所述根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息，包括：

根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息。

3.根据权利要求2所述的方法，其中，

所述根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数之前，包括：

根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据；

根据各所述物体分类预测数据确定物体分类的分类损失信息；

所述根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数，包括：

根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

4.根据权利要求3所述的方法，其中，所述根据各所述物体分类预测数据确定物体分类的分类损失信息之后，所述方法还包括：

根据所述分类损失信息和所述特征损失信息，调整所述特征生成神经网络的网络参数。

5.根据权利要求2～4中任一项所述的方法，其中，所述根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息包括：

根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取各个样本图像的加权图像特征数据；

根据各个样本图像的加权图像特征数据确定所述样本图像序列的特征表达的特征损失信息。

6.根据权利要求5所述的方法，其中，所述样本图像序列包括含有物体的基准图像序列和泛样本图像序列，所述泛样本图像序列包括与所述物体的识别匹配相关的图像序列。

7.根据权利要求6所述的方法，其中，所述根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息还包括：

根据所述基准图像序列和所述泛样本图像序列的各所述分类图像特征数据和相应的各所述图像特征权重数据分别获取所述基准图像序列和泛样本图像序列的序列融合特征数据；

根据所述基准图像序列和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息。

8.根据权利要求7所述的方法，其中，所述泛样本图像序列包括正样本图像序列和负样本图像序列。

9.根据权利要求8所述的方法，其中，所述根据所述基准图像序列和所述泛样本图像序列的序列融合特征数据计算特征表达的特征损失信息包括：

根据将基准图像序列的序列融合特征数据和正样本图像序列的序列融合特征数据之间的差异最小化，并且将基准图像序列的序列融合特征数据和负样本图像序列的序列融合特征数据之间的差异最大化的规则设置特征表达的损失计算函数。

10.根据权利要求3～4中任一项所述的方法，其中，所述根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数包括：

根据所述分类损失信息和所述特征损失信息确定综合损失信息；

根据所述综合损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

11.根据权利要求10所述的方法，其中，所述根据所述分类损失信息和所述特征损失信息确定综合损失信息之后，所述方法还包括：

根据所述综合损失信息，调整所述特征生成神经网络的网络参数。

12.一种物体识别方法，包括：

基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；

根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据；

根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据；

根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据；

根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

13.根据权利要求12所述的方法，其中，所述根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据包括：

根据各所述第一共享图像特征数据并基于特征生成神经网络，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据并基于特征生成神经网络，提取所述第二图像序列中各图像的第二分类图像特征数据。

14.根据权利要求12或13所述的方法，其中，所述根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象包括：

根据所述第一融合图像特征数据和第二融合图像特征数据计算所述第一图像序列和所述第二图像序列的特征相似度值；

如果所述特征相似度值超过预定的特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中含有相同的物体对象。

15.根据权利要求12～13中任一项所述的方法，其中，所述共享神经网络和/或权重生成神经网络通过如权利要求1～11中任一项所述的物体识别系统训练方法训练获得。

16.根据权利要求13所述的方法，其中，所述特征生成神经网络通过如权利要求2～11中任一项所述的物体识别系统训练方法训练获得。

17.一种物体识别系统训练装置，包括：

共享特征获取模块，用于基于共享神经网络分别提取样本图像序列中各样本图像的共享图像特征数据，所述共享图像特征数据为经过卷积的各样本图像的图像特征数据；

特征权重确定模块，用于根据所述共享特征获取模块提取的共享图像特征数据并基于权重生成神经网络确定所述样本图像序列中各样本图像的图像特征权重数据；

特征损失确定模块，用于根据共享特征获取模块提取的共享图像特征数据以及所述特征权重确定模块确定的图像特征权重数据确定特征损失信息，所述特征损失信息用于表达所述样本图像序列的特征损失状态；

网络参数更新模块，用于根据所述特征损失确定模块确定的特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

18.根据权利要求17所述的装置，其中，所述装置还包括：分类特征提取模块，用于在所述特征损失确定模块根据共享图像特征数据以及所述图像特征权重数据确定特征损失信息之前，根据所述共享图像特征数据并基于特征生成神经网络，提取所述样本图像序列中各样本图像的分类图像特征数据；

所述特征损失确定模块用于根据各所述分类图像特征数据和各所述图像特征权重数据确定特征表达的特征损失信息。

19.根据权利要求18所述的装置，其中，所述装置还包括：

物体分类预测模块，用于在所述网络参数更新模块根据所述特征损失信息调整所述共享神经网络和/或所述权重生成神经网络的网络参数之前，根据所述分类图像特征数据，获取所述样本图像序列中各样本图像的物体分类预测数据；

分类损失确定模块，用于根据所述物体分类预测模块获取到的各所述物体分类预测数据确定物体分类的分类损失信息；

所述网络参数更新模块用于根据所述分类损失信息和所述特征损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

20.根据权利要求19所述的装置，其中，所述网络参数更新模块还用于根据所述分类损失确定模块确定的分类损失信息和所述特征损失确定模块确定的特征损失信息，调整所述特征生成神经网络的网络参数。

21.根据权利要求18～20中任一项所述的装置，其中，所述特征损失确定模块用于根据各所述分类图像特征数据和相应的各所述图像特征权重数据获取各个样本图像的加权图像特征数据，并且根据各个样本图像的加权图像特征数据确定所述样本图像序列的特征表达的特征损失信息。

22.根据权利要求21所述的装置，其中，所述样本图像序列包括含有物体的基准图像序列和泛样本图像序列，所述泛样本图像序列包括与所述物体的识别匹配相关的图像序列。

23.根据权利要求22所述的装置，其中，所述特征损失确定模块还用于：

24.根据权利要求23所述的装置，其中，所述泛样本图像序列包括正样本图像序列和负样本图像序列。

25.根据权利要求24所述的装置，其中，所述特征损失确定模块用于根据将基准图像序列的序列融合特征数据和正样本图像序列的序列融合特征数据之间的差异最小化，并且将基准图像序列的序列融合特征数据和负样本图像序列的序列融合特征数据之间的差异最大化的规则设置特征表达的损失计算函数。

26.根据权利要求19～20中任一项所述的装置，其中，所述网络参数更新模块用于根据所述分类损失信息和所述特征损失信息确定综合损失信息，并且根据所述综合损失信息，调整所述共享神经网络和/或所述权重生成神经网络的网络参数。

27.根据权利要求26所述的装置，其中，所述网络参数更新模块还用于根据所述综合损失信息，调整所述特征生成神经网络的网络参数。

28.一种物体识别装置，包括：

共享特征获取模块，用于基于共享神经网络提取第一图像序列中各图像的第一共享图像特征数据和第二图像序列中各图像的第二共享图像特征数据，所述第一共享图像特征数据为经过卷积的所述第一图像序列中各图像的图像特征数据，所述第二共享图像特征数据为经过卷积的所述第二图像序列中各图像的图像特征数据；

分类特征提取模块，用于根据各所述第一共享图像特征数据，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据，提取所述第二图像序列中各图像的第二分类图像特征数据；

特征权重确定模块，用于根据各所述第一共享图像特征数据并基于权重生成神经网络，确定所述第一图像序列中各图像的第一图像特征权重数据，并且根据各所述第二共享图像特征数据并基于权重生成神经网络，确定所述第二图像序列中各图像的第二图像特征权重数据；

特征融合模块，用于根据所述第一图像序列中各图像的第一分类图像特征数据和第一图像特征权重数据获取所述第一图像序列的第一融合图像特征数据，并且根据所述第二图像序列中各图像的第二分类图像特征数据和第二图像特征权重数据获取所述第二图像序列的第二融合图像特征数据；

物体识别模块，用于根据所述第一融合图像特征数据和第二融合图像特征数据确定所述第一图像序列和所述第二图像序列中是否含有相同的物体对象。

29.根据权利要求28所述的装置，其中，所述分类特征提取模块用于根据各所述第一共享图像特征数据并基于特征生成神经网络，提取所述第一图像序列中各图像的第一分类图像特征数据，并且根据各所述第二共享图像特征数据并基于特征生成神经网络，提取所述第二图像序列中各图像的第二分类图像特征数据。

30.根据权利要求28或29所述的装置，其中，所述物体识别模块包括：

相似度计算单元，用于根据所述第一融合图像特征数据和第二融合图像特征数据计算所述第一图像序列和所述第二图像序列的特征相似度值；

物体识别单元，用于：如果所述特征相似度值超过预定的特征相似度阈值，则确定所述第一图像序列和所述第二图像序列中含有相同的物体对象。

31.根据权利要求28～29中任一项所述的装置，其中，所述共享神经网络和/或权重生成神经网络通过如权利要求1～11中任一项所述的物体识别系统训练方法训练获得。

32.根据权利要求29所述的装置，其中，所述特征生成神经网络通过如权利要求2～11中任一项所述的物体识别系统训练方法训练获得。

33.一种用于物体识别系统训练的电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；

所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如权利要求1～11中任一项所述的物体识别系统训练方法对应的操作。

34.一种用于物体识别的电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；

所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如权利要求12～16任一项所述的物体识别方法对应的操作。