CN112464689A

CN112464689A - 生成神经网络的方法、装置和系统及存储指令的存储介质

Info

Publication number: CN112464689A
Application number: CN201910841072.1A
Authority: CN
Inventors: 黄耀海; 黄星奕; 李岩
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-03-09
Also published as: US11809990B2; US20210073590A1

Abstract

本发明公开了一种生成神经网络的方法、装置和系统及存储指令的存储介质。所述生成神经网络的方法包括：利用神经网络，根据从样本图像中提取的特征至少识别样本图像中的目标的属性；至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据目标的真实属性和所识别出的属性从预先定义的表格中获得，其中预先定义的表格由属性和属性之间的语义关系构成；以及，根据所确定的损失函数值更新神经网络中的参数。在利用根据本公开所生成的神经网络识别目标的属性时，可改善目标属性识别的精度。

Description

生成神经网络的方法、装置和系统及存储指令的存储介质

技术领域

本公开涉及图像处理，尤其涉及例如生成神经网络的方法、装置和系统及存储指令的存储介质。

背景技术

在机器视觉学术研究和产品应用领域，人脸属性识别是一项重要的任务。人脸属性包含例如年龄、性别、种族、发色等，这些属性在人群分析、属性统计和身份验证等任务中至关重要。年龄作为人脸属性中最有代表性的属性特征，通常被广泛用于人群分析、属性统计和身份验证等系统中。然而，在实际监控视频中，由于光照或遮挡等因素的干扰，同一个人脸的属性识别结果往往波动较大。尤其在年龄识别波动较大的情况下，人群分析、属性统计和身份验证等系统的功能也会受到较大的影响，从而大大降低用户对这些系统的体验感。

随着神经网络的发展，神经网络被广泛地用于人脸识别和人脸属性识别。在人脸识别中(尤其是，对于人脸识别的分类任务)，鉴于Softmax损失函数的鲁棒性，其通常被用于计算神经网络中的损失函数值。进一步地，为了扩大分类任务中的不同类别之间的特征距离以提高人脸识别的精度，可在神经网络中引入与间隔相关的损失函数。例如，非专利文献“ArcFace:Additive Angular Margin Loss for Deep Face Recognition”(JiankangDeng,Jia Guo,Niannan Xue,Stefanos Zafeiriou；arXiv:1801.07698v1[cs.CV]23Jan2018)中公开了一种在神经网络中引入与固定间隔相关的损失函数的示例性技术，以扩大不同人脸类别之间的特征夹角，从而提高人脸识别的精度。其中，在生成神经网络的过程中，在计算损失函数值时，该示例性技术会在标注的同一人脸类别内的特征夹角上加上一个常量(也即，固定间隔值)，以减小同一人脸类别内的特征的余弦夹角差(也即特征距离)，从而扩大不同人脸类别的样本之间的特征夹角；之后，可根据预测人脸类别和已加上该固定间隔值的标注的真实人脸类别来计算相应的损失函数值。

如上所述可知，上述示例性技术主要用于人脸识别。在人脸识别中，由于人脸类别的数量比较庞大，从而使得不同人脸类别之间的特征距离很难用数值来衡量，同时使得同一人脸类别内的特征距离相对较小，因此可以通过使用上述示例性技术来扩大不同人脸类别之间的特征距离以确保人脸识别的鲁棒性。然而，在人脸属性识别中，由于待识别的人脸属性类别的数量相对较少，从而使得不同人脸属性类别之间的特征距离差异较大。例如，在人的年龄段的识别中，[20～29]岁年龄段与[70～79]岁年龄段的特征距离(例如，表观特征距离)远大于[20～29]岁年龄段与[30～39]岁年龄段的特征距离。因此，如果像上述示例性技术那样，均用同一个固定间隔值来扩大不同人脸属性类别之间的特征夹角的话，将无法衡量出不同人脸属性类别之间的特征距离的这种差异，从而使得用于生成神经网络的样本图像中存在数量较多的标注的真实人脸属性与预测人脸属性之间的误差较大的样本图像，从而影响人脸属性的识别精度，进而影响人脸属性识别的实际使用价值。

发明内容

鉴于上面的背景技术中的记载，本公开旨在解决上述问题中的至少一点。

根据本公开的一个方面，提供一种生成神经网络的方法，所述神经网络用于识别目标的属性，所述方法包括：识别步骤，利用所述神经网络，根据从样本图像中提取的特征至少识别所述样本图像中的目标的属性；确定步骤，至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据所述目标的真实属性和所识别出的属性从预先定义的表格中获得，其中所述预先定义的表格由属性和属性之间的语义关系构成；以及，更新步骤，根据所确定的损失函数值更新所述神经网络中的参数。

根据本公开的另一个方面，提供一种生成神经网络的装置，所述神经网络用于识别目标的属性，所述装置包括：识别单元，利用所述神经网络，根据从样本图像中提取的特征至少识别所述样本图像中的目标的属性；确定单元，至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据所述目标的真实属性和所识别出的属性从预先定义的表格中获得，其中所述预先定义的表格由属性和属性之间的语义关系构成；以及，更新单元，根据所确定的损失函数值更新所述神经网络中的参数。

其中，在本公开中，目标的属性可表示目标的语义特性。例如，在目标是人脸的情况下，其属性例如为年龄段、种族、性别、头发颜色等。其中，在本公开中，所识别的目标的属性例如为人的年龄段、人的多余1个的人脸属性(例如，年龄段、性别、种性、头发颜色等)或人的多余1个的人体属性(例如，性别、是否戴眼镜、上衣颜色、裤子颜色等)。

根据本公开的再一方面，提供一种生成神经网络的系统，所述神经网络用于识别目标的属性，所述系统包括：存储器，用于存储数据和指令；以及，与存储器相连接的处理器，用于执行所述指令。所述指令包括：识别步骤，利用所述神经网络，根据从样本图像中提取的特征至少识别所述样本图像中的目标的属性；确定步骤，至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据所述目标的真实属性和所识别出的属性从预先定义的表格中获得，其中所述预先定义的表格由属性和属性之间的语义关系构成；以及更新步骤，根据所确定的损失函数值更新所述神经网络中的参数。

根据本公开的又一方面，提供一种存储指令的存储介质，该指令在由处理器执行时能使得执行生成用于识别目标的属性的神经网络的方法，该指令包括：识别步骤，利用所述神经网络，根据从样本图像中提取的特征至少识别所述样本图像中的目标的属性；确定步骤，至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据所述目标的真实属性和所识别出的属性从预先定义的表格中获得，其中所述预先定义的表格由属性和属性之间的语义关系构成；以及更新步骤，根据所确定的损失函数值更新所述神经网络中的参数。

如上所述，在本公开中所使用的间隔值是基于待识别的目标的属性之间的语义关系而确定的，因此本公开所使用的间隔值是一个动态变化的间隔值而不是一个固定的间隔值。由于所述语义关系是从由属性和属性之间的语义关系所构成的一个预先定义的表格中而获得的，因此基于其所确定的间隔值可体现不同属性类别之间的不同语义距离，从而，使得在生成神经网络的过程中，不同属性类别之间的特征距离有所区别。因此，根据本公开，可使得语义距离越大的不同属性类别之间具有越大的特征距离，从而可减少标注的真实属性与预测属性之间存在较大误差的样本图像的数量，进而可改善目标属性识别的精度。

通过以下参考附图对典型实施例的说明，本公开的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本公开的实施例，并且与实施例的描述一起用于解释本公开的原理。

图1A～1B是示意性地示出了根据本公开所预先定义的表格的示例。

图2是示意性地示出可实现根据本公开实施例的技术的硬件构造的框图。

图3是示意性地示出根据本公开实施例的生成神经网络的装置的构造框图。

图4是示意性地示出根据本公开实施例的生成神经网络的方法流程图。

图5示意性地示出根据本公开实施例的如图4中所示的识别步骤S410的一种流程图。

图6示意性地示出根据本公开实施例的如图4中所示的确定步骤S420的一种流程图。

图7示意性地示出根据本公开实施例的如图4中所示的更新步骤S430的一种流程图。

图8示意性示出根据本公开实施例生成的神经网络的示意性结构。

图9示意性示出根据本公开用于生成可识别人的年龄段的神经网络的一种方法流程图。

图10示意性示出根据本公开用于生成可识别人的年龄段的神经网络的另一种方法流程图。

图11示意性地示出了根据本公开所预先定义的表格的另一种示例。

图12示意性示出根据本公开用于生成可识别人的多余1个的人脸属性的神经网络的一种方法流程图。

图13A示意性地示出了根据本公开所预先定义的表格的再一种示例，图13B示意性地示出了根据本公开的相关性矩阵的示例。

图14示意性示出根据本公开用于生成可进行行人身份再识别的神经网络的一种方法流程图。

具体实施方式

下面将参照附图详细地描述本公开的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本公开及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本公开的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

如上所述，在生成用于识别目标的属性的神经网络的过程中，本公开所使用的动态变化的间隔值是基于所识别的目标的属性之间的语义关系而确定的，而目标的属性又通常可表示目标的语义特性。因此，发明人认为，可先根据目标的属性类别的定义来预先定义一个表格以衡量属性与属性之间的语义关系，之后可通过预测属性和标注的真实属性来从该预先定义的表格中获得这两个属性之间的语义关系以确定可用于确定损失函数值的动态变化的间隔值。其中，在下文中，该动态变化的间隔值例如可被称为基于语义的间隔值。关于上述预先定义的表格，发明人认为，可用该表格的行(例如，X轴方向)来表示一种属性类别，用该表格的列(例如，Y轴方向)来表示另一种属性类别，并可用该表格的中间位置来表示属性与属性之间的语义关系，其中这些属性例如可以是标注的真实属性或预测属性。关于属性与属性之间的语义关系，发明人认为，该语义关系主要为属性之间的次序关系或属性之间的相似关系。

例如，在所识别的目标的属性是人的年龄段的情况下，不同年龄段之间的语义关系为年龄段之间的次序关系。上述预先定义的表格中的X轴方向和Y轴方向例如可由不同的年龄段来表示，其中，年龄段例如包括[0～9]岁年龄段、[10～19]岁年龄段、[20～29]岁年龄段、[30～39]岁年龄段等，显然地，人的年龄段的划分不限于此，可根据实际应用情况对年龄段进行不同范围大小的划分。上述预先定义的表格中的中间位置例如可由年龄段之间的次序关系来表示，其中年龄段之间的次序关系例如可通过欧式距离来度量。例如，对于年龄段[20～29]和[30～39]，它们之间的欧式距离为10；对于年龄段[20～29]和[70～79]，它们之间的欧式距离为50。作为一种示例，在用上述预先定义的表格的X轴方向来表示标注的真实年龄段及Y轴方向来表示预测年龄段的情况下，上述预先定义的表格例如如图1A中所示。此外，显然地，年龄段之间的次序关系也可通过其它方式来度量，例如可通过海明距离或相关性系数来度量。此外，所识别的目标的属性也不仅限于人的年龄段，只要是具有次序特性的人脸属性均可。

例如，在所识别的目标的属性是人的多余1个的人脸属性的情况下，不同人脸属性之间的语义关系为人脸属性之间的相似关系。上述预先定义的表格中的X轴方向和Y轴方向例如可由各人脸属性的组合来表示，其中，各人脸属性例如为年龄段、性别、种性或头发颜色等，显然地，所识别的各人脸属性可根据实际应用情况来确定。上述预先定义的表格中的中间位置例如可由各人脸属性组合之间的相似关系来表示，其中各人脸属性组合之间的相似关系例如可通过海明距离或相关性系数来度量，其中，所述相关性系数可从由各人脸属性所构成的相关性矩阵中获得。作为一种示例，假设所识别的人脸属性为[性别+是否有胡子]，在用上述预先定义的表格的X轴方向来表示标注的真实人脸属性组合及Y轴方向来表示预测人脸属性组合的情况下，且在用海明距离来度量各人脸属性组合之间的相似关系的情况下，上述预先定义的表格例如如图1B中所示。

如上所述，根据本公开所得到的基于语义的间隔值是动态变化的间隔值且能体现不同属性类别之间的不同语义距离，从而，使得在生成神经网络的过程中，不同属性类别之间的特征距离有所区别。因此，根据本公开，可使得语义距离越大的不同属性类别之间具有越大的特征距离，从而可减少标注的真实属性与预测属性之间存在较大误差的样本图像的数量，进而可改善目标属性识别的精度。

(硬件构造)

首先将参照图2描述可实现下文中描述的技术的硬件构造。

硬件构造200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和系统总线280。在一种实现方式中，硬件构造200可由计算机实现，诸如平板电脑、笔记本电脑、台式电脑或其他合适的电子设备。

在一种实现方式中，根据本发明的生成神经网络的装置由硬件或固件构造并且用作硬件构造200的模块或组件。例如，将在下文参照图3详细描述的生成神经网络的装置300可用作硬件构造200的模块或组件。在另一种实现方式中，根据本发明的生成神经网络的方法由存储在ROM 230或硬盘240中且由CPU 210执行的软件构造。例如，将在下文参照图4详细描述的生成神经网络的方法400、将在下文参照图9-10详细描述的生成神经网络的方法900-1000、将在下文参照图12详细描述的生成神经网络的方法1200及将在下文参照图14详细描述的生成神经网络的方法1400可用作存储在ROM 230或硬盘240中的程序。

CPU 210是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 230或硬盘240(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM220用于临时存储从ROM 230或硬盘240加载的程序或数据，并且也被用作CPU 210在其中执行各种过程(诸如，实施将在下文参照图4至图14详细描述的技术)以及其他可用功能的空间。硬盘240存储诸如操作系统(OS)、各种应用、控制程序、样本图像、生成的神经网络、预先定义的表格等多种信息。

在一种实现方式中，输入设备250用于允许用户与硬件构造200交互。在一个实例中，用户可通过输入设备250输入标注有目标的真实属性的样本图像。在另一实例中，用户可通过输入设备250触发本发明的对应处理。此外，输入设备250可采用多种形式，诸如按钮、键盘或触摸屏。

在一种实现方式中，输出设备260用于将最终生成的神经网络存储到例如硬盘240中或用于向诸如目标属性识别等的后续图像处理输出最终生成的神经网络。

网络接口270提供用于将硬件构造200连接到网络的接口。例如，硬件构造200可经由网络接口270与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造200提供无线接口以进行无线数据通信。系统总线280可以提供用于在CPU 210、RAM 220、ROM 230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传输技术。

上述硬件构造200仅仅是说明性的，并且决不意图限制本发明、其应用或用途。

(生成神经网络的装置和方法)

接下来将参照图3至图14描述根据本公开的神经网络的生成。

图3是示意性地示出根据本公开实施例的生成神经网络的装置300的构造框图。其中，图3中所示的一些或全部模块可由专用硬件实现。如图3中所示，装置300包括识别单元310、确定单元320和更新单元330。

另外，图3中所示的存储设备340例如至少存储有如上所述的预先定义的表格。如上所述，该预先定义的表格由属性和属性之间的语义关系构成。在一种实现中，存储设备340为图2中所示的ROM 230或硬盘240。在另一种实现方式中，存储设备340为经由网络(未示出)与装置300连接的服务器或外部存储设备。

首先，例如，图2中所示的输入设备250接收由用户输入的初始神经网络和样本图像。其中所输入的初始神经网络用于识别目标的属性，其中所识别的目标的属性例如为人的年龄段、人的多余1个的人脸属性(例如，年龄段、性别、种性、头发颜色等)或人的多余1个的人体属性(例如，性别、是否戴眼镜、上衣颜色、裤子颜色等)。其中所输入的样本图像中标注有目标的真实属性，其中所输入的样本图像可为多个单张样本图像或多个成对样本图像。接着，输入设备250经由系统总线280将所接收的初始神经网络和样本图像传输到装置300。

然后，如图3中所示，识别单元310，利用神经网络，根据从样本图像中提取的特征至少识别样本图像中的目标的属性(也即，目标的预测属性)。

确定单元320，从存储设备340中获得预先定义的表格，至少根据样本图像中标注的目标的真实属性和由识别单元310得到的目标的预测属性从预先定义的表格中获得真实属性和预测属性之间的语义关系，根据所获得的语义关系确定基于语义的间隔值，并至少根据该基于语义的间隔值确定损失函数值。

更新单元330，根据确定单元320所确定的损失函数值更新神经网络中的参数。

最后，更新单元330经由图2中所示的系统总线280将最终生成的神经网络传输至输出设备260，用于将最终生成的神经网络存储到例如硬盘240中或用于向诸如目标属性识别等的后续图像处理输出生成的神经网络。

图4中所示的方法流程图400是图3中所示的装置300的一种对应过程。

如图4中所示，在识别步骤S410中，识别单元310利用神经网络，根据从样本图像中提取的特征至少识别样本图像中的目标的属性(也即，目标的预测属性)。在一种实现方式中，识别单元310参照图5执行相应的识别操作。

如图5中所示，在步骤S411中，识别单元310利用神经网络(例如，神经网络中的用于提取特征的子网络)，从样本图像中提取用于识别目标属性的特征(例如，语义特征)。

在步骤S412中，识别单元310利用神经网络(例如，神经网络中的用于分类的子网络)，对所提取的特征进行分类以获得目标的属性(也即，目标的预测属性)。如上所述，目标的属性例如为人的年龄段或、人的多余1个的人脸属性(例如，年龄段、性别、种性、头发颜色等)或人的多余1个的人体属性(例如，性别、是否戴眼镜、上衣颜色、裤子颜色等)。如上所述，样本图像可为多个单张样本图像或多个成对样本图像。在样本图像是由多个单张样本图像构成的情况下，识别单元310例如仅识别目标的属性。在样本图像是由多个成对样本图像构成的情况下，对于任意一对样本图像，识别单元310除了识别目标的属性，例如还进一步识别所得到的目标的预测属性之间的相似度。在下文中，将参照图9至图13进行详细地描述。

返回图4，在确定步骤S420中，确定单元320至少根据基于属性之间的语义关系而确定的间隔值(也即，基于语义的间隔值)来确定损失函数值，其中所述语义关系至少根据样本图像中标注的目标的真实属性和在识别步骤S410中所得到的目标的预测属性从预先定义的表格中获得。如上所述，所述预先定义的表格由属性和属性之间的语义关系构成。在一种实现方式中，确定单元320参照图6执行相应的确定操作。

如图6中所示，在步骤S421中，确定单元320从存储设备340中获得预先定义的表格，并至少根据样本图像中标注的目标的真实属性和在识别步骤S410中所得到的目标的预测属性，例如通过查表的方式，从预先定义的表格中获得真实属性和预测属性之间的语义关系。

如上所述，样本图像可为多个单张样本图像或多个成对样本图像。从而，一方面，在样本图像是由多个单张样本图像构成的情况下，所获得的预先定义的表格中的属性例如为目标的真实属性和目标的预测属性，所获得的预先定义的表格中的属性之间的语义关系也即为目标的真实属性与目标的预测属性之间的语义关系。作为一种示例，例如，用预先定义的表格的X轴方向来表示目标的真实属性，并用预先定义的表格的Y轴方向来表述目标的预测属性。并且，在步骤S421中，对于任意一个单张样本图像，确定单元320根据目标的真实属性和目标的预测属性从所获得的预先定义的表格中查找获得真实属性和预测属性之间的语义关系。

另一方面，为了加强所生成的神经网络的收敛性，样本图像还可由多个成对样本图像构成。在样本图像是由多个成对样本图像构成的情况下，所获得的预先定义的表格中的属性例如为成对样本图像中的目标的真实属性。作为一种示例，例如，用预先定义的表格的X轴方向来表示成对样本图像中一个样本图像中的目标的真实属性，并用预先定义的表格的Y轴方向来表示成对样本图像中另一个样本图像中的目标的真实属性。并且，在步骤S421中，对于任意一对样本图像，确定单元320根据这两个样本图像中的目标的真实属性从所获得的预先定义的表格中查找获得这两个真实属性之间的语义关系。

返回图6，在步骤S422中，确定单元320根据在步骤S421中获得的属性之间的语义关系来确定基于语义的间隔值。且在步骤S423中，确定单元320至少根据在步骤S422中确定的基于语义的间隔值来确定损失函数值。如上所述，样本图像可为多个单张样本图像或多个成对样本图像。从而，在样本图像是由多个单张样本图像构成的情况下，确定单元320根据在步骤S422中确定的基于语义的间隔值来确定损失函数值。在样本图像是由多个成对样本图像构成的情况下，如识别步骤S410中所述，识别单元310还会进一步识别目标的预测属性之间的相似度，因此，确定单元320根据在识别步骤S410中所识别的相似度及在步骤S422中确定的基于语义的间隔值来确定损失函数值。在下文中，将参照图9至图13进行详细地描述。

返回图4，在更新步骤S430中，更新单元330根据在确定步骤S420中确定的损失函数值更新神经网络中的参数。在一种实现方式中，更新单元330参照图7执行相应的更新操作。

如图7中所示，在步骤S431中，更新单元330基于在确定步骤S420中确定的损失函数值判断神经网络是否满足预定条件。例如，将该损失函数值与一阈值(例如，TH)进行比较，在该损失函数值小于或等于TH的情况下，神经网络将被判断为满足预定条件而被作为最终生成的神经网络输出，其中该最终生成的神经网络例如被输出到图3中所示的存储设备340中。此外，图8示意性示出根据本公开实施例生成的神经网络的示意性结构。在该损失函数值大于TH的情况下，神经网络将被判断为还不满足预定条件，则过程进入步骤S432。

在步骤S432中，更新单元330基于在确定步骤S420中确定的损失函数值更新神经网络的各层的参数。其中，此处各层的参数例如是神经网络中的各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于损失函数值来更新各层的参数。之后，过程重新进入识别步骤S410。

在图7中所示的流程S430中，是以损失函数值是否满足预定条件来作为停止更新神经网络的条件的。然而，显然不必局限于此。作为一种替换，例如可以省略步骤S431，而是在对神经网络的更新次数达到一个预定的次数后便停止相应的更新操作。

(生成用于识别人的年龄段的神经网络)

如上所述，所识别的目标的属性可以为人的年龄段。下面将参照图9描述根据本公开用于生成可识别人的年龄段的神经网络的一种方法流程图900。其中，在该方法流程图中，样本图像由多个单张样本图像构成。其中，与方法流程图900对应的生成神经网络的装置可与图3中所示的装置300相同。

如图9中所示，在步骤S910中，图3中所示的识别单元310例如利用神经网络中的用于提取特征的子网络，从样本图像中提取用于识别年龄段的语义特征。

在步骤S920中，识别单元310例如利用神经网络中的用于分类的子网络，对所提取的特征进行分类以获得人的年龄段(也即，人的预测年龄段)。在一种实现中，例如，识别单元310利用用于分类的子网络得到每个年龄段的置信度，并将具有最大置信度的年龄段作为预测年龄段输出。

在步骤S930中，图3中所示的确定单元320从存储设备340中获得预先定义的表格。其中，所获得的预先定义的表格例如如图1A所示。其中，预先定义的表格的X轴方向例如表示真实年龄段，预先定义的表格的Y轴方向例如表示预测年龄段，年龄段之间的次序关系(也即，语义关系)例如通过欧式距离来度量。并且，在步骤S930中，确定单元320根据样本图像中标注的人的真实年龄段和在步骤S920中所得到的人的预测年龄段，例如通过查表的方式，从预先定义的表格中获得真实年龄段和预测年龄段之间的语义关系。例如，假设在样本图像中标注的人的真实年龄段为[20～29]，通过识别单元310所得到的人的预测年龄段为[70～79]，则通过查找预先定义的表格，可获得这两个年龄段之间的语义关系为50。例如，假设在样本图像中标注的人的真实年龄段为[20～29]，通过识别单元310所得到的人的预测年龄段为[30～39]，则通过查找预先定义的表格，可获得这两个年龄段之间的语义关系为10。

在步骤S940中，确定单元320根据在步骤S930中获得的真实年龄段和预测年龄段之间的语义关系来确定基于语义的间隔值。在一种实现方式中，假设基于语义的间隔值可用m表示，则其例如可通过如下公式(1)来获得：

m＝获得的语义关系*系数…(1)

其中，公式(1)中的“系数”例如可通过如下公式(2)来获得：

系数＝常量/正则项…(2)

其中，公式(2)中的“常量”例如为1，公式(2)中的“正则项”例如为10。然而显然，获得基于语义的间隔值的公式不限于此，本领域技术人员可根据实际应用来设计计算公式，只要所得到的间隔值是基于属性之间的语义关系而确定的便可。例如，假设“常量”为1及“正则项”为10，对于人的真实年龄段为[20～29]及人的预测年龄段为[70～79]的情况，则通过公式(1)获得的m为5；对于人的真实年龄段为[20～29]及人的预测年龄段为[30～39]的情况，则通过公式(1)获得的m为1。由此可见，根据人的真实年龄段和预测年龄段之间的语义关系来获得动态变化的间隔值(也即，基于语义的间隔值)比背景技术中提到的固定间隔值的示例性技术更为合理。

在步骤S950中，确定单元320根据在步骤S940中确定的基于语义的间隔值来确定损失函数值。在一种实现方式中，例如，可通过基于语义的间隔值来改进例如Softmax损失函数以确定损失函数值。例如，可通过如下公式(3)来获得损失函数值：

其中，在公式(3)中，i表示第i个样本图像，N表示样本图像总数，j表示第j个年龄段，M表示年龄段总数，y_i表示第i个样本图像中人的真实年龄段，θ_yi表示从第i个样本图像中提取的特征和表示真实年龄段的权重向量之间的余弦夹角值，m表示基于语义的间隔值。然而显然，不限于此，也可根据实际应用，通过基于语义的间隔值来改进其它损失函数以确定损失函数值。

在步骤S960中，图3中所示的更新单元330基于在步骤S950中确定的损失函数值判断神经网络是否满足预定条件。在损失函数值满足预定条件的情况下，神经网络将被判断为满足预定条件而被作为最终生成的神经网络输出，其中该最终生成的神经网络例如被输出到图3中所示的存储设备340中。在损失函数值不满足预定条件的情况下，神经网络将被判断为还不满足预定条件，则过程进入步骤S970。

在步骤S970中，更新单元330基于在步骤S950中确定的损失函数值更新神经网络的各层的参数。之后，过程重新进入步骤S910。

作为所识别的目标的属性为人的年龄段的另一种实现，如上所述，为了加强所生成的神经网络的收敛性，下面将参照图10描述根据本公开用于生成可识别人的年龄段的神经网络的另一种方法流程图1000。其中，在该方法流程图中，样本图像由多个成对样本图像构成。其中，与方法流程图1000对应的生成神经网络的装置可与图3中所示的装置300相同。

如图10中所示，在步骤S1010中，对于任意一对样本图像，图3中所示的识别单元310例如利用神经网络中的用于提取特征的子网络，分别从两张样本图像中提取相应的特征。

在步骤S1020中，识别单元310例如利用神经网络中的用于分类的子网络，对所提取的特征进行分类以分别获得两张样本图像中人的年龄段(也即，人的预测年龄段)。由于其相应的操作与图9中所示的步骤S920相同，在此不再赘述。进一步地，识别单元310例如还利用神经网络中的用于分类的另一个子网络，对从两张样本图像中获得的人的预测年龄段进行分类以获得这两个预测年龄段之间的相似度。

在步骤1030中，图3中所示的确定单元320从存储设备340中获得预先定义的表格。其中，所获得的预先定义的表格例如如图11所示。其中，预先定义的表格的X轴方向例如表示成对样本图像中一个样本图像中的人的真实年龄段，预先定义的表格的Y轴方向例如表示成对样本图像中另一个样本图像中的人的真实年龄段，年龄段之间的次序关系(也即，语义关系)例如通过欧式距离来度量。并且，在步骤S1030中，确定单元320根据成对样本图像中标注的人的真实年龄段，例如通过查表的方式，从预先定义的表格中获得这两个真实年龄段之间的语义关系。例如，假设在成对样本图像中标注的人的真实年龄段分别为[20～29]和[70～79]，则通过查找预先定义的表格，可获得这两个年龄段之间的语义关系为50。例如，假设在成对样本图像中标注的人的真实年龄段分别为[0～9]和[20～29]，则通过查找预先定义的表格，可获得这两个年龄段之间的语义关系为20。

在步骤S1040中，确定单元320根据在步骤S1030中获得的真实年龄段之间的次序关系来确定基于语义的间隔值。由于其相应的操作与图9中所示的步骤S940相同，在此不再赘述。

在步骤S1050中，确定单元320将在步骤S1040中确定的基于语义的间隔值视为成对样本图像中标注的人的真实年龄段之间的相似度，并根据真实年龄段之间的相似度及在步骤S1020中获得的两个预测年龄段之间的相似度来确定损失函数值。在一种实现方式中，例如，可通过如下公式(4)来获得损失函数值：

其中，在公式(4)中，i表示第i个成对样本图像，N表示成对样本图像总数，P(X,Y)表示两个预测年龄段之间的相似度，m表示两个真实年龄段之间的相似度(也即，基于语义的间隔值)。然而显然，不限于此，也可根据实际应用，通过其它方式基于真实年龄段之间的相似度和预测年龄段之间的相似度来确定损失函数值，只要其可满足真实年龄段与预测年龄段越相似，损失函数值越小便可。

在步骤S1060及步骤S1070中，图3中所示的更新单元330基于在步骤S1050中确定的损失函数值来更新神经网络中的参数。由于其相应的操作与图9中所示的步骤S960及步骤S970相同，在此不再赘述。

此外，参照图9或图10所生成的神经网络可直接用于识别人的年龄段。例如，对于一张输入图像，可先利用所生成的神经网络中的用于提取特征的子网络从输入图像中提取特征，之后利用所生成的神经网络中的用于分类的子网络，基于所提取的特征来识别输入图像中人的年龄段。

(生成用于识别人的多余1个的人脸属性的神经网络)

如上所述，所识别的目标的属性可以为人的多余1个的人脸属性(例如，年龄段、性别、种性、头发颜色等)。下面，将以所识别的目标的属性为人的[性别+是否有胡子]为例，参照图12描述根据本公开用于生成可识别人的多余1个的人脸属性的神经网络的一种方法流程图1200。然而显然不限于此，所识别的人脸属性可根据实际应用确定。其中，在该方法流程图中，样本图像由多个单张样本图像构成。其中，与方法流程图1200对应的生成神经网络的装置可与图3中所示的装置300相同。

如图12中所示，在步骤S1210中，图3中所示的识别单元310例如利用神经网络中的用于提取特征的子网络，从样本图像中提取用于识别人的性别属性和胡子属性的语义特征。

在步骤S1220中，识别单元310例如利用神经网络中的用于分类的子网络，对所提取的特征进行分类以获得人的[性别+胡子]属性(也即，人的预测[性别+胡子]属性)。在一种实现中，例如，识别单元310利用用于分类的子网络得到各人脸属性的置信度，并将具有最大置信度的各人脸属性作为人的预测属性输出。

在步骤S1230中，图3中所示的确定单元320从存储设备340中获得预先定义的表格，并根据样本图像中标注的人的真实[性别+胡子]属性和在步骤S1220中所得到的人的预测[性别+胡子]属性，例如通过查表的方式，从预先定义的表格中获得真实[性别+胡子]属性和预测[性别+胡子]属性之间的相似关系(也即，语义关系)。

由于属性之间的相似关系可通过海明距离或相关性系数来度量，因此，在一种实现方式中，在相似关系由海明距离来度量的情况下，所获得的预先定义的表格例如如图1B所示。其中，预先定义的表格的X轴方向例如表示真实[性别+胡子]属性，预先定义的表格的Y轴方向例如表示预测[性别+胡子]属性，真实属性和预测属性之间的相似关系(也即，语义关系)例如通过海明距离来度量。其中，海明距离表示真实属性与预测属性中所包含的不同属性的数量，由此可知，预测属性与真实属性之间的海明距离越小，则预测属性越接近真实属性，则预测属性与真实属性之间的基于语义的间隔也将越小。例如，假设在样本图像中标注的人的真实[性别+胡子]属性为[女+无胡子]，通过识别单元310所得到的人的预测[性别+胡子]属性为[女+有胡子]，则通过查找预先定义的表格，可获得这两个属性之间的语义关系为1。例如，假设在样本图像中标注的人的真实[性别+胡子]属性为[女+无胡子]，通过识别单元310所得到的人的预测[性别+胡子]属性为[男+有胡子]，则通过查找预先定义的表格，可获得这两个属性之间的语义关系为2。

在另一种实现方式中，在属性之间的相似关系由相关性系数来度量的情况下，所获得的预先定义的表格例如如图13A所示。其中，预先定义的表格的X轴方向例如表示真实[性别+胡子]属性，预先定义的表格的Y轴方向例如表示预测[性别+胡子]属性，真实属性和预测属性之间的相似关系例如通过相关性系数来度量。其中，预测属性与真实属性之间的相关性越大，则预测属性越接近真实属性，则预测属性与真实属性之间的基于语义的间隔也将越小。其中相关性系数可从由各属性所构成的相关性矩阵中获得，其中相关性矩阵例如可通过统计方式从符合实际情况的样本图像中得到。例如，以[性别+胡子]属性为例，通过统计方式得到的相关性矩阵如图13B所示，其中，图中的数字表示相关性系数。如图13B中所示，在实际情形中，一个女性具有胡子的概率非常小，因此相关性系数“-0.9”可表示[女性+有胡子]属性属于负相关且实际发生的概率很低。在本公开中，真实属性与预测属性之间的相似关系(也即，语义关系)例如可通过如下公式(5)来获得：

相似关系＝|1-真实属性的相关性系数*预测属性的相关性系数|…(5)然而，显然不限于此，只要相似关系与相关性系数之间的函数能够合理约束损失函数值便可。例如，假设在样本图像中标注的人的真实[性别+胡子]属性为[女+无胡子]，通过识别单元310所得到的人的预测[性别+胡子]属性为[女+有胡子]，则通过查找预先定义的表格，可获得这两个属性之间的相似关系为9.05。例如，假设在样本图像中标注的人的真实[性别+胡子]属性为[女+无胡子]，通过识别单元310所得到的人的预测[性别+胡子]属性为[女+无胡子]，则通过查找预先定义的表格，可获得这两个属性之间的相似关系为0。

返回图12，在经由步骤S1230获得真实[性别+胡子]属性和预测[性别+胡子]属性之间的语义关系后，在步骤S1240中，确定单元320根据在步骤S1230中获得的真实[性别+胡子]属性和预测[性别+胡子]属性之间的语义关系来确定基于语义的间隔值。由于图12中所示的步骤S1240至步骤S1270的相应操作与图9中所示的步骤S940至步骤S970的相应操作相同，在此不再赘述。

此外，作为本公开的一个应用，参照用于生成可识别人的多余1个的人脸属性的神经网络的相应操作，根据本公开还可用于生成用于进行行人身份再识别的神经网络。下面将参照图14描述根据本公开用于生成可进行行人身份再识别的神经网络的一种方法流程图1400。其中，在该方法流程图中，样本图像由多个单张样本图像构成，且样本图像中标注有人的多余1个的人体属性及人的身份信息。其中，所标注的人体属性例如可以为性别、是否戴眼镜、上衣颜色、裤子颜色等，然而显然不限于此。其中，与方法流程图1400对应的生成神经网络的装置例如也可与图3中所示的装置300相同。

如图14中所示，在步骤S1410，图3中所示的识别单元310例如利用神经网络中的用于提取特征的子网络，从样本图像中提取用于识别人的人体属性的语义特征及用于识别人的身份信息的特征。

在步骤S1420中，识别单元310例如利用神经网络中的用于分类的子网络，对所提取的用于识别人的人体属性的语义特征进行分类以获得人的人体属性(也即，人的预测人体属性)。由于其相应的操作与图12中所示的步骤S1220相同，在此不再赘述。进一步地，识别单元310例如还利用神经网络中的用于分类的另一个子网络，对所提取的用于识别人的身份信息的特征进行分类以人的身份信息(也即，人的预测身份信息)。

在步骤S1430中，图3中所示的确定单元320从存储设备340中获得预先定义的表格，并根据样本图像中标注的人的真实人体属性和在步骤S1420中所得到的人的预测人体属性，例如通过查表的方式，从预先定义的表格中获得真实人体属性和预测人体属性之间的相似关系(也即，语义关系)。其中，所获得的预先定义的表格的X轴方向例如表示真实人体属性的组合，所获得的预先定义的表格的Y轴方向例如表示预测人体属性的组合，真实人体属性组合和预测人体属性组合之间的相似关系例如通过海明距离来度量。其中，人体属性组合例如是[性别+是否戴眼镜+上衣颜色]，然而显然不限于此。由于其相应的操作与图12中所示的步骤S1230相同，在此不再赘述。

在步骤S1440中，确定单元320根据在步骤S1430中获得的真实人体属性和预测人体属性之间的语义关系来确定基于语义的间隔值。在步骤S1450中，确定单元320根据在步骤S1440中确定的基于语义的间隔值来确定第一损失函数值。由于其相应的操作与图12中所示的步骤S1240及步骤S1250相同，在此不再赘述。

在步骤S1460中，确定单元320根据样本图像中标注的人的真实身份信息和在步骤S1420中所得到的人的预测身份信息，例如利用现有的Softmax损失函数等，确定第二损失函数值。

在步骤S1470中，确定单元320根据在步骤S1450中确定的第一损失函数值和在步骤S1460中确定的第二损失函数值，例如通过求和或加权求和等方式，确定联合损失函数值。

在步骤S1480及步骤S1490中，图3中所示的更新单元330基于在步骤S1470中确定的联合损失函数值来更新神经网络中的参数。由于其相应的操作与图12中所示的步骤S1260及步骤S1270相同，在此不再赘述。

此外，参照图14所生成的神经网络可直接用于进行行人身份的再识别。例如，对于一张输入图像，可先利用所生成的神经网络中的用于提取特征的子网络从输入图像中提取用于识别人的人体属性的语义特征及用于识别人的身份信息的特征；之后，利用所生成的神经网络中的用于分类的子网络，基于所提取的用于识别人的人体属性的语义特征识别输入图像中的人的人体属性；然后，利用所生成的神经网络中的用于分类的另一个子网络，基于所提取的用于识别人的身份信息的特征及所识别的人体属性，识别输入图像中的人的身份信息。由于在生成用于进行行人身份再识别的神经网络时，引入了人体属性之间的语义关系来作为身份识别的监督信息，因此利用根据本公开所生成的神经网络，可改善行人身份再识别的精度。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种生成神经网络的方法，所述神经网络用于识别目标的属性，其特征在于，所述方法包括：

识别步骤，利用所述神经网络，根据从样本图像中提取的特征至少识别所述样本图像中的目标的属性；

确定步骤，至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据所述目标的真实属性和所识别出的属性从预先定义的表格中获得，其中所述预先定义的表格由属性和属性之间的语义关系构成；以及

更新步骤，根据所确定的损失函数值更新所述神经网络中的参数。

2.根据权利要求1所述的方法，其中，所述预先定义的表格中的属性之间的语义关系表示属性之间的次序关系或属性之间的相似关系。

3.根据权利要求2所述的方法，其中，所述预先定义的表格中的属性之间的语义关系由属性之间的欧式距离、属性之间的海明距离或属性之间的相关性系数来度量。

4.根据权利要求2所述的方法，其中，在所述样本图像是由多个单张样本图像构成的情况下，所述预先定义的表格中的属性为真实属性和预测属性，所述预先定义的表格中的属性之间的语义关系为真实属性与预测属性之间的语义关系；

在所述确定步骤中，对于任意一个单张样本图像，根据该样本图像中的目标的真实属性和所识别出的属性从所述预先定义的表格中获得用于确定所述间隔值的语义关系。

5.根据权利要求2所述的方法，其中，在所述样本图像是由多个成对样本图像构成的情况下，所述预先定义的表格中的属性为真实属性；

在所述确定步骤中，对于任意一对样本图像，还能根据这两个样本图像中的目标的真实属性从所述预先定义的表格中获得用于确定所述间隔值的语义关系。

6.根据权利要求5所述的方法，其中，在所述识别步骤中，对于任意一对样本图像，进一步识别这两个样本图像中的所识别出的属性之间的相似度；

其中，在所述确定步骤中，基于所确定的间隔值及所识别的相似度来确定所述损失函数值。

7.根据权利要求4或5所述的方法，其中，在所述识别步骤中，所识别出的属性是人的年龄段。

8.根据权利要求7所述的方法，其中，所述预先定义的表格中的属性为按次序排列的各年龄段，所述预先定义的表格中的属性之间的语义关系由各年龄段间的欧式距离度量。

9.根据权利要求4或5所述的方法，其中，在所述识别步骤中，所识别出的属性是人的多余1个的人脸属性。

10.根据权利要求9所述的方法，其中，所述预先定义的表格中的属性为各人脸属性的组合，所述预先定义的表格中的属性之间的语义关系由各人脸属性组合之间的海明距离或相关性系数度量。

11.根据权利要求10所述的方法，其中，所述相关性系数从由各人脸属性所构成的相关性矩阵中获得。

12.根据权利要求4或5所述的方法，其中，在所述识别步骤中，所识别出的属性是人的多余1个的人体属性；

其中，在所述识别步骤中，进一步识别样本图像中的人的身份信息；

其中，在所述确定步骤中，进一步基于样本图像中的人的真实身份信息和所识别出的身份信息确定另一损失函数值，且基于所确定的两个损失函数值来确定联合损失函数值；

其中，在所述更新步骤中，根据所确定的联合损失函数值来更新所述神经网络中的参数。

13.一种生成神经网络的装置，所述神经网络用于识别目标的属性，其特征在于，所述装置包括：

识别单元，利用所述神经网络，根据从样本图像中提取的特征至少识别所述样本图像中的目标的属性；

确定单元，至少根据基于属性之间的语义关系而确定的间隔值来确定损失函数值，其中所述语义关系至少根据所述目标的真实属性和所识别出的属性从预先定义的表格中获得，其中所述预先定义的表格由属性和属性之间的语义关系构成；以及

更新单元，根据所确定的损失函数值更新所述神经网络中的参数。

14.一种生成神经网络的系统，所述神经网络用于识别目标的属性，其特征在于，所述系统包括：

存储器，用于存储数据和指令；以及

与存储器相连接的处理器，用于执行所述指令，所述指令包括：

15.一种存储指令的存储介质，该指令在由处理器执行时能使得执行生成用于识别目标的属性的神经网络的方法，该指令包括：