CN111291780A

CN111291780A - 一种跨域网络训练及图像识别方法

Info

Publication number: CN111291780A
Application number: CN201811500433.8A
Authority: CN
Inventors: 刘若鹏; 栾琳; 赵盟盟
Original assignee: Shenzhen Kuang Chi Space Technology Co Ltd
Current assignee: Shenzhen Kuang Chi Space Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-06-16
Anticipated expiration: 2038-12-07
Also published as: WO2020114119A1

Abstract

本发明涉及一种跨域网络训练及图像识别方法，该跨域网络训练包括：S1，向深度神经网络输入第一域和第二域的样本数据，对所述第一域和第二域的样本数据进行训练，使得在所述深度神经网络在第一域与第二域上各自具有分类能力；S2：消除域间统计分布差异，使得第一域和第二域具有相近的统计分布特性；S3：对第一域和第二域进行加强内聚集的训练；S4：对符合预设条件的训练结果进行保存。实施本发明，即使在数据具有不同统计分布特性的情况下，也能够正确的识别出来。

Description

一种跨域网络训练及图像识别方法

技术领域

本发明涉及人工智能领域，具体的，涉及一种跨域网络训练及图像识别方法。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

现有人脸识别算法大多可以解决单域人脸识别(即待识别图像和训练样本图像具有相同的统计分布特性)问题，例如，使用视频作为训练样本，然后对训练好的网络识别其他视频中的人脸。Florian Schroff等人提出的Facenet算法是目前效果较好的单域人脸识别算法，同时作者也给出了相应的单域数据训练方法。

但在实际应用场最下，监控摄像头拍摄视频中提取出的人脸照片具有十分复杂的光照、角度、分辨率和表情等变化因素，这使得待识别图像与训练样本图像具有差异巨大的统计分布特性，即跨域识别问题。目前的人工智能网络很难对跨域的图像实现准确的识别。

发明内容

本发明的目的在于，针对现有的图像识别方法无法对跨域的场景实现准确的识别的缺陷，提供一种新的跨域图像识别方法，以克服目前的图像识别技术在跨域识别的场最中准确性差的问题。

本发明的一个方面提供一种跨域网络训练方法，包括以下步骤：

S1：向深度神经网络输入第一域和第二域的样本数据，对第一域和第二域的样本数据进行训练，使得在深度神经网络在第一域与第二域上各自具有分类能力；

S2：消除域间统计分布差异，使得第一域和第二域具有相近的统计分布特性；

S3：对第一域和第二域进行加强内聚集的训练；

S4：对符合预设条件的训练结果进行保存。

较佳的，步骤S1中对第一域和第二域的样本数据进行训练包括：对第一域和第二域的样本数据进行损失函数Triplet-Loss的训练。

较佳的，步骤S2包括：当损失函数Triplet-Loss稳定且满足收敛时，用第一域和第二域的最高维度特征计算最大均值差异损失MMD-Loss，并将结果加入合成损失函数，共同进行反向传播和梯度求导。

较佳的，步骤S3包括：将合成损失函数中的MMD-Loss去除，并加入第一域和第二域的混合Triplet-Loss，进行加强内聚集的训练。

较佳的，，步骤S4包括：当加强内聚集的训练的合成损失函数收敛且小于设定值时，对训练结果进行保存。

较佳的，步骤S1中，进行损失函数Triplet-Loss的训练还包括：设置第一学习率，第一学习率初始值为0.001至0.01，每10轮进行损失函数Triplet-Loss的训练，将第一学习率设置为0.7至0.9倍。

较佳的，步骤S2中，设置第二学习率，第二学习率的初始值小于第一学习率的初始值，每10轮进行加强内聚集的训练，将第二学习率设置为0.7至0.9倍。

较佳的，第二学习率初始值为0.0001至0.001。

较佳的，步骤S3中，设置第三学习率，第三学习率的初始值小于第一学习率的初始值，每5轮进行加强内聚集的训练，将第三学习率设置为0.7至0.9倍。

较佳的，第三学习率的初始值为0.0001至0.001。

较佳的，步骤S1还包括：对Triplet-Loss的训练结束后，提取第一域和第二域的特征，执行数据降维，在二维空间画出特征位置分布。

较佳的，步骤S2还包括：对合成损失函数训练结束后，提取第一域和第二域的特征，执行数据降维，在二维空间画出特征位置分布。

较佳的，步骤S3还包括：进行加强内聚集的训练结束后，提取第一域和第二域的特征，执行数据降维，在二维空间画出特征位置分布。

本发明的另一个方面，提供一种图像识别方法，对深度神经网络进行如前述的训练，使用训练后的深度神经网络对图像进行识别。

本发明还提供一种存储介质，其存储有计算机程序，其中，计算机程序被设置为运行时执行前述中的训练方法。

实施本发明的跨域网络训练方法，通过跨域的数据作为输入，实现对网络的训练，使得即使在数据具有不同统计分布特性的情况下，也能够正确的识别出来。当使用该训练方法得到的深度神经网络，能够对来自不同环境域的图像进行识别匹配，尤其适合在安保领域中通过视频图像识别出身份信息。

附图说明

构成本申清的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明跨域网络训练方法一则优选实施例的流程图；

图2为基于具有跨域识别能力的深度神经网络进行的图像识别方法的流程图；

图3为另一则跨域网络训练方法的另一实施例的流程图；

图4为本发明关于跨域网络训练方法的一较佳的实施例的流程图；

图5为学习率调整方案的一则优选实施例的示意图；

图6为对Triplet-Loss的训练结束后的效果图；

图7为MMD+Triplet-Loss的训练结束后的效果图；

图8为完成训练合成损失函数后的效果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要指出的是，除非另有指明，本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

在本发明中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的，或者是针对部件本身在竖直、垂直或重力方向上而言的；同样地，为便于理解和描述，“内、外”是指相对于各部件本身的轮廓的内、外，但上述方位词并不用于限制本发明。

如图1所示为本发明提供的跨域网络训练方法一则优选实施例的流程图。需要说明的是，图1针对的网络训练方法是以Facenet为例进行的，本领域的技术人员对其他的深度神经网络依据本发明的训练方法进行训练后，也可以获得与本发明相近似的跨域识别效果。

步骤S1：向Facenet输入来自相异的两个域：第一域和第二域的样本数据，在Facenet的网络架构上对该第一域和第二域进行训练，使得在第一域与第二域上各自具有分类能力；

步骤S2：对上述步骤S1训练好的结果进行消除域间统计分布差异，使得第一域和第二域具有相近的统计分布特性；

步骤S3：对步骤S2中训练得到具有相近统计分布特性的第一域和第二域进行加强内聚集；

步骤S4：在步骤S3执行后，若深度神经网络符合预设条件，则停止训练，完成对跨域网络的训练步骤，保存训练好的深度神经网络。

本发明还提供一种基于具有跨域识别能力的深度神经网络进行的图像识别方法，如图2所示是该方法的一则优选实施例。

图2实施例的图像识别方法包括两个步骤：利用相异的两个与的样本数据对深度神经网络进行训练，使得经过训练后的深度神经网络对不同域的样本数据消除统计分布特性的差异。在本实施例中，具体采用图1所对应的方法进行深度神经网络的训练。

在上述的S1～S4的训练完成后，执行S5：向训练好的深度神经网络输入来自第一域的图像数据和第二域的图像数据，进行识别匹配。得到来自第一域的图像数据与第二域的图像数据的匹配关系。即完成图像的识别。

较佳的，本申请提供如图3所示，关于跨域网络训练方法的另一实施例。本实施例继续以训练Facenet网络进行说明。

首先在步骤S10：该步骤为S1的进一步改进，在Facenet网络结构的基础上，分别输入第一域和第二域的样本数据，训练各自域的损失函数Triplet-Loss，并设置学习率设置在0.001至0.01之间，目使得两个域各自具有分类能力；

然后在步骤S20：该步骤为S2的进一步改进，当步骤S10的损失函数稳定且满足收敛时，用两个域的最高维度特征计算最大均值差异损失MMD-Loss，并将结果加入合成损失函数，即(MMD-Loss)+(Triplet-Loss)【为方便描述，合成损失函数简写为MMD+Triplet】，共同进行反向传播和梯度求导，学习率设置在0.0001至0.001之间，实现消除两个域的域间统计分布差异；

对于消除了域间统计分布差异之后，在进行下一步的训练前，需要检测在步骤S20中的损失函数是否收敛，当损失函数收敛时，执行步骤S30，否则继续进行步骤S20，直到收敛。由于损失函数表示模型对于预测值与真实值之间的差异，当其收敛时，表明深度神经网络在这一阶段的识别已经隐定。

在步骤S30，该步骤为S3的进一步改进，对于损失函数已经收敛的情况，需要进一步将合成的损失函数中的MMD-Loss去除，并加入第一域和第二域的混合Triplet-Loss，学习率设置在0.0001至0.001之间，目的是加强类内聚集效果；

在步骤S40，该步骤为S4的进一步改进，检测步骤S30中的合成损失函数是否收敛且小于设定值，在本实施例中，该设定值为0.01。若满足上述的两个条件，则完成训练，否则继续进行步骤S30，直到合成的损失函数收敛并且数值小于0.01的设定值。而对于完成训练的深度神经网络，在进行保存，可进行后续的使用。

如图4所示为本发明关于跨域网络训练方法的一较佳的实施例，该实施例是基于图3对应实施例上的改进。

在步骤S10：在Facenet网络结构的基础上，分别输入第一域和第二域的样本数据，训练各自域的损失函数Triplet-Loss，并设置学习率设置在0.001至0.01之间，使得两个域各自具有分类能力；

步骤S10中进行训练各自域的损失函数Triplet-Loss前，还包括S11：对输入的两个域进行前向传播处理。在本实施例中，前向传播处理具体包括：对输入的两个域的具体数据，进行加权求和运算，然后加入偏置值，最后通过非线性函数，即激活函数，进行处理后得到输出。

在本实施例中，在执行步骤S20时，若步骤S10的损失函数稳定且满足收敛的条件不满足，则重新执行训练各自域的损失函数Triplet-Loss，直到损失函数满足条件。

在本实施例中，对步骤S30中的合成损失函数的训练是通过以下方式实现的：首先选取成对图像，成对图像是指同一类目标同时具有第一域图像和第二域图像的数据对，如同一个人既有摄像头视频截图也有身份证照，将此作为训练数据对S30中的合成损失函数进行训练。

基于上述图4的关于跨域网络训练方法，本发明提供另一优选实施例，其使用图4实施例训练好的深度神经网络进行图像配对。

进一步的，在本申请中对于跨域网络进行训练时，为提高训练效果，使得模型尽快收敛且均有较好的识别能力，采用随训练进度动态更新学习率的方案。如图5所示为关于该学习率调整方案的一则优选实施例的示意图。

在本实施例中对学习率进行了3次调整，对应于本发明所提供的跨域网络训练方法中的3次训练。

首先在对Triplet-Loss进行训练时，设置第一学习率，为了尽快地将损失函数降至较低水平，设置较大的学习率，例如0.001至0.01，具体的前述中对应步骤设置的0.01，并且保持每10轮将学习率调整为0.7至0.9倍，本实施例中选择为0.8倍。该步骤的学习率调整对应于前述实施例中的步骤S10。

然后进行第二次的学习率调整，在对MMD+Triplet进行训练时，设置第二学习率，为了让损失函数达到更低的水平，第二学习率设置为小于第一学习率，例如在前述中对应步骤设置为0.001，并且保持每10轮将学习率调整为0.7至0.9倍，本实施例中选择为0.8倍。该步骤的学习率调整对应于前述实施例中的步骤S20。

然后进行第三次的学习率调整，在进行合成损失函数的训练时，设置第三学习率，同样为了使损失函数达到更低的水平，第三学习率设置为小于第一学习率，例如在前述中对应步骤设置为0.001，并且保持每5轮将学习率调整为0.7至0.9倍，本实施例中选择为0.8倍。从而让损失函数更快的收敛。该步骤的学习率调整对应于前述实施例中的步骤S30。

本发明还进一步提供对训练过程的可视化方案。在每一次的训练中加入可视化输出。以上述图4对应的实施例为说明。在步骤S10中，对Triplet-Loss的训练结束后，提取不同域的特征，执行数据降维，例如本发明各个实施例中采用T-SNE(T-distributedstochastic neighbor embedding)降维，通过T-sne降维后在二维空间画出特征位置分布，实现训练效果可视化，输出如图6所述的训练效果。

类似的，在步骤S20，MMD+Triplet-Loss的训练中，以及步骤S40的训练合成损失函数阶段，都进行训练结果的可视化输出，得到如图7和图8的训练效果。

在图6～图8中，每个点表示一张脸部图像的特征位置，相同颜色(或形状)的点代表同一个人的不同图像，点间距离近表示特征相近，跨域识别的理想效果是同一个人的所有点高度聚集，不同人间的点距离较远。可以看出，随着训练进行，相同颜色的点逐渐聚集，不同颜色的点逐渐拉远，最终达到跨域识别效果。

为了更清晰的说明本发明上述实施例在实际的图像识别过程中的使用以及其对应的使用效果，以下将结合具体的实际应用进行说明。

在一个实际使用的环境中，第一域数据为视频图像数据，第二域为身份证上的图像数据。使用的网络为Facenet网络。

首先将视频图像数据和身份证图像数据输入网络，两路数据一方面通过前向传播输入到网络，另一方面这两路数据将会在后续的过程中进行MMD-Loss的训练后再次使用。

两路数据在经过前向传播输入后，网络进行第一次的训练：采用学习率为0.01，进行各自域的Triplet-Loss训练，在针对该损失函数的训练中会进行多轮，每进行10轮的训练，将学习率调整为0.8倍，这样经过一定轮次的训练后，损失函数将会收敛，表明此时的网络在该损失函数上已经“学习”到这两个域的数据特征。

然后用两个域的最高维度特征计算最大均值差导损失MMD-Loss，并将结果加入合成损失函数，共同进行反向传播和梯度求导，该方式的学习率设置在0.001，同样的，该训练也会进行多个轮次，每进行10轮的训练，将学习率调整为0.8倍，这样经过一定轮次的训练后，将会获得稳定的收敛效果。经过这一方式的训练，两个域实现消除两个域的域间统计分布差异，即网络对于两个域中的图像的“学习”将荻得识别的“基础”，为后续将相同人物在视频图像中识别为身份证上的任务提供可能性。

此时，则需要另外的成对数据来对该阶段的网络进行训练，以使得网络能够具备跨域识别匹配的能力：具体来说，选取成对的数据，即预先准备相同人物在视频与在身份证图像上的数据，输入到网络中进行训练，该轮次的训练需要将合成的损失函数中的MMD-Loss去除，并加入第一域和第二域的混合Triplet-Loss，学习率设置0.001，每进行5轮的训练，将学习率调整为0.8倍。经过此轮次的训练后，损失函数收敛并隐定的情况下，网络模型以实现全部的训练。此时的网络，能过对视频中的人物进行识别，提取出“特征”，并且该“特征”能够在身份证的对应的人物中识别并匹配。

在使用该模型进行人物识别的时候，只要向网络模型输入来自视频图像的相关数据，就能够从身份证的相关图像数据中匹配出对应的任务，从而实现人物的识别，获得跨域识别的效果。又或者，将身份证图像数据输入，然后在视频数据中识别出人物来。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

通过上述的实施例的描述可以看出，实施本发明的方案，能够解决待识别图像与训练样本图像具有不同统计分布特性的问题，例如可以通过对视频获得的图像进行分析，匹配出其对应在身份证照片上的身份。解决了目前无法实现这一效果的缺陷。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，部应当属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、工作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨域网络训练方法，其特征在于，包括以下步骤：

S1：向深度神经网络输入第一域和第二域的样本数据，对所述第一域和第二域的样本数据进行训练，使得在所述深度神经网络在第一域与第二域上各自具有分类能力；

S3：对第一域和第二域进行加强内聚集的训练；

S4：对符合预设条件的训练结果进行保存。

2.如权利要求1所述的跨域网络训练方法，其特征在于，所述步骤S1中对所述第一域和第二域的样本数据进行训练包括：

对所述第一域和第二域的样本数据进行损失函数Triplet-Loss的训练。

3.如权利要求2所述的跨域网络训练方法，其特征在于，所述步骤S2包括：

当所述损失函数Triplet-Loss稳定且满足收敛时，用所述第一域和第二域的最高维度特征计算最大均值差异损失MMD-Loss，并将结果加入合成损失函数，共同进行反向传播和梯度求导。

4.如权利要求3所述的跨域网络训练方法，其特征在于，所述步骤S3包括：

将所述合成损失函数中的MMD-Loss去除，并加入所述第一域和所述第二域的混合Triplet-Loss，进行加强内聚丈的训练。

5.如权利要求4所述的跨域网络训练方法，其特征在于，所述步骤S4包括：

当加强内聚集的训练的合成损失函数收敛且小于设定值时，对训练结果进行保存。

6.如权利要求2所述的跨域网络训|练方法，其特征在于，所述步骤S1中，所述进行损失函数Triplet-Loss的训练还包括：

设置第一学习率，所述第一学习率初始值为0.001至0.01，每10轮所述进行损失函数Triplet-Loss的训练，将第一学习率设置为0.7至0.9倍。

7.如权利要求6所述的跨域网络训练方法，其特征在于，所述步骤S2中，设置第二学习率，所述第二学习率的初始值小于所述第一学习率的初始值，每10轮所述进行加强内聚集的训练，将第二学习率设置为0.7至0.9倍。

8.如权利要求7所述的跨域网络训|练方法，其特征在于，所述第二学习率初始值为0.0001至0.001。

9.如权利要求7所述的跨域网络训|练方法，其特征在于，所述步骤S3中，设置第三学习率，所述第三学习率的初始值小于所述第一学习率的初始值，每5轮所述进行加强内聚集的训练，将第三学习率设置为0.7至0.9倍。

10.如权利要求9所述的跨域网络训练方法，其特征在于，所述第三学习率的初始值为0.0001至0.001。

11.如权利要求2所述的跨域网络训练方法，其特征在于，所述步骤S1还包括：

对Triplet-Loss的训练结束后，提取所述第一域和第二域的特征，执行数据降维，在二维空间画山所述特征位置分布。

12.如权利要求3所述的跨域网络训练方法，其特征在于，所述步骤S2还包括：

对合成损失函数训练结束后，提取所述第一域和第二域的特征，执行数据降维，在二维空间画山所述特征位置分布。

13.如权利要求4所述的跨域网络训练方法，其特征在于，所述步骤S3还包括：

进行加强内聚集的训练结束后，提取所述第一域和第二域的特征，执行数据降维，在二维空间画山所述特征位置分布。

14.一种图像识别方法，其特征在于，对深度神经网络进行如权利要求1-13任一所述的训练，使用训练后的深度神经网络对图像进行识别。

15.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1-13任一所述的训练方法。