CN111178162B

CN111178162B - 图像识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111178162B
Application number: CN201911272224.7A
Authority: CN
Inventors: 李亮亮
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-11-07
Anticipated expiration: 2039-12-12
Also published as: CN111178162A

Abstract

本发明涉及一种图像识别方法、装置、计算机设备和存储介质。该方法通过通过对底库图像进行特征提取，得到底库图像的特征值，同时将底库图像输入至预设的图像识别网络，得到输出阈值，再根据输出阈值和预设阈值，得到适配阈值，最后将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果，并根据比较结果，确定待识别图像与底库图像是否属于同一目标。在上述方法中，计算机设备通过对底库图像的特征值的分析，可以得到与底库图像的类型匹配的阈值，实现了在图像识别过程中，在对每张底库图像和待识别图像进行比较识别时，动态调整每张底库图像对应的阈值的方法，极大的提高了图像识别的准确性。

Description

图像识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种图像识别方法、装置、计算机设备和存储介质。

背景技术

随着人脸图像识别技术的发展，对人脸图像的识别准确性要求越来越高。

在现有的人脸识别过程中，判断两张图片是否属于同一个人，主要依据的是，判断从两张图片上提取出的特征值之间的距离是否在预设阈值范围之内，如果上述距离高于预设阈值，则确定两张图片属于同一个人；如果上述距离低于预设阈值，则确定两张图片不属于同一个人。

但是，面对不同类型的人脸图像时，采用上述的人脸识别方法存在识别准确性较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高识别准确性的图像识别方法、装置、计算机设备和存储介质。

第一方面，一种图像识别方法，所述方法包括：

对底库图像进行特征提取，得到底库图像的特征值；

将待识别图像进行特征提取，得到待识别图像的特征值；

将底库图像输入至预设的图像识别网络，得到输出阈值；图像识别网络包括特征提取网络和与特征提取网络输出端连接的阈值适配网络，阈值适配网络用于根据底库图像的特征值得到输出阈值；

根据输出阈值和预设阈值，得到适配阈值；适配阈值与底库图像对应；

将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果；

根据比较结果，确定待识别图像与底库图像是否属于同一目标。

在其中一个实施例中，根据输出阈值和预设阈值，得到适配阈值，包括：

根据输出阈值，得到预设阈值的修正值；

使用修正值修正预设阈值，得到适配阈值。

在其中一个实施例中，阈值适配网络为全连接层。

在其中一个实施例中，待训练的图像识别网络包括待训练的特征提取网络和待训练的阈值适配网络，训练图像识别网络的方法，包括：

将样本图像输入至待训练的特征提取网络，得到样本图像的样本特征；

将样本特征输入至待训练的阈值适配网络，得到训练阈值；

根据训练阈值、样本特征、样本图像对应的样本标签，确定目标训练损失；

根据目标训练损失，更新待训练的特征提取网络和待训练的阈值适配网络的参数，之后重新进行目标训练损失的计算，直至目标训练损失收敛。

在其中一个实施例中，待训练的图像识别网络包括特征提取网络和待训练的阈值适配网络，训练图像识别网络的方法，包括：

将样本图像输入至特征提取网络，得到样本图像的样本特征；

将样本特征输入至待训练的阈值适配网络，得到训练阈值；

根据目标训练损失，更新待训练的阈值适配网络的参数，之后重新进行目标训练损失的计算，直至目标训练损失收敛。

在其中一个实施例中，根据训练阈值、样本特征、样本图像对应的样本标签，确定目标训练损失，包括：

将样本特征输入至预设的softmax层，并根据softmax层输出的结果和样本标签，得到训练损失；

根据训练阈值和训练损失，得到目标训练损失。

将样本特征输入至预设的softmax层，并按照预设的修正方法，根据样本标签和训练阈值，对softmax层输出的结果进行修正，得到修正结果；

根据修正结果、样本标签、训练阈值，确定目标训练损失。

在其中一个实施例中，根据比较结果，根据比较结果，确定待识别图像与底库图像是否属于同一目标，包括：

若比较结果为待识别图像的特征值与底库图像的特征值之间的相似度小于或等于适配阈值，则确定待识别图像与底库图像不属于同一目标。

在其中一个实施例中，若待识别图像与底库图像不属于同一目标，所述方法还包括：

重新从底库中选取新的底库图像，返回执行对底库图像进行特征提取，得到底库图像的特征值的步骤，直到待识别图像的特征值与底库图像的特征值之间的相似度大于适配阈值，或底库中的底库图像均被比对完成为止。

第二方面，一种图像识别装置，所述装置包括：

第一提取模块，用于对底库图像进行特征提取，得到底库图像的特征值；

第二提取模块，用于将待识别图像进行特征提取，得到待识别图像的特征值；

第一确定模块，用于将底库图像输入至预设的图像识别网络，得到输出阈值；图像识别网络包括特征提取网络和与特征提取网络输出端连接的阈值适配网络，阈值适配网络用于根据底库图像的特征值得到输出阈值；

第二确定模块，用于根据输出阈值和预设阈值，得到适配阈值；适配阈值与底库图像对应；

比较模块，用于将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果；

识别模块，用于根据比较结果，确定待识别图像与底库图像是否属于同一目标。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面任一实施例所述的图像识别方法。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一实施例所述的图像识别方法。

本申请提供的一种图像识别方法、装置、计算机设备和存储介质，

通过对底库图像进行特征提取，得到底库图像的特征值，同时将底库图像输入至预设的图像识别网络，得到输出阈值，再根据输出阈值和预设阈值，得到适配阈值，最后将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果，并根据比较结果，确定待识别图像与底库图像是否属于同一目标。在上述方法中，计算机设备通过将底库图像输入至图像识别网络，得到输出阈值，再由输出阈值得到得到与底库图像的类型匹配的适配阈值，实现了在图像识别过程中，在对每张底库图像和待识别图像进行比较识别时，动态调整每张底库图像对应的适配阈值的方法，即一张底库图像对应一个适配阈值。本申请使用不同的适配阈值评估待识别图像与不同的底库图像之间的相似度，相比于传统的使用预先人为定义的固定阈值评估待识别图像与不同的底库图像之间的相似度的方法，本申请提出的图像识别方法可以避免因固定阈值不能与所有类型的底库图像均匹配，而导致的有些底库图像拒识别或有些底库图像误识别的问题，进而提高了图像识别的准确性。

附图说明

图1为一个实施例提供的一种计算机设备的内部结构示意图；

图2为一个实施例提供的一种图像识别方法的流程图；

图2A为一个实施例提供的一种待训练的图像识别网络的结构示意图；

图3为图2实施例中S104的另一种实现方式的流程图；

图4为一个实施例提供的一种待训练的图像识别网络的结构示意图；

图5为一个实施例提供的一种训练方法的流程图；

图6为一个实施例提供的一种待训练的图像识别网络的结构示意图；

图7为一个实施例提供的一种训练方法的流程图；

图8为图5实施例中S303的一种实现方式的流程图；

图9为图5实施例中S303的另一种实现方式的流程图；

图10为图2实施例中S106的另一种实现方式的流程图；

图11为一个实施例提供的一种图像识别网络的结构示意图；

图12为一个实施例提供的一种训练网络的结构示意图；

图13为一个实施例提供的一种图像识别装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供的图像识别方法，可以应用于如图1所示的计算机设备中。该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为一个实施例提供的一种图像识别方法的流程图，该方法的执行主体为图1中的计算机设备，该方法涉及的是计算机设备动态调整各底库图像对应的阈值，从而根据调整后的阈值实现图像识别的具体的过程。如图2所示，该方法具体包括以下步骤：

S101、对底库图像进行特征提取，得到底库图像的特征值。

其中，底库图像具体可以为底库中的图像，也可以为其它图像库中的图像。具体的，底库图像可以为人脸图像，也可以为人体图像，或者包含其它类型目标的图像，对此本实施例不做限定。本实施例中，计算机设备可以从底库中获取底库图像，用于识别目标图像时拿来进行比对或检索。当计算机设备需要对待识别的目标图像进行识别时，可以从底库或者其它类型图像库中获取底库图像，再进一步的采用相应的特征提取方法，对底库图像进行特征提取，得到底库图像的特征值，以便之后根据底库图像的特征值辅助识别待识别的目标图像。

S102、将待识别图像进行特征提取，得到待识别图像的特征值。

其中，待识别图像为待识别的目标图像，例如，待识别图像可以为某一摄像机抓拍的图像。具体的，待识别图像可以为人脸图像，也可以为人体图像，或者包含其它类型目标的图像，对此本实施例不做限定。本实施例中，当计算机设备获取到待识别图像时，可以进一步的采用相应的特征提取方法，对待识别图像进行特征提取，得到待识别图像的特征值。

S103、将底库图像输入至预设的图像识别网络，得到输出阈值；图像识别网络包括特征提取网络和与特征提取网络输出端连接的阈值适配网络，阈值适配网络用于根据底库图像的特征值得到输出阈值。

其中，图像识别网络为预先训练好的图像识别网络，其具体可以为各种类型的神经网络或机器学习网络，对此本实施例不做限定。图像识别网络的结构，如图2A所示，可以包括特征提取网络和阈值适配网络，且特征提取网络的输出端连接阈值适配网络的输入端，特征提取网络用于对输入的底库图像进行特征提取，得到底库图像的特征值，阈值适配网络用于根据底库图像的特征值，得到底库图像对应的阈值，即输出阈值。特征提取网络具体可以为各种类型的神经网络或机器学习网络，阈值适配网络具体可以为各种类型的神经网络或机器学习网络，可选的，阈值适配网络可以为全连接层，对此本实施例不做限定。

本实施例中，当计算机设备基于上述S101的步骤获取到底库图像的特征值时，可以进一步的将底库图像输入至预先训练好的特征提取网络，得到该底库图像的特征值，再将底库图像的特征值输入至预先训练好的阈值适配网络，得到底库图像对应的阈值，即输出阈值，以便之后使用该输出阈值评估待识别的目标图像和对应类型的底库图像之间的特征值的差异。

S104、根据输出阈值和预设阈值，得到适配阈值；适配阈值与底库图像对应。

其中，预设阈值可以由计算机设备预先根据实际应用需求确定，为一个固定值。当计算机设备得到阈值适配网络输出的输出阈值时，可以使用该输出阈值对预设阈值进行修正，得到与底库图像对应的适配阈值。不同的底库图像对应不同的适配阈值，即，计算机设备根据不同的底库图像可以得到不同的输出阈值，而不同的输出阈值可以对预设阈值进行动态调整，得到不同的适配阈值。

S105、将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果。

本实施例中，当计算机设备基于上述方法获取到待识别图像的特征值和底库图像的特征值时，可以进一步的通过差值运算获取到待识别图像的特征值与底库图像的特征值之间的相似度，再将该相似度与S104步骤得到的适配阈值进行比较，得到比较结果。比较结果可以为待识别图像的特征值与底库图像的特征值之间的相似度小于或等于适配阈值，也可以为待识别图像的特征值与底库图像的特征值之间的相似度大于适配阈值。

S105、根据比较结果，确定待识别图像与底库图像是否属于同一目标。

本实施例中，当计算机设备获取到比较结果后，即可根据该比较结果确定待识别图像与底库图像是否属于同一目标，若待识别图像与底库图像属于同一目标，即说明此时计算机设备完成对待识别图像所包含目标的识别；若待识别图像与底库图像不属于同一目标，则说明此时计算机设备没有识别出待识别图像所包含目标，接下来可以根据实际应用需求停止图像识别，可选的，也可以重新选取新的底库图像进行识别，直到识别出待识别图像所包含目标为止。

本实施例提供的一种图像识别方法，通过对底库图像进行特征提取，得到底库图像的特征值，同时将底库图像输入至预设的图像识别网络，得到输出阈值，再根据输出阈值和预设阈值，得到适配阈值，最后将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果，并根据比较结果，确定待识别图像与底库图像是否属于同一目标。在上述方法中，计算机设备通过将底库图像输入至图像识别网络，得到输出阈值，再由输出阈值得到与底库图像的类型匹配的适配阈值，实现了在图像识别过程中，在对每张底库图像和待识别图像进行比较识别时，动态调整每张底库图像对应的适配阈值的方法，即一张底库图像对应一个适配阈值。本申请使用不同的适配阈值评估待识别图像与不同的底库图像之间的相似度，相比于传统的使用预先人为定义的固定阈值评估待识别图像与不同的底库图像之间的相似度的方法，本申请提出的图像识别方法可以避免因固定阈值不能与所有类型的底库图像均匹配，而导致的有些底库图像拒识别或有些底库图像误识别的问题，进而提高了图像识别的准确性。

图3为图2实施例中S104的另一种实现方式的流程图，如图3所示，上述S104“根据输出阈值和预设阈值，得到适配阈值”，包括：

S201、根据输出阈值，得到预设阈值的修正值。

本实施例涉及计算机设备根据输出阈值，得到预设阈值的修正值的过程，具体包括：计算机设备可以直接采用加权处理的方法，给输出阈值附相应的权重后得到预设阈值的修正值。可选的，计算机设备也可以对输出阈值进行相应的变形后，得到预设阈值的修正值，具体可以根据实际应用需求根据输出阈值得到预设阈值的修正值。

S202、使用修正值修正预设阈值，得到适配阈值。

其中，预设阈值为计算机设备预先设定的一个固定阈值，在实际应用中，一般，不同的底库图像均对应同一个预设阈值。当计算机设备获取到预设阈值的修正值后，即可使用该预设阈值的修正值对预设阈值进行修正，得到之后需要识别图像时使用的阈值，即适配阈值，使不同的底库图像对应不同的适配阈值。

可选地，计算机设备可以采用如下关系式(1)得到底库图像对应的阈值，即适配阈值：

Y'＝Y×(1-P) (1)；

其中，P表示输出阈值；Y表示预设阈值；Y'表示适配阈值。

在本例中，预设阈值是一个要求较高的阈值，当底库图像属于老人、小孩、侧脸等情况时，可使预设阈值适当降低为适配阈值，降低程度由输出阈值决定。输出阈值是0-1之间的数字，输出阈值越小，说明底库图像不属于老人、小孩、侧脸等需要对预设阈值进行较大修正的情况。

上述过程实现了计算机设备动态调整每张底库图像对应的适配阈值的过程，即计算机设备在图像识别过程中，利用不同的底库图像对应的输出阈值对预设阈值进行修正。上述方法使最终得到的适配阈值更加与对应的底库图像的类型匹配，从而使用适配阈值进行比较识别时，能够提高识别的准确性。

基于上述实施例所述的图像识别方法，本申请还提供了一种训练上述图像识别网络的方法，该训练方法应用在如图4所示的待训练的图像识别网络，该待训练的图像识别网络包括：待训练的特征提取网络和待训练的阈值适配网络，待训练的特征提取网络和待训练的阈值适配网络的连接方式和功能请参见前述图2实施例对图像识别网络的说明，在此不重复累赘说明。

在上述应用场景下，本申请提供了一种训练方法，如图5所示，该方法包括：

S301、将样本图像输入至待训练的特征提取网络，得到样本图像的样本特征。

当计算机设备获取到样本图像后，即可将样本图像输入至待训练的特征提取网络进行特征提取，得到样本图像的样本特征。

S302、将样本特征输入至待训练的阈值适配网络，得到训练阈值。

当计算机设备获取到样本图像的样本特征后，即可将样本特征输入至待训练的阈值适配网络，得到训练阈值。

S303、根据训练阈值、样本特征、样本图像对应的样本标签，确定目标训练损失。

样本标签为1*M维向量，其中第N个元素为1，其他元素为0，1≤N≤M,表示该样本图像对应的人员为训练集中M个人员中的第N个(N可以理解为该人员的人员ID)。样本特征为1*W维向量。

当计算机设备获取到样本图像的样本特征、样本标签，以及训练阈值后，即可将样本图像的样本特征、样本标签、训练阈值进行相应的损失计算，或者将样本图像的样本特征、样本标签、训练阈值作为输入变量的值代入到相应的损失函数中进行计算，得到目标训练损失。上述损失函数可以预先由计算机设备根据实际应用需求确定，例如，上述损失函数可以是常用的交叉熵损失函数。

举例说明上述样本标签的获取方法，例如，假设在训练过程中，使用10000张样本图像，其中属于2500个人员，每个人员对应4张图，假设1号人员包括2张正脸和2张侧脸，则1号人员的4张图像对应的样本标签均为1*10000的向量，且第1个元素为1，其它元素为0；2号人员的4张图像对应的样本标签均为1*10000的向量，且第2个元素为1，其它元素为0；依次类推，第2500号人员的4张图像对应的样本标签均为1*10000的向量，且第2500个元素为1，其它元素为0。

S304、根据目标训练损失，更新待训练的特征提取网络和待训练的阈值适配网络的参数，之后重新进行目标训练损失的计算，直至目标训练损失收敛。

当计算机设备获取到目标训练损失后，即可判断该目标训练损失是否收敛，若不收敛，则调整待训练的特征提取网络和待训练的阈值适配网络的参数，并重新进行目标训练损失的计算，继续训练待训练的特征提取网络和待训练的阈值适配网络，直至目标训练损失收敛；若收敛，则停止调整待训练的特征提取网络和待训练的阈值适配网络的参数，并将调整参数后的特征提取网络和阈值适配网络作为训练完成的特征提取网络和阈值适配网络，得到之后需要使用的特征提取网络和阈值适配网络。

本实施例在每次迭代中同时更新待训练的特征提取网络和待训练的阈值适配网络的参数，能够提高训练效率。可以理解的是，这里的待训练的特征提取网络可以是基本训练好的特征提取网络，可进一步提高训练效率。

基于上述实施例所述的图像识别方法，本申请还提供了另一种训练上述图像识别网络的方法，该训练方法应用在如图6所示的待训练的图像识别网络，该待训练的图像识别网络包括：训练好的特征提取网络和待训练的阈值适配网络，训练好的特征提取网络和待训练的阈值适配网络的连接方式和功能请参见前述图2实施例对图像识别网络的说明，在此不重复累赘说明。

在上述应用场景下，本申请提供了另一种训练方法，如图7所示，该方法包括：

S401、将样本图像输入至特征提取网络，得到样本图像的样本特征。

本实施例所述的方法与前述S301步骤所述的内容相同，详细内容请参见前述说明，在此不重复累赘说明。

S402、将样本特征输入至待训练的阈值适配网络，得到训练阈值。

本实施例所述的方法与前述S302步骤所述的内容相同，详细内容请参见前述说明，在此不重复累赘说明。

S403、根据训练阈值、样本特征、样本图像对应的样本标签，确定目标训练损失。

本实施例所述的方法与前述S303步骤所述的内容相同，详细内容请参见前述说明，在此不重复累赘说明。

S404、根据目标训练损失，更新待训练的阈值适配网络的参数，之后重新进行目标训练损失的计算，直至目标训练损失收敛。

当计算机设备获取到目标训练损失后，即可判断该目标训练损失是否收敛，若不收敛，则调整待训练的阈值适配网络中的参数，并重新进行目标训练损失的计算，继续训练待训练的阈值适配网络，直至目标训练损失收敛；若收敛，则停止调整待训练的阈值适配网络中的参数，并将调整参数后的阈值适配网络作为训练完成的阈值适配网络，得到之后需要使用的阈值适配网络。

在本实施例中，先训练好特征提取网络，将特征提取网络的参数固定，再训练待训练的阈值适配网络，在每次迭代中更新待训练的阈值适配网络的参数。如此能够将特征提取网络和阈值适配网络的训练解耦，便于追踪训练过程中产生的问题，例如当目标训练损失不收敛时追踪训练过程中产生的问题。

图8为图5实施例中S303的一种实现方式的流程图，或为图7实施例中S403的一种实现方式的流程图，如图8所示，上述S303或S403“根据训练阈值、样本特征、样本图像对应的样本标签，确定目标训练损失”，包括：

S501、将样本特征输入至预设的softmax层，并根据softmax层输出的结果和样本标签，得到训练损失。

当计算机设备获取到样本特征和样本标签时，可以进一步的将样本特征输入至预设的softmax层，得到softmax层输出的结果。再将softmax层输出的结果和样本标签进行相应的损失计算，或者代入到相应的损失函数中进行计算，得到用于训练的训练损失。上述损失函数可以是常用的交叉熵损失函数，也可以采用其它类型的损失函数。

在一例中，样本标签为1*M维向量，样本特征为1*W维向量，softmax层输出的结果为1*M维的向量。如此，可将softmax层输出的结果和样本标签转换为相同的维度，从而进行后续运算。

例如，训练损失可以由下列关系式(2)或其变形式得到：

Loss1＝T-gt (2)；

其中，T表示softmax层输出的结果；gt表示样本标签；Loss1表示训练损失。

多张样本图像构成一训练集，训练集中，同一人员可能对应多个样本图像，同一人员对应的多张图像具有同样的人员ID。训练集中，样本标签可以用来表征样本图像对应的人员ID的真实值，可以作为groundtruth(gt)训练特征提取网络、评估特征提取网络或评估样本图像需要进行阈值修正的程度。例如，假设使用10000张样本图像进行训练，其中属于2500个人员，每个人员4张样本图像，每个人员的4张图像的样本标签均为1*10000的向量，当这些样本图像通过特征提取网络得到样本特征，进而将样本特征通过softmax层输出时，可以得到1*10000的向量，再将该1*10000的向量与样本标签对应的1*10000的向量进行损失计算，可以得到1*10000的训练损失的向量。

S502、根据训练阈值和训练损失，得到目标训练损失。

当计算机设备获取到训练损失时，可以进一步的将训练损失和训练阈值进行相应的损失计算，或者将训练损失和训练阈值作为输入变量的值代入到预设的损失函数中进行计算，得到目标训练损失。上述损失函数可以由计算机设备预先根据实际应用需求确定。需要说明的是，本实施例涉及的损失函数与S501涉及的计算训练损失时的损失函数不相同。

如此，目标训练损失是根据待训练的阈值适配网络输出的训练阈值和训练损失得到，而不是由训练阈值和目标阈值(阈值适配网络的输出阈值的groundtruth)得到，无需人工标注目标阈值，是一种阈值适配网络的无监督学习方法。由此一来无需额外人工标注目标阈值，使用训练特征提取网络时使用的样本标签即可；二来人工标注目标阈值具有较大的主观性，由训练阈值和训练损失得到目标训练损失更为客观。

可选地，上述损失函数可以采用如下关系式(3)或其变形式表示：

其中，Loss1表示上述的训练损失；P表示训练阈值；λ为常系数；Loss2表示目标训练损失。

可以理解的是，当特征提取网络得到的训练损失比较大时，说明该样本图像属于老人、小孩、侧面等情况，需要对预设阈值进行较多的修正。

图9为图5实施例中S303的另一种实现方式的流程图，或为图7实施例中S403的另一种实现方式的流程图，如图9所示，上述S303或S403“根据训练阈值、样本特征、样本图像对应的样本标签，确定目标训练损失”，包括：

S601、将样本特征输入至预设的softmax层，并按照预设的修正方法，根据样本标签和训练阈值，对softmax层输出的结果进行修正，得到修正结果。

当计算机设备获取到样本特征时，可以进一步的将样本特征输入至预设的softmax层，得到softmax层输出的结果。再按照预设的修正方法，将样本标签和训练阈值作为修正参数对softmax层输出的结果进行修正计算，得到计算结果，即修正结果。

可选地，上述修正结果可以采用如下关系式(4)或其变形式表示：

T'＝T×P+(1-P)×gt (4)；

其中，T表示softmax层输出的结果；gt表示样本图像的样本标签；P表示训练阈值；T'表示修正结果。

S602、根据修正结果、样本标签、训练阈值，确定目标训练损失。

当计算机设备获取到修正结果时，可以进一步的将修正结果、样本标签和训练阈值进行相应的损失计算，或者将修正结果、样本标签和训练阈值作为输入变量的值代入到预设的损失函数中进行计算，得到目标训练损失。上述损失函数可以由计算机设备预先根据实际应用需求确定。

可选地，上述损失函数可以采用如下关系式(5)或其变形式表示：

Loss2＝L(T',gt)-logP (5)；

其中，gt表示样本标签；T'表示修正结果；P表示训练阈值；Loss2表示目标训练损失；L(T',gt)表示样本标签与修正结果的交叉熵函数，其表达式属于现有技术，具体可通过查阅现有资料获取。

可以理解的是，当softmax层输出的结果经过修正后与样本标签相差较大时，说明该样本图像可能属于老人、小孩、侧面等情况，此时，需要对预设阈值进行较多的修正。

图10为图2实施例中S106的另一种实现方式的流程图，如图10所示，上述S106“根据比较结果，确定待识别图像与底库图像是否属于同一目标”，包括：

S701、若比较结果为待识别图像的特征值与底库图像的特征值之间的相似度小于或等于适配阈值，则确定待识别图像与底库图像不属于同一目标。

本实施例涉及比较结果为待识别图像的特征值与底库图像的特征值之间的相似度小于或等于适配阈值的应用场景，在该场景下，计算机设备确定待识别图像与底库图像不属于同一目标，说明此时计算机设备没有识别出待识别图像所包含目标，接下来可以根据实际应用需求停止识别，或者，也可以重新选择新的底库图像进行识别。

S702、若比较结果为待识别图像的特征值与底库图像的特征值之间的相似度大于适配阈值，则确定待识别图像与底库图像属于同一目标。

本实施例涉及比较结果为待识别图像的特征值与底库图像的特征值之间的相似度大于适配阈值的应用场景，在该场景下，计算机设备确定待识别图像与底库图像属于同一目标，此时完成图像识别。

在实际应用中，在确定待识别图像与底库图像不属于同一目标之后，一般计算机设备还需要继续与其它图像进行比对，对待识别图像中的目标进行识别，因此，上述S701“确定待识别图像与底库图像不属于同一目标”之后，图2实施例所述的方法还包括步骤：重新从底库中选取新的底库图像，返回执行对底库图像进行特征提取，得到底库图像的特征值的步骤，直到待识别图像的特征值与底库图像的特征值之间的相似度大于适配阈值，或底库中的底库图像均被比对完成为止。

本实施例涉及计算机设备执行上述S701之后的步骤。一般当计算机设备对待识别图像与底库图像进行比较识别，并确定了待识别图像与底库图像不属于同一目标之后，计算机设备还需要继续对待识别图像与其它底库图像进行比较识别，直到待识别图像与底库图像属于同一目标，以完成图像识别。上述过程具体包括：计算机设备重新从底库中选取新的底库图像，返回执行上述S101“对底库图像进行特征提取，得到底库图像的特征值”的步骤，直到待识别图像的特征值与底库图像的特征值之间的相似度大于适配阈值为止，或者，底库中的底库图像均被比对完成为止。需要说明的是，每次从底库中获取新的底库图像与待识别图像进行比较识别时，均需要根据新的底库图像对应的适配阈值进行比较识别，实现了图像识别过程中的动态调整阈值，使每次调整的阈值均与每次使用的底库图像的类型匹配，极大的提高了图像识别的准确性。

综上所有实施例所述的方法，本申请提供了一种图像识别网络，如图11所示，该图像识别网络包括：第一特征提取网络、第二特征提取网络、阈值适配网络、第一运算器、第二运算器、比较器。其中，第一特征提取网络用于提取输入的底库图像的特征值；第二特征提取网络用于提取输入的待识别图像的特征值；阈值适配网络用于对底库图像的特征值进行适配，得到用于修正预设阈值的输出阈值；第一运算器用于获取底库图像的特征值和待识别图像的特征值之间的相似度，即进行差值运算，得到底库图像的特征值和待识别图像的特征值之间的相似度；第二运算器用于根据预设阈值和输出阈值得到之后需要使用的适配阈值；比较器用于根据第二运算器输出的适配阈值和底库图像的特征值和待识别图像的特征值之间的相似度进行比对，得到比较结果，从而根据比较结果得到对待识别图像的识别结果。

可以理解的是，通常情况下，第一特征提取网络、第二特征提取网络、训练好的特征提取网络具有相同的网络结构和网络参数。

另外，本申请提供了一种训练网络，用于训练上述阈值适配网络，如图12所示，在一种应用中，该训练网络可以包括：特征提取网络、待训练的阈值适配网络、softmax层、第一损失模块、第二损失模块。其中，特征提取网络用于提取输入的样本图像的特征值；待训练的阈值适配网络用于对样本图像的特征值进行适配，得到输出阈值；softmax层用于输出第一结果；第一损失模块用于根据输入的第一结果和样本标签进行损失计算，得到训练损失；第二损失模块用于根据输入的训练损失和输出阈值，得到目标训练损失。在另一种应用中，该训练网络可以包括：特征提取网络、待训练的阈值适配网络、softmax层、修正模块、第二损失模块。其中，特征提取网络用于提取输入的样本图像的特征值；待训练的阈值适配网络用于对样本图像的特征值进行适配，得到输出阈值；softmax层用于输出第一结果；修正模块用于修正第一结果，得到第二结果；第二损失模块用于根据输入的第二结果、样本标签和输出阈值，得到目标训练损失。上述各部件的具体实施方式可参见前述实施例的说明内容，在此不重复累赘说明。

应该理解的是，虽然图2-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行。

在一个实施例中，如图13所示，提供了一种图像识别装置，包括：第一提取模块11、第二提取模块12、第一确定模块13、第二确定模块14、比较模块15和识别模块16，其中：

第一提取模块11，用于对底库图像进行特征提取，得到底库图像的特征值；

第二提取模块12，用于将待识别图像进行特征提取，得到待识别图像的特征值；

第一确定模块13，用于将底库图像输入至预设的图像识别网络，得到输出阈值；图像识别网络包括特征提取网络和与特征提取网络输出端连接的阈值适配网络，阈值适配网络用于根据底库图像的特征值得到输出阈值；

第二确定模块14，用于根据输出阈值和预设阈值，得到适配阈值；适配阈值与底库图像对应；

比较模块15，用于将待识别图像的特征值和底库图像的特征值之间的相似度，与适配阈值进行比较，得到比较结果；

识别模块16，用于根据比较结果，确定待识别图像与底库图像是否属于同一目标。

关于图像识别装置的具体限定可以参见上文中对于一种图像识别方法的限定，在此不再赘述。上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

对底库图像进行特征提取，得到底库图像的特征值；

将待识别图像进行特征提取，得到待识别图像的特征值；

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时还实现以下步骤：

对底库图像进行特征提取，得到底库图像的特征值；

将待识别图像进行特征提取，得到待识别图像的特征值；

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

对底库图像进行特征提取，得到所述底库图像的特征值；

将待识别图像进行特征提取，得到所述待识别图像的特征值；

将所述底库图像输入至预设的图像识别网络，得到输出阈值；所述图像识别网络包括特征提取网络和与所述特征提取网络输出端连接的阈值适配网络，所述阈值适配网络用于根据所述底库图像的特征值得到所述输出阈值；所述输出阈值用于评估所述底库图像与所述待识别图像之间的特征值的差异；

根据所述输出阈值和预设阈值，得到适配阈值；所述适配阈值与所述底库图像对应；

将所述待识别图像的特征值和所述底库图像的特征值之间的相似度，与所述适配阈值进行比较，得到比较结果；

根据所述比较结果，确定所述待识别图像与所述底库图像是否属于同一目标。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输出阈值和预设阈值，得到适配阈值，包括：

根据所述输出阈值，得到所述预设阈值的修正值；

使用所述修正值修正所述预设阈值，得到所述适配阈值。

3.根据权利要求1所述的方法，其特征在于，所述阈值适配网络为全连接层。

4.根据权利要求1所述的方法，其特征在于，待训练的所述图像识别网络包括待训练的特征提取网络和待训练的阈值适配网络，训练所述图像识别网络的方法，包括：

将样本图像输入至所述待训练的特征提取网络，得到所述样本图像的样本特征；

将所述样本特征输入至所述待训练的阈值适配网络，得到训练阈值；

根据所述训练阈值、所述样本特征、所述样本图像对应的样本标签，确定目标训练损失；

根据所述目标训练损失，更新所述待训练的特征提取网络和所述待训练的阈值适配网络的参数，之后重新进行目标训练损失的计算，直至所述目标训练损失收敛。

5.根据权利要求1所述的方法，其特征在于，待训练的所述图像识别网络包括所述特征提取网络和待训练的阈值适配网络，训练所述图像识别网络的方法，包括：

将样本图像输入至所述特征提取网络，得到所述样本图像的样本特征；

根据所述目标训练损失，更新所述待训练的阈值适配网络的参数，之后重新进行目标训练损失的计算，直至所述目标训练损失收敛。

6.根据权利要求5所述的方法，其特征在于，所述根据所述训练阈值、所述样本特征、所述样本图像对应的样本标签，确定目标训练损失，包括：

将所述样本特征输入至预设的softmax层，并根据所述softmax层输出的结果和所述样本标签，得到训练损失；

根据所述训练阈值和所述训练损失，得到所述目标训练损失。

7.根据权利要求4或5所述的方法，其特征在于，所述根据所述训练阈值、所述样本特征、所述样本图像对应的样本标签，确定目标训练损失，包括：

将所述样本特征输入至预设的softmax层，并按照预设的修正方法，根据所述样本标签和所述训练阈值，对所述softmax层输出的结果进行修正，得到修正结果；

根据所述修正结果、所述样本标签、所述训练阈值，确定所述目标训练损失。

8.根据权利要求1所述的方法，其特征在于，所述根据所述比较结果，确定所述待识别图像与所述底库图像是否属于同一目标，包括：

若所述比较结果为所述待识别图像的特征值与所述底库图像的特征值之间的相似度小于或等于所述适配阈值，则确定所述待识别图像与所述底库图像不属于同一目标。

9.根据权利要求8所述的方法，其特征在于，若所述待识别图像与所述底库图像不属于同一目标，所述方法还包括：

重新从底库中选取新的底库图像，返回执行所述对底库图像进行特征提取，得到所述底库图像的特征值的步骤，直到所述待识别图像的特征值与所述底库图像的特征值之间的相似度大于所述适配阈值，或所述底库中的底库图像均被比对完成为止。

10.一种图像识别装置，其特征在于，所述装置包括：

第一提取模块，用于对底库图像进行特征提取，得到所述底库图像的特征值；

第二提取模块，用于将待识别图像进行特征提取，得到所述待识别图像的特征值；

第一确定模块，用于将所述底库图像输入至预设的图像识别网络，得到输出阈值；所述图像识别包括特征提取网络和与所述特征提取网络输出端连接的阈值适配网络，阈值适配网络用于根据所述待识别图像的特征值输出所述输出阈值；所述输出阈值用于评估所述底库图像与所述待识别图像之间的特征值的差异；

第二确定模块，用于根据所述输出阈值和预设阈值，得到适配阈值；所述适配阈值与所述底库图像对应；

比较模块，用于将所述待识别图像的特征值和所述底库图像的特征值之间的相似度，与所述适配阈值进行比较，得到比较结果；

识别模块，用于根据所述比较结果，确定所述待识别图像与所述底库图像是否属于同一目标。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。