CN112560880A

CN112560880A - 目标分类方法、目标分类装置及计算机可读存储介质

Info

Publication number: CN112560880A
Application number: CN201910908047.0A
Authority: CN
Inventors: 于志刚; 贺群; 李�昊; 刘国萍; 孙静博; 刘康; 全硕; 辛冠军; 付睿; 周路
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-03-26

Abstract

本公开提供了一种目标分类方法、目标分类装置及计算机可读存储介质，涉及人工智能技术领域。其中的目标分类方法包括：将训练图像输入神经网络，得到训练图像的特征向量；将与训练图像具有相同标签的正样本图像输入神经网络，得到正样本图像的特征向量；将与训练图像具有不同标签的负样本图像输入神经网络，得到负样本图像的特征向量；调整神经网络的参数以减小神经网络的损失函数值；损失函数值与第一距离呈正相关且与第二距离呈负相关，第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离；利用神经网络对目标图像进行分类。本公开能够更加准确的对目标进行识别和分类。

Description

目标分类方法、目标分类装置及计算机可读存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种目标分类方法、装置及计算机可读存储介质。

背景技术

图像识别是人工智能领域的重要部分。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标的技术。为了编制模拟人类图像识别活动的计算机程序，人们提出了不同的图像识别模型。

图像分类是计算机视觉的核心，实际应用广泛。采用机器学习的方法处理图像分类问题时，向机器学习模型输入图像，机器学习模型能够输出一个已知的混合类别中的某一个标签，从而确定该图像中内容所属的类别。

发明内容

本公开解决的一个技术问题是，如何更加准确的对目标进行识别和分类。

根据本公开实施例的一个方面，提供了一种目标分类方法，包括：将训练图像输入神经网络，得到训练图像的特征向量；将与训练图像具有相同标签的正样本图像输入所述神经网络，得到正样本图像的特征向量；将与训练图像具有不同标签的负样本图像输入所述神经网络，得到负样本图像的特征向量；调整所述神经网络的参数以减小所述神经网络的损失函数值；所述损失函数值与第一距离呈正相关且与第二距离呈负相关，所述第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，所述第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离；利用所述神经网络对目标的图像进行处理，以确定目标的类别。

在一些实施例中，所述距离为余弦距离。

在一些实施例中，所述神经网络的损失函数L为：

其中，N表示训练图像、正样本图像、负样本图像所组成三元组的个数，i表示三元组的序号；{·}₊＝max({·},0)，表示{·}内的值大于零时取该值，小于零时取零；

表示第i个三元组中的训练图像，

表示第i个三元组中的负样本图像，

表示第i个三元组中的正样本图像；f(·)表示求特征向量；cos[]表示求特征向量之间的余弦距离；α为常数。

在一些实施例中，目标分类方法还包括：将InceptionV3神经网络中第三个Inception模块组之后的神经层，替换为由全局平均池化层、全连接层、分类层组成的神经层，以生成所述神经网络。

在一些实施例中，所述利用所述神经网络对目标的图像进行处理，以确定目标的类别包括：将目标的图像输入所述神经网络，以使得所述分类层输出多维向量；所述多维向量中的元素表示目标属于各个类别的概率，所述多维向量的维度表示各个类别的总数；根据所述多维向量，确定目标所属的类别。

在一些实施例中，目标分类方法还包括：在对InceptionV3神经网络中第三个Inception模块组之后的神经层进行替换之前，采用标注了标签的训练图片集对InceptionV3神经网络进行训练。

根据本公开实施例的另一个方面，提供了一种目标分类装置，包括：图像输入模块，被配置为：将训练图像输入神经网络，得到训练图像的特征向量；将与训练图像具有相同标签的正样本图像输入所述神经网络，得到正样本图像的特征向量；将与训练图像具有不同标签的负样本图像输入所述神经网络，得到负样本图像的特征向量；网络调整模块，被配置为调整所述神经网络的参数以减小所述神经网络的损失函数值；所述损失函数值与第一距离呈正相关且与第二距离呈负相关，所述第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，所述第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离；目标分类模块，被配置为利用所述神经网络对目标的图像进行处理，以确定目标的类别。

在一些实施例中，前述距离为余弦距离。

在一些实施例中，神经网络的损失函数L为：

表示第i个三元组中的训练图像，

表示第i个三元组中的负样本图像，

在一些实施例中，目标分类装置还包括网络生成模块，被配置为：将InceptionV3神经网络中第三个Inception模块组之后的神经层，替换为由全局平均池化层、全连接层、分类层组成的神经层，以生成所述神经网络。

在一些实施例中，目标分类模块被配置为：将目标图像输入所述神经网络，以使得所述分类层输出多维向量；所述多维向量中的元素表示目标属于各个类别的概率，所述多维向量的维度表示各个类别的总数；根据所述多维向量，确定目标所属的类别。

在一些实施例中，网络生成模块还被配置为：在对InceptionV3神经网络中第三个Inception模块组之后的神经层进行替换之前，采用标注了标签的训练图片集对InceptionV3神经网络进行训练。

根据本公开实施例的又一个方面，提供了又一种目标分类装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的目标分类方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的目标分类方法。

本公开能够更加准确的对目标进行识别和分类。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一些实施例的目标分类方法的流程示意图。

图2示出了本公开另一些实施例的目标分类方法的流程示意图。

图3示出了本公开一些实施例的目标分类装置的结构示意图。

图4示出了本公开另一些实施例的目标分类装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在实施本公开目标分类方法之前，需要进行一系列准备工作。

首先，利用终端对目标进行图像采集，例如获取生物个体面部的完整清晰图像(例如生物个体的正脸、左侧脸、右侧脸等多角度面部图像)。获取图像时，终端设备自动对焦生物个体面部。该清晰图像需要达到神经网络能够进行识别的图片质量，拍摄期间终端可以自动预览辨别所拍摄图像的清晰度、亮度、曝光度等参数，依据环境条件自动补光，反馈不合格图像，并利用http协议将数据实时传输至服务器。

然后，对采集到的图像进行预处理并标注对应的标签。预处理具体可以包括数据清洗处理、数据增强处理、数据归一化处理。数据清洗包括数据缺失值处理、数据异常值处理、数据去重处理、噪音数据处理等等。数据增强处理包括图像的翻转、旋转、缩放、裁剪、平移处理等等，数据增强处理能够增加训练图像的数据量，提高神经网络的泛化能力，提升神经网络的鲁棒性。归一化处理例如可以包括最小最大值标准化、绝对值最大标准化等等。

最后，对预处理并标注后的图像进行划分，例如按照训练集：验证集：测试集＝7:2:1的比例进行图像集划分。

下面结合图1描述本公开目标分类方法的一些实施例。

图1示出了本公开一些实施例的目标分类方法的流程示意图。如图1所示，本实施例包括步骤S101～步骤S105。

在步骤S101中，将训练图像输入神经网络，得到训练图像的特征向量。

在步骤S102中，将与训练图像具有相同标签的正样本图像输入神经网络，得到正样本图像的特征向量。

在步骤S103中，将与训练图像具有不同标签的负样本图像输入神经网络，得到负样本图像的特征向量。

本领域技术人员应理解，可以利用训练图像、与训练图像具有相同标签的正样本图像、与训练图像具有不同标签的负样本图像构造三元组图像。将构建的三元组图像可以共同作为训练数据输入神经网络，并基于三元组损失函数对神经网络进行监督学习。

在步骤S104中，调整神经网络的参数以减小神经网络的损失函数值。

其中，损失函数值与第一距离呈正相关且与第二距离呈负相关，第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离。将构建的三元组图像作为训练数据输入神经网络，通过模型不断迭代，通过随机梯度下降算法来优化调整神经网络的参数配置，能够拉近正样本图像与训练图像的距离，拉远负样本图像与训练图像的距离。

在一些实施例中，该距离为余弦距离。通常来讲，欧氏距离体现个体特征的绝对差异，与各个点所在的位置坐标直接相关。但是，这并不符合生物个体面部特征空间的分布属性。余弦距离用向量空间中两个向量夹角的余弦值衡量个体间的差异，从而衡量维度间取值方向的一致性，更加注重两个特征向量在方向上的差异，而非长度上的差异。例如，一个大的照片和一个小的照片虽然照片的内容相同，二者特征向量间的欧式距离较大，而余弦距离较小。考虑到面部特征空间的分布属性和实际应用场景，采用余弦距离来度量特征向量在方向上的差异，能够提高神经网络的鲁棒性。

更进一步，可以考虑采用与训练图片最不像的(即特征向量间的余弦距离最大)的同一类图片(标签相同)为正样本图片。例如正样本图片中的牛与训练图片中的牛属于同一类牛，但二者非常不相近。采用与训练图片最像(即特征向量间的余弦距离最小)的不同类图片(标签不同)为负样本图片。例如负样本图片中的牛与训练图片中的牛属于不同类牛，但二者非常相近。

在一些实施例中，神经网络的损失函数L为：

表示第i个三元组中的训练图像，

表示第i个三元组中的负样本图像，

在步骤S105中，利用神经网络对目标的图像进行处理，以确定目标的类别。

例如，将待分类的目标个体的经过预处理的图像输入神经网络，经过神经网络的前向传播，神经网络的分类层输出多维向量。其中，多维向量中的元素表示目标属于各个类别的概率，多维向量的维度表示各个类别的总数。根据该多维向量，可以确定目标所属的类别(即目标的图像对应的标签)，从而实现目标的身份确认。

本实施例为神经网络构造了新的损失函数，使得神经网络具有更好泛化性，能够更加准确的对目标进行识别和分类，节省系统计算资源并提高系统计算效率。

本领域技术人员应理解，本实施例尤其适用于生物的面部识别，能够有效地对生物面部图像进行分类和识别，从而实现细粒度的身份识别。如果将同一个生物个体作为一类，将不同生物个体作为不同类，本实施例能够实现生物个体的唯一身份的准确认证，避免人为识别的主观性。因此，本实施例可以应用的场景包括：智慧农业中个体的识别场景，例如猪、牛、羊等个体智能化监管，通过非接触化识别提高识别效率，减少传统耳标、项圈等对个体健康的影响；智慧城市中重点人群监管和安防布控；电信业务中VIP客户甄别并定制化服务。在实际个体智能化监管场景中更具有鲁棒性。

下面结合图2描述本公开目标分类方法的另一些实施例。

图2示出了本公开另一些实施例的目标分类方法的流程示意图。如图2所示，在图1对应的实施例中的步骤S101之前，本实施例还包括步骤S2001～步骤S2002。

在步骤S2001中，采用标注了标签的训练图片集对InceptionV3神经网络进行训练。

在步骤S2002中，将InceptionV3神经网络中第三个Inception模块组之后的神经层，替换为由全局平均池化层、全连接层、分类层组成的神经层，以生成前述神经网络。

第三个Inception模块组之前的神经层包括输入层、卷基层、最大池化层、第一个Inception模块组、第二个Inception模块组、第三个Inception模块组。前述神经网络的全局平均池化层输出的特征向量维数为1*1*1024，位于全局平均池化层之后的全连接层能够输出1024维的特征向量。将该1024维的特征向量输入前述的损失函数，可以对神经网络的参数进行调整。

本实施例描述了迁移学习过程和神经网络构造过程。在迁移学习过程中，利用开源大规模数据初期训练的模型参数初始化InceptionV3神经网络，从而实现了新构造的神经网络的初始化。初始化完成之后，执行前述步骤S101～S104对新构造的神经网络进行二次训练时，新构造的神经网络的收敛速度会加快。同时，迁移学习能够减少二次训练过程中数据量过小带来的负面影响。此外，本实施例新构造了神经网络，新构建的神经网络适应于前述的损失函数，能够使相同类别的图像间的距离变大，使不同类别的图像间的距离变小，从而使相同类别图像的特征向量更加聚集，不同类别图像的特征向量更加分散。

下面结合图3描述本公开目标分类装置的一些实施例。

图3示出了本公开一些实施例的目标分类装置的结构示意图。如图3所示，本实施例中的目标分类装置30包括：

图像输入模块301，被配置为：将训练图像输入神经网络，得到训练图像的特征向量；将与训练图像具有相同标签的正样本图像输入神经网络，得到正样本图像的特征向量；将与训练图像具有不同标签的负样本图像输入神经网络，得到负样本图像的特征向量；网络调整模块302，被配置为调整神经网络的参数以减小神经网络的损失函数值；损失函数值与第一距离呈正相关且与第二距离呈负相关，第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离；目标分类模块303，被配置为利用神经网络对目标的图像进行处理，以确定目标的类别。

在一些实施例中，距离为余弦距离。

在一些实施例中，神经网络的损失函数L为：

表示第i个三元组中的训练图像，

表示第i个三元组中的负样本图像，

在一些实施例中，目标分类装置30还包括网络生成模块300，被配置为：将InceptionV3神经网络中第三个Inception模块组之后的神经层，替换为由全局平均池化层、全连接层、分类层组成的神经层，以生成神经网络。

在一些实施例中，目标分类模块303被配置为：将目标图像输入神经网络，以使得分类层输出多维向量；多维向量中的元素表示目标属于各个类别的概率，多维向量的维度表示各个类别的总数；根据多维向量，确定目标所属的类别。

在一些实施例中，网络生成模块300还被配置为：在对InceptionV3神经网络中第三个Inception模块组之后的神经层进行替换之前，采用标注了标签的训练图片集对InceptionV3神经网络进行训练。

本实施例新构造了神经网络，并实现了新构造的神经网络的初始化，加快了新构造的神经网络的收敛速度，减少了二次训练过程中数据量过小带来的负面影响。此外，本实施例新构建的神经网络适应于前述的损失函数，能够使相同类别的图像间的距离变大，使不同类别的图像间的距离变小，从而使相同类别图像的特征向量更加聚集，不同类别图像的特征向量更加分散。

下面结合图4描述本公开目标分类装置的另一些实施例。

图4示出了本公开另一些实施例的目标分类装置的结构示意图。如图4所示，该实施例的目标分类装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行前述任意一些实施例中的目标分类方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

目标分类装置40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430、440、450以及存储器410和处理器420之间例如可以通过总线460连接。其中，输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口450为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的目标分类方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种目标分类方法，包括：

将训练图像输入神经网络，得到训练图像的特征向量；将与训练图像具有相同标签的正样本图像输入所述神经网络，得到正样本图像的特征向量；将与训练图像具有不同标签的负样本图像输入所述神经网络，得到负样本图像的特征向量；

调整所述神经网络的参数以减小所述神经网络的损失函数值；所述损失函数值与第一距离呈正相关且与第二距离呈负相关，所述第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，所述第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离；

利用所述神经网络对目标的图像进行处理，以确定目标的类别。

2.如权利要求1所述的目标分类方法，其中，所述距离为余弦距离。

3.如权利要求2所述的目标分类方法，其中，所述神经网络的损失函数L为：

表示第i个三元组中的训练图像，

表示第i个三元组中的负样本图像，

4.如权利要求1所述的目标分类方法，还包括：

将InceptionV3神经网络中第三个Inception模块组之后的神经层，替换为由全局平均池化层、全连接层、分类层组成的神经层，以生成所述神经网络。

5.如权利要求4所述的目标分类方法，其中，所述利用所述神经网络对目标的图像进行处理，以确定目标的类别包括：

将目标的图像输入所述神经网络，以使得所述分类层输出多维向量；所述多维向量中的元素表示目标属于各个类别的概率，所述多维向量的维度表示各个类别的总数；

根据所述多维向量，确定目标所属的类别。

6.如权利要求4所述的目标分类方法，还包括：

在对InceptionV3神经网络中第三个Inception模块组之后的神经层进行替换之前，采用标注了标签的训练图片集对InceptionV3神经网络进行训练。

7.一种目标分类装置，包括：

图像输入模块，被配置为：将训练图像输入神经网络，得到训练图像的特征向量；将与训练图像具有相同标签的正样本图像输入所述神经网络，得到正样本图像的特征向量；将与训练图像具有不同标签的负样本图像输入所述神经网络，得到负样本图像的特征向量；

网络调整模块，被配置为调整所述神经网络的参数以减小所述神经网络的损失函数值；所述损失函数值与第一距离呈正相关且与第二距离呈负相关，所述第一距离为负样本图像的特征向量与训练图像的特征向量之间的距离，所述第二距离为正样本图像的特征向量与训练图像的特征向量之间的距离；

目标分类模块，被配置为利用所述神经网络对目标的图像进行处理，以确定目标的类别。

8.如权利要求7所述的目标分类装置，其中，所述距离为余弦距离。

9.如权利要求8所述的目标分类装置，其中，所述神经网络的损失函数L为：

表示第i个三元组中的训练图像，

表示第i个三元组中的负样本图像，

10.如权利要求7所述的目标分类装置，还包括网络生成模块，被配置为：

11.如权利要求10所述的目标分类装置，其中，所述目标分类模块被配置为：

将目标图像输入所述神经网络，以使得所述分类层输出多维向量；所述多维向量中的元素表示目标属于各个类别的概率，所述多维向量的维度表示各个类别的总数；

根据所述多维向量，确定目标所属的类别。

12.如权利要求10所述的目标分类装置，其中，所述网络生成模块还被配置为：

13.一种目标分类装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的目标分类方法。

14.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至6中任一项所述的目标分类方法。