CN113449751A

CN113449751A - 基于对称性和群论的物体-属性组合图像识别方法

Info

Publication number: CN113449751A
Application number: CN202010221613.3A
Authority: CN
Inventors: 李永露; 许越; 卢策吾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2021-09-28
Anticipated expiration: 2040-03-26
Also published as: CN113449751B

Abstract

一种基于对称性和群论的物体‑属性组合图像识别方法，以包含属性标注的数据集作为训练样本对包括特征提取器、耦合网络和解耦网络的神经网络进行训练；然后采用特征提取器提取待测图像的特征向量与待判断属性一同输入耦合网络和解耦网络，分别得到两个对应转换后的特征向量，通过在高维特征空间判断耦合网络转换前后特征向量的距离确定待测图像是否包含待判断属性；最后将待判断属性的检测结果与神经网络的物体检测输出结合得到识别结果。本发明能够并行计算，计算速度较快，有很好的高效性、即时性、鲁棒性。

Description

基于对称性和群论的物体-属性组合图像识别方法

技术领域

本发明涉及的是一种图像识别和人工智能领域的技术，具体是一种基于对称性和群论的物体-属性组合图像识别方法。

背景技术

属性识别的目标是检测出物体视觉上的语义特征，包含了物体的颜色、形状、材质、组成部分等细粒度的信息；而组合零样本学习的目标是在候选物体和属性类别均有测试样本的情况下，对于零样本的物体-属性组合(存在训练中未出现的组合时)进行识别，是迁移学习的一个方向。物体与属性检测两者均是物体感知的不可缺少的一部分，可以广泛地应用到动作识别和检测、图像描述、视觉问答、行人重识等任务中，是未来通用人工智能、机器人必不可少的能力。但是，目前关于视觉属性的研究大多关注在如何使用属性，而忽视了属性识别任务本身。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于对称性和群论的物体-属性组合图像识别方法，采用一对结构相同功能互逆的神经网络进行训练，并通过比较两个网络对图像特征的影响程度来预测图像属性，识别性能非常理想，且是端对端模型，可以并行计算，计算速度较快，有很好的高效性、即时性、鲁棒性。

本发明是通过以下技术方案实现的：

本发明涉及一种基于对称性和群论的物体-属性组合图像识别方法，以包含属性标注的数据集作为训练样本对包括特征提取器、耦合网络和解耦网络的神经网络进行训练；然后采用特征提取器提取待测图像的特征向量与待判断属性一同输入耦合网络和解耦网络，分别得到两个对应转换后的特征向量，通过在高维特征空间判断耦合网络转换前后特征向量的距离确定待测图像是否包含待判断属性；最后将待判断属性的检测结果与神经网络的物体检测输出结合得到识别结果。

所述的高维特征空间判断是指：计算耦合网络转换前后特征向量的欧式距离，当欧式距离大于耦合网络输出特征向量与原特征向量的距离，则待测图像包含待判断属性。

所述的特征提取器采用ImageNet数据集预训练的残差卷积神经网络，用于从图像中提取特征向量；用于给物体特征添加属性的耦合网络和用于从物体特征中去除属性的解耦网络分别为一对功能互逆的神经网络。

所述的特征向量为：512维浮点类型向量。

所述的耦合网络和解耦网络结构相同，均包括：两层768维接收输入属性词向量的全连接层、sigmoid激活层、两层768维输出特征向量的全连接层以及设置于每两个全连接之间的批归一化层和ReLU非线性激活层，其中：两层768维全连接层将输入的属性词向量转换为注意力向量，与输入特征向量相乘，再与原特征向量相加，随后与属性词向量拼接。

所述的对神经网络进行训练，即将训练样本输入特征提取器，用耦合网络和解耦网络对特征提取器提取的特征向量进行损失函数的计算，并加权求和得到总损失，然后用梯度优化方法反向传播，迭代更新耦合网络和解耦网络的权重。

所述的损失函数包括：对称性损失、基于群论的损失函数、分类损失和三元组损失，其中：对称性损失来自属性的对称性，即包含某一属性的物体再添加该属性应保持不变，而不包含某一属性的物体再去除该属性也应保持不变；基于群论的损失函数函数由封闭性、逆元和结合性三个代数中群的公理导出；分类损失来自于变换前后物体种类保持不变而属性种类发生的变化；三元组损失用来衡量在施加耦合和解耦操作后，物体特征在高维空间移动是否符合对称性规定的相对距离大小关系。

所述的加权求和的权值，优选针对不同的数据集，使用交叉验证获得合适的子损失函数权重。

所述的对神经网络进行训练，优选先用高斯分布采样对耦合网络和解耦网络的参数进行初始化，具体为：全联接层的权重系数初始值用均值0、标准差0.01的高斯分布随机采样得到，偏置系数初始化为0。

本发明涉及一种实现上述方法的识别系统，包括：图片特征提取单元、耦合网络单元、解耦网络单元以及属性预测单元，其中：图片特征提取单元接受固定大小RGB图片，输出特征向量；特征提取单元与耦合网络、解耦网络单元均相连并传输提取得到的图片特征向量；图片特征提取器、耦合网络和解耦网络的输出、待预测的属性均与属性预测单元相连；属性预测单元接受图片特征、耦合后的图片特征和解耦后的图片特征，计算得到属性的预测值。

技术效果

本发明整体解决了现有技术在训练过程中一些属性-物体组合没有训练样本，而实际运用中经常出现未知的组合时，识别准确率较低的问题。

与现有技术相比，本发明独有的技术效果包括：(1)识别准确率高于现有方法(2)利用耦合网络和解耦网络输出向量的距离来判断属性的有无，相比现有方法更鲁棒(3)具有扩展性，可以对训练集不包含的属性进行识别(4)训练得到的耦合网络和解耦网络可以对图片特征进行操作，操作后的特征可应用于图像检索、图像生成等任务。

附图说明

图1为本发明流程图；

图2为本发明系统示意图；

图3为本发明效果示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于对称性和群论的物体-属性组合图像识别方法，包括以下步骤:

步骤1，图像预处理

步骤1-1，使用公开的、同时带有物体和属性标注的图像数据集，将训练集图像样本首先拉伸为256×256像素大小，以50％的概率随机左右翻转，然后随机选取裁剪224×224大小；

步骤1-2，选取预训练的18层残差卷积神经网络作为参数固定的特征提取器，提取512维特征向量。

本实施例中对特征向量额外做了一次可训练的线性变换，将维度提高到768维；

步骤2，构造一对结构相同但互相独立的耦合网络和解耦网络，但由不同的损失函数在训练时候进行约束，通过训练后的不同权重，由耦合网络实现给图像特征添加属性、解耦网络删除属性的功能：两种网络都接受图像特征和属性的词向量作为输入，输出添加或去除该属性的图像特征；

本实施例中采用的耦合网络和解耦网络结构相同，均包括：两层768维接收输入属性词向量的全连接层、sigmoid激活层、两层768维输出特征向量的全连接层以及设置于每两个全连接之间的批归一化层和ReLU非线性激活层，其中：两层768维全连接层将输入的属性词向量转换为注意力向量，与输入特征向量相乘，再与原特征向量相加，随后与属性词向量拼接。

步骤3，分别为物体分类和属性分类构造单层全连接网络的线性分类器，其输入为图像特征向量，输出每一类的概率，用于约束特征提取器；

步骤4，用均值为0，标准差为0.01的高斯分布采样对网络的参数进行初始化；

步骤5，用训练集训练网络：

步骤5-1，将训练图像的特征向量和对应的物体、属性标注按512的批大小输入网络，按照规则计算对应的损失函数，其中损失函数包括：

a)对称性损失，具体为：包含某属性的图像特征经耦合网络转换后与原特征的欧式距离，以及不包含某属性的图像特征经解耦网络转换后与原特征的欧式距离，即：

其中：

表示包含物体o，属性i的图像特征向量，T₊(aⁱ)指属性i的耦合网络，T_-(a^j)属性j的解耦网络；

b)基于群论的损失函数，包括封闭性损失、逆元损失和交换律损失，其中：

封闭性损失用于评价包含某属性的图像特征连续经过耦合网络和解耦网络转换后，与单独经过解耦网络后特征相近；不包含某属性的图像特征连续经过解耦网络和耦合网络转换后，与单独经过解耦网络后特征相近，即：

其中：

表示包含物体o，属性i的图像特征向量，T₊(aⁱ)指属性i的耦合网络，T_-(aⁱ)指属性i的解耦网络，·是对特征向量进行耦合或解耦操作的算子，|| ||₂表示欧式距离；

逆元损失用于评价包含某属性的图像特征连续经过解耦网络和耦合网络转换后，与原特征相近；不包含某属性的图像特征连续经过耦合网络和解耦网络转换后，与原特征相近，即：

其中：

表示包含物体o，属性i的图像特征向量，T₊(aⁱ)指属性i的耦合网络，T_-(aⁱ)指属性i的解耦网络，T_e表示恒等变换(不对属性进行操作)，·是对特征向量进行耦合或解耦操作的算子，||||₂表示欧式距离；

交换律损失用于评价包含属性i的图像特征，依次经过属性i的耦合网络和属性j的解耦网络，与先属性j的解耦网络再经过属性i的耦合网络，转换后的特征相近，即：

其中：

c)分类损失是指：对原图像特征和耦合网络、解耦网络转换后的图像特征，用单层全连接的线性分类网络得到物体、属性预测值，并与真实的物体、属性标注计算交叉熵损失；

d)三元组损失是指：原特征向量、耦合网络转换后的特征向量、解耦网络转换后的特征向量三者构成的三元组损失，即：

其中：

指耦合网络转换后特征移动的距离，

指解耦网络转换后特征移动的距离；α是三元组边距，设定为0.5，[·]₊是ReLU激活函数；

和

分别指图像包含的所有属性集合和不包含的所有属性集合。

在本实施例中，使用交叉验证自动获得合适的子损失函数权重，得到属性对称性、群论公理、分类损失和三元组损失对应的权重分别为0.01、0.01、0.03、0.03。

步骤5-2，用梯度反向传播算法对神经网络参数进行迭代优化，在本实施例中学习率设定为0.0003，将整个训练集迭代135次；

步骤6，属性识别和组合零样本识别：

步骤6-1，将待检测的图像样本拉伸为固定的224×224大小，并用相同的预训练特征提取器提取512维特征向量，并用训练好的线型网络升维到768维；

步骤6-2，将图像特征向量输入耦合网络和解耦网络，对于每一个属性，都计算耦合网络和解耦网络转换后的向量与原始特征向量的欧式距离d₊,d_-，将解耦网络和耦合网络移动距离的距离之差输入sigmoid函数，得到包含该属性的概率p＝Sigmoid(d_--d₊)；

步骤6-3，将图像的属性概率与线性分类器输出的物体概率相乘，得到组合的概率，即作为组合零样本识别的预测输出；经测试，本方法在常见的鞋类物体属性数据集(UT-Zappos50k)上，物体-属性组合识别准确率超过52％。

经过具体实际实验：在常见的公开数据集UT-Zappos上，用ImageNet预训练ResNet-18作为特征提取器，用随机梯度下降作为优化算法的设置下，以属性对称性、群论公理、分类损失和三元组损失对应的权重分别为0.01、0.01、0.03、0.03，学习率设定为0.0003，迭代次数135启动以上方法，模型测试结果如下表所示：本发明属性识别准确率提高25％以上，在常见的鞋类物体属性数据集(UT-Zappos50k)上，提高8％的属性检测准确率，提高3％的组合零样本识别准确率，物体-属性组合识别准确率超过52％。本系统通过属性种类、物体种类和注意力机制可以进一步用于日常物体或商品属性检测与分类，在目前公开的最大物体属性识别数据集MIT-State上，本系统的属性-物体识别精度达到34.1％。

综上所述，本发明是目前精确度最高的模型，识别性能非常理想；且是端对端模型，可以并行计算，计算速度较快，有很好的高效、即时性。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于对称性和群论的物体-属性组合图像识别方法，其特征在于，以包含属性标注的数据集作为训练样本对包括特征提取器、耦合网络和解耦网络的神经网络进行训练；然后采用特征提取器提取待测图像的特征向量与待判断属性一同输入耦合网络和解耦网络，分别得到两个对应转换后的特征向量，通过在高维特征空间判断耦合网络转换前后特征向量的距离确定待测图像是否包含待判断属性；最后将待判断属性的检测结果与神经网络的物体检测输出结合得到识别结果。

2.根据权利要求1所述的图像识别方法，其特征是，所述的高维特征空间判断是指：计算耦合网络转换前后特征向量的欧式距离，当欧式距离大于耦合网络输出特征向量与原特征向量的距离，则待测图像包含待判断属性。

3.根据权利要求1所述的图像识别方法，其特征是，所述的特征提取器采用ImageNet数据集预训练的残差卷积神经网络，用于从图像中提取特征向量；用于给物体特征添加属性的耦合网络和用于从物体特征中去除属性的解耦网络分别为一对功能互逆的神经网络。

4.根据权利要求1所述的图像识别方法，其特征是，所述的耦合网络和解耦网络结构相同，均包括：两层768维接收输入属性词向量的全连接层、sigmoid激活层、两层768维输出特征向量的全连接层以及设置于每两个全连接之间的批归一化层和ReLU非线性激活层，其中：两层768维全连接层将输入的属性词向量转换为注意力向量，与输入特征向量相乘，再与原特征向量相加，随后与属性词向量拼接。

5.根据权利要求1所述的图像识别方法，其特征是，所述的对神经网络进行训练，即将训练样本输入特征提取器，用耦合网络和解耦网络对特征提取器提取的特征向量进行损失函数的计算，并加权求和得到总损失，然后用梯度优化方法反向传播，迭代更新耦合网络和解耦网络的权重。

6.根据权利要求1所述的图像识别方法，其特征是，所述的损失函数包括：对称性损失、基于群论的损失函数、分类损失和三元组损失，其中：对称性损失来自属性的对称性，即包含某一属性的物体再添加该属性应保持不变，而不包含某一属性的物体再去除该属性也应保持不变；基于群论的损失函数函数由封闭性、逆元和结合性三个代数中群的公理导出；分类损失来自于变换前后物体种类保持不变而属性种类发生的变化；三元组损失用来衡量在施加耦合和解耦操作后，物体特征在高维空间移动是否符合对称性规定的相对距离大小关系。

7.根据权利要求1所述的图像识别方法，其特征是，所述的加权求和的权值，针对不同的数据集，使用交叉验证获得合适的子损失函数权重。

8.根据权利要求1所述的图像识别方法，其特征是，所述的对神经网络进行训练，先用高斯分布采样对耦合网络和解耦网络的参数进行初始化，具体为：全联接层的权重系数初始值用均值0、标准差0.01的高斯分布随机采样得到，偏置系数初始化为0。

9.根据权利要求6所述的图像识别方法，其特征是，所述的对称性损失，具体为：包含某属性的图像特征经耦合网络转换后与原特征的欧式距离，以及不包含某属性的图像特征经解耦网络转换后与原特征的欧式距离，即：

其中：

表示包含物体o，属性i的图像特征向量，T₊(aⁱ)指属性i的耦合网络，T_-(a^j)属性j的解耦网络。

10.根据权利要求6所述的图像识别方法，其特征是，所述的基于群论的损失函数，包括封闭性损失、逆元损失和交换律损失，其中：

其中：

表示包含物体o，属性i的图像特征向量，T₊(aⁱ)指属性i的耦合网络，T_-(aⁱ)指属性i的解耦网络，·是对特征向量进行耦合或解耦操作的算子，||||₂表示欧式距离；

其中：T_e表示恒等变换，即不对属性进行操作；

11.根据权利要求6所述的图像识别方法，其特征是，所述的分类损失是指：对原图像特征和耦合网络、解耦网络转换后的图像特征，用单层全连接的线性分类网络得到物体、属性预测值，并与真实的物体、属性标注计算交叉熵损失。

12.根据权利要求6所述的图像识别方法，其特征是，所述的三元组损失是指：原特征向量、耦合网络转换后的特征向量、解耦网络转换后的特征向量三者构成的三元组损失，即：

其中：

指耦合网络转换后特征移动的距离，

和

分别指图像包含的所有属性集合和不包含的所有属性集合。

13.一种实现权利要求1～12中任一所述方法的识别系统，其特征在于，包括：图片特征提取单元、耦合网络单元、解耦网络单元以及属性预测单元，其中：图片特征提取单元接受固定大小RGB图片，输出特征向量；特征提取单元与耦合网络、解耦网络单元均相连并传输提取得到的图片特征向量；图片特征提取器、耦合网络和解耦网络的输出、待预测的属性均与属性预测单元相连；属性预测单元接受图片特征、耦合后的图片特征和解耦后的图片特征，计算得到属性的预测值。