CN111144498A

CN111144498A - 一种图像识别方法及装置

Info

Publication number: CN111144498A
Application number: CN201911387352.6A
Authority: CN
Inventors: 黄泽元; 姚瑶
Original assignee: Shenzhen Jizhi Digital Technology Co Ltd
Current assignee: Shenzhen Jizhi Digital Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12
Anticipated expiration: 2039-12-26
Also published as: CN111144498B

Abstract

本申请实施例公开了一种图像识别方法及装置，在将待识别图像输入训练完成的神经网络，可以得到神经网络的输出结果，根据输出结果可以确定待识别图像的当前状态，其中神经网络基于训练图像和训练图像的状态标签训练得到，训练图像可以包括融合图像，融合图像可以基于多个原始图像融合得到，融合图像的状态标签可以由融合得到融合图像的多个原始图像的状态标签融合得到，融合图像的状态标签可以包括多个状态的概率值，即使待识别图像为两个状态的中间状态时，神经网络也能够分别对这两个状态的特征进行分析，得到最终的输出结果，因此提高了图像识别的准确性。

Description

一种图像识别方法及装置

技术领域

本发明涉及计算机领域，特别是涉及一种图像识别方法及装置。

背景技术

目前，可以通过对图像进行识别得到图像中的特征，进而得到图像拍摄时期实际存在的场景的特征。在一些情况下，实际存在的场景可能随着时间的变化而有所改变，这样场景中的特征也随着时间的改变有着渐变的特征，在一个图像中可能同时存在多个相邻状态的特征，这无疑对图像状态的识别的准确性造成一定的影响。

举例来说，在建筑工地中铝膜式建筑通常需要五道工序：水平钢筋绑扎阶段、混凝土浇筑阶段、墙柱竖向钢筋绑扎阶段、竖向模板安装阶段、水平模板梁板安装阶段，通过对建筑工地进行拍摄，以及对拍摄得到的图像进行识别，可以判断出当前建筑工地所处的阶段。然而，各个阶段之间存在过渡阶段，此时拍摄得到的图像具有至少两个阶段的特征，无法准确得到当前的状态。

对于这种同时存在至少两个相邻状态的特征的图像，如何进行图像识别是一个重要的问题。

发明内容

为解决上述技术问题，本申请实施例提供一种图像识别方法及装置，提高图像识别的准确性。

本申请实施例提供了一种图像识别方法，包括：

将待识别图像输入训练完成的神经网络，得到所述神经网络的输出结果；所述神经网络基于训练图像和所述训练图像的状态标签训练得到，所述训练图像包括融合图像，所述融合图像基于多个原始图像融合得到，所述融合图像的状态标签由所述多个原始图像的状态标签融合得到，所述融合图像的状态标签包括多个状态的概率值；

根据所述输出结果确定所述待识别图像的当前状态。

可选的，所述多个原始图像具有对应相邻状态的状态标签。

可选的，所述训练图像还包括所述重置图像，所述重置图像为所述原始图像，所述重置图像的状态标签包括所述原始图像的状态对应的第一预设概率，以及所述原始图像的状态的相邻状态对应的第二预设概率。

可选的，所述第一预设概率大于或等于0.7，所述第二预设概率小于或等于0.3。

可选的，所述训练图像还包括原始图像和所述原始图像的增强图像，所述增强图像通过对所述原始图像进行以下至少一项处理后得到：翻转、旋转、随机擦拭、弹性扭曲、错切变换、随机亮度、随机对比度、直方图均衡、沿预设角度倾斜、添加高斯噪声。

可选的，所述神经网络通过以下方式训练得到：

将所述训练图像输入神经网络，得到所述神经网络输出的训练结果；

根据所述训练结果和所述训练图像的状态标签得到所述神经网络的损失函数；

调整所述神经网络的参数以最小化所述损失函数。

可选的，所述根据所述输出结果确定所述待识别图像的当前状态，包括：

若所述输出结果中存在目标状态的概率大于或等于概率阈值，则确定所述待识别图像的当前状态为目标状态。

可选的，所述待识别图像为对目标对象进行拍摄得到的，所述方法包括：

确定预设时间段内预设个所述待识别图像的当前状态为目标状态；预设个所述待识别图像的拍摄时间点为顺序相邻的时间点；

确定所述预设时间段内，所述目标对象的状态为目标状态。

本申请实施例提供了一种图像识别装置，包括：

输出结果获取单元，用于将待识别图像输入训练完成的神经网络，得到所述神经网络的输出结果；所述神经网络基于训练图像和所述训练图像的状态标签训练得到，所述训练图像包括融合图像，所述融合图像基于多个原始图像融合得到，所述融合图像的状态标签由所述多个原始图像的状态标签融合得到，所述融合图像的状态标签包括多个状态的概率值；

状态确定单元，用于根据所述输出结果确定所述待识别图像的当前状态。

可选的，所述多个原始图像具有对应相邻状态的状态标签。

可选的，所述装置还包括：

训练结果获取单元，用于将所述训练图像输入神经网络，得到所述神经网络输出的训练结果；

损失函数确定单元，用于根据所述训练结果和所述训练图像的状态标签得到所述神经网络的损失函数；

参数调整单元，用于调整所述神经网络的参数以最小化所述损失函数。

可选的，所述状态确定单元具体用于：

确定所述预设时间段内，所述目标对象的状态为目标状态。

本申请实施例提供了一种图像识别方法及装置，在将待识别图像输入训练完成的神经网络，可以得到神经网络的输出结果，根据输出结果可以确定待识别图像的当前状态，其中神经网络基于训练图像和训练图像的状态标签训练得到，训练图像可以包括融合图像，融合图像可以基于多个原始图像融合得到，融合图像的状态标签可以由融合得到融合图像的多个原始图像的状态标签融合得到，融合图像的状态标签可以包括多个状态的概率值。也就是说，训练图像中可以包括处于中间状态的融合图像，而这些融合图像可以包括至少两个状态的特征，而融合图像的状态标签也可以是至少两个状态的标签融合后的标签，因此神经网络可以根据融合图像的特征以及状态标签，学习得到识别多个状态标签对应的特征，而融合图像包括两个状态的特征，因此即使待识别图像为两个状态的中间状态时，神经网络也能够分别对这两个状态的特征进行分析，得到最终的输出结果，因此提高了图像识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的流程图；

图2为本申请实施例提供的一种图像识别装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图，通过实施例来详细说明本申请实施例提供的一种图像识别方法及装置的具体实现方式。

参考图1所示为本申请实施例提供的一种图像识别方法的流程图，可以包括以下步骤。

S101，将待识别图像输入训练完成的神经网络，得到神经网络的输出结果。

S102，根据输出结果确定待识别图像的当前状态。

本申请实施例中，待识别图像可以是有图像识别需求的图像，通常具有一定的图像特征，这些图像特征可以表征待识别图像的状态。例如对于建筑工地中铝膜式建筑而言，可以对建筑工地进行拍摄得到待识别图像，通过识别待识别图像中管道、水泥、钢筋、模板、横梁的数量和面积等特征，确定当前建筑工地所处的阶段，即待识别图像的当前状态。

具体的，在待识别图像中水平模板完成铺设、且出现白色管道时，可以认为待识别图像的当前状态为“水平钢筋绑扎”阶段；在待识别图像中钢筋面上开始出现水泥、水泥面积占比超过20％时，可以认为待识别图像的当前状态为“混凝土浇筑”阶段；在待识别图像中水泥地上开始出现杂乱，竖向钢筋开始绑扎时，可以认为待识别图像的当前状态为“墙柱竖向钢筋绑扎”阶段；在待识别图像中的竖向模板开始安装并大于4个时，可以认为待识别图像的当前状态为“竖向模板安装”阶段；在待识别图像中存在水平模板横梁，可以认为待识别图像的当前状态为“水平模板梁板安装”阶段。

同样，对于训练图像而言也是如此，因此可以预先为处于“水平钢筋绑扎”阶段的训练图像添加状态标签a，为处于“混凝土浇筑”阶段的训练图像添加状态标签b，为“墙柱竖向钢筋绑扎”阶段的训练图像添加状态标签c，为处于“竖向模板安装”阶段的训练图像添加状态标签d，为处于“水平模板梁板安装”阶段的训练图像添加状态标签e。这样利用具有状态标签的训练图像进行训练，可以得到具有状态识别功能的神经网络。

然而，待识别图像中可能不止存在一个状态对应的特征，例如待识别图像中可以在钢筋面上出现水泥的同时，还存在竖向钢筋，也就是说，待识别图像可能处于“混凝土浇筑”阶段，也可能处于“墙柱竖向钢筋绑扎”阶段。

同样，对于训练图像来说也是如此，训练图像中可能不止存在一个状态对应的特征，然而即使在训练图像中存在不止一个状态对应的特征，训练图像也只具有一个状态标签，指示训练图像所属的状态。例如训练图像中可以在钢筋面上出现水泥的同时还存在竖向钢筋，此时可以根据水泥的面积占比以及竖向钢筋的状态，为训练图像确定状态标签c，而实际上，该图像中又具有状态标签b对应的特征，这样在利用该训练图像和状态标签c进行神经网络的训练时，会错误的建立状态标签b对应的特征与状态标签c之间的关联，导致该神经网络对待识别图像的识别准确性不高。

基于此，本申请实施例中，可以基于训练图像和训练图像的状态标签训练得到神经网络，其中，训练图像可以包括融合图像，融合图像可以基于多个原始图像融合得到，融合图像的状态标签可以包括多个状态的概率值。具体的，多个状态的概率值可以由向量表示，例如融合图像的状态标签为[0,0.3,0.7,0,0]时，可以表示融合图像的状态为“混凝土浇筑”阶段的概率为0.3，融合图像的状态为“墙柱竖向钢筋绑扎”阶段的概率为0.7，为其他状态的概率为0。

具体的，能够融合得到的融合图像的多个原始图像可以是随机选取的多个原始图像，可以是具有相同状态标签的多个原始图像，也可以是具有不同状态标签的多个原始图像，具体的，具有不同状态标签的原始图像可以是具有对应随机的多个状态的状态标签的原始图像，也可以是是具有对应相邻状态的状态标签的原始图像。需要说明的是，在本申请实施例中，原始图像的状态标签为现有技术中的标签，例如状态标签a、b等。

融合图像可以是多个原始图像按照一定的比例融合得到，融合比例可以是预设比例，例如将相邻2个状态的2个原始图像融合的比例可以是3:7，融合的方式可以是将这2个原始图像的像素点的像素值对应加权相加，权重分别为0.3和0.7。

由于融合图像基于多个原始图像融合得到，则融合图像的状态标签也可以基于这多个原始图像的状态标签得到，例如融合图像基于一个状态标签为b的原始图像和一个状态标签为c的原始图像融合得到，而融合的比例为3:7，则融合图像处于“混凝土浇筑”阶段的概率可以为0.3，处于“墙柱竖向钢筋绑扎”阶段的概率为0.7，这样融合图像的状态标签[0,0.3,0.7,0,0]。

具体实施时，可以随机选取两张相邻状态的原始图像融合得到融合图像，以及融合图像的状态标签。

这样，将训练图像输入神经网络，可以得到神经网络输出的训练结果，其中，神经网络可以为以残差网络(Residual Network，ResNet)为基础架构的深度神经网络。

在对神经网络进行训练的过程中，神经网络输出的训练结果是神经网络对训练图像的图像特征进行处理得到的，得到的训练结果受到神经网络的参数的影响，因此可以比较神经网络的训练结果与训练图像的状态标签得到神经网络的损失函数，多次调整神经网络的参数以最小化损失函数，从而实现对神经网络的多轮训练。

由于融合图像是由多个原始图像融合得到的，融合图像作为训练图像可以提供与状态对应的图像特征，而融合图像的状态标签是由多个原始图像的状态标签融合而成的，可以包括多个状态对应的概率，因此，融合图像和融合图像的状态标签可以体现多个状态和多个概率的对应关系，相比于现有技术中仅为原始图像设置单一状态的标签，本申请实施例中这种对应关系更为准确，因此训练得到的神经网络也具有更好的图像识别能力。

在本申请实施例中，训练图像还可以包括重置图像，重置图像可以为原始图像，而重置图像的状态标签不再是原始图像的仅表征原始图像所属的单一状态的标签，而是包括原始图像所属的状态对应的第一预设概率，以及原始图像所属的状态的相邻状态对应的第二预设概率。其中，第一预设概率可以大于或等于0.7，第二预设概率可以小于或等于0.3。

具体的，在原始图像所属的状态具有一个相邻状态时，该相邻状态对应的概率可以为第二预设概率，此时第一预设概率和第二预设概率的和为1；在原始图像所属的状态具有2个相邻状态时，这两个相邻状态对应的概率可以分别为第二预设概率和第三预设概率，第二预设概率和第三预设概率可以相同也可以不同，此时第一预设概率、第二预设概率和第三预设概率的和为1。

举例来说，原始图像的状态标签为c，说明原始图像属于“墙柱竖向钢筋绑扎”阶段，则重置图像为原始图像本身，而重置图像的状态标签通过多个状态对应的多个概率表示，具体的，“墙柱竖向钢筋绑扎”阶段的状态对应的概率可以较大，例如为0.97，而“墙柱竖向钢筋绑扎”阶段之前和之后的阶段的状态对应的概率可以较小，例如均为0.015，即重置图像的状态标签为[0,0,0.015,0.97,0.015]。

这样，在将重置图像作为训练图像时，重置图像可以提供多个状态对应的图像特征，而重置图像的状态标签是经过重置的，包括多个状态对应的概率，因此可以体现多个状态和多个概率的对应关系，相比于现有技术中仅为原始图像设置单一状态的标签，本申请实施例考虑了各个状态之间的时序信息，从而使训练得到的神经网络能够有更好的时序识别能力。

在本申请实施例中，训练图像还可以包括原始图像和/或原始图像的增强图像，增强图像通过对原始图像进行以下至少一项处理后得到：翻转、旋转、随机擦拭、弹性扭曲、错切变换、随机亮度、随机对比度、直方图均衡、沿预设角度倾斜、添加高斯噪声。

这样，在将原始图像和/或增强图像作为训练图像时，可以提供多个与各个状态对应的图像特征，而增强图像时对原始图像进行处理后得到的，能够更准确的模仿实际进行图像的拍摄时拍摄角度、光照、现场混乱、噪声多、对焦不稳定、有遮挡对图像的影响，使训练得到的神经网络能够更好的适应这些影响，从而具有更准确的图像识别能力。

基于以上训练图像和训练图像的状态标签，得到的神经网络的训练准确率可达到99.8％，测试准确率超过96％，获得了较好的训练结果。

在对神经网络进行训练后，可以利用神经网络对待识别图像的状态进行识别，具体的，可以将待识别图像输入完成训练的神经网络中，得到神经网络的输出结果，根据神经网络的输出结果可以确定待识别图像的当前状态。具体的，可以在输入结果中存在目标状态的概率大于或等于概率阈值时，确定待识别图像的当前状态为目标状态。举例来说，概率阈值可以为0.4。

在具体实施时，可以对目标对象进行拍摄得到多个待识别图像，若确定预设时间段内存在预设个待识别图像的当前状态为目标状态，这预设个待识别图像的拍摄时间点为顺序相邻的时间点，则可以确定在预设时间段内目标对象的状态为目标状态。举例来说，预设个待识别图像可以为10个待识别图像，也就是说，按照时间顺序，在连续10个图像均为目标状态，才可以认为该时间段为的目标对象处于目标状态。

本申请实施例提供了一种图像识别方法，在将待识别图像输入训练完成的神经网络，可以得到神经网络的输出结果，根据输出结果可以确定待识别图像的当前状态，其中神经网络基于训练图像和训练图像的状态标签训练得到，训练图像可以包括融合图像，融合图像可以基于多个原始图像融合得到，融合图像的状态标签可以由融合得到融合图像的多个原始图像的状态标签融合得到，融合图像的状态标签可以包括多个状态的概率值。也就是说，训练图像中可以包括处于中间状态的融合图像，而这些融合图像可以包括至少两个状态的特征，而融合图像的状态标签也可以是至少两个状态的标签融合后的标签，因此神经网络可以根据融合图像的特征以及状态标签，学习得到识别多个状态标签对应的特征，而融合图像包括两个状态的特征，因此即使待识别图像为两个状态的中间状态时，神经网络也能够分别对这两个状态的特征进行分析，得到最终的输出结果，因此提高了图像识别的准确性。

基于以上一种图像识别方法，本申请实施例还提供了一种图像识别装置，参考图2所示，为本申请实施例提供的一种图像识别装置的结构框图，所述装置包括：

输出结果获取单元110，用于将待识别图像输入训练完成的神经网络，得到所述神经网络的输出结果；所述神经网络基于训练图像和所述训练图像的状态标签训练得到，所述训练图像包括融合图像，所述融合图像基于多个原始图像融合得到，所述融合图像的状态标签由所述多个原始图像的状态标签融合得到，所述融合图像的状态标签包括多个状态的概率值；

状态确定单元120，用于根据所述输出结果确定所述待识别图像的当前状态。

可选的，所述多个原始图像具有对应相邻状态的状态标签。

可选的，所述装置还包括：

可选的，所述状态确定单元具体用于：

确定所述预设时间段内，所述目标对象的状态为目标状态。

本申请实施例提供了一种图像识别装置，在将待识别图像输入训练完成的神经网络，可以得到神经网络的输出结果，根据输出结果可以确定待识别图像的当前状态，其中神经网络基于训练图像和训练图像的状态标签训练得到，训练图像可以包括融合图像，融合图像可以基于多个原始图像融合得到，融合图像的状态标签可以由融合得到融合图像的多个原始图像的状态标签融合得到，融合图像的状态标签可以包括多个状态的概率值。也就是说，训练图像中可以包括处于中间状态的融合图像，而这些融合图像可以包括至少两个状态的特征，而融合图像的状态标签也可以是至少两个状态的标签融合后的标签，因此神经网络可以根据融合图像的特征以及状态标签，学习得到识别多个状态标签对应的特征，而融合图像包括两个状态的特征，因此即使待识别图像为两个状态的中间状态时，神经网络也能够分别对这两个状态的特征进行分析，得到最终的输出结果，因此提高了图像识别的准确性。

本申请实施例中提到的“第一……”、“第一……”等名称中的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的优选实施方式，并非用于限定本申请的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

根据所述输出结果确定所述待识别图像的当前状态。

2.根据权利要求1所述的方法，其特征在于，所述多个原始图像具有对应相邻状态的状态标签。

3.根据权利要求1所述的方法，其特征在于，所述训练图像还包括所述重置图像，所述重置图像为所述原始图像，所述重置图像的状态标签包括所述原始图像的状态对应的第一预设概率，以及所述原始图像的状态的相邻状态对应的第二预设概率。

4.根据权利要求3所述的方法，其特征在于，所述第一预设概率大于或等于0.7，所述第二预设概率小于或等于0.3。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述训练图像还包括原始图像和所述原始图像的增强图像，所述增强图像通过对所述原始图像进行以下至少一项处理后得到：翻转、旋转、随机擦拭、弹性扭曲、错切变换、随机亮度、随机对比度、直方图均衡、沿预设角度倾斜、添加高斯噪声。

6.根据权利要求1所述的方法，其特征在于，所述神经网络通过以下方式训练得到：

调整所述神经网络的参数以最小化所述损失函数。

7.根据权利要求1所述的方法，其特征在于，所述根据所述输出结果确定所述待识别图像的当前状态，包括：

8.根据权利要求7所述的方法，其特征在于，所述待识别图像为对目标对象进行拍摄得到的，所述方法包括：

确定所述预设时间段内，所述目标对象的状态为目标状态。

9.一种图像识别装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述多个原始图像具有对应相邻状态的状态标签。

11.根据权利要求9所述的装置，其特征在于，所述训练图像还包括所述重置图像，所述重置图像为所述原始图像，所述重置图像的状态标签包括所述原始图像的状态对应的第一预设概率，以及所述原始图像的状态的相邻状态对应的第二预设概率。

12.根据权利要求9-11任意一项所述的装置，其特征在于，所述训练图像还包括原始图像和所述原始图像的增强图像，所述增强图像通过对所述原始图像进行以下至少一项处理后得到：翻转、旋转、随机擦拭、弹性扭曲、错切变换、随机亮度、随机对比度、直方图均衡、沿预设角度倾斜、添加高斯噪声。

13.根据权利要求9所述的装置，其特征在于，还包括：

14.根据权利要求9所述的装置，其特征在于，所述状态确定单元具体用于：