CN109919249A - 用于生成特征图的方法和装置 - Google Patents

用于生成特征图的方法和装置 Download PDF

Info

Publication number
CN109919249A
CN109919249A CN201910209379.XA CN201910209379A CN109919249A CN 109919249 A CN109919249 A CN 109919249A CN 201910209379 A CN201910209379 A CN 201910209379A CN 109919249 A CN109919249 A CN 109919249A
Authority
CN
China
Prior art keywords
characteristic pattern
channel
modulation
matrix
eigenmatrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910209379.XA
Other languages
English (en)
Other versions
CN109919249B (zh
Inventor
喻冬东
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201910209379.XA priority Critical patent/CN109919249B/zh
Publication of CN109919249A publication Critical patent/CN109919249A/zh
Application granted granted Critical
Publication of CN109919249B publication Critical patent/CN109919249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本公开的实施例公开了用于生成特征图的方法和装置。该方法的一具体实施方式包括:获取目标图像,以及确定目标图像的特征图,其中,特征图对应于至少一个通道的特征矩阵;对特征图进行一阶通道注意力调制,得到调制后特征图;将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系;基于至少两个变换后特征图,生成通道注意力特征图。该实施方式可以使得所得到的通道注意力特征图可以更全面地表征目标图像的特征,有助于提高对图像进行识别的准确性,以及提高从图像中提取目标对象图像的准确性。

Description

用于生成特征图的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于生成特征图的方法和装置。
背景技术
现有的卷积神经网络,在提取图像的特征时,通常是对特征数据包括的各个通道分别单独分析。例如,在对各个通道进行卷积运算时,利用预设的卷积核,分别对各个通道进行卷积运算,得到新的特征数据,再利用全连接层将得到的特征数据进行连接,对连接后的特征数据进行分类等操作。
发明内容
本公开的实施例提出了用于生成特征图的方法和装置,以及用于识别图像的方法和装置。
第一方面,本公开的实施例提供了一种用于生成特征图的方法,该方法包括:获取目标图像,以及确定目标图像的特征图,其中,特征图对应于至少一个通道的特征矩阵;对特征图进行一阶通道注意力调制,得到调制后特征图;将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系;基于至少两个变换后特征图,生成通道注意力特征图。
在一些实施例中,对于至少两个二阶通道注意力调制模型中的二阶通道注意力调制模型,该二阶通道注意力调制模型用于执行如下步骤:对调制后特征图进行第一卷积处理,得到预设数目个通道的第一卷积后特征矩阵;对于预设数目个通道的第一卷积后特征矩阵中的第一卷积后特征矩阵,将该第一卷积后特征矩阵转换为第一通道特征向量;基于所得到的第一通道特征向量,确定通道关系矩阵,其中,通道关系矩阵包括的元素用于表征预设数目个通道的第一卷积后特征矩阵之间的关系;基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
在一些实施例中,基于所得到的第一通道特征向量,确定通道关系矩阵,包括:将所得到的第一通道特征向量组合,得到第一组合后矩阵;对调制后特征图进行第二卷积处理,得到预设数目个通道的第二卷积后特征矩阵;对于目标图像包括的像素点中的像素点,从预设数目个通道的第二卷积后特征矩阵中,确定该像素点对应的像素特征向量;将所得到的像素特征向量组合,得到第二组合后矩阵;将第一组合后矩阵与第二组合后矩阵相乘,基于相乘后得到的矩阵生成通道关系矩阵。
在一些实施例中,基于相乘后得到的矩阵生成通道关系矩阵,包括:对相乘后得到的矩阵包括的元素进行归一化处理,得到通道关系矩阵。
在一些实施例中,调制后特征图对应于预设数目个通道的特征矩阵;以及基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图,包括:对于调制后特征图对应的预设数目个通道的特征矩阵中的特征矩阵,将该特征矩阵转换为第二通道特征向量;将所得到的第二通道特征向量组合,得到第三组合后矩阵;将通道关系矩阵与第三组合后矩阵相乘,基于相乘后所得到的矩阵生成变换后特征图。
第二方面,本公开的实施例提供了一种用于识别图像的方法,该方法包括:获取待识别图像,其中,待识别图像包括目标对象图像;将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息,其中,卷积神经网络包括卷积层和分类层,卷积层用于利用待识别图像执行上述第一方面中任一实施例描述的方法,生成通道注意力特征图,分类层用于基于通道注意力特征图,对待识别图像包括的像素点进行分类,生成类别信息和位置信息。
在一些实施例中,该方法还包括:基于位置信息,从待识别图像中提取目标对象图像及显示。
第三方面,本公开的实施例提供了一种用于生成特征图的装置,该装置包括:第一获取单元,被配置成获取目标图像,以及确定目标图像的特征图,其中,特征图对应于至少一个通道的特征矩阵;调制单元,被配置成对特征图进行一阶通道注意力调制,得到调制后特征图;第一生成单元,被配置成将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系;第二生成单元,被配置成基于至少两个变换后特征图,生成通道注意力特征图。
在一些实施例中,对于至少两个二阶通道注意力调制模型中的二阶通道注意力调制模型,该二阶通道注意力调制模型包括:卷积模块,被配置成对调制后特征图进行第一卷积处理,得到预设数目个通道的第一卷积后特征矩阵;转换模块,被配置成对于预设数目个通道的第一卷积后特征矩阵中的第一卷积后特征矩阵,将该第一卷积后特征矩阵转换为第一通道特征向量;第一确定模块,被配置成基于所得到的第一通道特征向量,确定通道关系矩阵,其中,通道关系矩阵包括的元素用于表征预设数目个通道的第一卷积后特征矩阵之间的关系;生成模块,被配置成基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
在一些实施例中,第一确定模块包括:第一组合子模块,被配置成将所得到的第一通道特征向量组合,得到第一组合后矩阵;卷积子模块,被配置成对调制后特征图进行第二卷积处理,得到预设数目个通道的第二卷积后特征矩阵;确定子模块,被配置成对于目标图像包括的像素点中的像素点,从预设数目个通道的第二卷积后特征矩阵中,确定该像素点对应的像素特征向量;第二组合子模块,被配置成将所得到的像素特征向量组合,得到第二组合后矩阵;第一生成子模块,被配置成将第一组合后矩阵与第二组合后矩阵相乘,基于相乘后得到的矩阵生成通道关系矩阵。
在一些实施例中,第一生成子模块进一步被配置成:对相乘后得到的矩阵包括的元素进行归一化处理,得到通道关系矩阵。
在一些实施例中,调制后特征图对应于预设数目个通道的特征矩阵;以及生成模块包括:转换子模块,被配置成对于调制后特征图对应的预设数目个通道的特征矩阵中的特征矩阵,将该特征矩阵转换为第二通道特征向量;第三组合子模块,被配置成将所得到的第二通道特征向量组合,得到第三组合后矩阵;第二生成子模块,被配置成将通道关系矩阵与第三组合后矩阵相乘,基于相乘后所得到的矩阵生成变换后特征图。
第四方面,本公开的实施例提供了一种用于识别图像的装置,该装置包括:第二获取单元,被配置成获取待识别图像,其中,待识别图像包括目标对象图像;输出单元,被配置成将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息,其中,卷积神经网络包括卷积层和分类层,卷积层用于利用待识别图像执行上述第一方面中任一实施例描述的方法,生成通道注意力特征图,分类层用于基于通道注意力特征图,对待识别图像包括的像素点进行分类,生成类别信息和位置信息。
在一些实施例中,该装置还包括:显示单元,被配置成基于位置信息,从待识别图像中提取目标对象图像及显示。
第五方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面或第二方面中任一实现方式描述的方法。
第六方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。
本公开的实施例提供的用于生成特征图的方法和装置,通过获取目标图像,以及确定目标图像的特征图,再对特征图进行一阶通道注意力调制,得到调制后特征图,然后使用预设的至少两个二阶通道注意力调制模型,对调制后特征图进行处理,得到至少两个变换后特征图,最后基于至少两个变换后特征图,生成通道注意力特征图。由于各个变换后特征图是由不同的二阶通道注意力模型生成的,因此,各个变换后特征图可以用于表征调制后特征图包括的通道,在各种特征下之间的关系,从而使得所得到的通道注意力特征图可以更全面地表征目标图像的特征,有助于提高对图像进行识别的准确性,以及提高从图像中提取目标对象图像的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的实施例的用于生成特征图的方法的一个实施例的流程图;
图3是根据本公开的实施例的用于生成特征图的方法的一个应用场景的示意图;
图4是根据本公开的实施例的用于识别图像的方法的一个实施例的流程图;
图5是根据本公开的实施例的用于生成特征图的装置的一个实施例的结构示意图;
图6是根据本公开的实施例的用于识别图像的装置的一个实施例的结构示意图;
图7是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的实施例的用于生成特征图的方法或用于生成特征图的装置,以及用于识别图像的方法或用于识别图像的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图像处理应用、视频播放应用、搜索类应用、即时通信工具、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的图像进行处理的后台图像处理服务器。后台图像处理服务器可以获取的图像进行处理,得到处理结果(例如图像的特征图)。
需要说明的是,本公开的实施例所提供的用于生成特征图的方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,用于生成特征图的装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。此外,本公开的实施例所提供的用于识别图像的方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,用于识别图像的装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在进行处理的图像不需从远程获取的情况下,上述系统架构可以不包括网络,只包括服务器或终端设备。
继续参考图2,示出了根据本公开的用于生成特征图的方法的一个实施例的流程200。该用于生成特征图的方法,包括以下步骤:
步骤201,获取目标图像,以及确定目标图像的特征图。
在本实施例中,用于生成特征图的方法的执行主体(例如图1所示的服务器或终端设备)可以通过有线连接方式或者无线连接方式从远程,或从本地获取目标图像。其中,目标图像是待对其进行处理,以生成其对应的特征图的图像。例如,目标图像可以是上述执行主体包括的摄像头拍摄的图像,或者是上述执行主体从预设的图像集合中提取的图像。
上述执行主体可以进一步确定目标图像的特征图。其中,特征图(feature map)用于表征图像的特征(例如颜色特征、灰度特征等)。通常,特征图对应于至少一个通道的特征矩阵。每个通道对应于图像的一种特征,同时,每个通道对应于一个特征矩阵,特征矩阵中的每个元素,对应于目标图像包括的一个像素。
上述执行主体可以按照各种方式确定目标图像的特征图。作为示例,上述执行主体可以根据目标图像包括的每个像素点的颜色值(包括R(Red,红色)值、G(Green,绿色)值、B(Blue,蓝色)值),生成包括三个通道(分别为R通道、G通道、B通道)的特征图,每个通道对应于一个特征矩阵,其中的元素为相应颜色的颜色值。
再例如,上述执行主体可以将目标图像输入预设的卷积神经网络,卷积神经网络包括的卷积层可以提取目标图像的特征,生成特征图。通常,卷积层可以包括至少一个卷积核,每个卷积核可以用于生成一个特征矩阵。需要说明的是,通常,卷积神经网络可以包括多个卷积层,本实施例所使用的特征图可以是任一卷积层生成的特征图。
步骤202,对特征图进行一阶通道注意力调制,得到调制后特征图。
在本实施例中,上述执行主体可以对特征图进行一阶通道注意力调制,得到调制后特征图。其中,一阶通道注意力调制(Channel-wise Attention)是指,将特征图对应的至少一个特征矩阵,重新映射为多个向量,其中的每个向量对应于上述至少一个特征矩阵中的一个特征矩阵(即对应于一个通道)。再利用预设的函数,对这些向量进行运算(例如加权、分类、池化等运算),最后将运算结果转换为新的特征图作为调制后特征图,其中,调制后特征图包括至少一个通道,每个通道对应于一个特征矩阵。由于上述运算是对上述多个向量进行线性运算,因此被称为一阶通道注意力调制。
经过一阶通道注意力调制后所得到的调制后特征图,可以用于表征目标图像的特征图包括的各个通道的各种特征(例如线条形状特征、纹理特征等)。实践中,通常可以使用调制后特征图对图像包括的像素点进行分类等操作,从而一阶通道注意力调制可以应用于图像识别、图像分类等领域。
步骤203,将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图。
在本实施例中,上述执行主体可以将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图。其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系。
上述二阶通道注意力调制模型用于表征调制后特征图与变换后特征图的对应关系。通常,二阶通道注意力调制模型可以对特征图包括的通道分别对应的特征向量(例如上述一阶通道注意力调制所得到的向量)之间进行乘法运算(例如将两个不同的通道分别对应的特征向量进行点乘运算),运算结果由于对应于两个通道,因此,运算结果可以用于表征两个通道之前的关系。这里,由于采用了对特征向量之间进行乘法运算,因此,对像素点对应的特征向量的运算不再是线性的,所以被称为二阶通道注意力调制。
实践中,二阶通道注意力调制模型可以是预设的软件模块(例如函数),也可以作为中间层,包含于预设的卷积神经网络中。
作为示例,上述调制后特征图可以对应于预设数目个通道的特征矩阵。针对预设数目个通道的特征矩阵中的每个特征矩阵,二阶通道注意力调制模型可以将该特征矩阵包括的元素组合为一个向量。然后,将所得到的各个向量组合为矩阵,再将该矩阵乘以该矩阵的转置矩阵,得到新的矩阵作为通道关系矩阵,最后基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
这里,不同的二阶通道注意力调制模型可以根据通道关系矩阵,按照不同的方式对调整后特征图进行变换。例如二阶通道注意力调制模型A可以将上述通道关系矩阵中的,对应于调制后特征图对应的特征矩阵中的一部分特征矩阵(例如用于表征特定的形状特征的矩阵)的元素保留,将其余元素设置为0,从而可以得到用于表征该部分包括的特征矩阵之间的关系的第一通道关系矩阵,基于第一通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。例如二阶通道注意力调制模型B可以将上述通道关系矩阵中的,对应于调制后特征图对应的特征矩阵中的一部分特征矩阵(例如用于表征另一种特定的形状特征的矩阵)的元素保留,将其余元素设置为0,从而可以得到用于表征该部分包括的特征矩阵之间的关系的第二通道关系矩阵,基于第二通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
在本实施例的一些可选的实现方式中,对于至少两个二阶通道注意力调制模型中的二阶通道注意力调制模型,该二阶通道注意力调制模型用于执行如下步骤:
步骤一,对调制后特征图进行第一卷积处理,得到预设数目个通道的第一卷积后特征矩阵。通常,该二阶通道注意力调制模型可以利用预设的预设数目个卷积核对调制后特征图对应的至少一个特征矩阵进行第一卷积处理,从而得到预设数目个通道的第一卷积后特征矩阵。卷积核通常为矩阵的形式,其中的元素为预设的权重值,利用权重值,可以对调制后特征图对应的至少一个特征矩阵进行卷积运算。需要说明的是,卷积核包括的权重值可以是预先设置的,也可以是预先利用机器学习方法,对卷积核所属的卷积神经网络进行训练后所确定的。在本实施例中,上述预设数目通常大于等于2。
步骤二,对于预设数目个通道的第一卷积后特征矩阵中的第一卷积后特征矩阵,将该第一卷积后特征矩阵转换为第一通道特征向量。
其中,第一通道特征向量是基于第一卷积后特征矩阵包括的元素而生成的向量。作为示例,可以将第一卷积后特征矩阵的全部元素重新排列为一个向量作为第一通道特征向量。或者,可以对第一卷积后特征矩阵包括的元素经过各种处理(例如归一化、平均池化等)后得到的矩阵中的元素重新排列为一个向量作为第一通道特征向量。
通常,第一通道特征向量包括的元素数量等于第一卷积后特征矩阵包括的元素数量。例如,假设某个第一卷积后特征矩阵为H行W列,则可以将其转换为N维的向量作为第一通道特征向量,其中,N=H×W。假设预设数目为C,则可以得到C个N维的第一通道特征向量。
步骤三,基于所得到的第一通道特征向量,确定通道关系矩阵。
其中,通道关系矩阵包括的元素用于表征预设数目个通道的第一卷积后特征矩阵之间的关系(例如表征线条形状特征的第一卷积后特征矩阵与表征图像纹理特征的第一卷积后特征矩阵之间的关系)。
具体地,作为示例,该二阶通道注意力调制模型可以将各个第一通道特征向量组合,得到组合后特征矩阵,再将组合后特征矩阵与组合后特征矩阵的转置矩阵相乘,将相乘后得到的矩阵确定为像素关系矩阵。继续上述步骤二中的示例,C个N维的第一通道特征向量可以组合为C行N列的组合后特征矩阵,组合后特征矩阵的转置矩阵为N行C列,则相乘后得到的矩阵即为C行C列的通道关系矩阵。上述组合后特征矩阵的每行对应于一个第一通道特征向量,上述转置矩阵的每列对应于一个第一通道特征向量,因此,本示例中的通道关系矩阵中的每个元素可以分别对应于两个第一通道特征向量,从而可以用于表征第一通道特征向量之间的关系,也即第一卷积后特征矩阵之间的关系。例如,对于通道关系矩阵中的某个元素,该元素的数值越接近与该元素对应的两个第一通道特征向量包括的元素的平方和,表示该元素对应的两个第一通道特征向量分别对应的通道所表征的特征(例如通道A用于表征第一种曲线的特征,通道B用于表征第二种曲线的特征)越相似。
在本实施例的一些可选的实现方式中,步骤三可以如下执行:
首先,将所得到的第一通道特征向量组合,得到第一组合后矩阵。作为示例,C个N维的第一通道特征向量,可以组合为C行N列的第一组合后矩阵。
然后,对调制后特征图进行第二卷积处理,得到预设数目个通道的第二卷积后特征矩阵。
具体地,该二阶通道注意力调制模型可以利用预设的预设数目个卷积核对调制后特征图对应的至少一个特征矩阵进行第二卷积处理,从而得到预设数目个通道的第二卷积后特征矩阵。需要说明的是,这里所使用的卷积核可以与上述步骤一中所使用的卷积核不同。因此,这里的第二卷积后特征矩阵表征的特征不同于步骤一中的第一卷积后特征矩阵表征的特征。
再然后,对于目标图像包括的像素点中的像素点,从预设数目个通道的第二卷积后特征矩阵中,确定该像素点对应的像素特征向量。
通常,每个第二卷积后特征矩阵中的元素,与目标图像包括的像素点一一对应。对于一个像素点,该二阶通道注意力调制模型可以从各个第二卷积后特征矩阵中,将与该像素点对应的元素提取出来并组合为一个向量作为像素特征向量。作为示例,假设有C个通道的第二卷积后特征矩阵,每个第二卷积后特征矩阵为H行W列的矩阵。其中,H为目标图像包括的像素点的行数,W为目标图像包括的像素点的列数。则可以得到N个C维的像素特征向量,其中N=H×W。
接着,将所得到的像素特征向量组合,得到第二组合后矩阵。
继续上述示例,可以将N个C维的像素特征向量组合为N行C列的第二组合后矩阵。
最后,将第一组合后矩阵与第二组合后矩阵相乘,基于相乘后得到的矩阵生成通道关系矩阵。
继续上述示例,C行N列的第一组合后矩阵与N行C列的第二组合后矩阵相乘后,可以得到C行C列的矩阵,可以将该矩阵确定为通道关系矩阵。本实现方式中所得到的通道关系矩阵,由于是基于第二卷积后特征矩阵生成的,因此,通道关系矩阵可以用于表征对应于调制后特征图包括的同一个通道的第一卷积后特征矩阵和第二卷积后特征矩阵之间的关系,即对应于上述同一个通道的两种特征之间的关系。从而有助于使得从目标图像中提取的特征更加全面。
在本实施例的一些可选的实现方式中,该二阶通道注意力调制模型可以对相乘后得到的矩阵包括的元素进行归一化处理,得到通道关系矩阵。归一化处理后所得到的通道关系矩阵,其包括的元素均处于0到1之间,因此,可以将其作为用于提取其他特征的权重,从而有助于使提取的其他特征可以反映特征图包括的通道之间的关系。上述归一化处理的算法可以包括但不限于以下任一种:z分数标准化算法,softmax算法。
步骤四,基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
其中,变换后特征图可以用于表征目标图像的特征图包括的各个通道之间的关系,从而有助于电子设备利用变换后特征图从目标图像中提取更丰富的特征。
在本实施例的一些可选的实现方式中,调制后特征图对应于预设数目个通道的特征矩阵。本步骤可以如下执行:
首先,对于调制后特征图对应的预设数目个通道的特征矩阵中的特征矩阵,将该特征矩阵转换为第二通道特征向量。作为示例,假设某个特征矩阵为H行W列,则可以将其转换为N维的向量作为第二通道特征向量,其中,N=H×W。
然后,将所得到的第二通道特征向量组合,得到第三组合后矩阵。作为示例,假设预设数目为C,则可以得到C个N维的第二通道特征向量,将C个N维的第二通道特征向量组合后,可以得到C行N列的第三组合后矩阵
最后,将通道关系矩阵与第三组合后矩阵相乘,基于相乘后所得到的矩阵生成变换后特征图。继续上述示例,C行C列的通道关系矩阵与C行N列的第三组合后矩阵相乘,可以得到C行N列的矩阵。对于相乘后得到的矩阵中的每行,该行对应于一个通道,可以将该行包括的N列元素,重新转换为H行W列的特征矩阵。从而可以得到对应于预设数目个通道的特征矩阵的变换后特征图。
可选的,当调制后特征图包括的通道的数目与上述预设数目不同时,可以利用预设的预设数目个卷积核(不同于上述用于生成第一卷积后特征矩阵和第二卷积后特征矩阵所用的卷积核),对调制后特征图进行卷积处理,得到预设数目个通道的特征矩阵。利用所得到的预设数目个通道的特征矩阵,按照上述可选的实现方式,生成变换后特征图。
需要说明的是,上述至少两个二阶通道注意力调制模型中的每个二阶通道注意力调制模型进行第一卷积处理和第二卷积处理时,所使用的参数不同,因此,各个二阶通道注意力调制模型生成的变换后特征图可以用于表征不同的特征下的通道之间的关系。
步骤204,基于至少两个变换后特征图,生成通道注意力特征图。
在本实施例中,上述执行主体可以基于至少两个变换后特征图,生成通道注意力特征图。由于各个变换后特征图是由不同的二阶通道注意力模型生成的,因此,各个变换后特征图可以用于表征在各种特征下调制后特征图包括的通道之间的关系,从而使得所得到的通道注意力特征图可以更全面地表征目标图像的特征。
作为示例,上述执行主体可以将上述至少两个变换后特征图组合为通道注意力特征图。即将各个转后特征图包括的通道合并,从而得到通道注意力特征图。或者,上述执行主体可以对组合后的特征图进行进一步的操作(利用平均池化、最大池化等操作),生成通道注意力特征图。
继续参见图3,图3是根据本实施例的用于生成特征图的方法的应用场景的一个示意图。在图3的应用场景中,电子设备301首先从本地获取预先存储的目标图像302。再利用预设的卷积神经网络,对目标图像302进行特征提取,得到目标图像302的特征图。其中,特征图对应于至少一个通道的特征矩阵303。然后,电子设备301对特征图进行一阶通道注意力调制,得到调制后特征图,其中,调制后特征图对应于预设数目个通道的特征矩阵304。
再然后,电子设备301将调制后特征图输入预设的三个二阶通道注意力调制模型3051、3052、3053,得到三个变换后特征图3061、3062、3063。其中,二阶通道注意力调制模型可以对调制后特征图包括的通道分别对应的特征向量(例如针对调制后特征图对应的每个特征矩阵,该特征矩阵包括的矩阵元素所组成的向量)之间进行乘法运算(例如将两个不同的通道分别对应的特征向量进行点乘运算),运算结果由于对应于两个通道,因此,运算结果可以用于表征两个通道之前的关系。
最后,电子设备301基于变换后特征图3061、3062、3063,生成通道注意力特征图。例如,将变换后特征图3061、3062、3063包括的通道组合,得到通道注意力特征图307。
本公开的上述实施例提供的方法,通过获取目标图像,以及确定目标图像的特征图,再对特征图进行一阶通道注意力调制,得到调制后特征图,然后使用预设的至少两个二阶通道注意力调制模型,对调制后特征图进行处理,得到至少两个变换后特征图,最后基于至少两个变换后特征图,生成通道注意力特征图。由于各个变换后特征图是由不同的二阶通道注意力模型生成的,因此,各个变换后特征图可以用于表征在各种特征下调制后特征图包括的通道之间的关系,从而使得所得到的通道注意力特征图可以更全面地表征目标图像的特征,有助于提高对图像进行识别的准确性,以及提高从图像中提取目标对象图像的准确性。
继续参考图4,示出了根据本公开的用于识别图像的方法的一个实施例的流程400。该用于识别图像的方法,包括以下步骤:
步骤401,获取待识别图像。
在本实施例中,用于识别图像的方法的执行主体(例如图1所示的服务器或终端设备)可以从远程或从本地获取待识别图像。其中,待识别图像包括目标对象图像。目标对象图像是用于表征目标对象的图像,目标对象可以是下述卷积神经网络可以识别的图像所指示的对象。作为示例,目标对象图像可以包括但不限于以下至少一种图像:人脸图像、人体图像、动物图像。
步骤402,将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息。
在本实施例中,上述执行主体可以将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息。
其中,卷积神经网络包括卷积层和分类层,卷积层用于利用待识别图像执行上述图2对应实施例描述的方法(即,将待识别图像作为图2对应实施例中的目标图像),生成通道注意力特征图。分类层用于基于通道注意力特征图,对待识别图像包括的像素点进行分类,生成类别信息和位置信息。
通常,分类层可以包括全连接层和分类器,全连接层用于将卷积层生成的各种特征图(包括上述通道注意力特征图,还可以包括其他未利用图2对应实施例描述的方法生成的特征图)综合起来,生成用于分类的特征向量。分类器可以利用上述特征向量,对上述待识别图像包括的像素点进行分类,从而可以确定属于某个类别的像素组成的区域,该区域可以利用位置信息表征,该类别可以用类别信息表征。
作为示例,位置信息可以包括矩形的四个角点的坐标值,每个坐标值分别对应于待识别图像中的一个像素点,根据坐标值,可以确定目标对象图像在待识别图像中的位置。
上述类别信息可以包括但不限于以下至少一种形式的信息:文字、数字、符号。例如,类别信息可以是文字“人脸”,用于表征目标对象图像为人脸图像。
实践中,上述执行主体或其他电子设备可以利用预设的训练样本集合对初始卷积神经网络进行训练,从而得到上述卷积神经网络。具体地,作为示例,训练样本可以包括样本图像和对样本图像标注的标注类别信息和标注位置信息。用于训练卷积神经网络的执行主体可以利用机器学习方法,将训练样本集合中的训练样本包括的样本图像作为输入,将与输入的样本图像对应的标注类别信息和标注位置信息作为期望输出,对初始卷积神经网络进行训练,针对每次训练输入的样本图像,可以得到实际输出。其中,实际输出是初始卷积神经网络实际输出的数据,用于表征类别信息和位置信息。然后,上述执行主体可以采用梯度下降法和反向传播法,基于实际输出和期望输出,调整初始卷积神经网络的参数,将每次调整参数后得到的卷积神经网络作为下次训练的初始卷积神经网络,并在满足预设的训练结束条件的情况下,结束训练,从而训练得到卷积神经网络。上述预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;利用预设的损失函数(例如交叉熵损失函数)计算所得的损失值小于预设损失值阈值。
上述位置信息和类别信息可以以各种方式输出。例如,可以将位置信息和类别信息显示在上述执行主体包括的显示器上;或者将位置信息和类别信息发送到与上述执行主体通信连接的电子设备上;或者根据位置信息在待识别图像上生成与类别信息对应的颜色的矩形框。
本实施例使用的卷积神经网络,由于可以执行图2对应实施例描述的方法,所生成的通道注意力特征图可以用于表征待识别图像中的各个像素点之间的关系,根据各个像素点之间的关系,可以对待识别图像包括的像素点进行更准确地分类,从而实现了更精准、高效地识别图像。
在本实施例的一些可选的实现方式中,上述执行主体还可以基于位置信息,从待识别图像中提取目标对象图像及显示。具体地,上述执行主体可以根据位置信息,确定目标对象图像在待识别图像中的位置,从而将目标对象图像提取出来。目标对象图像可以显示在上述执行主体包括的显示屏上,也可以显示在与上述执行主体通信连接的电子设备的显示屏上。本实现方式由于利用了上述卷积神经网络,因而可以从待识别图像中更准确地提取及显示目标对象图像。
本公开的上述实施例提供的方法,通过使用卷积神经网络,执行上述图2对应实施例描述的方法,对待识别图像进行识别,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息,从而有效地利用了变换后特征图表征的目标图像的特征图包括的各个通道之间的关系,从待识别图像中提取更丰富的特征,使得对待识别图像包括的像素点进行更准确地分类,实现了更精准、高效地识别图像。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于生成特征图的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于生成特征图的装置500包括:第一获取单元501,被配置成获取目标图像,以及确定目标图像的特征图,其中,特征图对应于至少一个通道的特征矩阵;调制单元502,被配置成对特征图进行一阶通道注意力调制,得到调制后特征图;第一生成单元503,被配置成将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系;第二生成单元504,被配置成基于至少两个变换后特征图,生成通道注意力特征图。
在本实施例中,第一获取单元501可以通过有线连接方式或者无线连接方式从远程,或从本地获取目标图像。其中,目标图像是待对其进行处理,以生成其对应的特征图的图像。例如,目标图像可以是上述装置500包括的摄像头拍摄的图像,或者是上述装置500从预设的图像集合中提取的图像。
上述第一获取单元501可以进一步确定目标图像的特征图。其中,特征图(featuremap)用于表征图像的特征(例如颜色特征、灰度特征等)。通常,特征图对应于至少一个通道的特征矩阵。每个通道对应于图像的一种特征,同时,每个通道对应于一个特征矩阵,特征矩阵中的每个元素,对应于目标图像包括的一个像素。
上述第一获取单元501可以按照各种方式确定目标图像的特征图。作为示例,上述第一获取单元501可以根据目标图像包括的每个像素点的颜色值(包括R值、G值、B值),生成包括三个通道(分别为R通道、G通道、B通道)的特征图,每个通道对应于一个特征矩阵,其中的元素为相应颜色的颜色值。
再例如,上述第一获取单元501可以将目标图像输入预设的卷积神经网络,卷积神经网络包括的卷积层可以提取目标图像的特征,生成特征图。通常,卷积层可以包括至少一个卷积核,每个卷积核可以用于生成一个特征矩阵。需要说明的是,通常,卷积神经网络可以包括多个卷积层,本实施例所使用的特征图可以是任一卷积层生成的特征图。
在本实施例中,调制单元502可以对特征图进行一阶通道注意力调制,得到调制后特征图。其中,一阶通道注意力调制(Channel-wise Attention)是指,将特征图对应的至少一个特征矩阵,重新映射为多个向量,其中的每个向量对应于上述至少一个特征矩阵中的一个特征矩阵(即对应于一个通道)。再利用预设的函数,对这些向量进行运算(例如加权、分类、池化等运算),最后将运算结果转换为新的特征图作为调制后特征图,其中,调制后特征图包括至少一个通道,每个通道对应于一个特征矩阵。由于上述运算是对上述多个向量进行线性运算,因此被称为一阶通道注意力调制。
经过一阶通道注意力调制后所得到的调制后特征图,可以用于表征目标图像的特征图包括的各个通道的各种特征(例如线条形状特征、纹理特征等)。实践中,通常可以使用调制后特征图对图像包括的像素点进行分类等操作,从而一阶通道注意力调制可以应用于图像识别、图像分类等领域。
在本实施例中,第一生成单元503可以将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图。其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系。
上述二阶通道注意力调制模型用于表征调制后特征图与变换后特征图的对应关系。通常,二阶通道注意力调制模型可以对特征图包括的通道分别对应的特征向量(例如上述一阶通道注意力调制所得到的向量)之间进行乘法运算(例如将两个不同的通道分别对应的特征向量进行点乘运算),运算结果由于对应于两个通道,因此,运算结果可以用于表征两个通道之前的关系。这里,由于采用了对特征向量之间进行乘法运算,因此,对像素点对应的特征向量的运算不再是线性的,所以被称为二阶通道注意力调制。
实践中,二阶通道注意力调制模型可以是预设的软件模块(例如函数),也可以作为中间层,包含于预设的卷积神经网络中。
作为示例,上述调制后特征图可以对应于预设数目个通道的特征矩阵。针对预设数目个通道的特征矩阵中的每个特征矩阵,二阶通道注意力调制模型可以将该特征矩阵包括的元素组合为一个向量。然后,将所得到的各个向量组合为矩阵,再将该矩阵乘以该矩阵的转置矩阵,得到新的矩阵作为通道关系矩阵,最后基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
这里,不同的二阶通道注意力调制模型可以根据通道关系矩阵,按照不同的方式对调整后特征图进行变换。例如二阶通道注意力调制模型A可以将上述通道关系矩阵中的,对应于调制后特征图对应的特征矩阵中的一部分特征矩阵(例如用于表征特定的形状特征的矩阵)的元素保留,将其余元素设置为0,从而可以得到用于表征该部分包括的特征矩阵之间的关系的第一通道关系矩阵,基于第一通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。例如二阶通道注意力调制模型B可以将上述通道关系矩阵中的,对应于调制后特征图对应的特征矩阵中的一部分特征矩阵(例如用于表征另一种特定的形状特征的矩阵)的元素保留,将其余元素设置为0,从而可以得到用于表征该部分包括的特征矩阵之间的关系的第二通道关系矩阵,基于第二通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
在本实施例中,第二生成单元504基于至少两个变换后特征图,生成通道注意力特征图。
作为示例,上述第二生成单元504可以将上述至少两个变换后特征图组合为通道注意力特征图。即将各个转后特征图包括的通道合并,从而得到通道注意力特征图。或者,上述第二生成单元504可以对组合后的特征图进行进一步的操作(利用平均池化、最大池化等操作),生成通道注意力特征图。
在本实施例的一些可选的实现方式中,对于至少两个二阶通道注意力调制模型中的二阶通道注意力调制模型,该二阶通道注意力调制模型可以包括:卷积模块(图中未示出),被配置成对调制后特征图进行第一卷积处理,得到预设数目个通道的第一卷积后特征矩阵;转换模块(图中未示出),被配置成对于预设数目个通道的第一卷积后特征矩阵中的第一卷积后特征矩阵,将该第一卷积后特征矩阵转换为第一通道特征向量;第一确定模块(图中未示出),被配置成基于所得到的第一通道特征向量,确定通道关系矩阵,其中,通道关系矩阵包括的元素用于表征预设数目个通道的第一卷积后特征矩阵之间的关系;生成模块(图中未示出),被配置成基于通道关系矩阵,对调制后特征图进行变换,生成变换后特征图。
在本实施例的一些可选的实现方式中,第一确定模块可以包括:第一组合子模块(图中未示出),被配置成将所得到的第一通道特征向量组合,得到第一组合后矩阵;卷积子模块(图中未示出),被配置成对调制后特征图进行第二卷积处理,得到预设数目个通道的第二卷积后特征矩阵;确定子模块(图中未示出),被配置成对于目标图像包括的像素点中的像素点,从预设数目个通道的第二卷积后特征矩阵中,确定该像素点对应的像素特征向量;第二组合子模块(图中未示出),被配置成将所得到的像素特征向量组合,得到第二组合后矩阵;第一生成子模块(图中未示出),被配置成将第一组合后矩阵与第二组合后矩阵相乘,基于相乘后得到的矩阵生成通道关系矩阵。
在本实施例的一些可选的实现方式中,第一生成子模块进一步被配置成:对相乘后得到的矩阵包括的元素进行归一化处理,得到通道关系矩阵。
在本实施例的一些可选的实现方式中,调制后特征图对应于预设数目个通道的特征矩阵;以及生成模块包括:转换子模块(图中未示出),被配置成对于调制后特征图对应的预设数目个通道的特征矩阵中的特征矩阵,将该特征矩阵转换为第二通道特征向量;第三组合子模块(图中未示出),被配置成将所得到的第二通道特征向量组合,得到第三组合后矩阵;第二生成子模块(图中未示出),被配置成将通道关系矩阵与第三组合后矩阵相乘,基于相乘后所得到的矩阵生成变换后特征图。
本公开的上述实施例提供的装置500,通过获取目标图像,以及确定目标图像的特征图,再对特征图进行一阶通道注意力调制,得到调制后特征图,然后使用预设的至少两个二阶通道注意力调制模型,对调制后特征图进行处理,得到至少两个变换后特征图,最后基于至少两个变换后特征图,生成通道注意力特征图。由于各个变换后特征图是由不同的二阶通道注意力模型生成的,因此,各个变换后特征图可以用于表征调制后特征图包括的通道,在各种特征下之间的关系,从而使得所得到的通道注意力特征图可以更全面地表征目标图像的特征,有助于提高对图像进行识别的准确性,以及提高从图像中提取目标对象图像的准确性。
进一步参考图6,作为对上述图4所示方法的实现,本公开提供了一种用于识别图像的装置的一个实施例,该装置实施例与图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的用于识别图像的装置600包括:第二获取单元601,被配置成获取待识别图像,其中,待识别图像包括目标对象图像;输出单元602,被配置成将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息,其中,卷积神经网络包括卷积层和分类层,卷积层用于利用待识别图像执行上述图2对应实施例描述的方法,生成通道注意力特征图,分类层用于基于通道注意力特征图,对待识别图像包括的像素点进行分类,生成类别信息和位置信息。
在本实施例中,第二获取单元601可以从远程或从本地获取待识别图像。其中,待识别图像包括目标对象图像。目标对象图像是用于表征目标对象的图像,目标对象可以是下述卷积神经网络可以识别的图像所指示的对象。作为示例,目标对象图像可以包括但不限于以下至少一种图像:人脸图像、人体图像、动物图像。
在本实施例中,输出单元602可以将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息。
其中,卷积神经网络包括卷积层和分类层,卷积层用于利用待识别图像执行上述图2对应实施例描述的方法(即,将待识别图像作为图2对应实施例中的目标图像),生成通道注意力特征图。分类层用于基于通道注意力特征图,对待识别图像包括的像素点进行分类,生成类别信息和位置信息。
通常,分类层可以包括全连接层和分类器,全连接层用于将卷积层生成的各种特征图(包括上述通道注意力特征图,还可以包括其他未利用图2对应实施例描述的方法生成的特征图)综合起来,生成用于分类的特征向量。分类器可以利用上述特征向量,对上述待识别图像包括的像素点进行分类,从而可以确定属于某个类别的像素组成的区域,该区域可以利用位置信息表征,该类别可以用类别信息表征。
作为示例,位置信息可以包括矩形的四个角点的坐标值,每个坐标值分别对应于待识别图像中的一个像素点,根据坐标值,可以确定目标对象图像在待识别图像中的位置。
上述类别信息可以包括但不限于以下至少一种形式的信息:文字、数字、符号。例如,类别信息可以是文字“人脸”,用于表征目标对象图像为人脸图像。
上述位置信息和类别信息可以以各种方式输出。例如,可以将位置信息和类别信息显示在上述装置600包括的显示器上;或者将位置信息和类别信息发送到与上述装置600通信连接的电子设备上;或者根据位置信息在待识别图像上生成与类别信息对应的颜色的矩形框。
在本实施例的一些可选的实现方式中,该装置600还可以包括:显示单元(图中未示出),被配置成基于位置信息,从待识别图像中提取目标对象图像及显示。
本公开的上述实施例提供的装置600,通过使用卷积神经网络,执行上述图2对应实施例描述的方法,对待识别图像进行识别,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息,从而有效地利用了变换后特征图表征的目标图像的特征图包括的各个通道之间的关系,从待识别图像中提取更丰富的特征,使得对待识别图像包括的像素点进行更准确地分类,实现了更精准、高效地识别图像。
下面参考图7,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)700的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开的实施例中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标图像,以及确定目标图像的特征图,其中,特征图对应于至少一个通道的特征矩阵;对特征图进行一阶通道注意力调制,得到调制后特征图;将调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征调制后特征图包括的通道之间的关系;基于至少两个变换后特征图,生成通道注意力特征图。
此外,当上述一个或者多个程序被该电子设备执行时,还可以使得该电子设备:获取待识别图像,其中,待识别图像包括目标对象图像;将待识别图像输入预先训练的卷积神经网络,输出用于表征待识别图像中的目标对象图像在待识别图像中的位置的位置信息和用于表征目标对象图像所属的类别的类别信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、调制单元、第一生成单元和第二生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取目标图像,以及确定目标图像的特征图的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于生成特征图的方法,包括:
获取目标图像,以及确定所述目标图像的特征图,其中,所述特征图对应于至少一个通道的特征矩阵;
对所述特征图进行一阶通道注意力调制,得到调制后特征图;
将所述调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征所述调制后特征图包括的通道之间的关系;
基于所述至少两个变换后特征图,生成通道注意力特征图。
2.根据权利要求1所述的方法,其中,对于所述至少两个二阶通道注意力调制模型中的二阶通道注意力调制模型,该二阶通道注意力调制模型用于执行如下步骤:
对所述调制后特征图进行第一卷积处理,得到预设数目个通道的第一卷积后特征矩阵;
对于所述预设数目个通道的第一卷积后特征矩阵中的第一卷积后特征矩阵,将该第一卷积后特征矩阵转换为第一通道特征向量;
基于所得到的第一通道特征向量,确定通道关系矩阵,其中,所述通道关系矩阵包括的元素用于表征所述预设数目个通道的第一卷积后特征矩阵之间的关系;
基于所述通道关系矩阵,对所述调制后特征图进行变换,生成变换后特征图。
3.根据权利要求2所述的方法,其中,所述基于所得到的第一通道特征向量,确定通道关系矩阵,包括:
将所得到的第一通道特征向量组合,得到第一组合后矩阵;
对所述调制后特征图进行第二卷积处理,得到预设数目个通道的第二卷积后特征矩阵;
对于所述目标图像包括的像素点中的像素点,从所述预设数目个通道的第二卷积后特征矩阵中,确定该像素点对应的像素特征向量;
将所得到的像素特征向量组合,得到第二组合后矩阵;
将所述第一组合后矩阵与所述第二组合后矩阵相乘,基于相乘后得到的矩阵生成通道关系矩阵。
4.根据权利要求3所述的方法,其中,所述基于相乘后得到的矩阵生成通道关系矩阵,包括:
对相乘后得到的矩阵包括的元素进行归一化处理,得到通道关系矩阵。
5.根据权利要求2-4之一所述的方法,其中,所述调制后特征图对应于预设数目个通道的特征矩阵;以及
所述基于所述通道关系矩阵,对所述调制后特征图进行变换,生成变换后特征图,包括:
对于所述调制后特征图对应的预设数目个通道的特征矩阵中的特征矩阵,将该特征矩阵转换为第二通道特征向量;
将所得到的第二通道特征向量组合,得到第三组合后矩阵;
将所述通道关系矩阵与所述第三组合后矩阵相乘,基于相乘后所得到的矩阵生成变换后特征图。
6.一种用于识别图像的方法,包括:
获取待识别图像,其中,所述待识别图像包括目标对象图像;
将所述待识别图像输入预先训练的卷积神经网络,输出用于表征所述待识别图像中的目标对象图像在所述待识别图像中的位置的位置信息和用于表征所述目标对象图像所属的类别的类别信息,其中,所述卷积神经网络包括卷积层和分类层,所述卷积层用于利用所述待识别图像执行权利要求1-5之一所述的方法,生成通道注意力特征图,分类层用于基于所述通道注意力特征图,对所述待识别图像包括的像素点进行分类,生成类别信息和位置信息。
7.根据权利要求6所述的方法,其中,所述方法还包括:
基于所述位置信息,从所述待识别图像中提取目标对象图像及显示。
8.一种用于生成特征图的装置,包括:
第一获取单元,被配置成获取目标图像,以及确定所述目标图像的特征图,其中,所述特征图对应于至少一个通道的特征矩阵;
调制单元,被配置成对所述特征图进行一阶通道注意力调制,得到调制后特征图;
第一生成单元,被配置成将所述调制后特征图输入预设的至少两个二阶通道注意力调制模型,得到至少两个变换后特征图,其中,二阶通道注意力调制模型与变换后特征图一一对应,变换后特征图用于表征所述调制后特征图包括的通道之间的关系;
第二生成单元,被配置成基于所述至少两个变换后特征图,生成通道注意力特征图。
9.根据权利要求8所述的装置,其中,对于所述至少两个二阶通道注意力调制模型中的二阶通道注意力调制模型,该二阶通道注意力调制模型包括:
卷积模块,被配置成对所述调制后特征图进行第一卷积处理,得到预设数目个通道的第一卷积后特征矩阵;
转换模块,被配置成对于所述预设数目个通道的第一卷积后特征矩阵中的第一卷积后特征矩阵,将该第一卷积后特征矩阵转换为第一通道特征向量;
第一确定模块,被配置成基于所得到的第一通道特征向量,确定通道关系矩阵,其中,所述通道关系矩阵包括的元素用于表征所述预设数目个通道的第一卷积后特征矩阵之间的关系;
生成模块,被配置成基于所述通道关系矩阵,对所述调制后特征图进行变换,生成变换后特征图。
10.根据权利要求9所述的装置,其中,所述第一确定模块包括:
第一组合子模块,被配置成将所得到的第一通道特征向量组合,得到第一组合后矩阵;
卷积子模块,被配置成对所述调制后特征图进行第二卷积处理,得到预设数目个通道的第二卷积后特征矩阵;
确定子模块,被配置成对于所述目标图像包括的像素点中的像素点,从所述预设数目个通道的第二卷积后特征矩阵中,确定该像素点对应的像素特征向量;
第二组合子模块,被配置成将所得到的像素特征向量组合,得到第二组合后矩阵;
第一生成子模块,被配置成将所述第一组合后矩阵与所述第二组合后矩阵相乘,基于相乘后得到的矩阵生成通道关系矩阵。
11.根据权利要求10所述的装置,其中,所述第一生成子模块进一步被配置成:
对相乘后得到的矩阵包括的元素进行归一化处理,得到通道关系矩阵。
12.根据权利要求9-11之一所述的装置,其中,所述调制后特征图对应于预设数目个通道的特征矩阵;以及
所述生成模块包括:
转换子模块,被配置成对于所述调制后特征图对应的预设数目个通道的特征矩阵中的特征矩阵,将该特征矩阵转换为第二通道特征向量;
第三组合子模块,被配置成将所得到的第二通道特征向量组合,得到第三组合后矩阵;
第二生成子模块,被配置成将所述通道关系矩阵与所述第三组合后矩阵相乘,基于相乘后所得到的矩阵生成变换后特征图。
13.一种用于识别图像的装置,包括:
第二获取单元,被配置成获取待识别图像,其中,所述待识别图像包括目标对象图像;
输出单元,被配置成将所述待识别图像输入预先训练的卷积神经网络,输出用于表征所述待识别图像中的目标对象图像在所述待识别图像中的位置的位置信息和用于表征所述目标对象图像所属的类别的类别信息,其中,所述卷积神经网络包括卷积层和分类层,所述卷积层用于利用所述待识别图像执行权利要求1-5之一所述的方法,生成通道注意力特征图,分类层用于基于所述通道注意力特征图,对所述待识别图像包括的像素点进行分类,生成类别信息和位置信息。
14.根据权利要求13所述的装置,其中,所述装置还包括:
显示单元,被配置成基于所述位置信息,从所述待识别图像中提取目标对象图像及显示。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201910209379.XA 2019-03-19 2019-03-19 用于生成特征图的方法和装置 Active CN109919249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910209379.XA CN109919249B (zh) 2019-03-19 2019-03-19 用于生成特征图的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910209379.XA CN109919249B (zh) 2019-03-19 2019-03-19 用于生成特征图的方法和装置

Publications (2)

Publication Number Publication Date
CN109919249A true CN109919249A (zh) 2019-06-21
CN109919249B CN109919249B (zh) 2020-07-31

Family

ID=66965670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910209379.XA Active CN109919249B (zh) 2019-03-19 2019-03-19 用于生成特征图的方法和装置

Country Status (1)

Country Link
CN (1) CN109919249B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备
CN112132892A (zh) * 2019-06-24 2020-12-25 杭州海康威视系统技术有限公司 目标位置标注方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
WO2018184204A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
US10140719B2 (en) * 2016-12-22 2018-11-27 TCL Research America Inc. System and method for enhancing target tracking via detector and tracker fusion for unmanned aerial vehicles
CN109214439A (zh) * 2018-08-22 2019-01-15 电子科技大学 一种基于多特征融合的红外图像结冰河流检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140719B2 (en) * 2016-12-22 2018-11-27 TCL Research America Inc. System and method for enhancing target tracking via detector and tracker fusion for unmanned aerial vehicles
WO2018184204A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109214439A (zh) * 2018-08-22 2019-01-15 电子科技大学 一种基于多特征融合的红外图像结冰河流检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LONG CHEN ET AL.: "SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning", 《ARXIV:1611.05594V2》 *
单倩文 等: "基于改进多尺度特征图的目标快速检测与识别算法", 《激光与光电子学进展》 *
王培森 等: "基于多通道视觉注意力的细粒度图像分类", 《JOURNAL OF DATA ACQUISITION AND PROCESSING》 *
袁嘉杰 等: "基于注意力卷积模块的深度神经网络图像识别", 《计算机工程与应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132892A (zh) * 2019-06-24 2020-12-25 杭州海康威视系统技术有限公司 目标位置标注方法、装置及设备
CN112132892B (zh) * 2019-06-24 2024-02-02 杭州海康威视系统技术有限公司 目标位置标注方法、装置及设备
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备

Also Published As

Publication number Publication date
CN109919249B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN109902763A (zh) 用于生成特征图的方法和装置
CN109948699A (zh) 用于生成特征图的方法和装置
CN108038469B (zh) 用于检测人体的方法和装置
CN108898185A (zh) 用于生成图像识别模型的方法和装置
CN109948700A (zh) 用于生成特征图的方法和装置
CN108898186A (zh) 用于提取图像的方法和装置
US20190087683A1 (en) Method and apparatus for outputting information
CN107644209A (zh) 人脸检测方法和装置
CN108509915A (zh) 人脸识别模型的生成方法和装置
CN109740018A (zh) 用于生成视频标签模型的方法和装置
CN107633218A (zh) 用于生成图像的方法和装置
CN109800732A (zh) 用于生成漫画头像生成模型的方法和装置
CN110288049A (zh) 用于生成图像识别模型的方法和装置
CN109902659A (zh) 用于处理人体图像的方法和装置
CN109829432A (zh) 用于生成信息的方法和装置
CN109815365A (zh) 用于处理视频的方法和装置
CN108960316A (zh) 用于生成模型的方法和装置
CN109360028A (zh) 用于推送信息的方法和装置
CN109410253B (zh) 用于生成信息的方法、装置、电子设备和计算机可读介质
CN108509892A (zh) 用于生成近红外图像的方法和装置
CN108491823A (zh) 用于生成人眼识别模型的方法和装置
CN109947989A (zh) 用于处理视频的方法和装置
CN108960110A (zh) 用于生成信息的方法和装置
CN109961032A (zh) 用于生成分类模型的方法和装置
CN110427915A (zh) 用于输出信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

CP01 Change in the name or title of a patent holder