神经网络系统以及图像信号、数据处理的方法
技术领域
本发明涉及神经网络技术领域,尤其涉及一种神经网络系统以及图像信号、数据处理方法。
背景技术
人工智能和机器学习已经广泛地应用在计算机图像处理领域,智能地进行图像分类、匹配检索、目标识别以及内容理解等,其中图像检索是常常面对的问题。
例如,现有的绘本阅读机器人提供绘本阅读功能,该功能的最前端入口为调用摄像头对视野范围内的绘本书页做图像检索,即和数据库中的书页图片做匹配以寻找书页的母本。
由于现有的绘本阅读机器人在进行图像检索任务时,对图片特征提取的步骤多是基于传统尺度不变特征转换(Scale-invariant feature transform,SIFT)的方案,相对缺乏对图像语义信息的利用,检索结果缺乏语义一致性。
发明内容
为了解决上述问题,本发明提供一种神经网络系统以及图像信号、数据处理方法,利用多级注意力层的机制使得神经网络系统可以更好的同时利用图像的浅层特征(基本像素特征)和深层特征(语义特征),提取不同尺度的关键点以及对应的局部特征,无需进行多次图片尺度缩放并进行多次前馈,大大减少了时间和计算成本;同时在通道特征注意力层中引入的变换层为局部特征提供了抗局部形变的能力,使得最终提取的局部特征同样具有抗局部形变的能力。
本发明实施例提供一种神经网络系统,包括:
多级第一神经网络层和多级第二神经网络层;
所述多级第一神经网络层之间连接,所述多级第二神经网络层之间连接,每级第一神经网络层与对应级的第二神经网络层连接;
每级第一神经网络层,用于对输入信号进行神经网络处理得到对应的当前级第一特征图,将所述当前级的第一特征图发送给相邻的下一级第一神经网络层,以及将所述当前级的第一特征图发送给与其连接的对应级的第二神经网络层;
其中,当前级为第一级,则所述输入信号为输入层输入的输入信号,若当前级不是第一级,则所述输入信号为上一级第一神经网络层输出的第一特征图,即上一级的第一特征图;
每级第二神经网络层,用于接收与其连接的对应级的第一神经网络层输出的所述当前级的第一特征图,以及接收相邻的上一级第二神经网络层输出的上一级的第二特征图,对所述当前级的第一特征图和上一级的第二特征图进行神经网络处理,得到当前级的第二特征图,并将所述当前级的第二特征图发送给相邻的下一级第二神经网络层。
可选地,所述第一神经网络层包括卷积层,所述第二神经网络层包括空间注意力层。
可选地,所述系统包括:
N级卷积层和N级空间注意力层,其中,N大于等于2;
第K级卷积层分别与第K-1级卷积层和K+1级卷积层以及第K级空间注意力层连接,第K级空间注意力层分别与第K级卷积层,第K-1级空间注意力层和K+1级空间注意力层连接,其中,1≤K≤N-1;
第K级卷积层用于对输入信号进行卷积操作得到第K级卷积特征图,将所述第K级卷积特征图发送给第K级空间注意力层和第K+1级卷积层;
当K为1时,所述输入信号为输入层输入的输入信号,当K大于1时,则所述输入信号为第K-1级卷积层卷积操作后输出的特征图,即第K-1级卷积特征图;
第K级空间注意力层用于对第K级卷积特征图和第K+1级注意力特征图进行空间注意力特征提取后输出第K级空间特征图,并将第K级空间特征图发送给第K-1级空间注意力层;
其中,第K级卷积特征图为第K级卷积层输出的特征图,第K+1级空间特征图为第K+1级空间注意力层输出的特征图。
可选地,第N级空间注意力层分别与第N级卷积层和第N-1级空间注意力层连接,对第N级卷积层输出的第N卷积特征图进行空间注意力特征提取后输出第N级空间特征图,并将第N级空间特征图发送给第N-1级空间注意力层。
可选地,所述空间注意力层,还用于采样第K+1级空间注意力层输出的特征图,即第K+1级空间特征图;利用集连操作将第K+1级空间特征图和第K级卷积特征图合并为一个通道数为2的特征图;对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,输出第K级空间特征图。
可选地,所述的系统还包括:N级通道特征注意力层;
每一级通道特征注意力层与其对应级的卷积层连接;用于对其对应级的卷积层输出的卷积特征图进行局部特征编码后输出对应级的通道特征图。
可选地,所述的系统还包括:
乘法模块,用于分别对每一级的通道特征图和每一级的空间特征图进行元素相乘操作得到N级注意力特征图;
输出层,用于对乘法模块输出的N级注意力特征图统一输出得到N级注意力特征图的特征向量。
可选地,每一级通道特征注意力层包括转换层;
其中,每一级通道特征注意力层的转换层对其对应级的卷积特征图的特征维度进行注意力加权选取,将所述卷积特征图通道数压缩到D,D为一个指定的数值。
本申请提供一种基于神经网络系统的图像信号处理的方法,包括:
对输入信号进行当前级第一神经网络处理得到对应的当前级的第一特征图;
对当前级的第一特征图和上一级的第二特征图进行当前级第二神经网络处理得到对应的当前级的第二特征图;
对每一级第二神经网络处理得到的第二特征图进行输出得到一个统一特征向量的输出信号;
其中,当前级为第一级,则所述输入信号为输入层输入的输入信号,若当前级不是第一级,则所述输入信号为上一级第一神经网络层处理输出的第一特征图,即上一级的第一特征图;
上一级的第二特征图为上一级第二神经网络层处理输出的第二特征图。
可选地,所述第一神经网络层包括进行卷积操作的卷积层,所述第二神经网络层包括进行空间注意力特征提取的空间注意力层。
可选地,所述方法还包括:
对输入信号进行卷积操作输出第K级卷积特征图,1≤K≤N-1,N大于等于2,当K为1时,所述输入信号为输入层输入的输入信号,当K大于1时,则所述输入信号为第K-1级卷积层进行卷积操作后输出的卷积特征图;
对第K级卷积特征图和第K+1级空间特征图进行空间注意力特征提取后输出第K级空间特征图;其中,第K+1级空间特征图为第K+1级空间注意力层输出的特征图。
可选地,所述的方法还包括:
对第N级卷积特征图进行空间注意力特征提取得到第N级空间特征图,其中,第N级卷积特征图是对第N-1级卷积特征图进行卷积处理后输出的特征图。
可选地,对第K级卷积特征图和第K+1级空间特征图进行空间注意力特征提取后输出第K级空间特征图,包括:
将第K+1级空间特征图和第K级卷积特征图进行集连操作合并为一个通道数为2的特征图;
对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,输出第K级空间特征图。
可选地,所述的方法还包括:
对每一级卷积特征图进行局部特征编码后输出对应级的通道特征图;
将每一级通道特征图和其对应级的空间特征图进行元素相乘操作,得到对应级的注意力特征图;
将每一级注意力特征图统一输出得到N级注意力特征图的特征向量。
可选地,对每一级卷积特征图进行局部特征编码后输出对应级的通道特征图,包括:
对每一级卷积特征图的特征维度进行注意力加权选取,将所述卷积特征图通道数压缩到D,D为一个指定的数值。
本申请还提供一种基于神经网络结构的数据处理的方法,所述神经网络结构包括输入层,多级处理层和输出层;
其中,所述输入层适于输入数据;
所述处理层包括如上述的神经网络系统,用于对输入的数据进行处理得到多个空间特征图或者多个注意力特征图;
其中,所述空间特征图包括不同尺度的关键点信息,所述注意力特征图包括不同尺度的关键点信息以及对应的局部特征信息;
其中,所述输出层适于对所述处理层输出的多个空间特征图或者多个注意力特征图进行统一输出得到多个空间特征图或者多个注意力特征图的特征向量;
所述数据处理方法包括:
对输入层输入的数据进行处理,得到多个空间特征图或者多个注意力特征图;
对所述多个空间特征图或者多个注意力特征图进行统一输出得到所述多个空间特征图或者多个注意力特征图的特征向量。
可选地,对输入层输入的数据进行处理,得到多个空间特征图,包括:
将每一级卷积层输出的卷积特征图输入到对应级的空间注意力层;
将上一级空间注意力层输出的空间特征图输出到下一级空间注意力层;
根据对应级卷积层输入的卷积特征图和上一级空间注意力层输入的空间特征图,计算得到对应级空间注意力层输出的空间特征图。
可选地,所述的方法还包括:
当卷积层为第一级卷积层时,对输入层输入数据进行卷积操作得到第一级的卷积特征图;
当卷积层不是第一级卷积层时,对上一级卷积层输出的卷积特征图进行卷积操作得到对应级的卷积特征图;
当卷积层的级别越低,则输出的卷积特征图中包括基本要素信息,当卷积层的级别越高,则输出的卷积特征图中包括语义要素信息。
可选地,所述的方法还包括:
当空间注意力层为最后一级空间注意力层时,对最后一级卷积层输出的卷积特征图进行空间注意力特征提取计算得到最后一级的空间特征图。
可选地,所述的方法还包括:
当空间注意力层不是最后一级空间注意力层时,将上一级空间特征图和当前级卷积特征图进行集连操作合并为一个通道数为2的特征图;
对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,输出当前级空间特征图。
可选地,对输入层输入的数据进行处理,得到多个注意力特征图,包括:
将每一级卷积层输出的卷积特征图输入到对应级的通道特征注意力层;
对每一级卷积特征图进行局部特征编码后输出对应级的通道特征图;
将每一级通道特征图和其对应级的空间特征图进行元素相乘操作,得到对应级的注意力特征图;
将每一级的注意力特征图进行统一输出得到N级注意力特征图的特征向量。
本申请还提供一种服务器,包括:存储器、处理器以及通信组件;
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器和所述通信组件耦合,用于执行计算机程序,以用于执行上述图像信号或者数据处理方法所述的步骤或操作。
本申请提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时能够实现上述图像信号或数据处理方法所述的步骤或操作。
本申请还提供一种基于神经网络结构的数据处理的方法,所述神经网络结构包括输入层,N级处理层和输出层;
其中,第K级所述处理层包括:
卷积层,其中,所述卷积层适用于根据输入数据计算得到对应级的卷积特征图;其中,输入数据包括输入层输入的数据或K-1级处理层输出的卷积特征图;
空间注意力层,其中,所述空间注意力层适用于根据对应级卷积层输出的卷积特征图和K+1级处理层输出的空间特征图,计算得到对应级的空间特征图;
其中,N为>2的自然数,1<K<N;
所述神经网络结构的输出层,适于对至少两个空间特征图进行处理,统一输出所述至少两个空间特征图的特征向量;
所述数据处理方法包括:
采集图像数据;
输入所述采集的图像数据到输入层;
将所述图像数据输入至N级处理层进行处理,得到所述图像数据的N级空间特征图;
将所述图像数据的N级空间特征图统一输出得到所述N级空间特征图的特征向量;
将所述N级空间特征图的特征向量与预先处理的所述图像数据的特征向量进行匹配,得出匹配结果。
本申请还提供一种基于神经网络结构的数据处理的方法,所述神经网络结构包括输入层,N级处理层和输出层;
其中,第K级所述处理层包括:
卷积层,其中,所述卷积层适用于根据输入数据计算得到对应级的卷积特征图;其中,输入数据包括输入层输入的数据或K-1级处理层输出的卷积特征图;
空间注意力层,其中,所述空间注意力层适用于根据对应级卷积层输出的卷积特征图和K+1级处理层输出的空间特征图,计算得到对应级的空间特征图;
通道特征注意力层,适用于根据对应级卷积层输出的卷积特征图,及打算得到对应级的通道特征图;
乘法模块,适用于对N级空间特征图和N级通道特征图进行元素相乘得到N级注意力特征图;
其中,N为>2的自然数,1<K<N;
所述神经网络结构的输出层,适于对至少两个注意力特征图进行处理,统一输出所述至少两个注意力特征图的特征向量;
所述数据处理方法包括:
采集图像数据;
输入所述采集的图像数据到输入层;
将所述图像数据输入至N级处理层进行处理,得到所述图像数据的N级注意力特征图;
将所述图像数据的N级注意力特征图统一输出得到所述N级注意力特征图的特征向量;
将所述N级注意力特征图的特征向量与预先处理的所述图像数据的特征向量进行匹配,得出匹配结果。
本发明实施例应用的神经网络系统,采用分级空间注意力层的反向连接方式(即与神经网络中卷积层间信号传播方向相反的方向),每个注意力层都可以提取其输入特征图(即卷积层输出的特征图和上级注意力层输出的特征图)尺度上的关键点信息,结合多个注意力层即可让网络可以更好的同时利用图像的浅层特征(基本像素特征)和深层特征(语义特征),提取不同尺度的关键点以及对应的局部特征,无需进行多次图片尺度缩放并进行多次前馈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-a为本发明一实施例提供的神经网络系统的结构示意图;
图1-b为本发明另一实施例提供的神经网络系统的结构示意图;
图2为本发明实施例提供的一种空间注意力层结构示意图;
图3为现有的神经网络系统结构示意图;
图4为本发明另一实施例提供的神经网络系统的结构示意图;
图5为本发明实施例通道特征注意力层的结构示意图;
图6为现有的通道特征注意力层和空间注意力层的连接示意图;
图7为本发明采用的通道特征注意力层和空间注意力层的连接示意图;
图8-a为本发明一实施例提供的基于神经网络系统进行图像信号处理的方法流程示意图;
图8-b为本发明另一实施例提供的基于神经网络系统进行图像信号处理的方法流程示意图;
图9为本发明另一实施例提供的基于神经网络系统进行图像信号处理的方法流程示意图;
图10为一种输入信号为图像原图;
图11为现有技术的神经网络系统提取图像关键点的分布示意图;
图12为本发明的神经网络系统提取图像关键点的分布示意图;
图13为本发明实施例提供的一种神经网络结构示意图;
图14为本发明实施例提供的基于神经网络结构的数据处理方法的流程示意图;
图15为本发明实施例提供的服务器的结构示意图;
图16为本发明实施例提供的一种基于神经网络结构示意图;
图17为本发明实施例提供的一种基于神经网络结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
在实现本申请的过程中,发明人发现:
基于传统图像处理算法的图像局部特征关键点检测方法中,传统图像中对关键点的检测多基于人为设计的滤波掩码,及原始或滤波后的图像像素值的局部梯度变化来确定是否为关键点,存在以下缺点:
a.滤波掩码的设计无法有针对性的适应数据的分布以及任务目标场景;
b.无法结合图片的语义信息。
术语解释:
尺度不变特征转换(Scale-invariant feature transform,SIFT)是用于图像处理领域的一种局部特征描述子,这种描述具有尺度不变性且可在图像中检测出关键点,SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关,对与光线、噪声、些微视角改变的容忍度也相当高。
图像局部特征:一般为一个向量,指通过一定方法对图像的某个区域进行编码的结果。该向量被视作对应图像区域的描述,可以通过对比不同向量间的异同来体现不同区域的异同。
图像关键点/关键点:一般为图像上一个具体的像素点或者一个区域,指整张图片中具有代表性的点,通过不同图片间的关键点的特征可以描述不同图片的异同。
神经网络:模拟人脑的神经元连接结构所构建的数学模型,用于对输入信号进行逐层操作而转换得到输出信号。常见输入信号包括二维矩阵、三维矩阵等(例如图像数据,语音数据)。
卷积网络:主要由卷积操作层所组成的神经网络。
特征图(feature map):卷积网络中对一个卷积层的输出的称呼。由于卷积网络一般用于操作图片输入,特征图也意为通过一个卷积层对输入信号(图片或者前一个卷积层的输出特征图)进行编码所得到的图片特征的结果。特征可以包括基本要素,例如角点,边缘等,也可为经由多个卷积层后所得到的语义信息,例如鼻子,手,门,窗等。注意,并非卷积层会直接输出“鼻子”,而是特征图中对应原图里“鼻子”位置的信号会强于其它位置的信号,从而被认为是卷积层对“鼻子”进行了选取,在特征图中将“鼻子”的信息进行了编码,一般维度为C x W x H。
注意力机制:神经网络中的一种卷积层,目的为输出特定尺度的特征图,一般维度为1 x W x H:用于对一般特征图不同位置的特征信息进行选取。
损失函数:一个函数,输入为神经网络的输出和相应的实际结果,输出为一个量化的差异分数。
监督式训练:在训练神经网络时,每个输出的质量由和应用场景直接相关的损失函数来评定,差异结果作为信号返回网络。
弱监督式训练:在训练神经网络时,每个输出的质量由和应用场景间接相关的损失函数来评定,差异结果作为信号返回网络。
高层/底层:神经网络中,某一层的底层为从输入信号到输出信号方向的第一层(或者第一级)。而高层为从输入信号到输出信号方向的最后一层(或者最后一级)。
浅层/深层:神经网络中,相对靠近输入信号的层称为浅层,相对靠近输出信号的层称为深层。
图1-a为本发明一实施例提供的神经网络系统的结构示意图,如图1-a所示,包括:
多级第一神经网络层和多级第二神经网络层;
所述多级第一神经网络层之间连接,所述多级第二神经网络层之间连接,每级第一神经网络层与对应级的第二神经网络层连接;
每级第一神经网络层,用于对输入信号进行神经网络处理得到对应的当前级第一特征图,将所述当前级的第一特征图发送给相邻的下一级第一神经网络层,以及将所述当前级的第一特征图发送给与其连接的对应级的第二神经网络层;
其中,当前级为第一级,则所述输入信号为输入层输入的输入信号,若当前级不是第一级,则所述输入信号为上一级第一神经网络层输出的第一特征图,即上一级的第一特征图;
每级第二神经网络层,用于接收与其连接的对应级的第一神经网络层输出的所述当前级的第一特征图,以及接收相邻的上一级第二神经网络层输出的上一级的第二特征图,对所述当前级的第一特征图和上一级的第二特征图进行神经网络处理,得到当前级的第二特征图,并将所述当前级的第二特征图发送给相邻的下一级第二神经网络层。
基于图1-a所示的神经网络系统,图1-b为本发明另一实施例提供的神经网络系统的结构示意图,如图1-b所示:第一神经网络层包括卷积层,第二神经网络层包括空间注意力层,所述第一特征图包括卷积特征图,所述第二特征图包括空间特征图。
在一种可选的实施方式中,所述系统包括:
N级卷积层和N级空间注意力层,其中,N大于等于2;
第1级卷积层分别与第2级卷积层和第1级空间注意力层连接,第1级空间注意力层分别与第1级卷积层和第2级空间注意力层连接;
以此类推,第K级卷积层分别与第K-1级卷积层、第K+1级卷积层和第K级空间注意力层连接,第K级空间注意力层分别与第K级卷积层,第K-1级空间注意力层和第K+1级空间注意力层连接,其中,1≤K≤N-1;
需要说明的是,由于第N级是最后一层,因此第N级卷积层分别与第N-1级卷积层和第N级空间注意力层连接,第N级空间注意力层分别与第N-1级空间注意力层分和第N级卷积层。
本发明实施例中,第K级卷积层,用于对输入信号进行卷积操作得到第K级卷积特征图,将所述第K级卷积特征图发送给第K级空间注意力层和第K+1级卷积层;
其中,当K为1时,则所述输入信号为输入层输入的输入信号,该输入信号可以是图像信号;
其中,当K大于1时,则所述输入信号为第K-1级卷积层卷积操作后输出的卷积特征图,即第K-1级卷积特征图;
本发明实施例中,第K级空间注意力层,用于对第K级卷积特征图和第K+1级注意力特征图进行空间注意力特征提取后输出第K级空间特征图,并将第K级空间特征图发送给第K-1级空间注意力层;
其中,第K级卷积特征图为第K级卷积层输出的特征图,第K+1级空间特征图为第K+1级空间注意力层输出的特征图;
其中,K越小,则第K级卷积特征图包括基本要素信息,K越大,则第K级卷积特征图包括语义要素信息;所述空间特征图包括不同尺度的关键点信息。
举例来说,当N为4时,即存在4级卷积层和4级空间注意力层,优选地,本发明实施例中,从第1级卷积层至第4级卷积层依次为从浅层至深层的信号传输方向。
第1级卷积层对输入层输入信号进行卷积操作输出第1级卷积特征图,并将第1级卷积特征图分别发送给第2卷积层和第1级空间注意力层;
第2卷积层对第1级卷积特征图进行卷积操作输出第2级卷积特征图,将第2级卷积特征图分别发送给第3卷积层和第2级空间注意力层;
第3卷积层对第2级卷积特征图进行卷积操作输出第3级卷积特征图,将第3级卷积特征图分别发送给第4卷积层和第3级空间注意力层;
第4卷积层(最后一级卷积层)对第3级卷积特征图进行卷积操作输出第4级卷积特征图,将第4级卷积特征图发送给第4级空间注意力层。
对应地,本发明实施例中,从第4级空间注意力层至第1级空间注意力层依次为深层至浅层的信号传输方向。其中,浅层到深层统一按照神经网络卷积层的输入信号传输方向来定义,所以空间注意力层的反向连接是由深层到浅层。
第4级空间注意力层对第4级卷积特征图进行空间注意力特征提取后输出第4级空间特征图,将第4级空间特征图发送给第3级空间注意力层;
第3级空间注意力层对第3级卷积特征图和第4级空间特征图进行空间注意力特征提取后输出第3级空间特征图,并将第3级空间特征图发送给第2级空间注意力层;
第2级空间注意力层对第2级卷积特征图和第3级空间特征图进行空间注意力特征提取后输出第2级空间特征图,并将第2级空间特征图发送给第1级空间注意力层;
第1级空间注意力层对第1级卷积特征图和第2级空间特征图进行空间注意力特征提取后输出第1级空间特征图。
可选地,如图1-b所示,本发明实施例的神经网络系统还包括:
输出层,用于对N级空间特征图进行统一输出得到N级空间特征图的特征向量;
可选地,如图1-b所示,本发明实施例的神经网络系统还包括:
损失函数,用于将输出层输出的特征向量和预先处理的输入信号的特征向量进行差异化的量化计算,即将输出层输出的特征向量与数据库中预先处理的输入信号的特征向量进行匹配。
在实际应用中,例如,在绘本阅读机器人提供的绘本阅读功能应用中,该功能的最前端入口为调用摄像头对视野范围内的绘本书页做图像检索,即和数据库中的书页图片做匹配以寻找书页的母本。其中,数据库中的书页图片(以特征向量的形式保存)是预先对母本图片进行处理得到特征向量。而最前端入口为调用摄像头对视野范围内的绘本书页进行拍摄或扫描,其实就是采集图片并输入采集的图片至输入层,输入层将图片输入至图1-b所示的多级卷积层和多级空间注意力层进行神经网络的深度学习和处理得到多级空间特征图,将多级空间特征图统一输出得到该多级空间特征图的特征向量,将该多级空间特征图的特征向量和数据库中预先处理母本图片的特征向量进行匹配得到匹配结果(即图片匹配结果)。
其中,损失函数Loss可以根据场景需求设计评估神经网络系统输出层最终输出信号质量的量化函数。例如,损失函数可以是一个形式为loss=G(y’-y)的函数,其中G为某种代价计算函数如交叉熵函数(cross-entropy loss function),最大间隔函数(max-marginloss function)等。而y=F(x),其中x代表神经网络的输入信号,y代表神经网络处理x后得到的输出信号,F代表神经网络中的所有参数。y’为x对应的实际输出信号。例如,在图片分类任务中,如果x为一张图片,则y为神经网络输出的分类结果,形式一般为一维向量,其中每一个元素代表了输入图片属于该元素所代表的图片类别的概率。y’为x实际的类别,一般表示为one-hot向量,其中除代表图片实际类别的元素值为1,其它元素值均为0。
需要说明的是,通常一个卷积层由若干个卷积单元组成,而每个卷积单元中一般包含卷积层,归一化层和激活层。单个卷积层的输入信号通常为维度为Cin x Win x Hin的特征图,输出信号为Cout x Hout x Wout的特征图,Cin、Cout分别代表输入和输出特征图的通道数,Win、Wout与Hin、Hout分别为输入和输出特征图的宽与高。卷积层中的每一个卷积单元的输入及输出也同样为卷积特征图。
其中,卷积层还包括一些典型变体,例如,残差卷积层,该种模块将输出信号与输入信号相叠加以保留更多的输入信息;稠密卷积层,该模块将卷积层中若干个卷积单元的输出信号上与指定的输入信号相叠加,相当于一般化的残差卷积层;Inception模块,其使用多路并行的卷积单元而非串联的单路卷积单元,以兼顾多尺度上的输入特征。
其中,卷积层是卷积神经网络CNN中最为基础和重要的网络层,用于对图像进行卷积处理。卷积处理是对图像进行分析常常采用的一种处理操作。具体地,卷积处理是使用一个卷积核,对图像中的每个像素进行一系列操作。卷积核(算子)是用来做图像处理时的矩阵,是与原图像素做运算的参数。卷积核通常是一个四方形的网格结构(例如3*3的矩阵或像素区域),每个网格都有一个权重值。使用卷积核对图片进行卷积计算时,将卷积核在图片的像素矩阵上滑动,每滑动一个步长,对卷积核中每个元素和其覆盖的图像像素值进行乘积并求和,如此得到的新的特征值矩阵构成卷积特征图,即feature map。卷积运算可以从原始图片的像素矩阵中,提取出抽象的特征,根据卷积核的设计,这些抽象特征例如可以反映,原始图片中一个区域的线条形状、颜色分布等更加全局的特征。
需要说明的是,由于分级的空间注意力层的输入信号中主要信息来自神经网络系统的卷积层的输出特征图,其输出信号的维度与该卷积层输出的特征图维度强相关,而又由于池化层的存在和/或卷积层的设计,不同卷积层的输出特征图的维度一般不相同,从而使得不同分级空间注意力层中的特征图维度也并不相同。
因此,本发明实施例中,每个空间注意力层可以设计有采样层、集连层和通道压缩层(实际应用中可以采用卷积层实现通道压缩);
其中,每一级空间注意力层上的采样层,用于采样上一级空间注意力层输出的特征图,例如,第K级空间注意力层的上采样层用于采样第K+1级空间注意力层输出的特征图,即第K+1级空间特征图。
每一级空间注意力层上的集连层,用于将采样的上一级空间特征图和当前级的卷积特征图通过集连操作合并为一个通道数为2的特征图;例如,第K级空间注意力层的集连层,利用集连操作将第K+1级空间特征图和第K级卷积特征图合并为一个通道数为2的特征图。
每一级空间注意力层上的通道压缩层,对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,即输出空间特征图。
图2为本发明实施例提供的一种空间注意力层结构示意图,如图2所示,为了适应不同的特征图维度,每个空间注意力层有两个输入信号,其一为从当前级卷积层输入的卷积特征图,其二为从其高层(深层)空间注意力层输出的空间特征图。其中,卷积层输入的卷积特征图所连接的两个卷积层将输入的卷积特征图的通道数处理至1。
其中,上采样层负责将从底层(浅层)分级空间注意力层输入的空间特征图缩放到合适的维度。上采样层可以采用常规的上采样算法,例如Bi-cubic sample或反卷积层(DeConvolutional layer)。
之后,使用集连操作将经卷积层处理后的卷积特征图和经上采样后的注意力特征图合并为一个通道数为2的特征图,最后使用一个或若干个卷积层,再次对通道数为2的特征图进行信号压缩,将通道数压缩为1,即为该分级注意力层输出的空间特征图。
需要说明的是,图3为现有的神经网络系统结构示意图,如图3所示,只有单一空间注意力层,或者有多个空间注意力层,但是多个空间注意力层互相之间并无直接连接。即不同卷积层上搭建的空间注意力层之间并无连接,相当于每个空间注意力层只能基于当前卷积层的输出的特征图来提取注意力特征图,而无法利用其它卷积层的输出的特征图。因此,当前分级空间注意力层的输出信号不能反馈给其顶层的分级空间注意力层。这种设计不能让相对高层语义要素的位置信息和相对低层基本要素的位置信息相互作用,不能充分利用语义要素的位置信息来引导基本要素位置信息的搜索和学习,从而也不能用基本要素的位置信息来约束语义要素的选择,导致不能更好的、适应多尺度的图像关键点选取。现有技术中的注意力机制过于简单,无法兼顾不同尺度的关键点信息,例如,当多张图片中,相同物体以不同的尺度(占整张图片的比例)出现时,无法较好的提取该物体在不同尺度下的关键点信息,需要在训练时进行数据增强以弥补尺度上的缺失,大大增加训练成本。同时在实际使用时,也需要对单张图片进行缩放并进行计算以得到不同尺度下的关键点,增加了时间和计算成本。
而如图1-a和1-b所示,本发明实施例采用分级的空间注意力层(HierarchicalSpatial attention),以及与神经网络的卷积层间信号传播方向相反的方向将多个分级的空间注意力层相连接。由于在神经网络系统中,浅层卷积提取图像基本要素,如边缘、角点等,而深层卷积则在基本信息之上提取语义级要素(具体会根据场景不同训练数据不同而改变),如门,窗,人脸等。如图1-a和1-b所示,在卷积层上搭建空间注意力层,即将某个卷积层的输出特征图作为某空间注意力层的输入,每一个分级空间注意力层的输入信号不仅包括其对应卷积层(底层或浅层)的输出特征图,也包括其高级空间注意力层的输出特征图,而当前分级空间注意力层的输出信号则会反馈给其底层(浅层)的空间注意力层。这种设计让相对高层语义要素的位置信息和相对低层基本要素的位置信息相互作用,不仅可以充分利用语义要素的位置信息来引导基本要素位置信息的搜索和学习,并且可以用基本要素的位置信息来约束语义要素的选择,从而达到更好的、适应多尺度的图像关键点选取。
图4为本发明另一实施例提供的神经网络系统的结构示意图,如图4所示,包括:
N级卷积层、N级通道特征注意力层和N级空间注意力层,其中,N大于等于2;
第1级卷积层分别与第2级卷积层、第1级通道特征注意力层和第1级空间注意力层连接,第1级空间注意力层分别与第1级卷积层和第2级空间注意力层连接;
以此类推,第K级卷积层分别与第K-1级卷积层、第K+1级卷积层、第K级通道特征注意力层和第K级空间注意力层连接,第K级空间注意力层分别与第K级卷积层,第K-1级空间注意力层和第K+1级空间注意力层连接,其中,1≤K≤N-1;
需要说明的是,由于第N级是最后一层,第N级卷积层分别与第N-1级卷积层、第N级通道特征注意力层和第N级空间注意力层连接,第N级空间注意力层分别与第N-1级空间注意力层分和第N级卷积层。
本发明实施例中,其中,第K级卷积层,用于对输入信号进行卷积操作得到第K级卷积特征图,将所述第K级卷积特征图发送给第K级通道特征注意力层、第K级空间注意力层和第K+1级卷积层;
其中,当K为1时,则所述输入信号为输入层输入的输入信号,该输入信号可以是输入图像;
其中,当K大于1时,则所述输入信号为第K-1级卷积层卷积操作后输出的卷积特征图,即第K-1级卷积特征图;
其中,第K级通道特征注意力层,用于对第K级的卷积层输出的卷积特征图进行局部特征编码后输出第K级通道特征图。其中,所述通道特征图包括不同位置的局部特征信息。
也就是说,本发明实施例中,每一级通道特征注意力层与其对应级的卷积层连接;用于对其对应级的卷积层输出的卷积特征图进行局部特征编码后输出对应级通道特征图
其中,第K级空间注意力层,用于对第K级卷积特征图和第K+1级注意力特征图进行空间注意力特征提取后输出第K级空间特征图,并将第K级空间特征图发送给第K-1级空间注意力层;
其中,第K级卷积特征图为第K级卷积层输出的特征图,第K+1级空间特征图为第K+1级空间注意力层输出的特征图;
如图4所示,本发明实施例神经网络系统中还包括:
乘法模块,用于分别对每一级的通道特征图和每一级的空间特征图进行元素相乘操作,得到对应级的注意力特征图,所述注意力特征图包括不同尺度的关键点信息以及对应的局部特征信息;
输出层,用于对乘法模块输出的N级注意力特征图进行集连操作,统一输出得到N级注意力特征图的特征向量。
损失函数,用于对所述输出层统一输出的特征向量和预先处理的输入信号的特征向量进行差异化的量化计算。其中,损失函数Loss可以根据场景需求设计评估神经网络系统输出层最终输出信号质量的量化函数。
例如,在绘本阅读机器人提供的绘本阅读功能应用中,该功能的最前端入口为调用摄像头对视野范围内的绘本书页做图像检索,即和数据库中的书页图片做匹配以寻找书页的母本。其中,数据库中的书页图片(特征向量的形式保存)是预先对母本图片进行处理得到特征向量。而最前端入口为调用摄像头对视野范围内的绘本书页进行拍摄或扫描,其实就是采集图片并输入采集的图片至输入层,输入层将图片输入至图4所示的多级卷积层、多级通道特征注意力层和多级空间注意力层进行神经网络的深度学习和处理得到多级注意力特征图,将多级注意力特征图统一输出得到该多级注意力特征图的特征向量,将该多级注意力特征图的特征向量和数据库中预先处理母本图片的特征向量进行匹配得到匹配结果(即图片匹配结果)。
举例来说,当N为3时,即存在3级卷积层、3级通道特征注意力层和3级空间注意力层。
优选地,本发明实施例中,从第1级卷积层至第3级卷积层依次为从浅层至深层的方向。
第1级卷积层对输入层输入信号(如图片)进行卷积操作输出第1级卷积特征图,并将第1级卷积特征图分别发送给第2卷积层、第1级通道特征注意力层和第1级空间注意力层;
第2卷积层对第1级卷积特征图进行卷积操作输出第2级卷积特征图,将第2级卷积特征图分别发送给第3卷积层、第2级通道特征注意力层和第2级空间注意力层;
第3卷积层对第2级卷积特征图进行卷积操作输出第3级卷积特征图,将第3级卷积特征图分别发送给第3级通道特征注意力层和第3级空间注意力层;
优选地,本发明实施例中,从第3级空间注意力层至第1级空间注意力层依次为深层从至浅层的方向。
第3级空间注意力层对第3级卷积特征图进行空间注意力特征提取后输出第3级空间特征图,将第3级空间特征图发送给第2级空间注意力层;
第2级空间注意力层对第2级卷积特征图和第3级空间特征图进行空间注意力特征提取后输出第2级空间特征图,并将第2级空间特征图发送给第1级空间注意力层;
第1级空间注意力层对第1级卷积特征图和第2级空间特征图进行空间注意力特征提取后输出第1级空间特征图;
对应地,第1级通道特征注意力层,对第1级的卷积层输出的第1级卷积特征图进行局部特征编码后输出第1级通道特征图;
第2级通道特征注意力层,对第2级的卷积层输出的第2级卷积特征图进行局部特征编码后输出第2级通道特征图;
第3级通道特征注意力层,对第3级的卷积层输出的第3级卷积特征图进行局部特征编码后输出第3级通道特征图;
乘法模块,分别将第1级通道特征图和第1级空间特征图进行元素相乘输出第1级注意力特征图;将第2级通道特征图和第2级空间特征图进行元素相乘输出第2级注意力特征图;将第3级通道特征图和第3级空间特征图进行元素相乘输出第3级注意力特征图。
需要说明的是,图5为本发明实施例通道特征注意力层的结构示意图,如图5所示,通道特征注意力层使用卷积层以及转换层(Transform layer),卷积层以及转换层之间的先后顺序本发明不做任何限制。其中,转换层的实现可以使用空间转换网络(SpatialTransform Network)或可变形卷积层(Deformable Convolutional Layer)。
本发明中的通道特征注意力层的目的在于对输入图像信号所有位置的局部特征进行编码。每级通道特征注意力层使用对应级卷积层输出的卷积特征图作为输入图像,对输入图像所有位置的局部特征进行编码后,输出一个新的通道特征注意力图,该通道特征注意力图中的每个位置即对应输入图像中相应区域的局部特征编码结果。其中,输入的卷积特征图尺度为C x Win x Hin,输出的通道特征注意力图尺度为D x Win x Hin,其中D为一个指定的数值,例如128或256,即为该通道特征注意力层输出的每一个图片局部特征的长度。
因此,本发明实施例中,每一级通道特征注意力层中的转换层在对输入的卷积特征图进行卷积操作并生成所需要的局部特征编码(维度D x Win x Hin)的过程中,隐式的对特征维度进行注意力加权选取,将通道数从C压缩到D。
需要说明的是,图6为现有的通道特征注意力层和空间注意力层的连接示意图,如图6所示,由于通道特征注意力层和空间注意力层串行单向使用,在这种串行使用情况下,通道特征注意力层的局部特征的编码语义信息从通道特征注意力层传向空间注意力层的传播,可以指导空间注意力层的空间注意力特征的关键点的选取,反之,空间注意力层的空间注意力特征的关键点则无法反馈给通道特征注意力层的局部特征编码,从而无法引导由空间注意力层所决定的有用的关键点位置的局部特征被更好的学习,进而使得损失函数的反馈无法分别有效被两种注意力层(即通道特征注意力层和空间注意力层)用于更新参数,因此会降低注意力特征图的输出效果。
而图7为本发明采用的通道特征注意力层和空间注意力层的连接示意图,如图7所示,由于通道特征注意力层和空间注意力层以并联的方式使用,在并联的情况下,可以分别让通道特征注意力层和空间注意力层都可以依据损失函数的反馈中更新参数以达到更好输出的注意力特征图。
需要说明的是,本发明实施例中各分级空间注意力层的连接方式包括:
反向层级式连接,即与神经网络系统中卷积层间信号传播方向相反的方向将多个空间注意力层相连接,如图1-a和1-b所示。
复式连接,即并非单纯的按照从深层至浅层的顺序进行分级空间注意力层之间的连接,而是同时包括深层至浅层和浅层至深层的连接。同一个分级注意力层的输出信号可能只向浅层或只向深层输出,也可能同时向浅层和深层输出。
跳跃连接,即在分级空间注意力层的连接中跳过中间某个空间注意力层而直接连接其顶层和/或底层的空间注意力层。
可选地,本发明实施例中各分级空间注意力层连接时采用网络结构包括:
使用上采样顶层空间特征图后进行级联再通过卷积层;或者
上采样顶层空间特征图后直接进行相乘;或者
先进行级联后进行上采样顶层空间特征图,再经过卷积层。
图8-a为本发明一实施例提供的基于神经网络系统进行图像信号处理的方法流程示意图,如图8-a所示,包括:
001、对输入信号进行当前级第一神经网络处理得到对应的当前级的第一特征图;
本发明实施例采用图1-a所示的神经网络系统,关于该神经网络系统的详细内容可以参考上述图1-a所示实施例,不做赘述。
002、对当前级的第一特征图和上一级的第二特征图进行当前级第二神经网络处理得到对应的当前级的第二特征图;
003、对每一级第二神经网络处理得到的第二特征图进行统一输出得到多个第二特征图的特征向量的输出信号。
其中,当前级为第一级,则所述输入信号为输入层输入的输入信号,若当前级不是第一级,则所述输入信号为上一级第一神经网络层处理输出的第一特征图,即上一级的第一特征图;
上一级的第二特征图为上一级第二神经网络层处理输出的第二特征图。
在一种可选的实施方式中,上述第一神经网络层包括进行卷积操作的卷积层,第二神经网络层包括进行空间注意力特征提取的空间注意力层。
基于图8-a所示的方法,图8-b为本发明另一实施例提供的基于神经网络系统进行图像信号处理的方法流程示意图,如图8-b所示,包括:
101、对输入信号进行卷积操作输出第K级卷积特征图;
本发明实施例采用图1-b所示的神经网络系统,关于该神经网络系统的详细内容可以参考上述图1-b所示实施例,不做赘述。
该神经网络系统包括N级卷积层和N级空间注意力层,其中,1≤K≤N-1,N大于等于2,当K为1时,所述输入信号为输入层输入的输入信号;当K大于1时,则所述输入信号为第K-1级卷积层进行卷积操作后输出的卷积特征图;每一级卷积层对输入信号进行卷积操作输出对应级的卷积特征图。
102、对第K级卷积特征图和第K+1级空间特征图进行空间注意力特征提取后输出第K级空间特征图;
其中,第K+1级空间特征图为第K+1级空间注意力层输出的特征图。
根据图1所示的神经网络系统,第K级空间注意力层对第K级卷积特征图和第K+1级空间特征图进行空间注意力特征提取后输出第K级空间特征图,具体实现时,将第K+1级空间特征图和第K级卷积特征图进行集连操作合并为一个通道数为2的特征图;对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,输出第K级空间特征图。
需要说明的是,根据图1-b所示的神经网络系统,由于第N级是最有一层,所以第N级空间注意力层对第N级卷积特征图进行空间注意力特征提取得到第N级空间特征图,其中,第N级卷积特征图是第N级卷积层对第N-1级卷积特征图进行卷积处理后输出的特征图。
根据图1-b所示的神经网络系统,最后可以输出N级空间特征图的输出信号。
103、对N级空间特征图统一输出N级空间特征图的特征向量。
可选地,本发明实施例中还利用损失函数对N级空间特征图的特征向量和预先处理的输入信号的特征向量进行差异化的量化计算(即进行特征向量的匹配)。
其中,损失函数Loss可以根据场景需求设计评估神经网络系统输出层最终输出信号质量的量化函数,主要用于根据上述N级空间特征图预测输入层输入的输入信号的分类结果,进而根据输入信号的分类结果可以确定检索结果。
由于本发明实施例应用的神经网络系统,在卷积层上搭建空间注意力层,即将某个卷积层的输出特征图作为某空间注意力层的输入,每一个分级空间注意力层的输入信号不仅包括其对应级卷积层的输出特征图,也包括其高层(深层)空间注意力层的输出特征图,而当前分级空间注意力层的输出信号则会反馈给其底层(浅层)的空间注意力层。这种设计让相对高层语义要素的位置信息和相对低层基本要素的位置信息相互作用,不仅可以充分利用语义要素的位置信息来引导基本要素位置信息的搜索和学习,并且可以用基本要素的位置信息来约束语义要素的选择,从而达到更好的、适应多尺度的图像关键点选取。
本发明实施例采用的损失函数Loss为弱监督式训练,只需要输入信号(如图片)分类标签,无需对输入信号(如图片)triplet进行选取,将监督式训练中所采用的tripletloss改为基于图片分类准确性的弱监督式训练,从而大大减少了数据收集以及清洗上的难度。
图9为本发明另一实施例提供的基于神经网络系统进行图像信号处理的方法流程示意图;
201、对输入信号进行卷积操作输出第K级卷积特征图;
本发明实施例采用图4所示的神经网络系统,关于该神经网络系统的详细内容可以参考上述图4所示实施例,不做赘述。
该神经网络系统包括N级卷积层、N级通道特征注意力层和N级空间注意力层;其中,1≤K≤N-1,N大于等于2,当K为1时,所述输入信号为输入层输入的输入信号;当K大于1时,则所述输入信号为第K-1级卷积层进行卷积操作后输出的卷积特征图;
具体地,根据图4所示的系统,每一级卷积层对输入信号进行卷积操作输出对应级卷积特征图。
202、对第K级卷积特征图进行局部特征编码后输出第K级通道特征图;
根据图4所示的神经网络系统,每一级通道特征注意力层对每一级卷积特征图进行局部特征编码后输出对应级的通道特征图;
203、对第K级卷积特征图和第K+1级空间特征图进行空间注意力特征提取后输出第K级空间特征图;
其中,第K+1级空间特征图为第K+1级空间注意力层输出的特征图。
根据图4所示的神经网络系统,第K级空间注意力层对第K级卷积特征图和第K+1级空间特征图进行空间注意力特征提取后输出第K级空间特征图,包括:具体实现时,
将第K+1级空间特征图和第K级卷积特征图进行集连操作合并为一个通道数为2的特征图;对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,输出第K级空间特征图。
需要说明的是,根据图4所示的神经网络系统,第N级是最后一层,第N级空间注意力层对第N级卷积特征图进行空间注意力特征提取得到第N级空间特征图,其中,第N级卷积特征图是第N级卷积层对第N-1级卷积特征图进行卷积处理后输出的特征图。
204、将每一级通道特征图和其对应级的空间特征图进行元素相乘操作,得到对应级的注意力特征图;
根据图4所示的神经网络系统,将第1级通道特征图和第1级空间特征图进行元素相乘操作,得到第1级注意力特征图;将第2级通道特征图和第2级空间特征图进行元素相乘操作,得到第2级注意力特征图;以此类推,直至将将第N级通道特征图和第N级空间特征图进行元素相乘操作,得到第N级注意力特征图。
205、将N级注意力特征图进行集连操作,统一输出得到N级注意力特征图的特征向量。
其中,集连操作(concatenation)就是将两个高维(比如三维或者四维)数据按某一维度拼接在一起,拼接维度的大小必须一致。比如,两个三维的特征图,一个是WxHxD,另一个是WxHxD’,在深度维度上进行集连,结果是一个WxHxD。
可选地,本发明实施例中还利用损失函数对N级注意力特征图的特征向量和预先处理的输入信号的特征向量进行差异化的量化计算(即进行特征向量的匹配)。
本发明实施例中,多个以并行的方式连接空间注意力层和通道特征注意力层,在神经网络训练中,由于并联使用的通道注意力层和分级空间注意力层,使得由通道注意力层提取的描述图像各个位置的特征的过程,与空间注意力层提取的决定图像分类的重要区域的过程可以同时受惠于损失函数的反馈,进而更好更准确的针对目标场景选取关键点以及局部特征。
例如,图10为一种输入信号为图像原图,图11为现有技术的神经网络系统提取图像关键点的分布示意图,图12为本发明的神经网络系统提取图像关键点的分布示意图,由于该图片场景为地标检索,可以发现,利用现有技术的神经网络系统进行图像关键点的提取中,很多关键点错误的分布在周边的景物上,而利用本发明所提出的改进后的神经网络系统进行图像关键点的提取中,关键点全部集中在地标上。
进一步地,本发明中分级空间注意力层的反向连接方式(即与神经网络中卷积层间信号传播方向相反的方向),每个注意力层都可以提取其输入特征图尺度上的关键点信息,结合多个注意力层即可让网络可以更好的同时利用图像的浅层特征(基本像素特征)和深层特征(语义特征),提取不同尺度的关键点以及对应的局部特征,无需进行多次图片尺度缩放并进行多次前馈。
同时在通道特征注意力层中引入的变换层(Transformation layer)为局部特征提供了抗局部形变的能力,使得最终提取的局部特征同样具有抗局部形变的能力。
图13为本发明实施例提供的一种神经网络结构示意图,如图13所示,包括:输入层,多级处理层和输出层;
其中,所述输入层适于输入数据;
所述处理层包括如图1-b或图4所示的神经网络系统,用于对输入的数据进行处理得到多个空间特征图或者得到多个注意力特征图;
其中,所述空间特征图包括不同尺度的关键点信息,或者所述注意力特征图包括不同尺度的关键点信息以及对应的局部特征信息;
其中,所述输出层适于对所述处理层输出的多个空间特征图或者多个注意力特征图进行统一输出得到多个空间特征图或者多个注意力特征图的特征向量。
基于图13提供的神经网络结构,图14为本发明实施例提供的基于神经网络结构的数据处理方法的流程示意图,如图14所示,包括:
301、对输入层输入的数据进行处理,得到多个空间特征图或者多个注意力特征图;
302、对所述多个空间特征图或者多个注意力特征图进行统一输出得到多个空间特征图或者多个注意力特征图的特征向量;
303、根据预先处理的数据特征向量对所述输出层统一输出的特征向量进行差异化的量化计算。
例如,在绘本阅读机器人提供的绘本阅读功能应用中,该功能的最前端入口为调用摄像头对视野范围内的绘本书页做图像检索,即和数据库中的书页图片做匹配以寻找书页的母本。其中,数据库中的书页图片(特征向量的形式保存)是预先对母本图片数据进行处理得到特征向量。而最前端入口为调用摄像头对视野范围内的绘本书页进行拍摄或扫描,其实就是采集图片并输入采集的图片至输入层,输入层将图片输入至图13所示的多级卷积层、多级通道特征注意力层和多级空间注意力层进行神经网络的深度学习和处理得到多级注意力特征图,将多级注意力特征图统一输出得到该多级注意力特征图的特征向量,将该多级注意力特征图的特征向量和数据库中预先处理母本图片的特征向量进行匹配得到匹配结果(即图片匹配结果)。
在一种可选的实施方式中对输入层输入的数据进行处理,得到多个空间特征图,包括:
将每一级卷积层输出的卷积特征图输入到对应级的空间注意力层;
将上一级空间注意力层输出的空间特征图输出到下一级空间注意力层;
根据对应级卷积层输入的卷积特征图和上一级空间注意力层输入的空间特征图,计算得到对应级空间注意力层输出的空间特征图;
将每一级空间注意力层计算得到的空间特征图进行输出得到一个统一特征向量的输出数据。
需要说明的是,当卷积层为第一级卷积层时,对输入层输入数据进行卷积操作得到第一级的卷积特征图。
当卷积层不是第一级卷积层时,对上一级卷积层输出的卷积特征图进行卷积操作得到对应级的卷积特征图。
当空间注意力层为最后一级空间注意力层时,对最后一级卷积层输出的卷积特征图进行空间注意力特征提取计算得到最后一级的空间特征图。
当空间注意力层不是最后一级空间注意力层时,将上一级空间特征图和当前级卷积特征图进行集连操作合并为一个通道数为2的特征图;对所述通道数为2的特征图进行信号压缩,将通道数压缩为1的特征图,输出当前级空间特征图。
在另一可选的实施方式中,对输入层输入的数据进行处理,得到多个空间特征图,包括:
将每一级卷积层输出的卷积特征图输入到对应级的通道特征注意力层;
对每一级卷积特征图进行局部特征编码后输出对应级的通道特征图;
将每一级通道特征图和其对应级的空间特征图进行元素相乘操作,得到对应级的注意力特征图;
将每一级的注意力特征图进行输出得到一个统一特征向量的输出数据。
具体实现可以参考如图8-a,图8-b和图9所示实施例中的详细内容。
图15为本发明实施例提供的服务器的结构示意图,如图15所示,包括:
存储器、处理器以及通信组件;
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器和所述通信组件耦合,用于执行计算机程序,以用于执行上述图8、图9和图14所示方法实施例所示方法所述的步骤或操作。
进一步,如图15所示,服务器还包括:显示器、电源组件、音频组件等其它组件。图15中仅示意性给出部分组件,并不意味着服务器只包括图15所示组件。
本实施例所示服务器可以执行上述图8、图9和图14所示方法实施例,其实现原理和技术效果不再赘述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被计算机执行时能够实现上述图8、图9和图14所示方法实施例中与服务器相关的步骤或操作,在此不再赘述。
图16为本发明实施例提供的一种神经网络结构示意图,如图16所示,所述神经网络结构包括输入层,N级处理层和输出层;
其中,第K级所述处理层包括:
卷积层,其中,所述卷积层适用于根据输入数据计算得到对应级的卷积特征图;其中,输入数据包括输入层输入的数据或K-1级处理层输出的卷积特征图;
空间注意力层,其中,所述空间注意力层适用于根据对应级卷积层输出的卷积特征图和K+1级处理层输出的空间特征图,计算得到对应级的空间特征图;
其中,N为>2的自然数,1<K<N;
所述神经网络结构的输出层,适于对至少两个空间特征图进行处理,统一输出所述至少两个空间特征图的特征向量;
基于图16所示的神经网络结构的数据处理的方法包括:
采集图像数据;
输入所述采集的图像数据到输入层;
将所述图像数据输入至N级处理层进行处理,得到所述图像数据的N级空间特征图;
将所述图像数据的N级空间特征图统一输出得到所述N级空间特征图的特征向量;
将所述N级空间特征图的特征向量与预先处理的所述图像数据的特征向量进行匹配,得出匹配结果。
图17为本发明实施例提供的一种基于神经网络结构示意图,如图17所示,所述神经网络结构包括输入层,N级处理层和输出层;
其中,第K级所述处理层包括:
卷积层,其中,所述卷积层适用于根据输入数据计算得到对应级的卷积特征图;其中,输入数据包括输入层输入的数据或K-1级处理层输出的卷积特征图;
空间注意力层,其中,所述空间注意力层适用于根据对应级卷积层输出的卷积特征图和K+1级处理层输出的空间特征图,计算得到对应级的空间特征图;
通道特征注意力层,适用于根据对应级卷积层输出的卷积特征图,及打算得到对应级的通道特征图;
乘法模块,适用于对N级空间特征图和N级通道特征图进行元素相乘得到N级注意力特征图;
其中,N为>2的自然数,1<K<N;
所述神经网络结构的输出层,适于对至少两个注意力特征图进行处理,统一输出所述至少两个注意力特征图的特征向量;
基于图17所示的神经网络结构的数据处理方法包括:
采集图像数据;
输入所述采集的图像数据到输入层;
将所述图像数据输入至N级处理层进行处理,得到所述图像数据的N级注意力特征图;
将所述图像数据的N级注意力特征图统一输出得到所述N级注意力特征图的特征向量;
将所述N级注意力特征图的特征向量与预先处理的所述图像数据的特征向量进行匹配,得出匹配结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。