CN111444957B

CN111444957B - 图像数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111444957B
Application number: CN202010218037.7A
Authority: CN
Inventors: 张申傲; 申丽; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-11-07
Anticipated expiration: 2040-03-25
Also published as: CN111444957A

Abstract

本申请涉及一种基于人工智能的图像数据处理方法、装置、计算机设备和存储介质。该方法包括：获取待处理图像的输入矩阵；其中，输入矩阵为待处理图像的像素矩阵；将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量；根据分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数；根据节点与分组的相关系数，对分组特征向量进行加权处理，得到空间维度上各节点的上下文信息；根据输入矩阵各节点以及各节点的上下文信息，得到待处理图像的识别结果。该方法利用组卷积局部特征之外的上下文信息，能够提高图像数据处理效率。

Description

图像数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像技术领域，特别是涉及一种基于云计算的图像数据处理方法、装置、计算机设备和存储介质。

背景技术

受益于人工智能技术在图像处理领域的广泛应用，图像处理效率都得到了大幅度提升。其中一种人工智能技术在图像处理领域的应用为卷积神经网络。卷积神经网络凭借其数据驱动特性和可扩展性在通用数据的任务上表现出卓越的性能。

其中，卷积是卷积神经网络(CNN)的核心操作，用于提取局部感受野上的特征。但卷积的局部特征将导致感受野以外的特征不能被有效利用，使提取的特征具有局限性，进而影响图像处理精度。为克服这一缺陷，传统的方法是引入注意力机制，通过建模空间上任意两点关联性实现融合全局上下文信息的目的。该操作基于对输入上点间建立一个大小为HW×HW的全连图，建图的计算量约为O(H²W²C)),当处理的节点数比较多时(也就是H和W比较大)会需要相当大的内存和计算量，影响计算效率，导致了该技术的应用局限性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高计算效率的图像数据处理方法、装置、计算机设备和存储介质。

一种图像数据处理方法，所述方法包括：

获取待处理图像的输入矩阵；其中，所述输入矩阵为所述待处理图像的像素矩阵；

将所述输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量；

根据所述分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数；

根据节点与分组的所述相关系数对所述分组特征向量进行加权处理，得到空间维度上各节点的上下文信息；

根据所述输入矩阵各节点以及各节点的所述上下文信息，得到所述待处理图像的识别结果。

一种图像数据处理装置，所述装置包括：

输入模块，用于获取待处理图像的输入矩阵；其中，所述输入矩阵为所述待处理图像的像素矩阵；

分组特征提取模块，于将所述输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量；

节点分组关系分析模块，用于根据所述分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数；

上下文获取模块，用于根据节点与分组的所述相关系数对所述分组特征向量进行加权处理，得到空间维度上各节点的上下文信息；

处理模块，用于所述输入矩阵各节点以及根据各节点的所述上下文信息，得到所述待处理图像的识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述图像数据处理方法、装置、计算机设备和存储介质，通过组卷积得到分组特征，利用分组特征确定节点与分组的相关系数，建模点和分组之间的关联性，进一步利用这种关联性得到节点的上下文信息，从而能够利用卷积神经网络获取除自身局部特征之外的上下文信息，为实现全局信息融合提供基础。由于上下文信息是利用组卷积提取分组特征得到的，利用组卷积能够减少卷积核的个数，因此占用较少的内存就可快速计算出分组特征，进一步提高图像数据处理效率。

附图说明

图1为一个实施例中图像数据处理方法的应用环境图；

图2为一个实施例中图像数据处理方法的流程示意图；

图3为一个实施例中图像数据处理方法的网络框架结构示意图；

图4为另一个实施例中图像数据处理方法的网络框架结构示意图；

图5为一个实施例中分组特征提取模块的网络框架的结构示意图；

图6为一个实施例中得到组内特征的步骤的流程示意图；

图7为一个实施例中得到分组特征的步骤的流程示意图；

图8为一个实施例中组间信息交互模块的网络框架的结构示意图；

图9为一个实施例中图像数据处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术等技术，具体通过如下实施例进行说明:

本申请提供的图像数据方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102获取待处理图像，将待处理图像发送至服务器104进行识别。其中，终端102可获取已存储在本地的待处理图像，也可利用终端102的图像采集设备拍摄得到待处理图像。服务器104获取待处理图像的输入矩阵；将输入矩阵从深度维度分组，并对每个分组进行分组卷积处理，得到各分组空间维度的分组特征；根据分组特征确定空间维度上各节点与各分组的相关系数；根据相关系数与分组特征，得到空间维度上各节点的上下文信息；根据各节点的上下文信息，得到待处理图像的识别结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、网络摄像头和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像数据处理方法，以该方法应用于图2中的服务器为例进行说明，包括以下步骤：

步骤202，获取待处理图像的输入矩阵。

其中，待处理图像是服务器获取的图像处理对象，可以为终端上传至服务器的图片或视频。根据应用程序的功能，终端发送的待处理图像可以为终端本地所存储的图片或视频，或是在应用程序执行时，调用终端的图像采集设备采集的图片或视频。一个应用场景如，移动支付应用程序在进行人脸认证时，调用终端的摄像头采集的人脸图像。一个应用场景如，在购物类应用程序进行商品搜索时，上传本地所存储的商品图片。一个应用场景如，监控设备实时上传采集的视频数据，感知视频中的人脸图像。

具体地，可利用卷积神经网络的输入层，得到待处理图像的输入矩阵。输入层是神经网络的输入，输入矩阵为待处理图像的像素矩阵。卷积神经网络的输入层，输入的图片等数据，以图片为例，输入层为一个H*W*C的矩阵，表示图像的各个维度属性，H，W表示输入的空间维度，其中，H为高度维度，W为宽度维度。C为深度维度，是色彩通道的数量。例如输入层为一个32*32*3的矩阵，表示图片宽度32和高度32的图片，3代表RGB模式下，一个图片有三个原色图叠合而成。

步骤204，将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量。

具体地，分组卷积是将输入矩阵分为G组，且分组是在深度上进行划分，即某几个通道划分为一组，每组通道的数量为C/G。相对于普通的卷积处理，由于输入数据的变化，卷积核也需要做出相同的改变，例如，原卷积核的个数为C1，分组后，卷积核的个数为C1/G，即每组中卷积核的深度也相应地分为G组。分组数G确定后，并行的运算G个相同的卷积过程，从而有效减少分组特征提取的计算量和内存使用，提升特征提取效率。分组卷积的处理过程中，组内连接，组间不连接。

本实施例中，组卷积是对各分组的空间维度(H*W)上的聚类。空间维度，即指的是待处理图像的宽度和高度维度。假设待处理图像的输入矩阵是分为G组，x_i，i∈{1，…，H}×{1，…，W}表示空间维度上的一个节点(node or position)，则空间维度上的节点为/>每组的特征维度是C′＝C/G，也就是/>每个分组中，输入特征为H*W*C/G，将输入特征从深度维度分为G组，得到G个特征图，卷积核也相应的分组，各分组在对应的组内做卷积，通过分组卷积处理，得到各分组的分组特征至少包括H2*W2*C1/G，即得到G个特征向量。组卷积相比普通卷积，用同等的参数量和运算量就能够生成个多个特征向量，而普通卷积只能生成一个特征向量。G个特征向量分别作为各分组空间维度的分组特征，分组是针对组内数据进行处理得到的，因而，分组特征至少包括各分组的组内特征。

具体地，图3为一个实施例中图像数据处理方法的网络框架结构示意图。如图3所示的网络框架，经过输入层得到的输入矩阵，由分组特征提取模块301对输入矩阵进行处理，得到各分组空间维度的分组特征。

步骤206，根据分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数。

假设待处理图像的输入矩阵是分为G组，则节点(node or position)待处理图像的像素点在空间维度上特征，即x_i，i∈{1，…，H}×{1，…，W}表示空间维度上的一个节点。节点特征即该像素点在空间维度(高度和宽度维度)的特征向量。

具体地，计算空间维度上节点的节点特征在特征子空间下与各分组的分组特征的相关性，得到节点与各分组的相关系数，各节点与各分组的相关系数体现了指该节点与各分组的相关性，该节点与某一分组的相关性越大，相关系数也越高；该节点与某一分组的相关性越小，相关系数也越低。具体地，可分析每一分组的分组特征与各节点的相关性，得到各节点与各分组的相关系数。

在一个实施例中，根据分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数包括：将各分组的分组特征向量与空间维度上各节点的节点特征向量进行点乘，得到节点分组关系矩阵；对节点分组关系矩阵进行归一化处理，得到各节点与各分组的相关系数。

具体地，如图3所示的网络框架，输入矩阵被输入后，数据分别走向两个分支，其中一个分支，输入矩阵经分组特征提取模块301提取分组特征，将各分组的分组特征与空间维度的各节点经第一点乘模块302进行点乘处理，得到G个节点分组关系矩阵，根据G个节点分组关系矩阵，能够得到输入矩阵的每个节点与各分组之间的相关性。具体地，对于G个节点分组关系矩阵利用第一激活函数303的激活处理，将特征映射为[0，1]之间，得到各节点和各分组的相关系数。应当注意的是，某一节点与各分组的组间相关系数之和为1。其中第一激活函数可采用sigmoid函数或softmax函数。

具体为：

s_i＝f_m(x_i，Z|θ_m)，s_i∈[0，1]^G

通过计算每个节点和分组的关性系数，即分别计算每个节点在特征子空间下与各自组特征的相关性，建立G个大小为HxW的图，计算量约为O(HWGC′)＝O(HWC)。

步骤208，根据节点与分组的相关系数对分组特征向量进行加权处理，得到空间维度上各节点的上下文信息。

加权处理是指将节点与分组的相关系数，对该分组的特征向量相当节点的特征权重进行处理，得到一个新的特征向量，新的特征向量考虑了节点与分组的相关性的影响。如前面所提及的，节点与分组的相关系数反应了节点与分组的相关性，若节点与分组的相关性较高，则赋予分组特征向量矩阵中该节点的特征向量一个较大的权重，从而将分组特征传递给该节点，得到节点自身特征之外的特征信息，反映了节点的上下文信息。本实施例中的上下文信息是指节点特征之外的信息，尤其是指分组信息。进一步地，在分组特征的基础上叠加节点与分组之间的相关信息，得到各节点的上下文信息(Context)。本实施例中，利用节点和组团的相关性，调整该节点的权重，将分组的上下文信息传递给该节点，建模节点与组团的相关性来高效地实现长距离(全局)信息融合。

具体地，根据节点与分组的相关系数，对分组特征向量进行加权处理，得到空间维度上各节点的上下文信息，包括：将节点与分组的相关系数，与分组的分组特征向量进行点乘，得到空间维度上各节点的上下文信息。

具体地，如图3所示的网络框架，经分组特征提取模块301处理后得到分组特征，经两个分支，一个分支，分组特征经第一点乘模块302和第一激活函数303的激活处理后，得到各节点和各分组的相关系数。另一分支，通过第二点乘模块304对分组特征与相关系数进行点乘，得到空间维度上各节点的上下文信息。对于各分组的分组特征向量，利用各节点与该分组的相关系数，对该分组特征向量进行点乘，得到空间维度上各节点的上下文信息。

具体为：

其中，为节点i与分组g的相关系数，Z'_g为分组g的分组特征向量。

步骤210，根据输入矩阵各节点以及各节点的上下文信息，得到待处理图像的识别结果。

对于输入矩阵各节点的上下文信息，可根据需要进一步处理，得到待处理图像的识别结果。如将上下文信息叠加到节点的输入特征上，结合节点的自身输入特征和上下文信息，对待处理图像进行精确识别。又如，直接提取待处理图像的上下文信息进行处理。

一个实施例中，根据输入矩阵各节点以及各节点的上下文信息，得到待处理图像的识别结果，包括：融合输入矩阵各节点的输入特征和节点的上下文信息，得到融合了各节点上下文信息的特征矩阵，将特征矩阵进行卷积处理得到待处理图像的识别结果。

通过叠加上下文信息，利用数据本身的结构化特性来高效的实现对上下文信息的建模，从而生成富有描述性的特征。图3所示的神经网络框架可以作为可插入模块，嵌入到卷积神经网络框架的输入层之后，可有效捕捉和利用上下文信息，增加网络的特征表达能力，与直接全局的上下文信息刻画方式比，在计算和内存方面有明显优势。

上述的图像数据处理方法，通过组卷积得到分组特征，利用分组特征确定节点与分组的相关系数，建模点和分组之间的关联性，进一步利用这种关联性得到节点的上下文信息，从而能够利用卷积神经网络获取除自身局部特征之外的上下文信息，为实现全局信息融合提供基础。由于上下文信息是利用组卷积提取分组特征得到的，利用组卷积能够减少卷积核的个数，因此占用较少的内存就可快速计算出分组特征，进一步提高图像数据处理效率。

在另一个实施例中，如图4所示的网络框架，分组特征提取模块301包括组内特征提取模块3011和组间信息交互模块3012。

其中，将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量，包括：将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量；根据组内特征向量，确定各分组之间的组间关联信息，对组内特征向量融合组间关联信息，得到各分组的分组特征向量。

具体地，利用组内特征提取模块3011提取组内特征，组内特征提取模块的主要包括组卷积，本实施例中，组卷积是对各分组的空间维度(H*W)上的聚类。空间维度，即指的是待处理图像的宽度和高度维度。具体地，可利用组卷积对分组中空间维度上各节点特征进行求和平均，得到各分组的组内特征向量。

具体地，组间关联信息是指分组与分组之间的关系，如前面所提及的，分组卷积操作时，组内连接，组间不连接。因此，得到的组内特征是孤立的，各分组的组内特征，缺乏分组与分组之间的关系，全局信息有限。

本实施例中，根据各分组的组内特征，分析各分组之间的组间关联信息，并对组内特征融合组间关联信息，得到各分组的分组特征。即，分组特征是在原有组内特征的基础上，融合了组间关联信息，使得各分组的特征维度多样化，特征全局化，通过建模组团之间的关联性来实现长距离(全局)信息融合。

如图4所示，组团特征提取模块3011输出的组内特征，经组间信息交互模块3012，由组间信息交互模块3012根据组内特征，确定各分组之间的组间关联信息，各分组之间的关联关系反应的是分组之间的关系性，即分组与分组之间的组间特征，对组内特征融合组间关联信息，得到融合了组间关联信息的分组特征。本实施例中，节点与各分组的相关系数是分组特征确定的，而分组组团特征包括了组团内部特征以及组间关联特征，从而使得组间关系系数融合了组团内部以及组间关系特征，反映了节点的上下文信息。本实施例中的上下文信息是指节点特征之外的信息，尤其是指分组信息，包括组内信息和组间信息。因此，相关系数表征的是各节点和各分组的相关性，在分组特征的基础上叠加节点与分组之间的相关信息，得到输入矩阵各节点的上下文信息(Context)。

本实施例中，利用组团进行特征空间的划分，建模组团与组团的关联性，节点和组团的相关性，调整该节点的权重，将组团的分组特征(上下文信息)传递给该节点，高效地实现长距离(全局)信息融合。

具体地，如图5和图6所示，图5为一个实施例中组团特征提取模块3011的网络框架的结构示意图，图6为一个实施例中得到组内特征的步骤的流程示意图，该步骤包括：

步骤602，将输入矩阵从深度维度进行分组，对得到的每个分组的空间维度分别进行分组卷积处理，得到每个分组空间维度的输出特征向量。

假设待处理图像的输入矩阵从深度维度分为G组，x_i，i∈{1，…，H}×{1，…，W}表示空间维度上的一个节点(node or position)，则空间维度上的节点为每组的特征维度是C′＝C/G，也就是/>

本实施例中，输出特征向量是对每个分组特征进行卷积处理后，分组的卷积核所输出的每个分组的特征向量，本实施例中，组卷积的空间窗口大小为1*1，组个数为G个。如图5所示，输入矩阵经组团特征提取模块3011的组卷积层501的处理，得到每个分组的输出特征，共G个分组的输出特征，每个分组特征其中，组内特征是分组中空间维度上组团特征。此处的组卷积层可以根据需要设置，如采用一层组卷积层，也可以采用多层组卷积层。

步骤604，根据各分组空间维度的输出特征向量分别得到各分组的注意力矩阵。

本实施例中，引入注意力机制。注意力机制能够使得神经网络专注于重要的特定特征。注意力矩阵表示分组的每个节点的重要性，对于重要性的节点，可设置较高的注意力系数。本实施例中利用各分组的输出特征预测各分组对应的注意力矩阵，其中，注意力矩阵包括分组中空间维度上各节点的注意力系数。

具体地，各分组的注意力矩阵可通过对各分组空间维度的输出特征向量进行归一化处理得到。其中，可对各分组空间维度的输出特征向量进行非线性的归一化处理，得到各分组的注意力矩阵。

在一个实施例中，根据各分组的输出特征分别得到各分组的注意力矩阵，包括：对各分组空间维度的输出特征向量进行非线性变换，得到各分组的注意力矩阵。

具体地，如图5所示，利用第一归一化处理模块502Tanh函数，通过有参数的非线性变换，Tanh函数的输出在[-1，1]之间，Tanh函数具有较大梯度，模型收敛快，近一步的利用第二激活函数503进行激活处理，将第二激活函数503softmax函数的输出映射到[0，1]的特征空间，得到G个注意力矩阵M^g∈[0，1]^H×W，注意力矩阵的各点表示空间维度上各点的注意力系数，即重要性。其中，每个分组的注意力矩阵各节点的矩阵系数之和为1。

步骤606，根据注意力矩阵对待处理图像空间维度的特征向量进行加权求和，得到各分组的组内特征向量。

本实施例中，利用注意力矩阵对空间维度的特征进行加权求和，得到各分组的组内特征。具体为：

其中，为注意力矩阵，/>为待处理图像空间维度的特征，z_g为组内特征。

具体地，输入矩阵进入组团特征提取模块301后，分为两个分支，一个分支经组卷积层501、第一归一化模块502和第二激活函数503，可得到注意力矩阵，另一路分支通过第三点乘模块504，根据注意力矩阵对空间维度的特征向量加权求和，得到各分组的组内特征向量。

本实施例中，基于图像空间特征进行组团划分，利用组卷积能够降低模型的计算量和内存占用。

在另一个实施例中，如图7和图8所示，图7为一个实施例中得到分组特征的步骤的流程示意图，图8为一个实施例中组间信息交互模块3012的网络框架的结构示意图，该步骤包括：

步骤702，根据组内特征向量，确定各分组之间的组间关联信息。

本实施例中，通过对分组间的组内特征进行矩阵点乘，建模组团之间的关联性。具体地，共了G个分组，G个分组之间的组内特征分别进行矩阵点乘，得到GxG的图，计算量约为O(G²C)，G要远远小于HxW，实现特征子空间的信息交互。

具体地，根据组内特征向量，确定各分组之间的组间关联信息的步骤，包括：分别对两个分组的组内特征向量进行点乘，得到分组间的点乘结果；根据分组系数，将点乘结果归一化，得到各分组之间的组间关联矩阵，组间关联信息包括组间关系矩阵。

具体地，如图8所示，各分组的组内特征输入组间信息交互模块3012，经组间信息交互模块的第四点乘模块801，由第四点乘模块801对各分组间的组内特征进行点乘，实现组间信息交互，共了G个分组，G个分组之间的组内特征分别进行矩阵点乘，得到GxG的图。

对于第四点乘模块801输入的点乘结果，可将每个G维向量的范数归一化到1，得到GxG的组间关系矩阵。其中，归一化处理可采用softmax函数进行，也可以首先通过第二归一化模块802，根据分组系数G，每个G维向量的范数归一化到1，其中，第二归一化模块802可采用L2范数归一化(l2 normalization)。通过归一化，能够加快梯度下降。进一步地，通过第三激活函数803softmax函数映射到[0,1]的特征空间，得到GxG的组间关系矩阵。组间关系矩阵记载了各分组之间的关联信息，组间关系矩阵具体为分组之间的关联系数，表明了分组与其它分组之间的相关性，关系系数越高，两个分组之间的相关性越高，一个分组与各分组之间的相关系数之和为1。

步骤704，对组内特征向量和组间关联矩阵进行点乘处理，得到各分组的分组特征。

如图8所示，各分组的组内特征输入组间信息交互模块3012通过两个分支，其中一路分支得到组间关系矩阵，通过另一路分支，将组内特征与组间关系矩阵在第五点乘模块804进行点乘处理，得到新的组团特征，从而新的组团特征融合了组间关系，实现特征子空间的信息交互，通过建模组团之间的相关性来实现长距离(全局)信息融合。通过组团与其它组团的组间关系矩阵，对组内特征进行加权求和，得到组团的分组特征。

具体为：

其中，z’_g为第g组的分组特征，f_c(Z_g,Z_j)为两个第g组和第j组的组间关系矩阵，Z_j为第j组的组内特征。

本实施例中，通过进行组间关系分析，对于组团特征考虑了与其它分组的关联性，实现特征子空间的信息交互，通过建模组团之间的相关性来实现长距离(全局)信息融合。

本申请的图像数据处理方法，可应用于对图像云计算应用场景。本申请的技术方案中，云计算提供图像数据处理的基础设施、平台和应用服务。企业、政府或个人用户通过开通云计算服务，其图像采集终端将采集的待处理图像数据发送至云计算服务器。云计算服务器利用图像数据处理方法，得到待处理图像的识别结果，并返回至用户终端显示。

具体地，该图像数据处理方法在该应用场景的应用如下：

利用图像采集设备采集图像数据，图像采集设备将采集的图像数据传输至服务器，由服务器根据视频数据进行人脸感知，解决相应场景下人脸识别的问题。

如人脸感知技术在移动支付场景的应用，终端的图像采集设备采集图像数据并发送至服务器，由服务器利用本申请的图像数据处理方法进行人脸感知识别，实现刷脸支付。又如，网络摄像头设置在关键位置，如商场入口，网络摄像头采集视频数据并发送至服务器，服务器利用本申请的图像数据处理方法进行人脸感知，识别人脸进行客流量统计。

具体地，服务器获取待处理图像的输入矩阵，输入矩阵为待处理图像的像素矩阵，将输入矩阵从深度维度进行分组，对得到的每个分组的空间维度分别进行分组卷积处理，得到每个分组空间维度的输出特征向量，根据各分组空间维度的输出特征向量分别得到各分组的注意力矩阵；根据注意力矩阵对待处理图像空间维度的特征向量进行加权求和，得到各分组空间维度的组内特征向量。

进一步地，分别对两个分组的组内特征向量进行点乘，得到分组间的点乘结果；根据分组系数，将点乘结果归一化，得到各分组之间的组间关联矩阵，组间关联信息包括组间关系矩阵，对组内特征向量和组间关联矩阵进行点乘处理，得到各分组的分组特征向量。此时，分组特征既包括了组内特征，也包括了组间特征。

进一步地，根据分组特征向量以及空间维度上各节点的节点特征向量确定空间维度上各节点与各分组的相关系数；根据节点与分组的相关系数，与分组特征向量进行点乘，得到空间维度上各节点的上下文信息；融合输入矩阵各节点的输入特征和节点的上下文信息，得到融合了各节点上下文信息的特征矩阵，将特征矩阵进行卷积处理，得到待处理图像的识别结果。

应该理解的是，虽然图2、6-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、6-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种图像数据处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

输入模块901，用于获取待处理图像的输入矩阵。其中，输入矩阵为所述待处理图像的像素矩阵；

分组特征提取模块902，用于将输入矩阵从深度维度分组，对的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量。

节点分组关系分析模块903，用于根据分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数。

上下文获取模块904，用于根据节点与分组的相关系数，对分组特征向量进行加权处理，得到空间维度上各节点的上下文信息。

处理模块905，用于根据输入矩阵各节点以及各节点的上下文信息，得到待处理图像的识别结果。

在另一实施例中，分组特征提取模块包括组内特征处理模块和组间特征处理模块；

组内特征处理模块，用于将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量。

组间特征处理模块，用于根据组内特征向量，确定各分组之间的组间关联信息，对组内特征向量融合组间关联信息，得到各分组的分组特征向量。

在另一实施例中，组内特征处理模块，包括：

组卷积模块，用于将输入矩阵从深度维度进行分组，对得到的每个分组的分别空间维度进行分组卷积处理，得到每个分组空间维度的输出特征向量。

注意力模块，用于根据各分组空间维度的输出特征向量分别得到各分组的注意力矩阵；

加权模块，用于根据注意力矩阵对待处理图像空间维度的特征进行加权求和，得到各分组空间维度的组内特征向量。

在另一实施例中，注意力模块，用于对各分组空间维度的输出特征向量进行非线性变换，得到各分组的注意力矩阵。

在另一实施例中，组间特征提取模块，包括：

组间关系获取模块，用于分别对两个分组的组内特征向量进行点乘，得到分组间的点乘结果；根据分组系数，将点乘结果归一化，得到各分组之间的组间关联矩阵，组间关联信息包括组间关系矩阵。

在另一实施例中，组间特征提取模块，还包括：

点乘处理模块，用于对组内特征向量和组间关联矩阵进行点乘处理，得到各分组的分组特征向量。

在另一实施例中，节点分组关系分析模块，用于将各分组的分组特征向量与空间维度上各节点的节点特征向量进行点乘，得到节点分组关系矩阵；对节点分组关系矩阵进行归一化处理，得到各节点与各分组的相关系数。

在另一实施例中，上下文获取模块，用于根据节点与分组的相关系数，与分组的分组特征向量进行点乘，得到空间维度上各节点的上下文信息。

在另一实施例中，处理模块，用于融合输入矩阵各节点的输入特征和节点的所述上下文信息，得到融合了各节点上下文信息的特征矩阵，将特征矩阵进行卷积处理，得到待处理图像的识别结果。

关于图像数据处理装置的具体限定可以参见上文中对于图像数据处理方法的限定，在此不再赘述。上述图像数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像数据处理方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理图像的输入矩阵；其中，输入矩阵为待处理图像的像素矩阵；

将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量；

根据分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数；

根据节点与分组的相关系数，对分组特征向量进行加权处理，得到空间维度上各节点的上下文信息；

根据输入矩阵各节点以及各节点的上下文信息，得到待处理图像的识别结果。

在其中一个实施例中，将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的分组特征向量，包括：

将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量；

根据组内特征向量，确定各分组之间的组间关联信息，对组内特征向量融合组间关联信息，得到各分组的分组特征向量。

在其中一个实施例中，将输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量，包括：

将输入矩阵从深度维度进行分组，对得到的每个分组的空间维度分别进行分组卷积处理，得到每个分组空间维度的输出特征向量；

根据各分组空间维度的输出特征向量分别得到各分组的注意力矩阵；

根据注意力矩阵对待处理图像空间维度的特征向量进行加权求和，得到各分组空间维度的组内特征向量。

在其中一个实施例中，根据各分组空间维度的输出特征向量分别得到各分组的注意力矩阵，包括：

对各分组空间维度的输出特征向量进行非线性变换，得到各分组的注意力矩阵。

在其中一个实施例中，根据组内特征向量，确定各分组之间的组间关联信息的方式，包括：

分别对两个分组的组内特征向量进行点乘，得到分组间的点乘结果；

根据分组系数，将点乘结果归一化，得到各分组之间的组间关联矩阵，组间关联信息包括组间关系矩阵。

在其中一个实施例中，对组内特征向量融合组间关联信息，得到各分组的分组特征向量的方式，包括：

对组内特征向量和组间关联矩阵进行点乘处理，得到各分组的分组特征向量。

在其中一个实施例中，根据分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数，包括：

将各分组的分组特征向量与空间维度上各节点的节点特征向量进行点乘，得到节点分组关系矩阵；

对节点分组关系矩阵进行归一化处理，得到各节点与各分组的相关系数。

在其中一个实施例中，根据节点与分组的相关系数对分组特征向量进行加权处理，得到空间维度上各节点的上下文信息，包括：

将节点与分组的相关系数，与分组的分组特征向量进行点乘，得到空间维度上各节点的上下文信息。

在其中一个实施例中，根据输入矩阵各节点以及各节点的上下文信息，得到待处理图像的识别结果，包括：

融合输入矩阵各节点的输入特征和节点的上下文信息，得到融合了各节点上下文信息的特征矩阵，将特征矩阵进行卷积处理得到待处理图像的识别结果。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像数据处理方法，所述方法包括：

将所述输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量；

根据所述组内特征向量，确定各分组之间的组间关联信息，对所述组内特征向量融合所述组间关联信息，得到各分组的分组特征向量；

根据所述分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数；所述节点为待处理图像的像素点在空间维度上对应的点；所述相关系数表示节点与各分组的相关性；

根据所述节点与分组的相关系数，对所述分组特征向量进行加权处理，得到空间维度上各节点的上下文信息；

2.根据权利要求1所述的方法，其特征在于，将所述输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量，包括：

根据各分组空间维度的所述输出特征向量分别得到各分组的注意力矩阵；

根据所述注意力矩阵对所述待处理图像空间维度的特征向量进行加权求和，得到各分组空间维度的组内特征向量。

3.根据权利要求2所述的方法，其特征在于，所述根据各分组空间维度的所述输出特征向量分别得到各分组的注意力矩阵，包括：

对各分组空间维度的所述输出特征向量进行非线性变换，得到各分组的注意力矩阵。

4.根据权利要求1所述的方法，其特征在于，根据所述组内特征向量，确定各分组之间的组间关联信息的方式，包括：

根据分组数量，将所述点乘结果归一化，得到各分组之间的组间关联矩阵，所述组间关联信息包括所述组间关联矩阵。

5.根据权利要求4所述的方法，其特征在于，对所述组内特征向量融合所述组间关联信息，得到各分组的分组特征向量的方式，包括：

对所述组内特征向量和所述组间关联矩阵进行点乘处理，得到各分组的分组特征向量。

6.根据权利要求1所述的方法，其特征在于，根据所述分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数，包括：

将各分组的所述分组特征向量与空间维度上各节点的节点特征向量进行点乘，得到节点分组关系矩阵；

对所述节点分组关系矩阵进行归一化处理，得到各节点与各分组的相关系数。

7.根据权利要求1所述的方法，其特征在于，根据节点与分组的所述相关系数对所述分组特征向量进行加权处理，得到空间维度上各节点的上下文信息，包括：

将节点与分组的所述相关系数，与所述分组的所述分组特征向量进行点乘，得到空间维度上各节点的上下文信息。

8.根据权利要求1所述的方法，其特征在于，根据所述输入矩阵各节点以及各节点的所述上下文信息，得到所述待处理图像的识别结果，包括：

融合所述输入矩阵各节点的输入特征和所述节点的所述上下文信息，得到融合了各节点上下文信息的特征矩阵，将所述特征矩阵进行卷积处理得到所述待处理图像的识别结果。

9.一种图像数据处理装置，所述装置包括：

组内特征处理模块，用于将所述输入矩阵从深度维度分组，对得到的每个分组分别进行分组卷积处理，得到各分组空间维度的组内特征向量；

组间特征处理模块，用于根据所述组内特征向量，确定各分组之间的组间关联信息，对所述组内特征向量融合所述组间关联信息，得到各分组的分组特征向量；

节点分组关系分析模块，用于根据所述分组特征向量以及空间维度上各节点的节点特征向量，确定空间维度上各节点与各分组的相关系数；所述节点为待处理图像的像素点在空间维度上对应的点；所述相关系数表示节点与各分组的相关性；

处理模块，用于根据所述输入矩阵各节点以及各节点的所述上下文信息，得到所述待处理图像的识别结果。

10.根据权利要求9所述的装置，其特征在于，所述组内特征处理模块，包括：

组卷积模块，用于将输入矩阵从深度维度进行分组，对得到的每个分组的空间维度分别进行分组卷积处理，得到每个分组空间维度的输出特征向量；

注意力模块，用于根据各分组空间维度的所述输出特征向量分别得到各分组的注意力矩阵；

加权模块，用于根据所述注意力矩阵对所述待处理图像空间维度的特征向量进行加权求和，得到各分组空间维度的组内特征向量。

11.根据权利要求10所述的装置，其特征在于，所述注意力模块，用于对各分组空间维度的所述输出特征向量进行非线性变换，得到各分组的注意力矩阵。

12.根据权利要求9所述的装置，其特征在于，所述组间特征处理模块，包括：

组间关系获取模块，用于分别对两个分组的组内特征向量进行点乘，得到分组间的点乘结果；根据分组数量，将所述点乘结果归一化，得到各分组之间的组间关联矩阵。

13.根据权利要求12所述的装置，其特征在于，所述组间特征处理模块，还包括：

点乘处理模块，用于对所述组内特征向量和所述组间关联矩阵进行点乘处理，得到各分组的分组特征向量。

14.根据权利要求9所述的装置，其特征在于，所述节点分组关系分析模块，用于将各分组的所述分组特征向量与空间维度上各节点的节点特征向量进行点乘，得到节点分组关系矩阵；对所述节点分组关系矩阵进行归一化处理，得到各节点与各分组的相关系数。

15.根据权利要求9所述的装置，其特征在于，所述上下文获取模块，用于将节点与分组的所述相关系数，与所述分组的所述分组特征向量进行点乘，得到空间维度上各节点的上下文信息。

16.根据权利要求9所述的装置，其特征在于，所述处理模块，用于融合所述输入矩阵各节点的输入特征和所述节点的所述上下文信息，得到融合了各节点上下文信息的特征矩阵，将所述特征矩阵进行卷积处理得到所述待处理图像的识别结果。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

18.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。