CN116958581A - 一种图像的处理方法、装置以及存储介质 - Google Patents

一种图像的处理方法、装置以及存储介质 Download PDF

Info

Publication number
CN116958581A
CN116958581A CN202211418589.8A CN202211418589A CN116958581A CN 116958581 A CN116958581 A CN 116958581A CN 202211418589 A CN202211418589 A CN 202211418589A CN 116958581 A CN116958581 A CN 116958581A
Authority
CN
China
Prior art keywords
information
image
feature
convolution
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211418589.8A
Other languages
English (en)
Inventor
蒋正锴
丁双睿
王亚彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211418589.8A priority Critical patent/CN116958581A/zh
Publication of CN116958581A publication Critical patent/CN116958581A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像的处理方法、装置以及存储介质。通过将输入特征与位置编码进行结合得到编码特征;并将编码特征输入分组推理模块中的分组分支、组卷积分支以及图卷积分支进行分组卷积得到加权信息;进一步的对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息;进而基于目标特征信息进行全连接操作,以得到输出特征指示图像识别任务的执行。从而实现基于分组处理的特征融合过程,由于采用分组卷积操作,避免了全局卷积的繁琐,降低了融合全局重要性信息的计算量,提高了对于图像特征的处理效率。

Description

一种图像的处理方法、装置以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像的处理方法、装置以及存储介质。
背景技术
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
至今为止,卷积神经网络在基础计算机视觉任务中发挥着重要作用,从图像分类、目标检测、及语义分割常用的方法全部是采用卷机神经网络进行处理的,在基于卷积神经网络设计的各种模型中,Transformer结构在计算机视觉任务中大放异彩,取得了各项任务的优异结果。
但是,Transformer结构的计算复杂度和空间复杂度均与指示符(Token)数量的二次方成正比,因此以Transformer为基础设计的网络无法高效的处理高分辨率的图像,影响图像处理的效率。
发明内容
有鉴于此,本申请提供一种图像的处理方法,可以有效提高图像处理的效率。
本申请第一方面提供一种图像的处理方法,可以应用于终端设备中包含图像的处理功能的系统或程序中,具体包括:
获取待处理图像,并确定所述待处理图像对应的输入特征,所述待处理图像中的像素基于位置编码进行配置;
将所述输入特征输入图像处理单元,以将所述输入特征与所述位置编码进行结合得到编码特征;
将所述编码特征输入分组推理模块,以得到加权信息,所述分组推理模块包括分组分支、组卷积分支以及图卷积分支,所述分组分支用于对所述编码特征进行分组得到多个图像特征组,所述组卷积分支用于对各个所述图像特征组进行组内卷积得到全局重要性分数,所述图卷积分支用于提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权融合得到所述加权信息;
对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息;
基于所述目标特征信息进行全连接操作,以得到输出特征,所述输出特征用于指示所述待处理图像对应的图像识别任务的执行。
可选的,在本申请一些可能的实现方式中,所述将所述编码特征输入分组推理模块,以得到加权信息,包括:
将所述编码特征输入所述分组推理模块中的所述分组分支,以基于局部敏感哈希算法确定所述编码特征中各个位置对应的分组参数;
基于所述分组参数对应的数值进行分组,以得到多个所述图像特征组;
基于所述组卷积分支对各个所述图像特征组进行组内特征元素的卷积操作,并结合所述图像特征组进行归一化处理得到所述全局重要性分数;
基于所述图卷积分支提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权求和,以得到合并信息;
将所述合并信息输入融合模块,以得到融合信息;
根据所述融合信息按照所述图像特征组的分组进行特征分发,以得到所述加权信息。
可选的,在本申请一些可能的实现方式中,所述将所述合并信息输入融合模块,以得到融合信息,包括:
将所述合并信息输入融合模块进行特征调整,以得到调整信息;
基于所述调整信息进行非线性处理,以得到激活信息,所述非线性处理包括多个全连接操作以及激活操作;
根据所述调整信息将所述激活信息进行维度调整,以得到所述融合信息。
可选的,在本申请一些可能的实现方式中,所述对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息,包括:
对所述编码特征进行卷积操作,以得到卷积信息;
获取针对于所述图像识别任务配置的可学习参数;
基于所述可学习参数对所述加权信息与所述卷积信息进行线性融合,以得到所述目标特征信息。
可选的,在本申请一些可能的实现方式中,所述基于所述目标特征信息进行全连接操作,以得到输出特征,包括:
对所述目标特征信息进行标准化处理,以得到标准化信息;
将所述标准化信息输入多层感知机进行全连接操作,以得到全连接信息;
基于所述目标特征信息对所述全连接信息进行残差计算,以得到所述输出特征。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取图像识别任务对应的任务信息;
基于所述任务信息对图像处理单元的参数量、计算量以及处理量进行配置,以得到配置参数;
根据所述配置参数对所述图像处理单元进行更新,以基于更新后的所述图像处理单元执行所述图像识别任务。
可选的,在本申请一些可能的实现方式中,所述获取图像识别任务对应的任务信息,包括:
获取所述图像识别任务对应的任务图像的分辨率信息;
若所述分辨率信息对应的分辨率达到分辨率阈值,则基于所述分辨率信息进行参数量、计算量以及处理量的配置,以得到所述任务信息。
本申请第二方面提供一种图像的处理装置,包括:
获取单元,用于获取待处理图像,并确定所述待处理图像对应的输入特征,所述待处理图像中的像素基于位置编码进行配置;
输入单元,用于将所述输入特征输入图像处理单元,以将所述输入特征与所述位置编码进行结合得到编码特征;
处理单元,用于将所述编码特征输入分组推理模块,以得到加权信息,所述分组推理模块包括分组分支、组卷积分支以及图卷积分支,所述分组分支用于对所述编码特征进行分组得到多个图像特征组,所述组卷积分支用于对各个所述图像特征组进行组内卷积得到全局重要性分数,所述图卷积分支用于提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权融合得到所述加权信息;
所述处理单元,还用于对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息;
所述处理单元,还用于基于所述目标特征信息进行全连接操作,以得到输出特征,所述输出特征用于指示所述待处理图像对应的图像识别任务的执行。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于将所述编码特征输入所述分组推理模块中的所述分组分支,以基于局部敏感哈希算法确定所述编码特征中各个位置对应的分组参数;
所述处理单元,具体用于基于所述分组参数对应的数值进行分组,以得到多个所述图像特征组;
所述处理单元,具体用于基于所述组卷积分支对各个所述图像特征组进行组内特征元素的卷积操作,并结合所述图像特征组进行归一化处理得到所述全局重要性分数;
所述处理单元,具体用于基于所述图卷积分支提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权求和,以得到合并信息;
所述处理单元,具体用于将所述合并信息输入融合模块,以得到融合信息;
所述处理单元,具体用于根据所述融合信息按照所述图像特征组的分组进行特征分发,以得到所述加权信息。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于将所述合并信息输入融合模块进行特征调整,以得到调整信息;
所述处理单元,具体用于基于所述调整信息进行非线性处理,以得到激活信息,所述非线性处理包括多个全连接操作以及激活操作;
所述处理单元,具体用于根据所述调整信息将所述激活信息进行维度调整,以得到所述融合信息。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于对所述编码特征进行卷积操作,以得到卷积信息;
所述处理单元,具体用于获取针对于所述图像识别任务配置的可学习参数;
所述处理单元,具体用于基于所述可学习参数对所述加权信息与所述卷积信息进行线性融合,以得到所述目标特征信息。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于对所述目标特征信息进行标准化处理,以得到标准化信息;
所述处理单元,具体用于将所述标准化信息输入多层感知机进行全连接操作,以得到全连接信息;
所述处理单元,具体用于基于所述目标特征信息对所述全连接信息进行残差计算,以得到所述输出特征。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取图像识别任务对应的任务信息;
所述处理单元,具体用于基于所述任务信息对图像处理单元的参数量、计算量以及处理量进行配置,以得到配置参数;
所述处理单元,具体用于根据所述配置参数对所述图像处理单元进行更新,以基于更新后的所述图像处理单元执行所述图像识别任务。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取所述图像识别任务对应的任务图像的分辨率信息;
所述处理单元,具体用于若所述分辨率信息对应的分辨率达到分辨率阈值,则基于所述分辨率信息进行参数量、计算量以及处理量的配置,以得到所述任务信息。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的图像的处理方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的图像的处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的图像的处理方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取待处理图像,并确定待处理图像对应的输入特征,该待处理图像中的像素基于位置编码进行配置;然后将输入特征输入图像处理单元,以将输入特征与位置编码进行结合得到编码特征;并将编码特征输入分组推理模块,以得到加权信息,该分组推理模块包括分组分支、组卷积分支以及图卷积分支,分组分支用于对编码特征进行分组得到多个图像特征组,组卷积分支用于对各个图像特征组进行组内卷积得到全局重要性分数,图卷积分支用于提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权融合得到加权信息;进一步的对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息;进而基于目标特征信息进行全连接操作,以得到输出特征,输出特征用于指示待处理图像对应的图像识别任务的执行。从而实现基于分组处理的特征融合过程,由于采用分组卷积操作,避免了全局卷积的繁琐,降低了融合全局重要性信息的计算量,提高了对于图像特征的处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为图像的处理系统运行的网络架构图;
图2为本申请实施例提供的一种图像的处理的流程架构图;
图3为本申请实施例提供的一种图像的处理方法的流程图;
图4为本申请实施例提供的一种图像的处理方法的模型结构示意图;
图5为本申请实施例提供的另一种图像的处理方法的模型结构示意图;
图6为本申请实施例提供的另一种图像的处理方法的模型结构示意图;
图7为本申请实施例提供的一种图像的处理方法的场景示意图;
图8为本申请实施例提供的另一种图像的处理方法的场景示意图;
图9为本申请实施例提供的另一种图像的处理方法的场景示意图;
图10为本申请实施例提供的另一种图像的处理方法的场景示意图;
图11为本申请实施例提供的另一种图像的处理方法的场景示意图;
图12为本申请实施例提供的一种图像的处理装置的结构示意图;
图13为本申请实施例提供的一种终端设备的结构示意图;
图14为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种图像的处理方法以及相关装置,可以应用于终端设备中包含图像的处理功能的系统或程序中,通过获取待处理图像,并确定待处理图像对应的输入特征,该待处理图像中的像素基于位置编码进行配置;然后将输入特征输入图像处理单元,以将输入特征与位置编码进行结合得到编码特征;并将编码特征输入分组推理模块,以得到加权信息,该分组推理模块包括分组分支、组卷积分支以及图卷积分支,分组分支用于对编码特征进行分组得到多个图像特征组,组卷积分支用于对各个图像特征组进行组内卷积得到全局重要性分数,图卷积分支用于提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权融合得到加权信息;进一步的对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息;进而基于目标特征信息进行全连接操作,以得到输出特征,输出特征用于指示待处理图像对应的图像识别任务的执行。从而实现基于分组处理的特征融合过程,由于采用分组卷积操作,避免了全局卷积的繁琐,降低了融合全局重要性信息的计算量,提高了对于图像特征的处理效率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的图像的处理方法可以应用于终端设备中包含图像的处理功能的系统或程序中,例如图像识别应用,具体的,图像的处理系统可以运行于如图1所示的网络架构中,如图1所示,是图像的处理系统运行的网络架构图,如图可知,图像的处理系统可以提供与多个信息源的图像的处理过程,即通过终端侧的识别请求向服务器发送对应的图像,使得服务器对图像进行特征提取并进行识别;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到图像的处理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述图像的处理系统可以运行于个人移动终端,例如:作为图像识别应用这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供图像的处理,以得到信息源的图像的处理处理结果;具体的图像的处理系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
至今为止,卷积神经网络在基础计算机视觉任务中发挥着重要作用,从图像分类、目标检测、及语义分割常用的方法全部是采用卷机神经网络进行处理的,在基于卷积神经网络设计的各种模型中,Transformer结构在计算机视觉任务中大放异彩,取得了各项任务的优异结果。
但是,Transformer结构的计算复杂度和空间复杂度均与指示符(Token)数量的二次方成正比,因此以Transformer为基础设计的网络无法高效的处理高分辨率的图像,影响图像处理的效率。
为了解决上述问题,本申请提出了一种图像的处理方法,该方法应用于图2所示的图像的处理的流程框架中,如图2所示,为本申请实施例提供的一种图像的处理的流程架构图,通过终端的任务请求向服务器下发待处理图像,并对待处理图像特征进行提取,然后进行分组卷积,并进行特征融合后输出待识别的特征,采用聚类的方式降低Transformer结构的计算复杂度,即从信息冗余的角度出发,通过分组推理的形式,实现既能进行全局推理,又能处理高分辨率图像,从而可迁移到下游检测分割等任务。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种图像的处理装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该图像的处理装置通过获取待处理图像,并确定待处理图像对应的输入特征,该待处理图像中的像素基于位置编码进行配置;然后将输入特征输入图像处理单元,以将输入特征与位置编码进行结合得到编码特征;并将编码特征输入分组推理模块,以得到加权信息,该分组推理模块包括分组分支、组卷积分支以及图卷积分支,分组分支用于对编码特征进行分组得到多个图像特征组,组卷积分支用于对各个图像特征组进行组内卷积得到全局重要性分数,图卷积分支用于提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权融合得到加权信息;进一步的对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息;进而基于目标特征信息进行全连接操作,以得到输出特征,输出特征用于指示待处理图像对应的图像识别任务的执行。从而实现基于分组处理的特征融合过程,由于采用分组卷积操作,避免了全局卷积的繁琐,降低了融合全局重要性信息的计算量,提高了对于图像特征的处理效率。
本申请实施例提供的方案涉及人工智能的计算机视觉技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中图像的处理方法进行介绍,请参阅图3,图3为本申请实施例提供的一种图像的处理方法的流程图,该管理方法可以是由终端或服务器执行的,本申请实施例至少包括以下步骤:
301、获取待处理图像,并确定待处理图像对应的输入特征。
本实施例中,待处理图像中的像素基于位置编码进行配置,即待处理图像的各个图像像素标记了对应的位置编码,而待处理图像对应的输入特征即为待处理图像对应的像素值序列。
302、将输入特征输入图像处理单元,以将输入特征与位置编码进行结合得到编码特征。
本实施例中,编码特征即将输入特征与位置编码相加,并进行归一化操作(BatchNormalization,BN),从而得到编码特征。
可以理解的是,图像处理单元可以是图像识别应用中的软件模块,该软件模块基于人工智能技术的图像识别算法配置所得。该图像处理单元包括位置编码模块、分组推理模块、卷积层以及全连接模块。具体的,位置编码模块用于融合输入特征中的位置信息,分组推理模块用于进行注意力加权,卷积层用于对注意力加权后的表征进行特征卷积,而全连接模块用于将卷积特征进行逐层连接,以得到输出特征。
具体的,该图像处理单元中的图像识别算法组成基于转换模型(Transformer)改进所得,即通过对Transformer的冗余性进行分析,进而设计出复杂度更低、占用显存更少同时效果更好的网络结果的冗余性进行分析,进而设计出复杂度更低、占用显存更少同时效果更好的网络结果。
303、将编码特征输入分组推理模块,以得到加权信息。
本实施例中,分组推理模块即为图像处理单元中用于进行全局重要性信息融合的模块,即输入特征输入图像处理单元的位置编码模块进行位置编码后输入分组推理模块;具体的输入过程如图4所示,图4为本申请实施例提供的一种图像的处理方法的模型结构示意图;对于输入特征首先于位置编码进行相加,接下来经过BN操作。然后输出接分组推理模块(Partition Reasoning,PRConv)模块以及卷积层(Convolutional layer,Conv)得到目标特征信息,在对目标特征信息接一个BN操作以及MLP组成的FFN模块,再加上残差模块即可得到图像处理单元的输出。
具体的,分组推理模块的结构如图5所示,图5为本申请实施例提供的另一种图像的处理方法的模型结构示意图;图中示出了分组推理模块PRConv包括分组分支(LSHPartition)、组卷积分支(GroupConv)以及图卷积分支(Conv);其中,分组分支用于对编码特征进行分组得到多个图像特征组,组卷积分支用于对各个图像特征组进行组内卷积得到全局重要性分数,图卷积分支用于提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权融合得到加权信息,即得到进行自注意力加权的位置权重信息。
在一种可能的场景中,分组的过程可以是基于局部敏感哈希(locality-sensetive hashing,LSH)算法进行的,也会被称做位置敏感哈希;其通过设计哈希(hash)函数,使得2个相似度很高的数据以较高的概率映射成同一个hash值,而令2个相似度很低的数据以极低的概率映射成同一个hash值,从而能高效处理海量高维数据的最近邻问题。对于分组的过程即将编码特征输入分组推理模块中的分组分支,以基于局部敏感哈希算法确定编码特征中各个位置对应的分组参数。
在一种可能的场景中,输入特征的特征纬度为CxHxW,其首先经过一个LSH(LocalSensitive Hash)进行分组:
H(x)=h1(x)+2h2(x)∈{0,1,2,3}
其中hi(x)函数为:
hi(x)=1ifβi.x≥0else 0
其中,βi∈Rd为归一化后的向量。经过设计的H(x)函数操作后,编码特征对应图像所有位置都会被分到0,1,2,3四个组中的任意一组。
然后,基于分组参数对应的数值进行分组,以得到多个图像特征组;并基于组卷积分支对各个图像特征组进行组内特征元素的卷积操作,并结合图像特征组进行归一化处理得到全局重要性分数;然后基于图卷积分支提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权求和,以得到合并信息;进而将合并信息输入融合模块,以得到融合信息;并根据融合信息按照图像特征组的分组进行特征分发,以得到加权信息。例如在分组后,假设分组(head)数量为M,经过LSH操作后得到MxHxW,其中每一个位置为0,1,2,3,K-1代表的分组。同时,经过组卷积分支(GroupConv)操作后可以获得了表示全局重要性的分数,经过分散归一化函数(ScatterSoftmax)后,可以获得了每一个组内的归一化后的分数(全局重要性分数);然后与Mx C/MxHxW(特征图)进行加权求和获得新的特征MxC/MxK(合并信息),其中K为分的组数;接下来经过一个特征融合模块得到MxC/MxK(融合信息),最后经过分配器(Distribute)进行分发计算出的每一个组的权重到原始的特征行成融合后的特征CxHxW(加权信息)。
具体的,对于融合信息的融合过程,即首先将合并信息输入融合模块进行特征调整(reshape),以得到调整信息;然后基于调整信息进行非线性处理,以得到激活信息,非线性处理包括多个全连接操作以及激活操作;并根据调整信息将激活信息进行维度调整,以得到融合信息。
在一种可能的场景中,如图6所示,图6为本申请实施例提供的另一种图像的处理方法的模型结构示意图;图中示出了非线性处理包括全连接层(linear)(C*C/4)、激活函数(GELU)以及全连接层(linear)(C/4*C)、激活函数(sigmoid),从而根据调整信息将激活信息进行维度调整,以得到融合信息MxC/MxK。
304、对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息。
本实施例中,将加权信息与卷积信息进行融合的过程可以是基于可学习参数进行线性融合所得,即首先对编码特征进行卷积操作,以得到卷积信息;然后获取针对于图像识别任务配置的可学习参数;并基于可学习参数对加权信息与卷积信息进行线性融合,以得到目标特征信息。
可以理解的是,通过进行线性融合,从而可以同时提取高频信息和低频信息,从而获得更加丰富的全局表达。
305、基于目标特征信息进行全连接操作,以得到输出特征。
本实施例中,基于目标特征信息进行全连接操作,即将目标特征信息中的每一个特征结点都与上一层的所有特征结点相连,用来把前序层级中提取到的特征综合起来,从而得到输出特征。
结合图4所示的结构,在进行线性融合后,为了提取更加鲁棒的特征表达,可以经过1个1x1的卷积最后接一个残差模块,然后将目标特征信息接一个BN操作以及多层感知机(Multilayer Perceptron,MLP)组成的前馈神经网络(Feedforward neural network,FFN)模块,再加上残差模块。即首先对目标特征信息进行标准化处理,以得到标准化信息;然后将标准化信息输入多层感知机进行全连接操作,以得到全连接信息;进而基于目标特征信息对全连接信息进行残差计算,以得到输出特征。假设输入为x,目标特征信息为:
Y0=Conv(PRConv(BN(x))*a+(1-a)*Conv(BN(x)))+x
其中,a为可学习的参数,其进行自适应学习获得;x为输入特征。
对应的,图像处理单元的输出为:
Y=FFN(BN(Y0))+Y0
其中,Y0为目标特征信息。
在得到图像处理单元的输出后,即可基于输出特征进行待处理图像对应的图像识别任务的执行,该网络结构不止可以应用于图像分类、目标检测及图像分割,也可以用于视频类处理任务,具体形式因实际场景而定。
另外,本实施例提供的图像处理单元也可以根据任务的需求进行动态的参数配置。即首先获取图像识别任务对应的任务信息;然后基于任务信息对图像处理单元的参数量、计算量以及处理量进行配置,以得到配置参数;并根据配置参数对图像处理单元进行更新,以基于更新后的图像处理单元执行图像识别任务。
例如在图7所示的场景中,图7为本申请实施例提供的一种图像的处理方法的场景示意图;图中示出了图像处理单元(PRconv)在不同参数下设计的网络参数,即将图像处理单元应用于不同参数量的网络结构可以获得PRConv-Tiny,PRConv-Small以及PRConv-Base的网络结构,其对应的参数量(params)逐步提升、计算量(FLOPs)逐步提升,另外处理量(throughput)则逐步减少。
在一种可能的场景中,本实施例所得的输出特征用于指示待处理图像对应的图像识别任务的执行,该图像识别任务包括图像分类任务、目标检测任务或图像分割任务。
具体的,图像分类任务即根据输出特征与各个图像分类的特征进行比对,从而得到输出特征归属于各个分类的概率,并进行图像类别的划分;而目标检测任务,即根据输出特征进行待处理图像中图像元素的检测,并对检测物的位置进行实时更新;对于图像分割任务,即根据输出特征进行待处理图像中图像元素的指向性划分,从而得到从待处理图像中分割得到的图像。
可以理解的是,考虑到本实施例采用的分组卷积的涉及,本实施例提供的图像处理单元可应用于高分辨图像的识别过程,故可以进行针对性的配置,即首先获取图像识别任务对应的任务图像的分辨率信息;若分辨率信息对应的分辨率达到分辨率阈值(例如分辨率达到4K),则基于分辨率信息进行参数量、计算量以及处理量的配置,以得到任务信息,从而实现对于海量图像中高分辨率图像的针对性识别过程。
在一种可能的场景中,本实施例提供的图像处理单元可应用于图像分类的过程,如图8所示,图8为本申请实施例提供的另一种图像的处理方法的场景示意图;图中示出了PRConv-Tiny,PRConv-Small以及PRConv-Base应用于图像分类的结果,即通过本实施例的图像处理单元对ImageNet-1K数据集中的图像进行分类,从而得到的性能指标,可见对于图像分类任务可以得到更高的精度。
在一种可能的场景中,本实施例提供的图像处理单元可应用于目标检测的过程,如图9所示,图9为本申请实施例提供的另一种图像的处理方法的场景示意图;图中示出了PRConv-Tiny,PRConv-Small以及PRConv-Base应用于目标检测任务的结果,即通过本实施例的图像处理单元对COCO 2017dataset数据集中的目标进行检测,从而得到的性能指标,可见对于目标检测任务可以得到更高的精度。
在一种可能的场景中,本实施例提供的图像处理单元可应用于实例分割的过程,如图10所示,图10为本申请实施例提供的另一种图像的处理方法的场景示意图;图中示出了PRConv-Tiny,PRConv-Small以及PRConv-Base应用于实例分割的结果,即通过本实施例的图像处理单元对COCO 2017dataset数据集中的实例进行分割,从而得到的性能指标,可见对于实例分割任务可以得到更高的精度。
在一种可能的场景中,本实施例提供的图像处理单元可应用于语义分割的过程,如图11所示,图11为本申请实施例提供的另一种图像的处理方法的场景示意图;图中示出了PRConv-Tiny,PRConv-Small以及PRConv-Base应用于语义分割的结果,即通过本实施例的图像处理单元对ADE20K数据集中的语义进行分割,从而得到的性能指标,可见对于语义分割任务可以得到更高的精度。
结合上述实施例可知,通过获取待处理图像,并确定待处理图像对应的输入特征,该待处理图像中的像素基于位置编码进行配置;然后将输入特征输入图像处理单元,以将输入特征与位置编码进行结合得到编码特征;并将编码特征输入分组推理模块,以得到加权信息,该分组推理模块包括分组分支、组卷积分支以及图卷积分支,分组分支用于对编码特征进行分组得到多个图像特征组,组卷积分支用于对各个图像特征组进行组内卷积得到全局重要性分数,图卷积分支用于提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权融合得到加权信息;进一步的对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息;进而基于目标特征信息进行全连接操作,以得到输出特征,输出特征用于指示待处理图像对应的图像识别任务的执行。从而实现基于分组处理的特征融合过程,由于采用分组卷积操作,避免了全局卷积的繁琐,降低了融合全局重要性信息的计算量,提高了对于图像特征的处理效率。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图12,图12为本申请实施例提供的一种图像的处理装置的结构示意图,图像的处理装置1200包括:
获取单元1201,用于获取待处理图像,并确定所述待处理图像对应的输入特征,所述待处理图像中的像素基于位置编码进行配置;
输入单元1202,用于将所述输入特征输入图像处理单元1203,以将所述输入特征与所述位置编码进行结合得到编码特征;
处理单元1203,用于将所述编码特征输入分组推理模块,以得到加权信息,所述分组推理模块包括分组分支、组卷积分支以及图卷积分支,所述分组分支用于对所述编码特征进行分组得到多个图像特征组,所述组卷积分支用于对各个所述图像特征组进行组内卷积得到全局重要性分数,所述图卷积分支用于提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权融合得到所述加权信息;
所述处理单元1203,还用于对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息;
所述处理单元1203,还用于基于所述目标特征信息进行全连接操作,以得到输出特征,所述输出特征用于指示所述待处理图像对应的图像识别任务的执行。
可选的,在本申请一些可能的实现方式中,所述处理单元1203,具体用于将所述编码特征输入所述分组推理模块中的所述分组分支,以基于局部敏感哈希算法确定所述编码特征中各个位置对应的分组参数;
所述处理单元1203,具体用于基于所述分组参数对应的数值进行分组,以得到多个所述图像特征组;
所述处理单元1203,具体用于基于所述组卷积分支对各个所述图像特征组进行组内特征元素的卷积操作,并结合所述图像特征组进行归一化处理得到所述全局重要性分数;
所述处理单元1203,具体用于基于所述图卷积分支提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权求和,以得到合并信息;
所述处理单元1203,具体用于将所述合并信息输入融合模块,以得到融合信息;
所述处理单元1203,具体用于根据所述融合信息按照所述图像特征组的分组进行特征分发,以得到所述加权信息。
可选的,在本申请一些可能的实现方式中,所述处理单元1203,具体用于将所述合并信息输入融合模块进行特征调整,以得到调整信息;
所述处理单元1203,具体用于基于所述调整信息进行非线性处理,以得到激活信息,所述非线性处理包括多个全连接操作以及激活操作;
所述处理单元1203,具体用于根据所述调整信息将所述激活信息进行维度调整,以得到所述融合信息。
可选的,在本申请一些可能的实现方式中,所述处理单元1203,具体用于对所述编码特征进行卷积操作,以得到卷积信息;
所述处理单元1203,具体用于获取针对于所述图像识别任务配置的可学习参数;
所述处理单元1203,具体用于基于所述可学习参数对所述加权信息与所述卷积信息进行线性融合,以得到所述目标特征信息。
可选的,在本申请一些可能的实现方式中,所述处理单元1203,具体用于对所述目标特征信息进行标准化处理,以得到标准化信息;
所述处理单元1203,具体用于将所述标准化信息输入多层感知机进行全连接操作,以得到全连接信息;
所述处理单元1203,具体用于基于所述目标特征信息对所述全连接信息进行残差计算,以得到所述输出特征。
可选的,在本申请一些可能的实现方式中,所述处理单元1203,具体用于获取图像识别任务对应的任务信息;
所述处理单元1203,具体用于基于所述任务信息对图像处理单元1203的参数量、计算量以及处理量进行配置,以得到配置参数;
所述处理单元1203,具体用于根据所述配置参数对所述图像处理单元1203进行更新,以基于更新后的所述图像处理单元1203执行所述图像识别任务。
可选的,在本申请一些可能的实现方式中,所述处理单元1203,具体用于获取所述图像识别任务对应的任务图像的分辨率信息;
所述处理单元1203,具体用于若所述分辨率信息对应的分辨率达到分辨率阈值,则基于所述分辨率信息进行参数量、计算量以及处理量的配置,以得到所述任务信息。
通过获取待处理图像,并确定待处理图像对应的输入特征,该待处理图像中的像素基于位置编码进行配置;然后将输入特征输入图像处理单元,以将输入特征与位置编码进行结合得到编码特征;并将编码特征输入分组推理模块,以得到加权信息,该分组推理模块包括分组分支、组卷积分支以及图卷积分支,分组分支用于对编码特征进行分组得到多个图像特征组,组卷积分支用于对各个图像特征组进行组内卷积得到全局重要性分数,图卷积分支用于提取编码特征对应的特征图,并基于全局重要性分数对特征图进行加权融合得到加权信息;进一步的对编码特征进行卷积得到卷积信息,并将加权信息与卷积信息进行融合得到目标特征信息;进而基于目标特征信息进行全连接操作,以得到输出特征,输出特征用于指示待处理图像对应的图像识别任务的执行。从而实现基于分组处理的特征融合过程,由于采用分组卷积操作,避免了全局卷积的繁琐,降低了融合全局重要性信息的计算量,提高了对于图像特征的处理效率。
本申请实施例还提供了一种终端设备,如图13所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图13示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图13,手机包括:射频(radio frequency,RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity,WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解,图13中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图13对手机的各个构成部件进行具体的介绍:
RF电路1310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1380处理;另外,将设计上行的数据发送给基站。通常,RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1320可用于存储软件程序以及模块,处理器1380通过运行存储在存储器1320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作,以及在触控面板1331上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1380,并能接收处理器1380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331,输入单元1330还可以包括其他输入设备1332。具体地,其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1341。进一步的,触控面板1331可覆盖显示面板1341,当触控面板1331检测到在其上或附近的触摸操作后,传送给处理器1380以确定触摸事件的类型,随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中,触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1360、扬声器1361,传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出;另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出处理器1380处理后,经RF电路1310以发送给比如另一手机,或者将音频数据输出至存储器1320以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1320内的软件程序和/或模块,以及调用存储在存储器1320内的数据,执行手机的各种功能和处理数据,从而对手机进行整体检测。可选的,处理器1380可包括一个或多个处理单元;可选的,处理器1380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1380中。
手机还包括给各个部件供电的电源1390(比如电池),可选的,电源可以通过电源管理系统与处理器1380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1380还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图14,图14是本申请实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图14所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有图像的处理指令,当其在计算机上运行时,使得计算机执行如前述图3至图11所示实施例描述的方法中图像的处理装置所执行的步骤。
本申请实施例中还提供一种包括图像的处理指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图11所示实施例描述的方法中图像的处理装置所执行的步骤。
本申请实施例还提供了一种图像的处理系统,所述图像的处理系统可以包含图12所描述实施例中的图像的处理装置,或图13所描述实施例中的终端设备,或者图14所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,图像的处理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种图像的处理方法,其特征在于,包括:
获取待处理图像,并确定所述待处理图像对应的输入特征,所述待处理图像中的像素基于位置编码进行配置;
将所述输入特征输入图像处理单元,以将所述输入特征与所述位置编码进行结合得到编码特征;
将所述编码特征输入分组推理模块,以得到加权信息,所述分组推理模块包括分组分支、组卷积分支以及图卷积分支,所述分组分支用于对所述编码特征进行分组得到多个图像特征组,所述组卷积分支用于对各个所述图像特征组进行组内卷积得到全局重要性分数,所述图卷积分支用于提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权融合得到所述加权信息;
对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息;
基于所述目标特征信息进行全连接操作,以得到输出特征,所述输出特征用于指示所述待处理图像对应的图像识别任务的执行。
2.根据权利要求1所述的方法,其特征在于,所述将所述编码特征输入分组推理模块,以得到加权信息,包括:
将所述编码特征输入所述分组推理模块中的所述分组分支,以基于局部敏感哈希算法确定所述编码特征中各个位置对应的分组参数;
基于所述分组参数对应的数值进行分组,以得到多个所述图像特征组;
基于所述组卷积分支对各个所述图像特征组进行组内特征元素的卷积操作,并结合所述图像特征组进行归一化处理得到所述全局重要性分数;
基于所述图卷积分支提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权求和,以得到合并信息;
将所述合并信息输入融合模块,以得到融合信息;
根据所述融合信息按照所述图像特征组的分组进行特征分发,以得到所述加权信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述合并信息输入融合模块,以得到融合信息,包括:
将所述合并信息输入融合模块进行特征调整,以得到调整信息;
基于所述调整信息进行非线性处理,以得到激活信息,所述非线性处理包括多个全连接操作以及激活操作;
根据所述调整信息将所述激活信息进行维度调整,以得到所述融合信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息,包括:
对所述编码特征进行卷积操作,以得到卷积信息;
获取针对于所述图像识别任务配置的可学习参数;
基于所述可学习参数对所述加权信息与所述卷积信息进行线性融合,以得到所述目标特征信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标特征信息进行全连接操作,以得到输出特征,包括:
对所述目标特征信息进行标准化处理,以得到标准化信息;
将所述标准化信息输入多层感知机进行全连接操作,以得到全连接信息;
基于所述目标特征信息对所述全连接信息进行残差计算,以得到所述输出特征。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取图像识别任务对应的任务信息;
基于所述任务信息对图像处理单元的参数量、计算量以及处理量进行配置,以得到配置参数;
根据所述配置参数对所述图像处理单元进行更新,以基于更新后的所述图像处理单元执行所述图像识别任务。
7.根据权利要求1所述的方法,其特征在于,所述获取图像识别任务对应的任务信息,包括:
获取所述图像识别任务对应的任务图像的分辨率信息;
若所述分辨率信息对应的分辨率达到分辨率阈值,则基于所述分辨率信息进行参数量、计算量以及处理量的配置,以得到所述任务信息。
8.一种图像的处理装置,其特征在于,包括:
获取单元,用于获取待处理图像,并确定所述待处理图像对应的输入特征,所述待处理图像中的像素基于位置编码进行配置;
输入单元,用于将所述输入特征输入图像处理单元,以将所述输入特征与所述位置编码进行结合得到编码特征;
处理单元,用于将所述编码特征输入分组推理模块,以得到加权信息,所述分组推理模块包括分组分支、组卷积分支以及图卷积分支,所述分组分支用于对所述编码特征进行分组得到多个图像特征组,所述组卷积分支用于对各个所述图像特征组进行组内卷积得到全局重要性分数,所述图卷积分支用于提取所述编码特征对应的特征图,并基于所述全局重要性分数对所述特征图进行加权融合得到所述加权信息;
所述处理单元,还用于对所述编码特征进行卷积得到卷积信息,并将所述加权信息与所述卷积信息进行融合得到目标特征信息;
所述处理单元,还用于基于所述目标特征信息进行全连接操作,以得到输出特征,所述输出特征用于指示所述待处理图像对应的图像识别任务的执行。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的图像的处理方法。
10.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的图像的处理方法的步骤。
CN202211418589.8A 2022-11-14 2022-11-14 一种图像的处理方法、装置以及存储介质 Pending CN116958581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211418589.8A CN116958581A (zh) 2022-11-14 2022-11-14 一种图像的处理方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211418589.8A CN116958581A (zh) 2022-11-14 2022-11-14 一种图像的处理方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN116958581A true CN116958581A (zh) 2023-10-27

Family

ID=88444996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211418589.8A Pending CN116958581A (zh) 2022-11-14 2022-11-14 一种图像的处理方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN116958581A (zh)

Similar Documents

Publication Publication Date Title
CN109918684B (zh) 模型训练方法、翻译方法、相关装置、设备及存储介质
CN110069715B (zh) 一种信息推荐模型训练的方法、信息推荐的方法及装置
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN110995810B (zh) 一种基于人工智能的对象识别方法和相关装置
CN111709398B (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN114418069B (zh) 一种编码器的训练方法、装置及存储介质
CN111612093A (zh) 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111046227A (zh) 一种视频查重方法及装置
CN111813910A (zh) 客服问题的更新方法、系统、终端设备及计算机存储介质
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN112084959B (zh) 一种人群图像处理方法及装置
CN111914180B (zh) 基于图结构的用户特征确定方法、装置、设备及介质
CN115392405A (zh) 模型训练方法、相关装置及存储介质
CN111046742B (zh) 一种眼部行为检测方法、装置以及存储介质
CN114612531A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN109754319B (zh) 信用分值确定系统、方法、终端及服务器
CN109583583B (zh) 神经网络训练方法、装置、计算机设备及可读介质
CN113409096B (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN116958581A (zh) 一种图像的处理方法、装置以及存储介质
CN111862015B (zh) 一种图像质量等级确定方法、装置及电子设备
CN111818548B (zh) 一种数据的处理方法、装置及设备
CN116450808B (zh) 一种数据的处理方法、装置以及存储介质
CN114743081B (zh) 模型训练方法、相关装置及存储介质
CN114332521B (zh) 图像分类方法、装置、移动终端及计算机可读存储介质
CN118470583A (zh) 一种视频分类方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication