CN116091809A - 图像处理方法及装置 - Google Patents
图像处理方法及装置 Download PDFInfo
- Publication number
- CN116091809A CN116091809A CN202111290458.1A CN202111290458A CN116091809A CN 116091809 A CN116091809 A CN 116091809A CN 202111290458 A CN202111290458 A CN 202111290458A CN 116091809 A CN116091809 A CN 116091809A
- Authority
- CN
- China
- Prior art keywords
- image
- texture
- target
- processing
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理领域,提供一种图像处理方法及装置,该图像处理方法包括:获取待处理图像,所述待处理图像包括目标对象;对所述待处理图像进行实例分割处理,确定与所述目标对象对应的目标像素区域;根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息。该图像处理方法通过实例分割确定出待处理图像中的目标像素区域,再根据目标像素区域进行纹理识别,使得纹理识别的过程更加专注于目标像素区域的细节内容,提高纹理信息识别的准确度。
Description
技术领域
本发明涉及图像处理领域,尤其涉及图像处理方法及装置。
背景技术
随着科技的发展,家用电器的智能化水平逐渐提升,家用电器通过搭载图像检测识别技术或语音检测识别技术,为用户提供更加便捷且智能化的服务。
带有图像检测识别技术的家用电器,对于图像中纹理等细节信息的识别有很高的要求。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种图像处理方法,提高图像纹理信息识别的准确度。
根据本发明第一方面实施例的图像处理方法,包括:
获取待处理图像,所述待处理图像包括目标对象;
对所述待处理图像进行实例分割处理,确定与所述目标对象对应的目标像素区域;
根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息。
根据本发明实施例的图像处理方法,通过实例分割确定出待处理图像中的目标像素区域,再根据目标像素区域进行纹理识别,使得纹理识别的过程更加专注于目标像素区域的细节内容,提高目标纹理信息识别的准确度。
根据本发明的一个实施例,所述根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息,包括:
将所述待处理图像输入至纹理分类模型,获得所述纹理分类模型输出的所述目标对象的目标纹理信息;
其中,所述纹理分类模型为,以纹理样本图像为样本,以预先确定的与所述纹理样本图像中纹理样本对象的纹理信息为样本标签,训练得到。
根据本发明的一个实施例,所述将所述待处理图像输入至纹理分类模型,获得所述纹理分类模型输出的所述目标对象的目标纹理信息,包括:
将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量;
将所述第一特征向量输入至所述纹理分类模型的第二处理层,进行维度变换,获得所述第二处理层输出的多个不同维度大小的第二特征向量;
将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
根据本发明的一个实施例,在将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量之后,所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息之前,所述方法还包括:
将所述第一特征向量输入至所述纹理分类模型的第一注意力模块,进行维度变化和权重提取,获得所述第一注意力模块输出的多个第一权重值;
所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息,包括:
将所述多个不同维度大小的第二特征向量和所述多个第一权重值输入至所述第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
根据本发明的一个实施例,在将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量之后,所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息之前,所述方法还包括:
将所述第一特征向量输入至所述纹理分类模型的第二注意力模块,进行权重提取,获得所述第二注意力模块输出的多个第二权重值;
所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息,包括:
将所述多个不同维度大小的第二特征向量和所述多个第二权重值输入至所述第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
根据本发明的一个实施例,在将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量之后,所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息之前,所述方法还包括:
将多个所述第一特征向量输入至所述纹理分类模型的第三注意力模块,进行权重提取,获得所述第三注意力模块输出的多个第三权重值;
所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息,包括:
将所述多个不同维度大小的第二特征向量和所述多个第三权重值输入至所述第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
根据本发明的一个实施例,所述根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息,包括:
在基于所述目标像素区域,确定所述待处理图像为需要进行裁剪的图像的情况下,根据所述目标像素区域裁剪所述待处理图像,得到第一图像;
对所述第一图像进行纹理识别,得到所述目标纹理信息。
根据本发明的一个实施例,所述根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息,包括:
将所述待处理图像中所述目标像素区域外的点像素值设为0,得到第二图像;
对所述第二图像进行纹理识别,得到所述目标纹理信息。
根据本发明第二方面实施例的图像处理装置,包括:
获取模块,用于获取待处理图像,所述待处理图像包括目标对象;
第一处理模块,用于对所述待处理图像进行实例分割处理,确定与所述目标对象对应的目标像素区域;
第二处理模块,用于根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息。
根据本发明第三方面实施例的电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述图像处理方法的步骤。
根据本发明第四方面实施例的非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像处理方法的步骤。
根据本发明第五方面实施例的计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像处理方法的步骤。
本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:根据本发明实施例提供的图像处理方法,通过实例分割确定出待处理图像中的目标像素区域,再根据目标像素区域进行纹理识别,使得纹理识别的过程更加专注于目标像素区域的细节内容,提高目标纹理信息识别的准确度。
进一步的,在纹理分类模型中引入注意力模块,利用注意力机制,使得纹理分类模型中的分段分配更加合理,在纹理分类模型中,注意力分配的权重由注意力模块根据已有的特征自动推导得到,无需进行人为设备,使得纹理分类模型更加智能。
再进一步的,通过将待处理图像中非目标像素区域的点像素值设置0,去除待处理图像中背景部分的干扰,使得纹理识别的过程更加专注图像细节,进一步提升纹理识别的准确度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的图像处理方法的流程示意图;
图2是本发明实施例提供的图像处理方法中纹理分类模型的处理流程示意图之一;
图3是本发明实施例提供的图像处理方法中纹理分类模型的处理流程示意图之二;
图4是本发明实施例提供的图像处理方法中纹理分类模型的处理流程示意图之三;
图5是本发明实施例提供的图像处理方法中纹理分类模型的处理流程示意图之四;
图6是本发明实施例提供的图像处理装置的结构流程示意图;
图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
下面结合图1至图5描述本发明实施例的图像处理方法,该图像处理方法应用于家用电器,通过该图像处理方法可以获得家用电器工作相关联的图像中不同对象的纹理信息。
本发明实施例的图像处理方法的执行主体可以为设备端的控制器,或者云端,或者边缘服务器。
在本发明实施例中,家用电器可以为洗碗机、消毒柜、油烟机、家用智能镜、冰箱、电熨斗或微波炉等家用电器。
如图1所示,本发明实施例的图像处理方法包括步骤110至步骤140。
步骤110、获取待处理图像。
其中,待处理图像是家用电器在工作场景下,通过家用电器内设或外接的摄像头获取的图像,待处理图像包括有目标对象,目标对象为家用电器为执行相关操作,需要获取相关信息的对象。
在实际执行中,可以通过待处理图像进行图像识别,识别出待处理图像中目标对象的相关信息,进而控制家用电器做出响应。
家用电器为洗碗机,洗碗机机身内置的摄像头捕捉到的洗碗机内部的待处理图像,待处理图像中包括有锅、碗、筷子或勺子等目标对象的图像。
家用电器为油烟机,待处理图像为油烟机抽风口设置的摄像头捕捉到的油烟机下方的图像,待处理图像中包括油烟机下方的锅具、灶具、食材或火焰等目标对象的图像。
家用电器为冰箱,待处理图像为冰箱冷藏或冷冻间室内设置的摄像头捕捉到的图像,待处理图像中包括有水果、蔬菜或肉类等目标对象的图像。
家用电器为微波炉,待处理图像为微波炉内设置的摄像头捕捉到的图像,待处理图像中包括有锅、碗或食物等目标对象的图像。
步骤120、对待处理图像进行实例分割处理,确定与目标对象对应的目标像素区域。
其中,实例分割处理是将对象从背景中分离出来的过程,对图像中的对象进行检测,按不同对象将整张图像分割为不同的像素区域。
在该实施例中,待处理图像包括有目标对象的像素,利用实例分割处理可以从待处理图像中,分割出待处理图像中目标对象的图像对应的像素区域,也即从待处理图像中分割得到目标像素区域。
例如,家用电器为洗碗机,待处理图像中的目标像素区域为洗碗机内锅、碗、筷子或勺子等目标对象对应的像素区域。
家用电器为油烟机,待处理图像中的目标像素区域为烟机下方的锅具、灶具、食材或火焰等目标对象对应的像素区域。
家用电器为冰箱,待处理图像中的目标像素区域为冰箱中水果、蔬菜或肉类等目标对象对应的像素区域。
家用电器为微波炉,待处理图像中的目标像素区域为微波炉内锅、碗或食物等目标对象对应的像素区域。
可以理解的是,待处理图像中可以包括多个目标对象,进行实例分割处理之后,可以得到多个目标对象各自的像素区域,实现待处理图像中多个目标对象得像素分割。
以洗碗机为例。
洗碗机内部摄像头所采集的待处理图像进行实例分割后,可以得到包括有3个目标对象分别对应的3个目标像素区域。
需要说明的是,实例分割处理可以分离出属于同一类的不同个体所对应的目标像素区域。
例如,洗碗机的待处理图像中包括3个盘子,盘子属于同一类物品,实例分割可以分割得到3个盘子分别对应的3个目标像素区域。
步骤130、根据目标像素区域对待处理图像进行纹理识别,得到目标纹理信息。
在该步骤中,纹理识别是提取目标对象中纹理特征,并对纹理特征进行分类的过程,纹理识别可以得到图片中对象所对应的纹理信息。
在该实施例中,目标纹理信息可以反映目标对象表面具有的表面结构组织排列属性,通过获取目标对象对应的目标纹理信息,可以得到目标对象表面的材质属性,对目标对象进行精确识别,辅助家用电器的操作控制。
以洗碗机为例。
实例分割得到洗碗机内3个盘子对应的目标像素区域,对待处理图像中目标像素区域的像素进行材质识别,得到洗碗机内3个盘子对应的目标材质信息,进而判断3个盘子分别是塑料盘子、陶瓷盘子和金属盘子。
根据不同材质的餐具,调节洗碗机内水流强度和清洁剂,提高清洗效果,节省水电消耗。
相关技术中,出现了一些基于多任务的纹理识别的框架识别,由于多任务的核心为共享特征层,识别过程无法专注于细节,纹理信息的识别准确性难以保证。
相关技术中,还出现了一些基于锚框切割图片,进行纹理判断的结构,对于一些有遮挡严重的重叠物体的图片,很容易导致纹理信息的误判。
本发明实施例通过实例分割,标注出待处理图像中的目标像素区域,再根据目标像素区域对待处理图像进行纹理识别获取目标纹理信息,使得纹理等细节识别的过程更加专注于目标像素区域的细节内容,提高目标材质信息识别的准确度,可有效避免因遮挡严重而出现的纹理信息误判现象。
根据本发明实施例提供的图像处理方法,通过实例分割确定出待处理图像中的目标像素区域,再根据目标像素区域进行纹理识别,使得纹理识别的过程更加专注于目标像素区域的细节内容,提高目标纹理信息识别的准确度。
在一些实施例中,步骤130可通过分类网络模型实现。
在该实施例中,纹理分类模型的输入为待处理图像,纹理分类模型的输出为目标纹理信息,目标纹理信息是待处理图像所对应的目标对象的纹理信息。
例如,将待处理图像输入纹理分类模型中,纹理分类模型进行纹理识别和分类,输出目标纹理信息,该目标纹理信息对应的材质为塑料。
将待处理图像输入纹理分类模型中,纹理分类模型进行纹理识别和分类,输出目标纹理信息,该目标纹理信息对应的材质为陶瓷。
将待处理图像输入纹理分类模型中,纹理分类模型进行纹理识别和分类,输出目标纹理信息,该目标纹理信息对应的材质为金属。
纹理分类模型属于分类网络模型,纹理分类模型包括但不限于VGG、Renet及Inception等经典分类网络模型和mobilenet、shufflenet及ghostnet等轻量级的网络模型。
在实际执行中,通过纹理样本图像对纹理分类模型进行训练。
纹理分类模型训练的过程中,以纹理样本图像为样本,人工标定各个纹理样本图像中纹理样本对象对应的纹理信息。
以洗碗机为例。
拍摄洗碗机内部的大量图像作为纹理样本图像,将纹理样本图像作为纹理分类模型的输入,对纹理样本图像中各个样本对象的纹理信息进行标注,将具有纹理信息的纹理样本图像作为纹理分类模型的输出,训练该纹理分类模型。
在一些实施例中,纹理分类模型包括:第一处理层、第二处理层和第三处理层。
第一处理层是纹理分类模型对待处理图像进行特征提取的处理层,可以称为纹理分类模型中的backbone网络。
其中,第一处理层的输入是待处理图像,第一处理层的输出是待处理图像对应的第一特征向量,第一特征向量的维度为第一维度。
在实际执行中,第一处理层可以对待处理图像进行卷积、池化及全局平均池化等操作,得到第一特征向量。
卷积处理的目的在于提取待处理图像中的特征,可以通过多层的卷积结构从低级特征中迭代提取更复杂的特征。
池化属于形式的降采样,池化将输入的待处理图像划分为若干个矩形区域,对每个子区域输出最大值。
池化分别作用于每个输入的特征并减小其大小,参数的数量和计算量也会下降,在一定程度上控制了过拟合,卷积处理之间周期性地插入池化处理,在经过层层卷积池化操作以后,会得到一个特征张量。
全局平均池化(Global Average Pooling)将特征图所有像素值相加求平均,得到一个数值,即用该数值表示对应特征图。
下面介绍一个具体的实施例。
将分割出来的待处理图像作为输入,输入到第一处理层,经过第一处理层中层层卷积池化操作之后,得到维度为CxWxH的特征。
其中,C指的是输出的channel,W指的是特征的宽度,H指的是特征的高度。
将维度为CxWxH的特征进行全局平均池化处理,得到一个Cx1x1的tensor张量。
针对Cx1x1的tensor张量进行Reshape维度转换处理,得到用于输出的C维大小的向量,也即第一特征向量。
第二处理层是对第一特征向量进行维度变换的处理层,第二处理层的输入是第一特征向量,进行维度变换的处理后,输出多个不同维度的第二特征向量。
第二处理层对第一特征向量的维度处理,实质上是对第一特征向量进行按比例截取的处理过程。
下面介绍一个具体的实施例。
第一特征向量为2048维度大小的向量,第二处理层对第一特征向量进行维度处理,分别截取第一特征向量的3/4、1/2和1/4,输出1536维度大小的向量一、1024维度大小的向量二以及512维度大小的向量三。
第二处理层还输出一个保持原维度小的2048维度大小的向量四。
向量一至向量四是第二处理层输出的多个第二特征向量,多个第二特征向量的维度各不相同。
第三处理层对多个第二特征向量进行批归一化处理和Relu非线性变换处理,最终再经过全连接(Fully Connected,FC)处理,将多个向量恢复到同一维度,再对多个向量进行平均求和(Avg),利用分类器,输出目标纹理信息。
批归一化(Batch Normalization,BN)在激活函数之前,利用优化变化方差大小和均值位置,使得新的分布更切合数据的真实分布,保证模型的非线性表达能力。
输出目标纹理信息的分类器可以为Softmax分类器,Softmax分类器将线性分类得到的得分值转化为概率值,进行多分类。
下面介绍一个具体的实施例。
如图2所示,输入4个第二特征向量至第三处理层,4个第二特征向量分别为1536维度大小的向量一、1024维度大小的向量二、512维度大小的向量三以及2048维度大小的向量四。
第三处理层对四个第二特征向量进行批归一化和Relu非线性变换,最终再经过全连接层,最终都恢复成2048维度的向量,最后再对这4个向量进行平均求和,输出最终的目标纹理信息。
在一些实施例中,在纹理分类模型中引入注意力模块,利用注意力机制,使得纹理分类模型中的分段分配更加合理。
注意力机制(Attention mechanism)属于资源分配的机制,可以理解为对于原本平均分配的资源根据不同对象的重要程度重新分配权重。
在纹理分类模型中,注意力分配的权重由注意力模块根据已有的特征自动推导得到,无需进行人为设备,使得纹理分类模型更加智能。
下面介绍三种具体的注意力模块。
一、在纹理分类模型中引入第一注意力模块。
在该实施例中,第一注意力模块属于分段整体注意力机制。
第一注意力模块将第一处理层输出的第一特征向量,进行维度变化处理,得到第三特征向量,第三特征向量的维度为第二维度。
第一注意力模块再将第三特征向量经过全连接后得到一个向量,该向量的维度与第三处理层中第二特征向量的数量相关。
例如,第三处理层中第二特征向量的数量为4个,第一注意力模块将第三特征向量经过全连接后输出4维的向量。
第一注意力模块对全连接后得到的向量中的每一个分量分别做非线性变换,得到多个第一权重值。
可以理解的是,多个第一权重值的数量与第三处理层中第二特征向量的数量相等。
第一注意力模块将得到的多个第一权重值输入第三处理层,第三处理层将多个第一权重值分别分配到对应的第二特征向量上。
在第三处理层中,每个第二特征向量乘上对应的第一权重值,第三处理层再对相乘后得到的向量进行批归一化、Relu非线性变换、全连接层及平均求和等处理,输出最终的目标纹理信息。
例如,如图3所示,第一注意力模块对backbone网络的最后的CxWxH维度的特征tensor,再拉取一个分支,也做全局平均池化,得到一个Cx1x1的tensor张量,在这里方便起见统一定为C=2048。
将该2048x1x1的张量reshape成2048维大小的向量,再将该2048维大小的向量经过全连接后输出得到一个4维的向量。
对这4维的向量的每一个分量分别做sigmoid非线性变换,得到4个0~1的值,将这4个值分别作用到原先第三处理层的4个分段,也就是每个分段上的值都乘以这个0~1的数值。
这4个分段中长度不为2048的向量,都经过批归一化和Relu非线性变换,最终再经过全连接层,最终都恢复成2048维度的向量。
最后,再对这4个向量进行平均求和,在经过softmax分类器得到最后的纹理信息分类输出。
二、在纹理分类模型中引入第二注意力模块。
在该实施例中,第二注意力模块属于共享权重的局部注意力机制。
第二注意力模块将第一处理层输出的第一特征向量进行维度处理,将第一特征向量进行按比例的截取,得到多个不同维度的特征向量。
第二注意力模块再对多个不同维度的特征向量的每一个分量分别做非线性变换,得到多个第二权重值。
可以理解的是,第二注意力模块对第一特征向量进行按比例的截取,其截取比例以及最终得到的特征向量的大小与第二处理层的输出的第二特征向量是对应的。
在第三处理层中,每个第二特征向量乘上对应的第二权重值,第三处理层再对相乘后得到的向量进行批归一化、Relu非线性变换、全连接层及平均求和等处理,输出最终的目标纹理信息。
例如,如图4所示,第二注意力模块对backbone网络的最后的CxWxH维度的特征tensor,再拉取一个分支,也做全局平均池化,得到一个Cx1x1的tensor张量,在这里方便起见统一定为C=2048。
将该2048x1x1的张量reshape成2048维大小的向量,再将该2048维大小的向量,分别经过4全连接后输出得到4个不同维度的向量,分别为512,1024,1536,2048的维度。
再对这4个不同维度的向量的每一个分量分别做sigmoid非线性变换,每个向量的分量值都是0~1的值。
将这4个向量的每个分量都乘以第三处理层中4个分段上的第二特征向量,每个分段的值都被赋予了注意力权重。
这4个分段中长度不为2048的向量,都经过批归一化和Relu非线性变换,最终再经过全连接层,最终都恢复成2048维度的向量。
最后再对这4个向量进行平均求和,在经过softmax得到最后的分类输出目标纹理信息。
三、在纹理分类模型中引入第三注意力模块。
在该实施例中,第三注意力模块属于不共享权重的局部注意力机制。
第三注意力模块需要获取多个第一特征向量来进行第三权重值的计算,第三注意力模块获取的第一特征向量的数量与第二处理层的输出的第二特征向量的数量相同。
第三注意力模块将多个第一特征向量分别进行维度变化处理,也即对多个第一特征向量进行按不同的比例进行截取。
第三注意力模块对多个第一特征向量的截取比例以及最终得到的特征向量的大小与第二处理层的输出的第二特征向量是对应的。
在第三处理层中,每个第二特征向量乘上对应的第三权重值,第三处理层再对相乘后得到的向量进行批归一化、Relu非线性变换、全连接层及平均求和等处理,输出最终的目标纹理信息。
例如,如图5所示,第三注意力模块对backbone网络的最后的CxWxH维度的特征tensor,拉取4个分支,每个都做全局平均池化,得到4个Cx1x1的tensor张量,在这里方便起见统一定为C=2048。
再对该4个2048x1x1的张量都做reshape操作,变成2048维大小的向量。
将该2048维大小的向量,分别经过4全连接后输出得到4个不同维度的向量,分别为512,1024,1536,2048的维度。
再对这4个不同维度的向量的每一个分量分别做sigmoid非线性变换,每个向量的分量值都是0~1的值。
将这4个向量的每个分量都乘以原先“Split-and-Share Module”中的4个分段上的值,这样每个分段的值都被赋予了注意力权重。
这4个分段中长度不为2048的向量,都经过批归一化和Relu非线性变换,最终再经过全连接层,最终都恢复成2048维度的向量。
最后再对这4个向量进行平均求和,在经过softmax得到最后的分类输出目标纹理信息。
需要说明的是,在纹理分类模型中增加注意力机制的模块,使得纹理分类模型的纹理分类更加精准,注意力机制的模块属于一种可插拔的设计模块,不会影响纹理分类模型的特征提取及分类等操作的初始设计,操作灵活,实现简单。
在一些实施例中,可以根据目标对象所对应的目标像素区域,对待处理图像进行裁剪处理,得到目标对象所对应的第一图像,第一图像包括有目标像素区域内的所有像素。
在该实施例中,待处理图像是需要进行裁剪处理的图像时,根据实例分割得到的目标像素区域裁剪待处理图像,得到对应的第一图像,再对第一图像进行纹理识别。
可以理解的是,基于待处理图像中多个目标对象所对应的目标像素区域进行裁剪,可以得到多个目标对象所对应的多个第一图像。
以洗碗机为例。
洗碗机内部摄像头所采集的待处理图像进行实例分割后,可以得到包括有3个目标对象分别对应的3个目标像素区域,进行切割或裁剪,可以得到3个目标对象分别对应的3个第一图像。
可以理解的是,第一图像是基于目标像素区域对待处理图像进行裁剪得到的,第一图像中包括目标对象所对应的全部像素,第一图像中目标对象的像素占比相比非目标对象的像素占比高。
在实际执行中,可以通过确定待处理图像中目标像素区域所对应的外切矩形边框,利用外切矩形边框进行切割裁剪,得到目标对象的第一图像。
在该实施例中,待处理图像中目标像素区域属于封闭型的区域,可以通过在目标像素区域的不同边界处做切线,多条切线相交形成外切矩形边框。
每个目标像素区域对应不同的外切矩形边框,利用多个外切矩形边框切割对应的目标像素区域,可以得到多个不同的第一图像。
可以理解的是,利用外切矩形边框切割得到的第一图像也是矩形的图像,第一图像的尺寸大小,与外切矩形边框的尺寸大小相同。
对待处理图像进行裁剪之后,第一图像中目标像素区域的占比大于待处理图像中目标像素区域的占比。
在一些实施例中,可以将待处理图像中非目标像素区域的点像素值设置0,去除待处理图像中背景部分的干扰,使得纹理识别的过程更加专注图像细节。进一步提升纹理识别的准确度。
在实际执行中,在裁剪得到第二图像后,可以将第二图像中的非目标像素区域的背景部分完全涂黑,也就是将目标像素区域外的点对应的像素值设置为0。
将非目标像素区域的点像素值设置为0,去除第二图像中的背景部分后,将其输入至纹理分类模型,可以有效减少非目标像素区域的部分像素对纹理分类模型的影响,减少纹理分类模型前向传输的计算量,提高纹理分类模型分类识别的准确度和速率。
在实际执行中,还可以将去除背景部分的第二图像中目标像素区域的边界部分往里缩减2至5个像素,也就是将边界2至5个像素部分的值设置为0。
例如,对去除背景部分的第二图像进行缩减边界的处理,得到边界缩减的第二图像,再将该边界缩减的第二图像输入至纹理分类模型进行纹理识别和分类。
在实际执行中,可以将去除背景部分的第二图像的目标像素区域的像素设置为白色,通过形态学的腐蚀操作来减少白色边缘区域,然后再将腐蚀后图像的黑色部分直接作用在原来去除背景部分的第二图像中,来达到缩减边界的效果。
在一些实施例中,步骤120可以通过实例分割模型实现。
在该实施例中,实例分割模型的输入为待处理图像,实例分割模型的输出为待处理图像中目标对象所对应的目标像素区域。
例如,将洗碗机的待处理图像输入实例分割模型中,实例分割模型进行实例分割处理,输入3个盘子分别对应的3个目标像素区域。
实例分割模型包括但不限于mask-rcnn、YOLACT、BlendMask、PointRend及SOLO等实例分割模型。
可以理解的是,实例分割模型输出目标像素区域的过程是对待处理图像中的像素进行边界限定的过程。
在实际执行中,通过实例样本图像对实例分割模型进行训练。
实例分割模型的过程中,以实例样本图像为样本,与实例样本图像中实例样本对象所对应的像素信息为样本标签。
针对不同的应用场景,还可以人工对实例样本图像中的各个实例样本对象对应的像素进行边界标注。
以洗碗机为例。
拍摄洗碗机内部的大量图像作为实例样本图像,将实例样本图像作为实例分割模型的输入,对实例样本图像中各个餐具的边界进行标注,将具有边界标注的实例样本图像作为实例样本图像的输出,训练该实例分割模型。
下面对本发明实施例提供的图像处理装置进行描述,下文描述的图像处理装置与上文描述的图像处理方法可相互对应参照。
如图6所示,本发明实施例提供的图像处理装置包括:
获取模块610,用于获取待处理图像,待处理图像包括目标对象;
第一处理模块620,用于对待处理图像进行实例分割处理,确定与目标对象对应的目标像素区域;
第二处理模块630,用于根据目标像素区域对待处理图像进行纹理识别,得到目标对象的目标纹理信息。
根据本发明实施例提供的图像处理装置,通过实例分割确定出待处理图像中的目标像素区域,再根据目标像素区域进行纹理识别,使得纹理识别的过程更加专注于目标像素区域的细节内容,提高目标纹理信息识别的准确度。
在一些实施例中,第二处理模块630,用于将待处理图像输入至纹理分类模型,获得纹理分类模型输出的目标对象的目标纹理信息;
其中,纹理分类模型为,以纹理样本图像为样本,以预先确定的与纹理样本图像中纹理样本对象的纹理信息为样本标签,训练得到。
在一些实施例中,第二处理模块630,用于将待处理图像输入至纹理分类模型的第一处理层,进行特征提取,获得第一处理层输出的第一维度大小的第一特征向量;
将第一特征向量输入至纹理分类模型的第二处理层,进行维度变换,获得第二处理层输出的多个不同维度大小的第二特征向量;
将多个不同维度大小的第二特征向量输入至纹理分类模型的第三处理层,进行分类处理,获得第三处理层输出的目标纹理信息。
在一些实施例中,第二处理模块630,用于将第一特征向量输入至纹理分类模型的第一注意力模块,进行维度变化和权重提取,获得第一注意力模块输出的多个第一权重值;将多个不同维度大小的第二特征向量和多个第一权重值输入至第三处理层,进行分类处理,获得第三处理层输出的目标纹理信息。
在一些实施例中,第二处理模块630,用于将第一特征向量输入至纹理分类模型的第二注意力模块,进行权重提取,获得第二注意力模块输出的多个第二权重值;将多个不同维度大小的第二特征向量和多个第二权重值输入至第三处理层,进行分类处理,获得第三处理层输出的目标纹理信息。
在一些实施例中,第二处理模块630,用于将多个第一特征向量输入至纹理分类模型的第三注意力模块,进行权重提取,获得第三注意力模块输出的多个第三权重值;将多个不同维度大小的第二特征向量和多个第三权重值输入至第三处理层,进行分类处理,获得第三处理层输出的目标纹理信息。
在一些实施例中,第二处理模块630,用于在基于目标像素区域,确定待处理图像为需要进行裁剪的图像的情况下;根据目标像素区域裁剪待处理图像,得到第一图像;对第一图像进行纹理识别,得到目标纹理信息。
在一些实施例中,第二处理模块630,用于将待处理图像中目标像素区域外的点像素值设为0,得到第二图像;对第二图像进行纹理识别,得到目标纹理信息。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行图像处理方法,该方法包括:获取待处理图像,待处理图像包括目标对象;对待处理图像进行实例分割处理,确定与目标对象对应的目标像素区域;根据目标像素区域对待处理图像进行纹理识别,得到目标对象的目标纹理信息。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例所提供的图像处理方法,该方法包括:获取待处理图像,待处理图像包括目标对象;对待处理图像进行实例分割处理,确定与目标对象对应的目标像素区域;根据目标像素区域对待处理图像进行纹理识别,得到目标对象的目标纹理信息。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的图像处理方法,该方法包括:获取待处理图像,待处理图像包括目标对象;对待处理图像进行实例分割处理,确定与目标对象对应的目标像素区域;根据目标像素区域对待处理图像进行纹理识别,得到目标对象的目标纹理信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围中。
Claims (12)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像,所述待处理图像包括目标对象;
对所述待处理图像进行实例分割处理,确定与所述目标对象对应的目标像素区域;
根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息。
2.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息,包括:
将所述待处理图像输入至纹理分类模型,获得所述纹理分类模型输出的所述目标对象的目标纹理信息;
其中,所述纹理分类模型为,以纹理样本图像为样本,以预先确定的与所述纹理样本图像中纹理样本对象的纹理信息为样本标签,训练得到。
3.根据权利要求2所述的图像处理方法,其特征在于,所述将所述待处理图像输入至纹理分类模型,获得所述纹理分类模型输出的所述目标对象的目标纹理信息,包括:
将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量;
将所述第一特征向量输入至所述纹理分类模型的第二处理层,进行维度变换,获得所述第二处理层输出的多个不同维度大小的第二特征向量;
将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
4.根据权利要求3所述的图像处理方法,其特征在于,在将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量之后,所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息之前,所述方法还包括:
将所述第一特征向量输入至所述纹理分类模型的第一注意力模块,进行维度变化和权重提取,获得所述第一注意力模块输出的多个第一权重值;
所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息,包括:
将所述多个不同维度大小的第二特征向量和所述多个第一权重值输入至所述第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
5.根据权利要求3所述的图像处理方法,其特征在于,在将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量之后,所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息之前,所述方法还包括:
将所述第一特征向量输入至所述纹理分类模型的第二注意力模块,进行权重提取,获得所述第二注意力模块输出的多个第二权重值;
所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息,包括:
将所述多个不同维度大小的第二特征向量和所述多个第二权重值输入至所述第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
6.根据权利要求3所述的图像处理方法,其特征在于,在将所述待处理图像输入至所述纹理分类模型的第一处理层,进行特征提取,获得所述第一处理层输出的第一维度大小的第一特征向量之后,所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息之前,所述方法还包括:
将多个所述第一特征向量输入至所述纹理分类模型的第三注意力模块,进行权重提取,获得所述第三注意力模块输出的多个第三权重值;
所述将所述多个不同维度大小的第二特征向量输入至所述纹理分类模型的第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息,包括:
将所述多个不同维度大小的第二特征向量和所述多个第三权重值输入至所述第三处理层,进行分类处理,获得所述第三处理层输出的所述目标纹理信息。
7.根据权利要求1-6任一项所述的图像处理方法,其特征在于,所述根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息,包括:
在基于所述目标像素区域,确定所述待处理图像为需要进行裁剪的图像的情况下,根据所述目标像素区域裁剪所述待处理图像,得到第一图像;
对所述第一图像进行纹理识别,得到所述目标纹理信息。
8.根据权利要求1-6任一项所述的图像处理方法,其特征在于,所述根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息,包括:
将所述待处理图像中所述目标像素区域外的点像素值设为0,得到第二图像;
对所述第二图像进行纹理识别,得到所述目标纹理信息。
9.一种图像处理装置,其特征在于,包括:
获取模块,用于获取待处理图像,所述待处理图像包括目标对象;
第一处理模块,用于对所述待处理图像进行实例分割处理,确定与所述目标对象对应的目标像素区域;
第二处理模块,用于根据所述目标像素区域对所述待处理图像进行纹理识别,得到所述目标对象的目标纹理信息。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述图像处理方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述图像处理方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111290458.1A CN116091809A (zh) | 2021-11-02 | 2021-11-02 | 图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111290458.1A CN116091809A (zh) | 2021-11-02 | 2021-11-02 | 图像处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116091809A true CN116091809A (zh) | 2023-05-09 |
Family
ID=86199646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111290458.1A Pending CN116091809A (zh) | 2021-11-02 | 2021-11-02 | 图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091809A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118038087A (zh) * | 2024-02-22 | 2024-05-14 | 蚂蚁云创数字科技(北京)有限公司 | 图像处理方法及装置 |
-
2021
- 2021-11-02 CN CN202111290458.1A patent/CN116091809A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118038087A (zh) * | 2024-02-22 | 2024-05-14 | 蚂蚁云创数字科技(北京)有限公司 | 图像处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680054B (zh) | 雾霾环境下多源图像融合方法 | |
CN109872285B (zh) | 一种基于变分约束的Retinex低照度彩色图像增强方法 | |
Lv et al. | A segmentation method of bagged green apple image | |
CN106327507B (zh) | 一种基于背景和前景信息的彩色图像显著性检测方法 | |
CN103679173B (zh) | 图像显著区域检测方法 | |
CN104616308A (zh) | 一种基于核模糊聚类的多尺度水平集图像分割方法 | |
CN111462027B (zh) | 基于多尺度梯度和抠图的多聚焦图像融合方法 | |
Xu et al. | FPGA-based low-visibility enhancement accelerator for video sequence by adaptive histogram equalization with dynamic clip-threshold | |
Kaur et al. | Performance evaluation of fuzzy and histogram based color image enhancement | |
Zhang et al. | Infrared image enhancement algorithm using local entropy mapping histogram adaptive segmentation | |
Xu et al. | Bayberry image segmentation based on manifold ranking salient object detection method | |
CN116091809A (zh) | 图像处理方法及装置 | |
CN113569772A (zh) | 遥感影像耕地实例掩膜提取方法及系统、设备、存储介质 | |
Mei et al. | Single image dehazing using dark channel fusion and haze density weight | |
CN112529853A (zh) | 一种用于水下养殖网箱的网衣破损检测方法及装置 | |
Kaur et al. | Video retargeting through spatio‐temporal seam carving using Kalman filter | |
CN116935496B (zh) | 一种电子烟烟雾视觉检测方法 | |
CN117437590A (zh) | 一种刀闸的开关状态检测方法、装置及设备 | |
CN102663748A (zh) | 基于频域的低景深图像分割方法 | |
Wei et al. | Method for vortex shape retrieval and area calculation based on convex hull algorithm | |
CN109410227B (zh) | 一种基于gvf模型的土地利用图斑轮廓提取算法 | |
Lai et al. | Novel mean-shift based histogram equalization using textured regions | |
Noh et al. | Haze removal on superpixel domain | |
CN116071572A (zh) | 家用电器的控制方法、装置及家用电器 | |
Wu et al. | Edge‐preserving colour‐to‐greyscale conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |