CN111738310B - 物料分类方法、装置、电子设备和存储介质 - Google Patents
物料分类方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111738310B CN111738310B CN202010500205.1A CN202010500205A CN111738310B CN 111738310 B CN111738310 B CN 111738310B CN 202010500205 A CN202010500205 A CN 202010500205A CN 111738310 B CN111738310 B CN 111738310B
- Authority
- CN
- China
- Prior art keywords
- image
- single material
- vector
- sample
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 884
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 279
- 230000011218 segmentation Effects 0.000 claims abstract description 154
- 238000013145 classification model Methods 0.000 claims abstract description 66
- 239000000523 sample Substances 0.000 claims description 202
- 230000004927 fusion Effects 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 244000013123 dwarf bean Species 0.000 description 10
- 244000046052 Phaseolus vulgaris Species 0.000 description 8
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 235000021331 green beans Nutrition 0.000 description 4
- 239000012535 impurity Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种物料分类方法、装置、电子设备和存储介质,其中方法包括:将待分类物料图像输入至单物料分割模型,得到单物料分割模型输出的待分类物料图像中每一像素的语义分割结果和物料归属向量;基于待分类物料图像中每一像素的语义分割结果和物料归属向量,对待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;将每一单物料掩膜在待分类物料图像中的单物料图像输入至物料分类模型,得到物料分类模型输出的物料分类结果。本发明实施例提供的方法、装置、电子设备和存储介质,提高了包括重叠物料在内的分割准确性,也同时提高了物料分类的准确性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种物料分类方法、装置、电子设备和存储介质。
背景技术
随着产品生产流程的机械化,生产力得到了极大提高。在产品生产的过程中,流水线上流转的物料的品控会影响产品最终的质量,因此需要对物料进行分类,剔除不满足要求的物料。
目前,物料分类主要有两种方式,包括人工分类方式,以及利用传感器获取物料的重量信息,从而筛选出不合格物料的方式。然而,人工分类过程繁杂,耗时长,因此实时性不足;利用传感器进行物料分类的方式,无法筛选出仅表面出现形态改变的不合格物料,且会由于物料之间存在重叠问题,导致准确性欠佳。
发明内容
本发明实施例提供一种物料分类方法、装置、电子设备和存储介质,用以解决现有物料分类方法准确性欠佳的问题。
第一方面,本发明实施例提供一种物料分类方法,包括:
将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量;
基于所述待分类物料图像中每一像素的语义分割结果和物料归属向量,对所述待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;
将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果;
其中,所述单物料分割模型是基于样本物料图像,以及所述样本物料图像中每一单物料对应的样本单物料掩膜训练得到的;
所述物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的。
可选地,所述将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量,具体包括:
将所述待分类物料图像输入至所述单物料分割模型的多尺度特征提取层,得到所述多尺度特征提取层输出的图像特征向量;
将所述图像特征向量输入至所述单物料分割模型的语义分类层,得到所述语义分类层输出的所述待分类物料图像中每一像素的语义分类结果;
将所述图像特征向量输入至所述单物料分割模型的物料归属向量表示层,得到所述物料归属向量表示层输出的所述待分类物料图像中每一像素的物料归属向量。
可选地,所述单物料分割模型的损失函数包括语义分割损失函数和物料归属向量表示损失函数;
其中,所述语义分割损失函数是基于样本物料图像中每一像素的语义分割结果,以及每一像素的样本语义分割结果确定的;所述样本语义分割结果是基于所述样本物料图像中每一单物料对应的样本单物料掩膜确定的;所述物料归属向量表示损失函数是基于样本物料图像中属于同一单物料的像素的物料归属向量间的距离,以及属于不同单物料的像素的物料归属向量间的距离确定的。
可选地,所述将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果,具体包括:
将任一单物料图像输入至所述物料分类模型的特征符号提取层,得到所述特征符号提取层输出的所述任一单物料图像对应的特征符号向量;
将所述任一单物料图像输入至所述物料分类模型的单物料特征提取层,得到所述单物料特征提取层输出的所述任一单物料图像对应的单物料特征向量;
将所述任一单物料图像对应的特征符号向量和单物料特征向量输入至所述物料分类模型的特征融合层,得到所述特征融合层输出的所述任一单物料图像对应的特征融合向量;
将每一单物料图像对应的特征融合向量输入至所述物料分类模型的图像分类层,得到所述图像分类层输出的所述物料分类结果。
可选地,所述将所述任一单物料图像对应的特征符号向量和单物料特征向量输入至所述物料分类模型的特征融合层,得到所述特征融合层输出的所述任一单物料图像对应的特征融合向量,具体包括:
将所述任一单物料图像对应的特征符号向量和单物料特征向量分别输入至所述特征融合层的自注意力变换层,得到所述自注意力变换层输出的特征符号自注意力向量和单物料特征自注意力向量;
将所述特征符号自注意力向量和所述单物料特征自注意力向量输入至所述特征融合层的矩阵元素融合层,得到所述矩阵元素融合层输出的所述特征融合向量。
可选地,所述样本物料图像以及所述样本单物料掩膜的获取方法,具体包括:
对包含物料的样本图像进行二值化,得到初步物料掩膜;
对所述初步物料掩膜进行连通域分析,得到所述初步物料掩膜中每一连通域分别对应的候选物料掩膜;
将仅包含单个物料的候选物料掩膜作为所述样本单物料掩膜;
将若干个样本单物料掩膜的连通域在所述样本图像中对应的子图,在背景图像上随机堆叠,得到所述样本物料图像。
可选地,所述对包含物料的样本图像进行二值化,得到初步物料掩膜,具体包括:
对所述包含物料的样本图像进行颜色聚类,确定背景对应类簇的颜色中心;
基于所述背景对应类簇的颜色中心,将所述包含物料的样本图像二值化,得到所述初步物料掩膜;
其中,所述包含物料的样本图像的背景为单一颜色。
第二方面,本发明实施例提供一种物料分类装置,包括:
单物料分割单元,用于将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量;
聚类单元,用于基于所述待分类物料图像中每一像素的语义分割结果和物料归属向量,对所述待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;
物料分类单元,用于将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果;
其中,所述单物料分割模型是基于样本物料图像,以及所述样本物料图像中每一单物料对应的样本单物料掩膜训练得到的;
所述物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种物料分类方法、装置、电子设备和存储介质,通过确定待分类物料图像中每一像素的语义分割结果和物料归属向量,从而聚类得到单物料掩膜,提高了包括重叠物料在内的分割准确性,再基于每一单物料掩膜在待分类物料图像中的单物料图像,对每一单物料进行分类,得到物料分类结果,也同时提高了物料分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的物料分类方法的流程示意图;
图2为本发明实施例提供的单物料分割模型运行方法的流程示意图;
图3为本发明实施例提供的物料分类模型运行方法的流程示意图;
图4为本发明实施例提供的特征融合方法的流程示意图;
图5为本发明实施例提供的样本物料图像以及样本单物料掩膜获取方法的流程示意图;
图6为本发明实施例提供的样本单物料掩膜的示意图;
图7为本发明实施例提供的单物料分割模型的结构示意图;
图8为本发明实施例提供的物料分类模型的结构示意图;
图9为本发明实施例提供的物料分类装置的结构示意图;
图10为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在生产领域,流水线的固化节省了大量的人力成本,极大地提高了产品生产力。在流水线流转过程中,每一环节的物料品控均会影响最终成品的质量,因此需要对物料进行分类,以筛除不满足产品质量要求的物料。
现有的物料分类方式通常包括人工分类方式和利用传感器进行物料筛选的方式。其中,人工分类时,需要进行人眼观察并手动分离合格品和劣质品;利用传感器进行物料筛选时,需要通过传感器收集各物料的重量信息,从而然后将物料的重量信息发送给计算机进行筛选。
然而,人工分类方式过程复杂,且耗时耗力,难以满足工业领域需要快速进行物料分类的要求。而利用传感器进行物料筛选的方式,仅能筛选出重量上明显不符合要求的物料,而难以识别出仅外观出现形态变化的不合格物料,并且流水线上流转的物料之间通常会出现重叠,造成传感器获取的重量信息不准确,从而导致分类准确性欠佳。
对此,本发明实施例提供了一种物料分类方法。图1为本发明实施例提供的物料分类方法的流程示意图,如图1所示,该方法包括:
步骤110,将待分类物料图像输入至单物料分割模型,得到单物料分割模型输出的待分类物料图像中每一像素的语义分割结果和物料归属向量;
其中,单物料分割模型是基于样本物料图像,以及样本物料图像中每一单物料对应的样本单物料掩膜训练得到的。
具体地,待分类物料图像为包含若干个未知类型的单物料的图像,该图像可以为高速相机直接采集的物料图像,也可以为进行图像预处理后的物料图像,本发明实施例对此不作具体限定。
单物料分割模型用于基于输入的待分类物料图像,确定其中每一像素的语义分割结果并提取每一像素的物料归属向量。其中,任一像素的语义分割结果可以表明该像素是背景像素还是物料像素。需要说明的是,此处的语义分割结果只区分该像素是背景像素或是物料像素,并不区分该像素具体属于哪个单物料;任一像素的物料归属向量可以用来确定该像素属于待分类物料图像中的哪个单物料,且同属一个单物料的像素的物料归属向量会比较接近,而不同单物料的像素的物料归属向量则距离较远。
在执行步骤110之前,还可以预先训练得到单物料分割模型,具体可以通过如下方式训练得到单物料分割模型:首先,收集大量样本物料图像,并确定样本物料图像中每一单物料对应的样本单物料掩膜。随即,基于样本物料图像以及其中每一单物料对应的样本单物料掩膜训练初始模型,从而得到单物料分割模型。
训练好后的单物料分割模型,其输出的每一像素的物料归属向量会呈现以下特点:属于同一单物料的像素的物料归属向量在向量空间中,会扎堆聚集在一起,而不同单物料对应的像素的物料归属向量则相距较远。因此,基于单物料分割模型输出的每一像素的物料归属向量,可以准确区分不同单物料的像素,从而实现单物料的准确分割。即使各个物料之间存在重叠现象,基于重叠部分像素的物料归属向量,也能准确将重叠部分像素划分到其实际所属的单物料,从而提高了重叠物料之间的分割准确性。
步骤120,基于待分类物料图像中每一像素的语义分割结果和物料归属向量,对待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜。
具体地,由于同属一个单物料的像素的物料归属向量会比较接近,而不同单物料的像素的物料归属向量则距离较远,因此,基于每一像素的语义分割结果和物料归属向量,对待分类物料图像中每一像素进行聚类,即可分割得到待分类物料图像中每一单物料对应的单物料掩膜。另外,相较于现有的目标分割算法,本发明实施例通过聚类得到单物料掩膜,有效提高了目标分割的效率。
可选地,可以首先基于每一像素的物料归属向量,对每一像素进行聚类,得到若干个类簇,其中包含一个对应背景的类簇以及若干个对应不同单物料的类簇,然后即可基于每一像素的语义分割结果,区分上述类簇中对应背景的类簇以及对应不同单物料的类簇,从而确定得到若干个单物料掩膜;也可以首先基于每一像素的语义分割结果,筛选出其中的物料像素,从而基于筛选出的物料像素的物料归属向量对其进行聚类,得到若干个单物料掩膜,本发明实施例对此不作具体限定。
需要说明的是,聚类算法可以采用Meanshift(均值漂移)或者DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类)等算法,本发明实施例对此不作具体限定。
可选地,为了提高聚类算法的运行效率,以提高单物料分割的实时性,步骤120中采取Meanshift算法进行聚类,并在聚类之前,随机产生多个种子。其中,种子的数量可以根据实际应用场景选取,例如50个,本发明实施例对此不作具体限定。聚类过程中,对于任一种子,划定以该种子为中心、预设带宽(bandwidth)为半径的圆,并求取该圆内像素的物料归属向量的平均值向量。此处,预设带宽可根据实际应用场景进行设置,例如1.5,本发明实施例对此不作具体限定。随即,以该平均值向量为新的种子,重复上述操作,直至种子不再滑动、达到稳定状态。当所有种子均呈稳定状态时,任一种子对应的半径为预设带宽的圆内所包含的像素,即构成一个类簇。基于不同种子间的距离,对每一种子对应的类簇进行合并,得到聚类后的若干类簇。
步骤130,将每一单物料掩膜在待分类物料图像中的单物料图像输入至物料分类模型,得到物料分类模型输出的物料分类结果;
其中,物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的。
具体地,聚类得到的单物料掩膜存在一定程度的锯齿效应。为了避免锯齿效应对物料分类准确性产生负面影响,可以对单物料掩膜进行双线性插值,模糊或者均匀化单物料的边界,消除其中的锯齿效应。其中,双线性插值的次数可以依据实际情况进行设定,例如两次,本发明实施例对此不作具体限定。
然后,基于消除锯齿效应后的任一单物料掩膜,可以获取其在待分类物料图像中对应的去除背景后的子图。可选地,可以直接将任一单物料掩膜对应的上述子图作为单物料图像,也可以对任一单物料掩膜对应的上述子图进行标准化,将标准化处理后的图像作为单物料图像,本发明实施例对此不作具体限定。可选地,可以采用如下方式对单物料掩膜对应的子图进行标准化:将子图每一像素的RGB通道像素值调整到[0,1]范围内,再将调整后的RGB通道像素值分别减去预设均值,再除以预设标准差。其中,预设均值和预设标准差可根据实际应用场景进行设定,例如[0.485,0.456,0.406]和[0.229,0.224,0.225]。
物料分类模型用于基于输入的每一单物料掩膜对应的单物料图像,对每一单物料图像中的单物料进行分类,得到待分类物料图像对应的物料分类结果。其中,物料分类结果包括待分类物料图像中每一单物料所属的类型。由于单物料分割模型输出的每一像素的物料归属向量,可以准确区分不同单物料的像素,提高了包括重叠物料在内的分割准确性,因此聚类得到的单物料掩膜中不会包括其他单物料的像素,在对该单物料掩膜对应的单物料图像进行分类时,不会受到其他单物料像素的干扰,从而提高了物料分类的准确性。
在执行步骤130之前,还可以预先训练得到物料分类模型,具体可以通过如下方式训练得到物料分类模型:首先,收集大量样本单物料图像,并确定样本单物料图像对应的样本物料分类结果。另外,还可对样本单物料图像进行随机旋转和翻转,以增大样本空间,并对所有样本单物料图像进行缩放和标准化。随即,基于样本单物料图像及其对应的样本物料分类结果训练初始模型,从而得到物料分类模型。训练过程中,损失函数可以采用例如交叉熵损失函数等常规的损失函数,优化器可以采用Adam优化器,学习率可以根据训练效果进行调整,例如设置为0.0001。
本发明实施例提供的方法,通过确定待分类物料图像中每一像素的语义分割结果和物料归属向量,从而聚类得到单物料掩膜,提高了包括重叠物料在内的分割准确性,再基于每一单物料掩膜在待分类物料图像中的单物料图像,对每一单物料进行分类,得到物料分类结果,也同时提高了物料分类的准确性。
基于上述实施例,图2为本发明实施例提供的单物料分割模型运行方法的流程示意图,如图2所示,步骤110具体包括:
步骤111,将待分类物料图像输入至单物料分割模型的多尺度特征提取层,得到多尺度特征提取层输出的图像特征向量;
步骤112,将图像特征向量输入至单物料分割模型的语义分类层,得到语义分类层输出的待分类物料图像中每一像素的语义分类结果;
步骤113,将图像特征向量输入至单物料分割模型的物料归属向量表示层,得到物料归属向量表示层输出的待分类物料图像中每一像素的物料归属向量。
具体地,为了提高特征提取的准确性,在单物料分割模型中设置了多尺度特征提取层,用于提取待分类物料图像多个尺度下的图像特征,并将多个尺度下的图像特征融合,得到待分类物料图像的图像特征向量。多尺度特征提取层输出的图像特征向量中,不仅包含了高层语义信息,还包含了分辨率高、细节特征完整的低级语义信息,从而有助于提高单物料分割的准确性。可选地,可以在Unet模型或者FPN(Feature Pyramid Networks,特征金字塔网络)模型的基础上构建多尺度特征提取层,本发明实施例对此不作具体限定。
随即,将图像特征向量输入至语义分类层,语义分类层用于基于图像特征向量,对待分类物料图像中的每一像素进行二分类,确定每一像素是背景像素或是物料像素,得到每一像素的语义分类结果。
另外,还需将图像特征向量输入至物料归属向量表示层,物料归属向量表示层用于基于图像特征向量,对待分类物料图像中的每一像素进行向量表示,得到每一像素的物料归属向量。
此处,语义分类层和物料归属向量表示层共用了多尺度特征提取层输出的图像特征向量,因此,在单物料分割模型的训练过程中,语义分类层和物料归属向量表示层会相互制约,同时保证了语义分类结果和物料归属向量的准确性,从而提高单物料分割的准确性。
需要说明的是,本发明实施例不对步骤112和步骤113的执行顺序做具体限定,步骤112可以在步骤113之前或之后执行,也可以与步骤113同步执行。
本发明实施例提供的方法,基于提取得到的包含多个尺度图像特征的图像特征向量,对每一像素进行语义分割,以及确定每一像素的物料归属向量,进一步提高了单物料分割的准确性。
基于上述任一实施例,单物料分割模型的损失函数包括语义分割损失函数和物料归属向量表示损失函数;其中,语义分割损失函数是基于样本物料图像中每一像素的语义分割结果,以及每一像素的样本语义分割结果确定的,样本语义分割结果是基于样本物料图像中每一单物料对应的样本单物料掩膜确定的;物料归属向量表示损失函数是基于样本物料图像中属于同一单物料的像素的物料归属向量间的距离,以及属于不同单物料的像素的物料归属向量间的距离确定的。
具体地,单物料分割模型在训练过程中,损失函数包括两个部分:语义分割损失函数和物料归属向量表示损失函数。
语义分割损失函数用于减少单物料分割模型基于样本物料图像确定的每一像素的语义分割结果,与该样本物料图像中每一像素的样本语义分割结果之间的差异性。其中,每一像素的样本语义分割结果是基于样本物料图像中每一单物料对应的样本单物料掩膜确定得到的。例如,若任一像素在任一样本单物料掩膜中,该像素的样本语义分割结果即为物料像素,若该像素不在任何样本单物料掩膜中,则该像素的样本语义分割结果为背景像素。语义分割损失函数可以基于样本物料图像中每一像素的语义分割结果,与该样本物料图像中每一像素的样本语义分割结果之间的距离确定。可选地,可以利用Softmax交叉熵损失函数定义语义分割损失函数。
物料归属向量表示损失函数用于减少属于同一单物料的像素的物料归属向量之间的差异性,并增大属于不同单物料的像素的物料归属向量之间的差异性。其中,物料归属向量表示损失函数可以基于属于同一单物料的像素的物料归属向量间的距离与类内距离的差值,以及不同单物料对应的物料归属向量平均值间的距离与类间距离的差值确定得到。此处,任一单物料对应的物料归属向量平均值是属于该单物料的所有像素的物料归属向量的平均值;类内距离和类间距离是预先设定的数值,分别用于在训练过程中缩小同一单物料的像素的物料归属向量间的距离,以及拉大不同单物料对应的物料归属向量平均值间的距离。确定同一单物料的像素的物料归属向量间的距离,或是不同单物料对应的物料归属向量平均值间的距离时,可以计算向量间的曼哈顿距离或者欧氏距离,本发明实施例对此不作具体限定。
本发明实施例提供的方法,将单物料分割模型的损失函数设置为语义分割损失函数和物料归属向量表示损失函数,使得单物料分割模型在训练过程中,不断提高语义分割的准确度,同时缩小同一单物料的像素的物料归属向量间的距离,以及拉大不同单物料对应的物料归属向量间的距离,提高了单物料分割的准确性。
基于所述任一实施例,图3为本发明实施例提供的物料分类模型运行方法的流程示意图,如图3所示,步骤130具体包括:
步骤131,将任一单物料图像输入至物料分类模型的特征符号提取层,得到特征符号提取层输出的该单物料图像对应的特征符号向量。
具体地,特征符号提取层用于提取输入的单物料图像的第一特征向量,并获取第一特征向量中各数值的符号,构成特征符号向量。此处,第一特征向量是特征符号提取层中的第一特征提取层提取得到的特征向量,第一特征向量中包含了单物料图像中每一区域的语义信息。第一特征向量中各数值的符号包括-1、0和1,得到的特征符号向量中的数值也均为-1、0或1。其中0代表单物料图像中的对应区域不包括对分类有意义的语义信息,可忽略不计;-1和1则代表单物料图像中的对应区域包括对分类有意义的语义信息,且-1对应的区域与1对应的区域属于不同类型,例如,-1对应的区域可能为异常区域,1对应的区域可能为正常区域。
步骤132,将该单物料图像输入至物料分类模型的单物料特征提取层,得到单物料特征提取层输出的该单物料图像对应的单物料特征向量。
具体地,单物料特征提取层用于对单物料图像进行特征提取,得到该单物料图像对应的单物料特征向量。其中,单物料特征向量中同样包含了单物料图像中每一区域的语义信息。与步骤131中第一特征提取层提取的第一特征向量相比,单物料特征提取层是利用另一方式,从另一角度提取的语义信息,因此单物料特征向量中的语义信息与第一特征向量的语义信息是不相同的。例如,可以在VGG11模型的基础上构建第一特征提取层,在Resnet34模型的基础上构建单物料特征提取层。
此处,考虑到不同类型的物料间的区别相差甚微,例如合格豆角与不合格豆角之间的差别可能仅在于豆角尖端是否长出了细小的芽头,因此,除了利用特征符号提取层提取单物料图像对应的特征符号向量以外,还设置单物料特征提取层,用于从另一角度提取了单物料图像对应的单物料特征向量,以丰富单物料图像的语义信息,从而提高单物料图像的分类准确性。进一步地,特征符号提取层输出的特征符号向量中,-1对应的区域可能是豆角上的芽头、杂质。
需要说明的是,本发明实施例不对步骤131和步骤132的执行顺序做具体限定,步骤131可以在步骤132之前或之后执行,也可以与步骤132同步执行。
步骤133,将该单物料图像对应的特征符号向量和单物料特征向量输入至物料分类模型的特征融合层,得到特征融合层输出的该单物料图像对应的特征融合向量。
具体地,特征融合层用于融合单物料图像对应的特征符号向量和单物料特征向量中包含的从不同角度提取的语义信息,得到该单物料图像对应的特征融合向量。融合过程中,特征融合层利用特征符号向量对单物料特征向量进行筛选,过滤掉单物料特征向量中可忽略不计的语义信息,仅凸显出单物料特征向量中对物料分类有帮助的语义信息。得到的特征融合向量中,去除了无关因素的干扰,有助于提高物料分类的准确性。
步骤134,将每一单物料图像对应的特征融合向量输入至物料分类模型的图像分类层,得到图像分类层输出的物料分类结果。
具体地,图像分类层用于基于输入的每一单物料图像对应的特征融合向量,分别对每一单物料图像进行分类,得到最终的物料分类结果。
本发明实施例提供的方法,通过提取单物料图像的特征符号向量和单物料特征向量,并将二者融合得到特征融合向量,去除了无关因素的干扰,使得模型在分类时,聚焦于对物料分类有帮助的语义信息上,然后基于每一单物料图像对应的特征融合向量,确定物料分类结果,提高了物料分类的准确性。
基于所述任一实施例,图4为本发明实施例提供的特征融合方法的流程示意图,如图4所示,步骤133具体包括:
步骤1331,将任一单物料图像对应的特征符号向量和单物料特征向量分别输入至特征融合层的自注意力变换层,得到自注意力变换层输出的特征符号自注意力向量和单物料特征自注意力向量。
具体地,考虑到特征符号向量和单物料特征向量各自内部的语义信息之间可能存在关联关系,因此,建立特征符号向量和单物料特征向量各自内部的语义信息之间的关联关系,有助于提高物料分类的准确性。例如,对于长了芽头的不合格豆角,仅依据芽头区域的语义信息,不足以确定其为芽头,但若建立了芽头区域的语义信息和其他区域的语义信息之间的关联后,根据关联信息,例如芽头区域与其他区域的形态差别,即可确定其为芽头,从而确定该豆角为不合格豆角。
为了建立特征符号向量内部语义信息之间的关联关系,以及单物料特征向量内部语义信息之间的关联关系,自注意力变换层对任一单物料图像对应的特征符号向量和单物料特征向量分别进行自注意力变换,得到特征符号自注意力向量和单物料特征自注意力向量。可选地,可以分别计算特征符号向量及其转置向量的矩阵外积,以及单物料特征向量及其转置向量的矩阵外积,得到特征符号自注意力向量和单物料特征自注意力向量。例如,可采用如下公式得到特征符号自注意力向量和单物料特征自注意力向量:
其中,sgn和img分别为特征符号自注意力向量和单物料特征自注意力向量,sgnout和imgout分别为特征符号向量和单物料特征向量,×为矩阵外积计算符号。
步骤1332,将特征符号自注意力向量和单物料特征自注意力向量输入至特征融合层的矩阵元素融合层,得到矩阵元素融合层输出的所述特征融合向量。
具体地,矩阵元素融合层用于对特征符号自注意力向量和单物料特征自注意力向量进行元素级别的融合,从而得到特征融合向量。可选地,可以采用矩阵元素相乘的方式,即将特征符号自注意力向量和单物料特征自注意力向量中对应位置的数值相乘,实现元素级别的融合。例如,可采用如下公式得到特征融合向量:
Ffuse=sgn*img
其中,Ffuse为特征融合向量,*为元素相乘符号。
本发明实施例提供的方法,分别对特征符号向量和单物料特征向量进行自注意力变换,并利用矩阵元素融合层融合变换得到的特征符号自注意力向量和单物料特征自注意力向量,提高了物料分类的准确性。
单物料分割模型在训练过程中,需要收集大量的样本物料图像,并标注出样本物料图像中每一单物料对应的样本单物料掩膜。然而,目前通常采用的人工标注方式,需要对每个样本物料图像中的每个单物料进行人力描边,从而得到样本单物料掩膜。可见,这种人工标注方式标注成本非常大,且标注效率很低。
对此,基于上述任一实施例,图5为本发明实施例提供的样本物料图像以及样本单物料掩膜获取方法的流程示意图,如图5所示,该方法包括:
步骤510,对包含物料的样本图像进行二值化,得到初步物料掩膜。
此处,样本图像为高速相机采集得到的包含若干个物料的样本图像。其中,样本图像中包含的物料数量可以根据实际应用场景预先定义。获取到样本图像后,对其进行二值化处理,去除样本图像中的背景,进而确定得到仅包括若干个物料的初步物料掩膜。
步骤520,对初步物料掩膜进行连通域分析,得到初步物料掩膜中每一连通域分别对应的候选物料掩膜。
具体地,对初步物料掩膜进行连通域的计算,提取出不同连通域对应的像素坐标,从而得到若干个包含像素坐标集合的连通域。然后,遍历连通域,求取每个连通域的最小轴对齐包围盒。其中,任一连通域的最小轴对齐包围盒是能够完整包围该连通域的最小矩形框,且其边框与坐标轴对齐。基于初步物料掩膜以及各连通域的最小轴对齐包围盒的坐标信息,可以确定每一连通域分别对应的候选物料掩膜。
步骤530,将仅包含单个物料的候选物料掩膜作为样本单物料掩膜。
具体地,因样本图像中可能存在物料重叠的情况,因此步骤520中得到的候选物料掩膜中可能包含多个物料。为了得到准确的样本单物料掩膜,对候选物料进行筛选,将仅包含单个物料的候选物料掩模作为样本单物料掩膜。以豆角为例,图6为本发明实施例提供的样本单物料掩膜的示意图。其中,不包含芽头的合格豆角对应的样本单物料掩膜如图6左侧所示,包含芽头的不合格豆角对应的样本单物料掩膜如图6右侧所示。此处,即使进行人工筛选,由于样本图像中物料重叠的情况比较少,因此,所需的人力成本也比较低,相较于人工标注的方式,效率有了较大提升。
步骤540,将若干个样本单物料掩膜的连通域在样本图像中对应的子图,在背景图像上随机堆叠,得到样本物料图像。
具体地,基于样本单物料掩膜的连通域对应的最小轴对齐包围盒,可以从样本图像中裁剪出对应的子图。需要注意的是,裁剪子图时,将背景像素对应的像素值置0。将若干个样本单物料掩膜对应的子图,在高速相机单独采集的背景图像上随机堆叠,即可得到图像合成后的样本物料图像。其中,进行堆叠的子图数量可以随机选择,例如一个到八个不等。随机堆叠子图时,还可以用索引,例如PNG图像的调色板索引(palette index),区分其中各子图对应的样本单物料掩膜。合成得到样本物料图像后,即可保存用于后续的模型训练。
本发明实施例提供的方法,对样本图像进行二值化,得到初步物料掩膜,并对初步物料掩膜进行连通域分析,获取并筛选得到仅包含单个物料的候选物料掩模作,作为样本单物料掩膜,然后将若干个样本单物料掩膜的连通域对应的子图,在背景图像上随机堆叠,得到样本物料图像,有效提高了样本单物料掩膜的标注效率,降低了人力成本。
基于上述任一实施例,样本图像中包含的物料为单一类型的物料。
具体地,为了在获取样本物料图像以及样本单物料掩膜的同时,也获取样本单物料图像及其对应的样本物料分类结果,以提高物料分类模型训练样本的获取效率,在采集样本图像时,可以对不同类型的物料分别进行采集,即拍摄得到的任一样本图像中仅包含单一类型的物料。因此,在获取得到样本图像时,就已得知该样本图像中包含的物料的类型。后续对样本图像进行处理,得到若干个样本单物料掩膜,以及样本单物料掩膜的连通域在样本图像中对应的子图后,即可将子图保存,作为样本单物料图像,同时,该样本图像中包含的物料类型,即为该样本单物料图像对应的样本物料分类结果,因此无需人工对每一个样本单物料图像的样本物料分类结果进行标注。为了便于区分对应不同样本物料分类结果的样本单物料图像,可以在保存时将对应不同样本物料分类结果的样本单物料图像,存储在不同文件路径下。
本发明实施例提供的方法,在采集样本图像时,将不同类型的物料分开采集,无需人工逐一对样本单物料图像进行标注,有助于提高物料分类模型训练样本的获取效率。
基于上述任一实施例,步骤510具体包括:
步骤511,对包含物料的样本图像进行颜色聚类,确定背景对应类簇的颜色中心;
步骤512,基于背景对应类簇的颜色中心,将包含物料的样本图像二值化,得到初步物料掩膜;
其中,包含物料的样本图像的背景为单一颜色。
具体地,可以采用颜色聚类的方式进行二值化。由于采集样本图像时,一般是利用高速相机对传送带上的物料进行拍摄,即样本图像的背景为传送带背景,而传送带背景的颜色通常为单一色,因此对样本图像进行颜色聚类后,可以得到背景对应的类簇,并确定背景对应类簇的颜色中心。此处,考虑到背景像素的数量相较于物料像素的数量更多,因此可以直接选取包含像素点数量最多的类簇作为背景对应的类簇。随即,遍历样本图像中的像素,若当前像素的RGB像素值与背景对应的颜色中心之间的距离,例如欧氏距离,大于预设阈值,则将其像素值置为1,否则,将其像素值置为0。其中,预设阈值可以依据实际应用场景设定,例如物料像素RGB像素值与背景对应的颜色中心之间的欧氏距离的一半,本发明实施例对此不作具体限定。此时,由于物料上可能会有杂质、斑块或者阴影等,因此,为了保证初步物料掩膜的完整性,还可以对二值化后得到的图像进行空洞填充,得到空洞填充后的初步物料掩膜。
另外,由于物料边界与背景接触的分界线可能较为模糊,导致空洞填充后的初步物料掩膜中的物料边缘存在锯齿效应。为了避免锯齿效应影响后续物料分类模型的训练,还需对空洞填充后的初步物料掩膜进行双线性插值,得到去除锯齿效应后的初步物料掩膜。
基于上述任一实施例,单物料分割模型的构建方法包括如下步骤:
首先,获取大量样本物料图像,以及样本物料图像中每一单物料对应的样本单物料掩膜。
然后,确定单物料分割模型的拓扑结构。图7为本发明实施例提供的单物料分割模型的结构示意图,如图7所示,单物料分割模型包括多尺度特征提取层、语义分类层和物料归属向量表示层。
其中,多尺度特征提取层用于基于待分类物料图像,确定待分类物料图像的图像特征向量。以豆角为例,豆角本身可能存在杂质或者斑块,以及不合格豆角还会出现霉点或者芽头,而无论是杂质、斑块、霉点或是芽头,其尺寸都相对较小,属于小尺度目标。考虑到这类小尺度目标容易在特征提取的下采样过程中被丢失,导致提取得到的图像特征中不包含这类小尺度目标的特征,从而造成小尺度目标分类错误。因此,在提取待分类物料图像的特征时,本发明实施例利用多尺度特征提取层提取待分类物料图像的图像特征向量,使得图像特征向量中不仅包含高层语义信息,还包含了分辨率高、细节特征完整的低级语义信息,保证了豆角自身存在的小尺度目标的特征不被丢失,从而提高了待分类物料图像中每一像素的语义分类准确性,特别是豆角自身存在的小尺度目标像素的语义分类准确性。
语义分类层用于基于图像特征向量,确定待分类物料图像中每一像素的语义分类结果。
物料归属向量表示层用于基于图像特征向量,确定待分类物料图像中每一像素的物料归属向量。
具体地,可以基于Unet模型构建多尺度特征提取层。多尺度特征提取层中包括输入层,四个下卷积层以及四个与下卷积层对应的上卷积层。输入层是串联的两个conv-BN-ReLU(卷积层-批处理层-修正线性单元)层,通道数为64;输入层之后连接四个串联的下卷积层,其中下卷积层是指经过该层操作,输入特征图的宽高会减半。每个下卷积层均为MaxPool(最大池化层)和两个conv-BN-ReLU层的组合,且四个下卷积层的通道数分别为128、256、512和512。得到四个下卷积层的输出后,四个对应的上卷积层会对四个下卷积层的输出进行拼接融合。其中,四个上卷积层的通道数为256、128、64和64,任一上卷积层的运行方式具体为:利用最近邻上采样层将对应的下卷积层输出的特征图进行上采样,再利用连接层(concat)将其与上一上卷积层输出的特征图进行拼接融合,然后利用两个conv-BN-ReLU层对融合后的特征图进行处理。
将最后一个上卷积层输出的特征图,作为待分类物料图像的图像特征向量,并将其输入至语义分类层和物料归属向量表示层。其中,语义分类层的结构可以为conv-BN-ReLU-conv(卷积层-批处理层-修正线性单元-卷积层),其输出结果的通道数为2,而物料归属向量表示层的输出结果的通道数可以为16,即每一像素的物料归属向量均为16维向量。
基于上述任一实施例,物料分类模型的构建方法包括如下步骤:
首先,获取大量样本单物料图像及其对应的样本物料分类结果。
然后,确定物料分类模型的拓扑结构。图8为本发明实施例提供的物料分类模型的结构示意图,如图8所示,物料分类模型包括特征符号提取层、单物料特征提取层、特征融合层和图像分类层,特征融合层包括自注意力变换层和矩阵元素融合层。其中,特征符号提取层用于基于任一单物料图像,确定该单物料图像对应的特征符号向量;单物料特征提取层用于基于该单物料图像,确定该单物料图像对应的单物料特征向量;自注意力变换层用于基于该单物料图像对应的特征符号向量和单物料特征向量,确定特征符号自注意力向量和单物料特征自注意力向量;矩阵元素融合层用于基于特征符号自注意力向量和单物料特征自注意力向量,确定特征融合向量;图像分类层用于基于每一单物料图像对应的特征融合向量,确定物料分类结果。
具体地,特征符号提取层的结构可以基于VGG11模型中去除最后四层后的结构,卷积层(通道数可以为256),全局最大池化层以及符号函数(sign)层构建得到。其中符号函数层用于提取全局最大池化层的输出结果中每一数值的符号。单物料特征提取层可以基于Resnet34模型中去除输出层后结构,卷积层(通道数可以为256)和全局最大池化层构建得到。图像分类层可以包括L2标准化层、向量展开层、全连接层(通道数可以为512)、指数修正线性单元(Exponential ReLU)、Dropout层(概率可以为0.4)、批处理层(BatchNorm)和全连接层(通道数可以为2)。
基于上述任一实施例,图9为本发明实施例提供的物料分类装置的结构示意图,如图9所示,该装置包括单物料分割单元910、聚类单元920和物料分类单元930。
其中,单物料分割单元910用于将待分类物料图像输入至单物料分割模型,得到单物料分割模型输出的待分类物料图像中每一像素的语义分割结果和物料归属向量;
聚类单元920用于基于待分类物料图像中每一像素的语义分割结果和物料归属向量,对待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;
物料分类单元930用于将每一单物料掩膜在待分类物料图像中的单物料图像输入至物料分类模型,得到物料分类模型输出的物料分类结果。
本发明实施例提供的装置,通过确定待分类物料图像中每一像素的语义分割结果和物料归属向量,从而聚类得到单物料掩膜,提高了包括重叠物料在内的分割准确性,再基于每一单物料掩膜在待分类物料图像中的单物料图像,对每一单物料进行分类,得到物料分类结果,也同时提高了物料分类的准确性。
基于上述任一实施例,单物料分割单元910具体包括:
多尺度特征提取单元,用于将待分类物料图像输入至单物料分割模型的多尺度特征提取层,得到多尺度特征提取层输出的图像特征向量;
语义分类单元,用于将图像特征向量输入至单物料分割模型的语义分类层,得到语义分类层输出的待分类物料图像中每一像素的语义分类结果;
物料归属向量表示单元,用于将图像特征向量输入至单物料分割模型的物料归属向量表示层,得到物料归属向量表示层输出的待分类物料图像中每一像素的物料归属向量。
本发明实施例提供的装置,基于提取得到的包含多个尺度图像特征的图像特征向量,对每一像素进行语义分割,以及确定每一像素的物料归属向量,进一步提高了单物料分割的准确性。
基于上述任一实施例,单物料分割模型的损失函数包括语义分割损失函数和物料归属向量表示损失函数;其中,语义分割损失函数是基于样本物料图像中每一像素的语义分割结果,以及每一像素的样本语义分割结果确定的;样本语义分割结果是基于样本物料图像中每一单物料对应的样本单物料掩膜确定的;物料归属向量表示损失函数是基于样本物料图像中属于同一单物料的像素的物料归属向量间的距离,以及属于不同单物料的像素的物料归属向量间的距离确定的。
本发明实施例提供的装置,将单物料分割模型的损失函数设置为语义分割损失函数和物料归属向量表示损失函数,使得单物料分割模型在训练过程中,不断提高语义分割的准确度,同时缩小同一单物料的像素的物料归属向量间的距离,以及拉大不同单物料对应的物料归属向量间的距离,提高了单物料分割的准确性。
基于所述任一实施例,物料分类单元930具体包括:
特征符号提取单元,用于将任一单物料图像输入至物料分类模型的特征符号提取层,得到特征符号提取层输出的该单物料图像对应的特征符号向量;
单物料特征提取单元,用于将该单物料图像输入至物料分类模型的单物料特征提取层,得到单物料特征提取层输出的该单物料图像对应的单物料特征向量;
特征融合单元,用于将该单物料图像对应的特征符号向量和单物料特征向量输入至物料分类模型的特征融合层,得到特征融合层输出的该单物料图像对应的特征融合向量;
图像分类单元,用于将每一单物料图像对应的特征融合向量输入至物料分类模型的图像分类层,得到图像分类层输出的物料分类结果。
本发明实施例提供的装置,通过提取单物料图像的特征符号向量和单物料特征向量,并将二者融合得到特征融合向量,去除了无关因素的干扰,使得模型在分类时,聚焦于对物料分类有帮助的语义信息上,然后基于每一单物料图像对应的特征融合向量,确定物料分类结果,提高了物料分类的准确性。
基于所述任一实施例,特征融合单元具体包括:
自注意力变换单元,用于将任一单物料图像对应的特征符号向量和单物料特征向量分别输入至特征融合层的自注意力变换层,得到自注意力变换层输出的特征符号自注意力向量和单物料特征自注意力向量;
矩阵元素融合单元,用于将特征符号自注意力向量和单物料特征自注意力向量输入至特征融合层的矩阵元素融合层,得到矩阵元素融合层输出的所述特征融合向量。
本发明实施例提供的装置,分别对特征符号向量和单物料特征向量进行自注意力变换,并利用矩阵元素融合层融合变换得到的特征符号自注意力向量和单物料特征自注意力向量,提高了物料分类的准确性。
基于上述任一实施例,该装置还包括样本获取单元,其中,样本获取单元具体包括:
初步物料掩膜获取单元,用于对包含物料的样本图像进行二值化,得到初步物料掩膜;
候选物料掩膜单元,用于对初步物料掩膜进行连通域分析,得到初步物料掩膜中每一连通域分别对应的候选物料掩膜;
样本单物料掩膜获取单元,用于将仅包含单个物料的候选物料掩膜作为样本单物料掩膜;
样本物料图像获取单元,用于将若干个样本单物料掩膜的连通域在样本图像中对应的子图,在背景图像上随机堆叠,得到样本物料图像。
本发明实施例提供的装置,对样本图像进行二值化,得到初步物料掩膜,并对初步物料掩膜进行连通域分析,获取并筛选得到仅包含单个物料的候选物料掩模作,作为样本单物料掩膜,然后将若干个样本单物料掩膜的连通域对应的子图,在背景图像上随机堆叠,得到样本物料图像,有效提高了样本单物料掩膜的标注效率,降低了人力成本。
基于上述任一实施例,样本图像中包含的物料为单一类型的物料。
本发明实施例提供的装置,在采集样本图像时,将不同类型的物料分开采集,有助于提高物料分类模型训练样本的获取效率。
基于上述任一实施例,初步物料掩膜获取单元具体用于:
对包含物料的样本图像进行颜色聚类,确定背景对应类簇的颜色中心;
基于背景对应类簇的颜色中心,将包含物料的样本图像二值化,得到初步物料掩膜;
其中,包含物料的样本图像的背景为单一颜色。
图10为本发明实施例提供的电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑命令,以执行如下方法:将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量;基于所述待分类物料图像中每一像素的语义分割结果和物料归属向量,对所述待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果;其中,所述单物料分割模型是基于样本物料图像,以及所述样本物料图像中每一单物料对应的样本单物料掩膜训练得到的;所述物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的。
此外,上述的存储器1030中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量;基于所述待分类物料图像中每一像素的语义分割结果和物料归属向量,对所述待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果;其中,所述单物料分割模型是基于样本物料图像,以及所述样本物料图像中每一单物料对应的样本单物料掩膜训练得到的;所述物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种物料分类方法,其特征在于,包括:
将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量;
基于所述待分类物料图像中每一像素的语义分割结果和物料归属向量,对所述待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;
将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果;所述物料分类结果包括所述待分类物料图像中每一单物料所属的类型;
其中,所述单物料分割模型是基于样本物料图像,以及所述样本物料图像中每一单物料对应的样本单物料掩膜训练得到的;所述物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的;
所述将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果,具体包括:
将任一单物料图像输入至所述物料分类模型的特征符号提取层,得到所述特征符号提取层输出的所述任一单物料图像对应的特征符号向量;
将所述任一单物料图像输入至所述物料分类模型的单物料特征提取层,得到所述单物料特征提取层输出的所述任一单物料图像对应的单物料特征向量;
将所述任一单物料图像对应的特征符号向量和单物料特征向量输入至所述物料分类模型的特征融合层,由所述特征融合层基于所述特征符号向量对所述单物料特征向量中的语义信息进行筛选,得到所述特征融合层输出的所述任一单物料图像对应的特征融合向量;
将每一单物料图像对应的特征融合向量输入至所述物料分类模型的图像分类层,得到所述图像分类层输出的所述物料分类结果。
2.根据权利要求1所述的物料分类方法,其特征在于,所述将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量,具体包括:
将所述待分类物料图像输入至所述单物料分割模型的多尺度特征提取层,得到所述多尺度特征提取层输出的图像特征向量;
将所述图像特征向量输入至所述单物料分割模型的语义分类层,得到所述语义分类层输出的所述待分类物料图像中每一像素的语义分类结果;
将所述图像特征向量输入至所述单物料分割模型的物料归属向量表示层,得到所述物料归属向量表示层输出的所述待分类物料图像中每一像素的物料归属向量。
3.根据权利要求1或2所述的物料分类方法,其特征在于,所述单物料分割模型的损失函数包括语义分割损失函数和物料归属向量表示损失函数;
其中,所述语义分割损失函数是基于样本物料图像中每一像素的语义分割结果,以及每一像素的样本语义分割结果确定的;所述样本语义分割结果是基于所述样本物料图像中每一单物料对应的样本单物料掩膜确定的;
所述物料归属向量表示损失函数是基于样本物料图像中属于同一单物料的像素的物料归属向量间的距离,以及属于不同单物料的像素的物料归属向量间的距离确定的。
4.根据权利要求1所述的物料分类方法,其特征在于,所述将所述任一单物料图像对应的特征符号向量和单物料特征向量输入至所述物料分类模型的特征融合层,得到所述特征融合层输出的所述任一单物料图像对应的特征融合向量,具体包括:
将所述任一单物料图像对应的特征符号向量和单物料特征向量分别输入至所述特征融合层的自注意力变换层,得到所述自注意力变换层输出的特征符号自注意力向量和单物料特征自注意力向量;
将所述特征符号自注意力向量和所述单物料特征自注意力向量输入至所述特征融合层的矩阵元素融合层,得到所述矩阵元素融合层输出的所述特征融合向量。
5.根据权利要求1、2、4任一项所述的物料分类方法,其特征在于,所述样本物料图像以及所述样本单物料掩膜的获取方法,具体包括:
对包含物料的样本图像进行二值化,得到初步物料掩膜;
对所述初步物料掩膜进行连通域分析,得到所述初步物料掩膜中每一连通域分别对应的候选物料掩膜;
将仅包含单个物料的候选物料掩膜作为所述样本单物料掩膜;
将若干个样本单物料掩膜的连通域在所述样本图像中对应的子图,在背景图像上随机堆叠,得到所述样本物料图像。
6.根据权利要求5所述的物料分类方法,其特征在于,所述对包含物料的样本图像进行二值化,得到初步物料掩膜,具体包括:
对所述包含物料的样本图像进行颜色聚类,确定背景对应类簇的颜色中心;
基于所述背景对应类簇的颜色中心,将所述包含物料的样本图像二值化,得到所述初步物料掩膜;
其中,所述包含物料的样本图像的背景为单一颜色。
7.一种物料分类装置,其特征在于,包括:
单物料分割单元,用于将待分类物料图像输入至单物料分割模型,得到所述单物料分割模型输出的所述待分类物料图像中每一像素的语义分割结果和物料归属向量;
聚类单元,用于基于所述待分类物料图像中每一像素的语义分割结果和物料归属向量,对所述待分类物料图像中每一像素进行聚类,得到若干个单物料掩膜;
物料分类单元,用于将每一单物料掩膜在所述待分类物料图像中的单物料图像输入至物料分类模型,得到所述物料分类模型输出的物料分类结果;所述物料分类结果包括所述待分类物料图像中每一单物料所属的类型;
其中,所述单物料分割模型是基于样本物料图像,以及所述样本物料图像中每一单物料对应的样本单物料掩膜训练得到的;
所述物料分类模型是基于样本单物料图像及其对应的样本物料分类结果训练得到的;
其中,所述物料分类单元具体包括:
特征符号提取单元,用于将任一单物料图像输入至物料分类模型的特征符号提取层,得到特征符号提取层输出的该单物料图像对应的特征符号向量;
单物料特征提取单元,用于将该单物料图像输入至物料分类模型的单物料特征提取层,得到单物料特征提取层输出的该单物料图像对应的单物料特征向量;
特征融合单元,用于将该单物料图像对应的特征符号向量和单物料特征向量输入至物料分类模型的特征融合层,由所述特征融合层基于所述特征符号向量对所述单物料特征向量中的语义信息进行筛选,得到特征融合层输出的该单物料图像对应的特征融合向量;
图像分类单元,用于将每一单物料图像对应的特征融合向量输入至物料分类模型的图像分类层,得到图像分类层输出的物料分类结果。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项所述的物料分类方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的物料分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010500205.1A CN111738310B (zh) | 2020-06-04 | 2020-06-04 | 物料分类方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010500205.1A CN111738310B (zh) | 2020-06-04 | 2020-06-04 | 物料分类方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738310A CN111738310A (zh) | 2020-10-02 |
CN111738310B true CN111738310B (zh) | 2023-12-01 |
Family
ID=72649243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010500205.1A Active CN111738310B (zh) | 2020-06-04 | 2020-06-04 | 物料分类方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738310B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807354B (zh) * | 2020-12-29 | 2023-11-03 | 京东科技控股股份有限公司 | 图像语义分割方法、装置、设备和存储介质 |
CN114627297A (zh) * | 2022-03-30 | 2022-06-14 | 无锡东如科技有限公司 | 一种迁移学习的非规则物料的图像语义分割方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
CN107424159A (zh) * | 2017-07-28 | 2017-12-01 | 西安电子科技大学 | 基于超像素边缘和全卷积网络的图像语义分割方法 |
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN108537292A (zh) * | 2018-04-10 | 2018-09-14 | 上海白泽网络科技有限公司 | 语义分割网络训练方法、图像语义分割方法及装置 |
CN108764306A (zh) * | 2018-05-15 | 2018-11-06 | 深圳大学 | 图像分类方法、装置、计算机设备和存储介质 |
CN109102498A (zh) * | 2018-07-13 | 2018-12-28 | 华南理工大学 | 一种宫颈涂片图像中簇型细胞核分割的方法 |
CN109447990A (zh) * | 2018-10-22 | 2019-03-08 | 北京旷视科技有限公司 | 图像语义分割方法、装置、电子设备和计算机可读介质 |
CN109685067A (zh) * | 2018-12-26 | 2019-04-26 | 江西理工大学 | 一种基于区域和深度残差网络的图像语义分割方法 |
CN109740465A (zh) * | 2018-12-24 | 2019-05-10 | 南京理工大学 | 一种基于实例分割神经网络框架的车道线检测算法 |
CN109784399A (zh) * | 2019-01-11 | 2019-05-21 | 中国人民解放军海军航空大学 | 基于改进字典学习的多源图像目标关联方法 |
CN109961068A (zh) * | 2017-12-26 | 2019-07-02 | 阿里巴巴集团控股有限公司 | 图像识别、训练、搜索方法和装置及设备、介质 |
CN110533046A (zh) * | 2019-08-30 | 2019-12-03 | 北京地平线机器人技术研发有限公司 | 一种图像实例分割方法和装置 |
CN111178253A (zh) * | 2019-12-27 | 2020-05-19 | 深圳佑驾创新科技有限公司 | 自动驾驶的视觉感知方法、装置、计算机设备和存储介质 |
CN111178245A (zh) * | 2019-12-27 | 2020-05-19 | 深圳佑驾创新科技有限公司 | 车道线检测方法、装置、计算机设备和存储介质 |
CN111192279A (zh) * | 2020-01-02 | 2020-05-22 | 上海交通大学 | 基于边缘检测的物体分割方法、电子终端及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650531B2 (en) * | 2018-03-16 | 2020-05-12 | Honda Motor Co., Ltd. | Lidar noise removal using image pixel clusterings |
US11188799B2 (en) * | 2018-11-12 | 2021-11-30 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
-
2020
- 2020-06-04 CN CN202010500205.1A patent/CN111738310B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
CN107424159A (zh) * | 2017-07-28 | 2017-12-01 | 西安电子科技大学 | 基于超像素边缘和全卷积网络的图像语义分割方法 |
CN109961068A (zh) * | 2017-12-26 | 2019-07-02 | 阿里巴巴集团控股有限公司 | 图像识别、训练、搜索方法和装置及设备、介质 |
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN108537292A (zh) * | 2018-04-10 | 2018-09-14 | 上海白泽网络科技有限公司 | 语义分割网络训练方法、图像语义分割方法及装置 |
CN108764306A (zh) * | 2018-05-15 | 2018-11-06 | 深圳大学 | 图像分类方法、装置、计算机设备和存储介质 |
CN109102498A (zh) * | 2018-07-13 | 2018-12-28 | 华南理工大学 | 一种宫颈涂片图像中簇型细胞核分割的方法 |
CN109447990A (zh) * | 2018-10-22 | 2019-03-08 | 北京旷视科技有限公司 | 图像语义分割方法、装置、电子设备和计算机可读介质 |
CN109740465A (zh) * | 2018-12-24 | 2019-05-10 | 南京理工大学 | 一种基于实例分割神经网络框架的车道线检测算法 |
CN109685067A (zh) * | 2018-12-26 | 2019-04-26 | 江西理工大学 | 一种基于区域和深度残差网络的图像语义分割方法 |
CN109784399A (zh) * | 2019-01-11 | 2019-05-21 | 中国人民解放军海军航空大学 | 基于改进字典学习的多源图像目标关联方法 |
CN110533046A (zh) * | 2019-08-30 | 2019-12-03 | 北京地平线机器人技术研发有限公司 | 一种图像实例分割方法和装置 |
CN111178253A (zh) * | 2019-12-27 | 2020-05-19 | 深圳佑驾创新科技有限公司 | 自动驾驶的视觉感知方法、装置、计算机设备和存储介质 |
CN111178245A (zh) * | 2019-12-27 | 2020-05-19 | 深圳佑驾创新科技有限公司 | 车道线检测方法、装置、计算机设备和存储介质 |
CN111192279A (zh) * | 2020-01-02 | 2020-05-22 | 上海交通大学 | 基于边缘检测的物体分割方法、电子终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
Bert De Brabandere et al..Semantic Instance Segmentation with a Discriminative Loss Function.《arXiv》.2017,第1,3页. * |
伍佳 ; 梅天灿 ; .顾及区域信息的卷积神经网络在影像语义分割中的应用.科学技术与工程.2018,18(21),第276-281页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111738310A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961049B (zh) | 一种复杂场景下香烟品牌识别方法 | |
CN109977997B (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
CN106548169B (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
CN110569747A (zh) | 一种利用图像金字塔与Faster-RCNN快速统计大田水稻稻穗数的方法 | |
CN106803257B (zh) | 一种作物病害叶片图像中病斑的分割方法 | |
CN110570427A (zh) | 一种融合边缘检测的遥感影像语义分割方法及装置 | |
CN108109163A (zh) | 一种航拍视频的运动目标检测方法 | |
CN106897681A (zh) | 一种遥感图像对比分析方法及系统 | |
CN109948625A (zh) | 文本图像清晰度评估方法及系统、计算机可读存储介质 | |
CN107220664B (zh) | 一种基于结构化随机森林的油瓶装箱清点方法 | |
CN107305691A (zh) | 基于图像匹配的前景分割方法及装置 | |
CN111695373B (zh) | 斑马线的定位方法、系统、介质及设备 | |
CN114972191A (zh) | 一种耕地变化检测方法和装置 | |
CN108985337A (zh) | 一种基于图像深度学习的产品表面划痕检测方法 | |
CN112069985A (zh) | 基于深度学习的高分辨率大田图像稻穗检测与计数方法 | |
CN110427933A (zh) | 一种基于深度学习的水尺识别方法 | |
CN111738310B (zh) | 物料分类方法、装置、电子设备和存储介质 | |
CN109344845A (zh) | 一种基于Triplet深度神经网络结构的特征匹配方法 | |
CN113901972A (zh) | 遥感图像建筑物的检测方法、装置、设备及存储介质 | |
CN113609984A (zh) | 一种指针式仪表读数识别方法、装置及电子设备 | |
CN112085017A (zh) | 基于显著性检测和Grabcut算法的茶叶嫩芽图像分割方法 | |
CN111161295A (zh) | 一种菜品图像背景剥离方法 | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及系统 | |
CN104573701B (zh) | 一种玉米雄穗性状的自动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |