CN111340139B - 一种图像内容复杂度的判别方法及装置 - Google Patents
一种图像内容复杂度的判别方法及装置 Download PDFInfo
- Publication number
- CN111340139B CN111340139B CN202010231995.8A CN202010231995A CN111340139B CN 111340139 B CN111340139 B CN 111340139B CN 202010231995 A CN202010231995 A CN 202010231995A CN 111340139 B CN111340139 B CN 111340139B
- Authority
- CN
- China
- Prior art keywords
- image
- detected
- target
- semantic segmentation
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000011218 segmentation Effects 0.000 claims abstract description 63
- 238000000605 extraction Methods 0.000 claims description 41
- 238000005070 sampling Methods 0.000 claims description 22
- 238000007477 logistic regression Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 5
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像内容复杂度的判别方法及装置,通过将待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果。若分类结果指示待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构。若分类结果指示待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。可见,相较于现有技术中,将待测图像输入one‑stage架构和two‑stage架构中的任意一个,本申请先将待测图像输入预设的图像内容复杂度的判别网络,得到分类结果,依据分类结果为语义分割系统选取合适的语义分割架构,使得语义分割系统能够兼顾效率和准确性。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种图像内容复杂度的判别方法及装置。
背景技术
当前计算机视觉领域中,图像语义分割是计算机视觉中图像理解的重要一环,对图像中的具体事物和环境可以进行理解、识别和判断,是计算即视觉领域的基石。现有的语义分割框架包括one-stage架构(例如YOLO系列)和two-stage架构(例如R_CNN系列)。其中,one-stage架构的处理效率较快,two-stage架构的处理结果准确性较高。
整个语义分割数据集(具体指的是图像集合)包括多种类型的数据(具体指的是图像),每种图像的内容的复杂程度都不一样,采用单一类型的语义分割架构,处理各种图像,明显无法达到在效率和准确性上的兼顾。因此,内容复杂度不同的图像,所采用的语义分割架构也需要有所不同。
发明内容
本申请提供了一种图像内容复杂度的判别方法及装置,目的在于识别图像中的内容的复杂度,为选取合适的语义分割架构提供有效依据。
为了实现上述目的,本申请提供了以下技术方案:
一种图像内容复杂度的判别方法,其特征在于,包括:
通过将待测图像输入预设的图像内容复杂度的判别网络,得到所述图像内容复杂度的判别网络输出的分类结果;
若所述分类结果指示所述待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构;
若所述分类结果指示所述待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构;
其中,所述图像内容复杂度的判别网络包括:
特征捕获结构,用于对目标图像进行特征捕获,得到捕获结果,其中,所述目标图像为所述待测图像的特征图像,所述捕获结果包括候选框、所述候选框的中心坐标和面积;
内容提取结构,用于采用预设的逻辑回归算法,对所述候选框进行分类,以及对目标候选框的所述中心坐标进行修正,得到提取项,其中,所述候选框的类型包括第一类和第二类,所述目标候选框为所述第一类的所述候选框;
内容分类结构,用于依据所述目标候选框的所述面积和修正后的所述中心坐标,对所述提取项进行分类,得到所述分类结果。
可选的,所述图像内容复杂度的判别网络还包括:
特证识别结构,用于对所述待测图像进行特征识别,得到特征图像;
上采样结构,用于对所述特征图像进行上采样,得到所述目标图像。
可选的,所述特证识别结构包括残差网络。
可选的,所述残差网络包括:
萎缩性空间金字塔池化模块、多个空洞卷积层、以及全局平均池化层。
可选的,所述图像内容复杂度的判别网络还包括:
降维结构,用于在对所述特征图像进行上采样之前,对所述特征图像进行降维。
可选的,所述特征捕获结构包括卷积层。
可选的,所述内容提取结构包括:
第一卷积层和第二卷积层,所述第一卷积层和所述第二卷积层共同组成双分支并行结构;
所述第一卷积层,用于采用第一逻辑回归算法,对所述候选框进行分类,将所述目标候选框输入所述第二卷积层;
所述第二卷积层,用于采用第二逻辑回归算法,对所述目标候选框的所述中心坐标进行修正,得到所述提取项。
一种图像内容复杂度的判别装置,包括:
图像输入单元,用于输入待测图像;
图像判别单元,用于通过将所述待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果;其中,所述图像内容复杂度的判别网络包括:特征捕获结构,用于对目标图像进行特征捕获,得到捕获结果,其中,所述目标图像为所述待测图像的特征图像,所述捕获结果包括候选框、所述候选框的中心坐标和面积;内容提取结构,用于采用预设的逻辑回归算法,对所述候选框进行分类,以及对目标候选框的所述中心坐标进行修正,得到提取项,其中,所述候选框的类型包括第一类和第二类,所述目标候选框为所述第一类的所述候选框;内容分类结构,用于依据所述目标候选框的所述面积和修正后的所述中心坐标,对所述提取项进行分类,得到所述分类结果;
架构选择单元,用于若所述分类结果指示所述待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构;若所述分类结果指示所述待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。
一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,所述程序执行上述的图像内容复杂度的判别方法。
一种电子设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行上述的图像内容复杂度的判别方法。
本申请提供的技术方案,通过将待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果。若分类结果指示待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构。若分类结果指示待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。可见,相较于现有技术中,将待测图像输入one-stage架构和two-stage架构中的任意一个,本申请先将待测图像输入预设的图像内容复杂度的判别网络,得到分类结果,依据分类结果为语义分割系统选取合适的语义分割架构,使得语义分割系统能够兼顾效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像内容复杂度的判别方法的示意图;
图2为本申请实施例提供的一种图像内容复杂度的判别网络的拓扑结构;
图3为本申请实施例提供的另一种图像内容复杂度的判别网络的拓扑结构;
图4为本申请实施例提供的一种图像内容复杂度的判别装置的架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所提供的流程可以应用于语义分割系统中,具体的,由服务器执行,用于识别待测图像中的内容的复杂度,为语义分割系统选取合适的语义分割架构提供有效依据。
如图1所示,为本申请实施例提供的一种图像内容复杂度的判别方法的具体执行流程,包括如下步骤:
S101:将待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果。
如图2所示,为本申请实施例提供的一种图像内容复杂度的判别网络的结构,将待测图像输入图像内容复杂度的判别网络,得到待测图像的分类结果。该分类结果指示了待测图像的内容的复杂度,能够为语义分割系统选取合适的语义分割架构提供有效依据。
具体的,按照图2所示的结构,图像内容复杂度的判别网络对待测图像的处理流程为:
1、待测图像先进入ResNet-18残差网络。
具体的,ResNet-18残差网络包括萎缩性空间金字塔池化(Atrous SpatialPyramid Pooling,ASPP)模块、多个卷积层和一个全局平均池化层(在本实施例中,将全局平均池化层作为全连接层使用)。
需要说明的是,ASPP模块的具体功能为:在输入的待测图像上,以预先设置的不同采样率的空洞卷积层,对待测图像经由多个卷积层处理后的结果进行并行采样,换而言之,即以多个比例捕捉待测图像的上下文内容,将采样得到的图像特征输入全局平均池化层。
具体的,ASPP模块包括一个1×1卷积层和三个采样率分别为3、6和12的并行的3×3空洞卷积层。可见,ASPP模块是对单个尺度(即三个空洞卷积层都是采用3×3卷积核进行卷积)提取的卷积特征进行重复采样,因此,只要更改空洞卷积层的卷积核的大小(例如3×3改为1×1),便可以对任意尺度的图像区域进行分类。但是,随着采样率的增加(即采样率从3增加到6,再增加到12),并行的3×3空洞卷积层捕获上下文图像信息的能力会逐渐退化。因此,还需要在单独的并行分支中,处理每个采样率提取的图像特征。最终,将各个处理后的图像特征输入全局平均池化层。
全局平均池化层的具体功能为:将各个处理后的图像特征进行融合,即对各个图像特征进行全局平均池化,得到特征图像(feature map)。需要说明的是,全局平均池化的具体实现过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
可选的,ResNet-18残差网络中的多个卷积层,可以均为空洞卷积层。
需要说明的是,空洞卷积层代替普通卷积层,能够增大ResNet-18残差网络对检测目标(即待测图像中的内容,例如人物图像中的人物)的感受野,从而提取得到更多的空间层级化信息,保证输出的特征图像贴近待测图像中的内容。
在空洞卷积层中有个重要的参数rate,参数rate代表了空洞的大小。所谓的空洞就是在待测图像上做采样,采样的频率是根据参数rate设置的,当参数rate为1时,表示对待测图像采样时不丢失任何信息,采样所适用的卷积操作为标准的卷积操作。当参数rate大于1时,比如参数rate为2时,就是在待测图像每隔(rate-1)个像素进行采样。
可选的,空洞卷积层中的参数rate还可以是超参数。其中,超参数具体指的是:设置一个具体数值,作为参数rate的值,无需再对参数rate进行训练。
具体的,假设超参数的具体数值为d,普通卷积层(其卷积核的大小的计算过程为本领域技术人员所熟悉的公知常识,这里不再赘述)的卷积核大小为k,则空洞卷积层的卷积核大小n的计算过程如公式(1)所示。并且,假设空洞卷积层的输入图像的核心(kernal)大小为i,输入图像的步长为s,则空洞卷积层输出的图像的大小o的计算过程如公式(2)所示。
n=k+(k-1)×(d-1) (1)
需要说明的是,ResNet-18残差网络输出的特征图像的步长,由公式(2)中的参数s决定,即技术人员可以根据实际情况设置特征图像的步长,例如步长可以设置为16。
2、ResNet-18残差网络输出的特征图像输入1×1卷积层,得到第一结果。
其中,1×1卷积层的功能为:对特征图像进行降维,输出第一结果。
需要说明的是,对特征图像进行降维的具体实现过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
3、第一结果输入上采样(upsample)层,得到第二结果。
其中,上采样层的功能为:对第一结果进行上采样,输出第二结果。
需要说明的是,对第一结果进行上采样的具体实现过程,为本领域技术人员所熟悉的公知常识。
在本实施例中,上采样层具体所采用的算法包括但不限于是双线性差值法,双线性差值法的具体实现原理是:在对两个变量的插值函数进行线性插值扩展时,在两个扩展方向分别进行一次线性插值,具体的,以求解函数f在点P=(x,y)的值为例,已知函数f示出的曲线上的4个点的坐标,分别为Q1=(x1,y1)、Q2=(x1,y2)、Q3=(x2,y1)、以及Q4=(x2,y2),则双线插值的计算过程如公式(3)所示。
需要说明的是,第二结果所指示的图像步长应该与特征图像的步长保持一致,因此,可以根据特征图像的步长与上采样的倍率的预设对应关系,设置上采样的倍率,例如,特征图像的步长为16,对应的上采样的倍率为4,则需要对第一结果进行4倍的上采样。
4、第二结果输入3×3卷积层,得到捕获结果。
其中,3×3卷积层的功能为:对第二结果进行特征捕获,输出捕获结果。
需要说明的是,捕获结果包括候选框(anchor)、以及候选框的中心坐标和面积,候选框具体指的是:在对特征图像进行特征捕获时,使用一个多边形框(通常为矩形)来框选所捕获的特征。在本实施例中,依据候选框的各边长计算得到候选框的面积,为本领域技术人员所熟悉的公知常识,例如,矩形样式的候选框,面积为长和宽的乘积。
5、捕获结果并行输入两个1×1卷积层,得到提取项(proposal)。
其中,第一1×1卷积层的功能为:对候选框进行分类,区分候选框中的内容是前景(即候选框中所捕获的特征指示图像中的目标,例如人物图像中的人物)还是后景(即候选框中所捕获的特征指示图像中的背景,例如人物图像中的环境背景),将框中内容属于前景的候选框,作为目标候选框,输入第二1×1卷积层。
具体的,第一1×1卷积层所采用的逻辑回归算法为预先构建的第一softmax逻辑回归(softmax logical regression)模型,第一softmax逻辑回归模型中的损失函数具体为SoftmaxLoss。
需要说明的是,第一softmax逻辑回归模型的训练过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
第二1×1卷积层的功能为:对目标候选框的中心坐标进行修正,输出提取项。
需要强调的是,提取项包括目标候选框。
具体的,第二1×1卷积层所采用的逻辑回归算法为预先构建的第二softmax逻辑回归模型。第二softmax逻辑回归模型中的损失函数具体为SmoothL1Loss,SmoothL1Loss如公式(4)所示。
在公式(4)中,i表示候选框的索引,pi表示候选框作为目标的预测概率,pi *表示包围盒的坐标(在候选框中的内容为前景的情况下,pi *为1,其他情况,pi *为0),ti表示候选框修正后的坐标,ti *表示包围盒(一种计算机图形学常用的参数)的坐标,λ表示常数,Ncls和Nreg均表示常数,Lcls(pi,pi *)和Lreg(ti,ti *)均表示范数。
需要说明的是,第二softmax逻辑回归模型的训练过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
需要强调的是,第一1×1卷积层和第二1×1卷积层共同组成双分支并行结构,双分支并行结构的组成原理为本领域技术人员所熟悉的公知常识。
6、提取项输入预先构建的二分K-means模型中,得到分类结果。
其中,二分K-means模型的功能为:依据目标候选框的面积和修正后的中心坐标,对提取项进行分类,得到分类结果。
需要说明的是,二分K-means模型依据目标候选框的面积和修正后的中心坐标,对提取项进行分类,得到分类结果的具体实现过程包括:
以目标候选框的面积为聚类依据,将提取项中的各个目标候选框划分为面积较大簇和面积较小簇,并统计面积较大簇中目标候选框的数量、以及面积较小簇中目标候选框的数量。计算面积较大簇中目标候选框的数量,与面积较小簇中目标候选框的数量的比例。依据预设的比例和第一评分的对应关系,得到提取项的第一评分。
以目标候选框的修正后的中心坐标为聚类依据,将提取项中的各个目标候选框划分为多个簇,统计簇的数量。依据预设的簇的数量和第二评分的对应关系,得到提取项的第二评分。
计算第一评分和第二评分的总值,依据预设的总值和分类结果的对应关系,得到提取项的分类结果。
在本实施例中,目标候选框框选的是待测图像中的目标,因此,目标候选框的面积越大,则待测图像中的目标越大。
目标候选框的修正后的中心坐标,表示待测图像中目标的中心坐标,由于待测图像中各个目标的密集程度由各个目标各自的中心坐标之间的距离决定,并且,每个目标对应一个中心坐标,中心坐标越多,表示目标的数量越多。
因此,将目标候选框的面积和修正后的中心坐标作为二分K-means模型的输入,输出分类结果,分类结果能够反映待测图像的内容的复杂度(在本实施例中,具体指的是:目标的面积大小、目标的数量、以及各个目标的分布情况)。
需要说明的是,二分K-means模型的训练过程为本领域技术人员所熟悉的公知常识,这里不再赘述。
S102:若分类结果指示待测图像中目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构。
其中,第一架构具体为one-stage架构。
S103:若分类结果指示待测图像中目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。
其中,第二架构具体为two-stage架构。
综上所述,通过将待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果。若分类结果指示待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构。若分类结果指示待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。可见,相较于现有技术中,将待测图像输入one-stage架构和two-stage架构中的任意一个,本实施例先将待测图像输入预设的图像内容复杂度的判别网络,得到分类结果,依据分类结果为语义分割系统选取合适的语义分割架构,使得语义分割系统能够兼顾效率和准确性。
需要说明的是,在图像内容复杂度的判别网络中,上述图2所示的ResNet-18残差网络为特征识别结构的一种具体实现方式,1×1卷积层为降维结构的一种具体实现方式,上采样层为上采样结构的一种具体实现方式,3×3卷积层为特征捕获结构的一种具体实现方式,第一1×1卷积层和第二1×1卷积层所组成的双分支并行结构为内容提取结构的一种具体实现方式,二分K-means模型为内容分类结构的一种具体实现方式。总之,上述图2示出的各个结构,可以概括为图3示出的图像内容复杂度的判别网络对的拓扑结构。
具体的,按照图3所示的结构,图像内容复杂度的判别网络的对待测图像的处理流程为:
1、待测图像先进入特证识别结构,得到特征图像。
其中,特证识别结构的功能为:对待测图像进行特征识别,输出特征图像。
2、特征图像输入降维结构,得到降维后的特征图像。
其中,降维结构的功能为:对特征图像进行降维,输出降维后的特征图像。
3、降维后的特征图像输入上采样结构,得到目标图像。
其中,上采样结构的功能为:对降维后的特征图像进行上采样,输出目标图像。
4、目标图像输入特征捕获结构,得到捕获结果。
其中,特征捕获结构的功能为:对目标图像进行特征捕获,输出捕获结果,捕获结果包括候选框、候选框的中心坐标和面积。
5、捕获结果输入内容提取结构,得到提取项。
其中,内容提取结构的功能为:采用预设的逻辑回归算法,对候选框进行分类,以及对目标候选框的中心坐标进行修正,得到提取项。候选框的类型包括第一类和第二类,目标候选框为第一类的候选框。
需要说明的是,在上述图2所示的图像内容复杂度的判别网络的处理流程中,框中内容属于前景的候选框,为第一类的候选框的一种具体实现方式。框中内容属于后景的候选框,为第二类的候选框的一种具体实现方式。第一softmax逻辑回归模型和第二softmax逻辑回归模型,均为预设的逻辑回归算法的一种具体实现方式。
6、提取项输入内容分类结构中,得到分类结果。
其中,内容分类结构的功能为:依据目标候选框的面积和修正后的中心坐标,对提取项进行分类,得到所述分类结果。
与上述本申请实施例示出的图像内容复杂度的判别方法相对应,如图4所示,为本申请实施例提供一种图像内容复杂度的判别装置的架构示意图,包括:
图像输入单元100,用于输入待测图像。
图像判别单元200,用于通过将待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果。其中,图像内容复杂度的判别网络包括:特征捕获结构,用于对目标图像进行特征捕获,得到捕获结果,其中,目标图像为待测图像的特征图像,捕获结果包括候选框、候选框的中心坐标和面积。内容提取结构,用于采用预设的逻辑回归算法,对候选框进行分类,以及对目标候选框的中心坐标进行修正,得到提取项,其中,候选框的类型包括第一类和第二类,目标候选框为第一类的候选框。内容分类结构,用于依据目标候选框的面积和修正后的中心坐标,对提取项进行分类,得到所述分类结果。
架构选择单元300,用于若分类结果指示待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构。若分类结果指示待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。
综上所述,通过将待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果。若分类结果指示待测图像中的目标较小、数量多且密集分布,则将第一架构作为语义分割系统的语义分割架构。若分类结果指示待测图像中的目标较大、数量少且稀疏分布,则将第二架构作为语义分割系统的语义分割架构。可见,相较于现有技术中,将待测图像输入one-stage架构和two-stage架构中的任意一个,本实施例先将待测图像输入预设的图像内容复杂度的判别网络,得到分类结果,依据分类结果为语义分割系统选取合适的语义分割架构,使得语义分割系统能够兼顾效率和准确性。
本申请还提供了一种计算机存储介质,计算机存储介质包括存储的程序,其中,程序执行上述本申请提供的图像内容复杂度的判别方法。
本申请还提供了一种电子设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的图像内容复杂度的判别方法。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种图像内容复杂度的判别方法,其特征在于,包括:
通过将待测图像输入预设的图像内容复杂度的判别网络,得到所述图像内容复杂度的判别网络输出的分类结果;
若所述分类结果指示所述待测图像中的目标大小为第一面积、数量多少为第一数量且密集分布,则将第一架构作为语义分割系统的语义分割架构;
若所述分类结果指示所述待测图像中的目标大小为第二面积、数量多少为第二数量且稀疏分布,则将第二架构作为语义分割系统的语义分割架构;所述第一面积小于所述第二面积,所述第一数量大于所述第二数量;
其中,所述图像内容复杂度的判别网络包括:
特证识别结构,用于对所述待测图像进行特征识别,得到特征图像;
上采样结构,用于对所述特征图像进行上采样,得到目标图像;
特征捕获结构,用于对所述目标图像进行特征捕获,得到捕获结果,其中,所述目标图像为所述待测图像的特征图像,所述捕获结果包括候选框、所述候选框的中心坐标和面积;
内容提取结构,用于采用预设的逻辑回归算法,对所述候选框进行分类,以及对目标候选框的所述中心坐标进行修正,得到提取项,其中,所述候选框的类型包括第一类和第二类,所述目标候选框为所述第一类的所述候选框;
内容分类结构,用于依据所述目标候选框的所述面积和修正后的所述中心坐标,对所述提取项进行分类,得到所述分类结果;
所述通过将待测图像输入预设的图像内容复杂度的判别网络,得到所述图像内容复杂度的判别网络输出的分类结果,包括:
所述待测图像进入所述特证识别结构,得到所述特征图像;
所述特征图像输入所述上采样结构,得到所述目标图像;
所述目标图像输入所述特征捕获结构,得到所述捕获结果;
所述捕获结果输入所述内容提取结构,得到所述提取项;
所述提取项输入所述内容分类结构中,得到所述分类结果。
2.根据权利要求1所述的方法,其特征在于,所述特证识别结构包括残差网络。
3.根据权利要求2所述的方法,其特征在于,所述残差网络包括:
萎缩性空间金字塔池化模块、多个空洞卷积层、以及全局平均池化层。
4.根据权利要求1所述的方法,其特征在于,所述图像内容复杂度的判别网络还包括:
降维结构,用于在对所述特征图像进行上采样之前,对所述特征图像进行降维。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述特征捕获结构包括卷积层。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述内容提取结构包括:
第一卷积层和第二卷积层,所述第一卷积层和所述第二卷积层共同组成双分支并行结构;
所述第一卷积层,用于采用第一逻辑回归算法,对所述候选框进行分类,将所述目标候选框输入所述第二卷积层;
所述第二卷积层,用于采用第二逻辑回归算法,对所述目标候选框的所述中心坐标进行修正,得到所述提取项。
7.一种图像内容复杂度的判别装置,其特征在于,包括:
图像输入单元,用于输入待测图像;
图像判别单元,用于通过将所述待测图像输入预设的图像内容复杂度的判别网络,得到图像内容复杂度的判别网络输出的分类结果;其中,所述图像内容复杂度的判别网络包括:特证识别结构,用于对所述待测图像进行特征识别,得到特征图像;上采样结构,用于对所述特征图像进行上采样,得到目标图像;特征捕获结构,用于对所述目标图像进行特征捕获,得到捕获结果,其中,所述目标图像为所述待测图像的特征图像,所述捕获结果包括候选框、所述候选框的中心坐标和面积;内容提取结构,用于采用预设的逻辑回归算法,对所述候选框进行分类,以及对目标候选框的所述中心坐标进行修正,得到提取项,其中,所述候选框的类型包括第一类和第二类,所述目标候选框为所述第一类的所述候选框;内容分类结构,用于依据所述目标候选框的所述面积和修正后的所述中心坐标,对所述提取项进行分类,得到所述分类结果;
架构选择单元,用于若所述分类结果指示所述待测图像中的目标大小为第一面积、数量多少为第一数量且密集分布,则将第一架构作为语义分割系统的语义分割架构;若所述分类结果指示所述待测图像中的目标大小为第二面积、数量多少为第二数量且稀疏分布,则将第二架构作为语义分割系统的语义分割架构;所述第一面积小于所述第二面积,所述第一数量大于所述第二数量;
所述图像判别单元,具体用于所述待测图像进入所述特证识别结构,得到所述特征图像;所述特征图像输入所述上采样结构,得到所述目标图像;所述目标图像输入所述特征捕获结构,得到所述捕获结果;所述捕获结果输入所述内容提取结构,得到所述提取项;所述提取项输入所述内容分类结构中,得到所述分类结果。
8.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,所述程序执行权利要求1-6任意一项所述的图像内容复杂度的判别方法。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-6任意一项所述的图像内容复杂度的判别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231995.8A CN111340139B (zh) | 2020-03-27 | 2020-03-27 | 一种图像内容复杂度的判别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231995.8A CN111340139B (zh) | 2020-03-27 | 2020-03-27 | 一种图像内容复杂度的判别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340139A CN111340139A (zh) | 2020-06-26 |
CN111340139B true CN111340139B (zh) | 2024-03-05 |
Family
ID=71186689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010231995.8A Active CN111340139B (zh) | 2020-03-27 | 2020-03-27 | 一种图像内容复杂度的判别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340139B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395450B (zh) * | 2020-11-17 | 2024-03-19 | 平安科技(深圳)有限公司 | 图片文字检测方法、装置、计算机设备及存储介质 |
CN112435198A (zh) * | 2020-12-03 | 2021-03-02 | 西安交通大学 | 一种焊缝射线检测底片图像增强方法、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
CN108830319A (zh) * | 2018-06-12 | 2018-11-16 | 北京合众思壮科技股份有限公司 | 一种图像分类方法和装置 |
CN109583457A (zh) * | 2018-12-03 | 2019-04-05 | 荆门博谦信息科技有限公司 | 一种机器人定位与地图构建的方法及机器人 |
CN109685762A (zh) * | 2018-11-09 | 2019-04-26 | 五邑大学 | 一种基于多尺度深度语义分割网络的天线下倾角测量方法 |
CN109978838A (zh) * | 2019-03-08 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 图像区域定位方法、装置和医学图像处理设备 |
CN110136141A (zh) * | 2019-04-24 | 2019-08-16 | 佛山科学技术学院 | 一种面向复杂环境的图像语义分割方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
-
2020
- 2020-03-27 CN CN202010231995.8A patent/CN111340139B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
CN108830319A (zh) * | 2018-06-12 | 2018-11-16 | 北京合众思壮科技股份有限公司 | 一种图像分类方法和装置 |
CN109685762A (zh) * | 2018-11-09 | 2019-04-26 | 五邑大学 | 一种基于多尺度深度语义分割网络的天线下倾角测量方法 |
CN109583457A (zh) * | 2018-12-03 | 2019-04-05 | 荆门博谦信息科技有限公司 | 一种机器人定位与地图构建的方法及机器人 |
CN109978838A (zh) * | 2019-03-08 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 图像区域定位方法、装置和医学图像处理设备 |
CN110136141A (zh) * | 2019-04-24 | 2019-08-16 | 佛山科学技术学院 | 一种面向复杂环境的图像语义分割方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111340139A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991311B (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN110598788B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN111640089A (zh) | 一种基于特征图中心点的缺陷检测方法及装置 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN111460927A (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN114332133B (zh) | 基于改进CE-Net的肺炎CT图像感染区分割方法及系统 | |
WO2021003936A1 (zh) | 图像分割方法、电子设备和计算机可读存储介质 | |
CN113313706B (zh) | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 | |
US20220058431A1 (en) | Semantic input sampling for explanation (sise) of convolutional neural networks | |
CN111340139B (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN110706256A (zh) | 一种基于多核异构平台的检测跟踪算法优化方法 | |
CN114861842A (zh) | 少样本目标检测方法、装置和电子设备 | |
CN111368865B (zh) | 遥感影像储油罐检测方法、装置、可读存储介质及设备 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN113947154B (zh) | 一种目标检测方法、系统、电子设备及存储介质 | |
CN114219084A (zh) | 基于多源异构特征的无监督表示学习方法及装置 | |
CN114463764A (zh) | 表格线检测方法、装置、计算机设备和存储介质 | |
CN111967579A (zh) | 使用卷积神经网络对图像进行卷积计算的方法和装置 | |
CN113808028A (zh) | 基于归因算法的对抗样本的检测方法和装置 | |
CN118298194B (zh) | 一种面向相机光通信的条纹图像处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |