CN113592807A - 一种训练方法、图像质量确定方法及装置、电子设备 - Google Patents
一种训练方法、图像质量确定方法及装置、电子设备 Download PDFInfo
- Publication number
- CN113592807A CN113592807A CN202110854194.1A CN202110854194A CN113592807A CN 113592807 A CN113592807 A CN 113592807A CN 202110854194 A CN202110854194 A CN 202110854194A CN 113592807 A CN113592807 A CN 113592807A
- Authority
- CN
- China
- Prior art keywords
- image
- sub
- width
- label
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 161
- 238000012549 training Methods 0.000 title claims abstract description 93
- 238000013145 classification model Methods 0.000 claims abstract description 110
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 70
- 238000011176 pooling Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 52
- 238000002372 labelling Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 238000010899 nucleation Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 36
- 238000004590 computer program Methods 0.000 description 23
- 238000007781 pre-processing Methods 0.000 description 20
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 17
- 238000013500 data storage Methods 0.000 description 17
- 238000013135 deep learning Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 13
- 238000012800 visualization Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 230000037303 wrinkles Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000000945 filler Substances 0.000 description 4
- 238000013441 quality evaluation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种训练方法、图像质量确定方法及装置、电子设备,涉及图像质量分析技术领域。该训练方法包括:基于样本图像集生成多个多标签数据,每个多标签数据包括目标图像以及目标图像的多种质量标签的属性值,每个样本图像的分辨率与相应目标图像的分辨率相同,至少两个多标签数据包括的目标图像的尺寸不同,基于多个所述多标签数据分批次训练多标签分类模型,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。训练完成的多标签分类模型支持多个尺寸的图像质量确定,具有较高的泛化能力和鲁棒性。
Description
技术领域
本公开涉及图像质量分析技术领域,尤其涉及训练方法、图像质量确定方法及装置、电子设备。
背景技术
目前,可以利用光学字符识别(Optical Character Recognition,缩写为OCR)技术对文本图像进行识别,从而识别到文本图像内的文本,因此,文本图像质量对文本识别正确性有着比较重要的影响。
在进行OCR识别前,可以对文本图像质量进行评估,然后根据评估结果对文本图像进行质量增强,继而提升文本图像的文本识别准确性。相关技术中,可以采用无参考图质量评价方法评估文本图像质量,如可以采用边缘检测或特征提取算法等传统图像处理算法判断图像边缘强度和模糊程度。
发明内容
根据本公开的一方面,提供了一种训练方法,包括:
基于样本图像集生成多个多标签数据,每个所述多标签数据包括目标图像以及所述目标图像的N种质量标签的属性值,所述样本图像集含有的每个样本图像的分辨率与相应所述多标签数据含有的所述目标图像的分辨率相同,至少两个所述多标签数据包括的目标图像的尺寸不同,N为大于或等于2的整数;
基于多个所述多标签数据分批次训练多标签分类模型,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
根据本公开的另一方面,提供了一种图像质量识别方法,包括:
获取输入图像;
基于多标签分类模型,确定所述输入图像的N种图像质量;
其中,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
根据本公开的另一方面,提供了一种训练装置,包括:
数据生成单元,用于基于样本图像集生成多个多标签数据,每个所述多标签数据包括目标图像以及所述目标图像的N种质量标签的属性值,所述样本图像集含有的每个样本图像的分辨率与相应所述多标签数据含有的所述目标图像的分辨率相同,至少两个所述多标签数据包括的目标图像的尺寸不同,N为大于或等于2的整数;
模型训练单元,用于基于多个所述多标签数据分批次训练多标签分类模型,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
根据本公开的另一方面,提供了一种图像质量确定方法,包括:
获取单元,用于获取输入图像;
质量分析单元,用于基于多标签分类模型,确定所述输入图像的N种图像质量。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及,
存储程序的存储器;
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述训练方法或所述图像质量识别方法。
根据本公开的另一方面,提供了一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行所述训练方法或所述图像质量识别方法。
本公开实施例中提供的一个或多个技术方案,在没有参考图的情况下,每个多标签数据含有的目标图像保留样本图像的质量,因此,基于多个多标签数据分批次训练多标签分类模型,可获得精度较高、鲁棒性较好的多标签分类模型。在分批训练所述多标签分类模型时,至少两批多标签数据包括的所述目标图像的尺寸不同,使得训练出的多标签分类模型适用于不同尺寸的图像质量预测,并且可以从多个维度全面的预测图像质量。另外,由于在多标签分类模型训练和使用过程中,无需借助场景先验知识,可以简化操作和计算复杂度,使得多标签分类模型对图像质量的识别具有较高的稳定性和鲁棒性。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图;
图2示出了本公开实施例示例性提供的训练方法的流程图;
图3示出了本公开实施例示例性的生成多标签数据的流程图;
图4示出了本公开实施例示例性的样本图像的一种处理流程图;
图5示出了本公开实施例示例性的样本图像的裁剪拼接示意图;
图6示出了本公开实施例示例性的样本图像的另一种处理流程图;
图7示出了本公开实施例示例性的一种样本图像可视化裁剪示意图;
图8示出了本公开实施例示例性的另一种样本图像可视化裁剪示意图;
图9示出了本公开实施例示例性的一种目标图像的可视化生成示例图;
图10示出了本公开实施例示例性的另一种目标图像的可视化生成示例图;
图11示出了本公开实施例示例性的又一种目标图像的可视化生成示例图;
图12示出了本公开实施例示例性的再一种目标图像的可视化生成示例图;
图13示出了本公开实施例示例性的多标签分类模型的架构图;
图14示出了本公开实施例示例性的第二残差单元的结构示意图;
图15示出了本公开实施例示例性的多标签分类网络的原理图;
图16示出了本公开实施例示例性的图像质量确定方法的流程图;
图17示出了本公开实施例示例性的输入图像一种处理流程图;
图18示出了本公开实施例示例性的输入图像的另一种处理流程图;
图19示出了本公开实施例示例性的N种图像质量的确定流程图;
图20示出了根据本公开示例性实施例的训练装置的功能模块示意性框图;
图21示出了根据本公开示例性实施例的执行装置的功能模块示意性框图;
图22示出了根据本公开示例性实施例的芯片的示意性框图;
图23示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。以下参照附图描述本公开的方案。
在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义:
图像质量评价(Image Quality Assessment,缩写为IQA)是图像处理中的基本技术之一,主要通过对图像进行特性分析研究,然后评估出图像优劣(图像失真程度)。
无参考图像质量评价(NR-IQA)也称为盲图像质量评价(Blind Image QualityAssessment,缩写为BIQA),是没有理想图像作为参考图像的情况下,分析待评图像的失真程度,从而得到待评图像的质量评估。
多标签分类(Multilabel classification)是找到一个模型将输入x映射到二值向量y中.可以将多标签问题转化成一系列的二元分类问题, 然后可以使用多个单标签分类器进行处理。
梯度图是由图像梯度构成的图像。图像梯度是指对原始图像中像素某个邻域设置梯度算子,将获得的像素在某个邻域内的灰度变化定义为图像梯度。
损失函数(loss function)又称目标函数(objective function),用于衡量预测值和目标值的差异的重要方程,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
softmax函数,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。
Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0~1之间。
反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,在训练神经网络过程中,可以采用反向传播算法修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。例如,权重矩阵。
本公开示例性实施例提供一种训练方法及图像质量确定方法,其可以在无参考图的情况下,全方位多维度的确定支持多尺寸图像的图像质量用于预测各种尺寸的图像质量。此处的图像包括但不仅限于文本图像、非文本图像等。从图像的完整度上来讲,图像可以是拍摄设备拍摄的图像,也可以是拍摄设备拍摄的图像中截取的图像块。从图像类型来说,图像可以为动态图像,也可以为静态图像。
图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图。如图1所示,本公开示例性实施例提供的场景100包括:训练设备1100和执行设备120。训练设备1100所训练的目标模型(如本公开实施例示例性的多标签分类模型)可以用于执行设备120。下文述及的设备、器件、模块等之间的位置关系不构成对执行设备120的任何限制。
如图1所示,上述训练设备1100可以包括数据采集装置111、数据库112以及第一深度学习处理器113。数据采集装置111可以为带有图像采集功能的智能终端,如相机、平板电脑、扫描仪等,以对所需训练的样本图像进行采集。这些数据采集装置111还可以具有图像处理功能和数据标注功能,以对图像进行预处理和标注。示例性的,数据采集装置111可以是具有图像采集功能的装置,其可以配置图像处理软件和数据标注软件,图像处理软件可以基于Open CV、matlab等软件,数据标注软件可以为常用的excel软件,也可以将数据标注的功能集成在图像处理软件上,如Open CV、matlab中。例如:当数据标注的功能集成在图像处理软件,该数据采集装置111所配置的硬件可以包括图像处理器122等。数据库112可以依赖移动硬盘、存储器(如片外存储器)等硬件实现数据存储功能。第一深度学习处理器113可以训练神经网络模型。
如图1所示,当数据采集装置111采集到样本图像之后,数据采集装置111可以对样本图像进行预处理和多标签标注,形成多个多标签数据,将这些多标签数据存入数据库112内,形成第一深度学习处理器113的训练数据,第一深度学习处理器113可以基于数据刻中的训练数据训练得到目标模型(如本公开的多标签分类模型)。例如:第一深度学习处理器113可以分批对多标签数据内的图像数据进行学习,预测每个图像数据的多个标签值,用以评价图像质量,然后采用反向传播算法更新目标模型的模型参数,如权重矩阵等,直到目标模型的损失函数收敛,从而完成目标模型的训练。
在实际应用中,该目标模型可以训练原始目标模型得到,图1所示的数据库112内的训练数据可以不由数据采集装置111采集,而从其他设备接收得到;或者第一深度学习处理器113的部分训练数据来自于数据库112内的训练数据,另一部分数据可能来自云端或其他设备。
如图1所示,下文以多标签分类模型为例,根据本公开实施例示例性的训练设备所训练的多标签分类模型可以应用于不同的执行设备120,使得该执行设备120可以根据该多标签分类模型从多个维度确定图像质量。如图1所示的,该执行设备120可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,缩写为AR)/虚拟现实(virtual reality,缩写为VR)终端,相机、扫描仪等,还可以是服务器或者云端等。
如图1所示,上述执行设备120可以配置I/O接口121(input/output,输入/输出),用于与外部设备进行数据交互。例如:用户可以通过用户设备向I/O接口121输入输入图像。在一种情况下,用户可以手动给定输入图像,该手动给定的输入图像可以通过I/O接口121提供的界面进行操作。在另一种情况下,客户设备130可以自动地向I/O接口121发送输入图像。例如:可以在用户授权的情况下,客户设备130自动发送输入图像。此时,用户可以在客户设备130中设置相应权限。应理解,在本公开示例性实施例中,输入图像可以包括:待处理文本图像、待处理非文本图像或者含有非文本和文本的图像。待处理文本图像的文本语言可以包括中文、英文、日文、法文等文本中的至少一种,待处理非文本图像的非文本图像可以为建筑物、动植物等各种图像。
如图1所示,上述执行设备120可以配置一个或多个预处理模块,用于根据I/O接口121接收到的输入图像进行预处理。例如:执行设备120配置有图像处理软件和数据标注软件,图像处理软件可以基于Open CV、matlab等软件,用于对输入图像进行裁剪、拼接和填充,形成预处理图像,数据标注软件可以为常用的excel软件,用于在预处理图像上进行多标签标注,获得多标签数据。另外,可以将数据标注软件的数据标注功能集成在图像处理软件上,如Open CV、matlab中。例如:当数据标注的功能集成在图像处理软件,该执行设备120所配置的预处理模块可以为图像处理器122。应理解,预处理模块可以针对输入图像的全部数据进行预处理,也可以针对输入图像的部分数据进行预处理。
如图1所示,上述执行设备120还可以配置有第二深度学习处理器123,用于基于多标签分类模型从多个维度确定预处理图像的图像质量。执行设备120还可以配置有数据存储系统140,用于存储程序指令、神经元数据、权重数据等,也可以将相应处理得到的处理结果(如预处理图像、多标签数据、中间处理结果或者图像质量)、指令等存储入数据存储系统140。应理解,数据存储系统140所存储的神经元数据、权重数据等,可以是经过训练设备1100所训练的多标签分类模型所含有的神经元数据、权重数据等。数据存储系统140可以是相对执行设备120是外部存储器,也可以将数据存储系统140置于执行设备120中。
如图1所示,在预处理模块预处理输入图像,或者第二深度学习处理器123从多个维度确定预处理图像的图像质量的过程中,执行设备120可以调用数据存储系统140中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统140中。最后,I/O接口121将处理结果(例如多维度的图像质量或者预处理图像等)反馈给客户设备130,具体的呈现形式可以是显示、声音等具体方式。应理解,处理结果可以通过I/O接口121自动反馈至客户设备130,也可以基于客户设备130发送的请求消息通过I/O接口121反馈至客户设备130。例如:当用户需要查看预处理图像,客户设备130可以向I/O接口121发送第一请求消息,I/O接口121接收第一请求消息后,预处理模块可以通过I/O接口121向客户设备130反馈预处理图像;当用户需要查看多标签数据时,客户设备130可以向I/O接口121发送第二请求消息,I/O接口121接收第一请求消息后,预处理模块可以通过I/O接口121向客户设备130反馈多标签数据;当用户需要查看多维图像质量,客户设备130可以向I/O接口121发送第二请求消息,I/O接口121接收第一请求消息后,第二深度学习处理器123可以通过I/O接口121向客户设备130反馈多维图像质量。
如图1所示,上述客户设备130可以作为数据采集端,采集输入图像输入I/O接口121,或者I/O接口121反馈的处理结果作为新的多标签数据保存在数据库112内,也可以不经过客户设备130采集,而是由I/O接口121直接将输入图像或者处理结果作为新的多标签数据存入数据库112。
如图1所示,上述第一深度学习处理器113和第二深度学习处理器123可以是单核深度学习处理器(Deep Learning Processor-Singlecore,缩写为DLP-S)的神经元,也可以为多核深度学习处理器(Deep Learning Processor-Multicore,缩写为DLP-M)。DLP-M是在DLP-S的基础上进行的多核扩展,将多个DLP-S通过片上网络(Network-on-chip,缩写为Noc)进行互联、多播、核间同步等协议进行核间通信,以完成深度学习任务。
本公开实施例示例性提供一种训练方法,其可以应用于训练设备,也可以应用于训练设备中的芯片。该训练设备可以为图1示例性的训练设备110,也可以是集成有数据预处理和模型训练功能的处理器、服务器等。为了方便说明本公开实施例示例性的训练方法,下文将在图1所示例的相关架构图的基础上,结合相关附图举例描述。应理解,下文的举例描述用于解释本公开实施例示例性的训练过程,对训练方法没有限制作用。
图2示出了本公开实施例示例性提供的训练方法的流程图。如图3所示,本公开实施例示例性的训练方法包括:
步骤201:数据采集装置基于样本图像集生成多个多标签数据。此处的样本图像集可以是来自于数据采集设备,也可以是数据采集设备从网上获取到的样本图像集。这些样本图像可以为完整的图像,也可以是完整图像中的一个子图像块。如果样本图像为动态图像,则可以抽取动态图像中的每一帧图像构造样本图像。
每个多标签数据包括目标图像以及目标图像的N种质量标签的属性值。样本图像集含有的每个样本图像的分辨率与相应多标签数据含有的目标图像的分辨率相同,可以使得样本图像生成的多标签数据含有的目标图像保留原有样本图像质量,以保证训练出的多标签分类模型具有较高的准确度和鲁棒性。此处样本图像相应的目标图像是指来自于样本图像的目标图像。
上述各种质量标签所指示的图像质量类别不同,N为质量标签的种类,N为大于或等于2的整数,N的取值越大,说明评价目标图像的图像质量维度越高。每一个质量标签代表一个维度的图像质量。图像质量类别可以包括但不仅限于过曝、过暗、透视、褶皱、模糊等情况,质量标签的属性值可以为1或0。1指示目标图像存在质量标签属性代表的图像质量问题。0指示目标图像不存在质量标签指示的图像质量问题。
示例性的,当需要训练的多标签分类网络可以确定图像是否存在过曝、过暗、透视、褶皱、模糊这五种质量问题,则N=5,目标图像的质量标签表达形式为,为过曝标签,为过暗标签,为透视标签,为褶皱标签,为模糊标签。、、、和的属性值为0或1。例如:当一张过暗且模糊的文本图像对应的图像质量标签应该是{0,1,0,0,1}。
步骤202:第一深度学习处理器基于多个多标签数据分批次训练多标签分类模型。在分批次训练多标签分类模型时,第一深度学习处理器可以随机从多个多标签数据抽取一批多标签数据作为训练数据,从多个多标签数据抽取一批多标签数据后,剩余的多标签数据可以保存在数据库内等待下一批次抽取。对于同一批多标签数据来说,其包括的目标图像的尺寸相同。此处定义目标图像可以是数学意义上的长度和宽度相同的目标图像。
为了方便表述下文各种图像数学意义上的尺寸,将下文涉及到的图像的长度用max(Width,Heigh)表示,图像的宽度用min(Width,Heigh)。Height是指沿着第一方向的图像长度,Width是指沿着第二方向的图像长度,第一方向和第二方向可以垂直。应理解,Height和Width表示的是在两个方向上的长度,并非Width一定小于Height,也并非Width一定大于Height。另外,可以在Width和Height添加下标,确定二者的归属图像。对于一张图像来说,如果其长度等于宽度(如目标图像),则max(Width,Heigh)= min(Width,Heigh)。
对于两张图像来说,两张图像的尺寸相同时,两张图像的长度max(Width,Heigh)和min(Width,Heigh)均相同。当两张图像的尺寸不相同时,可以是两张图像的长度max(Width,Heigh)不同,也可以是两张图像的宽度min(Width,Heigh)不同,还可以是两张图像的长度max(Width,Heigh)和宽度min(Width,Heigh)均不同。
如果一张图像的尺寸(长度和/或宽度)大于另一张图像的尺寸,可以是一张图像的宽度min(Width,Heigh)大于另一张图像的宽度min(Width,Heigh),也可以是一张图像的长度max(Width,Heigh)大于另一张图像长度max(Width,Heigh),或者一张图像的宽度min(Width,Heigh)大于另一张图像的宽度min(Width,Heigh),且一张图像的长度max(Width,Heigh)大于另一张图像的长度max(Width,Heigh)。如果一张图像的尺寸(长度和/或宽度)小于另一张图像的尺寸,可以是一张图像的宽度min(Width,Heigh)小于另一张图像的宽度min(Width,Heigh),也可以是一张图像的长度max(Width,Heigh)小于另一张图像的长度max(Width,Heigh),或者一张图像的宽度min(Width,Heigh)小于另一张图像的宽度min(Width,Heigh),且一张图像的长度max(Width,Heigh)小于另一张图像的长度max(Width,Heigh)。
如果是一张图像的长度等于另一张图像的尺寸,可以是一张图像的长度max(Width,Heigh)等于另一张图像的长度max(Width,Heigh);如果是一张图像的宽度等于另一张图像的尺寸,可以是一张图像的宽度min(Width,Heigh)等于另一张图像的宽度min(Width,Heigh)。
上述多标签分类模型在不同批训练时的图像输入尺寸可以相同,也可以不同。为了保证所训练的多标签分类模型可以处理多种尺寸的图像,至少两个多标签数据包括的目标图像的尺寸不同时,使分批训练多标签分类模型时,多标签分类模型在至少两批训练时的图像输入尺寸不同。也就是说,目标图像的尺寸有至少两种,各种目标图像的尺寸不同。同样的,图像输入尺寸也有至少两种,各种目标图像的尺寸不同。
在实际应用中,至少两个多标签数据包括的目标图像的尺寸不同。在此基础上,在使得训练出的多标签分类模型可以适用于多种不同尺寸图像的图像质量确定。当两批多标签数据包括的目标图像的尺寸不同,这两批多标签数据含有的目标图像的尺寸最小差值可以根据实际情况设定。例如:假设有四个批次的多标签数据含有的目标图像的尺寸不同,以Width×Height的形式表达目标图像的尺寸,这四个批次的多标签数据含有的目标图像的尺寸分别为384×384、640×640、896×896以及1152×1152,则这四批训练时的图像输入尺寸分别为384×384、640×640、896×896以及1152×1152,两批次的多标签数据含有的目标图像的最小尺寸差值为256×256。又例如:假设有两个批次的多标签数据含有的目标图像的尺寸不同,以Width×Height的形式表达目标图像的尺寸,这两个批次的多标签数据含有的目标图像的尺寸分别为384×384和896×896,则这两批训练时的图像输入尺寸分别为384×384和896×896,两批次的多标签数据含有的目标图像的最小尺寸差值为512×512。
另外,由于在多标签分类模型训练和使用过程中,无需借助场景先验知识,可以简化操作和计算复杂度,使得多标签分类模型对图像质量的识别具有较高的稳定性和鲁棒性。由此可见,本实施例示例性的方法应用在实际图像质量分析时,无需用户提前设定图像版面,也无需指定录入图像的设备,整个过程智能化,无需人工介入,所训练的多标签分类模型可以全面的分析图像质量,具有较高的鲁棒性。
由上可知,本公开实施例示例性的方法包括图像预处理阶段和分批训练阶段,图像预处理阶段主要是基于样本图像集生成多个多标签数据,分批训练阶段主要是分批次训练多标签分类模型。下面对图像预处理阶段和分批训练阶段进行分别说明。
一、图像预处理阶段
在图像预处理阶段,如果样本图像的尺寸等于多种图像输入尺寸中的一个,则数据采集装置可以直接在该样本图像上标注N种所述质量标签值的属性值,获得多标签数据。此时多标签数据所含有的目标图像实质为样本图像。如果样本图像的尺寸不等于所有图像输入尺寸,则数据采集装置对样本图像进行处理,获得目标图像,使得目标图像等于多种所述图像输入尺寸中的一个,然后再在目标图像上标注N种质量标签值的属性值,获得多标签数据。
在一种可选方式中,数据采集装置基于样本图像集生成多个多标签数据可以包括:数据采集装置确定样本图像的尺寸等于多种图像输入尺寸中的一个的情况下,在样本图像上标注N种质量标签值的属性值,获得多标签数据。这种情况下多标签数据所包括的目标图像实质为样本图像;数据采集装置确定样本图像的尺寸不等于所有图像输入尺寸的情况下,数据采集装置对样本图像进行处理,获得目标图像,使得目标图像的尺寸等于多种所述图像输入尺寸中的一个,然后数据采集装置在目标图像上标注N种质量标签值的属性值,获得多标签数据;最后,数据采集装置更新样本图像。由此可见,本公开实施例示例性的方法可以采用循环的方式生成多个多标签数据。
图3示出了本公开实施例示例性的生成多标签数据的流程图。如图3所示,生成多标签数据包括:
步骤301:数据采集装置从样本图像集C抽取一个样本图像C t ,t为样本图像在样本图像集的序号。
步骤302:数据采集装置判断样本图像的尺寸是否等于多种图像输入尺寸中的一个。如果样本图像的尺寸等于多种图像输入尺寸中的一个,则数据采集装置执行步骤303,如果样本图像的尺寸不等于所有图像输入尺寸,数据采集装置执行步骤304。
在实际应用中,数据采集装置可以获取样本图像的尺寸Width a ×Height a 以及多种图像输入尺寸Width 0×Height 0,比较样本图像的尺寸与每种图像输入尺寸的大小关系。对于样本图像的尺寸与一种图像输入尺寸的大小关系比较来说,可以比较max(Width a ,Height a )是否等于max(Width 0,Height 0)的大小关系,以及min(Width a ,Height a )是否等于min(Width 0,Height 0)的大小关系。当max(Width a ,Height a )=max(Width 0,Height 0),min(Width a ,Height a )=min(Width 0,Height 0),则说明样本图像的尺寸等于图像输入尺寸,数据采集装置执行步骤303。当max(Width a ,Height a )≠max(Width 0,Height 0),min(Width a ,Height a )=min(Width 0,Height 0),说明样本图像的尺寸不等于图像输入尺寸,数据采集装置执行步骤304。当max(Width a ,Height a )等于max(Width 0,Height 0),min(Width a ,Height a )不等于min(Width 0,Height 0),说明样本图像的尺寸不等于图像输入尺寸,数据采集装置执行步骤304。当max(Width a ,Height a )不等于max(Width 0,Height 0),min(Width a ,Height a )不等于min(Width 0,Height 0),说明样本图像的尺寸不等于图像输入尺寸,数据采集装置执行步骤304。
步骤303:数据采集装置在样本图像上标注N种质量标签值的属性值,获得多标签数据。例如:当样本图像的尺寸为1152×1152,图像输入尺寸为1152×1152,则数据采集装置将样本图像作为目标图像,直接在样本图像标注N种质量标签值的属性值。
步骤304:数据采集装置对样本图像进行处理,获得目标图像,使得目标图像的尺寸等于多种图像输入尺寸中的一个。例如:当样本图像的尺寸为1200×1530,图像输入尺寸为1152×1152,则可以将样本图像的尺寸处理成1152×1152。
步骤305:数据采集装置在目标图像上标注N种质量标签值的属性值,获得多标签数据。
举例说明,当四批训练时的图像输入尺寸分别为384×384、640×640、896×896以及1152×1152,则存在384×384、640×640、896×896以及1152×1152这四种图像输入尺寸。当样本图像的尺寸为384×384等于四种图像输入尺寸中的384×384,执行步骤303。当样本图像的尺寸为1200×1450,说明样本图像的尺寸不等于多种图像输入尺寸中的一个,需要执行步骤304。
发明人对图像质量确定这一具体应用场景的研究发现,本公开实施例示例性的方法关注的是图像质量,对于图像语义信息是否发生变化,则不关注或者说关注度不高。基于这一发现,可以在忽略样本图像语义信息变化的情况下,对样本图像进行处理,从而保证所获得的目标图像可以保留原有样本图像质量相关信息,进而训练出稳定性和鲁棒性比较高的多标签分类模型。此处的样本图像语义信息变化可以是指样本图像经过剪切和拼接后的变化,也可以是在样本图像中部分区域图像丢弃过程中所发生的语义信息丢失。
为了尽量减少样本图像的信息丢失,可以通过裁剪、拼接等方式将样本图像处理为目标图像。图4示出了本公开实施例示例性的样本图像的一种处理流程图。如图5所示,对样本图像进行处理,获得目标图像,包括:
步骤401:数据采集装置确定样本图像含有的样本图像的长宽比值大于预设比值时,通过裁剪和拼接的方式处理样本图像的尺寸,直到处理后的样本图像的长宽比值小于或等于预设比值r。
考虑到于样本图像的形状过于狭长,样本图像的长宽比值比较大的,样本图像的形状接近正方形时,样本图像的长宽比值接近1。而由于多标签分类模型的输入图像形状为正方形,其长宽比值为1,因此,可以将预设比值r控制在比较小的范围(接近或等于1)。示例性的,预设比值r=3,如预设比值3。此时,当样本图像的长宽比值小于或等于预设比值r时,说明处理后的样本图像的尺寸等于图像输入尺寸,可以尽可能的将样本图像的质量信息集中在接近正方形的区域内,不管后续对样本图像信息进行如何裁剪,都能够尽可能的保留样本图像的信息。
当数据采集装置确定样本图像含有的样本图像的长宽比值大于预设比值,说明样本图像尺寸过于狭长,无法满足尽可能集中图像质量信息集的需求,需要通过裁剪和拼接的方式处理样本图像的尺寸。当数据采集装置确定样本图像或者说处理后的样本图像含有的样本图像的长宽比值小于或等于预设比值,说明样本图像尺寸合适,已经满足尽可能集中图像质量信息集的需求。在此基础上,数据采集装置在执行步骤401后,还可以执行步骤402:数据采集装置在处理后的样本图像的长宽比值小于或等于预设比值,处理后的样本图像的尺寸等于多种图像输入尺寸中的一个时,获得目标图像。可以理解的是,如果数据采集装置处理后的样本图像的尺寸不等于多种图像输入尺寸时,说明采用步骤401的方式处理样本图像,无法获得目标图像,可以在步骤401的基础上处理样本图像,以获得目标图像。
在实际应用中,处理前的样本图像的尺寸设为Width a1×Height a1,处理后的样本图像的尺寸设为Width a2×Height a2 。数据采集装置判断处理前样本图像的长宽比值max(Width a1,Height a1)/min(Width a1,Height a1)是否小于或等于r。
如果max(Width a1,Height a1)/min(Width a1,Height a1)≤r,说明样本图像的形状比较合适,样本图像的质量信息已经尽可能的集中在接近正方形的区域内。如果max(Width a1,Height a1)/min(Width a1,Height a1)>r,则说明样本图像比较狭长,数据采集装置仍然需要通过裁剪和拼接的方式处理样本图像,然后判断处理后的样本图像的长宽比值max(Width a2 ,Height a2 )/min(Width a2 ,Height a2 )是否小于或等于r。
如果处理后的样本图像的长宽比值max(Width a2,Height a2)/min(Width a2,Height a2)>r,则数据采集装置将处理后的样本图像作为处理前的样本图像,则按照裁剪和拼接的方式处理样本图像。
如果max(Width a2,Height a2)/min(Width a2,Height a2)≤r,说明处理后的样本图像的长宽比值合适,样本图像的质量信息已经尽可能的集中在接近正方形的区域内。此时,可以判断该处理后的所述样本图像的尺寸是否等于图像输入尺寸。如果处理后的样本图像的尺寸等于图像输入尺寸,则说明处理后的样本图像可以作为目标图像使用,否则说明处理后的样本图像采用裁剪和拼接的方式无法获得目标图像,需要在步骤401的基础上对样本图像进行处理。
示例性的,通过裁剪和拼接的方式处理样本图像可以包括:数据采集装置以样本图像的宽边延伸方向为分割线方向将样本图像分成两等分,获得两个子样本图像,数据采集装置以样本图像的长边延伸方向为拼接线方向将两个子样本图像拼接在一起。经过这种裁剪和拼接方式处理尺寸的样本图像虽然原有样本图像的语义信息发生一定的变化,但是仍然保留有原有样本图像的质量信息,对训练多标签分类模型的准确性没有影响。
图5示出了本公开实施例示例性的样本图像的裁剪拼接示意图。如图5所示,样本图像为试题片段501,预设比值设r=3。由图5可以看出:试题片段501的长宽比大于3试题片段501经过第一次裁剪(裁剪线为虚线a1,也是第一分割线方向)和拼接(拼接线为b1所指的图像侧边延伸方向,也是第一拼接线方向),得到第一次处理后图像502。由于该第一次处理后图像502的长宽比仍然大于3,对第一次处理后图像502再次进行第二次裁剪(裁剪线为虚线a2,也是第二分割线方向)和拼接(拼接线为b2所指的图像侧边延伸方向,也是第二拼接线方向),得到第二次处理后图像503。从图5可以看出,第二次处理后图像503已经小于3,因此,后续无需继续裁剪和拼接。
如果第二次处理后图像503不等于多种图像输入尺寸,说明采用步骤401的方法已经无法获得目标图像,可以在步骤401的基础上对样本图像进行处理,获得目标图像。如果第二次处理后图像503的长宽比等于1,且第二次处理后图像503的尺寸等于多种图像输入尺寸中的一个,可以将第二次处理后图像503作为目标图像使用。此时,数据采集装置可以在保留原始样本图像所有图像质量信息的情况下,将处理后的样本图像作为目标图像使用。
在一种可选方式中,如果样本图像的长度大于多种图像输入尺寸中的最大尺寸,或者处理后的样本图像的长度大于多种图像输入尺寸中的最大尺寸,可以通过裁剪的方式处理样本图像,从而获得目标图像,使得目标图像的尺寸等于最大尺寸。如果在此之前执行图4的相关操作,将原始样本图像所含有的图像质量信息尽量集中在接近正方形的区域内,使得在裁剪样本图像的时候,可以在最大化保留图像质量信息的前提下,裁剪样本图像,减少样本图像损失。
在实际应用中,由于样本图像的长度大于多种图像输入尺寸中的最大尺寸,可以根据实际需要裁剪样本图像,获得该目标图像。如可以裁剪出含有感兴趣子图像作为目标图像。此时,将样本图像中的感兴趣区域子图像(后文称为感兴趣子图像)或者说图像质量要求比较高的区域图像从样本图像中提取出来,作为目标图像或者目标图像的一部分使用。并且,可以在提取感兴趣子图像前,按照图4描述的方式对样本图像进行处理,以保证样本图像的图像质量尽可能集中在接近正方形的区域内,从而使得提取到感兴趣子图像的同时,最大化保留图像质量,避免样本图像过于狭长时,从样本图像获取到部分感兴趣图像,而其它感兴趣子图像无法被获取的情况发生。此处感兴趣子图像可以根据实际情况选择。
示例性的,若感兴趣子图像的图像梯度比较大,可以基于梯度将样本图像转化成目标图像。例如:对于试题图像来说,其中包含很多文本信息,则可以将文本子图像作为感兴趣子图像,而将大量留白区域的图像去除。此处文本子图像可以是包含文本的图像,也可以是仅含有问题的图像。下面示例性描述通过裁剪方式获得目标图像的过程。
如果样本图像的长度大于多种图像输入尺寸中的最大尺寸,图6示出了本公开实施例示例性的样本图像的另一种处理流程图。如图6所示,数据采集装置对样本图像进行处理,获得目标图像可以包括:
步骤601:数据采集装置提取样本图像的梯度图。该样本图像的梯度值的提取方式多种多样,如sobel算法、Robinson算法、Laplace算法等,但不仅限于此。例如:可以采用Open CV软件中的sobel算子实现样本图像的梯度图提取。
步骤602:数据采集装置基于样本图像的梯度图获得感兴趣子图像。感兴趣子图像的长度等于最大尺寸。
在实际应用中,可以采用遍历框遍历样本图像的梯度图内各个像素的梯度,以获得样本图像内各个候选子图像的梯度和,然后从样本图像裁剪出梯度和最大的一个候选子图像作为感兴趣子图像,因此,感兴趣子图像的尺寸与候选子图像的尺寸相同。由于以遍历框候遍历样本图像的梯度图的方式,获得各个候选子图像的梯度和,因此,每个候选子图像实质为遍历框在样本图像的映射区域图像,使得遍历框的尺寸与候选子图像的尺寸相同。
例如:若样本图像为试题图像,可以假设遍历框在遍历过程中,可以在样本图像上映射同样尺寸的多个候选子图像。感兴趣子图像可以为多个候选子图像中梯度和最大的一个。此时感兴趣子图像内的文字密集度最高,也就是说,当选中的候选子图像为多个候选子图像中梯度和最大的一个作为感兴趣子图像,相对于样本图像的其它候选子图像,其中所含有的文字密集程度最高。而对于试题图像来说,更关注的试题内的文字所在区域的图像质量,因此,生成包含感兴趣子图像的目标图像,可以训练出可以关注试题文字所在区域图像质量的多标签分类模型。
上述遍历框的尺寸和感兴趣子图像的尺寸可以基于样本图像的尺寸和最大尺寸确定。设定样本图像的尺寸为Width a ×Height a 和最大尺寸为Width max×Height max,遍历框的尺寸为Height L ×Height L ,感兴趣子图像的尺寸为Width r ×Height r 。则感兴趣子图像的尺寸和遍历框的尺寸可能存在以下两种可能。
第一种可能尺寸:当样本图像的宽度大于或等于最大尺寸,感兴趣子图像的宽度等于最大尺寸。例如:当样本图像的长度max(Width a ,Height a )>最大尺寸的长度max(Width max,Height max),样本图像的宽度min(Width a ,Height a )≥最大尺寸的宽度min(Width 0, Height 0),则遍历框的长度max(Width R ,Height R )和感兴趣子图像的长度max(Width R ,Height R )均等于最大尺寸的长度max(Width max,Height max),遍历框的宽度min(Width L ,Height L )和感兴趣子图像的宽度min(Width R ,Height R )均等于最大尺寸的宽度min(Width max,Height max )。
第二种可能尺寸:当样本图像的宽度小于最大尺寸,感兴趣子图像的宽度等于样本图像的宽度。例如:当样本图像的长度max(Width a ,Height a )>最大尺寸的长度max(Width max,Height max),样本图像的宽度min(Width a ,Height a )<最大尺寸的宽度min(Width max,Height max),则遍历框的长度max(Width L ,Height L )和感兴趣子图像的长度max(Width R ,Height R )均等于最大尺寸的长度max(Width max,Height max),遍历框的宽度min(Width L ,Height L )和感兴趣子图像的宽度min(Width R ,Height R )均等于样本图像的宽度min(Width a ,Height a )。
步骤603:数据采集装置生成包含感兴趣子图像的目标图像。生成目标图像的方法根据感兴趣子图像的尺寸可以有所不同。
示例性的,假设存在四种图像输入尺寸,分别为384×384、640×640、896×896以及1152×1152,在前述两种可能的尺寸下,生成包含感兴趣子图像的目标图像的方法举例如下。
在第一种可能尺寸中,当样本图像的长度max(Width a ,Height a )=1300,样本图像的宽度min(Width a ,Height a )=1250,样本图像的长度大于四种图像输入尺寸中的最大尺寸1152×1152,可以确定目标图像的尺寸为1152×1152,因此,遍历框的长度max(Width L ,Height L )=1152,遍历框的宽度min(Width L ,Height L )=1152。
图7示出了本公开实施例示例性的一种样本图像可视化裁剪示意图。如图7所示,遍历框在样本图像701上映射的候选子图像A为多个候选子图像中梯度和最大的一个,可以沿样本图像701上的虚线裁剪样本图像701,从而获得感兴趣子图像702。感兴趣子图像702的长度min(Width R ,Height R )=1152,感兴趣子图像702的宽度min(Width R ,Height R )=1152。由此可见,当样本图像701的宽度大于或等于最大尺寸的宽度,感兴趣子图像702的尺寸等于最大尺寸,因此,感兴趣子图像702的尺寸已经等于最大尺寸,可以直接作为目标图像使用。
在第二种可能的尺寸中,当样本图像的长度max(Width a ,Height a )=1300,样本图像的宽度min(Width a ,Height a )=1100,样本图像的长度大于四种图像输入尺寸中的最大尺寸1152×1152,可以确定目标图像的尺寸为1152×1152。而最大尺寸的长度max(Width max,Height max)和最大尺寸的宽度min(Width max,Height max)均为1152,则遍历框的长度max(Width L ,Height L )=1152,遍历框的宽度max(Width L ,Height L )=1100。
图8示出了本公开实施例示例性的另一种样本图像可视化裁剪示意图。如图8所示,遍历框在样本图像801映射的候选子图像A为多个候选子图像中梯度和最大的一个,可以沿样本图像801上的虚线裁剪样本图像801,从而获得感兴趣子图像802。感兴趣子图像802的宽度方向为XW1,感兴趣子图像802的长度方向为XL1,感兴趣子图像802的长度max(Width R ,Height R )=1152,感兴趣子图像802的宽度min(Width R ,Height R )=1100。由此可见,当样本图像801的宽度小于最大尺寸的宽度,感兴趣子图像802的宽度等于样本图像801的宽度,因此,感兴趣子图像802的尺寸不等于最大尺寸,无法直接作为目标图像使用。
如图8所示,通过分析感兴趣子图像802的尺寸发现,感兴趣子图像802的宽度小于最大尺寸的宽度,导致感兴趣子图像802的尺寸不等于最大尺寸,因此,可以考虑在感兴趣子图像802的宽度方向上填充图案,以在感兴趣子图像802的图像质量不发生损失(如分辨率变小)的情况下,将感兴趣子图像802的尺寸调整至最大尺寸,从而将感兴趣子图像802转换为目标图像。
示例性的,如图8所示,当感兴趣子图像802的长度等于最大尺寸,感兴趣子图像802的宽度等于样本图像801的宽度,该目标图像804还包括第一填充子图像803,该第一填充子图像803与感兴趣子图像802沿着感兴趣子图像802的宽度方向XL分布。从填充方法上来说,数据采集装置生成包含感兴趣子图像802的目标图像可以包括:数据采集装置确定感兴趣子图像802的宽度小于最大尺寸的情况下,在感兴趣子图像802的长边拼接第一填充子图像803,获得目标图像804。
基于本公开实施例示例性的图像质量确定应用场景,在感兴趣子图像的宽度方向上填充的第一填充子图像可以为像素值相同的图像,或者是感兴趣子图像部分或全部图像块,也可以时像素值相同的图像和感兴趣子图像部分或全部图像块。
当最大尺寸对感兴趣子图像的宽度的向下取整结果大于或等于K,第一填充子图像包括K-1个第一子图像,K为大于或等于1的整数,第一子图像为感兴趣子图像的复制图像。这种情况下,说明在感兴趣子图像的宽度小于最大尺寸的时候,还可以在感兴趣子图像的宽度方向上拼接K-1个感兴趣子图像的复制图像。采用这种填充方式不仅不会引入外来的图像质量干扰,还会使得感兴趣子图像的信息量更为丰富,进而提高多标签分类模型的图像质量确定能力。
当最大尺寸对感兴趣子图像的宽度的取余结果为大于或等于1的整数,该第一填充子图像包括第二子图像。该第二子图像含有的各个像素的像素值相同。这种情况下,说明在感兴趣子图像的宽度小于最大尺寸的时候,说明感兴趣子图像的宽度小于最大尺寸时,除了根据向下取整的结果填充感兴趣子图像的复制图像外,感兴趣子图像的宽度仍然无法达到最大尺寸,因此,可以根据取余结果在感兴趣子图像的宽度方向上填充第二子图像。同时第一子图像、第二子图像以及感兴趣子图像沿着感兴趣子图像的宽度方向分布,至于三者之间的先后顺序可以根据实际情况决定。该第二子图像含有的各个像素的像素值相同,可以使得第二子图像的梯度和为0,因此,在梯度变化比较大的感兴趣子图像的宽度方向上拼接第二子图像,可以避免引入外来图像质量干扰。
在实际应用中,可以先创建一个三通道的RGB图像,并定义像素值相同的子图像作第二子图像,然后将感兴趣子图像(如果有复制图像,还可以将感兴趣子图像的复制图像)填充至该RGB图像内,感兴趣子图像和第二子图像沿着感兴趣子图像的宽度方向分布,第二子图像所含有的像素的像素值可以在0~255之间选择,如36、128、155或255等。第二子图像的宽度等于最大尺寸的宽度对感兴趣子图像的宽度的取余结果,第二子图像的长度等于感兴趣子图像的长度或者说最大尺寸的长度。
图9示出了本公开实施例示例性的一种目标图像的可视化生成示例图。如图9所示,假设最大尺寸的长度max(Width max, Height max)和最大尺寸的宽度min(Width max, Height max)均等于1152,感兴趣子图像901的长度max(Width R ,Height R )=1152,感兴趣子图像901的宽度min(Width R ,Height R )=576。图9中XW1表示感兴趣子图像901的宽度方向,XL1表示感兴趣子图像901的长度方向。
如图9所示,当最大尺寸的宽度min(Width max, Height amx)对感兴趣子图像901的宽度min(Width R ,Height R )进行向下取整运算:
根据前文相关描述,需要在感兴趣子图像901的宽度方向XW1上拼接1个第一子图像902,即1个感兴趣子图像901的复制图像。当最大尺寸的宽度min(Width max, Height max)对感兴趣子图像901的宽度min(Width R ,Height R )进行取余运算,min(Width max, Height max)%min(Width R ,Height R )=1152%576=0,%为求余符号,说明无需在该感兴趣子图像901的宽度方向XW1拼接第二子图像。
图10示出了本公开实施例示例性的另一种目标图像的可视化生成示例图。如图10所示,假设最大尺寸的长度max(Width max, Height max)和最大尺寸的宽度min(Width max, Height max)均等于1152,感兴趣子图像1001的长度max(Width R ,Height R )=1152,感兴趣子图像1001的宽度min(Width R ,Height R )=600。图10中XW1表示感兴趣子图像1001的宽度方向,XL1表示感兴趣子图像1001的长度方向。
如图10所示,当最大尺寸的宽度min(Width max, Height max)对感兴趣子图像1001的宽度min(Width R ,Height R )进行向下取整运算:
由于向下取整结果为1,因此,根据前文相关描述,不需要在感兴趣子图像1001的宽度方向XW1上拼接第一子图像,即感兴趣子图像1001的复制图像。
如图10所示,当最大尺寸的宽度min(Width max, Height max)对感兴趣子图像1001的宽度min(Width R ,Height R )进行取余运算:
min(Width max, Height max)%min(Width R ,Height R )=1152%600=552,%为求余符号,说明在该感兴趣子图像1001的宽度方向XW1拼接552行像素,每行像素的数量与感兴趣子图像1001的长度方向XL2上的像素数量一样,即1152个像素。可见,在感兴趣子图像1001的长度max(Width R ,Height R )=1152,感兴趣子图像1001的宽度min(Width R ,Height R )=600的情况下,需要在感兴趣子图像1001的宽度方向XW1上拼接552×1152的第二子图像1002,即可获得目标图像1003。至于第二子图像1002所含有的各个像素的像素值,只要保证各个像素的像素值相等,可以随机设置为0~255之间的任何值,如128、255或42,但不仅限于此。
图11示出了本公开实施例示例性的又一种目标图像的可视化生成示例图。如图11所示,假设最大尺寸的长度max(Width max, Height max)和最大尺寸的宽度min(Width max, Height max)均等于1152,感兴趣子图像的长度max(Width R ,Height R )=1152,感兴趣子图像1101的宽度min(Width R ,Height R )=500。图11中XW1表示感兴趣子图像1101的宽度方向,XL1表示感兴趣子图像1101的长度方向。
如图11所示,当最大尺寸的宽度min(Width max, Height max)对感兴趣子图像1101的宽度min(Width R ,Height R )进行向下取整运算:
由于向下取整结果为2,因此,根据前文相关描述,需要在感兴趣子图像1101的宽度方向XW1上拼接1个第一子图像1102,即1个感兴趣子图像1101的复制图像,获得扩张图像1003。
如图11所示,当最大尺寸的宽度min(Width max, Height max)对感兴趣子图像1101的宽度min(Width R ,Height R )进行取余运算:
min(Width max, Height max)%min(Width R ,Height R )=1152%500=152,%为求余符号,说明需要在感兴趣子图像1101的宽度方向XW1拼接152行像素,每行像素的数量与感兴趣子图像1101的长度方向XL1上的像素数量一样,即1152个像素。可见,在感兴趣子图像1101的长度max(Width R ,Height R )=1152,感兴趣子图像1101的宽度min(Width R ,Height R )=500的情况下,需要在感兴趣子图像1101(或者扩张图像1103)的宽度方向XW1上拼接152×1152的第二子图像1104,获得目标图像1105。至于第二子图像1104所含有的各个像素的像素值,只要保证各个像素的像素值相等,可以随机设置为0~255之间的任何值,如128、255或42,但不仅限于此。
在一种可选方式中,当样本图像的长度小于或等于多种图像输入长度中的最大尺寸,或者说经过步骤401处理的样本图像的长度小于或等于多种图像输入长度中的最大尺寸,多个图像输入尺寸具有至少一个大于或等于样本图像的长度的目标图像输入尺寸,该目标图像的尺寸为多个目标图像输入尺寸中的一个。由此可见,可以在不裁剪样本图像的情况下,对样本图像的边界进行扩充,从而保留样本图像的全部质量信息。
示例性的,如果目标图像输入尺寸的数量为多个,可以选择其中一个作为目标图像的尺寸,也可以选择其中最小的尺寸作为目标图像的尺寸,以减少向目标图像引入质量干扰的可能性。
假设存在四种图像输入尺寸,分别为384×384、640×640、896×896以及1152×1152,如果样本图像的尺寸为680×850,由于样本图像的长度为850,比样本图像的长度大的目标图像输入尺寸包括896×896和1152×1152,可以从这两个目标图像输入尺寸中选择一个作为目标图像的尺寸。此处可以选择这两个目标图像输入尺寸中最小的一个(即896×896),作为目标图像的尺寸。又例如:样本图像的尺寸为680×896,由于样本图像的长度为896,大于或等于样本图像的长度大的目标图像输入尺寸包括896×896和1152×1152,可以从这两个目标图像输入尺寸中选择一个作为目标图像的尺寸。此处可以选择这两个目标图像输入尺寸中最小的一个(即896×896),作为目标图像的尺寸。
示例性的,可以采用填充方式对样本图像进行边界扩充。基于此,目标图像包括样本图像和第二填充子图像。在样本图像的长度小于或等于多种图像输入尺寸中的最大尺寸的前提下,样本图像的宽度小于最大尺寸。基于此,该第二填充子图像至少包括拼接在所述样本图像的长边的第一方向填充子图像。从填充方法来讲,数据采集装置对样本图像进行处理,获得所述目标图像,包括:数据采集装置确定样本图像的宽度小于目标图像的宽度的情况下,在所述样本图像的长边拼接第一方向填充子图像,获得扩张图像;确定样本图像的长度小于所述目标图像的长度的情况下,在扩张图像的长边拼接第二方向填充子图像,获得所述目标图像。此时,从填充方法上来说,数据采集装置对样本图像进行处理,获得目标图像,包括:数据采集装置确定样本图像的宽度小于目标图像的宽度的情况下,在样本图像的长边拼接第一方向填充子图像,获得扩张图像;确定样本图像的长度小于目标图像的长度的情况下,在扩张图像的长边拼接第二方向填充子图像,获得目标图像。
基于本公开实施例示例性的图像质量确定应用场景,在样本图像的宽度方向上填充的第一方向填充子图像可以为像素值相同的图像,或者是样本图像部分或全部图像块,也可以是像素值相同的图像和样本图像部分或全部图像块。同理,第二方向填充子图像可以为像素值相同的图像,或者是样本图像部分或全部图像块,也可以时像素值相同的图像和样本图像部分或全部图像块。
示例性的,当目标图像的宽度对样本图像的宽度的向下取整结果大于或等于S,第一方向填充子图像包括S-1个第三子图像,每个第三子图像为样本图像的复制图像,S为大于或等于1的整数。样本图像的复制图像所带来的有益效果可以参考前文。
当目标图像的宽度对样本图像的宽度的取余结果为大于或等于1的整数,第一方向填充子图像包括第四子图像。同时第四子图像以及样本图像沿着样本图像的宽度方向分布。如果目标图像包括第三子图像、第四子图像和样本图像,三者沿着样本图像的宽度方向分布,至于先后顺序可以根据实际情况决定。
上述第四子图像含有的各个像素的像素值相同,像素值可以为0~255选择,有益效果可以参考前文。此处第四子图像的长度可以等于样本图像的长度,宽度等于目标图像的宽度对样本图像的宽度的取余结果。并且由于在样本图像的长边拼接第一方向填充子图像,获得扩张图像,使得该扩张图像的短边长度等于目标图像的宽度,而由于样本图像的宽边没有拼接图像,因此,原来的样本图像的长边变为扩张图像的短边。
示例性的,当目标图像的长度对样本图像的长度的向下取整结果大于或等于Q,第二方向填充子图像包括Q-1个第五子图像,第五子图像为扩张图像的复制图像,Q为大于或等于1的整数。此时,该扩张图像包含沿着样本图像的宽度方向分布的第一方向填充子图像和样本图像。扩张图像的复制图像所带来的有益效果可以选择性参考第一子图像和第二子图像的相关效果描述。
当目标图像的长度对样本图像的长度的取余结果为大于或等于1的整数,第二方向填充子图像包括第六子图像。第六子图像含有的各个像素的像素值相同。第六子图像带来的效果可以参考第二子图像的相关效果描述。同时第六子图像和样本图像沿着样本图像的宽度方向分布,如果目标图像既包括第七子图像、第二八子图像和扩张图像的复制图像,则三者沿着样本图像的宽度方向分布,至于三者之间的先后顺序可以根据实际情况决定。
另外,由于原来的样本图像的长边变为扩张图像的短边,因此,第六子图像需要在扩张图像的长边拼接,使得从扩张图像的角度来说,第一方向填充子图像与扩张图像沿着扩张图像的宽度方向分布;从样本图像的角度来说,第一方向填充子图像与样本图像沿着扩张图像的长度方向分布。由此可见,第六子图像的长度可以等于扩张图像的长度,宽度等于图像输入宽度对样本图像的宽度的取余结果。
图12示出了本公开实施例示例性的再一种目标图像的可视化生成示例图。如图12所示,假设目标图像的长度等于max(Width atim, Height atim)和目标图像的宽度min(Width atim, Height atim)均等于1152,样本图像1201的长度max(Width a ,Height a )=510,样本图像1201的宽度min(Width a ,Height a )=420。图12中XW2表示样本图像1201的宽度方向,XL2表示样本图像1201的长度方向。
如图12所示,当目标图像的宽度min(Width atim, Height atim)对样本图像1201的宽度min(Width a ,Height a )进行向下取整运算:
由于向下取整结果为2,因此,根据前文相关描述,需要在样本图像1201的宽度方向XW2上拼接1个第三子图像1202,即1个样本图像1201的复制图像,将样本图像1201和第三子图像1202构成的图像称为第一中间图像1203。第一中间图像1203的宽度方向和长度方向与样本图像的宽度方向和长度方向保持一致。当目标图像的宽度min(Width atim, Height atim)对样本图像1201的宽度min(Width a ,Height a )进行取余运算:
min(Width atim, Height atim)%min(Width a ,Height a )=1152%420=312,%为求余符号,说明需要在样本图像1201(或第一中间图像1203)的宽度方向XW2拼接312行像素,每行像素的数量与样本图像1201的长度方向XL2上的像素数量一样,即510个像素。可见,在样本图像1201的长度max(Width a ,Height a )=510,样本图像1201的宽度min(Width a ,Height a )=420的情况下,需要在样本图像1201的宽度方向XW2上拼接312×510的第四子图像1204,形成第二方向填充子图像1203。至于第四子图像1204所含有的各个像素的像素值,只要保证各个像素的像素值相等,可以随机设置为0~255之间的任何值,如128、255或42,但不仅限于此。
如图12所示,在样本图像1201的宽度方向XW2拼接第一方向填充子图像1203(第三子图像1202和第四子图像1204构成的图像)的操作完成后,可以获得扩张图像1205。该扩张图像1205的长边实质为第四子图像1204的短边(即样本图像的复制图像的短边)和第一方向填充子图像1203的短边拼接而成,其长度为1152,扩张图像1205的短边实质为第四子图像1204的长边(即样本图像的复制图像的长边),其长度为510。其中,XW3表示扩张图像1205的宽度方向,XL3表示扩张图像1205的长度方向。
如图12所示,当目标图像的长度max(Width atim, Height atim)对样本图像1201的长度max(Width a ,Height a )进行向下取整运算:
由于向下取整结果为2,因此,根据前文相关描述,需要在样本图像1201的长度方向XL2也就是扩张图像1205的宽度方向上XW3上拼接1个第五子图像1206,即1个扩张图像1205的复制图像,形成第二中间图像1207。该扩张图像1205的复制图像含有沿着样本图像1201的宽度方向XL2(或者说扩张图像的长度方向XL3)分布的样本图像1201、1个样本图像1201的复制图像(即第三子图像1202)和1个312×510的第四子图像1204。当目标图像的长度max(Width atim, Height atim)对样本图像1201的长度max(Width a ,Height a )进行取余运算:max(Width atim, Height atim)%max(Width a ,Height a )=1152%510=132,%为求余符号,说明需要在如图12所示的样本图像1201的长度方向XL2(或者说扩张图像1205的宽度方向XW3,又或者是第二中间图像的宽度方向)拼接132行像素,每行像素的数量等于扩张图像1205的长度,即1152个像素。
可见,如图12所示,在样本图像1201的长度max(Width a ,Height a )=510,样本图像1201的宽度min(Width a ,Height a )=420的情况下,在已经完成第一方向填充子图像的拼接,形成扩张图像1205的基础上,需要在扩张图像1205的宽度方向XW3上拼接第五子图像1206和1152×132的第六子图像1208构成的第二方向填充子图像,获得目标图像1209。至于第六子图像1208所含有的各个像素的像素值,只要保证各个像素的像素值相等,可以随机设置为0~255之间的任何值,如128、255或42,但不仅限于此。
二、分批训练阶段
图13示出了本公开实施例示例性的多标签分类模型的架构图。如图13所示,多标签分类模型1300可以包括第一子网络1310和第二子网络1320,第一子网络1310和第二子网络1320不同。
如图13所示,上述第一子网络1310可以作为主干网络使用,用于提取多标签数据含有的目标图像的多个特征图。该第一子网络1310可以为ResNet系列主干网络、VGG系列主干网络等。
示例性的,ResNet18主干网络为例,相比于相关ResNet18网络的架构,该ResNet18主干网络的第一卷积层Conv1的通道数小于64,如16,以减少需要更新的参数。同时,该ResNet18主干网络还包括五个残差单元,分别为第一残差单元Conv2、第二残差单元Conv2、第三残差单元Conv3、第四残差单元Conv4和第五残差单元Conv5。
相比于相关技术,第一残差单元Conv1为新增的残差单元,以使得多标签分类模型可以适应更大输入尺寸的图像质量,从而训练出泛化能力更好的多标签分类网络。第一残差单元可以包括两个残差块,每个残差块包括依次串接的两个卷积层,这两个卷积层均含有尺寸3×3,通道64的卷积核。同时,可以处理卷积核的步长,处理输出的特征图尺寸。如其中一个卷积层的步长为2,输出的特征图尺寸为输入的特征图尺寸的二分之一。至于第二残差单元Conv2、第三残差单元Conv3、第四残差单元Conv4和第五残差单元Conv5,则可以一一对应到相关ResNet18的四个残差单元。
如图13所示,上述第二子网络1320用于基于多个特征图提取每个目标图像的N种质量特征图,基于每种所述质量特征确定相应质量标签的预测值。例如:为了适应不同尺寸图像的图像质量确定,该第二子网络1320可以包括全局池化层1321、N维全连接层1322以及Sigmoid分类器1323。此时,每个质量标签的预测值为质量标签的正例概率。
如图13所示,上述全局池化层1321用于对多个特征图进行全局池化,获得多个全局特征图。此处每个特征图可以被全局池化为1×1的卷积核。而且,不管输入全局池化层1321的特征图尺寸多大,全局池化层1321可以适应性的提取这些特征图的全局池化特征。全局池化层1321的池化核至少为全局最大池化核或全局均值池化核。
如图13所示,上述全连接层的维度等于目标图像的质量标签数量的关系,每个维度的全连接层用于基于多个全局池化层1321确定相应维度的图像质量。基于此,每个维度的全连接层可以基于多个全局特征图学习到一个维度的质量特征。
在多分类问题中,可以采用Softmax函数为激活函数的Softmax分类网络,而在多标签分类中,可以以Sigmoid函数为激活函数Sigmoid分类器代替Softmax分类网络,用于N维所述图像质量转换为相应质量标签的正例概率,将全连接层输出的线性回归结果(质量特征图)进行二分类。
以640×640为网络输入时,表1示出本公开实施例示例性的多标签分类模型在不同层的输出尺寸。
表1 多标签分类模型在不同层的输出尺寸表
从表1可以看出,Conv1为一个卷积层,其卷积核尺寸为7×7,步长为2,输出的特征图的层数为16,尺寸为320×320。Max Pool为一个池化层,采用最大池化方式池化,核尺寸为7×7,步长为2,输出的特征图的层数为16,尺寸为160×160。Conv2至Conv6为五个残差单元,除了增加第一残差单元外,还对最后使用的均值池化核修改为均值池化核GAP,并限定全连接层为N维全连接层,同时使用Sigmoid激活函数代替Softmax激活函数进行多标签分类。
图14示出了本公开实施例示例性的第二残差单元的结构示意图。如图14所示,第二残差单元1400包括两个基本残差块,分别为第一基本残差块U1和第二基本残差块U2。第一基本残差块U1和第二基本残差块U2均包括第一卷积层1401和第二卷积层1402,这两个卷积层的尺寸均为1×1,通道数为32。
如图14所示,对于第一基本残差块U1来说,第一卷积层1401含有的卷积核步长为2,以缩小特征图像的尺寸,同时改变特征图的通道数量,使得尺寸160×160,维度为16的特征图(记作160×160×16)经过第一卷积层1401卷积和ReLu激活函数激活后,获得尺寸80×80,维度为32的特征图(记作80×80×32),该80×80×32的特征图经过第二卷积层1402卷积后,获得尺寸为80×80,维度为32的主干特征图(记作80×80×32主干特征图)。同时,由于输入第一基本残差块U1的特征图的尺寸和通道数量与主干特征图的尺寸和通道数量不同,因此,第一基本残差块U1还包括第三卷积层1403,第三卷积层1403的卷积核尺寸为1×1,通道数为32,步长为2。160×160×16的特征图经过分支上的第三卷积层1403卷积后,获得80×80维度为32的分支特征图(80×80×32分支特征图)。在此基础上,将80×80×32主干特征图和80×80×32分支特征图在同一维度进行加和,获得第一基本残差块U1的输出结果。
如图14所示,将第一基本残差块U1的输出结果输入第二基本残差块U2,由于第一基本残差块U1的输出结果尺寸为80×80,维度为32,因此,对于第二基本残差块U2来说,第一卷积层1401和第二卷积层1402的步长均等于1,且分支路径上,无需增加第三卷积层1403,即可获得第二基本残差块U2的输出结果。由于第二残差单元1300包括两个基本残差块,因此,第二基本残差块U2的输出结果的尺寸80×80维度为32实际为第二残差单元1300的特征图输出尺寸和维度。
如图14所示,第二残差单元1300的特征图经过表1中第三残差单元Conv3处理后,其可以输出尺寸为40×40维度为64的特征图(记作40×40×64的特征图),40×40×64的特征图经过第四残差单元Conv4处理后,其可以输出尺寸为20×20维度为128的特征图(记作20×20×128的特征图),20×20×128的特征图经过第五残差单元Conv5处理后,其可以输出尺寸为10×10维度为256的特征图(记作10×10×256的特征图),10×10×256的特征图经过第六残差单元Conv6处理后,其可以输出尺寸为5×5维度为512的特征图(记作5×5×512的特征图)。
如图表1所示,在此基础上,对5×5×512的特征图进行全局均值池化GAP,可以获得1×1×512的特征图。N维全连接FC基于1×1×512的特征图,可以获得N个表达质量特征的数值,最后利用Sigmoid分类器将每个数值转换为正例概率。最后按照反向传播算法更新权重,从而完成多标签分类模型训练。
在实际应用中,上述多标签分类模型的损失函数满足:
其中,i个一批所述多标签数据内所述目标图像的编号,n为第i个目标图像的质量标签序号,n为大于或等于0,小于或等于N-1的整数;为第i个目标图像的质量平均损失函数,为第i个目标图像的第1个质量损失函数,为第i个目标图像的第N个质量损失函数,为第i个目标图像的第n个质量损失函数,为第i个目标图像的第n个质量标签的正例概率,为第i个目标图像的第n个质量标签的属性值。
由上述多标签分类模型的损失函数可知,在一个批次的训练中,从多个多标签数据中抽取一批多标签数据作为训练集使用。假设这些多标签分数据为文本图像标注样本,向多标签分类模型输入文本图像标注样本,多标签分类模型可以确定出每个文本图像的N维质量标签,然后利用计算一个目标图像的某个质量损失,然后再将该目标图像的所有质量损失函数加和求平均,获得该目标图像的质量标签平均损失。接着将该批所有目标图像的质量标签平均损失函数求和,即可算出该批训练的目标图像的质量标签总损失量。
若质量标签总损失量小于或等于阈值T,说明质量标签总损失函数收敛,结束训练,获得多标签分类模型,否则,采用反向传播算法计算多标签分类模型的损失函数Loss对权重参数W的偏导数,利用偏导数更新参数。更新后的权重参数,其中α为超参数,可取值为0.01或0.001等。
图15示出了本公开实施例示例性的多标签分类网络的原理图。如图15所示,该多标签分类模型1500可以从3个维度(模糊、褶皱和透射)衡量目标图像质量,主干网络可以一批多标签数据1501进行学习,该批多标签数据1501的数量为五个。对于每个多标签数据,主干网络提取多标签数据含有的目标图像的特征图1502,接着对特征图进行全局池化操作,获得1×1的全局特征图1503。全连接层对全局特征图1503进行全连接处理,可以获得3个维度的图像质量1504。然后利用Sigmoid分类器将3个维度的图像质量1504转换为0~1之间的概率。
假设标签形式为{x 1,x 2, x 3},第一个多标签数据所含有的多个质量标签为{0,1,0},第二个多标签数据所含有的多个质量标签为{1,1,0},第三个多标签数据所含有的多个质量标签的属性值为{1,0,0},第四个多标签数据所含有的多个质量标签的属性值为{1,1,1},第五个多标签数据所含有的多个质量标签的属性值为{0,0,0},x 1表示模糊标签,x 2为褶皱标签,x 3为透射标签,定义正例概率大于0.5的标签为真,否则为假的情况下,第一个多标签数据所含有的目标图像的3维图像质量的正例概率为一维向量{0.21,0.78,0.94},说明该目标图像出现褶皱和透射的情况,第二个多标签数据所含有的目标图像的3维图像质量的正例概率为一维向量{0.89,0.03,0.11},说明该目标图像出现模糊的情况。第三个多标签数据所含有的目标图像的3维图像质量的正例概率为一维向量{0.74,0.89,0.08},说明该目标图像出现模糊和折皱的情况;第四个多标签数据所含有的目标图像的3维图像质量的正例概率为一维向量{0.02,0.09,0.68},说明该目标图像出现透射的情况,第五个多标签数据所含有的目标图像的3维图像质量的正例概率为一维向量{0.82,0.19,0.68},说明该目标图像出现模糊和透射的情况。
在计算损失函数时,可以先计算每个多标签数据含有的目标图像的质量平均损失,然后将两个多标签数据含有的目标图像的质量平均损失相加,确定多标签分类模型的损失量是否收敛(是否小于或等于T)。如果没有收敛(>T),则采用前文描述的反向传播算法更新权重参数W’,否则(≤T)停止训练,获得多标签分类模型。
当按照本公开实施例理性的训练方法完成多标签分类模型的训练后,所训练的多标签分类模型的各种神经元和权重矩阵等,可以保存在图1所示的数据存储系统140,供执行设备120调用。
本公开实施例示例性提供的图像质量确定方法,可以确定各种图像的图像质量,如文本图像或非文本图像,可以参考前文训练阶段的相关描述,此处不做赘述。该方法其可以应用于执行设备,也可以应用于执行设备中的芯片。该执行设备可以为图1示例性的执行设备120,也可以是集成有数据预处理和深度学习能力的处理器、服务器等。为了方便说明本公开实施例示例性图像质量确定方法,下文将在图1所示例的相关架构图的基础上,结合相关附图举例描述。应理解,下文的举例描述用于解释本公开实施例示例性的图像质量确定过程,对图像质量确定方法没有限制作用。
图16示出了本公开实施例示例性的图像质量确定方法的流程图。如图16所示,本公开实施例示例性的图像质量确定方法包括:
步骤1601:执行设备获取输入图像。此处输入图像可以由客户设备上传,也可以由数据库提供。例如:客户设备可以将已经拍摄的图像通过I/O接口上传至执行设备。又例如:执行设备可以从其它联网的数据库获取输入图像。
步骤1602:执行设备基于多标签分类模型,确定输入图像的N种图像质量。这N种图像质量的类别不同。由于该多标签分类模型可以确定N种图像质量,使得本公开实施例示例性的方法可以从多个维度分析图像质量。而且,其中,多标签分类模型在至少两批训练时的图像输入尺寸不同,使得多标签分类模型可以支持多种尺寸的图像输入,增加了多标签分类模型的泛化能力和鲁棒性,因此,本公开实施例示例性的方法可以确定多种尺寸的图像在多个维度的图像质量。
在实际应用中,第二深度处理器可以调用数据存储系统保存的神经元、权重矩阵等数据,对输入图像进行处理,获得类别不同的N种图像质量。N种图像质量可以保存在数据存储系统。如果客户设备为具有显示功能的智能设备,第二深度处理器也可以通过I/O接口将N种图像质量显示在客户设备的显示界面。不仅如此,N种图像质量和输入图像还可以作为新的多标签数据送入数据库,供重新训练多标签分类网络。
在一种可选方式中,执行设备获取输入图像后,执行设备基于多标签分类模型,确定输入图像的N种图像质量前,上述方法还包括:执行设备在输入图像的长度大于多种图像输入尺寸中的最大尺寸,执行设备对输入图像进行处理,直到处理后的输入图像的长度等于图像输入长度。处理后的输入图像的分辨率与输入图像的分辨率相同。
由上可见,本公开实施例示例性的方法可以将多标签分类网络难以处理的图像提前进行尺寸变化,以使得输入多标签分类网络的图像长度等于图像输入长度,因此,本公开实施例示例性的方法适用更大尺寸的图像质量确定。并且,对输入图像进行处理后,处理后的输入图像的分辨率与输入图像的分辨率相同,可以保证输入图像的质量损失不发生损失或者损失比较小,使得多标签分类模型确定的图像质量更为准确和全面。
在实际应用中,数据存储系统不仅可以保存神经元、权重矩阵等,还可以保存多标签分类模型分批训练的各种图像输入尺寸。当图像处理器通过I/O接口获取到输入图像后,可以调用数据存储系统多种图像输入尺寸中的最大尺寸进行比对,当输入图像的长度大于该最大尺寸,对输入图像进行处理,否则,由于多标签分类模型具有良好的泛化能力和鲁棒性,在输入图像的长度小于最大尺寸时,不对输入图像进行处理,直接执行步骤1602,从而提高图像质量的确定速度。
在图像处理器处理输入图像时,如果客户设备为具有显示功能的智能设备,在图像处理器处理输入图像时,图像处理器可以通过I/O接口将输入图像的处理过程可视化的展示在客户设备的显示界面上,使得用户清楚的了解图像处理的过程。
举例说明,当多标签分类模型在四个批次训练时的图像输入尺寸分别为:384×384、640×640、896×869以及1152×1152,如图1所示,数据存储系统140内保存有384×384、640×640、896×869以及1152×1152这四种图像输入尺寸。当图像处理器通过I/O接口获取到320×640的输入图像后,可以直接执行步骤1602;当图像处理器通过I/O接口获取到640×1310的输入图像后,可以对输入图像进行处理,再执行步骤1602。
为了尽量减少样本图像的信息丢失,可以通过裁剪、拼接等方式处理输入图像。图17示出了本公开实施例示例性的输入图像一种处理流程图。如图17所示,上述执行设备对输入图像进行处理,可以包括:
步骤1701:执行设备确定输入图像的长宽比值大于预设比值时,通过裁剪和拼接的方式处理输入图像,直到处理后的输入图像的长宽比值小于或等于预设比值,预设比值大于或等于1。
在实际应用中,图像处理器可以通过I/O接口调用数据存储系统一个图像输入尺寸进行比对,然后确定是否通过裁剪和拼接的方式处理输入图像。当步骤1701的实现方式可以参考图4中步骤401的相关描述,通过裁剪和拼接的方式处理输入图像,输入图像的语义信息发生一定的变化,但是其图像质量信息并未丢失,可以完整的被保留,从而提高后续多标签分类网络的图像质量确认准确性。
示例性的,执行设备通过裁剪和拼接的方式处理所述输入图像,包括:执行设备以输入图像的宽边延伸方向为分割线方向将样本图像分成两等分,获得两个子输入图像;以输入图像的长边延伸方向为拼接线方向将两个子输入图像拼接在一起。此处可以参考图5的试题片段剪切过程进行裁剪和拼接。
步骤1702:执行设备在处理后的输入图像的长宽比值小于或等于预设比值,处理后的输入图像的长度等于最大尺寸时,向多标签分类模型输入处理后的输入图像。在实际应用中,执行设备中的图像处理器可以通过I/O接口调用数据存储系统140内保存的最大尺寸,将处理后的输入图像的长度与最大尺寸的长度进行比对。如果输入图像的长宽比值小于或等于预设比值,但是处理后的输入图像的长度不等于最大尺寸的长度,说明采用步骤1702的方式已经无法获得可以直接输入多标签分类网络的输入图像,可以在步骤1701的基础上采用其它方法处理输入图像。如果输入图像的长宽比值小于或等于预设比值,且处理后的输入图像的长度等于图像输入长度,说明此时处理后的输入图像可输入多标签分类网络中进行N维图像质量确定。
在一种可选方式中,如果输入图像的长度大于最大尺寸,或者处理后的输入图像的长度大于最大尺寸,可以通过裁剪的方式处理输入图像。如果在此之前执行图17的相关操作,将输入图像所含有的图像质量信息尽量集中在接近正方形的区域内,使得向多标签分类模型输入图像时候,可以在最大化保留图像质量信息的前提下,裁剪输入图像,减少输入图像损失。
在实际应用中,可以参考前文样本图像大于最大尺寸的方式,确定处理后的输入图像为感兴趣子图像。例如可以裁剪出含有感兴趣子图像作为图像块。此时,将样本图像中的感兴趣区域子图像(后文称为感兴趣子图像)或者说图像质量要求比较高的区域图像从输入图像中提取出来,输入到多标签分类模型中。并且,可以在提取感兴趣子图像前,按照图17描述的方式对输入图像进行处理,以保证输入图像的图像质量尽可能集中在接近正方形的区域内,继而提高感兴趣子图像的提取率,降低因为裁剪丢弃感兴趣子图像的几率。
示例性的,若感兴趣子图像的图像梯度比较大,可以基于梯度将样本图像转化成目标图像。例如:对于试题图像来说,其中包含很多文本信息,则可以将文本子图像作为感兴趣子图像。
图18示出了本公开实施例示例性的输入图像的另一种处理流程图。如图18所示,执行设备对输入图像进行处理,包括:
步骤1801:执行设备提取输入图像的梯度图。该梯度图的提取方式可以参考前文相关描述,此处不做赘述。此处的输入图像可以为获取的输入图像,也可以是经过步骤1701处理后的输入图像。
步骤1802:执行设备基于输入图像的梯度图提取输入图像的感兴趣子图像。该输入图像含有的各个候选子图像中梯度和最大的一个。例如:对于试题片段,感兴趣子图像可以为文本图像。
在实际应用中,可以采用历框遍历输入图像的梯度图内各个像素的梯度,以获得样本图像内各个候选子图像的梯度和,然后从输入图像裁剪出梯度和最大的一个候选子图像作为感兴趣子图像。至于感兴趣子图像的尺寸与候选子图像的尺寸关系,以及每个候选子图像与遍历框的关系,可以参考步骤602的相关描述,此处不做详述。
在一种示例中,当输入图像的宽度大于或等于最大尺寸,感兴趣子图像的宽度等于最大尺寸。在实际应用中,可以参考步骤603的第一种可能尺寸的相关描述,裁剪输入图像,使得感兴趣子图像的宽度等于最大尺寸的宽度。
在另一种示例中,当输入图像的宽度小于最大尺寸,感兴趣子图像的宽度等于输入图像的宽度。在实际应用中,可以参考步骤603的第二种可能尺寸的相关描述,裁剪输入图像,使得感兴趣子图像的宽度等于输入图像的宽度。虽然感兴趣子图像的宽度等于输入图像的宽度,不等于最大尺寸的宽度,但是,由于多标签分类网络具有良好的泛化能力和鲁棒性,因此,将这种感兴趣子图像作为处理后的输入图像输入多标签分类模型中,仍然可以基于多标签分类模型确定准确度比较高的N维图像质量。
图19示出了本公开实施例示例性的N种图像质量的确定流程图。如图19所示,执行设备基于所述多标签分类模型,确定输入图像的N种图像质量,可以包括:
步骤1901:执行设备向多标签分类模型输入输入图像,获得N种所述质量标签的预测值。多标签分类模型可以由前文训练方法训练得到。该多标签分类模型的架构可以参考图13~图15的相关描述。
当多标签分类模型包括第一子网络和第二子网络,第一子网络和所述第二子网络不同,该第一子网络用于提取输入图像的多个特征图,第二子网络用于基于多个特征图提取N种质量特征图,基于每种质量特征确定相应质量标签的预测值。
示例性的,第二子网络包括全局池化层、N维全连接层以及Sigmoid分类器,所述全局池化层含有的池化核至少为全局最大池化核或全局均值池化核;此时,质量标签的预测值为质量标签的正例概率。
全局池化层用于对多个特征图进行全局池化,获得多个全局池化层;每个维度所述全连接层用于基于多个所述全局池化层确定相应维度图像质量;所述Sigmoid分类器用于N维所述图像质量转换为相应质量标签的正例概率。
步骤1902:执行设备根据N种质量标签的预测值,确定N种图像质量。例如:可以设定质量标签的预测值大于一定的预设值时,表示该质量标签为真,否则为假。该预设值可以为0.5,也可以为0.4或0.6,根据实际需要处理。
在网络教育领域,执行设备可以为云端服务器。若学员需要上传试卷图像至服务器,学员可以通过客户设备登录云端服务器,并在服务器的交互界面调用客户设备拍照功能拍摄试卷图像,将拍摄的试卷图像可以通过网络上传至服务器。服务器可以通过图像处理器对试卷图像进行预处理,然后基于多标签分类模型,获得预处理后的图像的N种图像质量。
例如,云端服务器获取到一张图像,对该图像进行预处理后,输入到多标签分类模型中。多标签分类模型的第一子网络提取处理后的图像的多个特征图,然后采用全局池化和5维全连接层依序处理多个特征图,可以获得5个图像质量,接着利用Sigmoid分类器进行归一化,得到一个输出相邻{y 1,y 2,y 3,y 4,y 5}。y 1代表图像过曝的正例概率(或者置信度),y 2代表图像过暗的正例概率(或者置信度),y 3代表图像透视的正例概率(或者置信度),y 4代表图像褶皱的正例概率(或者置信度),y 5代表图像模糊的正例概率(或者置信度)。y 1、y 2、y 3、y 4和y 5的取值范围在0~1之间。若大于0.5表示该质量标签为真,否则为假。表2示出该图像的质量确定结果。
表2图像的质量确定结果
输出维度 | 0 | 1 | 2 | 3 | 4 |
质量标签类别 | 图像过曝 | 图像过暗 | 透视 | 褶皱 | 模糊 |
质量标签属性值 | 0.01 | 0.02 | 0.98 | 0.11 | 0.99 |
图像质量 | 假 | 假 | 真 | 假 | 真 |
由表2可以看出:经过多标签分类网络确定的图像质量结果为该图像透射且模糊。
通过上述训练方法可知,在没有参考图的情况下,基于样本图像集生成多个多标签数据,且样本图像集含有的每个样本图像的分辨率与相应所述多标签数据含有的所述目标图像的分辨率相同,因此,每个多标签数据含有的目标图像保留样本图像的质量,减少图像质量损失的问题,使得基于多个多标签数据分批次训练多标签分类模型,可获得精度较高、鲁棒性较好的多标签分类模型。在分批训练所述多标签分类模型时,至少两批多标签数据包括的所述目标图像的尺寸不同,使得训练出的多标签分类模型适用于不同尺寸的图像质量预测,并且可以从多个维度全面的预测图像质量。另外,由于在多标签分类模型训练和使用过程中,无需借助场景先验知识,可以简化操作和计算复杂度,使得多标签分类模型对图像质量的识别具有较高的稳定性和鲁棒性。由此可见,本实施例示例性的方法应用在实际图像质量分析时,无需用户提前设定图像版面,也无需指定录入图像的设备,整个过程智能化,无需人工介入,所训练的多标签分类模型可以全面的分析图像质量,具有较高的鲁棒性。
上述主要从训练设备和执行设备的角度对本公开实施例提供的方案进行了介绍。可以理解的是,训练设备和执行设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例对训练设备和执行设备等进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能单元的情况下,图20示出了根据本公开示例性实施例的训练装置的功能模块示意性框图。如图20所示,该训练装置2000包括:
数据生成单元2001,用于基于样本图像集生成多个多标签数据,每个所述多标签数据包括目标图像以及所述目标图像的N种质量标签的属性值,所述样本图像集含有的每个样本图像的分辨率与相应所述多标签数据含有的所述目标图像的分辨率相同,至少两个所述多标签数据包括的目标图像的尺寸不同,N为大于或等于2的整数;
模型训练单元2002,用于基于多个所述多标签数据分批次训练多标签分类模型,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
在一种可能的实现方式中,如图20所示,上述数据生成单元2001用于确定样本图像的尺寸等于多种图像输入尺寸中的一个的情况下,在样本图像上标注N种所述质量标签值的属性值,获得多标签数据,确定样本图像的尺寸不等于所有图像输入尺寸的情况下,对所述样本图像进行处理,获得目标图像,目标图像的尺寸等于多种图像输入尺寸中的一个,在所述目标图像上标注N种所述质量标签值的属性值,获得多标签数据,更新样本图像;
在一种可选方式中,如图20所示,上述数据生成单元2001用于确定所述样本图像的长宽比值大于预设比值时,通过裁剪和拼接的方式处理所述样本图像,直到处理后的所述样本图像的长宽比值小于或等于预设比值,在处理后的样本图像的长宽比值小于或等于预设比值,处理后的样本图像的尺寸等于多种图像输入尺寸中的一个时,获得目标图像。
示例性的,如图20所示,上述数据生成单元2001用于以样本图像的宽边延伸方向为分割线方向将样本图像分成两等分,获得两个子样本图像,以样本图像的长边延伸方向为拼接线方向将两个子图像拼接在一起。
在一种可选方式中,如图20所示,当样本图像的长度大于多种图像输入尺寸中的最大尺寸,目标图像的尺寸等于最大尺寸。上述数据生成单元2001用于提取样本图像的梯度图,基于样本图像的梯度图获得感兴趣子图像,感兴趣子图像的长度等于最大尺寸,生成包含感兴趣子图像的所述目标图像。
示例性的,上述感兴趣子图像为文本子图像;或,
上述样本图像具有同样尺寸的多个候选子图像,所述感兴趣子图像为多个所述候选子图像中梯度和最大的一个。
示例性的,样本图像的宽度大于或等于图像输入宽度,感兴趣子图像的宽度等于最大尺寸。
示例性的,样本图像的宽度小于图像输入宽度,感兴趣子图像的宽度等于样本图像的宽度,目标图像还包括第一填充子图像,第一填充子图像与感兴趣子图像沿着感兴趣子图像的宽度方向分布;和/或,
如图20所示,上述数据生成单元2001用于确定感兴趣子图像的宽度小于最大尺寸的情况下,在感兴趣子图像的长边拼接第一填充子图像,获得所述目标图像。
当最大尺寸对感兴趣子图像的宽度的向下取整结果大于或等于K,第一填充子图像包括K-1个第一子图像,K为大于或等于1的整数,每个第一子图像为所述感兴趣子图像的复制图像;
当最大尺寸对感兴趣子图像的宽度的取余结果为大于或等于1的整数,所述第一填充子图像包括第二子图像,第二子图像含有的各个像素的像素值相同。
在一种可选方式中,当样本图像的长度小于或等于多种图像输入尺寸中的最大尺寸,多个图像输入尺寸具有至少一个大于样本图像的长度的目标图像输入尺寸,目标图像的尺寸为多个目标图像输入尺寸中的一个。此时,目标图像包括样本图像和第二填充子图像,第二填充子图像至少拼接在样本图像的长边的第一方向填充子图像。
如图20所示,上述数据生成单元2001用于确定感兴趣子图像的宽度小于目标图像的宽度的情况下,在样本图像的长边拼接第一方向填充子图像,获得扩张图像,确定感兴趣子图像的长度小于目标图像的长度的情况下,在所述扩张图像的长边拼接第一方向填充子图像,获得所述目标图像。
示例性的,当目标图像的宽度对样本图像的宽度的向下取整结果大于或等于S,第一方向填充子图像包括S-1个第三子图像,每个第三子图像为样本图像的复制图像,S为大于或等于1的整数;
当目标图像的宽度对样本图像的宽度的取余结果为大于或等于1的整数,所述第一方向填充子图像包括第四子图像,所述第四子图像含有的各个像素的像素值相同。
当目标图像的宽度对所述样本图像的长度的向下取整结果大于或等于Q,第二方向填充子图像包括Q-1个第五子图像,所述第五子图像为扩张图像的复制图像,所述扩张图像包括沿着样本图像的宽度方向分布的第一填充子图像和样本图像,Q为大于或等于1的整数;
当目标图像的宽度对样本图像的长度的取余结果为大于或等于1的整数,第二方向填充子图像包括第六子图像,所述第六子图像含有的各个像素的像素值相同。
在一种可能的实现方式中,所述多标签分类模型包括第一子网络和第二子网络,所述第一子网络和所述第二子网络不同;
所述第一子网络用于提取所述多标签数据含有的目标图像的多个特征图;
所述第二子网络用于基于多个所述特征图提取N种质量特征图,基于每种所述质量特征确定相应质量标签的正例概率。
在一种可选方式中,所述第二子网络包括全局池化层、N维全连接层以及Sigmoid分类器,所述全局池化层含有的池化核至少为全局最大池化核或全局均值池化核,每个所述质量标签的预测值为所述质量标签的正例概率;
所述全局池化层用于对多个特征图进行全局池化,获得多个全局池化层;
每个维度所述全连接层用于基于多个所述全局池化层确定相应维度图像质量;
所述Sigmoid分类器用于N维所述图像质量转换为相应质量标签的正例概率。
在一种可选方式中,所述多标签分类模型的损失函数满足:
其中,i个一批所述多标签数据内所述目标图像的编号,n为第i个目标图像的质量标签序号,n为大于或等于0,小于或等于N-1的整数;为第i个目标图像的质量平均损失函数,为第i个目标图像的第1个质量损失函数,为第i个目标图像的第N个质量损失函数,为第i个目标图像的第n个质量损失函数,为第i个目标图像的第n个质量标签的正例概率,为第i个目标图像的第n个质量标签的属性值。
在采用对应各个功能划分各个功能单元的情况下,图21示出了根据本公开示例性实施例的执行装置的功能模块示意性框图。如图21所示,该执行装置2100包括:
获取单元2102,用于获取输入图像;
质量确定单元2103,用于基于多标签分类模型,确定输入图像的N种图像质量。
在一种可能的实现方式中,如图21所示,上述获取单元2102用于获取输入图像后,质量确定单元2103用于所述输入图像的N种图像质量前,上述执行装置2100还包括:预处理单元2102,用于若输入图像的长度大于多种图像输入长度中的最大尺寸,对输入图像进行处理,直到处理后的输入图像的长度等于最大尺寸,处理后的输入图像的分辨率与所述输入图像的分辨率相同。
在一种可选方式中,如图21所示,上述预处理单元2102用于确定输入图像的长宽比值大于预设比值时,通过裁剪和拼接的方式处理输入图像,直到输入图像的长宽比值小于或等于预设比值,在处理后的输入图像的长宽比值小于或等于预设比值,处理后的输入图像的长度等于最大尺寸时,向所述多标签分类模型输入处理后的输入图像。
示例性的,如图21所示,上述预处理单元2102用于以输入图像的宽边延伸方向为分割线方向将样本图像分成两等分,获得两个子输入图像,以输入图像的长边延伸方向为拼接线方向将两个所述子输入图像拼接在一起。
在一种可选方式中,如图21所示,处理后的输入图像为感兴趣子图像,上述预处理单元2102用于提取输入图像的梯度图,基于输入图像的梯度图提取所述输入图像的感兴趣子图像。
示例性的,所述感兴趣子图像为文本图像;和/或,所述感兴趣子图像为所述输入图像含有的各个候选子图像中梯度和最大的一个。
示例性的,所述输入图像的宽度大于或等于最大尺寸,所述感兴趣子图像的宽度等于最大尺寸;或,
当输入图像的宽度小于最大尺寸,感兴趣子图像的宽度等于输入图像的宽度。
在一种可能的实现方式中,如图21所示,上述质量确定单元2103用于向多标签分类模型输入输入图像,获得N种所述质量标签的预测值,根据N种所述质量标签的预测值,确定N种所述图像质量;
其中,所述多标签分类模型包括第一子网络和第二子网络,所述第一子网络和所述第二子网络不同;所述第一子网络用于提取所述输入图像的多个特征图;所述第二子网络用于基于多个所述特征图提取N种质量特征图,基于每种所述质量特征确定相应质量标签的预测值。
示例性的,所述第二子网络包括全局池化层、N维全连接层以及Sigmoid分类器,所述全局池化层含有的池化核至少为全局最大池化核或全局均值池化核,每个所述质量标签的预测值为所述质量标签的正例概率;
所述全局池化层用于对多个特征图进行全局池化,获得多个全局池化层;
每个维度所述全连接层用于基于多个所述全局池化层确定相应维度图像质量;
所述Sigmoid分类器用于N维所述图像质量转换为相应质量标签的正例概率。
上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能单元的功能描述,在此不再赘述。
图22示出了根据本公开示例性实施例的芯片的示意性框图。如图22所示,该芯片2200包括一个或两个以上(包括两个)处理器2201和通信接口2202。通信接口2202可以支持服务器执行上述训练方法和和图像质量确定方法中的数据获取和发送步骤,处理器2201可以支持服务器执行上述训练方法和和图像质量确定方法中的数据处理步骤
可选的,如图22所示,该芯片还包括存储器2203,存储器2203可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
在一些实施方式中,如图22所示,处理器2201通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。处理器2201控制终端设备中任一个的处理操作,处理器还可以称为中央处理单元(central processing unit,CPU)。存储器2203可以包括只读存储器和随机存取存储器,并向处理器2201提供指令和数据。存储器2203的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图22中将各种总线都标为总线系统2204。
上述本公开实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的训练方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的图像质量确定方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的训练方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的图像质量确定方法。
参考图23,现将描述可以作为本公开的服务器或客户端的电子设备2300的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图23所示,电子设备2300包括计算单元2301,其可以根据存储在只读存储器(ROM)2302中的计算机程序或者从存储单元2308加载到随机访问存储器(RAM)2303中的计算机程序,来执行各种适当的动作和处理。在RAM 2303中,还可存储设备800操作所需的各种程序和数据。计算单元2301、ROM 2302以及RAM 2303通过总线2304彼此相连。输入/输出(I/O)接口2305也连接至总线2304。
如图23所示,电子设备2300中的多个部件连接至I/O接口2305,包括:输入单元2306、输出单元2307、存储单元2308以及通信单元2309。输入单元2306可以是能向电子设备800输入信息的任何类型的设备,输入单元2306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元2307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元2304可以包括但不限于磁盘、光盘。通信单元2309允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
如图23所示,计算单元2301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元2301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元2301执行上文所描述的各个方法和处理。例如,在一些实施例中,训练方法和/或图像质量确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元2308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 2302和/或通信单元2309而被载入和/或安装到电子设备2300上。在一些实施例中,计算单元2301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法训练方法和/或图像质量确定方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
尽管结合具体特征及其实施例对本公开进行了描述,显而易见的,在不脱离本公开的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明,且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包括这些改动和变型在内。
Claims (27)
1.一种训练方法,其特征在于,包括:
基于样本图像集生成多个多标签数据,每个所述多标签数据包括目标图像以及所述目标图像的N种质量标签的属性值,所述样本图像集含有的每个样本图像的分辨率与相应所述多标签数据含有的所述目标图像的分辨率相同,至少两个所述多标签数据包括的目标图像的尺寸不同,N为大于或等于2的整数;
基于多个所述多标签数据分批次训练多标签分类模型,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
2.根据权利要求1所述的方法,其特征在于,所述基于样本图像集生成多个多标签数据,包括:
确定所述样本图像的尺寸等于多种所述图像输入尺寸中的一个的情况下,在所述样本图像上标注N种所述质量标签值的属性值,获得多标签数据;
确定所述样本图像的尺寸不等于所有所述图像输入尺寸的情况下,对所述样本图像进行处理,获得所述目标图像,所述目标图像的尺寸等于多种所述图像输入尺寸中的一个;
在所述目标图像上标注N种所述质量标签值的属性值,获得多标签数据;
更新所述样本图像。
3.根据权利要求2所述的方法,其特征在于,所述对所述样本图像进行处理,获得所述目标图像,包括:
确定所述样本图像的长宽比值大于预设比值时,通过裁剪和拼接的方式处理所述样本图像,直到处理后的所述样本图像的长宽比值小于或等于预设比值;
在处理后的所述样本图像的长宽比值小于或等于预设比值,处理后的所述样本图像的尺寸等于多种所述图像输入尺寸中的一个时,获得所述目标图像。
4.根据权利要求3所述的方法,其特征在于,所述通过裁剪和拼接的方式处理所述样本图像,包括:
以所述样本图像的宽边延伸方向为分割线方向将样本图像分成两等分,获得两个子样本图像;
以所述样本图像的长边延伸方向为拼接线方向将两个所述子样本图像拼接在一起。
5.根据权利要求2~4任一项所述的方法,其特征在于,当所述样本图像的长度大于多种所述图像输入尺寸中的最大尺寸,所述目标图像的尺寸等于所述最大尺寸;
所述对所述样本图像进行处理,获得所述目标图像,包括:
提取所述样本图像的梯度图;
基于所述样本图像的梯度图获得感兴趣子图像,所述感兴趣子图像的长度等于所述最大尺寸;
生成包含所述感兴趣子图像的所述目标图像。
6.根据权利要求5所述的方法,其特征在于,所述感兴趣子图像为文本子图像;和/或,
所述样本图像具有同样尺寸的多个候选子图像,所述感兴趣子图像为多个所述候选子图像中梯度和最大的一个。
7.根据权利要求5所述的方法,其特征在于,当所述样本图像的宽度大于或等于所述最大尺寸,所述感兴趣子图像的宽度等于所述最大尺寸。
8.根据权利要求5所述的方法,其特征在于,所述样本图像的宽度小于所述最大尺寸,所述目标图像还包括第一填充子图像,所述第一填充子图像与所述感兴趣子图像沿着所述感兴趣子图像的宽度方向分布;和/或,
所述生成包含所述感兴趣子图像的所述目标图像,包括:
确定所述感兴趣子图像的宽度小于所述最大尺寸的情况下,在所述感兴趣子图像的长边拼接第一填充子图像,获得所述目标图像。
9.根据权利要求8所述的方法,其特征在于,当所述最大尺寸对所述感兴趣子图像的宽度的向下取整结果大于或等于K,所述第一填充子图像包括K-1个第一子图像,K为大于或等于1的整数,每个所述第一子图像为所述感兴趣子图像的复制图像;
当所述最大尺寸对所述感兴趣子图像的宽度的取余结果为大于或等于1的整数,所述第一填充子图像包括第二子图像,所述第二子图像含有的各个像素的像素值相同。
10.根据权利要求2~4任一项所述的方法,其特征在于,当所述样本图像的长度小于或等于多种所述图像输入尺寸中的最大尺寸,多个所述图像输入尺寸具有至少一个大于或等于所述样本图像的长度的目标图像输入尺寸,所述目标图像的尺寸为多个所述目标图像输入尺寸中的一个,所述目标图像包括样本图像和第二填充子图像,所述第二填充子图像至少包括拼接在所述样本图像的长边的第一方向填充子图像;
所述对所述样本图像进行处理,获得所述目标图像,包括:
确定所述样本图像的宽度小于所述目标图像的宽度的情况下,在所述样本图像的长边拼接第一方向填充子图像,获得扩张图像;
确定所述样本图像的长度小于所述目标图像的长度的情况下,在所述扩张图像的长边拼接第二方向填充子图像,获得所述目标图像。
11.根据权利要求10所述的方法,其特征在于,当所述目标图像的宽度对所述样本图像的宽度的向下取整结果大于或等于S,所述第二填充子图像包括S-1个第三子图像,每个所述第三子图像为所述样本图像的复制图像,S为大于或等于1的整数;
当所述目标图像的宽度对所述样本图像的宽度的取余结果为大于或等于1的整数,所述第二填充子图像包括第四子图像,所述第四子图像含有的各个像素的像素值相同;
当所述目标图像的长度对所述样本图像的长度的向下取整结果大于或等于Q,所述第一方向填充子图像包括Q-1个第五子图像,所述第五子图像为所述扩张图像的复制图像,所述扩张图像包括沿着所述样本图像的宽度方向分布的所述第二填充子图像和所述样本图像,Q为大于或等于1的整数;
当所述目标图像的长度对所述样本图像的长度的取余结果为大于或等于1的整数,所述第一方向填充子图像包括第六子图像,所述第六子图像含有的各个像素的像素值相同。
12.根据权利要求1~4任一项所述的方法,其特征在于,所述多标签分类模型包括第一子网络和第二子网络,所述第一子网络和所述第二子网络不同;
所述第一子网络用于提取所述多标签数据含有的目标图像的多个特征图;
所述第二子网络用于基于多个所述特征图提取N种质量特征图,基于每种所述质量特征确定相应质量标签的预测值。
13.根据权利要求12所述的方法,其特征在于,所述第二子网络包括全局池化层、N维全连接层以及Sigmoid分类器,所述全局池化层含有的池化核至少为全局最大池化核或全局均值池化核,每个所述质量标签的预测值为所述质量标签的正例概率;
所述全局池化层用于对多个特征图进行全局池化,获得多个全局池化层;
每个维度所述全连接层用于基于多个所述全局池化层确定相应维度图像质量;
所述Sigmoid分类器用于N维所述图像质量转换为相应质量标签的正例概率。
15.一种图像质量确定方法,其特征在于,包括:
获取输入图像;
基于多标签分类模型,确定所述输入图像的N种图像质量;
其中,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
16.根据权利要求15所述的方法,其特征在于,所述获取输入图像后,所述基于所述多标签分类模型,确定所述输入图像的N种图像质量前,所述方法还包括:
若所述输入图像的长度大于多种所述图像输入尺寸中的最大尺寸,对所述输入图像进行处理,直到处理后的输入图像的长度等于所述最大尺寸,处理后的所述输入图像的分辨率与所述输入图像的分辨率相同。
17.根据权利要求16所述的方法,其特征在于,所述对所述输入图像进行处理,包括:
确定所述输入图像的长宽比值大于预设比值时,通过裁剪和拼接的方式处理所述输入图像,直到所述输入图像的长宽比值小于或等于预设比值,所述预设比值大于或等于1;
在处理后的所述输入图像的长宽比值小于或等于预设比值,处理后的所述输入图像的长度等于所述最大尺寸时,向所述多标签分类模型输入处理后的所述输入图像。
18.根据权利要求17所述的方法,其特征在于,所述通过裁剪和拼接的方式处理所述输入图像,包括:
以所述输入图像的宽边延伸方向为分割线方向将样本图像分成两等分,获得两个子输入图像;
以所述输入图像的长边延伸方向为拼接线方向将两个所述子输入图像拼接在一起。
19.根据权利要求16~18任一项所述的方法,其特征在于,处理后的所述输入图像为感兴趣子图像,所述对所述输入图像进行处理,包括:
提取所述输入图像的梯度图;
基于所述输入图像的梯度图提取所述输入图像的感兴趣子图像。
20.根据权利要求19所述的方法,其特征在于,所述感兴趣子图像为文本图像;和/或,所述感兴趣子图像为所述输入图像含有的各个候选子图像中梯度和最大的一个。
21.根据权利要求19所述的方法,其特征在于,当所述输入图像的宽度大于或等于所述最大尺寸,所述感兴趣子图像的宽度等于所述最大尺寸;或,
当所述输入图像的宽度小于所述最大尺寸,所述感兴趣子图像的宽度等于所述输入图像的宽度。
22.根据权利要求15~18任一项所述的方法,其特征在于,所述基于所述多标签分类模型,确定所述输入图像的N种图像质量,包括:
向所述多标签分类模型输入所述输入图像,获得N种所述质量标签的预测值;
根据N种所述质量标签的预测值,确定N种所述图像质量;
其中,所述多标签分类模型包括第一子网络和第二子网络,所述第一子网络和所述第二子网络不同;
所述第一子网络用于提取所述输入图像的多个特征图;
所述第二子网络用于基于多个所述特征图提取N种质量特征图,基于每种所述质量特征确定相应质量标签的预测值。
23.根据权利要求22所述的方法,其特征在于,所述第二子网络包括全局池化层、N维全连接层以及Sigmoid分类器,所述全局池化层含有的池化核至少为全局最大池化核或全局均值池化核,每个所述质量标签的预测值为所述质量标签的正例概率;
所述全局池化层用于对多个特征图进行全局池化,获得多个全局池化层;
每个维度所述全连接层用于基于多个所述全局池化层确定相应维度图像质量;
所述Sigmoid分类器用于N维所述图像质量转换为相应质量标签的正例概率。
24.一种训练装置,其特征在于,包括:
数据生成单元,用于基于样本图像集生成多个多标签数据,每个所述多标签数据包括目标图像以及所述目标图像的N种质量标签的属性值,所述样本图像集含有的每个样本图像的分辨率与相应所述多标签数据含有的所述目标图像的分辨率相同,至少两个所述多标签数据包括的目标图像的尺寸不同,各种所述质量标签所指示的质量类别不同,N为大于或等于2的整数;
模型训练单元,用于基于多个所述多标签数据分批次训练多标签分类模型,所述多标签分类模型在至少两批训练时的图像输入尺寸不同。
25.一种图像质量确定装置,其特征在于,包括:
获取单元,用于获取输入图像;
质量分析单元,用于基于多标签分类模型,确定所述输入图像的N种图像质量。
26.一种电子设备,其特征在于,包括:
处理器;以及,
存储程序的存储器;
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行权利要求1~14中任一项所述的方法或权利要求15~23中任一项所述的方法。
27.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1~14中任一项所述的方法或权利要求15~23中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854194.1A CN113592807B (zh) | 2021-07-28 | 2021-07-28 | 一种训练方法、图像质量确定方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854194.1A CN113592807B (zh) | 2021-07-28 | 2021-07-28 | 一种训练方法、图像质量确定方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592807A true CN113592807A (zh) | 2021-11-02 |
CN113592807B CN113592807B (zh) | 2024-04-09 |
Family
ID=78250848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110854194.1A Active CN113592807B (zh) | 2021-07-28 | 2021-07-28 | 一种训练方法、图像质量确定方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592807B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387168A (zh) * | 2022-01-17 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 图像处理方法、相关设备、存储介质及程序产品 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411711A (zh) * | 2012-01-04 | 2012-04-11 | 山东大学 | 一种基于个性化权重的手指静脉识别方法 |
CN102663393A (zh) * | 2012-03-02 | 2012-09-12 | 哈尔滨工程大学 | 基于旋转校正的手指静脉图像感兴趣区域提取方法 |
JP2013201534A (ja) * | 2012-03-23 | 2013-10-03 | Fuji Xerox Co Ltd | 画像形成装置及びプログラム |
CN103942560A (zh) * | 2014-01-24 | 2014-07-23 | 北京理工大学 | 一种智能交通监控系统中的高分辨率视频车辆检测方法 |
US20170046615A1 (en) * | 2015-08-13 | 2017-02-16 | Lyrical Labs Video Compression Technology, LLC | Object categorization using statistically-modeled classifier outputs |
CN108960087A (zh) * | 2018-06-20 | 2018-12-07 | 中国科学院重庆绿色智能技术研究院 | 一种基于多维度评估标准的人脸图像质量评估方法及系统 |
CN109285149A (zh) * | 2018-09-04 | 2019-01-29 | 杭州比智科技有限公司 | 人脸图像质量的评估方法、装置及计算设备 |
CN109978918A (zh) * | 2019-03-21 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种轨迹追踪方法、装置和存储介质 |
CN110717895A (zh) * | 2019-09-24 | 2020-01-21 | 南京理工大学 | 基于置信分数的无参考图像质量评价方法 |
CN110826558A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 图像分类方法、计算机设备和存储介质 |
CN111353533A (zh) * | 2020-02-26 | 2020-06-30 | 南京理工大学 | 基于多任务学习的无参考图像质量评价方法及系统 |
US20200211186A1 (en) * | 2018-12-28 | 2020-07-02 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for generating image metric |
CN111612741A (zh) * | 2020-04-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于失真识别的精确无参考图像质量评价方法 |
CN111724370A (zh) * | 2020-06-19 | 2020-09-29 | 福州大学 | 一种基于不确定性和概率的多任务无参考图像质量评估方法及系统 |
CN111739003A (zh) * | 2020-06-18 | 2020-10-02 | 上海电器科学研究所(集团)有限公司 | 一种用于外观检测的机器视觉算法 |
CN112508856A (zh) * | 2020-11-16 | 2021-03-16 | 北京理工大学 | 一种混合失真图像的失真类型检测方法 |
CN112614119A (zh) * | 2020-12-28 | 2021-04-06 | 上海市精神卫生中心(上海市心理咨询培训中心) | 医学图像感兴趣区域可视化方法、装置、存储介质和设备 |
CN112950581A (zh) * | 2021-02-25 | 2021-06-11 | 北京金山云网络技术有限公司 | 质量评估方法、装置和电子设备 |
US11058390B1 (en) * | 2018-02-23 | 2021-07-13 | Robert Edwin Douglas | Image processing via a modified segmented structure |
-
2021
- 2021-07-28 CN CN202110854194.1A patent/CN113592807B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411711A (zh) * | 2012-01-04 | 2012-04-11 | 山东大学 | 一种基于个性化权重的手指静脉识别方法 |
CN102663393A (zh) * | 2012-03-02 | 2012-09-12 | 哈尔滨工程大学 | 基于旋转校正的手指静脉图像感兴趣区域提取方法 |
JP2013201534A (ja) * | 2012-03-23 | 2013-10-03 | Fuji Xerox Co Ltd | 画像形成装置及びプログラム |
CN103942560A (zh) * | 2014-01-24 | 2014-07-23 | 北京理工大学 | 一种智能交通监控系统中的高分辨率视频车辆检测方法 |
US20170046615A1 (en) * | 2015-08-13 | 2017-02-16 | Lyrical Labs Video Compression Technology, LLC | Object categorization using statistically-modeled classifier outputs |
US11058390B1 (en) * | 2018-02-23 | 2021-07-13 | Robert Edwin Douglas | Image processing via a modified segmented structure |
CN108960087A (zh) * | 2018-06-20 | 2018-12-07 | 中国科学院重庆绿色智能技术研究院 | 一种基于多维度评估标准的人脸图像质量评估方法及系统 |
CN109285149A (zh) * | 2018-09-04 | 2019-01-29 | 杭州比智科技有限公司 | 人脸图像质量的评估方法、装置及计算设备 |
US20200211186A1 (en) * | 2018-12-28 | 2020-07-02 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for generating image metric |
CN109978918A (zh) * | 2019-03-21 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种轨迹追踪方法、装置和存储介质 |
CN110717895A (zh) * | 2019-09-24 | 2020-01-21 | 南京理工大学 | 基于置信分数的无参考图像质量评价方法 |
CN110826558A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 图像分类方法、计算机设备和存储介质 |
CN111353533A (zh) * | 2020-02-26 | 2020-06-30 | 南京理工大学 | 基于多任务学习的无参考图像质量评价方法及系统 |
CN111612741A (zh) * | 2020-04-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于失真识别的精确无参考图像质量评价方法 |
CN111739003A (zh) * | 2020-06-18 | 2020-10-02 | 上海电器科学研究所(集团)有限公司 | 一种用于外观检测的机器视觉算法 |
CN111724370A (zh) * | 2020-06-19 | 2020-09-29 | 福州大学 | 一种基于不确定性和概率的多任务无参考图像质量评估方法及系统 |
CN112508856A (zh) * | 2020-11-16 | 2021-03-16 | 北京理工大学 | 一种混合失真图像的失真类型检测方法 |
CN112614119A (zh) * | 2020-12-28 | 2021-04-06 | 上海市精神卫生中心(上海市心理咨询培训中心) | 医学图像感兴趣区域可视化方法、装置、存储介质和设备 |
CN112950581A (zh) * | 2021-02-25 | 2021-06-11 | 北京金山云网络技术有限公司 | 质量评估方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
CUNJIAN CHEN 等: "Automatic Facial Makeup Detection with Application in Face Recognition", 《IEEE》, 31 December 2013 (2013-12-31) * |
赵泓博 等: "基于CT双期增强影像组学预测甲状腺乳头状癌淋巴结转移", 《放射学实》, 30 April 2021 (2021-04-30) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387168A (zh) * | 2022-01-17 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 图像处理方法、相关设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113592807B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210407076A1 (en) | Multi-sample Whole Slide Image Processing in Digital Pathology via Multi-resolution Registration and Machine Learning | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
US9501724B1 (en) | Font recognition and font similarity learning using a deep neural network | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
US20180336683A1 (en) | Multi-Label Semantic Boundary Detection System | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN112308866B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
US11915465B2 (en) | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks | |
CN110874618A (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN113902913A (zh) | 图片语义分割方法及装置 | |
CN111292334B (zh) | 一种全景图像分割方法、装置及电子设备 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN110969641A (zh) | 图像处理方法和装置 | |
CN115080038A (zh) | 图层处理方法、模型生成方法及设备 | |
CN113792623B (zh) | 安检ct目标物识别方法和装置 | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
CN113592807B (zh) | 一种训练方法、图像质量确定方法及装置、电子设备 | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN114155540B (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 | |
CN110610177A (zh) | 字符识别模型的训练方法、字符识别方法及装置 | |
CN114266901A (zh) | 文档轮廓提取模型构建方法、装置、设备及可读存储介质 | |
KR20190093752A (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |