CN113066024A - 图像模糊检测模型的训练方法、图像模糊检测方法及装置 - Google Patents
图像模糊检测模型的训练方法、图像模糊检测方法及装置 Download PDFInfo
- Publication number
- CN113066024A CN113066024A CN202110297735.5A CN202110297735A CN113066024A CN 113066024 A CN113066024 A CN 113066024A CN 202110297735 A CN202110297735 A CN 202110297735A CN 113066024 A CN113066024 A CN 113066024A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- mask
- detection model
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 408
- 238000001514 detection method Methods 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000011176 pooling Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 24
- 230000003321 amplification Effects 0.000 claims description 20
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000003416 augmentation Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
- G06T5/75—Unsharp masking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开关于一种图像模糊检测模型的训练方法、图像模糊检测方法及装置。该图像模糊检测模型的训练方法包括:获取训练图像集,其中,训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数;获取训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜;将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数;基于所述估计模糊分数和所述训练图像标注的真实模糊分数确定所述图像模糊检测模型的损失函数;根据所述损失函数调整所述图像模糊检测模型的参数,对所述图像模糊检测模型进行训练。
Description
技术领域
本公开涉及图像处理领域,尤其涉及一种图像模糊检测模型的训练方法、图像模糊检测方法及装置。
背景技术
模糊是一种非常普遍的视频图像失真类型,具体表现为画面中边缘纹理不清晰,严重影响视频图像用户的观赏体验。研究客观高效的模糊检测方法能够自动化检测视频图像的模糊程度,在生产阶段,可以辅助生产者生成高质量的视频图像内容,在消费阶段,可以帮助过滤低质视频内容或者对低质视频内容进行增强,从而在整体上保证了最终用户的观赏体验。
目前,相关模糊检测技术多适用于一次生产的图像,一次生成的图像即未处理过的图像,如通过摄像机拍摄的原始图片,但是,在短视频领域,用户大多会对一次生产的图像内容做二次生产,比如增加一些文字描述、增加一些背景特效等,如图1所示,这些文字和背景特效会严重干扰相关模糊检测技术对二次生产的图像的模糊程度的判断,甚至会导致完全无法准确检测二次生成的图像的模糊程度。
发明内容
本公开提供一种图像模糊检测模型的训练方法、图像模糊检测方法及装置,以至少解决相关技术中的模糊检测技术检测二次生成的图像的模糊程度不准确的问题。
根据本公开实施例的第一方面,提供一种图像模糊检测模型的训练方法,包括:获取训练图像集,其中,训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数;根据训练图像集中的训练图像获取训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,其中,清晰度掩膜表示训练图像的清晰程度,文字区域掩膜表示训练图像中文字区域的位置,主要内容区域掩膜表示训练图像中主要内容区域的位置;将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数;基于估计模糊分数和训练图像标注的真实模糊分数确定图像模糊检测模型的损失函数;根据损失函数调整图像模糊检测模型的参数,对图像模糊检测模型进行训练。
可选地,基于估计模糊分数和训练图像标注的真实模糊分数确定图像模糊检测模型的损失函数包括:获取估计模糊分数和训练图像标注的真实模糊分数的均方误差;将均方误差确定为图像模糊检测模型的损失函数。
可选地,图像模糊检测模型包括第一特征提取层、第二特征提取层、池化层与回归层;其中,将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数包括:将训练图像输入第一特征提取层,获取训练图像的第一特征,其中,所述第一特征提取层为所述图像模糊检测模型的前预定个数的卷积层;将第一特征与训练图像的清晰度掩膜、训练图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入第二特征提取层,获取训练图像的第二特征,其中,所述第二特征提取层为所述图像模糊检测模型的前预定个数的卷积层和所述池化层之间的卷积层;将第二特征与训练图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入池化层和回归层,得到训练图像的估计模糊分数。
可选地,将处理后的第二特征输入池化层和回归层,得到训练图像的估计模糊分数包括:将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为训练图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到训练图像的估计模糊分数。
可选地,获取训练图像的清晰度掩膜包括:将训练图像集中的训练图像输入训练后的清晰度掩膜生成模型,获取训练图像的清晰度掩膜。
可选地,清晰度掩膜生成模型通过如下方式进行训练:将训练图像集中的训练图像输入清晰度掩膜生成模型,得到训练图像的预估清晰度掩膜;基于训练图像标注的清晰区域和预估清晰度掩膜调整清晰度掩膜生成模型的参数,对清晰度掩膜生成模型进行训练。
可选地,获取训练图像的文字区域掩膜包括:将训练图像集中的训练图像输入训练后的文字区域掩膜生成模型,获取训练图像的文字区域掩膜。
可选地,文字区域掩膜生成模型通过如下方式进行训练:将训练图像集中的训练图像输入文字区域掩膜生成模型,得到训练图像的预估文字区域掩膜;基于训练图像标注的文字区域和预估文字区域掩膜调整文字区域掩膜生成模型的参数,对文字区域掩膜生成模型进行训练。
可选地,获取训练图像的主要内容区域掩膜包括:将训练图像集中的训练图像输入训练后的主要内容区域掩膜生成模型,获取训练图像的主要内容区域掩膜。
可选地,主要内容区域掩膜生成模型通过如下方式进行训练:将训练图像集中的训练图像输入主要内容区域掩膜生成模型,得到训练图像的预估主要内容区域掩膜;基于训练图像标注的主要内容区域和预估主要内容区域掩膜调整主要内容区域掩膜生成模型的参数,对主要内容区域掩膜生成模型进行训练。
可选地,在获取训练图像集之后,还包括:对训练图像集进行增广处理,得到最终的训练图像集。
根据本公开实施例的第二方面,提供了一种图像模糊检测方法,包括:获取待检测图像;根据待检测图像获取待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜;将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到待检测图像的模糊分数。
可选地,将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到待检测图像的模糊分数包括:将待检测图像输入图像模糊检测模型的第一特征提取层,获取待检测图像的第一特征,其中,所述第一特征提取层为所述图像模糊检测模型的前预定个数的卷积层;将第一特征与待检测图像的清晰度掩膜、待检测图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入图像模糊检测模型的第二特征提取层,获取待检测图像的第二特征,其中,所述第二特征提取层为所述图像模糊检测模型的前预定个数的卷积层和所述池化层之间的卷积层;将第二特征与待检测图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入图像模糊检测模型的池化层和回归层,得到待检测图像的模糊分数。
可选地,将处理后的第二特征输入图像模糊检测模型的池化层和回归层,得到待检测图像的模糊分数包括:将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为待检测图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到待检测图像的模糊分数。
可选地,根据待检测图像获取待检测图像的清晰度掩膜包括:将待检测图像输入训练后的清晰度掩膜生成模型,获取待检测图像的清晰度掩膜。
可选地,根据待检测图像获取待检测图像的文字区域掩膜包括:将待检测图像输入训练后的文字区域掩膜生成模型,获取待检测图像的文字区域掩膜。
可选地,根据待检测图像获取待检测图像的主要内容区域掩膜包括:将待检测图像输入训练后的主要内容区域掩膜生成模型,获取待检测图像的主要内容区域掩膜。
可选地,上述图像模糊检测模型为根据如上述任一实施例所述的训练方法训练得到的模型。
根据本公开实施例的第三方面,提供一种图像模糊检测模型的训练装置,包括:第一获取单元,用于获取训练图像集,其中,训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数;第二获取单元,用于根据训练图像集中的训练图像获取训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,其中,清晰度掩膜表示训练图像的清晰程度,文字区域掩膜表示训练图像中文字区域的位置,主要内容区域掩膜表示训练图像中主要内容区域的位置;预估单元,用于将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数;确定单元,用于基于估计模糊分数和训练图像标注的真实模糊分数确定图像模糊检测模型的损失函数;训练单元,用于根据损失函数调整图像模糊检测模型的参数,对图像模糊检测模型进行训练。
可选地,确定单元,还用于获取估计模糊分数和训练图像标注的真实模糊分数的均方误差;将均方误差确定为图像模糊检测模型的损失函数。
可选地,图像模糊检测模型包括第一特征提取层、第二特征提取层、池化层与回归层;其中,预估单元,还用于将训练图像输入第一特征提取层,获取训练图像的第一特征,其中,所述第一特征提取层为所述图像模糊检测模型的前预定个数的卷积层;将第一特征与训练图像的清晰度掩膜、训练图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入第二特征提取层,获取训练图像的第二特征,其中,所述第二特征提取层为所述图像模糊检测模型的前预定个数的卷积层和所述池化层之间的卷积层;将第二特征与训练图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入池化层和回归层,得到训练图像的估计模糊分数。
可选地,预估单元,还用于将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为训练图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到训练图像的估计模糊分数。
可选地,第二获取单元,还用于将训练图像集中的训练图像输入训练后的清晰度掩膜生成模型,获取训练图像的清晰度掩膜。
可选地,第二获取单元,还用于通过如下方式对清晰度掩膜生成模型进行训练:将训练图像集中的训练图像输入清晰度掩膜生成模型,得到训练图像的预估清晰度掩膜;基于训练图像标注的清晰区域和预估清晰度掩膜调整清晰度掩膜生成模型的参数,对清晰度掩膜生成模型进行训练。
可选地,第二获取单元,还用于将训练图像集中的训练图像输入训练后的文字区域掩膜生成模型,获取训练图像的文字区域掩膜。
可选地,第二获取单元,还用于通过如下方式对文字区域掩膜生成模型进行训练:将训练图像集中的训练图像输入,得到训练图像的预估文字区域掩膜;基于训练图像标注的文字区域和预估文字区域掩膜调整文字区域掩膜生成模型的参数,对文字区域掩膜生成模型进行训练。
可选地,第二获取单元,还用于将训练图像集中的训练图像输入训练后的主要内容区域掩膜生成模型,获取训练图像的主要内容区域掩膜。
可选地,第二获取单元,还用于通过如下方式对主要内容区域掩膜生成模型进行训练:将训练图像集中的训练图像输入主要内容区域掩膜生成模型,得到训练图像的预估主要内容区域掩膜;基于训练图像标注的主要内容区域和预估主要内容区域掩膜调整主要内容区域掩膜生成模型的参数,对主要内容区域掩膜生成模型进行训练。
可选地,第一获取单元,还用于获取训练图像集之后,对训练图像集进行增广处理,得到最终的训练图像集。
根据本公开实施例的第四方面,提供了图像模糊检测装置,包括:第一获取单元,用于获取待检测图像;第二获取单元,用于根据待检测图像获取待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜;预估单元,用于将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到待检测图像的模糊分数。
可选地,预估单元,还用于将待检测图像输入图像模糊检测模型的第一特征提取层,获取待检测图像的第一特征;将第一特征与待检测图像的清晰度掩膜、待检测图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入图像模糊检测模型的第二特征提取层,获取待检测图像的第二特征;将第二特征与待检测图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入图像模糊检测模型的池化层和回归层,得到待检测图像的模糊分数。
可选地,预估单元,还用于将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为待检测图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到待检测图像的模糊分数。
可选地,第二获取单元,还用于将待检测图像输入训练后的清晰度掩膜生成模型,获取待检测图像的清晰度掩膜。
可选地,第二获取单元,还用于将待检测图像输入训练后的文字区域掩膜生成模型,获取待检测图像的文字区域掩膜。
可选地,第二获取单元,还用于将待检测图像输入训练后的主要内容区域掩膜生成模型,获取待检测图像的主要内容区域掩膜。
可选地,上述图像模糊检测模型为根据如上述任一实施例所述的训练方法训练得到的模型。
根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的图像模糊检测模型的训练方法或图像模糊检测方法。
根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的图像模糊检测模型的训练方法或图像模糊检测方法。
根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的图像模糊检测模型的训练方法或图像模糊检测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的图像模糊检测模型的训练方法、图像模糊检测方法及装置,采用训练图像的清晰度掩膜、文字区域掩膜以及主要内容区域掩膜对图像模糊检测模型进行训练,得到训练好的图像模糊检测模型,使得训练好图像模糊检测模型不仅能够准确检测一次生产的图像的模糊程度,对于短视频中出现的二次生产的图像的模糊程度也能够准确检测,从而可以有效用于指导去模糊等后处理算法是否开启或将模糊程度作为推荐系统的主要特征,以便给短视频用户推荐更多高质量内容,保证用户观赏体验。因此,本公开解决了相关技术中的模糊检测技术检测二次生成的图像的模糊程度不准确的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是相关技术中二次生成的图像的示意图;
图2是示出根据本公开的示例性实施例的图像模糊检测模型的训练方法以及图像模糊检测方法的实施场景示意图;
图3是根据一示例性实施例示出的一种图像模糊检测模型的训练方法的流程图;
图4是根据一示例性实施例示出的一种图像模糊检测方法的流程图;
图5是根据一示例性实施例示出的一种图像模糊检测方法的优选流程示意图;
图6是根据一示例性实施例示出的一种清晰度掩膜效果图;
图7是根据一示例性实施例示出的一种主要内容区域掩膜效果图;
图8是根据一示例性实施例示出的一种图像模糊检测模型的训练装置的框图;
图9是根据一示例性实施例示出的一种图像模糊检测装置的框图;
图10是根据本公开实施例的一种电子设备1000的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
现在大多数图像拍摄用户没有专业的摄影技能,所以在拍摄时很容易产生聚焦不准或者相机频繁抖动,导致拍摄的图像内容存在各种各样的模糊失真,严重影响视觉体验,相关模糊检测技术可以检测出此类一次生成的图像的模糊程度,方便后续对图像的处理。但是,在短视频领域,用户大多会对一次生产的图像内容做二次生产,比如增加一些文字描述、增加一些背景特效等,这些文字和背景特效会严重干扰相关模糊检测技术对二次生产的图像的模糊程度的判断,甚至会导致完全无法准确检测二次生成的图像的模糊程度。
本公开提供了一种图像模糊检测模型的训练方法和基于训练好的图像模糊检测模型的图像模糊检测方法,可以准确的检测一次生成的图像和二次生成的图像的模糊程度,图2是示出根据本公开的示例性实施例的图像模糊检测模型的训练方法以及图像模糊检测方法的实施场景示意图,如图2所述,该实施场景包括服务器200、用户终端210和用户终端220,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装获取一次生成的图像的摄像头,同时,用户终端还可以安装用于对一次生成的图像进行二次生成的应用软件,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。
服务器200接收到对图像模糊检测模型进行训练的请求之后,统计从用户终端210、220历史接收到的图像并对统计的图像进行标注,从而将标注后的图像合并在一起作为训练图像集,其中,训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数,服务器200在获取到训练图像集后,根据训练图像集中的训练图像获取训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,然后将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到相关图像模糊检测模型中,获取估计模糊分数,进而基于估计模糊分数和训练图像标注的真实模糊分数确定所述图像模糊检测模型的损失函数,并根据损失函数调整图像模糊检测模型的参数,实现对图像模糊检测模型的训练。该训练好的图像模糊检测模型不仅能够准确检测一次生产的图像的模糊程度,对于短视频中出现的二次生产的图像的模糊程度也能够准确检测。需要说明的是,上述清晰度掩膜表示训练图像的清晰程度,文字区域掩膜表示训练图像中文字区域的位置,主要内容区域掩膜表示训练图像中主要内容区域的位置。
用户终端210、220通过摄像头以及应用软件获取待检测图像并向服务器200发送该待检测图像,服务器200接收到该待检测图像后,对待检测图像进行处理获取待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,然后,将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入到上面训练得到的图像模糊检测模型,得到待检测图像的模糊分数,使得可以根据检测到的模糊分数确定是否对待检测图像进行去模糊等后处理算法以及是否将待检测图片推荐给用户,从而,根据检测到模糊分数可以给短视频用户精准推荐更多高质量内容,保证用户观赏体验。
下面,将参照图3至图9详细描述根据本公开的示例性实施例的图像模糊检测模型的训练方法、图像模糊检测方法及装置。
图3是根据一示例性实施例示出的一种图像模糊检测模型的训练方法的流程图,如图3所示,图像模糊检测模型的训练方法包括以下步骤:
在步骤S301中,获取训练图像集,其中,训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数。
具体地,获取的训练图像集中不仅包括多个训练图像,还包括每个训练图像标注的真实模糊分数,其中,真实模糊分数可以根据训练图像预先标注。获取训练图像和对训练图像标注环节可以通过如下方式实现:从线上平台(如线上短视频平台)中获取大量训练图像,以满足训练图像模糊检测模型对训练图像数量的要求,这部分训练图像覆盖不同模糊程度、不同内容类型,以保证图像模糊检测模型能够学习到准确的与模糊有关的特征,保证图像模糊检测模型的泛化能力。对于模糊等级打分,例如,但不限于,可以如表1所示将数据分为五个等级,同时邀请多人打分从而保证数据的准确性。
表1模糊等级表
模糊等级 | 判定标准 |
1 | 基本没有模糊,清晰 |
2 | 存在轻微局部模糊,不影响观感 |
3 | 有部分模糊,但可以无障碍识别画面内容 |
4 | 大面积模糊、炫光,画面识别困难 |
5 | 无法识别画面内容 |
需要说明的是,在对训练图像标注环节还可以包括:清晰区域划分、文字区域划分、主要内容区域划分。对于清晰区域划分,标注人员需要将图像中的清晰区域标注出来。同理,对于文字区域划分和主要内容区域划分,标注人员需要将图像中的文字和主要内容部分标注出来。
根据本公开的示例性实施例,在获取训练图像集之后,还可以对训练图像集进行增广处理,得到最终的训练图像集。图像增广(image augmentation)技术即通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。例如,可以使用随机取块以及随机水平翻转的方式对训练图像集中的训练图像进行增广,也可以使用随机水平翻转以及色彩变换的方式对训练图像集中的训练图像进行增广,还可以单独使用随机水平翻转的方式对训练图像集中的训练图像进行增广。通过本实施例,对训练图像集进行增广处理,保证训练图像集尽可能的多样化,使得训练的模型具有更强的泛化能力。
返回图3,在步骤S302中,获取训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,其中,清晰度掩膜表示训练图像的清晰程度,文字区域掩膜表示训练图像中文字区域的位置,主要内容区域掩膜表示训练图像中主要内容区域的位置。
根据本公开的示例性实施例,获取训练图像的清晰度掩膜可以通过如下方式实现:将训练图像集中的训练图像输入训练后的清晰度掩膜生成模型,获取训练图像的清晰度掩膜。通过训练好的清晰度掩膜生成模型,可以获取到更准确的清晰度掩膜。
根据本公开的示例性实施例,清晰度掩膜生成模型通过如下方式进行训练:将训练图像集中的训练图像输入清晰度掩膜生成模型,得到训练图像的预估清晰度掩膜;基于训练图像标注的清晰区域和预估清晰度掩膜调整清晰度掩膜生成模型的参数,对清晰度掩膜生成模型进行训练。上述最初始的清晰度掩膜生成模型可以采用原生UNet网络进行训练,需要说明的是,这里不限于UNet网络,也可以是SegNet网络,还可以是其他适用的网络。通过该实施例,实现对清晰度掩膜生成模型的训练,从而可以获取到更准确的清晰度掩膜。
例如,上述清晰度掩膜生成模型可以是以三通道(RGB色彩图)的训练图像作为输入,以对应的训练图像的清晰度掩膜作为输出。在训练之前,可以先使用随机取块以及随机水平翻转的方式对训练图像集进行增广,在训练过程中,采用随机梯度下降法对清晰度掩膜生成模型参数进行优化,学习速率可以为1e-3,并且每隔10次进行一次迭代,即一个训练周期,学习速率衰减10%。对上述参数进行优化的损失函数可以设置为BCELoss,以便高效的计算训练图像的每个像素的分类正确情况。训练好的清晰度掩膜生成模型会输出清晰度掩膜,该清晰度掩膜表示训练图像的清晰程度,也即对输入的训练图像中每个像素是否是清晰区域的概率估计,其值越大说明越清晰,该输出可以作为后面用到的图像模糊检测模型中第一特征的权重。
根据本公开的示例性实施例,获取训练图像的文字区域掩膜可以通过如下方式实现:将训练图像集中的训练图像输入训练后的文字区域掩膜生成模型,获取训练图像的文字区域掩膜。通过训练好的文字区域掩膜生成模型,可以获取到更准确的文字区域掩膜。
根据本公开的示例性实施例,文字区域掩膜生成模型通过如下方式进行训练:将训练图像集中的训练图像输入文字区域掩膜生成模型,得到训练图像的预估文字区域掩膜;基于训练图像标注的文字区域和预估文字区域掩膜调整文字区域掩膜生成模型的参数,对文字区域掩膜生成模型进行训练。上述最初始的文字区域掩膜生成模型的整体结构可以采用CenterMask网络,使用VoVNet网络作为特征提取骨干网络,原始的CenterMask网络在特征提取阶段只提取了3-5层的特征,但考虑到文字区域有时候面积比较大,本实施例可以提取3-7层的特征。需要说明的是,这里不限于CenterMask网络,也可以是Mask RCN网络,还可以是其他适用的网络。通过该实施例,实现对文字区域掩膜生成模型的训练,从而可以获取到更准确的文字区域掩膜。
例如,上述文字区域掩膜生成模型可以是以三通道的训练图像作为输入,以对应的训练图像的文字区域掩膜作为输出,需要说明的是,该输出还可以包括其他信息,如文字区域坐标,由于本公开仅用到文字区域掩膜,故在表述中只提到文字区域掩膜。在训练之前,可以使用随机水平翻转以及色彩变换的方式对训练图像增广,在训练过程中,可以采用随机梯度下降法对文字区域掩膜生成模型参数进行优化,学习速率可以为5e-4。对于输出为文字区域掩膜时,对上述参数进行优化的损失函数可以使用BCELoss计算训练图像的每个像素的分类正确情况。训练好的文字区域掩膜生成模型会输出对应的文字区域掩膜,文字区域掩膜为二值图像,0表示文字区域,文字区域掩膜表示训练图像中文字区域的位置。对于输出为文字区域坐标时,对上述参数进行优化的损失函数可以使用L1Loss进行回归,训练好的模型会输出文字区域的坐标。
根据本公开的示例性实施例,获取训练图像的主要内容区域掩膜可以通过如下方式实现:将训练图像集中的训练图像输入训练后的主要内容区域掩膜生成模型,获取训练图像的主要内容区域掩膜。通过训练好的主要内容区域掩膜生成模型,可以获取到更准确的主要内容区域掩膜。
根据本公开的示例性实施例,主要内容区域掩膜生成模型通过如下方式进行训练:将训练图像集中的训练图像输入主要内容区域掩膜生成模型,得到训练图像的预估主要内容区域掩膜;基于训练图像标注的主要内容区域和预估主要内容区域掩膜调整主要内容区域掩膜生成模型的参数,对主要内容区域掩膜生成模型进行训练。上述最初始的主要内容区域掩膜生成模型可以以ResNet18作为骨干网络,修改网络输出为4个维度,分别对应图像中主要内容区域在图像上下左右四个方向上的位置。需要说明的是,这里不限于ResNet18网络,还可以是其他适用的网络。通过该实施例,实现对主要内容区域掩膜生成模型的训练,从而可以获取到更准确的主要内容区域掩膜。
例如,上述主要内容区域掩膜生成模型可以是以三通道的训练图像作为输入,以对应的训练图像的主要内容区域掩膜作为输出。需要说明的是,该输出还可以包括其他信息,如主要内容区域坐标,由于本公开仅用到主要内容区域掩膜,故在表述中只提到主要内容区域掩膜。在训练之前,可以使用随机水平翻转的方式对训练图像进行增广,在训练过程中,可以采用随机梯度下降法对主要内容区域掩膜生成模型的参数进行优化,其学习速率可以为1e-4,对上述参数进行优化的损失函数可以采用L1Loss。训练好的模型能够输出主要内容区域掩膜,主要内容区域掩膜表示训练图像中主要内容区域的在原图像中的位置。
在步骤S303中,将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数。上述图像模糊检测模型可以采用Inception V3网络结构,也可以采用其他适用的网络结构。
根据本公开的示例性实施例,图像模糊检测模型包括第一特征提取层、第二特征提取层、池化层与回归层;其中,将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数可以通过如下方式实现:将训练图像输入第一特征提取层,获取训练图像的第一特征,其中,所述第一特征提取层为所述图像模糊检测模型的前预定个数的卷积层;将第一特征与训练图像的清晰度掩膜、训练图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入第二特征提取层,获取训练图像的第二特征,其中,所述第二特征提取层为所述图像模糊检测模型的前预定个数的卷积层和所述池化层之间的卷积层;将第二特征与训练图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入池化层和回归层,得到训练图像的估计模糊分数。本实施例中第一特征提取层可以是Inception V3网络的前三层卷积层,第一特征可以是Inception V3网络的前三层卷积层对训练图像处理所提取的特征,因为前几层卷积处理的感受野很小,提取的是局部区域的特征,涉及不到全图或者目标主体,因此可能比较初级,其中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小;第二特征提取层可以是Inception V3网络的后面的卷积层,第二特征可以是Inception V3网络的后面的卷积层对训练图像处理直至进行池化前所提取的特征。通过本实施例,经过清晰度掩膜的作用,使得对图像进行模糊检测时,可以针对性的对训练的图像清晰部分、模糊部分进行检测,而经过文字区域掩膜的作用,使得对图形进行模糊检测时去除文字对最终结果的干扰,再经过主要内容区域掩膜的作用,使得对图像进行模糊检测时对非主要内容区域进行过滤,进一步保证检测的准确性。
例如,在图像模糊检测模型采用Inception V3网络结构时,可以将三通道的训练图像以及通过上述训练的掩膜生成模型获取的三种掩膜(清晰度掩膜、文字区域掩膜和主要内容区域掩膜)作为输入,以用于估计训练图像的模糊程度的估计模糊分数作为输出。对于输入的训练图像,Inception V3网络的第一特征提取层(也可以称为初级特征提取部分)提取与模糊有关的第一特征(也可以称为初级特征),在提取处理之后,将提取的第一特征与清晰度掩膜、文字区域掩膜相乘。对于输入的训练图像,清晰度掩膜可以得到表示训练图像清晰程度的清晰度图,将该清晰度掩膜作为第一特征的权重可以突显训练图像中的清晰部分和模糊部分,而对于训练图像的文字区域相对清晰,人的主观认知会重视图像部分,忽略文字部分,文字区域掩膜则可以表示训练图像中的文字区域的位置,将第一特征与文字区域掩膜相乘,则会去除文字对图像模糊检测最终结果的干扰。随后,Inception V3网络继续对处理后的第一特征进行前向传递,直到全局平均池化之前,提取到输入的训练图像的第二特征(也可以称为高级特征)。由于具有模糊背景的清晰图像,如果用全图的第二特征进行全局平均池化或者最大池化,模糊区域的第二特征会干扰整体信息。因此,本实施例中Inception V3网络将主要内容区域掩膜与第二特征相乘,从而对非主要内容区域信息进行过滤,随后对处理后的第二特征进行全局平均池化和回归处理,得到训练图像的估计模糊分数。
经过上述实施例的处理,即与三个掩膜相乘后,非主要内容区域的第二特征全部置零,均值处理后的第二特征会变得比期望值更小,因此,本公开可以对均值处理后的特征乘上一个放大因子,该因子的大小可以为主要内容区域掩膜中整体面积与主要内容区域的比值。根据本公开的示例性实施例,将处理后的第二特征输入池化层和回归层,得到训练图像的估计模糊分数可以通过如下方式实现:将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为训练图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到训练图像的估计模糊分数。
在步骤S304中,基于估计模糊分数和所述训练图像标注的真实模糊分数确定图像模糊检测模型的损失函数。例如,上述损失函数可以是估计模糊分数和训练图像标注的真实模糊分数的均方误差,也可以是地动距离损失EMDLoss。
根据本公开的示例性实施例,当损失函数采用均方误差时,基于估计模糊分数和训练图像标注的真实模糊分数确定图像模糊检测模型的损失函数可以通过如下方式实现:获取估计模糊分数和训练图像标注的真实模糊分数的均方误差;将均方误差确定为图像模糊检测模型的损失函数。
在步骤S304中,根据损失函数调整图像模糊检测模型的参数,对图像模糊检测模型进行训练。例如,当损失函数采用均方误差时,可以通过调整调整图像模糊检测模型的参数使均方误差最小,对图像模糊检测模型进行训练,最终将最小均方误差对应的参数确定为图像模糊检测模型的参数。
图4是根据一示例性实施例示出的一种图像模糊检测方法的流程图,如图4所示,图像模糊检测方法包括以下步骤:
在步骤S401中,获取待检测图像。
例如,在本步骤中,待检测图像可以时通过用户终端的摄像头拍摄得到一次生成的图像,也可以时通过用户终端上的应用程序二次生成的图像。
在步骤S402中,获取待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜。
根据本公开的示例性实施例,获取待检测图像的清晰度掩膜可以通过如下方式实现:将待检测图像输入训练后的清晰度掩膜生成模型,获取待检测图像的清晰度掩膜。例如,可以将三通道的待检测图像输入到训练好的清晰度掩膜生成模型,其输出的即待检测图像的清晰度掩膜,对于清晰度掩膜生成模型的训练过程上面已经详细论述,此处不再展开论述。
根据本公开的示例性实施例,获取待检测图像的文字区域掩膜可以通过如下方式实现:将待检测图像输入训练后的文字区域掩膜生成模型,获取待检测图像的文字区域掩膜。例如,可以将三通道的待检测图像输入到训练好的文字区域掩膜生成模型,其输出的即待检测图像的文字区域掩膜,对于文字区域掩膜生成模型的训练过程上面已经详细论述,此处不再展开论述。
根据本公开的示例性实施例,获取待检测图像的主要内容区域掩膜可以通过如下方式实现:将待检测图像输入训练后的主要内容区域掩膜生成模型,获取待检测图像的主要内容区域掩膜。例如,可以将三通道的待检测图像输入到训练好的主要内容区域掩膜生成模型,其输出的即待检测图像的主要内容区域掩膜,对于主要内容区域掩膜生成模型的训练过程上面已经详细论述,此处不再展开论述。
在步骤S403中,将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到待检测图像的模糊分数。上述图像模糊检测模型为根据如上述任一实施例所述的训练方法训练得到的模型,对于图像模糊检测模型的训练过程上面已经详细论述,此处不再展开论述。
根据本公开的示例性实施例,将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到待检测图像的模糊分数包括:将待检测图像输入图像模糊检测模型的第一特征提取层,获取待检测图像的第一特征,其中,所述第一特征提取层为所述图像模糊检测模型的前预定个数的卷积层;将第一特征与待检测图像的清晰度掩膜、待检测图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入图像模糊检测模型的第二特征提取层,获取待检测图像的第二特征,其中,所述第二特征提取层为所述图像模糊检测模型的前预定个数的卷积层和所述池化层之间的卷积层;将第二特征与待检测图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入图像模糊检测模型的池化层和回归层,得到待检测图像的模糊分数。通过本实施例,经过清晰度掩膜的作用,使得对图像进行模糊检测时,可以针对性的对待检测图像的清晰部分、模糊部分进行检测,而经过文字区域掩膜的作用,使得对图形进行模糊检测时去除文字对最终结果的干扰,再经过主要内容区域掩膜的作用,使得对图像进行模糊检测时对非主要内容区域进行过滤,进一步保证检测的准确性。
例如,图5是根据一示例性实施例示出的一种图像模糊检测方法的优选流程示意图,如图5所示,上述步骤中可以将三通道的待检测图像以及通过上述训练的掩膜生成模型获取的三种掩膜(清晰度掩膜、文字区域掩膜和主要内容区域掩膜)作为输入,以用于估计待检测图像的模糊程度的估计模糊分数作为输出。如图6所示,对于输入的待检测图像,图像模糊检测模型的第一特征提取层(也可以称为初级特征提取部分)提取与模糊有关的第一特征(也可以称为初级特征),在提取处理之后,将提取的第一特征与清晰度掩膜、文字区域掩膜相乘。对于输入的待检测图像,清晰度掩膜可以得到表示待检测图像清晰程度的清晰度图,将该清晰度掩膜作为第一特征的权重可以突显待检测图像中的清晰部分和模糊部分,而对于待检测图像的文字区域相对清晰,人的主观认知会重视图像部分,忽略文字部分,文字区域掩膜则可以表示待检测图像中的文字区域的位置,将第一特征与文字区域掩膜相乘,则会去除文字对图像模糊检测最终结果的干扰。随后,图像模糊检测模型继续对处理后的第一特征进行前向传递,直到全局平均池化之前,提取到输入的待检测图像的第二特征(也可以称为高级特征)。如图7所示,由于具有模糊背景的清晰图像,如果用全图的第二特征进行全局平均池化或者最大池化,模糊区域的第二特征会干扰整体信息,因此,本实施例中图像模糊检测模型将主要内容区域掩膜与第二特征相乘,从而对非主要内容区域信息进行过滤。随后对处理后的第二特征进行全局平均池化和回归处理,得到待检测图像的估计模糊分数。
经过上述实施例的处理,即与三个掩膜相乘后,非主要内容区域的第二特征全部置零,均值处理后的第二特征会变得比期望值更小,因此,本公开可以对均值处理后的特征乘上一个放大因子,该因子的大小可以为主要内容区域掩膜中整体面积与主要内容区域的比值。根据本公开的示例性实施例,将处理后的第二特征输入图像模糊检测模型的池化层和回归层,得到待检测图像的模糊分数包括:将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为待检测图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到待检测图像的模糊分数。
综上,本公开使用深度学习技术,利用大量不同模糊程度的训练图像使图像模糊检测模型能够有效提取输入图像的模糊特征。在此基础上,本公开使用三种掩膜——清晰度掩膜、文字区域掩膜、主要内容区域掩膜,对图像模糊检测模型提取的特征做强化以及过滤处理,清晰度掩膜可以突出图像中的清晰区域与模糊区域,文字区域掩膜可以过滤掉用户后期添加的文字,主要内容区域掩膜则可以过滤主要内容区域以外的信息,三种掩膜的共同作用,使得该技术能够有效检测图像特别是二次生产的图像的模糊程度。
为了验证上述实施例中的方法的有效性,本公开在构建的分类测试集上对比了使用与不使用掩膜的方法的分类效果。测试集共分为两部分,第一部分为一次生产的图像集,无文字、背景特效等二次生产内容;第二部分为二次生产的图像集,包含了后期添加的文字以及各类背景。测试指标为峰值准召率,F1分数越高说明模型的准召性能更高。从表2可以看出,对于一次生产的图像集,上述实施例中的检测方法能够保持同样的准召性能,而对于二次生产的图像集,上述实施例中的检测方法能够取得6%左右的性能提升,说明在预测这类复杂类型图像时具有更好的性能表现。
表2验证结果
图8是根据一示例性实施例示出的一种图像模糊检测模型的训练装置的框图。参照图8,该装置包括第一获取单元80,第二获取单元82、预估单元84、确定单元86和训练单元88。
第一获取单元80,用于获取训练图像集,其中,训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数;
第二获取单元82,用于根据训练图像集中的训练图像获取训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,其中,清晰度掩膜表示训练图像的清晰程度,文字区域掩膜表示训练图像中文字区域的位置,主要内容区域掩膜表示训练图像中主要内容区域的位置;
预估单元84,用于将训练图像、训练图像的清晰度掩膜、训练图像的文字区域掩膜和训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数;
确定单元86,用于基于估计模糊分数和训练图像标注的真实模糊分数确定图像模糊检测模型的损失函数;
训练单元88,用于根据所述损失函数调整所述图像模糊检测模型的参数,对所述图像模糊检测模型进行训练。
根据本公开的示例性实施例,确定单元86,还用于获取估计模糊分数和训练图像标注的真实模糊分数的均方误差;将均方误差确定为图像模糊检测模型的损失函数。
根据本公开的示例性实施例,图像模糊检测模型包括第一特征提取层、第二特征提取层、池化层与回归层;其中,预估单元84,还用于将训练图像输入第一特征提取层,获取训练图像的第一特征;将第一特征与训练图像的清晰度掩膜、训练图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入第二特征提取层,获取训练图像的第二特征;将第二特征与训练图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入池化层和回归层,得到训练图像的估计模糊分数。
根据本公开的示例性实施例,预估单元84,还用于将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为训练图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到训练图像的估计模糊分数。
根据本公开的示例性实施例,第二获取单元82,还用于将训练图像集中的训练图像输入训练后的清晰度掩膜生成模型,获取训练图像的清晰度掩膜。
根据本公开的示例性实施例,第二获取单元82,还用于通过如下方式对清晰度掩膜生成模型进行训练:将训练图像集中的训练图像输入清晰度掩膜生成模型,得到训练图像的预估清晰度掩膜;基于训练图像标注的清晰区域和预估清晰度掩膜调整清晰度掩膜生成模型的参数,对清晰度掩膜生成模型进行训练。
根据本公开的示例性实施例,第二获取单元82,还用于将训练图像集中的训练图像输入训练后的文字区域掩膜生成模型,获取训练图像的文字区域掩膜。
根据本公开的示例性实施例,第二获取单元82,还用于通过如下方式对文字区域掩膜生成模型进行训练:将训练图像集中的训练图像输入,得到训练图像的预估文字区域掩膜;基于训练图像标注的文字区域和预估文字区域掩膜调整文字区域掩膜生成模型的参数,对文字区域掩膜生成模型进行训练。
根据本公开的示例性实施例,第二获取单元82,还用于将训练图像集中的训练图像输入训练后的主要内容区域掩膜生成模型,获取训练图像的主要内容区域掩膜。
根据本公开的示例性实施例,第二获取单元82,还用于通过如下方式对主要内容区域掩膜生成模型进行训练:将训练图像集中的训练图像输入主要内容区域掩膜生成模型,得到训练图像的预估主要内容区域掩膜;基于训练图像标注的主要内容区域和预估主要内容区域掩膜调整主要内容区域掩膜生成模型的参数,对主要内容区域掩膜生成模型进行训练。
根据本公开的示例性实施例,第一获取单元80,还用于获取训练图像集之后,对训练图像集进行增广处理,得到最终的训练图像集。
图9是根据一示例性实施例示出的一种图像模糊检测装置的框图。参照图9,该装置包括第一获取单元90,第二获取单元92和预估单元94。
第一获取单元90,用于获取待检测图像;
第二获取单元92,用于根据待检测图像获取待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜;
预估单元94,用于将待检测图像、待检测图像的清晰度掩膜、待检测图像的文字区域掩膜和待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到待检测图像的模糊分数。上述图像模糊检测模型为根据如上述任一实施例所述的训练方法训练得到的模型,对于图像模糊检测模型的训练过程上面已经详细论述,此处不再展开论述。
根据本公开的示例性实施例,预估单元94,还用于将待检测图像输入图像模糊检测模型的第一特征提取层,获取待检测图像的第一特征;将第一特征与待检测图像的清晰度掩膜、待检测图像的文字区域掩膜相乘,获得处理后的第一特征;将处理后的第一特征输入图像模糊检测模型的第二特征提取层,获取待检测图像的第二特征;将第二特征与待检测图像的主要内容区域掩膜相乘,获取处理后的第二特征;将处理后的第二特征输入图像模糊检测模型的池化层和回归层,得到待检测图像的模糊分数。
根据本公开的示例性实施例,预估单元94,还用于将处理后的第二特征输入池化层进行全局平均池化,得到第三特征;将第三特征与放大因子相乘,获取第四特征,其中,放大因子为待检测图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;将第四特征输入回归层进行回归处理,得到待检测图像的模糊分数。
根据本公开的示例性实施例,第二获取单元92,还用于将待检测图像输入训练后的清晰度掩膜生成模型,获取待检测图像的清晰度掩膜。
根据本公开的示例性实施例,第二获取单元92,还用于将待检测图像输入训练后的文字区域掩膜生成模型,获取待检测图像的文字区域掩膜。
根据本公开的示例性实施例,第二获取单元92,还用于将待检测图像输入训练后的主要内容区域掩膜生成模型,获取待检测图像的主要内容区域掩膜。
根据本公开的实施例,可提供一种电子设备。图10是根据本公开实施例的一种电子设备1000的框图,该电子设备包括至少一个存储器1001和至少一个处理器1002,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的图像模糊检测模型的训练方法和图像模糊检测方法。
作为示例,电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1000中,处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器1002还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1002可运行存储在存储器中的指令或代码,其中,存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1001可与处理器1002集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1002可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1002能够读取存储在存储器1001中的文件。
此外,电子设备1000还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的图像模糊检测模型的训练方法和图像模糊检测方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的图像模糊检测模型的训练方法和图像模糊检测方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种图像模糊检测模型的训练方法,其特征在于,包括:
获取训练图像集,其中,所述训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数;
获取所述训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,其中,所述清晰度掩膜表示所述训练图像的清晰程度,所述文字区域掩膜表示所述训练图像中文字区域的位置,所述主要内容区域掩膜表示所述训练图像中主要内容区域的位置;
将所述训练图像、所述训练图像的清晰度掩膜、所述训练图像的文字区域掩膜和所述训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数;
基于所述估计模糊分数和所述训练图像标注的真实模糊分数确定所述图像模糊检测模型的损失函数;
根据所述损失函数调整所述图像模糊检测模型的参数,对所述图像模糊检测模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述基于所述估计模糊分数和所述训练图像标注的真实模糊分数确定所述图像模糊检测模型的损失函数包括:
获取所述估计模糊分数和所述训练图像标注的真实模糊分数的均方误差;
将所述均方误差确定为所述图像模糊检测模型的损失函数。
3.如权利要求1所述的训练方法,其特征在于,所述图像模糊检测模型包括第一特征提取层、第二特征提取层、池化层与回归层;
其中,所述将所述训练图像、所述训练图像的清晰度掩膜、所述训练图像的文字区域掩膜和所述训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数包括:
将训练图像输入所述第一特征提取层,获取所述训练图像的第一特征,其中,所述第一特征提取层为所述图像模糊检测模型的前预定个数的卷积层;
将所述第一特征与所述训练图像的清晰度掩膜、所述训练图像的文字区域掩膜相乘,获得处理后的第一特征;
将处理后的第一特征输入所述第二特征提取层,获取所述训练图像的第二特征,其中,所述第二特征提取层为所述图像模糊检测模型的前预定个数的卷积层和所述池化层之间的卷积层;
将所述第二特征与所述训练图像的主要内容区域掩膜相乘,获取处理后的第二特征;
将处理后的第二特征输入所述池化层和所述回归层,得到所述训练图像的估计模糊分数。
4.如权利要求3所述的训练方法,其特征在于,所述将处理后的第二特征输入所述池化层和所述回归层,得到所述训练图像的估计模糊分数包括:
将处理后的第二特征输入所述池化层进行全局平均池化,得到第三特征;
将第三特征与放大因子相乘,获取第四特征,其中,所述放大因子为所述训练图像的主要内容区域掩膜中图像的整体面积与主要内容区域面积的比值;
将所述第四特征输入所述回归层进行回归处理,得到所述训练图像的估计模糊分数。
5.一种图像模糊检测方法,其特征在于,包括:
获取待检测图像;
获取所述待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜;
将所述待检测图像、所述待检测图像的清晰度掩膜、所述待检测图像的文字区域掩膜和所述待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到所述待检测图像的模糊分数。
6.一种图像模糊检测模型的训练装置,其特征在于,包括:
第一获取单元,用于获取训练图像集,其中,所述训练图像集包括多个训练图像、每个训练图像标注的真实模糊分数;
第二获取单元,用于获取所述训练图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜,其中,所述清晰度掩膜表示所述训练图像的清晰程度,所述文字区域掩膜表示所述训练图像中文字区域的位置,所述主要内容区域掩膜表示所述训练图像中主要内容区域的位置;
预估单元,用于将所述训练图像、所述训练图像的清晰度掩膜、所述训练图像的文字区域掩膜和所述训练图像的主要内容区域掩膜输入到图像模糊检测模型中,获取估计模糊分数;
确定单元,用于基于所述估计模糊分数和所述训练图像标注的真实模糊分数确定所述图像模糊检测模型的损失函数;
训练单元,用于根据所述损失函数调整所述图像模糊检测模型的参数,对所述图像模糊检测模型进行训练。
7.一种图像模糊检测装置,其特征在于,包括:
第一获取单元,用于获取待检测图像;
第二获取单元,用于根据所述待检测图像获取所述待检测图像的清晰度掩膜、文字区域掩膜和主要内容区域掩膜;
预估单元,用于将所述待检测图像、所述待检测图像的清晰度掩膜、所述待检测图像的文字区域掩膜和所述待检测图像的主要内容区域掩膜输入图像模糊检测模型,得到所述待检测图像的模糊分数。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的图像模糊检测模型的训练方法或如权利要求5所述的图像模糊检测方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至4中任一项所述的图像模糊检测模型的训练方法或如权利要求5所述的图像模糊检测方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至4中任一项所述的图像模糊检测模型的训练方法或如权利要5所述的图像模糊检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297735.5A CN113066024B (zh) | 2021-03-19 | 2021-03-19 | 图像模糊检测模型的训练方法、图像模糊检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297735.5A CN113066024B (zh) | 2021-03-19 | 2021-03-19 | 图像模糊检测模型的训练方法、图像模糊检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113066024A true CN113066024A (zh) | 2021-07-02 |
CN113066024B CN113066024B (zh) | 2023-03-10 |
Family
ID=76562528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110297735.5A Active CN113066024B (zh) | 2021-03-19 | 2021-03-19 | 图像模糊检测模型的训练方法、图像模糊检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066024B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486858A (zh) * | 2021-08-03 | 2021-10-08 | 济南博观智能科技有限公司 | 一种人脸识别模型训练方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020145106A1 (en) * | 2001-04-09 | 2002-10-10 | Xiangrong Chen | Image blur detection methods and arrangements |
US20060008147A1 (en) * | 2004-05-21 | 2006-01-12 | Samsung Electronics Co., Ltd. | Apparatus, medium, and method for extracting character(s) from an image |
US20110150337A1 (en) * | 2009-12-17 | 2011-06-23 | National Tsing Hua University | Method and system for automatic figure segmentation |
CN104268861A (zh) * | 2014-09-18 | 2015-01-07 | 福州北卡信息科技有限公司 | 人工模糊图像边缘的盲检测方法 |
CN104462111A (zh) * | 2013-09-17 | 2015-03-25 | 成都理想境界科技有限公司 | 图像检索数据库建立方法 |
CN108846814A (zh) * | 2018-06-11 | 2018-11-20 | 广州视源电子科技股份有限公司 | 图像处理方法、装置、可读存储介质及计算机设备 |
CN110930363A (zh) * | 2019-10-29 | 2020-03-27 | 北京临近空间飞行器系统工程研究所 | 曲面模糊图像清晰度评价值确定方法、设备及存储介质 |
CN111091526A (zh) * | 2018-10-23 | 2020-05-01 | 广州弘度信息科技有限公司 | 一种视频模糊的检测方法和系统 |
CN111462270A (zh) * | 2020-04-07 | 2020-07-28 | 广州柏视医疗科技有限公司 | 一种基于新型冠状病毒肺炎ct检测的重建系统及方法 |
CN111462076A (zh) * | 2020-03-31 | 2020-07-28 | 湖南国科智瞳科技有限公司 | 一种全切片数字病理图像模糊区域检测方法及系统 |
CN112017163A (zh) * | 2020-08-17 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 图像模糊度检测的方法、装置、电子设备及存储介质 |
CN112288699A (zh) * | 2020-10-23 | 2021-01-29 | 北京百度网讯科技有限公司 | 图像相对清晰度的评估方法、装置、设备和介质 |
CN112329522A (zh) * | 2020-09-24 | 2021-02-05 | 上海品览数据科技有限公司 | 一种基于深度学习和图像处理的货架商品模糊检测方法 |
CN112367518A (zh) * | 2020-10-30 | 2021-02-12 | 福州大学 | 一种输电线路无人机巡检图像质量评价方法 |
-
2021
- 2021-03-19 CN CN202110297735.5A patent/CN113066024B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020145106A1 (en) * | 2001-04-09 | 2002-10-10 | Xiangrong Chen | Image blur detection methods and arrangements |
US20060008147A1 (en) * | 2004-05-21 | 2006-01-12 | Samsung Electronics Co., Ltd. | Apparatus, medium, and method for extracting character(s) from an image |
US20110150337A1 (en) * | 2009-12-17 | 2011-06-23 | National Tsing Hua University | Method and system for automatic figure segmentation |
CN104462111A (zh) * | 2013-09-17 | 2015-03-25 | 成都理想境界科技有限公司 | 图像检索数据库建立方法 |
CN104268861A (zh) * | 2014-09-18 | 2015-01-07 | 福州北卡信息科技有限公司 | 人工模糊图像边缘的盲检测方法 |
CN108846814A (zh) * | 2018-06-11 | 2018-11-20 | 广州视源电子科技股份有限公司 | 图像处理方法、装置、可读存储介质及计算机设备 |
CN111091526A (zh) * | 2018-10-23 | 2020-05-01 | 广州弘度信息科技有限公司 | 一种视频模糊的检测方法和系统 |
CN110930363A (zh) * | 2019-10-29 | 2020-03-27 | 北京临近空间飞行器系统工程研究所 | 曲面模糊图像清晰度评价值确定方法、设备及存储介质 |
CN111462076A (zh) * | 2020-03-31 | 2020-07-28 | 湖南国科智瞳科技有限公司 | 一种全切片数字病理图像模糊区域检测方法及系统 |
CN111462270A (zh) * | 2020-04-07 | 2020-07-28 | 广州柏视医疗科技有限公司 | 一种基于新型冠状病毒肺炎ct检测的重建系统及方法 |
CN112017163A (zh) * | 2020-08-17 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 图像模糊度检测的方法、装置、电子设备及存储介质 |
CN112329522A (zh) * | 2020-09-24 | 2021-02-05 | 上海品览数据科技有限公司 | 一种基于深度学习和图像处理的货架商品模糊检测方法 |
CN112288699A (zh) * | 2020-10-23 | 2021-01-29 | 北京百度网讯科技有限公司 | 图像相对清晰度的评估方法、装置、设备和介质 |
CN112367518A (zh) * | 2020-10-30 | 2021-02-12 | 福州大学 | 一种输电线路无人机巡检图像质量评价方法 |
Non-Patent Citations (3)
Title |
---|
KARAN KHAJURIA等: "Blur Detection in Identity Images Using Convolutional Neural Network", 《2019 FIFTH INTERNATIONAL CONFERENCE ON IMAGE INFORMATION PROCESSING (ICIIP)》 * |
吴文等: "基于低尺度细节恢复的单幅图像阴影去除方法", 《电子学报》 * |
胡永健: "图像多分辨率数字水印技术:算法及其应用", 《中国优秀博硕士学位论文全文数据库 (博士)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486858A (zh) * | 2021-08-03 | 2021-10-08 | 济南博观智能科技有限公司 | 一种人脸识别模型训练方法、装置、电子设备及存储介质 |
CN113486858B (zh) * | 2021-08-03 | 2024-01-23 | 济南博观智能科技有限公司 | 一种人脸识别模型训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113066024B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210350504A1 (en) | Aesthetics-guided image enhancement | |
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
WO2020151489A1 (zh) | 基于面部识别的活体检测的方法、电子设备和存储介质 | |
US11645379B2 (en) | Security verification method and relevant device | |
CN114258559A (zh) | 用于标识具有不受控制的光照条件的图像中的肤色的技术 | |
US11080553B2 (en) | Image search method and apparatus | |
CN111062871A (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN113763348A (zh) | 图像质量确定方法、装置、电子设备及存储介质 | |
US11282179B2 (en) | System and method for machine learning based video quality assessment | |
CN113066024B (zh) | 图像模糊检测模型的训练方法、图像模糊检测方法及装置 | |
Chen et al. | Learning to rank retargeted images | |
CN114565768A (zh) | 图像分割方法及装置 | |
US10631050B2 (en) | Determining and correlating visual context on a user device with user behavior using digital content on the user device | |
US20220122341A1 (en) | Target detection method and apparatus, electronic device, and computer storage medium | |
KR102348368B1 (ko) | 머신러닝 모델의 학습 데이터 생성과 머신러닝 모델을 이용한 유사 이미지 생성을 위한 장치, 방법, 시스템 및 컴퓨터 판독가능 저장 매체 | |
CN111310528B (zh) | 一种图像检测方法、身份验证方法、支付方法及装置 | |
CN112712571A (zh) | 基于视频的物体平面贴图方法、装置以及设备 | |
WO2020113563A1 (zh) | 人脸图像质量评估方法、装置、设备及存储介质 | |
Wang et al. | Saliency detection by multilevel deep pyramid model | |
CN110688371B (zh) | 数据调整方法、装置、电子设备及存储介质 | |
US20240062338A1 (en) | Systems and methods for blur identification and correction | |
Gao et al. | Saliency-based parameter tuning for tone mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |