CN114399497A - 文本图像质量检测方法、装置、计算机设备及存储介质 - Google Patents
文本图像质量检测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114399497A CN114399497A CN202210057440.5A CN202210057440A CN114399497A CN 114399497 A CN114399497 A CN 114399497A CN 202210057440 A CN202210057440 A CN 202210057440A CN 114399497 A CN114399497 A CN 114399497A
- Authority
- CN
- China
- Prior art keywords
- image
- detected
- quality detection
- noise
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 460
- 238000012549 training Methods 0.000 claims abstract description 127
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000000903 blocking effect Effects 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims description 58
- 238000007781 pre-processing Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013179 statistical model Methods 0.000 claims description 7
- 230000002779 inactivation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000012935 Averaging Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000011478 gradient descent method Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 9
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 6
- 230000009849 deactivation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013441 quality evaluation Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000036039 immunity Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 241001156002 Anthonomus pomorum Species 0.000 description 2
- 101100517192 Arabidopsis thaliana NRPD1 gene Proteins 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 239000006002 Pepper Substances 0.000 description 2
- 241000722363 Piper Species 0.000 description 2
- 235000016761 Piper aduncum Nutrition 0.000 description 2
- 235000017804 Piper guineense Nutrition 0.000 description 2
- 235000008184 Piper nigrum Nutrition 0.000 description 2
- 101150094905 SMD2 gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例属于人工智能中的图像处理技术领域,涉及一种应用于文本图像的质量检测方法、装置、计算机设备及存储介质。本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。
Description
技术领域
本申请涉及人工智能中的图像处理技术领域,尤其涉及一种应用于文本图像的质量检测方法、装置、计算机设备及存储介质。
背景技术
图像是人类感知和机器模式识别的重要信息源,其质量对所获取信息的充分性和准确性起着决定性的作用。然而,图像在获取、压缩、处理、传输、显示等过程中难免会出现一定程度的失真。如何衡量图像的质量、评定图像是否满足某种特定应用要求成为急需解决的问题。为此,需要建立有效的图像质量评估体制。
现有的图像质量评估方法可分为主观评估方法和客观评估方法,前者凭借实验人员的主观感知来评估对象的质量;后者依据模型给出的量化指标,模拟人类视觉系统感知机制来衡量图像质量。
然而,申请人发现传统的图像质量评估方法普遍存在计算量大、评估精度不高等问题。
发明内容
本申请实施例的目的在于提出一种应用于文本图像的质量检测方法、装置、计算机设备及存储介质,以解决传统的图像质量评估方法普遍存在计算量大、评估精度不高等问题。
为了解决上述技术问题,本申请实施例提供一种应用于文本图像的质量检测方法,采用了如下所述的技术方案:
在图像数据库中获取正样本图像;
对所述正样本图像进行预处理,得到预处理正样本图像;
根据所述预处理正样本图像构建负样本图像,并结合所述预处理正样本图像以及所述负样本图像,得到模型训练数据;
将所述模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;
接收携带有待检测图像的质量检测请求;
对所述待检测图像进行图像分块处理,得到待检测子图像;
将所述待检测子图像输入至所述目标质量检测模型进行质量检测操作,得到与所述待检测子图像相对应的质量检测子结果;
对所述质量检测子结果进行质量汇总计算操作,得到质量检测结果;
调用训练好的噪声检测模型,将所述待检测子图像输入至所述训练好的噪声检测模型进行噪声检测操作,得到与所述待检测子图像相对应的噪声检测子结果;
对所述噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;
对所述质量检测结果以及所述噪声检测结果进行综合计算操作,得到与所述待检测图像相对应的目标检测结果。
为了解决上述技术问题,本申请实施例还提供一种应用于文本图像的质量检测装置,采用了如下所述的技术方案:
正样本获取模块,用于在图像数据库中获取正样本图像;
预处理模块,用于对所述正样本图像进行预处理,得到预处理正样本图像;
第一训练数据获取模块,用于根据所述预处理正样本图像构建负样本图像,并结合所述预处理正样本图像以及所述负样本图像,得到模型训练数据;
分类训练模块,用于将所述模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;
请求接收模块,用于接收携带有待检测图像的质量检测请求;
分块处理模块,用于对所述待检测图像进行图像分块处理,得到待检测子图像;
质量检测模块,用于将所述待检测子图像输入至所述目标质量检测模型进行质量检测操作,得到与所述待检测子图像相对应的质量检测子结果;
质量汇总模块,用于对所述质量检测子结果进行质量汇总计算操作,得到质量检测结果;
噪声检测模块,用于调用训练好的噪声检测模型,将所述待检测子图像输入至所述训练好的噪声检测模型进行噪声检测操作,得到与所述待检测子图像相对应的噪声检测子结果;
噪声汇总模块,用于对所述噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;
综合计算模块,用于对所述质量检测结果以及所述噪声检测结果进行综合计算操作,得到与所述待检测图像相对应的目标检测结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的应用于文本图像的质量检测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的应用于文本图像的质量检测方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供了一种应用于文本图像的质量检测方法,包括:在图像数据库中获取正样本图像;对所述正样本图像进行预处理,得到预处理正样本图像;根据所述预处理正样本图像构建负样本图像,并结合所述预处理正样本图像以及所述负样本图像,得到模型训练数据;将所述模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;接收携带有待检测图像的质量检测请求;对所述待检测图像进行图像分块处理,得到待检测子图像;将所述待检测子图像输入至所述目标质量检测模型进行质量检测操作,得到与所述待检测子图像相对应的质量检测子结果;对所述质量检测子结果进行质量汇总计算操作,得到质量检测结果;调用训练好的噪声检测模型,将所述待检测子图像输入至所述训练好的噪声检测模型进行噪声检测操作,得到与所述待检测子图像相对应的噪声检测子结果;对所述噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;对所述质量检测结果以及所述噪声检测结果进行综合计算操作,得到与所述待检测图像相对应的目标检测结果。本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请实施例一提供的应用于文本图像的质量检测方法的实现流程图;
图3是图2中步骤S201的一种具体实施方式的流程图;
图4是图2中步骤S202的一种具体实施方式的流程图;
图5是图2中步骤S203的一种具体实施方式的流程图;
图6是图2中步骤S204的一种具体实施方式的流程图;
图7是本申请实施例一提供的获取训练好的噪声检测模型的一种具体实施方式的流程图;
图8是本申请实施例一提供的筛选待检测子图像的一种具体实施方式的流程图;
图9是本申请实施例二提供的应用于文本图像的质量检测装置的结构示意图;
图10是本申请实施例二提供的预处理模块的一种具体实施方式的结构示意图;
图11是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的应用于文本图像的质量检测方法一般由服务器/终端设备执行,相应地,应用于文本图像的质量检测装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了本申请实施例一提供的应用于文本图像的质量检测方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的应用于文本图像的质量检测方法,包括以下步骤:步骤S201、步骤S202、步骤S203、步骤S204、步骤S205、步骤S206、步骤S207、步骤S208、步骤S209、步骤S210以及步骤S211。
步骤S201:在图像数据库中获取正样本图像。
在本申请实施例中,图像数据库中存储有用于视觉对象识别的可视化图像数据,具体的,该图像数据库可以是ImageNet数据集,其中,ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别。第三方图像URL的注释数据库可以直接从ImageNet免费获得,应当理解的是,此处对图像数据库的举例仅为方便理解,不用于限定本申请。
步骤S202:对正样本图像进行预处理,得到预处理正样本图像。
在本申请实施例中,预处理可以是按照长宽比例不变的方式对正样本图像进行尺寸调节处理,得到标准尺寸正样本图像;按照224×224的尺寸对标准尺寸正样本图像进行分割处理,得到预处理正样本图像。
步骤S203:根据预处理正样本图像构建负样本图像,并结合预处理正样本图像以及负样本图像,得到模型训练数据。
在本申请实施例中,构建负样本图像可以是将预处理正样本图像与噪声向量相乘,得到噪声图像;对噪声图像进行变形处理,得到变形图像;将变形图像输入至生成式对抗网络进行上采样处理,得到负样本图像。
步骤S204:将模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型。
在本申请实施例中,质量检测模型指的是基于一种流线型结构使用深度可分离卷积来构造形成轻型权重的深度神经网络,具体的,质量检测模型由清晰度检测模型以及噪声曝光检测模型组成,其中,清晰度检测模型主要用于检测图像的清晰度,噪声曝光检测模型则是检测图像的噪声质量、过曝/欠曝和值。
在本申请实施例中,该质量检测模型通过采用深度级可分离卷积(depthwisesparable convolutions)来解决卷积网络的计算效率和参数量的问题,其与传统的图像网络分类的其他网络模型能表现出更强的性能,该质量检测模型是基于MobileNets的轻量级深层神经网络,其中,原始质量检测模型则指的是模型参数未进行训练调整的初始参数值模型。
在本申请实施例中,在获得模型训练数据之后,采用批梯度下降法进行训练。批梯度下降法的示例例如包括批量梯度下降法BGD、小批量梯度下降法MBGD和随机梯度下降法SGD等等。
在本申请实施例中,质量检测模型的清晰度检测模型的训练数据可以分为三类,分别是notext,质量差,质量好。在训练数据中,notext,质量差,质量好的评估可以通过实验人员的主观感受来评估,通过参考图像来评估,或者通过清晰度算法来评估。
在本申请实施例中,清晰度算法的示例例如包括Brenner梯度函数、Tenengrad梯度函数、Laplacian梯度函数、SMD(灰度方差)函数、SMD2(灰度方差乘积)函数等等应当理解,此处对清晰度算法的举例仅为方便理解,不用于限定本申请。
步骤S205:接收携带有待检测图像的质量检测请求。
步骤S206:对待检测图像进行图像分块处理,得到待检测子图像。
在本申请实施例中,图像分块处理可以是根据长边划分成3份,短边划分成2份,整张大图一共划分成6张小图。
步骤S207:将待检测子图像输入至目标质量检测模型进行质量检测操作,得到与待检测子图像相对应的质量检测子结果。
在本申请实施例中,待检测子图像输入至上述训练好的目标质量检测模型之后,会给该待检测子图像打上属性标签(属性标签包括小图、大图、长图、纯色图、黑白图、纯文本图等等),同时,通过目标质量检测模型将该待检测子图像分为五个段位(段位包括不合格质量、低质量、中质量、高质量和超高质量),该质量检测模型的清晰度检测模型通过清晰度分值[0,1]对该待检测子图像的清晰度进行评分,该目标质量检测模型的参考模型则对待检测子图像的嗓声值、过曝和值以及欠曝和值通过噪声曝光分值[0,1]进行评分,最后,综合该清晰度分值和嗓声曝光分值,得到该待检测子图像的初始检测结果。
步骤S208:对质量检测子结果进行质量汇总计算操作,得到质量检测结果。
在本申请实施例中,由于步骤S207得到的是待检测图像分块处理后各个待检测子图像的检测分值结果,在进行质量汇总计算待检测图像的质量检测分值时,可通过求平均的计算方式计算所有待检测子图像的质量检测子结果,从而得到该待检测图像的质量检测结果;在计算待检测图像的分值时,还可以是为各个待检测子图像分配与清晰度相对应的权重值,并根据各个待检测子图像的权重值计算各个待检测子图像的权重得分,最后在通过求平均计算该待检测图像的质量检测结果,应当理解,此处对质量汇总计算的举例仅为方便理解,不用于限定本申请。
步骤S209:调用训练好的噪声检测模型,将待检测子图像输入至训练好的噪声检测模型进行噪声检测操作,得到与待检测子图像相对应的噪声检测子结果。
在本申请实施例中,系统数据库中预先存储有上述训练好的噪声检测模型,以便进行任意调用。
在本申请实施例中,训练好的噪声检测模型可以对输入数据进行噪声评估,以获得该输入数据的噪声值。
步骤S210:对噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果。
在本申请实施例中,由于步骤S209得到的是待检测图像分块处理后各个待检测子图像的检测分值结果,在进行噪声汇总计算待检测图像的噪声检测分值时,可通过求平均的计算方式计算所有待检测子图像的噪声检测子结果,从而得到该待检测图像的噪声检测结果;在计算待检测图像的分值时,还可以是为各个待检测子图像分配与曝光度相对应的权重值,并根据各个待检测子图像的权重值计算各个待检测子图像的权重得分,最后在通过求平均计算该待检测图像的噪声检测结果,应当理解,此处对噪声汇总计算的举例仅为方便理解,不用于限定本申请。
步骤S211:对质量检测结果以及噪声检测结果进行综合计算操作,得到与待检测图像相对应的目标检测结果。
在本申请实施例中,由于步骤S208和步骤S210得到的质量检测结果和噪声检测结果是待检测图像从“质量”和“噪声”两个方向得到的检测结果,因此需要进行综合计算以得到该待检测图像的最终检测结果,在进行综合计算时,可通过求平均的计算方式计算,也可以根据“质量”和“噪声”的分配权重,根据质量检测结果的“质量”权重得分和噪声检测结果的“噪声”权重得分,最后再通过求平均计算得到上述目标检测结果,应当理解,此处对综合计算的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,提供了一种应用于文本图像的质量检测方法,包括:在图像数据库中获取正样本图像;对正样本图像进行预处理,得到预处理正样本图像;根据预处理正样本图像构建负样本图像,并结合预处理正样本图像以及负样本图像,得到模型训练数据;将模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;接收携带有待检测图像的质量检测请求;对待检测图像进行图像分块处理,得到待检测子图像;将待检测子图像输入至目标质量检测模型进行质量检测操作,得到与待检测子图像相对应的质量检测子结果;对质量检测子结果进行质量汇总计算操作,得到质量检测结果;调用训练好的噪声检测模型,将待检测子图像输入至训练好的噪声检测模型进行噪声检测操作,得到与待检测子图像相对应的噪声检测子结果;对噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;对质量检测结果以及噪声检测结果进行综合计算操作,得到与待检测图像相对应的目标检测结果。本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。
继续参阅图3,示出了图2中步骤S201的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述步骤S201具体包括:步骤S301以及步骤S302。
步骤S301:根据统计模型将图像数据库中的样本图像分类为小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别。
在本申请实施例中,统计模型统计模型被预先配置为将图像数据分类为小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别,其中,采用统计模型对图像数据进行分类,包括:
当max_wh<200时,该图像数据被判定为小图;
当min_wh>=2000时,该图像数据被判定为大图;
当max_wh/min_wh>3时,该图像数据被判定为长图;
当图像数据的通道数为1时,该图像数据被判定为黑白图;
当v_max_1/v_all>0.65时,该图像数据被判定为纯色图;
当v_max_1/v_all<0.65并且(v_max_1+v_max_2)/v_all>0.8时,该图像数据被判定为纯文字图,
其中,w、h、min_wh、max_wh分别表示图像数据的宽、高、最小边和最大边,并且v_max_1、v_max_2和v_all分别表示图像数据的直方图的最大柱值、第二大柱值以及所有柱之和。
在本申请实施例中,令hist(image)表示图像image的直方图,其中直方图的柱数为20。
在所获得的输入图像的直方图中,v_max_1、v_max_2和v_all分别表示直方图最大柱值、第二大柱值以及所有柱之和。
步骤S302:在小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别中分别获取预设数量的图像数据,并将获取到的图像数据作为正样本图像。
在本申请实施例中,通过对图像数据库中的样本图像进行分类,并在分类后的子类样本中进行抽取,是的获取到的正样本图像可以均匀涵盖上述各个类别,使得后续对质量检测模型进行训练时,有效保证质量检测模型的训练多元化,进而保证模型能够学习到更为真实的特征数据。
继续参阅图4,示出了图2中步骤S202的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述步骤S202具体包括:步骤S401以及步骤S402。
步骤S401:按照长宽比例不变的方式对正样本图像进行尺寸调节处理,得到标准尺寸正样本图像。
在本申请实施例中,尺寸调节处理指的是对正样本图像的大小进行调整的过程,该调整过程始终保持图像长宽比例不变,具体的,图像放大可以采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素,插值算法例如包括基于边缘的图像插值算法、基于区域的图像插值算法以及其他已知或未来开发的算法,而缩小图像例如可以采用CV_INETR_AREA来插值。
步骤S402:按照预设尺寸对标准尺寸正样本图像进行分割处理,得到预处理正样本图像。
在本申请实施例中,由于质量检测模型的输入需要满足一定的尺寸要求,当尺寸过大的图像输入至该质量检测模型时,会影响该模型的处理效率及处理准确度,因此,通过上述的尺寸调节处理和分割处理对该正样本图像进行标准化操作,使得输入该质量检测模型的输入数据符合模型的要求,其中,预设尺寸可以根据实际情况进行动态调整,作为示例,该预设尺寸可以是224×224,应当理解,此处对预设尺寸的举例仅为方便理解,不用于限定本申请。
继续参阅图5,示出了图2中步骤S203的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述步骤S203具体包括:步骤S501、步骤S502以及步骤S503。
步骤S501:将预处理正样本图像与噪声向量相乘,得到噪声图像。
在本申请实施例中,将预处理正样本图像与噪声向量相乘指的是在该预处理正样本图像的基础上添加噪音,具体的,该添加噪音的操作可以是采用函数imnoise来使用噪声污染该预处理正样本图像,该imnoise函数的基本语法为g=imnoise(f,type,parameters),其中,f是输入图像,type是噪声的类型,parameters是参数设置大小,g=imnoise(f,'gaussian',m,var)将均值为m、方差为var的高斯噪声加到图像f上。默认值为均值是0、方差是0.01的噪声。
步骤S502:对噪声图像进行变形处理,得到变形图像。
在本申请实施例中,变形处理指的是改变上述噪声图像的形状,具体的,该变形处理可以是采取旋转、折叠、镜像翻转等方式,应当理解,此处对变形处理的举例仅为方便理解,不用于限定本申请。
步骤S503:将变形图像输入至生成式对抗网络进行上采样处理,得到负样本图像。
在本申请实施例中,生成式对抗网络(GAN,Generative Adversarial Networks)指的是基于对抗性训练的理念,由两个相互竞争的神经网络组成的,分别是生成器(Generator)和鉴别器(Discriminator)。其中,生成器或生成模型尝试捕获数据分布,鉴别器或判别模型估计样本来自训练数据而不是G的概率。
在本申请实施例中,将变形图像输入至上述生成器的残差块中进行上采样,从而得到上述负样本图像,其中,生成式对抗网络通过残差块的方式,跳过部分连接,让生成器利用潜在空间直接影响不同分辨率和不同层次的特征。
继续参阅图6,示出了图2中步骤S204的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述步骤S204具体包括:步骤S601。
步骤S601:将模型训练数据输入至原始质量检测模型进行分类训练直至收敛后,向收敛后的原始质量检测模型添加池化层、全连接层以及随机失活层,并根据训练后的模型训练数据训练全连接层直至收敛,得到目标质量检测模型。
在本申请实施例中,考虑到图像的模糊性属于图像中低层语义信息,因此所使用的网络模型优选地需要保证中低层的语义信息。
在本申请实施例中,考虑图像的模糊性属于图像中低层语义信息,设定将整个网络参数固定(这时的网络参数为基于新数据训练后所得),并且在conv5_6后新增加一个池化层(Pool)和全连接(FC)层和随机失活(dropout)层,采用训练数据训练新加的全连接层,直至收敛(其目的是为了只训练新加的FC和pool层)。如此,最终得到根据本申请实施例的质量评估网络模型的网络权重。这种网络结构训练方法可以保证中低层的语义信息。
在本申请实施例中,在conv5_6后新增加了一个池化层(Pool)和全连接(FC)层和随机失活(dropout)层,但是本公开实施例不限于此,而是可以在其他的位置增加池化层(Pool)和全连接(FC)层和随机失活(dropout)层,以训练该新增加的FC和pool层。
继续参阅图7,示出了本申请实施例一提供的获取训练好的噪声检测模型的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在上述步骤S209之前,还包括:步骤S701以及步骤S702。
步骤S701:读取训练数据库,在训练数据库中获取噪声训练数据以及高清训练数据。
步骤S702:根据噪声训练数据以及高清训练数据对原始噪声模型进行模型训练操作,得到训练好的噪声检测模型。
在本申请实施例中,噪声模型采用的训练数据为噪声数据、高清数据,输出结果为两类,取值为[0,1],值越大,表示图像越清晰。
在本申请实施例中,噪声数据被定义为含有噪点,比如椒盐噪声的图片。
继续参阅图8,示出了本申请实施例一提供的筛选待检测子图像的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在步骤S207之前,还包括:步骤S801、步骤S802、步骤S803以及步骤S804。
步骤S801:对待检测子图像进行文本检测处理,得到文本检测结果。
步骤S802:判断文本检测结果是否存在文本内容。
步骤S803:若文本检测结果不存在文本内容,则将待检测子图像确认为notext类别,并停止执行质量检测操作。
步骤S804:若文本检测结果存在文本内容,则执行质量检测操作。
在本申请实施例中,notext类别指的是不携带文本内容的待检测子图像,由于本申请主要用于检测文本图像的质量,而将待检测图像分割出各个待检测子图像之后,会存在部分待检测图像的内容中不携带文本内容,而针对不携带文本内容的待检测子图像进行质量检测操作得到的结果没有参考价值,因此,如若待检测子图像确认为notext类别,则无需执行后续质量检测操作。
在本申请实施例中,通过判断待检测子图像是否携带文本内容来确认该待检测图像是否为notext类别,当该待检测图像为notext类别时,直接忽略该待检测图像,省略后续的质量检测操作,仅当待检测子图像携带文本内容时,才进行该质量检测操作,通过判断待检测子图像是否携带文本内容来筛选notext类别的待检测子图像,从而有效避免后续质量检测操作的无用功,进而有效提高质量检测的效率。
综上所述,本申请提供了一种应用于文本图像的质量检测方法,包括:在图像数据库中获取正样本图像;对正样本图像进行预处理,得到预处理正样本图像;根据预处理正样本图像构建负样本图像,并结合预处理正样本图像以及负样本图像,得到模型训练数据;将模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;接收携带有待检测图像的质量检测请求;对待检测图像进行图像分块处理,得到待检测子图像;将待检测子图像输入至目标质量检测模型进行质量检测操作,得到与待检测子图像相对应的质量检测子结果;对质量检测子结果进行质量汇总计算操作,得到质量检测结果;调用训练好的噪声检测模型,将待检测子图像输入至训练好的噪声检测模型进行噪声检测操作,得到与待检测子图像相对应的噪声检测子结果;对噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;对质量检测结果以及噪声检测结果进行综合计算操作,得到与待检测图像相对应的目标检测结果。本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。同时,通过对图像数据库中的样本图像进行分类,并在分类后的子类样本中进行抽取,是的获取到的正样本图像可以均匀涵盖上述各个类别,使得后续对质量检测模型进行训练时,有效保证质量检测模型的训练多元化,进而保证模型能够学习到更为真实的特征数据;通过上述的尺寸调节处理和分割处理对该正样本图像进行标准化操作,使得输入该质量检测模型的输入数据符合模型的要求;通过判断待检测子图像是否携带文本内容来筛选notext类别的待检测子图像,从而有效避免后续质量检测操作的无用功,进而有效提高质量检测的效率。
需要强调的是,为进一步保证上述待检测图像和目标检测结果的私密和安全性,上述待检测图像和目标检测结果还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图9,作为对上述图2所示方法的实现,本申请提供了一种应用于文本图像的质量检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,本实施例的应用于文本图像的质量检测装置200包括:正样本获取模块201、预处理模块202、第一训练数据获取模块203、分类训练模块204、请求接收模块205、分块处理模块206、质量检测模块207、质量汇总模块208、噪声检测模块209、噪声汇总模块210以及综合计算模块211。其中:
正样本获取模块201,用于在图像数据库中获取正样本图像;
预处理模块202,用于对正样本图像进行预处理,得到预处理正样本图像;
第一训练数据获取模块203,用于根据预处理正样本图像构建负样本图像,并结合预处理正样本图像以及负样本图像,得到模型训练数据;
分类训练模块204,用于将模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;
请求接收模块205,用于接收携带有待检测图像的质量检测请求;
分块处理模块206,用于对待检测图像进行图像分块处理,得到待检测子图像;
质量检测模块207,用于将待检测子图像输入至目标质量检测模型进行质量检测操作,得到与待检测子图像相对应的质量检测子结果;
质量汇总模块208,用于对质量检测子结果进行质量汇总计算操作,得到质量检测结果;
噪声检测模块209,用于调用训练好的噪声检测模型,将待检测子图像输入至训练好的噪声检测模型进行噪声检测操作,得到与待检测子图像相对应的噪声检测子结果;
噪声汇总模块210,用于对噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;
综合计算模块211,用于对质量检测结果以及噪声检测结果进行综合计算操作,得到与待检测图像相对应的目标检测结果。
在本申请实施例中,图像数据库中存储有用于视觉对象识别的可视化图像数据,具体的,该图像数据库可以是ImageNet数据集,其中,ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别。第三方图像URL的注释数据库可以直接从ImageNet免费获得,应当理解的是,此处对图像数据库的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,预处理可以是按照长宽比例不变的方式对正样本图像进行尺寸调节处理,得到标准尺寸正样本图像;按照224×224的尺寸对标准尺寸正样本图像进行分割处理,得到预处理正样本图像。
在本申请实施例中,构建负样本图像可以是将预处理正样本图像与噪声向量相乘,得到噪声图像;对噪声图像进行变形处理,得到变形图像;将变形图像输入至生成式对抗网络进行上采样处理,得到负样本图像。
在本申请实施例中,质量检测模型指的是基于一种流线型结构使用深度可分离卷积来构造形成轻型权重的深度神经网络,具体的,质量检测模型由清晰度检测模型以及噪声曝光检测模型组成,其中,清晰度检测模型主要用于检测图像的清晰度,噪声曝光检测模型则是检测图像的噪声质量、过曝/欠曝和值。
在本申请实施例中,该质量检测模型通过采用深度级可分离卷积(depthwisesparable convolutions)来解决卷积网络的计算效率和参数量的问题,其与传统的图像网络分类的其他网络模型能表现出更强的性能,该质量检测模型是基于MobileNets的轻量级深层神经网络,其中,原始质量检测模型则指的是模型参数未进行训练调整的初始参数值模型。
在本申请实施例中,在获得模型训练数据之后,采用批梯度下降法进行训练。批梯度下降法的示例例如包括批量梯度下降法BGD、小批量梯度下降法MBGD和随机梯度下降法SGD等等。
在本申请实施例中,质量检测模型的清晰度检测模型的训练数据可以分为三类,分别是notext,质量差,质量好。在训练数据中,notext,质量差,质量好的评估可以通过实验人员的主观感受来评估,通过参考图像来评估,或者通过清晰度算法来评估。
在本申请实施例中,清晰度算法的示例例如包括Brenner梯度函数、Tenengrad梯度函数、Laplacian梯度函数、SMD(灰度方差)函数、SMD2(灰度方差乘积)函数等等应当理解,此处对清晰度算法的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,图像分块处理可以是根据长边划分成3份,短边划分成2份,整张大图一共划分成6张小图。
在本申请实施例中,待检测子图像输入至上述训练好的目标质量检测模型之后,会给该待检测子图像打上属性标签(属性标签包括小图、大图、长图、纯色图、黑白图、纯文本图等等),同时,通过目标质量检测模型将该待检测子图像分为五个段位(段位包括不合格质量、低质量、中质量、高质量和超高质量),该质量检测模型的清晰度检测模型通过清晰度分值[0,1]对该待检测子图像的清晰度进行评分,该目标质量检测模型的参考模型则对待检测子图像的嗓声值、过曝和值以及欠曝和值通过噪声曝光分值[0,1]进行评分,最后,综合该清晰度分值和嗓声曝光分值,得到该待检测子图像的初始检测结果。
在本申请实施例中,由于质量检测模块207得到的是待检测图像分块处理后各个待检测子图像的检测分值结果,在进行质量汇总计算待检测图像的质量检测分值时,可通过求平均的计算方式计算所有待检测子图像的质量检测子结果,从而得到该待检测图像的质量检测结果;在计算待检测图像的分值时,还可以是为各个待检测子图像分配与清晰度相对应的权重值,并根据各个待检测子图像的权重值计算各个待检测子图像的权重得分,最后在通过求平均计算该待检测图像的质量检测结果,应当理解,此处对质量汇总计算的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,系统数据库中预先存储有上述训练好的噪声检测模型,以便进行任意调用。
在本申请实施例中,训练好的噪声检测模型可以对输入数据进行噪声评估,以获得该输入数据的噪声值。
在本申请实施例中,由于噪声检测模块209得到的是待检测图像分块处理后各个待检测子图像的检测分值结果,在进行噪声汇总计算待检测图像的噪声检测分值时,可通过求平均的计算方式计算所有待检测子图像的噪声检测子结果,从而得到该待检测图像的噪声检测结果;在计算待检测图像的分值时,还可以是为各个待检测子图像分配与曝光度相对应的权重值,并根据各个待检测子图像的权重值计算各个待检测子图像的权重得分,最后在通过求平均计算该待检测图像的噪声检测结果,应当理解,此处对噪声汇总计算的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,由于质量汇总模块208和噪声汇总模块210得到的质量检测结果和噪声检测结果是待检测图像从“质量”和“噪声”两个方向得到的检测结果,因此需要进行综合计算以得到该待检测图像的最终检测结果,在进行综合计算时,可通过求平均的计算方式计算,也可以根据“质量”和“噪声”的分配权重,根据质量检测结果的“质量”权重得分和噪声检测结果的“噪声”权重得分,最后再通过求平均计算得到上述目标检测结果,应当理解,此处对综合计算的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,提供了一种应用于文本图像的质量检测装置200,包括:正样本获取模块201,用于在图像数据库中获取正样本图像;预处理模块202,用于对正样本图像进行预处理,得到预处理正样本图像;第一训练数据获取模块203,用于根据预处理正样本图像构建负样本图像,并结合预处理正样本图像以及负样本图像,得到模型训练数据;分类训练模块204,用于将模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;请求接收模块205,用于接收携带有待检测图像的质量检测请求;分块处理模块206,用于对待检测图像进行图像分块处理,得到待检测子图像;质量检测模块207,用于将待检测子图像输入至目标质量检测模型进行质量检测操作,得到与待检测子图像相对应的质量检测子结果;质量汇总模块208,用于对质量检测子结果进行质量汇总计算操作,得到质量检测结果;噪声检测模块209,用于调用训练好的噪声检测模型,将待检测子图像输入至训练好的噪声检测模型进行噪声检测操作,得到与待检测子图像相对应的噪声检测子结果;噪声汇总模块210,用于对噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;综合计算模块211,用于对质量检测结果以及噪声检测结果进行综合计算操作,得到与待检测图像相对应的目标检测结果。本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。
在本实施例的一些可选的实现方式中,上述正样本获取模块201包括:图像分类子模块和图像获取子模块,其中:
图像分类子模块,用于根据统计模型将图像数据库中的样本图像分类为小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别;
图像获取子模块,用于在小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别中分别获取预设数量的图像数据,并将获取到的图像数据作为正样本图像。
在本申请实施例中,统计模型统计模型被预先配置为将图像数据分类为小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别,其中,采用统计模型对图像数据进行分类,包括:
当max_wh<200时,该图像数据被判定为小图;
当min_wh>=2000时,该图像数据被判定为大图;
当max_wh/min_wh>3时,该图像数据被判定为长图;
当图像数据的通道数为1时,该图像数据被判定为黑白图;
当v_max_1/v_all>0.65时,该图像数据被判定为纯色图;
当v_max_1/v_all<0.65并且(v_max_1+v_max_2)/v_all>0.8时,该图像数据被判定为纯文字图,
其中,w、h、min_wh、max_wh分别表示图像数据的宽、高、最小边和最大边,并且v_max_1、v_max_2和v_all分别表示图像数据的直方图的最大柱值、第二大柱值以及所有柱之和。
在本申请实施例中,令hist(image)表示图像image的直方图,其中直方图的柱数为20。
在所获得的输入图像的直方图中,v_max_1、v_max_2和v_all分别表示直方图最大柱值、第二大柱值以及所有柱之和。
在本申请实施例中,通过对图像数据库中的样本图像进行分类,并在分类后的子类样本中进行抽取,是的获取到的正样本图像可以均匀涵盖上述各个类别,使得后续对质量检测模型进行训练时,有效保证质量检测模型的训练多元化,进而保证模型能够学习到更为真实的特征数据。
继续参阅图10,示出了本申请实施例二提供的预处理模块202的一种具体实施方式的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述预处理模块202包括:尺寸调节处理子模块2021以及分割处理子模块2022,其中:
尺寸调节处理子模块2021,用于按照长宽比例不变的方式对正样本图像进行尺寸调节处理,得到标准尺寸正样本图像;
分割处理子模块2022,用于按照预设尺寸对标准尺寸正样本图像进行分割处理,得到预处理正样本图像。
在本申请实施例中,尺寸调节处理指的是对正样本图像的大小进行调整的过程,该调整过程始终保持图像长宽比例不变,具体的,图像放大可以采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素,插值算法例如包括基于边缘的图像插值算法、基于区域的图像插值算法以及其他已知或未来开发的算法,而缩小图像例如可以采用CV_INETR_AREA来插值。
在本申请实施例中,由于质量检测模型的输入需要满足一定的尺寸要求,当尺寸过大的图像输入至该质量检测模型时,会影响该模型的处理效率及处理准确度,因此,通过上述的尺寸调节处理和分割处理对该正样本图像进行标准化操作,使得输入该质量检测模型的输入数据符合模型的要求,其中,预设尺寸可以根据实际情况进行动态调整,作为示例,该预设尺寸可以是224×224,应当理解,此处对预设尺寸的举例仅为方便理解,不用于限定本申请。
在本实施例的一些可选的实现方式中,上述第一训练数据获取模块203包括:噪声图像获取子模块、变形处理子模块以及上采样处理子模块,其中:
噪声图像获取子模块,用于将预处理正样本图像与噪声向量相乘,得到噪声图像;
变形处理子模块,用于对噪声图像进行变形处理,得到变形图像;
上采样处理子模块,用于将变形图像输入至生成式对抗网络进行上采样处理,得到负样本图像。
在本实施例的一些可选的实现方式中,上述分类训练模块204包括:分类训练子模块,其中:
分类训练子模块,用于将模型训练数据输入至原始质量检测模型进行分类训练直至收敛后,向收敛后的原始质量检测模型添加池化层、全连接层以及随机失活层,并根据训练后的模型训练数据训练全连接层直至收敛,得到目标质量检测模型。
在本申请实施例中,考虑到图像的模糊性属于图像中低层语义信息,因此所使用的网络模型优选地需要保证中低层的语义信息。
在本申请实施例中,考虑图像的模糊性属于图像中低层语义信息,设定将整个网络参数固定(这时的网络参数为基于新数据训练后所得),并且在conv5_6后新增加一个池化层(Pool)和全连接(FC)层和随机失活(dropout)层,采用训练数据训练新加的全连接层,直至收敛(其目的是为了只训练新加的FC和pool层)。如此,最终得到根据本申请实施例的质量评估网络模型的网络权重。这种网络结构训练方法可以保证中低层的语义信息。
在本申请实施例中,在conv5_6后新增加了一个池化层(Pool)和全连接(FC)层和随机失活(dropout)层,但是本公开实施例不限于此,而是可以在其他的位置增加池化层(Pool)和全连接(FC)层和随机失活(dropout)层,以训练该新增加的FC和pool层。
在本实施例的一些可选的实现方式中,上述应用于文本图像的质量检测装置200包括:
第二训练数据获取模块模块,用于读取训练数据库,在训练数据库中获取噪声训练数据以及高清训练数据。
模型训练模块,用于根据噪声训练数据以及高清训练数据对原始噪声模型进行模型训练操作,得到训练好的噪声检测模型。
在本申请实施例中,噪声模型采用的训练数据为噪声数据、高清数据,输出结果为两类,取值为[0,1],值越大,表示图像越清晰。
在本申请实施例中,噪声数据被定义为含有噪点,比如椒盐噪声的图片。
在本实施例的一些可选的实现方式中,上述应用于文本图像的质量检测装置200,包括:
文本检测模块,用于对待检测子图像进行文本检测处理,得到文本检测结果。
文本判断模块,用于判断文本检测结果是否存在文本内容。
第一结果模块,用于若文本检测结果不存在文本内容,则将待检测子图像确认为notext类别,并停止执行质量检测操作。
第二结果模块,用于若文本检测结果存在文本内容,则执行质量检测操作。
在本申请实施例中,notext类别指的是不携带文本内容的待检测子图像,由于本申请主要用于检测文本图像的质量,而将待检测图像分割出各个待检测子图像之后,会存在部分待检测图像的内容中不携带文本内容,而针对不携带文本内容的待检测子图像进行质量检测操作得到的结果没有参考价值,因此,如若待检测子图像确认为notext类别,则无需执行后续质量检测操作。
在本申请实施例中,通过判断待检测子图像是否携带文本内容来确认该待检测图像是否为notext类别,当该待检测图像为notext类别时,直接忽略该待检测图像,省略后续的质量检测操作,仅当待检测子图像携带文本内容时,才进行该质量检测操作,通过判断待检测子图像是否携带文本内容来筛选notext类别的待检测子图像,从而有效避免后续质量检测操作的无用功,进而有效提高质量检测的效率。
综上所述,本申请提供了一种应用于文本图像的质量检测装置200,包括:正样本获取模块201,用于在图像数据库中获取正样本图像;预处理模块202,用于对正样本图像进行预处理,得到预处理正样本图像;第一训练数据获取模块203,用于根据预处理正样本图像构建负样本图像,并结合预处理正样本图像以及负样本图像,得到模型训练数据;分类训练模块204,用于将模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;请求接收模块205,用于接收携带有待检测图像的质量检测请求;分块处理模块206,用于对待检测图像进行图像分块处理,得到待检测子图像;质量检测模块207,用于将待检测子图像输入至目标质量检测模型进行质量检测操作,得到与待检测子图像相对应的质量检测子结果;质量汇总模块208,用于对质量检测子结果进行质量汇总计算操作,得到质量检测结果;噪声检测模块209,用于调用训练好的噪声检测模型,将待检测子图像输入至训练好的噪声检测模型进行噪声检测操作,得到与待检测子图像相对应的噪声检测子结果;噪声汇总模块210,用于对噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;综合计算模块211,用于对质量检测结果以及噪声检测结果进行综合计算操作,得到与待检测图像相对应的目标检测结果。本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。同时,通过对图像数据库中的样本图像进行分类,并在分类后的子类样本中进行抽取,是的获取到的正样本图像可以均匀涵盖上述各个类别,使得后续对质量检测模型进行训练时,有效保证质量检测模型的训练多元化,进而保证模型能够学习到更为真实的特征数据;通过上述的尺寸调节处理和分割处理对该正样本图像进行标准化操作,使得输入该质量检测模型的输入数据符合模型的要求;通过判断待检测子图像是否携带文本内容来筛选notext类别的待检测子图像,从而有效避免后续质量检测操作的无用功,进而有效提高质量检测的效率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图11,图11为本实施例计算机设备基本结构框图。
所述计算机设备300包括通过系统总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是,图中仅示出了具有组件310-330的计算机设备300,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器310至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器310可以是所述计算机设备300的内部存储单元,例如该计算机设备300的硬盘或内存。在另一些实施例中,所述存储器310也可以是所述计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中,所述存储器310通常用于存储安装于所述计算机设备300的操作系统和各类应用软件,例如应用于文本图像的质量检测方法的计算机可读指令等。此外,所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器320在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中,所述处理器320用于运行所述存储器310中存储的计算机可读指令或者处理数据,例如运行所述应用于文本图像的质量检测方法的计算机可读指令。
所述网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。
本申请提供的计算机设备,本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的应用于文本图像的质量检测方法的步骤。
本申请提供的计算机可读存储介质,本申请是基于图像数据库中的高清图像构建训练数据,从而保证训练得到的目标质量检测模型的检测精度保持较高的准确率,当进行质量检测时,先将待检测图像进行图像分块处理,从而极大减少大图质量检测判断的计算量,有效提高流程的时间效率,再将分块处理后的待检测子图像分别输入至质量检测模型和噪声检测模型进行质量检测和噪声检测,最后根据质量检测结果和噪声检测结果计算该待检测图像的最终检测结果,从“图像质量”和“图像噪声”两个方向对待检测图像进行检测,从而极大提高文本图像检测的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种应用于文本图像的质量检测方法,其特征在于,包括下述步骤:
在图像数据库中获取正样本图像;
对所述正样本图像进行预处理,得到预处理正样本图像;
根据所述预处理正样本图像构建负样本图像,并结合所述预处理正样本图像以及所述负样本图像,得到模型训练数据;
将所述模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;
接收携带有待检测图像的质量检测请求;
对所述待检测图像进行图像分块处理,得到待检测子图像;
将所述待检测子图像输入至所述目标质量检测模型进行质量检测操作,得到与所述待检测子图像相对应的质量检测子结果;
对所述质量检测子结果进行质量汇总计算操作,得到质量检测结果;
调用训练好的噪声检测模型,将所述待检测子图像输入至所述训练好的噪声检测模型进行噪声检测操作,得到与所述待检测子图像相对应的噪声检测子结果;
对所述噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;
对所述质量检测结果以及所述噪声检测结果进行综合计算操作,得到与所述待检测图像相对应的目标检测结果。
2.根据权利要求1所述的应用于文本图像的质量检测方法,其特征在于,所述在图像数据库中获取正样本图像的步骤,具体包括下述步骤:
根据统计模型将所述图像数据库中的样本图像分类为小图类别、长图类别、纯色图类别、纯文字图类别、黑白图类别以及大图类别;
在所述小图类别、所述长图类别、所述纯色图类别、所述纯文字图类别、所述黑白图类别以及所述大图类别中分别获取预设数量的图像数据,并将获取到的所述图像数据作为所述正样本图像。
3.根据权利要求1所述的应用于文本图像的质量检测方法,其特征在于,所述对所述正样本图像进行预处理,得到预处理正样本图像的步骤,具体包括下述步骤:
按照长宽比例不变的方式对所述正样本图像进行尺寸调节处理,得到标准尺寸正样本图像;
按照预设尺寸对所述标准尺寸正样本图像进行分割处理,得到所述预处理正样本图像。
4.根据权利要求1所述的应用于文本图像的质量检测方法,其特征在于,所述根据所述预处理正样本图像构建负样本图像,得到模型训练数据的步骤,具体包括下述步骤:
将所述预处理正样本图像与噪声向量相乘,得到噪声图像;
对所述噪声图像进行变形处理,得到变形图像;
将所述变形图像输入至生成式对抗网络进行上采样处理,得到所述负样本图像。
5.根据权利要求1所述的应用于文本图像的质量检测方法,其特征在于,所述将所述模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型的步骤,具体包括下述步骤:
将所述模型训练数据输入至所述原始质量检测模型进行所述分类训练直至收敛后,向收敛后的原始质量检测模型添加池化层、全连接层以及随机失活层,并根据训练后的所述模型训练数据训练所述全连接层直至收敛,得到所述目标质量检测模型。
6.根据权利要求1所述的应用于文本图像的质量检测方法,其特征在于,在所述调用训练好的噪声检测模型,将所述待检测子图像输入至所述训练好的噪声检测模型进行噪声检测操作,得到与所述待检测子图像相对应的噪声检测子结果的步骤之前,还包括下述步骤:
读取训练数据库,在所述训练数据库中获取噪声训练数据以及高清训练数据;
根据所述噪声训练数据以及所述高清训练数据对原始噪声模型进行模型训练操作,得到所述训练好的噪声检测模型。
7.一种应用于文本图像的质量检测装置,其特征在于,包括:
正样本获取模块,用于在图像数据库中获取正样本图像;
预处理模块,用于对所述正样本图像进行预处理,得到预处理正样本图像;
第一训练数据获取模块,用于根据所述预处理正样本图像构建负样本图像,并结合所述预处理正样本图像以及所述负样本图像,得到模型训练数据;
分类训练模块,用于将所述模型训练数据输入至原始质量检测模型进行分类训练直至收敛,得到目标质量检测模型;
请求接收模块,用于接收携带有待检测图像的质量检测请求;
分块处理模块,用于对所述待检测图像进行图像分块处理,得到待检测子图像;
质量检测模块,用于将所述待检测子图像输入至所述目标质量检测模型进行质量检测操作,得到与所述待检测子图像相对应的质量检测子结果;
质量汇总模块,用于对所述质量检测子结果进行质量汇总计算操作,得到质量检测结果;
噪声检测模块,用于调用训练好的噪声检测模型,将所述待检测子图像输入至所述训练好的噪声检测模型进行噪声检测操作,得到与所述待检测子图像相对应的噪声检测子结果;
噪声汇总模块,用于对所述噪声检测子结果进行噪声汇总计算操作,得到噪声检测结果;
综合计算模块,用于对所述质量检测结果以及所述噪声检测结果进行综合计算操作,得到与所述待检测图像相对应的目标检测结果。
8.根据权利要求7所述的应用于文本图像的质量检测装置,其特征在于,所述预处理模块包括:
尺寸调节处理子模块,用于按照长宽比例不变的方式对所述正样本图像进行尺寸调节处理,得到标准尺寸正样本图像;
分割处理子模块,用于按照预设尺寸对所述标准尺寸正样本图像进行分割处理,得到所述预处理正样本图像。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的应用于文本图像的质量检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的应用于文本图像的质量检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210057440.5A CN114399497A (zh) | 2022-01-19 | 2022-01-19 | 文本图像质量检测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210057440.5A CN114399497A (zh) | 2022-01-19 | 2022-01-19 | 文本图像质量检测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399497A true CN114399497A (zh) | 2022-04-26 |
Family
ID=81230438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210057440.5A Pending CN114399497A (zh) | 2022-01-19 | 2022-01-19 | 文本图像质量检测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399497A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972947A (zh) * | 2022-07-26 | 2022-08-30 | 之江实验室 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
-
2022
- 2022-01-19 CN CN202210057440.5A patent/CN114399497A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972947A (zh) * | 2022-07-26 | 2022-08-30 | 之江实验室 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
CN114972947B (zh) * | 2022-07-26 | 2022-12-06 | 之江实验室 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146892B (zh) | 一种基于美学的图像裁剪方法及装置 | |
WO2021139324A1 (zh) | 图像识别方法、装置、计算机可读存储介质及电子设备 | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN112801132B (zh) | 一种图像处理方法和装置 | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN112101359B (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
CN111182367A (zh) | 一种视频的生成方法、装置及计算机系统 | |
CN114612743A (zh) | 深度学习模型的训练方法、目标对象识别方法和装置 | |
CN113469025B (zh) | 应用于车路协同的目标检测方法、装置、路侧设备和车辆 | |
CN113205047B (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN115861400B (zh) | 目标对象检测方法、训练方法、装置以及电子设备 | |
CN115082667A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN110895811A (zh) | 一种图像篡改检测方法和装置 | |
CN114399497A (zh) | 文本图像质量检测方法、装置、计算机设备及存储介质 | |
CN113870196A (zh) | 一种基于锚点切图的图像处理方法、装置、设备和介质 | |
CN116665228B (zh) | 图像处理方法及装置 | |
CN114255493A (zh) | 图像检测方法、人脸检测方法及装置、设备及存储介质 | |
CN112784189A (zh) | 一种识别页面图像的方法和装置 | |
CN115546554A (zh) | 敏感图像的识别方法、装置、设备和计算机可读存储介质 | |
CN112149523B (zh) | 基于深度学习和并查集算法识别并抽取图片的方法及装置 | |
CN115019321A (zh) | 一种文本识别、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |