CN107644415A

CN107644415A - 一种文本图像质量评估方法及设备

Info

Publication number: CN107644415A
Application number: CN201710804804.0A
Authority: CN
Inventors: 李宏宇; 朱帆; 李雪峰
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-30
Anticipated expiration: 2037-09-08
Also published as: WO2019047949A1; JP6866495B2; JP2020508531A; SG11201912457PA; CN107644415B

Abstract

本发明公开了一种文本图像质量评估方法及设备，属于数字图像处理与分析技术领域。所述方法包括：获取所需评估的文本图像；将文本图像输入预先训练的文本质量评估模型中处理，根据文本质量评估模型的输出值，确定文本图像的质量指标值，质量指标值包括浮点数。本发明通过预先训练的文本质量评估模型对文本质量进行评估，评估过程简便易操作，作为OCR前的预处理操作，能够减少不必要的计算消耗，降低计算复杂度和计算量；且该文本质量评估模型能够模拟人类视觉对文本图像质量的评估过程，从而能够提供更有效和更精准的质量评估结果。

Description

一种文本图像质量评估方法及设备

技术领域

本发明涉及数字图像处理与分析技术领域，特别涉及一种文本图像质量评估方法及设备。

背景技术

随着OCR(Optical Character Recognition，光学字符识别)技术应用越来越广泛，采集得到的文本图像质量受到更多关注，文本图像质量评估方法也引起学术界和工业界的更广泛的兴趣。

现有技术中的图像质量评估方法主要可分为两大类，一类是有参考图像质量评估，另一类是无参考图像质量评估。其中有参考图像质量评估是将失真图像与原始图像进行特征对比，如通过梯度、对比度等特征的比较，得到失真图像的质量评估；无参考图像质量评估是直接提取失真图像的某些特征，如边缘强度、模糊程度等信息，得到图像质量的评估。

现有技术的大部分图像质量评估存在算法复杂、计算量大的特点，并且大多需要预先对图像进行处理再进行评估，过程较为复杂；同时，现有的大部分图像质量评估方法针对的是自然场景图像，并不适合文本图像质量评价，所以需要提供一种针对文本图像质量的评估方法。

发明内容

为了能够快速对文本图像进行质量评估，降低评估的计算复杂度和计算量，提供有效和更精准的质量评估结果，本发明实施例提供了一种文本图像质量评估方法及设备。所述技术方案如下：

第一方面，提供了一种文本图像质量评估方法，所述方法包括：

获取所需评估的文本图像；

将所述文本图像输入预先训练的文本质量评估模型中处理，根据所述文本质量评估模型的输出值，确定所述文本图像的质量指标值，所述质量指标值包括浮点数。

结合第一方面，在第一种可能实现的方式中，所述方法还包括：

获取训练的文本图像样本，并对每个所述文本图像样本进行质量指标值标注；

设置所述文本质量评估模型的文本质量网络；

基于所述文本图像样本及标注的质量指标值，通过所述文本质量网络对初始的文本质量评估模型的参数进行迭代计算训练，以获取所述文本质量评估模型。

结合第一方面的第一种可能实现的方式，在第二种可能实现的方式中，所述设置所述文本质量评估模型的文本质量网络包括：

设置文本质量网络结构，所述文本质量网络结构由五个Convolution层、四个ReLU层、三个Pooling层、一个DropOut层、一个SPP层、一个Sigmoid层、一个Loss层构成；

所述文本质量网络结构的顺序为：Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/DropOut/Convolution/SPP/Sigmoid/Loss；以及

设置所述文本质量网络结构Convolution层、Pooling层、DropOut层及SPP层的参数。

结合第一方面的第二种可能实现的方式，在第三种可能实现的方式中，设置的所述Convolution层的参数包括卷积核数目、卷积核大小、卷积窗口滑动步长及填充边缘像素值；所述Pooling层的参数包括采样规则、采样窗口大小、采样窗口滑动步长；所述DropOut层的参数包括丢弃率；所述SPP层的参数包括采样规则及金字塔层数。

结合第一方面的第二种或第三种可能实现的方式，在第四种可能实现的方式中，所述基于所述文本图像样本及标注的质量指标值，通过所述文本质量网络对初始的所述文本质量评估模型的参数进行迭代计算训练，以获取所述文本质量评估模型包括：

确定训练参数；

根据所述训练参数，将所述文本图像样本输入初始的所述文本质量评估模型；

获取所述文本质量网络的Convolution层、ReLU层、Pooling层、DropOut层、SPP层、Sigmoid层对所述文本图像样本进行处理的输出结果；

在所述文本质量网络的所述Loss层计算所述输出结果与所述标注的质量指标值之间的误差，并将所述误差反向传播到所述文本质量网络结构各层，以更新各层的网络参数，迭代计算直至所述误差达到预设范围；

获取最终生成的所述文本图像质量评估模型。

第二方面，提供了一种文本图像质量评估设备，所述设备包括：

文本图像获取模块，用于获取所需评估的文本图像；

评估模块，用于将所述文本图像输入预先训练的文本质量评估模型中处理，根据所述文本质量评估模型的输出值，确定所述文本图像的质量指标值，所述质量指标值包括浮点数。

结合第二方面，在第一种可能实现的方式中，所述设备还包括：

文本图像样本获取模块，用于获取训练的文本图像样本；

质量指标值标注模块，用于对每个所述文本图像样本进行质量指标值标注；

文本质量网络设置模块，用于设置所述文本质量评估模型的文本质量网络；

文本质量评估模型获取模块，用于基于所述文本图像样本及标注的质量指标值，通过所述文本质量网络对初始的文本质量评估模型的参数进行迭代计算训练，以获取所述文本质量评估模型。

结合第二方面的第一种可能实现的方式，在第二种可能实现的方式中，所述文本质量网络设置模块包括：

文本质量网络结构设置子模块，用于设置文本质量网络结构，所述文本质量网络结构由五个Convolution层、四个ReLU层、三个Pooling层、一个DropOut层、一个SPP层、一个Sigmoid层、一个Loss层构成；

层结构参数设置子模块，用于设置所述文本质量网络结构Convolution层、Pooling层、DropOut层及SPP层的参数。

结合第二方面的第二种可能实现的方式，在第三种可能实现的方式中，设置的所述Convolution层的参数包括卷积核数目、卷积核大小、卷积窗口滑动步长及填充边缘像素值；所述Pooling层的参数包括采样规则、采样窗口大小、采样窗口滑动步长；所述DropOut层的参数包括丢弃率；所述SPP层的参数包括采样规则及金字塔层数。

结合第二方面的第二种或第三种可能实现的方式，在第四种可能实现的方式中，所述文本质量评估模型获取模块具体包括：

训练参数确定子模块，确定训练参数；

输入子模块，用于根据所述训练参数，将所述文本图像样本输入初始的所述文本质量评估模型；

输出结构获取子模块，用于获取所述文本质量网络的Convolution层、ReLU层、Pooling层、DropOut层、SPP层、Sigmoid层对所述文本图像样本进行处理的输出结果；

误差计算子模块，在所述文本质量网络的所述Loss层计算所述输出结果与所述标注的质量指标值之间的误差；

迭代计算模块，用于将所述误差反向传播到所述文本质量网络结构各层，以更新各层的网络参数，迭代计算直至所述误差达到预设范围；

文本图像质量评估模型生成子模块，用于获取最终生成的所述文本图像质量评估模型。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供了一种文本图像质量评估方法及设备，方法通过获取所需评估的文本图像，将该文本图像输入预先训练的文本质量评估模型中，根据文本质量评估模型的输出值，确定文本图像的质量指标值，从而通过预先训练的文本质量评估模型，能够专门用于对文本图像的质量进行评估，且该评估过程简便易于操作，可以作为OCR前的预处理操作，能够减少计算消耗，与现有技术中的图像质量评估方法相比，大大降低了计算复杂度和计算量，并且与现有技术相比无需对图像进行预处理等操作，评估过程快捷；另外，因为该文本质量评估模型是基于深度学习的神经网络进行训练生成，在评估过程中能够模拟人类视觉对文本图像质量的评估过程，且该模型的参数通过迭代进行反复训练，所以通过该预先训练的文本质量评估模型对文本图像的质量进行评估，能够提供更加有效和更精准的质量评估结果，提高了评估效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的训练文本质量评估模型过程的方法流程图；

图2是本发明实施例提供的用于训练的文本图像样本示例图；

图3是本发明实施例提供的文本质量评估模型的文本质量网络结构示意图；

图4是本发明实施例提供的文本质量网络结构输出的M*N的灰度图的各层尺寸变化示意图；

图5是本发明实施例提供的利用训练的文本质量评估模型实施文本图像质量评估方法的流程示意图；

图6是本发明实施例提供的一幅进行评估的文本图像示例图；

图7是本发明实施例提供的另一幅进行评估的文本图像示例图；

图8是本发明实施例提供的一种文本图像质量评估设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种文本图像质量评估方法，该方法需要预先训练文本质量评估模型，再通过该文本质量评估模型对文本图像的质量进行评估。

参照图1所示，该训练文本质量评估模型的过程具体包括：

101、获取训练的文本图像样本，并对每个文本图像样本进行质量指标值标注。

具体的，该用于训练的文本图像样本包括从公开的文本图像质量数据库中获取的文本图像样本，还包括合成的文本图像样本；该文本图像样本可以为多光谱图像、普通彩色图像或灰度图像；图本图像中的文本包括中文、英文以及其他语音字符的文本图像。

对每个文本图像样本进行质量指标值标注包括：可以采用计算机自动标注，如将OCR识别的文本图像的质量参数作为文本图像的质量指标值；也可以采用人工手动标注，通过人眼观察文本图像标注文本图像的质量指标值；还可以采用其他方式对文本图像样本进行质量指标值进行标注，本发明实施例对该采用的方式不加以限定。

其中，文本图像的质量指标值可以用浮点数表示，浮点数越大，表示文本图像质量越好；对每个文本图像样本进行质量指标值标注后，还包括将所有标注的文本图像质量指标值大小缩放到浮点数0-0.1的范围内。

示例性的，参照图2中所示的a、b、c、d四个文本图像可以为训练该文本质量评估模型使用的文本图像样本，其中，对该a、b、c、d四个文本图像样本标注的质量指标值分别为：0.91，0.8658，0.2733，0.9067。

102、设置文本质量评估模型的文本质量网络。

需要说明的是，该文本质量评估模型是基于深度学习的卷积神经网络进行训练的，所欲需要设置神经网络结构，即文本质量网络。

设置文本质量评估模型的文本质量网络包括：

设置文本质量网络结构，文本质量网络结构由五个Convolution(卷积层)层、四个ReLU(Rectified Linear Unit，修正线性单元层)层、三个Pooling(池化层)层、一个DropOut(抛弃层)层、一个SPP(Spatial Pyramid Pooling,空间金字塔池化层)层、一个Sigmoid(非线性激活层)层、一个Loss(损失层)层构成；

文本质量网络结构的顺序为：Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/DropOut/Convolution/SPP/Sigmoid/Loss；

示例性的，参照图3所示，为该文本质量网络结构所述的各个层的结构示意图，其中CONV即Convolution，POOL即Pooling，DROP即DropOut。

设置文本质量网络结构Convolution层、Pooling层、DropOut层及SPP层的参数。

其中，设置的Convolution层的参数包括卷积核数目、卷积核大小、卷积窗口滑动步长及填充边缘像素值；Pooling层的参数包括采样规则、采样窗口大小、采样窗口滑动步长；DropOut层的参数包括丢弃率；SPP层的参数包括采样规则及金字塔层数。

具体的，五个Convolution层，三个Pooling层、DropOut层、SPP层的参数设置如下：

第一Convolution层的卷积核数目为96，卷积核大小为3*3，卷积窗口滑动步长为1，填充边缘像素值为0；第一Pooling层的采样规则为最大值采样，采样窗口大小为3，采样窗口滑动步长为2；

第二Convolution层的卷积核数目为96，卷积核大小为3*3，卷积窗口滑动步长为1，填充边缘像素值为2；第二Pooling层的采样规则为最大值采样，采样窗口大小为3*3，采样窗口滑动步长为2；

第三Convolution层的卷积核数目为128，卷积核大小为3*3，卷积窗口滑动步长为1，填充边缘像素值为1；第三层Pooling层的采样规则为最大值采样，采样窗口大小为3，采样窗口滑动步长为2；

第四Convolution层的卷积核数目为192，卷积核大小为1，卷积窗口滑动步长为1，填充边缘像素值为0；DropOut层丢弃率为0.35；

第五Convolution层的卷积核数目为1，卷积核大小为1，卷积窗口滑动步长为1，填充边缘像素为0；

SPP层采样规则为最大值采样，金字塔层数为1。

需要说明的是，以上所示的五个Convolution层，三个Pooling层、DropOut层、SPP层的参数的设置值为优选值，在实际训练过程中根据需要可进行调整，本发明实施例对该各层的参数的具体数值不加以限定。

103、基于文本图像样本及标注的质量指标值，通过文本质量网络对初始的文本质量评估模型的参数进行迭代训练，以获取文本质量评估模型。

具体的，该过程包括：

a、确定训练参数。

具体的，该训练参数还包括迭代总数、每次迭代样本数目、测试间隔、学习率、初始化网络各层权值、偏置项、以及偏置项和初始化网络各层权值的学习率等。

b、根据训练参数，将文本图像样本输入初始的文本质量评估模型。

c、获取文本质量网络的Convolution层、ReLU层、Pooling层、DropOut层、SPP层、Sigmoid层对文本图像样本进行处理的输出结果。

具体的，训练的文本图像样本数据依次经过各个Convolution层、ReLU层、Pooling层的操作，以及经过DropOut、SPP层、Sigmoid层的网络运算，并在Sigmoid层获取最终的输出结果。

d、在文本质量网络的Loss层计算输出结果与标注的质量指标值之间的误差，并将误差反向传播到文本质量网络结构各层，以更新各层的网络参数，迭代计算直至误差达到预设范围。

具体的，更新各层的网络参数包括更新初始化网络各层的权值。

进一步地，为了说明该训练过程，以对尺寸为M*N的灰度图像为例进行说明，将该M*N的灰度图像输入训练中的文本图像质量评估模型中，在该文本图像质量评估模型的文本质量网络结构各层输出的尺寸变化可以参照图4所示，具体如下：

第一层Convolution返回的结构大小为1×96×M×N；

第一层Pooling层返回的结构大小为1×96×M/2×N/2；

第二层Convolution返回的结构大小为1×96×M/2×N/2；

第二层Pooling层返回的结构大小为1×96×M/4×N/4；

第三层Convolution返回的结构大小为1×128×M/4×N/4；

第三层Pooling层返回的结构大小为1×128×M/8×N/8；

第四层Convolution返回的结构大小为1×192×M/8×N/8；

第五层Convolution返回的结构大小为1×1×M/8×N/8；

SPP层返回的结构大小为1×1×1×1；

Sigmoid层返回的结构大小为1×1×1×1；

再将Sigmoid层的输出结果在Loss层与该文本图像样本标注的质量指标值进行误差运算，并将误差返回以上各层，更新各层的网络参数。使用大量文本图像样本迭代该过程直至Loss层的误差达到预设范围。

e、获取最终生成的文本图像质量评估模型。

参照图5所示，是利用训练生成的该文本图像质量评估模型进行文本图像质量评估的过程，具体包括：

501、获取所需评估的文本图像。

具体的，该所需评估的文本图像与步骤101中的文本图像样本类似，此处不再加以赘述，步骤101中所述文本图像样本的特征均可以用于此处的文本图像。

502、将文本图像输入预先训练的文本质量评估模型中处理，根据文本质量评估模型的输出值，确定文本图像的质量指标值。

该质量指标值包括浮点数。

示例性的，将图6和图7中所示的文本图像输出该预先训练的该文本质量评估模型进行处理，经处理获取的图6中所示的文本图像的质量指标值为0.9756，获取的图7中所示的文本图像的质量指标值为0.9805。

本发明实施例提供了一种文本图像质量评估方法，通过获取所需评估的文本图像，将该文本图像输入预先训练的文本质量评估模型中，根据文本质量评估模型的输出值，确定文本图像的质量指标值，从而通过预先训练的文本质量评估模型，能够专门用于对文本图像的质量进行评估，且该评估过程简便易于操作，可以作为OCR前的预处理操作，能够减少计算消耗，与现有技术中的图像质量评估方法相比，大大降低了计算复杂度和计算量，并且与现有技术相比无需对图像进行预处理等操作，评估过程快捷；另外，因为该文本质量评估模型是基于深度学习的神经网络进行训练生成，在评估过程中能够模拟人类视觉对文本图像质量的评估过程，且该模型的参数通过迭代进行反复训练，所以通过该预先训练的文本质量评估模型对文本图像的质量进行评估，能够提供更加有效和更精准的质量评估结果，提高了评估效率。

实施例二

本发明实施例提供了一种文本图像质量评估设备，参照图8所示，该设备8包括：

文本图像获取模块81，用于获取所需评估的文本图像；

评估模块82，用于将文本图像输入预先训练的文本质量评估模型中处理，根据文本质量评估模型的输出值，确定文本图像的质量指标值，质量指标值包括浮点数。

进一步地，设备8还包括：

文本图像样本获取模块83，用于获取训练的文本图像样本；

质量指标值标注模块84，用于对每个文本图像样本进行质量指标值标注；

文本质量网络设置模块85，用于设置文本质量评估模型的文本质量网络；

文本质量评估模型获取模块86，用于基于文本图像样本及标注的质量指标值，通过文本质量网络对初始的文本质量评估模型的参数进行迭代计算训练，以获取文本质量评估模型。

进一步地，文本质量网络设置模块85包括：

文本质量网络结构设置子模块851，用于设置文本质量网络结构，文本质量网络结构由五个Convolution层、四个ReLU层、三个Pooling层、一个DropOut层、一个SPP层、一个Sigmoid层、一个Loss层构成；

文本质量网络结构的顺序为：Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/DropOut/Convolution/SPP/Sigmoid/Loss；以及

层结构参数设置子模块852，用于设置文本质量网络结构Convolution层、Pooling层、DropOut层及SPP层的参数。

进一步地，设置的Convolution层的参数包括卷积核数目、卷积核大小、卷积窗口滑动步长及填充边缘像素值；Pooling层的参数包括采样规则、采样窗口大小、采样窗口滑动步长；DropOut层的参数包括丢弃率；SPP层的参数包括采样规则及金字塔层数。

进一步地，文本质量评估模型获取模块86具体包括：

训练参数确定子模块861，确定训练参数；

输入子模块862，用于根据训练参数，将文本图像样本输入初始的文本质量评估模型；

输出结果获取子模块863，用于获取文本质量网络的Convolution层、ReLU层、Pooling层、DropOut层、SPP层、Sigmoid层对文本图像样本进行处理的输出结果；

误差计算子模块864，在文本质量网络的Loss层计算输出结果与标注的质量指标值之间的误差；

迭代计算模块865，用于将误差反向传播到文本质量网络结构各层，以更新各层的网络参数，迭代计算直至误差达到预设范围；

文本图像质量评估模型生成子模块866，用于获取最终生成的文本图像质量评估模型。

本发明实施例提供了一种文本图像质量评估设备，该设备通过获取所需评估的文本图像，将该文本图像输入预先训练的文本质量评估模型中，根据文本质量评估模型的输出值，确定文本图像的质量指标值，从而通过预先训练的文本质量评估模型，能够专门用于对文本图像的质量进行评估，且该评估过程简便易于操作，可以作为OCR前的预处理操作，能够减少计算消耗，与现有技术中的图像质量评估方法相比，大大降低了计算复杂度和计算量，并且与现有技术相比无需对图像进行预处理等操作，评估过程快捷；另外，因为该文本质量评估模型是基于深度学习的神经网络进行训练生成，在评估过程中能够模拟人类视觉对文本图像质量的评估过程，且该模型的参数通过迭代进行反复训练，所以通过该预先训练的文本质量评估模型对文本图像的质量进行评估，能够提供更加有效和更精准的质量评估结果，提高了评估效率。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的文本图像质量评估设备在执行文本图像质量评估方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本图像质量评估设备与文本图像质量评估方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本图像质量评估方法，其特征在于，所述方法包括：

获取所需评估的文本图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

设置所述文本质量评估模型的文本质量网络；

3.根据权利要求2所述的方法，其特征在于，所述设置所述文本质量评估模型的文本质量网络包括：

所述文本质量网络结构的顺序为：Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/Pooling/Convolution/ReLU/DropOut/Convolutio n/SPP/Sigmoid/Loss；以及

4.根据权利要求3所述的方法，其特征在于，设置的所述Convolution层的参数包括卷积核数目、卷积核大小、卷积窗口滑动步长及填充边缘像素值；所述Pooling层的参数包括采样规则、采样窗口大小、采样窗口滑动步长；所述DropOut层的参数包括丢弃率；所述SPP层的参数包括采样规则及金字塔层数。

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述文本图像样本及标注的质量指标值，通过所述文本质量网络对初始的所述文本质量评估模型的参数进行迭代计算训练，以获取所述文本质量评估模型包括：

确定训练参数；

获取最终生成的所述文本图像质量评估模型。

6.一种文本图像质量评估设备，其特征在于，所述设备包括：

文本图像获取模块，用于获取所需评估的文本图像；

7.根据权利要求6所述的设备，其特征在于，所述设备还包括：

文本图像样本获取模块，用于获取训练的文本图像样本；

8.根据权利要求7所述的设备，其特征在于，所述文本质量网络设置模块包括：

9.根据权利要求8所述的设备，其特征在于，设置的所述Convolution层的参数包括卷积核数目、卷积核大小、卷积窗口滑动步长及填充边缘像素值；所述Pooling层的参数包括采样规则、采样窗口大小、采样窗口滑动步长；所述DropOut层的参数包括丢弃率；所述SPP层的参数包括采样规则及金字塔层数。

10.根据权利要求7或8所述的设备，其特征在于，所述文本质量评估模型获取模块具体包括：

训练参数确定子模块，确定训练参数；

输出结果获取子模块，用于获取所述文本质量网络的Convolution层、ReLU层、Pooling层、DropOut层、SPP层、Sigmoid层对所述文本图像样本进行处理的输出结果；