CN112861836B - 文本图像处理方法、文本及卡证图像质量评价方法和装置 - Google Patents
文本图像处理方法、文本及卡证图像质量评价方法和装置 Download PDFInfo
- Publication number
- CN112861836B CN112861836B CN201911189228.9A CN201911189228A CN112861836B CN 112861836 B CN112861836 B CN 112861836B CN 201911189228 A CN201911189228 A CN 201911189228A CN 112861836 B CN112861836 B CN 112861836B
- Authority
- CN
- China
- Prior art keywords
- text image
- image
- text
- image block
- quality evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种文本图像处理方法、文本及卡证图像质量评价方法和装置,该文本图像处理方法包括:获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。通过本发明提供的文本图像处理方法,可以减少大小调整对文本图像块质量的影响,进而可以提高调整后的文本图像块的质量。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本图像处理方法、文本及卡证图像质量评价方法和装置。
背景技术
在对图像进行文本识别过程中,图像质量对文本识别的准确率影响较大,例如,由于抖动或者复杂的光线环境等,会造成所拍摄的图像模糊、反光或者图像太暗,导致文本识别失败。
目前,通常是利用神经网络对提取的文本图像块进行质量评价。由于神经网络要求输入的图像的长宽比通常是固定的,而实际应用中提取的文本图像块的长宽比往往不同于神经网络要求的长宽比,这样需要将提取的文本图像块进行大小调整,以满足神经网络的输入要求。然而,目前通常是直接将文本图像块进行压缩或是拉升,这种方式会较大的改变文本图像块的结构和特征,进而改变文本图像块的质量,造成图像质量评价结果较为不准确。
可见,现有技术中存在通过压缩或是拉升的方式调整文本图像大小导致文本图像质量较差的问题。
发明内容
本发明实施例提供一种文本图像处理方法、文本及卡证图像质量评价方法和装置,以解决现有技术中存在的通过压缩或是拉升的方式调整文本图像大小导致文本图像质量较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本图像处理方法。该方法包括:
获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;
将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
第二方面,本发明实施例提供了一种文本图像质量评价方法。该方法包括:
获取待评价文本图像;
若所述待评价文本图像中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的质量评价结果。
第三方面,本发明实施例提供了一种卡证图像质量评价方法。该方法包括:
提取卡证图像中的卡证区域;
识别所述卡证区域中的文本图像块;
若所述卡证区域中的文本图像块中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块;其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的图像质量评价结果;
根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
第四方面,本发明实施例提供了一种图像文本识别方法。该方法包括:
接收用户上传的卡证图像;
利用上述的卡证图像质量评价方法,对所述卡证图像进行图像质量评价,得到所述卡证图像的图像质量评价结果;
若所述图像质量评价结果指示所述卡证图像为合格图像,则对所述卡证图像进行文本识别;
若所述图像质量评价结果指示所述卡证图像为不合格图像,则输出提示信息,其中,所述提示信息用于提示用户重新上传图像。
第五方面,本发明实施例提供了一种模型训练方法。该方法包括:
获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;
分别识别所述S张图像样本中的文本图像块;
根据所述S张图像样本中的文本图像块和所述标签数据,对目标神经网络进行训练,得到图像质量评价模型;
其中,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
第六方面,本发明实施例还提供一种文本图像处理装置。该装置包括:
获取模块,用于获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
分割模块,用于对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;
拼接模块,用于将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
第七方面,本发明实施例还提供一种文本图像质量评价装置。该装置包括:
获取模块,用于获取待评价文本图像;
处理模块,用于若所述待评价文本图像中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
评价模块,用于将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的质量评价结果。
第八方面,本发明实施例还提供一种卡证图像质量评价装置。该装置包括:
提取模块,用于提取卡证图像中的卡证区域;
识别模块,用于识别所述卡证区域中的文本图像块;
处理模块,用于若所述卡证区域中的文本图像块中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块;其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
第一评价模块,用于将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的图像质量评价结果;
确定模块,用于根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
第九方面,本发明实施例还提供一种图像文本识别装置。该装置包括:
接收模块,用于接收用户上传的卡证图像;
评价模块,用于利用上述的卡证图像质量评价方法,对所述卡证图像进行图像质量评价,得到所述卡证图像的图像质量评价结果;
文本识别模块,用于若所述图像质量评价结果指示所述卡证图像为合格图像,则对所述卡证图像进行文本识别;
输出模块,用于若所述图像质量评价结果指示所述卡证图像为不合格图像,则输出提示信息,其中,所述提示信息用于提示用户重新上传图像。
第十方面,本发明实施例还提供一种模型训练装置。该装置包括:
获取模块,用于获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;
识别模块,用于分别识别所述S张图像样本中的文本图像块;
训练模块,用于根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型。
第十一方面,本发明实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文本处理方法的步骤,或者实现上述的文本图像质量评价方法的步骤,或者实现上述的卡证图像质量评价方法的步骤,或者实现上述的图像文本识别方法的步骤,或者实现上述的模型训练方法的步骤。
第十二方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本处理方法的步骤,或者实现上述的文本图像质量评价方法的步骤,或者实现上述的卡证图像质量评价方法的步骤,或者实现上述的图像文本识别方法的步骤,或者实现上述的模型训练方法的步骤。
本发明实施例中,通过获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。由于通过将长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,可以减少大小调整对文本图像块质量的影响,进而提高调整后的文本图像块的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本图像处理方法的流程图;
图2是本发明实施例提供的分割文本图像块的示意图;
图3a是本发明实施例提供的N个文本图像子块排列和拼接的示意图之一;
图3b是本发明实施例提供的N个文本图像子块排列和拼接的示意图之二;
图4是本发明实施例提供的文本图像质量评价方法的流程图;
图5a是本发明实施例提供的卡证图像质量评价方法的流程图;
图5b是本发明实施例提供的卡证图像的示意图;
图6是本发明实施例提供的图像文本识别方法的流程图;
图7是本发明实施例提供的模型训练方法的流程图;
图8是本发明实施例提供的目标神经网络的结构示意图;
图9是本发明实施例提供的文本图像处理装置的结构图;
图10是本发明实施例提供的文本图像质量评价装置的结构图;
图11是本发明实施例提供的卡证图像质量评价装置的结构图;
图12是本发明实施例提供的图像文本识别装置的结构图;
图13是本发明实施例提供的模型训练装置的结构图;
图14是本发明又一实施例提供的文本图像处理装置的结构图;
图15是本发明又一实施例提供的文本图像质量评价装置的结构图;
图16是本发明又一实施例提供的卡证图像质量评价装置的结构图;
图17是本发明又一实施例提供的图像文本识别装置的结构图;
图18是本发明又一实施例提供的模型训练装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本图像处理方法。参见图1,图1是本发明实施例提供的文本图像处理方法的流程图,如图1所示,包括以下步骤:
步骤101、获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件。
本实施例中,上述第一文本图像块可以是任意的待处理的文本图像块。上述第一文本图像块的长度和宽度的比值不满足预设比值条件,可以包括第一文本图像块的长度和宽度的比值不等于预设比值,或者第一文本图像块的长度和宽度的比值与预设比值的差值的绝对值大于或等于阈值等。其中,上述预设比值可以根据图像质量评价模型的输入图像的长宽比要求进行合理设置,例如,1、2或3等,优选为1。上述阈值也可以根据实际需求进行合理设置,例如,0.1、0.2或0.3等。
步骤102、对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数。
该步骤中,可以对长宽比不满足预设比值条件的第一文本图像块进行分割,得到多个文本图像子块。需要说明的是,上述N个文本图像子块的长度可以相同,也可以不同,本实施例对此不做限定。
步骤103、将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
该步骤中,可以将分割得到的多个文本图像子块进行拼接,例如,可以按照预设排布方式将多个文本图像子块进行排列后再拼接,得到拼接后的文本图像块,其中,拼接后的文本图像块的长度和宽度的比值满足预设比值条件。
可选的,上述第二文本图像块可以是拼接后的文本图像块;也可以是对拼接后的文本图像块进一步进行大小调整(即resize)后的文本图像块,以满足图像质量评价模型的输入要求。例如,拼接后的文本图像块的大小为93*93,而图像质量评价模型要求输入的图像大小为32*32,可以调整拼接后的文本图像块的大小为32*32。
本实施例中,由于通过将长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,可以减少大小调整对文本图像块质量的影响,进而可以提高调整后的文本图像块的质量。
可选的,上述步骤102,也即所述对所述第一文本图像块进行分割,得到N个文本图像子块,可以包括:
计算所述第一文本图像块的长度和宽度的第一比值;
若所述第一比值与预设比值的比值不为整数,则根据所述第一比值与预设比值,调整所述第一文本图像块的长度,以使第二比值与预设比值的比值为N;其中,所述第二比值为调整后的第一文本图像块的长度和宽度的比值;
将调整后的第一文本图像块平均分割成N个文本图像子块。
具体的,在第一文本图像块的长度和宽度的第一比值与预设比值的比值不为整数的情况下,无法将第一文本图像块平均分割成整数个长宽比等于预设比值的文本图像子块,因此可以对第一文本图像块的长度进行调整,以使调整后的第一文本图像块的长度和宽度的比值与预设比值的比值为整数,进而可以将调整后的第一文本图像块平均分割成N个文本图像子块,例如,如图2所示,预设比值为1,沿虚线所示位置将文本图像块分割成9个文本图像子块。其中,每个文本图像子块的长宽比可以等于或近似于预设比值。
需要说明的是,在第一文本图像块的长度和宽度的第一比值与预设比值的比值为整数N的情况下,可以直接沿第一文本图像块的长度方向将第一文本图像块平均分割成N个文本图像子块,其中,每个文本图像子块的长宽比等于预设比值。
本实施例通过在第一文本图像块的长度和宽度的比值与预设比值的比值不为整数的情况下,根据第一文本图像块的长度和宽度的比值与预设比值调整所述第一文本图像块的长度,以使调整后的第一文本图像块的长度和宽度的比值与预设比值的比值为N,进而可以将调整后的第一文本图像块平均分割成N个文本图像子块,不仅便于后续拼接成长宽比满足预设比例条件的文本图像块,还可以较为完整的保留文本图像块的特征信息,减少大小调整对文本图像块质量的影响。
可选的,所述根据所述第一比值与预设比值,调整所述第一文本图像块的长度,包括:
若所述第一比值与预设比值的余数小于预设值,则压缩所述第一文本图像块的长度;
若所述第一比值与预设比值的余数大于或等于预设值,则拉伸所述第一文本图像块的长度。
上述预设值可以是根据实际需求进行合理设置,例如,0.4、0.5、0.55等,优选为0.5。
本实施例在第一比值与预设比值的余数小于预设值的情况下压缩所述第一文本图像块的长度,在第一比值与预设比值的余数大于或等于预设值的情况下拉伸所述第一文本图像块的长度,可以减少大小调整对图像质量的影响。
以下以预设比值为1为例进行说明:在第一文本图像块的长度和宽度的第一比值不为整数(也即第一比值与1的比值不为整数)的情况下,可以计算第一文本图像块的长度和宽度的余数,若所述第一文本图像块的长度和宽度的余数小于所述第一文本图像块的宽度的一半,则压缩所述第一文本图像块的长度;若所述第一文本图像块的长度和宽度的余数大于或等于所述第一文本图像块的宽度的一半,则拉伸所述第一文本图像块的长度,这样可以较为完整的保留第一文本图像块的特征信息,减少大小调整对图像质量的影响。
可选的,所述将所述N个文本图像子块进行拼接,得到第二文本图像块,包括:
若N的平方根K为正整数,则将所述N个文本图像子块按照K行和K列进行排列和拼接,得到第二文本图像块;
本实施例中,若K为正整数,则可以直接将N个文本图像子块按照K行和K列进行排列和拼接,得到第二文本图像块,例如,若存在9个文本图像子块,则将9个文本图像子块按照3行和3列进行排列和拼接,如图3a所示。若K不为整数,则可以将N个文本图像子块和M个填充块按照P行和P列进行排列和拼接,得到第二文本图像块,其中,P等于K的上取整,例如,若N=8,则P=3。上述填充块可以是像素值为预设像素值的图像块,例如,像素值为255的图像块,或者像素值为0的图像块等,优选为像素值为255的图像块。例如,若存在8个文本图像子块,则将8个文本图像子块和1个填充块按照3行和3列进行排列和拼接,如图3b所示。
本实施例在N的平方根K为正整数的情况下将所述N个文本图像子块按照K行和K列进行排列和拼接,得到第二文本图像块;在N的平方根K不为整数,则将所述N个文本图像子块和M个填充块按照P行和P列进行排列和拼接,得到第二文本图像块,不仅拼接方式较为简单,还可以保证第二文本图像块满足预设比值条件。
本发明实施例提供一种文本图像质量评价方法。参见图4,图4是本发明实施例提供的一种文本图像质量评价方法的流程图,如图4所示,包括以下步骤:
步骤401、获取待评价文本图像。
上述待评价文本图像可以为任意具有文本的图像。
步骤402、若所述待评价文本图像中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块;其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件。
上述第一文本图像块的长度和宽度的比值不满足预设比值条件,可以包括第一文本图像块的长度和宽度的比值不等于预设比值,或者第一文本图像块的长度和宽度的比值与预设比值的差值的绝对值大于或等于阈值等。其中,上述预设比值可以根据图像质量评价模型的输入图像的长宽比要求进行合理设置,例如,1、2或3等,优选为1。上述阈值也可以根据实际需求进行合理设置,例如,0.1、0.2或0.3等。
该步骤中,可以利用上述任一实施例提供的文本图像处理方法对待评价文本图像中的第一文本图像块进行处理,得到第二文本图像块,第二文本图像块的长度和宽度的比值满足所述预设比值条件。需要说明的是,上述文本图像处理方法的相关内容可以参见前述论述,在此不做赘述。
步骤403、将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的质量评价结果。
本实施例中,上述图像质量评价模型可以是基于目标神经网络训练得到的模型。其中,目标神经网络可以包括但不限于Inception网络、ResNet网络、DenseNet网络或自定义的神经网络等。实际应用中,可以基于多个图像样本及其标签数据对目标神经网络进行训练,得到上述图像质量评价模型。其中,标签数据可以用于指示图像样本的文本区域的图像质量类别,例如,清晰、模糊或反光等,上述多个图像样本中可以包括不同质量类别的图像。
在该步骤中,通过将第二文本图像块至图像质量评价模型,以通过图像质量评价模型对第二文本图像块进行图像质量评价,输出图像质量评价结果,其中,上述图像质量评价结果可以包括各个图像质量类别及其概率,例如,清晰0.90,模糊0.095,反光0.001,低照度0.004;也可以仅包括概率最高的图像质量类别,例如,清晰。
本实施例中,由于通过将长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,减少大小调整对文本图像块质量的影响,进而可以提高文本图像块的质量评价结果的准确性。
可选的,所述图像质量评价模型为基于目标神经网络训练得到的模型,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
上述可分离卷积子网络可以对输入的图像进行可分离卷积,在大幅减少网络参数,降低模型大小的同时可以保持网络的强学习能力。
上述全连接层结合softmax层可以输出Q个图像质量类别的概率,Q为正整数。其中,上述Q个图像质量类别可以根据实际需求进行合理设置,例如,上述Q个图像质量类别可以包括清晰、模糊和反光三个图像质量类别,也可以包括清晰、模糊、反光和低照度四个图像质量类别,也可以包括清晰、运动模糊、高斯模糊、反光、低照度五个图像质量类别,等等。
可选的,所述可分离卷积子网络包括R个可分离卷积单元,所述分离卷积单元包括可分离卷积层、点卷积层、批量归一化层和激活层,R为大于1的整数。
上述R的取值可以根据实际需求进行合理设置,例如,5、6、7等。优选的,上述R的取值为5。
上述可分离卷积层可以包括深度卷积层和点卷积层(也即1*1的卷积层),用于对输入的特征图进行可分离卷积。上述点卷积层(也即1*1的卷积层)可以对可分离卷积层输出的特征图进行通道之间关系的整合。
上述批量归一化层(也即batchnorm层)可用于加速网络训练,使损失函数快速收敛。上述激活层也可称为激励层,其激活函数可以包括但不限于relu函数。可选的,本实施例可以在每个可分离卷积层和点卷积层均设置批量归一化层和激活层,以提高网络的训练速度和分类能力。
可选的,所述将所述第二文本图像块输入至图像质量评价模型,得到所述第二文本图像块的图像质量评价结果之前,所述方法还包括:
训练所述图像质量评价模型。
例如,可以获取多张图像样本和所述多张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示文本图像块的图像质量类别,并根据所述多个图像样本和所述标签数据训练图像质量评价模型。
可选的,所述训练所述图像质量评价模型可以包括:获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;分别识别所述S张图像样本中的文本图像块;根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型。
本发明实施例提供一种卡证图像质量评价方法。参见图5a,图5a是本发明实施例提供的卡证图像质量评价方法的流程图,如图5a所示,包括以下步骤:
步骤501、提取卡证图像中的卡证区域。
本实施例中,上述卡证图像为包括卡证区域的图像,例如,身份证图像、驾驶证图像、护照图像、社保卡图像、学生证图像、工作证图像等。通常,卡证图像中除了卡证区域之外,通常还会包括一些背景区域。例如,如图5b所示,卡证图像10包括卡证区域11和背景区域12。
可选的,可以通过图像边缘检测的方式定位待处理图像中的卡证区域并截取卡证区域,也可以是通过预先训练的卡证检测模型定位待处理图像中的卡证区域并截取卡证区域,本实施例对此不做限定。其中,上述卡证检测模型可以包括但不限于基于生成对抗网络训练得到的模型或基于YoloV3网络训练得到的模型等。
可选的,在提取待处理图像中的卡证区域之前,本实施例还可以对待处理图像进行预处理,例如,对待处理图像进行图像增强处理、图像滤波处理、归一化处理等,其中,上述归一化处理可以是指将待处理图像转换为预设大小,进而提取预处理之后的待处理图像中的卡证区域。
步骤502、识别所述卡证区域中的文本图像块。
例如,可以基于卡证区域中文本图像块的水平投影和垂直投影定位文本图像块,也可以通过预先训练的文本识别模型识别卡证区域中的文本图像块。
实际应用中,上述卡证区域通常包括多个长宽比例不同的文本图像块。例如,身份证图像的卡证区域包括姓名、性别、民族、出生日期、住址和身份证号等文本图像块。
步骤503、若所述卡证区域中的文本图像块中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块。
本实施例中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;在卡证区域中的文本图像块中存在长度和宽度的比值不满足预设比值条件的文本图像块的情况下,可以利用上述任一实施例提供的文本图像处理方法对该文本图像块进行处理,以使处理后的文本图像块满足预设比值条件。需要说明的是,上述图像处理方法的相关内容可以参见前述论述,在此不做赘述。
需要说明的是,上述第一文本图像块的数量可以是多个,相应的可以得到多个第二文本图像块。
步骤504、将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的图像质量评价结果。
本实施例中,上述图像质量评价模型可以是基于目标神经网络训练得到的模型。其中,目标神经网络可以包括但不限于Inception网络、ResNet网络、DenseNet网络或自定义的神经网络等。实际应用中,可以基于多个图像样本及其标签数据对目标神经网络进行训练,得到上述图像质量评价模型。其中,标签数据可以用于指示图像样本的文本区域的图像质量类别,例如,清晰、模糊或反光等,上述多个图像样本中可以包括不同质量类别的图像。
可选的,所述图像质量评价模型为基于目标神经网络训练得到的模型,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
可选的,所述可分离卷积子网络包括R个可分离卷积单元,所述分离卷积单元包括可分离卷积层、点卷积层、批量归一化层和激活层,R为大于1的整数。
需要说明的是,若第二文本图像块的数量为多个,则可以分别将多个第二文本图像块中每个第二文本图像块输入图像质量评价模型,得到多个第二文本图像块中每个第二文本图像块的图像质量评价结果。
步骤505、根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
可选的,若所述卡证区域中的文本图像块中存在第三文本图像块,则将所述卡证区域中的第三文本图像块输入至图像质量评价模型,得到所述第三文本图像块的图像质量评价结果,其中,所述第三文本图像块为所述卡证区域中的文本图像块中除所述第一文本图像块之外的文本图像块,且所述第三文本图像块的长度和宽度的比值满足所述预设比值条件。
需要说明的是,对第三文本图像块进行图像质量评价所采用的图像质量评价模型和对第二文本图像块进行图像质量评价所采用的图像质量评价模型可以是同一图像质量评价模型。
例如,若第二文本图像块的图像质量评价结果和/或第三文本图像块的图像质量评价结果中存在图像质量评价结果指示图像质量不合格,如存在图像质量类别为模糊或者反光或者低照度等,则确定所述卡证图像的图像质量评价结果指示图像质量不合格。
本实施例中,由于将卡证区域中长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,减少大小调整对文本图像块质量的影响,此外,根据所述第二文本图像块的图像质量评价结果和所述第三文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果,可以提高卡证图像的图像质量评价结果的准确性,进而提高图像文本识别的准确性。
可选的,上述步骤501,也即所述提取卡证图像中的卡证区域,可以包括:
将所述卡证图像输入预先训练的卡证检测模型,得到所述卡证图像中的卡证区域的位置信息,其中,所述卡证检测模型为基于YoloV3网络训练得到的模型;
根据所述卡证图像中的卡证区域的位置信息,提取所述卡证图像中的卡证区域。
本实施例中,可以通过基于YoloV3网络训练得到的卡证检测模型定位待处理图像中的卡证区域,也即获取待处理图像中的卡证区域的位置信息,进而可以基于卡证区域的位置信息从待处理图像中提取卡证区域。实际应用中,可以基于多张包括卡证区域的图像样本及其标签数据对YoloV3网络进行训练,得到卡证检测模型。
本实施例通过卡证检测模型从待处理图像中提取卡证区域,可以提高卡证区域提取的速度和准确性。
可选的,上述步骤502,也即所述识别所述卡证区域中的文本图像块,可以包括:
将所述卡证区域输入预先训练的生成对抗网络模型,得到所述卡证区域中的文本图像块。
上述生成对抗网络模型是一种深度学习模型,通常包括生成模型和判别模型,其中,该生成对抗网络模型可以为基于图像样本和其对应的标签图像训练得到的模型,所述图像样本为包括卡证区域的图像,所述标签图像为标注所述图像样本中文字区域后得到的图像。
本实施例通过预先训练的生成对抗网络模型识别卡证区域中的文本图像块,由于生成对抗网络模型具有较强的鲁棒性,可以减少文字倾斜、文字噪声等对文字区域定位的影响,提高定位图像的文字区域的准确性。此外,基于训练的生成对抗网络模型定位图像中文字区域,还可以提高定位图像的文字区域的速度。
本发明实施例提供一种图像文本识别方法。参见图6,图6是本发明实施例提供的图像文本识别方法的流程图,如图6所示,包括以下步骤:
步骤601、接收用户上传的卡证图像。
本实施例中,上述卡证图像可以是任意包含卡证区域的图像,例如,身份证图像、驾驶证图像、护照图像、社保卡图像、学生证图像、工作证图像等。
步骤602、利用上述的卡证图像质量评价方法,对所述卡证图像进行图像质量评价,得到所述卡证图像的图像质量评价结果。
本实施例中,可以基于上述任一实施例提供的卡证图像质量评价方法对卡证图像进行图像质量评价进行图像质量评价,得到图像质量评价结果。其中,上述卡证图像质量评价方法的相关内容可以参见前述论述,在此不做赘述。
步骤603、若所述图像质量评价结果指示所述卡证图像为合格图像,则对所述卡证图像进行文本识别。
该步骤中,若所述图像质量评价结果指示所述待处理图像为合格图像,例如,上述图像质量评价结果指示概率最高的图像质量类别为清晰,则可以基于上述卡证图像进行文本识别,例如,通过OCR(Optical Character Recognition,光学字符识别)技术对上述卡证图像进行文本识别。
步骤604、若所述图像质量评价结果指示所述卡证图像为不合格图像,则输出提示信息,其中,所述提示信息用于提示用户重新上传图像。
该步骤中,若所述图像质量评价结果指示所述卡证图像为不合格图像,例如,上述图像质量评价结果指示概率最高的图像质量类别为模糊或反光或低照度等,此时若基于该卡证图像进行文本识别,很容易导致文本识别失败或不准确,因此,可以输出提示信息,以提示用户重新上传合格的图像。
实际情况中,为了保证安全性,许多互联网应用都需要对用户的身份信息进行身份验证,本实施例可以在需要对用户进行身份信息验证的情况下,接收用户上传的卡证图像,并对用户上传的卡证图像进行质量评价,若该卡证图像为合格图像,则可以直接识别该卡证图像中的身份信息以进行验证;若该卡证图像为不合格图像,为了减少因图像质量导致的身份信息识别失败或是不准确的情况出现,可以提示用户重新上传卡证图像,并可以对用户重新上传的卡证图像进行图像质量评价。
可选的,上述提示信息可以包括卡证图像不合格的原因信息,例如,运动模糊、高斯模糊、反光和低照度等中的至少一项,这样便于用户参照该原因信息重新上传卡证图像。
本实施例利用上述的卡证图像质量评价方法对用户上传的卡证图像进行图像质量评价,得到图像质量评价结果,在所述图像质量评价结果指示所述卡证图像为合格图像的情况下对所述卡证图像进行文本识别,在所述图像质量评价结果指示所述卡证图像为不合格图像的情况下输出提示信息,以提示用户重新上传合格的图像,可以提高身份信息验证的准确性。
本发明实施例提供一种模型训练方法,上述实施例的图像质量评价模型可以是基于本发明实施例提供的模型训练方法训练得到的模型。参见图7,图7是本发明实施例提供的模型训练方法的流程图,如图7所示,包括以下步骤:
步骤701、获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数。
上述S的值可以根据实际需求进行合理设置,例如,5000、20000或100000等。上述S张图像样本可以包括不同图像质量类别的图像样本,例如,上述S张图像样本可以包括模糊类的图像样本、反光类的图像样本和清晰类的图像样本。可选的,模糊类的图像样本可以包括不同模糊类型的图像样本,例如,高斯模糊类的图像样本、运动模糊类的图像样本以及混合有高斯模糊和运动模糊的图像样本等。可选的,反光类的图像样本可以包括不同反光强度的图像样本。
可选的,上述图像样本可以为卡证图像,也即包括卡证区域的图像,上述文本图像块可以是图像样本的卡证区域的文本图像块。
步骤702、分别识别所述S张图像样本中的文本图像块。
例如,可以基于图像样本中文本图像块的水平投影和垂直投影定位文本图像块,也可以通过预先训练的文本识别模型识别图像样本中的文本图像块。
需要说明的是,上述图像样本可以包括多个长宽比例不同的文本图像块。例如,身份证图像的卡证区域包括姓名、性别、民族、出生日期、住址和身份证号等文本图像块。
步骤703、根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型。
该步骤中,可以基于S个图像样本中的文本图像块以及各个文本图像块对应的标签数据训练图像质量评价模型,进而可以基于该图像质量评价模型进行图像质量检测。
可选的,所述根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型,包括:
根据所述S张图像样本中的文本图像块和所述标签数据,对目标神经网络进行训练,得到所述图像质量评价模型;
其中,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
上述可分离卷积子网络可以对输入的图像进行可分离卷积,在大幅减少网络参数,降低模型大小的同时可以保持网络的强学习能力。
上述全连接层结合softmax层可以输出Q个图像质量类别的概率,Q为正整数。其中,上述Q个图像质量类别可以根据实际需求进行合理设置,例如,上述Q个图像质量类别可以包括清晰、模糊和反光三个图像质量类别,也可以包括清晰、模糊、反光和低照度四个图像质量类别,也可以包括清晰、运动模糊、高斯模糊、反光、低照度五个图像质量类别,等等。
可选的,所述可分离卷积子网络包括R个可分离卷积单元,所述分离卷积单元包括可分离卷积层、点卷积层、批量归一化层和激活层,R为大于1的整数。
上述R的取值可以根据实际需求进行合理设置,例如,5、6、7等。优选的,上述R的取值为5。
上述可分离卷积层可以包括深度卷积层和点卷积层(也即1*1的卷积层),用于对输入的特征图进行可分离卷积。上述点卷积层(也即1*1的卷积层)可以对可分离卷积层输出的特征图进行通道之间关系的整合。
上述批量归一化层(也即batchnorm层)可用于加速网络训练,使损失函数快速收敛。上述激活层也可称为激励层,其激活函数可以包括但不限于relu函数。可选的,本实施例可以在每个可分离卷积层和点卷积层均设置批量归一化层和激活层,以提高网络的训练速度和分类能力。
以下结合图8所示的目标神经网络为例进行说明:
参见图8,本实施例提供的目标神经网络可以包括:
第一层:可分离卷积层,其卷积核为3*3,步长为2,使用batchnorm,激活函数为relu,输出通道数为32,其输入图像可以为32*32*3,其输出的特征图(即feature map)可以为16*16*32。
第二层:点卷积层,也可称为1*1卷积层,其卷积核为1*1,步长为1,使用batchnorm,激活函数为relu,输出通道数为32,其输出的feature map可以为16*16*32。该1*1卷积层可以用于整合通道之间的关系。
第三层:可分离卷积层,其卷积核为3*3,步长为2,使用batchnorm,激活函数为relu,输出通道数为64,其输出的feature map可以为8*8*64。
第四层:1*1卷积层,其卷积核为1*1,步长为1,使用batchnorm,激活函数为relu,输出通道数为64,其输出的feature map为8*8*64。该1*1卷积层也可以用于整合通道之间的关系。
第五层:可分离卷积层,其卷积核为3*3,步长为2,使用batchnorm,激活函数为relu,输出通道数为128,其输出的feature map为4*4*128。
第六层:1*1卷积层,其卷积核为1*1,步长为1,使用batchnorm,激活函数为relu,输出通道数为128,其输出的feature map为4*4*128。该1*1卷积层也可以用于整合通道之间的关系。
第七层:可分离卷积层,其卷积核为3*3,步长为2,使用batchnorm,激活函数为relu,输出通道数为256,其输出的feature map为2*2*256。
第八层:1*1卷积层,其卷积核为1*1,步长为1,使用batchnorm,激活函数为relu,输出通道数为256,其输出的feature map为2*2*256。该1*1卷积层也可以用于整合通道之间的关系。
第九层:可分离卷积层,其卷积核为3*3,步长为2,使用batchnorm,激活函数为relu,输出通道数为512,其输出的feature map为1*1*512。
第十层:1*1卷积层,其卷积核1*1,步长为1,使用batchnorm,激活函数为relu,输出通道数为512,其输出的feature map为1*1*512。该1*1卷积层也可以用于整合通道之间的关系。
第十一层:全连接层和softmax层,可根据图像质量类别数量确定输出的个数。
需要说明的是,本实施例对上述目标神经网络进行训练所采用的损失函数可以是交叉熵损失函数。
本实施例中,由于文本图像块通常较小,因此目标神经网络的输入也设置的较小,这样可以避免大小调整(即resize)太多引入其他未知的噪声。此外,为了控制参数量,所有的卷积操作都采用可分离卷积,可以加速网络训练,使损失函数快速收敛。
参见图9,图9是本发明实施例提供的文本图像处理装置的结构图。如图9所示,文本图像处理装置900包括:
获取模块901,用于获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
分割模块902,用于对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;
拼接模块903,用于将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
可选的,所述分割模块,包括:
计算单元,用于计算所述第一文本图像块的长度和宽度的第一比值;
调整单元,用于若所述第一比值与预设比值的比值不为整数,则根据所述第一比值与预设比值,调整所述第一文本图像块的长度,以使第二比值与预设比值的比值为N;其中,所述第二比值为调整后的第一文本图像块的长度和宽度的比值;
分割单元,用于将调整后的第一文本图像块平均分割成N个文本图像子块。
可选的,所述调整单元具体用于:
若所述第一比值与预设比值的余数小于预设值,则压缩所述第一文本图像块的长度;
若所述第一比值与预设比值的余数大于或等于预设值,则拉伸所述第一文本图像块的长度。
可选的,所述拼接模块具体用于:
若N的平方根K为正整数,则将所述N个文本图像子块按照K行和K列进行排列和拼接,得到第二文本图像块;
本发明实施例提供的文本图像处理装置900能够实现上述文本图像处理方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的文本图像处理装置900,由于通过将长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,可以减少大小调整对文本图像块质量的影响,进而提高调整后的文本图像块的质量。
参见图10,图10是本发明实施例提供的文本图像质量评价装置的结构图。如图10所示,文本图像质量评价装置1000包括:
获取模块1001,用于获取待评价文本图像;
处理模块1002,用于若所述待评价文本图像中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
评价模块1003,用于将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的质量评价结果。
可选的,所述图像质量评价模型为基于目标神经网络训练得到的模型,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
可选的,所述可分离卷积子网络包括R个可分离卷积单元,所述分离卷积单元包括可分离卷积层、点卷积层、批量归一化层和激活层,R为大于1的整数。
可选的,所述装置还包括:
训练模块,用于所述将所述第二文本图像块输入至图像质量评价模型,得到所述第二文本图像块的图像质量评价结果之前,训练所述图像质量评价模型。
本发明实施例提供的文本图像质量评价装置1000能够实现上述文本图像质量评价方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的文本图像质量评价装置1000,由于通过将长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,减少大小调整对文本图像块质量的影响,进而可以提高文本图像块的质量评价结果的准确性。
参见图11,图11是本发明实施例提供的卡证图像质量评价装置的结构图。如图11所示,卡证图像质量评价装置1100包括:
提取模块1101,用于提取卡证图像中的卡证区域;
识别模块1102,用于识别所述卡证区域中的文本图像块;
处理模块1103,用于若所述卡证区域中的文本图像块中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块;其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
第一评价模块1104,用于将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的图像质量评价结果;
确定模块1105,用于根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
可选的,所述装置还包括:
第二评价模块,用于若所述卡证区域中的文本图像块中存在第三文本图像块,则将所述卡证区域中的第三文本图像块输入至图像质量评价模型,得到所述第三文本图像块的图像质量评价结果,其中,所述第三文本图像块为所述卡证区域中的文本图像块中除所述第一文本图像块之外的文本图像块,且所述第三文本图像块的长度和宽度的比值满足所述预设比值条件;
所述确定模块具体用于:
根据所述第二文本图像块的图像质量评价结果和所述第三文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
可选的,所述提取模块具体用于:
将所述卡证图像输入预先训练的卡证检测模型,得到所述卡证图像中的卡证区域的位置信息,其中,所述卡证检测模型为基于YoloV3网络训练得到的模型;
根据所述卡证图像中的卡证区域的位置信息,提取所述卡证图像中的卡证区域。
可选的,所述识别模块具体用于:
将所述卡证区域输入预先训练的生成对抗网络模型,得到所述卡证区域中的文本图像块。
本发明实施例提供的卡证图像质量评价装置1100能够实现上述卡证图像质量评价方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的卡证图像质量评价装置1100,由于将卡证区域中长宽比不满足预设比值条件的文本图像块进行分割和拼接以使其满足预设比值条件,这样可以较为完整的保留文本图像块的特征信息,减少大小调整对文本图像块质量的影响,此外,根据所述第一文本图像块的图像质量评价结果和所述第二文本图像的图像质量评价结果确定所述卡证图像的图像质量评价结果,可以提高卡证图像的图像质量评价结果的准确性,进而提高图像文本识别的准确性。
参见图12,图12是本发明实施例提供的图像文本识别装置的结构图。如图12所示,图像文本识别装置1200包括:
接收模块1201,用于接收用户上传的卡证图像;
评价模块1202,用于利用上述的卡证图像质量评价方法,对所述卡证图像进行图像质量评价,得到所述卡证图像的图像质量评价结果;
文本识别模块1203,用于若所述图像质量评价结果指示所述卡证图像为合格图像,则对所述卡证图像进行文本识别;
输出模块1204,用于若所述图像质量评价结果指示所述卡证图像为不合格图像,则输出提示信息,其中,所述提示信息用于提示用户重新上传图像。
本发明实施例提供的图像文本识别装置1200能够实现上述图像文本识别方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的图像文本识别装置1200,利用上述的卡证图像质量评价方法对用户上传的卡证图像进行图像质量评价,得到图像质量评价结果,在所述图像质量评价结果指示所述卡证图像为合格图像的情况下对所述卡证图像进行文本识别,在所述图像质量评价结果指示所述卡证图像为不合格图像的情况下输出提示信息,以提示用户重新上传合格的图像,可以提高身份信息验证的准确性。
参见图13,图13是本发明实施例提供的模型训练装置的结构图。如图13所示,模型训练装置1300包括:
获取模块1301,用于获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;
识别模块1302,用于分别识别所述S张图像样本中的文本图像块;
训练模块1303,用于根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型。
可选的,所述训练模块具体用于:
根据所述S张图像样本中的文本图像块和所述标签数据,对目标神经网络进行训练,得到所述图像质量评价模型;
其中,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
可选的,所述可分离卷积子网络包括R个可分离卷积单元,所述分离卷积单元包括可分离卷积层、点卷积层、批量归一化层和激活层,R为大于1的整数。
本发明实施例提供的模型训练装置1300能够实现上述模型训练方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的模型训练装置1300,获取模块1301,用于获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;识别模块1302,用于分别识别所述S张图像样本中的文本图像块;训练模块1303,用于根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型,可以提高训练得到的图像质量评价模型的通用性以及其图像质量评价结果的准确性。
参见图14,图14是本发明又一实施提供的文本图像处理装置的结构图,如图14所示,文本图像处理装置1400包括:处理器1401、存储器1402及存储在所述存储器1402上并可在所述处理器上运行的计算机程序,文本图像处理装置1400中的各个组件通过总线接口1403耦合在一起,所述计算机程序被所述处理器1401执行时实现如下步骤:
获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;
将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
应理解的是,本实施例中,上述处理器1401能够实现上述文本图像处理方法实施例的各个过程,为避免重复,这里不再赘述。
参见图15,图15是本发明又一实施提供的文本图像质量评价装置的结构图,如图15所示,文本图像质量评价装置1500包括:处理器1501、存储器1502及存储在所述存储器1502上并可在所述处理器上运行的计算机程序,文本图像质量评价装置1500中的各个组件通过总线接口1503耦合在一起,所述计算机程序被所述处理器1501执行时实现如下步骤:
获取待评价文本图像;
若所述待评价文本图像中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的质量评价结果。
应理解的是,本实施例中,上述处理器1501能够实现上述文本图像质量评价方法实施例的各个过程,为避免重复,这里不再赘述。
参见图16,图16是本发明又一实施提供的卡证图像质量评价装置的结构图,如图16所示,卡证图像质量评价装置1600包括:处理器1601、存储器1602及存储在所述存储器1602上并可在所述处理器上运行的计算机程序,卡证图像质量评价装置1600中的各个组件通过总线接口1603耦合在一起,所述计算机程序被所述处理器1601执行时实现如下步骤:
提取卡证图像中的卡证区域;
识别所述卡证区域中的文本图像块;
若所述卡证区域中的文本图像块中存在第一文本图像块,则利用上述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块;其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的图像质量评价结果;
根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
应理解的是,本实施例中,上述处理器1601能够实现上述卡证图像质量评价方法实施例的各个过程,为避免重复,这里不再赘述。
参见图17,图17是本发明又一实施提供的图像文本识别装置的结构图,如图17所示,图像文本识别装置1700包括:处理器1701、存储器1702及存储在所述存储器1702上并可在所述处理器上运行的计算机程序,图像文本识别装置1700中的各个组件通过总线接口1703耦合在一起,所述计算机程序被所述处理器1701执行时实现如下步骤:
接收用户上传的卡证图像;
利用上述的卡证图像质量评价方法,对所述卡证图像进行图像质量评价,得到所述卡证图像的图像质量评价结果;
若所述图像质量评价结果指示所述卡证图像为合格图像,则对所述卡证图像进行文本识别;
若所述图像质量评价结果指示所述卡证图像为不合格图像,则输出提示信息,其中,所述提示信息用于提示用户重新上传图像。
参见图18,图18是本发明又一实施提供的模型训练装置的结构图,如图18所示,模型训练装置1800包括:处理器1801、存储器1802及存储在所述存储器1802上并可在所述处理器上运行的计算机程序,模型训练装置1800中的各个组件通过总线接口1803耦合在一起,所述计算机程序被所述处理器1801执行时实现如下步骤:
获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;
分别识别所述S张图像样本中的文本图像块;
根据所述S张图像样本中的文本图像块和所述标签数据训练图像质量评价模型。
本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述文本图像质量评价方法实施例的各个过程,或者实现上述卡证图像质量评价方法实施例的各个过程,或者实现上述图像文本识别方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本图像质量评价方法实施例的各个过程,或者实现上述卡证图像质量评价方法实施例的各个过程,或者实现上述图像文本识别方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (13)
1.一种文本图像处理方法,其特征在于,经所述文本图像处理方法处理的文本图像块用于训练神经网络模型,所述方法包括:
获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;
将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本图像块进行分割,得到N个文本图像子块,包括:
计算所述第一文本图像块的长度和宽度的第一比值;
若所述第一比值与预设比值的比值不为整数,则根据所述第一比值与预设比值,调整所述第一文本图像块的长度,以使第二比值与预设比值的比值为N;其中,所述第二比值为调整后的第一文本图像块的长度和宽度的比值;
将调整后的第一文本图像块平均分割成N个文本图像子块。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一比值与预设比值,调整所述第一文本图像块的长度,包括:
若所述第一比值与预设比值的余数小于预设值,则压缩所述第一文本图像块的长度;
若所述第一比值与预设比值的余数大于或等于预设值,则拉伸所述第一文本图像块的长度。
5.一种文本图像质量评价方法,其特征在于,包括:
获取待评价文本图像;
若所述待评价文本图像中存在第一文本图像块,则利用权利要求1-4任一项所述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的质量评价结果。
6.一种卡证图像质量评价方法,其特征在于,包括:
提取卡证图像中的卡证区域;
识别所述卡证区域中的文本图像块;
若所述卡证区域中的文本图像块中存在第一文本图像块,则利用权利要求1至4中任一项所述的文本图像处理方法对所述第一文本图像块进行处理,得到第二文本图像块;其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
将所述第二文本图像块输入图像质量评价模型,得到所述第二文本图像块的图像质量评价结果;
根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述卡证区域中的文本图像块中存在第三文本图像块,则将所述卡证区域中的第三文本图像块输入至图像质量评价模型,得到所述第三文本图像块的图像质量评价结果,其中,所述第三文本图像块为所述卡证区域中的文本图像块中除所述第一文本图像块之外的文本图像块,且所述第三文本图像块的长度和宽度的比值满足所述预设比值条件;
所述根据所述第二文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果,包括:
根据所述第二文本图像块的图像质量评价结果和所述第三文本图像块的图像质量评价结果确定所述卡证图像的图像质量评价结果。
8.一种图像文本识别方法,其特征在于,包括:
接收用户上传的卡证图像;
利用权利要求6至7中任一项所述的卡证图像质量评价方法,对所述卡证图像进行图像质量评价,得到所述卡证图像的图像质量评价结果;
若所述图像质量评价结果指示所述卡证图像为合格图像,则对所述卡证图像进行文本识别;
若所述图像质量评价结果指示所述卡证图像为不合格图像,则输出提示信息,其中,所述提示信息用于提示用户重新上传图像。
9.一种模型训练方法,其特征在于,包括:
获取S张图像样本和所述S张图像样本的标签数据,其中,每个所述图像样本均包括文本图像块,所述标签数据用于指示所述文本图像块的图像质量类别,S为大于1的整数;
分别识别所述S张图像样本中的文本图像块;
根据所述S张图像样本中的文本图像块和所述标签数据,对目标神经网络进行训练,得到图像质量评价模型;所述图像质量评价模型用于权利要求5所述的方法,或者所述图像质量评价模型用于权利要求6-7中任一项所述的方法;
其中,所述目标神经网络包括依次连接的可分离卷积子网络、全连接层和softmax层。
10.根据权利要求9所述的方法,其特征在于,所述可分离卷积子网络包括R个可分离卷积单元,所述分离卷积单元包括可分离卷积层、点卷积层、批量归一化层和激活层,R为大于1的整数。
11.一种文本图像处理装置,其特征在于,经所述文本图像处理装置处理的文本图像块用于训练神经网络模型,所述装置包括:
获取模块,用于获取待处理的第一文本图像块,其中,所述第一文本图像块的长度和宽度的比值不满足预设比值条件;
分割模块,用于对所述第一文本图像块进行分割,得到N个文本图像子块,其中,N为大于1的整数;
拼接模块,用于将所述N个文本图像子块进行拼接,得到第二文本图像块,其中,所述第二文本图像块的长度和宽度的比值满足所述预设比值条件。
12.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的文本图像处理方法的步骤,或者实现如权利要求5所述的图像质量评价方法的步骤,或者实现如权利要求6至7中任一项所述的卡证图像质量评价方法的步骤,或者实现如权利要求8所述的图像文本识别方法的步骤,或者实现如权利要求9至10中任一项所述的模型训练方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的文本图像处理方法的步骤,或者实现如权利要求5所述的图像质量评价方法的步骤,或者实现如权利要求6至7中任一项所述的卡证图像质量评价方法的步骤,或者实现如权利要求8所述的图像文本识别方法的步骤,或者实现如权利要求9至10中任一项所述的模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189228.9A CN112861836B (zh) | 2019-11-28 | 2019-11-28 | 文本图像处理方法、文本及卡证图像质量评价方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189228.9A CN112861836B (zh) | 2019-11-28 | 2019-11-28 | 文本图像处理方法、文本及卡证图像质量评价方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861836A CN112861836A (zh) | 2021-05-28 |
CN112861836B true CN112861836B (zh) | 2022-04-22 |
Family
ID=75985342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911189228.9A Active CN112861836B (zh) | 2019-11-28 | 2019-11-28 | 文本图像处理方法、文本及卡证图像质量评价方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861836B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115526901B (zh) * | 2022-09-21 | 2024-04-09 | 吉林农业科技学院 | 一种互联网的大数据图像处理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7466875B1 (en) * | 2004-03-01 | 2008-12-16 | Amazon Technologies, Inc. | Method and system for determining the legibility of text in an image |
CN107169493A (zh) * | 2017-05-31 | 2017-09-15 | 北京小米移动软件有限公司 | 信息识别方法及装置 |
CN108009563A (zh) * | 2017-10-25 | 2018-05-08 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置及终端 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN109325928A (zh) * | 2018-10-12 | 2019-02-12 | 北京奇艺世纪科技有限公司 | 一种图像重建方法、装置及设备 |
CN109829453A (zh) * | 2018-12-29 | 2019-05-31 | 天津车之家数据信息技术有限公司 | 一种卡证中文字的识别方法、装置以及计算设备 |
CN109840524A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 文字的类型识别方法、装置、设备及存储介质 |
CN110363753A (zh) * | 2019-07-11 | 2019-10-22 | 北京字节跳动网络技术有限公司 | 图像质量评估方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11221990B2 (en) * | 2015-04-03 | 2022-01-11 | The Mitre Corporation | Ultra-high compression of images based on deep learning |
-
2019
- 2019-11-28 CN CN201911189228.9A patent/CN112861836B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7466875B1 (en) * | 2004-03-01 | 2008-12-16 | Amazon Technologies, Inc. | Method and system for determining the legibility of text in an image |
CN107169493A (zh) * | 2017-05-31 | 2017-09-15 | 北京小米移动软件有限公司 | 信息识别方法及装置 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN108009563A (zh) * | 2017-10-25 | 2018-05-08 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置及终端 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN109325928A (zh) * | 2018-10-12 | 2019-02-12 | 北京奇艺世纪科技有限公司 | 一种图像重建方法、装置及设备 |
CN109829453A (zh) * | 2018-12-29 | 2019-05-31 | 天津车之家数据信息技术有限公司 | 一种卡证中文字的识别方法、装置以及计算设备 |
CN109840524A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 文字的类型识别方法、装置、设备及存储介质 |
CN110363753A (zh) * | 2019-07-11 | 2019-10-22 | 北京字节跳动网络技术有限公司 | 图像质量评估方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112861836A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685100B (zh) | 字符识别方法、服务器及计算机可读存储介质 | |
JP6139396B2 (ja) | 文書を表す二値画像を圧縮する方法及びプログラム | |
CN111881707B (zh) | 图像翻拍检测方法、身份验证方法、模型训练方法及装置 | |
CN108491866B (zh) | 色情图片鉴定方法、电子装置及可读存储介质 | |
CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
CN112487848B (zh) | 文字识别方法和终端设备 | |
CN111652142A (zh) | 基于深度学习的题目分割方法、装置、设备和介质 | |
CN110969154A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN113221897B (zh) | 图像矫正方法、图像文本识别方法、身份验证方法及装置 | |
CN111652140A (zh) | 基于深度学习的题目精准分割方法、装置、设备和介质 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
US10055668B2 (en) | Method for the optical detection of symbols | |
RU2633182C1 (ru) | Определение направления строк текста | |
CN114005019B (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN106529437B (zh) | 一种人脸检测的方法和装置 | |
CN115731422A (zh) | 多标签分类模型的训练方法、分类方法及装置 | |
CN116071294A (zh) | 一种光纤表面缺陷检测方法和装置 | |
CN109635796B (zh) | 调查问卷的识别方法、装置和设备 | |
CN112861836B (zh) | 文本图像处理方法、文本及卡证图像质量评价方法和装置 | |
CN110942067A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN113128522A (zh) | 目标识别方法、装置、计算机设备和存储介质 | |
CN111179245B (zh) | 图像质量检测方法、装置、电子设备和存储介质 | |
CN112417918A (zh) | 二维码识别方法、装置、存储介质及电子设备 | |
CN112749696A (zh) | 一种文本检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |