CN116704513B - 文本质量检测方法、装置、计算机设备和存储介质 - Google Patents
文本质量检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116704513B CN116704513B CN202310973415.6A CN202310973415A CN116704513B CN 116704513 B CN116704513 B CN 116704513B CN 202310973415 A CN202310973415 A CN 202310973415A CN 116704513 B CN116704513 B CN 116704513B
- Authority
- CN
- China
- Prior art keywords
- character
- image
- sub
- initial
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 92
- 239000011159 matrix material Substances 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 66
- 230000009466 transformation Effects 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 72
- 238000005070 sampling Methods 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 44
- 238000003702 image correction Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 230000007547 defect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000037303 wrinkles Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000007639 printing Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005452 bending Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种文本质量检测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对目标文本对应的目标图像进行字符切分,得到多个初始字符子图像;基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵;基于字符变换矩阵对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像;将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度;基于各个字符完整度确定目标文本对应的文本质量。采用本方法能够提高文本质量检测准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本质量检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了文本质量检测技术,文本质量检测采用深度学习技术,对采集到的待检测文本的文本图像中字符质量进行检测,基于各个字符的质量确定待检测文本的文本质量。例如,文本质量检测技术可以应用于检测印刷文本的质量、检测绣在衣物上的文本的质量、检测显示在屏幕上的文本的质量等场景。
传统方法通常采用模板匹配的方式来检测文本质量,将待检测文本的文本图像与标准的文本图像进行模板匹配,根据匹配的结果确定待检测文本对应的文本质量,存在文本质量检测准确性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本质量检测准确性的文本质量检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种文本质量检测方法。所述方法包括:
获取目标文本对应的目标图像;
对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像;
对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征;
基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵;
基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像;
将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度;
基于各个字符完整度,确定目标文本对应的文本质量。
本申请还提供了一种文本质量检测装置。所述装置包括:
目标图像获取模块,用于获取目标文本对应的目标图像;
字符切分模块,用于对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像;
字符特征提取模块,用于对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征;
变换矩阵确定模块,用于基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵;
字符子图像调整模块,用于基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像;
字符完整度确定模块,用于将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度;
文本质量确定模块,用于基于各个字符完整度,确定目标文本对应的文本质量。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述文本质量检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本质量检测方法的步骤。
一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述文本质量检测方法的步骤。
上述文本质量检测方法、装置、计算机设备、存储介质和计算机程序产品,通过获取目标文本对应的目标图像,对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像。对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征。基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵。基于字符变换矩阵对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像。将目标字符子图像输入字符完整的检测模型,分别得到各个目标字符子图像对应的字符完整度,基于各个字符完整度确定目标文本对应的文本质量。这样,通过将目标图像切分为多个初始字符子图像,基于初始字符子图像所对应的字符变换矩阵对初始字符子图像进行调整,可以有效消除初始字符子图像中字符存在的字符形变,得到目标字符子图像。基于各个目标字符子图像分别对应的字符完整度来确定目标文本对应的文本质量,可以提高文本质量检测的准确性。
附图说明
图1为一个实施例中文本质量检测方法的应用环境图;
图2为一个实施例中文本质量检测方法的流程示意图;
图3为一个实施例中确定字符变换矩阵的流程示意图;
图4为另一个实施例中文本质量检测方法的流程示意图;
图5为一个实施例中文本质量检测装置的结构框图;
图6为另一个实施例中文本质量检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图;
图8为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本质量检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端和服务器均可单独用于执行本申请实施例中提供的文本质量检测方法。
例如,终端获取目标文本对应的目标图像。终端对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像。终端对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征。终端基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵。终端基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像。终端将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度。终端基于各个字符完整度,确定目标文本对应的文本质量。
终端和服务器也可协同用于执行本申请实施例中提供的文本质量检测方法。
例如,终端向服务器发送目标文本对应的目标图像。服务器对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像。服务器对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征。服务器基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵。服务器基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像。服务器将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度。服务器基于各个字符完整度,确定目标文本对应的文本质量。服务器将目标文本对应的文本质量发送至终端,终端可以对目标文本对应的文本质量进行展示。
在一个实施例中,如图2所示,提供了一种文本质量检测方法,以该方法应用于计算机设备为例进行说明,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。文本质量检测方法包括以下步骤:
步骤S202,获取目标文本对应的目标图像。
其中,目标文本是指待检测的文本,例如,目标文本可以是印刷在纸张上的文本、可以是显示在屏幕上的文本、可以是绣在衣物上的文本等。目标图像是指通过图像采集设备对目标文本进行图像采集得到的图像,例如,目标图像可以是通过摄像头对目标文本进行拍摄得到的图像,可以是通过扫描仪对目标文本进行扫描得到的图像,可以是通过截屏功能对屏幕进行截图的得到的图像,等等。
示例性地,由图像采集设备对目标文本进行图像采集。具体地,可以在每次生产了预设数量的目标文本后,对当前生产的目标文本进行一次图像采集,也可以每隔预设时间段对目标文本进行一次图像采集,等等。计算机设备获取由图像采集设备对目标文本进行图像采集得到的目标文本对应的目标图像。
步骤S204,对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像。
其中,初始字符图像是指对目标图像进行字符切分,得到的目标图像中各个字符分别对应的字符子图像,字符对应的字符子图像为仅包含该字符的图像。
示例性地,计算机设备对目标图像进行字符切分,将目标图像切分为各个字符分别对应的初始字符子图像。具体地,将目标图像输入字符切分模型,由字符切分模型输出目标图像中各个字符分别对应的字符边界,基于各个字符分别对应的字符边界,对目标图像进行切分,得到各个字符分别对应的初始字符子图像。
步骤S206,对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征。
其中,当前字符特征是指对初始字符子图像进行字符特征提取,得到的初始字符子图像包含的字符所对应的字符特征。例如,当前字符特征可以是对初始字符子图像进行角点特征提取或边缘特征提取得到的字符特征。
示例性地,计算机设备对初始字符子图像中的字符进行特征提取,得到初始字符子图像所包含字符对应字符特征。具体地,可以通过不同的字符特征提取算法,训练各个字符特征提取算法分别对应的字符特征提取模型。例如,训练多个用于提取字符角点特征的字符特征提取模型,多个用于提取字符边缘特征的字符特征提取模型。对各个字符特征提取模型的字符特征提取效果进行评估,将字符特征提取效果最佳的字符特征提取模型用于提取初始字符子图像中字符所对应的字符特征。将各个初始字符子图像输入字符特征提取模型,得到各个初始字符子图像分别对应的当前字符特征。
步骤S208,基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵。
其中,初始字符子图像所属字符是指初始字符子图像所对应的字符。例如,当检测到初始字符子图像包含的字符为“甲”时,初始字符子图像所属的字符即为“甲”。
参考字符特征是指对初始字符子图像所属字符对应的参考字符子图像进行字符特征提取,得到的字符特征,是初始字符子图像所属字符对应的标准的字符特征,参考字符子图像是指包含单个标准字符的字符图像。
字符变换矩阵是指用于对初始字符子图像进行坐标变换的矩阵,用于消除初始字符子图像包含的字符所存在的形变。
示例性地,计算机设备通过字符识别模型识别初始字符子图像中所包含的字符,并获取初始字符子图像所包含的字符对应的参考字符特征。对比同一初始字符子图像对应的当前字符特征和参考字符特征,基于同一初始字符子图像对应的当前字符特征和参考字符子图像之间的特征差异,生成初始字符子图像对应的字符变换矩阵,用相同的方法生成其他各个初始字符子图像分别对应的字符变换矩阵,从而得到各个初始字符子图像分别对应的字符变换矩阵。
步骤S210,基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像。
其中,目标字符子图像是指通过字符变换矩阵对初始字符子图像进行调整,得到的消除了字符形变的字符子图像。
示例性地,计算机设备基于初始字符子图像对应的字符变换矩阵,对初始字符子图像中各个像素点在图像中的位置进行调整,分别得到各个初始字符子图像对应的目标字符子图像。
步骤S212,将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度。
其中,字符完整度检测模型是指用于预测字符图像中字符的完整度的模型,字符完整度检测模型的输入数据是包含单个字符的字符图像,输出数据是字符图像中字符的预测完整度,例如,预测完整度可以是具体的评分,也可以是完整度等级,等等。字符完整度是指由字符完整度检测模型预测的字符图像中字符的完整程度。
示例性地,计算机设备将各个目标字符子图像输入字符完整度检测模型,字符完整度检测模型输出各个目标字符子图像分别对应的字符完整度。
步骤S214,基于各个字符完整度,确定目标文本对应的文本质量。
其中,文本质量是指目标文本中文本的质量。例如,文本越模糊或者文本缺失越多的目标文本对应的文本质量越低,文本越完整、越清晰的目标文本对应的文本质量越高。
示例性地,计算机设备融合各个目标字符子图像分别对应的字符完整度,得到目标文本对应的文本质量。具体地,可以将字符完整度小于预设阈值的目标字符子图像中包含的字符确定为缺陷字符,若目标文本包含的缺陷字符数量与字符总数量之间的比值小于预设值,则确定目标文本对应的文本质量为合格,反之则确定目标文本对应的文本质量为不合格;可以对各个目标字符子图像分别对应的字符完整度求均值,将各个字符完整度的均值作为目标文本对应的文本质量,若字符完整度的均值大于预设值,则确定目标文本对应的文本质量为合格,反之则确定目标文本对应的文本质量为不合格;等等。当目标文本对应的文本质量为不合格时,基于目标文本对应的文本质量和文本质量检测时间,生成目标文本对应的质量检测异常报告,将质量检测异常报告上传至管理人员对应的终端,以通知管理人员针对文本异常采取相应的异常处理措施。
上述文本质量检测方法中,通过获取目标文本对应的目标图像,对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像。对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征。基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵。基于字符变换矩阵对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像。将目标字符子图像输入字符完整的检测模型,分别得到各个目标字符子图像对应的字符完整度,基于各个字符完整度确定目标文本对应的文本质量。这样,通过将目标图像切分为多个初始字符子图像,基于初始字符子图像所对应的字符变换矩阵对初始字符子图像进行调整,可以有效消除初始字符子图像中字符存在的字符形变,得到目标字符子图像。基于各个目标字符子图像分别对应的字符完整度来确定目标文本对应的文本质量,可以提高文本质量检测的准确性。
在一个实施例中,获取目标文本对应的目标图像,包括:
获取目标文本的初始图像,提取初始图像对应的文本分布特征;基于文本分布特征确定初始图像对应的形变类型;基于形变类型对应的图像矫正模型,对初始图像进行矫正,得到目标文本对应的目标图像。
其中,初始图像是指对目标文本进行图像采集直接得到的图像。文本分布特征是指文本图像中文本的分布情况。例如,对平整的目标文本进行拍摄,得到的文本图像中的文本在图像中呈均匀分布,对褶皱的目标文本进行拍摄,得到的文本图像中的文本在图像中的分布是不均匀的,具体地,褶皱凹陷处的文本分布普遍较为密集,褶皱凸起处的文本分布普遍较为稀疏。形变类型是指初始图像对应的目标文本所对应的形变类型,用于区分目标文本可能存在的不同的形变情况。
图像矫正模型是指用于对初始图像中文本所存在的形变进行矫正的数学模型,图像矫正模型可以是针对图像中文本存在的几何形变,通过构建相应的柱面模型或曲面函数得到的数学模型,不同的形变类型分别存在对应的图像矫正模型。目标图像是指对通过相应的图像矫正模型对初始图像进行矫正后得到的图像。
示例性地,计算机设备获取图像采集设备对目标文本进行拍摄得到初始图像,将初始图像输入文本分布特征提取模型,得到初始图像对应的文本分布特征。将初始图像对应的文本分布特征与各个形变类型分别对应的文本分布特征进行比对,确定初始图像对应的形变类型。获取初始图像对应的形变类型对应的图像矫正模型,基于初始图像对应的图像矫正模型对初始图像中文本存在的形变进行矫正,得到初始图像对应的目标图像。
在一个实施例中,当某一种形变情况在初始图像中的出现频率高于预设频率时,计算机设备将该形变情况确定为一种形变类型,并针对这一形变类型构建对应的图像矫正模型。例如,当在检测周期内横向凸起褶皱出现次数大于预设次数时,将横向凸起褶皱确定为一种形变类型,获取预先构建的、针对横向凸起褶皱的图像矫正模型来矫正存在横向凸起褶皱的初始图像。
上述实施例中,通过为初始图像对应的多种形变类型分别设置相应的图像矫正模型,在基于初始图像对应的文本分布特征确定初始图像所对应的形变类型后,基于形变类型对应的图像矫正模型来矫正初始图像中文本所存在的形变,得到消除了文本形变的目标图像。进而对目标图像进行字符切分,可以有效提高字符切分的准确性。
在一个实施例中,对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像,包括:
对目标图像进行滤波处理,得到目标图像对应的纹理图像;基于目标图像和纹理图像之间的差异,得到目标图像对应的初始边缘图像;对初始边缘图像进行前景提取,得到初始边缘图像对应的字符边缘图像;将字符边缘图像输入目标字符切分模型,得到字符边缘图像对应的多个初始字符子图像。
其中,滤波处理是指剔除图像中的高频噪声,保留图像中的低频纹理信息。纹理图像是指包含目标图像对应的低频纹理信息的图像,纹理图像的灰度变化较小。初始边缘图像是指包含目标图像对应的高频边缘信息的图像,图像的边缘是图像的基本特征,边缘点是灰度阶跃变化的像素点,即灰度值导数较大或极大的地方。初始边缘图像中包括字符对应的边缘信息和背景中的脏污对应的边缘信息
前景提取是指从初始边缘图像中提取出字符这一前景对应的边缘信息,过滤背景中的脏污对应的边缘信息。字符边缘图像是指包含初始边缘图像中字符对应的边缘信息的图像。
字符切分模型是指用于将字符边缘图像切分为各个字符分别对应的字符子图像的模型,模型的输入数据是字符边缘图像,输出数据为各个字符分别对应的字符边界,字符对应的字符边界是指字符边缘图像中包含该字符的最小边界,用于指示如何对字符边缘图像进行切分从而得到字符对应的字符子图像。
示例性地,计算机设备通过图像滤波技术,去除目标图像中的高频噪声,得到包含目标图像中低频纹理信息的纹理图像。基于目标图像和目标图像对应的纹理图像之间的差异得到目标图像对应的初始边缘图像。例如,计算位于同一图像坐标的像素点在目标图像和纹理图像中分别对应的像素值之间的差值,将差值作为位于该图像坐标的像素点所对应的更新像素值,用像素点对应的更新像素值替换像素点在目标图像中的原始像素值,得到目标图像对应的初始边缘图像。
计算机设备将初始边缘图像输入目标前景提取模型,由目标前景提取模型输出初始边缘图像对应的字符边缘图像。将字符边缘图像输入目标字符切分模型,由目标字符切分模型输出字符边缘图像对应的多个初始字符子图像。
在一个实施例中,计算机设备获取前景提取训练集,前景提取训练集包括多个基于存在缺陷的背景图和无背景的文本图像合成的负样本,以及多个背景无缺陷的正样本,将负样本对应的文本图像作为负样本对应的样本标签,将正样本对应的无背景的文本图像作为正样本对应的样本标签。将前景提取训练集中的训练样本输入未训练的初始前景提取模型,基于前景提取模型输出的预测图像和对应的样本标签之间的差异得到模型损失,基于模型损失调整初始前景提取模型中的模型参数,直至满足模型收敛条件,得到目标前景提取模型。
上述实施例中,通过对目标图像进行滤波处理,得到目标图像对应的初始边缘图像。初始边缘图像中包含目标图像中的高频边缘信息,对初始边缘图像进行前景提取,得到初始边缘图像中字符对应的边缘信息,即字符边缘信息,有效过滤了初始边缘图像中背景脏污对应的边缘信息。将字符边缘图像输入目标字符切分模型,可以有效提高字符切分的准确性。
在一个实施例中,目标文本检测方法还包括:
获取目标文本所属文本类型对应的多个模板信息;模板信息包括排版信息和字体信息;基于多个字体类型分别对应的字符集和各个模板信息合成多个图像样本,确定各个图像样本分别对应的字符边界标签集;图像样本对应的字符边界标签集包括图像样本中各个字符分别对应的字符边界标签;将各个图像样本输入初始字符切分模型,得到各个图像样本分别对应的预测边界标签集;基于图像样本对应的预测边界标签集和字符边界标签集之间的差异,得到字符切分损失值;基于字符切分损失值调整初始字符切分模型中的模型参数,直至满足第一收敛条件,得到目标字符切分模型。
其中,文本类型用于区分不同目标文本。例如,当目标文本是印刷文本时,文本类型可以包括宣传单类型、海报类型、产品手册类型、书籍类型和说明书类型等。
模板信息包括文本类型对应的排版信息和字体信息,同一文本类型可以对应多个模板信息,例如,当目标文本为印刷文本时,对于产品使用手册,产品使用手册每一页分别存在对应的模板信息。排版信息用于表征目标文本中的字符在版面上的布局情况。字体信息用于指示目标文本中各个字符分别对应的字体类型。
图像样本是指基于多个字体类型分别对应的字符集和任意一个模板信息合成的,用于训练目标文本所属文本类型对应的字符切分模型的样本。字符边界标签集是指包括图像样本中各个字符分别对应的真实的字符边界的集合。
字符切分损失值是指基于真实标签和预测标签之间的差异生成的,用于调整初始字符切分模型中模型参数的损失值。第一收敛条件是指用于判断字符切分模型是否收敛的条件。例如,第一收敛条件可以为损失值小于对应的预设值;可以为模型训练轮次达到对应的预设轮次;等等。目标字符切分模型是指通过模型训练得到的收敛的字符切分模型,即训练好的字符切分模型。
示例性地,获取目标文本所属文本类型所对应的多个模板信息。基于同一模板信息对应的排版信息和字体信息,合成各个模板信息分别对应的图像样本。具体地,基于模板信息中的排版信息生成对应的图像模板,图像模板中包括多个文本区域,基于字体信息确定每个文本区域所属的字体类型,从每个文本区域所属字体类型的字符集中随机获取多个字符并填充至对应的文本区域,得到模板信息对应的一个图像样本。基于相同的方法,为各个模板信息分别生成多个图像样本。
确定各个图像样本分别对应的字符边界标签集。从图像样本集中获取当前训练样本,将当前训练样本输入初始字符切分模型,得到当前训练样本对应的预测边界标签集,基于当前训练样本对应的预测边界标签集和字符边界标签集之间的差异,得到对应的字符切分损失值,基于字符切分损失调整字符切分模型中的模型参数。返回从图像样本集中获取当前训练样本的步骤执行,直至满足第一收敛条件,将当前得到的字符切分模型作为目标字符切分模型。
上述实施例中,通过数据合成技术,基于目标文本所属文本类型对应的多个模板信息,合成目标文本所属文本类型对应的多个图像样本。进而基于目标文本所属文本类型对应的多个图像样本来训练初始字符切分模型,可以有效提高目标字符切分模型的字符切分准确性。
在一个的实施例中,如图3所示,基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵,包括:
步骤S302,从初始字符子图像所属字符对应的参考字符特征中提取多个预设位置分别对应的参考特征点。
步骤S304,从初始字符子图像对应的当前字符特征中提取多个预设位置分别对应的当前特征点。
步骤S306,获取坐标调整矩阵,基于坐标调整矩阵对当前特征点的位置坐标进行调整,得到各个当前特征点分别对应的更新坐标。
步骤S308,基于使得同一预设位置对应的当前特征点的更新坐标和参考特征点的位置坐标一致的坐标调整矩阵,得到初始字符子图像对应的字符变换矩阵。
其中,字符子图像对应的字符特征包括字符各个位置分别对应的特征点,例如,特征点可以为字符左上角、左下角、右上角、右下角等位置分别对应的特征点。参考特征点是指参考字符特征包括的字符各个位置分别对应的特征点。当前特征点是指当前字符特征包括的字符各个位置分别对应的特征点。
预设位置是指字符子图像中字符的预设位置,用于确定特征点,例如,预设位置可以为字符左上角、字符右下角等。预设位置可以根据实际需要进行设置。特征点的位置坐标是指特征点在图像中的坐标。当前特征点对应的更新坐标是指基于坐标调整矩阵对当前特征点的位置坐标进行调整所得到的坐标。坐标调整矩阵是指用于调整当前特征点的位置坐标得到当前特征点的更新坐标的矩阵,坐标调整矩阵是一个变量。
字符变换矩阵是指用于调整当前特征点的位置坐标得到当前特征点的更新坐标的、能够使得同一预设位置对应的当前特征点的更新坐标和参考特征点的位置坐标一致的坐标调整矩阵。
示例性地,计算机设备从初始字符图像所属字符对应的参考字符特征中提取多个预设位置分别对应的参考特征点,从初始字符图像对应的当前字符特征中提取上述各个预设位置分别对应的当前特征点。例如,从初始字符图像所属字符对应的参考字符特征中提取左上角、左下角、右上角等三个预设位置分别对应的参考特征点。获取各个参考特征点分别对应的位置坐标和各个当前参考特征点分别对应的位置坐标。获取坐标调整矩阵,基于坐标调整矩阵对当前特征点的位置坐标进行调整,得到各个当前特征点分别对应的更新坐标。将使得同一预设位置对应的当前特征点的更新坐标和参考特征点的位置坐标一致的坐标调整矩阵作为初始字符子图像对应的字符变换矩阵。
在一个实施例中,字符变换矩阵可以通过以下公式计算:
(x1’,y1’,0)=A(x1,y1,0)
(x2’,y2’,0)= A(x2,y2,0)
(x3’,y3’,0)= A(x3,y3,0)
其中,(x1’,y1’,0)、(x2’,y2’,0)和(x3’,y3’,0)分别为初始字符子图像所属字符左上角、左下角、右上角分别对应的参考特征点的位置坐标,(x1,y1,0)、(x2,y2,0)和(x3,y3,0)分别为初始字符子图像中字符左上角、左下角、右上角分别对应的当前特征点的位置坐标,A为初始字符子图像对应的字符变换矩阵,A可以基于上述三个等式求解得到。
上述实施例中,通过在初始字符图像所属字符对应的参考字符特征中提取多个预设位置分别对应的参考特征点,在初始字符图像对应的当前字符特征中提取相同预设位置分别对应的当前特征点。基于多个预设位置分别对应的参考特征点的位置坐标和当前特征点的位置坐标,可以快速准确地确定初始字符子图像对应的、能够消除初始字符子图像中字符所存在的形变的字符变换矩阵,从而提高文本质量检测的效率和准确性。
在一个实施例中,基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像,包括:
获取初始字符子图像对应的初始像素点坐标集合;初始像素点坐标集合包括初始字符子图像中各个像素点分别对应的初始坐标;基于初始字符子图像对应的字符变换矩阵,对初始字符子图像对应的初始像素点坐标集合进行调整,得到初始字符子图像对应的目标像素点坐标集合;基于目标像素点坐标集合对初始字符子图像中各个像素点的位置进行调整,得到初始字符子图像对应的目标字符子图像。
其中,初始像素点坐标集合是指包括初始字符子图像中各个像素点分别对应的初始坐标的集合。目标像素点坐标集合是指基于字符变换矩阵对初始像素点坐标中各个像素点分别对应的初始坐标进行调整后得到的像素点坐标集合。
示例性地,计算机设备获取初始字符子图像中各个像素点分别对应的位置坐标作为各个像素点分别对应的初始坐标。通过初始字符子图像对应的字符变换矩阵,将初始字符子图像对应的初始坐标进行调整,分别得到各个像素点对应的更新后的位置坐标。例如,将字符变换矩阵和初始坐标之间的乘积作为对应像素点的更新坐标。基于各个像素点分别对应的更新后的位置坐标,得到初始字符子图像对应的目标像素点坐标集合。基于目标像素点坐标集合中各个像素点分别对应的更新后的位置坐标,将初始字符子图像中的各个像素点分别移动至对应的更新后的位置坐标处,得到初始字符子图像对应的目标字符子图像。
上述实施例中,基于初始字符子图像对应的字符变换矩阵,对初始字符子图像中各个像素点的位置进行调整,可以快速准确地消除初始字符子图像中字符所存在的形变,进而提高文本质量检测的准确性和效率。
在一个实施例中,将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度,包括:
将目标字符子图像分别输入字符完整度检测模型包括的多个目标子模型,分别得到各个目标字符子图像对应的预测完整度集;目标字符子图像对应的预测完整度集包括将各个目标子模型分别输出的预测完整度;基于目标字符子图像对应的预测完整度集确定目标字符子图像对应的字符完整度,分别得到各个目标字符子图像对应的字符完整度。
其中,目标子模型是指字符完整度检测模型包括的训练好的子模型,目标子模型用于对目标字符子图像进行完整度预测。目标字符子图像输入完整度检测模型,由各个目标子模型分别对目标字符子图像进行完整度预测,各个目标子模型分别输出相应的预测完整度。预测完整度集为包括各个目标子模型分别输出的预测完整度的集合。
目标字符子图像对应的字符完整度为基于目标字符子图像对应的预测完整度集确定的目标字符子图像对应的字符完整程度,用于表征目标字符子图像中字符的完整度。
示例性地,计算机设备将目标字符子图像分别输入字符完整度检测模型包括的多个目标子模型中,由各个目标子模型分别对目标字符子图像进行处理,各个目标子模型分别输出目标字符子图像对应的预测完整度,得到目标字符子图像对应的预测完整度集。进而基于目标字符子图像对应的预测完整度集确定目标字符子图像对应的字符完整度。例如,可以将目标字符子图像对应的预测完整度集中各个预测完整度的平均值作为目标字符子图像对应的字符完整度;可以为各个目标子模型分别输出的预测完整度赋予不同的权重,将各个预测完整度的加权平均值作为目标字符子图像对应的字符完整度;将各个目标子模型分别输出的预测完整度作为训练样本,将对应的真实字符完整度作为样本标签,训练能够基于各个目标子模型分别输出的预测完整度来预测字符完整度的完整度预测模型,将各个目标子模型分别输出的预测完整度输入训练好的完整度预测模型,得到目标字符子图像对应的字符完整度;等等。
上述实施例中,将目标字符子图像分别输入各个目标子模型,基于各个目标子模型分别输出的预测完整度得到目标字符子图像对应的字符完整度,这样得到的字符完整度综合了各个目标子模型分别输出的预测完整度,具有更高的准确性,能够有效提高文本质量检测的准确性。
在一个实施例中,文本检测方法还包括:
获取字符完整度训练集,字符完整度训练集包括多个字符样本、各个字符样本分别对应的完整度标签和各个字符样本分别对应的初始采样概率;从各个初始子模型中确定当前子模型,将各个字符样本分别对应的初始采样概率作为当前采样概率;基于各个字符样本分别对应的当前采样概率,从字符完整度训练集中获取当前训练集;基于当前训练集训练当前子模型,直至满足第二收敛条件,得到目标子模型;将字符完整度训练集输入目标子模型,得到各个字符样本分别对应的预测完整度;基于同一字符样本对应的预测完整度和完整度标签,调整各个字符样本分别对应的初始采样概率,得到各个字符样本分别对应的更新采样概率;将各个字符样本分别对应的更新采样概率作为当前采样概率,返回从各个初始子模型中确定当前子模型的步骤执行,直至得到各个初始子模型分别对应的目标子模型;基于各个目标子模型生成字符完整度检测模型。
其中,字符完整度训练集是指用于训练各个初始子模型的训练集。字符完整度训练集包括存在不同程度缺失的字符样本,和包含完整字符的字符样本。字符完整的训练集可以是利用数据合成技术合成的存在不同程度缺失的数据集。字符样本是指包含单个字符的字符图像。采样概率是指字符样本被选入训练集的概率。字符样本对应的完整度标签是指字符样本对应的真实的字符完整度。字符样本对应的初始采样概率是指为字符样本预设的初始的采样概率。字符样本对应的更新采样概率为基于字符样本对应的预测完整度和完整度标签对字符样本对应的初始采样概率进行调整后得到的新的采样概率。
初始子模型是指未经过模型训练的,用于预测字符图像所包含的字符的完整度的模型。不同初始子模型分别对应不同的字符完整度检测算法。第二收敛条件是指用于判断子模型是否收敛的条件。例如,第一收敛条件可以为子模型的损失值小于对应的预设值;可以为模型训练轮次达到对应的预设轮次;等等。目标子模型为经过模型训练得到的收敛的子模型,即训练好的子模型。
示例性地,计算机设备获取字符完整度训练集和各个初始子模型。将初始子模型中任意一个初始子模型确定为当前子模型,将各个字符样本分别对应的初始采样概率作为当前采样概率。基于各个字符样本分别对应的当前采样概率,从字符完整度训练集中选取字符样本,得到当前训练集。将当前训练集中的字符样本输入当前子模型得到对应的预测完整度,基于预测完整度和对应的完整度标签确定对应的模型损失,基于模型损失调整当前子模型的模型参数,直至满足第二收敛条件,得到目标子模型。
将字符完整度训练集中的各个字符样本输入目标子模型,得到各个字符样本分别对应的预测完整度。基于同一字符样本对应的预测完整度和完整度标签,调整各个字符样本分别对应的初始采样概率,得到各个字符样本分别对应的更新采样概率。例如,当同一字符样本对应的字符完整度和完整度标签之间的差异大于预设值时,增大字符样本对应的采样概率,得到字符样本对应的更新采样概率,当同一字符样本对应的字符完整度和完整度标签之间的差异小于预设值时,减小字符样本对应的采样概率,得到字符样本对应的更新采样概率。将各个字符样本分别对应的更新采样概率作为当前采样概率。
从剩余的各个初始子模型中确定当前子模型,返回基于各个字符样本分别对应的当前采样概率,从字符完整度训练集中选取字符样本的步骤执行,直至得到各个初始子模型分别对应的目标子模型,对各个目标子模型进行组合得到字符完整度检测模型。
上述实施例中,从字符完整度训练集中选取字符样本得到当前训练集,基于当前训练集训练当前子模型得到目标子模型,进而确定目标子模型对各个字符样本的预测结果,增大目标子模型预测错误的字符样本的采样概率,减小目标子模型预测正确的字符样本的采样概率。在构造下一个训练集时,基于更新后的采样概率来选取训练样本。这样能够使得剩余的子模型聚焦于较难分类的样本上。这样能够提高字符完整度检测模型的预测准确性,同时,由于字符完整度检测模型输出的字符完整度融合了多个目标子模型分别输出的预测完整度,因此,字符完整度检测模型输出的字符完整度具有更高准确性。通过上述方法训练字符完整度检测模型,能够提高字符完整度检测模型的预测准确性,从而提高文本质量检测的准确性。
在一个具体的实施例中,本申请的文本质量检测方法可以应用于说明书印刷质量在线检测系统,用于检测说明书的印刷质量。如图4所示,文本质量检测方法包括以下步骤:
1、对图像进行滤波处理,与原图做差提取边缘信息
说明书印刷质量在线检测系统建立多个纸面褶皱和弯曲的数学模型,对图像采集设备采集的说明书原始图像所存在纸面褶皱和弯曲进行矫正,进而对矫正后的说明书图像进行滤波处理得到滤波后图像,将原始图像减去滤波后图像得到对应的图像边缘信息,即边缘图像。例如,可以通过中值滤波、高斯滤波等方法进行图像滤波。
2、边缘图像输入前景提取器
说明书印刷质量在线检测系统将边缘图像输入前景提取器,得到对应的前景图像。例如,前景提取器可以是基于随机森林算法的前景提取器,具体是指,利用数据合成技术,生成一批背景带脏污的数据集,在此数据集上使用随机森林算法训练一个判别器,此判别器可以根据邻域类像素值判断该像素点是背景还是前景,从而有效过滤图像中的脏污。
3、将前景图像输入字符切分器
将前景图像输入基于卷积神经网络的字符切分器,得到前景图像对应的字符图像集。例如,字符切分器可以是基于卷积神经网络构建的字符切分器。
4、将字符图像输入字符特征提取器
将字符图像集中的各个字符图像输入字符特征提取器,得到各个字符图像分别对应的字符特征向量。例如,字符特征提取算法可以是Haar(哈尔特征提取算法)、Caany(边缘检测算法)等。
5、计算视觉变换矩阵,进行仿射变换
基于字符图像对应的字符特征向量和字符图像所属字符对应的参考特征向量之间的差异,生成字符图像对应的视觉变换矩阵。基于字符图像对应视觉变换矩阵,对字符图像进行仿射变换,得到变换后的字符图像。
6、将变换后的字符图像输入字符完整程度级联评分器
基于字符完整程度级联评分器对变换后的字符图像进行评分,判定字符图像中的字符是否存在缺陷。例如,字符完整程度级联评分器可以是支持向量机的字符完整程度评分器,具体是指利用数据合成技术合成一批字符存在不同程度缺失的数据集,在此基础上按照AdaBoost(自适应提升)原理训练多个基于支持向量机算法的分类器,基于各个训练好的分类器得到字符完整程度级联评分器。
7、确定图像评分(即图像质量)
统计存在缺陷的字符数量和总字符数量,将字符数量和总字符数量的比值作为说明书对应的原始图像的图像评分,若图像评分大于或等于预设值,说明原始图像对应的说明书印刷质量合格,若图像评分小于预设值,则将生成质量检测异常报告并发送至管理人员终端,以使管理人员及时采取相应措施。
上述实施例中,通过基于深度神经网络的字符切分模型,可以实现说明书中大量字符的精确切分,利用前景提取技术,提出字符图像中的背景干扰,能够过滤图像中的脏污,从而有效提高质量检测的准确性。利用数据合成技术能够快速实现对各种字体的支持,快速合成大量训练样本,能够有效提高质量检测的效率。此外,通过建立多个纸面褶皱和弯曲的数学模型,能够应对纸面褶皱和弯曲等情况下的质量检测,提高了对纸面褶皱、弯折、脏污等情况的兼容性和通用性,并且进一步提高质量检测的准确性,提高了方案部署的效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本质量检测方法的文本质量检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本质量检测装置实施例中的具体限定可以参见上文中对于文本质量检测方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种文本质量检测装置,包括:目标图像获取模块502、字符切分模块504、字符特征提取模块506、变换矩阵确定模块508、字符子图像调整模块510、字符完整度确定模块512和文本质量确定模块514,其中:
目标图像获取模块502,用于获取目标文本对应的目标图像。
字符切分模块504,用于对目标图像进行字符切分,得到目标图像对应的多个初始字符子图像。
字符特征提取模块506,用于对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征。
变换矩阵确定模块508,用于基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到各个初始字符子图像对应的字符变换矩阵。
字符子图像调整模块510,用于基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到各个初始字符子图像对应的目标字符子图像。
字符完整度确定模块512,用于将目标字符子图像输入字符完整度检测模型,分别得到各个目标字符子图像对应的字符完整度。
文本质量确定模块514,用于基于各个字符完整度,确定目标文本对应的文本质量。
在一个实施例中,目标图像获取模块502还用于:
获取目标文本的初始图像,提取初始图像对应的文本分布特征;基于文本分布特征确定初始图像对应的形变类型;基于形变类型对应的图像矫正模型,对初始图像进行矫正,得到目标文本对应的目标图像。
在一个实施例中,字符切分模块504还用于:
对目标图像进行滤波处理,得到目标图像对应的纹理图像;基于目标图像和纹理图像之间的差异,得到目标图像对应的初始边缘图像;对初始边缘图像进行前景提取 ,得到初始边缘图像对应的字符边缘图像;将字符边缘图像输入目标字符切分模型,得到字符边缘图像对应的多个初始字符子图像。
在一个实施例中,字符切分模块504还用于:
获取目标文本所属文本类型对应的多个模板信息;模板信息包括排版信息和字体信息;基于多个字体类型分别对应的字符集和各个模板信息合成多个图像样本,确定各个图像样本分别对应的字符边界标签集;图像样本对应的字符边界标签集包括图像样本中各个字符分别对应的字符边界标签;将各个图像样本输入初始字符切分模型,得到各个图像样本分别对应的预测边界标签集;基于图像样本对应的预测边界标签集和字符边界标签集之间的差异,得到字符切分损失值;基于字符切分损失值调整初始字符切分模型中的模型参数,直至满足第一收敛条件,得到目标字符切分模型。
在一个实施例中,变换矩阵确定模块508还用于:
从初始字符子图像所属字符对应的参考字符特征中提取多个预设位置分别对应的参考特征点;从初始字符子图像对应的当前字符特征中提取多个预设位置分别对应的当前特征点;获取坐标调整矩阵,基于坐标调整矩阵对当前特征点的位置坐标进行调整,得到各个当前特征点分别对应的更新坐标;基于使得同一预设位置对应的当前特征点的更新坐标和参考特征点的位置坐标一致的坐标调整矩阵,得到初始字符子图像对应的字符变换矩阵。
在一个实施例中,字符子图像调整模块510还用于:
获取初始字符子图像对应的初始像素点坐标集合;初始像素点坐标集合包括初始字符子图像中各个像素点分别对应的初始坐标;基于初始字符子图像对应的字符变换矩阵,对初始字符子图像对应的初始像素点坐标集合进行调整,得到初始字符子图像对应的目标像素点坐标集合;基于目标像素点坐标集合对初始字符子图像中各个像素点的位置进行调整,得到初始字符子图像对应的目标字符子图像。
在一个实施例中,字符完整度确定模块512还用于:
将目标字符子图像分别输入字符完整度检测模型包括的多个目标子模型,分别得到各个目标字符子图像对应的预测完整度集;目标字符子图像对应的预测完整度集包括将各个目标子模型分别输出的预测完整度;基于目标字符子图像对应的预测完整度集确定目标字符子图像对应的字符完整度,分别得到各个目标字符子图像对应的字符完整度。
在一个实施例中,如图6所示,文本质量检测装置还包括:
完整度检测模型训练模块602,用于获取字符完整度训练集,字符完整度训练集包括多个字符样本、各个字符样本分别对应的完整度标签和各个字符样本分别对应的初始采样概率;从各个初始子模型中确定当前子模型,将各个字符样本分别对应的初始采样概率作为当前采样概率;基于各个字符样本分别对应的当前采样概率,从字符完整度训练集中获取当前训练集; 基于当前训练集训练当前子模型,直至满足第二收敛条件,得到目标子模型;将字符完整度训练集输入目标子模型,得到各个字符样本分别对应的预测完整度;基于同一字符样本对应的预测完整度和完整度标签,调整各个字符样本分别对应的初始采样概率,得到各个字符样本分别对应的更新采样概率;将各个字符样本分别对应的更新采样概率作为当前采样概率,返回从各个初始子模型中确定当前子模型的步骤执行,直至得到各个初始子模型分别对应的目标子模型;基于各个目标子模型生成字符完整度检测模型。
上述文本质量检测装置,通过将目标图像切分为多个初始字符子图像,基于初始字符子图像所对应的字符变换矩阵对初始字符子图像进行调整,可以有效消除初始字符子图像中字符存在的字符形变,得到目标字符子图像。基于各个目标字符子图像分别对应的字符完整度来确定目标文本对应的文本质量,可以提高文本质量检测的准确性。
上述目文本质量检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标图像、初始字符子图像等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本质量检测方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本质量检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种文本质量检测方法,其特征在于,所述方法包括:
获取目标文本对应的目标图像;
对所述目标图像进行字符切分,得到所述目标图像对应的多个初始字符子图像;
对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征;
基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到所述各个初始字符子图像对应的字符变换矩阵;
基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到所述各个初始字符子图像对应的目标字符子图像;
将目标字符子图像输入字符完整度检测模型,分别得到所述各个目标字符子图像对应的字符完整度;
基于各个字符完整度,确定所述目标文本对应的文本质量;
其中,所述字符完整度检测模型的训练过程为:
获取字符完整度训练集,所述字符完整度训练集包括多个字符样本、各个字符样本分别对应的完整度标签和各个字符样本分别对应的初始采样概率;
从各个初始子模型中确定当前子模型,将所述各个字符样本分别对应的初始采样概率作为当前采样概率;
基于所述各个字符样本分别对应的当前采样概率,从所述字符完整度训练集中获取当前训练集;
基于当前训练集训练当前子模型,直至满足第二收敛条件,得到目标子模型;
将所述字符完整度训练集输入目标子模型,得到所述各个字符样本分别对应的预测完整度;
基于同一字符样本对应的预测完整度和完整度标签,调整所述各个字符样本分别对应的初始采样概率,得到所述各个字符样本分别对应的更新采样概率;
将所述各个字符样本分别对应的更新采样概率作为当前采样概率,返回所述从各个初始子模型中确定当前子模型的步骤执行,直至得到所述各个初始子模型分别对应的目标子模型;
基于各个目标子模型生成所述字符完整度检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本对应的目标图像,包括:
获取目标文本的初始图像,提取所述初始图像对应的文本分布特征;
基于所述文本分布特征确定所述初始图像对应的形变类型;
基于所述形变类型对应的图像矫正模型,对所述初始图像进行矫正,得到所述目标文本对应的目标图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行字符切分,得到所述目标图像对应的多个初始字符子图像,包括:
对所述目标图像进行滤波处理,得到所述目标图像对应的纹理图像;
基于所述目标图像和所述纹理图像之间的差异,得到所述目标图像对应的初始边缘图像;
对所述初始边缘图像进行前景提取,得到所述初始边缘图像对应的字符边缘图像;
将所述字符边缘图像输入目标字符切分模型,得到所述字符边缘图像对应的多个初始字符子图像。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述目标文本所属文本类型对应的多个模板信息;所述模板信息包括排版信息和字体信息;
基于多个字体类型分别对应的字符集和各个模板信息合成多个图像样本,确定各个图像样本分别对应的字符边界标签集;所述图像样本对应的字符边界标签集包括图像样本中各个字符分别对应的字符边界标签;
将各个图像样本输入初始字符切分模型,得到各个图像样本分别对应的预测边界标签集;
基于图像样本对应的预测边界标签集和字符边界标签集之间的差异,得到字符切分损失值;
基于所述字符切分损失值调整所述初始字符切分模型中的模型参数,直至满足第一收敛条件,得到所述目标字符切分模型。
5.根据权利要求1所述的方法,其特征在于,所述基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到所述各个初始字符子图像对应的字符变换矩阵,包括:
从初始字符子图像所属字符对应的参考字符特征中提取多个预设位置分别对应的参考特征点;
从初始字符子图像对应的当前字符特征中提取所述多个预设位置分别对应的当前特征点;
获取坐标调整矩阵,基于所述坐标调整矩阵对当前特征点的位置坐标进行调整,得到各个当前特征点分别对应的更新坐标;
基于使得同一预设位置对应的当前特征点的更新坐标和参考特征点的位置坐标一致的坐标调整矩阵,得到初始字符子图像对应的字符变换矩阵。
6.根据权利要求1所述的方法,其特征在于,所述基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到所述各个初始字符子图像对应的目标字符子图像,包括:
获取初始字符子图像对应的初始像素点坐标集合;所述初始像素点坐标集合包括初始字符子图像中各个像素点分别对应的初始坐标;
基于初始字符子图像对应的字符变换矩阵,对初始字符子图像对应的初始像素点坐标集合进行调整,得到初始字符子图像对应的目标像素点坐标集合;
基于目标像素点坐标集合对初始字符子图像中各个像素点的位置进行调整,得到初始字符子图像对应的目标字符子图像。
7.根据权利要求1所述的方法,其特征在于,所述将目标字符子图像输入字符完整度检测模型,分别得到所述各个目标字符子图像对应的字符完整度,包括:
将目标字符子图像分别输入所述字符完整度检测模型包括的多个目标子模型,分别得到所述各个目标字符子图像对应的预测完整度集;所述目标字符子图像对应的预测完整度集包括将各个目标子模型分别输出的预测完整度;
基于目标字符子图像对应的预测完整度集确定目标字符子图像对应的字符完整度,分别得到所述各个目标字符子图像对应的字符完整度。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取前景提取训练集,所述前景提取训练集包括多个基于存在缺陷的背景图和无背景的文本图像合成的负样本、以及多个背景无缺陷的正样本;
将负样本对应的文本图像作为负样本对应的样本标签,将正样本对应的无背景的文本图像作为正样本对应的样本标签;
将所述前景提取训练集中的训练样本输入初始前景提取模型,基于所述前景提取模型输出的预测图像和对应的样本标签之间的差异得到模型损失;
基于所述模型损失调整初始前景提取模型中的模型参数,直至满足模型收敛条件,得到目标前景提取模型;所述目标前景提取模型用于提取初始边缘图像对应的字符边缘图像。
9.一种文本质量检测装置,其特征在于,所述装置包括:
目标图像获取模块,用于获取目标文本对应的目标图像;
字符切分模块,用于对所述目标图像进行字符切分,得到所述目标图像对应的多个初始字符子图像;
字符特征提取模块,用于对初始字符子图像进行字符特征提取,分别得到各个初始字符子图像对应的当前字符特征;
变换矩阵确定模块,用于基于初始字符子图像所属字符对应的参考字符特征和初始字符子图像对应的当前字符特征之间的特征差异,分别得到所述各个初始字符子图像对应的字符变换矩阵;
字符子图像调整模块,用于基于字符变换矩阵,对相应的初始字符子图像进行调整,分别得到所述各个初始字符子图像对应的目标字符子图像;
字符完整度确定模块,用于将目标字符子图像输入字符完整度检测模型,分别得到所述各个目标字符子图像对应的字符完整度;
文本质量确定模块,用于基于各个字符完整度,确定所述目标文本对应的文本质量;
完整度检测模型训练模块,用于获取字符完整度训练集,所述字符完整度训练集包括多个字符样本、各个字符样本分别对应的完整度标签和各个字符样本分别对应的初始采样概率;从各个初始子模型中确定当前子模型,将所述各个字符样本分别对应的初始采样概率作为当前采样概率;基于所述各个字符样本分别对应的当前采样概率,从所述字符完整度训练集中获取当前训练集;基于当前训练集训练当前子模型,直至满足第二收敛条件,得到目标子模型;将所述字符完整度训练集输入目标子模型,得到所述各个字符样本分别对应的预测完整度;基于同一字符样本对应的预测完整度和完整度标签,调整所述各个字符样本分别对应的初始采样概率,得到所述各个字符样本分别对应的更新采样概率;将所述各个字符样本分别对应的更新采样概率作为当前采样概率,返回所述从各个初始子模型中确定当前子模型的步骤执行,直至得到所述各个初始子模型分别对应的目标子模型;基于各个目标子模型生成所述字符完整度检测模型。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973415.6A CN116704513B (zh) | 2023-08-04 | 2023-08-04 | 文本质量检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973415.6A CN116704513B (zh) | 2023-08-04 | 2023-08-04 | 文本质量检测方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116704513A CN116704513A (zh) | 2023-09-05 |
CN116704513B true CN116704513B (zh) | 2023-12-15 |
Family
ID=87843606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310973415.6A Active CN116704513B (zh) | 2023-08-04 | 2023-08-04 | 文本质量检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704513B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251341A (zh) * | 2016-07-22 | 2016-12-21 | 凌云光技术集团有限责任公司 | 一种印刷品质量检测方法 |
EP3358471A1 (en) * | 2017-02-04 | 2018-08-08 | Tata Consultancy Services Limited | Systems and methods for assessing quality of input text using recurrent neural networks |
CN111258909A (zh) * | 2020-02-07 | 2020-06-09 | 中国信息安全测评中心 | 一种测试样本生成方法及装置 |
CN111598083A (zh) * | 2020-05-08 | 2020-08-28 | 南通大学 | 一种瓶底合模线上喷印喷码质量检测方法 |
CN114266764A (zh) * | 2021-12-29 | 2022-04-01 | 深圳市前海研祥亚太电子装备技术有限公司 | 一种印刷标签的字符完整性检测方法及其装置 |
CN114549504A (zh) * | 2022-03-01 | 2022-05-27 | 安徽工业技术创新研究院六安院 | 一种基于机器视觉的外观质量检测方法 |
CN115393855A (zh) * | 2022-02-15 | 2022-11-25 | 佛山华远智能装备有限责任公司 | 一种车牌产品质量检测方法、系统及设备 |
CN116309573A (zh) * | 2023-05-19 | 2023-06-23 | 成都工业学院 | 一种牛奶包装盒印刷字符的缺陷检测方法 |
CN116386018A (zh) * | 2023-03-09 | 2023-07-04 | 智慧互通科技股份有限公司 | 车牌字符分类方法以及系统 |
CN116383546A (zh) * | 2023-06-06 | 2023-07-04 | 深圳思谋信息科技有限公司 | 文件处理方法、系统、计算机设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283669B2 (en) * | 2003-01-29 | 2007-10-16 | Lockheed Martin Corporation | Fine segmentation refinement for an optical character recognition system |
-
2023
- 2023-08-04 CN CN202310973415.6A patent/CN116704513B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251341A (zh) * | 2016-07-22 | 2016-12-21 | 凌云光技术集团有限责任公司 | 一种印刷品质量检测方法 |
EP3358471A1 (en) * | 2017-02-04 | 2018-08-08 | Tata Consultancy Services Limited | Systems and methods for assessing quality of input text using recurrent neural networks |
CN111258909A (zh) * | 2020-02-07 | 2020-06-09 | 中国信息安全测评中心 | 一种测试样本生成方法及装置 |
CN111598083A (zh) * | 2020-05-08 | 2020-08-28 | 南通大学 | 一种瓶底合模线上喷印喷码质量检测方法 |
CN114266764A (zh) * | 2021-12-29 | 2022-04-01 | 深圳市前海研祥亚太电子装备技术有限公司 | 一种印刷标签的字符完整性检测方法及其装置 |
CN115393855A (zh) * | 2022-02-15 | 2022-11-25 | 佛山华远智能装备有限责任公司 | 一种车牌产品质量检测方法、系统及设备 |
CN114549504A (zh) * | 2022-03-01 | 2022-05-27 | 安徽工业技术创新研究院六安院 | 一种基于机器视觉的外观质量检测方法 |
CN116386018A (zh) * | 2023-03-09 | 2023-07-04 | 智慧互通科技股份有限公司 | 车牌字符分类方法以及系统 |
CN116309573A (zh) * | 2023-05-19 | 2023-06-23 | 成都工业学院 | 一种牛奶包装盒印刷字符的缺陷检测方法 |
CN116383546A (zh) * | 2023-06-06 | 2023-07-04 | 深圳思谋信息科技有限公司 | 文件处理方法、系统、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116704513A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN108229490B (zh) | 关键点检测方法、神经网络训练方法、装置和电子设备 | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
CN108805047B (zh) | 一种活体检测方法、装置、电子设备和计算机可读介质 | |
CN110929569B (zh) | 人脸识别方法、装置、设备及存储介质 | |
CN109241985B (zh) | 一种图像识别方法及装置 | |
WO2018223994A1 (zh) | 中文打印字符图像合成方法及装置 | |
JP6139396B2 (ja) | 文書を表す二値画像を圧縮する方法及びプログラム | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN111680690B (zh) | 一种文字识别方法及装置 | |
CN114155546B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN110427972B (zh) | 证件视频特征提取方法、装置、计算机设备和存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN113592776A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN110674759A (zh) | 一种基于深度图的单目人脸活体检测方法、装置及设备 | |
CN112561879B (zh) | 模糊度评价模型训练方法、图像模糊度评价方法及装置 | |
CN114049499A (zh) | 用于连续轮廓的目标对象检测方法、设备及存储介质 | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN109697442B (zh) | 一种字符识别模型的训练方法和装置 | |
CN113657370B (zh) | 一种文字识别方法及其相关设备 | |
CN111985488B (zh) | 一种基于离线高斯模型的目标检测分割方法及系统 | |
CN117058554A (zh) | 电力设备目标检测方法、模型训练方法和装置 | |
JP2012048326A (ja) | 画像処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |