CN113033542B - 一种文本识别模型的生成方法以及装置 - Google Patents
一种文本识别模型的生成方法以及装置 Download PDFInfo
- Publication number
- CN113033542B CN113033542B CN202110447608.9A CN202110447608A CN113033542B CN 113033542 B CN113033542 B CN 113033542B CN 202110447608 A CN202110447608 A CN 202110447608A CN 113033542 B CN113033542 B CN 113033542B
- Authority
- CN
- China
- Prior art keywords
- text image
- image
- sample text
- sample
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000003702 image correction Methods 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000005452 bending Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 206010017577 Gait disturbance Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种文本识别模型的生成方法,该方法先将样本文本图像输入识别网络得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;对于真实概率低于预设阈值的样本文本图像进行矫正处理得到矫正后的样本文本图像;将矫正后的样本文本图像输入预设的生成对抗网络得到矫正后的样本文本图像对应的生成文本图像;将生成文本图像与其对应的矫正后的样本文本图像进行融合得到融合文本图像;用融合文本图像与真实概率高于或等于预设阈值的样本文本图像重新对识别网络训练并将满足预设条件的识别网络作为文本识别模型。这样,本申请可提高识别网络识别字体过小、模糊不清、背景纹理复杂难区分的样本文本图像中的文本内容的准确率。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种文本识别模型的生成方法、装置。
背景技术
随着信息化和人工智能技术地快速发展,对于办公自动化的需求也急剧上升,尤其对于自然场景文字的识别、各类票据数据的识别、各类证件数据地识别等,特别是对各类报销票据数据和身份证件数据的识别精度要求非常高,但目前自然场景文字的识别存在于以下难点:文本行可能有横向、竖向、弯曲、旋转、扭曲等式样,图像中的文字区域存在小目标,遮挡,仿射畸变等情形,还可能会产生变形(透视、仿射变换)、残缺、模糊等现象,还有自然场景图像的背景极其多样,如文字可以出现在平面、曲面或折皱面上,文字区域附近有复杂的干扰纹理或者非文字区域有近似文字的纹理,传统的深度学习网络在处理以上问题时,存在无法识别或者识别的文本不正确的问题。
发明内容
本申请提供一种文本识别模型的生成方法,以可以实现可以提高识别网络识别字体过小、模糊不清、背景纹理复杂难区分的样本文本图像中的文本内容的准确率。
第一方面,本申请提供了一种文本识别模型的生成方法,所述方法包括:
获取训练样本集,其中,所述训练样本集包括若干样本文本图像;
针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;
对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;
将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;
将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;
将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。。
第二方面,本申请提供了一种文本识别模型的生成装置,其特征在于,所述装置包括:
样本获取单元,用于获取训练样本集,其中,所述训练样本集包括若干样本文本图像;
预测获取单元,用于针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;
图像矫正单元,用于对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;
图像生成单元,用于将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;
图像融合单元,用于将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;
模型生成单元,用于将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。。
第三方面,本申请提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
第四方面,本申请提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
由上述技术方案可以看出,本申请提供了一种文本识别模型的生成方法,所述方法可以先获取训练样本集,其中,所述训练样本集包括若干样本文本图像;针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。这样,本申请通过对预测文本内容对应的真实概率低于预设阈值的样本文本图像进行矫正处理,以及生成对抗网络的处理,得到矫正后的样本文本图像对应的生成文本图像,再将生成文本图像与其对应的矫正后的样本文本图像融合得到的融合文本图像对识别网络进行训练,这样,可以利用字体过小、模糊不清、背景纹理复杂难区分的样本文本图像,经过矫正处理以及生成对抗网络的处理,生成了对抗样本数据(即生成文本图像),并融合真实样本地数据特征(即字体过小、模糊不清、背景纹理复杂难区分的样本文本图像),生成融合文本图像,再送入训练识别网络进行网络参数地调优和迭代训练,从而可以提高识别网络识别字体过小、模糊不清、背景纹理复杂难区分的样本文本图像中的文本内容的准确率。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本申请实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的一种文本识别模型的生成方法的流程示意图;
图2为本申请一实施例提供的一种文本识别模型的生成网络的结构示意图;
图3为本申请一实施例提供的一种文本识别模型的生成装置的结构示意图;
图4为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,自然场景文字的识别存在于以下难点:文本行可能有横向、竖向、弯曲、旋转、扭曲等式样,图像中的文字区域存在小目标,遮挡,仿射畸变等情形,还可能会产生变形(透视、仿射变换)、残缺、模糊等现象,还有自然场景图像的背景极其多样,如文字可以出现在平面、曲面或折皱面上,文字区域附近有复杂的干扰纹理或者非文字区域有近似文字的纹理,传统的深度学习网络在处理以上问题时,存在无法识别或者识别的文本不正确的问题。
本申请提供了一种文本识别模型的生成方法,所述方法可以先获取训练样本集,其中,所述训练样本集包括若干样本文本图像;针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。这样,本申请通过对预测文本内容对应的真实概率低于预设阈值的样本文本图像进行矫正处理,以及生成对抗网络的处理,得到矫正后的样本文本图像对应的生成文本图像,再将生成文本图像与其对应的矫正后的样本文本图像融合得到的融合文本图像对识别网络进行训练,这样,可以利用字体过小、模糊不清、背景纹理复杂难区分的样本文本图像,经过矫正处理以及生成对抗网络的处理,生成了对抗样本数据(即生成文本图像),并融合真实样本地数据特征(即字体过小、模糊不清、背景纹理复杂难区分的样本文本图像),生成融合文本图像,再送入训练识别网络进行网络参数地调优和迭代训练,从而可以提高识别网络识别字体过小、模糊不清、背景纹理复杂难区分的样本文本图像中的文本内容的准确率。
需要说明的是,本申请实施例可以应用于电子设备(比如手机、平板等)或者服务器中。需要说明的是,除了上述提及的方式以外,还可以为其他的实现方式,在这里并不限定。
下面结合附图,详细说明本申请的各种非限制性实施方式。
参见图1,示出了本申请实施例中的一种文本识别模型的生成方法,在本实施例中,所述方法例如可以包括以下步骤:
S101:获取训练样本集。
在本实施例中,所述训练样本集包括若干样本文本图像。样本文本图像可以理解为包括有文本内容的图像,比如,可以包括文本行有横向、竖向、弯曲、旋转、扭曲等式样的图像,可以包括图像中的文字区域存在小目标、遮挡、仿射畸变等情形的图像,还可以包括会产生变形(透视、仿射变换)、残缺、模糊等现象的图像,还可以包括自然场景图像的背景极其多样,如文字可以出现在平面、曲面或折皱面上的图像,文字区域附近有复杂的干扰纹理或者非文字区域有近似文字的纹理的图像。
训练样本集可以是从数据集Pdata(x)中sample(即随机采样)出m个样本点{x1,x2,...,xm},m为超参数。
S102:针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率。
在本实施例中,在获取到训练样本集之后,可以将训练样本集中的样本文本图像输入到识别网络中,以利用已训练的识别网络确定样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率。可以理解的是,样本文本图像对应的预测文本内容可以理解为识别网络所预测的样本文本图像对应的文本内容。需要说明的是,该预测文本内容对应的真实概率反映了样本文本图像对应的预测文本内容与该样本文本图像对应的真实文本内容的相似程度,若预测文本内容对应的真实概率越大,说明样本文本图像对应的预测文本内容与该样本文本图像对应的真实文本内容的相似程度越高,即样本文本图像对应的预测文本内容为样本文本图像对应的真实文本内容的概率越大,也说明了识别网络的文本内容识别的准确性越高,反之,若预测文本内容对应的真实概率越小,说明样本文本图像对应的预测文本内容与该样本文本图像对应的真实文本内容的相似程度越低,即样本文本图像对应的预测文本内容为样本文本图像对应的真实文本内容的概率越小,也说明了识别网络的文本内容识别的准确性越低。
S103:对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像。
在本实施例中,在确定每一样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率之后,可以先确定真实概率低于预设阈值的样本文本图像,真实概率低于预设阈值的样本文本图像可以理解为识别网络难以识别的图像,比如,可以包括文本行有横向、竖向、弯曲、旋转、扭曲等式样的图像,可以包括图像中的文字区域存在小目标、遮挡、仿射畸变等情形的图像,还可以包括会产生变形(透视、仿射变换)、残缺、模糊等现象的图像,还可以包括自然场景图像的背景极其多样,如文字可以出现在平面、曲面或折皱面上的图像,文字区域附近有复杂的干扰纹理或者非文字区域有近似文字的纹理的图像,或者清晰度较差的图像。
为了使得识别网络难以识别的图像能够被识别网络能够识别,从而提高识别网络的识别能力以及适应各种情况的文本图像,然后,如图2所示,可以将真实概率低于预设阈值的样本文本图像输入评估网络,得到矫正后的样本文本图像,可以理解的是,矫正后的样本文本图像比真实概率低于预设阈值的样本文本图像更清晰。具体地,可以将真实概率低于预设阈值的样本文本图像输入评估网络,评估网络对真实概率低于预设阈值的样本文本图像进行反卷积处理以及反模糊处理,得到矫正后的样本文本图像,这样可以使得样本文本图像中的文本内容对应的图像区域更加清晰。例如,可以先对真实概率低于预设阈值的样本文本图像进行反模糊处理,比如可以利用反高斯模糊、反噪声函数对真实概率低于预设阈值的样本文本图像进行反模糊处理,反高斯模糊为高斯模糊的逆运算、反噪声函数为噪声函数的逆运算;接着可以对真实概率低于预设阈值的样本文本图像进行反卷积处理,具体地,可以利用下列公式实现反卷积处理:其中,f(x,y)为未模糊的清晰图像(即样本文本图像对应的清晰图像)中的第k个特征数据,为f(x,y)的积分函数,/>为未模糊的清晰图像(即样本文本图像对应的清晰图像)中的第k+1个特征数据的积分函数,h(x,y)代表模糊函数,h(-x,-y)代表着去模糊函数,n(x,y)为加性噪声,g(x,y)为模糊结果(即样本文本图像),x、y是广泛的图像特征函数的表达式。
S104:将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像。
在本实施例中,预设的生成对抗网络包括经过训练的生成器和判别器。具体地,可以先将所述矫正后的样本文本图像输入生成器,得到所述矫正后的样本文本图像对应的生成预测图像;所述判别器判断所述生成预测图像是否为真实图像;若否,则将所述生成预测图像作为所述矫正后的样本文本图像,继续执行所述将所述矫正后的样本文本图像输入生成器,得到所述矫正后的样本文本图像对应的生成预测图像的步骤;若是,则将所述生成预测图像作为所述矫正后的样本文本图像对应的生成文本图像(即图2中的误差样本集中的图像)。其中,所述判别器判断所述生成预测图像是否为真实图像,具体为:所述判别器根据样本文本图像对应的文本清晰图像(即图2中的真实样本集中的图像),判断所述生成预测图像与样本文本图像对应的文本清晰图像相比是否为真实图像。这样,可以利用生成对抗网络使得样本文本图像中的文本内容对应的图像区域进一步更加清晰。
S105:将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像。
在本实施例中,如图2所示,可以将生成文本图像与其对应的矫正后的样本文本图像输入特征融合网络,得到融合文本图像。在本实施例中,利用特征融合网络将生成文本图像与其对应的矫正后的样本文本图像进行多特征地融合,得到的融合文本图像,这样,由于融合文本图像所包含的图像特征信息较多,从而可以利用融合文本图像对识别网络进行训练,从而实现识别网络可以快速收敛的效果。
S106:将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。
在本实施例中,在得到融合文本图像后,可以将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,继续对识别网络进行训练,即重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。其中,预设条件可以为识别网络的网络模型参数完成收敛,或者识别网络的训练迭代次数满足预设的次数阈值。
可选的,在一种实现方式中,在所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤之前,所述方法还包括:
将样本文本图像输入数据增强网络,得到样本文本图像对应的增强样本文本图像。
在本实施例中,为了提高识别网络对样本文本图像进行识别得到的预测文本内容的准确性,可以先将样本文本图像输入数据增强网络,得到样本文本图像对应的增强样本文本图像,其中,增强样本文本图像为样本文本图像的增强图像,比如,增强样本文本图像的图像分辨率比样本文本图像的分辨率更高。
在本实施例的一种实现方式中,还可以包括一个检测网络,可以利用该检测网络对数据增强网络输出的样本文本图像对应的增强样本文本图像,进行检测评分,并计算平均损失,并用正态分布表示出来,接着利用高斯分布或正态分布从样本文本图像对应的增强样本文本图像中筛选出预设分布区间中的增强样本文本图像,并利用筛选出的增强样本文本图像执行“针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率”的步骤。
相应地,所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率,包括:
针对每一增强样本文本图像,将该增强样本文本图像输入识别网络,得到该增强样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率。
由上述技术方案可以看出,本申请提供了一种文本识别模型的生成方法,所述方法可以先获取训练样本集,其中,所述训练样本集包括若干样本文本图像;针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。这样,本申请通过对预测文本内容对应的真实概率低于预设阈值的样本文本图像进行矫正处理,以及生成对抗网络的处理,得到矫正后的样本文本图像对应的生成文本图像,再将生成文本图像与其对应的矫正后的样本文本图像融合得到的融合文本图像对识别网络进行训练,这样,可以利用字体过小、模糊不清、背景纹理复杂难区分的样本文本图像,经过矫正处理以及生成对抗网络的处理,生成了对抗样本数据(即生成文本图像),并融合真实样本地数据特征(即字体过小、模糊不清、背景纹理复杂难区分的样本文本图像),生成融合文本图像,再送入训练识别网络进行网络参数地调优和迭代训练,从而可以提高识别网络识别字体过小、模糊不清、背景纹理复杂难区分的样本文本图像中的文本内容的准确率。
如图3所示,为本申请所述一种文本识别模型的生成装置的一个具体实施例。本实施例所述装置,即用于执行上述实施例所述方法的实体装置。其技术方案本质上与上述实施例一致,本实施例中所述装置包括:
样本获取单元301,用于获取训练样本集,其中,所述训练样本集包括若干样本文本图像;
预测获取单元302,用于针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;
图像矫正单元303,用于对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;
图像生成单元304,用于将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;
图像融合单元305,用于将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;
模型生成单元306,用于将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型。
可选的,所述图像矫正单元303,具体用于:
将真实概率低于预设阈值的样本文本图像输入评估网络,得到矫正后的样本文本图像。
可选的,所述图像矫正单元303,具体用于:
将真实概率低于预设阈值的样本文本图像输入评估网络,评估网络对真实概率低于预设阈值的样本文本图像进行反卷积处理以及反模糊处理,得到矫正后的样本文本图像。
可选的,预设的生成对抗网络包括生成器和判别器;所述图像生成单元304,具体用于:
将所述矫正后的样本文本图像输入生成器,得到所述矫正后的样本文本图像对应的生成预测图像;
所述判别器判断所述生成预测图像是否为真实图像;若否,则将所述生成预测图像作为所述矫正后的样本文本图像,继续执行所述将所述矫正后的样本文本图像输入生成器,得到所述矫正后的样本文本图像对应的生成预测图像的步骤;若是,则将所述生成预测图像作为所述矫正后的样本文本图像对应的生成文本图像。
可选的,所述所述图像生成单元304,具体用于:
所述判别器根据样本文本图像对应的文本清晰图像,判断所述生成预测图像与样本文本图像对应的文本清晰图像相比是否为真实图像。
可选的,所述图像融合单元305,具体用于:
将生成文本图像与其对应的矫正后的样本文本图像输入特征融合网络,得到融合文本图像。
可选的,所述装置还包括图像增强单元,用于:
将样本文本图像输入数据增强网络,得到样本文本图像对应的增强样本文本图像;
相应地,所述预测获取单元302,具体用于:
针对每一增强样本文本图像,将该增强样本文本图像输入识别网络,得到该增强样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率。
图4是本申请实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成文本识别模型的生成装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本申请任一实施例中提供的文本识别模型的生成方法。
上述如本申请图1所示实施例提供的文本识别模型的生成装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本申请任一实施例中提供的文本识别模型的生成方法,并具体用于执行上述文本识别模型的生成所述的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种文本识别模型的生成方法,其特征在于,所述方法包括:
获取训练样本集,其中,所述训练样本集包括若干样本文本图像;
针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;
对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;
将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;
将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;
将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型;
所述对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像,包括:
将真实概率低于预设阈值的样本文本图像输入评估网络,得到矫正后的样本文本图像;
所述将真实概率低于预设阈值的样本文本图像输入评估网络,得到矫正后的样本文本图像,包括:
将真实概率低于预设阈值的样本文本图像输入评估网络,评估网络对真实概率低于预设阈值的样本文本图像进行反卷积处理以及反模糊处理,得到矫正后的样本文本图像;利用下列公式实现反卷积处理: 其中,f(x,y)为未模糊的清晰图像中的第k个特征数据,/>为f(x,y)的积分函数,/>为未模糊的清晰图像中的第k+1个特征数据的积分函数,h(x,y)代表模糊函数,h(-x,-y)代表着去模糊函数,n(x,y)为加性噪声,g(x,y)为模糊结果,x、y是广泛的图像特征函数的表达式。
2.根据权利要求1所述的方法,其特征在于,预设的生成对抗网络包括生成器和判别器;所述将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像,包括:
将所述矫正后的样本文本图像输入生成器,得到所述矫正后的样本文本图像对应的生成预测图像;
所述判别器判断所述生成预测图像是否为真实图像;若否,则将所述生成预测图像作为所述矫正后的样本文本图像,继续执行所述将所述矫正后的样本文本图像输入生成器,得到所述矫正后的样本文本图像对应的生成预测图像的步骤;若是,则将所述生成预测图像作为所述矫正后的样本文本图像对应的生成文本图像。
3.根据权利要求2所述的方法,其特征在于,所述判别器判断所述生成预测图像是否为真实图像,包括:
所述判别器根据样本文本图像对应的文本清晰图像,判断所述生成预测图像与样本文本图像对应的文本清晰图像相比是否为真实图像。
4.根据权利要求1所述的方法,其特征在于,所述将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像,包括:
将生成文本图像与其对应的矫正后的样本文本图像输入特征融合网络,得到融合文本图像。
5.根据权利要求1-4中任一所述的方法,其特征在于,在所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤之前,所述方法还包括:
将样本文本图像输入数据增强网络,得到样本文本图像对应的增强样本文本图像;
相应地,所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率,包括:
针对每一增强样本文本图像,将该增强样本文本图像输入识别网络,得到该增强样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率。
6.一种文本识别模型的生成装置,其特征在于,所述装置包括:
样本获取单元,用于获取训练样本集,其中,所述训练样本集包括若干样本文本图像;
预测获取单元,用于针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率;
图像矫正单元,用于对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像;
图像生成单元,用于将所述矫正后的样本文本图像输入预设的生成对抗网络,得到所述矫正后的样本文本图像对应的生成文本图像;
图像融合单元,用于将生成文本图像与其对应的矫正后的样本文本图像进行融合,得到融合文本图像;
模型生成单元,用于将融合文本图像与真实概率高于或等于预设阈值的样本文本图像作为训练样本集,重新执行所述针对每一样本文本图像,将该样本文本图像输入识别网络,得到该样本文本图像对应的预测文本内容以及该预测文本内容对应的真实概率的步骤,直至所述识别网络满足预设条件,并将满足预设条件的识别网络作为文本识别模型;
所述对于真实概率低于预设阈值的样本文本图像进行矫正处理,得到矫正后的样本文本图像,包括:
将真实概率低于预设阈值的样本文本图像输入评估网络,得到矫正后的样本文本图像;
所述将真实概率低于预设阈值的样本文本图像输入评估网络,得到矫正后的样本文本图像,包括:
将真实概率低于预设阈值的样本文本图像输入评估网络,评估网络对真实概率低于预设阈值的样本文本图像进行反卷积处理以及反模糊处理,得到矫正后的样本文本图像;利用下列公式实现反卷积处理: 其中,f(x,y)为未模糊的清晰图像中的第k个特征数据,/>为f(x,y)的积分函数,/>为未模糊的清晰图像中的第k+1个特征数据的积分函数,h(x,y)代表模糊函数,h(-x,-y)代表着去模糊函数,n(x,y)为加性噪声,g(x,y)为模糊结果,x、y是广泛的图像特征函数的表达式。
7.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储程序;所述处理器用于运行所述程序,以实现权利要求1-5任一项所述的文本识别模型的生成方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求1-5任一项所述的文本识别模型的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110447608.9A CN113033542B (zh) | 2021-04-25 | 2021-04-25 | 一种文本识别模型的生成方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110447608.9A CN113033542B (zh) | 2021-04-25 | 2021-04-25 | 一种文本识别模型的生成方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033542A CN113033542A (zh) | 2021-06-25 |
CN113033542B true CN113033542B (zh) | 2024-03-01 |
Family
ID=76458032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110447608.9A Active CN113033542B (zh) | 2021-04-25 | 2021-04-25 | 一种文本识别模型的生成方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033542B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998897B (zh) * | 2022-06-13 | 2023-08-29 | 北京百度网讯科技有限公司 | 生成样本图像的方法以及文字识别模型的训练方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103337055A (zh) * | 2013-06-24 | 2013-10-02 | 暨南大学 | 一种基于梯度拟合的文本图像去模糊方法 |
CN108564544A (zh) * | 2018-04-11 | 2018-09-21 | 南京邮电大学 | 基于边缘感知的图像盲去模糊组合稀疏优化方法 |
CN109214386A (zh) * | 2018-09-14 | 2019-01-15 | 北京京东金融科技控股有限公司 | 用于生成图像识别模型的方法和装置 |
CN109377459A (zh) * | 2018-09-30 | 2019-02-22 | 国网山东省电力公司电力科学研究院 | 一种生成式对抗网络的超分辨率去模糊方法 |
CN109410239A (zh) * | 2018-11-07 | 2019-03-01 | 南京大学 | 一种基于条件生成对抗网络的文本图像超分辨率重建方法 |
CN110517197A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 基于参数模型的单幅图像去模糊方法 |
CN111275038A (zh) * | 2020-01-17 | 2020-06-12 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN111428575A (zh) * | 2020-03-02 | 2020-07-17 | 武汉大学 | 一种基于孪生网络的针对模糊目标的跟踪方法 |
CN111507333A (zh) * | 2020-04-21 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
CN111783518A (zh) * | 2020-05-14 | 2020-10-16 | 北京三快在线科技有限公司 | 训练样本生成方法、装置、电子设备及可读存储介质 |
CN112381057A (zh) * | 2020-12-03 | 2021-02-19 | 上海芯翌智能科技有限公司 | 手写文字识别方法及装置、存储介质、终端 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009046419A2 (en) * | 2007-10-05 | 2009-04-09 | Tufts University | Devices and methods for restoring low-resolution text images |
US8705881B2 (en) * | 2011-09-02 | 2014-04-22 | Adobe Systems Incorporated | Motion deblurring for text images |
EP4042320A1 (en) * | 2019-10-09 | 2022-08-17 | Ancestry.com Operations Inc. | Adversarial network for transforming handwritten text |
-
2021
- 2021-04-25 CN CN202110447608.9A patent/CN113033542B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103337055A (zh) * | 2013-06-24 | 2013-10-02 | 暨南大学 | 一种基于梯度拟合的文本图像去模糊方法 |
CN108564544A (zh) * | 2018-04-11 | 2018-09-21 | 南京邮电大学 | 基于边缘感知的图像盲去模糊组合稀疏优化方法 |
CN109214386A (zh) * | 2018-09-14 | 2019-01-15 | 北京京东金融科技控股有限公司 | 用于生成图像识别模型的方法和装置 |
CN109377459A (zh) * | 2018-09-30 | 2019-02-22 | 国网山东省电力公司电力科学研究院 | 一种生成式对抗网络的超分辨率去模糊方法 |
CN109410239A (zh) * | 2018-11-07 | 2019-03-01 | 南京大学 | 一种基于条件生成对抗网络的文本图像超分辨率重建方法 |
CN110517197A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 基于参数模型的单幅图像去模糊方法 |
CN111275038A (zh) * | 2020-01-17 | 2020-06-12 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN111428575A (zh) * | 2020-03-02 | 2020-07-17 | 武汉大学 | 一种基于孪生网络的针对模糊目标的跟踪方法 |
CN111507333A (zh) * | 2020-04-21 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
CN111783518A (zh) * | 2020-05-14 | 2020-10-16 | 北京三快在线科技有限公司 | 训练样本生成方法、装置、电子设备及可读存储介质 |
CN112381057A (zh) * | 2020-12-03 | 2021-02-19 | 上海芯翌智能科技有限公司 | 手写文字识别方法及装置、存储介质、终端 |
Non-Patent Citations (1)
Title |
---|
面向自然场景文本识别的图像增强技术研究;王雨阳;《中国优秀硕士学位论文全文数据库信息科技辑》;第24-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113033542A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875731B (zh) | 目标识别方法、装置、系统及存储介质 | |
US9811760B2 (en) | Online per-feature descriptor customization | |
CN110909663B (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN112001406B (zh) | 一种文本区域检测方法及装置 | |
CN110245621B (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN115797300A (zh) | 一种基于自适应梯度阈值canny算子的边缘检测方法及其装置 | |
CN111027428A (zh) | 一种多任务模型的训练方法、装置及电子设备 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN112464845A (zh) | 票据识别方法、设备及计算机存储介质 | |
CN114862861B (zh) | 基于少样本学习的肺叶分割方法和装置 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
CN113420848A (zh) | 神经网络模型的训练方法及装置、手势识别的方法及装置 | |
CN113033542B (zh) | 一种文本识别模型的生成方法以及装置 | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN111275625B (zh) | 一种图像去模糊方法、装置及电子设备 | |
CN111325671B (zh) | 网络训练方法、装置、图像处理方法及电子设备 | |
CN111739025B (zh) | 一种图像处理方法、装置、终端及存储介质 | |
CN111340788B (zh) | 硬件木马版图检测方法、装置、电子设备和可读存储介质 | |
CN114626118A (zh) | 建筑物室内模型生成方法及装置 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN116958954B (zh) | 基于关键点与旁路矫正的车牌识别方法、装置及存储介质 | |
CN113014928A (zh) | 一种补偿帧生成方法及装置 | |
CN112734016A (zh) | 用于钢筋表面的光滑程度检测的神经网络的训练方法 | |
CN114819142B (zh) | 拍屏图像识别及其模型的训练方法、装置和电子设备 | |
CN111753598A (zh) | 人脸检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |