CN109447081B - 一种光学字符识别数据集的获取方法及系统 - Google Patents
一种光学字符识别数据集的获取方法及系统 Download PDFInfo
- Publication number
- CN109447081B CN109447081B CN201811349926.6A CN201811349926A CN109447081B CN 109447081 B CN109447081 B CN 109447081B CN 201811349926 A CN201811349926 A CN 201811349926A CN 109447081 B CN109447081 B CN 109447081B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- trained
- character
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012015 optical character recognition Methods 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
一种光学字符识别数据集的获取方法及系统,包括:生成目标文字图像;获取所述目标文字图像对应的目标二值图像;将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像;根据所述目标灰度图像,获取光学字符识别数据集。实施本发明实施例,能够自动生成目标文字图像并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
Description
技术领域
本发明涉及文字识别技术领域,尤其涉及一种光学字符识别数据集的获取方法及系统。
背景技术
目前,随着光学字符识别(Optical Character Recognition,OCR)技术与深度学习技术的不断发展,结合OCR技术与深度学习技术来识别文字图片中的文字信息已广泛应用到各个领域。在实践中发现,结合OCR技术与深度学习技术进行的模型训练依赖于海量OCR数据集。通常的,对于OCR数据集的获取依赖于人工标注文字图片,具体方式为:采集现实场景中的文字图片-人工标注文字图片对应的文字信息-将文字图片与文字信息对应存储获得OCR数据集。但是人工标注文字图片对应的文字信息的工作量很大,从而导致获取OCR数据集的效率低。
发明内容
本发明实施例公开一种OCR数据集的获取方法及系统,能够提高获取OCR数据集的效率。
本发明实施例第一方面公开一种光学字符识别数据集的获取方法,包括:
生成目标文字图像;
获取所述目标文字图像对应的目标二值图像;
将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像;
根据所述目标灰度图像,获取光学字符识别数据集。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像之前,所述方法还包括:
在现实场景中采集现实文字图像;
对所述现实文字图像进行文字定位,获得待训练文字图像;
生成所述待训练文字图像相匹配的待训练灰度图像以及所述待训练文字图像相匹配的待训练二值图像;
将所述待训练二值图像设置为待训练模型的输入数据以及将所述待训练灰度图像设置为所述待训练模型的输出数据;
将所述输入数据输入所述待训练模型,并调整所述待训练模型的参数直至所述待训练模型输出所述输出数据;
获取所述待训练模型输出所述输出数据时的参数信息;
根据所述参数信息设置所述待训练模型的参数,获得预设模型。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述现实文字图像进行文字定位,获得待训练文字图像,包括:
根据文字特征定位所述现实文字图像中的文字所在区域;
以所述文字所在区域为依据对所述现实文字图像进行提取,获得待训练文字图像。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述目标灰度图像,获取光学字符识别数据集,包括:
获取所述目标灰度图像对应的文字标注信息;
根据所述目标灰度图像与所述文字标注信息,获取光学字符识别数据集。
作为一种可选的实施方式,在本发明实施例第一方面中,所述生成目标文字图像,包括:
利用预先存储的字体生成目标文字图像。
本发明实施例第二方面公开一种光学字符识别数据集的获取系统,包括:
第一生成单元,用于生成目标文字图像;
第一获取单元,用于获取所述目标文字图像对应的目标二值图像;
第二获取单元,用于将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像;
第三获取单元,用于根据所述目标灰度图像,获取光学字符识别数据集。
作为一种可选的实施方式,在本发明实施例第二方面中,所述系统还包括:
采集单元,用于在所述第二获取单元将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像之前,在现实场景中采集现实文字图像;
定位单元,用于对所述现实文字图像进行文字定位,获得待训练文字图像;
第二生成单元,用于生成所述待训练文字图像相匹配的待训练灰度图像以及所述待训练文字图像相匹配的待训练二值图像;
设置单元,用于将所述待训练二值图像设置为待训练模型的输入数据以及将所述待训练灰度图像设置为所述待训练模型的输出数据;
调整单元,用于将所述输入数据输入所述待训练模型,并调整所述待训练模型的参数直至所述待训练模型输出所述输出数据;
第四获取单元,用于获取所述待训练模型输出所述输出数据时的参数信息,并根据所述参数信息设置所述待训练模型的参数,获得预设模型。
作为一种可选的实施方式,在本发明实施例第二方面中,所述定位单元包括:
定位子单元,用于根据文字特征定位所述现实文字图像中的文字所在区域;
提取子单元,用于以所述文字所在区域为依据对所述现实文字图像进行提取,获得待训练文字图像。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第三获取单元用于根据所述目标灰度图像,获取光学字符识别数据集的方式具体为:
所述第三获取单元,用于获取所述目标灰度图像对应的文字标注信息;并根据所述目标灰度图像与所述文字标注信息,获取光学字符识别数据集。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第一生成单元用于生成目标文字图像的方式具体为:
所述第一生成单元,用于利用预先存储的字体生成目标文字图像。
本发明实施例第三方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
本发明实施例第四方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,生成目标文字图像;获取目标文字图像对应的目标二值图像;将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像;根据目标灰度图像,获取光学字符识别数据集。这一过程能够自动生成目标文字图像,并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种光学字符识别数据集的获取方法的流程示意图;
图2是本发明实施例公开的另一种光学字符识别数据集的获取方法的流程示意图;
图3是本发明实施例公开的另一种光学字符识别数据集的获取方法的流程示意图;
图4是本发明实施例公开的一种光学字符识别数据集的获取系统的结构示意图;
图5是本发明实施例公开的另一种光学字符识别数据集的获取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开一种光学字符识别数据集的获取方法及系统,能够提高获取光学字符识别数据集的效率。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种光学字符识别数据集的获取方法的流程示意图。如图1所示,该光学字符识别数据集的获取方法可以包括以下步骤:
101、光学字符识别数据集的获取系统生成目标文字图像。
本发明实施例中,生成的目标文字图像为利用计算机系统的自带字体自动生成的文字图像。
作为一种可选的实施方式,光学字符识别数据集的获取系统生成目标文字图像可以包括:
光学字符识别数据集的获取系统根据文字信息利用计算机系统的自带字体生成目标文字图像;
光学字符识别数据集的获取系统将文字信息与目标文字图像信息对应存储。
通过实施这种可选的实施方式,可以使用计算机系统的自带字体生成目标文字图像,并将目标文字图像与文字信息对应存储,便于后续将文字信息与目标灰度图像对应存储,从而使得获取到的光学字符识别数据集包含图像以及与之匹配的文字信息,用以增加对光学字符识别的模型训练的可靠性。
102、光学字符识别数据集的获取系统获取目标文字图像对应的目标二值图像。
103、光学字符识别数据集的获取系统将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像。
本发明实施例中,预设模型可以为训练好的生成对抗网络(GenerativeAdversarial Networks,GAN)模型,也可以为其它模型等,本发明实施例中不做限定。其中,训练好的GAN模型可以将二值图像转化为灰度图像,并且由于训练好的GAN模型是经由海量现实文字图像训练得到的,因而经预设模型输出的目标灰度图像更加贴合现实场景中的图像,更适合作为光学字符识别数据集。
104、光学字符识别数据集的获取系统根据目标灰度图像,获取光学字符识别数据集。
本发明实施例中,光学字符识别数据集中包含海量目标灰度图像以及与每一目标灰度图像相匹配的文字标注信息,文字标注信息即为先前与目标文字图像信息对应存储的文字信息。
可见,实施图1所描述的光学字符识别数据集的获取方法,能够自动生成目标文字图像,并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
实施例二
请参阅图2,图2是本发明实施例公开的另一种光学字符识别数据集的获取方法的流程示意图。如图2所示,该光学字符识别数据集的获取方法可以包括以下步骤:
201、光学字符识别数据集的获取系统生成目标文字图像。
202、光学字符识别数据集的获取系统获取目标文字图像对应的目标二值图像。
203、光学字符识别数据集的获取系统在现实场景中采集现实文字图像。
本发明实施例中,现实文字图像可以由光学字符识别数据集的获取系统的用户采集上传得到,也可以由光学字符识别数据集的获取系统在现实场景中采集得到。
作为一种可选的实施方式,当现实文字图像由光学字符识别数据集的获取系统在现实场景中采集得到时,光学字符识别数据集的获取系统在现实场景中采集现实文字图像可以包括:
光学字符识别数据集的获取系统控制若干个受控摄像头捕捉该受控摄像头所在现实场景的目标图像;
当目标图像中包含文字信息的图像时,光学字符识别数据集的获取系统控制相应的受控摄像头拍摄该目标图像;
光学字符识别数据集的获取系统将获得的若干个目标图像作为现实文字图像。
举例来说,光学字符识别数据集的获取系统可以控制若干个得到允许访问的用户终端的摄像头捕捉目标图像,当用户终端的用户使用终端上的摄像头拍摄时,若其拍摄的图像中包含文字信息,可以获取这些图像作为现实文字图像。
通过实施这种可选的实施方式,可以利用与若干个受控摄像头之间的控制关系自动化地实现采集现实文字图像,自动化程度更高,获取光学字符识别数据集的效率更高。
204、光学字符识别数据集的获取系统对现实文字图像进行文字定位,获得待训练文字图像。
作为一种可选的实施方式,光学字符识别数据集的获取系统对现实文字图像进行文字定位,获得待训练文字图像可以包括:
光学字符识别数据集的获取系统根据文字特征定位现实文字图像中的文字所在区域;
光学字符识别数据集的获取系统以文字所在区域为依据对现实文字图像进行提取,获得待训练文字图像。
通过实施这种可选的实施方式,可以根据文字特征在现实文字图像中定位文字所在区域,以此实现目标文字图像的提取,从而获得更加精准的待训练文字图像。
205、光学字符识别数据集的获取系统生成待训练文字图像相匹配的待训练灰度图像以及待训练文字图像相匹配的待训练二值图像。
206、光学字符识别数据集的获取系统将待训练二值图像设置为待训练模型的输入数据以及将待训练灰度图像设置为待训练模型的输出数据。
207、光学字符识别数据集的获取系统将输入数据输入待训练模型,并调整待训练模型的参数直至待训练模型输出输出数据。
208、光学字符识别数据集的获取系统获取待训练模型输出输出数据时的参数信息。
209、光学字符识别数据集的获取系统根据参数信息设置待训练模型的参数,获得预设模型。
需要说明的是,步骤203至步骤209也可以发生在步骤201至步骤202之前,本发明对此不做限定。
210、光学字符识别数据集的获取系统将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像。
211、光学字符识别数据集的获取系统根据目标灰度图像,获取光学字符识别数据集。
可见,实施图2所描述的光学字符识别数据集的获取方法,能够自动生成目标文字图像,并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
此外,实施图2所描述的光学字符识别数据集的获取方法,还可以利用现实场景中的现实文字图像进行模型训练,以此获得预设模型,提高了利用预设模型获取目标灰度图像与现实中的灰度图像之间的相似度,得到更加可靠、真实的光学字符识别数据集。
此外,实施图2所描述的光学字符识别数据集的获取方法,还可以根据文字特征在现实文字图像中定位文字所在区域,以此实现目标文字图像的提取,从而获得更加精准的待训练文字图像。
实施例三
请参阅图3,图3是本发明实施例公开的另一种光学字符识别数据集的获取方法的流程示意图。如图3所示,该光学字符识别数据集的获取方法可以包括以下步骤:
301、光学字符识别数据集的获取系统利用预先存储的字体生成目标文字图像。
302、光学字符识别数据集的获取系统获取目标文字图像对应的目标二值图像。
303、光学字符识别数据集的获取系统在现实场景中采集现实文字图像。
304、光学字符识别数据集的获取系统对现实文字图像进行文字定位,获得待训练文字图像。
作为一种可选的实施方式,光学字符识别数据集的获取系统对现实文字图像进行文字定位,获得待训练文字图像可以包括:
光学字符识别数据集的获取系统根据文字特征定位现实文字图像中的文字所在区域;
光学字符识别数据集的获取系统以文字所在区域为依据对现实文字图像进行提取,获得待训练文字图像。
通过实施这种可选的实施方式,可以根据文字特征在现实文字图像中定位文字所在区域,以此实现目标文字图像的提取,从而获得更加精准的待训练文字图像。
305、光学字符识别数据集的获取系统生成待训练文字图像相匹配的待训练灰度图像以及待训练文字图像相匹配的待训练二值图像。
306、光学字符识别数据集的获取系统将待训练二值图像设置为待训练模型的输入数据以及将待训练灰度图像设置为待训练模型的输出数据。
307、光学字符识别数据集的获取系统将输入数据输入待训练模型,并调整待训练模型的参数直至待训练模型输出输出数据。
308、光学字符识别数据集的获取系统获取待训练模型输出输出数据时的参数信息。
309、光学字符识别数据集的获取系统根据参数信息设置待训练模型的参数,获得预设模型。
需要说明的是,步骤303至步骤309也可以发生在步骤301至步骤302之前,本发明实施例中不做限定。
310、光学字符识别数据集的获取系统将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像。
311、光学字符识别数据集的获取系统获取目标灰度图像对应的文字标注信息。
312、光学字符识别数据集的获取系统根据目标灰度图像与文字标注信息,获取光学字符识别数据集。
作为一种可选的实施方式,在光学字符识别数据集的获取系统获取光学字符识别数据集之后,还可以执行以下步骤:
光学字符识别数据集的获取系统利用光学字符识别数据集对待训练光学字符识别模型进行训练,获得目标光学字符识别模型;
光学字符识别数据集的获取系统将待识别文字图像输入目标光学字符识别模型,获得目标光学字符识别模型输出的待识别文字图像所包含的文字信息。
通过实施这种可选的实施方式,可以利用光学字符识别数据集获得目标光学字符识别模型,以此实现对文字图像的精准识别,提高了文字识别的精准度。
可见,实施图3所描述的光学字符识别数据集的获取方法,能够自动生成目标文字图像,并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
此外,实施图3所描述的光学字符识别数据集的获取方法,还可以利用现实场景中的现实文字图像进行模型训练,以此获得预设模型,提高了利用预设模型获取目标灰度图像与现实中的灰度图像之间的相似度,得到更加可靠、真实的光学字符识别数据集。
此外,实施图3所描述的光学字符识别数据集的获取方法,还可以根据文字特征在现实文字图像中定位文字所在区域,以此实现目标文字图像的提取,从而获得更加精准的待训练文字图像。
此外,实施图3所描述的光学字符识别数据集的获取方法,由于获取到的目标灰度图像为经过现实文字图像训练得到的预设模型输出,因而更贴合现实文字图像,并且还可以自动获取目标灰度图像对应的文字标注信息,从而实现整个光学字符识别数据集生成的高度自动化,效率更高。
实施例四
请参阅图4,图4是本发明实施例公开的一种光学字符识别数据集的获取系统的结构示意图。其中,如图4所示,该系统400可以包括:
第一生成单元401,用于生成目标文字图像。
作为一种可选的实施方式,第一生成单元401生成目标文字图像可以包括:
第一生成单元401根据文字信息利用计算机系统的自带字体生成目标文字图像;
第一生成单元401将文字信息与目标文字图像信息对应存储。
通过实施这种可选的实施方式,可以使用计算机系统的自带字体生成目标文字图像,并将目标文字图像与文字信息对应存储,便于后续将文字信息与目标灰度图像对应存储,从而使得获取到的光学字符识别数据集包含图像以及与之匹配的文字信息,用以增加对光学字符识别的模型训练的可靠性。
第一获取单元402,用于获取目标文字图像对应的目标二值图像。
第二获取单元403,用于将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像。
本发明实施例中,预设模型可以为训练好的生成对抗网络(GenerativeAdversarial Networks,GAN)模型,也可以为其它模型等,本发明实施例中不做限定。其中,训练好的GAN模型可以将二值图像转化为灰度图像,并且由于训练好的GAN模型是经由海量现实文字图像训练得到的,因而经预设模型输出的目标灰度图像更加贴合现实场景中的图像,更适合作为光学字符识别数据集。
第三获取单元404,用于根据目标灰度图像,获取光学字符识别数据集。
本发明实施例中,光学字符识别数据集中包含海量目标灰度图像以及与每一目标灰度图像相匹配的文字标注信息,文字标注信息即为先前与目标文字图像信息对应存储的文字信息。
可见,实施图4所描述的光学字符识别数据集的获取系统,能够自动生成目标文字图像,并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
实施例五
请参阅图5,图5是本发明实施例公开的另一种光学字符识别数据集的获取系统的结构示意图。其中,图5所示的系统400是由图4所示的系统400进行优化得到的,图5所示的系统400还包括:
采集单元405,用于在第二获取单元403将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像之前,在现实场景中采集现实文字图像。
本发明实施例中,现实文字图像可以由光学字符识别数据集的获取系统的用户采集上传得到,也可以由光学字符识别数据集的获取系统在现实场景中采集得到。
作为一种可选的实施方式,当现实文字图像由光学字符识别数据集的获取系统在现实场景中采集得到时,采集单元405在现实场景中采集现实文字图像可以包括:
采集单元405控制若干个受控摄像头捕捉该受控摄像头所在现实场景的目标图像;
当目标图像中包含文字信息的图像时,采集单元405控制相应的受控摄像头拍摄该目标图像;
采集单元405将获得的若干个目标图像作为现实文字图像。
举例来说,光学字符识别数据集的获取系统可以控制若干个得到允许访问的用户终端的摄像头捕捉目标图像,当用户终端的用户使用终端上的摄像头拍摄时,若其拍摄的图像中包含文字信息,可以获取这些图像作为现实文字图像。
通过实施这种可选的实施方式,可以利用与若干个受控摄像头之间的控制关系自动化地实现采集现实文字图像,自动化程度更高,获取光学字符识别数据集的效率更高。
定位单元406,用于对现实文字图像进行文字定位,获得待训练文字图像。
第二生成单元407,用于生成待训练文字图像相匹配的待训练灰度图像以及待训练文字图像相匹配的待训练二值图像。
设置单元408,用于将待训练二值图像设置为待训练模型的输入数据以及将待训练灰度图像设置为待训练模型的输出数据。
调整单元409,用于将输入数据输入待训练模型,并调整待训练模型的参数直至待训练模型输出输出数据。
第四获取单元410,用于获取待训练模型输出输出数据时的参数信息,并根据参数信息设置待训练模型的参数,获得预设模型。
具体的,在第四获取单元410获得预设模型之后,第四获取单元410向第二获取单元403发送触发指令,以触发第二获取单元403执行上述的将目标二值图像输入预设模型,获得预设模型输出的与目标二值图像相匹配的目标灰度图像
可选的,在图5所示的系统400中,定位单元406可以包括:
定位子单元4061,用于根据文字特征定位现实文字图像中的文字所在区域。
提取子单元4062,用于以文字所在区域为依据对现实文字图像进行提取,获得待训练文字图像。
进一步可选的,在图5所示的系统400中,第三获取单元403用于根据目标灰度图像,获取光学字符识别数据集的方式具体为:
第三获取单元403,用于获取目标灰度图像对应的文字标注信息;并根据目标灰度图像与文字标注信息,获取光学字符识别数据集。
作为一种可选的实施方式,在第三获取单元403获取光学字符识别数据集之后,第三获取单元403还可以用于:
利用光学字符识别数据集对待训练光学字符识别模型进行训练,获得目标光学字符识别模型;
将待识别文字图像输入目标光学字符识别模型,获得目标光学字符识别模型输出的待识别文字图像所包含的文字信息。
通过实施这种可选的实施方式,可以利用光学字符识别数据集获得目标光学字符识别模型,以此实现对文字图像的精准识别,提高了文字识别的精准度。
进一步可选的,在图5所示的系统400中,第一生成单元401用于生成目标文字图像的方式具体为:
第一生成单元401,用于利用预先存储的字体生成目标文字图像。
可见,实施图5所描述的光学字符识别数据集的获取系统,能够自动生成目标文字图像,并利用预设模型获得与目标二值图像相匹配的目标灰度图像来获取光学字符识别数据集,自动化程度高,提高了获取光学字符识别数据集的效率。
此外,实施图5所描述的光学字符识别数据集的获取系统,还可以利用现实场景中的现实文字图像进行模型训练,以此获得预设模型,提高了利用预设模型获取目标灰度图像与现实中的灰度图像之间的相似度,得到更加可靠、真实的光学字符识别数据集。
此外,实施图5所描述的光学字符识别数据集的获取系统,还可以根据文字特征在现实文字图像中定位文字所在区域,以此实现目标文字图像的提取,从而获得更加精准的待训练文字图像。
此外,实施图5所描述的光学字符识别数据集的获取系统,由于获取到的目标灰度图像为经过现实文字图像训练得到的预设模型输出,因而更贴合现实文字图像,并且还可以自动获取目标灰度图像对应的文字标注信息,从而实现整个光学字符识别数据集生成的高度自动化,效率更高。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图3任意一种光学字符识别数据集的获取方法。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种光学字符识别数据集的获取方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种光学字符识别数据集的获取方法,其特征在于,包括:
生成目标文字图像;
获取所述目标文字图像对应的目标二值图像;
将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像;所述预设模型是经由海量现实文字图像训练得到的能够将二值图像转化为灰度图像的生成对抗网络GAN模型;
根据所述目标灰度图像,获取光学字符识别数据集。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像之前,所述方法还包括:
在现实场景中采集现实文字图像;
对所述现实文字图像进行文字定位,获得待训练文字图像;
生成所述待训练文字图像相匹配的待训练灰度图像以及所述待训练文字图像相匹配的待训练二值图像;
将所述待训练二值图像设置为待训练模型的输入数据以及将所述待训练灰度图像设置为所述待训练模型的输出数据;
将所述输入数据输入所述待训练模型,并调整所述待训练模型的参数直至所述待训练模型输出所述输出数据;
获取所述待训练模型输出所述输出数据时的参数信息;
根据所述参数信息设置所述待训练模型的参数,获得预设模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述现实文字图像进行文字定位,获得待训练文字图像,包括:
根据文字特征定位所述现实文字图像中的文字所在区域;
以所述文字所在区域为依据对所述现实文字图像进行提取,获得待训练文字图像。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标灰度图像,获取光学字符识别数据集,包括:
获取所述目标灰度图像对应的文字标注信息;
根据所述目标灰度图像与所述文字标注信息,获取光学字符识别数据集。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述生成目标文字图像,包括:
利用预先存储的字体生成目标文字图像。
6.一种光学字符识别数据集的获取系统,其特征在于,包括:
第一生成单元,用于生成目标文字图像;
第一获取单元,用于获取所述目标文字图像对应的目标二值图像;
第二获取单元,用于将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像;所述预设模型是经由海量现实文字图像训练得到的能够将二值图像转化为灰度图像的生成对抗网络GAN模型;
第三获取单元,用于根据所述目标灰度图像,获取光学字符识别数据集。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
采集单元,用于在所述第二获取单元将所述目标二值图像输入预设模型,获得所述预设模型输出的与所述目标二值图像相匹配的目标灰度图像之前,在现实场景中采集现实文字图像;
定位单元,用于对所述现实文字图像进行文字定位,获得待训练文字图像;
第二生成单元,用于生成所述待训练文字图像相匹配的待训练灰度图像以及所述待训练文字图像相匹配的待训练二值图像;
设置单元,用于将所述待训练二值图像设置为待训练模型的输入数据以及将所述待训练灰度图像设置为所述待训练模型的输出数据;
调整单元,用于将所述输入数据输入所述待训练模型,并调整所述待训练模型的参数直至所述待训练模型输出所述输出数据;
第四获取单元,用于获取所述待训练模型输出所述输出数据时的参数信息,并根据所述参数信息设置所述待训练模型的参数,获得预设模型。
8.根据权利要求7所述的系统,其特征在于,所述定位单元包括:
定位子单元,用于根据文字特征定位所述现实文字图像中的文字所在区域;
提取子单元,用于以所述文字所在区域为依据对所述现实文字图像进行提取,获得待训练文字图像。
9.根据权利要求6所述的系统,其特征在于,所述第三获取单元用于根据所述目标灰度图像,获取光学字符识别数据集的方式具体为:
所述第三获取单元,用于获取所述目标灰度图像对应的文字标注信息;并根据所述目标灰度图像与所述文字标注信息,获取光学字符识别数据集。
10.根据权利要求6至9任一项所述的系统,其特征在于,所述第一生成单元用于生成目标文字图像的方式具体为:
所述第一生成单元,用于利用预先存储的字体生成目标文字图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811349926.6A CN109447081B (zh) | 2018-11-14 | 2018-11-14 | 一种光学字符识别数据集的获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811349926.6A CN109447081B (zh) | 2018-11-14 | 2018-11-14 | 一种光学字符识别数据集的获取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109447081A CN109447081A (zh) | 2019-03-08 |
CN109447081B true CN109447081B (zh) | 2021-07-23 |
Family
ID=65551543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811349926.6A Expired - Fee Related CN109447081B (zh) | 2018-11-14 | 2018-11-14 | 一种光学字符识别数据集的获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447081B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325106B (zh) * | 2020-01-22 | 2023-11-03 | 京东科技控股股份有限公司 | 生成训练数据的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105761351A (zh) * | 2016-01-08 | 2016-07-13 | 东方通信股份有限公司 | 基于结构特征的字符识别方法 |
CN106408038A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 一种基于卷积神经网络模型的旋转汉字识别方法 |
CN107220640A (zh) * | 2017-05-23 | 2017-09-29 | 广州绿怡信息科技有限公司 | 字符识别方法、装置、计算机设备和计算机可读存储介质 |
CN107563385A (zh) * | 2017-09-02 | 2018-01-09 | 西安电子科技大学 | 基于深度卷积生成式对抗网络的车牌字符识别方法 |
CN108053454A (zh) * | 2017-12-04 | 2018-05-18 | 华中科技大学 | 一种基于深度卷积生成对抗网络的图结构数据生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8515751B2 (en) * | 2011-09-28 | 2013-08-20 | Google Inc. | Selective feedback for text recognition systems |
-
2018
- 2018-11-14 CN CN201811349926.6A patent/CN109447081B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105761351A (zh) * | 2016-01-08 | 2016-07-13 | 东方通信股份有限公司 | 基于结构特征的字符识别方法 |
CN106408038A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 一种基于卷积神经网络模型的旋转汉字识别方法 |
CN107220640A (zh) * | 2017-05-23 | 2017-09-29 | 广州绿怡信息科技有限公司 | 字符识别方法、装置、计算机设备和计算机可读存储介质 |
CN107563385A (zh) * | 2017-09-02 | 2018-01-09 | 西安电子科技大学 | 基于深度卷积生成式对抗网络的车牌字符识别方法 |
CN108053454A (zh) * | 2017-12-04 | 2018-05-18 | 华中科技大学 | 一种基于深度卷积生成对抗网络的图结构数据生成方法 |
Non-Patent Citations (3)
Title |
---|
Occluded offline handwritten Chinese character recognition using deep convolutional generative adversarial network and improved GoogLeNet;Jianwu Li等;《Neural Computing and Applications》;20181108;第33卷;第4805–4819页 * |
基于机器学习的车牌识别算法研究;李佩伦;《中国优秀硕士学位论文全文数据库信息科技辑》;20180915;第2018年卷(第9期);I140-23 * |
基于深度学习的车牌识别关键技术研究;李朝兵;《中国优秀硕士学位论文全文数据库信息科技辑》;20180915;第2018年卷(第09期);I138-299 * |
Also Published As
Publication number | Publication date |
---|---|
CN109447081A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635772B (zh) | 一种听写内容的批改方法及电子设备 | |
US10755701B2 (en) | Method and apparatus for converting English speech information into text | |
CN109726624B (zh) | 身份认证方法、终端设备和计算机可读存储介质 | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
CN107977390B (zh) | 绘本识别方法、装置、系统及电子设备 | |
US20140257995A1 (en) | Method, device, and system for playing video advertisement | |
CN109597943B (zh) | 一种基于场景的学习内容推荐方法及学习设备 | |
CN110135245B (zh) | 到店确认方法、装置、电子设备及可读存储介质 | |
CN107977394B (zh) | 绘本识别方法及电子设备 | |
CN110941992B (zh) | 微笑表情检测方法、装置、计算机设备及存储介质 | |
CN111046971A (zh) | 图像识别方法、装置、设备及计算机可读存储介质 | |
CN111026949A (zh) | 一种基于电子设备的搜题方法及系统 | |
CN110544470B (zh) | 语音识别方法、装置、可读存储介质和电子设备 | |
CN112348028A (zh) | 一种场景文本检测方法、批改方法、装置、电子设备及介质 | |
CN110288085A (zh) | 一种数据处理方法、装置、系统及存储介质 | |
CN112818949A (zh) | 一种产证文字的识别方法及系统 | |
KR20190115509A (ko) | 자동 수어 인식 방법 및 시스템 | |
CN109447081B (zh) | 一种光学字符识别数据集的获取方法及系统 | |
CN111079726B (zh) | 一种图像处理方法及电子设备 | |
CN116361502B (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
CN110874554A (zh) | 动作识别方法、终端设备、服务器、系统及存储介质 | |
CN110400560B (zh) | 数据处理方法及装置、存储介质、电子装置 | |
CN110569707A (zh) | 一种身份识别方法和电子设备 | |
CN111027353A (zh) | 一种搜索内容的提取方法及电子设备 | |
CN111582281B (zh) | 一种图片显示优化的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210723 |
|
CF01 | Termination of patent right due to non-payment of annual fee |