CN109670502A - 一种基于维语文字识别的训练数据生成系统及方法 - Google Patents

一种基于维语文字识别的训练数据生成系统及方法 Download PDF

Info

Publication number
CN109670502A
CN109670502A CN201811549818.3A CN201811549818A CN109670502A CN 109670502 A CN109670502 A CN 109670502A CN 201811549818 A CN201811549818 A CN 201811549818A CN 109670502 A CN109670502 A CN 109670502A
Authority
CN
China
Prior art keywords
module
training data
ocr
engine
generates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811549818.3A
Other languages
English (en)
Inventor
贾宇
沈宜
张家亮
董文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
Original Assignee
Chengdu 30kaitian Communication Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu 30kaitian Communication Industry Co ltd filed Critical Chengdu 30kaitian Communication Industry Co ltd
Priority to CN201811549818.3A priority Critical patent/CN109670502A/zh
Publication of CN109670502A publication Critical patent/CN109670502A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于维语文字识别的训练数据生成系统及方法,上述系统及方法包括:语料库模块,根据OCR特定场景生成对应的语料库;字体库模块,根据OCR特定场景生成对应的字体库;背景库模块,根据OCR特定场景生成对应的背景库;训练数据生成模块,生成数据图片源,通过特效处理后生成OCR数据。所述的训练数据生成模块包括:输入引擎、生成引擎、特效引擎和输出引擎。本方案提供一种跨平台的,易用的生成训练数据的方法和系统,并针对维语形式的特殊处理,同样适用于freetype2支持的其它语种和字体。

Description

一种基于维语文字识别的训练数据生成系统及方法
技术领域
本发明涉及一种文字识别领域,尤其涉及一种基于维语文字识别的训练数据生成系统及方法。
背景技术
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。随着人工智能技术的不断发展,相关OCR技术方案越来越多,越来越成熟,但是针对训练的数据需要一套通用性的,跨平台的系统来生成大批量的训练数据来对OCR进行训练。
针对当前大部分的OCR技术框架都是使用image-label的数据来进行训练的,考虑到平台的通用性,使用Python+Opencv+PIL+freetype2接口来实现数据的生成,可以在linux/windows等平台使用,并可以根据实际场景选用不同的语料数据和背景数据及字体,并能导入第三方数据,具有很高的通用性和易用性。
老维文基于阿拉伯字母,所以没有大小写之分,老维文是严格的读写一一对应字母表维吾尔文有32个字母,自右至左横书。每个字母按出现在词首、词中、词末的位置有不同的形式。字母表中的单式除代表该字母的独立形式外,一般出现在词末不可连字母之后;前式出现在可连字母之前;中式出现在词中两个可连字母中间;末式出现在词末可连字母之后。有些字母只有单式和末式。freetype2技术可以很好的进行维语的变形显示和控制,显示和所见即所得的生成文字图片。
发明内容
本发明的目的在于克服现有技术的缺点,提供一种跨平台的,易用的生成训练数据的方法和系统,并针对维语形式的特殊处理,同样适用于freetype2支持的其它语种和字体。
本发明的目的是通过以下技术方案来实现的:一种基于维语文字识别的训练数据生成系统,该系统包括语料库模块、字体库模块、背景库模块和生成模块;语料库模块根据OCR特定场景生成对应的语料库,字体库模块根据OCR特定场景生成对应的字体库,背景库模块根据OCR特定场景生成对应的背景库,生成模块生成数据图片源,通过特效处理后生成OCR数据。
所述的生成模块包括输入引擎、生成引擎、特效引擎和输出引擎。
一种基于维语文字识别的训练数据生成方法,该方法应用于上述训练数据生成中,包括以下步骤:
S1:根据OCR特定场景生成对应的语料库;
S2:根据OCR特定场景生成对应的字体库;
S3:根据OCR特定场景生成对应的背景库;
S4:生成数据图片源,通过特效处理后生成OCR数据。
进一步的,所述的步骤S1包括以下子步骤:
S11:使用爬虫、网络获取所述特定场景文本数据;
S12:删除空格及非识别文字;
S13:转换统一UTF8格式到指定位置。
进一步的,所述的步骤S2包括以下子步骤:
S21:下载特定的字体;
S22:验证测试字体,判断是否支持freeType;
S23:验证测试字体,判断是否包含相关的需识别文字。
进一步的,所述的步骤S3包括以下子步骤:
S31:下载所述特定场景常用的背景图片文件;
S32:人工生成对所述特定景常用背景图片的颜色,自动生成背景图片;
S33:根据OCR设置改变背景文件的大小和存储位置及格式。
进一步的,所述的一种基于维语文字识别(OCR)数据生成方法还包括:输入引擎、生成引擎、特效引擎、输出引擎。
进一步的,所述步骤S4包括以下子步骤:
S41:所述输入引擎按照配置策略从所述字体库选取字体;
S42:所述输入引擎按照配置策略从所述语料库中选取生成文本;
S43:所述输入引擎按照配置策略从所述背景库中选取背景;
S44:所述输入引擎按照配置策略生成位置、字体大小、数据图片大小;
S45:所述生成引擎生成源图片数据及文本数据;
S46:所述特效引擎按配置策略对源图片进行压缩拉伸、模糊、透视、干扰、扭曲、亮度、色度处理;
S47:所述输出引擎将生成的图片和文字存储到特定位置检查,校验。
本发明的有益效果是:
(1)有较高通用性,满足不同的OCR系统训练测试数据的生成,不仅支持维语,同时还支持中文,英语,阿拉伯语等其它语言,支持FreeType2支持的所有字体。
(2)有较好跨平台性,使用Python语言,能适配Linux、Windows平台。
(3)有较好扩展性,在各个引擎可以增加和删除对应场景的训练数据,并根据具体场景增加删减各种效果。
附图说明
图1 为本发明的逻辑框图。
图2为本发明的原理功能框图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1、2所示,一种基于维语文字识别的训练数据生成系统,该系统包括语料库模块、字体库模块、背景库模块和生成模块;语料库模块根据OCR特定场景生成对应的语料库,字体库模块根据OCR特定场景生成对应的字体库,背景库模块根据OCR特定场景生成对应的背景库,生成模块生成数据图片源,生成模块生成数据图片源,通过特效处理后生成OCR数据。
所述的生成模块包括输入引擎、生成引擎、特效引擎和输出引擎。
一种基于维语文字识别的训练数据生成方法,应用于上述训练数据生成系统,包括以下步骤:
S1:根据OCR特定场景生成对应的语料库;
S2:根据OCR特定场景生成对应的字体库;
S3:根据OCR特定场景生成对应的背景库;
S4:生成数据图片源,通过特效处理后生成OCR数据。
所述的步骤S1包括以下子步骤:
S11:使用爬虫、网络获取所述特定场景文本数据;
S12:删除空格及非识别文字;
S13:转换统一UTF8格式到指定位置。
所述的步骤S2包括以下子步骤:
S21:下载特定的字体;
S22:验证测试字体,判断是否支持freeType;
S23:验证测试字体,判断是否包含相关的需识别文字。
所述的步骤S3包括以下子步骤:
S31:下载所述特定场景常用的背景图片文件;
S32:人工生成对所述特定景常用背景图片的颜色,自动生成背景图片;
S33:根据OCR设置改变背景文件的大小和存储位置及格式。
所述的一种基于维语文字识别(OCR)数据生成方法还包括:输入引擎、生成引擎、特效引擎、输出引擎。
所述步骤S4包括以下子步骤:
S41:所述输入引擎按照配置策略从所述字体库选取字体;
S42:所述输入引擎按照配置策略从所述语料库中选取生成文本;
S43:所述输入引擎按照配置策略从所述背景库中选取背景;
S44:所述输入引擎按照配置策略生成位置、字体大小、数据图片大小;
S45:所述生成引擎生成源图片数据及文本数据;
S46:所述特效引擎按配置策略对源图片进行压缩拉伸、模糊、透视、干扰、扭曲、亮度、色度处理;
S47:所述输出引擎将生成的图片和文字存储到特定位置检查,校验。
本发明所提出的的一种基于维语文字识别的训练数据生成系统及方法,提供一种跨平台的,易用的生成训练数据的系统和方法,并针对维语形式的特殊处理,同样适用于freetype2支持的其它语种和字体。

Claims (10)

1.一种基于维语文字识别的训练数据生成系统,其特征在于:包括语料库模块、字体库模块、背景库模块和训练数据生成模块;所述语料库模块根据OCR特定场景生成对应的语料库,字体库模块根据OCR特定场景生成对应的字体库,背景库模块根据OCR特定场景生成对应的背景库,训练数据生成模块生成数据图片源,通过特效处理后生成OCR数据;
所述的训练数据生成模块包括:输入引擎、生成引擎、特效引擎和输出引擎。
2.一种基于维语文字识别的训练数据生成系统,其特征在于:所述的输入引擎包括背景模块、文本模块、字库模块和管理模块。
3.一种基于维语文字识别的训练数据生成系统,其特征在于:所述的生成引擎包括FreeType模块和Image模块。
4.一种基于维语文字识别的训练数据生成系统,其特征在于:所述的特效引擎包括变形模块、模糊模块、干扰模块和颜色模块。
5.一种基于维语文字识别的训练数据生成系统,其特征在于:所述的输出引擎包括文件管理模块、文本文件、图片文件、校验模块和第三方数据导入模块。
6.根据权利要求1~5任一所述的一种基于维语文字识别的训练数据生成系统生成训练数据方法,其特征在于,包括以下步骤:
S1:根据OCR特定场景生成对应的语料库;
S2:根据OCR特定场景生成对应的字体库;
S3:根据OCR特定场景生成对应的背景库;
S4:生成数据图片源,通过特效处理后生成OCR数据。
7.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法,其特征在于:所述的步骤S1包括以下子步骤:
S11:使用爬虫、网络获取所述特定场景文本数据;
S12:删除空格及非识别文字;
S13:转换统一UTF8格式到指定位置。
8.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法,其特征在于:所述的步骤S2包括以下子步骤:
S21:下载特定的字体;
S22:验证测试字体,判断是否支持freeType;
S23:验证测试字体,判断是否包含相关的需识别文字。
9.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法,其特征在于:所述的步骤S3包括以下子步骤:
S31:下载所述特定场景常用的背景图片文件;
S32:人工生成对所述特定场景常用背景图片的颜色,自动生成背景图片;
S33:根据OCR设置改变背景文件的大小和存储位置及格式。
10.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法,其特征在于:所述步骤S4包括以下子步骤:
S41:所述输入引擎按照配置策略从所述字体库选取字体;
S42:所述输入引擎按照配置策略从所述语料库中选取生成文本;
S43:所述输入引擎按照配置策略从所述背景库中选取背景;
S44:所述输入引擎按照配置策略生成位置、字体大小、数据图片大小;
S45:所述生成引擎生成源图片数据及文本数据;
S46:所述特效引擎按配置策略对源图片进行压缩拉伸、模糊、透视、干扰、扭曲、亮度、色度处理;
S47:所述输出引擎将生成的图片和文字存储到特定位置检查,校验。
CN201811549818.3A 2018-12-18 2018-12-18 一种基于维语文字识别的训练数据生成系统及方法 Pending CN109670502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811549818.3A CN109670502A (zh) 2018-12-18 2018-12-18 一种基于维语文字识别的训练数据生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811549818.3A CN109670502A (zh) 2018-12-18 2018-12-18 一种基于维语文字识别的训练数据生成系统及方法

Publications (1)

Publication Number Publication Date
CN109670502A true CN109670502A (zh) 2019-04-23

Family

ID=66143955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811549818.3A Pending CN109670502A (zh) 2018-12-18 2018-12-18 一种基于维语文字识别的训练数据生成系统及方法

Country Status (1)

Country Link
CN (1) CN109670502A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783881A (zh) * 2020-07-01 2020-10-16 上海天壤智能科技有限公司 基于预训练模型的场景适配学习方法及系统
CN112418224A (zh) * 2021-01-22 2021-02-26 成都无糖信息技术有限公司 一种基于机器学习的通用ocr的训练数据生成系统及方法
CN112488114A (zh) * 2020-11-13 2021-03-12 宁波多牛大数据网络技术有限公司 一种图片合成方法及装置、文字识别系统
CN114998909A (zh) * 2022-06-08 2022-09-02 北京云上曲率科技有限公司 一种图像文字语种识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN108090400A (zh) * 2016-11-23 2018-05-29 中移(杭州)信息技术有限公司 一种图像文本识别的方法和装置
CN108154148A (zh) * 2018-01-22 2018-06-12 厦门美亚商鼎信息科技有限公司 训练样本的人工合成方法及基于该样本的验证码识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN108090400A (zh) * 2016-11-23 2018-05-29 中移(杭州)信息技术有限公司 一种图像文本识别的方法和装置
CN108154148A (zh) * 2018-01-22 2018-06-12 厦门美亚商鼎信息科技有限公司 训练样本的人工合成方法及基于该样本的验证码识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RYOSUKE ODATE ET AL.: ""FAST AND ACCURATE CANDIDATE REDUCTION USING THE MULTICLASS LDA FOR JAPANESE/CHINESE CHARACTER RECOGNITION"", 《 2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
丁明宇 等: ""基于深度学习的图片中商品参数识别方法"", 《软件学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783881A (zh) * 2020-07-01 2020-10-16 上海天壤智能科技有限公司 基于预训练模型的场景适配学习方法及系统
CN112488114A (zh) * 2020-11-13 2021-03-12 宁波多牛大数据网络技术有限公司 一种图片合成方法及装置、文字识别系统
CN112418224A (zh) * 2021-01-22 2021-02-26 成都无糖信息技术有限公司 一种基于机器学习的通用ocr的训练数据生成系统及方法
CN114998909A (zh) * 2022-06-08 2022-09-02 北京云上曲率科技有限公司 一种图像文字语种识别方法及系统

Similar Documents

Publication Publication Date Title
CN109670502A (zh) 一种基于维语文字识别的训练数据生成系统及方法
KR20200014842A (ko) 이미지 조명 방법, 장치, 전자 기기 및 저장 매체
US20090016617A1 (en) Sender dependent messaging viewer
CA2174258A1 (en) Method and System for Automatic Transcription Correction
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN107358184A (zh) 文档文字的提取方法及提取装置
CN110554991A (zh) 一种文本图片的矫正与管理方法
KR20090089793A (ko) 전자 문서 생성장치, 전자 문서 생성방법, 및 기억매체
CN103854019A (zh) 图像中的字段提取方法及装置
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN112036406A (zh) 一种图像文档的文本抽取方法、装置及电子设备
CN109657619A (zh) 一种附图翻译方法、装置及存储介质
CN113239707A (zh) 文本翻译方法、文本翻译装置及存储介质
CN110309517B (zh) 表情文案处理方法、装置、系统及存储介质
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
US20110205430A1 (en) Caption movement processing apparatus and method
CN114612912A (zh) 基于智能语料库的图像文字识别方法、系统及设备
CN112836467B (zh) 一种图像处理方法及装置
CN111241845B (zh) 一种基于语义匹配方法的财务科目自动识别方法及装置
CN113435426B (zh) 用于ocr识别的数据增广方法、装置、设备及存储介质
CN114120334A (zh) 盲文处理方法、装置、存储介质及电子装置
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
CN107609195A (zh) 一种搜题方法及装置
CN115830612A (zh) 一种ocr训练数据的生成方法、装置、设备及存储介质
CN110543238A (zh) 基于人工智能的桌面交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220517

Address after: 518000 22nd floor, building C, Shenzhen International Innovation Center (Futian science and Technology Plaza), No. 1006, Shennan Avenue, Xintian community, Huafu street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen wanglian Anrui Network Technology Co.,Ltd.

Address before: Floor 4-8, unit 5, building 1, 333 Yunhua Road, high tech Zone, Chengdu, Sichuan 610041

Applicant before: CHENGDU 30KAITIAN COMMUNICATION INDUSTRY Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190423

WD01 Invention patent application deemed withdrawn after publication