CN109670502A

CN109670502A - 一种基于维语文字识别的训练数据生成系统及方法

Info

Publication number: CN109670502A
Application number: CN201811549818.3A
Authority: CN
Inventors: 贾宇; 沈宜; 张家亮; 董文杰
Original assignee: Chengdu 30kaitian Communication Industry Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-23

Abstract

本发明公开了一种基于维语文字识别的训练数据生成系统及方法，上述系统及方法包括：语料库模块，根据OCR特定场景生成对应的语料库；字体库模块，根据OCR特定场景生成对应的字体库；背景库模块，根据OCR特定场景生成对应的背景库；训练数据生成模块，生成数据图片源，通过特效处理后生成OCR数据。所述的训练数据生成模块包括：输入引擎、生成引擎、特效引擎和输出引擎。本方案提供一种跨平台的，易用的生成训练数据的方法和系统，并针对维语形式的特殊处理，同样适用于freetype2支持的其它语种和字体。

Description

一种基于维语文字识别的训练数据生成系统及方法

技术领域

本发明涉及一种文字识别领域，尤其涉及一种基于维语文字识别的训练数据生成系统及方法。

背景技术

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。随着人工智能技术的不断发展，相关OCR技术方案越来越多，越来越成熟，但是针对训练的数据需要一套通用性的，跨平台的系统来生成大批量的训练数据来对OCR进行训练。

针对当前大部分的OCR技术框架都是使用image-label的数据来进行训练的，考虑到平台的通用性，使用Python+Opencv+PIL+freetype2接口来实现数据的生成，可以在linux/windows等平台使用，并可以根据实际场景选用不同的语料数据和背景数据及字体，并能导入第三方数据，具有很高的通用性和易用性。

老维文基于阿拉伯字母，所以没有大小写之分，老维文是严格的读写一一对应字母表维吾尔文有32个字母，自右至左横书。每个字母按出现在词首、词中、词末的位置有不同的形式。字母表中的单式除代表该字母的独立形式外，一般出现在词末不可连字母之后；前式出现在可连字母之前；中式出现在词中两个可连字母中间；末式出现在词末可连字母之后。有些字母只有单式和末式。freetype2技术可以很好的进行维语的变形显示和控制，显示和所见即所得的生成文字图片。

发明内容

本发明的目的在于克服现有技术的缺点，提供一种跨平台的，易用的生成训练数据的方法和系统，并针对维语形式的特殊处理，同样适用于freetype2支持的其它语种和字体。

本发明的目的是通过以下技术方案来实现的：一种基于维语文字识别的训练数据生成系统，该系统包括语料库模块、字体库模块、背景库模块和生成模块；语料库模块根据OCR特定场景生成对应的语料库，字体库模块根据OCR特定场景生成对应的字体库，背景库模块根据OCR特定场景生成对应的背景库，生成模块生成数据图片源，通过特效处理后生成OCR数据。

所述的生成模块包括输入引擎、生成引擎、特效引擎和输出引擎。

一种基于维语文字识别的训练数据生成方法，该方法应用于上述训练数据生成中，包括以下步骤：

S1：根据OCR特定场景生成对应的语料库；

S2：根据OCR特定场景生成对应的字体库；

S3：根据OCR特定场景生成对应的背景库；

S4：生成数据图片源，通过特效处理后生成OCR数据。

进一步的，所述的步骤S1包括以下子步骤：

S11：使用爬虫、网络获取所述特定场景文本数据；

S12：删除空格及非识别文字；

S13：转换统一UTF8格式到指定位置。

进一步的，所述的步骤S2包括以下子步骤：

S21：下载特定的字体；

S22：验证测试字体，判断是否支持freeType；

S23：验证测试字体，判断是否包含相关的需识别文字。

进一步的，所述的步骤S3包括以下子步骤：

S31：下载所述特定场景常用的背景图片文件；

S32：人工生成对所述特定景常用背景图片的颜色，自动生成背景图片；

S33：根据OCR设置改变背景文件的大小和存储位置及格式。

进一步的，所述的一种基于维语文字识别（OCR）数据生成方法还包括：输入引擎、生成引擎、特效引擎、输出引擎。

进一步的，所述步骤S4包括以下子步骤：

S41：所述输入引擎按照配置策略从所述字体库选取字体；

S42：所述输入引擎按照配置策略从所述语料库中选取生成文本；

S43：所述输入引擎按照配置策略从所述背景库中选取背景；

S44：所述输入引擎按照配置策略生成位置、字体大小、数据图片大小；

S45：所述生成引擎生成源图片数据及文本数据；

S46：所述特效引擎按配置策略对源图片进行压缩拉伸、模糊、透视、干扰、扭曲、亮度、色度处理；

S47：所述输出引擎将生成的图片和文字存储到特定位置检查，校验。

本发明的有益效果是：

（1）有较高通用性，满足不同的OCR系统训练测试数据的生成，不仅支持维语，同时还支持中文，英语，阿拉伯语等其它语言，支持FreeType2支持的所有字体。

（2）有较好跨平台性，使用Python语言，能适配Linux、Windows平台。

（3）有较好扩展性，在各个引擎可以增加和删除对应场景的训练数据，并根据具体场景增加删减各种效果。

附图说明

图1 为本发明的逻辑框图。

图2为本发明的原理功能框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1、2所示，一种基于维语文字识别的训练数据生成系统，该系统包括语料库模块、字体库模块、背景库模块和生成模块；语料库模块根据OCR特定场景生成对应的语料库，字体库模块根据OCR特定场景生成对应的字体库，背景库模块根据OCR特定场景生成对应的背景库，生成模块生成数据图片源，生成模块生成数据图片源，通过特效处理后生成OCR数据。

一种基于维语文字识别的训练数据生成方法，应用于上述训练数据生成系统，包括以下步骤：

S1：根据OCR特定场景生成对应的语料库；

S2：根据OCR特定场景生成对应的字体库；

S3：根据OCR特定场景生成对应的背景库；

S4：生成数据图片源，通过特效处理后生成OCR数据。

所述的步骤S1包括以下子步骤：

S11：使用爬虫、网络获取所述特定场景文本数据；

S12：删除空格及非识别文字；

S13：转换统一UTF8格式到指定位置。

所述的步骤S2包括以下子步骤：

S21：下载特定的字体；

S22：验证测试字体，判断是否支持freeType；

S23：验证测试字体，判断是否包含相关的需识别文字。

所述的步骤S3包括以下子步骤：

S31：下载所述特定场景常用的背景图片文件；

S33：根据OCR设置改变背景文件的大小和存储位置及格式。

所述的一种基于维语文字识别（OCR）数据生成方法还包括：输入引擎、生成引擎、特效引擎、输出引擎。

所述步骤S4包括以下子步骤：

S41：所述输入引擎按照配置策略从所述字体库选取字体；

S43：所述输入引擎按照配置策略从所述背景库中选取背景；

S45：所述生成引擎生成源图片数据及文本数据；

本发明所提出的的一种基于维语文字识别的训练数据生成系统及方法，提供一种跨平台的，易用的生成训练数据的系统和方法，并针对维语形式的特殊处理，同样适用于freetype2支持的其它语种和字体。

Claims

1.一种基于维语文字识别的训练数据生成系统，其特征在于：包括语料库模块、字体库模块、背景库模块和训练数据生成模块；所述语料库模块根据OCR特定场景生成对应的语料库，字体库模块根据OCR特定场景生成对应的字体库，背景库模块根据OCR特定场景生成对应的背景库，训练数据生成模块生成数据图片源，通过特效处理后生成OCR数据；

所述的训练数据生成模块包括：输入引擎、生成引擎、特效引擎和输出引擎。

2.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的输入引擎包括背景模块、文本模块、字库模块和管理模块。

3.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的生成引擎包括FreeType模块和Image模块。

4.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的特效引擎包括变形模块、模糊模块、干扰模块和颜色模块。

5.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的输出引擎包括文件管理模块、文本文件、图片文件、校验模块和第三方数据导入模块。

6.根据权利要求1~5任一所述的一种基于维语文字识别的训练数据生成系统生成训练数据方法，其特征在于，包括以下步骤：

S1：根据OCR特定场景生成对应的语料库；

S2：根据OCR特定场景生成对应的字体库；

S3：根据OCR特定场景生成对应的背景库；

S4：生成数据图片源，通过特效处理后生成OCR数据。

7.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法，其特征在于：所述的步骤S1包括以下子步骤：

S11：使用爬虫、网络获取所述特定场景文本数据；

S12：删除空格及非识别文字；

S13：转换统一UTF8格式到指定位置。

8.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法，其特征在于：所述的步骤S2包括以下子步骤：

S21：下载特定的字体；

S22：验证测试字体，判断是否支持freeType；

S23：验证测试字体，判断是否包含相关的需识别文字。

9.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法，其特征在于：所述的步骤S3包括以下子步骤：

S31：下载所述特定场景常用的背景图片文件；

S32：人工生成对所述特定场景常用背景图片的颜色，自动生成背景图片；

S33：根据OCR设置改变背景文件的大小和存储位置及格式。

10.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法，其特征在于：所述步骤S4包括以下子步骤：

S41：所述输入引擎按照配置策略从所述字体库选取字体；

S43：所述输入引擎按照配置策略从所述背景库中选取背景；

S45：所述生成引擎生成源图片数据及文本数据；