CN109344914A

CN109344914A - 一种端到端的不定长文字识别的方法和系统

Info

Publication number: CN109344914A
Application number: CN201811287009.XA
Authority: CN
Inventors: 吴苛; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-02-15

Abstract

本发明公开了一种端到端的不定长文字识别的方法和系统，其特征在于，包括根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型；通过文本检测模型，定位到图片中文本的位置；通过文本识别模型，识别文本的具体内容；将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置，达到实现识别一张图片中的文字并可以知道图片中文字所在的位置，能够应用到传统文字识别，证件识别等方向，大大提升文字录入的效率和准确性的效果。

Description

一种端到端的不定长文字识别的方法和系统

技术领域

本发明涉及图像识别领域，特别是涉及一种端到端的不定长文字识别的方法及系统。

背景技术

光学文字识别的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是 IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。

早在60、70年代，世界各国就开始有OCR(Optical Character Recognition，光学字符识别) 的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70 年代末开始进行汉字识别的研究，到1986年汉字识别的研究进入一个实质性的阶段，不少研究单位相继推出了中文OCR产品.早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。

1986年以后我国的OCR研究有了很大进展，在汉字建模和识别方法上都有所创新，在系统研制和开发应用中都取得了丰硕的成果，不少单位相继推出了中文OCR产品。

进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求。其中以OCR为科技核心的云脉技术不断创新进取，研发了一系列OCR软件产品，并且运用在医院，学校，企业等各大市场。

因此，需要一种能够高效准确的完成文字识别任务的方法和系统，以应用到传统文字识别，证件识别等方向。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种端到端的不定长文字识别的方法及系统。

为解决上述技术问题，本发明提供一种端到端的不定长文字识别的方法，其特征在于，包括根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型；通过文本检测模型，定位到图片中文本的位置；通过文本识别模型，识别文本的具体内容；将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置，其更具体的步骤如下：

步骤一：准备数据集，包括两部分数据集：文本检测数据集和文本识别数据集；对于文本检测数据集，对数据进行标注工作，尤其是标注文本所在位置；根据标注好文本位置的图片，再进行文本框的细化和分割；进行VOC格式化的工作，即将数据集准备成VOC格式的，主要包含以下几个文件夹:Annotations,存放xml文件，与JPEGImages中的图片一一对应； ImageSets，存放txt文件，txt文件中每一行包含一个图片的名称，末尾会加上±1表示正负样本；JPEGImages，存放源图片；SegmentationClass，存放分割后的图片；SegmentationObject，存放分割后的图片；对于文本识别数据集，准备定长定尺寸文本图片，并做文本图片的文字标签；

步骤二：对于文本检测数据集，利用深度神经网络训练文本检测模型，并对文本检测模型进行评估及优化，具体是，对于每一张输入图片Image，输出为多组(x_i,y_i)，其中(x_i,y_i)表示文本区域框的坐标位置，使得

F(Image)＝{(x₀,y₀)...，(x_i,y_i)，...}

对文本检测模型进行测试，如果精度低于可用阈值Threshold(F)，就优化文本检测数据集或文本检测模型，重新训练，直到文本检测模型可用；

步骤三：对于文本识别数据集，利用深度神经网络训练文本识别模型，并对文本识别模型进行评估及优化，具体是，输入为图片路径Image_path和图片标签(训练集train_loader，测试集test_loader)，输出为模型权重Weights；使得

R(Image_path,train_loader,test_loader)＝Weights.

对文本识别模型进行测试，如果预测偏差高于可用阈值Threshold(R)，就优化文本识别数据集或文本识别模型，重新训练，直到文本识别模型可用；

步骤四：对于待识别的图片，调用文本检测模型，得到文本区域框的坐标，即调用F模型，得到{(x₀,y₀)...，(x_i,y_i)，...}，图片中的文本越多，输出的坐标也会越多；

步骤五：基于步骤四得到的文字区域框，再通过调用文本识别模型进行文字识别，即调用R模型，得到识别结果。

所述步骤一中，用于文本检测数据集的数据主要采用VOC2007数据集，采用5000张以上图片，并对图片中的文字进行了区域标注，即定宽16像素不定高的小文本框分割标注；文字标注以xml文件格式存储；文本识别数据集包括两部分：其中一部分是利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，共300万张以上图片，图像分辨率为280x32，涵盖了汉字、标点、英文、数字共5990个字符；另外一部分是10万张图片，图像分辨率为280x32，涵盖了英文、数字共62个字符；这些数据集全部进行了文字信息标注，标注格式txt文件，内容为：

image_name 1 C₁₁ C₁₂...C_1n

image_name m C_m1 C_m2...C_mn

其中，image_name是图片名称，C₁₁ C₁₂...C_1n等等是图片中文字对应的5990个字符字典中的key(位置)。

所述步骤二中的阈值Threshold(F)取值为95％。

所述步骤三中的阈值Threshold(R)取值为95％。

一种端到端的不定长文字识别系统，其特征在于：包括依次相连的数据源模块、模型训练模块和文本识别模块；

所述数据源模块，用于训练文本检测模型和文本识别模型所需要准备的数据集，主要包括：通用文本图片(用于文本检测训练)、定长定尺寸文本图片(用于文本识别训练)和标注结果数据；

所述模型训练模块，用于利用深度神经网络训练文本检测模型和文本识别模型，其中包括四个子模块：文本检测模型训练子模块、文本检测模型子模块、文本识别模型训练子模块和文本识别模型子模块；所述文本检测模型训练子模块，是根据通用文本图片以及标注了文本位置的数据集，利用深度神经网络训练文本检测模型；所述文本检测模型子模块，是对模型进行评估及优化，得到可用的文本检测模型；所述文本识别模型训练子模块，是根据定长定尺寸的文本图片，利用深度神经网络训练文本识别模型；所述文本识别模型子模块，是对模型进行评估及优化，得到可用的文本识别模型；

所述文本识别模块，提供文字识别的接口，用于接收待识别的图片，通过调用模型最终返回图片上的文字信息；其中包括四个子模块：待识别图片接收子模块、文本检测子模块、文本识别子模块和识别信息返回子模块；所述待识别图片接收子模块，用于接收待识别的图片信息；所述文本检测子模块，对于待识别的图片，调用文本检测模型，得到图片中文字所在区域候选框；所述文本识别子模块，调用文本识别模型，得到图片中文字的识别结果；所述识别信息返回子模块，将最终识别的文字信息返回。

本发明所达到的有益效果:根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型。通过文本检测模型，可以定位到图片中文本的位置，通过文本识别模型，可以识别文本的具体内容，两个模型结合起来可以实现识别一张图片中的文字并可以知道图片中文字所在的位置。该方法和系统能够高效准确的完成文字识别的任务，能够应用到传统文字识别，证件识别等方向，大大提升文字录入的效率和准确性。

附图说明

图1为本发明的示例性实施例的文字识别方法的流程示意图；

图2为本发明的示例性实施例的文字识别系统的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

参阅图1所示，本发明实施例的方法流程，具体步骤为：

步骤11：准备数据集，主要包括用于文本检测的通用图片和用于文本识别的定长定尺寸图片，并进行数据标注，包括文字位置和文字内容。本实施例中，用于文本检测的数据主要采用VOC2007数据集，共计6000张图片，并对图片中的文字进行了区域标注(定宽16像素不定高的小文本框分割标注)。文字标注以xml文件格式存储。用于文本识别的数据集主要是有两部分：其中一部分是利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，共364万张图片，图像分辨率为280x32，涵盖了汉字、标点、英文、数字共5990个字符；另外一部分是10万张图片，图像分辨率为280x32，涵盖了英文、数字共62个字符。这些数据集全部进行了文字信息标注，标注格式txt文件，内容为：

image_name 1 C₁₁ C₁₂...C_1n

image_name m C_m1 C_m2...C_mn

步骤12：根据数据集，利用深度神经网络训练文本检测模型，并对模型进行评估及优化。本实施例中，对于每一张输入图片Image，输出为{(x₀,y₀)...，(x_i,y_i)，...}，其中(x_i,y_i)表示文本区域框的坐标位置。利用深度神经网络训练一个文本检测模型，使得

F(Image)＝{(x₀,y₀)...，(x_i,y_i)，...}

为了得到一个可用的文本检测模型，我们需要对模型进行测试，如果精度低于可用阈值 Threshold(F)(这里一般取95％)，就需要优化数据集或模型，重新训练，直到模型可用。

步骤13：根据数据集，利用深度神经网络训练文本识别模型，并对模型进行评估及优化。本实施例中，对于文本识别模型，输入为步骤11中提到约374万张图片以及文字标注txt文件：

image_name 1 C₁₁ C₁₂...C_1n

image_name m C_m1 C_m2...C_mn

输出为文本识别模型的权重Weights。利用深度神经网络训练一个文本识别模型，使得

R(Image_path,train_loader,test_loader)＝Weights.

为了得到一个可用的文本识别模型，我们需要对模型进行测试，如果预测偏差高于可用阈值Threshold(R)(这里一般取95％)，就需要优化数据集或模型，重新训练，直到模型可用。

步骤14：对于待识别的图片，调用文本检测模型，得到文字所在区域坐标对于待识别的图片，调用F模型，得到{(x₀,y₀)...，(x_i,y_i)，...}。

步骤15：对于待识别的图片，基于上步得到的文字区域，调用文本识别模型，得到图片中文字信息。即调用R模型，得到识别结果Recognition result。

参阅图2所示，本发明实施例的系统结构，包括：数据源模块21、模型训练模块22、文本识别模块23。

数据源模块21，用于训练文本检测模型和文本识别模型所需要准备的数据集，主要包括：通用文本图片(主要用于文本检测训练)，定长定尺寸文本图片(主要用于文字识别训练)，标注结果数据。

模型训练模块22，利用深度神经网络训练文本检测模型和文本识别模型。其中包括四个子模块：文本检测模型训练子模块221，文本检测模型子模块222，文本识别模型训练子模块 223，文本识别模型子模块224。

文本检测模型训练子模块221，是根据通用文本图片以及标注了文本位置的数据集，利用深度神经网络训练文本检测模型。

文本检测模型子模块222，是对模型进行评估及优化，最终得到可用的文本检测模型。

文本识别模型训练子模块223，是根据定长(10个字符长度)且固定尺寸(280*32)的图片以及标注文字数据的图片，利用深度神经网络训练文本识别模型。

文本识别模型子模块224，是对模型进行评估及优化，最终得到可用的文本识别模型。

文本识别模块23，提供文字识别的接口，接收待识别的图片，通过调用模型最终返回图片上的文字信息。其中包括四个子模块：待识别图片接收子模块231，文本检测子模块232，文本识别子模块233，识别信息返回子模块234。

待识别图片接收子模块231，用于接收待识别的图片信息。

文本检测子模块232，对于待识别的图片，调用文字检测模型，得到图片中文字所在区域候选框。

文本识别子模块233，调用文本识别模型，得到图片中文字的识别结果。

识别信息返回子模块234，将最终识别的文字信息返回。

在本发明中，根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型。通过文本检测模型，可以定位到图片中文本的位置，通过文本识别模型，可以识别文本的具体内容，两个模型结合起来可以实现识别一张图片中的文字并可以知道图片中文字所在的位置。该方法和系统能够高效准确的完成文字识别的任务，能够应用到传统文字识别，证件识别等方向，大大提升文字录入的效率和准确性。

以上所述仅为本发明专利的一种实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均以包含在本发明专利的保护范围之内。

Claims

1.一种端到端的不定长文字识别的方法，其特征在于，包括根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型；通过文本检测模型，定位到图片中文本的位置；通过文本识别模型，识别文本的具体内容；将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置，其更具体的步骤如下：

步骤一：准备数据集，包括两部分数据集：文本检测数据集和文本识别数据集；对于文本检测数据集，对数据进行标注工作，尤其是标注文本所在位置；根据标注好文本位置的图片，再进行文本框的细化和分割；进行VOC格式化的工作，即将数据集准备成VOC格式的，主要包含以下几个文件夹:Annotations,存放xml文件，与JPEGImages中的图片一一对应；ImageSets，存放txt文件，txt文件中每一行包含一个图片的名称，末尾会加上±1表示正负样本；JPEGImages，存放源图片；SegmentationClass，存放分割后的图片；5.SegmentationObject，存放分割后的图片；对于文本识别数据集，准备定长定尺寸文本图片，并做文本图片的文字标签；

F(Image)＝{(x₀,y₀)...，(x_i,y_i)，...}

R(Image_path,train_loader,test_loader)＝Weights.

2.如权利要求1所述的一种，其特征在于：所述步骤一中，用于文本检测数据集的数据采用VOC2007数据集，5000张以上图片，并对图片中的文字进行了区域标注，即定宽16像素不定高的小文本框分割标注；文字标注以xml文件格式存储；文本识别数据集包括两部分：其中一部分是利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸变化随机生成，共300万张图片以上，图像分辨率为280x32，涵盖了汉字、标点、英文、数字字符；另外一部分是10万张图片，图像分辨率为280x32，涵盖了英文、数字共62个字符；这些数据集全部进行了文字信息标注，标注格式txt文件，内容为：

image_name 1 C₁₁ C₁₂ ... C_1n

image_name m C_m1 C_m2 ... C_mn

其中，image_name是图片名称，C₁₁ C₁₂ ... C_1n等等是图片中文字对应的字符字典中的key(位置)。

3.如权利要求2所述的一种，其特征在于：所述步骤二中的阈值Threshold(F)取值为95％。

4.如权利要求3所述的一种，其特征在于：所述步骤三中的阈值Threshold(R)取值为95％。

5.一种根据权利要求1-4之一所述方法运行的端到端的不定长文字识别系统，其特征在于：包括依次相连的数据源模块、模型训练模块和文本识别模块；