CN109034155A

CN109034155A - 一种文字检测及识别的方法及系统

Info

Publication number: CN109034155A
Application number: CN201810818780.9A
Authority: CN
Inventors: 房鹏展; 夏宇; 吕晨
Original assignee: Zhuo Zhuo Network Technology Co Ltd
Current assignee: Zhuo Zhuo Network Technology Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2018-12-18

Abstract

本发明公开了一种文字检测及识别的方法及系统，应用于识别图片中的文字信息，根据数据集中的文字区域位置，利用深度神经网络训练文字区域检测模型，然后根据文字区域图片与对应的文字信息训练文字识别模型，通过文字区域检测模型，可以检测出图片中的文字区域，通过文字识别模型，可以识别文字区域图片中的文字信息，两个模型结合起来可以实现图片中的文字信息识别。该方法和系统能够高效准确的完成图片文字检测及识别任务，能够应用到很多场景下的文字自动识别及录入工作，大大减少人力成本。

Description

一种文字检测及识别的方法及系统

技术领域

本发明涉及深度学习领域，特别是涉及一种文字检测及识别的方法及系统。

背景技术

在现实生活中，文字无处不在，但很多文字信息最初是通过拍摄以图片形式存在的，如身份证、银行卡、护照、名片、票据、书籍等等。而很多行业，如银行、保险、金融、税务、海关、公安、边检、物流、电信工商管理、图书馆、户籍管理、审计等，需要将这些图片中的文字信息进行录入，最开始的方法是采用人工录入的形式，人力成本很高，现在逐渐被自动化的文字信息录入替代。

文字识别往往包含两个比较关键的步骤，首先需要检测出文字所在的区域，传统的文字区域检测是通过腐蚀膨胀或基于OTSU等方法对图像进行分割，容易受图片噪声的影响；第二个就是文字区域图片的文字识别，传统的方法是先进行字符的切割，然后再进行文字的识别，准确率会受到切割的准确率影响，并且没有考虑文字之间的序列属性。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种文字检测及识别的方法及系统。

为解决上述技术问题，本发明提供一种文字检测及识别的方法，其特征在于，包括如下步骤：

步骤一：准备数据集，包括文字图片中的文字区域位置、区域文字信息，数据集可以通过人工标注或者自动生成获得；

步骤二：根据文字区域位置，利用深度神经网络训练文字区域检测模型，并对模型进行评估及优化，对于文字区域检测模型，输入为一张图片Image_i，输出为{Region_ik}，其中i表示第i个图片，k＝1,...,t，t表示第i个图片中有t个文字区域，Region_ik表示第i个图片中第k个文字区域；利用深度神经网络训练一个文字区域检测模型，使得F(Image_i)＝{Region_ik}。

步骤三：根据文字区域图片与对应的文字信息，利用深度神经网络训练文字识别模型，并对模型进行评估及优化；对于文字识别模型，输入为步骤二中得到的校正的文字区域图片CImage_ik，输出为对应的文字信息String_ik；利用深度神经网络训练一个文字区域检测模型，使得G(CImage_ik)＝String_ik；

步骤四：对于待识别的图片，调用F模型，得到t个文字区域矩形，并进行旋转校正，得到t个校正的文字区域图片；

步骤五：对于t个校正的文字区域图片，分别调用G模型，得到t个区域对应的文字信息，将这些信息返回。

所述步骤一中，数据集的采集是在文字区域采用矩形画框，实际存储采用矩形4个点的坐标，所述步骤二中，对于文字区域检测模型，输入为一张图片Image_i，输出{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}，其中i表示第i个图片，k＝1,...,t，t表示第i个图片中有t个文字区域，(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)分别表示第i个图片中第k个文字区域矩形的左上角、左下角、右下角、右上角的点的坐标，利用深度神经网络训练一个文字区域检测模型，使得F(Image_i)＝{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}。

所述步骤二中，为了得到一个可用的文字区域检测模型，需要对模型进行测试，如果精度低于可用阈值Threshold(F)，针对检测精度较低的图片类型，补充一些相关的图片到训练数据集中，重新训练，直到模型可用；另外，对每个Region_ik进行倾斜矫正得到CImage_ik，根据4个点的坐标，可以计算矩形的倾斜角度θ_ik，可以进行旋转Rotate(θ_ik)校正到水平形状，Rotate(θ_ik)表示对第i个图片的第k个文字区域旋转角度θ_ik，得到CImage_ik。

所述步骤三中，为了得到一个可用的文字识别模型，需要对模型进行测试，如果精度低于可用阈值Threshold(G)，针对识别精度较低的文字，补充一些相关的文字图片到训练数据集中，重新训练，直到模型可用。

一种文字检测及识别的系统，其特征在于：包括数据源模块、模型训练模块、图片文字识别模块：

所述数据源模块，用于训练文字区域检测模型和文字识别模型所需要准备的数据集，主要包括：文字图片、文字区域位置、区域文字信息；

所述模型训练模块，利用深度神经网络训练文字区域检测及识别模型；其中包括四个子模块：文字区域检测模型训练子模块、文字区域检测模型子模块、文字识别模型训练子模块、文字识别模型子模块；所述文字区域检测模型训练子模块，是根据文字区域位置，利用深度神经网络训练文字区域检测模型；所述文字区域检测模型子模块，是对模型进行评估及优化，最终得到可用的文字区域检测模型；所述文字识别模型训练子模块，是根据文字区域图片与对应的文字信息，利用深度神经网络训练文字识别模型；所述文字识别模型子模块，是对模型进行评估及优化，最终得到可用的文字识别模型；

所述图片文字识别模块，提供文字识别的接口，接收待识别的图片，通过调用模型最终返回文字信息；其中包括五个子模块：待识别图片接收子模块、文字区域检测子模块、文字区域校正子模块、文字区域识别子模块、文字信息返回子模块；所述待识别图片接收子模块，用于接收待识别的图片信息；所述文字区域检测子模块，对于待识别的图片，调用文字区域检测模型，识别文字所在区域；所述文字区域校正子模块，根据文字区域的坐标位置计算该区域的倾斜角度，对文字区域进行校正；所述文字区域识别子模块，对于校正后的文字区域图片，调用文字识别模型，识别出对应的文字信息；所述文字信息返回子模块，将最终识别的文字信息返回。

本发明所达到的有益效果:本发明针对文字检测及识别问题进行了方法和系统的设计，根据数据集中的文字区域位置，利用深度神经网络训练文字区域检测模型，然后根据文字区域图片与对应的文字信息训练文字识别模型。通过文字区域检测模型，可以检测出图片中的文字区域，通过文字识别模型，可以识别文字区域图片中的文字信息，两个模型结合起来可以实现图片中的文字信息识别。该方法和系统能够高效准确的完成图片文字检测及识别任务，能够应用到很多场景下的文字自动识别及录入工作，大大减少人力成本。

附图说明

图1为本发明的示例性实施例的方法流程简图；

图2为本发明的示例性实施例的系统结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

参阅图1所示，本发明实施例的流程，具体步骤为：

步骤11：准备数据集，包括文字图片中的文字区域位置、区域文字信息。数据集有两个途径获得，第一个是人工对现有文字图片进行标注，对每一张图片标注出其文字区域位置、区域文字信息，但是因为深度学习需要的数据集非常庞大，因此此方法既耗时又耗费人力成本；第二个更常用的方法是，自动生成文字图片，也就是在随机的图片上随机生成文字，生成文字的同时记录下文字区域位置、区域文字信息。本实施例中，文字区域采用矩形画框，实际存储采用矩形4个点的坐标，通过第二个方法生成1千万张图片及对应的标签数据。

步骤12：根据文字区域位置，利用深度神经网络训练文字区域检测模型，并对模型进行评估及优化。本实施例中，对于文字区域检测模型，输入为一张图片Image_i，输出为{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}，其中i表示第i个图片，k＝1,...,t，t表示第i个图片中有t个文字区域，(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)分别表示第i个图片中第k个文字区域矩形的左上角、左下角、右下角、右上角的点的坐标。利用深度神经网络训练一个文字区域检测模型，使得

F(Image_i)＝{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}

为了得到一个可用的文字区域检测模型，我们需要对模型进行测试，如果精度低于可用阈值Threshold(F)，针对检测精度较低的图片类型，补充一些相关的图片到训练数据集中，重新训练，直到模型可用。另外，根据4个点的坐标，可以计算矩形的倾斜角度θ_ik，可以进行旋转Rotate(θ_ik)校正到水平形状，Rotate(θ_ik)表示对第i个图片的第k个文字区域旋转角度θ_ik，得到CImage_ik。

步骤13：根据文字区域图片与对应的文字信息，利用深度神经网络训练文字识别模型，并对模型进行评估及优化。本实施例中，对于文字识别模型，输入为步骤12中得到的校正的文字区域图片CImage_ik，输出为对应的文字信息String_ik。利用深度神经网络训练一个文字区域检测模型，使得G(CImage_ik)＝String_ik。

为了得到一个可用的文字识别模型，我们需要对模型进行测试，如果精度低于可用阈值Threshold(G)，针对识别精度较低的文字，补充一些相关的文字图片到训练数据集中，重新训练，直到模型可用。

步骤14：对于待识别的图片，调用文字区域检测模型，识别文字所在区域，并提取文字区域图片并进行倾斜校正。本实施例中，对于待识别的图片，调用F模型，得到t个文字区域矩形，并进行旋转校正，得到t个校正的文字区域图片。

步骤15：对于校正后的文字区域图片，调用文字识别模型，识别出对应的文字信息。本实施例中，对于t个校正的文字区域图片，分别调用G模型，得到t个区域对应的文字信息，将这些信息返回。

参阅图2所示，本发明实施例的系统结构，包括：数据源模块21、模型训练模块22、图片文字识别模块23。

数据源模块21，用于训练文字区域检测模型和文字识别模型所需要准备的数据集，主要包括：文字图片、文字区域位置、区域文字信息。

学员课程推荐模块22，利用深度神经网络训练文字区域检测及识别模型。其中包括四个子模块：文字区域检测模型训练子模块221、文字区域检测模型子模块222、文字识别模型训练子模块223、文字识别模型子模块224。

文字区域检测模型训练子模块221，是根据文字区域位置，利用深度神经网络训练文字区域检测模型。

文字区域检测模型子模块222，是对模型进行评估及优化，最终得到可用的文字区域检测模型。

文字识别模型训练子模块223，是根据文字区域图片与对应的文字信息，利用深度神经网络训练文字识别模型。

文字识别模型子模块224，是对模型进行评估及优化，最终得到可用的文字识别模型。

图片文字识别模块23，提供文字识别的接口，接收待识别的图片，通过调用模型最终返回文字信息。其中包括五个子模块：待识别图片接收子模块231、文字区域检测子模块232、文字区域校正子模块233、文字区域识别子模块234、文字信息返回子模块235。

待识别图片接收子模块231，用于接收待识别的图片信息。

文字区域检测子模块232，对于待识别的图片，调用文字区域检测模型，识别文字所在区域。

文字区域校正子模块233，根据文字区域的坐标位置计算该区域的倾斜角度，对文字区域进行校正。

文字区域识别子模块234，对于校正后的文字区域图片，调用文字识别模型，识别出对应的文字信息。

文字信息返回子模块235，将最终识别的文字信息返回。

本发明主要用于提供一种文字检测及识别的方法及系统，根据数据集中的文字区域位置，利用深度神经网络训练文字区域检测模型，然后根据文字区域图片与对应的文字信息训练文字识别模型。通过文字区域检测模型，可以检测出图片中的文字区域，通过文字识别模型，可以识别文字区域图片中的文字信息，两个模型结合起来可以实现图片中的文字信息识别。该方法和系统能够高效准确的完成图片文字检测及识别任务，能够应用到很多场景下的文字自动识别及录入工作，大大减少人力成本。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种文字检测及识别的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种文字检测及识别的方法，其特征在于：所述步骤一中，数据集的采集是在文字区域采用矩形画框，实际存储采用矩形4个点的坐标，所述步骤二中，对于文字区域检测模型，输入为一张图片Image_i，输出{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}，其中i表示第i个图片，k＝1,...,t，t表示第i个图片中有t个文字区域，(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)分别表示第i个图片中第k个文字区域矩形的左上角、左下角、右下角、右上角的点的坐标，利用深度神经网络训练一个文字区域检测模型，使得F(Image_i)＝{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}。

3.如权利要求2所述的一种文字检测及识别的方法，其特征在于：所述步骤二中，为了得到一个可用的文字区域检测模型，需要对模型进行测试，如果精度低于可用阈值Threshold(F)，针对检测精度较低的图片类型，补充一些相关的图片到训练数据集中，重新训练，直到模型可用；另外，对每个Region_ik进行倾斜矫正得到CImage_ik，根据4个点的坐标，可以计算矩形的倾斜角度θ_ik，可以进行旋转Rotate(θ_ik)校正到水平形状，Rotate(θ_ik)表示对第i个图片的第k个文字区域旋转角度θ_ik，得到CImage_ik。

4.如权利要求3所述的一种文字检测及识别的方法，其特征在于：所述步骤三中，为了得到一个可用的文字识别模型，需要对模型进行测试，如果精度低于可用阈值Threshold(G)，针对识别精度较低的文字，补充一些相关的文字图片到训练数据集中，重新训练，直到模型可用。

5.一种根据权利要求1-4之一所述方法运行的文字检测及识别的系统，其特征在于：包括数据源模块、模型训练模块、图片文字识别模块：