CN110363196B

CN110363196B - 一种倾斜文本的文字精准识别的方法

Info

Publication number: CN110363196B
Application number: CN201910537843.8A
Authority: CN
Inventors: 吴晓东; 张冬雪; 刘麒麟; 刘建; 王千; 王守镜; 罗冰洁; 谢成; 雍鑫; 何维泰
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2022-02-08
Anticipated expiration: 2039-06-20
Also published as: CN110363196A

Abstract

本发明公开了一种倾斜文本的文字精准识别的方法，包括下述步骤：（1）输入图像；（2）将输入的图像采用有文字区域和无文字区域两类检测方式，利用文本区域目标检测模型，训练得到文字区域检测库；（3）对输入的图片，用步骤（2）训练好的文字区域检测库，分别检测出文字区域；（4）对输入的图像进行LSD直线检测；（5）针对步骤（3）的检测结果，对边界进行二次精确的调整；（6）根据文本区域新的顶点坐标，获取四边形的倾斜角度，对文本区域进行矫正，输入文字识别算法模型，形成最后的精准文字识别结果；针对倾斜文字的识别，能极大提高抗干扰能力，能远远优于单一算法文字区域定位直接识别的效果。

Description

一种倾斜文本的文字精准识别的方法

技术领域

本发明涉及算法技术、文字识别技术等领域，具体而言，涉及一种倾斜文本的文字精准识别的方法。

背景技术

计算机文字识别，俗称光学字符识别，英文全称是Optical CharacterRecognition(简称OCR)，它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。衡量一个OCR算法性能好坏的主要指标有：拒识率、误识率、识别速度、易用性及可行性等。

CNN:卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。由于卷积神经网络能够进行平移不变分类，因此也被称为“平移不变人工神经网络”，在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被大量应用于计算机视觉、自然语言处理等领域。

FCN:Fully Convolutional Networks for Semantic Segmentation，是在CVPR2015上发表的，全卷积网络(FCN)可以用于自然图像的语义分割，多模态医学图像分析和多光谱卫星图像分割。与使用AlexNet，VGG，ResNet等体系结构的深度分类网络类似，也可以使用各种各样的深层体系结构执行语义分割。

全卷积网络(FCN)CVPR 2015用于语义分割的完全卷积网络的arXiv将当代分类网络(AlexNet，VGG网和GoogLeNet)调整为完全卷积网络，并通过微调来迁移他们学习的表示到分割任务。然后，定义了一种新颖的架构，它将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合，以生成准确而详细的分割。全卷积网络实现了PASCAL VOC的最先进分割(2012年平均IU的相对改善率为20％，平均IU为62.2％)，NYUDv2和SIFT Flow，而典型图像的推断时间为三分之一。

FCN的优点：与传统用CNN进行图像分割的方法相比，FCN有两大明显的优点：一是可以接受任意大小的输入图像，而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效，因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。

同时FCN的缺点也比较明显：一是得到的结果还是不够精细；二是对各个像素进行分类，没有充分考虑像素与像素之间的关系，忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤，缺乏空间一致性。

LSD:a Line Segment Detector直线检测算法，发表于PAMI2010。特别之处在于能快速检测图像中的线段，同时使用了错误控制的方法，使得检测结果比较准确。最后，LSD结果输出是线段的坐标与属性，比如起点，终点，线段的粗细，LSD的核心是像素合并于误差控制。利用合并像素来检测直线段并不是什么新鲜的方法，但是合并像素的方法通常运算量较大。LSD号称是能在线性时间(linear-time)内得到亚像素级准确度的直线段检测算法。LSD虽然号称不需人工设置任何参数，但是实际使用时，可以设置采样率和判断俩像素是否合并的方向差。我们知道，检测图像中的直线其实就是寻找图像中梯度变化较大的像素。因此，梯度和图像的level-line是LSD提及的两个基本概念。LSD首先计算每一个像素与level-line的夹角以构成一个level-line场。然后，合并这个场里方向近似相同的像素，这样可以得到一系列regions，这些regions被称为line support regions。

OCR用基于人工智能检测算法，主要过程包括文本检测和文字识别两个过程，在复杂情况下，对图片中存在的倾斜文字检测与识别，是业内非常具有挑战性的一项工作，单一的机器学习，无法定位倾斜文字，而目前人工智能检测算法定位倾斜文字，虽然能定位，但定位的边界并不精确，边界不精确，特别对倾斜文字的识别影响很大。

发明内容

本发明提供了一种倾斜文本的文字精准识别的方法，针对倾斜文字的识别，能极大提高抗干扰能力，能远远优于单一算法文字区域定位直接识别的效果。

本发明提供了一种倾斜文本的文字精准识别的方法，包括下述步骤：

(1)输入图像；

(2)将输入的图像采用有文字区域和无文字区域两类检测方式，利用文本区域目标检测模型，训练得到文字区域检测库；

(3)对输入的图片，用步骤(2)训练好的文字区域检测库，分别检测出文字区域N1，N2…Nk，得到K个文本区域，每个文本区域为Ni(i＝1，2，…k)，并用变量{(xi11，yi11)，(xi21，yi21)，(xi22，yi22)，(xi12，yi12)}表示图像坐标；

(4)对输入的图像进行LSD直线检测，得到k条直线，形成M个交点；

(5)针对步骤(3)的检测结果，对边界进行二次精确的调整：用文本区域的图像坐标求取到M个交点的距离最近的点，并将各文本区域的顶点调整为该距离最近的点；

(6)根据文本区域新的顶点坐标，获取四边形的倾斜角度，对文本区域进行矫正，输入文字识别算法模型，形成最后的精准文字识别结果。

进一步的为更好地实现本发明，特别采用下述设置方式：所述图像坐标的(xi11，yi11)表示四边形左上角图像坐标，(xi21，yi21)，表示四边形右上角图像坐标，(xi22，yi22)，表示四边形右下角图像坐标，(xi12，yi12)，表示四边形左下角图像坐标。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤(2)的具体步骤如下：

(2.1)对图像做有文字区域和无文字区域的标注；

(2.2)输入标注后的图像，用文本区域目标检测模型进行离线训练，得到文字区域检测库。

进一步的为更好地实现本发明，特别采用下述设置方式：所述文本区域目标检测模型采用FCN检测模型。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤(3)的具体步骤为：

(3.1)将图像输入训练好的文字区域检测库；

(3.2)对图像进行抽象特征的提取；

(3.3)将获取到的图像的抽象特征再次输入到训练好的文字区域检测库，得到文字区域。

进一步的为更好地实现本发明，特别采用下述设置方式：所述文字区域检测库为FCN检测模型。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤(6)的具体步骤为：

(6.1)计算每个文字区域Ni的倾斜角：

(2)对每个文字区域Ni进行区域矫正：

其中θ为Ni区域的倾斜角，

为原区域的图像值，

为校正后图像值；

(3)校正后的文字区域，输入到文字识别算法模型进行识别，即得识别结果。

进一步的为更好地实现本发明，特别采用下述设置方式：所述文字识别算法模型采用人工智能模型CNN。

本发明与现有技术相比，具有的有益效果为：

(1)本发明针对倾斜文字的识别，能极大提高抗干扰能力，能远远优于单一算法文字区域定位直接识别的效果。

(2)本发明针对复杂背景下图片或视频，特别针对倾斜文字区域定位，先用人工智能算法进行粗定位，然后用图像分析的算法进行二次精准定位，再进行精准文字识别。

(3)本发明采用了人工智能的识别算法，对倾斜文字区域定位与检测，然而单靠人工智能算法文字区域的定位，定位边界精度不高，对倾斜文字后续的旋转校正精度误差扩大，创新性地在用FCN算法文字定位与检测，在检测区域周边，结合LSD直线检测算法，对检测区域边界进行第二次精准分割和边界定位，再校准后，进行文字识别。

(4)本发明先用FCN算法模型检测文本区域，根据FCN对倾斜文字区域边界定位不准确的特点，采用LSD直线检测，结合FCN检测结果进行文字区域边界的二次调整，再进行倾斜文字的校正，再检测识别，此方法，能极大提高倾斜文字的识别率，同时，算法复杂度低，运算速度大，更有利于工程实现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的流程图。

图2为采用本发明产生的倾斜文字区域检测结果。

图3为采用本发明最后直接的检测文字结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。

可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

经调查发现，现有技术主要采用透镜集热装置，但是透镜集热装置系统集热效率低，维护成本高，长期在户外环境容易沉积尘埃影响反射效果。

以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在本发明过程中对本发明做出的贡献。

值得注意的是：在本申请中，某些需要应用到本领域的公知技术或常规技术手段时，申请人可能存在没有在文中具体的阐述该公知技术或/和常规技术手段是一种什么样的技术手段，但不能以文中没有具体公布该技术手段，而认为本申请不符合专利法第二十六条第三款的情况。

实施例1：

本发明设计出一种倾斜文本的文字精准识别的方法，针对倾斜文字的识别，能极大提高抗干扰能力，能远远优于单一算法文字区域定位直接识别的效果，特别采用下述设置方式，包括下述步骤：

(1)输入图像；

(2)将输入的图像采用有文字区域和无文字区域两类检测方式，利用文本区域目标检测模型，训练得到文字区域检测库，训练时，优选的采集图片超过300张即可，但不限于此；

(3)对输入的图片，用步骤(2)训练好的文字区域检测库，分别检测出文字区域N1，N2…Nk，得到K个文本区域，每个文本区域为Ni(i＝1，2，…k)，并用变量{(xi11，yi11)，(xi21，yi21)，(xi22，yi22)，(xi12，yi12)}表示图像坐标；所述图像坐标的(xi11，yi11)表示四边形左上角图像坐标，(xi21，yi21)，表示四边形右上角图像坐标，(xi22，yi22)，表示四边形右下角图像坐标，(xi12，yi12)，表示四边形左下角图像坐标；

作为优选的设置方案，在对输入的图像进行LSD直线检测时，得到K条直线，并采用Line1{(Lx11,Ly11),(Lx12,ly12)}、Line2{(Lx21,Ly21),(Lx22,ly22)}、Line3{(Lx31,Ly31),(Lx32,ly32)}…、Linek{(Lxk1,Lyk1),(Lxk2,lyk2)}表示，该k条直线具有M个交点，并用{(mx1,my1),(mx2,my2),(mx3,my3),…(mxm,mym)}表示；

作为优选的设置方案，在对边界进行二次精确的调整时：每个文本区域Ni(i＝1,2,…k)，用变量(即图像坐标){(xi11,yi11),(xi21,yi21),(xi22,yi22)，(xi12,yi12)}表示文字区域的四边形，分别求取顶点(xi11,yi11)(即四边形左上角图像坐标)到步骤(4)检测结果M个交点距离最近的点(Mxi11,Myi11),顶点(xi21,yi21)(即四边形右上角图像坐标)到M个交点距离最近的点(Mxi21,Myi21),顶点(xi22,yi22)(即四边形右下角图像坐标)到M个交点距离最近的点(Mxi22,Myi22),,顶点(xi12,yi12)(即四边形左下角图像坐标)到M个交点距离最近的点(Mxi12,Myi12),然后将文本区域Ni四边形顶点调整为{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22)，(Mxi12,Myi12)}；

(6)根据文本区域新的顶点坐标，获取四边形的倾斜角度，对文本区域进行矫正，输入文字识别算法模型，形成最后的精准文字识别结果；

即，根据步骤(5)检测结果，获得调整边界后文本区域Ni(i＝1,2,…k)；用变量{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22),(Mxi12,Myi12)}；获取四边形倾斜角度，对文本区域进行矫正，输入文字识别算法模型，形成最后的精准文字识别结果。

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤(2)的具体步骤如下：

(2.1)对图像做有文字区域和无文字区域的标注；

(2.2)输入标注后的图像，用文本区域目标检测模型(优选的采用FCN检测模型)进行离线训练，得到文字区域检测库。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述，特别采用下述设置方式：所述文本区域目标检测模型采用FCN检测模型。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述，特别采用下述设置方式：所述步骤(3)的具体步骤为：

(3.1)将图像输入训练好的文字区域检测库；

(3.2)对图像进行抽象特征的提取；

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述，特别采用下述设置方式：所述文字区域检测库为FCN检测模型。

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述，特别采用下述设置方式：所述步骤(6)的具体步骤为：

(6.1)计算每个文字区域Ni的倾斜角：

(6.2)对每个文字区域Ni进行区域矫正：

其中θ为Ni区域的倾斜角，

为原区域的图像值，

为校正后图像值；

(6.3)校正后的文字区域，输入到文字识别算法模型进行识别，即得识别结果。

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述，特别采用下述设置方式：所述文字识别算法模型采用人工智能模型CNN。

实施例8：

如图1所示，一种倾斜文本的文字精准识别的方法，包括以下步骤：

(1)输入图像；

(2)离线训练好的文本区域目标检测库：将输入的图像调用FCN算法模型，同时按照有文字区域和无文字区域两类检测，采集训练一个文字区域检测库，采集图片超过300张即可；

(3)对图像进行文字区域检测：对输入的图片，用步骤(2)训练好的文字区域检测库，分别检测出文字区域N1,N2…Nk,计K个文本区域，每个文本区域Ni(i＝1,2,…k)，用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22)，(xi12,yi12)}表示,其中(xi11,yi11),表示四边形左上角图像坐标，(xi21,yi21)，表示四边形右上角图像坐标，(xi22,yi22),表示四边形右下角图像坐标，(xi12,yi12),表示四边形左下角图像坐标。

(4)对输入的图像进行LSD直线检测：

得到Line1{(Lx11,Ly11),(Lx12,ly12)}、Line2{(Lx21,Ly21),(Lx22,,ly22)}、Line3{(Lx31,Ly31),(Lx32,ly32)}…、Linek{(Lxk1,Lyk1),(Lxk2,lyk2)}；总共检测到k条直线，k条直线有M个交点{(mx1,my1),(mx2,my2),(mx3,my3),…(mxm,mym)}。

(5)对文字区域边界进行二次修正定位，并校正倾斜文字区域：针对步骤(3)的检测结果，对边界进行二次精确调整：每个文本区域Ni(i＝1,2,…k)，用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22)，(xi12,yi12)}表示文字区域的四边形，分别求取顶点(xi11,yi11)到步骤(4)检测结果M个交点距离最近的点(Mxi11,Myi11),(xi21,yi21)到M个交点距离最近的点(Mxi21,Myi21),(xi22,yi22)到M个交点距离最近的点(Mxi22,Myi22),(xi12,yi12)到M个交点距离最近的点(Mxi12,Myi12),而后将文本区域Ni四边形顶点调整为{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22)，(Mxi12,Myi12)}；

(6)对图像进行文字识别：

根据步骤(5)检测结果，获得调整边界后区域Ni(i＝1,2,…k)；用变量{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22),(Mxi12,Myi12)}；获取四边形倾斜角度，对文本区域进行矫正，输入文字识别算法模型，形成最后的精准文字识别结果，其中，文字识别算法模型采用普遍人工智能模型CNN即可。

步骤(2)的具体步骤如下：

(2.1)对图像做有文字区域和无文字区域的标注；

步骤(3)的具体步骤为：

(3.2)将图像输入训练好的文字区域检测库；

(3.2)对图像进行抽象特征的提取；

(3.3)将获取到的图像的抽象特征再次输入到训练好的文字区域检测库，得到文字区域；

所述文字区域检测库为FCN检测模型。

步骤(6)的具体步骤为：

(6.1)计算每个文字区域Ni的倾斜角：

(6.2)对每个文字区域Ni进行区域矫正：

其中θ为Ni区域的倾斜角，

为原区域的图像值，

为校正后图像值；

(6.3)校正后的文字区域，输入到文字识别算法模型进行识别，即可得到最后的识别结果：

实施例9：

一种倾斜文本的文字精准识别的方法，如图2～3所示，在本实施例中以数字为识别对象，识别主要步骤为：

(1)输入图像分辨率1280x960,灰度图像；

(2)将输入的图像调用FCN算法模型，同时按照有文字区域和无文字区域两类检测，采集训练一个检测库，采集图片超过300张即可；

(3)对输入的图片，用步骤(2)训练好的检测库，分别检测出文字区域为1个文本区域，其区域；用变量{(123,361),(966,410),(974，603)，(180,569)},其中(123，361),表示四边形左上角图像坐标，(966,410)，表示四边形右上角图像坐标，(974，603),表示四边形右下角图像坐标，(180,569),表示四边形左下角图像坐标。

(4)对输入的图像进行LSD直线检测，得到Line1{(144,353),(980,399)}、Line2{(980,399),(980,635)}、Line3{(980,635),(178,571)}、Line4{(178,571),(144,353)}、Line5{(211,360),(224,579)}、Line6{(173,358),(155,473)}、Line7{(982,404),(956,515)}、Line8{(536,476),(542,603)}；总共检测到8条直线，8条直线有12个交点{(144,353),(980,399),(980,635),(178,571),(211,360),(224,579),(173,358),(155,473),(982,404),(956,515),(536,476),(542,603)}。

(5)针对步骤(3)的检测结果，对边界进行二次精确调整：文字区域用变量{(123,361),(966,410),(974，603)，(180,569)},表示文字区域的四边形，分别求取顶点(123,361)到步骤(4)检测结果12个交点距离最近的点(144,353),(966,410)到12个交叉点距离最近的点(980,399),(980,635)到12点距离最近的点(974，603),(180,569)到12点距离最近的点(178,571),文字区域四边形顶点调整为{(144,353),(980,399),(974，603)，(178,571)}；

(6)根据步骤(5)检测结果，获得调整边界后区域用变量{(144,353),(980,399),(974，603)，(178,571)}；获取四边形倾斜角度：计算每个文字区域Ni的倾斜角：

对文本区域进行矫正，输入文字识别算法模型，形成最后的精准文字识别结果如图3所示。文字识别算法模型采用普遍人工智能模型CNN即可。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种倾斜文字的精准识别的方法，其特征在于：包括下述步骤：

(1)输入图像；

(2)对图像做有文字区域和无文字区域的标注，而后输入标注后的图像，用文本区域目标检测模型进行离线训练，得到文字区域检测库；

(3)将图像输入训练好的文字区域检测库，对图像进行抽象特征的提取，将获取到的图像的抽象特征再次输入到训练好的文字区域检测库，分别检测出文字区域N1，N2…Nk，得到K个文本区域，每个文本区域为Ni(i＝1，2，…k)，并用变量{(xi11，yi11)，(xi21，yi21)，(xi22，yi22)，(xi12，yi12)}表示图像坐标；

(6)对图像进行文字识别，具体步骤为：

(6.1)计算每个文字区域Ni的倾斜角：

(6.2)对每个文字区域Ni进行区域矫正：

其中θ为Ni区域的倾斜角，

为原区域的图像值，

为校正后图像值；

2.根据权利要求1所述的一种倾斜文字的精准识别的方法，其特征在于：所述图像坐标的(xi11，yi11)表示四边形左上角图像坐标，(xi21，yi21)，表示四边形右上角图像坐标，(xi22，yi22)，表示四边形右下角图像坐标，(xi12，yi12)，表示四边形左下角图像坐标。

3.根据权利要求1或2所述的一种倾斜文字的精准识别的方法，其特征在于：所述文本区域目标检测模型采用FCN检测模型。

4.根据权利要求1或2所述的一种倾斜文字的精准识别的方法，其特征在于：所述文字区域检测库为FCN检测模型。

5.根据权利要求1或2所述的一种倾斜文字的精准识别的方法，其特征在于：所述文字识别算法模型采用人工智能模型CNN。