CN110363196B - 一种倾斜文本的文字精准识别的方法 - Google Patents

一种倾斜文本的文字精准识别的方法 Download PDF

Info

Publication number
CN110363196B
CN110363196B CN201910537843.8A CN201910537843A CN110363196B CN 110363196 B CN110363196 B CN 110363196B CN 201910537843 A CN201910537843 A CN 201910537843A CN 110363196 B CN110363196 B CN 110363196B
Authority
CN
China
Prior art keywords
image
text
character
detection
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910537843.8A
Other languages
English (en)
Other versions
CN110363196A (zh
Inventor
吴晓东
张冬雪
刘麒麟
刘建
王千
王守镜
罗冰洁
谢成
雍鑫
何维泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910537843.8A priority Critical patent/CN110363196B/zh
Publication of CN110363196A publication Critical patent/CN110363196A/zh
Application granted granted Critical
Publication of CN110363196B publication Critical patent/CN110363196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种倾斜文本的文字精准识别的方法,包括下述步骤:(1)输入图像;(2)将输入的图像采用有文字区域和无文字区域两类检测方式,利用文本区域目标检测模型,训练得到文字区域检测库;(3)对输入的图片,用步骤(2)训练好的文字区域检测库,分别检测出文字区域;(4)对输入的图像进行LSD直线检测;(5)针对步骤(3)的检测结果,对边界进行二次精确的调整;(6)根据文本区域新的顶点坐标,获取四边形的倾斜角度,对文本区域进行矫正,输入文字识别算法模型,形成最后的精准文字识别结果;针对倾斜文字的识别,能极大提高抗干扰能力,能远远优于单一算法文字区域定位直接识别的效果。

Description

一种倾斜文本的文字精准识别的方法
技术领域
本发明涉及算法技术、文字识别技术等领域,具体而言,涉及一种倾斜文本的文字精准识别的方法。
背景技术
计算机文字识别,俗称光学字符识别,英文全称是Optical CharacterRecognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。衡量一个OCR算法性能好坏的主要指标有:拒识率、误识率、识别速度、易用性及可行性等。
CNN:卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。由于卷积神经网络能够进行平移不变分类,因此也被称为“平移不变人工神经网络”,在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被大量应用于计算机视觉、自然语言处理等领域。
FCN:Fully Convolutional Networks for Semantic Segmentation,是在CVPR2015上发表的,全卷积网络(FCN)可以用于自然图像的语义分割,多模态医学图像分析和多光谱卫星图像分割。与使用AlexNet,VGG,ResNet等体系结构的深度分类网络类似,也可以使用各种各样的深层体系结构执行语义分割。
全卷积网络(FCN)CVPR 2015用于语义分割的完全卷积网络的arXiv将当代分类网络(AlexNet,VGG网和GoogLeNet)调整为完全卷积网络,并通过微调来迁移他们学习的表示到分割任务。然后,定义了一种新颖的架构,它将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以生成准确而详细的分割。全卷积网络实现了PASCAL VOC的最先进分割(2012年平均IU的相对改善率为20%,平均IU为62.2%),NYUDv2和SIFT Flow,而典型图像的推断时间为三分之一。
FCN的优点:与传统用CNN进行图像分割的方法相比,FCN有两大明显的优点:一是可以接受任意大小的输入图像,而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。
同时FCN的缺点也比较明显:一是得到的结果还是不够精细;二是对各个像素进行分类,没有充分考虑像素与像素之间的关系,忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性。
LSD:a Line Segment Detector直线检测算法,发表于PAMI2010。特别之处在于能快速检测图像中的线段,同时使用了错误控制的方法,使得检测结果比较准确。最后,LSD结果输出是线段的坐标与属性,比如起点,终点,线段的粗细,LSD的核心是像素合并于误差控制。利用合并像素来检测直线段并不是什么新鲜的方法,但是合并像素的方法通常运算量较大。LSD号称是能在线性时间(linear-time)内得到亚像素级准确度的直线段检测算法。LSD虽然号称不需人工设置任何参数,但是实际使用时,可以设置采样率和判断俩像素是否合并的方向差。我们知道,检测图像中的直线其实就是寻找图像中梯度变化较大的像素。因此,梯度和图像的level-line是LSD提及的两个基本概念。LSD首先计算每一个像素与level-line的夹角以构成一个level-line场。然后,合并这个场里方向近似相同的像素,这样可以得到一系列regions,这些regions被称为line support regions。
OCR用基于人工智能检测算法,主要过程包括文本检测和文字识别两个过程,在复杂情况下,对图片中存在的倾斜文字检测与识别,是业内非常具有挑战性的一项工作,单一的机器学习,无法定位倾斜文字,而目前人工智能检测算法定位倾斜文字,虽然能定位,但定位的边界并不精确,边界不精确,特别对倾斜文字的识别影响很大。
发明内容
本发明提供了一种倾斜文本的文字精准识别的方法,针对倾斜文字的识别,能极大提高抗干扰能力,能远远优于单一算法文字区域定位直接识别的效果。
本发明提供了一种倾斜文本的文字精准识别的方法,包括下述步骤:
(1)输入图像;
(2)将输入的图像采用有文字区域和无文字区域两类检测方式,利用文本区域目标检测模型,训练得到文字区域检测库;
(3)对输入的图片,用步骤(2)训练好的文字区域检测库,分别检测出文字区域N1,N2…Nk,得到K个文本区域,每个文本区域为Ni(i=1,2,…k),并用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22),(xi12,yi12)}表示图像坐标;
(4)对输入的图像进行LSD直线检测,得到k条直线,形成M个交点;
(5)针对步骤(3)的检测结果,对边界进行二次精确的调整:用文本区域的图像坐标求取到M个交点的距离最近的点,并将各文本区域的顶点调整为该距离最近的点;
(6)根据文本区域新的顶点坐标,获取四边形的倾斜角度,对文本区域进行矫正,输入文字识别算法模型,形成最后的精准文字识别结果。
进一步的为更好地实现本发明,特别采用下述设置方式:所述图像坐标的(xi11,yi11)表示四边形左上角图像坐标,(xi21,yi21),表示四边形右上角图像坐标,(xi22,yi22),表示四边形右下角图像坐标,(xi12,yi12),表示四边形左下角图像坐标。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤(2)的具体步骤如下:
(2.1)对图像做有文字区域和无文字区域的标注;
(2.2)输入标注后的图像,用文本区域目标检测模型进行离线训练,得到文字区域检测库。
进一步的为更好地实现本发明,特别采用下述设置方式:所述文本区域目标检测模型采用FCN检测模型。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤(3)的具体步骤为:
(3.1)将图像输入训练好的文字区域检测库;
(3.2)对图像进行抽象特征的提取;
(3.3)将获取到的图像的抽象特征再次输入到训练好的文字区域检测库,得到文字区域。
进一步的为更好地实现本发明,特别采用下述设置方式:所述文字区域检测库为FCN检测模型。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤(6)的具体步骤为:
(6.1)计算每个文字区域Ni的倾斜角:
Figure BDA0002101655730000041
(2)对每个文字区域Ni进行区域矫正:
Figure BDA0002101655730000051
其中θ为Ni区域的倾斜角,
Figure BDA0002101655730000052
为原区域的图像值,
Figure BDA0002101655730000053
为校正后图像值;
(3)校正后的文字区域,输入到文字识别算法模型进行识别,即得识别结果。
进一步的为更好地实现本发明,特别采用下述设置方式:所述文字识别算法模型采用人工智能模型CNN。
本发明与现有技术相比,具有的有益效果为:
(1)本发明针对倾斜文字的识别,能极大提高抗干扰能力,能远远优于单一算法文字区域定位直接识别的效果。
(2)本发明针对复杂背景下图片或视频,特别针对倾斜文字区域定位,先用人工智能算法进行粗定位,然后用图像分析的算法进行二次精准定位,再进行精准文字识别。
(3)本发明采用了人工智能的识别算法,对倾斜文字区域定位与检测,然而单靠人工智能算法文字区域的定位,定位边界精度不高,对倾斜文字后续的旋转校正精度误差扩大,创新性地在用FCN算法文字定位与检测,在检测区域周边,结合LSD直线检测算法,对检测区域边界进行第二次精准分割和边界定位,再校准后,进行文字识别。
(4)本发明先用FCN算法模型检测文本区域,根据FCN对倾斜文字区域边界定位不准确的特点,采用LSD直线检测,结合FCN检测结果进行文字区域边界的二次调整,再进行倾斜文字的校正,再检测识别,此方法,能极大提高倾斜文字的识别率,同时,算法复杂度低,运算速度大,更有利于工程实现。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的流程图。
图2为采用本发明产生的倾斜文字区域检测结果。
图3为采用本发明最后直接的检测文字结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。
可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
经调查发现,现有技术主要采用透镜集热装置,但是透镜集热装置系统集热效率低,维护成本高,长期在户外环境容易沉积尘埃影响反射效果。
以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在本发明过程中对本发明做出的贡献。
值得注意的是:在本申请中,某些需要应用到本领域的公知技术或常规技术手段时,申请人可能存在没有在文中具体的阐述该公知技术或/和常规技术手段是一种什么样的技术手段,但不能以文中没有具体公布该技术手段,而认为本申请不符合专利法第二十六条第三款的情况。
实施例1:
本发明设计出一种倾斜文本的文字精准识别的方法,针对倾斜文字的识别,能极大提高抗干扰能力,能远远优于单一算法文字区域定位直接识别的效果,特别采用下述设置方式,包括下述步骤:
(1)输入图像;
(2)将输入的图像采用有文字区域和无文字区域两类检测方式,利用文本区域目标检测模型,训练得到文字区域检测库,训练时,优选的采集图片超过300张即可,但不限于此;
(3)对输入的图片,用步骤(2)训练好的文字区域检测库,分别检测出文字区域N1,N2…Nk,得到K个文本区域,每个文本区域为Ni(i=1,2,…k),并用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22),(xi12,yi12)}表示图像坐标;所述图像坐标的(xi11,yi11)表示四边形左上角图像坐标,(xi21,yi21),表示四边形右上角图像坐标,(xi22,yi22),表示四边形右下角图像坐标,(xi12,yi12),表示四边形左下角图像坐标;
(4)对输入的图像进行LSD直线检测,得到k条直线,形成M个交点;
作为优选的设置方案,在对输入的图像进行LSD直线检测时,得到K条直线,并采用Line1{(Lx11,Ly11),(Lx12,ly12)}、Line2{(Lx21,Ly21),(Lx22,ly22)}、Line3{(Lx31,Ly31),(Lx32,ly32)}…、Linek{(Lxk1,Lyk1),(Lxk2,lyk2)}表示,该k条直线具有M个交点,并用{(mx1,my1),(mx2,my2),(mx3,my3),…(mxm,mym)}表示;
(5)针对步骤(3)的检测结果,对边界进行二次精确的调整:用文本区域的图像坐标求取到M个交点的距离最近的点,并将各文本区域的顶点调整为该距离最近的点;
作为优选的设置方案,在对边界进行二次精确的调整时:每个文本区域Ni(i=1,2,…k),用变量(即图像坐标){(xi11,yi11),(xi21,yi21),(xi22,yi22),(xi12,yi12)}表示文字区域的四边形,分别求取顶点(xi11,yi11)(即四边形左上角图像坐标)到步骤(4)检测结果M个交点距离最近的点(Mxi11,Myi11),顶点(xi21,yi21)(即四边形右上角图像坐标)到M个交点距离最近的点(Mxi21,Myi21),顶点(xi22,yi22)(即四边形右下角图像坐标)到M个交点距离最近的点(Mxi22,Myi22),,顶点(xi12,yi12)(即四边形左下角图像坐标)到M个交点距离最近的点(Mxi12,Myi12),然后将文本区域Ni四边形顶点调整为{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22),(Mxi12,Myi12)};
(6)根据文本区域新的顶点坐标,获取四边形的倾斜角度,对文本区域进行矫正,输入文字识别算法模型,形成最后的精准文字识别结果;
即,根据步骤(5)检测结果,获得调整边界后文本区域Ni(i=1,2,…k);用变量{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22),(Mxi12,Myi12)};获取四边形倾斜角度,对文本区域进行矫正,输入文字识别算法模型,形成最后的精准文字识别结果。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤(2)的具体步骤如下:
(2.1)对图像做有文字区域和无文字区域的标注;
(2.2)输入标注后的图像,用文本区域目标检测模型(优选的采用FCN检测模型)进行离线训练,得到文字区域检测库。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述,特别采用下述设置方式:所述文本区域目标检测模型采用FCN检测模型。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述,特别采用下述设置方式:所述步骤(3)的具体步骤为:
(3.1)将图像输入训练好的文字区域检测库;
(3.2)对图像进行抽象特征的提取;
(3.3)将获取到的图像的抽象特征再次输入到训练好的文字区域检测库,得到文字区域。
实施例5:
本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述,特别采用下述设置方式:所述文字区域检测库为FCN检测模型。
实施例6:
本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述,特别采用下述设置方式:所述步骤(6)的具体步骤为:
(6.1)计算每个文字区域Ni的倾斜角:
Figure BDA0002101655730000101
(6.2)对每个文字区域Ni进行区域矫正:
Figure BDA0002101655730000102
其中θ为Ni区域的倾斜角,
Figure BDA0002101655730000103
为原区域的图像值,
Figure BDA0002101655730000104
为校正后图像值;
(6.3)校正后的文字区域,输入到文字识别算法模型进行识别,即得识别结果。
实施例7:
本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,与前述技术方案中采用相同技术结构部位在此技术方案中将不再赘述,特别采用下述设置方式:所述文字识别算法模型采用人工智能模型CNN。
实施例8:
如图1所示,一种倾斜文本的文字精准识别的方法,包括以下步骤:
(1)输入图像;
(2)离线训练好的文本区域目标检测库:将输入的图像调用FCN算法模型,同时按照有文字区域和无文字区域两类检测,采集训练一个文字区域检测库,采集图片超过300张即可;
(3)对图像进行文字区域检测:对输入的图片,用步骤(2)训练好的文字区域检测库,分别检测出文字区域N1,N2…Nk,计K个文本区域,每个文本区域Ni(i=1,2,…k),用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22),(xi12,yi12)}表示,其中(xi11,yi11),表示四边形左上角图像坐标,(xi21,yi21),表示四边形右上角图像坐标,(xi22,yi22),表示四边形右下角图像坐标,(xi12,yi12),表示四边形左下角图像坐标。
(4)对输入的图像进行LSD直线检测:
得到Line1{(Lx11,Ly11),(Lx12,ly12)}、Line2{(Lx21,Ly21),(Lx22,,ly22)}、Line3{(Lx31,Ly31),(Lx32,ly32)}…、Linek{(Lxk1,Lyk1),(Lxk2,lyk2)};总共检测到k条直线,k条直线有M个交点{(mx1,my1),(mx2,my2),(mx3,my3),…(mxm,mym)}。
(5)对文字区域边界进行二次修正定位,并校正倾斜文字区域:针对步骤(3)的检测结果,对边界进行二次精确调整:每个文本区域Ni(i=1,2,…k),用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22),(xi12,yi12)}表示文字区域的四边形,分别求取顶点(xi11,yi11)到步骤(4)检测结果M个交点距离最近的点(Mxi11,Myi11),(xi21,yi21)到M个交点距离最近的点(Mxi21,Myi21),(xi22,yi22)到M个交点距离最近的点(Mxi22,Myi22),(xi12,yi12)到M个交点距离最近的点(Mxi12,Myi12),而后将文本区域Ni四边形顶点调整为{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22),(Mxi12,Myi12)};
(6)对图像进行文字识别:
根据步骤(5)检测结果,获得调整边界后区域Ni(i=1,2,…k);用变量{(Mxi11,Myi11),(Mxi21,Myi21),(Mxi22,Myi22),(Mxi12,Myi12)};获取四边形倾斜角度,对文本区域进行矫正,输入文字识别算法模型,形成最后的精准文字识别结果,其中,文字识别算法模型采用普遍人工智能模型CNN即可。
步骤(2)的具体步骤如下:
(2.1)对图像做有文字区域和无文字区域的标注;
(2.2)输入标注后的图像,用文本区域目标检测模型(优选的采用FCN检测模型)进行离线训练,得到文字区域检测库。
步骤(3)的具体步骤为:
(3.2)将图像输入训练好的文字区域检测库;
(3.2)对图像进行抽象特征的提取;
(3.3)将获取到的图像的抽象特征再次输入到训练好的文字区域检测库,得到文字区域;
所述文字区域检测库为FCN检测模型。
步骤(6)的具体步骤为:
(6.1)计算每个文字区域Ni的倾斜角:
Figure BDA0002101655730000121
(6.2)对每个文字区域Ni进行区域矫正:
Figure BDA0002101655730000122
其中θ为Ni区域的倾斜角,
Figure BDA0002101655730000123
为原区域的图像值,
Figure BDA0002101655730000124
为校正后图像值;
(6.3)校正后的文字区域,输入到文字识别算法模型进行识别,即可得到最后的识别结果:
实施例9:
一种倾斜文本的文字精准识别的方法,如图2~3所示,在本实施例中以数字为识别对象,识别主要步骤为:
(1)输入图像分辨率1280x960,灰度图像;
(2)将输入的图像调用FCN算法模型,同时按照有文字区域和无文字区域两类检测,采集训练一个检测库,采集图片超过300张即可;
(3)对输入的图片,用步骤(2)训练好的检测库,分别检测出文字区域为1个文本区域,其区域;用变量{(123,361),(966,410),(974,603),(180,569)},其中(123,361),表示四边形左上角图像坐标,(966,410),表示四边形右上角图像坐标,(974,603),表示四边形右下角图像坐标,(180,569),表示四边形左下角图像坐标。
(4)对输入的图像进行LSD直线检测,得到Line1{(144,353),(980,399)}、Line2{(980,399),(980,635)}、Line3{(980,635),(178,571)}、Line4{(178,571),(144,353)}、Line5{(211,360),(224,579)}、Line6{(173,358),(155,473)}、Line7{(982,404),(956,515)}、Line8{(536,476),(542,603)};总共检测到8条直线,8条直线有12个交点{(144,353),(980,399),(980,635),(178,571),(211,360),(224,579),(173,358),(155,473),(982,404),(956,515),(536,476),(542,603)}。
(5)针对步骤(3)的检测结果,对边界进行二次精确调整:文字区域用变量{(123,361),(966,410),(974,603),(180,569)},表示文字区域的四边形,分别求取顶点(123,361)到步骤(4)检测结果12个交点距离最近的点(144,353),(966,410)到12个交叉点距离最近的点(980,399),(980,635)到12点距离最近的点(974,603),(180,569)到12点距离最近的点(178,571),文字区域四边形顶点调整为{(144,353),(980,399),(974,603),(178,571)};
(6)根据步骤(5)检测结果,获得调整边界后区域用变量{(144,353),(980,399),(974,603),(178,571)};获取四边形倾斜角度:计算每个文字区域Ni的倾斜角:
Figure BDA0002101655730000141
对文本区域进行矫正,输入文字识别算法模型,形成最后的精准文字识别结果如图3所示。文字识别算法模型采用普遍人工智能模型CNN即可。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种倾斜文字的精准识别的方法,其特征在于:包括下述步骤:
(1)输入图像;
(2)对图像做有文字区域和无文字区域的标注,而后输入标注后的图像,用文本区域目标检测模型进行离线训练,得到文字区域检测库;
(3)将图像输入训练好的文字区域检测库,对图像进行抽象特征的提取,将获取到的图像的抽象特征再次输入到训练好的文字区域检测库,分别检测出文字区域N1,N2…Nk,得到K个文本区域,每个文本区域为Ni(i=1,2,…k),并用变量{(xi11,yi11),(xi21,yi21),(xi22,yi22),(xi12,yi12)}表示图像坐标;
(4)对输入的图像进行LSD直线检测,得到k条直线,形成M个交点;
(5)针对步骤(3)的检测结果,对边界进行二次精确的调整:用文本区域的图像坐标求取到M个交点的距离最近的点,并将各文本区域的顶点调整为该距离最近的点;
(6)对图像进行文字识别,具体步骤为:
(6.1)计算每个文字区域Ni的倾斜角:
Figure FDA0003394283630000011
(6.2)对每个文字区域Ni进行区域矫正:
Figure FDA0003394283630000012
其中θ为Ni区域的倾斜角,
Figure FDA0003394283630000013
为原区域的图像值,
Figure FDA0003394283630000014
为校正后图像值;
(6.3)校正后的文字区域,输入到文字识别算法模型进行识别,即得识别结果。
2.根据权利要求1所述的一种倾斜 文字的精准识别的方法,其特征在于:所述图像坐标的(xi11,yi11)表示四边形左上角图像坐标,(xi21,yi21),表示四边形右上角图像坐标,(xi22,yi22),表示四边形右下角图像坐标,(xi12,yi12),表示四边形左下角图像坐标。
3.根据权利要求1或2所述的一种倾斜 文字的精准识别的方法,其特征在于:所述文本区域目标检测模型采用FCN检测模型。
4.根据权利要求1或2所述的一种倾斜文字的精准识别的方法,其特征在于:所述文字区域检测库为FCN检测模型。
5.根据权利要求1或2所述的一种倾斜 文字的精准识别的方法,其特征在于:所述文字识别算法模型采用人工智能模型CNN。
CN201910537843.8A 2019-06-20 2019-06-20 一种倾斜文本的文字精准识别的方法 Active CN110363196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537843.8A CN110363196B (zh) 2019-06-20 2019-06-20 一种倾斜文本的文字精准识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537843.8A CN110363196B (zh) 2019-06-20 2019-06-20 一种倾斜文本的文字精准识别的方法

Publications (2)

Publication Number Publication Date
CN110363196A CN110363196A (zh) 2019-10-22
CN110363196B true CN110363196B (zh) 2022-02-08

Family

ID=68216532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537843.8A Active CN110363196B (zh) 2019-06-20 2019-06-20 一种倾斜文本的文字精准识别的方法

Country Status (1)

Country Link
CN (1) CN110363196B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统
CN110837796B (zh) * 2019-11-05 2022-08-19 泰康保险集团股份有限公司 图像处理方法及装置
CN111652205B (zh) * 2020-06-04 2023-05-16 广东小天才科技有限公司 基于深度学习的文本矫正方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315664A (zh) * 2008-05-27 2008-12-03 昆明理工大学 用于文字识别的文本图像预处理方法
CN101425142A (zh) * 2008-09-17 2009-05-06 北大方正集团有限公司 页面倾斜角度的确定方法和装置
CN102201053A (zh) * 2010-12-10 2011-09-28 上海合合信息科技发展有限公司 一种文本图像的切边方法
CN108427946A (zh) * 2018-03-16 2018-08-21 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
CN108446698A (zh) * 2018-03-15 2018-08-24 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
CN109034155A (zh) * 2018-07-24 2018-12-18 百卓网络科技有限公司 一种文字检测及识别的方法及系统
CN109492630A (zh) * 2018-10-26 2019-03-19 信雅达系统工程股份有限公司 一种基于深度学习的金融行业图像中的文字区域检测定位的方法
CN109815957A (zh) * 2019-01-30 2019-05-28 邓悟 一种基于彩色图像在复杂背景下的文字识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315664A (zh) * 2008-05-27 2008-12-03 昆明理工大学 用于文字识别的文本图像预处理方法
CN101425142A (zh) * 2008-09-17 2009-05-06 北大方正集团有限公司 页面倾斜角度的确定方法和装置
CN102201053A (zh) * 2010-12-10 2011-09-28 上海合合信息科技发展有限公司 一种文本图像的切边方法
CN108446698A (zh) * 2018-03-15 2018-08-24 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
CN108427946A (zh) * 2018-03-16 2018-08-21 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
CN109034155A (zh) * 2018-07-24 2018-12-18 百卓网络科技有限公司 一种文字检测及识别的方法及系统
CN109492630A (zh) * 2018-10-26 2019-03-19 信雅达系统工程股份有限公司 一种基于深度学习的金融行业图像中的文字区域检测定位的方法
CN109815957A (zh) * 2019-01-30 2019-05-28 邓悟 一种基于彩色图像在复杂背景下的文字识别方法

Also Published As

Publication number Publication date
CN110363196A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN110363196B (zh) 一种倾斜文本的文字精准识别的方法
CN113435240B (zh) 一种端到端的表格检测和结构识别方法及系统
CN109376740A (zh) 一种基于视频的水尺读数检测方法
CN112085024A (zh) 一种罐表面字符识别方法
CN111539330B (zh) 一种基于双svm多分类器的变电站数显仪表识别方法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN115331245B (zh) 一种基于图像实例分割的表格结构识别方法
CN111738055A (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN115272652A (zh) 基于多元回归和自适应焦点损失的密集物体图像检测方法
WO2023024766A1 (zh) 物体尺寸识别方法、可读存储介质及物体尺寸识别系统
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
WO2022121025A1 (zh) 证件增减类别检测方法、装置、可读存储介质和终端
CN113065404B (zh) 基于等宽文字片段的火车票内容检测方法与系统
CN112686872B (zh) 基于深度学习的木材计数方法
CN116523916B (zh) 产品表面缺陷检测方法、装置、电子设备及存储介质
CN114078106A (zh) 基于改进Faster R-CNN的疵点检测方法
CN110889418A (zh) 一种气体轮廓识别方法
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN114283157A (zh) 一种基于椭圆拟合的椭圆形物体分割方法
Ha et al. A novel method for automatic detection of basic shapes on whiteboard images using faster RCNN
CN112115949B (zh) 一种烟草证件以及订单的光学文字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant