CN108805116B - 图像文本检测方法及其系统 - Google Patents

图像文本检测方法及其系统 Download PDF

Info

Publication number
CN108805116B
CN108805116B CN201810480303.6A CN201810480303A CN108805116B CN 108805116 B CN108805116 B CN 108805116B CN 201810480303 A CN201810480303 A CN 201810480303A CN 108805116 B CN108805116 B CN 108805116B
Authority
CN
China
Prior art keywords
image
circumscribed
circumscribed rectangle
height
rectangles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810480303.6A
Other languages
English (en)
Other versions
CN108805116A (zh
Inventor
张�诚
张新华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lancoo Technology Co ltd
Original Assignee
Zhejiang Lancoo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lancoo Technology Co ltd filed Critical Zhejiang Lancoo Technology Co ltd
Priority to CN201810480303.6A priority Critical patent/CN108805116B/zh
Publication of CN108805116A publication Critical patent/CN108805116A/zh
Application granted granted Critical
Publication of CN108805116B publication Critical patent/CN108805116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请涉及计算机图像文本处理领域,公开了一种图像文本检测方法及其系统,可以解决光照变化给文本检测带来的不利影响。本方法包括:对获取的原始图像进行边缘检测;对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形;将外接矩形按约定顺序排列;按照排列后的顺序,根据每一个外接矩形的位置,从原始图像获取对应位置的子图像进行字符识别。

Description

图像文本检测方法及其系统
技术领域
本申请涉及计算机图像文本处理领域,特别涉及图像文本检测技术。
背景技术
随着智慧教育的快速发展和国家政策的扶持下,越来越多的学校和教室使用录播设备。因而,为了更好地利用录播教学视频来帮助学生提高学校效果,对录播图像中的有效文本进行分析,方便学生抓重点,提高学习效率。而实现文本分析实现的首要步骤是检测图像中文本位置,即图像文本检测。文本检测效果直接影响后续的文本识别精度,进而影响文本分析的可靠性。现在有许多光字符识别(Optical Character Recognition,简称“OCR”)字符识别系统对背景干净的文本图像,如文档扫描图像,有着良好的检测效果,但是对复杂多变的场景图像的文本检测效果不好。
在课堂录播图像中,可能由于光照条件的不同,在黑板、电子白板或者投影仪荧幕上造成反光或者偏暗等现象。若直接采用当前主要的两种的检测方式:基于滑窗方式和基于连通域方式,效果比较差。具体地说:
在光照变化的场景中,基于滑窗的方式对训练样本中已有的光照变化的字符样本可以获得较好的效果,但是现实场景中不可能获取各种光照场景下的字符图像,因此效果会好坏不一。
基于连通域的方式需要对图像进行二值化处理,但由于光照问题,二值化会对光照变化明显区域造成字符遮盖现象,导致无法检测其中的字符。
发明内容
本申请的目的在于提供一种图像文本检测方法及其系统,可以解决光照变化给文本检测带来的不利影响。
为了解决上述问题,本申请公开了一种图像文本检测方法,包括:
对获取的原始图像进行边缘检测;
对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形;
将该外接矩形进行按约定顺序排列;
按照该排列后的顺序,根据每一个该外接矩形的位置,从该原始图像获取对应位置的子图像进行字符识别。
在一优选例中,该对获取的原始图像进行边缘检测的步骤中:
使用Canny算子对获取的原始图像进行边缘检测。
在一优选例中,该计算检测出的每个轮廓的最小外接矩形的步骤之后还包括:
根据预先设定的长宽比范围去除长宽比不在该范围之内的外接矩形。
在一优选例中,该将该外接矩形进行按约定顺序排列的步骤进一步包括:
计算每一个外接矩形的高度,将高度值按大小排序,取高度值序列的中间部分的平均值作为基准值,以获得图像中字符的平均高度;
将该外接矩形按在图像中的空间位置,从左到右,从上到下依次排列;
根据各个该外接矩形的中心位置和平均高度,分割出各字符行。
在一优选例中,该将该外接矩形进行按约定顺序排列的步骤之后,还包括:
根据该外接矩形的长宽比,对该外接矩形进行合并和/或分割。
在一优选例中,该将该外接矩形进行按约定顺序排列的步骤之后,还包括:
根据该字符的平均高度设置面积阈值;
去除面积小于该面积阈值的外接矩形。
在一优选例中,该将该外接矩形进行按约定顺序排列的步骤之后,还包括:
根据每一个该外接矩形的位置,从该原始图像获取对应位置的子图像,将所获取的子图像使用训练好的卷积神经网络模型分类器进行分类,进一步排除不包含文本的外接矩形。
在一优选例中,该获取的原始图像是课堂录播图像。
本申请还公开了一种图像文本检测系统,包括:
边缘检测模块,用于对获取的原始图像进行边缘检测;
轮廓检测模块,用于对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形;
排列模块,用于将该外接矩形进行按约定顺序排列;
识别模块,用于按照该排列后的顺序,根据每一个该外接矩形的位置,从该原始图像获取对应位置的子图像进行字符识别。
本申请还公开了一种图像文本检测系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行该计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式中,先对原始图像进行边缘检测,再获取边缘图像的轮廓,得到每个轮廓的最小外接矩形,对各外接矩形进行排序后,截取原始图像中对应于每个外接矩形的位置的子图像,再对各个子图像进行OCR,由此得到的文本对于光照条件有良好的鲁棒性,文本识别的准确率高。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是本发明第一实施方式中一种图像文本检测方法的流程示意图
图2是本发明第二实施方式中一种图像文本检测系统的结构示意图
图3是本发明一个实施例中原始图像的灰度图
图4是根据现有技术对原始图像二值化后的结果图
图5是本发明一个实施例中对原始图像进行Canny边缘检测的结果图
图6是本发明第一实施方式技术方案的效果图
图7是根据现有技术对原始图像二值化后进行文本检测的效果图
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本发明第一实施方式涉及一种图像文本检测方法。图1是该图像文本检测方法的流程示意图。该图像文本检测方法包括:
在步骤101中,对获取的原始图像进行边缘检测。在本申请了一个实施例中,获取的原始图像是课堂录播图像。课堂录播图像往往会受到光照的影响比较大,例如在黑板上会有部分区域被阳光照射,或者因为窗户、灯光等原因可能有局部的反光,本申请的技术方案在课堂录播图像的文本检测方面效果尤为显著。但这并不意味着本申请的技术方案只能用于这个领域,只要有可能会受到比较复杂的光照条件的影响,在整个图像上可能会有亮一块暗一块的情况,都可以使用本申请的技术方案大大提高文本检测的准确率。
此后进入步骤102,对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形。
此后进入步骤103,根据预先设定的长宽比范围去除长宽比不在该范围之内的外接矩形。本步骤为可选步骤。由于中文、英文以及数字字符都具有一定的长宽比,因而根据步骤102中的最小外接矩形的长宽比,可以去除一些狭长的非文本框矩形
此后进入步骤104,将步骤103执行之后剩余的外接矩形按约定顺序排列。可选地,本步骤在对外接矩形排列是可以同时获得外接矩形的长宽比和字符平均高度(即外接矩形的平均高度)等信息,从而有助于之后的其他处理。
此后进入步骤105,根据外接矩形的长宽比,对外接矩形进行合并。本步骤为可选步骤。本步骤可以根据长宽比使过分的字符合并,从而进一步提高文本识别的准确率。
此后进入步骤106,根据外接矩形的长宽比,对外接矩形进行分割。本步骤为可选步骤。步骤105和步骤106的顺序可互换。本步骤可以根据长宽比使粘连的字符分割,从而进一步提高文本识别的准确率。
此后进入步骤107,根据字符的平均高度设置面积阈值,去除面积小于面积阈值的外接矩形。本步骤为可选步骤。本步骤可以根据字符平均高度设置相关面积阈值,排除较小的干扰矩形框,有效减少非文本内容被误判为文本字符的情况。
此后进入步骤108,根据每一个外接矩形的位置,从原始图像获取对应位置的子图像,将所获取的子图像使用训练好的卷积神经网络模型分类器进行分类,进一步排除不包含文本的外接矩形(即非文本区域)。本步骤为可选步骤。
此后进入步骤109,按照排列后的顺序,根据每一个外接矩形的位置,从原始图像获取对应位置的子图像进行字符识别。在一个实施例,按照从上到下、从左到右的顺序,逐一地获取每一个外接矩形的位置,根据所获取的矩形位置,从原始图像获取该外接矩形位置所对应的子图像,(换句话说,该子图像也是一个矩形,在原始图像的坐标系中,子图像的四个顶点的坐标与该外接矩形四个顶点的坐标是一样的,该子图像的面积大小和该外接矩形也是一样的),然后对按照顺序读取的各个子图像逐一进行OCR识别,一般一个子图像是一个字符,最终将这个字符按照外接矩形的顺序依次排列,从而得到文字序列。在其它实施例中,也可以按照其他顺序,例如对于古汉语文本识别时可以按照从右到左,从上到下的顺序。
本实施方式中,先对原始图像进行边缘检测,再获取边缘图像的轮廓,得到每个轮廓的最小外接矩形,对各外接矩形进行排序后,截取原始图像中对应于每个外接矩形的位置的子图像,再对各个子图像进行OCR,由此得到的文本对于光照条件有良好的鲁棒性,文本识别的准确率高。
下面具体说明本实施方式的一些实现的细节。
在步骤101中对原始图像进行边缘检测的方法可以是多种多样的。优选地,使用Canny算子对获取的原始图像进行边缘检测,其中课堂录播视频帧图像是由教室内摄像头实时抓取得到,为RGB彩色图像;Canny算子采用双阈值检测边缘并进行非极大值抑制,效果要比Sobel等算子强。可选地,使用Sobel算子进行边缘检测。可选地,使用Isotropic Sobel算子进行边缘检测。可选地,使用Roberts算子进行边缘检测。可选地,使用Prewitt算子进行边缘检测。可选地,使用Laplacian算子进行边缘检测。
可选地,步骤104进一步包括以下子步骤:
计算每一个外接矩形的高度,将高度值按大小排序(形成一个高度值序列),取高度值序列的中间部分的平均值作为基准值(例如取,高度值序列中间的百分之五十或七十的数据取平均),以获得图像中字符的平均高度。这便于后续字符分行处理以及一些干扰处理
将外接矩形按在图像中的空间位置,从左到右,从上到下依次排列。
根据各个外接矩形的中心位置和平均高度,分割出各字符行。
当然,本领域的技术人员可以理解,步骤104也可以用其他的方式来实现,例如可以按照从右到左从上到下的顺序排列各外接矩形,又如可以用各外接矩形高度的中位数作为图像中字符的平均高度。
步骤108也有多种实现方式,一个例子如下:
1、在通过边缘+轮廓检测之后,获取到文字的区域之后,将区域对应位置放置到原图中,截图出对应图像区域块;
2、对图像区域块进行先进行灰度处理,然后进行二值化处理,然后在放入文本非文本的二分类器中进行分类,可采用神经网络分类器,也可以采用其他分类器,例如更为简单的SVM(支持向量机)分类器来处理。在一个例子中,使用的是HOG(梯度方向直方图)。
根据实际测试,相对于直接使用外接矩形中的轮廓图像来进行分类训练测试和识别,本申请实施例所采用的的通过截取原图中的位置上对应于各个外接矩形的子图像进行分类训练和识别,可以更好地把不包含文本内容的把外接矩形排除掉,取得了比较好的实际效果。
本实施方式取得了显著地效果,具体地说:
图3是课堂录播图像的灰度图,该图的左侧可以看到一大块明显的亮斑。对该灰度图进行二值化处理后得到图4所示的结果,对该灰度图进行用Canny算子进行边缘检测后得到图5所示的结果。使用本实施方式的技术方案进行处理后,在步骤108后可以得到图6所示的结果,而根据现有技术对原始图像二值化后进行文本检测的结果如图7所示。对比图6和图7,可以看到图6基本上把所有的文字都框出来了,光斑的影响几乎没有,而图7则对光斑非常敏感,图像左侧有大块区域无法正常识别。将图6和图7的结果分别进行OCR,图6的文本识别效果远远好于图7。
本发明第二实施方式涉及一种图像文本检测系统。图2是该图像文本检测系统的结构示意图。该图像文本检测系统包括:
边缘检测模块,用于对获取的原始图像进行边缘检测。
轮廓检测模块,用于对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形。
排列模块,用于将外接矩形按约定顺序排列。
识别模块,用于按照排列后的顺序,根据每一个外接矩形的位置,从原始图像获取对应位置的子图像进行字符识别。
第一排除模块,用于对轮廓检测模块输出的各个外接矩形,根据预先设定的长宽比范围去除长宽比不在该范围之内的外接矩形。此模块是可选的。
第二排除模块,用于对排列模块输出的各个外接矩形,根据外接矩形的长宽比,对外接矩形进行合并和/或分割。此模块是可选的。
第三排除模块,用于对排列模块输出的各个外接矩形,根据字符的平均高度设置面积阈值,去除面积小于面积阈值的外接矩形。此模块是可选的。
第四排除模块,用于对排列模块输出的各个外接矩形,根据每一个外接矩形的位置,从原始图像获取对应位置的子图像,将所获取的子图像使用训练好的卷积神经网络模型分类器进行分类,进一步排除不包含文本的外接矩形。此模块是可选的。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
需要说明的是,本领域技术人员应当理解,上述图像文本检测系统的实施方式中所示的各模块的实现功能可参照前述图像文本检测方法的相关描述而理解。上述图像文本检测系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本发明实施方式上述用户设备如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施方式的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施方式所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施方式不限制于任何特定的硬件和软件结合。
相应地,本发明实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明的各方法实施方式。
此外,本发明实施方式还提供一种图像文本检测系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。
为了能够更好的理解本申请的技术方案,下面提供一个具体的实施例,该实施例仅便于理解,并不作为对本申请保护范围的限定。
(1)将教室场景中摄像头抓取的视频帧图像进行Canny边缘检测,得到边缘图像cannyImg;
(2)获取边缘检测图像cannyImg的轮廓,并计算对每个轮廓的最小外接矩形,得到外接矩形集合boundRects;
(3)根据字符常规性长宽比,设置长宽比阈值H_W_Ratio,在实现过程中,主要采用长宽比大于6或者小于1/6,来去除一些狭长的非文本框外接矩形,得到更新后的boundRects外接矩形集合;
(4)将剩余的外接矩形按行排列,具体如下:
1.计算boundRects中所有外接矩形高度,选取中间部分外接矩形的高度的平均值meanVal作为基准高度,中间部分所占比例选为60%;
2.根据中心位置,将boundRects所有外接矩形按在图像中的空间位置从左到右,从上倒下排列;
3.根据各个外接矩形的中心位置,以meanVal的两倍为阈值,分隔出字符行;
(5)在字符行内,设置长宽比阈值highThres,一般设置为0.6-0.8,现采用0.6,高于highThres的外接矩形与邻近合并;
(6)在字符行内,设置长宽比阈值lowThres,一般设置为1.5-2之间,现采用2,低于lowThres的外接矩形以平均分割的方式分割成多个外接矩形;
(7)将每行中一些面积较小的外接矩形框排除,通过步骤(4)中获取的字符平均高度设置相关面积阈值areaThres,排除较小的干扰外接矩形框;
(8)采用训练好的卷积神经网络模型分类器,进一步排除非文本区域,提高检测文本字符的正确率,具体如下:
1).采用两层卷积层和两层池化层以及一个全连接层构建分类器网络,采用一些字符边缘图像和非字符边缘图像进行二分类训练,训练图像尺度大小统一缩放到64*64;
2).将候选外接矩形框区域图像输入分类器网络中,输出预测结果得分score,如score大于0.7,则判定其是文字字符,否则剔除;
(9)按照排列后的顺序,根据每一个外接矩形的位置,从原始图像获取对应位置的子图像进行OCR识别,得到文本集合。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本申请的上述讲授内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。

Claims (8)

1.一种用于课堂录播的图像文本检测方法,其特征在于,包括:
对获取的原始图像进行边缘检测,其中,获取的原始图像是课堂录播图像,在黑板上有部分区域被阳光照射或者局部的反光;
对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形,并且,根据预先设定的长宽比范围去除长宽比不在该范围之内的外接矩形;
将所述外接矩形进行按约定顺序按行排列其中,在字符行内,根据外接矩形的长宽比,对外接矩形进行合并,以根据长宽比使过分的字符合并,并根据外接矩形的长宽比,对外接矩形进行分割,以根据长宽比使粘连的字符分割;并且,计算每一个外接矩形的高度,将高度值按大小排序以形成一个高度值序列,取高度值序列的中间部分的平均值作为基准值,以获得图像中字符的平均高度,所述平均高度用于分行处理和干扰处理;将外接矩形按在图像中的空间位置,从左到右,从上到下依次排列;根据各个外接矩形的中心位置和平均高度,分割出各字符行;并且,根据所述字符的平均高度设置面积阈值;去除面积小于所述面积阈值的外接矩形;并且,根据每一个所述外接矩形的位置,从所述原始图像获取对应位置的子图像,将所获取的子图像使用训练好的卷积神经网络模型分类器进行分类,进一步排除不包含文本的外接矩形;
按照所述按行排列后的顺序,根据每一个所述外接矩形的位置,从所述原始图像获取对应位置的子图像进行字符识别。
2.根据权利要求1所述的图像文本检测方法,其特征在于,所述对获取的原始图像进行边缘检测的步骤中:
使用Canny算子对获取的原始图像进行边缘检测。
3.根据权利要求1所述的图像文本检测方法,其特征在于,所述将所述外接矩形进行按约定顺序排列的步骤进一步包括:
计算每一个外接矩形的高度,将高度值按大小排序,取高度值序列的中间部分的平均值作为基准值,以获得图像中字符的平均高度;
将所述外接矩形按在图像中的空间位置,从左到右,从上到下依次排列;
根据各个所述外接矩形的中心位置和平均高度,分割出各字符行。
4.根据权利要求1所述的图像文本检测方法,其特征在于,所述将所述外接矩形进行按约定顺序排列的步骤之后,还包括:
根据所述外接矩形的长宽比,对所述外接矩形进行合并和/或分割。
5.根据权利要求1至4中任一项所述的图像文本检测方法,其特征在于,所述获取的原始图像是课堂录播图像。
6.一种用于课堂录播的图像文本检测系统,其特征在于,包括:
边缘检测模块,用于对获取的原始图像进行边缘检测,其中,获取的原始图像是课堂录播图像,在黑板上有部分区域被阳光照射或者局部的反光;
轮廓检测模块,用于对检测得到的边缘图像进行轮廓检测,并计算检测出的每个轮廓的最小外接矩形;
排列模块,用于将所述外接矩形进行按约定按行顺序排列,并且,根据预先设定的长宽比范围去除长宽比不在该范围之内的外接矩形其中,在字符行内,根据外接矩形的长宽比,对外接矩形进行合并,以根据长宽比使过分的字符合并,并根据外接矩形的长宽比,对外接矩形进行分割,以根据长宽比使粘连的字符分割;并且,计算每一个外接矩形的高度,将高度值按大小排序以形成一个高度值序列,取高度值序列的中间部分的平均值作为基准值,以获得图像中字符的平均高度,所述平均高度用于分行处理和干扰处理;将外接矩形按在图像中的空间位置,从左到右,从上到下依次排列;根据各个外接矩形的中心位置和平均高度,分割出各字符行;并且,根据所述字符的平均高度设置面积阈值;去除面积小于所述面积阈值的外接矩形;并且,根据每一个所述外接矩形的位置,从所述原始图像获取对应位置的子图像,将所获取的子图像使用训练好的卷积神经网络模型分类器进行分类,进一步排除不包含文本的外接矩形;
识别模块,用于按照所述排列后的顺序,根据每一个所述外接矩形的位置,从所述原始图像获取对应位置的子图像进行字符识别。
7.一种用于课堂录播的图像文本检测系统,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如权利要求1所述的方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1所述的方法中的步骤。
CN201810480303.6A 2018-05-18 2018-05-18 图像文本检测方法及其系统 Active CN108805116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810480303.6A CN108805116B (zh) 2018-05-18 2018-05-18 图像文本检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810480303.6A CN108805116B (zh) 2018-05-18 2018-05-18 图像文本检测方法及其系统

Publications (2)

Publication Number Publication Date
CN108805116A CN108805116A (zh) 2018-11-13
CN108805116B true CN108805116B (zh) 2022-06-24

Family

ID=64091030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810480303.6A Active CN108805116B (zh) 2018-05-18 2018-05-18 图像文本检测方法及其系统

Country Status (1)

Country Link
CN (1) CN108805116B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829457B (zh) * 2019-01-04 2024-07-19 平安科技(深圳)有限公司 一种图像数据处理方法、设备及计算机可读存储介质
CN110070094A (zh) * 2019-04-30 2019-07-30 济南浪潮高新科技投资发展有限公司 一种ai数字识别系统及方法
CN110717489B (zh) * 2019-09-19 2023-09-15 平安科技(深圳)有限公司 Osd的文字区域的识别方法、装置及存储介质
CN110837796B (zh) * 2019-11-05 2022-08-19 泰康保险集团股份有限公司 图像处理方法及装置
CN110826561A (zh) * 2019-11-11 2020-02-21 上海眼控科技股份有限公司 车辆文本识别方法、装置和计算机设备
CN111144210B (zh) * 2019-11-26 2023-07-18 泰康保险集团股份有限公司 图像的结构化处理方法及装置、存储介质及电子设备
CN111046862B (zh) * 2019-12-05 2023-10-27 嘉楠明芯(北京)科技有限公司 一种字符分割方法、装置以及计算机可读存储介质
CN112801232A (zh) * 2021-04-09 2021-05-14 苏州艾隆科技股份有限公司 一种应用于处方录入的扫描识别方法及系统
CN113805993B (zh) * 2021-09-03 2023-06-06 四川新网银行股份有限公司 一种快速连续截图的方法
CN116152841B (zh) * 2023-04-20 2024-09-24 中国科学院自动化研究所 文档实体及关系抽取方法、装置及存储介质
CN116630583A (zh) * 2023-07-24 2023-08-22 北京亮亮视野科技有限公司 虚拟信息的生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899560A (zh) * 2015-05-27 2015-09-09 努比亚技术有限公司 字符的识别方法及手写笔
JP2016054564A (ja) * 2013-12-19 2016-04-14 キヤノン株式会社 画像処理装置、画像処理方法
CN105868759A (zh) * 2015-01-22 2016-08-17 阿里巴巴集团控股有限公司 分割图像字符的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599125A (zh) * 2009-06-11 2009-12-09 上海交通大学 复杂背景下图像处理的二值化方法
SG10201510667SA (en) * 2012-06-27 2016-01-28 Agency Science Tech & Res Text detection devices and text detection methods
CN105868758B (zh) * 2015-01-21 2019-12-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端
CN106023173B (zh) * 2016-05-13 2018-09-07 浙江工业大学 一种基于支持向量机的号码牌识别方法
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016054564A (ja) * 2013-12-19 2016-04-14 キヤノン株式会社 画像処理装置、画像処理方法
CN105868759A (zh) * 2015-01-22 2016-08-17 阿里巴巴集团控股有限公司 分割图像字符的方法及装置
CN104899560A (zh) * 2015-05-27 2015-09-09 努比亚技术有限公司 字符的识别方法及手写笔

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于边缘检测和线条特征的视频字符检测算法;刘洋等;《计算机学报》;20050312(第03期);全文 *
基于自适应阈值的不规则光照下图像提取方法;张思俊等;《电子科技》;20120715(第07期);全文 *

Also Published As

Publication number Publication date
CN108805116A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108805116B (zh) 图像文本检测方法及其系统
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
CN108960229B (zh) 一种面向多方向的文字检测方法和装置
US9418407B2 (en) Detecting glare in a frame of image data
RU2659745C1 (ru) Реконструкция документа из серии изображений документа
US9811885B2 (en) Detecting glare in a frame of image data
CN110766017B (zh) 基于深度学习的移动终端文字识别方法及系统
CN105868708A (zh) 一种图像目标识别方法及装置
CN101122953A (zh) 一种图片文字分割的方法
US9245198B2 (en) Object recognition by comparison of patterns against map of image
CN101122952A (zh) 一种图片文字检测的方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN110443235B (zh) 一种智能纸质试卷总分识别方法及系统
Sun et al. A visual attention based approach to text extraction
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN113221778B (zh) 手写表格的检测与识别方法及装置
Gui et al. A fast caption detection method for low quality video images
Hurtik et al. Automatic license plate recognition in difficult conditions—Technical report
JP6377214B2 (ja) テキスト検出方法および装置
KR20190143525A (ko) 에이다부스트 학습을 이용한 문자 데이터 검출 방법
Roullet et al. An automated technique to recognize and extract images from scanned archaeological documents
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220919

Address after: Baiyun District of Guangzhou City, Guangdong province 510540 North Road No. 1633 is private science and Technology Park Branch Road, No. 1

Patentee after: Guangzhou Blue Pigeon Software Co.,Ltd.

Address before: No. 1968, Nanxi East Road, Nanhu District, Jiaxing City, Zhejiang Province, 314000

Patentee before: ZHEJIANG LANCOO TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240820

Address after: No. 1968, Nanxi East Road, Nanhu District, Jiaxing City, Zhejiang Province

Patentee after: ZHEJIANG LANCOO TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: Baiyun District of Guangzhou City, Guangdong province 510540 North Road No. 1633 is private science and Technology Park Branch Road, No. 1

Patentee before: Guangzhou Blue Pigeon Software Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right