CN108805131A - 文本行检测方法、装置及系统 - Google Patents

文本行检测方法、装置及系统 Download PDF

Info

Publication number
CN108805131A
CN108805131A CN201810499664.5A CN201810499664A CN108805131A CN 108805131 A CN108805131 A CN 108805131A CN 201810499664 A CN201810499664 A CN 201810499664A CN 108805131 A CN108805131 A CN 108805131A
Authority
CN
China
Prior art keywords
attribute information
text
line
pixel
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810499664.5A
Other languages
English (en)
Other versions
CN108805131B (zh
Inventor
贺欣
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201810499664.5A priority Critical patent/CN108805131B/zh
Publication of CN108805131A publication Critical patent/CN108805131A/zh
Application granted granted Critical
Publication of CN108805131B publication Critical patent/CN108805131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种文本行检测方法、装置及系统,涉及文字检测技术领域,该方法包括:获取待检测图像;获取待检测图像中每个像素的属性信息;属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息;根据每个像素的属性信息,在待检测图像中标记出文本行所在区域。本发明实施例可以确定待检测图像中每个像素的区域属性信息、中心线属性信息、半径属性信息和斜率属性信息,可以准确表示任意形状的文本行;在得到上述属性信息后,可以根据各属性信息在待检测图像中标记出文本行所在区域,从而可以有效检测不规则形状的文本行,并提高标记文本行所在区域的准确度。

Description

文本行检测方法、装置及系统
技术领域
本发明文字检测技术领域,尤其是涉及一种文本行检测方法、装置及系统。
背景技术
文字检测,作为文字信息识别的必要前提,随着神经网络和图像大数据的发展,其检测效率也得到了进一步改进。现有自然场景的文字检测方法往往假设图片中的文本以直线形式存在,检测结果以矩形框或四边形框来表示文字所在位置。事实上,不规则形状的文字是普遍存在于现实场景中,例如弯曲的文本行。
由于上述方法是在假设文本直线形式存在的前提下,确定文本在图片中的具体位置,会导致其确定的具体位置与文本的实际位置有较明显偏差,最终导致其无法有效识别出图片中的不规则形状的文本。
针对上述文字检测方法不能准确检测文本在图片中区域的问题,还未提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种文本行检测方法、装置及系统,可以有效检测图片中不规则形状的文本行,准确确定文本行所在区域。
第一方面,本发明实施例提供了一种文本行检测方法,包括:获取待检测图像;获取所述待检测图像中每个像素的属性信息;所述属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息;根据每个所述像素的属性信息,在所述待检测图像中标记出文本行所在区域。
进一步,所述获取所述待检测图像中每个像素的属性信息的步骤,包括:将所述待检测图像输入全卷积神经网络;通过所述全卷积神经网络对所述待检测图像的每个像素进行预测,得到多个预测特征向量;所述多个预测特征向量分别表征:所述像素在文字区域内的概率、所述像素在中心线上的概率、所述像素的文字区域半径、所述中心线在所述像素处的切线与水平线夹角的正弦值和余弦值;根据所述多个预测特征向量确定每个所述像素的属性信息。
进一步,所述根据所述预测特征向量确定每个所述像素的属性信息的步骤,包括:当所述像素在文字区域内的概率大于预设区域阈值时,确定所述区域属性信息为在文字区域内;当所述像素在中心线上的概率大于预设中心线阈值时,确定所述中心线属性信息为在中心线上;根据所述正弦值和所述余弦值计算所述夹角的正切值,确定为所述斜率属性信息。
进一步,所述全卷积神经网络包括:n个依次连接的卷积模块、m个依次连接的反卷积模块和输出模块;第n个所述卷积模块与第1个所述反卷积模块连接;第m个所述反卷积模块与所述输出模块连接;第a个所述反卷积输出的特征图与第m-a个所述卷积模块输出的特征图融合后,输入到第a+1个所述反卷积模块中;其中n、m、a为正整数,且a<m。
进一步,在相邻的所述反卷积模块之间设置有卷积层;第a个所述反卷积输出的特征图经过所述卷积层提取特征后,再与第m-a个所述卷积模块输出的特征图融合。
进一步,所述根据每个所述像素的属性信息,在所述待检测图像中标记出文本行所在区域的步骤,包括:根据所述中心线属性信息确定所述待检测图像的文本中心线;根据所述半径属性信息确定所述文本中心线上的各个所述像素的半径;以所述文本中心线上的各个所述像素为圆心,以对应的所述半径为半径画圆;将各个所述圆覆盖的区域标记为文本行所在区域。
进一步,所述将各个所述圆覆盖的区域标记为文本行所在区域的步骤,包括:确定相邻的所述圆的非重叠部分,并将各个所述非重叠部分的圆弧依次连接;将所述圆弧依次连接得到的连续区域标记为文本行所在区域。
进一步,所述将各个所述圆覆盖的区域标记为文本行所在区域的步骤,包括:对相邻的所述圆分别作两条外公切线;依次连接所述圆同一侧的各个所述外公切线,以及首尾的所述圆两切点间的圆弧,得到所述区域的轮廓;将所述轮廓中的区域标记为所述待检测图像中存在文字的区域。
进一步,所述方法还包括:基于文字识别算法识别所述文本行所在区域内的文字信息。
第二方面,本发明实施例提供了一种文本行检测装置,包括:图像获取模块,用于获取待检测图像;属性获取模块,用于获取所述待检测图像中每个像素的属性信息;所述属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息;区域标记模块,用于根据每个所述像素的属性信息,在所述待检测图像中标记出文本行所在区域。
第三方面,本发明实施例提供了一种文本行检测系统,所述系统包括:图像采集装置、处理器和存储装置;所述图像采集装置,用于采集待检测图像;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行上述第一方面任一项所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。
本发明实施例提供了一种文本行检测方法、装置及系统,可以确定待检测图像中每个像素的区域属性信息、中心线属性信息、半径属性信息和斜率属性信息,可以准确表示任意形状的文本行;在得到上述属性信息后,可以根据各属性信息在待检测图像中标记出文本行所在区域,从而可以有效检测不规则形状的文本行,并提高标记文本行所在区域的准确度。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子设备的结构示意图;
图2为本发明实施例提供的一种文本行检测方法流程图;
图3为本发明实施例提供的全卷积神经网络的示意图;
图4为本发明实施例提供的标记文本行所在区域过程的示意图;
图5为本发明实施例提供的集中化、跨步和滑动机制的示意图;
图6为本发明实施例提供的一种文本行检测装置的结构框图;
图7为本发明实施例提供的另一种文本行检测装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的文字检测方法受限于文本直线存在的假设前提,确定的文本所在区域的形状一般是与图像本身轴对齐的矩形、非轴对齐的矩形、梯形等,与文本的实际所在区域的形状有较明显偏差,为改善此问题,本发明实施例提供的一种文本行检测方法、装置及系统,以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的文本行检测方法、装置及系统的示例电子设备100。
如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器02可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的文本行检测方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。
实施例二:
参见图2所示的一种文本行检测方法流程图,该方法可由前述实施例提供的电子设备执行,该方法具体包括如下步骤:
步骤S202,获取待检测图像。
在本发明实施例中,待检测图像可以为摄像头采集的视频流中的图像帧,也可以为相机等设备采集的图片。在该待检测图像中可以存在文本行,该文本行可以是文字、字符等形式,其形状可以是直线型、曲线型或其他不规则型。
步骤S204,获取待检测图像中每个像素的属性信息。
上述属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息。其中,区域属性信息可以表示该像素是否在文本行区域内;中心线属性信息可以表示该像素是否在文本行区域的中心线上;半径属性信息可以表示该像素周围文本行区域的半径;斜率属性信息可以表示文本行区域的中心线在该像素处切线的斜率。其中,各属性信息可以通过预先训练的全卷积神经网络预测确定。在此,上述各属性信息可以作为一种文本行表示方法,其可以准确表示任意形状的文本行。
步骤S206,根据每个像素的属性信息,在待检测图像中标记出文本行所在区域。
在获得待检测图像的每个像素的上述属性信息后,通过各属性表示的位置或者范围的意义,可以搜索并定位出图像中的文本行的具体位置,定位出文本行的具体位置后即可以在待检测图像中标记出文本行所在区域。在标记文本行所在区域的过程中,可以使用非规则形状来表示文本行所在区域,从而可以提高标记的准确度。
本发明实施例提供的文本行检测方法,可以确定待检测图像中每个像素的区域属性信息、中心线属性信息、半径属性信息和斜率属性信息,可以准确表示任意形状的文本行;在得到上述属性信息后,可以根据各属性信息在待检测图像中标记出文本行所在区域,从而可以有效检测不规则形状的文本行,并提高标记文本行所在区域的准确度。
在一个可选的实施例中,可以通过预先训练的全卷积神经网络预测带检测图像中每个像素的属性,可以以下步骤执行:
(1)将待检测图像输入全卷积神经网络。全卷积神经网络的输入为待检测图像,输出为多个预测特征向量的预测图。
(2)通过全卷积神经网络对待检测图像的每个像素进行预测,得到多个预测特征向量。其中,多个预测特征向量分别表征:像素在文字区域内的概率、像素在中心线上的概率、像素的文字区域半径、中心线在像素处的切线与水平线夹角的正弦值和余弦值;
(3)根据上述多个预测特征向量确定每个像素的属性信息。在得到上述预测特征向量后,可以通过比较上述预测特征向量与预设阈值,从而判断得到每个像素的属性信息,例如可以通过以下方式确定各属性信息:
当像素在文字区域内的概率大于预设区域阈值时,确定区域属性信息为在文字区域内;当像素在中心线上的概率大于预设中心线阈值时,确定中心线属性信息为在中心线上;根据正弦值和余弦值计算夹角的正切值,确定为斜率属性信息。其中,预设区域阈值和预设中心线阈值可以根据实际情况合理确定。在此需要说明的是,由像素的文字区域半径即可直接确定其为半径属性信息。
在一个可选的实施例中,上述全卷积神经网络包括:n个依次连接的卷积模块、m个依次连接的反卷积模块和输出模块;第n个卷积模块与第1个反卷积模块连接;第m个反卷积模块与输出模块连接;第a个反卷积输出的特征图与第m-a个卷积模块输出的特征图融合后,输入到第a+1个反卷积模块中;其中n、m、a为正整数,且a<m。其中,还可以在上述相邻的反卷积模块之间设置卷积层;第a个反卷积输出的特征图经过卷积层提取特征后,再与第m-a个卷积模块输出的特征图融合。
参见图3所示的全卷积神经网络的示意图,该全卷积神经网络包括多个卷积模块(conv stage),输入图像或特征图每经过一个卷积模块后,尺度(宽和高)缩小为原来的1/2;该全卷积神经网络还包括多个反卷积模块,特征图经过反卷积模块后尺度增大为原来的2倍。融合操作(concat)表示将两组特征图进行拼接。在图3中仅示例出包括5个卷积模块和5个反卷积模块,可以理解的是上述模块的数量可以根据实际情况的需要设置。该卷积模块可以是VGG16/19结构或ResNet结构(一种残差网络结构)。VGG16/19结构包括16/19个卷积/全连接层,其中最后三层为全连接层且结构相同,每层和每层之间用池化层分开。如图3所示,在反卷积模块之间还设置有1*1卷积层和3*3卷积层,各阶段的融合特征图经过上述卷积层后再进入上述反卷积模块。
图3的全卷积神经网络是在FPN(Feature Pyramid Network,特征金字塔网络)和U型网络的基础上,建立的主干网络不同层级逐步融合的结构。整个网络结构分为5个阶段的卷积层,每个阶段输出的特征图分别进入下一阶段的卷积层以及融合单元。融合单元根据以下公式定义:
h1=f5
hi=conv3×3(conv1×1[fi-1;UpSampling×2(hi-1)]),for i≥2
其中,fi表示第i阶段的特征图,hi表示该特征图对应的融合单元的特征图,UpSampling为上采样。
在融合之后,得到的特征图的大小是输入的图像的1/2。使用额外的上采样层和两个卷积层得到预测结果,如下
hfinal=UpSampling×2(h5)
P=conv1×1(conv3×3(hfinal))
其中,P∈Rh,w,7为4通道矩阵,至少3个通道分别表示文本行区域的半径r,余弦值cosθ和正弦值sinθ。
例如,大小为w×h的输入图像M经过图3中的全卷积网络后,得到7个w×h的预测图P。其中P0P1分别表示图像M中每个像素在文本行区域内的概率和不在文本行区域内的概率。在预测时,如果P0中某个点的值大于阈值T,则认为该点在文本行区域内。P2P3分别表示图像M中每个像素是否在文本行中心线上的概率。P4表示图像M中每个像素的文字区域半径。P5P6分别表示文本中心线在该点的切线与水平线内角的正弦值和余弦值,通过这两个角度值可以计算出文本中心线在该点的切线斜率。
在使用上述全卷积神经网络进行图像检测之前,需要先对该全卷积神经网络进行训练,例如可以以下步骤执行:通过训练样本对全卷积神经网络进行训练,直至全卷积神经网络的误差收敛至预设值,将误差收敛至预设值时对应的参数作为全卷积神经网络的参数。
在一个可选的实施例中,获得上述每个像素的属性信息,即可以根据其在检测图像中标记出文本行所在区域,可以以下步骤执行:
(1)根据中心线属性信息确定待检测图像的文本中心线;
(2)根据半径属性信息确定文本中心线上的各个像素的半径;在已知各个像素的上述中心线属性信息和半径属性信息的前提下,可以确定待检测图像的多条文本中心线以及在中心线上的各像素点的半径。
(3)以文本中心线上的各个像素为圆心,以对应的半径为半径画圆;
(4)将各个圆覆盖的区域标记为文本行所在区域。可以分别沿着每条中心线上的采样点,以采样点的文字区域半径画圆盘,一条中心线上的所有的圆盘的集合即为一个文本行在图片中的覆盖区域。
在得到圆盘后,可以合并各个圆盘得到连续区域,将该连续区域标记为文本行所在区域,例如,确定相邻的圆盘的非重叠部分,并将各个非重叠部分的圆弧依次连接,并将圆弧依次连接得到的连续区域标记为文本行所在区域。其中首尾两端的圆盘非重叠区域为一段圆弧,中间的圆盘非重叠区域为两段圆弧,按照顺序依次将相邻圆盘的圆弧连接可得到封闭曲线,该封闭曲线内的连续区域即可标记为文本行所在区域。
在得到圆盘后,还可以以下方式连接文本行区域的轮廓:对相邻的圆分别作两条外公切线;依次连接圆同一侧的各个外公切线,以及首尾的圆两切点间的圆弧,得到区域的轮廓;将轮廓中的区域标记为待检测图像中存在文字的区域。
参见图4所示的标记文本行所在区域过程的示意图,首先随机选取一个像素作为起点,向两个相反的方向进行搜索,该搜索通过跨步和集中直到边界。该过程中会产生两个规则的两方向点列,基于其可以得到最终的中心线,该中心线可以准确描述文本行的路径和形状。在图4中示出了标记过程中包括操作(a)、(b)、(c),该操作(a)为集中化,作用是重定位给定点到中心线;该操作(b)为跨步,作用是向文本行边界搜索;该操作(c)为滑动,作用是沿中心线滑动圆盘以重建文本行区域。最终输出标记有预测文本行区域的预测图。
参见图5所示的集中化、跨步和滑动机制的示意图,其中详细示出了上述操作(a)、(b)、(c)的过程。在操作(a)中,给定文本行区域内的一个点,可以画出该点的切线(图中虚线)和法线(图中实线),法线与文本行区域的交集部分的中点作为集中点。在操作(b)中,以操作(a)中得到的集中点为起点跨步至下一搜索点。如果下一搜索点超出文本行区域,则缩小步幅直到落入文本行区域内或边界。对上述下一搜索点也进行操作(a)得到集中点,再进行操作(b),直到得到全部集中点,其连线即中心线。在操作(c)中,沿该中心线画圆(半径通过全卷积神经网络已获得),全部圆覆盖的区域即表示预测的文本行所在区域。
在获得上述文本行所在区域后,还可以对该区域内的图像进行文字识别,上述方法还可以包括:基于文字识别算法识别文本行所在区域内的文字信息。对文本行所在区域进行文字识别,可以采用合理的文字识别算法进行。由于上述文本行检测方法得到了较高准确度的文本行所在区域,再对待检测图像的该区域内的部分进行文字识别,可以提高最终文字信息识别的效率和准确度。
综上所述,本发明实施例提供的文本行检测方法,包括新颖的文本行表示方式,能够准确的表示任意形状的文本;通过基于全卷积神经网络的文字检测系统,可以有效检测图片中任意形状的文本行;包括高效的文本行重建方式,可以快速地重建出图像中文本行所在位置及具体形状。
实施例三:
对于实施例二中所提供的文本行检测方法,本发明实施例提供了一种文本行检测装置,参见图6所示的一种文本行检测装置的结构框图,包括:
图像获取模块602,用于获取待检测图像;
属性获取模块604,用于获取待检测图像中每个像素的属性信息;属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息;
区域标记模块606,用于根据每个像素的属性信息,在待检测图像中标记出文本行所在区域。
本发明实施例提供的文本行检测装置,可以确定待检测图像中每个像素的区域属性信息、中心线属性信息、半径属性信息和斜率属性信息,可以准确表示任意形状的文本行;在得到上述属性信息后,可以根据各属性信息在待检测图像中标记出文本行所在区域,从而可以有效检测不规则形状的文本行,并提高标记文本行所在区域的准确度。
在一种实施方式中,上述属性获取模块604包括:输入单元,用于将待检测图像输入全卷积神经网络;预测单元,用于通过全卷积神经网络对待检测图像的每个像素进行预测,得到多个预测特征向量;多个预测特征向量分别表征:像素在文字区域内的概率、像素在中心线上的概率、像素的文字区域半径、中心线在像素处的切线与水平线夹角的正弦值和余弦值;属性确定单元,用于根据多个预测特征向量确定每个像素的属性信息。
上述预测属性确定单元,还用于:当像素在文字区域内的概率大于预设区域阈值时,确定区域属性信息为在文字区域内;当像素在中心线上的概率大于预设中心线阈值时,确定中心线属性信息为在中心线上;根据正弦值和余弦值计算夹角的正切值,确定为斜率属性信息。
上述全卷积神经网络包括:n个依次连接的卷积模块、m个依次连接的反卷积模块和输出模块;第n个卷积模块与第1个反卷积模块连接;第m个反卷积模块与输出模块连接;第a个反卷积输出的特征图与第m-a个卷积模块输出的特征图融合后,输入到第a+1个反卷积模块中;其中n、m、a为正整数,且a<m。在相邻的反卷积模块之间还可以设置有卷积层;第a个反卷积输出的特征图经过卷积层提取特征后,再与第m-a个卷积模块输出的特征图融合。
上述区域标记模块,还用于:根据中心线属性信息确定待检测图像的文本中心线;根据半径属性信息确定文本中心线上的各个像素的半径;以文本中心线上的各个像素为圆心,以对应的半径为半径画圆;将各个圆覆盖的区域标记为文本行所在区域。其中,将圆覆盖的区域标记为待检测图像中存在文字的区域,包括:确定相邻的圆的非重叠部分,并将各个非重叠部分的圆弧依次连接;将圆弧依次连接得到的连续区域合并各个圆得到连续区域,将连续区域标记为文本行所在区域。其中,将圆覆盖的区域标记为待检测图像中存在文字的区域,还可以包括:对相邻的圆分别作两条外公切线;依次连接圆同一侧的各个外公切线,以及首尾的圆两切点间的圆弧,得到区域的轮廓;将轮廓中的区域标记为待检测图像中存在文字的区域。
参见图7所示的另一种文本行检测装置的结构框图,上述装置还包括:文字识别模块702,用于基于文字识别算法识别文本行所在区域内的文字信息。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种文本行检测系统,包括:图像采集装置、处理器和存储装置;图像采集装置,用于采集待检测图像;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行实施例二提供的文本行检测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
进一步,本实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例二所提供的方法的步骤。
本发明实施例所提供的基于文本行检测方法、装置及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行实施例二提供的方法,具体实现可参见方法实施例,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请的上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种文本行检测方法,其特征在于,包括:
获取待检测图像;
获取所述待检测图像中每个像素的属性信息;所述属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息;
根据每个所述像素的属性信息,在所述待检测图像中标记出文本行所在区域。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待检测图像中每个像素的属性信息的步骤,包括:
将所述待检测图像输入全卷积神经网络;
通过所述全卷积神经网络对所述待检测图像的每个像素进行预测,得到多个预测特征向量;所述多个预测特征向量分别表征:所述像素在文字区域内的概率、所述像素在中心线上的概率、所述像素的文字区域半径、所述中心线在所述像素处的切线与水平线夹角的正弦值和余弦值;
根据所述多个预测特征向量确定每个所述像素的属性信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预测特征向量确定每个所述像素的属性信息的步骤,包括:
当所述像素在文字区域内的概率大于预设区域阈值时,确定所述区域属性信息为在文字区域内;
当所述像素在中心线上的概率大于预设中心线阈值时,确定所述中心线属性信息为在中心线上;
根据所述正弦值和所述余弦值计算所述夹角的正切值,确定为所述斜率属性信息。
4.根据权利要求2或3所述的方法,其特征在于,所述全卷积神经网络包括:n个依次连接的卷积模块、m个依次连接的反卷积模块和输出模块;
第n个所述卷积模块与第1个所述反卷积模块连接;第m个所述反卷积模块与所述输出模块连接;
第a个所述反卷积输出的特征图与第m-a个所述卷积模块输出的特征图融合后,输入到第a+1个所述反卷积模块中;其中n、m、a为正整数,且a<m。
5.根据权利要求4所述的方法,其特征在于,在相邻的所述反卷积模块之间设置有卷积层;
第a个所述反卷积输出的特征图经过所述卷积层提取特征后,再与第m-a个所述卷积模块输出的特征图融合。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述根据每个所述像素的属性信息,在所述待检测图像中标记出文本行所在区域的步骤,包括:
根据所述中心线属性信息确定所述待检测图像的文本中心线;
根据所述半径属性信息确定所述文本中心线上的各个所述像素的半径;
以所述文本中心线上的各个所述像素为圆心,以对应的所述半径为半径画圆;
将各个所述圆覆盖的区域标记为文本行所在区域。
7.根据权利要求6所述的方法,其特征在于,所述将各个所述圆覆盖的区域标记为文本行所在区域的步骤,包括:
确定相邻的所述圆的非重叠部分,并将各个所述非重叠部分的圆弧依次连接;
将所述圆弧依次连接得到的连续区域标记为文本行所在区域。
8.根据权利要求6所述的方法,其特征在于,所述将各个所述圆覆盖的区域标记为文本行所在区域的步骤,包括:
对相邻的所述圆分别作两条外公切线;
依次连接所述圆同一侧的各个所述外公切线,以及首尾的所述圆两切点间的圆弧,得到所述区域的轮廓;
将所述轮廓中的区域标记为文本行所在区域。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于文字识别算法识别所述文本行所在区域内的文字信息。
10.一种文本行检测装置,其特征在于,包括:
图像获取模块,用于获取待检测图像;
属性获取模块,用于获取所述待检测图像中每个像素的属性信息;所述属性信息包括:区域属性信息、中心线属性信息、半径属性信息和斜率属性信息;
区域标记模块,用于根据每个所述像素的属性信息,在所述待检测图像中标记出文本行所在区域。
11.一种文本行检测系统,其特征在于,所述系统包括:图像采集装置、处理器和存储装置;
所述图像采集装置,用于采集待检测图像;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行上述权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至9任一项所述的方法的步骤。
CN201810499664.5A 2018-05-22 2018-05-22 文本行检测方法、装置及系统 Active CN108805131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810499664.5A CN108805131B (zh) 2018-05-22 2018-05-22 文本行检测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810499664.5A CN108805131B (zh) 2018-05-22 2018-05-22 文本行检测方法、装置及系统

Publications (2)

Publication Number Publication Date
CN108805131A true CN108805131A (zh) 2018-11-13
CN108805131B CN108805131B (zh) 2021-08-10

Family

ID=64091370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810499664.5A Active CN108805131B (zh) 2018-05-22 2018-05-22 文本行检测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN108805131B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583367A (zh) * 2018-11-28 2019-04-05 网易(杭州)网络有限公司 图像文本行检测方法及装置、存储介质和电子设备
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN110147786A (zh) * 2019-04-11 2019-08-20 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110222746A (zh) * 2019-05-24 2019-09-10 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110852229A (zh) * 2019-11-04 2020-02-28 泰康保险集团股份有限公司 图像中文本区域的位置确定方法、装置、设备及存储介质
CN111310613A (zh) * 2020-01-22 2020-06-19 腾讯科技(深圳)有限公司 一种图像检测方法、装置以及计算机可读存储介质
CN111476067A (zh) * 2019-01-23 2020-07-31 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
CN111476226A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN111539438A (zh) * 2020-04-28 2020-08-14 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
CN111626283A (zh) * 2020-05-20 2020-09-04 北京字节跳动网络技术有限公司 文字提取方法、装置和电子设备
CN111695377A (zh) * 2019-03-13 2020-09-22 杭州海康威视数字技术股份有限公司 一种文本检测方法、装置和计算机设备
CN111738252A (zh) * 2019-03-25 2020-10-02 阿里巴巴集团控股有限公司 图像中的文本行检测方法、装置及计算机系统
CN112036398A (zh) * 2020-10-15 2020-12-04 北京一览群智数据科技有限责任公司 一种文本校正方法及其系统
CN112257710A (zh) * 2020-10-26 2021-01-22 北京云杉世界信息技术有限公司 一种带文字平面的图片倾斜度检测方法及装置
CN112348021A (zh) * 2021-01-08 2021-02-09 北京易真学思教育科技有限公司 文本检测方法、装置、设备及存储介质
CN112801088A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置
CN113033531A (zh) * 2019-12-24 2021-06-25 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN113807336A (zh) * 2021-08-09 2021-12-17 华南理工大学 图像文本检测半自动标注方法、系统、计算机设备及介质
CN112801088B (zh) * 2020-12-31 2024-05-31 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7733224B2 (en) * 2006-06-30 2010-06-08 Bao Tran Mesh network personal emergency response appliance
CN105046252A (zh) * 2014-11-21 2015-11-11 华中科技大学 一种人民币冠字码识别方法
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
US9569679B1 (en) * 2012-12-04 2017-02-14 A9.Com, Inc. Adaptive image sampling for text detection
CN107545262A (zh) * 2017-07-31 2018-01-05 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
CN107590498A (zh) * 2017-09-27 2018-01-16 哈尔滨工业大学 一种基于字符分割级联二分类器的自适应汽车仪表检测方法
CN107977592A (zh) * 2016-10-21 2018-05-01 中兴通讯股份有限公司 一种图像文本检测方法及系统、用户终端及服务器
CN108038486A (zh) * 2017-12-05 2018-05-15 河海大学 一种文字检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7733224B2 (en) * 2006-06-30 2010-06-08 Bao Tran Mesh network personal emergency response appliance
US9569679B1 (en) * 2012-12-04 2017-02-14 A9.Com, Inc. Adaptive image sampling for text detection
CN105046252A (zh) * 2014-11-21 2015-11-11 华中科技大学 一种人民币冠字码识别方法
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN107977592A (zh) * 2016-10-21 2018-05-01 中兴通讯股份有限公司 一种图像文本检测方法及系统、用户终端及服务器
CN107545262A (zh) * 2017-07-31 2018-01-05 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
CN107590498A (zh) * 2017-09-27 2018-01-16 哈尔滨工业大学 一种基于字符分割级联二分类器的自适应汽车仪表检测方法
CN108038486A (zh) * 2017-12-05 2018-05-15 河海大学 一种文字检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄攀: "《 基于深度学习的自然场景文字识别》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583367A (zh) * 2018-11-28 2019-04-05 网易(杭州)网络有限公司 图像文本行检测方法及装置、存储介质和电子设备
CN111476067B (zh) * 2019-01-23 2023-04-07 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
CN111476067A (zh) * 2019-01-23 2020-07-31 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN111695377B (zh) * 2019-03-13 2023-09-29 杭州海康威视数字技术股份有限公司 一种文本检测方法、装置和计算机设备
CN111695377A (zh) * 2019-03-13 2020-09-22 杭州海康威视数字技术股份有限公司 一种文本检测方法、装置和计算机设备
CN111738252B (zh) * 2019-03-25 2024-05-14 阿里巴巴集团控股有限公司 图像中的文本行检测方法、装置及计算机系统
CN111738252A (zh) * 2019-03-25 2020-10-02 阿里巴巴集团控股有限公司 图像中的文本行检测方法、装置及计算机系统
CN110147786B (zh) * 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110147786A (zh) * 2019-04-11 2019-08-20 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
US11482023B2 (en) 2019-04-11 2022-10-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for detecting text regions in image, device, and medium
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110163208B (zh) * 2019-05-22 2021-06-29 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110222746A (zh) * 2019-05-24 2019-09-10 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110852229A (zh) * 2019-11-04 2020-02-28 泰康保险集团股份有限公司 图像中文本区域的位置确定方法、装置、设备及存储介质
CN113033531A (zh) * 2019-12-24 2021-06-25 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN113033531B (zh) * 2019-12-24 2023-10-27 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN111310613B (zh) * 2020-01-22 2023-04-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置以及计算机可读存储介质
CN111310613A (zh) * 2020-01-22 2020-06-19 腾讯科技(深圳)有限公司 一种图像检测方法、装置以及计算机可读存储介质
CN111476226B (zh) * 2020-02-29 2022-08-30 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN111476226A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN111539438A (zh) * 2020-04-28 2020-08-14 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
US11810384B2 (en) 2020-04-28 2023-11-07 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for recognizing text content and electronic device
CN111539438B (zh) * 2020-04-28 2024-01-12 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
CN111626283B (zh) * 2020-05-20 2022-12-13 北京字节跳动网络技术有限公司 文字提取方法、装置和电子设备
CN111626283A (zh) * 2020-05-20 2020-09-04 北京字节跳动网络技术有限公司 文字提取方法、装置和电子设备
CN112036398A (zh) * 2020-10-15 2020-12-04 北京一览群智数据科技有限责任公司 一种文本校正方法及其系统
CN112036398B (zh) * 2020-10-15 2024-02-23 北京一览群智数据科技有限责任公司 一种文本校正方法及其系统
CN112257710A (zh) * 2020-10-26 2021-01-22 北京云杉世界信息技术有限公司 一种带文字平面的图片倾斜度检测方法及装置
CN112801088A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置
CN112801088B (zh) * 2020-12-31 2024-05-31 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置
CN112348021A (zh) * 2021-01-08 2021-02-09 北京易真学思教育科技有限公司 文本检测方法、装置、设备及存储介质
CN113807336A (zh) * 2021-08-09 2021-12-17 华南理工大学 图像文本检测半自动标注方法、系统、计算机设备及介质
CN113807336B (zh) * 2021-08-09 2023-06-30 华南理工大学 图像文本检测半自动标注方法、系统、计算机设备及介质

Also Published As

Publication number Publication date
CN108805131B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN108805131A (zh) 文本行检测方法、装置及系统
Wang et al. Deep crisp boundaries
CN108520229A (zh) 图像检测方法、装置、电子设备和计算机可读介质
Lei et al. Region-enhanced convolutional neural network for object detection in remote sensing images
CN108399386A (zh) 饼图中的信息提取方法及装置
JP6209879B2 (ja) 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
CN109117876A (zh) 一种稠密小目标检测模型构建方法、模型及检测方法
CN108418825A (zh) 风险模型训练、垃圾账号检测方法、装置以及设备
Hou et al. Detecting structural components of building engineering based on deep-learning method
CN105574550A (zh) 一种车辆识别方法及装置
CN109948497A (zh) 一种物体检测方法、装置及电子设备
CN109936582A (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
CN110008956A (zh) 发票关键信息定位方法、装置、计算机设备及存储介质
CN109034219A (zh) 图像的多标签类别预测方法及装置、电子设备和存储介质
CN109697441A (zh) 一种目标检测方法、装置及计算机设备
US20200242398A1 (en) Information processing method and information processing system
CN109165540A (zh) 一种基于先验候选框选择策略的行人搜索方法和装置
CN105184225B (zh) 一种多国纸币图像识别方法和装置
CN103778422B (zh) 用于选择并显示分割参数进行光学字符识别的系统与方法
MXPA04009151A (es) Sistema y metodo para detectar un objeto dibujado a mano en una entrada de tinta.
CN109034183A (zh) 一种目标检测方法、装置及设备
CN108229418A (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN108710907A (zh) 手写体数据分类方法、模型训练方法、装置、设备及介质
CN109948533A (zh) 一种文本检测方法、装置、设备及可读存储介质
CN110222565A (zh) 一种人脸检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant