CN110598708B - 一种街景文本目标识别检测方法 - Google Patents

一种街景文本目标识别检测方法 Download PDF

Info

Publication number
CN110598708B
CN110598708B CN201910729858.4A CN201910729858A CN110598708B CN 110598708 B CN110598708 B CN 110598708B CN 201910729858 A CN201910729858 A CN 201910729858A CN 110598708 B CN110598708 B CN 110598708B
Authority
CN
China
Prior art keywords
curve
target area
radius
detected
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910729858.4A
Other languages
English (en)
Other versions
CN110598708A (zh
Inventor
黄和锟
杨帆
黄国恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910729858.4A priority Critical patent/CN110598708B/zh
Publication of CN110598708A publication Critical patent/CN110598708A/zh
Application granted granted Critical
Publication of CN110598708B publication Critical patent/CN110598708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数字图像识别技术领域,提出一种街景文本目标识别检测方法,包括以下步骤:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域;读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F;根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si;在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到其圆心、半径、夹角参数;对目标区域块Si的上界曲线和下界曲线进行拟合,计算目标区域块Si的上界曲线半径和下界曲线半径;将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。

Description

一种街景文本目标识别检测方法
技术领域
本发明涉及数字图像识别处理技术领域,更具体地,涉及一种街景文本目标识别检测方法。
背景技术
随着互联网的快速发展,尤其是图形处理器(Graphics Processing Unit,GPU)技术取得长足进步,深度学习所取得的进展越来越大,因此图像识别技术越来越火热,近年来出现了各类目标检测算法,比如Faster R-CNN,CTPN等技术,给图像识别带来了极大的推动作用。
然而,目前应用于街景文本目标识别检测的算法均具有一定的局限性:(1)基于轴对齐方式矩形框的文本目标识别方法,这种方法比较简单,但是只适用于检测水平和竖直的街景文本或普通的文本,而街景图像中的文本为了美观,其形状设计大部分为弯曲或无规则的,在实际使用过程中,基于矩形框的文本目标识别会框入大量无关的背景区域;(2)基于旋转矩形框的文本目标识别方法,是在轴对齐方式矩形框的基础上引入一个角度变量,但是这种方法对于弯曲的街景图像文本目标识别效果依然不能满足需求,同样会框入无关的背景区域,使文本目标识别结果含有较多的噪声。
发明内容
本发明为克服上述现有技术所述的街景图像文本目标识别结果中框有大量无关背景区域,使文本目标识别结果含有噪声的缺陷,提供一种街景文本目标识别检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种街景文本目标识别检测方法,包括以下步骤:
S1:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域;
S2:读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F的表达式y=f(x);
S3:根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si,其中i=1,2,...,n,且n为正整数;
S4:在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到曲线Fi的圆心、半径、夹角参数;
S5:对目标区域块Si的上界曲线和下界曲线进行拟合,计算目标区域块Si的上界曲线半径和下界曲线半径;
S6:将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
本技术方案中,通过全卷积网络(FCN)和特征金字塔(FPN)将待检测的街景图像进行图像分割,获得预测的街景文本轮廓区域,即待检测的目标区域,然后再对已经分割好的待检测的目标区域进行映射,其中,由于全卷积网络对输入的图像的每一个像素在输出时分别进行相应的判断,判断该像素可能属于哪一个分类,因此可以对输入的街景图像进行标注和判断,然后通过特征金字塔对整个图像进行分割,将经过全卷积网络输出的缩小为1/32的图像进行scale缩放,直到图像缩小为一个像素,从而形成金字塔形状,考虑到底层的特征语义信息比较少,而高层的特征语义相当丰富,但是识别目标的位置比较模糊,在本技术方案中,位于高层的特征通过不断的上采样并结合底层的特征,实现每层的像素级独立预测,得到精准的待检测目标区域。在对待检测目标区域进行映射过程中,通过读取待检测目标区域的像素得到拟合的曲线F,其中曲线F表示待检测目标区域的大致形状,根据曲线F对待检测目标区域进行分割,得到若干目标区域块,再进一步分别识别,获取所有目标区域块的圆心、半径、夹角参数、上界曲线半径、下界曲线半径,将上述参数组成有序集合作为检测结果进行输出。在具体实际应用时,图像识别器可根据所输出的检测结果对弯曲的文本图像进行分段处理并框出。
优选地,S1步骤中的全卷积网络中,包括依次连接的5个卷积层、池化层组合。
优选地,S3步骤中,根据曲线F对待检测的目标区域进行分割的具体步骤如下:
S3.1:对曲线F进行微积分二次求导,其求导公式为:y″=d2y/dx2,令y″=0,得到n-1个拐点A;其中x,y为曲线F上的像素在图像中的横坐标和纵坐标;
S3.2:以所述拐点A作为分界线,获得n段曲线Fi以及n个待检测的目标区域块Si,其中待检测的目标区域块Si为扇形环状片段。
优选地,S4步骤中,在每一段曲线Fi及其对应的目标区域块Si中进行回归任务的具体步骤如下:依次将曲线Fi与圆的表达式(x-xi)2+(y-yi)2=ri 2做回归任务,得到圆心(xi,yi)的最小损失函数,从而得到曲线Fi的圆心(xi,yi)、半径ri和夹角θi
优选地,S5步骤中,计算目标区域块Si的上界曲线半径和下界曲线半径的具体步骤如下:
S5.1:读取目标区域块Si的上界曲线像素和下界曲线像素,拟合得到上界曲线的表达式y=U(x)和下界曲线的表达式y=D(x);
S5.2:将上界曲线与下界曲线分别进行回归任务,根据曲线Fi的圆心(xi,yi),计算上界曲线半径Ri1和下界曲线半径Ri2,其计算公式如下:
(x-xi)2+(y-yi)2=(Ri1-Ri2)2
优选地,S6步骤中,有序集合T包括所有待检测的目标区域块Si的圆心、半径、夹角参数、上界曲线半径、下界曲线半径,其具体表达式为:T={S1,S2,...,Si,...,Sn},其中Si={(xi,yi),θi,Ri1,Ri2}。
与现有技术相比,本发明技术方案的有益效果是:通过全卷积网络和特征金字塔,能够得到精准的待检测目标区域;通过将待检测的目标区域分割为若干扇形或环形区域块,然后分别对其进行文本位置参数的计算,能够得到精准的文本位置信息并输出,实现对弯曲、倾斜或不规则的街景图像文本的识别检测,有效减少文本识别结果的噪声,使文本目标识别结果能够更好地应用于后续的文本识别及信息提取。
附图说明
图1为本实施例的街景文本目标识别检测方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的街景文本目标识别检测方法的流程图。
本实施例提出一种街景文本目标识别检测方法,包括以下步骤:
S1:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域。
本实施例中,所使用的全卷积网络包括依次连接的5个卷积层、池化层组合。
S2:读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F的表达式y=f(x)。
S3:根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si,其中i=1,2,...,n,且n为正整数;其具体步骤如下:
S3.1:对曲线F进行微积分二次求导,其求导公式为:y″=d2y/dx2,令y″=0,得到n-1个拐点A;其中x,y为曲线F上的像素在图像中的横坐标和纵坐标;
S3.2:以所述拐点A作为分界线,获得n段曲线Fi以及n个待检测的目标区域块Si,其中待检测的目标区域块Si为扇形环状片段。
S4:在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到曲线Fi的圆心、半径、夹角参数。
本步骤中,在每一段曲线Fi及其对应的目标区域块Si中进行回归任务的具体步骤如下:依次将曲线Fi与圆的表达式(x-xi)2+(y-yi)2=ri 2做回归任务,得到圆心(xi,yi)的最小损失函数,从而得到曲线Fi的圆心(xi,yi)、半径ri和夹角θi
S5:对目标区域块Si的上界曲线和下界曲线进行拟合,计算目标区域块Si的上界曲线半径和下界曲线半径;其具体步骤如下:
S5.1:读取目标区域块Si的上界曲线像素和下界曲线像素,拟合得到上界曲线的表达式y=U(x)和下界曲线的表达式y=D(x);
S5.2:将上界曲线与下界曲线分别进行回归任务,根据曲线Fi的圆心(xi,yi),计算上界曲线半径Ri1和下界曲线半径Ri2,其计算公式如下:
(x-xi)2+(y-yi)2=(Ri1-Ri2)2
S6:将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
本步骤中,输出的有序集合T的具体表达式如下:
T={S1,S2,...,Si,...,Sn},其中Si={(xi,yi),θi,Ri1,Ri2}。
本实施例中所提出的街景文本目标识别检测方法,主要通过将待检测的街景文本分解为若干个扇形或环形片段,并分别计算所述扇形或环形片段的圆心、半径、夹角半径、上界曲线半径、下界曲线半径,然后根据所获取的参数对该扇形或环形片段进行精确框出,从而能够实现对弯曲、倾斜或不规则的街景图像文本目标进行精确的识别检测,能够有效减少文本目标识别结果的噪声干扰,使文本目标识别结果能够更好地应用于后续的文本识别及信息提取。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种街景文本目标识别检测方法,其特征在于,包括以下步骤:
S1:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域;
S2:读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F的表达式y=f(x);
S3:根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si,其中i=1,2,...,n,且n为正整数;
S4:在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到目标区域块Si的圆心、半径、夹角参数;
S5:对目标区域块Si的上界曲线和下界曲线进行拟合,计算曲线Fi的的上界曲线半径和下界曲线半径;
S6:将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
2.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S1步骤中的全卷积网络中,包括依次连接的5个卷积层、池化层组合。
3.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S3步骤中,根据曲线F对待检测的目标区域进行分割的具体步骤如下:
S3.1:对曲线F进行微积分二次求导,其求导公式为:y″=d2y/dx2,令y″=0,得到n-1个拐点A;其中x,y为曲线F上的像素在图像中的横坐标和纵坐标;
S3.2:以所述拐点A作为分界线,获得n段曲线Fi以及n个待检测的目标区域块Si,其中待检测的目标区域块Si为扇形环状片段。
4.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S4步骤中,在每一段曲线Fi及其对应的目标区域块Si中进行回归任务的具体步骤如下:依次将曲线Fi与圆的表达式(x-xi)2+(y-yi)2=ri 2做回归任务,得到圆心(xi,yi)的最小损失函数,从而得到曲线Fi的圆心(xi,yi)、半径ri和夹角θi
5.根据权利要求4所述的街景文本目标识别检测方法,其特征在于:所述S5步骤中,计算目标区域块Si的上界曲线半径和下界曲线半径的具体步骤如下:
S5.1:读取目标区域块Si的上界曲线像素和下界曲线像素,拟合得到上界曲线的表达式y=U(x)和下界曲线的表达式y=D(x);
S5.2:将上界曲线与下界曲线分别进行回归任务,根据曲线Fi的圆心(xi,yi),计算上界曲线半径Ri1和下界曲线半径Ri2,其计算公式如下:
(x-xi)2+(y-yi)2=(Ri1-Ri2)2
6.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S6步骤中,所述有序集合T包括所有待检测的目标区域块Si的圆心、半径、夹角参数、上界曲线半径、下界曲线半径,其具体表达式为:T={S1,S2,...,Si,...,Sn},其中Si={(xi,yi),θi,Ri1,Ri2}。
CN201910729858.4A 2019-08-08 2019-08-08 一种街景文本目标识别检测方法 Active CN110598708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910729858.4A CN110598708B (zh) 2019-08-08 2019-08-08 一种街景文本目标识别检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910729858.4A CN110598708B (zh) 2019-08-08 2019-08-08 一种街景文本目标识别检测方法

Publications (2)

Publication Number Publication Date
CN110598708A CN110598708A (zh) 2019-12-20
CN110598708B true CN110598708B (zh) 2022-09-23

Family

ID=68853880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910729858.4A Active CN110598708B (zh) 2019-08-08 2019-08-08 一种街景文本目标识别检测方法

Country Status (1)

Country Link
CN (1) CN110598708B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414915B (zh) * 2020-02-21 2024-03-26 华为技术有限公司 一种文字识别方法以及相关设备
CN112001933A (zh) * 2020-09-09 2020-11-27 成都市精卫鸟科技有限责任公司 一种图像截取方法、装置、设备和介质
CN112348021A (zh) * 2021-01-08 2021-02-09 北京易真学思教育科技有限公司 文本检测方法、装置、设备及存储介质
CN113393518B (zh) * 2021-07-15 2024-09-06 北京京仪光电技术研究所有限公司 一种图片曲线相对数值坐标自动提取方法
CN115376118B (zh) * 2022-08-25 2025-05-30 广东工业大学 一种街景文字识别方法、系统、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177252A (zh) * 2013-03-04 2013-06-26 苏州瑞派宁科技有限公司 一种自动识别并分割位置谱的方法及装置
CN104504701A (zh) * 2014-12-19 2015-04-08 深圳先进技术研究院 一种基于街景属性信息的图形显示方法及系统
CN104835134A (zh) * 2014-02-11 2015-08-12 阿里巴巴集团控股有限公司 一种计算商品图像牛皮癣分值的方法和装置
CN105631447A (zh) * 2015-12-18 2016-06-01 杭州仁盈科技股份有限公司 一种识别圆形公章中文字的方法
CN109522893A (zh) * 2018-10-08 2019-03-26 武汉工程大学 一种空中非合作目标气球要害点快速的检测方法
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337689A1 (en) * 2016-05-20 2017-11-23 Yung-Hui Li Method for validating segmentation of objects with arbitrary shapes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177252A (zh) * 2013-03-04 2013-06-26 苏州瑞派宁科技有限公司 一种自动识别并分割位置谱的方法及装置
CN104835134A (zh) * 2014-02-11 2015-08-12 阿里巴巴集团控股有限公司 一种计算商品图像牛皮癣分值的方法和装置
CN104504701A (zh) * 2014-12-19 2015-04-08 深圳先进技术研究院 一种基于街景属性信息的图形显示方法及系统
CN105631447A (zh) * 2015-12-18 2016-06-01 杭州仁盈科技股份有限公司 一种识别圆形公章中文字的方法
CN109522893A (zh) * 2018-10-08 2019-03-26 武汉工程大学 一种空中非合作目标气球要害点快速的检测方法
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Street Sign Recognition Using Histogram of Oriented Gradients and Artificial Neural Networks";Kh Tohidul Islam等;《Journal of Imaging》;20190403;第5卷(第44期);第1-15页 *

Also Published As

Publication number Publication date
CN110598708A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110598708B (zh) 一种街景文本目标识别检测方法
US11595737B2 (en) Method for embedding advertisement in video and computer device
CN113516135B (zh) 一种基于深度学习的遥感影像建筑物提取及轮廓优化方法
CN110738125B (zh) 利用Mask R-CNN选择检测框的方法、装置及存储介质
CN114418957B (zh) 基于机器人视觉的全局和局部二值模式图像裂缝分割方法
WO2021051604A1 (zh) Osd的文字区域的识别方法、装置及存储介质
US20200118263A1 (en) Information processing device, information processing method, and storage medium
CN112308826B (zh) 一种基于卷积神经网络的桥梁结构表面缺陷检测方法
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN108898610A (zh) 一种基于mask-RCNN的物体轮廓提取方法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110490099B (zh) 一种基于机器视觉的地铁公共地点人流量分析方法
CN108399361A (zh) 一种基于卷积神经网络cnn和语义分割的行人检测方法
CN111401150A (zh) 一种基于实例分割和自适应变换算法的多车道线检测方法
CN108305260A (zh) 一种图像中角点的检测方法、装置及设备
CN109506628A (zh) 一种基于深度学习的卡车环境下目标物测距方法
CN103871047A (zh) 光照不均匀图像的灰度波动阈值分割方法
CN110503637A (zh) 一种基于卷积神经网络的道路裂缝自动检测方法
CN118154576B (zh) 一种地铁隧道接缝渗漏水的智能检测方法
CN106651880A (zh) 基于多特征融合的热红外遥感影像的海上动目标检测方法
CN112686265A (zh) 一种基于层级轮廓提取的象形文字分割方法
CN119251508A (zh) 一种裂缝语义分割自动标注及改善分割效果的方法
CN113963299A (zh) 一种基于改进yolo v4算法的乒乓球检测方法
CN113920055A (zh) 一种缺陷检测方法
CN111179278B (zh) 一种图像检测的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant