CN110598708B - 一种街景文本目标识别检测方法 - Google Patents
一种街景文本目标识别检测方法 Download PDFInfo
- Publication number
- CN110598708B CN110598708B CN201910729858.4A CN201910729858A CN110598708B CN 110598708 B CN110598708 B CN 110598708B CN 201910729858 A CN201910729858 A CN 201910729858A CN 110598708 B CN110598708 B CN 110598708B
- Authority
- CN
- China
- Prior art keywords
- curve
- radius
- detected
- target area
- bound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及数字图像识别技术领域,提出一种街景文本目标识别检测方法,包括以下步骤:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域;读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F;根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si;在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到其圆心、半径、夹角参数;对目标区域块Si的上界曲线和下界曲线进行拟合,计算目标区域块Si的上界曲线半径和下界曲线半径;将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
Description
技术领域
本发明涉及数字图像识别处理技术领域,更具体地,涉及一种街景文本目标识别检测方法。
背景技术
随着互联网的快速发展,尤其是图形处理器(Graphics Processing Unit,GPU)技术取得长足进步,深度学习所取得的进展越来越大,因此图像识别技术越来越火热,近年来出现了各类目标检测算法,比如Faster R-CNN,CTPN等技术,给图像识别带来了极大的推动作用。
然而,目前应用于街景文本目标识别检测的算法均具有一定的局限性:(1)基于轴对齐方式矩形框的文本目标识别方法,这种方法比较简单,但是只适用于检测水平和竖直的街景文本或普通的文本,而街景图像中的文本为了美观,其形状设计大部分为弯曲或无规则的,在实际使用过程中,基于矩形框的文本目标识别会框入大量无关的背景区域;(2)基于旋转矩形框的文本目标识别方法,是在轴对齐方式矩形框的基础上引入一个角度变量,但是这种方法对于弯曲的街景图像文本目标识别效果依然不能满足需求,同样会框入无关的背景区域,使文本目标识别结果含有较多的噪声。
发明内容
本发明为克服上述现有技术所述的街景图像文本目标识别结果中框有大量无关背景区域,使文本目标识别结果含有噪声的缺陷,提供一种街景文本目标识别检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种街景文本目标识别检测方法,包括以下步骤:
S1:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域;
S2:读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F的表达式y=f(x);
S3:根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si,其中i=1,2,...,n,且n为正整数;
S4:在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到曲线Fi的圆心、半径、夹角参数;
S5:对目标区域块Si的上界曲线和下界曲线进行拟合,计算目标区域块Si的上界曲线半径和下界曲线半径;
S6:将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
本技术方案中,通过全卷积网络(FCN)和特征金字塔(FPN)将待检测的街景图像进行图像分割,获得预测的街景文本轮廓区域,即待检测的目标区域,然后再对已经分割好的待检测的目标区域进行映射,其中,由于全卷积网络对输入的图像的每一个像素在输出时分别进行相应的判断,判断该像素可能属于哪一个分类,因此可以对输入的街景图像进行标注和判断,然后通过特征金字塔对整个图像进行分割,将经过全卷积网络输出的缩小为1/32的图像进行scale缩放,直到图像缩小为一个像素,从而形成金字塔形状,考虑到底层的特征语义信息比较少,而高层的特征语义相当丰富,但是识别目标的位置比较模糊,在本技术方案中,位于高层的特征通过不断的上采样并结合底层的特征,实现每层的像素级独立预测,得到精准的待检测目标区域。在对待检测目标区域进行映射过程中,通过读取待检测目标区域的像素得到拟合的曲线F,其中曲线F表示待检测目标区域的大致形状,根据曲线F对待检测目标区域进行分割,得到若干目标区域块,再进一步分别识别,获取所有目标区域块的圆心、半径、夹角参数、上界曲线半径、下界曲线半径,将上述参数组成有序集合作为检测结果进行输出。在具体实际应用时,图像识别器可根据所输出的检测结果对弯曲的文本图像进行分段处理并框出。
优选地,S1步骤中的全卷积网络中,包括依次连接的5个卷积层、池化层组合。
优选地,S3步骤中,根据曲线F对待检测的目标区域进行分割的具体步骤如下:
S3.1:对曲线F进行微积分二次求导,其求导公式为:y″=d2y/dx2,令y″=0,得到n-1个拐点A;其中x,y为曲线F上的像素在图像中的横坐标和纵坐标;
S3.2:以所述拐点A作为分界线,获得n段曲线Fi以及n个待检测的目标区域块Si,其中待检测的目标区域块Si为扇形环状片段。
优选地,S4步骤中,在每一段曲线Fi及其对应的目标区域块Si中进行回归任务的具体步骤如下:依次将曲线Fi与圆的表达式(x-xi)2+(y-yi)2=ri 2做回归任务,得到圆心(xi,yi)的最小损失函数,从而得到曲线Fi的圆心(xi,yi)、半径ri和夹角θi。
优选地,S5步骤中,计算目标区域块Si的上界曲线半径和下界曲线半径的具体步骤如下:
S5.1:读取目标区域块Si的上界曲线像素和下界曲线像素,拟合得到上界曲线的表达式y=U(x)和下界曲线的表达式y=D(x);
S5.2:将上界曲线与下界曲线分别进行回归任务,根据曲线Fi的圆心(xi,yi),计算上界曲线半径Ri1和下界曲线半径Ri2,其计算公式如下:
(x-xi)2+(y-yi)2=(Ri1-Ri2)2。
优选地,S6步骤中,有序集合T包括所有待检测的目标区域块Si的圆心、半径、夹角参数、上界曲线半径、下界曲线半径,其具体表达式为:T={S1,S2,...,Si,...,Sn},其中Si={(xi,yi),θi,Ri1,Ri2}。
与现有技术相比,本发明技术方案的有益效果是:通过全卷积网络和特征金字塔,能够得到精准的待检测目标区域;通过将待检测的目标区域分割为若干扇形或环形区域块,然后分别对其进行文本位置参数的计算,能够得到精准的文本位置信息并输出,实现对弯曲、倾斜或不规则的街景图像文本的识别检测,有效减少文本识别结果的噪声,使文本目标识别结果能够更好地应用于后续的文本识别及信息提取。
附图说明
图1为本实施例的街景文本目标识别检测方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的街景文本目标识别检测方法的流程图。
本实施例提出一种街景文本目标识别检测方法,包括以下步骤:
S1:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域。
本实施例中,所使用的全卷积网络包括依次连接的5个卷积层、池化层组合。
S2:读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F的表达式y=f(x)。
S3:根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si,其中i=1,2,...,n,且n为正整数;其具体步骤如下:
S3.1:对曲线F进行微积分二次求导,其求导公式为:y″=d2y/dx2,令y″=0,得到n-1个拐点A;其中x,y为曲线F上的像素在图像中的横坐标和纵坐标;
S3.2:以所述拐点A作为分界线,获得n段曲线Fi以及n个待检测的目标区域块Si,其中待检测的目标区域块Si为扇形环状片段。
S4:在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到曲线Fi的圆心、半径、夹角参数。
本步骤中,在每一段曲线Fi及其对应的目标区域块Si中进行回归任务的具体步骤如下:依次将曲线Fi与圆的表达式(x-xi)2+(y-yi)2=ri 2做回归任务,得到圆心(xi,yi)的最小损失函数,从而得到曲线Fi的圆心(xi,yi)、半径ri和夹角θi。
S5:对目标区域块Si的上界曲线和下界曲线进行拟合,计算目标区域块Si的上界曲线半径和下界曲线半径;其具体步骤如下:
S5.1:读取目标区域块Si的上界曲线像素和下界曲线像素,拟合得到上界曲线的表达式y=U(x)和下界曲线的表达式y=D(x);
S5.2:将上界曲线与下界曲线分别进行回归任务,根据曲线Fi的圆心(xi,yi),计算上界曲线半径Ri1和下界曲线半径Ri2,其计算公式如下:
(x-xi)2+(y-yi)2=(Ri1-Ri2)2。
S6:将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
本步骤中,输出的有序集合T的具体表达式如下:
T={S1,S2,...,Si,...,Sn},其中Si={(xi,yi),θi,Ri1,Ri2}。
本实施例中所提出的街景文本目标识别检测方法,主要通过将待检测的街景文本分解为若干个扇形或环形片段,并分别计算所述扇形或环形片段的圆心、半径、夹角半径、上界曲线半径、下界曲线半径,然后根据所获取的参数对该扇形或环形片段进行精确框出,从而能够实现对弯曲、倾斜或不规则的街景图像文本目标进行精确的识别检测,能够有效减少文本目标识别结果的噪声干扰,使文本目标识别结果能够更好地应用于后续的文本识别及信息提取。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种街景文本目标识别检测方法,其特征在于,包括以下步骤:
S1:输入待检测的街景图片,通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割,得到待检测的目标区域;
S2:读取待检测的目标区域的所有像素,然后将所有像素的点坐标拟合得到曲线F的表达式y=f(x);
S3:根据曲线F对待检测的目标区域进行分割,得到n段曲线Fi和目标区域块Si,其中i=1,2,...,n,且n为正整数;
S4:在每一段曲线Fi及其对应的目标区域块Si中进行回归任务,得到目标区域块Si的圆心、半径、夹角参数;
S5:对目标区域块Si的上界曲线和下界曲线进行拟合,计算曲线Fi的的上界曲线半径和下界曲线半径;
S6:将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。
2.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S1步骤中的全卷积网络中,包括依次连接的5个卷积层、池化层组合。
3.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S3步骤中,根据曲线F对待检测的目标区域进行分割的具体步骤如下:
S3.1:对曲线F进行微积分二次求导,其求导公式为:y″=d2y/dx2,令y″=0,得到n-1个拐点A;其中x,y为曲线F上的像素在图像中的横坐标和纵坐标;
S3.2:以所述拐点A作为分界线,获得n段曲线Fi以及n个待检测的目标区域块Si,其中待检测的目标区域块Si为扇形环状片段。
4.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S4步骤中,在每一段曲线Fi及其对应的目标区域块Si中进行回归任务的具体步骤如下:依次将曲线Fi与圆的表达式(x-xi)2+(y-yi)2=ri 2做回归任务,得到圆心(xi,yi)的最小损失函数,从而得到曲线Fi的圆心(xi,yi)、半径ri和夹角θi。
5.根据权利要求4所述的街景文本目标识别检测方法,其特征在于:所述S5步骤中,计算目标区域块Si的上界曲线半径和下界曲线半径的具体步骤如下:
S5.1:读取目标区域块Si的上界曲线像素和下界曲线像素,拟合得到上界曲线的表达式y=U(x)和下界曲线的表达式y=D(x);
S5.2:将上界曲线与下界曲线分别进行回归任务,根据曲线Fi的圆心(xi,yi),计算上界曲线半径Ri1和下界曲线半径Ri2,其计算公式如下:
(x-xi)2+(y-yi)2=(Ri1-Ri2)2。
6.根据权利要求1所述的街景文本目标识别检测方法,其特征在于:所述S6步骤中,所述有序集合T包括所有待检测的目标区域块Si的圆心、半径、夹角参数、上界曲线半径、下界曲线半径,其具体表达式为:T={S1,S2,...,Si,...,Sn},其中Si={(xi,yi),θi,Ri1,Ri2}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910729858.4A CN110598708B (zh) | 2019-08-08 | 2019-08-08 | 一种街景文本目标识别检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910729858.4A CN110598708B (zh) | 2019-08-08 | 2019-08-08 | 一种街景文本目标识别检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598708A CN110598708A (zh) | 2019-12-20 |
CN110598708B true CN110598708B (zh) | 2022-09-23 |
Family
ID=68853880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910729858.4A Active CN110598708B (zh) | 2019-08-08 | 2019-08-08 | 一种街景文本目标识别检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598708B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414915B (zh) * | 2020-02-21 | 2024-03-26 | 华为技术有限公司 | 一种文字识别方法以及相关设备 |
CN112001933A (zh) * | 2020-09-09 | 2020-11-27 | 成都市精卫鸟科技有限责任公司 | 一种图像截取方法、装置、设备和介质 |
CN112348021A (zh) * | 2021-01-08 | 2021-02-09 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、设备及存储介质 |
CN113393518B (zh) * | 2021-07-15 | 2024-09-06 | 北京京仪光电技术研究所有限公司 | 一种图片曲线相对数值坐标自动提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177252A (zh) * | 2013-03-04 | 2013-06-26 | 苏州瑞派宁科技有限公司 | 一种自动识别并分割位置谱的方法及装置 |
CN104504701A (zh) * | 2014-12-19 | 2015-04-08 | 深圳先进技术研究院 | 一种基于街景属性信息的图形显示方法及系统 |
CN104835134A (zh) * | 2014-02-11 | 2015-08-12 | 阿里巴巴集团控股有限公司 | 一种计算商品图像牛皮癣分值的方法和装置 |
CN105631447A (zh) * | 2015-12-18 | 2016-06-01 | 杭州仁盈科技股份有限公司 | 一种识别圆形公章中文字的方法 |
CN109522893A (zh) * | 2018-10-08 | 2019-03-26 | 武汉工程大学 | 一种空中非合作目标气球要害点快速的检测方法 |
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337689A1 (en) * | 2016-05-20 | 2017-11-23 | Yung-Hui Li | Method for validating segmentation of objects with arbitrary shapes |
-
2019
- 2019-08-08 CN CN201910729858.4A patent/CN110598708B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177252A (zh) * | 2013-03-04 | 2013-06-26 | 苏州瑞派宁科技有限公司 | 一种自动识别并分割位置谱的方法及装置 |
CN104835134A (zh) * | 2014-02-11 | 2015-08-12 | 阿里巴巴集团控股有限公司 | 一种计算商品图像牛皮癣分值的方法和装置 |
CN104504701A (zh) * | 2014-12-19 | 2015-04-08 | 深圳先进技术研究院 | 一种基于街景属性信息的图形显示方法及系统 |
CN105631447A (zh) * | 2015-12-18 | 2016-06-01 | 杭州仁盈科技股份有限公司 | 一种识别圆形公章中文字的方法 |
CN109522893A (zh) * | 2018-10-08 | 2019-03-26 | 武汉工程大学 | 一种空中非合作目标气球要害点快速的检测方法 |
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
"Street Sign Recognition Using Histogram of Oriented Gradients and Artificial Neural Networks";Kh Tohidul Islam等;《Journal of Imaging》;20190403;第5卷(第44期);第1-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110598708A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598708B (zh) | 一种街景文本目标识别检测方法 | |
CN108898610B (zh) | 一种基于mask-RCNN的物体轮廓提取方法 | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
WO2019154035A1 (zh) | 一种在视频中植入广告的方法及计算机设备 | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN109255350B (zh) | 一种基于视频监控的新能源车牌检测方法 | |
CN111401150B (zh) | 一种基于实例分割和自适应变换算法的多车道线检测方法 | |
CN111476710B (zh) | 基于移动平台的视频换脸方法及系统 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN108564120B (zh) | 基于深度神经网络的特征点提取方法 | |
CN110598698B (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
CN112766184A (zh) | 基于多层级特征选择卷积神经网络的遥感目标检测方法 | |
CN108537816A (zh) | 一种基于超像素和背景连接先验的显著物体分割方法 | |
CN110751154A (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
CN111915628A (zh) | 一种基于预测目标密集边界点的单阶段实例分割方法 | |
CN115410039A (zh) | 基于改进YOLOv5算法的煤炭异物检测系统及方法 | |
CN109741358A (zh) | 基于自适应超图学习的超像素分割方法 | |
CN111767854A (zh) | 一种结合场景文本语义信息的slam回环检测方法 | |
CN101866422A (zh) | 基于图像的多特征融合提取图像关注度的方法 | |
CN110956184A (zh) | 一种基于hsi-lbp特征的抽象图方向确定方法 | |
CN111199199B (zh) | 一种基于自适应上下文区域选取的动作识别方法 | |
Salunkhe et al. | Recognition of multilingual text from signage boards | |
CN111179289B (zh) | 一种适用于网页长图宽图的图像分割方法 | |
JP2940956B2 (ja) | 線図形の特徴抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |