CN110674802B - 一种改进的平行四边形候选框的文本检测方法 - Google Patents

一种改进的平行四边形候选框的文本检测方法 Download PDF

Info

Publication number
CN110674802B
CN110674802B CN201910857582.8A CN201910857582A CN110674802B CN 110674802 B CN110674802 B CN 110674802B CN 201910857582 A CN201910857582 A CN 201910857582A CN 110674802 B CN110674802 B CN 110674802B
Authority
CN
China
Prior art keywords
layer
offset
spectrum
center
characteristic spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910857582.8A
Other languages
English (en)
Other versions
CN110674802A (zh
Inventor
李宏亮
陶聚
王强
杨健榜
王晓鹏
罗鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910857582.8A priority Critical patent/CN110674802B/zh
Publication of CN110674802A publication Critical patent/CN110674802A/zh
Application granted granted Critical
Publication of CN110674802B publication Critical patent/CN110674802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种改进的平行四边形候选框的文本检测方法,在训练步骤以及检测步骤中,预测特征谱在进入PriorBox层之前先经过偏移学习模块,所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层;PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;使用平行四边形的候选框来贴近标签GroundTruth,以提升GroundTruth与预测框之间的IoU,从而降低网络回归的困难程度。本发明能准确定位倾斜的长文本,适用于书籍文字识别、然场景下多方向文字识别。

Description

一种改进的平行四边形候选框的文本检测方法
技术领域
本发明涉及文本检测技术,特别涉及文字检测中候选框生成的方法。
背景技术
OCR(Optical Character Recognition),现泛指图像文字识别,即从图像视频中自动识别文字内容,属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及,分别从业务需求与技术支撑两方面,进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解等等,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别等等。当今主流的OCR技术主要分为两步:1、文本检测,指的是精确定位出图像中文本的位置;2、文本识别,指的是精确的识别出文本检测中定位出来的图像的文本内容。
传统的OCR技术主要是通过手工设计特征提取方法,再通过对连通域计算最小外接矩形实现对文本的定位。传统的OCR技术手工提取的特征较差,容易出现漏检、错检等问题。而随着信息技术的高速发展,图像数据的指数级增长,硬件条件的提升,基于深度学习的新兴文本检测方法如雨后春笋般快速发展起来。基于深度学习的文本检测方法拥有通过网络自动学习提取特征的优点,实现了检测性能上的质的提升。目前比较流行的文本检测技术有CTPN、TextBoxes_plusplus、TextMoutain等,它们都有各自的优缺点,比如CTPN方法拥有较快的速度,但却无法检测倾斜文本;TextBoxes_plusplus文本检测方法虽可以检测倾斜文本,但是其无法精确定位长文本以及倾斜文本。
TextBoxes_plusplus的网络结构如下:
Figure BDA0002195736190000021
TextBoxes_plusplus检测算法包括步骤:
1)训练步骤:
1-1)输入样本图像经过基于VGG16的主干网络得到的预测特征谱,预测特征谱分别来自于网络中6个卷积层或全连接层conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2;
样本图像的标签GroundTruth为
Figure BDA0002195736190000022
其中
Figure BDA0002195736190000023
q=1,2,3,4是GroundTruth的四个顶点,
Figure BDA0002195736190000024
为GroundTruth的水平最小外接矩形的左上角以及右下角坐标。具体形式如图1。
1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及矩形候选框坐标;回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度;
1-3)将回归特征谱、分类特征谱以及矩形候选框坐标输入至损失层Loss进行回归损失与分类损失计算,再根据损失调整网络参数,返回步骤1-1)重复训练步骤直至达到训练结束条件;损失层Loss在回归特征谱上根据矩形候选框坐标生成矩形预测框,用这些矩形预测框与GroundTruth计算IoU(Intersection over Union),当IoU大于0.5时将该预测框记为正样本,IoU小于0.5的预测框记为负样本。由于匹配上同一个GroundTruth的预测框可能存在很多个,因此通过NMS算法来将这些冗余的文本框去除,保留IoU最大的一个预测框。
2)测试步骤:
2-1)输入测试图像经过基于VGG16的主干网络得到的预测特征谱;
2-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;
2-3)将回归特征谱、分类特征谱以及PriorBox输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。
上述TextBoxes_plusplus算法由于候选框的生成机制缺陷,导致预测框无法有效降低回归损失,因此无法准确定位倾斜的长文本甚至导致漏检。
发明内容
本发明所要解决的技术问题是,针对现有图像文字识别中对长、倾斜文本定位准确率低的问题,基于TextBoxes_plusplus检测算法的基础上提出一种改进的候选框的文本检测方法。
本发明为解决上述技术问题所采用的技术方案是,一种改进的平行四边形候选框的文本检测方法,在训练步骤以及检测步骤中,预测特征谱在进入PriorBox层之前先经过偏移学习模块,所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层;
PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;
PriorBox层计算平行四边形候选框的四个顶点坐标的方法为:
x1=xcenter-bb_width/2
y1=ycenter-bb_height(1-dy)/2
x2=xcenter+bb_width/2
y2=ycenter-bb_height(1+dy)/2
x3=xcenter-bb_width/2
y3=ycenter+bb_width(1+dy)/2
x4=xcenter+bb_width/2
y4=ycenter+bb_height(1-dy)/2
其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、bb_height分别为PriorBox层中预设的框宽、框高,dy为偏移学习模块输出的偏移量。
具体的,前置偏移学习模块通过深度卷积神经网络对水平的候选框无监督的学习一个Y轴方向的偏移量,再将该偏移量通过激活函数操作将其归一化到(-1,1)之间,将归一化后的偏移量增加到候选框的垂直方向上,形成最终的平行四边形候选框。使用平行四边形的候选框来贴近标签GroundTruth,以提升GroundTruth与预测框之间的IoU,从而降低网络回归的困难程度。
本发明的有益效果是,能准确定位倾斜的长文本,适用于书籍文字识别、然场景下多方向文字识别。
附图说明
图1为训练数据集标签说明;
图2为矩形候选框匹配与平行四边形候选框匹配对比;
图3为本发明训练步骤流程图。
具体实施方式
在现有TextBoxes_plusplus网络的基础上,在预测特征谱输出处conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2连接一个用于学习候选框偏移量的深度卷积神经网络作为前置于PriorBox层之前的模块,即偏移学习模块。偏移学习模块依次由卷积层conv1、卷积层conv1_1、卷积层conv1_2、全局池化和激活函数串联而成。
卷积层conv1的通道数为现有TextBoxes_plusplus网络生成的矩形候选框类型的两倍,卷积核尺寸为3x3,步长为1x1,Pad为1x1。卷积层conv1_1和卷积层conv1_2的卷积核尺寸为1x1,步长为1x1,填充为0x0,通道数与卷积层conv1的通道数相同。对卷积层conv1_2的输出进行全局池化将特征谱降维到1x1x3的大小后输入tanh函数形式的激活函数进行归一化,最终结果记为conv2_active,conv2_active∈(-1,1)。激活函数F如下:
F(x)=tanh(x)
本发明主要包括以下步骤:
1)训练步骤,如图3所示:
1-1)输入样本图像经过基于VGG16的主干网络得到的预测特征谱,预测特征谱分别来自于网络中卷积层conv4_3、全连接层fc7、卷积层conv6_2、卷积层conv7_2、卷积层conv8_2、卷积层conv9_2;样本图像的标签GroundTruth输入至损失层Loss;
1-2)将预测特征谱分别输入XX、XX以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度;
偏移学习模块用于生成候选框在Y轴方向的偏移量conv2_active与预测特征谱一同输出至PriorBox层;
PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;矩形候选框坐标计算公式与原网络一致,平行四边形候选框的四个顶点坐标计算公式如下:
x1=xcenter-bb_width/2
y1=ycenter-bb_height(1-dy)/2
x2=xcenter+bb_width/2
y2=ycenter-bb_height(1+dy)/2
x3=xcenter-bb_width/2
y3=ycenter+bb_width(1+dy)/2
x4=xcenter+bb_width/2
y4=ycenter+bb_height(1-dy)/2
其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、bb_height分别为PriorBox层中预设的框宽、框高,dy为偏移学习模块输出的偏移量,由conv2_active赋值;
1-3)将回归特征谱、分类特征谱以及候选框坐标输入至损失层进行回归损失与分类损失计算,再根据损失调整网络参数,返回步骤1-1)重复训练步骤直至达到训练结束条件;损失层Loss在回归特征谱上根据矩形候选框坐标生成矩形预测框,用这些矩形预测框与GroundTruth计算IoU(Intersection over Union),当IoU大于0.5时将该预测框记为正样本,IoU小于0.5的预测框记为负样本。由于匹配上同一个GroundTruth的预测框可能存在很多个,因此通过NMS算法来将这些冗余的文本框去除,保留IoU最大的一个预测框。
在损失层中,矩形候选框与GroundTruth的
Figure BDA0002195736190000051
来直接计算IoU。平行四边形候选框与GroundTruth匹配时,则先将GroundTruth的
Figure BDA0002195736190000052
转化为
Figure BDA0002195736190000053
转化公式为
Figure BDA0002195736190000054
Figure BDA0002195736190000055
再用平行四边形候选框四个顶点的坐标与
Figure BDA0002195736190000056
计算IoU。匹配完成之后按照正负样本1:3的比例计算损失。
实施例中计算分类损失的时候采取正负样本1:3的策略进行训练,计算回归损失时仅计算正样本的回归损失,图2为原始方法与本发明方法对比,可以看出采用平行四边形的候选框可以有效拉近预测框与GroundTruth之间的偏移距离,使得回归损失进一步的降低,提升回归任务的准确率。
2)测试步骤:
2-1)输入测试图像经过基于VGG16的主干网络得到的预测特征谱,预测特征谱分别来自于网络中卷积层conv4_3、全连接层fc7、卷积层conv6_2、卷积层conv7_2、卷积层conv8_2、卷积层conv9_2;
2-2)将预测特征谱分别输入XX、XX以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度;
2-3)将回归特征谱、分类特征谱以及PriorBox层同时输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。

Claims (2)

1.一种改进的平行四边形候选框的文本检测方法,其特征在于,包括以下步骤:
1)训练步骤:
1-1)得到样本图像的预测特征谱;
1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;
所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层;
PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;
PriorBox层计算平行四边形候选框的四个顶点坐标的方法为:
x1=xcenter-bb_width/2
y1=ycenter-bb_height(1-dy)/2
x2=xcenter+bb_width/2
y2=ycenter-bb_height(1+dy)/2
x3=xcenter-bb_width/2
y3=ycenter+bb_width(1+dy)/2
x4=xcenter+bb_width/2
y4=ycenter+bb_height(1-dy)/2
其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、bb_height分别为PriorBox层中预设的框宽、框高,dy为偏移学习模块输出的偏移量;
1-3)将回归特征谱、分类特征谱以及候选框坐标输入至损失层进行回归损失与分类损失计算,再根据损失调整网络参数,返回步骤1-1)重复训练步骤直至达到训练结束条件;
2)测试步骤:
2-1)得到测试图像的预测特征谱;
2-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;前置偏移学习模块通过深度卷积神经网络对水平的候选框无监督的学习一个Y轴方向的偏移量,再将该偏移量通过激活函数操作将其归一化到(-1,1)之间,将归一化后的偏移量增加到候选框的垂直方向上,形成最终的平行四边形候选框;
2-3)将回归特征谱、分类特征谱以及PriorBox层同时输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。
2.如权利要求1所述方法,其特征在于,偏移学习模块对输入的预测特征谱依次经卷积层conv1、卷积层conv1_1、卷积层conv1_2、全局池化和激活函数操作得到输出值conv2_active,并将输出值conv2_active赋值给偏移量;
卷积层conv1的卷积核尺寸为3x3,步长为1x1,填充为1x1,通道数为矩形候选框类型的两倍;
卷积层conv1_1和卷积层conv1_2的卷积核尺寸为1x1,步长为1x1,填充为0x0,通道数与卷积层conv1的通道数相同;
全局池化输出的特征谱尺寸为1x1x3;
激活函数为tanh函数。
CN201910857582.8A 2019-09-09 2019-09-09 一种改进的平行四边形候选框的文本检测方法 Active CN110674802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910857582.8A CN110674802B (zh) 2019-09-09 2019-09-09 一种改进的平行四边形候选框的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910857582.8A CN110674802B (zh) 2019-09-09 2019-09-09 一种改进的平行四边形候选框的文本检测方法

Publications (2)

Publication Number Publication Date
CN110674802A CN110674802A (zh) 2020-01-10
CN110674802B true CN110674802B (zh) 2022-10-14

Family

ID=69077878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910857582.8A Active CN110674802B (zh) 2019-09-09 2019-09-09 一种改进的平行四边形候选框的文本检测方法

Country Status (1)

Country Link
CN (1) CN110674802B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183529A (zh) * 2020-09-23 2021-01-05 创新奇智(北京)科技有限公司 四边形物体检测、模型训练方法、装置、设备及存储介质
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN113033346B (zh) * 2021-03-10 2023-08-04 北京百度网讯科技有限公司 文本检测方法、装置和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
US10282634B2 (en) * 2016-03-11 2019-05-07 Panasonic Intellectual Property Corporation Of America Image processing method, image processing apparatus, and recording medium for reducing variation in quality of training data items
JP2019139383A (ja) * 2018-02-07 2019-08-22 グローリー株式会社 文字認識システム、文字認識プログラム、文字認識方法、文字鮮明化システム、文字鮮明化プログラム、及び文字鮮明化方法
CN108960175A (zh) * 2018-07-12 2018-12-07 天津艾思科尔科技有限公司 一种基于深度学习的车牌识别方法

Also Published As

Publication number Publication date
CN110674802A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
CN110674802B (zh) 一种改进的平行四边形候选框的文本检测方法
CN108304835B (zh) 文字检测方法和装置
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN113111871A (zh) 文本识别模型的训练方法及装置、文本识别方法及装置
WO2020133442A1 (zh) 一种识别文本的方法及终端设备
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
WO2009114967A1 (zh) 基于移动扫描的图像处理方法及装置
CN111027539A (zh) 一种基于空间位置信息的车牌字符分割方法
CN116246059A (zh) 一种基于改进的yolo多尺度检测的车辆目标识别方法
CN110598581A (zh) 基于卷积神经网络的光学乐谱识别方法
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN111881914A (zh) 一种基于自学习阈值的车牌字符分割方法及系统
CN111091550A (zh) 多尺寸自适应的pcb锡膏区域检测系统及检测方法
CN116597202A (zh) 一种基于改进Faster-RCNN的常见生活垃圾图像检测方法
JP5211449B2 (ja) 認識距離を調整するプログラム、装置および方法、ならびに文字列を認識するプログラム
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN113807218B (zh) 版面分析方法、装置、计算机设备和存储介质
CN112380970B (zh) 基于局部区域搜索的视频目标检测方法
Chu et al. Text detection in manga by deep region proposal, classification, and regression
CN113628113A (zh) 一种图像拼接方法及其相关设备
US20040197023A1 (en) Image processing device, image processing method, storage medium, and computer program product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant