CN111444918A - 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法 - Google Patents
图像倾斜文本行检测模型训练及图像倾斜文本行检测方法 Download PDFInfo
- Publication number
- CN111444918A CN111444918A CN202010251711.1A CN202010251711A CN111444918A CN 111444918 A CN111444918 A CN 111444918A CN 202010251711 A CN202010251711 A CN 202010251711A CN 111444918 A CN111444918 A CN 111444918A
- Authority
- CN
- China
- Prior art keywords
- image
- text line
- line detection
- detection model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000012549 training Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像倾斜文本行检测模型训练及图像倾斜文本行检测方法。其中,图像倾斜文本行检测模型的训练方法,包括:获取训练数据集;其中,训练数据集包括多个具有倾斜文本行的目标图像;基于训练数据集,训练基于旋转区域的卷积神经网络RRCNN,得到图像倾斜文本行检测模型;其中,RRCNN包括旋转区域提议网络RRPN结构,RRPN结构用于生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框。根据本发明实施例,能够更准确地进行图像倾斜文本行检测。
Description
技术领域
本发明属于数据业务技术领域,尤其涉及一种图像倾斜文本行检测模型的训练方法及装置、基于图像倾斜文本行检测模型的图像倾斜文本行检测方法及装置、电子设备和计算机存储介质。
背景技术
目前,常见的图像中文本行检测方法有MSER算法,角点检测算法和TextBoxes算法等。
TextBoxes算法是目标检测算法(Single Shot MultiBox Detector,SSD)的衍生,根据文本行的特点改变了初始默认框的尺度和比例,不同卷积层产生的检测框可以检测不同尺度大小的文本行,但其只能检测水平的文本行,且不能解决文字间隔过宽的问题。发明人经研究发现,若用TextBoxes算法直接进行图像倾斜文本行检测,准确度较差。
因此,如何能够更准确地进行图像倾斜文本行检测是本领域技术人员亟需解决的技术问题。
发明内容
本发明实施例提供一种图像倾斜文本行检测模型的训练方法及装置、基于图像倾斜文本行检测模型的图像倾斜文本行检测方法及装置、电子设备和计算机存储介质,能够更准确地进行图像倾斜文本行检测。
第一方面,提供了一种图像倾斜文本行检测模型的训练方法,包括:
获取训练数据集;其中,训练数据集包括多个具有倾斜文本行的目标图像;
基于训练数据集,训练基于旋转区域的卷积神经网络(Rotation-Region-basedConvolutional Neural Networks,RRCNN),得到图像倾斜文本行检测模型;其中,RRCNN包括旋转区域提议网络(Rotation Region Proposal Networks,RRPN)结构,RRPN结构用于生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框。
可选地,获取训练数据集,包括:
采集多个具有倾斜文本行的第一图像;
确定各个第一图像的倾斜文本行的数据标签;其中,数据标签包括倾斜文本行所属矩形框的中心坐标、长度、宽度及倾斜角度;
绑定第一图像及对应的数据标签,得到目标图像。
可选地,基于训练数据集,训练基于旋转区域的卷积神经网络RRCNN,得到图像倾斜文本行检测模型,包括:
提取训练数据集中目标图像的图像特征,得到目标图像的特征图;
基于特征图、预设尺寸比例的锚框及倾斜文本行的旋转信息,确定旋转锚框集;
基于预设的倾斜文本行检测准确率,确定旋转锚框集中的旋转锚框正样本和旋转锚框负样本;
基于旋转锚框正样本和旋转锚框负样本,训练RRCNN,得到图像倾斜文本行检测模型。
可选地,基于旋转锚框正样本和旋转锚框负样本,训练RRCNN,得到图像倾斜文本行检测模型,包括:
获取目标损失函数;
基于旋转锚框正样本、旋转锚框负样本及目标损失函数,确定RRCNN中各层结构的权重参数;
基于RRCNN及RRCNN中各层结构的权重参数,得到图像倾斜文本行检测模型。
第二方面,提供了一种基于图像倾斜文本行检测模型的图像倾斜文本行检测方法,图像倾斜文本行检测模型是使用第一方面或者第一方面任一可选的实现方式中的图像倾斜文本行检测模型的训练方法得到的模型,包括:
获取待检测图像;
将待检测图像输入图像倾斜文本行检测模型,输出文本行检测结果。
可选地,将待检测图像输入图像倾斜文本行检测模型,输出文本行检测结果,包括:
提取待检测图像的图像特征,得到待检测图像的特征图;
基于特征图、预设的多个不同尺寸比例的锚框及待检测图像中倾斜文本行的旋转信息,确定多个不同尺寸比例的旋转锚框;
基于任一旋转锚框,确定任一旋转锚框的文本行候选框;
针对多个文本行候选框进行筛选和映射,得到目标特征图;
基于预设的激活函数,针对目标特征图进行文本行检测框的回归和分类,输出文本行检测结果。
第三方面,提供了一种图像倾斜文本行检测模型的训练装置,包括:
获取模块,用于获取训练数据集;其中,训练数据集包括多个具有倾斜文本行的目标图像;
训练模块,用于基于训练数据集,训练RRCNN,得到图像倾斜文本行检测模型;其中,RRCNN包括RRPN结构,RRPN结构用于生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框。
可选地,获取模块,用于采集多个具有倾斜文本行的第一图像;确定各个第一图像的倾斜文本行的数据标签;其中,数据标签包括倾斜文本行所属矩形框的中心坐标、长度、宽度及倾斜角度;绑定第一图像及对应的数据标签,得到目标图像。
可选地,训练模块,用于提取训练数据集中目标图像的图像特征,得到目标图像的特征图;基于特征图、预设尺寸比例的锚框及倾斜文本行的旋转信息,确定旋转锚框集;基于预设的倾斜文本行检测准确率,确定旋转锚框集中的旋转锚框正样本和旋转锚框负样本;基于旋转锚框正样本和旋转锚框负样本,训练RRCNN,得到图像倾斜文本行检测模型。
可选地,训练模块,还用于获取目标损失函数;基于旋转锚框正样本、旋转锚框负样本及目标损失函数,确定RRCNN中各层结构的权重参数;基于RRCNN及RRCNN中各层结构的权重参数,得到图像倾斜文本行检测模型。
第四方面,提供了一种基于图像倾斜文本行检测模型的图像倾斜文本行检测装置,图像倾斜文本行检测模型是使用第一方面或者第一方面任一可选的实现方式中的图像倾斜文本行检测模型的训练方法得到的模型,包括:
获取模块,用于获取待检测图像;
输出模块,用于将待检测图像输入图像倾斜文本行检测模型,输出文本行检测结果。
可选地,输出模块,用于提取待检测图像的图像特征,得到待检测图像的特征图;基于特征图、预设的多个不同尺寸比例的锚框及待检测图像中倾斜文本行的旋转信息,确定多个不同尺寸比例的旋转锚框;基于任一旋转锚框,确定任一旋转锚框的文本行候选框;针对多个文本行候选框进行筛选和映射,得到目标特征图;基于预设的激活函数,针对目标特征图进行文本行检测框的回归和分类,输出文本行检测结果。
第五方面,提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现第一方面或者第一方面任一可选的实现方式中的图像倾斜文本行检测模型的训练方法;或,
第二方面或者第二方面任一可选的实现方式中的基于图像倾斜文本行检测模型的图像倾斜文本行检测方法。
第六方面,提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一可选的实现方式中的图像倾斜文本行检测模型的训练方法;或,
第二方面或者第二方面任一可选的实现方式中的基于图像倾斜文本行检测模型的图像倾斜文本行检测方法。
本发明实施例的图像倾斜文本行检测模型的训练方法及装置、基于图像倾斜文本行检测模型的图像倾斜文本行检测方法及装置、电子设备和计算机存储介质,能够更准确地进行图像倾斜文本行检测。该图像倾斜文本行检测模型的训练方法,基于包括多个具有倾斜文本行的目标图像的训练数据集训练RRCNN,由于RRCNN中的RRPN结构能够生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框,该附带倾斜角度的文本行候选框能够更紧密贴合图像倾斜文本行,故训练得到的图像倾斜文本行检测模型,能够更加准确地进行图像倾斜文本行检测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像倾斜文本行检测模型的训练方法的流程示意图;
图2是本发明实施例提供的一种基于图像倾斜文本行检测模型的图像倾斜文本行检测方法的流程示意图;
图3是本发明实施例提供的一种图像文本标注示意图;
图4是本发明实施例提供的另一种图像文本标注示意图;
图5是本发明实施例提供的一种RRCNN网络结构示意图;
图6是本发明实施例提供的一种RRPN结构原理示意图;
图7是本发明实施例提供的一种图像倾斜文本行检测的流程示意图;
图8是本发明实施例提供的一种RRCNN网络结构示意图;
图9是本发明实施例提供的一种图像倾斜文本行检测模型的训练装置的结构示意图;
图10是本发明实施例提供的一种基于图像倾斜文本行检测模型的图像倾斜文本行检测装置的结构示意图;
图11是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,常见的图像中文本行检测方法有MSER算法,角点检测算法和TextBoxes算法等。TextBoxes算法是目标检测算法(Single Shot MultiBox Detector,SSD)的衍生,根据文本行的特点改变了初始默认框的尺度和比例,不同卷积层产生的检测框可以检测不同尺度大小的文本行,但其只能检测水平的文本行,且不能解决文字间隔过宽的问题。发明人经研究发现,若用TextBoxes算法直接进行图像倾斜文本行检测,准确度较差。
为了解决现有技术问题,本发明实施例提供了一种图像倾斜文本行检测模型的训练方法及装置、基于图像倾斜文本行检测模型的图像倾斜文本行检测方法及装置、电子设备和计算机存储介质。下面首先对本发明实施例所提供的图像倾斜文本行检测模型的训练方法进行介绍。
图1是本发明实施例提供的一种图像倾斜文本行检测模型的训练方法的流程示意图。如图1所示,该图像倾斜文本行检测模型的训练方法,可以包括:
S101、获取训练数据集;其中,训练数据集包括多个具有倾斜文本行的目标图像。
在一个实施例中,获取训练数据集,可以包括:采集多个具有倾斜文本行的第一图像;确定各个第一图像的倾斜文本行的数据标签;其中,数据标签包括倾斜文本行所属矩形框的中心坐标、长度、宽度及倾斜角度;绑定第一图像及对应的数据标签,得到目标图像。
S102、基于训练数据集,训练RRCNN得到图像倾斜文本行检测模型;其中,RRCNN包括RRPN结构,RRPN结构用于生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框。
为了得到图像倾斜文本行检测更加准确的图像倾斜文本行检测模型,在一个实施例中,基于训练数据集,训练基于旋转区域的卷积神经网络RRCNN,得到图像倾斜文本行检测模型,可以包括:提取训练数据集中目标图像的图像特征,得到目标图像的特征图;基于特征图、预设尺寸比例的锚框及倾斜文本行的旋转信息,确定旋转锚框集;基于预设的倾斜文本行检测准确率,确定旋转锚框集中的旋转锚框正样本和旋转锚框负样本;基于旋转锚框正样本和旋转锚框负样本,训练RRCNN,得到图像倾斜文本行检测模型。
在一个实施例中,基于旋转锚框正样本和旋转锚框负样本,训练RRCNN,得到图像倾斜文本行检测模型,可以包括:获取目标损失函数;基于旋转锚框正样本、旋转锚框负样本及目标损失函数,确定RRCNN中各层结构的权重参数;基于RRCNN及RRCNN中各层结构的权重参数,得到图像倾斜文本行检测模型。
如图2所示,本发明实施例还提供一种基于图像倾斜文本行检测模型的图像倾斜文本行检测方法,图像倾斜文本行检测模型是使用图1所示的图像倾斜文本行检测模型的训练方法得到的模型,包括:
S201、获取待检测图像。
S202、将待检测图像输入图像倾斜文本行检测模型,输出文本行检测结果。
为了得到更加准确的文本行检测结果,在一个实施例中,将待检测图像输入图像倾斜文本行检测模型,输出文本行检测结果,可以包括:提取待检测图像的图像特征,得到待检测图像的特征图;基于特征图、预设的多个不同尺寸比例的锚框及待检测图像中倾斜文本行的旋转信息,确定多个不同尺寸比例的旋转锚框;基于任一旋转锚框,确定任一旋转锚框的文本行候选框;针对多个文本行候选框进行筛选和映射,得到目标特征图;基于预设的激活函数,针对目标特征图进行文本行检测框的回归和分类,输出文本行检测结果。
本发明实施例提供的图像倾斜文本行检测模型的训练方法和基于图像倾斜文本行检测模型的图像倾斜文本行检测方法,基于包括多个具有倾斜文本行的目标图像的训练数据集训练RRCNN,由于RRCNN中的RRPN结构能够生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框,该附带倾斜角度的文本行候选框能够更紧密贴合图像倾斜文本行,故训练得到的图像倾斜文本行检测模型,能够更加准确地进行图像倾斜文本行检测,也即输出更加准确的文本行检测结果。
下面以一个具体实施例进行说明,内容如下:
步骤1、制作训练数据集:
收集自然场景下具有不同倾斜角度的文本行数据集,例如MSRA-TD500,ICDAR2015,SVT等数据集。利用图像标注工具,框出倾斜文本行在图像中的位置得到数据标签,数据标签包括倾斜文本行矩形框的中心坐标、长度、宽度和倾斜角度等信息。例如,如图3和图4所示,图3中倾斜文本行“Spet.13-17,Zhangjiajie张家界”及“MSRA FY12 KICKOFF”分别被矩形框所标注,图4中倾斜文本行“提示:”、“请把瓶子送回水房”、“谢谢”及“2011.5.”均被矩形框所标注。
步骤2、搭建RRCNN网络:
RRCNN网络结构如图5所示,RRCNN网络结构包括RRPN结构,基于该RRCNN网络结构步骤2可具体分为步骤2.1至步骤2.3。
步骤2.1:数据集中的图片输入后,利用ZF-Net基础卷积层提取训练数据集的图像特征,得到特征图。ZF-Net基础卷积层包括5层卷积和3层池化。其中,5层卷积的卷积核大小可以分别为7×7、5×5、3×3、3×3、3×3,卷积步长可以分别为2、2、3、3、3;3层池化的池化核大小可以分别为3×3、3×3、3×3,池化步长可以分别为2、2、2。
步骤2.2:搭建RRPN全卷积可旋转区域提议网络,用来生成不同尺度和不同长宽比的带倾斜角度的文本行候选框(proposals)。RRPN结构的卷积核可以分别为3×3、1×1、1×1,卷积步长可以分别为2、1、1。其中,如图5所示,3×3卷积(填充1,256通道)可以扩展局部感受野从而进行滑窗操作,1×1卷积用来特征矩阵维度变换从而计算候选框的偏移量和类别。一个1×1卷积(5K通道)用于锚框回归以进行区域提议,另一个1×1卷积(2K通道)用于锚框分类以生成置信度。然后,将ZF-Net基础卷积层输出的特征图和区域提议输出的特征图进行RROI(Rotation ROI)池化,再输入全连接层进行分类和边框回归。
本发明实施例在卷积特征图上定义不同尺寸(scale)和比例(ratio)的锚框(anchor),并加入文本行的旋转信息θ,称之为旋转锚框(R-anchor)。考虑到文本行的横纵坐标比的范围比较大,如图6所示,可将scale调整为8px、16px和32px,ratio调整为1:2、1:5和1:8,并加入6个旋转角度-π/6、0、π/6、π/3、π/2和2π/3。
特征图上每个像素对应k(3×3×6)个R-anchor,每个R-anchor的5个参数坐标为(x,y,h,w,θ),其中,x,y分别表示proposals的中心点横纵坐标,h,w分别表示proposals的宽和高,θ表示proposals的旋转信息。回归层从256维(即图6中的256-d)特征中输出5k个平移缩放参数来预测proposals的中心点坐标、宽高和倾斜角,分类层从256维特征中输出2k个类别(文本和背景)和对应的概率。对于一个W×H的特征图,就会产生54×W×H个锚框,锚框回归层为5k×54×W×H个输出,分类层为2k×54×W×H个输出。
步骤2.3:筛选R-anchor,产生R-anchor正负样本。将ZF-Net基础卷积层输出的特征图输入RRPN可旋转区域提议网络,丢弃跨越边界的锚框和交并比(IoU)不符合要求的R-anchor,将剩余的R-anchor二分类。分类的参数指标为检测准确率,即R-anchor和实际文本框(Ground-Truth box,GT box)的交并比(IoU)。正样本的R-anchor选取原则:(1)R-anchor和GT box的IoU大于0.7;(2)R-anchor和GT box的交叉角度小于30度。负样本的R-anchor选取原则:(1)R-anchor和GT box的IOU小于0.3;(2)R-anchor和GT box的IOU大于0.7但交叉角(angle of cross,AOC)大于30度。剩下的R-anchor既不是正样本也不是负样本,不参与训练,同时跨越图像边界的R-anchor也不参与训练。正样本的R-anchor在训练的过程中回归微调直到逼近GT box,proposals就是在这一过程中产生的。
步骤3、训练RRCNN网络:
通过最小化多任务目标损失函数进行旋转锚框回归和概率计算。将MSRA-TD500数据集输入RRCNN网络进行训练,得到网络各层结构对应的权重参数,保存网络模型和权重信息。使用Caffe深度学习框架,学习率设为0.001,初始动量为0.8,权重衰减因子为0.0006。由于RRPN网络通过滑窗产生锚框,负锚框明显多于正锚框,如果针对所有锚框的损失函数进行优化,训练结果将会偏向于负样本。因此采用小批量随机梯度下降算法(Mini-BatchGradient Descent)来寻找损失函数的最优值,每个批次数(Mini-batch)由单张图像上任意选取的256个旋转锚框样本组成,其中采样的正锚和负锚比例为1:1,以满足样本均衡的训练要求。网络训练的多任务损失函数定义为:
L(p,l,λ,t*,t)=Lcls(p,l)+λlLreg(t*,t) (1)
式中,i表示R-anchor的索引,p表示预测为文本的概率,l是类标签(0代表背景,1代表文本),ti={tx,ty,tw,th,tθ}是预测候选框的5个参数化坐标组成的向量,是实际文本框(GT box)的5个参数化坐标组成的向量。Lcls表示文本目标损失,Lreg表示回归损失,参数λ用来调节目标损失和回归损失之间的比重。Ncls和Nreg分别用来标准化目标损失和回归损失,实验中Ncls为随机抽取样本的批次数(Mini-batch),Nreg为参与训练的R-anchor数量。
步骤4、图像倾斜文本行定位:
将倾斜文本行图像输入已经训练好的网络中,并加载模型和权重信息,得到倾斜文本行的检测结果。如图7所示,利用MSRA-TD500数据集和RRCNN网络进行模型训练,并存储训练好的模型。在使用的时候,将倾斜的文本行图像输入训练好的模型中,并网络加载模型和权重信息,输出定位文本行。
倾斜文本行的检测区别于通用物体检测的要求,需要以最小的检测框精确定位出文本行的边缘和倾斜角度。本发明实施例提出了倾斜文本行RRCNN检测网络,此网络能用最小包围矩形定位出多个不同长宽比和不同倾斜角度的文本行,从而解决了自然场景图像中倾斜文本行的定位问题。如图8所示,RRCNN网络中的可旋转区域提议RRPN结构是解决倾斜文本行定位问题的关键。RRPN结构可以在ZF-Net基础卷积层的特征图上进行滑窗操作,结合不同角度、不同尺寸和不同长宽比的旋转锚框(R-anchor)可以生成倾斜的文本行候选框(proposals)和对应的置信度。这些proposals通过非极大值抑制算法筛选后,映射到RROI池化(RROI Pooling)层,再经过全连接层(FC)的激活函数进行文本行检测框(BBox)的回归和分类,最终得到文本行检测结果。
本发明实施例是基于有标签的监督学习方法,对于复杂背景下倾斜文本行检测效果显著。相对于传统图像形态学操作方法,具有更高的可靠性和更好的鲁棒性,相对于常见的检测算法,可以产生具有倾斜角度的候选区域提议检测框,可以解决倾斜文本行的定位问题。
如图9所示,本发明实施例还提供一种图像倾斜文本行检测模型的训练装置,包括:
获取模块901,用于获取训练数据集;其中,训练数据集包括多个具有倾斜文本行的目标图像;
训练模块902,用于基于训练数据集,训练RRCNN,得到图像倾斜文本行检测模型;其中,RRCNN包括RRPN结构,RRPN结构用于生成各个目标图像的倾斜文本行对应的附带倾斜角度的文本行候选框。
可选地,获取模块901,用于采集多个具有倾斜文本行的第一图像;确定各个第一图像的倾斜文本行的数据标签;其中,数据标签包括倾斜文本行所属矩形框的中心坐标、长度、宽度及倾斜角度;绑定第一图像及对应的数据标签,得到目标图像。
可选地,训练模块902,用于提取训练数据集中目标图像的图像特征,得到目标图像的特征图;基于特征图、预设尺寸比例的锚框及倾斜文本行的旋转信息,确定旋转锚框集;基于预设的倾斜文本行检测准确率,确定旋转锚框集中的旋转锚框正样本和旋转锚框负样本;基于旋转锚框正样本和旋转锚框负样本,训练RRCNN,得到图像倾斜文本行检测模型。
可选地,训练模块902,还用于获取目标损失函数;基于旋转锚框正样本、旋转锚框负样本及目标损失函数,确定RRCNN中各层结构的权重参数;基于RRCNN及RRCNN中各层结构的权重参数,得到图像倾斜文本行检测模型。
图9提供的图像倾斜文本行检测模型的训练装置中的各个模块具有实现图1所示实例中各个步骤的功能,并达到与图1所示图像倾斜文本行检测模型的训练方法相同的技术效果,为简洁描述,在此不再赘述。
如图10所示,本发明实施例还提供一种基于图像倾斜文本行检测模型的图像倾斜文本行检测装置,图像倾斜文本行检测模型是使用图1所示的图像倾斜文本行检测模型的训练方法得到的模型,包括:
获取模块1001,用于获取待检测图像;
输出模块1002,用于将待检测图像输入图像倾斜文本行检测模型,输出文本行检测结果。
可选地,输出模块1002,用于提取待检测图像的图像特征,得到待检测图像的特征图;基于特征图、预设的多个不同尺寸比例的锚框及待检测图像中倾斜文本行的旋转信息,确定多个不同尺寸比例的旋转锚框;基于任一旋转锚框,确定任一旋转锚框的文本行候选框;针对多个文本行候选框进行筛选和映射,得到目标特征图;基于预设的激活函数,针对目标特征图进行文本行检测框的回归和分类,输出文本行检测结果。
图10提供的基于图像倾斜文本行检测模型的图像倾斜文本行检测装置中的各个模块具有实现图2所示实例中各个步骤的功能,并达到与图2所示基于图像倾斜文本行检测模型的图像倾斜文本行检测方法相同的技术效果,为简洁描述,在此不再赘述。
图11是本发明实施例提供的一种电子设备的结构示意图。
电子设备可以包括处理器1101以及存储有计算机程序指令的存储器1102。
具体地,上述处理器1101可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器1102可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器1102可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器1102可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1102可在综合网关容灾设备的内部或外部。在特定实施例中,存储器1102是非易失性固态存储器。在特定实施例中,存储器1102包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器1101通过读取并执行存储器1102中存储的计算机程序指令,以实现图1所示的图像倾斜文本行检测模型的训练方法或图2所示的基于图像倾斜文本行检测模型的图像倾斜文本行检测方法。
在一个示例中,电子设备还可包括通信接口1103和总线1110。其中,如图11所示,处理器1101、存储器1102、通信接口1103通过总线1110连接并完成相互间的通信。
通信接口1103,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线1110包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1110可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明实施例考虑任何合适的总线或互连。
另外,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现图1所示的图像倾斜文本行检测模型的训练方法或图2所示的基于图像倾斜文本行检测模型的图像倾斜文本行检测方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种图像倾斜文本行检测模型的训练方法,其特征在于,包括:
获取训练数据集;其中,所述训练数据集包括多个具有倾斜文本行的目标图像;
基于所述训练数据集,训练基于旋转区域的卷积神经网络RRCNN,得到图像倾斜文本行检测模型;其中,所述RRCNN包括旋转区域提议网络RRPN结构,所述RRPN结构用于生成各个所述目标图像的所述倾斜文本行对应的附带倾斜角度的文本行候选框。
2.根据权利要求1所述的图像倾斜文本行检测模型的训练方法,其特征在于,所述获取训练数据集,包括:
采集多个具有所述倾斜文本行的第一图像;
确定各个所述第一图像的所述倾斜文本行的数据标签;其中,所述数据标签包括所述倾斜文本行所属矩形框的中心坐标、长度、宽度及倾斜角度;
绑定所述第一图像及对应的数据标签,得到所述目标图像。
3.根据权利要求1所述的图像倾斜文本行检测模型的训练方法,其特征在于,所述基于所述训练数据集,训练基于旋转区域的卷积神经网络RRCNN,得到图像倾斜文本行检测模型,包括:
提取所述训练数据集中所述目标图像的图像特征,得到所述目标图像的特征图;
基于所述特征图、预设尺寸比例的锚框及所述倾斜文本行的旋转信息,确定旋转锚框集;
基于预设的倾斜文本行检测准确率,确定所述旋转锚框集中的旋转锚框正样本和旋转锚框负样本;
基于所述旋转锚框正样本和所述旋转锚框负样本,训练所述RRCNN,得到所述图像倾斜文本行检测模型。
4.根据权利要求3所述的图像倾斜文本行检测模型的训练方法,其特征在于,所述基于所述旋转锚框正样本和所述旋转锚框负样本,训练所述RRCNN,得到所述图像倾斜文本行检测模型,包括:
获取目标损失函数;
基于所述旋转锚框正样本、所述旋转锚框负样本及所述目标损失函数,确定所述RRCNN中各层结构的权重参数;
基于所述RRCNN及所述RRCNN中各层结构的所述权重参数,得到所述图像倾斜文本行检测模型。
5.一种基于图像倾斜文本行检测模型的图像倾斜文本行检测方法,其特征在于,所述图像倾斜文本行检测模型是使用权利要求1至4任一项所述的图像倾斜文本行检测模型的训练方法得到的模型,包括:
获取待检测图像;
将所述待检测图像输入所述图像倾斜文本行检测模型,输出文本行检测结果。
6.根据权利要求5所述的图像倾斜文本行检测方法,其特征在于,所述将所述待检测图像输入所述图像倾斜文本行检测模型,输出文本行检测结果,包括:
提取所述待检测图像的图像特征,得到所述待检测图像的特征图;
基于所述特征图、预设的多个不同尺寸比例的锚框及所述待检测图像中倾斜文本行的旋转信息,确定多个不同尺寸比例的旋转锚框;
基于任一旋转锚框,确定所述任一旋转锚框的文本行候选框;
针对多个所述文本行候选框进行筛选和映射,得到目标特征图;
基于预设的激活函数,针对所述目标特征图进行文本行检测框的回归和分类,输出所述文本行检测结果。
7.一种图像倾斜文本行检测模型的训练装置,其特征在于,包括:
获取模块,用于获取训练数据集;其中,所述训练数据集包括多个具有倾斜文本行的目标图像;
训练模块,用于基于所述训练数据集,训练RRCNN,得到图像倾斜文本行检测模型;其中,所述RRCNN包括RRPN结构,所述RRPN结构用于生成各个所述目标图像的所述倾斜文本行对应的附带倾斜角度的文本行候选框。
8.一种基于图像倾斜文本行检测模型的图像倾斜文本行检测装置,其特征在于,所述图像倾斜文本行检测模型是使用权利要求1至4任一项所述的图像倾斜文本行检测模型的训练方法得到的模型,包括:
获取模块,用于获取待检测图像;
输出模块,用于将所述待检测图像输入所述图像倾斜文本行检测模型,输出文本行检测结果。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的图像倾斜文本行检测模型的训练方法;或,
如权利要求5或6所述的基于图像倾斜文本行检测模型的图像倾斜文本行检测方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的图像倾斜文本行检测模型的训练方法;或,
如权利要求5或6所述的基于图像倾斜文本行检测模型的图像倾斜文本行检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010251711.1A CN111444918A (zh) | 2020-04-01 | 2020-04-01 | 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010251711.1A CN111444918A (zh) | 2020-04-01 | 2020-04-01 | 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444918A true CN111444918A (zh) | 2020-07-24 |
Family
ID=71652757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010251711.1A Pending CN111444918A (zh) | 2020-04-01 | 2020-04-01 | 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444918A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381183A (zh) * | 2021-01-12 | 2021-02-19 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112418344A (zh) * | 2020-12-07 | 2021-02-26 | 汇纳科技股份有限公司 | 一种训练方法、目标检测方法、介质及电子设备 |
CN112766266A (zh) * | 2021-01-29 | 2021-05-07 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN113033346A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 文本检测方法、装置和电子设备 |
CN113128485A (zh) * | 2021-03-17 | 2021-07-16 | 北京达佳互联信息技术有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
CN113326766A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN115100660A (zh) * | 2022-06-27 | 2022-09-23 | 平安银行股份有限公司 | 文档图像的倾斜校正方法及装置 |
CN115359493A (zh) * | 2022-10-08 | 2022-11-18 | 深圳比特微电子科技有限公司 | 旋转文字检测方法和装置 |
CN117894004A (zh) * | 2023-12-27 | 2024-04-16 | 武汉科技大学 | 一种基于深度学习的热铸坯号识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
-
2020
- 2020-04-01 CN CN202010251711.1A patent/CN111444918A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
Non-Patent Citations (1)
Title |
---|
尚果超: "基于深度卷积模型的手写中文文本识别" * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418344A (zh) * | 2020-12-07 | 2021-02-26 | 汇纳科技股份有限公司 | 一种训练方法、目标检测方法、介质及电子设备 |
CN112418344B (zh) * | 2020-12-07 | 2023-11-21 | 汇纳科技股份有限公司 | 一种训练方法、目标检测方法、介质及电子设备 |
CN112381183B (zh) * | 2021-01-12 | 2021-05-07 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112381183A (zh) * | 2021-01-12 | 2021-02-19 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112766266A (zh) * | 2021-01-29 | 2021-05-07 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN112766266B (zh) * | 2021-01-29 | 2021-12-10 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN113033346B (zh) * | 2021-03-10 | 2023-08-04 | 北京百度网讯科技有限公司 | 文本检测方法、装置和电子设备 |
CN113033346A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 文本检测方法、装置和电子设备 |
CN113128485A (zh) * | 2021-03-17 | 2021-07-16 | 北京达佳互联信息技术有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
CN113326766A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN113326766B (zh) * | 2021-05-27 | 2023-09-29 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN115100660A (zh) * | 2022-06-27 | 2022-09-23 | 平安银行股份有限公司 | 文档图像的倾斜校正方法及装置 |
CN115359493A (zh) * | 2022-10-08 | 2022-11-18 | 深圳比特微电子科技有限公司 | 旋转文字检测方法和装置 |
CN115359493B (zh) * | 2022-10-08 | 2023-09-08 | 深圳比特微电子科技有限公司 | 旋转文字检测方法和装置 |
CN117894004A (zh) * | 2023-12-27 | 2024-04-16 | 武汉科技大学 | 一种基于深度学习的热铸坯号识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444918A (zh) | 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法 | |
CN109117831B (zh) | 物体检测网络的训练方法和装置 | |
CN111340131B (zh) | 图像的标注方法、装置、可读介质和电子设备 | |
CN109977191B (zh) | 问题地图检测方法、装置、电子设备和介质 | |
CN104937638A (zh) | 用于跟踪和检测目标对象的系统和方法 | |
CN113537172B (zh) | 人群密度确定方法、装置、设备及存储介质 | |
CN107274442A (zh) | 一种图像识别方法和装置 | |
CN110852258A (zh) | 物体检测方法、装置、设备及存储介质 | |
CN110516494B (zh) | 一种二维码识别方法、装置、设备及系统 | |
CN110443242B (zh) | 读数框检测方法、目标识别模型训练方法及相关装置 | |
CN114663952A (zh) | 对象分类方法、深度学习模型的训练方法、装置和设备 | |
CN112183627B (zh) | 生成预测密度图网络的方法和车辆年检标数量检测方法 | |
CN110705511A (zh) | 模糊图像的识别方法、装置、设备及存储介质 | |
CN110647931A (zh) | 物体检测方法、电子设备、系统及介质 | |
CN112712036A (zh) | 交通标志识别方法、装置、电子设备及计算机存储介质 | |
CN115359308A (zh) | 模型训练、难例识别方法、装置、设备、存储介质及程序 | |
CN111209856A (zh) | 发票信息的识别方法、装置、电子设备及存储介质 | |
CN112396048B (zh) | 图片信息提取方法、装置、计算机设备及存储介质 | |
CN112183388B (zh) | 图像处理方法、装置、设备和介质 | |
CN112270305A (zh) | 卡片图像识别方法、装置和电子设备 | |
CN110348369B (zh) | 一种视频场景分类方法、装置、移动终端及存储介质 | |
WO2021051568A1 (zh) | 路网拓扑结构的构建方法、装置、计算机设备及存储介质 | |
CN113763077A (zh) | 用于检测虚假交易订单的方法和装置 | |
CN114791940B (zh) | 一种数字孪生城市中道路名称计算方法、设备及系统 | |
CN115546539A (zh) | 基于机器视觉的磁翻板液位读取方法、装置及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |