CN108921152B

CN108921152B - 基于物体检测网络的英文字符切分方法及装置

Info

Publication number: CN108921152B
Application number: CN201810701151.8A
Authority: CN
Inventors: 刘长松; 左天佑; 王言伟; 彭良瑞; 丁晓青
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-11-06
Anticipated expiration: 2038-06-29
Also published as: CN108921152A

Abstract

本发明实施例公开一种基于物体检测网络的英文字符切分方法及装置，能提高图片中英文字符切分的准确度。方法包括：S1、获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；S2、将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

Description

基于物体检测网络的英文字符切分方法及装置

技术领域

本发明实施例涉及文字识别领域，具体涉及一种基于物体检测网络的英文字符切分方法及装置。

背景技术

近些年来，与文字识别相关的领域受益于卷积神经网络得到更多的关注。一般而言，文字识别过程是由高层次的文字行到低层次的字符展开的。对于文字行的定位以及单个字符的识别过程均取得了令人瞩目的效果，从文字行区域得到单个字符区域不可或缺的需要字符切分工作，然而与文字切分相关的工作仍发展缓慢，成为目前限制文字识别效果的一项主要因素。提高字符切分的精度可以解决目前文字识别过程中存在的短板，大幅度提高文字识别效率，以应用于智能的文字信息获取，助力于实现更便捷的图文信息的相互转化。

文字行中字符的切分工作面临的主要难题是字符的粘连现象，尤其针对英文字符而言，粘连现象更是普遍存在。粘连现象描述的是文字行中字符的笔画重叠或是字符的区域重叠的这个问题。相互粘连的字符给切分工作带来了很大困难，传统方法在字符切分的效果上并不能令人满意。除了粘连现象以外，文字行中字符大小变化范围大、场景图片的倾斜与畸变、文字复杂的字体与艺术格式等状况也加大了字符切分的难度，寻找一种新的字符切分方法便显得尤为迫切且充满了挑战性。

发明内容

针对现有技术存在的不足和缺陷，本发明实施例提供一种基于物体检测网络的英文字符切分方法及装置。

一方面，本发明实施例提出一种基于物体检测网络的英文字符切分方法，包括：

S1、获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；

S2、将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

另一方面，本发明实施例提出一种基于物体检测网络的英文字符切分装置，包括：

提取单元，用于获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；

输入单元，用于将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的基于物体检测网络的英文字符切分方法及装置，通过获取待切分的图片，从所述待切分的图片中提取出英文文本行区域，并将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，整个方案中所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本，因而相较于现有技术，本发明实施例能够解决存在粘连情况下的字符切分问题，提高图片中英文字符切分的准确度。

附图说明

图1为本发明基于物体检测网络的英文字符切分方法一实施例的流程示意图；

图2为本发明基于物体检测网络的英文字符切分装置一实施例的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图1，本实施例公开一种基于物体检测网络的英文字符切分方法，包括：

本实施例中，处理对象为文字行图片或是包含文字的图片，将图片中可能存在粘连的字符切分开来。而在目前所知的公开数据集中还没有以字符级别标注的粘连文字图片。但是一般而言，对一种卷积神经网络模型的训练，首先要具备充足的经过标注的数据，才能够训练出有效的模型。对文字而言，样本集过小一方面不能得到收敛的训练模型，另一方面不能反映与代表真实环境中复杂的文字字体、颜色、大小等情况。真实图片中的文字，不仅种类繁多，自身变化差异较大，而且由于拍摄的角度、光照等因素产生很多干扰项，给切分工作带来了很多的困难。因而本实施例使用自动生成的人工训练样本，模拟真实的自然场景中的图像。合成数据与人工标记的图片相比，虽然真实性较差，但仍在一定程度上模拟了文字行区域所处的复杂背景，而且生成速度快，位置与字符类别标注更加精准，可以用来代替真实标注的数据集。

通过观察常见的字符粘连样例，可以发现文字行中的字符的粘连特性一般体现在四个方面。

第一种是相邻字符中的缩进，因为排版过程中的缩进导致字符区域合并到了一起，笔画重叠使得切分工作十分困难，因而这种情况可以形象的称为“缩进粘连”。

第二种情况是由于字符的延展而产生的，在很多字体格式当中，每个字符的区域并不是完全独立的，为了字体的美观性，许多种类的字符具有一定的延展空间，使得其部分区域已经蔓延到相邻字符区域中，可以形象的将这种状况描述为“蔓延粘连”，虽然在像素层面字符没有粘连，但是字符所在的区域框却有重叠，此时不能用一条边界将二者区分开，而需要一对边界进行切分。

第三种情况是由于透视或者倾斜所产生的，在这种情况下，实际字符本身并没有粘连，但由于拍摄角度倾斜产生的透视，或者是由于字符是被刻画在弯曲的物体上时，拍摄得到的图片当中会使字符有粘连，因而这种情况可以称之为“视角粘连”。

除了这三种的情况以外，字体的艺术效果如阴影，倾斜也会有影响。字符的阴影效果会在字符旁边产生一个虚化的字符轮廓，虽然相对于原始字符而言颜色较淡，但仍会对切分工作产生干扰。而字符使用倾斜特效时，其边界区域为一平行四边形，但是检测网络使用的边界框通常为矩形框，用矩形去标定平行四边形，难免会在切分字符时得到相邻字符的部分结构。这种由于艺术特效所产生的粘连情况可以称为“特效粘连”。在人工合成样本的过程中，充分考虑了这些可能产生粘连的情况，并在样本当中尽可能真实的还原了字符粘连。

为了展示物体检测网络的切分效果，可以生成一批黑白文字行图片作为训练样本。为了排除图片尺寸对结果的影响，限定人工生成图片为固定规格，由于单纯的文字行的宽长比很大，而物体检测网络输入图片尺度接近正方形，所以不适合直接对其投入到后续的网络训练过程，因而需要将将文字行填充到一个更友善的宽长比图片中，而本实施例中可以将人工生成图片的大小设定为800*400。

之后选择填充到黑白图片中的文本，从一个英文报刊当中随机截取一个片段，由于测试的是文字行的切分效果，所以从片段当中只选择了一行文字。根据图片的宽与长，在一定的范围内随机选择插入字符的尺寸，特别的图片尺度为800*400时，插入的字符尺寸范围是20到60像素。为了保证足够多的字符使得所截取部分可以看做为一行，设定每行最小的英文字符为十五个。然而受到背景图片大小的约束，当从片段中截取过多字符时则拒绝填充，因而每行字符个数在一个范围内变化。当所截取片段字符数满足上述要求时，才可以进行填充。

由于在自然文本中，不同的字符出现概率不同，所以会使得训练模型对某种字符的识别效果较差，所以在填充之前，用随机的小写字符代替那些待填充的片段，但是保留了单词之间的空格和其他数字与标点符号。因为部分字母的大小写相差较多，而部分字母的大小写基本一样，不同的分类情况会产生较大的差异，而若是对比两者效果，只需考虑简单情况，去除大写字母的干扰，所以在填充图像中只能出现小写字母，数字，标点符号三种类别。

在本实施例中，可以选择九种不同的字体类型，每张人工生成样本都在其中随机选择一种，通过复杂的字体类型来增加对各种情况下的处理效果。除此之外，用来填充的字体还可以实现下划线、加粗、倾斜、弯曲、增加边界框、产生阴影等操作。这些字体特效均由随机数控制，有一定的概率出现在人工合成样本中。通过这些特效模拟真实文字图片中可能产生的粘连情况，通过倾斜于阴影模拟“特效粘连”，通过倾斜与弯曲模拟“视角粘连”，通过加粗字体将笔画宽度增加，使得各字符密集的贴合在一起。控制这些特效产生的概率，使得大多数样本为正常清晰的图片，保证训练样本的有效性，避免了过多的特效产生的噪声使得基本的检测模型不能完成功能。

选择完成后，利用得到的文字片段与字体模式进行填充。针对不同种类的字符，其宽长比是不同的，通过查表得出所有字符的宽长比，然后依次对文字片段中的每个字符进行填充。数字、标点符号、空白区域也都按照相同的办法进行填充，使得填充所得图片与填充前的文字片段相同。各个填充符号无缝贴合，构成文字行。为了模拟“缩进粘连的情况”，使整个字符序列有一定概率缩进，从而减少相邻字符之间的空间，产生粘连的特效。在填充的过程当中记录原始的文字片段，和填充后各字符边界框的坐标。

为了验证物体检测网络是按类别检测字符的，防止其仅是简单的依据颜色判断，增加了一个对比项，即对于数字以及标点符号虽填充在图像中但均不予标注，不输出数字和标点的边界框信息。因而最终得到的用于训练的合成图片中，只保存每幅图中各英文字符的标定信息。将标定信息按照物体检测网络的输入需求存储为相应的格式。生成8000张人工合成图片，其中80％用作训练集，10％当作验证集，10％当作测试集。

增加字体种类也可以适应更复杂的真实环境。在之前的填充过程中使用了九种常用英文字体，而这些字体相对比较规整，在检测规整的文字时效果较好，对于相对花哨的字体则无能为力。为了克服字体对检测结果的影响，在生成人工合成样本时挑选了二百零五种字体，填充时随机选择一种。增加的字体种类可以模拟生活中遇到的各型各态的字符，从而提升在实际图片中的检测效果。

为了检测在真实图片当中字符切分的效果，就要生成模拟真实图片的人工合成文字图片。此部分所用的图片是在前一种黑白文字行样本集的基础上生成的。保留了黑白样本集中所使用的倾斜、加粗、阴影、下划线等操作手段。由于真实图片当中字符大小变化范围大，所以使用了多种大小区间的字符进行填充，将之前限制每行字符数最少十五个转变为三种情况，分别限制每行最少字符数为五个、十个、十五个，每种情况均存在其对应的字符大小范围，从而保证图片当中存在各种尺度的字符。除此以外，由于真实环境当中存在较多的大写字母和数字，因而对它们的识别对字符切分也有重要的作用。所以在填充字符时，仍然从英文报刊中截取一个片段，以保证填充内容有多变的句式结构。对片段中的标点符号予以保留，对片段中的字母和数字进行替换，原本存在字母或数字的位置有20％的几率出现数字，小写字母与大写字母各有40％的填充几率。数字、小写字母、大写字母均标定其边界并输出用于后续网络的训练过程。将之前每张图片只有一行文字转变为每张图片可能存在多行文字的情况，模拟了真实环境当中同时存在多行文字的情景。为了模拟真实的文字图片，本文使用了三种类型的合成图片，一种是白底黑字的合成图片(15％)，一种是黑底白字的合成图片(15％)，另一种是渲染到真实图片当中的合成图片(70％)。其中黑白图片的宽长在700到900像素之间各自独立随机取值，因为真实图片中有大部分的文字处于黑底白字或者白底黑字的状态，所以此部分为了模拟自然场景当中较为规整的文字图像。渲染图像所用的背景图像来源于PASCAL VOC 2007数据集，随机选择图片当作填充背景。而渲染的原则是根据从文字图片数据集中总结出到的文字背景颜色与文字前景颜色的对应关系，依据随机选择的用于填充的背景区域的颜色来确定字符的颜色。用于填充的背景图像一半保留了原有大小，一半的图片将其宽长调整到700到900像素之间的随机数值。总共生成9000张人工合成图片用于训练与测试。

本发明实施例提供的基于物体检测网络的英文字符切分方法，通过获取待切分的图片，从所述待切分的图片中提取出英文文本行区域，并将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，整个方案中所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本，因而相较于现有技术，本发明实施例能够解决存在粘连情况下的字符切分问题，提高图片中英文字符切分的准确度。

在前述方法实施例的基础上，所述训练样本包括真实样本和人工合成样本。

在前述方法实施例的基础上，所述物体检测网络在训练时将形状相似的字符合并作为一个类别，通过物体检测网络检测出每个类别的准确位置，从而完成字符的切分。

所述物体检测网络在训练时可以使用不合并规则、大小写合并规则、激进合并规则和保守合并规则中任一规则进行字符类别划分。

本实施例中，物体检测网络则是根据类别信息回归得到图片中的目标，因而类别的划分至关重要。不同类别之间的区分度应该尽可能的大，才能够在训练过程中更早的使网络达到收敛。若形状相似的两种字符被划分成了一类，则分类器很难将这二者区分。这种情况在同时存在大写小写字母时，尤为突出。诸如大写字符“C”与小写字符“c”，两者形状完全相同，只是大小存在差别。然而由于图片当中字符的大小是不断变化的，需要根据上下文信息才能判断C(c)的大小写情况，这样做需要引入RNN进行背景环境分析，会增加不必要的模型复杂度。因而若只利用单一的检测网络进行切分，则需要对字符进行合并。

在研究过程中，针对字符合并提出了四种方案：

合并方案一：不合并

方案一选择将每种字符单独划分成一个类别，因而总共有26+26+10即62种字符类别，对这种不合并字符的情况作为实验的基准。然而在训练时，并不能获取一个有效的模型，网络无法达到收敛。因为C(c)、O(o)、X(x)等情况下，大写与小写字母过于相似，并不能通过训练出的模型区分出二者，这些相似字符导致整个网络难以找到合适的梯度方向，造成网络不收敛，对所有字符检测结果均较差。

合并方案二：大小写合并

方案二选择将字符的大小写归为一类，而数字仍保持其原有的分类，在这种情况下总共有26+10即36类字符。使用人工合成的文字图片作为测试集，IOU(Intersection-over-Union，交并比)的数值可以达到80.60％，在召回率为95.11％时可以达到97.66％的准确率。这些数据相比于黑白文字行图像有一定的损失，然而仍然保持了比较好的检测结果。准确率下降的原因是生成的合成图片中，文字行的位置是随机添加的，且文字行覆盖了一个较大的区域，由于背景图片的复杂变化，使得添加的文字可能与一部分背景颜色相近，难以区分出来。然而对于合成图片中比较清晰的字符串区域，仍然保持着很优秀的检测效果。除了一些在合成过程中产生的文字添加不清楚的图片以外，可以十分准确的回归出每个字符的位置和边框，达到了很好的效果。

为了验证其在真实图片中检测效果，使用了icdar2003的数据集，利用训练模型对图片数据集中的文字进行切分。能够在自然图片中实现英文字符的切分，在图片中回归出字符区域。

适度调小阈值，可以获得更加丰富的字符目标。然而这种做法会输出一些错误判断，值得庆幸的时，输出的错误多是在一个字符的区域将一种字符类型误判成为另一种字符类型，而区域的边界可以较为准确的定位。IOU数据相对低的情况主要是在竖直方向判断字符高度时产生的误差，在某些图片中会多标定字符上下多余的区域。而字符切分只关心对目标边界框水平方向的判断精确度，实验结果中在水平方向对字符之间的边界判断相对准确，竖直方向产生的误差并不会影响实际的切分。

通过研究网络的切分结果图，可知找出一些存在的共性漏检字符情况。当字符的大小写形状差别较大时，这种情况下的字符精确度会降低。举例而言，对于字符“H”，检测网络经常将其视为两种字符“i”“t”的组合。此外互为镜像的字符有时候会相互误判，如“b”、“d”；“p”、“q”等，然而这个情况判断的字符位置定位仍然准确，可以实现切分。经过分析，猜测可能因为同一个类别包含两种形态差异较大的字符时，检测这种类别需要不同的特征判断，所以会造成模型对于这种字符的分类不收敛，导致检测精度下降。于是提出了独特的字符合并法则，合并了相似字符，保留各种不相似字符使其单独为一类。

合并方案三：激进合并规则

方案三则是使用了独特的字符合并规则。根据之前方案的识别效果得知，需要将形状差异较大的字符区分开来。由于字符切分只关心字符检测过程中所得到的边界框信息，对其检测种类并没有要求，只需得到更精确的边界位置，所以可以舍弃分类的准确度来提高定位的准确度。因而在这一方案提出了一种新的字符合并规则，如下表所示，这种合并方案相对激进，合并了较多的字符。合并的规则首先合并大小写基本相似的字符，然后将数字与字母或字母与字母形状相似的进行合并，最终对一些互为镜像对称的字符进行合并。总共合并了二十个字符，因而最终网络需要检测42种类别的字符，合并规则如表3.1所示。

表3.1激进的字符合并规则

原始字符

C

K

I

M

N

O

P

S

U

V

转换字符

c

k

L

m

n

o

p

s

u

原始字符

v

W

X

Z

0

1

e

E

d

q

转换字符

u

w

X

z

o

l

c

D

b

p

这种方案相比于前两种方案有了较大的提升，对于大写字母的鉴定提升效果明显。既保持了在人工合成的数据集上的较高性能，更改善了对于实际物体的切分效果，能够适应不同尺寸的字符。其效果的改善是因为专门针对大写字母单独训练了若干分类，使得网络能够更好地获知大写英文字母的结构特点。在方案三中所得的字符标签并不是其真实字母而是其合并后对应的字母，这样是一种定位精度与类别精度的一种性能交换，使得能模型更好的切分字符。

合并方案四：保守合并规则

方案四中同样采用了独特的字符合并规则，与方案三相比该方案的合并规则相对保守，只合并了特别相似的字符，对于有一部分相似或是对称的字符没有进行合并。合并规则如表3.2所示。该方案相对于方案二而言有了很大的效果提升，然而与方案三相比结果基本一致。

表3.2保守的字符合并规则

通过这些方案的合并规则可以得出，对于形状极其相似的字符，必须将其合并为一类才能够获得收敛的模型。然而对于形状相差较大的字符，如果将其合并为一类，则会使得检测效果恶化。对于形状有一定相似度的字符而言，合并与否并不会对检测效果产生很大的影响。

在前述方法实施例的基础上，所述物体检测网络可以为Faster R-CNN或YOLO v3。

本实施例中，Faster R-CNN是对R-CNN以及Fast R-CNN的改进版本，此三者均是先生成候选区域框，然后利用卷积神经网进行分类判别。然而三者采用了不同的生成候选区域的方法，使得速度与检测结果差别较大，其中R-CNN提出的每一个候选框都需要单独计算特征，计算速度较慢。而其改进版本Fast R-CNN则弥补对于每一个候选区域都单独计算特征的弊端，利用选择性搜索等手段筛选候选框，并利用ROI Pooling(感兴趣区域池化层)层在处理前，将输入图片归一化到统一尺度，从而解除了训练网络对于图片尺寸的约束。此外，类别判断与边界框的位置回归并行计算，共同使用卷积神经网络获取的特征，从而同时提高了准度与速度。但由于操作过程是在中央处理器CPU当中运行的，而且区域的重复计算问题广泛存在，因而计算速度较慢。

而Faster R-CNN则是看到了前面两者在提取候选框等问题上的不足，提出利用区域生成网络来筛选候选框，使得此步骤也利用了神经网络，充分利用了图形处理器GPU和卷积网络的特征，实现了较大提升。其具体流程为，先将输入图片归一化送入共享网络提取特征，区域生成网络根据这些前段输入特征图来提取候选框，使用若干种大小已经提前确定的锚进行窗口滑动。由于其确定长宽比的限制，导致其得到的候选框的长宽比范围也是固定的，对于一些狭长或是瘦高的物体检测在原理上就存在缺陷，所以若简单的将文字行作为目标进行检测时，效果很差，目前常用方法均将文字行按照一定手段切分成适合筛选的宽长比接近一的小区域。同时利用多尺度的锚进行判别，解除了待测目标尺寸不定的问题。同时利用滑动窗口可以解决镜像翻转的问题，由于在滑动过程中，镜像位置的权重是相同的，所以当目标水平或者竖直镜像翻转后仍能检测出来。特征图与初始图之间虽然尺度不同，但是依旧保持着直接映射的关系，因而这种对应关系保证了特征图上挑选出的候选框可以映照出初始图所对应的区域，然而由于两者尺度不同，窗口在特征图上滑动的每一小步对应原图的十六个点，所以对于尺度小于这个限制的小物体在原理上检测较差。区域生成网络根据是否存在物体决定输出的候选框，判断依据仅为前景和背景两种分类，并没有对其具体种类进行判定，只是输出了可能存在前景物体的区域。使用非极大值抑制的方法，提取出预测概率更高的候选框输送给后续结构。最终在全连接网络中根据区域生成网络提供出来的候选框和卷积层的特征进行判断，同时解决了分类判别和位置修订这两个步骤。区域生成网络和分类网络是共享卷积特征的，整个结构使用统一的损失函数，两者交替训练提升了网络的收敛速度。

YOLO v3则只使用一个神经网络，将输入图片划分成若干区域，并依照概率判断它们的类别。YOLO v3运用一次检测同时得到目标的定位和其可信概率。相比之前版本，在框架上没有较大变化，使用了一些手段提高了校测结果。

YOLO v3通过Darknet-53提取图片特征的信息，然后利用锚在多尺度的特征图上面进行检测预测边界框，通过逻辑回归得到每个类别的得分。相比之前版本对小物体检测较差的结果有了很大的提升，使得对于检测字符这种小规格物体成为可能。使用维度聚类的手段去预测边界框，根据重叠程度为每一个检测物体分配一个最优的边界框。使用独立的逻辑分类器来预测边界框中每个类的置信概率，相比于softmax分类器，逻辑分类器在处理同一个区域内存在多种物体时效果更佳。Softmax分类将得分最大的类别分配给每个边界框，而逻辑分类器则保留了各个类别的得分。这样一方面既可以解决标签重叠的问题，又能够区分同一个区域内粘连的小物体。基于YOLO v2所使用的Darknet-19网络，结合了残差网络，提出了新颖的Darknet-53用于特征提取。残差网络可以帮助解决网络过深时产生的退化，通过跳跃式传递，解决了网络中上面层特征提取不准确导致误差逐层传递的现象。还利用了多尺度的框进行预测，通过对网络中前部层进行上采样，得到了更细的细粒度的信息特征，将各层特征图合并成为组合的特征图，在特征图上使用九个聚类三种不同尺度的框进行预测。由于得到了更微观的特征，YOLO v3解决了之前版本中一直存在的对比较小的物体检测的效果不理想的问题。然而多尺度代价是针对一些中等或者较大尺寸的物体，检测效果相对较差，然而一般情况下字符的尺寸相对较小，产生的影响不大。使用了更多的框去预测，牺牲了一部分检测速度，提高了对更大变化范围内物体的检测效果。

在Faster R-CNN中，由于检测过程是分两个步骤进行的，需要先获取候选区域再对区域内进行位置修正与类别判断，因而检测速度较慢。而在检测精度上看，对于如“i”、“l”，“r”等宽度较小的字符识别结果较差。以字符“i”为例，由于其较为狭长，当所有字符处于相同的高度时，其宽度所占据的像素较小。而在Faster R-CNN的网络结构中，通过卷积层提取特征以后，在风险系数RPN中feat stride(输出步长参数)的大小16，意味着利用锚在特征图上滑动时，每一点对应原图中16个像素点，而宽度小于这个范围内的字符在相邻的滑动过程中可能被忽略，所以检测结果不佳。

除此以外，在RPN中判断是否输出候选框的依据是这个区域内是否存在待检测物体，只是简单地根据前景与背景的概率进行判别，并没有考虑到这个区域可能存在的物体类别的情况。这种方式不仅仅在处理重叠标签的问题时会产生很大误差，在处理细小的物体上时也会较大误差。因为当物体较小时，同一个区域可能同时包含两类字符，由于该区域存在字符的概率很高所以在提取候选区域时有较高的优先级。然而实际上，这种包含两类字符的区域，其中心位置是字符的边界，而这种情况是我们最不想得到的效果，理想情况下字符的边界应该在候选区域的边缘而不是中心。由于样本中存在部分粘连字符，由于相邻字符笔画没有间断，会导致这种只判断前景背景的方法结果更加恶化。所以在检测效果图中，水平位置有较大的偏移，IOU的数值较小。

相比之下，YOLO v3更适合粘连字符的切分。使用了单一的网络，一次性的获得了字符的位置和类别，因而检测速度更快。通过多级预测的方法，使用了多个卷积层的特征图合并而成的特征图，具有更佳的细粒度，对细小物体的检测效果有了很大的提升，可以检测出宽度不到十像素的字符。改变了提取候选框损失函数，将原有的softmax分类转变为了多重逻辑分类，使得提取候选框时更看其中每一类字符的置信概率，使得提取的区域更贴合一个完整的字符区域，而不是相邻字符的交界区域。使用了九个聚类三种不同尺度的框进行预测，能适应尺寸复杂变化的字符。

参看图2，本实施例公开一种基于物体检测网络的英文字符切分装置，包括：

提取单元1，用于获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；

输入单元2，用于将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

具体地，所述提取单元1获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；输入单元2将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

本发明实施例提供的基于物体检测网络的英文字符切分装置，通过获取待切分的图片，从所述待切分的图片中提取出英文文本行区域，并将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，整个方案中所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本，因而相较于现有技术，本发明实施例能够解决存在粘连情况下的字符切分问题，提高图片中英文字符切分的准确度。

在前述装置实施例的基础上，所述训练样本包括真实样本和人工合成样本。

在前述装置实施例的基础上，所述物体检测网络在训练时将形状相似的字符合并作为一个类别，通过物体检测网络检测出每个类别的准确位置，从而完成字符的切分。

在前述装置实施例的基础上，所述物体检测网络为能够从一张图片中检测出，并能给出准确外接框的深度神经网络，包括但不限于Faster R-CNN和YOLO v3。

本实施例的基于物体检测网络的英文字符切分装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3示出了本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：获取待切分的图片，从所述待切分的图片中提取出英文文本行区域；将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于物体检测网络的英文字符切分方法，其特征在于，包括：

S2、将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本，所述训练样本包括真实样本和人工合成样本；

其中，所述物体检测网络在训练时将形状相似的字符合并作为一个类别，通过物体检测网络检测出每个类别的准确位置，从而完成字符的切分。

2.根据权利要求1所述的方法，其特征在于，所述物体检测网络为Faster R-CNN或YOLOv3。

3.一种基于物体检测网络的英文字符切分装置，其特征在于，包括：

输入单元，用于将所述英文文本行区域输入预先训练得到的物体检测网络，得到所述待切分的图片的英文字符的切分结果，其中，所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本，所述训练样本包括真实样本和人工合成样本；

4.根据权利要求3所述的装置，其特征在于，所述物体检测网络为Faster R-CNN或YOLOv3。

5.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-2中任一项所述的方法。

6.一种非暂态计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-2中任一项所述的方法。