CN110363252B - 趋向于端到端的场景文字检测与识别方法以及系统 - Google Patents

趋向于端到端的场景文字检测与识别方法以及系统 Download PDF

Info

Publication number
CN110363252B
CN110363252B CN201910670901.4A CN201910670901A CN110363252B CN 110363252 B CN110363252 B CN 110363252B CN 201910670901 A CN201910670901 A CN 201910670901A CN 110363252 B CN110363252 B CN 110363252B
Authority
CN
China
Prior art keywords
character
data set
network
text
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910670901.4A
Other languages
English (en)
Other versions
CN110363252A (zh
Inventor
崔鹏
宋振
张焕水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910670901.4A priority Critical patent/CN110363252B/zh
Publication of CN110363252A publication Critical patent/CN110363252A/zh
Application granted granted Critical
Publication of CN110363252B publication Critical patent/CN110363252B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提供了一种趋向于端到端的场景文字检测与识别方法及系统,分别采集已标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;采集已标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络。将图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成可读的字符序列。由于只计算一次卷积特征图谱,避免了中间的冗余过程,提高了整个场景文字检测与识别系统的速度。

Description

趋向于端到端的场景文字检测与识别方法以及系统
技术领域
本公开属于文字检测与识别技术领域,具体涉及一种趋向于端到端的场景文字检测与识别方法以及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
文字作为人类最伟大的发明,是人们进行信息传递以及信息交互的主要途径之一。图片是文字的主要载体之一,因此从图片中读取出文字具有重要的实用价值。
据发明人了解,传统的处理方法一般先由文字检测算法检测出原始输入图像上文字的位置,并且用文本框将文字圈起来;然后利用Opencv等方法将文字所在的区域从图片上裁剪下来;最后利用文字识别算法识别出这些只包含文字的图片块上的文字序列。这种算法将文字的位置检测和文字的内容识别分开来进行,存在时间差、顺序差,同时,由于文字检测算法和文字识别算法都需要分别利用卷积神经网络来提取特征图谱,浪费了大量的执行时间,同时,文字检测与文字识别被视作两个互不相关的任务,使得检测与识别之间不能互相促进,既会增加系统的复杂度,也不利于提高整个系统的速度和准确率。
发明内容
本公开为了解决上述问题,提出了一种趋向于端到端的场景文字检测与识别方法以及系统,本公开首先通过卷积神经网络计算共享卷积特征图谱,然后使检测部分和识别部分共享上述特征图谱,由于只计算一次卷积特征图谱,避免了一些中间的冗余过程,例如图片裁剪和特征图谱的重复计算,提升了整个场景文字检测与识别系统的速度,而且可以使得文字检测和识别之间互相促进,提高整个系统的识别准确率。
根据一些实施例,本公开采用如下技术方案:
一种趋向于端到端的场景文字检测与识别方法,包括以下步骤:
(1)采集标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络。
(2)采集标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络。
(3)采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络。
(4)将步骤(3)的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列。
作为可选的实施方式,所述步骤(1)中,特征提取网络采用Vgg16的卷积神经网络部分。
作为可选的实施方式,所述步骤(1)中对标注有物体类别的数据集的预处理包括将图片缩放,并将图片各通道像素值分别减去均值。
作为可选的实施方式,所述步骤(2)中对标注有文字位置的数据集的预处理包括将图片缩放至指定像素。
作为可选的实施方式,所述步骤(2)中,对标注有文字位置的图片进行缩放的同时,也要对标签文件中的文字框坐标做相应的缩放,此外还需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框。
作为可选的实施方式,所述步骤(3)中,利用独立训练法训练文字识别部分的神经网络,即固定文字检测部分网络的参数,仅仅训练文字识别部分的神经网络。
作为可选的实施方式,所述步骤(3)中,利用联合训练法训练文字识别部分的神经网络,即同时训练文字检测部分和文字识别部分的神经网络。
作为可选的实施方式,所述步骤(4)中,只需要将图片及相应的文本框坐标文件,还有相应的转录文本文件作为输入,应用一个多损失函数来同时优化整个模型的参数。
作为可选的实施方式,所述步骤(4)中,对于任意一张输入图片,完整的多损失函数被定义为:
Figure BDA0002141657190000031
其中:pi代表网络预测出anchor i是文本的概率;
Figure BDA0002141657190000032
代表的是标签,其值为0或者为1,i代表的是anchor的索引,Nreg代表的是此次迭代过程中正对象(anchor)的数目,我们只对正训练对象计算坐标回归损失,j代表的是正训练对象(anchor)集合中训练对象的索引,Δj代表网络预测出来的坐标偏移量,
Figure BDA0002141657190000041
代表的是标签坐标偏移量;
Figure BDA0002141657190000042
代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,
Figure BDA0002141657190000043
代表的是与之对应的第k个标签转录文本,Nrec代表的是输入图片上标签文本框的个数。
一种趋向于端到端的场景文字检测与识别系统,包括:
样本采集模块,被配置为采集已有的标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;
样本采集模块,被配置为采集已有的标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;
数据采集模块,被配置为采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络;
处理模块,被配置为将数据采集模块的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
与现有技术相比,本公开的有益效果为:
本公开是趋向于端到端的,可以同时输出文字的坐标和文字内容,极大的改善了场景文字检测与识别系统的快速性;
本公开提出来的网络可以通过反向传播和随机梯度下降算法进行端到端的训练,网络检测和识别一张图片的时间短,满足应用要求。
本公开首先通过卷积神经网络计算共享卷积特征图谱,然后使检测部分和识别部分共享上述特征图谱,由于只计算一次卷积特征图谱,避免了一些中间的冗余过程,例如图片裁剪和特征图谱的重复计算,提升了整个场景文字检测与识别系统的速度;而且可以使得文字检测和识别之间互相促进,提高整个系统的识别准确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是传统算法的过程示意图;
图2是本公开的过程示意图;
图3是本公开的流程示意图;
图4是本公开的部分检测识别结果示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,正如背景技术中所述的,由于现有的方法中,文字检测算法和文字识别算法都需要分别利用卷积神经网络来提取特征图谱,浪费了大量的执行时间。而且上述方法将文字检测与文字识别视作两个互不相关的任务,使得检测与识别之间不能互相促进,不利于提高整个系统的准确率。
如图2所示,本公开首先通过卷积神经网络计算共享卷积特征图谱,然后使检测部分和识别部分共享上述特征图谱,由于只计算一次卷积特征图谱,避免了一些中间的冗余过程,例如图片裁剪和特征图谱的重复计算,提升了整个场景文字检测与识别系统的速度;而且可以使得文字检测和识别之间互相促进,提高整个系统的识别准确率。
具体的,提出一种端到端的场景文字检测与识别方法,可以同时检测文字位置以及识别文字内容,提高文字检测与识别系统的快速性。
如图3所示,具体过程包括:
步骤S1:收集众多标注有物体类别的图片,构建训练数据集及测试数据集,用以训练特征提取网络。
为了训练上述特征提取网络,在本实施例的方法中,采用的是Imagenet2012数据集,该数据集包括1000个类别以及数百万计的图片;关于特征提取网络,本实施例采用的是Vgg16(只需要用到它的卷积层)。损失函数采用如下的Softmax损失函数,优化器采用Adam。
Figure BDA0002141657190000071
n指代的是n张图片,
Figure BDA0002141657190000072
指的是第i-th样本的真实值,yi指的是第i-th样本的预测值。为了加速训练,本实施例也可以在开源权重的基础上微调Vgg16网络的参数。
步骤S2:在训练特征提取网络时,需要对数据集进行预处理,以提高整个系统的健壮性以及泛化性。在本实施例中,主要指的是,缩放图片至224*224以及图片各通道像素值分别减去均值[103.94,116.78,123.68](RGB)。
步骤S3:收集众多标注有文字位置的图片,构建训练数据集及测试数据集,用以训练文字检测部分的神经网络。在本实施例方法中,利用的是ICDAR2015,2017,2019部分数据集以及我们团队手工标注的图片。在训练文字检测部分的神经网络的时候,本实施例需要缩放图片,缩放以后的图片满足,短边长度不低于600像素,长边长度不高于1200像素,同时短边以及长边的长度是16的倍数。在对图片进行缩放的同时,也要对标签文件中的坐标做相应比例的缩放。其次根据CTPN网络的要求,需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框(fine-scale text proposal)。
文字检测部分网络输出2部分的内容,一部分是proposal的偏移量Δx,Δy,Δw,Δh它们分别表示本实施例预测出的小文本框(fine-scale text proposal)相对于预先设定的anchor在x-axis,y-axis,高度,宽度方向上的偏移量。其定义如下:
Figure BDA0002141657190000081
Δw=log(w/wa);Δh=log(h/ha)
Figure BDA0002141657190000082
Δw*=log(w*/wa);Δh*=log(h*/ha)
其中
Figure BDA0002141657190000083
wa,ha,分别表示anchor的x-axis坐标,y-axis坐标,宽度还有高度;cx,cy,w,h分别表示网络预测出来的小文本框(proposal)的x-axis,y-axis坐标,宽度还有高度;
Figure BDA0002141657190000084
w*,h*是计算出来的小文本框(proposal)的标签坐标。另外一部分是网络预测出来的小文本框(fine-scale text proposal)是真实文本框的概率。
当本实施例使用1*1卷积核在共享卷积特征图谱上滑动时,预测出这个位置上的每一个小文本框(proposal)。
根据CTPN网络,本实施例利用文本行构造算法将预测出来的小文本框(proposal)连接成单词或者文本行。
需要将收集到的图片进行缩放,缩放以后的图片满足,短边长度不低于600像素,长边长度不高于1200像素,同时短边以及长边的长度是16的倍数。在对图片进行缩放的同时,也要对标签文件中的文字框坐标做相应的缩放。此外根据CTPN网络的要求,我们需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框(fine-scale textproposal)。
本实施例将预测出来的单词或者文本行坐标映射到共享卷积特征图谱上,在本实施例的方法中,输入图片上文字的坐标与相对应的特征图谱上的坐标存在16倍的对应关系,即原始图像上文字的坐标是相对应特征图谱上坐标的16倍;裁剪下来的特征图谱块被转换成
Figure BDA0002141657190000092
的特征序列,在本实施例中,HC=512,Wf=20,Wf主要取决于当前的任务,当输出的字符较多的时候可以适当增大Wf的值,当输出的字符较少的时候可以适当减少Wf的值。
本实施例应用RNN和CTC将序列特征解码成人类可读的字符序列。正如,图像分类一样,文字识别也是监督学习中的一个子任务。为了训练这个网络,只需要特征序列还有相应的转录文本即可。但是我们不知道特征序列中特征片段如何与转录文本中的字符相对齐,为了解决这个问题,采用CTC算法。这种解码算法不需要知道转录文本Y=[y1,y2,y3,…,ym]与特征序列X=[x1,x2,x3,…,xt]之间的对齐关系。CTC将一个新的标记"∈"引入到输出字典。这个标记"∈"不对应任何字符而且可以从输出字符中删掉。如果CTC解码出的序列经过去掉重复字符和去掉"∈"后,和标签转录文本(ground-truth)一样的话,即认为这是正确的预测。例如如果字符串"sun"被输入进本实施例的识别网络而且输出有6个时间步(timestep),本实施例认为"∈∈∈sun","∈∈ssun","∈∈suun",…,"s∈∈unn"都是正确的对齐。在训练过程中,只需要对所有的有效对齐的概率求和即可。例如:
Figure BDA0002141657190000091
因此对于任何一对输入(X,Y),CTC概率为:
Figure BDA0002141657190000101
A(X,Y)代表所有有效的对齐
对于任何一对输入(X,Y),CTC loss为:-Ln(P("Y"|"X"))。
关于文字识别部分,在本实施例的方法中,共设计了2种方法训练文字识别部分的神经网络,即独立训练法和联合训练法。独立训练法指的是指固定住文字检测部分网络的参数,仅仅训练文字识别部分的神经网络;联合训练法指的是本实施例同时训练文字检测部分和文字识别部分的神经网络。
本实施例提出来的网络可以通过反向传播和随机梯度下降算法进行端到端的训练。为了训练神经网络,只需要将图片及相应的文本框标记坐标文件,还有相应的转录文本标记文件作为输入。为了训练文字检测部分,本实施例采用二分类的交叉熵损失Lcls用来计算文字或者非文字的分类损失还有smooth L1损失来计算文字位置的回归损失。为了训练文字识别部分,本实施例应用CTC损失。因此可以应用一个多损失函数来同时优化整个模型的参数。对于任意一张输入图片,完整的损失可以被定义为:
Figure BDA0002141657190000102
在文字检测部分,本实施例的训练对象是anchor。如果一个anchor与任意的fine-scale text proposal交并比(IoU)>=0.7或者与任意一个fine-scale text proposal的交并比(IoU)最大,可认为上述anchor是正anchor。如果一个anchor与所有的fine-scaletext proposal的交并比(IoU)都小于0.3,则认为其是负anchor。i代表的是anchor的索引。
在本实施例中,设置Ncls为128,包括64个正anchor,还有64个负anchor。如果正anchor的数目低于64个,就用负anchor填充。
当训练二分类分类器的时候,Lcls通常作为代价函数,它的数学定义为:
Figure BDA0002141657190000111
代表网络预测anchor i是文本(textproposal)的概率;
Figure BDA0002141657190000112
代表的是标签,其值为0或者为1。为了精准的定位文字位置,本实施例采用smoothL1损失,它的数学定义为:
Figure BDA0002141657190000113
j代表的是正anchor集合中anchor的索引。Δj代表网络预测出来的坐标偏移量,包括
Figure BDA0002141657190000114
Figure BDA0002141657190000115
代表的是标签(ground-truth)坐标偏移量。Nreg代表的是此次迭代过程中正anchor的数目,本实施例只对正anchor计算坐标回归损失。
Figure BDA0002141657190000116
代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,
Figure BDA0002141657190000117
代表的是第k个标签(ground-truth)转录文本。Nrec代表的是这张输入图片上有多少个标签(ground-truth)文本框。本实施例的网络检测和识别一张图片大约需要0.3s。
在其他实施例中,上述参数的具体设置值可以根据具体情况进行变换。
通过上述过程,本实施例提供的方法是趋向于端到端的,可以同时输出文字的坐标和文字内容,极大的改善了场景文字识别系统的快速性,如图4所示。
另外,还提用具体的产品应用示例:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (11)

1.一种趋向于端到端的场景文字检测与识别方法,其特征是:包括以下步骤:
(1)采集标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;
(2)采集标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;
(3)采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络;
(4)将步骤(3)的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列;
所述步骤(4)中,对于任意一张输入图片,完整的多损失函数被定义为:
Figure FDA0002986300090000011
其中:pi代表网络预测出anchor i是文本的概率;
Figure FDA0002986300090000012
代表的是标签,其值为0或者为1,i代表的是anchor的索引,Nreg代表的是此次迭代过程中正对象的数目,只对正训练对象计算坐标回归损失,j代表的是正训练对象集合中训练对象的索引,Δj代表网络预测出来的坐标偏移量,
Figure FDA0002986300090000013
代表的是标签坐标偏移量;
Figure FDA0002986300090000014
代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,
Figure FDA0002986300090000015
代表的是第k个标签转录文本,Nrec代表的是输入图片上标签文本框的个数。
2.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(1)中,特征提取网络采用Vgg16的卷积神经网络部分。
3.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:对标注有物体类别的数据集的预处理包括将图片缩放,并将图片各通道像素值分别减去均值。
4.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(2)中对标注有文字位置的数据集的预处理包括将图片缩放至指定像素。
5.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(2)中,对标注有文字位置的图片进行缩放的同时,也要对标签文件中的文字框坐标做相应的缩放,此外还需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框。
6.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(3)中,利用独立训练法训练文字识别部分的神经网络,即固定文字检测部分网络的参数,仅仅训练文字识别部分的神经网络。
7.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(3)中,利用联合训练法训练文字识别部分的神经网络,即同时训练文字检测部分和文字识别部分的神经网络。
8.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(4)中,只需要将图片及相应的文本框坐标文件,还有相应的转录文本文件作为输入,应用一个多损失函数来同时优化整个模型的参数。
9.一种趋向于端到端的场景文字检测与识别系统,其特征是:包括:
样本采集模块,被配置为采集已有的标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;
样本采集模块,被配置为采集已有的标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;
数据采集模块,被配置为采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络;
处理模块,被配置为将数据采集模块的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列;
所述步骤(4)中,对于任意一张输入图片,完整的多损失函数被定义为:
Figure FDA0002986300090000031
其中:pi代表网络预测出anchor i是文本的概率;
Figure FDA0002986300090000032
代表的是标签,其值为0或者为1,i代表的是anchor的索引,Nreg代表的是此次迭代过程中正对象的数目,只对正训练对象计算坐标回归损失,j代表的是正训练对象集合中训练对象的索引,Δj代表网络预测出来的坐标偏移量,
Figure FDA0002986300090000041
代表的是标签坐标偏移量;
Figure FDA0002986300090000042
代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,
Figure FDA0002986300090000043
代表的是第k个标签转录文本,Nrec代表的是输入图片上标签文本框的个数。
10.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-8中任一项所述的趋向于端到端的场景文字检测与识别方法。
11.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-8中任一项所述的趋向于端到端的场景文字检测与识别方法。
CN201910670901.4A 2019-07-24 2019-07-24 趋向于端到端的场景文字检测与识别方法以及系统 Expired - Fee Related CN110363252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910670901.4A CN110363252B (zh) 2019-07-24 2019-07-24 趋向于端到端的场景文字检测与识别方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910670901.4A CN110363252B (zh) 2019-07-24 2019-07-24 趋向于端到端的场景文字检测与识别方法以及系统

Publications (2)

Publication Number Publication Date
CN110363252A CN110363252A (zh) 2019-10-22
CN110363252B true CN110363252B (zh) 2021-06-04

Family

ID=68220840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910670901.4A Expired - Fee Related CN110363252B (zh) 2019-07-24 2019-07-24 趋向于端到端的场景文字检测与识别方法以及系统

Country Status (1)

Country Link
CN (1) CN110363252B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991447B (zh) * 2019-11-25 2024-05-17 北京交通大学 基于深度学习的列车车号精确定位与识别方法
CN110929805B (zh) * 2019-12-05 2023-11-10 上海肇观电子科技有限公司 神经网络的训练方法、目标检测方法及设备、电路和介质
CN111061904B (zh) * 2019-12-06 2023-04-18 武汉理工大学 一种基于图像内容识别的本地图片快速检测方法
CN113033269B (zh) * 2019-12-25 2023-08-25 华为技术服务有限公司 一种数据处理方法及装置
CN111242120B (zh) * 2020-01-03 2022-07-29 中国科学技术大学 文字检测方法及系统
CN111274985B (zh) * 2020-02-06 2024-03-26 咪咕文化科技有限公司 视频文本识别系统、视频文本识别装置与电子设备
CN111553363B (zh) * 2020-04-20 2023-08-04 北京易道博识科技有限公司 一种端到端的图章识别方法及系统
CN111985483B (zh) * 2020-07-31 2022-08-26 厦门市美亚柏科信息股份有限公司 一种拍屏文件图片检测方法、装置及存储介质
CN112348015B (zh) * 2020-11-09 2022-11-18 厦门市美亚柏科信息股份有限公司 一种基于级联神经网络的文字检测方法、装置及存储介质
CN112418206B (zh) * 2020-11-20 2024-02-27 上海昇晔网络科技有限公司 基于位置检测模型的图片分类方法及其相关设备
CN112633267A (zh) * 2020-12-11 2021-04-09 苏州浪潮智能科技有限公司 一种图片的文本定位方法、系统、设备以及介质
CN112613510B (zh) * 2020-12-25 2023-10-31 创新奇智(青岛)科技有限公司 图片预处理方法、文字识别模型训练方法和文字识别方法
CN112766266B (zh) * 2021-01-29 2021-12-10 云从科技集团股份有限公司 基于分阶段概率统计的文本方向矫正方法、系统及装置
CN112990220B (zh) * 2021-04-19 2022-08-05 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN114155540B (zh) * 2021-11-16 2024-05-03 深圳市联洲国际技术有限公司 基于深度学习的文字识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800756A (zh) * 2018-12-14 2019-05-24 华南理工大学 一种用于中文历史文献密集文本的文字检测识别方法
CN109886174A (zh) * 2019-02-13 2019-06-14 东北大学 一种仓库货架标识牌文字识别的自然场景文字识别方法
CN110033000A (zh) * 2019-03-21 2019-07-19 华中科技大学 一种票据图像的文本检测与识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171748B (zh) * 2018-01-23 2021-12-07 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
CN109389061A (zh) * 2018-09-26 2019-02-26 苏州友教习亦教育科技有限公司 试卷识别方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800756A (zh) * 2018-12-14 2019-05-24 华南理工大学 一种用于中文历史文献密集文本的文字检测识别方法
CN109886174A (zh) * 2019-02-13 2019-06-14 东北大学 一种仓库货架标识牌文字识别的自然场景文字识别方法
CN110033000A (zh) * 2019-03-21 2019-07-19 华中科技大学 一种票据图像的文本检测与识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用CTPN检测电影海报中的文本信息;杨捷 等;《电脑知识与技术》;20180930;第14卷(第25期);第213-215页 *
基于深度学习的电力设备铭牌识别;陈晓龙 等;《广西大学学报(自然科学版)》;20181231;第43卷(第6期);第2216-2226页 *

Also Published As

Publication number Publication date
CN110363252A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US10643094B2 (en) Method for line and word segmentation for handwritten text images
RU2619712C1 (ru) Оптическое распознавание символов серии изображений
RU2613849C1 (ru) Оптическое распознавание символов серии изображений
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
CN111476210B (zh) 基于图像的文本识别方法、系统、设备及存储介质
CN113255652B (zh) 文本修正方法、装置、设备及介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN113642584A (zh) 文字识别方法、装置、设备、存储介质和智能词典笔
Akopyan et al. Text recognition on images from social media
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN110852103A (zh) 一种命名实体识别方法及装置
CN114758341A (zh) 一种智能化合同图像识别与合同要素抽取方法及装置
Kawabe et al. Application of deep learning to classification of braille dot for restoration of old braille books
CN110659572A (zh) 基于双向特征金字塔的视频动作检测方法
CN111414889B (zh) 基于文字识别的财务报表识别方法及装置
CN114330247A (zh) 一种基于图像识别的自动化保险条款解析方法
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN112070093A (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
CN115019316B (zh) 一种文本识别模型的训练方法、文本识别方法
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210604

CF01 Termination of patent right due to non-payment of annual fee