CN110363252A - 趋向于端到端的场景文字检测与识别方法以及系统 - Google Patents
趋向于端到端的场景文字检测与识别方法以及系统 Download PDFInfo
- Publication number
- CN110363252A CN110363252A CN201910670901.4A CN201910670901A CN110363252A CN 110363252 A CN110363252 A CN 110363252A CN 201910670901 A CN201910670901 A CN 201910670901A CN 110363252 A CN110363252 A CN 110363252A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- training
- data set
- text detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000001228 spectrum Methods 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000003860 storage Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供了一种趋向于端到端的场景文字检测与识别方法及系统,分别采集已标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;采集已标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络。将图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成可读的字符序列。由于只计算一次卷积特征图谱,避免了中间的冗余过程,提高了整个场景文字检测与识别系统的速度。
Description
技术领域
本公开属于文字检测与识别技术领域,具体涉及一种趋向于端到端的场景文字检测与识别方法以及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
文字作为人类最伟大的发明,是人们进行信息传递以及信息交互的主要途径之一。图片是文字的主要载体之一,因此从图片中读取出文字具有重要的实用价值。
据发明人了解,传统的处理方法一般先由文字检测算法检测出原始输入图像上文字的位置,并且用文本框将文字圈起来;然后利用Opencv等方法将文字所在的区域从图片上裁剪下来;最后利用文字识别算法识别出这些只包含文字的图片块上的文字序列。这种算法将文字的位置检测和文字的内容识别分开来进行,存在时间差、顺序差,同时,由于文字检测算法和文字识别算法都需要分别利用卷积神经网络来提取特征图谱,浪费了大量的执行时间,同时,文字检测与文字识别被视作两个互不相关的任务,使得检测与识别之间不能互相促进,既会增加系统的复杂度,也不利于提高整个系统的速度和准确率。
发明内容
本公开为了解决上述问题,提出了一种趋向于端到端的场景文字检测与识别方法以及系统,本公开首先通过卷积神经网络计算共享卷积特征图谱,然后使检测部分和识别部分共享上述特征图谱,由于只计算一次卷积特征图谱,避免了一些中间的冗余过程,例如图片裁剪和特征图谱的重复计算,提升了整个场景文字检测与识别系统的速度,而且可以使得文字检测和识别之间互相促进,提高整个系统的识别准确率。
根据一些实施例,本公开采用如下技术方案:
一种趋向于端到端的场景文字检测与识别方法,包括以下步骤:
(1)采集标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络。
(2)采集标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络。
(3)采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络。
(4)将步骤(3)的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列。
作为可选的实施方式,所述步骤(1)中,特征提取网络采用Vgg16的卷积神经网络部分。
作为可选的实施方式,所述步骤(1)中对标注有物体类别的数据集的预处理包括将图片缩放,并将图片各通道像素值分别减去均值。
作为可选的实施方式,所述步骤(2)中对标注有文字位置的数据集的预处理包括将图片缩放至指定像素。
作为可选的实施方式,所述步骤(2)中,对标注有文字位置的图片进行缩放的同时,也要对标签文件中的文字框坐标做相应的缩放,此外还需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框。
作为可选的实施方式,所述步骤(3)中,利用独立训练法训练文字识别部分的神经网络,即固定文字检测部分网络的参数,仅仅训练文字识别部分的神经网络。
作为可选的实施方式,所述步骤(3)中,利用联合训练法训练文字识别部分的神经网络,即同时训练文字检测部分和文字识别部分的神经网络。
作为可选的实施方式,所述步骤(4)中,只需要将图片及相应的文本框坐标文件,还有相应的转录文本文件作为输入,应用一个多损失函数来同时优化整个模型的参数。
作为可选的实施方式,所述步骤(4)中,对于任意一张输入图片,完整的多损失函数被定义为:
其中:pi代表网络预测出anchor i是文本的概率;代表的是标签,其值为0或者为1,i代表的是anchor的索引,Nreg代表的是此次迭代过程中正对象(anchor)的数目,我们只对正训练对象计算坐标回归损失,j代表的是正训练对象(anchor)集合中训练对象的索引,Δj代表网络预测出来的坐标偏移量,代表的是标签坐标偏移量;代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,代表的是与之对应的第k个标签转录文本,Nrec代表的是输入图片上标签文本框的个数。
一种趋向于端到端的场景文字检测与识别系统,包括:
样本采集模块,被配置为采集已有的标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;
样本采集模块,被配置为采集已有的标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;
数据采集模块,被配置为采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络;
处理模块,被配置为将数据采集模块的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
与现有技术相比,本公开的有益效果为:
本公开是趋向于端到端的,可以同时输出文字的坐标和文字内容,极大的改善了场景文字检测与识别系统的快速性;
本公开提出来的网络可以通过反向传播和随机梯度下降算法进行端到端的训练,网络检测和识别一张图片的时间短,满足应用要求。
本公开首先通过卷积神经网络计算共享卷积特征图谱,然后使检测部分和识别部分共享上述特征图谱,由于只计算一次卷积特征图谱,避免了一些中间的冗余过程,例如图片裁剪和特征图谱的重复计算,提升了整个场景文字检测与识别系统的速度;而且可以使得文字检测和识别之间互相促进,提高整个系统的识别准确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是传统算法的过程示意图;
图2是本公开的过程示意图;
图3是本公开的流程示意图;
图4是本公开的部分检测识别结果示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,正如背景技术中所述的,由于现有的方法中,文字检测算法和文字识别算法都需要分别利用卷积神经网络来提取特征图谱,浪费了大量的执行时间。而且上述方法将文字检测与文字识别视作两个互不相关的任务,使得检测与识别之间不能互相促进,不利于提高整个系统的准确率。
如图2所示,本公开首先通过卷积神经网络计算共享卷积特征图谱,然后使检测部分和识别部分共享上述特征图谱,由于只计算一次卷积特征图谱,避免了一些中间的冗余过程,例如图片裁剪和特征图谱的重复计算,提升了整个场景文字检测与识别系统的速度;而且可以使得文字检测和识别之间互相促进,提高整个系统的识别准确率。
具体的,提出一种端到端的场景文字检测与识别方法,可以同时检测文字位置以及识别文字内容,提高文字检测与识别系统的快速性。
如图3所示,具体过程包括:
步骤S1:收集众多标注有物体类别的图片,构建训练数据集及测试数据集,用以训练特征提取网络。
为了训练上述特征提取网络,在本实施例的方法中,采用的是Imagenet2012数据集,该数据集包括1000个类别以及数百万计的图片;关于特征提取网络,本实施例采用的是Vgg16(只需要用到它的卷积层)。损失函数采用如下的Softmax损失函数,优化器采用Adam。
n指代的是n张图片,指的是第i-th样本的真实值,yi指的是第i-th样本的预测值。为了加速训练,本实施例也可以在开源权重的基础上微调Vgg16网络的参数。
步骤S2:在训练特征提取网络时,需要对数据集进行预处理,以提高整个系统的健壮性以及泛化性。在本实施例中,主要指的是,缩放图片至224*224以及图片各通道像素值分别减去均值[103.94,116.78,123.68](RGB)。
步骤S3:收集众多标注有文字位置的图片,构建训练数据集及测试数据集,用以训练文字检测部分的神经网络。在本实施例方法中,利用的是ICDAR2015,2017,2019部分数据集以及我们团队手工标注的图片。在训练文字检测部分的神经网络的时候,本实施例需要缩放图片,缩放以后的图片满足,短边长度不低于600像素,长边长度不高于1200像素,同时短边以及长边的长度是16的倍数。在对图片进行缩放的同时,也要对标签文件中的坐标做相应比例的缩放。其次根据CTPN网络的要求,需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框(fine-scale text proposal)。
文字检测部分网络输出2部分的内容,一部分是proposal的偏移量Δx,Δy,Δw,Δh它们分别表示本实施例预测出的小文本框(fine-scale text proposal)相对于预先设定的anchor在x-axis,y-axis,高度,宽度方向上的偏移量。其定义如下:
Δw=log(w/wa);Δh=log(h/ha)
Δw*=log(w*/wa);Δh*=log(h*/ha)
其中wa,ha,分别表示anchor的x-axis坐标,y-axis坐标,宽度还有高度;cx,cy,w,h分别表示网络预测出来的小文本框(proposal)的x-axis,y-axis坐标,宽度还有高度;w*,h*是计算出来的小文本框(proposal)的标签坐标。另外一部分是网络预测出来的小文本框(fine-scale text proposal)是真实文本框的概率。
当本实施例使用1*1卷积核在共享卷积特征图谱上滑动时,预测出这个位置上的每一个小文本框(proposal)。
根据CTPN网络,本实施例利用文本行构造算法将预测出来的小文本框(proposal)连接成单词或者文本行。
需要将收集到的图片进行缩放,缩放以后的图片满足,短边长度不低于600像素,长边长度不高于1200像素,同时短边以及长边的长度是16的倍数。在对图片进行缩放的同时,也要对标签文件中的文字框坐标做相应的缩放。此外根据CTPN网络的要求,我们需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框(fine-scale textproposal)。
本实施例将预测出来的单词或者文本行坐标映射到共享卷积特征图谱上,在本实施例的方法中,输入图片上文字的坐标与相对应的特征图谱上的坐标存在16倍的对应关系,即原始图像上文字的坐标是相对应特征图谱上坐标的16倍;裁剪下来的特征图谱块被转换成的特征序列,在本实施例中,HC=512,Wf=20,Wf主要取决于当前的任务,当输出的字符较多的时候可以适当增大Wf的值,当输出的字符较少的时候可以适当减少Wf的值。
本实施例应用RNN和CTC将序列特征解码成人类可读的字符序列。正如,图像分类一样,文字识别也是监督学习中的一个子任务。为了训练这个网络,只需要特征序列还有相应的转录文本即可。但是我们不知道特征序列中特征片段如何与转录文本中的字符相对齐,为了解决这个问题,采用CTC算法。这种解码算法不需要知道转录文本Y=[y1,y2,y3,…,ym]与特征序列X=[x1,x2,x3,…,xt]之间的对齐关系。CTC将一个新的标记"∈"引入到输出字典。这个标记"∈"不对应任何字符而且可以从输出字符中删掉。如果CTC解码出的序列经过去掉重复字符和去掉"∈"后,和标签转录文本(ground-truth)一样的话,即认为这是正确的预测。例如如果字符串"sun"被输入进本实施例的识别网络而且输出有6个时间步(timestep),本实施例认为"∈∈∈sun","∈∈ssun","∈∈suun",…,"s∈∈unn"都是正确的对齐。在训练过程中,只需要对所有的有效对齐的概率求和即可。例如:
因此对于任何一对输入(X,Y),CTC概率为:
A(X,Y)代表所有有效的对齐
对于任何一对输入(X,Y),CTC loss为:-Ln(P("Y"|"X"))。
关于文字识别部分,在本实施例的方法中,共设计了2种方法训练文字识别部分的神经网络,即独立训练法和联合训练法。独立训练法指的是指固定住文字检测部分网络的参数,仅仅训练文字识别部分的神经网络;联合训练法指的是本实施例同时训练文字检测部分和文字识别部分的神经网络。
本实施例提出来的网络可以通过反向传播和随机梯度下降算法进行端到端的训练。为了训练神经网络,只需要将图片及相应的文本框标记坐标文件,还有相应的转录文本标记文件作为输入。为了训练文字检测部分,本实施例采用二分类的交叉熵损失Lcls用来计算文字或者非文字的分类损失还有smooth L1损失来计算文字位置的回归损失。为了训练文字识别部分,本实施例应用CTC损失。因此可以应用一个多损失函数来同时优化整个模型的参数。对于任意一张输入图片,完整的损失可以被定义为:
在文字检测部分,本实施例的训练对象是anchor。如果一个anchor与任意的fine-scale text proposal交并比(IoU)>=0.7或者与任意一个fine-scale text proposal的交并比(IoU)最大,可认为上述anchor是正anchor。如果一个anchor与所有的fine-scaletext proposal的交并比(IoU)都小于0.3,则认为其是负anchor。i代表的是anchor的索引。
在本实施例中,设置Ncls为128,包括64个正anchor,还有64个负anchor。如果正anchor的数目低于64个,就用负anchor填充。
当训练二分类分类器的时候,Lcls通常作为代价函数,它的数学定义为:
代表网络预测anchor i是文本(text proposal)的概率;代表的是标签,其值为0或者为1。为了精准的定位文字位置,本实施例采用smoothL1损失,它的数学定义为:
j代表的是正anchor集合中anchor的索引。Δj代表网络预测出来的坐标偏移量,包括 代表的是标签(ground-truth)坐标偏移量。Nreg代表的是此次迭代过程中正anchor的数目,本实施例只对正anchor计算坐标回归损失。代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,代表的是第k个标签(ground-truth)转录文本。Nrec代表的是这张输入图片上有多少个标签(ground-truth)文本框。本实施例的网络检测和识别一张图片大约需要0.3s。
在其他实施例中,上述参数的具体设置值可以根据具体情况进行变换。
通过上述过程,本实施例提供的方法是趋向于端到端的,可以同时输出文字的坐标和文字内容,极大的改善了场景文字识别系统的快速性,如图4所示。
另外,还提用具体的产品应用示例:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的趋向于端到端的场景文字检测与识别方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种趋向于端到端的场景文字检测与识别方法,其特征是:包括以下步骤:
(1)采集标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;
(2)采集标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;
(3)采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络;
(4)将步骤(3)的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列。
2.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(1)中,特征提取网络采用Vgg16的卷积神经网络部分;
或,对标注有物体类别的数据集的预处理包括将图片缩放,并将图片各通道像素值分别减去均值。
3.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(2)中对标注有文字位置的数据集的预处理包括将图片缩放至指定像素;
或,所述步骤(2)中,对标注有文字位置的图片进行缩放的同时,也要对标签文件中的文字框坐标做相应的缩放,此外还需要将标签文件中的文本框切割成一个个宽度为16像素的小文本框。
4.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(3)中,利用独立训练法训练文字识别部分的神经网络,即固定文字检测部分网络的参数,仅仅训练文字识别部分的神经网络。
5.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(3)中,利用联合训练法训练文字识别部分的神经网络,即同时训练文字检测部分和文字识别部分的神经网络。
6.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(4)中,只需要将图片及相应的文本框坐标文件,还有相应的转录文本文件作为输入,应用一个多损失函数来同时优化整个模型的参数。
7.如权利要求1所述的一种趋向于端到端的场景文字检测与识别方法,其特征是:所述步骤(4)中,对于任意一张输入图片,完整的多损失函数被定义为:
其中:pi代表网络预测出anchor i是文本的概率;代表的是标签,其值为0或者为1,i代表的是anchor的索引,Nreg代表的是此次迭代过程中正对象的数目,只对正训练对象计算坐标回归损失,j代表的是正训练对象集合中训练对象的索引,Δj代表网络预测出来的坐标偏移量,代表的是标签坐标偏移量;代表的是从共享卷积特征图谱上裁剪下来的第k个特征图谱块,代表的是第k个标签转录文本,Nrec代表的是输入图片上标签文本框的个数。
8.一种趋向于端到端的场景文字检测与识别系统,其特征是:包括:
样本采集模块,被配置为采集已有的标注有物体类别的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练特征提取网络;
样本采集模块,被配置为采集已有的标注有文字位置的图片,构建训练数据集及测试数据集,对数据集进行预处理,用以训练文字检测部分的网络;
数据采集模块,被配置为采集同时标注有文字位置以及文字内容的图片,构建训练数据集及测试数据集并且进行相应的图片预处理,用以训练文字识别部分的神经网络;
处理模块,被配置为将数据采集模块的图片输入进卷积神经网络,经过特征提取网络提取出共享卷积特征图谱,文字检测部分利用该共享卷积特征图谱,预测出文字的位置,将预测出的文字位置坐标映射到共享卷积特征图谱上,裁剪下图像中文字部分所对应的特征图谱块并将其转换为特征序列,最后将特征序列解码成人类可读的字符序列。
9.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的趋向于端到端的场景文字检测与识别方法。
10.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-7中任一项所述的趋向于端到端的场景文字检测与识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910670901.4A CN110363252B (zh) | 2019-07-24 | 2019-07-24 | 趋向于端到端的场景文字检测与识别方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910670901.4A CN110363252B (zh) | 2019-07-24 | 2019-07-24 | 趋向于端到端的场景文字检测与识别方法以及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363252A true CN110363252A (zh) | 2019-10-22 |
CN110363252B CN110363252B (zh) | 2021-06-04 |
Family
ID=68220840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910670901.4A Expired - Fee Related CN110363252B (zh) | 2019-07-24 | 2019-07-24 | 趋向于端到端的场景文字检测与识别方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363252B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929805A (zh) * | 2019-12-05 | 2020-03-27 | 上海肇观电子科技有限公司 | 神经网络的训练方法、目标检测方法及设备、电路和介质 |
CN110991447A (zh) * | 2019-11-25 | 2020-04-10 | 北京交通大学 | 基于深度学习的列车车号精确定位与识别方法 |
CN111061904A (zh) * | 2019-12-06 | 2020-04-24 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN111242120A (zh) * | 2020-01-03 | 2020-06-05 | 中国科学技术大学 | 文字检测方法及系统 |
CN111274985A (zh) * | 2020-02-06 | 2020-06-12 | 咪咕文化科技有限公司 | 视频文本识别网络模型、视频文本识别装置与电子设备 |
CN111553363A (zh) * | 2020-04-20 | 2020-08-18 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111985483A (zh) * | 2020-07-31 | 2020-11-24 | 厦门市美亚柏科信息股份有限公司 | 一种拍屏文件图片检测方法、装置及存储介质 |
CN112348015A (zh) * | 2020-11-09 | 2021-02-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于级联神经网络的文字检测方法、装置及存储介质 |
CN112418206A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | 基于位置检测模型的图片分类方法及其相关设备 |
CN112613510A (zh) * | 2020-12-25 | 2021-04-06 | 创新奇智(青岛)科技有限公司 | 图片预处理方法、文字识别模型训练方法和文字识别方法 |
CN112633267A (zh) * | 2020-12-11 | 2021-04-09 | 苏州浪潮智能科技有限公司 | 一种图片的文本定位方法、系统、设备以及介质 |
CN112766266A (zh) * | 2021-01-29 | 2021-05-07 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN112990220A (zh) * | 2021-04-19 | 2021-06-18 | 烟台中科网络技术研究所 | 一种图像中目标文本智能识别方法及系统 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN113269045A (zh) * | 2021-04-28 | 2021-08-17 | 南京大学 | 自然场景下中文艺术字检测识别方法 |
CN113298167A (zh) * | 2021-06-01 | 2021-08-24 | 北京思特奇信息技术股份有限公司 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
CN114155540A (zh) * | 2021-11-16 | 2022-03-08 | 深圳市联洲国际技术有限公司 | 基于深度学习的文字识别方法、装置、设备及存储介质 |
CN114897219A (zh) * | 2022-04-18 | 2022-08-12 | 广州市香港科大霍英东研究院 | 基于社交网络的用户行动轨迹预测方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN109389061A (zh) * | 2018-09-26 | 2019-02-26 | 苏州友教习亦教育科技有限公司 | 试卷识别方法和系统 |
CN109800756A (zh) * | 2018-12-14 | 2019-05-24 | 华南理工大学 | 一种用于中文历史文献密集文本的文字检测识别方法 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
-
2019
- 2019-07-24 CN CN201910670901.4A patent/CN110363252B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN109389061A (zh) * | 2018-09-26 | 2019-02-26 | 苏州友教习亦教育科技有限公司 | 试卷识别方法和系统 |
CN109800756A (zh) * | 2018-12-14 | 2019-05-24 | 华南理工大学 | 一种用于中文历史文献密集文本的文字检测识别方法 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
Non-Patent Citations (2)
Title |
---|
杨捷 等: "利用CTPN检测电影海报中的文本信息", 《电脑知识与技术》 * |
陈晓龙 等: "基于深度学习的电力设备铭牌识别", 《广西大学学报(自然科学版)》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991447A (zh) * | 2019-11-25 | 2020-04-10 | 北京交通大学 | 基于深度学习的列车车号精确定位与识别方法 |
CN110991447B (zh) * | 2019-11-25 | 2024-05-17 | 北京交通大学 | 基于深度学习的列车车号精确定位与识别方法 |
CN110929805A (zh) * | 2019-12-05 | 2020-03-27 | 上海肇观电子科技有限公司 | 神经网络的训练方法、目标检测方法及设备、电路和介质 |
CN110929805B (zh) * | 2019-12-05 | 2023-11-10 | 上海肇观电子科技有限公司 | 神经网络的训练方法、目标检测方法及设备、电路和介质 |
CN111061904A (zh) * | 2019-12-06 | 2020-04-24 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN111061904B (zh) * | 2019-12-06 | 2023-04-18 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN113033269B (zh) * | 2019-12-25 | 2023-08-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN111242120A (zh) * | 2020-01-03 | 2020-06-05 | 中国科学技术大学 | 文字检测方法及系统 |
CN111242120B (zh) * | 2020-01-03 | 2022-07-29 | 中国科学技术大学 | 文字检测方法及系统 |
CN111274985A (zh) * | 2020-02-06 | 2020-06-12 | 咪咕文化科技有限公司 | 视频文本识别网络模型、视频文本识别装置与电子设备 |
CN111274985B (zh) * | 2020-02-06 | 2024-03-26 | 咪咕文化科技有限公司 | 视频文本识别系统、视频文本识别装置与电子设备 |
CN111553363B (zh) * | 2020-04-20 | 2023-08-04 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111553363A (zh) * | 2020-04-20 | 2020-08-18 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111985483A (zh) * | 2020-07-31 | 2020-11-24 | 厦门市美亚柏科信息股份有限公司 | 一种拍屏文件图片检测方法、装置及存储介质 |
CN111985483B (zh) * | 2020-07-31 | 2022-08-26 | 厦门市美亚柏科信息股份有限公司 | 一种拍屏文件图片检测方法、装置及存储介质 |
CN112348015B (zh) * | 2020-11-09 | 2022-11-18 | 厦门市美亚柏科信息股份有限公司 | 一种基于级联神经网络的文字检测方法、装置及存储介质 |
CN112348015A (zh) * | 2020-11-09 | 2021-02-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于级联神经网络的文字检测方法、装置及存储介质 |
CN112418206A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | 基于位置检测模型的图片分类方法及其相关设备 |
CN112418206B (zh) * | 2020-11-20 | 2024-02-27 | 上海昇晔网络科技有限公司 | 基于位置检测模型的图片分类方法及其相关设备 |
CN112633267A (zh) * | 2020-12-11 | 2021-04-09 | 苏州浪潮智能科技有限公司 | 一种图片的文本定位方法、系统、设备以及介质 |
CN112613510A (zh) * | 2020-12-25 | 2021-04-06 | 创新奇智(青岛)科技有限公司 | 图片预处理方法、文字识别模型训练方法和文字识别方法 |
CN112613510B (zh) * | 2020-12-25 | 2023-10-31 | 创新奇智(青岛)科技有限公司 | 图片预处理方法、文字识别模型训练方法和文字识别方法 |
CN112766266A (zh) * | 2021-01-29 | 2021-05-07 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN112990220A (zh) * | 2021-04-19 | 2021-06-18 | 烟台中科网络技术研究所 | 一种图像中目标文本智能识别方法及系统 |
CN112990220B (zh) * | 2021-04-19 | 2022-08-05 | 烟台中科网络技术研究所 | 一种图像中目标文本智能识别方法及系统 |
CN113269045A (zh) * | 2021-04-28 | 2021-08-17 | 南京大学 | 自然场景下中文艺术字检测识别方法 |
CN113298167A (zh) * | 2021-06-01 | 2021-08-24 | 北京思特奇信息技术股份有限公司 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
CN114155540A (zh) * | 2021-11-16 | 2022-03-08 | 深圳市联洲国际技术有限公司 | 基于深度学习的文字识别方法、装置、设备及存储介质 |
CN114155540B (zh) * | 2021-11-16 | 2024-05-03 | 深圳市联洲国际技术有限公司 | 基于深度学习的文字识别方法、装置、设备及存储介质 |
CN114897219A (zh) * | 2022-04-18 | 2022-08-12 | 广州市香港科大霍英东研究院 | 基于社交网络的用户行动轨迹预测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110363252B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363252A (zh) | 趋向于端到端的场景文字检测与识别方法以及系统 | |
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN108549893A (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN110097568A (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
CN113837308B (zh) | 基于知识蒸馏的模型训练方法、装置、电子设备 | |
CN109948547A (zh) | 城市绿地景观评价方法、装置、存储介质及终端设备 | |
CN109117883A (zh) | 基于长短时记忆网络的sar影像海冰分类方法及系统 | |
CN110490052A (zh) | 基于级联多任务学习的人脸检测及人脸属性分析方法及系统 | |
CN114170482B (zh) | 一种文档预训练模型训练方法、装置、设备及介质 | |
CN107392254A (zh) | 一种通过联合嵌入从像素中构造图像的语义分割方法 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN117218102A (zh) | 一种基于改进YOLOv5的绝缘子缺陷检测方法及其系统 | |
KR102574857B1 (ko) | 광고 콘텐츠 및 랜딩 페이지 자동 생성 시스템 | |
CN112801236A (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
CN111461121A (zh) | 一种基于yolov3网络的电表示数识别方法 | |
CN113297956A (zh) | 一种基于视觉的手势识别方法及系统 | |
CN118155231B (zh) | 文档的识别方法、装置、设备、介质及产品 | |
CN116151479A (zh) | 一种航班延误预测方法及预测系统 | |
CN117911697A (zh) | 基于大模型分割的高光谱目标跟踪方法、系统、介质和设备 | |
Zheng | Visual memory neural network for artistic graphic design | |
CN112580616B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
Wang et al. | Self-attention deep saliency network for fabric defect detection | |
Jiao et al. | A Novel Data Augmentation Method to Enhance the Training Dataset for Road Extraction from Historical Maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210604 |