CN110135419B - 一种自然场景下端到端文本识别方法 - Google Patents
一种自然场景下端到端文本识别方法 Download PDFInfo
- Publication number
- CN110135419B CN110135419B CN201910371620.9A CN201910371620A CN110135419B CN 110135419 B CN110135419 B CN 110135419B CN 201910371620 A CN201910371620 A CN 201910371620A CN 110135419 B CN110135419 B CN 110135419B
- Authority
- CN
- China
- Prior art keywords
- text
- natural scene
- recognition
- optimization algorithm
- boundary optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种自然场景下端到端文本识别方法,包括用自然场景图片及真实标记训练框架以及对自然场景图片上文本区域及内容进行预测:训练阶段中,收集包含文本的自然场景下的图片、构建包含文本位置与内容的数据集、定义标准的端到端文本识别框架、使用真实检测标记训练检测部分、使用近邻相关边界优化算法优化检测区域、使用优化后的检测区域输入进识别部分中以训练识别部分参数、保存训练好的框架参数至数据平台;测试阶段中,读取训练好的框架参数、输入测试图像、检测阶段检测文本区域、采用基于近邻相关性边界优化算法优化检测区域、将优化后的检测区域送入识别部分进行文本识别。
Description
技术领域
本发明涉及一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,涉及自然场景下端到端文本识别,特别适用于检测区域边界不精确导致识别失败的问题。
背景技术
自然场景下的端到端文本识别任务目的为,输入一张包含文本区域的自然场景图片,既要检测出图片位置,也要识别出相应位置文本内容。在端到端文本识别任务中,识别阶段的精确度受检测阶段精确度的影响很高,只有检测阶段精确地框住了文本中所有的字母,识别阶段才能输出精确的识别结果。特别的,现有端到端文本框架对于长文本或大文本区域的边界预测不准确,这给后续的识别任务带来了一定的困难。
现有常用的后处理算法如非极大抑制(Non-Maximum Suppression,简称NMS)算法,或局部感知非极大抑制(Locality-Aware NMS,简称LANMS)算法,只能将相邻且交并比大的区域做合并,未对边界的精确性做要求,这就导致了检测过程可能得到不精确的边界,从而影响识别结果。
发明内容
发明目的:目前的端到端文本识别框架中,并未对检测结果的边界精确性做明确要求,现有框架对于长文本、大文本的检测结果通常边界不精确,甚至没有将文本完整框出,这导致了识别结果的不准确。针对上述问题,本发明设计了基于近邻相关性的边界优化算法,发明了采用该算法的端到端文本识别深度学习框架,方法表述了框架结构、框架训练过程、框架测试过程,以此来解决边界预测不精确的问题,提高端到端任务的精度。
技术方案:一种自然场景下端到端文本识别方法,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程。
所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:
步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;
步骤101,对输入自然场景图片做预处理,进行随机旋转、采样、正规化等操作;
步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;
步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;
步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;
步骤105,输出并保存框架各部分权重至数据处理平台的存储系统。
利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,对自然场景中文本区域及内容进行端到端识别的测试,测试具体步骤为:
步骤200,输入自然场景图像至数据处理平台;
步骤201,读取已保存的训练好的框架各部分权重,包括共享特征部分、检测部分、识别部分各部分的权重;
步骤202,自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果。
所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,其中共享特征部分,采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;
所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;
所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。
所述的检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。
所述的基于近邻相关性的边界优化算法,考虑了特征图上的点对相近。输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:
算法所述的置信度函数fc设计,可采用如下形式:
所述的识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。
所述的双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。
有益效果:与现有技术相比,本发明提供的基于近邻相关性边界优化算法的端到端文本识别方法,利用到了特征图上点对近邻预测准确的性质,提高了检测结果边界的精度,从而提高了端到端任务的结果。
附图说明
图1为本发明实施的基于近邻相关性边界优化算法的流程图;
图2为本发明设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架的共享特征层中,第一解码模块以及U型网络示意图;
图3为本发明设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练过程流程图;
图4为具体使用学习算法训练的所述框架的流程图;
图5为本发明设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架测试过程流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于近邻相关性边界优化算法的端到端文本识别深度学习框架,结构分为共享特征部分、检测部分、边界优化算法部分、双线性插值采样部分、识别部分等几个部分。
共享特征部分可采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。
检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。
基于近邻相关性的边界优化算法核心思想在于,对某边界的预测,只取该边界附近的点作为置信度高的点做加权平均。流程如图1所示。输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:
置信度函数fc设计,可采用如下形式:
阈值参数可根据实际问题选取,例如可取st=0.7,rt=0.01。
识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。
双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。
表1为基于近邻相关性边界优化算法的端到端文本识别深度学习框架共享卷积层的第一编码模块,模块由一系列的多层卷积结构以及相邻层的卷积结构间的下采样结构组成:表1中输出大小为特征图在空间尺度的大小;[n×n,m]代表当前卷积核的卷积核大小为[n×n],通道数为m;层2、3、4、5的残差卷积块会各自重复3次。
表1
图2为基于近邻相关性边界优化算法的端到端文本识别深度学习框架共享卷积层第一解码模块及U型网络,解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,U型网络采用第一编码模块与第一解码模块相继连接的方式获得共享特征:图2中U型网络的左侧为第一编码模块,右侧为第一解码模块,conv、concat、upsampling分别代表卷积、通道连接、上采样的过程。
表2为基于近邻相关性边界优化算法的端到端文本识别深度学习框架识别部分的第二编码模块,模块由一系列的多层卷积结构以及相邻层的卷积结构间的下采样结构组成:表2中input、conv、pool层分别代表输入层、卷积层、池化层。
表2
基于近邻相关性边界优化算法的端到端文本识别深度学习框架识别部分的第二解码模块可采用基于双向长短时记忆神经网络结构,以此输入识别特征从而得到预测串。
图3为基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练过程的流程图,训练过程描述如下:在训练开始时,框架首先初始化共享特征部分、检测部分、识别部分三部分的参数(权重);输入一系列对应的自然场景图片、真实区域位置、真实文本串至数据处理平台后,对输入自然场景图片做预处理,进行随机旋转、采样、正规化等操作;根据真实区域位置生成真实类图与真实几何图;共享特征层根据输入的自然场景图片获得共享特征;共享特征经过检测部分,得到预测类图与预测几何图,据此得到检测区域;边界优化算法作用在检测区域上,得到边界优化后的检测区域;根据边界优化后的检测区域,双线性插值采样作用在共享特征上,得到识别特征;识别特征经过识别部分,得到预测文本串;预测类图与真实类图、预测几何图与真实几何图、预测文本串与真实文本串分别计算损失,回传梯度并更新参数;如上训练直到达到终止条件(如更新轮数大于阈值)训练结束;存储训练好的参数;结束。
图4为具体使用学习算法训练所述框架流程图。步骤如下:训练开始时初始化所述框架各部分参数;输入自然场景图片、真实区域位置、真实文本串;框架根据真实区域位置生成真实类图、真实几何图;框架处理自然场景图片,生成预测类图、预测几何图与预测文本串;框架使用交叉熵损失函数衡量真实类图与预测类图之间损失、使用交并比损失函数以及余弦损失函数衡量真实几何图与预测几何图之间损失、使用ctc损失函数衡量真实文本串与预测文本串之间损失;框架计算整体损失;通过反向传播算法回传梯度;框架使用SGD算法更新各部分参数;如达到终止条件(如更新轮数大于阈值),则存储参数结束;若未达到,则输入新的自然场景图片、真实区域位置、真实文本串,开始新一轮的训练。
图5为基于近邻相关性边界优化算法的端到端文本识别深度学习框架测试过程流程图,测试过程描述如下:测试开始时,数据处理平台读取已训练好的各部分参数初始化框架;读取待测试的图片;图片经由共享特征层后,得到共享特征;共享特征经由检测部分,得到预测类图与预测几何图,据此得到检测区域;边界优化算法作用在检测区域之上,得到边界优化后的检测区域,即预测区域;根据预测区域,双线性插值采样作用在共享特征上,得到识别特征;识别特征经由识别部分,得到预测文本串;最后输出预测区域及预测文本串,端到端文本识别任务结束。
Claims (10)
1.一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程;
所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:
步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;
步骤101,对输入自然场景图片做预处理;
步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;
步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;
步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;
步骤105,输出并保存框架各部分参数至数据处理平台的存储系统。
2.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,对自然场景中文本区域及内容进行端到端识别的测试,测试具体步骤为:
步骤200,输入自然场景图像至数据处理平台;
步骤201,读取已保存的训练好的框架各部分权重,包括共享特征部分、检测部分、识别部分各部分的权重;
步骤202,自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果。
3.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,其中共享特征部分,采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;
所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;
所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。
4.如权利要求2所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。
5.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的基于近邻相关性的边界优化算法,考虑了特征图上的点对相近;输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:
8.如权利要求2所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。
9.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。
10.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,经由以下步骤被训练:
步骤701,对自然场景图像进行前向过程;
步骤702,采用交叉熵损失函数计算预测类图与真实类图的误差;采用交并比损失函数与余弦相似度函数计算预测几何图与真实几何图的误差;采用CTC损失函数计算预测串与真实串的误差;
步骤703,采用反向传播算法获得参数梯度,采用优化算法如随机梯度下降算法更新参数梯度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371620.9A CN110135419B (zh) | 2019-05-06 | 2019-05-06 | 一种自然场景下端到端文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371620.9A CN110135419B (zh) | 2019-05-06 | 2019-05-06 | 一种自然场景下端到端文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135419A CN110135419A (zh) | 2019-08-16 |
CN110135419B true CN110135419B (zh) | 2023-04-28 |
Family
ID=67576358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910371620.9A Active CN110135419B (zh) | 2019-05-06 | 2019-05-06 | 一种自然场景下端到端文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135419B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738262B (zh) * | 2019-10-16 | 2022-11-11 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102097545B1 (ko) * | 2017-02-08 | 2020-04-06 | 한국과학기술원 | 문자 경계 인식 시스템 및 방법 |
CN108108657B (zh) * | 2017-11-16 | 2020-10-30 | 浙江工业大学 | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN109447078B (zh) * | 2018-10-23 | 2020-11-06 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
-
2019
- 2019-05-06 CN CN201910371620.9A patent/CN110135419B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110135419A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
US9454714B1 (en) | Sequence transcription with deep neural networks | |
CN110427836B (zh) | 一种基于多尺度优化的高分辨率遥感影像水体提取方法 | |
CN108230278B (zh) | 一种基于生成对抗网络的图像去雨滴方法 | |
US11475681B2 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN110826525B (zh) | 一种人脸识别的方法及系统 | |
CN110689012A (zh) | 一种端到端的自然场景文本识别方法及系统 | |
CN110390340B (zh) | 特征编码模型、视觉关系检测模型的训练方法及检测方法 | |
CN113780296A (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN110245620B (zh) | 一种基于注意力的非最大化抑制方法 | |
CN110570433A (zh) | 基于生成对抗网络的图像语义分割模型构建方法和装置 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN111553182A (zh) | 一种船只检索方法、装置及电子设备 | |
CN112861795A (zh) | 基于多尺度特征融合的遥感图像显著目标检测方法及装置 | |
CN110135419B (zh) | 一种自然场景下端到端文本识别方法 | |
CN115792913A (zh) | 一种基于时空网络的雷达回波外推方法及系统 | |
CN113052090B (zh) | 用于生成字幕器以及输出字幕的方法和装置 | |
CN114120454A (zh) | 活体检测模型的训练方法、装置、电子设备及存储介质 | |
CN113297986A (zh) | 手写字符识别方法、装置、介质及电子设备 | |
CN111753714A (zh) | 基于字符分割的多方向自然场景文本检测方法 | |
CN115375925A (zh) | 一种基于相位信息和深度学习的水下声呐图像匹配算法 | |
CN113222016B (zh) | 一种基于高层和低层特征交叉增强的变化检测方法及装置 | |
CN110942073A (zh) | 一种集装箱拖车编号识别方法、装置和计算机设备 | |
CN111738248B (zh) | 字符识别方法、字符译码模型的训练方法及电子设备 | |
CN114155411A (zh) | 一种弱小目标智能检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |