CN110135419A - 一种自然场景下端到端文本识别方法 - Google Patents
一种自然场景下端到端文本识别方法 Download PDFInfo
- Publication number
- CN110135419A CN110135419A CN201910371620.9A CN201910371620A CN110135419A CN 110135419 A CN110135419 A CN 110135419A CN 201910371620 A CN201910371620 A CN 201910371620A CN 110135419 A CN110135419 A CN 110135419A
- Authority
- CN
- China
- Prior art keywords
- natural scene
- neighbour
- identification
- optimization algorithm
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000005457 optimization Methods 0.000 claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims description 41
- 238000013135 deep learning Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种自然场景下端到端文本识别方法,包括用自然场景图片及真实标记训练框架以及对自然场景图片上文本区域及内容进行预测:训练阶段中,收集包含文本的自然场景下的图片、构建包含文本位置与内容的数据集、定义标准的端到端文本识别框架、使用真实检测标记训练检测部分、使用近邻相关边界优化算法优化检测区域、使用优化后的检测区域输入进识别部分中以训练识别部分参数、保存训练好的框架参数至数据平台;测试阶段中,读取训练好的框架参数、输入测试图像、检测阶段检测文本区域、采用基于近邻相关性边界优化算法优化检测区域、将优化后的检测区域送入识别部分进行文本识别。
Description
技术领域
本发明涉及一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,涉及自然场景下端到端文本识别,特别适用于检测区域边界不精确导致识别失败的问题。
背景技术
自然场景下的端到端文本识别任务目的为,输入一张包含文本区域的自然场景图片,既要检测出图片位置,也要识别出相应位置文本内容。在端到端文本识别任务中,识别阶段的精确度受检测阶段精确度的影响很高,只有检测阶段精确地框住了文本中所有的字母,识别阶段才能输出精确的识别结果。特别的,现有端到端文本框架对于长文本或大文本区域的边界预测不准确,这给后续的识别任务带来了一定的困难。
现有常用的后处理算法如非极大抑制(Non-Maximum Suppression,简称NMS)算法,或局部感知非极大抑制(Locality-Aware NMS,简称LANMS)算法,只能将相邻且交并比大的区域做合并,未对边界的精确性做要求,这就导致了检测过程可能得到不精确的边界,从而影响识别结果。
发明内容
发明目的:目前的端到端文本识别框架中,并未对检测结果的边界精确性做明确要求,现有框架对于长文本、大文本的检测结果通常边界不精确,甚至没有将文本完整框出,这导致了识别结果的不准确。针对上述问题,本发明设计了基于近邻相关性的边界优化算法,发明了采用该算法的端到端文本识别深度学习框架,方法表述了框架结构、框架训练过程、框架测试过程,以此来解决边界预测不精确的问题,提高端到端任务的精度。
技术方案:一种自然场景下端到端文本识别方法,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程。
所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:
步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;
步骤101,对输入自然场景图片做预处理,进行随机旋转、采样、正规化等操作;
步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;
步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;
步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;
步骤105,输出并保存框架各部分权重至数据处理平台的存储系统。
利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,对自然场景中文本区域及内容进行端到端识别的测试,测试具体步骤为:
步骤200,输入自然场景图像至数据处理平台;
步骤201,读取已保存的训练好的框架各部分权重,包括共享特征部分、检测部分、识别部分各部分的权重;
步骤202,自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果。
所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,其中共享特征部分,采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;
所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;
所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。
所述的检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。
所述的基于近邻相关性的边界优化算法,考虑了特征图上的点对相近。输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:
步骤501,对于单个文本区域得到只属于该区域,且在类图Fscore上的分类概率大于st的点集
步骤502,对中每一点p,计算出该点距区域上、右、下、左四个边的距离
步骤503,根据距离以及置信度函数fc,计算出置信度
步骤504,对中每一点p与几何图Fgeo,计算出该点本身预测的区域
步骤505,根据中所有点各自置信度以及预测的区域通过加权平均的过程计算出最终的区域
算法所述的加权平均过程计算最终区域的过程,假设用表示区域的一个顶点坐标,区域为四边形,用i=1、2、3、4分别表示区域的左上角、右上角、右下角、左下角四个顶点,则坐标的加权过程可用以下公式描述:
算法所述的置信度函数fc设计,可采用如下形式:
所述的识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。
所述的双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。
有益效果:与现有技术相比,本发明提供的基于近邻相关性边界优化算法的端到端文本识别方法,利用到了特征图上点对近邻预测准确的性质,提高了检测结果边界的精度,从而提高了端到端任务的结果。
附图说明
图1为本发明实施的基于近邻相关性边界优化算法的流程图;
图2为本发明设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架的共享特征层中,第一解码模块以及U型网络示意图;
图3为本发明设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练过程流程图;
图4为具体使用学习算法训练的所述框架的流程图;
图5为本发明设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架测试过程流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于近邻相关性边界优化算法的端到端文本识别深度学习框架,结构分为共享特征部分、检测部分、边界优化算法部分、双线性插值采样部分、识别部分等几个部分。
共享特征部分可采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。
检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。
基于近邻相关性的边界优化算法核心思想在于,对某边界的预测,只取该边界附近的点作为置信度高的点做加权平均。流程如图1所示。输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:
对于单个文本区域得到只属于该区域,且在类图Fscore上的分类概率大于st的点集
对中每一点p,计算出该点距区域上、右、下、左四个边的距离
根据距离以及置信度函数fc,计算出置信度
对中每一点p与几何图Fgeo,计算出该点本身预测的区域
根据中所有点各自置信度以及预测的区域通过加权平均的过程计算出最终的区域
其中加权平均过程计算最终区域的过程,假设用表示区域的一个顶点坐标,区域为四边形,用i=1、2、3、4分别表示区域的左上角、右上角、右下角、左下角四个顶点,则坐标的加权过程可用以下公式描述:
置信度函数fc设计,可采用如下形式:
阈值参数可根据实际问题选取,例如可取st=0.7,rt=0.01。
识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。
双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。
表1为基于近邻相关性边界优化算法的端到端文本识别深度学习框架共享卷积层的第一编码模块,模块由一系列的多层卷积结构以及相邻层的卷积结构间的下采样结构组成:图中输出大小为特征图在空间尺度的大小;[n×n,m]代表当前卷积核的卷积核大小为[n×n],通道数为m;层2、3、4、5的残差卷积块会各自重复3次。
表1
图2为基于近邻相关性边界优化算法的端到端文本识别深度学习框架共享卷积层第一解码模块及U型网络,解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,U型网络采用第一编码模块与第一解码模块相继连接的方式获得共享特征:图中U型网络的左侧为第一编码模块,右侧为第一解码模块,conv、concat、upsampling分别代表卷积、通道连接、上采样的过程。
表2为基于近邻相关性边界优化算法的端到端文本识别深度学习框架识别部分的第二编码模块,模块由一系列的多层卷积结构以及相邻层的卷积结构间的下采样结构组成:图中input、conv、pool层分别代表输入层、卷积层、池化层。
表2
基于近邻相关性边界优化算法的端到端文本识别深度学习框架识别部分的第二解码模块可采用基于双向长短时记忆神经网络结构,以此输入识别特征从而得到预测串。
图3为基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练过程的流程图,训练过程描述如下:在训练开始时,框架首先初始化共享特征部分、检测部分、识别部分三部分的参数(权重);输入一系列对应的自然场景图片、真实区域位置、真实文本串至数据处理平台后,对输入自然场景图片做预处理,进行随机旋转、采样、正规化等操作;根据真实区域位置生成真实类图与真实几何图;共享特征层根据输入的自然场景图片获得共享特征;共享特征经过检测部分,得到预测类图与预测几何图,据此得到检测区域;边界优化算法作用在检测区域上,得到边界优化后的检测区域;根据边界优化后的检测区域,双线性插值采样作用在共享特征上,得到识别特征;识别特征经过识别部分,得到预测文本串;预测类图与真实类图、预测几何图与真实几何图、预测文本串与真实文本串分别计算损失,回传梯度并更新参数;如上训练直到达到终止条件(如更新轮数大于阈值)训练结束;存储训练好的参数;结束。
图4为具体使用学习算法训练所述框架流程图。步骤如下:训练开始时初始化所述框架各部分参数;输入自然场景图片、真实区域位置、真实文本串;框架根据真实区域位置生成真实类图、真实几何图;框架处理自然场景图片,生成预测类图、预测几何图与预测文本串;框架使用交叉熵损失函数衡量真实类图与预测类图之间损失、使用交并比损失函数以及余弦损失函数衡量真实几何图与预测几何图之间损失、使用ctc损失函数衡量真实文本串与预测文本串之间损失;框架计算整体损失;通过反向传播算法回传梯度;框架使用SGD算法更新各部分参数;如达到终止条件(如更新轮数大于阈值),则存储参数结束;若未达到,则输入新的自然场景图片、真实区域位置、真实文本串,开始新一轮的训练。
图5为基于近邻相关性边界优化算法的端到端文本识别深度学习框架测试过程流程图,测试过程描述如下:测试开始时,数据处理平台读取已训练好的各部分参数初始化框架;读取待测试的图片;图片经由共享特征层后,得到共享特征;共享特征经由检测部分,得到预测类图与预测几何图,据此得到检测区域;边界优化算法作用在检测区域之上,得到边界优化后的检测区域,即预测区域;根据预测区域,双线性插值采样作用在共享特征上,得到识别特征;识别特征经由识别部分,得到预测文本串;最后输出预测区域及预测文本串,端到端文本识别任务结束。
Claims (10)
1.一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程;
所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:
步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;
步骤101,对输入自然场景图片做预处理;
步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;
步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;
步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;
步骤105,输出并保存框架各部分参数至数据处理平台的存储系统。
2.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,对自然场景中文本区域及内容进行端到端识别的测试,测试具体步骤为:
步骤200,输入自然场景图像至数据处理平台;
步骤201,读取已保存的训练好的框架各部分权重,包括共享特征部分、检测部分、识别部分各部分的权重;
步骤202,自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果。
3.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,其中共享特征部分,采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;
所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;
所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。
4.如权利要求2所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。
5.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的基于近邻相关性的边界优化算法,考虑了特征图上的点对相近。输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:
步骤501,对于单个文本区域得到只属于该区域,且在类图Fscore上的分类概率大于st的点集
步骤502,对中每一点p,计算出该点距区域上、右、下、左四个边的距离
步骤503,根据距离以及置信度函数fc,计算出置信度
步骤504,对中每一点p与几何图Fgeo,计算出该点本身预测的区域
步骤505,根据中所有点各自置信度以及预测的区域通过加权平均的过程计算出最终的区域
6.如权利要求5所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,算法所述的加权平均过程计算最终区域的过程,假设用表示区域的一个顶点坐标,区域为四边形,用i=1、2、3、4分别表示区域的左上角、右上角、右下角、左下角四个顶点,则坐标的加权过程可用以下公式描述:
7.如权利要求5所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,算法所述的置信度函数fc设计,可采用如下形式:
8.如权利要求2所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。
9.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。
10.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,经由以下步骤被训练:
步骤701,对自然场景图像进行前向过程;
步骤702,采用交叉熵损失函数计算预测类图与真实类图的误差;采用交并比损失函数与余弦相似度函数计算预测几何图与真实几何图的误差;采用CTC损失函数计算预测串与真实串的误差;
步骤703,采用反向传播算法获得参数梯度,采用优化算法如随机梯度下降算法更新参数梯度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371620.9A CN110135419B (zh) | 2019-05-06 | 2019-05-06 | 一种自然场景下端到端文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371620.9A CN110135419B (zh) | 2019-05-06 | 2019-05-06 | 一种自然场景下端到端文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135419A true CN110135419A (zh) | 2019-08-16 |
CN110135419B CN110135419B (zh) | 2023-04-28 |
Family
ID=67576358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910371620.9A Active CN110135419B (zh) | 2019-05-06 | 2019-05-06 | 一种自然场景下端到端文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135419B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738262A (zh) * | 2019-10-16 | 2020-01-31 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
KR20180092836A (ko) * | 2017-02-08 | 2018-08-20 | 한국과학기술원 | 문자 경계 인식 시스템 및 방법 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
-
2019
- 2019-05-06 CN CN201910371620.9A patent/CN110135419B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180092836A (ko) * | 2017-02-08 | 2018-08-20 | 한국과학기술원 | 문자 경계 인식 시스템 및 방법 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738262A (zh) * | 2019-10-16 | 2020-01-31 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN110135419B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111680706B (zh) | 一种基于编码和解码结构的双通道输出轮廓检测方法 | |
CN112766087A (zh) | 一种基于知识蒸馏的光学遥感图像舰船检测方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN110390340B (zh) | 特征编码模型、视觉关系检测模型的训练方法及检测方法 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN110705457A (zh) | 一种遥感影像建筑物变化检测方法 | |
CN110533631A (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN114332462B (zh) | 一种针对大脑病变融入注意力机制的mri分割方法 | |
CN112818777B (zh) | 一种基于密集连接与特征增强的遥感图像目标检测方法 | |
CN112668532B (zh) | 基于多阶段混合注意网络的人群计数方法 | |
CN111462230A (zh) | 一种基于深度强化学习的台风中心定位方法 | |
CN116363124B (zh) | 一种基于深度学习的钢材表面缺陷检测方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN114565824B (zh) | 基于全卷积网络的单阶段旋转舰船检测方法 | |
CN116958163A (zh) | 一种多器官和/或病灶的医学图像分割方法及装置 | |
CN117830788A (zh) | 一种多源信息融合的图像目标检测方法 | |
CN117036941A (zh) | 一种基于孪生Unet模型的建筑物变化检测方法及系统 | |
CN117975284A (zh) | 一种集成Swin transformer和CNN网络的云层检测方法 | |
CN110135419A (zh) | 一种自然场景下端到端文本识别方法 | |
CN117007606A (zh) | 一种基于晶粒分割网络的晶圆晶粒缺陷检测方法及系统 | |
CN114331950A (zh) | 基于稠密连接稀疏激活网络的sar图像舰船检测方法 | |
CN113962934A (zh) | 基于Faster RCNN网络的缺陷检测方法及系统 | |
CN118314353B (zh) | 一种基于双分支多尺度特征融合的遥感图像分割方法 | |
CN116524346B (zh) | 基于二值变化检测对比学习的高分辨遥感图像语义变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |