CN109886174A - 一种仓库货架标识牌文字识别的自然场景文字识别方法 - Google Patents

一种仓库货架标识牌文字识别的自然场景文字识别方法 Download PDF

Info

Publication number
CN109886174A
CN109886174A CN201910112721.4A CN201910112721A CN109886174A CN 109886174 A CN109886174 A CN 109886174A CN 201910112721 A CN201910112721 A CN 201910112721A CN 109886174 A CN109886174 A CN 109886174A
Authority
CN
China
Prior art keywords
text
layer
sign board
frame
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910112721.4A
Other languages
English (en)
Inventor
吴成东
陆正
张亚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910112721.4A priority Critical patent/CN109886174A/zh
Publication of CN109886174A publication Critical patent/CN109886174A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG‑16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG‑16的13个卷积层,将所述VGG‑16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。本发明提供一种用于仓库货架标识牌文字识别的自然场景文字识别方法,可以在物流仓库环境中有较高的自然场景文字识别的准确率、精确率和召回率的同时,也有着很好的效率。

Description

一种仓库货架标识牌文字识别的自然场景文字识别方法
技术领域
本发明涉及文字识别的技术领域,具体而言,尤其涉及一种仓库货架标识牌文字识别的自然场景文字识别方法。
背景技术
自然场景文字识别技术不同于传统OCR(光字符识别)技术目前可以分成两个部分:文本检测与文字识别。文本检测有如下方法:CTPN方案中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。RRPN等方案中,文本框标注采用BBOX+方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。DMPNet等方案中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。SegLink将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。TextBoxes等方案中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。FTSN方案中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。
现有技术中,常见的文字识别方法:CRNN是目前较为流行的图文识别模型,可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。它利用BLSTM和CTC部件学习字符图像中的上下文关系,从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行预测得到文本序列。
RARE在识别变形的图像文本时效果很好。模型预测过程中,输入图像首先要被送到一个空间变换网络中做处理,矫正过的图像然后被送入序列识别网络中得到文本预测结果。空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后,它可以根据输入图像的特征图动态地产生空间变换网格,然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS的空间变换,从而能够比较准确地识别透视变换过的文本、以及弯曲的文本。
此外还有所谓端到端模的方法,即一站式直接从图片中定位和识别出所有文本内容来,有如下方法:
FOTS是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域,可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别.
STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络来对原始输入图像进行仿射变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。作者也提到,如果从头开始训练则网络收敛速度较慢,因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。
随着物流行业的发展智慧物流将成为该行业发展的主要方向,由于物流规模的逐渐扩大,在物流仓库中货架标识牌的数量越来越多,现有的自然场景文字识别技术缺少应用于物流仓库环境中的,并且准确率、精确率和召回率都不是非常理想。
发明内容
根据上述提出准确率、精确率和召回率都不是非常理想的技术问题,而提供一种仓库货架标识牌文字识别的自然场景文字识别方法。本发明主要利用一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:
S1:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG-16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG-16的13个卷积层,将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。
进一步地,所述文本框层的每个位置预测每个默认框的n维向量,包括通过iot方法计算文本存在分数,水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移;所述文本框图层均为3*5像素的卷积核;通过非最大抑制方法,合并所述6个文本框层的结果。
进一步地,S2:默认边框垂直偏移;所述文本检测网络的输出边界框包括:定向边界框{q}或{r},其中,q表示长方形边框r表示旋转边框;通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b};设置所述默认框的宽高比分别为:1、2、3、5、7、10。
更进一步地,S3:训练数据集;训练过程分三个阶段首先是预训练阶段,训练一阶段,训练二阶段;所述预训练阶段分别采用10-4,10-4,10-5的学习率,分别迭代60000次,20000次,30000次,采用COCO-Text数据集;
更进一步地,S4:通过损失函数实现梯度下降寻找最优值;对于第i个默认框和第j个实际框,xij=1表示在它们之间的框重叠之后匹配,否则xij=0;设c为置信度,l为预测位置,g为实际位置,则所述损失函数定义为:
其中,N表示与所述实际框匹配的所述默认框的数量,Lloc采用平滑L1正则,对Lconf采用二分类softmax;
更进一步地,S5:在线强负样本开采;通过SSD强负样本开采策略,第一阶段的负样本和正样本之间的比率设定为3:1,然后第二阶段的比率变为6:1,三个训练阶段分别采用3,3,6的强负样本开采负比率。
进一步地,S6:对所述训练数据集进行扩充;通过随机裁剪策略,将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9;将每个裁剪区域调整为固定大小的图像,并输入网络。
进一步地,所述步骤S1文字识别的框架搭建的具体方法为:
S11:搭建全卷积层,从输入图像中提取特征序列,卷积层的分量是通过从标准DCNN模型中取出卷积和最大池化层来构建的,即去掉所有全连接层;
S12:采用LSTM网络搭建循环层,预测每帧的标签分布;
S13:搭建转录层,将每帧预测转换为最终标签序列,CTC作为输出层。
更进一步地,文字识别网络的训练方法为:通过随机梯度下降SGD进行训练并将梯度由反向传播算法计算;在转录层中,误差偏差与前向后向算法反向传播,在循环层中,应用反向传播时间(BPTT)来计算误差。
较现有技术相比,本发明具有以下优点:本发明提供一种用于仓库货架标识牌文字识别的自然场景文字识别方法,可以在物流仓库环境中有较高的自然场景文字识别的准确率、精确率和召回率的同时,也有着很好的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明整体流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
作为优选的实施方式,一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:
S1:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG-16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG-16的13个卷积层,将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。
在本实施方式中,所述文本框层的每个位置预测每个默认框的n维向量,包括通过iot方法计算文本存在分数,水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移;所述文本框图层均为3*5像素的卷积核;通过非最大抑制方法,合并所述6个文本框层的结果。可以理解为,在其它实施方式中,还可以根据实际情况选择文本框的大小。
在本实施方式中,所述步骤S1文字识别的框架搭建的具体方法为:
S11:搭建全卷积层,从输入图像中提取特征序列,卷积层的分量是通过从标准DCNN模型中取出卷积和最大池化层来构建的,即去掉所有全连接层;
S12:采用LSTM网络搭建循环层,预测每帧的标签分布;
S13:搭建转录层,将每帧预测转换为最终标签序列,CTC作为输出层。
作为优选的实施方式,步骤S2:默认边框垂直偏移;所述文本检测网络的输出边界框包括:定向边界框{q}或{r},其中,q表示长方形边框r表示旋转边框;通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b};设置所述默认框的宽高比分别为:1、2、3、5、7、10。可以理解为在其它的实施方式中,还可以按照实际待检测的文本框的尺寸选择高度比,只要能够满足能够有效的优化即可。
在本实施方式中,步骤S3:训练数据集;训练过程分三个阶段首先是预训练阶段,训练一阶段,训练二阶段;所述预训练阶段分别采用10-4,10-4,10-5的学习率,分别迭代60000次,20000次,30000次,采用COCO-Text数据集。
在本实施方式中,步骤S4:通过损失函数实现梯度下降寻找最优值;对于第i个默认框和第j个实际框,xij=1表示在它们之间的框重叠之后匹配,否则xij=0;设c为置信度,l为预测位置,g为实际位置,则所述损失函数定义为:
其中,N表示与所述实际框匹配的所述默认框的数量,Lloc采用平滑L1正则,对Lconf采用二分类softmax。
作为优选的实施方式,步骤S5:在线强负样本开采;通过SSD强负样本开采策略,第一阶段的负样本和正样本之间的比率设定为3:1,然后第二阶段的比率变为6:1,三个训练阶段分别采用3,3,6的强负样本开采负比率。
在本实施方式中,S6:对所述训练数据集进行扩充;通过随机裁剪策略,将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9;将每个裁剪区域调整为固定大小的图像,并输入网络。
在本实施方式中,文字识别网络的训练方法为:通过随机梯度下降SGD进行训练并将梯度由反向传播算法计算;在转录层中,误差偏差与前向后向算法反向传播,在循环层中,应用反向传播时间(BPTT)来计算误差。
作为本申请的一种实施例,为了让相关领域技术人员更好地理解本方法,下面将结合实例,对本发明做进一步的详细说明。本实例在系统版本为Ubuntu14.10,装备GTX1080Ti的个人电脑上进行,完成物流仓库的自然场景文字识别的任务。
本实例针对京东沈阳亚洲一号分拣中心的物流仓库环境,进行仓库标识牌的自然场景文字识别。
首先在物流仓库内取景拍照,共拍400张清晰照片分辨率为1024*1024。然后在系统版本为Ubuntu14.10,装备GTX1080Ti的个人电脑上,分别搭建文字检测网络和文字识别网络。其中文字识别网络的结构包括来自VGG-16的13个卷积层,后面是10个额外的卷积层的全卷积网络。以及6个连接到6个中间卷积层的文本框层。保留VGG-16前13个卷积层,将后两个全连接层替换为参数下采样的两个卷积层。文本框图层的每个位置预测每个默认框的n维向量,包括文本存在分数(2维),水平边界矩形偏移(4维)和旋转矩形边界框偏移(5维)或四边形边界框偏移(8维)。文本框图层均采用特殊的3*5的卷积核。最后应用非最大抑制以合并所有6个文本框图层的结果。文字识别网络的结构由三部分组成:1)全卷积层,源自VGG-VeryDeep结构从输入图像中提取特征序列,卷积层的分量是通过从标准DCNN模型中取出卷积和最大池化层来构建的,即去掉所有全连接层;2)循环层,预测每帧的标签分布,采用LSTM网络;3)转录层,将每帧预测转换为最终标签序列,CTC作为输出层。
接着按照本方法中的训练方法分别训练文字检测网络和文字识别网络,该阶段预计需要3~4天的时间。将训练好的两个模型的参数保存,然后整体封装。
依次输入物流仓库照片到文字检测网络,检测出相应的文字位置,并用绿色边框标注,输出文字检测结果。将文字检测结果生成的标注照片输入到文字识别网络,在文字检测边框附近标出所识别的具体文字。重复上述操作,得出100张物流仓库照片的自然场景文字识别结果,经过统计该方法正确率高达95%。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (3)

1.一种仓库货架标识牌文字识别的自然场景文字识别方法,其特征在于,至少包括以下步骤:
S1:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:
来自VGG-16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG-16的13个卷积层,将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层;
所述文本框层的每个位置预测每个默认框的n维向量,包括通过iot方法计算文本存在分数,水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移;
所述文本框图层均为3*5像素的卷积核;通过非最大抑制方法,合并所述6个文本框层的结果;
S2:默认边框垂直偏移;所述文本检测网络的输出边界框包括:定向边界框{q}或{r},其中,q表示长方形边框r表示旋转边框;通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b};设置所述默认框的宽高比分别为:1、2、3、5、7、10;
S3:训练数据集;训练过程分三个阶段首先是预训练阶段,训练一阶段,训练二阶段;所述预训练阶段分别采用10-4,10-4,10-5的学习率,分别迭代60000次,20000次,30000次,采用COCO-Text数据集;
S4:通过损失函数实现梯度下降寻找最优值;对于第i个默认框和第j个实际框,xij=1表示在它们之间的框重叠之后匹配,否则xij=0;设c为置信度,l为预测位置,g为实际位置,则所述损失函数定义为:
其中,N表示与所述实际框匹配的所述默认框的数量,Lloc采用平滑L1正则,对Lconf采用二分类softmax;
S5:在线强负样本开采;通过SSD强负样本开采策略
第一阶段的负样本和正样本之间的比率设定为3:1,然后第二阶段的比率变为6:1,三个训练阶段分别采用3,3,6的强负样本开采负比率。
S6:对所述训练数据集进行扩充;通过随机裁剪策略,将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9;将每个裁剪区域调整为固定大小的图像,并输入网络。
2.根据权利要求1所述的一种仓库货架标识牌文字识别的自然场景文字识别方法,其特征在于:
所述步骤S1文字识别的框架搭建的具体方法为:
S11:搭建全卷积层,从输入图像中提取特征序列,卷积层的分量是通过从标准DCNN模型中取出卷积和最大池化层来构建的,即去掉所有全连接层;
S12:采用LSTM网络搭建循环层,预测每帧的标签分布;
S13:搭建转录层,将每帧预测转换为最终标签序列,CTC作为输出层。
3.根据权利要求1所述的一种仓库货架标识牌文字识别的自然场景文字识别方法,其特征在于:
文字识别网络的训练方法为:通过随机梯度下降SGD进行训练并将梯度由反向传播算法计算;
在转录层中,误差偏差与前向后向算法反向传播,在循环层中,应用反向传播时间BPTT来计算误差。
CN201910112721.4A 2019-02-13 2019-02-13 一种仓库货架标识牌文字识别的自然场景文字识别方法 Pending CN109886174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910112721.4A CN109886174A (zh) 2019-02-13 2019-02-13 一种仓库货架标识牌文字识别的自然场景文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910112721.4A CN109886174A (zh) 2019-02-13 2019-02-13 一种仓库货架标识牌文字识别的自然场景文字识别方法

Publications (1)

Publication Number Publication Date
CN109886174A true CN109886174A (zh) 2019-06-14

Family

ID=66928065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910112721.4A Pending CN109886174A (zh) 2019-02-13 2019-02-13 一种仓库货架标识牌文字识别的自然场景文字识别方法

Country Status (1)

Country Link
CN (1) CN109886174A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110689658A (zh) * 2019-10-08 2020-01-14 北京邮电大学 一种基于深度学习的出租车票据识别方法和系统
CN110929721A (zh) * 2019-10-28 2020-03-27 世纪保众(北京)网络科技有限公司 文本切割方法、装置、计算机设备和存储介质
CN111027554A (zh) * 2019-12-27 2020-04-17 创新奇智(重庆)科技有限公司 商品价签文字精确检测定位系统及定位方法
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN111310762A (zh) * 2020-03-16 2020-06-19 天津得迈科技有限公司 一种基于物联网的智能医疗票据识别方法
CN111311630A (zh) * 2020-01-19 2020-06-19 上海智勘科技有限公司 在仓储管理中通过视频智能统计货物数量的方法和系统
CN111738255A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于深度学习的路牌文本检测与识别算法
CN112446351A (zh) * 2020-12-09 2021-03-05 杭州米数科技有限公司 医疗票据智能识别系统解决方法
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
WO2021189889A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 场景图像中的文本检测方法、装置、计算机设备及存储介质
CN113657376A (zh) * 2020-08-10 2021-11-16 广东电网有限责任公司 电力专业的设备标识牌识别算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110309824B (zh) * 2019-07-02 2021-07-02 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110363252B (zh) * 2019-07-24 2021-06-04 山东大学 趋向于端到端的场景文字检测与识别方法以及系统
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110689658A (zh) * 2019-10-08 2020-01-14 北京邮电大学 一种基于深度学习的出租车票据识别方法和系统
CN110929721A (zh) * 2019-10-28 2020-03-27 世纪保众(北京)网络科技有限公司 文本切割方法、装置、计算机设备和存储介质
CN111027554A (zh) * 2019-12-27 2020-04-17 创新奇智(重庆)科技有限公司 商品价签文字精确检测定位系统及定位方法
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN111311630A (zh) * 2020-01-19 2020-06-19 上海智勘科技有限公司 在仓储管理中通过视频智能统计货物数量的方法和系统
CN111311630B (zh) * 2020-01-19 2023-05-23 上海智勘科技有限公司 在仓储管理中通过视频智能统计货物数量的方法和系统
CN111310762A (zh) * 2020-03-16 2020-06-19 天津得迈科技有限公司 一种基于物联网的智能医疗票据识别方法
WO2021189889A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 场景图像中的文本检测方法、装置、计算机设备及存储介质
CN111738255A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于深度学习的路牌文本检测与识别算法
CN113657376A (zh) * 2020-08-10 2021-11-16 广东电网有限责任公司 电力专业的设备标识牌识别算法
CN112446351A (zh) * 2020-12-09 2021-03-05 杭州米数科技有限公司 医疗票据智能识别系统解决方法
CN112446351B (zh) * 2020-12-09 2022-08-09 杭州米数科技有限公司 医疗票据智能识别方法
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112541501B (zh) * 2020-12-18 2021-09-07 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法

Similar Documents

Publication Publication Date Title
CN109886174A (zh) 一种仓库货架标识牌文字识别的自然场景文字识别方法
CN109800628B (zh) 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN110956185B (zh) 一种图像显著目标的检测方法
CN110443818B (zh) 一种基于涂鸦的弱监督语义分割方法与系统
CN112733822B (zh) 一种端到端文本检测和识别方法
CN115601549B (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112541491B (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN111612051A (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN112070037B (zh) 基于遥感影像的道路提取方法、装置、介质及设备
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN115147418A (zh) 缺陷检测模型的压缩训练方法和装置
Fan et al. A novel sonar target detection and classification algorithm
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN114882204A (zh) 船名自动识别方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111079749B (zh) 一种带姿态校正的端到端商品价签文字识别方法和系统
CN115482463B (zh) 一种生成对抗网络矿区土地覆盖识别方法及系统
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231013

AD01 Patent right deemed abandoned