CN109948615B - 多语言文本检测识别系统 - Google Patents

多语言文本检测识别系统 Download PDF

Info

Publication number
CN109948615B
CN109948615B CN201910232853.0A CN201910232853A CN109948615B CN 109948615 B CN109948615 B CN 109948615B CN 201910232853 A CN201910232853 A CN 201910232853A CN 109948615 B CN109948615 B CN 109948615B
Authority
CN
China
Prior art keywords
text
channel
attribute
wise
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910232853.0A
Other languages
English (en)
Other versions
CN109948615A (zh
Inventor
张勇东
周宇
谢洪涛
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Priority to CN201910232853.0A priority Critical patent/CN109948615B/zh
Publication of CN109948615A publication Critical patent/CN109948615A/zh
Priority to PCT/CN2020/078928 priority patent/WO2020192433A1/zh
Application granted granted Critical
Publication of CN109948615B publication Critical patent/CN109948615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多语言文本检测识别系统,包括:文本检测器,用于在输入图像中生成一系列的文本候选框;归一化单元,用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度;脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别。该系统可以同时检测并识别出场景文本图像中的多种语言的文本。

Description

多语言文本检测识别系统
技术领域
本发明涉及人工智能领域,尤其涉及多语言文本检测识别系统。
背景技术
现有的场景文本识别系统主要是针对剪裁后的文本,而不能同时对文本图像进行检测和识别。少数的能同时检测和识别文本的方法却只是针对英文文本,而在现实生活中经常会遇到在同一场景下处理多种语言文本的情况。因此迫切需要一个端到端的多语言场景文本识别系统,这将会给图像检索、机器翻译,自动驾驶等带来很大便利。
发明内容
本发明的目的是提供一种多语言文本检测识别系统,可以同时检测并识别出场景文本图像中的多种语言的文本。
本发明的目的是通过以下技术方案实现的:
一种多语言文本检测识别系统,包括:
文本检测器,用于在输入图像中生成一系列的文本候选框;
归一化单元,用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K;
脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;
基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别。
由上述本发明提供的技术方案可以看出,该系统基于卷积神经网络,并且能同时检测和识别多种语言的文本,相比对传统的文本检测、多语言识别方案均具有较高的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种多语言文本检测识别系统的示意图;
图2为本发明实施例提供的文本检测器的结构示意图;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种多语言文本检测识别系统,如图1所述,包括:
文本检测器,用于在输入图像中生成一系列密集地的文本候选框;
将输入图像调整为指定尺寸,并对于每一像素点输出M个带有方向的文本候选框;
归一化单元,用于将每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度;
脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;
基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别。
本发明实施例上述系统可以应用于机器翻译,通过在翻译软件的后台中安装该系统,可以识别不同语言的文本,然后翻译成想要的文本。也可以用于自动驾驶,在无人驾驶汽车安装该系统之后,可以检测并识别不同语言的路标,从而选择正确的方向前行。
为了便于理解,下面针对系统各个部分做详细的介绍。
一、文本检测器。
如图2所示,所述文本检测器由4个针对文本而设计的inception模块和3个channel-wise attention(通道上的注意力)与spatial attention(空间上的注意力)模块以及7个卷积层堆叠而成;其中,channel-wise attention是针对特征图的通道而言,输出各通道的重要性级别,即告诉网络哪些通道的信息比较重要;spatial attention是针对特征图的每个像素而言,输出可能包含文本的位置区域,即告诉网络应该更关注特征图的哪些地方。本发明实施例中,inception模块可以使用1×5和5×1的卷积核,由于文本一般都具有很大的宽高比,所以这种卷积核更适合文本。
文本检测器对于每个点输出P个带有方向的文本候选框,然后使用非极大值抑制对这些文本候选框进行处理,得到M个带有方向的文本候选框。
示例性的,每个图像被调整为成256×256之后输入到文本检测器,文本检测器在每个像素点输出14个带有方向的文本候选框,然后使用非极大值抑制(NMS)对这些文本候选框进行处理,去除冗余的文本建议框,加快计算速度。
图2中,3×3表示,卷积操作中使用宽和高都为3的卷积核(1×1含义类似);7个卷积层对应于图2中的3x3的部分。图2中,16表示卷积操作中的使用16个卷积核(1、2、4、64、256、512的含义类似);/2表示特征图的分辨率减半;upsample表示上采样操作,作用是将特征图的分辨率变大;f1~f4:分别是各个阶段得到的特征图;segmentation表示文本区域的分割图;box:文本框(发现文本之后用一个矩形框来框出);angle:文本的角度,有些文本不是水平的,可能有一个角度。
如图2所示,文本检测器的工作流程简述如下:一张输入图像(input image)输入到网络中,依次经过四个卷积层以及inception1、第一个channel-wise attention与spatial attention模块(可简称为注意力模块)、第五个卷积层(3x3,128,/2)、inception2、第二个channel-wise attention与spatial attention模块、第六个卷积层(3x3,256,/2)、第三个channel-wise attention与spatial attention模块、第七个卷积层(3x3,512,/2),特征图f1的分辨率变为8x8,然后,经过上采样后与第三个channel-wiseattention与spatial attention模块输出的特征图f2相加进行特征融合,得到的特征图经过上采样之后再与第二个channel-wise attention与spatial attention模块输出的特征图f3相加进行特征融合,这里得到的特征图再经过上采样后与第一个channel-wiseattention与spatial attention模块输出的特征图f1相加进行特征融合,再经过inception4进行特征提取。在此过程中,特征图上采样到32x32和64x64的时候分别进行文本候选框的预测(生成文本候选框)。
二、归一化单元。
归一化单元将每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K,这种归一化方法保持了文本候选框的宽高比,避免了候选框变形,为后面的文本识别和文本语言类别识别提供了保障。
相关公式为:
H'=K
W'=wH'/h
其中,W'、H'分别表示归一化调整后的文本候选框的宽度、高度;w、h分别表示文本候选框的原有的宽度、高度。
示例性的,K可以为64,当然,也可以根据需要改为其他数值。
三、脚本识别网络。
本发明实施例中,脚本识别网络可通过卷积神经网络(CNN)实现,如表1所示,为脚本识别网络的结构,主要包括:多个交替设置的卷积层和最大池化层、位于最后一个最大池化层后端的全局平均池化层,以及位于全局平均池化层后端的全连接层;所述全连接层具有多个(例如,7个)神经元,每一神经元的softmax输出分别代表每一个文本候选框中的文本属于某个语言类型与符号的概率,概率最高的即为文本候选框中文本的类别。
Figure BDA0002007262980000051
表1脚本识别网络的网络结构
示例性的,全局平均池化层输出1×512的特征图,全连接层可以包含7个神经元,7个神经元的softmax输出7个小数,分别代表每一个文本候选框里面的文本是阿拉伯语,孟加拉语,汉语,韩语,日语,拉丁语和符号的概率,概率最高的即为文本候选框中文本的类别。
四、基于注意力机制的多语言文本识别网络。
本发明实施例中,所述基于注意力机制的多语言文本识别网络使用CNN作为编码器,然后使用CTC解码器来生成字符序列;基于注意力机制的多语言文本识别网络使用channel-wise attention和spatial attention级联来使CTC解码器更关注存在文本的地方,进而提高了文本识别的精度。基于注意力机制的多语言文本识别网络中编码器的结构如表2所示。
Figure BDA0002007262980000061
表2基于注意力机制的多语言文本识别网络中编码器的结构
另一方面,本发明实施例还预先构建了数据集:训练集、验证集与测试集,分别用于文本检测器、脚本识别网络以及基于注意力机制的多语言文本识别网络的训练、验证与测试;训练集、验证集与测试集中均包含若干剪裁图像与场景文本图像,这两类图像中均包含多种语言类型的文本,且训练集和验证集中的文本均有标注;其中,训练集和验证集中的场景文本图像用于文本检测器与脚本识别网络的训练与验证,剪裁图像用于注意力机制的多语言文本识别网络的训练与验证。
本领域技术人员可以理解,剪裁图像是事先从一幅包含背景与文本的图像中把文本剪裁下来,主要用来训练基于注意力机制的多语言文本识别网络;而场景文本图像是包含背景的大的图像,除了文字之外还包含很多没有文字的空白区域。
示例性的,可以从网上下载ICDAR MLT剪裁图像和场景文本图像,其中剪裁图像有68613幅用于训练,16255幅用于验证,97619幅用于测试;而场景文本图像有7200幅用于训练,1800幅用于验证,9000幅用于测试。这些图像包含阿拉伯文字、孟加拉文字、中文、韩文、日文和拉丁文共6种文字。
本发明实施例中,所述文本检测器可以使用Adam优化器来训练,初始学习率可以设置为0.001,损失函数为;
Ldet=Lgeo+Ldice
其中,Ldice是dice损失,dice损失是用来计算语义分割的一种损失函数,比如说一个区域,对于每个像素而言,如果这个像素是文本,则它的值是1,不是文本则为0;如果预测结果为文本,则这个像素的dice损失为0,否则损失就为1,Ldice是所有像素的损失之和;Lgeo是文本候选框和ground-truth(文本的标注)的IoU(交并比)损失LIoU与角度损失Lθ之和:Lgeo=LIoUθLθ,λθ为设定的系数,示例性的,可以设为1。本领域技术人员可以理解,Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。
本发明实施例中,所述脚本识别网络可以使用随机梯度下降算法来优化;可以设置:momentum为0.9,初始学习率为0.001,每5个epoches学习率变为十分之一。
本发明实施例中,所述基于注意力机制的多语言文本识别网络可以使用Adam优化器来训练,可以设置:初始学习率为0.001,β1=0.9,β2=0.99。
本发明实施例上述方案,完全基于卷积神经网络,并且能在一个模型中同时检测和识别多种语言的文本。该系统在多语言数据集ICDAR RRC-MLT测试集上的定位和语言类型识别上的precision(准确率)、recall(召回率)和F-Measure(F值)分别是0.6968,0.6425和0.6687,而现有方法最好的结果分别是0.5759,0.6207,0.5974,相比之下,我们的方法有了很大的提高。此外,该方法在端到端识别ICDAR RRC-MLT测试集的precision、recall和F-Measure分别是0.502,0.424和0.460。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种多语言文本检测识别系统,其特征在于,包括:
文本检测器,用于在输入图像中生成一系列的文本候选框;所述文本检测器由4个针对文本而设计的inception模块和3个channel-wise attention与spatial attention模块以及7个卷积层堆叠而成;其中,channel-wise attention是针对特征图的通道而言,输出各通道的重要性级别;spatial attention是针对特征图的每个像素而言,输出包含文本的位置区域;文本检测器的工作流程如下:输入图像,依次经过四个卷积层、第一个inception模块、第一个channel-wise attention与spatial attention模块、第五个卷积层、第二个inception模块、第二个channel-wise attention与spatial attention模块、第六个卷积层、第三个channel-wise attention与spatial attention模块、以及第七个卷积层,得到特征图f1,然后,经过上采样后与第三个channel-wise attention与spatial attention模块输出的特征图f2相加进行特征融合,得到的特征图经过上采样之后再与第二个channel-wise attention与spatial attention模块输出的特征图f3相加进行特征融合,这里得到的特征图再经过第三个inception模块以及上采样后与第一个channel-wise attention与spatial attention模块输出的特征图f4相加进行特征融合,再经过inception4进行特征提取,其中,利用第三个inception模块与第四个inception模块的输出进行文本候选框的预测,也即生成文本候选框;
归一化单元,用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K;
脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;所述脚本识别网络包括:多个交替设置的卷积层和最大池化层、位于最后一个最大池化层后端的全局平均池化层,以及位于全局平均池化层后端的全连接层;所述全连接层具有多个神经元,每一神经元的softmax输出分别代表每一个文本候选框中的文本属于某个语言类型与符号的概率,概率最高的即为文本候选框中文本的类别;
基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别;所述基于注意力机制的多语言文本识别网络使用CNN作为编码器,然后使用CTC解码器来生成字符序列;基于注意力机制的多语言文本识别网络使用channel-wiseattention和spatial attention级联来使CTC解码器更关注有文本的地方。
2.根据权利要求1所述的一种多语言文本检测识别系统,其特征在于,文本检测器对于每个点输出P个带有方向的文本候选框,然后使用非极大值抑制对这些文本候选框进行处理,得到M个带有方向的文本候选框。
3.根据权利要求1所述的一种多语言文本检测识别系统,其特征在于,所述归一化单元按照如下公式在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K:
H'=K
W'=wH'/h
其中,W'、H'分别表示归一化调整后的文本候选框的宽度、高度;w、h分别表示文本候选框的原有的宽度、高度。
4.根据权利要求1所述的一种多语言文本检测识别系统,其特征在于,
所述文本检测器使用Adam优化器来训练,损失函数为;
Ldet=Lgeo+Ldice
其中,Ldice是dice损失;Lgeo是文本候选框和ground-truth的IoU损失LIoU与角度损失Lθ之和:Lgeo=LIoUθLθ,λθ为设定的系数;
所述脚本识别网络使用随机梯度下降算法来优化;
所述基于注意力机制的多语言文本识别网络使用Adam优化器来训练。
5.根据权利要求4所述的一种多语言文本检测识别系统,其特征在于,构建了训练集、验证集与测试集,用于文本检测器、脚本识别网络以及基于注意力机制的多语言文本识别网络的训练、验证与测试;训练集、验证集与测试集中均包含若干剪裁图像与场景文本图像,这两类图像中均包含多种语言类型的文本,且训练集和验证集中的文本均有标注;其中,训练集和验证集中的场景文本图像用于文本检测器与脚本识别网络的训练与验证,剪裁图像用于注意力机制的多语言文本识别网络的训练与验证。
CN201910232853.0A 2019-03-26 2019-03-26 多语言文本检测识别系统 Active CN109948615B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910232853.0A CN109948615B (zh) 2019-03-26 2019-03-26 多语言文本检测识别系统
PCT/CN2020/078928 WO2020192433A1 (zh) 2019-03-26 2020-03-12 多语言文本检测识别方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910232853.0A CN109948615B (zh) 2019-03-26 2019-03-26 多语言文本检测识别系统

Publications (2)

Publication Number Publication Date
CN109948615A CN109948615A (zh) 2019-06-28
CN109948615B true CN109948615B (zh) 2021-01-26

Family

ID=67010832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910232853.0A Active CN109948615B (zh) 2019-03-26 2019-03-26 多语言文本检测识别系统

Country Status (2)

Country Link
CN (1) CN109948615B (zh)
WO (1) WO2020192433A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948615B (zh) * 2019-03-26 2021-01-26 中国科学技术大学 多语言文本检测识别系统
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111126243B (zh) * 2019-12-19 2023-04-07 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN111507406A (zh) * 2020-04-17 2020-08-07 上海眼控科技股份有限公司 一种用于优化神经网络文本识别模型的方法与设备
CN111914843B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112613348A (zh) * 2020-12-01 2021-04-06 浙江华睿科技有限公司 一种字符识别方法及电子设备
CN113159021A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于上下文信息的文本检测方法
CN113095370B (zh) * 2021-03-18 2023-11-03 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN113255646B (zh) * 2021-06-02 2022-10-18 北京理工大学 一种实时场景文本检测方法
CN113537189A (zh) * 2021-06-03 2021-10-22 深圳市雄帝科技股份有限公司 手写文字识别方法、装置、设备及存储介质
CN114170594A (zh) * 2021-12-07 2022-03-11 奇安信科技集团股份有限公司 光学字符识别方法、装置、电子设备及存储介质
CN114743045B (zh) * 2022-03-31 2023-09-26 电子科技大学 一种基于双分支区域建议网络的小样本目标检测方法
CN115936073B (zh) * 2023-02-16 2023-05-16 江西省科学院能源研究所 一种语言导向卷积神经网络及视觉问答方法
CN118378707B (zh) * 2024-06-21 2024-09-13 中国科学技术大学 一种基于价值体系引导的动态演化多模态价值生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220641B (zh) * 2016-03-22 2020-06-26 华南理工大学 一种基于深度学习的多语言文本分类方法
US10936862B2 (en) * 2016-11-14 2021-03-02 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks
CN108470172B (zh) * 2017-02-23 2021-06-11 阿里巴巴集团控股有限公司 一种文本信息识别方法及装置
CN106980858B (zh) * 2017-02-28 2020-08-18 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN109359293B (zh) * 2018-09-13 2019-09-10 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN109948615B (zh) * 2019-03-26 2021-01-26 中国科学技术大学 多语言文本检测识别系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的电力设备铭牌识别;陈晓龙等;《广西大学学报(自然科学版)》;20181231;第1-6章 *

Also Published As

Publication number Publication date
CN109948615A (zh) 2019-06-28
WO2020192433A1 (zh) 2020-10-01

Similar Documents

Publication Publication Date Title
CN109948615B (zh) 多语言文本检测识别系统
US11775838B2 (en) Image captioning with weakly-supervised attention penalty
US11715014B2 (en) System and method of character recognition using fully convolutional neural networks with attention
US10354168B2 (en) Systems and methods for recognizing characters in digitized documents
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
CN107239786B (zh) 一种字符识别方法和装置
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
RU2693916C1 (ru) Распознавание символов с использованием иерархической классификации
Hazra et al. Optical character recognition using KNN on custom image dataset
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
Jain et al. Unconstrained OCR for Urdu using deep CNN-RNN hybrid networks
Boillet et al. Robust text line detection in historical documents: learning and evaluation methods
US11295175B1 (en) Automatic document separation
Van Hoai et al. Text recognition for Vietnamese identity card based on deep features network
EP4089568A1 (en) Cascade pooling for natural language document processing
Baek et al. COO: Comic onomatopoeia dataset for recognizing arbitrary or truncated texts
Rahmati et al. Printed Persian OCR system using deep learning
Al Ghamdi A novel approach to printed Arabic optical character recognition
Kumari et al. Page level input for handwritten text recognition in document images
Gupta et al. C2vnet: A deep learning framework towards comic strip to audio-visual scene synthesis
Ashraf et al. An analysis of optical character recognition (ocr) methods
Chen et al. AAF-Net: Scene text detection based on attention aggregation features
Duc et al. Text spotting in Vietnamese documents
CN115004261A (zh) 文本行检测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant