CN110569832B - 基于深度学习注意力机制的文本实时定位识别方法 - Google Patents

基于深度学习注意力机制的文本实时定位识别方法 Download PDF

Info

Publication number
CN110569832B
CN110569832B CN201910785745.6A CN201910785745A CN110569832B CN 110569832 B CN110569832 B CN 110569832B CN 201910785745 A CN201910785745 A CN 201910785745A CN 110569832 B CN110569832 B CN 110569832B
Authority
CN
China
Prior art keywords
text
convolution
attention
deep
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910785745.6A
Other languages
English (en)
Other versions
CN110569832A (zh
Inventor
汪从玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Key Information Technology Co ltd
Original Assignee
Anhui Key Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Key Information Technology Co ltd filed Critical Anhui Key Information Technology Co ltd
Publication of CN110569832A publication Critical patent/CN110569832A/zh
Application granted granted Critical
Publication of CN110569832B publication Critical patent/CN110569832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Abstract

本发明公开了一种基于深度学习注意力机制的文本实时定位识别方法,包括以下步骤:搭建文本图像采集系统,收集训练样本并进行人工标注,建立OCR数据集,根据OCR数据集的特点,先对图像进行预处理,然后提出深度显著性注意力网络来定位文本区域,将文本与复杂背景区分开。最后利用深度卷积循环注意力来识别文本,实现对文本图像的实时检测识别。本发明无需对字符进行切分,能够有效地提高OCR系统检测识别的精度,并有具有良好的实时性和迁移性,具有广阔的应用前景。

Description

基于深度学习注意力机制的文本实时定位识别方法
技术领域
本发明涉及文字识别技术领域,特别是涉及一种基于深度学习注意力机制的文本实时定位识别方法。
背景技术
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。
现有技术一般包含四个步骤:图像预处理,文字区域检测,字符切割,字符识别。
下面分别具体描述:
(1)图像的预处理:图像预处理部分主要包括二值化、图像降噪、倾斜矫正等等。图像预处理是识别过程的先行步骤,是为了提升后续处理单元的处理效率和准确率。图像预处理的步骤并不是严格按照流程固定不变的,不同的识别需求需要根据实验效果做出步骤的调整。一般来说,对于识别扫描的PDF、WORD文件所需的预处理步骤则要简单的多,而类似于车牌识别这类环境复杂的图像,则需要很繁琐的步骤;
(2)字符区域检测:图像预处理操作进行之后,一般情况下就要开始检测图像中的文字区域。传统的文字区域检测方法一般是通过找轮廓或者投影的方式找到文本行,但是此种方法需设定繁琐的规则且鲁棒性不好;
(3)字符切割:传统方法一般先对文本行进行字符切割,然后对切割后的字体进行识别。而字符切割算法比较常见的是垂直投影法,但字符切割算法受到字符间隙的影响,如果两个字符存在粘连情况,字符切割的有效性将大大降低;
(4)字符识别:字符识别是OCR整个流程中的最后一步,也是举足轻重的一步,这一部分模块的识别正确率决定了整个OCR系统可用与否。现有技术一般将字符识别问题转换为分类问题,通过SVM或者卷积神经网络来解决。
因而现有技术中OCR识别具有在复杂背景下定位文本区域困难、字符切分鲁棒性差、识别准确率低的问题,因此亟需提供一种新型的文本识别方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习注意力机制的文本实时定位识别方法,无需切分字符,能够有效地提高OCR系统检测识别的精度。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于深度学习注意力机制的文本实时定位识别方法,包括以下步骤:
S1:搭建文本图像采集系统,收集训练样本并进行人工标注,建立OCR数据集;
S2:基于深度学习的方法,根据OCR数据集的特点,建立深度显著性注意力网络与深度卷积循环注意力模型;
S3:对所述OCR数据集进行预处理,利用预处理后的数据集训练所述深度显著性注意力网络,得到能够精确定位文本区域的深度显著性注意力网络;
S4:利用所述深度显著性注意力网络获取图片文本区域的热力图,将热力图与原图相乘,得到显著图;
S5:利用所述显著图训练所述深度卷积循环注意力模型,得到能够精确识别文本的深度卷积循环注意力模型,并对文本图像进行预测,从而实现对文本图像的实时定位识别。
在本发明一个较佳实施例中,在步骤S1中,建立OCR数据集的具体步骤包括:
对于收集到的训练样本,删除无效图像,并进行人工标注,随机选取7—9万张图像作为测试集,剩余图像作为训练集,分别以端点坐标加文本内容的形式命名。
在本发明一个较佳实施例中,步骤S4的具体过程如下:
S4.1:所述深度显著性注意力网络包括四个卷积单元、四个反卷积层,每个卷积单元包括一个卷积层与一个最大池化层,卷积层用于提取图像特征,最大池化层用于压缩无用信息;预处理后的图像经过四个卷积单元后被压缩到了原图的1/16大小,得到了包含丰富语义特征的特征图;
S4.2:通过四个反卷积层将特征图上采样16倍,再通过sigmoid激活函数来激活,将输入的值压缩到0—1区间,即有文字区域值为1,背景区域值为0,通过sigmoid激活函数得到了热力图;
S4.3:将热力图与原图相乘,得到显著图。
进一步的,所述深度显著性注意力网络包括四个卷积单元、四个反卷积层,每个卷积单元包括一个卷积层与一个最大池化层,卷积层用于提取图像特征,最大池化层用于压缩无用信息;四个卷积单元的卷积核数目依次为32、64、128、256,最大池化层的步长为2,反卷积核数目依次为256、128、64、1。
在本发明一个较佳实施例中,所述深度卷积循环注意力模型包括五个卷积单元、一个长短期记忆网络LSTM,每个卷积单元包括一个卷积层和一个最大池化层;五个卷积单元的卷积核数目依次为32、64、128、256、512,最大池化层的步长为2。
进一步的,所述长短期记忆网络LSTM用于融合上下文信息,在每一时刻通过局部注意力机制聚焦不同区域得到分类结果;所述局部注意力机制为:
Stf(St-1,yt-1,ct) (1)
Figure BDA0002177977150000031
Figure BDA0002177977150000032
etj=g(St-1,hj) (4)
其中αt是t时刻的注意力向量,st-1是LSTM(t-1)时刻的状态向量,h是卷积层提取的高层语义特征,下标j表示j位置的局部特征,yt-1是LSTM上一时刻的输出结果。
在本发明一个较佳实施例中,在步骤S3和步骤S5中,训练方法采用随机梯度下降加动量的优化器,其参数更新规则为:
Figure BDA0002177977150000033
θ←θ+V
其中,v为相比于普通的随机梯度下降增加的速度向量,α为动量参数,ε为学习速率,
Figure BDA0002177977150000034
为针对权重θ的微分,m为当前批次输入的样本图像数量,L(f(x(i);θ),y(i))为损失函数,x(i)为针对权样本中的某个样例,y(i)为对应的标签。
本发明的有益效果是:
(1)本发明基于深度学习的方法建立深度显著性注意力网络与深度卷积循环注意力模型,通过训练所述深度显著性注意力网络,能够准确定位文本所在区域,再通过训练所述深度卷积循环注意力模型,能够精确识别出文本内容;另外通过在训练过程中设置优化器,能够极大地加快训练速度,并在一定程度上抑制噪声带来的影响;
(2)相比于现有方法,本发明成本低,检测速度快,并且不需要分割文本,受外界干扰小,具有良好的实时性和迁移性,并且能够有效提高识别的精度,具有十分广阔的应用前景;
(3)本发明无需分割出单个字符就能识别整张图片的内容,有效避免在复杂背景下字符区域检测不准,以及字符粘连时字符切割算法的有效性明显降低的问题。
附图说明
图1是本发明基于深度学习注意力机制的文本实时定位识别方法的流程图;
图2是所述深度显著性注意力网络的模型示意图;
图3是所述深度卷积循环注意力模型的示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于深度学习注意力机制的文本实时定位识别方法,包括以下步骤:
S1:搭建文本图像采集系统,收集训练样本并进行人工标注,建立OCR数据集;
对于收集到的训练样本,删除无效图像,并进行人工标注,随机选取8万张图像作为测试集,剩余图像约2万张作为训练集,用文本文件存放每张图片的标注信息,分别以端点坐标加文本内容的形式命名。例如1.jpg这张图片在(100,20)—(200,60)的坐标范围内存在文本,且文本内容为‘20180901’,则对应的文本文件名为1.txt,里面存放的信息为文本区域的左上与右下角坐标和文本内容,即‘(100,20),(200,60),20180901’。
S2:基于深度学习的方法,根据OCR数据集的特点,建立深度显著性注意力网络与深度卷积循环注意力模型;
如图2所示,所述深度显著性注意力网络包括四个卷积单元、四个反卷积层,每个卷积单元包括一个卷积层与一个最大池化层,卷积层用于提取图像特征,最大池化层用于压缩无用信息。四个卷积单元的卷积核数目依次为32、64、128、256,最大池化层的步长为2,反卷积核数目依次为256、128、64、1。
如图3所示,所述深度卷积循环注意力模型包括五个卷积单元、一个长短期记忆网络LSTM,每个卷积单元包括一个卷积层和一个最大池化层。五个卷积单元的卷积核数目依次为32、64、128、256、512,最大池化层的步长为2。
S3:对所述OCR数据集进行预处理,利用预处理后的数据集训练所述深度显著性注意力网络,得到能够精确定位文本区域的深度显著性注意力网络;
在实际应用中的图像可能有多种格式,比如:jpg、jpeg、png等,为了能使用于各种情况,先对图像进行处理,统一转化为矩阵形式。首先将所有图片读进内存并以矩阵形式保存,再将图片的像素值减128除以128,归一化到-1到1之间。然后随机划分训练集与测试集,80%样本作为训练集,20%样本作为测试集。
S4:利用所述深度显著性注意力网络获取图片文本区域的热力图,将热力图与原图相乘,得到显著图;具体过程如下:
S4.1:所述深度显著性注意力网络包括四个卷积单元、四个反卷积层,每个卷积单元包括一个卷积层与一个最大池化层,卷积层用于提取图像特征,最大池化层用于压缩无用信息;预处理后的图像经过四个卷积单元后被压缩到了原图的1/16大小,得到了包含丰富语义特征的特征图;
S4.2:为了得到与原图同样大小的热力图,通过四个反卷积层将特征图上采样16倍,再通过sigmoid激活函数来激活,将输入的值压缩到0—1区间,即有文字区域值为1,背景区域值为0,通过sigmoid激活函数得到了热力图;
其中,Sigmoid函数的数学表达式为
Figure BDA0002177977150000051
热力图中每一个点表示此位置是否存在文本,如果存在文本,则值为1,反之,则值为0。即热力图是一个与原图像大小相等的由0、1组成的矩阵。
S4.3:将热力图与原图相乘,得到显著图,由于非文本区域的热力矩阵值为0,则相乘之后背景部分的值为0,即忽略了背景,突出了文本。
S5:利用所述显著图训练所述深度卷积循环注意力模型,得到能够精确识别文本的深度卷积循环注意力模型,并对文本图像进行预测,从而实现对文本图像的实时定位识别。
深度卷积循环注意力模型的输入是显著图,通过5个卷积单元来提取高层语义特征,其中每个卷积单元包含一个卷积层和一个最大池化层。然后通过一个长短期记忆网络LSTM来融合上下文信息,在每一时刻通过注意力机制聚焦不同区域得到分类结果。
所述长短期记忆网络LSTM有一个对应的局部注意力机制。所述局部注意力机制为:
St=f(St-1,yt-1,ct) (1)
Figure BDA0002177977150000061
Figure BDA0002177977150000062
etj=g(St-1,hj) (4)
其中αt是t时刻的注意力向量,st-1是LSTM(t-1)时刻的状态向量,h是卷积层提取的高层语义特征,下标j表示j位置的局部特征,yt-1是LSTM上一时刻的输出结果。
局部注意力机制能顺序地定位出每一个文字的大致区域,然后对这个区域进行识别并得到识别结果。以包含“20180901”内容的图片为例,显著性注意力网络首先自动定位到“2”所在的区域,然后识别出“2”这个文字,接着依次定位识别出“0180901”。
通过局部注意力机制,在每一个时刻,深度卷积循环注意力模型都能自动对齐文本位置,也就是深度卷积循环注意力模型可以自动在每一个时刻定位到文字位置,即可以不用分割单个字符就能识别出所有文字。所述深度卷积循环注意力模型无需对字符进行切分,而传统方法需要将图片中的每一个文字切分出来再识别,本发明无需切分字符就能识别,能显著减少标注成本。
优选的,在步骤S3和步骤S5中,训练方法采用随机梯度下降加动量的优化器,相比普通的随机梯度下降算法,这种优化器能极大地加快收敛速度,尤其是在噪声较大或者梯度值较小时更为有效。其参数更新规则为:
Figure BDA0002177977150000063
θ←θ+V
其中,v为相比于普通的随机梯度下降增加的速度向量,α为动量参数,ε为学习速率,
Figure BDA0002177977150000071
为针对权重θ的微分,m为minibatch大小,即当前批次输入的样本图像数量,L(f(x(i);θ),y(i))为损失函数,x(i)为针对权样本中的某个样例,y(i)为对应的标签。优选的,动量α设为0.9,学习速率ε设为0.001,每训练1000步权重衰减一次,权重衰减θ为0.005。
准备好训练数据以及网络模型之后可以开始训练,训练过程中观察训练误差以及准确率,在误差不再下降、准确率不再上升的时候就可以终止训练了。训练完成之后可以利用深度卷积循环注意力模型来进行测试,输入一张图片就会得到一个结果。
本发明基于深度学习的方法建立深度显著性注意力网络与深度卷积循环注意力模型,通过训练所述深度显著性注意力网络,能够准确定位文本所在区域,再通过训练所述深度卷积循环注意力模型,能够精确识别出文本内容;另外通过在训练过程中设置优化器,能够极大地加快训练速度,并在一定程度上抑制噪声带来的影响;本发明无需分割出单个字符就能识别整张图片的内容,有效避免在复杂背景下字符区域检测不准,以及字符粘连时字符切割算法的有效性明显降低的问题。
经过对比和分析,相比于目前已有的其他方法,用深度显著性注意力网络与深度卷积循环注意力模型进行检测识别精度更高,且成本低,检测速度快,并且不需要分割文本,受外界干扰小,具有良好的实时性和迁移性,应用前景十分广阔。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于深度学习注意力机制的文本实时定位识别方法,包括以下步骤:
S1:搭建文本图像采集系统,收集训练样本并进行人工标注,建立OCR数据集;
S2:基于深度学习的方法,根据OCR数据集的特点,建立深度显著性注意力网络与深度卷积循环注意力模型;
其中,所述深度显著性注意力网络包括四个卷积单元、四个反卷积层,每个卷积单元包括一个卷积层与一个最大池化层,卷积层用于提取图像特征,最大池化层用于压缩无用信息;
S3:对所述OCR数据集进行预处理,利用预处理后的数据集训练所述深度显著性注意力网络,得到能够精确定位文本区域的深度显著性注意力网络;
S4:利用所述深度显著性注意力网络获取图片文本区域的热力图,将热力图与原图相乘,得到显著图;
S5:利用所述显著图训练所述深度卷积循环注意力模型,得到能够精确识别文本的深度卷积循环注意力模型,并对文本图像进行预测,从而实现对文本图像的实时定位识别。
2.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法,其特征在于,在步骤S1中,建立OCR数据集的具体步骤包括:
对于收集到的训练样本,删除无效图像,并进行人工标注,随机选取7-9万张图像作为测试集,剩余图像作为训练集,分别以端点坐标加文本内容的形式命名。
3.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法,其特征在于,步骤S4的具体过程如下:
S4.1:所述深度显著性注意力网络包括四个卷积单元、四个反卷积层,每个卷积单元包括一个卷积层与一个最大池化层,卷积层用于提取图像特征,最大池化层用于压缩无用信息;预处理后的图像经过四个卷积单元后被压缩到了原图的1/16大小,得到了包含丰富语义特征的特征图;
S4.2:通过四个反卷积层将特征图上采样16倍,再通过sigmoid激活函数来激活,将输入的值压缩到0-1区间,即有文字区域值为1,背景区域值为0,通过sigmoid激活函数得到了热力图;
S4.3:将热力图与原图相乘,得到显著图。
4.根据权利要求1或3所述的基于深度学习注意力机制的文本实时定位识别方法,其特征在于,所述深度显著性注意力网络中,四个卷积单元的卷积核数目依次为32、64、128、256,最大池化层的步长为2,反卷积核数目依次为256、128、64、1。
5.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法,其特征在于,所述深度卷积循环注意力模型包括五个卷积单元、一个长短期记忆网络LSTM,每个卷积单元包括一个卷积层和一个最大池化层;五个卷积单元的卷积核数目依次为32、64、128、256、512,最大池化层的步长为2。
6.根据权利要求5所述的基于深度学习注意力机制的文本实时定位识别方法,其特征在于,所述长短期记忆网络LSTM用于融合上下文信息,在每一时刻通过局部注意力机制聚焦不同区域得到分类结果;所述局部注意力机制为:
St=f(St-1,yt-1,ct) (1)
Figure FDA0003589739550000021
Figure FDA0003589739550000022
etj=g(St-1,hj) (4)
其中αt是t时刻的注意力向量,st-1是LSTM(t-1)时刻的状态向量,h是卷积层提取的高层语义特征,下标j表示j位置的局部特征,yt-1是LSTM上一时刻的输出结果。
7.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法,其特征在于,在步骤S3和步骤S5中,训练方法采用随机梯度下降加动量的优化器,其参数更新规则为:
Figure FDA0003589739550000023
其中,v为相比于普通的随机梯度下降增加的速度向量,α为动量参数,ε为学习速率,
Figure FDA0003589739550000031
为针对权重θ的微分,m为当前批次输入的样本图像数量,L(f(x(i);θ),y(i))为损失函数,x(i)为针对权样本中的某个样例,y(i)为对应的标签。
CN201910785745.6A 2018-11-14 2019-08-23 基于深度学习注意力机制的文本实时定位识别方法 Active CN110569832B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811353195.2A CN109753954A (zh) 2018-11-14 2018-11-14 基于深度学习注意力机制的文本实时定位识别方法
CN2018113531952 2018-11-14

Publications (2)

Publication Number Publication Date
CN110569832A CN110569832A (zh) 2019-12-13
CN110569832B true CN110569832B (zh) 2022-05-31

Family

ID=66403300

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811353195.2A Withdrawn CN109753954A (zh) 2018-11-14 2018-11-14 基于深度学习注意力机制的文本实时定位识别方法
CN201910785745.6A Active CN110569832B (zh) 2018-11-14 2019-08-23 基于深度学习注意力机制的文本实时定位识别方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201811353195.2A Withdrawn CN109753954A (zh) 2018-11-14 2018-11-14 基于深度学习注意力机制的文本实时定位识别方法

Country Status (1)

Country Link
CN (2) CN109753954A (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978077B (zh) * 2019-04-08 2021-03-12 南京旷云科技有限公司 视觉识别方法、装置和系统及存储介质
CN110176015B (zh) * 2019-05-22 2021-04-23 招商局金融科技有限公司 基于深度学习的图像处理方法、装置及存储介质
CN110414498B (zh) * 2019-06-14 2023-07-11 华南理工大学 一种基于交叉注意力机制的自然场景文本识别方法
CN110532855B (zh) * 2019-07-12 2022-03-18 西安电子科技大学 基于深度学习的自然场景证件图像文字识别方法
CN110503537B (zh) * 2019-08-16 2023-05-26 云帐房网络科技有限公司 一种财务记账数据智能匹配方法及系统
CN110659647B (zh) * 2019-09-11 2022-03-22 杭州睿琪软件有限公司 印章图像识别方法及装置、智能发票识别设备和存储介质
CN110689061B (zh) * 2019-09-19 2023-04-28 小米汽车科技有限公司 一种基于对齐特征金字塔网络的图像处理方法、装置及系统
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN111027562B (zh) * 2019-12-06 2023-07-18 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN110929727A (zh) * 2020-02-12 2020-03-27 成都数联铭品科技有限公司 图像标注方法及装置、文字检测方法及系统、电子设备
CN111553361B (zh) * 2020-03-19 2022-11-01 四川大学华西医院 一种病理切片标签识别方法
CN111832546B (zh) * 2020-06-23 2024-04-02 南京航空航天大学 一种轻量级自然场景文本识别方法
CN111914838A (zh) * 2020-07-28 2020-11-10 同济大学 一种基于文本行识别的车牌识别方法
CN112052853B (zh) * 2020-09-09 2024-02-02 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112990213B (zh) * 2021-02-07 2023-10-10 西北大学 一种基于深度学习的数字万用表字符识别系统和方法
CN113191348B (zh) * 2021-05-31 2023-02-03 山东新一代信息产业技术研究院有限公司 一种基于模板的文本结构化提取方法及工具
CN113657377B (zh) * 2021-07-22 2023-11-14 西南财经大学 一种机打票据图像结构化识别方法
CN113554030B (zh) * 2021-07-27 2022-08-16 上海大学 基于单字符注意力的多类型车牌识别方法及系统
CN114782297B (zh) * 2022-04-15 2023-12-26 电子科技大学 一种基于运动友好的多对焦融合网络的图像融合方法
CN114973248B (zh) * 2022-05-18 2023-03-24 慧之安信息技术股份有限公司 基于ocr识别的pdf识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108346144A (zh) * 2018-01-30 2018-07-31 哈尔滨工业大学 基于计算机视觉的桥梁裂缝自动监测与识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108346144A (zh) * 2018-01-30 2018-07-31 哈尔滨工业大学 基于计算机视觉的桥梁裂缝自动监测与识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks;Hui Li et al.;《2017 IEEE International Conference on Computer Vision》;20171225;第5248-5256页 *
Video Salient Object Detection via Fully Convolutional Networks;Wenguan Wang et al.;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20170920;第38-49页 *
结合注意力与卷积神经网络的中文摘要研究;周才东等;《计算机工程与应用》;20180720;第132-137页 *

Also Published As

Publication number Publication date
CN110569832A (zh) 2019-12-13
CN109753954A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN110569832B (zh) 基于深度学习注意力机制的文本实时定位识别方法
AU2020200251B2 (en) Label and field identification without optical character recognition (OCR)
US8744196B2 (en) Automatic recognition of images
US11804056B2 (en) Document spatial layout feature extraction to simplify template classification
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN111191649A (zh) 一种识别弯曲多行文本图像的方法与设备
CN109344914A (zh) 一种端到端的不定长文字识别的方法和系统
WO2021051553A1 (zh) 一种证件信息的分类定位方法及装置
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
US11615244B2 (en) Data extraction and ordering based on document layout analysis
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN113936764A (zh) 一种医疗报告单照片中敏感信息脱敏方法及系统
Dixit et al. A survey on document image analysis and retrieval system
CN114005127A (zh) 一种基于深度学习的图像光学文字识别方法,存储装置及服务器
CN110796145B (zh) 基于智能决策的多证件分割关联方法及相关设备
CN116050379A (zh) 文档对比方法及存储介质
Diem et al. Semi-automated document image clustering and retrieval
WO2019071476A1 (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN114529932A (zh) 一种征信报告识别方法
Gupta et al. Table detection and metadata extraction in document images
Ketwong et al. The simple image processing scheme for document retrieval using date of issue as query
Umatia et al. Text Recognition from Images
CHOI et al. Realtime Detection of Table Objects and Text Areas for OCR Preprocessing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220128

Address after: 230000 business incubation center of National University Science Park, 602 Huangshan Road, Hefei City, Anhui Province

Applicant after: ANHUI KEY INFORMATION TECHNOLOGY Co.,Ltd.

Address before: No. 618, Science Park, Hefei National University, No. 602, Huangshan Road, high tech Zone, Hefei City, Anhui Province, 232200

Applicant before: ANHUI AI-RETHINK INTELLIGENT TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant