CN112784838A - 一种基于局部敏感哈希网络的汉明ocr识别方法 - Google Patents

一种基于局部敏感哈希网络的汉明ocr识别方法 Download PDF

Info

Publication number
CN112784838A
CN112784838A CN202110121539.2A CN202110121539A CN112784838A CN 112784838 A CN112784838 A CN 112784838A CN 202110121539 A CN202110121539 A CN 202110121539A CN 112784838 A CN112784838 A CN 112784838A
Authority
CN
China
Prior art keywords
hamming
model
ocr
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110121539.2A
Other languages
English (en)
Inventor
黄坤山
葛任贤
杨航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Original Assignee
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute, Foshan Guangdong University CNC Equipment Technology Development Co. Ltd filed Critical Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Priority to CN202110121539.2A priority Critical patent/CN112784838A/zh
Publication of CN112784838A publication Critical patent/CN112784838A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于局部敏感哈希网络的汉明OCR识别方法,包括以下步骤:S1、采集具有OCR的场景文本图像,用于制作训练集和测试集;S2、构建辅助模型,用训练集的文本图像优化辅助模型,对模型进行训练,生成所有字符的局部敏感哈希编码;S3、构建汉明OCR主模型,把局部敏感哈希编码作为汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;S4、用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型;S5、将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由输出编码得到文本识别结果。本发明减少了模型存储占用容量,同时提高了模型稳定性和运行效率。

Description

一种基于局部敏感哈希网络的汉明OCR识别方法
技术领域
本发明涉及文本识别领域,具体涉及一种基于局部敏感哈希网络的汉明OCR识别方法。
背景技术
场景文本识别旨在图像中提取文本内容,在实际应用中具有巨大的商业价值。场景文本识别,通常包括对场景文字定位和文字识别。例如在中文文本识别,国内外已经存在了大量成熟的检测识别方法,并且应用到实际工作中。这些方法不仅检测快,而且识别率良好,具有一定的优越性。虽然,场景文本识别取得了一定的突破性成就,也产生了很多代表性的模型,但是这些模型大多数都很笨重。普遍的场景文本识别模型最后回归分类采用独热编码对每个字符进行编码,当词汇表的规模很大,那么模型的字符嵌入层和回归分类层产生的映射矩阵将会占用大量的存储容量,导致这些模型很难在移动端设备上部署,因为它消耗了大量存储资源和计算空间。因此,开发一种词汇列表大、占用空间小,识别精度高的轻量级别场景文本识模型是必要的。
发明内容
针对现有技术的不足,本发明的目的旨在提供一种种基于局部敏感哈希网络的汉明OCR识别方法。
为实现上述目的,本发明采用如下技术方案:
一种基于局部敏感哈希网络的汉明OCR识别方法,包括以下步骤:
S1:采集具有OCR的场景文本图像,用于制作训练集和测试集;所述训练集中文本图像均包含文本标注;
S2:构建辅助模型,用所述训练集的文本图像优化所述辅助模型,对所述模型进行训练,生成辅助编码,由所述辅助编码得到所有字符的局部敏感哈希编码;
S3:构建汉明OCR主模型,把所述局部敏感哈希编码作为所述汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;
S4:用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将所述测试集中的文本图像输入到所述最优汉明OCR网络模型,检验所述最优汉明OCR网络模型的有效性;
S5:将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由输出编码得到文本识别结果。
进一步地,所述步骤S1还包括:
将采集到所述具有OCR的场景文本图像按4:1划分训练集和测试集。
进一步地,所述步骤S1中用于文本标注的标签为包围文本实例的多边形坐标和文本序列。
进一步地,所述辅助模型和所述汉明OCR主模型均包括特征编码器、位置编码器、嵌入层、解码网络和分类器;所述特征编码器的输入端输入的是文本图像,所述特征编码器的输出端和位置编码器的输出端共同连接至所述解码网络的其中一个输入端,所述嵌入层的输出端和位置编码器的输出端共同连接至所述解码网络的另一个输入端,所述解码网络的输出端连接至所述分类器的输入端。
进一步地,所述特征编码器的骨干包括卷积层、池化层、残差模块和GCNet网络。
进一步地,所述解码网络包括简化后的Transformer解码器,所述简化后的Transformer解码器由三个相同的层堆叠而成,每一层包括第一子层和第二子层,所述第一子层是Masked Multi-Head Attention块,第二子层是Multi-Head Attention块。
进一步地,所述辅助模型的嵌入层为embedding层,所述汉明OCR主模型的嵌入层为汉明embedding层。
进一步地,所述辅助模型的分类器为softmax回归分类,所述汉明OCR主模型的分类器为汉明分类器。
进一步地,所述步骤2中构建辅助模型包括以下步骤:
S21:构建特征编码器;
S22:加入位置编码器;
S23:将输入字符转换成维度d向量;
S24:构建解码网络;
S25:使用softmax回归分类器对所述字符解码特征向量的特征序列进行分类,输出辅助编码。
本发明的有益效果在于:
1、提出了一种生成哈希编码的方法来将每个字符映射到汉明空间。在这个空间里,视觉上相似的字符汉明距离会很小,有助于降低了模型的计算量。
2、提出了一种新的Hinge-loss训练的汉明分类器,用辅助模型生成的局部敏感哈希编码代替独热编码来预测输出字符。使用该方法,当词汇表很大时,模型的存储显著降低。
3、embedding层直接使用哈希码本,进一步降低了计算量和模型占用空间。
4、通过去除Feed Forward模块和采用跨层参数共享技术,简化了Transformer解码器的结构,以减少储存的需求。
5、基于自我注意力机制的汉明OCR,对比先进的模型,更适合于处理大规模词汇表的情况。
6、基于哈希编码技术算法的汉明OCR不但大大减少原来模型存储占用容量,并且适应于大规模词汇列表,同时提高了模型稳定性和运行效率。
附图说明
附图1为本发明的辅助模型流程结构图;
附图2为本发明的主模型流程结构图;
附图3本发明的特征编码器结构图。
附图4本发明的残差模块图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
一种基于局部敏感哈希网络的汉明OCR(Optical Character Recognition,光学字符识别)识别方法,首先在辅助模型上训练得到所有字符的局部敏感哈希编码,将所有字符的局部敏感哈希编码用于汉明OCR主模型的embedding层(embedding,嵌入)中,并初始化汉明OCR主模型。接着把文本图像输入到基于注意力机制的主模型中,文本图像首先通过特征编码器来获得用于文本特征表示的字符特征向量;同时把主模型上一次输出结果对应字符的局部敏感度哈希编码输入至Hamming Embedding层(Hamming Embedding,汉明嵌入),大大减少汉明OCR主模型中嵌入层的存储计算空间;接着经过3个去掉前馈网络模块的Transformer解码器进行序列建模,并且采用跨层参数共享技术,使得模型的存储占用容量大大减少;最后经过汉明分类器,采用局部敏感哈希分类对所有字符的哈希编码计算汉明距离,距离最近字符的即为预测结果。对比于现有技术的模型,基于哈希编码技术算法的汉明OCR不但大大减少原来模型存储占用容量,并且适应于大规模词汇列表,同时提高了模型稳定性和运行效率。
一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,包括以下步骤:
S1:采集具有OCR的场景文本图像,用于制作训练集和测试集;训练集中文本图像均包含文本标注;
S2:构建汉明OCR主模型,把局部敏感哈希编码作为汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;
S3:构建汉明OCR主模型,把局部敏感哈希编码作为汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;
S4:用训练集的文本图像优化初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将测试集中的文本图像输入到最优汉明OCR网络模型,检验最优汉明OCR网络模型的有效性。
S5:将待识别的的文本图像输入到最优汉明OCR网络模型,最优汉明OCR网络模型生成输出编码,由输出编码得到文本识别结果。进一步地,步骤S1还包括:
将采集到场景文本图像按4:1划分训练集和测试集。
进一步地,步骤S2中用于文本标注的标签为包围文本实例的多边形坐标和文本序列。
进一步地,辅助模型和汉明OCR主模型均包括特征编码器、位置编码器、嵌入层、解码网络和分类器;特征编码器的输入端输入的是文本图像,特征编码器的输出端和位置编码器的输出端共同连接至解码网络的其中一个输入端,嵌入层的输出端和位置编码器的输出端共同连接至解码网络的另一个输入端,解码网络的输出端连接至分类器的输入端。样本数据通过特征编码器得到字符编码特征向量;嵌入层用于为解码网络提供下一个字符的输入;位置编码器加入在特征编码器和嵌入层的输出量中,用于捕捉字符的顺序序列,区分不同位置的单词;解码器网络将特征编码器和嵌入层的输出量转化为字符解码特征向量;分类器将对字符解码特征向量的特征序列进行分类,输出字符编码。
进一步地,特征编码器的骨干包括卷积层、池化层、残差模块和GCNet网络。
进一步地,解码网络包括简化后的Transformer解码器,简化后的Transformer解码器由三个相同的层堆叠而成,每一层包括第一子层和第二子层,第一子层是MaskedMulti-Head Attention块,第二子层是Multi-Head Attention块。
进一步地,辅助模型的嵌入层为embedding层,汉明OCR主模型的嵌入层为汉明embedding层。
进一步地,辅助模型的分类器为softmax回归分类,汉明OCR主模型的分类器为汉明分类器。
步骤S2还包括:
S21:构建辅助模型。如图1所示辅助模型包括特征编码器、位置编码器、embedding层、解码网络、softmax回归分类器;样本数据通过特征编码器得到字符编码特征向量;embedding层用于将上一次softmax回归分类器输出的辅助编码转换成维度d的向量;位置编码器在字符编码特征向量和维度d的向量中加入单词的位置信息,用于区分不同位置的单词;解码器网络将字符编码特征向量和维度d向量转化为字符解码特征向量。softmax回归分类器对字符解码特征向量的特征序列进行分类,输出辅助编码。辅助模型结合了空间注意力机制,引入了位置编码器,为文本识别提高空间位置信息,提高了注意力机制模块对位置信息的敏感度。构建辅助模型具体包括以下步骤:
S211:构建特征编码器,以得到字符编码特征向量。
特征编码器基于ResNet31网络原则进行设计,样本数据中的图像通过特征编码器,以提取高层次的视觉特征的表示。编码器的骨干由大量的卷积层、池化层、残差模块(Residual Block)和GCNet网络构成,详细结构图如图3所示。其中所有卷积层步长和填充默认设置为1,最大池化层默认无填充。残差模块(Residual Block),如图4所示,残差模块包括两个权重层(weight layer)和两个激活函数(relu)。如果输入和输出维度不同,使用投影快捷方式,残出差模块的输入量经两个权重层(weight layer)和一个激活函数(relu)进行输出;如果输入和输出维度相同,使用恒等快捷方式,残出差模块的输入量经一个激活函数(relu)进行输出。
GCNet网络。GCNet网络是有效的注意力模块,对输入的feature map(卷积网络里面的卷积层的输出)执行三个操作:用于上下文建模的全局注意力池化;通过瓶颈转换来捕获基于渠道的依赖关系;基于元素的添加来进行特征融合。
GCNet网络输入feature map为:
Figure BDA0002922194090000071
其中C、W、H分别表示feature map的通道数、宽度和高度。d模型表示编码器输出的尺寸。经过GCNet网络后,最终表示为:
Figure BDA0002922194090000081
其中x和y分别表示全局上下文块的输入和输出,具有相同的维度。i是查询位置的索引,j和m枚举所有像素的位置。wv1,wv2,wk表示通过1x1卷积来学习的线性变换。LN(·)表示层归一化,
Figure BDA0002922194090000082
表示上下文建模权重,wv2ReLU(LN(wv1(·)))表示瓶颈变换,“+”表示对应元素的加法操作。
S212:加入位置编码(Position Embedding)。由于模型并没有捕捉顺序序列的能力,在编码词向量时引入了位置编码,位置编码会在词向量中加入了单词的位置信息,这样模型就能区分不同位置的单词。位置编码是一个长度为dmodel的特征向量,这样便于和词向量进行单位加的操作,编码公式如下:
Figure BDA0002922194090000083
Figure BDA0002922194090000084
其中,pos表示单词的位置,i表示单词的维度。
S213:使用embedding层将输入字符转换成维度d向量。embedding跟传统的嵌入一样。主要功能是对上一次时间步输出的辅助编码作为解码器下一个字符的输入。
S214:构建解码网络,得到解码特征向量,应用于文本序列预测。本发明对Transformer解码器部分进行优化,将简化后的解码器应用于文本识别中的模型序列预测。Transformer的解码器部分由相同的层堆叠而成,每一层又有三个子层。第一子层是MaskedMulti-Head Attention模块,第二子层是Multi-Head Attention模块,第三子层是FeedForward模块。本发明堆叠三个解码器层,每层去除Feed Forward模块,而且每层内部参数共享,Feed Forward。假设嵌入输出序列的Li∈RT×d表示为第i层的输入张量,则MaskedMulti-Head Attention和Multi-Head Attention分别表示为:
Figure BDA0002922194090000091
Figure BDA0002922194090000092
其中Att(·)表示规模点积注意力,H表示head的数量,
Figure BDA0002922194090000093
表示矩阵拼接函数。在公式(a)中
Figure BDA0002922194090000094
被Li掩蔽,以防止给定的位置合并有关未来输出位置的信息。式(b)中的X由特征编码器提取。最后两个子层输出均经过参差连接和层归一化操作。
S215:使用softmax回归分类器对字符解码特征向量的特征序列进行分类,输出辅助编码。在每一个时间步,解码器利用注意机制提取一个字符级特征向量,然后将特征级有限元向量映射到词汇表V上的概率分布为:
Figure BDA0002922194090000095
其中,h∈F为解码器在每个时间步长产生的字符级特征,F表示d维字符级特征空间,wj∈Rd为权值W∈Rd×L的第j列。然后经过以下公式进行分类:
Figure BDA0002922194090000096
S22:用训练集的文本图像优化辅助模型,得到辅助编码。
在训练辅助模型的过程中,为了最大限度地提高ground-truth序列在每个时间步长出现的概率,因此采用了交叉熵损失对数,交叉熵损失对数函数计算如下:
loss=-log(Pr(y|h,W))。
S23:通过局部敏感哈希算法,将辅助编码转化为局部敏感哈希编码。
利用局部敏感哈希算法产生低维二进制向量。采用步骤S21构建的辅助模型,直接实现端到端的训练。利用该模型,将输入的文本图像映射为一个字符级特征向量序列进行分类。由于分类器不依赖于时间步长,于是省略了时间步长指标,定义来表示第i个字符类的第j个特征。然后利用哈希算法将每个特征向量投影到位二进制向量如下所示:
Figure BDA0002922194090000101
生成所有字符的局部敏感哈希编码。利用局部敏感哈希算法将来自同一类的辅助解码特征向量生成局部敏感哈希编码。由于softmax回归分类器会迫使来自同一类的特征向量在特征空间中接近,因此经过哈希映射后,来自同一字符类的代码在Hamming空间中也会接近。基于此假设,采用多数投票算法为每个字符类生成表示代码:
Figure BDA0002922194090000102
其中是第i个字符类的哈希码本的第k位,是第i个类的特征向量的数量。I(.)是指示函数,输入为真时为1,输入为假时为0。最后,得到对应词汇表V的码本η=[η1,η2,...,ηL,]。
步骤S3还包括:
S31:构建汉明OCR主模型。汉明OCR主模型包括特征编码器、位置编码器、汉明embedding层、解码网络、汉明分类器;主模型和辅助模型差不多,只不过将embedding层和回归分类层进行了改变。主模型包括,特征编码器、汉明embedding、解码器、汉明分类器、加入位置编码,整个模型如图2。构建汉明OCR主模型具体包括以下步骤:
S311:构建特征编码器,此步骤和步骤S311一致。
S312:加入位置编码器,此步骤和步骤S312一致。
S313:直接使用输出字符的哈希编码作为汉明embedding层的输出,在减少模型存储的同时,提高了编码效率。
S314:构建解码网络,此步骤和步骤S314一致。
S315:构建汉明分类器。对于解码器每个输出向量hi,j,使用以下公式,会输出对应d'位的二进制向量。
Figure BDA0002922194090000111
其中
Figure BDA0002922194090000112
是输出二进制向量的第k位,wk是汉明分类器中使用的投影矩阵W的第k列。
S32:汉明OCR主模型初始化。从S3辅助模型中得到哈希编码直接用于主模型的embedding中,同时从辅助模型中加载编码器和解码器中的相关参数,初始化主模型。
步骤S4还包括:
训练汉明OCR主模型。为了使输出编码对应于汉明空间中的目标编码,本发明采用Hinge-loss去训练整个模型和寻找最优的矩阵W。损失函数定义如下:
Figure BDA0002922194090000113
其中是margin,是W的第k个投影向量,是第i类的第k位的目标代码。
解决二进制向量不存在编码中的问题。利用步骤S414的方法去计算特征向量h的二进制向量b,但是由于分类器错误可能导致二进制向量可能不存在码本中η,为了解决这个问题,采用以下公式生成预测
Figure BDA0002922194090000114
Figure BDA0002922194090000121
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (9)

1.一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,包括以下步骤:
S1:采集具有OCR的场景文本图像,用于制作训练集和测试集;所述训练集中文本图像均包含文本标注;
S2:构建辅助模型,用所述训练集的文本图像优化所述辅助模型,对所述模型进行训练,生成辅助编码,由所述辅助编码得到所有字符的局部敏感哈希编码;
S3:构建汉明OCR主模型,把所述局部敏感哈希编码作为所述汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;
S4:用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将所述测试集中的文本图像输入到所述最优汉明OCR网络模型,检验所述最优汉明OCR网络模型的有效性;
S5:将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由所述输出编码得到文本识别结果。
2.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述步骤S1还包括:
将采集到所述具有OCR的场景文本图像按4:1划分训练集和测试集。
3.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述步骤S1中用于文本标注的标签为包围文本实例的多边形坐标和文本序列。
4.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述辅助模型和所述汉明OCR主模型均包括特征编码器、位置编码器、嵌入层、解码网络和分类器;所述特征编码器的输入端输入的是文本图像,所述特征编码器的输出端和位置编码器的输出端共同连接至所述解码网络的其中一个输入端,所述嵌入层的输出端和位置编码器的输出端共同连接至所述解码网络的另一个输入端,所述解码网络的输出端连接至所述分类器的输入端。
5.根据权利要求4所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述特征编码器的骨干包括卷积层、池化层、残差模块和GCNet网络。
6.根据权利要求4所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述解码网络包括简化后的Transformer解码器,所述简化后的Transformer解码器由三个相同的层堆叠而成,每一层包括第一子层和第二子层,所述第一子层是Masked Multi-Head Attention块,第二子层是Multi-Head Attention块。
7.根据权利要求4所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述辅助模型的嵌入层为embedding层,所述汉明OCR主模型的嵌入层为汉明embedding层。
8.根据权利要求4所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述辅助模型的分类器为softmax回归分类,所述汉明OCR主模型的分类器为汉明分类器。
9.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述步骤2中构建辅助模型包括以下步骤:
S211:构建特征编码器;
S212:加入位置编码器;
S213:将输入字符转换成维度d向量;
S214:构建解码网络;
S215:使用softmax回归分类器对所述字符解码特征向量的特征序列进行分类,输出辅助编码。
CN202110121539.2A 2021-01-28 2021-01-28 一种基于局部敏感哈希网络的汉明ocr识别方法 Pending CN112784838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121539.2A CN112784838A (zh) 2021-01-28 2021-01-28 一种基于局部敏感哈希网络的汉明ocr识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121539.2A CN112784838A (zh) 2021-01-28 2021-01-28 一种基于局部敏感哈希网络的汉明ocr识别方法

Publications (1)

Publication Number Publication Date
CN112784838A true CN112784838A (zh) 2021-05-11

Family

ID=75759559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121539.2A Pending CN112784838A (zh) 2021-01-28 2021-01-28 一种基于局部敏感哈希网络的汉明ocr识别方法

Country Status (1)

Country Link
CN (1) CN112784838A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516044A (zh) * 2021-05-18 2021-10-19 山东新一代信息产业技术研究院有限公司 一种基于ocr与哈希算法的纸质合同信用增强方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BINGCONG LI ET AL: "Hamming OCR: A Locality Sensitive Hashing Neural Network for Scene Text Recognition", 《HTTPS://ARXIV.ORG/PDF/2009.10874.PDF》 *
BINGCONG LI ET AL: "Hamming OCR: A Locality Sensitive Hashing Neural Network for Scene Text Recognition", 《HTTPS://ARXIV.ORG/PDF/2009.10874.PDF》, 23 September 2020 (2020-09-23), pages 1 - 9 *
HUI LI ET AL.: ""Show, attend and read:A simple and strong baseline for irregular text recognition"", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 33, pages 8610 *
KAIMING HE ET AL.: ""Deep residual learning for image recognition"", 《IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2015》, pages 770 *
NING LU ET AL.: "MASTER: Multi-Aspect Non-local Network for Scene Text Recognition", 《HTTPS://ARXIV.ORG/PDF/1910.02562V1.PDF》 *
NING LU ET AL.: "MASTER: Multi-Aspect Non-local Network for Scene Text Recognition", 《HTTPS://ARXIV.ORG/PDF/1910.02562V1.PDF》, 7 October 2019 (2019-10-07), pages 1 - 11 *
YUE CAO1 ET AL.: "GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond", 《HTTPS://ARXIV.ORG/PDF/1904.11492V1.PDF》 *
YUE CAO1 ET AL.: "GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond", 《HTTPS://ARXIV.ORG/PDF/1904.11492V1.PDF》, 25 April 2019 (2019-04-25), pages 1 - 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516044A (zh) * 2021-05-18 2021-10-19 山东新一代信息产业技术研究院有限公司 一种基于ocr与哈希算法的纸质合同信用增强方法及系统

Similar Documents

Publication Publication Date Title
Zhong et al. An end-to-end dense-inceptionnet for image copy-move forgery detection
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN104036012B (zh) 字典学习、视觉词袋特征提取方法及检索系统
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN108984642B (zh) 一种基于哈希编码的印花织物图像检索方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN115186673A (zh) 科技信息管理系统及其管理方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN115424059B (zh) 一种基于像素级对比学习的遥感土地利用分类方法
CN104881449A (zh) 基于流形学习数据压缩哈希的图像检索方法
CN112948601A (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN116978011A (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
CN113971750A (zh) 银行回单的关键信息提取方法、装置、设备及存储介质
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN112784838A (zh) 一种基于局部敏感哈希网络的汉明ocr识别方法
CN110704650B (zh) Ota图片标签的识别方法、电子设备和介质
CN117422065A (zh) 基于强化学习算法的自然语言数据处理系统
CN105718858B (zh) 一种基于正负广义最大池化的行人识别方法
CN115937567B (zh) 一种基于小波散射网络和ViT的图像分类方法
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质
CN114359291A (zh) 一种训练实例分割模型的方法以及实例分割方法
CN114898187B (zh) 一种用于云边端的目标检测网络构建方法及装置
CN117173731B (zh) 一种模型训练的方法、图像处理的方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210511

RJ01 Rejection of invention patent application after publication