CN115731552A - 印章文字识别方法、装置、处理器及电子设备 - Google Patents

印章文字识别方法、装置、处理器及电子设备 Download PDF

Info

Publication number
CN115731552A
CN115731552A CN202211521302.4A CN202211521302A CN115731552A CN 115731552 A CN115731552 A CN 115731552A CN 202211521302 A CN202211521302 A CN 202211521302A CN 115731552 A CN115731552 A CN 115731552A
Authority
CN
China
Prior art keywords
stamp
model
image
tensor
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211521302.4A
Other languages
English (en)
Inventor
卢健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211521302.4A priority Critical patent/CN115731552A/zh
Publication of CN115731552A publication Critical patent/CN115731552A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种印章文字识别方法、装置、处理器及电子设备。涉及人工智能领域,其中,该方法包括:获取目标印章的印章图像;将印章图像输入预先训练的印章文字识别模型的图像编码器,得到印章图像的图像特征,其中,图像编码器为执行图像分类任务的图像识别模型中的编码器;将图像特征输入印章文字识别模型的特征解码器,得到目标印章中的文本,其中,特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。通过本申请,解决了对印章中的文字进行机器识别时识别结果不准确的技术问题。

Description

印章文字识别方法、装置、处理器及电子设备
技术领域
本发明涉及人工智能领域,具体而言,涉及一种印章文字识别方法、装置、处理器及电子设备。
背景技术
OCR(optical character recongnition,简称OCR)识别就是将图片上的文字字符翻译成计算机文字的过程,而印章识别是OCR识别任务中的难点之一。主要原因在于印章上的文字呈弧形排列,且人们在用印时往往会出现一定角度的旋转,而这个旋转的角度是从-180°到180°之间是任意的,这就给OCR识别造成了困难。因此,相关技术无法对印章中的文字进行有效识别。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种印章文字识别方法、装置、处理器及电子设备,以至少解决对印章中的文字进行机器识别时识别结果不准确的技术问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种印章文字识别方法,包括:获取目标印章的印章图像;将所述印章图像输入预先训练的印章文字识别模型的图像编码器,得到所述印章图像的图像特征,其中,所述图像编码器为执行图像分类任务的图像识别模型中的编码器;将所述图像特征输入所述印章文字识别模型的特征解码器,得到所述目标印章中的文本,其中,所述特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
可选地,所述图像识别模型为Vision Transformer模型,所述图像编码器为所述Vision Transformer模型的编码器;所述自然语言处理模型为Transformer模型,所述特征解码器为所述Transformer模型中的解码器。
可选地,所述印章文字识别模型为通过如下步骤训练得到的神经网络模型:获取标注过的印章样本,其中,所述印章样本的数目记为Batch_size,所述印章样本包括样本图像和标注文本;将所述印章样本输入所述印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,其中,S表示所述标注文本的长度最大值加1,D表示字典的大小;基于所述预测张量和所述标注文本,计算损失函数;基于所述损失函数和随机梯度下降法训练所述原始模型,得到所述印章文字识别模型。
可选地,所述将所述印章样本输入所述印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,包括:将所述印章样本输入所述原始模型的图像编码器,输出Batch_size×L×C的张量K和张量V,其中,L表示所述标注文本的文本长度,C表示张量的维度;将所述张量K、所述张量V和所述标注文本输入所述原始模型的特征解码器,输出Batch_size×S×D的预测张量。
可选地,所述将所述张量K、所述张量V和所述标注文本输入所述原始模型的特征解码器,输出Batch_size×S×D的预测张量,包括:所述特征解码器对所述标注文本依次进行向量化操作、掩码多头注意力操作和残差相加和标准化操作,得到Batch_size×S×C的张量Q;将所述张量K、所述张量V和所述张量Q做交叉多头注意力操作,得到Batch_size×S×C的中间张量;将所述中间张量进行线性变换,得到Batch_size×S×D的所述预测张量。
可选地,所述Vision Transformer模型为Swin Transformer模型,所述Transformer模型为生成式无监督预训练GPT模型。
可选地,所述将所述图像特征输入所述印章文字识别模型的特征解码器,由所述特征解码器输出所述目标印章中的文本,包括:获取所述特征解码器的解码器参数和所述解码器参数的参数权重;将所述解码器参数和所述参数权重输入FasterTransformer推断服务器,实现将所述特征解码器部署在所述FasterTransformer推断服务器中;将所述图像特征输入部署在所述FasterTransformer推断服务器中的所述特征解码器,输出所述目标印章中的文本。
为了实现上述目的,根据本发明实施例的另一方面,还提供了一种印章文字识别装置,包括:获取模块,用于获取目标印章的印章图像;第一输出模块,用于将所述印章图像输入预先训练的印章文字识别模型的图像编码器,得到所述印章图像的图像特征,其中,所述图像编码器为执行图像分类任务的图像识别模型中的编码器;第二输出模块,用于将所述图像特征输入所述印章文字识别模型的特征解码器,得到所述目标印章中的文本,其中,所述特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
根据本发明实施例的又一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述任意一项所述印章文字识别方法。
根据本发明实施例的再一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的印章文字识别方法。
根据本发明实施例的再一方面,还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器用于存储程序,所述处理器用于运行所述存储器存储的程序,其中,所述程序运行时执行上述任意一项所述印章文字识别方法。
在本发明实施例中,采用将两种神经网络模型的一方的编码器和另一方的解码器进行结合以得到识别印章中文本的印章文字识别模型的方式,编码器采用执行图像分类任务的图像识别模型中编码器,解码器采用执行自然语言处理任务的自然语言处理模型中的解码器,使得印章文字识别模型可以基于提取出的图像特征直接进行文字识别,而不必对图像中的文字进行旋转、对齐之后再进行识别,达到了准确识别出印章中的文本的目的,从而实现了提高对印章中的文字进行机器识别的准确率的技术效果,进而解决了对印章中的文字进行机器识别时识别结果不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现印章文字识别方法的计算机终端的硬件结构框图;
图2是根据本发明实施例提供的印章文字识别方法的流程示意图;
图3是根据本发明可选实施例提供的印章样本图像的示意图;
图4是根据本发明可选实施例提供的Swin Transformer模型的网络结构示意图;
图5是根据本发明可选实施例提供的Transformer模型的网络结构示意图;
图6是根据本发明可选实施例提供的印章文字识别模型的结构示意图;
图7是根据本发明可选实施例提供的印章文字识别模型的构建过程示意图;
图8是根据本发明实施例提供的印章文字识别装置的结构框图;
图9是根据本发明实施例提供的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
Transformer模型,一种研究人员提出的完全基于多头注意力机制的深度学习模型,由编码器encoder和解码器decoder两部分组成,最初主要应用于机器翻译场景,现已经广泛应用于自然语言处理NLP(Natural Language Processing,简称NLP)领域,如文本分类、命名体识别、文本生成、同意句检索等场景。
NVIDIA Faster Transformer,GPU硬件厂商开发出的一种快速推断接口,主要用在Transformer模型的推断阶段。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
根据本发明实施例,提供了一种印章文字识别的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现印章文字识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的印章文字识别方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的印章文字识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
金融机构具有广泛的需要进行印章识别的场景,如授权书印章识别,合同印章校对等。使用人工智能OCR自动识别技术可以有效节省人工识别的时间成本。
相关技术中,识别印章中的文本的方法原理是在CRNN的基础上添加一些仿射变换模块,将不规则排列文字转化为横向排列的文字,再进行识别。上述方法的主要缺点是标注样本的成本较高,需要对训练数据上的字符进行逐字地位置标注;其次,由于印章有随意旋转问题,此类算法的识别的准确率差强人意,仅有50%多左右。
本发明提出了一种高准确率的从印章图像中识别出印章中文字的方法,下面结合优选的实施步骤对本发明进行说明,图2是根据本发明实施例提供的印章文字识别方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S202,获取目标印章的印章图像。
其中,目标印章的印章图像可以通过扫描盖有目标印章的纸质件的方式获得,也可以通过拍摄文件上的目标印章的方式获得,目标印章可以为圆形印章,也可以为长方形或者椭圆形印章,在此不做限定。由于本方案中并不需要对印章中的文字图像进行仿射变换,而是采用模型直接对图像中的文字进行识别,因此对各种形状的印章中的排列走势不同的文字都产生好的识别效果。
步骤S204,将印章图像输入预先训练的印章文字识别模型的图像编码器,得到印章图像的图像特征,其中,图像编码器为执行图像分类任务的图像识别模型中的编码器。
步骤S206,将图像特征输入印章文字识别模型的特征解码器,得到目标印章中的文本,其中,特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
需要说明的是,图像编码器即为图像识别模型中Encoder结构,特征解码器即为自然语言处理模型中Decoder结构。由于图像识别模型可以在不对印章图像中的文字进行旋转的情况下直接提取文字的特征,因此可以避免印章的随意旋转问题以及印章中文字的在纸面上的排列走势变化导致的识别结果不准确的问题。采用自然语言处理模型的解码器结构则可以将特征编码器提取出的文字的特征转化为对文字的识别结果,输出所需要的印章文字识别结果。
上述步骤中,采用将两种神经网络模型各自的编码器和解码器进行结合以构建能够准确识别印章图像中的印章文本的印章文字识别模型的方式,编码器采用执行图像分类任务的图像识别模型中编码器,解码器采用执行自然语言处理任务的自然语言处理模型中的解码器,使得印章文字识别模型可以基于提取出的图像特征直接进行文字识别,而不必对图像中的文字进行旋转、对齐之后再进行识别,避免了由于印章中的文字排布为弧形且印章可能存在旋转导致相关技术无法准确识别出印章中文字的问题,从而实现了提高对印章中的文字进行机器识别的准确率的技术效果,进而解决了对印章中的文字进行机器识别时识别结果不准确的技术问题。
作为一种可选的实施例,图像识别模型为Vision Transformer模型,图像编码器包括Vision Transformer模型的编码器;自然语言处理模型为Transformer模型,特征解码器包括Transformer模型中的解码器。
本实施例采用的方案相当于直接从图像中“翻译”出文字。Vision Transformer模型为一种分类模型,将计算机视觉(Computer Vision,简称CV)和NLP结合起来,对原始图像进行分块,展平成序列,输入编码器部分,然后将编码器的输出接入一个全连接层,完成分类任务。而Transformer模型为用于执行文本翻译任务的神经网络模型。可选地,可以将Transformer模型中的Decoder部分机构结合线性变换结构和Softmax损失函数结构作为印章文字识别模型的特征解码器,使得印章文字识别模型的特征解码器可以直接输出文本识别的结果。
为了获得较好地预测效果,印章文字识别模型可以预先进行印章文本识别的任务训练。作为一种可选的实施例,印章文字识别模型为通过如下步骤训练得到的神经网络模型:获取标注过的印章样本,其中,印章样本的数目记为Batch_size,印章样本包括样本图像和标注文本;将印章样本输入印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,其中,S表示标注文本的长度最大值加1,D表示字典的大小;基于预测张量和标注文本,计算损失函数;基于损失函数和随机梯度下降法训练原始模型,得到印章文字识别模型。
其中,标注文本为印章样本中的文本,图3是根据本发明可选实施例提供的印章样本图像的示意图,如图3所示,该印章样本对应的标注文本为“XX地XX机动车经纪有限公司”,印章文本识别模型的目标输出结果即为将“XX地XX机动车经纪有限公司”识别出来。上述可选实施例中的原始模型为搭建好之后还没有训练过的模型,将印章样本输入原始模型对其进行训练,不断迭代修正模型的参数,最终得到印章文字识别模型。其中,字典包括翻译时的可映射字,表示模型进行文字翻译时的所有可翻译字。基于字典,可以将每一个字符映射到一个整型数字(token),例如,“XX市XXX旧机动车经纪有限公司”被转换为token整数序列:“[1919,25,853,1658,786,672,5061,149,230,2030,762,1024,103,429,17,151]”。计算损失函数时,采用文本的token序列进行损失值的数值计算。
可选地,上述基于预测张量和标注文本计算损失函数的结构也可以看做是原始模型以及印章文字识别模型的一部分。训练模型的方法可以为采用Adam随机梯度下降法。
作为一种可选的实施例,将印章样本输入印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,包括如下步骤:将印章样本输入原始模型的图像编码器,输出Batch_size×L×C的张量K和张量V,其中,L表示标注文本的文本长度,C表示张量的维度;将张量K、张量V和标注文本输入原始模型的特征解码器,输出Batch_size×S×D的预测张量。
作为一种可选的实施例,将张量K、张量V和标注文本输入原始模型的特征解码器,输出Batch_size×S×D的预测张量,包括:特征解码器对标注文本依次进行向量化操作、掩码多头注意力操作和残差相加和标准化操作,得到Batch_size×S×C的张量Q;将张量K、张量V和张量Q做交叉多头注意力操作,得到Batch_size×S×C的中间张量;将中间张量进行线性变换,得到Batch_size×S×D的预测张量。
作为一种可选的实施例,Vision Transformer模型可以为Swin Transformer模型,Transformer模型可以为生成式无监督预训练GPT模型。图4是根据本发明可选实施例提供的Swin Transformer模型的网络结构示意图,如图4所示,Swin Transformer模型的输入为形状为Batch_size×H×W×3的图像,经过一系列的Block操作,最终输出为Batch_size×L×C的张量,其中L为Patch的个数(图像最终被分为32×32的小块,所以有H/32*W/32个Patch),C为张量维度。然后经过一个LayerNorm处理,输出的张量其形状仍为Batch_size×L×C。
图5是根据本发明可选实施例提供的Transformer模型的网络结构示意图,如图5所示,Transformer模型由Encoder和Decoder左右两个部分组成,Encoder部分输入为一个Batch_size×L的张量,最终输出一个张量E(其形状为Batch_size×L×C),其中L为输入的文本的长度,C为张量维度,然后将张量E复制两份为张量K和张量V。Decoder部分输入的是一个previous outputs文本整数序列(即将样本文本从左到右逐渐移动后生成的文本所对应的整数序列,例如,对于样本文本“猫喜欢吃鱼”,可以向Decoder部分逐次输入如下previous outputs语句所对应的整数序列:“”、“猫”、“猫喜”、“猫喜欢”、“猫喜欢吃”、“猫喜欢吃鱼”),形状为Batch_size×S,经过一系列Embeding(向量化)操作、Masked Multi-HeadAttention(掩码多头注意力机制)操作、Add&Norm(残差相加和标准化)操作后,输出一个Batch_size×S×C的张量Q。
由于张量K和张量V反映的是图像中提取出来的特征,张量Q反映的是文本提取出来的特征,因此可以通过如下方式将图像特征和文本特征融合到一起,即通过将张量Q和张量K、张量V做一个交叉多头注意力机制操作以进行融合,其具体公式如下:
Figure BDA0003973922220000081
最后输出一个形状仍为Batch_size×S×C的张量。
图6是根据本发明可选实施例提供的印章文字识别模型的结构示意图,如图6所示,印章文字识别模型通过将Swin Transformer模型的特征编码器部分与Transformer模型的特征解码器部分进行结合,以得到如下模型结构:
模型左边为Swin Transformer模型的特征编码器,编码器的输入为Batch_size×H×W×3的印章图像,输出为Batch_size×L×C的张量K、V。模型右边为Transformer模型的特征解码器,解码器的输入为previous outputs的文本整数序列,输出为Batch_size×S×C的张量Q。经过交叉注意力机制等操作后输出的仍为Batch_size×S×C的张量,最后再做一个线性变换输出Batch_size×S×D的预测张量,其中D为字典的大小。该向量表示有Batch_size×S个D维向量,向量中最大值的索引就表示模型预测的字符。Batch_size表示一次性输入的样本的个数(批大小),训练阶段包含Batch_size张印章的样本图像和对应的标注文本,S表示这一个Batch_size个文本的长度的最大值+1。
之后,可以将输出的预测张量(predict)和标注样本对应的标签(label)输入CrossEntropyLoss(交叉熵损失函数)得到一个Loss值,其中,标注样本对应的标签可以为标注样本的文本整数序列,计算过程如下:
Loss=CrossEntropyLoss(predict,label)
这个函数的作用就是反应预测值和实际值的偏差程度,当预测值predict和实际值label越接近,Loss值就越小,反之越大。
之后,可以使用Adam随机梯度下降算法对由原始模型进行训练,重复多次,直到损失函数的结果收敛,得到印章文字识别模型。
作为一种可选的实施例,在应用特征解码器输出目标印章中的文本时,可以包括如下步骤:获取特征解码器的解码器参数和解码器参数的参数权重;将解码器参数和参数权重输入FasterTransformer推断服务器,实现将特征解码器部署在FasterTransformer推断服务器中;将图像特征输入部署在FasterTransformer推断服务器中的特征解码器,输出目标印章中的文本。
本可选的实施例中,得到训练好的印章文字识别模型之后,可以通过如下方式对印章文字识别模型进行预测推断:将印章文字识别模型的特征解码器部分的权重复制到NVIDIA Faster Transformer中。在进行推断时,首先输入仅经过归一化、标准化处理的图片,通过Swin Transformer Encoder输出一个Batch_size×L×C的张量,然后将这个张量和Batch_size×1个SOS_ID输入NVIDIA Faster Transformer快速推断出每张图片上的文本。由于在推断时要先根据Encoder输出的张量E和SOS_ID推断出图片上的第一个文字,然后再根据张量E,SOS_ID和上一步推断出的第一个文字去推断第二个文字,如此递推直到遇到EOS_ID为止,表示预测完整个文本。NVIDIA Faster Transformer相当于NVIDIA公司通过自身技术优势,采用充分利用GPU线程的并行技术加速了这个推断过程,使推断速度更快。在调用它时只需先将其权重用我们训练好的Decoder权重替换,然后输入Encoder输出的E张量和SOS_ID即可。
图7是根据本发明可选实施例提供的印章文字识别模型的构建过程示意图,如图7所示,构建印章文字识别模型的时候可以优选采用如下步骤的方案:
步骤S701,获取印章训练样本和相对应的文本标注,其中,文本标注用于表示印章训练样本中的印章文字。
步骤S702,对图片做数据增强、归一化标准化处理,对文本做整数转换处理。该步骤为对训练样本的预处理,其中,图片为印章训练样本中的印章图片,对图片做数据增强和归一化标准化处理是为了获得更大的训练样本集,丰富训练样本的数量和类型,归一化标准化处理后的训练样本更有利于对模型的训练。将文本做整数转换处理即为将一个字符转换为整形数字(token),将一串文本转换为token整数序列,便于输入模型的解码器中。
步骤S703,基于Swin Transformer的编码器和Transformer的解码器构建原始模型。
步骤S704,构建交叉熵损失函数。
步骤S705,加载原始模型,基于印章训练样本和相对应的文本标注,使用Adam优化算法对原始模型进行训练,得到印章文字识别模型。
步骤S706,将印章文字识别模型的解码器替换为NVIDIA Faster Transformer进行模型推断。其中,NVIDIA Faster Transformer用于加速推断大型的Transformer模型,实现基于Transformer的神经网络推理的加速引擎。使用NVIDIA Faster Transformer,可以对整个神经网络模型的编码器部分或者解码器部分进行单独的推理,也可以对整个模型进行推理。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的印章文字识别方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例,还提供了一种用于实施上述印章文字识别方法的印章文字识别装置,图8是根据本发明实施例提供的印章文字识别装置的结构框图,如图8所示,该印章文字识别装置包括:获取模块82,第一输出模块84和第二输出模块86,下面对该印章文字识别装置进行说明。
获取模块82,用于获取目标印章的印章图像;
第一输出模块84,连接于上述获取模块82,用于将印章图像输入预先训练的印章文字识别模型的图像编码器,得到印章图像的图像特征,其中,图像编码器为执行图像分类任务的图像识别模型中的编码器;
第二输出模块86,连接于上述第一输出模块84,用于将图像特征输入印章文字识别模型的特征解码器,得到目标印章中的文本,其中,特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
此处需要说明的是,上述获取模块82,第一输出模块84和第二输出模块86对应于实施例中的步骤S202至步骤S206,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
本申请实施例提供的印章文字识别装置,通过采用将两种神经网络模型各自的编码器和解码器进行结合以构建能够准确识别印章图像中的印章文本的印章文字识别模型的方式,解决了相关技术中对印章中的文字进行机器识别时识别结果不准确的问题,进而达到了提高对印章中的文字进行机器识别的准确率的效果。
印章文字识别装置包括处理器和存储器,上述获取模块82,第一输出模块84和第二输出模块86等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来达到提高对印章中的文字进行机器识别的准确率的目的。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现印章文字识别方法。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行印章文字识别方法。
图9是根据本发明实施例提供的电子设备的结构框图,如图9所示,本发明实施例提供了一种电子设备,电子设备90包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,其中,存储器可用于存储软件程序以及模块,如本发明实施例中的印章文字识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的印章文字识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器执行程序时实现以下步骤:获取目标印章的印章图像;将印章图像输入预先训练的印章文字识别模型的图像编码器,得到印章图像的图像特征,其中,图像编码器为执行图像分类任务的图像识别模型中的编码器;将图像特征输入印章文字识别模型的特征解码器,得到目标印章中的文本,其中,特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。本文中的设备可以是服务器、PC、PAD、手机等。
处理器执行程序时实现以下步骤:图像识别模型为Vision Transformer模型,图像编码器为Vision Transformer模型的编码器;自然语言处理模型为Transformer模型,特征解码器为Transformer模型中的解码器。
处理器执行程序时实现以下步骤:印章文字识别模型为通过如下步骤训练得到的神经网络模型:获取标注过的印章样本,其中,印章样本的数目记为Batch_size,印章样本包括样本图像和标注文本;将印章样本输入印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,其中,S表示标注文本的长度最大值加1,D表示字典的大小;基于预测张量和标注文本,计算损失函数;基于损失函数和随机梯度下降法训练原始模型,得到印章文字识别模型。
处理器执行程序时实现以下步骤:将印章样本输入印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,包括:将印章样本输入原始模型的图像编码器,输出Batch_size×L×C的张量K和张量V,其中,L表示标注文本的文本长度,C表示张量的维度;将张量K、张量V和标注文本输入原始模型的特征解码器,输出Batch_size×S×D的预测张量。
处理器执行程序时实现以下步骤:将张量K、张量V和标注文本输入原始模型的特征解码器,输出Batch_size×S×D的预测张量,包括:特征解码器对标注文本依次进行向量化操作、掩码多头注意力操作和残差相加和标准化操作,得到Batch_size×S×C的张量Q;将张量K、张量V和张量Q做交叉多头注意力操作,得到Batch_size×S×C的中间张量;将中间张量进行线性变换,得到Batch_size×S×D的预测张量。
处理器执行程序时实现以下步骤:Vision Transformer模型为Swin Transformer模型,Transformer模型为生成式无监督预训练GPT模型。
处理器执行程序时实现以下步骤:将图像特征输入印章文字识别模型的特征解码器,由特征解码器输出目标印章中的文本,包括:获取特征解码器的解码器参数和解码器参数的参数权重;将解码器参数和参数权重输入FasterTransformer推断服务器,实现将特征解码器部署在FasterTransformer推断服务器中;将图像特征输入部署在FasterTransformer推断服务器中的特征解码器,输出目标印章中的文本。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标印章的印章图像;将印章图像输入预先训练的印章文字识别模型的图像编码器,得到印章图像的图像特征,其中,图像编码器为执行图像分类任务的图像识别模型中的编码器;将图像特征输入印章文字识别模型的特征解码器,得到目标印章中的文本,其中,特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
当在数据处理设备上执行时,计算机程序产品适于执行初始化有如下方法步骤的程序:图像识别模型为Vision Transformer模型,图像编码器为Vision Transformer模型的编码器;自然语言处理模型为Transformer模型,特征解码器为Transformer模型中的解码器。
当在数据处理设备上执行时,计算机程序产品适于执行初始化有如下方法步骤的程序:印章文字识别模型为通过如下步骤训练得到的神经网络模型:获取标注过的印章样本,其中,印章样本的数目记为Batch_size,印章样本包括样本图像和标注文本;将印章样本输入印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,其中,S表示标注文本的长度最大值加1,D表示字典的大小;基于预测张量和标注文本,计算损失函数;基于损失函数和随机梯度下降法训练原始模型,得到印章文字识别模型。
当在数据处理设备上执行时,计算机程序产品适于执行初始化有如下方法步骤的程序:将印章样本输入印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,包括:将印章样本输入原始模型的图像编码器,输出Batch_size×L×C的张量K和张量V,其中,L表示标注文本的文本长度,C表示张量的维度;将张量K、张量V和标注文本输入原始模型的特征解码器,输出Batch_size×S×D的预测张量。
当在数据处理设备上执行时,计算机程序产品适于执行初始化有如下方法步骤的程序:将张量K、张量V和标注文本输入原始模型的特征解码器,输出Batch_size×S×D的预测张量,包括:特征解码器对标注文本依次进行向量化操作、掩码多头注意力操作和残差相加和标准化操作,得到Batch_size×S×C的张量Q;将张量K、张量V和张量Q做交叉多头注意力操作,得到Batch_size×S×C的中间张量;将中间张量进行线性变换,得到Batch_size×S×D的预测张量。
当在数据处理设备上执行时,计算机程序产品适于执行初始化有如下方法步骤的程序:Vision Transformer模型为Swin Transformer模型,Transformer模型为生成式无监督预训练GPT模型。
当在数据处理设备上执行时,计算机程序产品适于执行初始化有如下方法步骤的程序:将图像特征输入印章文字识别模型的特征解码器,由特征解码器输出目标印章中的文本,包括:获取特征解码器的解码器参数和解码器参数的参数权重;将解码器参数和参数权重输入FasterTransformer推断服务器,实现将特征解码器部署在FasterTransformer推断服务器中;将图像特征输入部署在FasterTransformer推断服务器中的特征解码器,输出目标印章中的文本。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种印章文字识别方法,其特征在于,包括:
获取目标印章的印章图像;
将所述印章图像输入预先训练的印章文字识别模型的图像编码器,得到所述印章图像的图像特征,其中,所述图像编码器为执行图像分类任务的图像识别模型中的编码器;
将所述图像特征输入所述印章文字识别模型的特征解码器,得到所述目标印章中的文本,其中,所述特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
2.根据权利要求1所述的方法,其特征在于,所述图像识别模型为Vision Transformer模型,所述图像编码器包括所述Vision Transformer模型的编码器;所述自然语言处理模型为Transformer模型,所述特征解码器包括所述Transformer模型中的解码器。
3.根据权利要求2所述的方法,其特征在于,所述印章文字识别模型为通过如下步骤训练得到的神经网络模型:
获取标注过的印章样本,其中,所述印章样本的数目记为Batch_size,所述印章样本包括样本图像和标注文本;
将所述印章样本输入所述印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,其中,S表示所述标注文本的长度最大值加1,D表示字典的大小;
基于所述预测张量和所述标注文本,计算损失函数;
基于所述损失函数和随机梯度下降法训练所述原始模型,得到所述印章文字识别模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述印章样本输入所述印章文字识别模型对应的原始模型,输出Batch_size×S×D的预测张量,包括:
将所述印章样本输入所述原始模型的图像编码器,输出Batch_size×L×C的张量K和张量V,其中,L表示所述标注文本的文本长度,C表示张量的维度;
将所述张量K、所述张量V和所述标注文本输入所述原始模型的特征解码器,输出Batch_size×S×D的预测张量。
5.根据权利要求4所述的方法,其特征在于,所述将所述张量K、所述张量V和所述标注文本输入所述原始模型的特征解码器,输出Batch_size×S×D的预测张量,包括:
所述特征解码器对所述标注文本依次进行向量化操作、掩码多头注意力操作和残差相加和标准化操作,得到Batch_size×S×C的张量Q;
将所述张量K、所述张量V和所述张量Q做交叉多头注意力操作,得到Batch_size×S×C的中间张量;
将所述中间张量进行线性变换,得到Batch_size×S×D的所述预测张量。
6.根据权利要求2至5中任意一项所述的方法,其特征在于,所述Vision Transformer模型为Swin Transformer模型,所述Transformer模型为生成式无监督预训练GPT模型。
7.根据权利要求1所述的方法,其特征在于,所述将所述图像特征输入所述印章文字识别模型的特征解码器,得到所述目标印章中的文本,包括:
获取所述特征解码器的解码器参数和所述解码器参数的参数权重;
将所述解码器参数和所述参数权重输入FasterTransformer推断服务器,实现将所述特征解码器部署在所述FasterTransformer推断服务器中;
将所述图像特征输入部署在所述FasterTransformer推断服务器中的所述特征解码器,输出所述目标印章中的文本。
8.一种印章文字识别装置,其特征在于,包括:
获取模块,用于获取目标印章的印章图像;
第一输出模块,用于将所述印章图像输入预先训练的印章文字识别模型的图像编码器,得到所述印章图像的图像特征,其中,所述图像编码器为执行图像分类任务的图像识别模型中的编码器;
第二输出模块,用于将所述图像特征输入所述印章文字识别模型的特征解码器,得到所述目标印章中的文本,其中,所述特征解码器为执行自然语言处理任务的自然语言处理模型中的解码器。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的印章文字识别方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的印章文字识别方法。
CN202211521302.4A 2022-11-30 2022-11-30 印章文字识别方法、装置、处理器及电子设备 Pending CN115731552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211521302.4A CN115731552A (zh) 2022-11-30 2022-11-30 印章文字识别方法、装置、处理器及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211521302.4A CN115731552A (zh) 2022-11-30 2022-11-30 印章文字识别方法、装置、处理器及电子设备

Publications (1)

Publication Number Publication Date
CN115731552A true CN115731552A (zh) 2023-03-03

Family

ID=85299531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211521302.4A Pending CN115731552A (zh) 2022-11-30 2022-11-30 印章文字识别方法、装置、处理器及电子设备

Country Status (1)

Country Link
CN (1) CN115731552A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071759A (zh) * 2023-03-06 2023-05-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法
CN116758341A (zh) * 2023-05-31 2023-09-15 北京长木谷医疗科技股份有限公司 一种基于gpt的髋关节病变智能诊断方法、装置及设备
CN117352120A (zh) * 2023-06-05 2024-01-05 北京长木谷医疗科技股份有限公司 基于gpt的膝关节病变诊断智能自生成方法、装置及设备
CN118430002A (zh) * 2024-07-02 2024-08-02 武汉大学 融合数据增强和深度学习的印章识别方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071759A (zh) * 2023-03-06 2023-05-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法
CN116071759B (zh) * 2023-03-06 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法
CN116758341A (zh) * 2023-05-31 2023-09-15 北京长木谷医疗科技股份有限公司 一种基于gpt的髋关节病变智能诊断方法、装置及设备
CN116758341B (zh) * 2023-05-31 2024-03-19 北京长木谷医疗科技股份有限公司 一种基于gpt的髋关节病变智能诊断方法、装置及设备
CN117352120A (zh) * 2023-06-05 2024-01-05 北京长木谷医疗科技股份有限公司 基于gpt的膝关节病变诊断智能自生成方法、装置及设备
CN117352120B (zh) * 2023-06-05 2024-06-11 北京长木谷医疗科技股份有限公司 基于gpt的膝关节病变诊断智能自生成方法、装置及设备
CN118430002A (zh) * 2024-07-02 2024-08-02 武汉大学 融合数据增强和深度学习的印章识别方法及系统
CN118430002B (zh) * 2024-07-02 2024-09-27 武汉大学 融合数据增强和深度学习的印章识别方法及系统

Similar Documents

Publication Publication Date Title
WO2021047286A1 (zh) 文本处理模型的训练方法、文本处理方法及装置
WO2021159714A1 (zh) 一种数据处理方法及相关设备
CN115731552A (zh) 印章文字识别方法、装置、处理器及电子设备
CN110309839B (zh) 一种图像描述的方法及装置
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN114298121B (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN111275046A (zh) 一种字符图像识别方法、装置、电子设备及存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN113240115B (zh) 一种生成人脸变化图像模型的训练方法及相关装置
CN116051388A (zh) 经由语言请求的自动照片编辑
CN114495129A (zh) 文字检测模型预训练方法以及装置
US20230281400A1 (en) Systems and Methods for Pretraining Image Processing Models
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN118246537B (zh) 基于大模型的问答方法、装置、设备及存储介质
CN115964638A (zh) 多模态社交数据情感分类方法、系统、终端、设备及应用
CN117453949A (zh) 一种视频定位方法以及装置
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
Soji et al. Indian Sign Language Recognition Using Surf Feature Extraction and MDAE for Patient Disability Discussion
Yap et al. Enhancing BISINDO Recognition Accuracy Through Comparative Analysis of Three CNN Architecture Models
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置
CN115617959A (zh) 问题解答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination