CN113822276A - 基于神经网络的图片矫正方法、装置、设备及介质 - Google Patents

基于神经网络的图片矫正方法、装置、设备及介质 Download PDF

Info

Publication number
CN113822276A
CN113822276A CN202111162235.7A CN202111162235A CN113822276A CN 113822276 A CN113822276 A CN 113822276A CN 202111162235 A CN202111162235 A CN 202111162235A CN 113822276 A CN113822276 A CN 113822276A
Authority
CN
China
Prior art keywords
picture
sub
cutting
coding
cut
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111162235.7A
Other languages
English (en)
Other versions
CN113822276B (zh
Inventor
孙超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111162235.7A priority Critical patent/CN113822276B/zh
Publication of CN113822276A publication Critical patent/CN113822276A/zh
Application granted granted Critical
Publication of CN113822276B publication Critical patent/CN113822276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及人工智能,提供了基于神经网络的图片矫正方法、装置、设备及介质,先将待识别图片根据切割策略进行切割得到切割子图片集,然后通过卷积核对各切割子图片进行卷积得到特征图集合以组成与切割子图片相应的一维序列,之后获取切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列,最后将每一更新后一维序列输入至Transformer模型进行编码和解码处理,得到解码结果。实现了将待识别图片经切割和卷积转换成一维序列后,利用Transformer模型来抽取一维序列中更全局的信息,避免了采用下采样所损失图片分辨率全局的语义信息,达到了更好的细节矫正效果。

Description

基于神经网络的图片矫正方法、装置、设备及介质
技术领域
本发明涉及人工智能的图像识别领域,尤其涉及一种基于神经网络的图片矫正方法、装置、计算机设备及存储介质。
背景技术
随着技术发展和人们生活水平的提高,利用移动设备拍照来记录文档信息是当今常用手段。然而,移动设备拍摄通常受到角度倾斜、文档物理扭曲、变形等因素影响,导致对文字识别和结构化信息归档带来巨大挑战。将一张扭曲变形的文档图像进行自动化展平,不仅能提升文字识别的准确率,同时大幅度降低了结构化信息抽取的难度,从而整体大幅度提升了文档结构化归档的准确率。
针对扭曲、倾斜文档的矫正方法,目前业界流行的解决方案是基于2D矫正(即二维矫正)的方法,将其转化为寻找合适的2D映射矩阵复原弯曲图像的问题,借助语义分割网络进行端到端的复原,但经典语义分割网络Encoder-Decoder结构(即编码-解码结构)以多次下采样损失分辨率为代价来抽取特征,网络层一旦固定则每一层的感受野是受限的,使得局部细节丢失,从而影响图像的矫正效果。
发明内容
本发明实施例提供了一种基于神经网络的图片矫正方法、装置、计算机设备及存储介质,旨在解决现有技术中针对扭曲、倾斜文档的矫正方法,目前业界流行的解决方案是基于2D矫正的方法,采用下采样会有损图像分辨率,导致局部细节丢失,从而影响图像的矫正效果的问题。
第一方面,本发明实施例提供了一种基于神经网络的图片矫正方法,其包括:
获取待识别图片,将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集;
获取初始随机生成的卷积核,通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,由所述特征图集合组成与切割子图片相应的一维序列;
获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列;
将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果;以及
将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果。
第二方面,本发明实施例提供了一种基于神经网络的图片矫正装置,其包括:
待识别图片切片单元,用于获取待识别图片,将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集;
一维序列获取单元,用于获取初始随机生成的卷积核,通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,由所述特征图集合组成与切割子图片相应的一维序列;
一维序列更新单元,用于获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列;
编码单元,用于将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果;以及
解码单元,用于将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于神经网络的图片矫正方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于神经网络的图片矫正方法。
本发明实施例提供了一种基于神经网络的图片矫正方法、装置、计算机设备及存储介质,先将待识别图片根据切割策略进行切割得到切割子图片集,然后通过随机生成的卷积核对切割子图片集中切割子图片进行卷积得到特征图集合,由特征图集合组成与切割子图片相应的一维序列,之后获取切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列,最后将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型进行编码和解码处理,得到解码结果。实现了将待识别图片经切割和卷积转换成一维序列后,利用Transformer模型抽取一维序列中更全局的信息进行图像矫正,避免了采用下采样所损失图片分辨率达到了更好的细节矫正效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于神经网络的图片矫正方法的应用场景示意图;
图2为本发明实施例提供的基于神经网络的图片矫正方法的流程示意图;
图3为本发明实施例提供的基于神经网络的图片矫正装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于神经网络的图片矫正方法的应用场景示意图;图2为本发明实施例提供的基于神经网络的图片矫正方法的流程示意图,该基于神经网络的图片矫正方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S105。
S101、获取待识别图片,将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集。
在本实施例中,是以服务器为执行主体来描述技术方案。当服务器接收到待识别图片时(这一待识别图片的可能是从用户端发送至服务器,也可能是其他服务器发送至服务器的),需要获取预设的切割策略(如切割策略设置为将H*W*C的图片切割成256个H/16*W/16*3的切割子图片),将所述待识别图片根据所述切割策略进行切割,得到相应的切割子图片集。
在一实施例中,步骤S101包括:
获取所述待识别图片的图片尺寸和图片通道数;
获取所述切割策略相应的目标切割总数;
根据所述图片尺寸与所述目标切割总数得到切割子图片尺寸;
将所述待识别图片根据所述切割子图片尺寸按预设的切割方向进行切割,得到切割子图片集。
在本实施例中,当需要将待识别图片切割为多个尺寸更小的图片时,可经过以下处理:
A1)先获取所述待识别图片的图片尺寸(如记为H*W,H表示图片的纵向像素长度,W表示图片的横向像素长度)和图片通道数(一般图片通道数为3,分别对应R、G、B三个通道);
A2)获取预设的切割策略中相应的目标切割总数(如设置目标切割总数为256),并获取切割策略中所设置的切割方式(一般设置为将图片根据目标切割总数进行平均切割);
A3)将所述目标切割总数开平方得到切割数(如256开平方的结果为16),将所述待识别图片的图片尺寸H*W中纵向像素长度H除以切割数16且将横向像素长度W除以切割数16,得到切割子图片尺寸为H/16*W/16,且切割子图片通道数也为3;
A4)将所述待识别图片根据所述切割子图片尺寸H/16*W/16按预设的切割方向(例如按照从左至右且从上至下的顺序)进行切割,得到切割子图片集,在该切割子图片集中包括256张H/16*W/16*3的切割子图片。而且在切割子图片集中,切割子图片的排列也是具有顺序的,也就是按预设的切割方向先切割得到的切割子图片是在切割子图片集中排列靠前,类似于队列的形式排列,具有先进队先排列的特点。
通过上述方式将图片进行切割,是为了便于进一步对图片特征进行降维处理。
S102、获取初始随机生成的卷积核,通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,由所述特征图集合组成与切割子图片相应的一维序列。
在本实施例中,所述卷积核的尺寸与所述切割子图片集中任意一个切割子图片的图片尺寸相等。其中,可以随机初始生成C_out(C_out为预设值,可设置为96、256、512等取值,在本申请中可以将C_out设置为768)个3*H/16*W/16的卷积核,这些卷积核是共享权重的,对于一张H*W*3大小的待识别图片,通过上述切割(也可以理解为切片)处理得到了256个H/16*W/16*3的切割子图片,每个切割子图片通过3*H/16*W/16*768的卷积,从而将一张H*W*3大小的待识别图片转换成256个1*768的序列。
在一实施例中,以C_out个H/16*W/16*3的卷积核对H*W*3大小的待识别图片中每一个切割子图片进行卷积后得到特征图集合为例,步骤S102包括:
对于所述切割子图片集中的每个切割子图片,获取所述待切割子图片作为目标子图片;
将所述卷积核中第i个卷积核对所述目标子图片进行卷积,得到第i特征图;其中,i的初始值为1,且i的取值范围是[1,C_out],C_out为预设的卷积核集合中卷积核总个数;
将i自增1,以更新i的取值;
若确定i未超出C_out,返回执行所述将所述卷积核集合中第i个卷积核对所述目标子图片进行卷积,得到第i特征图的步骤;
若确定i超出C_out,依序将第i特征图至第C_out特征图进行拼接,得到与所述目标子图片相应的特征图集合。
在本实施例中,以C_out个H/16*W/16*3的卷积核对1个H/16*W/16*3的切割子图片进行卷积,可以得到C_out个1*1的特征图(这是因为有多少个卷积核就生成相应个数的特征图,与输入图片的通道数无关),也就是得到了C_out个特征值,将这C_out个特征值拼接起来即可得到这一切割子图片的1*C_out形式的一维序列。
其中,以1个H/16*W/16*3的卷积核对1个H/16*W/16*3的切割子图片(一般默认切割子图片均是彩色图片才会具有3个通道的像素矩阵)进行卷积,首先是切割子图片3个通道的像素矩阵(矩阵大小都是H/16*W/16)分别乘以对应通道的卷积核(每一通道卷积核的大小也是H/16*W/16),这样该切割子图片3个通道的像素矩阵进行卷积后都是对应1个1*1的特征值,将这3个特征值进行求和(或者求和之后还能增加偏置值),即可得到与切割图片相应的一个最终特征值。当768个H/16*W/16*3的卷积核对1个H/16*W/16*3的切割子图片进行卷积后即得到768个特征值,将这768个特征值按纵向方向拼接起来即可得到这一切割子图片的1*768形式的一维序列。
S103、获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列。
在本实施例中,继续参考上述示例,当一张H*W*3大小的待识别图片经过切分得到了256个H/16*W/16*3的切割子图片之后,每一切割子图片经过卷积后可以得到一个1*768形式的一维序列。之后这256个H/16*W/16*3的切割子图片还可以分别进行位置编码得到一个位置编码值。
例如所设置的编码函数的公式如下:
PE(pos,2j)=sin(pos/100002j/dmodel) (1)
PE(pos,2j+1)=cos(pos/100002j/dmodel) (2)
其中,在公式(1)和(2)中j表示切割子图片的位置值相应的索引值,dmodel表示切割子图片相应的一维序列的总维度(例如dmodel=768)。上述256个H/16*W/16*3的切割子图片分别基于其在待识别图片中的原始分布位置可以得到一个位置值pos,例如之前256个H/16*W/16*3的切割子图片是按照从左到右排16张切割子图片然后一共从上至下排列16行,这样第一行的16张切割子图片的位置值可以分别为1-16,第二行的16张切割子图片的位置值可以分别为17-32,以此类推,直至获得第十六行的16张切割子图片的位置值可以分别为241-256。
若某一张切割子图片的位置值为奇数值则采用如公式(1)中的正弦编码,若某一张切割子图片的位置值为偶数值则采用如公式(2)中的余弦编码。例如位置值为3的切割子图片,位置值3=2*1+1,采用如公式(2)中的余弦编码,且PE(3)=cos(3/100002/768),通过这一方式即得到了位置值为3的切割子图片相应的位置编码向量,这一位置编码向量是可视为一个1*1的向量值,也可以视为只具有1个值的一维序列。其他位置值的切割子图片的位置编码向量也是参照上述方式获取,通过这一方式扩展了每一切割子图片的位置特征。
在一实施例中,步骤S103包括:
获取所述切割子图片集中第j张切割子图片,并获取所述第j张切割子图片相应的位置值;其中,j的初始取值为1,j的取值范围是[1,M],M等于所述目标切割总数;
获取预先存储的编码策略;
将所述第j张切割子图片相应的位置值输入至所述编码策略中进行运算,得到所述第j张切割子图片相应的位置编码值;
所述第j张切割子图片相应的一维序列与所述第j张切割子图片相应的位置编码值进行concat连接,得到所述第j张切割子图片相应的更新后一维序列;
将j自增1,以更新j的取值;
若确定j未超出M,返回执行所述获取所述切割子图片集中第j张切割子图片,并获取所述第j张切割子图片相应的位置值的步骤;
若确定i超出M,获取第1张切割子图片相应的更新后一维序列至第M张切割子图片相应的更新后一维序列。
在本实施例中,concat连接对应是concat函数(如concat(str1,str2)表示将str1和str2这两个字符串进行串接),其作用是将两个字符串拼接成一个字符串,也可以理解为将1个一维序列后再多增加一个1维的位置编码值。这样将每一个切割子图片的一维序列均融合了位置编码特征后,更新后一维序列具有更丰富的特征值,便于后续输入至Transformer模型中抽取特征以实现图像矫正。
S104、将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果。
在本实施例中,所采用Transformer模型中的编码结构可设置为具有24个编码层,每一编码层由多头注意力、Layer Norm以及MLP层组成,这样经过上述24个编码层的处理后,可以将上述列举的256个更新后一维序列输入至具有24个编码层的编码结构中依次进行编码处理,得到最终的编码结果。
其中,编码结构中的多头注意力(Multi-head attention)结构中,Query(简写为Q),Key(简写为K),Value(简写为V)首先进过一个线性变换,然后输入到放缩点积注意力,注意这里要做h次,也就是所谓的多头,每一次算一个头,头之间参数不共享,每次Q,K,V进行线性变换的参数是不一样的。然后将h次的放缩点积注意力结果进行拼接,再进行一次线性变换得到的值作为多头注意力的结果。
编码结构中的LayerNorm即归一化层,归一化层是对每一个样本上计算均值和方差,而不是BN(即批归一化方式)那种在批方向计算均值和方差。
编码结构中的MLP层即多层感知机(也可以理解为多层神经网络),多层感知机也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的多层感知机只含一个隐层,即三层的结构。多层感知机层与层之间是全连接的(全连接即上一层的任何一个神经元与下一层的所有神经元都有连接)。多层感知机最底层是输入层,中间是隐藏层,最后是输出层。
在一实施例中,步骤S104包括:
获取所述编码结构所包括编码层的总层数,将每一切割子图片相应的更新后一维序列输入至所述编码结构中第一编码层并按照编码层的设置顺序依序进行运算,得到编码结果。
在本实施例中,为了更好的抽取每一切割子图片相应的更新后一维序列中的全局信息,可以将每一切割子图片相应的更新后一维序列同步输入至所述编码结构中第一编码层进行第一次编码,然后将第一次编码结果输入至第二编码层进行第二次编码,直至输入所述编码结构中最后一层编码层(例如所述编码结构所包括编码层的总层数为24个,则此时是输入至所述编码结构中第二十四编码层进行第二十四次编码)进行最后一次编码,从而得到了充分抽取过图片中全局信息的编码结果。
S105、将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果。
在本实施例中,当基于编码结构完成了对每一切割子图片相应的更新后一维序列中的全局信息提取之后,得到了编码结果。此时还需将所述编码结果输入至所述Transformer模型中的解码结构进行解码,得到解码结果。
其中,解码结构中具有的解码层的个数与编码结构中所具有的编码层的个数相同,但是如果对编码结果继续缩放会引入噪音,故解码结构中具有的解码层采用渐进的上缩放,交替使用卷积和上采样操作,从而最终得到解码结果,该解码结果可以视为与待识别图片相应的矫正图片。
在一实施例中,步骤S105包括:
获取所述解码结构所包括解码层的总层数,将编码结果输入至所述解码结构中第一解码层并按照解码层的设置顺序依序进行运算,得到解码结果。
在本实施例中,解码阶段的每个步骤都会输出一个输出序列的元素,接下来的步骤重复了这个过程,直到到达一个特殊的终止符号,它表示Transformer的解码结构已经完成了它的输出,每个步骤的输出在下一个时间步被提供给下一个解码层。具体可以将编码结果步输入至所述解码结构中第一解码层进行第一次解码,然后将第一次解码结果输入至第二解码层进行第二次解码,直至输入所述解码结构中最后一层解码层(例如所述解码结构所包括解码层的总层数为24个,则此时是输入至所述解码结构中第二十四解码层进行第二十四次解码)进行最后一次解码,从而得到了解码结果,此时以解码结果输出作为与所述待识别图片相应的矫正后图片。在服务器中获取了矫正后图片后,可以基于服务器中的图像识别模型进行图片中内容或者数值的提取,然后将提取结果发送至用户端。通过这一方式解决了传统卷积神经网络编码部分损失图片的分辨率的弊端,达到了更好的细节矫正效果。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
该方法实现了将待识别图片经切割和卷积转换成一维序列后,利用Transformer模型来抽取一维序列中更全局的信息进行图像矫正,避免了采用下采样所损失图片分辨率,达到了更好的细节矫正效果。
本发明实施例还提供一种基于神经网络的图片矫正装置,该基于神经网络的图片矫正装置用于执行前述基于神经网络的图片矫正方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于神经网络的图片矫正装置100的示意性框图。
其中,如图3所示,基于神经网络的图片矫正装置100包括待识别图片切片单元101、一维序列获取单元102、一维序列更新单元103、编码单元104、解码单元105。
待识别图片切片单元101,用于获取待识别图片,将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集。
在本实施例中,是以服务器为执行主体来描述技术方案。当服务器接收到待识别图片时(这一待识别图片的可能是从用户端发送至服务器,也可能是其他服务器发送至服务器的),需要获取预设的切割策略(如切割策略设置为将H*W*C的图片切割成256个H/16*W/16*3的切割子图片),将所述待识别图片根据所述切割策略进行切割,得到相应的切割子图片集。
在一实施例中,待识别图片切片单元101包括:
图片参数获取单元,用于获取所述待识别图片的图片尺寸和图片通道数;
目标切割总数获取单元,用于获取所述切割策略相应的目标切割总数;
切割参数获取单元,用于根据所述图片尺寸与所述目标切割总数得到切割子图片尺寸;
切割子图片集获取单元,用于将所述待识别图片根据所述切割子图片尺寸按预设的切割方向进行切割,得到切割子图片集。
在本实施例中,当需要将待识别图片切割为多个尺寸更小的图片时,可经过以下处理:
A1)先获取所述待识别图片的图片尺寸(如记为H*W,H表示图片的纵向像素长度,W表示图片的横向像素长度)和图片通道数(一般图片通道数为3,分别对应R、G、B三个通道);
A2)获取预设的切割策略中相应的目标切割总数(如设置目标切割总数为256),并获取切割策略中所设置的切割方式(一般设置为将图片根据目标切割总数进行平均切割);
A3)将所述目标切割总数开平方得到切割数(如256开平方的结果为16),将所述待识别图片的图片尺寸H*W中纵向像素长度H除以切割数16且将横向像素长度W除以切割数16,得到切割子图片尺寸为H/16*W/16,且切割子图片通道数也为3;
A4)将所述待识别图片根据所述切割子图片尺寸H/16*W/16按预设的切割方向(例如按照从左至右且从上至下的顺序)进行切割,得到切割子图片集,在该切割子图片集中包括256张H/16*W/16*3的切割子图片。而且在切割子图片集中,切割子图片的排列也是具有顺序的,也就是按预设的切割方向先切割得到的切割子图片是在切割子图片集中排列靠前,类似于队列的形式排列,具有先进队先排列的特点。
通过上述方式将图片进行切割,是为了便于进一步对图片特征进行降维处理。
一维序列获取单元102,用于获取初始随机生成的卷积核,通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,由所述特征图集合组成与切割子图片相应的一维序列。
在本实施例中,所述卷积核的尺寸与所述切割子图片集中任意一个切割子图片的图片尺寸相等。其中,可以随机初始生成C_out(C_out为预设值,可设置为96、256、512等取值,在本申请中可以将C_out设置为768)个3*H/16*W/16的卷积核,这些卷积核是共享权重的,对于一张H*W*3大小的待识别图片,通过上述切割(也可以理解为切片)处理得到了256个H/16*W/16*3的切割子图片,每个切割子图片通过3*H/16*W/16*768的卷积,从而将一张H*W*3大小的待识别图片转换成256个1*768的序列。
在一实施例中,以C_out个H/16*W/16*3的卷积核对H*W*3大小的待识别图片中每一个切割子图片进行卷积后得到特征图集合为例,一维序列获取单元102包括:
目标子图片获取单元,用于对于所述切割子图片集中的每个切割子图片,获取所述待切割子图片作为目标子图片;
子图片卷积单元,用于将所述卷积核中第i个卷积核对所述目标子图片进行卷积,得到第i特征图;其中,i的初始值为1,且i的取值范围是[1,C_out],C_out为预设的卷积核集合中卷积核总个数;
第一序号更新单元,用于将i自增1,以更新i的取值;
第一执行单元,用于若确定i未超出C_out,返回执行所述将所述卷积核集合中第i个卷积核对所述目标子图片进行卷积,得到第i特征图的步骤;
第二执行单元,用于若确定i超出C_out,依序将第i特征图至第C_out特征图进行拼接,得到与所述目标子图片相应的特征图集合。
在本实施例中,以C_out个H/16*W/16*3的卷积核对1个H/16*W/16*3的切割子图片进行卷积,可以得到C_out个1*1的特征图(这是因为有多少个卷积核就生成相应个数的特征图,与输入图片的通道数无关),也就是得到了C_out个特征值,将这C_out个特征值拼接起来即可得到这一切割子图片的1*C_out形式的一维序列。
其中,以1个H/16*W/16*3的卷积核对1个H/16*W/16*3的切割子图片(一般默认切割子图片均是彩色图片才会具有3个通道的像素矩阵)进行卷积,首先是切割子图片3个通道的像素矩阵(矩阵大小都是H/16*W/16)分别乘以对应通道的卷积核(每一通道卷积核的大小也是H/16*W/16),这样该切割子图片3个通道的像素矩阵进行卷积后都是对应1个1*1的特征值,将这3个特征值进行求和(或者求和之后还能增加偏置值),即可得到与切割图片相应的一个最终特征值。当768个H/16*W/16*3的卷积核对1个H/16*W/16*3的切割子图片进行卷积后即得到768个特征值,将这768个特征值按纵向方向拼接起来即可得到这一切割子图片的1*768形式的一维序列。
一维序列更新单元103,用于获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列。
在本实施例中,继续参考上述示例,当一张H*W*3大小的待识别图片经过切分得到了256个H/16*W/16*3的切割子图片之后,每一切割子图片经过卷积后可以得到一个1*768形式的一维序列。之后这256个H/16*W/16*3的切割子图片还可以分别进行位置编码得到一个位置编码值。
例如所设置的编码函数的公式如上式(1)和(2),在公式(1)和(2)中j表示切割子图片的位置值相应的索引值,dmodel表示切割子图片相应的一维序列的总维度(例如dmodel=768)。上述256个H/16*W/16*3的切割子图片分别基于其在待识别图片中的原始分布位置可以得到一个位置值pos,例如之前256个H/16*W/16*3的切割子图片是按照从左到右排16张切割子图片然后一共从上至下排列16行,这样第一行的16张切割子图片的位置值可以分别为1-16,第二行的16张切割子图片的位置值可以分别为17-32,以此类推,直至获得第十六行的16张切割子图片的位置值可以分别为241-256。
若某一张切割子图片的位置值为奇数值则采用如公式(1)中的正弦编码,若某一张切割子图片的位置值为偶数值则采用如公式(2)中的余弦编码。例如位置值为3的切割子图片,位置值3=2*1+1,采用如公式(2)中的余弦编码,且PE(3)=cos(3/100002/768),通过这一方式即得到了位置值为3的切割子图片相应的位置编码向量,这一位置编码向量是可视为一个1*1的向量值,也可以视为只具有1个值的一维序列。其他位置值的切割子图片的位置编码向量也是参照上述方式获取,通过这一方式扩展了每一切割子图片的位置特征。
在一实施例中,一维序列更新单元103包括:
切割子图片获取单元,用于获取所述切割子图片集中第j张切割子图片,并获取所述第j张切割子图片相应的位置值;其中,j的初始取值为1,j的取值范围是[1,M],M等于所述目标切割总数;
编码策略获取单元,用于获取预先存储的编码策略;
位置编码值获取单元,用于将所述第j张切割子图片相应的位置值输入至所述编码策略中进行运算,得到所述第j张切割子图片相应的位置编码值;
编码值合并单元,用于所述第j张切割子图片相应的一维序列与所述第j张切割子图片相应的位置编码值进行concat连接,得到所述第j张切割子图片相应的更新后一维序列;
第二序号更新单元,用于将j自增1,以更新j的取值;
第三执行单元,用于若确定j未超出M,返回执行所述获取所述切割子图片集中第j张切割子图片,并获取所述第j张切割子图片相应的位置值的步骤;
第四执行单元,用于若确定i超出M,获取第1张切割子图片相应的更新后一维序列至第M张切割子图片相应的更新后一维序列。
在本实施例中,concat连接对应是concat函数(如concat(str1,str2)表示将str1和str2这两个字符串进行串接),其作用是将两个字符串拼接成一个字符串,也可以理解为将1个一维序列后再多增加一个1维的位置编码值。这样将每一个切割子图片的一维序列均融合了位置编码特征后,更新后一维序列具有更丰富的特征值,便于后续输入至Transformer模型中抽取特征以实现图像矫正。
编码单元104,用于将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果。
在本实施例中,所采用Transformer模型中的编码结构可设置为具有24个编码层,每一编码层由多头注意力、LayerNorm以及MLP层组成,这样经过上述24个编码层的处理后,可以将上述列举的256个更新后一维序列输入至具有24个编码层的编码结构中依次进行编码处理,得到最终的编码结果。
其中,编码结构中的多头注意力(Multi-head attention)结构中,Query(简写为Q),Key(简写为K),Value(简写为V)首先进过一个线性变换,然后输入到放缩点积注意力,注意这里要做h次,也就是所谓的多头,每一次算一个头,头之间参数不共享,每次Q,K,V进行线性变换的参数是不一样的。然后将h次的放缩点积注意力结果进行拼接,再进行一次线性变换得到的值作为多头注意力的结果。
编码结构中的Layer Norm即归一化层,归一化层是对每一个样本上计算均值和方差,而不是BN(即批归一化方式)那种在批方向计算均值和方差。
编码结构中的MLP层即多层感知机(也可以理解为多层神经网络),多层感知机也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的多层感知机只含一个隐层,即三层的结构。多层感知机层与层之间是全连接的(全连接即上一层的任何一个神经元与下一层的所有神经元都有连接)。多层感知机最底层是输入层,中间是隐藏层,最后是输出层。
在一实施例中,编码单元104还用于:
获取所述编码结构所包括编码层的总层数,将每一切割子图片相应的更新后一维序列输入至所述编码结构中第一编码层并按照编码层的设置顺序依序进行运算,得到编码结果。
在本实施例中,为了更好的抽取每一切割子图片相应的更新后一维序列中的全局信息,可以将每一切割子图片相应的更新后一维序列同步输入至所述编码结构中第一编码层进行第一次编码,然后将第一次编码结果输入至第二编码层进行第二次编码,直至输入所述编码结构中最后一层编码层(例如所述编码结构所包括编码层的总层数为24个,则此时是输入至所述编码结构中第二十四编码层进行第二十四次编码)进行最后一次编码,从而得到了充分抽取过图片中全局信息的编码结果。
解码单元105,用于将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果。
在本实施例中,当基于编码结构完成了对每一切割子图片相应的更新后一维序列中的全局信息提取之后,得到了编码结果。此时还需将所述编码结果输入至所述Transformer模型中的解码结构进行解码,得到解码结果。
其中,解码结构中具有的解码层的个数与编码结构中所具有的编码层的个数相同,但是如果对编码结果继续缩放会引入噪音,故解码结构中具有的解码层采用渐进的上缩放,交替使用卷积和上采样操作,从而最终得到解码结果,该解码结果可以视为与待识别图片相应的矫正图片。
在一实施例中,解码单元105还用于:
获取所述解码结构所包括解码层的总层数,将编码结果输入至所述解码结构中第一解码层并按照解码层的设置顺序依序进行运算,得到解码结果。
在本实施例中,解码阶段的每个步骤都会输出一个输出序列的元素,接下来的步骤重复了这个过程,直到到达一个特殊的终止符号,它表示Transformer的解码结构已经完成了它的输出,每个步骤的输出在下一个时间步被提供给下一个解码层。具体可以将编码结果步输入至所述解码结构中第一解码层进行第一次解码,然后将第一次解码结果输入至第二解码层进行第二次解码,直至输入所述解码结构中最后一层解码层(例如所述解码结构所包括解码层的总层数为24个,则此时是输入至所述解码结构中第二十四解码层进行第二十四次解码)进行最后一次解码,从而得到了解码结果,此时以解码结果输出作为与所述待识别图片相应的矫正后图片。在服务器中获取了矫正后图片后,可以基于服务器中的图像识别模型进行图片中内容或者数值的提取,然后将提取结果发送至用户端。通过这一方式解决了传统卷积神经网络编码部分损失图片的分辨率的弊端,达到了更好的细节矫正效果。
该装置实现了将待识别图片经切割和卷积转换成一维序列后,利用Transformer模型来抽取一维序列中更全局的信息进行图像矫正,避免了采用下采样所损失图片分辨率全局的语义信息,达到了更好的细节矫正效果。
上述基于神经网络的图片矫正装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参阅图4,该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于神经网络的图片矫正方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于神经网络的图片矫正方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于神经网络的图片矫正方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于神经网络的图片矫正方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,后台服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于神经网络的图片矫正方法,其特征在于,包括:
获取待识别图片,将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集;
获取初始随机生成的卷积核,通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,由所述特征图集合组成与切割子图片相应的一维序列;
获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列;
将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果;以及
将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果。
2.根据权利要求1所述的基于神经网络的图片矫正方法,其特征在于,所述将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集,包括:
获取所述待识别图片的图片尺寸和图片通道数;
获取所述切割策略相应的目标切割总数;
根据所述图片尺寸与所述目标切割总数得到切割子图片尺寸;
将所述待识别图片根据所述切割子图片尺寸按预设的切割方向进行切割,得到切割子图片集。
3.根据权利要求1所述的基于神经网络的图片矫正方法,其特征在于,所述通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,包括:
对于所述切割子图片集中的每个切割子图片,获取所述切割子图片作为目标子图片;
将所述卷积核中第i个卷积核对所述目标子图片进行卷积,得到第i特征图;其中,i的初始值为1,且i的取值范围是[1,C_out],C_out为预设的卷积核集合中卷积核总个数;
将i自增1,以更新i的取值;
若确定i未超出C_out,返回执行所述将所述卷积核集合中第i个卷积核对所述目标子图片进行卷积,得到第i特征图的步骤;
若确定i超出C_out,依序将第i特征图至第C_out特征图进行拼接,得到与所述目标子图片相应的特征图集合。
4.根据权利要求3所述的基于神经网络的图片矫正方法,其特征在于,所述卷积核的尺寸与所述切割子图片集中任意一个切割子图片的图片尺寸相等。
5.根据权利要求2所述的基于神经网络的图片矫正方法,其特征在于,所述获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列,包括:
获取所述切割子图片集中第j张切割子图片,并获取所述第j张切割子图片相应的位置值;其中,j的初始取值为1,j的取值范围是[1,M],M等于所述目标切割总数;
获取预先存储的编码策略;
将所述第j张切割子图片相应的位置值输入至所述编码策略中进行运算,得到所述第j张切割子图片相应的位置编码值;
所述第j张切割子图片相应的一维序列与所述第j张切割子图片相应的位置编码值进行concat连接,得到所述第j张切割子图片相应的更新后一维序列;
将j自增1,以更新j的取值;
若确定j未超出M,返回执行所述获取所述切割子图片集中第j张切割子图片,并获取所述第j张切割子图片相应的位置值的步骤;
若确定i超出M,获取第1张切割子图片相应的更新后一维序列至第M张切割子图片相应的更新后一维序列。
6.根据权利要求1所述的基于神经网络的图片矫正方法,其特征在于,所述将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果,包括:
获取所述编码结构所包括编码层的总层数,将每一切割子图片相应的更新后一维序列输入至所述编码结构中第一编码层并按照编码层的设置顺序依序进行运算,得到编码结果。
7.根据权利要求1所述的基于神经网络的图片矫正方法,其特征在于,所述将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果,包括:
获取所述解码结构所包括解码层的总层数,将编码结果输入至所述解码结构中第一解码层并按照解码层的设置顺序依序进行运算,得到解码结果。
8.一种基于神经网络的图片矫正装置,其特征在于,包括:
待识别图片切片单元,用于获取待识别图片,将所述待识别图片根据预设的切割策略进行切割,得到包含切割子图片的切割子图片集;
一维序列获取单元,用于获取初始随机生成的卷积核,通过所述卷积核对所述切割子图片集中每个切割子图片进行卷积得到特征图集合,由所述特征图集合组成与切割子图片相应的一维序列;
一维序列更新单元,用于获取所述切割子图片集中每一切割子图片的位置编码向量,将每一切割子图片的位置编码向量与相应的一维序列相连接,得到与每一切割子图片相应的更新后一维序列;
编码单元,用于将每一切割子图片相应的更新后一维序列输入至预先训练的Transformer模型中的编码结构进行运算,得到编码结果;以及
解码单元,用于将所述编码结果输入至所述Transformer模型中的解码结构进行运算,得到解码结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于神经网络的图片矫正方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于神经网络的图片矫正方法。
CN202111162235.7A 2021-09-30 2021-09-30 基于神经网络的图片矫正方法、装置、设备及介质 Active CN113822276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111162235.7A CN113822276B (zh) 2021-09-30 2021-09-30 基于神经网络的图片矫正方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111162235.7A CN113822276B (zh) 2021-09-30 2021-09-30 基于神经网络的图片矫正方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113822276A true CN113822276A (zh) 2021-12-21
CN113822276B CN113822276B (zh) 2024-06-14

Family

ID=78920084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111162235.7A Active CN113822276B (zh) 2021-09-30 2021-09-30 基于神经网络的图片矫正方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113822276B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740720A (zh) * 2023-08-14 2023-09-12 西交利物浦大学 基于关键点引导的拍照文档弯曲矫正方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104137549A (zh) * 2012-01-18 2014-11-05 韩国电子通信研究院 对图像进行编码和解码的方法及设备
WO2020258661A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
WO2021042895A1 (zh) * 2019-09-06 2021-03-11 深圳壹账通智能科技有限公司 基于神经网络的验证码识别方法、系统及计算机设备
CN112766160A (zh) * 2021-01-20 2021-05-07 西安电子科技大学 基于多级属性编码器和注意力机制的人脸替换方法
CN112801280A (zh) * 2021-03-11 2021-05-14 东南大学 视觉深度自适应神经网络的一维卷积位置编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104137549A (zh) * 2012-01-18 2014-11-05 韩国电子通信研究院 对图像进行编码和解码的方法及设备
WO2020258661A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
WO2021042895A1 (zh) * 2019-09-06 2021-03-11 深圳壹账通智能科技有限公司 基于神经网络的验证码识别方法、系统及计算机设备
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112766160A (zh) * 2021-01-20 2021-05-07 西安电子科技大学 基于多级属性编码器和注意力机制的人脸替换方法
CN112801280A (zh) * 2021-03-11 2021-05-14 东南大学 视觉深度自适应神经网络的一维卷积位置编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王俊豪;罗轶凤;: "通过细粒度的语义特征与Transformer丰富图像描述", 华东师范大学学报(自然科学版), no. 05, pages 65 - 76 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740720A (zh) * 2023-08-14 2023-09-12 西交利物浦大学 基于关键点引导的拍照文档弯曲矫正方法及设备
CN116740720B (zh) * 2023-08-14 2023-10-27 西交利物浦大学 基于关键点引导的拍照文档弯曲矫正方法及设备

Also Published As

Publication number Publication date
CN113822276B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
EP3625767B1 (en) End to end network model for high resolution image segmentation
CN112052839B (zh) 图像数据处理方法、装置、设备以及介质
CN116030259B (zh) 一种腹部ct图像多器官分割方法、装置及终端设备
CN111476719A (zh) 图像处理方法、装置、计算机设备及存储介质
CN113221869B (zh) 医疗发票结构化信息提取方法、装置设备及存储介质
CN110674824A (zh) 基于R2U-Net的手指静脉分割方法、装置和存储介质
GB2579262A (en) Space-time memory network for locating target object in video content
CN113822276B (zh) 基于神经网络的图片矫正方法、装置、设备及介质
CN113724163A (zh) 基于神经网络的图像矫正方法、装置、设备及介质
CN115546270A (zh) 多尺度特征融合的图像配准方法、模型训练方法及设备
CN113297986A (zh) 手写字符识别方法、装置、介质及电子设备
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN116468947A (zh) 刀具图像识别方法、装置、计算机设备及存储介质
CN117557689B (zh) 图像处理方法、装置、电子设备及存储介质
CN114581396A (zh) 三维医学图像的识别方法、装置、设备、存储介质及产品
CN117058723B (zh) 掌纹识别方法、装置及存储介质
JP7258375B2 (ja) ユーザのバイオメトリック特性を有する画像中の物体を識別して、画像のうちバイオメトリック特性を含む部分を他の部分から分離することにより当該ユーザのidを検証するための方法
CN112733777A (zh) 一种遥感图像的道路提取方法、装置、设备和存储介质
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN112734638A (zh) 一种遥感影像超分辨重建方法、装置及存储介质
CN116778470A (zh) 对象识别及对象识别模型训练方法、装置、设备及介质
CN115004241B (zh) 基于深度学习的图像分割的移位不变损失
CN116563898A (zh) 基于GhostNet网络的掌静脉图像识别方法、装置、设备及介质
CN114022884A (zh) 图片矫正方法、装置、计算机设备及存储介质
CN116402779B (zh) 基于深度学习注意力机制的颈椎图像分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant