CN114821614A - 图像识别方法、装置、电子设备及计算机可读存储介质 - Google Patents
图像识别方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114821614A CN114821614A CN202210360326.XA CN202210360326A CN114821614A CN 114821614 A CN114821614 A CN 114821614A CN 202210360326 A CN202210360326 A CN 202210360326A CN 114821614 A CN114821614 A CN 114821614A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- network model
- module
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像处理技术,提供了一种图像识别方法、装置、电子设备及计算机可读存储介质,方法包括:获取目标图像;基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息;基于预训练的检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息;基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息;基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息。本申请实施例中,能够提高印章识别的效率。
Description
技术领域
本申请实施例涉及但不限于图像处理技术领域,尤其涉及一种图像识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着社会经济的不断发展,科技的不断进步,人工智能也得到了越来越广泛的应用;在企业事业单位的日常生活当中,有大量的合同票据等公文需要进行处理,其中一个很重要的任务就是对公文上的印章进行检查判断处理;而为了节省人力,目前已经将人工智能应用到印章识别当中;印章识别在OCR(Optical Character Recognition,光学字符识别)场景中应用广泛,通过对印章图像的多层处理,以达到识别印章的目的,但是传统的算法需要耗费较高的时间成本,从而影响印章识别的效率。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种图像识别方法、装置、电子设备及计算机可读存储介质,能够提高印章识别的效率。
第一方面,本申请实施例提供了一种图像识别方法,所述方法包括:
获取目标图像;
基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息;
基于预训练的检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息;
基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息;
基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息。
根据本申请提供的实施例的图像识别方法,至少具有如下有益效果:首先获取目标图像;接着基于预训练的特征提取网络模型对目标图像进行特征提取,得到初始图像特征信息;接着基于预训练的检测网络模型对初始图像特征信息进行检测处理,得到目标位置信息;接着基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行变换处理,得到目标图像区域变换信息;最后基于预训练的识别网络模型对目标图像区域变换信息进行识别处理,从而得到目标识别信息。本实施例能够利用无监督变换网络模型对初始图像特征信息和目标位置信息进行检测处理,巧妙地将定位到的目标图像无监督的映射变换到有利于识别的图像空间,减少了传统算法中因寻找和调整最适合阈值带来的时间成本,提高了印章识别的效率。
根据本申请的一些实施例,所述特征提取网络模型包括多个子特征提取模块,所述初始图像特征信息包括多个子图像特征信息,所述基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息,包括:
基于多个所述子特征提取模块对所述目标图像进行逐层特征提取,得到多个与所述子特征提取模块对应的所述子图像特征信息;
将所述子特征提取模块对应的多个所述子图像特征信息作为所述初始图像特征信息。
根据本申请的一些实施例,所述检测网络模型包括多个子检测模块、融合模块和全连接模块,多个所述子检测模块均与所述融合模块连接,所述融合模块和所述全连接模块连接,所述基于预训练的检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息,包括:
基于多个所述子检测模块对应地对多个所述子图像特征信息进行初步检测处理,得到多个子检测信息;
基于所述融合模块对多个所述子检测信息进行融合处理,得到融合检测信息;
基于所述全连接模块对所述融合检测信息进行识别分类处理,得到所述目标位置信息。
根据本申请的一些实施例,所述检测网络模型的训练过程如下:
获取训练数据集,所述训练数据集包括多个训练样本,每个所述训练样本包括由所述特征提取网络模型输出的多个所述子图像特征信息以及对应的标注位置信息;
基于所述全连接模块输出的预测位置信息和所述标注位置信息,确定损失值;
基于所述损失值对所述检测网络模型进行训练。
根据本申请的一些实施例,所述全连接模块包括BN子模块和RELU子模块,所述基于所述全连接模块对所述融合检测信息进行识别分类处理,得到所述目标位置信息,包括:
基于所述BN子模块对所述融合检测信息进行规范化处理,得到第一位置信息;
基于所述RELU子模块对所述第一位置信息进行修正处理,得到所述目标位置信息。
根据本申请的一些实施例,所述基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息,包括:
基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行坐标变换处理,得到目标图像区域变换信息;
其中,坐标变换算法表示如下:
其中,(x,y)表示所述目标位置信息的坐标信息,表示所述目标图像区域变换信息的极坐标信息,src表示所述目标位置信息的原坐标,dst表示所述目标图像区域变换信息的目的坐标,angle表示角度,center表示原点坐标,magnitude表示极坐标大小,e表示自然常数,H表示所述目标位置信息的高度信息,W表示所述目标位置信息的宽度信息,maxR表示所述目标位置信息的最大半径信息。
根据本申请的一些实施例,所述识别网络模型包括提取模块、结合模块和转换模块,所述提取模块、所述结合模块和所述转换模块依次连接,所述基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息,包括:
基于提取模块对所述目标图像区域变换信息进行提取处理,得到多个像素识别结果;
基于结合模块对多个所述像素识别结果进行上下文联系处理,得到识别矩阵;
基于转换模块对所述识别矩阵进行转换处理,得到所述目标识别信息。
第二方面,本申请实施例还提供了一种图像识别装置,包括:
第一处理模块,用于获取目标图像;
第二处理模块,用于基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息;
第三处理模块,用于基于检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息;
第四处理模块,用于基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息;
第五处理模块,用于基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息。
第三方面,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述的图像识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上第一方面所述的图像识别方法。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请一个实施例提供的图像识别方法的流程图;
图2是本申请一个实施例提供的图像识别方法中,获取初始图像特征信息的流程图;
图3是本申请一个实施例提供的图像识别方法中,获取目标位置信息的流程图;
图4是本申请一个实施例提供的图像识别方法中,训练检测网络模型的流程图;
图5是本申请一个实施例提供的图像识别方法中,获取目标位置信息的流程图;
图6是本申请另一个实施例提供的图像识别方法的流程图;
图7是本申请一个实施例提供的图像识别方法中,获取目标识别信息的流程图;
图8是本申请一个实施例提供的图像识别装置的示意图;
图9是本申请一个实施例提供的电子设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要注意的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
人工智能技术所涉及的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请提供了一种图像识别方法、装置、电子设备及计算机可读存储介质,通过首先获取目标图像;接着基于预训练的特征提取网络模型对目标图像进行特征提取,得到初始图像特征信息;接着基于预训练的检测网络模型对初始图像特征信息进行检测处理,得到目标位置信息;接着基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行变换处理,得到目标图像区域变换信息;最后基于预训练的识别网络模型对目标图像区域变换信息进行识别处理,从而得到目标识别信息。本实施例能够利用无监督变换网络模型对初始图像特征信息和目标位置信息进行检测处理,巧妙地将定位到的目标图像无监督的映射变换到有利于识别的图像空间,减少了传统算法中因寻找和调整最适合阈值带来的时间成本,提高了印章识别的效率。
本申请实施例提供的图像识别方法,涉及人工智能技术领域。本申请实施例提供的图像识别方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现图像识别方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
下面结合附图,对本申请实施例作进一步阐述。
如图1所示,图1是本申请一个实施例提供的图像识别方法的流程图,该图像识别方法包括但不限于步骤S100至S500。
步骤S100,获取目标图像;
步骤S200,基于预训练的特征提取网络模型对目标图像进行特征提取,得到初始图像特征信息;
步骤S300,基于预训练的检测网络模型对初始图像特征信息进行检测处理,得到目标位置信息;
步骤S400,基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行变换处理,得到目标图像区域变换信息;
步骤S500,基于预训练的识别网络模型对目标图像区域变换信息进行识别处理,得到目标识别信息。
需要说明的是,首先获取目标图像;接着基于预训练的特征提取网络模型对目标图像进行特征提取,得到初始图像特征信息;接着基于预训练的检测网络模型对初始图像特征信息进行检测处理,得到目标位置信息;接着基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行变换处理,得到目标图像区域变换信息;最后基于预训练的识别网络模型对目标图像区域变换信息进行识别处理,从而得到目标识别信息。本实施例能够利用无监督变换网络模型对初始图像特征信息和目标位置信息进行检测处理,巧妙地将定位到的目标图像无监督的映射变换到有利于识别的图像空间,减少了传统算法中因寻找和调整最适合阈值带来的时间成本,提高了印章识别的效率。
值得注意的是,目标图像可以为包含有印章的图像,而该图像可以为一张电子化的图片;或者原来为一张包含有印章的纸张,但通过摄像工具或者扫描工具对纸张里面的内容进行拍摄或者扫描从而变为电子化的图片均属于本实施例所指代的目标图像。
需要说明的是,本发明实施例中的印章可以为圆形印章,也可以为矩形印章,此处不作限定。
可以理解的是,预训练网络模型即为预先已经完成训练的,能够直接得出最后运算结果的网络模型,该网络模型中的参数不需要再进行前期的训练反馈调整处理。其中,本实施中的特征提取网络模型可以为残差块(Residual Block,ResBlock)网络架构;检测网络模型可以为快速区域全卷积神经网络(Faster Region-based Convolutional NeuralNetworks,Faster R-CNN)模型或者卷积神经网络(Convolutional Neural Networks,CNN);无监督变换网络模型可以为K均值(K-Means)网络模型、自编码器(Auto-Encoder)网络模型和主成分分析(Principal Component Analysis)网络模型;识别网络模型可以为光学字符识别(Optical Character Recognition,OCR)网络模型;以上的网络模型种类只是举例,而不应当认定本实施例中的网络模型只能为上述所列举的网络模型。
在一些实施例中,特征提取网络模型包括多个子特征提取模块,初始图像特征信息包括多个子图像特征信息,在图2的示例中,步骤S200包括但不限于步骤S210至S220。
步骤S210,基于多个子特征提取模块对目标图像进行逐层特征提取,得到多个与子特征提取模块对应的子图像特征信息;
步骤S220,将子特征提取模块对应的多个子图像特征信息作为初始图像特征信息。
需要说明的是,特征提取网络模型包括多个子特征提取模块,初始图像特征信息包括多个子图像特征信息;基于上述条件的情况下,首先基于多个子特征提取模块对获取得到的目标图像进行逐层特征提取,就能够得到多个与子特征提取模块对应的子图像特征信息;接着将子特征提取模块对应的多个子图像特征信息确定为初始图像特征信息。
值得注意的是,基于多个子特征提取模块对目标图像进行逐层特征提取,能够使得目标图像的特征提取能够更加全面准确,从而更加有利于后续的检测处理。将子特征提取模块对应的多个子图像特征信息作为初始图像特征信息,使得后续的变换识别处理能够更加可靠准确。
在一些实施例中,检测网络模型包括多个子检测模块、融合模块和全连接模块,多个子检测模块均与融合模块连接,融合模块和全连接模块连接,在图3的示例中,步骤S300包括但不限于步骤S310至S330。
步骤S310,基于多个子检测模块对应地对多个子图像特征信息进行初步检测处理,得到多个子检测信息;
步骤S320,基于融合模块对多个子检测信息进行融合处理,得到融合检测信息;
步骤S330,基于全连接模块对融合检测信息进行识别分类处理,得到目标位置信息。
需要说明的是,首先基于多个子检测模块对应地对多个子图像特征信息进行初步检测处理,进而得到多个子检测信息;接着基于融合模块对多个子检测信息进行融合处理,得到融合检测信息;接着基于全连接模块对融合检测信息进行识别分类处理,最后得出目标位置信息。
可以理解的是,目标位置信息即为定位到的包含有印章部分的图像信息,为了后续的图像坐标变换和识别做好前提准备。
值得注意的是,对多个子检测信息进行融合处理,得到融合检测信息,为了全连接模块的识别分类处理做好前提准备,使得全连接模块的识别分类处理能够更加准确。
在图4的示例中,检测网络模型的训练过程如下:
步骤S610,获取训练数据集,训练数据集包括多个训练样本,每个训练样本包括由特征提取网络模型输出的多个子图像特征信息以及对应的标注位置信息;
步骤S620,基于全连接模块输出的预测位置信息和标注位置信息,确定损失值;
步骤S630,基于损失值对检测网络模型进行训练。
需要说明的是,在对检测网络模型进行前期训练的过程中,首先需要获取训练数据集,而训练数据集包括多个训练样本,而每个训练样本包括由特征提取网络模型输出的多个子图像特征信息以及对应的标注位置信息;接着基于全连接模块输出的预测位置信息和标注位置信息,确定损失值;最后基于损失值对检测网络模型进行训练处理,为了后续利用检测网络模型对初始图像特征信息进行检测做好前提准备。
在一些实施例中,全连接模块包括BN子模块和RELU子模块,在图5的示例中,步骤S330包括但不限于步骤S331至S332。
步骤S331,基于BN子模块对融合检测信息进行规范化处理,得到第一位置信息;
步骤S332,基于RELU子模块对第一位置信息进行修正处理,得到目标位置信息。
需要说明的是,首先基于BN子模块对融合检测信息进行规范化处理,进而得到第一位置信息;接着基于RELU子模块对第一位置信息进行修正处理,得到目标位置信息。
需要说明的是,BN子模块即为批标准化(Batch Normalization,BN)子模块;BN是优化深度神经网络中的最新创新之一,实际上它并不是一个优化算法,而是一个自适应的重新参数化的方法,它试图克服神经网络层数加深导致模型难以训练。目前最常用的深度学习基础模型包括前向神经网络、神经网络和卷积神经网络,BN在这些基础网络结构中均有得到应用,大量数据表明,BN在前向神经网络和神经网络上效果很显著的,但在卷积神经网络上效果不明显。BN可以加快模型收敛速度,不再依赖精细的参数初始化过程,可以调大学习率等,同时引入的随机噪声能够起到对模型参数进行正则化的作用,有利于增强模型泛化能力。
需要说明的是,RELU子模块即为整流线性单元(Rectified Linear Unit,RELU)子模块;RELU又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数;相关大脑方面的研究表明生物神经元的信息编码通常是比较分散及稀疏的;通常情况下,大脑中在同一时间大概只有1%-4%的神经元处于活跃状态。使用线性修正以及正则化可以对机器神经网络中神经元的活跃度进行调试;不过需要指出的是,一般情况下,在一个使用修正线性单元(即线性整流)的神经网络中大概有50%的神经元处于激活态,更加有效率的梯度下降以及反向传播,避免了梯度爆炸和梯度消失问题。RELU还可以简化计算过程,没有了其他复杂激活函数中诸如指数函数的影响,同时活跃度的分散性使得神经网络整体计算成本下降。
在图6的示例中,步骤S400包括但不限于步骤S410。
步骤S410,基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行坐标变换处理,得到目标图像区域变换信息;
其中,坐标变换算法表示如下:
其中,(x,y)表示目标位置信息的坐标信息,表示目标图像区域变换信息的极坐标信息,src表示目标位置信息的原坐标,dst表示目标图像区域变换信息的目的坐标,angle表示角度,center表示原点坐标,magnitude表示极坐标大小,e表示自然常数,H表示目标位置信息的高度信息,W表示目标位置信息的宽度信息,maxR表示目标位置信息的最大半径信息。
需要说明的是,本发明实施例主要是将目标位置信息的直角坐标形式转换为目标图像区域变换信息的极坐标形式,进而能够更加有利于后续的印章识别处理,使得后续的印章识别过程能够更加简便快捷,提高印章识别的效率。
在一些实施例中,识别网络模型包括提取模块、结合模块和转换模块,提取模块、结合模块和转换模块依次连接,在图7的示例中,步骤S500包括但不限于步骤S510至S530。
步骤S510,基于提取模块对目标图像区域变换信息进行提取处理,得到多个像素识别结果;
步骤S520,基于结合模块对多个像素识别结果进行上下文联系处理,得到识别矩阵;
步骤S530,基于转换模块对识别矩阵进行转换处理,得到目标识别信息。
需要说明的是,首先基于提取模块对目标图像区域变换信息进行提取处理,得到多个像素识别结果;接着基于结合模块对多个像素识别结果进行上下文联系处理,得到识别矩阵;最后基于转换模块对识别矩阵进行转换处理,从而能够得到目标识别信息。
需要说明的是,目标识别信息包括印章位置信息和印章文本信息;其中,印章位置信息即为印章所处的坐标信息;印章文本信息即为识别得到的印章字符文本信息,示例性地,目标图像中包含了某个公司的印章,而印章字符文本信息即为识别得到的该公司的名称。
另外,如图8所示,本申请的一个实施例还提供了一种图像识别装置10,包括:
第一处理模块100,用于获取目标图像;
第二处理模块200,用于基于预训练的特征提取网络模型对目标图像进行特征提取,得到初始图像特征信息;
第三处理模块300,用于基于检测网络模型对初始图像特征信息进行检测处理,得到目标位置信息;
第四处理模块400,用于基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行变换处理,得到目标图像区域变换信息;
第五处理模块500,用于基于预训练的识别网络模型对目标图像区域变换信息进行识别处理,得到目标识别信息。
在一实施例中,首先获取目标图像;接着基于预训练的特征提取网络模型对目标图像进行特征提取,得到初始图像特征信息;接着基于预训练的检测网络模型对初始图像特征信息进行检测处理,得到目标位置信息;接着基于预训练的无监督变换网络模型对初始图像特征信息和目标位置信息进行变换处理,得到目标图像区域变换信息;最后基于预训练的识别网络模型对目标图像区域变换信息进行识别处理,从而得到目标识别信息。本实施例能够利用无监督变换网络模型对初始图像特征信息和目标位置信息进行检测处理,巧妙地将定位到的目标图像无监督的映射变换到有利于识别的图像空间,减少了传统算法中因寻找和调整最适合阈值带来的时间成本,提高了印章识别的效率。
另外,如图9所示,本申请的一个实施例还提供了一种电子设备600,该设备包括:存储器610、处理器620及存储在存储器610上并可在处理器620上运行的计算机程序。
处理器620和存储器610可以通过总线或者其他方式连接。
实现上述实施例的图像识别方法所需的非暂态软件程序以及指令存储在存储器610中,当被处理器620执行时,执行上述各实施例的图像识别方法,例如,执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S210至S220、图3中的方法步骤S310至S330、图4中的方法步骤S610至S630、图5中的方法步骤S331至S332、图6中的方法步骤S100至S500、图7中的方法步骤S510至S530。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本申请的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器620或控制器执行,例如,被上述设备实施例中的一个处理器620执行,可使得上述处理器620执行上述实施例中的图像识别方法,例如,执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S210至S220、图3中的方法步骤S310至S330、图4中的方法步骤S610至S630、图5中的方法步骤S331至S332、图6中的方法步骤S100至S500、图7中的方法步骤S510至S530。
上述各实施例可以结合使用,不同实施例之间名称相同的模块可相同可不同。
上述对本申请特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备、计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(Flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(Transitory Media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
获取目标图像;
基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息;
基于预训练的检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息;
基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息;
基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息。
2.根据权利要求1所述的图像识别方法,其特征在于,所述特征提取网络模型包括多个子特征提取模块,所述初始图像特征信息包括多个子图像特征信息,所述基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息,包括:
基于多个所述子特征提取模块对所述目标图像进行逐层特征提取,得到多个与所述子特征提取模块对应的所述子图像特征信息;
将所述子特征提取模块对应的多个所述子图像特征信息作为所述初始图像特征信息。
3.根据权利要求1所述的图像识别方法,其特征在于,所述检测网络模型包括多个子检测模块、融合模块和全连接模块,多个所述子检测模块均与所述融合模块连接,所述融合模块和所述全连接模块连接,所述基于预训练的检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息,包括:
基于多个所述子检测模块对应地对多个所述子图像特征信息进行初步检测处理,得到多个子检测信息;
基于所述融合模块对多个所述子检测信息进行融合处理,得到融合检测信息;
基于所述全连接模块对所述融合检测信息进行识别分类处理,得到所述目标位置信息。
4.根据权利要求3所述的图像识别方法,其特征在于,所述检测网络模型的训练过程如下:
获取训练数据集,所述训练数据集包括多个训练样本,每个所述训练样本包括由所述特征提取网络模型输出的多个所述子图像特征信息以及对应的标注位置信息;
基于所述全连接模块输出的预测位置信息和所述标注位置信息,确定损失值;
基于所述损失值对所述检测网络模型进行训练。
5.根据权利要求3所述的图像识别方法,其特征在于,所述全连接模块包括BN子模块和RELU子模块,所述基于所述全连接模块对所述融合检测信息进行识别分类处理,得到所述目标位置信息,包括:
基于所述BN子模块对所述融合检测信息进行规范化处理,得到第一位置信息;
基于所述RELU子模块对所述第一位置信息进行修正处理,得到所述目标位置信息。
6.根据权利要求1所述的图像识别方法,其特征在于,所述基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息,包括:
基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行坐标变换处理,得到目标图像区域变换信息;
其中,坐标变换算法表示如下:
7.根据权利要求1所述的图像识别方法,其特征在于,所述识别网络模型包括提取模块、结合模块和转换模块,所述提取模块、所述结合模块和所述转换模块依次连接,所述基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息,包括:
基于提取模块对所述目标图像区域变换信息进行提取处理,得到多个像素识别结果;
基于结合模块对多个所述像素识别结果进行上下文联系处理,得到识别矩阵;
基于转换模块对所述识别矩阵进行转换处理,得到所述目标识别信息。
8.一种图像识别装置,其特征在于,包括:
第一处理模块,用于获取目标图像;
第二处理模块,用于基于预训练的特征提取网络模型对所述目标图像进行特征提取,得到初始图像特征信息;
第三处理模块,用于基于检测网络模型对所述初始图像特征信息进行检测处理,得到目标位置信息;
第四处理模块,用于基于预训练的无监督变换网络模型对所述初始图像特征信息和所述目标位置信息进行变换处理,得到目标图像区域变换信息;
第五处理模块,用于基于预训练的识别网络模型对所述目标图像区域变换信息进行识别处理,得到目标识别信息。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的图像识别方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7中任意一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210360326.XA CN114821614A (zh) | 2022-04-07 | 2022-04-07 | 图像识别方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210360326.XA CN114821614A (zh) | 2022-04-07 | 2022-04-07 | 图像识别方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114821614A true CN114821614A (zh) | 2022-07-29 |
Family
ID=82534468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210360326.XA Pending CN114821614A (zh) | 2022-04-07 | 2022-04-07 | 图像识别方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821614A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416469A (zh) * | 2023-04-10 | 2023-07-11 | 中国气象局人工影响天气中心 | 基于目标区域的冰晶图像识别方法、装置、计算机设备和存储介质 |
CN117853754A (zh) * | 2024-02-20 | 2024-04-09 | 蚂蚁云创数字科技(北京)有限公司 | 图像处理方法及装置 |
-
2022
- 2022-04-07 CN CN202210360326.XA patent/CN114821614A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416469A (zh) * | 2023-04-10 | 2023-07-11 | 中国气象局人工影响天气中心 | 基于目标区域的冰晶图像识别方法、装置、计算机设备和存储介质 |
CN116416469B (zh) * | 2023-04-10 | 2023-10-24 | 中国气象局人工影响天气中心 | 基于目标区域的冰晶图像识别方法、装置、计算机设备和存储介质 |
CN117853754A (zh) * | 2024-02-20 | 2024-04-09 | 蚂蚁云创数字科技(北京)有限公司 | 图像处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shanmugamani | Deep Learning for Computer Vision: Expert techniques to train advanced neural networks using TensorFlow and Keras | |
CN108229478B (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN114821614A (zh) | 图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN113011144B (zh) | 表单信息的获取方法、装置和服务器 | |
CN111831826A (zh) | 跨领域的文本分类模型的训练方法、分类方法以及装置 | |
CN114170482A (zh) | 模型训练方法、装置、设备及介质 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN113989577B (zh) | 图像分类方法及装置 | |
Singh et al. | CNN based approach for traffic sign recognition system | |
CN114821590A (zh) | 文档信息提取方法、装置、设备及介质 | |
CN111797862A (zh) | 任务处理方法、装置、存储介质和电子设备 | |
CN114299304A (zh) | 一种图像处理方法及相关设备 | |
CN117275086A (zh) | 手势识别方法、装置、计算机设备、存储介质 | |
CN116883982A (zh) | 电子发票录入方法、装置、电子设备及可读存储介质 | |
CN113239915B (zh) | 一种课堂行为的识别方法、装置、设备及存储介质 | |
Newnham | Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
Kobets et al. | Method of Recognition and Indexing of People’s Faces in Videos Using Model of Machine Learning | |
CN114972774B (zh) | 特定区域的图像描述生成方法、装置、设备及存储介质 | |
CN114693996B (zh) | 证件真实性不确定度度量方法及装置、设备、存储介质 | |
Gowtham | REAL TIME TRAFFIC MANAGEMENT SYSTEM USING YOLOv3 ALGORITHM | |
Zhao | Enhancing artistic analysis through deep learning: a graphic art element recognition model based on SSD and FPT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |