CN115631330A - 特征提取方法、模型训练方法、图像识别方法及应用 - Google Patents
特征提取方法、模型训练方法、图像识别方法及应用 Download PDFInfo
- Publication number
- CN115631330A CN115631330A CN202211638006.2A CN202211638006A CN115631330A CN 115631330 A CN115631330 A CN 115631330A CN 202211638006 A CN202211638006 A CN 202211638006A CN 115631330 A CN115631330 A CN 115631330A
- Authority
- CN
- China
- Prior art keywords
- features
- image
- initial
- attention
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种特征提取方法、模型训练方法、图像识别方法及应用,该特征提取方法包括:从目标图像中提取初始特征;基于预设规则对所述初始特征进行聚合,以获得聚合特征;将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征;基于所述融合注意力特征,确定所述目标图像的深层特征。本发明提供的图像特征提取方法,通过对目标图像中提取的初始特征,进行特征聚合并进行分组后,计算各组的注意力特征,得到融合注意力特征,以确定目标图像的深层特征;该方法可以在有效提取局部和全局特征的同时,大幅降低模型复杂度和计算量。
Description
技术领域
本发明是关于人工智能技术领域,特别是关于一种图像特征提取方法、图像识别模型的训练方法、图像识别方法及应用。
背景技术
现有技术中,通常是通过卷积神经网络(CNN)模型实现图像特征的提取。然而,卷积神经网络模型注重于 局部特征之间的相互关联,难以有效提取图像的全局特征。
因此,针对上述技术问题,有必要提供一种新的特征提取方法、模型训练方法、图像识别方法及应用。
发明内容
本发明的目的在于提供一种特征提取方法、模型训练方法、图像识别方法及应用,其能够有效提取图像的局部特征和全局特征。
为实现上述目的,本发明提供的技术方案如下:
第一方面,本发明提供了一种图像特征提取方法,其包括:
从目标图像中提取初始特征,其中,所述初始特征的大小为M行×N列,所述初始特征的行特征和列特征其中之一包括目标图像部分区域的局部特征、其中另一包括目标图像的部分全局特征;
基于预设规则对所述初始特征进行聚合,以获得聚合特征;
将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征;
基于所述融合注意力特征,确定所述目标图像的深层特征。
在一个或多个实施方式中,从目标图像中提取初始特征,具体包括:
将目标图像划分为多个图像块并分别进行编码,以获得所述图像块的位置特征;
将所述多个图像块拼接拉直后,与所述位置特征融合,以获得所述目标图像的初始特征。
在一个或多个实施方式中,基于设定规则对所述初始特征进行聚合,以获得聚合特征,具体包括:
按行聚合所述初始特征的行特征,以获得聚合特征;
或,按列聚合所述初始特征的列特征,以获得聚合特征。
在一个或多个实施方式中,将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征,具体包括:
分别计算所述聚合特征划分成的各组的注意力特征;
将各组的所述注意力特征拉直后进行加和,以获得融合注意力特征。
在一个或多个实施方式中,基于所述融合注意力特征,确定所述目标图像的深层特征,具体包括:
将所述融合注意力特征的尺寸还原为与所述初始特征一致;
对还原后的所述融合注意力特征进行降维,以确定所述目标图像的深层特征。
第二方面,本发明提供了一种图像识别模型的训练方法,所述方法包括:
对级联的编码器和解码器执行多轮训练,并将训练完成后的编码器确定为所述图像识别模型;其中,对级联的编码器和解码器执行多轮训练包括:
基于如前所述的图像特征提取方法提取样本图像的深层特征;
基于所述深层特征确定所述样本图像的浅层特征;
基于所述样本图像的初始特征和浅层特征,进行相似度学习,其中,所述初始特征包括图像特征和/或位置特征。
第三方面,本发明提供了一种图像识别方法,其包括:
基于如前所述的方法训练得到的图像识别模型,提取第一图像和第二图像的深层特征;
基于所述第一图像和所述第二图像的深层特征,确定所述第一图像和所述第二图像的相似度。
第四方面,本发明提供了一种图像特征提取装置,其包括:
预处理模块,用于从目标图像中提取初始特征,其中,所述初始特征的大小为M行×N列,所述初始特征的行特征和列特征其中之一包括目标图像部分区域的局部特征、其中另一包括目标图像的部分全局特征;
聚合模块,用于基于预设规则对所述初始特征进行聚合,以获得聚合特征;
注意力模块,用于将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征;
确定模块,用于基于所述融合注意力特征,确定所述目标图像的深层特征。
第五方面,本发明提供了 一种图像识别模型的训练装置,其包括:
提取模块,用于基于如前所述的图像特征提取方法,提取目标图像的深层特征;
确定模块,基于所述深层特征确定所述样本图像的浅层特征;
学习模块,用于基于所述样本图像的初始特征和浅层特征,进行相似度学习,其中,所述初始特征包括图像特征和/或位置特征。
第六方面,本发明提供了一种图像识别装置,其包括:
提取模块,用于基于如前所述的方法训练得到的图像识别模型,提取第一图像和第二图像的深层特征;
确定模块,用于基于所述第一图像和所述第二图像的深层特征,确定所述第一图像和所述第二图像的相似度。
第七方面,本发明提供了一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的方法。
第八方面,本发明提供了一种计算机可读介质,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的方法。
与现有技术相比,本发明提供的图像特征提取方法,通过对目标图像中提取的初始特征,进行特征聚合并进行分组后,计算各组的注意力特征,得到融合注意力特征,以确定目标图像的深层特征;该方法可以在有效提取局部和全局特征的同时,大幅降低模型复杂度和计算量。
附图说明
图1是本发明一实施方式中实施场景的示意图;
图2是本发明一实施方式中图像特征提取方法的流程示意图;
图3a是本发明一实施方式中图像分块的示意图;
图3b是本发明一实施方式中确定融合注意力特征的流程示意图;
图4是本发明一实施方式中图像识别模型的训练方法的流程示意图;
图5是本发明一实施方式中图像识别方法的流程示意图;
图6是本发明一实施方式中图像特征提取装置的结构框图;
图7是本发明一实施方式中图像识别模型的训练装置的结构框图;
图8是本发明一实施方式中图像识别装置的结构框图;
图9是本发明一实施方式中电子设备的结构框图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
药物临床试验是用来研究药物的有效性、安全性和质量等问题,以考察其能否上市用于特定人群的临床试验。融合数字化技术的远程智能临床研究平台也不断得到推广和应用,旨在降低试验成本,提高临床试验效率。在药物临床试验研究过程中,试验相关方(如医生、受试者、受试者家属、临床监查员(Clinical Research Associate,CRA)等)需要在远程智能临床研究平台上签署各类文件(如知情同意书、随访记录),即通过终端(如手机、平板电脑等)在系统中使用手写签名(电子版)用以确定签字者的身份,并表示签字者同意所签署文档中描述的内容,对文档的真实性负责,该签名具有法律效力。药物临床试验的安全需要严格管控,因此对手写签名的验真与鉴别极其重要。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
随着人工智能技术的发展,ViT(Vision Transformer)模型在图像处理领域得到了广泛的应用。与卷积神经网络(Convolutional Neural Networks,CNN)依靠卷积来处理局部特征不同,ViT模型利用自注意力机制来建立图像块嵌入Tokens之间的关系,这种聚合全局信息的性质大大增加了ViT模型的性能。Transformer在很多视觉任务上可以取得不错的性能,包括图像识别、图像分类、图像增强、物体检测和视频处理等。
然而, ViT模型虽然能够建立全局特征,但是ViT模型是对整张图片做自注意力,模型参数多、计算复杂度高,模型难以收敛。
基于上述问题,本发明提供了一种图像特征提取方法,该方法不仅能够提取图像的全局特征,而且能够大幅降低计算量。
请参照图1所示,为本发明一实施场景的示意图。在该实施场景中,包括通过网络通信连接的用户终端101、图像特征提取服务器102和图像识别服务器103。
用户终端101可以是手机、平板电脑等,其可用于获取用户的电子签名,并可将用户的电子签名上传至图像特征提取服务器102。图像特征提取服务器102可基于本发明提供的图像特征提取方法,对用户的电子签名进行特征提取,以获取用户的电子签名的特征信息。图像特征提取服务器102可将获取的特征信息上传至图像识别服务器103,图像识别服务器103可基于图像特征提取服务器102上传的特征信息与内置的电子签名的特征信息进行相似度对比,以鉴别电子签名的真伪。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参照图2所示,为本发明一实施方式中图像特征提取方法的流程示意图。该图像特征提取方法具体包括:
S201:从目标图像中提取初始特征,该初始特征的大小为M行×N列,所述初始特征的行特征和列特征其中之一包括目标图像部分区域的局部特征、其中另一包括目标图像的部分全局特征。
目标图像可以是电子签名图像(如药物临床试验项目相关对象,通过终端设备进行手写字签名所生成的电子签名图像),也可以是其他图像在此不作特别限定,图像的格式可以是jpg格式、png格式、tif格式等,也可以pdf格式,本发明对图像的格式不作限定。
由于本发明的图像特征提取方法需要提取图像的全局特征(如电子签名中笔画之间的连续性特征),对于这种全局特征的提取,一般采用序列到序列(sequence tosequence)的注意力机制模型,如Transformer Encoder模型。Encoder(编码器)是一种能够通过无监督学习,学习到输入数据高效表示的神经网络结构,输入数据的高效表示称为编码(Codings),其维度一般远小于输入数据,使得编码器可以用于图像降维处理
但是,在实际应用中,sequence to sequence模型大部分是用来解决自然语言处理问题,要求输入的信息是一串序列,而包括文本内容的文本图像(不管是彩色模式图像还是灰度模式图像)是用矩阵表示的,因此在使用序列到序列的模型进行图像处理时,需要把图像对应的矩阵转换成序列表示,即需要对文本图像进行分块处理,得到一系列的图像块,基于图像块,将图像的矩阵表示转换成序列表示。
请参照图3a所示,为本发明一示例性的实施例提供的图像分块的一个可选的示意图,首先将目标图像划分成一系列连续的尺寸相同的图像块,并按从左至右,从上至下的顺序对图像块进行位置编码,以获得所述图像块的位置特征。然后,将所述多个图像块拼接拉直后,与所述位置特征融合,以获得所述目标图像的初始特征。
例如,给定一个尺寸为X∈RH×W×C的目标图像,首先将该目标图像拆分为N个P×P的正方形图像块(patch),并将这些图像块拼接拉直为图像块序列,即每个图像块可以表示为XP∈N×(P2·C) 。其中,H、W分别为目标图像的高度和宽度,即H×W为目标图像的分辨率;P×P为每个图像块的分辨率;C为图像的通道数,RGB模式的图像C等于3,灰度模式的图像C等于1;N为图像块的数目。
一示例性的实施例中,请参照图3a所示,以电子签名为例,通过用户终端获取电子签名图像,并将电子签名图像设置成分辨率为32×32的RGB图像,此时图像的通道数为3。将电子签名图像划分成16个(4行×4列)分辨率为2×2的图像块,每个图像块展平成维度为12(2×2×3)的向量。因此,整个电子签名图像切块后的特征向量大小为12×16(16个图像块,每个图像块维度为12)。
分别对16图像块按照从左到右、从上到下的顺序进行位置编码,每个编码采用12维的向量表示,得到一个16×12大小的位置特征。将16个图像块按从左到右的顺序进行拼接拉直,得到一个大小为12×16图像序列特征,将该图像序列特征与位置特征融合,即可得到大小为12行×16列的初始特征。其中,该初始特征的高度为12(即12行),宽度为16(即16列);每一行均代表电子签名图像的一部分全局特征(相当于每一行都是16个图像块中部分特征的串联),每一列均代表电子签名图像的部分区域的局部特征(相当于一个图像块的特征)。
S202:基于预设规则对所述初始特征进行聚合,以获得聚合特征。
一示例性的实施例中,可通过Transformer Encoder的特征聚合层,按预设规则对步骤S101中提取的初始特征进行聚合,以获得聚合特征。
具体地,可以按行聚合所述初始特征的行特征,以获得聚合特征;也可以按列聚合所述初始特征的列特征,以获得聚合特征。通过特征的聚合,可以缩减特征的大小,以降低后续计算注意力时的计算量。
例如,以大小为12行×16列的初始特征为例,可以初始特征的每个特征向量值的大小映射到(0,1)之间,然后将初始特征的特征向量值按行累加求和,以获得一个大小为12行×1列的聚合特征,实现16个图像块局部特征的聚合。
当然,在其他实施例中,也可以按列进行特征聚合,聚合程度可以根据实际需要进行设定。例如,对于12行×16列的初始特征,可以聚合成大小为12行×2列或12行×4列的聚合特征,也可以聚合成大小为1行×16列或2行×16列的聚合特征。
S203:将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征。
一示例性的实施例中,可通过Transformer Encoder的多头注意力层,将所述聚合特征划分为多组后,分别计算所述聚合特征划分成的各组的注意力特征;将各组的所述注意力特征拉直后进行加和,以获得融合注意力特征。
注意力机制的本质是从大量信息中筛选出高价值信息的手段,在大量信息中,不同信息对于结果的重要性是不同的,这种重要性可以通过赋予不同大小的注意力权重来体现,换言之,注意力机制可以理解成对多个输入进行合成时分配权重的一种机制。
多头注意力机制包括多个具有不同网络参数的注意力子网络,每个注意力子网络中的网络参数用于从不同角度表征图像特征。将聚合特征划分为多组后,分别输入到每个注意力子网络,并将所有注意力子网络的输出进行拼接,可以得到与目标图像对应的特征向量。将聚合特征分组后,各组分别输入到各个注意力子网络中计算注意力,相较于直接将整个聚合特征输入各个各意力子网络中计算注意力,能够大幅降低计算量,提高计算效率。
例如,请参照图3b所示,以大小为12行×1列的聚合特征的为例,可以以每3行为一组,将聚合特征划分为四组。对于四组X(X1、X2、X3、X4),均随机初始化3个1行×3列的矩阵WQ、WK、WV,并分别计算X×WQ、X×WK、X×WV,得到Q、K、V。根据公式计算自注意力,得到的向量拉直(Flatten)为Z,大小为12行×1列。
对于四组X(X1、X2、X3、X4),可计算得到四组自注意力结果Z1、Z2、Z3、Z4,将四组自注意力结果相加,即得到大小为12行×1列的融合注意力特征Zsum。
S204:基于所述融合注意力特征,确定所述目标图像的深层特征。
一示例性的实施例中,可通过Transformer Encoder的尺寸还原层,将所述融合注意力特征的尺寸还原为与所述初始特征一致。并可通过Transformer Encoder的特征降维层,对还原后的所述融合注意力特征进行降维,以确定所述目标图像的深层特征。
例如,以大小为12行×1列的融合注意力特征为例,尺寸还原层可设置为1行×16列的向量,将融合注意力特征与尺寸还原层进行矩阵运算,即可得到一个和图3a所示目标图像的初始特征大小(12行×16列)相同的矩阵。通过特征降维层,可对还原后的融合注意力特征进行降维,如降维至大小为6行×8列的矩阵,以获得目标图像的深层特征。
在本实施例中,可设置多个级联的Encoder, 前一Encoder的输出作为后一Encoder的输入,从而可实现图像特征的逐级降维,以模拟CNN中的Pooling(池化层),通过模块的不断加深和特征的抽象,实现高层语义特征的提取。
综上所述,本发明提供的图像特征提取方法,通过对目标图像中提取的初始特征,进行特征聚合并进行分组后,计算各组的注意力特征,得到融合注意力特征,以确定目标图像的深层特征;该方法可以在有效提取局部和全局特征的同时,大幅降低模型复杂度和计算量。
请参照图4所示,本发明一实施方式中提供了一种图像识别模型的训练方法,其对级联的编码器(Encoder)和解码器(Decoder)执行多轮训练,并将训练完成后的编码器确定为所述图像识别模型。其中,对级联的编码器和解码器执行多轮训练包括以下步骤:
S401:基于如前所述的图像特征提取方法提取样本图像的深层特征。
样本图像的深层特征的具体的提取方式,可参照前述内容,在此不再赘述。
S402:基于所述深层特征确定所述样本图像的浅层特征。
在本实施例中,可基于Transformer编码器提取样本图像的深层特征后,基于Transformer解码器将样本图像的深层特征还原成浅层特征。其中,编码器类似于CNN中的Pooling(池化层),对样本图像进行下采样,实现深层次的语义表达;解码器类似于CNN中的Upsampling(上采样层),实现深层次的语义特征逐渐还原为图像浅层特征。
S403:基于所述样本图像的初始特征和浅层特征,进行相似度学习,其中,所述初始特征包括图像特征和/或位置特征。
样本图像的初始特征的提取方式,可参考前述内容,在此不再赘述。
在本实施例中,基于所述样本图像的初始特征和浅层特征,进行相似度学习,以不断的优选模型参数。对于相似度学习方法在此不作特别限定,例如,可以基于余弦相似度设计相似度学习方法,也可以基于曼哈顿距离设计相似度学习方法。
请参照图5所示,本发明一实施方式中提供了图像识别方法,其包括以下步骤:
S501:基于如前所述的图像识别模型的训练方法训练得到的图像识别模型,提取第一图像和第二图像的深层特征。
具体地,可参照图2所示的图像特征提取方法中的步骤S101,提取第一图像和第二图像的初始特征,将该初始特征作为图像识别模型的输入,基于图像识别模型提取第一图像和第二图像的深层特征。
S502:基于所述第一图像和所述第二图像的深层特征,确定所述第一图像和所述第二图像的相似度。
可基于第一图像和所述第二图像的深层特征,通过相似度算法(如余弦相似度算法、曼哈顿距离相似度算法、欧式距离相似度算法等)计算得到第一图像和第二图像的相似度,以确定第一图像和第二图像是否为相似图像。
一示例性的应用场景中,前述图像识别方法可应用于签名鉴真,通过前述图像识别模型提取用户(如医生、受试者、受试者家属、CRA等)的第一次签名图像的深层特征,存储该第一次签名图像的深层特征,作为用户的签名图像标准特征。用户第二次签名时,再次通过述图像识别模型提取用户第二次的签名图像的深层特征,将第二次签名图像的深层特征与用户的签名图像标准特征进行相似度对比,当相似度大于预设阈值(可以根据实际情况进行设定,例如可以设定为90%)时,则认为第二次签名为同一用户签名;否则,则可能存在假冒签名的风险。
请参照图6所示,基于与图2所示图像特征提取方法相同的发明构思,本发明一实施方式中提供了一种图像特征提取装置600,其包括预处理模块601、聚合模块602、注意力模块603和确定模块604。
预处理模块601用于从目标图像中提取初始特征,其中,所述初始特征的大小为M行×N列,所述初始特征的行特征和列特征其中之一包括目标图像部分区域的局部特征、其中另一包括目标图像的部分全局特征。聚合模块602用于基于预设规则对所述初始特征进行聚合,以获得聚合特征。注意力模块603用于将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征。确定模块604用于基于所述融合注意力特征,确定所述目标图像的深层特征。
具体地,预处理模块601可用于将目标图像划分为多个图像块并分别进行编码,以获得所述图像块的位置特征;并将所述多个图像块拼接拉直后,与所述位置特征融合,以获得所述目标图像的初始特征。
具体地,聚合模块602可用于按行聚合所述初始特征的行特征,以获得聚合特征;或按列聚合所述初始特征的列特征,以获得聚合特征。
具体地,注意力模块603可用于分别计算所述聚合特征划分成的各组的注意力特征;并将各组的所述注意力特征拉直后进行加和,以获得融合注意力特征。
具体地,确定模块604可用于将所述融合注意力特征的尺寸还原为与所述初始特征一致;并对还原后的所述融合注意力特征进行降维,以确定所述目标图像的深层特征。
请参照图7所示,基于与图4所示图像识别模型的训练方法相同的发明构思,本发明一实施方式中提供了一种图像识别模型的训练装置700,其包括提取模块701、确定模块702和学习模块704。
提取模块701用于基于如前所述的图像特征提取方法,提取目标图像的深层特征。确定模块702基于所述深层特征确定所述样本图像的浅层特征。学习模块703用于基于所述样本图像的初始特征和浅层特征,进行相似度学习,其中,所述初始特征包括图像特征和/或位置特征。
请参照图8所示,基于与图5所示图像识别方法相同的发明构思,本发明一实施方式中提供了一种图像识别装置800,其包括提取模块801和确定模块802。
提取模块801用于基于如前所述的图像识别模型的训练方法训练得到的图像识别模型,提取第一图像和第二图像的深层特征。确定模块802用于基于所述第一图像和所述第二图像的深层特征,确定所述第一图像和所述第二图像的相似度。
请参照图9所示,本发明实施例还提供了一种电子设备900,该电子设备900包括至少一个处理器901、存储器902(例如非易失性存储器)、内存903和通信接口904,并且至少一个处理器901、存储器902、内存903和通信接口904经由总线905连接在一起。至少一个处理器901用于调用在存储器902中存储或编码的至少一个程序指令,以使得至少一个处理器901执行本说明书的各个实施方式中所描述的方法的各种操作和功能。
在本说明书的实施例中,电子设备900可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
本发明实施例还提供了一种计算机可读介质,该计算机可读介质上承载有计算机执行指令,所述计算机执行指令被处理器执行时,可用于实现本说明书的各个实施例中描述的方法的各种操作和功能。
本发明中的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (12)
1.一种图像特征提取方法,其特征在于,包括:
从目标图像中提取初始特征,其中,所述初始特征的大小为M行×N列,所述初始特征的行特征和列特征其中之一包括目标图像部分区域的局部特征、其中另一包括目标图像的部分全局特征;
基于预设规则对所述初始特征进行聚合,以获得聚合特征;
将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征;
基于所述融合注意力特征,确定所述目标图像的深层特征。
2.如权利要求1所述的图像特征提取方法,其特征在于,从目标图像中提取初始特征,具体包括:
将目标图像划分为多个图像块并分别进行编码,以获得所述图像块的位置特征;
将所述多个图像块拼接拉直后,与所述位置特征融合,以获得所述目标图像的初始特征。
3.如权利要求1所述的图像特征提取方法,其特征在于,基于设定规则对所述初始特征进行聚合,以获得聚合特征,具体包括:
按行聚合所述初始特征的行特征,以获得聚合特征;或,
按列聚合所述初始特征的列特征,以获得聚合特征。
4.如权利要求1所述的图像特征提取方法,其特征在于,将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征,具体包括:
分别计算所述聚合特征划分成的各组的注意力特征;
将各组的所述注意力特征拉直后进行加和,以获得融合注意力特征。
5.如权利要求1所述的图像特征提取方法,其特征在于,基于所述融合注意力特征,确定所述目标图像的深层特征,具体包括:
将所述融合注意力特征的尺寸还原为与所述初始特征一致;
对还原后的所述融合注意力特征进行降维,以确定所述目标图像的深层特征。
6.一种图像识别模型的训练方法,其特征在于,所述方法包括:
对级联的编码器和解码器执行多轮训练,并将训练完成后的编码器确定为所述图像识别模型;其中,对级联的编码器和解码器执行多轮训练包括:
基于如权利要求1至5任意一项所述的图像特征提取方法提取样本图像的深层特征;
基于所述深层特征确定所述样本图像的浅层特征;
基于所述样本图像的初始特征和浅层特征,进行相似度学习,其中,所述初始特征包括图像特征和/或位置特征。
7.一种图像识别方法,其特征在于,包括:
基于如权利要求6所述的方法训练得到的图像识别模型,提取第一图像和第二图像的深层特征;
基于所述第一图像和所述第二图像的深层特征,确定所述第一图像和所述第二图像的相似度。
8.一种图像特征提取装置,其特征在于,包括:
预处理模块,用于从目标图像中提取初始特征,其中,所述初始特征的大小为M行*N列,所述初始特征的行特征和列特征其中之一包括目标图像部分区域的局部特征、其中另一包括目标图像的部分全局特征;
聚合模块,用于基于预设规则对所述初始特征进行聚合,以获得聚合特征;
注意力模块,用于将所述聚合特征划分为多组,并基于各组的注意力特征确定融合注意力特征;
确定模块,用于基于所述融合注意力特征,确定所述目标图像的深层特征。
9.一种图像识别模型的训练装置,其特征在于,包括:
提取模块,用于基于如权利要求1~5中任一项所述的图像特征提取方法,提取目标图像的深层特征;
确定模块,基于所述深层特征确定所述样本图像的浅层特征;
学习模块,用于基于所述样本图像的初始特征和浅层特征,进行相似度学习,其中,所述初始特征包括图像特征和/或位置特征。
10.一种图像识别装置,其特征在于,包括:
提取模块,用于基于如权利要求6所述的方法训练得到的图像识别模型,提取第一图像和第二图像的深层特征;
确定模块,用于基于所述第一图像和所述第二图像的深层特征,确定所述第一图像和所述第二图像的相似度。
11.一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
12.一种计算机可读介质,其特征在于,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211638006.2A CN115631330B (zh) | 2022-12-20 | 2022-12-20 | 特征提取方法、模型训练方法、图像识别方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211638006.2A CN115631330B (zh) | 2022-12-20 | 2022-12-20 | 特征提取方法、模型训练方法、图像识别方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631330A true CN115631330A (zh) | 2023-01-20 |
CN115631330B CN115631330B (zh) | 2023-03-10 |
Family
ID=84910535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211638006.2A Active CN115631330B (zh) | 2022-12-20 | 2022-12-20 | 特征提取方法、模型训练方法、图像识别方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631330B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936256A (zh) * | 2021-10-15 | 2022-01-14 | 北京百度网讯科技有限公司 | 一种图像目标检测方法、装置、设备以及存储介质 |
CN113989593A (zh) * | 2021-10-29 | 2022-01-28 | 北京百度网讯科技有限公司 | 图像处理方法、检索方法、训练方法、装置、设备及介质 |
CN114419375A (zh) * | 2022-01-20 | 2022-04-29 | 北京百度网讯科技有限公司 | 图像分类方法、训练方法、装置、电子设备以及存储介质 |
CN114519877A (zh) * | 2021-12-30 | 2022-05-20 | 深圳云天励飞技术股份有限公司 | 人脸识别方法、人脸识别装置、计算机设备及存储介质 |
WO2022111069A1 (zh) * | 2020-11-26 | 2022-06-02 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN114581462A (zh) * | 2022-03-01 | 2022-06-03 | 京东科技信息技术有限公司 | 一种图像分割方法、装置、设备和存储介质 |
CN114648641A (zh) * | 2022-03-22 | 2022-06-21 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN114663670A (zh) * | 2022-03-25 | 2022-06-24 | 腾讯科技(上海)有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN115311719A (zh) * | 2022-08-11 | 2022-11-08 | 厦门市美亚柏科信息股份有限公司 | 一种基于多阶注意力机制融合的人脸属性识别算法及系统 |
-
2022
- 2022-12-20 CN CN202211638006.2A patent/CN115631330B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022111069A1 (zh) * | 2020-11-26 | 2022-06-02 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN113936256A (zh) * | 2021-10-15 | 2022-01-14 | 北京百度网讯科技有限公司 | 一种图像目标检测方法、装置、设备以及存储介质 |
CN113989593A (zh) * | 2021-10-29 | 2022-01-28 | 北京百度网讯科技有限公司 | 图像处理方法、检索方法、训练方法、装置、设备及介质 |
CN114519877A (zh) * | 2021-12-30 | 2022-05-20 | 深圳云天励飞技术股份有限公司 | 人脸识别方法、人脸识别装置、计算机设备及存储介质 |
CN114419375A (zh) * | 2022-01-20 | 2022-04-29 | 北京百度网讯科技有限公司 | 图像分类方法、训练方法、装置、电子设备以及存储介质 |
CN114581462A (zh) * | 2022-03-01 | 2022-06-03 | 京东科技信息技术有限公司 | 一种图像分割方法、装置、设备和存储介质 |
CN114648641A (zh) * | 2022-03-22 | 2022-06-21 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN114663670A (zh) * | 2022-03-25 | 2022-06-24 | 腾讯科技(上海)有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN115311719A (zh) * | 2022-08-11 | 2022-11-08 | 厦门市美亚柏科信息股份有限公司 | 一种基于多阶注意力机制融合的人脸属性识别算法及系统 |
Non-Patent Citations (2)
Title |
---|
ZHENG-RUI HUANG: "Fusion of Complex Networks-Based Global and Local Features for Feature Representation" * |
李宗民;徐希云;刘玉杰;李华;: "条件随机场像素建模与深度特征融合的目标区域分割算法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115631330B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902245B2 (en) | Method and apparatus for facial recognition | |
CN110020620B (zh) | 一种大姿态下的人脸识别方法、装置及设备 | |
CN111738244B (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
WO2022166258A1 (zh) | 行为识别方法、装置、终端设备及计算机可读存储介质 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
EP4390725A1 (en) | Video retrieval method and apparatus, device, and storage medium | |
CN115631330B (zh) | 特征提取方法、模型训练方法、图像识别方法及应用 | |
CN116978011B (zh) | 一种用于智能目标识别的图像语义通信方法及系统 | |
Naik et al. | Video classification using 3D convolutional neural network | |
CN108090117B (zh) | 一种图像检索方法及装置,电子设备 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN114463805B (zh) | 深度伪造检测方法、装置、存储介质及计算机设备 | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN115131634A (zh) | 图像识别方法、装置、设备、存储介质及计算机程序产品 | |
US9311523B1 (en) | Method and apparatus for supporting object recognition | |
CN112651399A (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN110490876B (zh) | 一种基于轻量级神经网络的图像分割方法 | |
Fu et al. | A pixel pair–based encoding pattern for stereo matching via an adaptively weighted cost | |
CN111582284A (zh) | 用于图像识别的隐私保护方法、装置和电子设备 | |
CN116778180A (zh) | 一种基于多级特征和上下文信息融合的rgb-d显著性目标检测方法 | |
CN116229584A (zh) | 一种人工智能领域的文本分割识别方法、系统、设备及介质 | |
CN113011132B (zh) | 竖排文字识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |