CN115082696A - 图像处理方法和模型训练方法、电子设备及存储介质 - Google Patents

图像处理方法和模型训练方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115082696A
CN115082696A CN202210646458.9A CN202210646458A CN115082696A CN 115082696 A CN115082696 A CN 115082696A CN 202210646458 A CN202210646458 A CN 202210646458A CN 115082696 A CN115082696 A CN 115082696A
Authority
CN
China
Prior art keywords
feature
meta
matrix
image
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210646458.9A
Other languages
English (en)
Inventor
万超群
沈旭
黄建强
华先胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210646458.9A priority Critical patent/CN115082696A/zh
Publication of CN115082696A publication Critical patent/CN115082696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种图像处理方法和模型训练方法、电子设备及存储介质。在本实施例中,神经网络模型中增加了具有元特征学习能力的元特征表达模块,用已知的元特征重新认识未知特征,提升神经网络模型对未知场景的图像数据的判别能力,减少神经网络模型应用到新的应用场景中出现无法使用或模型性能剧烈下降等问题,进而能够有效增强神经网络模型对未知场景的鲁棒性或稳定性,增强神经网络模型的领域泛化能力,更加准确地对未学习过的应用场景的图像数据进行图像识别,表现出较好的模型性能。

Description

图像处理方法和模型训练方法、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像处理方法和模型训练方法、电子设备及存储介质。
背景技术
在图像处理领域,往往采用训练好的卷积神经网络(Convolutional NeuralNetwork,简称CNN)模型提取图像特征,并基于图像特征进行图像识别。在卷积神经网络模型的训练阶段,准备来源于不同应用场景的大规模的图像数据,并基于大规模的图像数据进行模型训练,得到卷积神经网络模型。然而,这样训练出的卷积神经网络模型的领域泛化(Domain Generalization,DG)能力较差,难以准确地对未学习过的应用场景的图像数据进行图像识别,表现出较差的模型性能。
发明内容
本申请的多个方面提供一种图像处理方法和模型训练方法、电子设备及存储介质,用以提高有效增强神经网络模型对未知场景的鲁棒性或稳定性,增强神经网络模型的领域泛化能力。
本申请实施例提供一种图像处理方法,包括:利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取,至少一个特征提取网络中至少包括第一特征提取网络,第一特征提取网络包括依次连接的元特征表达模块和特征提取模块,任一个特征提取网络输出的特征图作为其下一个特征提取网络的输入图像,第一个特征提取网络的输入图像为待处理图像;在使用第一特征提取网络进行特征提取时,将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像,以及将元特征表达图像输入至特征提取模块进行特征提取,得到由第一特征提取网络输出的特征图;利用神经网络模型中的分类网络对至少一个特征提取网络输出的最终特征图进行分类处理,得到待处理图像对应的分类结果。
本申请实施例还提供一种模型生成方法,包括:获取多个样本图像;将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;利用神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数。
本申请实施例还提供一种电子设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器耦合至存储器,用于执行计算机程序以用于执行图像处理方法和模型训练方法中的步骤。
本申请实施例还提供一种存储有计算机程序的计算机存储介质,当计算机程序被处理器执行时,致使处理器能够实现图像处理方法和模型训练方法中的步骤。
在本实施例中,神经网络模型的一个或多个特征提取网络除了包括特征提取模块还包括元特征表达模块。元特征表达模块具有元特征学习能力,能够基于元特征对特征提取网络的输入图像进行重新表达。元特征表达模块输出的基于元特征进行重新表达的输入图像输入至特征提取模块进行特征提取,得到输入图像对应的特征图。由于增加了具有元特征学习能力的元特征表达模块,用已知的元特征重新认识未知特征,提升神经网络模型对未知场景的图像数据的判别能力,减少神经网络模型应用到新的应用场景中出现无法使用或模型性能剧烈下降等问题,进而能够有效增强神经网络模型对未知场景的鲁棒性或稳定性,增强神经网络模型的领域泛化能力,更加准确地对未学习过的应用场景的图像数据进行图像识别,表现出较好的模型性能。另外,极大地减少了数据标注和模型优化所耗费大量的人力、物力和时间成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种神经网络模型的结构示意图;
图2为本申请实施例提供的元特征表达模块的模型原理图;
图3为本申请实施例提供的一种模型生成方法的流程图;
图4为本申请实施例提供的一种图像处理方法的流程图;
图5为本申请实施例提供的一种元特征表达模块的结构示意图;
图6为本申请实施例提供的一种图像处理装置的结构示意图;
图7为本申请实施例提供的一种模型生成装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实际应用中,卷积神经网络模型在未知场景上的性能稳定性是一个痛点问题。训练好的卷积神经网络模型应用到未知场景时,对于未学习过的未知场景的图像数据往往表现出极大的不适应,领域泛化(Domain Generalization,DG)能力较差,难以准确地对未学习过的应用场景的图像数据进行图像识别,所呈现的模型性能大幅下降。当前解决这类问题的方法通常需要根据未知场景的图像数据进行数据标注和模型优化,以达到卷积神经网络模型可用的程度。但是,数据标注和模型优化耗费大量的人力、物力和时间成本。
为此,本申请实施例提供一种图像处理方法和模型训练方法、电子设备及存储介质。在本实施例中,神经网络模型的一个或多个特征提取网络除了包括特征提取模块还包括元特征表达模块。元特征表达模块具有元特征学习能力,能够基于元特征对特征提取网络的输入图像进行重新表达。元特征表达模块输出的基于元特征进行重新表达的输入图像输入至特征提取模块进行特征提取,得到输入图像对应的特征图。由于增加了具有元特征学习能力的元特征表达模块,用已知的元特征重新认识未知特征,提升神经网络模型对未知场景的图像数据的判别能力,减少神经网络模型应用到新的应用场景中出现无法使用或模型性能剧烈下降等问题,进而能够有效增强神经网络模型对未知场景的鲁棒性或稳定性,增强神经网络模型的领域泛化能力,更加准确地对未学习过的应用场景的图像数据进行图像识别,表现出较好的模型性能。另外,极大地减少了数据标注和模型优化所耗费大量的人力、物力和时间成本。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种神经网络模型的结构示意图。参见图1,神经网络模型可以包括至少一个特征提取网络和分类网络。至少一个特征提取网络对输入待处理图像进行特征提取,输出待处理图像的最终特征图;分类网络基于最终特征图对待处理图像进行分类处理,输出待处理图像的分类结果。
在本实施例中,神经网络模型可以是卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM),但并不限于此。特征提取网络或分类网络的网络结构例如包括但不限于:DarkNet(匿名网络)、ResNet(残差网络)和AlexNet。其中,Alexnet共有8层神经网络层,前5层为卷积层,后3层为全连接层。进一步可选的,为了提高神经网络模型的模型性能,分类网络可以是多层感知机(MLP,Multilayer Perceptron)。
在本实施例中,对特征提取网络的数量不做限制,例如,可以是一个或多个。在至少一个特征提取网络中,至少存在一个或多个包括元特征表达模块和特征提取模块的特征提取网络。当然,至少一个特征提取网络中也可以存在一个或多个包括特征提取模块的特征提取网络,也可以不存在一个或多个包括特征提取模块的特征提取网络,对此不做限制。
在本实施例中,特征提取模块是具有特征提取功能的神经网络结构,特征提取模块的模型原理可以参见相关技术中具有特征提取功能的神经网络结构的模型原理,在此不再赘述。特征提取模块的网络结构例如包括但不限于:DarkNet(匿名网络)、ResNet(残差网络)和AlexNet。
在本实施例中,元特征表达模块具有基于元特征对输入图像进行重新表达功能的神经网络结构;元特征表达模块的模型原理参见后文介绍。元特征表达模块的网络结构例如包括但不限于:DarkNet(匿名网络)、ResNet(残差网络)和AlexNet。
在本实施例中,多个元特征进行线性组合可以得到一个特征块,也即元特征可以认为是特征块的一个组成单元,元特征是粒度更小的特征块。参见图2,将对输入图像进行特征拆分(也即分块处理)得到的多个特征块称作为原始特征块,将基于元特征对原始特征块进行重新表达的特征块称作为新特征块,新特征块是由多个与原始特征块匹配的元特征进行线性组合得到的特征块。
在神经网络模型的训练阶段,采用滑动窗口对样本图像进行分块处理,得到多个样本图像块;样本图像块经过至少一个特征提取网络产生的一个或多个对应的特征图;采用滑动窗口对样本图像块和样本图像块对应的特征图进行分块处理,得到多个更细粒度的特征块,将更细粒度的特征块作为一个元特征。应理解,在海量的样本图像的情况下,可以得到海量的元特征,海量的元特征组成元特征集合。
进一步可选的,还可以在神经网络模型训练结束后,将海量的样本图像输入至神经网络模型进行处理。采用滑动窗口对在模型处理过程中产生的样本图像块以及样本图像块对应的特征图进行分块处理,得到海量的元特征,海量的元特征组成元特征集合。其中,样本图像块是对样本图像进行分块处理得到的图像块。也就是说,在神经网络模型的模型训练阶段,对样本图像块或者样本图像块对应的特征图进行分块处理,得到多个元特征。
在本实施例中,神经网络模型可以是任意的具有特定识别功能的模型,例如包括但不限于:车辆检测模型、车道线检测模型、行人行为识别模型、脸部识别模型和姿态识别模型。神经网络模型的训练阶段,首先,收集大量的图像数据,图像数据覆盖的应用场景越多越好。接着,利用大量的图像数据以实现特定识别功能为目标进行模型训练,得到神经网络模型。
为此,从模型训练角度,本申请实施例提供一种模型生成方法,图3为本申请实施例提供的一种模型生成方法的流程图。参见图3,该方法可以包括以下步骤:
301、获取多个样本图像。
302、将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图。
303、利用神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果。
304、根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数。
为了便于理解和描述,将训练阶段准备的图像数据称作为样本图像。具体而言,神经网络模型的训练方式可以是:获取多个样本图像;将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;利用神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数。关于特征提取原理可以参见后文对模型应用阶段的特征提取原理的介绍。
在本实施例中,可以以分类损失函数是否满足神经网络模型收敛条件进行模型训练。分类损失函数是指一种衡量神经网络模型输出的预测分类结果和样本图像标注的真实分类结果的不一致程度的损失函数。其中,分类损失函数例如包括但不限于:log对数损失函数、L1距离损失(L1 Loss)损失函数、交叉熵损失函数(Cross-entropy loss function)、用于解决数据不平衡问题的Focal loss损失函数。于是,进一步可选的,根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数包括:根据多个样本图像各自的真实分类结果和预测分类结果,计算多个样本图像各自的分类损失函数;根据多个样本图像各自分类损失函数,调整神经网络模型的网络参数。
值得注意的是,在根据多个样本图像各自的分类损失函数,调整神经网络模型的网络参数时,可以将多个样本图像各自的分类损失函数进行求和,得到分类损失函数总和,利用分类损失函数总和调整神经网络模型的网络参数。或者,可以将多个样本图像各自的分类损失函数进行加权求和,得到加权分类损失函数,利用加权分类损失函数调整神经网络模型的网络参数。或者,可以将多个样本图像各自的分类损失函数进行均值,得到平均分类损失函数,利用平均分类损失函数调整神经网络模型的网络参数,但并不限于此。
以分类损失函数总和、加权分类损失函数或者平均分类损失函数等各种分类损失函数最小化为目标,迭代模型训练,不断调整神经网络模型的网络参数,直至神经网络模型满足收敛条件。收敛条件根据实际应用需求设置,收敛条件例如为当前模型训练次数达到最大模型训练次数,或者,收敛条件例如为分类损失函数已达到最小值,或者,收敛条件例如为在当前模型训练次数达到最大模型训练次数的情况下,分类损失函数已达到最小值,但并不限于此。
进一步可选的,为了进一步提高模型性能,还可以基于分类损失函数和重构损失函数是否满足神经网络模型收敛条件进行模型训练。其中,重构损失函数是指一种衡量神经网络模型中至少一个特征提取网络输出的最终特征图和样本图像标注的真实特征图的不一致程度的损失函数。重构损失函数例如包括但不限于:log对数损失函数、L1距离损失(L1 Loss)损失函数、交叉熵损失函数(Cross-entropy loss function)、用于解决数据不平衡问题的Focal loss损失函数。
于是,在一可选实现方式中,根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数包括:根据多个样本图像各自的真实特征图和最终特征图,计算多个样本图像各自的重构损失函数;根据多个样本图像各自的真实分类结果和预测分类结果,计算多个样本图像各自的分类损失函数;根据多个样本图像各自的重构损失函数和分类损失函数,调整神经网络模型的网络参数。
其中,真实特征图是样本图像对应的实际特征图像,真实特征图可以包括但不限于图像的颜色特征、纹理特征、形状特征和空间关系特征。
在本实施例中,根据多个样本图像各自的重构损失函数和分类损失函数,调整神经网络模型的网络参数时,可以根据多个样本图像各自的重构损失函数和分类损失函数生成多个样本图像各自的总损失函数,利用多个样本图像各自的总损失函数调整神经网络模型的网络参数。
其中,可以对每个样本图像的重构损失函数和分类损失函数进行求和、加权求和或者求均值,得到每个样本图像的总损失函数。当然,本实施例对总损失函数的获取方式不做限制。
在本实施例中,在利用多个样本图像各自的总损失函数调整神经网络模型的网络参数时,同样地,可以将多个样本图像各自的总损失函数进行求和,得到累加损失函数,利用累加损失函数调整神经网络模型的网络参数;或者,可以将多个样本图像各自的总损失函数进行加权求和,得到加权总损失函数,利用加权总损失函数调整神经网络模型的网络参数;或者,可以将多个样本图像各自的总损失函数进行求均值,得到平均总损失函数,利用平均总损失函数调整神经网络模型的网络参数,但并不限于此。
值得注意的是,以累加损失函数、加权总损失函数以及平均总损失函数等各种总损失函数最小化为目标,进行迭代模型训练,不断调整神经网络模型的网络参数,直至神经网络模型满足收敛条件。收敛条件根据实际应用需求设置,收敛条件例如为当前模型训练次数达到最大模型训练次数,或者,收敛条件例如为总损失函数已达到最小值,或者,收敛条件例如为在当前模型训练次数达到最大模型训练次数的情况下,总损失函数已达到最小值,但并不限于此。
本申请实施例提供的模型生成方法,训练得到的神经网络模型的一个或多个特征提取网络除了包括特征提取模块还包括元特征表达模块。元特征表达模块具有元特征学习能力,能够基于元特征对特征提取网络的输入图像进行重新表达。元特征表达模块输出的基于元特征进行重新表达的输入图像输入至特征提取模块进行特征提取,得到输入图像对应的特征图。由于增加了具有元特征学习能力的元特征表达模块,用已知的元特征重新认识未知特征,提升神经网络模型对未知场景的图像数据的判别能力,减少神经网络模型应用到新的应用场景中出现无法使用或模型性能剧烈下降等问题,进而能够有效增强神经网络模型对未知场景的鲁棒性或稳定性,增强神经网络模型的领域泛化能力,更加准确地对未学习过的应用场景的图像数据进行图像识别,表现出较好的模型性能。
在训练好神经网络模型后,便可利用神经网络模型进行图像处理。为此,从模型应用角度,本申请实施例提供一种基于神经网络模型的图像处理方法。图4为本申请实施例提供的一种图像处理方法的流程图。参见图4,该方法可以包括以下步骤:
401、利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取,至少一个特征提取网络中至少包括第一特征提取网络,第一特征提取网络包括依次连接的元特征表达模块和特征提取模块,任一个特征提取网络输出的特征图作为其下一个特征提取网络的输入图像,第一个特征提取网络的输入图像为待处理图像。
402、在使用第一特征提取网络进行特征提取时,将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像,以及将元特征表达图像输入至特征提取模块进行特征提取,得到由第一特征提取网络输出的特征图。
403、利用神经网络模型中的分类网络对至少一个特征提取网络输出的最终特征图进行分类处理,得到待处理图像对应的分类结果。
在本实施例中,在训练好神经网络模型之后,便可利用训练好的神经网络模型进行图像处理。具体地,获取一帧图像帧或者视频数据作为待处理图像。在不同应用场景中,待处理图像有所不同。例如,在交通领域,待处理图像例如包括但不限于:道路图像、行人图像或者车辆图像。例如,在脸部识别领域,待处理图像为包括脸部的脸部图像。例如,在脸部识别领域,待处理图像为包括脸部的脸部图像。例如,在姿态识别领域,待处理图像为包括对象各种姿态的姿态图像。在获取到待处理图像之后,将待处理图像输入至神经网络模型中,首先由神经网络模型中至少一个特征提取网络对待处理图像进行特征提取,得到待处理图像对应的最终特征图;接着,利用神经网络模型中的分类网络对最终特征图进行分类处理,得到待处理图像对应的分类结果。
在本实施例中,为了便于理解和区分,针对包括依次连接的元特征表达模块和特征提取模块的特征提取网络称作为第一特征提取网络。若至少一个特征提取网络除了包括第一特征提取网络,还包括仅包含特征提取模块的特征提取网络,则将仅包含特征提取模块的特征提取网络称作为第二特征提取网络。
在待处理图像输入至少一个特征提取网络之后,依次经过各个特征提取网络进行特征提取,任一个特征提取网络输出的特征图作为其下一个特征提取网络的输入图像,第一个特征提取网络的输入图像为待处理图像。在使用第一特征提取网络进行特征提取时,将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像,以及将元特征表达图像输入至特征提取模块进行特征提取,得到由第一特征提取网络输出的特征图。在使用第二特征提取网络进行特征提取时,将输入图像输入至特征提取模块进行特征提取,得到由第二特征提取网络输出的特征图。
在本实施例中,元特征表达模块具有基于元特征对输入图像进行重新表达的功能。具体而言,元特征表达模块从海量的元特征中搜索与输入图像匹配的多个元特征,并将重组多个元特征得到的新的特征图作为对输入图像进行重新表达的元特征表达图像。可以理解的是,元特征表达图像用已知的元特征表达输入图像。在一可选实现方式中,参见图5,元特征表达模块可以包括:特征分块单元、特征搜索单元、特征重组单元和特征拼接单元等神经网络层,特征分块单元用于基于滑动窗口对输入图像进行分块处理,分块处理能够增强特征的区分度,并提升计算效率;特征搜索单元用于从海量的元特征中搜索与输入图像中每个原始特征块匹配的多个元特征。例如,搜索与原始特征块的语义匹配的元特征;特征重组单元用于对多个元特征进行重组。特征拼接单元用于进行特征拼接。于是,将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像的实现过程包括:通过特征分块单元对输入图像进行分块处理,得到多个原始特征块;通过特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征;通过特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块;通过特征拼接单元将各个新特征块进行拼接,得到基于元特征对输入图像进行重新表达的元特征表达图像。
参见图2,输入图像经过特征拆分(也即分块处理),得到16个原始特征块;针对每个原始特征块,经过特征搜索从元特征集合获取匹配的多个元特征。例如,针对16个原始特征块组成的阵列中第3行第2列对应的某个原始特征块,从元特征集合中搜索出元特征2、元特征3、元特征9以及元特征11,作为与原始特征块的语义最匹配的元特征。在特征重组阶段,将元特征2、元特征3、元特征9以及元特征11进行线性组合,也即对元特征2、元特征3、元特征9以及元特征11进行求和,其中,元特征2在求和时,赋予-0.3的系数,元特征3在求和时,赋予0.5的系数,元特征9在求和时,赋予-1.2的系数,元特征11在求和时,赋予1的系数。也即,将元特征2与其系数-0.3的乘积、元特征3与其系数0.5的乘积、元特征9与其系数-1.2的乘积、元特征11与其系数11的乘积的进行累加,得到第3行第2列对应的某个原始特征块的新特征块。各个新特征块进行拼接,即得到输入图像对应的元特征表达图像。
在本实施例中,特征搜索单元在从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征时,可以计算原始特征块与元特征集合中各元特征之间的语义相似度。在图像领域,语义指的是图像的内容,语义相似度即反映原始特征块与元特征之间内容相似度。将语义相似度最大的至少一个元特征作为与原始特征块匹配的至少一个目标元特征。
进一步可选的,为了更加准确找出与原始特征块匹配的至少一个目标元特征,通过特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征的实施过程是:通过特征搜索单元根据元特征集合中的各个元特征,生成第一特征矩阵;将系统矩阵与第一特征矩阵进行相乘,得到第二特征矩阵,系统矩阵是待求解目标函数的自变量;
根据每个原始特征块对应的第三特征矩阵和第二特征矩阵,构建目标函数,并求解使目标函数的值最小化的目标系统矩阵;根据目标系统矩阵,从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征。其中,第三特征矩阵是指原始特征块的图像特征组成的特征矩阵。
在本实施例中,对根据第三特征矩阵和第二特征矩阵,构建目标函数的具体实现方式不作限制。例如,将第三特征矩阵和第二特征矩阵进行矩阵加法运算,得到新的特征矩阵;根据新的特征矩阵的L2范数,构建目标函数。又例如,将第三特征矩阵的L2范数与第二特征矩阵的L2范数进行累加,以构建目标函数。又例如,根据每个原始特征块对应的第三特征矩阵和第二特征矩阵,构建目标函数的实现过程是:将第三特征矩阵减去第二特征矩阵,得到第四特征矩阵;根据第四特征矩阵的L2范数,构建目标函数。
为了便于理解,假设第一特征矩阵记为M,其中,M∈Rm×D,其中,m表示M有m个元特征;D表示元特征维度,D=c×h×w,R表示实数集,C表示特征通道数,h表示图像高度,w表示图像宽度;系统矩阵记为Γ,Γ∈R1×m;原始特征块的第三特征矩阵记为p,p∈Rc×h×w。L1范数记为||||1;L2范数记为||||2
构建如公式(1)所示的目标函数:
Figure BDA0003684272460000101
在公式(1)中,ΓM表示第二特征矩阵,||p-ΓM||2表示根据第四特征矩阵的L2范数。
上述目标函数满足如公式(2)所示的约束条件:
s.t.||Γ||1<ε.......(2)
在公式(2)中,||Γ||1表示系统矩阵的L1范数;ε是指按需灵活设置的数值;公式(2)的数学意义是指满足系统矩阵的L1范数小于ε的约束条件。
当然,目标函数的约束条件可以按需灵活设置,例如,满足系统矩阵的L1范数小于ε的约束条件;又例如,满足系统矩阵的L0范数小于ε的约束条件;但并不限于此。
在以Γ为目标函数的自变量的情况下,在满足公式(2)的约束条件下,求解使目标函数最小化的Γ。
在一可选实现方式中,在根据目标系统矩阵,从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征时,可以将目标系统矩阵与第一特征矩阵进行相乘,得到第五特征矩阵;将第五特征矩阵中不为0的元素作为与每个原始特征块匹配的至少一个目标元特征。
在本实施例中,在特征重组阶段,将与每个原始特征块匹配的至少一个目标元特征进行线性组合,以完成特征重组。在一可选实现方式中,通过特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块具体包括:根据与每个原始特征块匹配的至少一个目标元特征生成第六特征矩阵;将第六特征矩阵及其转置矩阵进行相乘,得到第七特征矩阵;依次将第三矩阵、转置矩阵、第七特征矩阵对应的逆矩阵和第七特征矩阵进行矩阵相乘,得到第八特征矩阵;将第八特征矩阵对应的特征图作为基于元特征对每个原始特征块进行重新表达的新特征块。
实际应用中,可以采用广义线性模型(Generalized Linear Model)进行简单高效地线性组合。假设与每个原始特征块匹配的至少一个目标元特征组成的特征矩阵记为Mp
Figure BDA0003684272460000111
Figure BDA0003684272460000112
表示属于符号,也即Mp是M的子集。则广义线性模型可以记为:
p=βMp+r.......(3)
其中,β记为广义线性模型的建模参数;r记为特征表征误差,也代指无关分量,例如无关噪声。
在忽略r的情况下,经过推导,可得:
Figure BDA0003684272460000113
Figure BDA0003684272460000114
在上述公式中,新特征块的特征矩阵记为
Figure BDA0003684272460000115
第六特征矩阵记为Mp;第七特征矩阵记为Mp与其转置矩阵
Figure BDA0003684272460000116
的乘积结果
Figure BDA0003684272460000117
第八特征矩阵记为
Figure BDA0003684272460000118
也即
Figure BDA0003684272460000119
本申请实施例提供的技术方案,神经网络模型的一个或多个特征提取网络除了包括特征提取模块还包括元特征表达模块。元特征表达模块具有元特征学习能力,能够基于元特征对特征提取网络的输入图像进行重新表达。元特征表达模块输出的基于元特征进行重新表达的输入图像输入至特征提取模块进行特征提取,得到输入图像对应的特征图。由于增加了具有元特征学习能力的元特征表达模块,用已知的元特征重新认识未知特征,提升神经网络模型对未知场景的图像数据的判别能力,减少神经网络模型应用到新的应用场景中出现无法使用或模型性能剧烈下降等问题,进而能够有效增强神经网络模型对未知场景的鲁棒性或稳定性,增强神经网络模型的领域泛化能力,更加准确地对未学习过的应用场景的图像数据进行图像识别,表现出较好的模型性能。
为了更好地理解本申请实施例提供的技术方案,下面介绍几种场景实施例。
场景实施例1:
在智慧交通场景下,采集某个城市的道路图像,对采集到的道路图像进行模型训练,得到能够识别异常交通事件的异常交通识别模型。当将该异常交通识别模型应用到其他城市进行异常交通事件识别时,尽管在模型训练阶段未学习其他城市的道路图像,但是,由于异常交通识别模型增加了具有元特征学习能力的元特征表达模块,即便跨城市面对未知城市的道路图像,仍然具有良好的模型性能。
场景实施例2:
在城市管理场景下,采集某个城市的城市图像,对采集到的城市图像进行模型训练,得到能够识别城市新建房屋的识别模型。当将该识别模型应用到其他城市进行新建房屋识别时,尽管在模型训练阶段未学习其他城市的城市图像,但是,由于识别模型增加了具有元特征学习能力的元特征表达模块,面对未知城市的城市图像,仍然具有良好的模型性能。
图6为本申请实施例提供的一种图像处理装置的结构示意图。参见图6,该装置可以包括:
特征提取单元61,用于利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取,至少一个特征提取网络中至少包括第一特征提取网络,第一特征提取网络包括依次连接的元特征表达模块和特征提取模块,任一个特征提取网络输出的特征图作为其下一个特征提取网络的输入图像,第一个特征提取网络的输入图像为待处理图像;在使用第一特征提取网络进行特征提取时,将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像,以及将元特征表达图像输入至特征提取模块进行特征提取,得到由第一特征提取网络输出的特征图;
分类处理单元62,用于利用神经网络模型中的分类网络对至少一个特征提取网络输出的最终特征图进行分类处理,得到待处理图像对应的分类结果。
进一步可选的,至少一个特征提取网络中还包括第二特征提取网络,第二特征提取网络仅包含特征提取模块;特征提取单元61还用于:在使用第二特征提取网络进行特征提取时,将输入图像输入至特征提取模块进行特征提取,得到由第二特征提取网络输出的特征图。
进一步可选的,元特征表达模块包括:特征分块单元、特征搜索单元、特征重组单元和特征拼接单元,特征提取单元61将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像时,具体用于:通过特征分块单元对输入图像进行分块处理,得到多个原始特征块;通过特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征;通过特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块;通过特征拼接单元将各个新特征块进行拼接,得到基于元特征对输入图像进行重新表达的元特征表达图像。
进一步可选的,特征提取单元61通过特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征时,具体用于:通过特征搜索单元根据元特征集合中的各个元特征,生成第一特征矩阵;将系统矩阵与第一特征矩阵进行相乘,得到第二特征矩阵,系统矩阵是待求解目标函数的自变量;根据每个原始特征块对应的第三特征矩阵和第二特征矩阵,构建目标函数,并求解使目标函数的值最小化的目标系统矩阵;根据目标系统矩阵,从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征。
进一步可选的,特征提取单元61根据每个原始特征块对应的第三特征矩阵和第二特征矩阵,构建目标函数时,具体用于:将第三特征矩阵减去第二特征矩阵,得到第四特征矩阵;根据第四特征矩阵的L2范数,构建目标函数。
进一步可选的,特征提取单元61根据目标系统矩阵,从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征时,具体用于:将目标系统矩阵与第一特征矩阵进行相乘,得到第五特征矩阵;将第五特征矩阵中不为0的元素作为与每个原始特征块匹配的至少一个目标元特征。
进一步可选的,特征提取单元61通过特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块时,具体用于:根据与每个原始特征块匹配的至少一个目标元特征生成第六特征矩阵;将第六特征矩阵及其转置矩阵进行相乘,得到第七特征矩阵;依次将第三矩阵、转置矩阵、第七特征矩阵对应的逆矩阵和第七特征矩阵进行矩阵相乘,得到第八特征矩阵;将第八特征矩阵对应的特征图作为基于元特征对每个原始特征块进行重新表达的新特征块。
进一步可选的,上述装置还包括训练单元;训练单元,用于在神经网络模型的模型训练阶段,对样本图像块或者样本图像块对应的特征图进行分块处理,得到多个元特征,其中,样本图像块是对样本图像进行分块处理得到的图像块。
进一步可选的,训练单元具体用于:获取多个样本图像;将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;利用神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数。
进一步可选的,训练单元根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数时,具体用于:根据多个样本图像各自的真实特征图和最终特征图,计算多个样本图像各自的重构损失函数;根据多个样本图像各自的真实分类结果和预测分类结果,计算多个样本图像各自的分类损失函数;根据多个样本图像各自的重构损失函数和分类损失函数,调整神经网络模型的网络参数。
图6的图像处理装置可以执行图4所示实施例的图像处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的图像处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7为本申请实施例提供的一种模型生成装置的结构示意图。参见图7,该装置可以包括:
获取单元71,用于获取多个样本图像;
特征提取单元72,用于将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;
分类处理单元73,用于利用神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;
参数调整单元74,用于根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数。
进一步可选的,参数调整单元74根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数时,具体用于:根据多个样本图像各自的真实特征图和最终特征图,计算多个样本图像各自的重构损失函数;根据多个样本图像各自的真实分类结果和预测分类结果,计算多个样本图像各自的分类损失函数;根据多个样本图像各自的重构损失函数和分类损失函数,调整神经网络模型的网络参数。
进一步可选的,至少一个特征提取网络中至少包括第一特征提取网络,第一特征提取网络包括依次连接的元特征表达模块和特征提取模块。
图7的模型生成装置可以执行图3所示实施例的模型生成方法,其实现原理和技术效果不再赘述。对于上述实施例中的模型生成装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤401至步骤403的执行主体可以为设备A;又比如,步骤401和402的执行主体可以为设备A,步骤403的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如401、402等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示,该电子设备包括:存储器81和处理器82;
存储器81,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器82,与存储器81耦合,用于执行存储器81中的计算机程序,以用于:利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取,至少一个特征提取网络中至少包括第一特征提取网络,第一特征提取网络包括依次连接的元特征表达模块和特征提取模块,任一个特征提取网络输出的特征图作为其下一个特征提取网络的输入图像,第一个特征提取网络的输入图像为待处理图像;在使用第一特征提取网络进行特征提取时,将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像,以及将元特征表达图像输入至特征提取模块进行特征提取,得到由第一特征提取网络输出的特征图;利用神经网络模型中的分类网络对至少一个特征提取网络输出的最终特征图进行分类处理,得到待处理图像对应的分类结果。
进一步可选的,至少一个特征提取网络中还包括第二特征提取网络,第二特征提取网络仅包含特征提取模块;处理器82还用于:在使用第二特征提取网络进行特征提取时,将输入图像输入至特征提取模块进行特征提取,得到由第二特征提取网络输出的特征图。
进一步可选的,元特征表达模块包括:特征分块单元、特征搜索单元、特征重组单元和特征拼接单元,处理器82将输入图像输入至元特征表达模块进行重新表达,得到元特征表达图像时,具体用于:通过特征分块单元对输入图像进行分块处理,得到多个原始特征块;通过特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征;通过特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块;通过特征拼接单元将各个新特征块进行拼接,得到基于元特征对输入图像进行重新表达的元特征表达图像。
进一步可选的,处理器82通过特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征时,具体用于:通过特征搜索单元根据元特征集合中的各个元特征,生成第一特征矩阵;将系统矩阵与第一特征矩阵进行相乘,得到第二特征矩阵,系统矩阵是待求解目标函数的自变量;根据每个原始特征块对应的第三特征矩阵和第二特征矩阵,构建目标函数,并求解使目标函数的值最小化的目标系统矩阵;根据目标系统矩阵,从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征。
进一步可选的,处理器82根据每个原始特征块对应的第三特征矩阵和第二特征矩阵,构建目标函数时,具体用于:将第三特征矩阵减去第二特征矩阵,得到第四特征矩阵;根据第四特征矩阵的L2范数,构建目标函数。
进一步可选的,处理器82根据目标系统矩阵,从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征时,具体用于:将目标系统矩阵与第一特征矩阵进行相乘,得到第五特征矩阵;将第五特征矩阵中不为0的元素作为与每个原始特征块匹配的至少一个目标元特征。
进一步可选的,处理器82通过特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块时,具体用于:根据与每个原始特征块匹配的至少一个目标元特征生成第六特征矩阵;将第六特征矩阵及其转置矩阵进行相乘,得到第七特征矩阵;依次将第三矩阵、转置矩阵、第七特征矩阵对应的逆矩阵和第七特征矩阵进行矩阵相乘,得到第八特征矩阵;将第八特征矩阵对应的特征图作为基于元特征对每个原始特征块进行重新表达的新特征块。
进一步可选的,处理器82还用于在神经网络模型的模型训练阶段,对样本图像块或者样本图像块对应的特征图进行分块处理,得到多个元特征,其中,样本图像块是对样本图像进行分块处理得到的图像块。
进一步可选的,处理器82具体用于:获取多个样本图像;将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;利用神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数。
进一步可选的,处理器82根据多个样本图像各自的预测分类结果,调整神经网络模型的网络参数时,具体用于:根据多个样本图像各自的真实特征图和最终特征图,计算多个样本图像各自的重构损失函数;根据多个样本图像各自的真实分类结果和预测分类结果,计算多个样本图像各自的分类损失函数;根据多个样本图像各自的重构损失函数和分类损失函数,调整神经网络模型的网络参数。
进一步,如图8所示,该电子设备还包括:通信组件83、显示器84、电源组件85、音频组件86等其它组件。图8中仅示意性给出部分组件,并不意味着电子设备只包括图8所示组件。另外,图8中虚线框内的组件为可选组件,而非必选组件,具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图8中虚线框内的组件;若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图8中虚线框内的组件。
关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述,在此不再赘述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种图像处理方法,其特征在于,包括:
利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取,所述至少一个特征提取网络中至少包括第一特征提取网络,所述第一特征提取网络包括依次连接的元特征表达模块和特征提取模块,任一个特征提取网络输出的特征图作为其下一个特征提取网络的输入图像,第一个特征提取网络的输入图像为所述待处理图像;
在使用所述第一特征提取网络进行特征提取时,将输入图像输入至所述元特征表达模块进行重新表达,得到元特征表达图像,以及将所述元特征表达图像输入至所述特征提取模块进行特征提取,得到由所述第一特征提取网络输出的特征图;
利用所述神经网络模型中的分类网络对所述至少一个特征提取网络输出的最终特征图进行分类处理,得到所述待处理图像对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述至少一个特征提取网络中还包括第二特征提取网络,所述第二特征提取网络仅包含特征提取模块;所述方法还包括:
在使用所述第二特征提取网络进行特征提取时,将输入图像输入至所述特征提取模块进行特征提取,得到由所述第二特征提取网络输出的特征图。
3.根据权利要求1所述的方法,其特征在于,所述元特征表达模块包括:特征分块单元、特征搜索单元、特征重组单元和特征拼接单元,将输入图像输入至所述元特征表达模块进行重新表达,得到元特征表达图像,包括:
通过所述特征分块单元对所述输入图像进行分块处理,得到多个原始特征块;
通过所述特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征;
通过所述特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块;
通过所述特征拼接单元将各个新特征块进行拼接,得到基于元特征对所述输入图像进行重新表达的元特征表达图像。
4.根据权利要求3所述的方法,其特征在于,通过所述特征搜索单元从元特征集合中确定与每个原始特征块匹配的至少一个目标元特征,包括:
通过所述特征搜索单元根据所述元特征集合中的各个元特征,生成第一特征矩阵;
将系统矩阵与所述第一特征矩阵进行相乘,得到第二特征矩阵,所述系统矩阵是待求解目标函数的自变量;
根据每个原始特征块对应的第三特征矩阵和所述第二特征矩阵,构建所述目标函数,并求解使所述目标函数的值最小化的目标系统矩阵;
根据所述目标系统矩阵,从所述元特征集合中确定与每个原始特征块匹配的至少一个目标元特征。
5.根据权利要求4所述的方法,其特征在于,根据每个原始特征块对应的第三特征矩阵和所述第二特征矩阵,构建所述目标函数,包括:
将所述第三特征矩阵减去所述第二特征矩阵,得到第四特征矩阵;
根据所述第四特征矩阵的L2范数,构建所述目标函数。
6.根据权利要求4所述的方法,其特征在于,根据所述目标系统矩阵,从所述元特征集合中确定与每个原始特征块匹配的至少一个目标元特征,包括:
将所述目标系统矩阵与所述第一特征矩阵进行相乘,得到第五特征矩阵;
将所述第五特征矩阵中不为0的元素作为与每个原始特征块匹配的至少一个目标元特征。
7.根据权利要求6所述的方法,其特征在于,通过所述特征重组单元,将与每个原始特征块匹配的至少一个目标元特征进行重组,得到基于元特征对每个原始特征块进行重新表达的新特征块,包括:
根据与每个原始特征块匹配的至少一个目标元特征生成第六特征矩阵;
将所述第六特征矩阵及其转置矩阵进行相乘,得到第七特征矩阵;
依次将所述第三矩阵、所述转置矩阵、所述第七特征矩阵对应的逆矩阵和所述第七特征矩阵进行矩阵相乘,得到第八特征矩阵;
将所述第八特征矩阵对应的特征图作为基于元特征对每个原始特征块进行重新表达的新特征块。
8.根据权利要求1所述的方法,其特征在于,在利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取之前,还包括:
在所述神经网络模型的模型训练阶段,对样本图像块或者样本图像块对应的特征图进行分块处理,得到多个元特征,其中,样本图像块是对样本图像进行分块处理得到的图像块。
9.根据权利要求1至8任一项所述的方法,其特征在于,在利用神经网络模型中的至少一个特征提取网络对待处理图像进行特征提取之前,还包括:
获取多个样本图像;
将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;
利用所述神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;
根据多个样本图像各自的预测分类结果,调整所述神经网络模型的网络参数。
10.根据权利要求9所述的方法,其特征在于,根据多个样本图像各自的预测分类结果,调整所述神经网络模型的网络参数,包括:
根据多个样本图像各自的真实特征图和最终特征图,计算多个样本图像各自的重构损失函数;
根据多个样本图像各自的真实分类结果和预测分类结果,计算多个样本图像各自的分类损失函数;
根据多个样本图像各自的重构损失函数和分类损失函数,调整所述神经网络模型的网络参数。
11.一种模型生成方法,其特征在于,包括:
获取多个样本图像;
将每个样本图像输入至待训练的神经网络模型中的至少一个特征提取网络进行特征提取,得到每个样本图像对应的最终特征图;
利用所述神经网络模型中的分类网络对每个样本图像对应的最终特征图分类处理,得到每个样本图像对应的预测分类结果;
根据多个样本图像各自的预测分类结果,调整所述神经网络模型的网络参数。
12.根据权利要求11所述的方法,其特征在于,所述至少一个特征提取网络中至少包括第一特征提取网络,所述第一特征提取网络包括依次连接的元特征表达模块和特征提取模块。
13.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器耦合至所述存储器,用于执行所述计算机程序以用于执行权利要求1-12任一项所述方法中的步骤。
14.一种存储有计算机程序的计算机存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器能够实现权利要求1-12任一项所述方法中的步骤。
CN202210646458.9A 2022-06-08 2022-06-08 图像处理方法和模型训练方法、电子设备及存储介质 Pending CN115082696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646458.9A CN115082696A (zh) 2022-06-08 2022-06-08 图像处理方法和模型训练方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646458.9A CN115082696A (zh) 2022-06-08 2022-06-08 图像处理方法和模型训练方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115082696A true CN115082696A (zh) 2022-09-20

Family

ID=83251783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646458.9A Pending CN115082696A (zh) 2022-06-08 2022-06-08 图像处理方法和模型训练方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115082696A (zh)

Similar Documents

Publication Publication Date Title
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN111062871A (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
US11625433B2 (en) Method and apparatus for searching video segment, device, and medium
US20210056357A1 (en) Systems and methods for implementing flexible, input-adaptive deep learning neural networks
CN111260037B (zh) 图像数据的卷积运算方法、装置、电子设备及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
Xiao et al. Apple ripeness identification from digital images using transformers
CN114170425A (zh) 模型训练、图像分类方法、服务器及存储介质
CN114255360A (zh) 图像聚类方法、装置及计算机存储介质
CN116630362A (zh) 模型训练、图像处理方法、设备及存储介质
CN113326760B (zh) 视频分类方法及装置
CN115082696A (zh) 图像处理方法和模型训练方法、电子设备及存储介质
CN115659060A (zh) 一种基于动态图神经网络的信息推荐方法及系统
US12002257B2 (en) Video screening using a machine learning video screening model trained using self-supervised training
CN116958852A (zh) 视频与文本的匹配方法、装置、电子设备和存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN113515995A (zh) 移动对象的重识别、模型训练方法、设备及存储介质
CN117252822B (zh) 缺陷检测网络的构建及缺陷检测方法、装置和设备
CN117495853B (zh) 视频数据处理方法、设备及存储介质
CN111259781B (zh) 视频分类方法及装置、存储介质和电子设备
CN117034094B (zh) 一种账户类型预测方法及账户类型预测装置
WO2022141092A1 (zh) 模型生成方法、图像处理方法、装置及可读存储介质
CN116719962B (zh) 图像的聚类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination