CN116457776A - 图像处理方法、装置、计算设备及介质 - Google Patents

图像处理方法、装置、计算设备及介质 Download PDF

Info

Publication number
CN116457776A
CN116457776A CN202180003422.2A CN202180003422A CN116457776A CN 116457776 A CN116457776 A CN 116457776A CN 202180003422 A CN202180003422 A CN 202180003422A CN 116457776 A CN116457776 A CN 116457776A
Authority
CN
China
Prior art keywords
image
similarity
images
determining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180003422.2A
Other languages
English (en)
Inventor
上官泽钰
刘童
黄光伟
孔繁昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Publication of CN116457776A publication Critical patent/CN116457776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像处理方法、装置、计算设备及介质,涉及深度学习技术。本发明在获取到待处理的目标图像后,在基于目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像和各个类别的第一图像的第一相似度的同时,基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的第二相似度,从而能够基于第一相似度和第二相似度,共同确定目标图像所属的图像类别。通过引入基于色彩分布信息所确定出的第二相似度,作为确定图像类别时的补充依据,从而使得所确定出的图像类别的准确性更高,也就提高了图像分类的准确性。

Description

图像处理方法、装置、计算设备及介质 技术领域
本发明涉及深度学习技术领域,尤其涉及一种图像处理方法、装置、计算设备及介质。
背景技术
随着深度学习的不断发展,通过深度学习进行图像分类、图像分割、图像识别等,成为图像处理的一种重要技术手段。但是,由于图像样本采集成本高,甚至存在某些图像样本根本无法采集的情况,导致图像分类模型的训练效果较差,从而导致图像分类的准确性较低。
基于上述情况,小样本学习的方案应运而生。所谓小样本学习,就是使用远小于大数据深度学习所需的样本数据量,达到接近甚至超越大数据深度学习的处理效果。通过小样本学习,可以在图像样本有限的情况下,获取到图像分类准确性较高的图像分类模型。
相关技术中,主要是采用采集难度较低的公共图像样本,来对卷积神经网络(Convolutional Neural Networks,CNN)进行训练,从而得到预训练模型,再通过与实际的图像分类需求对应的图像样本,来对预训练模型进行训练,从而得到可以满足实际的图像分类需求的图像分类模型。
在上述实现过程中,由于样本图像的类别和图像数量较多,且同一类别的样本图像的尺度变化较大,而且,样本图像中还可能存在很多噪声,从而导致模型的训练效果较差,进而导致训练得到的图像分类模型的分类准确性较差。
发明内容
本发明提供一种图像处理方法、装置、计算设备及介质,以解决相关技术中的不足。
根据本发明实施例的第一方面,提供一种图像处理方法,该方法包括:
获取待处理的目标图像;
基于该目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定该目标图像与各个类别的第一图像的第一相似度,该多个第一图像已标注有图像类别,该多个第一图像对应于多个图像类别;
基于该目标图像中目标区域的第一色彩分布信息,以及该多个第一图像中目标区域的第二色彩分布信息,确定该目标图像与该多个第一图像的第二相似度;
基于该第一相似度和该第二相似度,从该多个第一图像的图像类别中,确定该目标图像所属的图像类别。
在本发明的一个实施例中,该色彩分布信息为色彩分布频谱;基于该目标图像中目标区域的第一色彩分布信息,以及该多个第一图像中目标区域的第二色彩分布信息,确定该目标图像与该多个第一图像的第二相似度,包括:
分别确定该第一色彩分布频谱与各个第二色彩分布频谱的色彩分布相似度;
对于属于任一图像类别的至少一个第一图像,将该至少一个第一图像所对应的色彩分布相似度中取值最大的色彩分布相似度,确定为该目标图像与该至少一个第一图像的第二相似度。
在本发明的一个实施例中,基于该目标图像中目标区域的第一色彩分布信息,以及该多个第一图像中目标区域的第二色彩分布信息,确定该目标图像与该多个第一图像的第二相似度之前,该方法还包括:
基于图像分类模型的注意力矩阵,从该目标图像和该多个第一图像中,分别确定出该目标区域;
获取该目标图像中目标区域的第一色彩分布信息,以及各个第一图像中目标区域的第二色彩分布信息。
在本发明的一个实施例中,该第一相似度为余弦相似度,该余弦相似度用于指示该目标图像的特征向量与各个类别的第一图像的特征向量之间的余弦距离;
基于该目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定该目标图像与各个类别的第一图像的第一相似度之前,该方法还包括:
基于该目标图像和该多个第一图像,通过图像分类模型的嵌入层,确定用于表 示该目标图像的第一向量序列和用于表示该多个第一图像的多个第二向量序列;
基于该第一向量序列和该多个第二向量序列,通过该图像分类模型的编码器,获取该第一特征向量和多个第二特征向量,并基于该第一特征向量和该多个第二特征向量,确定该目标图像与该多个第一图像的余弦相似度。
在本发明的一个实施例中,基于该第一向量序列和该多个第二向量序列,通过该图像分类模型的编码器,获取该第一特征向量和多个第二特征向量,并基于该第一特征向量和该多个第二特征向量,确定该目标图像与该多个第一图像的余弦相似度,包括:
将该第一向量序列和该多个第二向量序列输入至该编码器,通过该编码器,确定该第一向量序列所对应的第一特征向量,以及该多个第二向量序列所对应的多个第二特征向量;
对于属于任一图像类别的至少一个第一图像,确定该至少一个第一图像所对应的第二特征向量的均值向量;
确定该第一特征向量与该均值向量之间的余弦距离,基于该余弦距离,确定该目标图像与该至少一个第一图像的余弦相似度。
在本发明的一个实施例中,基于该余弦距离,确定该目标图像与该多个第一图像的余弦相似度,包括下述任一项:
在该余弦距离大于预设距离阈值的情况下,将该余弦相似度确定为第一数值;
在该余弦距离小于或等于预设距离阈值的情况下,将该余弦相似度确定为第二数值。
在本发明的一个实施例中,基于该第一相似度和该第二相似度,从该多个第一图像的图像类别中,确定该目标图像所属的图像类别,包括:
根据该第一相似度对应的第一权重,以及该第二相似度对应的第二权重,对该第一相似度和该第二相似度进行加权求和,得到该目标图像与各个类别的第一图像的图像相似度;
将各个图像相似度中取值最大的目标图像相似度所对应的图像类别,确定为该目标图像所属的图像类别。
在本发明的一个实施例中,该图像分类模型预先通过训练得到;
该图像分类模型的训练过程包括:
获取已标注有样本图像类别的多个第一样本图像;
将该多个第一样本图像输入初始视觉转换器模型,通过该初始视觉转换器模型,确定该多个第一样本图像的预测图像类别;
基于指示该多个第一样本图像的预测图像类别和该多个第一样本图像的样本图像类别之间的差异的第一损失函数,对该初始视觉转换器模型进行训练,直至满足预设的训练完成条件,得到训练好的视觉转换器模型;
基于该训练好的视觉转换器模型,获取该图像分类模型。
在本发明的一个实施例中,该训练好的视觉转换器模型包括嵌入层、转换器编码器和多头感知器;
基于该训练好的视觉转换器模型,获取该图像分类模型,包括:
从该训练好的视觉转换器模型中,获取嵌入层和转换器编码器,组成初始图像分类模型;
获取已标注有相似度真值的多个第二样本图像;
对于该多个第二样本图像中任意两个第二样本图像,将该两个第二样本图像输入初始图像分类模型,通过该初始图像分类模型,输出该两个第二样本图像的第一相似度预测值;
基于指示该第一相似度预测值和该相似度真值之间的差异的第二损失函数,对该初始图像分类模型进行训练。
在本发明的一个实施例中,该方法还包括:
基于该初始图像分类模型的注意力矩阵,确定该两个第二样本图像中目标区域的色彩分布信息之间的第二相似度预测结果;
基于该第二相似度预测结果和预设相似度阈值,确定第二相似度预测值;
基于指示该第一相似度预测值和该相似度真值之间的差异的第二损失函数,以及指示该第二相似度预测值和该相似度真值之间的差异的第三损失函数,对该初始图像分类模型进行训练。
在本发明的一个实施例中,基于该第二相似度预测结果和预设相似度阈值,确 定第二相似度预测值,包括下述任一项:
在该第二相似度预测结果大于预设相似度阈值的情况下,将该第二相似度预测值确定为第一数值;
在该第二相似度预测结果小于或等于预设相似度阈值的情况下,将该第二相似度预测值确定为第二数值。
在本发明的一个实施例中,基于指示该第一相似度预测值和该相似度真值之间的差异的第二损失函数,以及指示该第二相似度预测值和该相似度真值之间的差异的第三损失函数,对该初始图像分类模型进行训练,包括:
基于该第二损失函数对应的第一初始权重,以及该第三损失函数对应的第二初始权重,对该第二损失函数和该第三损失函数进行加权求和,得到目标损失函数;
基于该目标损失函数,对该初始图像分类模型进行训练,直至满足训练完成条件,得到该图像分类模型。
根据本发明实施例的第二方面,提供一种图像处理装置,该装置包括:
图像获取模块,用于获取待处理的目标图像;
相似度确定模块,用于基于该目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定该目标图像与各个类别的第一图像的第一相似度,该多个第一图像已标注有图像类别,该多个第一图像对应于多个图像类别;
该相似度确定模块,还用于基于该目标图像中目标区域的第一色彩分布信息,以及该多个第一图像中目标区域的第二色彩分布信息,确定该目标图像与该多个第一图像的第二相似度;
类别确定模块,用于基于该第一相似度和该第二相似度,从该多个第一图像的图像类别中,确定该目标图像所属的图像类别。
在本发明的一个实施例中,该色彩分布信息为色彩分布频谱;
该相似度确定模块,在用于基于该目标图像中目标区域的第一色彩分布信息,以及该多个第一图像中目标区域的第二色彩分布信息,确定该目标图像与该多个第一图像的第二相似度时,用于:
分别确定该第一色彩分布频谱与各个第二色彩分布频谱的色彩分布相似度;
对于属于任一图像类别的至少一个第一图像,将该至少一个第一图像所对应的色彩分布相似度中取值最大的色彩分布相似度,确定为该目标图像与该至少一个第一图像的第二相似度。
在本发明的一个实施例中,该装置还包括:
区域确定模块,用于基于图像分类模型的注意力矩阵,从该目标图像和该多个第一图像中,分别确定出该目标区域;
信息获取模块,用于获取该目标图像中目标区域的第一色彩分布信息,以及各个第一图像中目标区域的第二色彩分布信息。
在本发明的一个实施例中,该第一相似度为余弦相似度,该余弦相似度用于指示该目标图像对应的第一特征向量与各个类别的第一图像分别对应的第二特征向量之间的余弦距离;
该相似度确定模块,在用于基于该目标图像对应的多个第一特征向量和多个第一图像分别对应的第二特征向量,确定该目标图像与各个类别的第一图像的第一相似度时,包括序列确定子模块和相似度确定子模块;
该序列确定子模块,用于基于该目标图像和该多个第一图像,通过图像分类模型的嵌入层,确定用于表示该目标图像的第一向量序列和用于表示该多个第一图像的多个第二向量序列;
该相似度确定子模块,用于基于该第一向量序列和该多个第二向量序列,通过该图像分类模型的编码器,获取该第一特征向量和多个第二特征向量,并基于该第一特征向量和该多个第二特征向量,确定该目标图像与该多个第一图像的余弦相似度。
在本发明的一个实施例中,该相似度确定子模块,在用于基于该第一向量序列和该多个第二向量序列,通过该图像分类模型的编码器,获取该第一特征向量和多个第二特征向量,并基于该第一特征向量和该多个第二特征向量,确定该目标图像与该多个第一图像的余弦相似度时,包括向量确定单元、距离确定单元和相似度确定单元;
该向量确定单元,用于将该第一向量序列和该多个第二向量序列输入至该编码器,通过该编码器,确定该第一向量序列所对应的第一特征向量,以及该多个第二向量序列所对应的多个第二特征向量;
该向量确定单元,还用于对于属于任一图像类别的至少一个第一图像,确定该 至少一个第一图像所对应的第二特征向量的均值向量;
该距离确定单元,用于确定该第一特征向量与该均值向量之间的余弦距离;
该相似度确定单元,用于基于该余弦距离,确定该目标图像与该至少一个第一图像的余弦相似度。
在本发明的一个实施例中,该相似度确定单元,在用于基于该余弦距离,确定该目标图像与该多个第一图像的余弦相似度时,用于下述任一项:
在该余弦距离大于预设距离阈值的情况下,将该余弦相似度确定为第一数值;
在该余弦距离小于或等于预设距离阈值的情况下,将该余弦相似度确定为第二数值。
在本发明的一个实施例中,该类别确定模块,在用于基于该第一相似度和该第二相似度,从该多个第一图像的图像类别中,确定该目标图像所属的图像类别时,用于:
根据该第一相似度对应的第一权重,以及该第二相似度对应的第二权重,对该第一相似度和该第二相似度进行加权求和,得到该目标图像与各个类别的第一图像的图像相似度;
将各个图像相似度中取值最大的目标图像相似度所对应的图像类别,确定为该目标图像所属的图像类别。
在本发明的一个实施例中,该图像分类模型预先通过训练得到;
该装置还包括:
样本获取模块,用于获取已标注有样本图像类别的多个第一样本图像;
样本类别确定模块,用于将该多个第一样本图像输入初始视觉转换器模型,通过该初始视觉转换器模型,确定该多个第一样本图像的预测图像类别;
训练模块,用于基于指示该多个第一样本图像的预测图像类别和该多个第一样本图像的样本图像类别之间的差异的第一损失函数,对该初始视觉转换器模型进行训练,直至满足预设的训练完成条件,得到训练好的视觉转换器模型;
模型获取模块,用于基于该训练好的视觉转换器模型,获取该图像分类模型。
在本发明的一个实施例中,该训练好的视觉转换器模型包括嵌入层、转换器编 码器和多头感知器;
该模型获取模块,在用于基于该训练好的视觉转换器模型,获取该图像分类模型时,包括模型获取子模块、样本获取子模块、第一预测子模块和第一训练子模块;
模型获取子模块,用于从该训练好的视觉转换器模型中,获取嵌入层和转换器编码器,组成初始图像分类模型;
样本获取子模块,用于获取已标注有相似度真值的多个第二样本图像;
第一预测子模块,用于对于该多个第二样本图像中任意两个第二样本图像,将该两个第二样本图像输入初始图像分类模型,通过该初始图像分类模型,输出该两个第二样本图像的第一相似度预测值;
第一训练子模块,用于基于指示该第一相似度预测值和该相似度真值之间的差异的第二损失函数,对该初始图像分类模型进行训练。
在本发明的一个实施例中,该模型获取模块,还包括结果确定子模块、第二预测子模块和第二训练子模块;
结果确定子模块,用于基于该初始图像分类模型的注意力矩阵,确定该两个第二样本图像中目标区域的色彩分布信息之间的第二相似度预测结果;
第二预测子模块,用于基于该第二相似度预测结果和预设相似度阈值,确定第二相似度预测值;
第二训练子模块,用于基于指示该第一相似度预测值和该相似度真值之间的差异的第二损失函数,以及指示该第二相似度预测值和该相似度真值之间的差异的第三损失函数,对该初始图像分类模型进行训练。
在本发明的一个实施例中,该第二预测子模块,在用于基于该第二相似度预测结果和预设相似度阈值,确定第二相似度预测值时,用于下述任一项:
在该第二相似度预测结果大于预设相似度阈值的情况下,将该第二相似度预测值确定为第一数值;
在该第二相似度预测结果小于或等于预设相似度阈值的情况下,将该第二相似度预测值确定为第二数值。
在本发明的一个实施例中,该第二训练子模块,在用于基于指示该第一相似度预测值和该相似度真值之间的差异的第二损失函数,以及指示该第二相似度预测值和 该相似度真值之间的差异的第三损失函数,对该初始图像分类模型进行训练时,用于:
基于该第二损失函数对应的第一初始权重,以及该第三损失函数对应的第二初始权重,对该第二损失函数和该第三损失函数进行加权求和,得到目标损失函数;
基于该目标损失函数,对该初始图像分类模型进行训练,直至满足训练完成条件,得到该图像分类模型。
根据本发明实施例的第三方面,提供一种计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,该处理器执行该计算机程序时实现上述第一方面以及第一方面的任一个实施例所提供的图像处理方法所执行的操作。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有程序,该程序被处理器执行时,实现上述第一方面以及第一方面的任一个实施例所提供的图像处理方法所执行的操作。
根据本发明实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序被处理器执行时,实现上述第一方面以及第一方面的任一个实施例所提供的图像处理方法所执行的操作。
根据上述实施例可知,本发明在获取到待处理的目标图像后,在基于目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像和各个类别的第一图像的第一相似度的同时,基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的第二相似度,从而能够基于第一相似度和第二相似度,共同确定目标图像所属的图像类别。通过引入基于色彩分布信息所确定出的第二相似度,作为确定图像类别时的补充依据,从而使得所确定出的图像类别的准确性更高,也就提高了图像分类的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据本发明实施例示出的一种图像处理方法的流程图;
图2是根据本发明实施例示出的一种图像处理方法的流程图;
图3是根据本发明实施例示出的一种训练图像分类模型的流程图;
图4是根据本发明实施例示出的一种图像处理装置的框图;
图5是根据本发明实施例示出的一种计算设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明提供了一种图像处理方法,用于确定待处理的目标图像所属的图像类别。其中,目标图像可以为多种类型的图像,例如,目标图像可以为物品图像、动物图像,等等,本发明对此不加以限定。以目标图像为物品图像为例,确定目标图像所属的图像类别,也即是,确定目标图像所包含的物品所属的类别,例如,目标图像所包含的物品为保温杯,则目标图像所属的图像类别即为保温杯图像;以目标图像为动物图像为例,确定目标图像所属的图像类别,也即是,确定目标图像所包含的动物所属的类别,例如,目标图像所包含的动物为东北虎,则目标图像所属的图像类别即为东北虎图像。
上述图像处理方法可以由计算设备执行,计算设备可以是服务器,例如一台服务器、多台服务器、服务器集群、云计算平台等等,可选地,计算设备还可以是终端设备,例如手机、平板电脑、游戏机、便携式计算机、台式机、广告机、一体机等等,本发明对计算设备的设备类型和设备数量均不加以限定。
上述仅为对本发明应用场景的示例性说明,并不构成对本发明应用场景的限定,在更多可能的实现方式中,本发明可以应用在多种类型的目标图像的图像处理过程中。
在介绍了本发明的应用场景后,下面结合本发明的多个可选实施例,对本发明提供的图像处理方法进行详细说明。
图1是根据本发明实施例示出的一种图像处理方法的流程图,参见图1,该方法包括:
步骤101、获取待处理的目标图像。
在一种可能的实现方式中,计算设备可以接收用户触发的图像处理指令,进而响应于该图像处理指令,获取待处理的目标图像,进而触发后续的图像处理过程。
其中,计算设备可以从所关联的图像数据库中,获取待处理的目标图像,还可以接收其他设备发送的图像,将接收到的图像作为待处理的目标图像。
在另一种可能的实现方式中,计算设备可以在接收到其他设备发送的图像后,自行将接收到的图像作为待处理的目标图像,进而触发后续的图像处理过程。
上述仅为触发图像处理过程的两种示例性方式,在更多可能的实现方式中,还可以采用其他方式,来触发图像处理过程,本发明对此不加以限定。
步骤102、基于目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像与各个类别的第一图像的第一相似度,多个第一图像已标注有图像类别,多个第一图像对应于多个图像类别。
步骤103、基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的第二相似度。
其中,目标图像和第一图像中都包括多种类型的信息,但这多种类型的信息中,可能仅有部分信息可以对判断图像类别起到辅助作用,而其他的无关信息无法对判断图像类别起到辅助作用,目标图像中的目标区域即为目标图像中包含可以对判断图像类别起到辅助作用的信息的区域,第一图像中的目标区域即为第一图像中包含可以对判断图像类别起到辅助作用的信息的区域。可选地,目标区域也可以称为感兴趣区域。
步骤104、基于第一相似度和第二相似度,从多个第一图像的图像类别中,确定目标图像所属的图像类别。
本发明通过在获取到待处理的目标图像后,在基于目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像和各个类别的第一图像的第一相似度的同时,基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的第二相似度,从而能够基于第一相似度和第二相似度,共同确定目标图像所属的图像类别。通过引入 基于色彩分布信息所确定出的第二相似度,作为确定图像类别时的补充依据,从而使得所确定出的图像类别的准确性更高,也就提高了图像分类的准确性。
在介绍了本发明的基本实现过程之后,下面介绍本发明的几个非限制性实施例。
在本发明的一个实施例中,上述步骤102中所涉及的第一相似度为余弦相似度,余弦相似度用于指示目标图像对应的第一特征向量与各个类别的第一图像分别对应的第二特征向量之间的余弦距离。
在第一相似度为余弦相似度的情况下,可以通过图像分类模型,来确定目标图像与各个类别的第一图像的余弦相似度,以得到目标图像与各个类别的第一图像的第一相似度。也即是,上述步骤102可以通过图像分类模型实现。
其中,图像分类模型可以为视觉转换器(Vision Transformer)模型,可选地,图像分类模型还可以为其他类型的模型,本发明对此不加以限定。以图像分类模型为Vision Transformer模型为例,该图像分类模型可以包括嵌入(Embedding)层和转换器编码器(Transformer Encoder)。为便于说明,下文中将转换器编码器简称为编码器。
在通过图像分类模型实现上述步骤102时,基于目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像与各个类别的第一图像的第一相似度的过程,可以包括如下步骤:
步骤1021、基于目标图像和多个第一图像,通过图像分类模型的嵌入层,确定用于表示目标图像的第一向量序列和用于表示多个第一图像的多个第二向量序列。
在通过图像分类模型的嵌入层,确定用于表示目标图像的第一向量序列和用于表示多个第一图像的多个第二向量序列时,可以通过如下方式实现:
以确定用于表示目标图像的第一向量序列的过程为例,通过图像分类模型的嵌入层,按照设定图形块大小,将目标图像划分为多个符合设定图像块大小的图像块,进而采用线性映射的方式将每个图像块映射到一维向量中,从而得到各个图像块对应的一维向量,进而对这多个一维向量进行拼接,得到第一向量序列。
需要说明的是,各个第二向量序列的确定过程与第一向量序列的确定过程同理,此处不再赘述。
步骤1022、基于第一向量序列和多个第二向量序列,通过图像分类模型的编码器,获取第一特征向量和多个第二特征向量,并基于第一特征向量和多个第二特征向量,确定目标图像与多个第一图像的余弦相似度。
在一种可能的实现方式中,上述步骤1022可以通过如下步骤实现:
步骤一、将第一向量序列和多个第二向量序列输入至编码器,通过编码器,确定第一向量序列所对应的第一特征向量,以及多个第二向量序列所对应的多个第二特征向量。
在一种可能的实现方式中,将第一向量序列和多个第二向量序列输入至编码器,通过编码器,对第一向量序列和多个第二向量序列分别进行卷积处理,得到第一向量序列所对应的第一特征向量,以及多个第二向量序列所对应的多个第二特征向量。
步骤二、对于属于任一图像类别的至少一个第一图像,确定至少一个第一图像所对应的第二特征向量的均值向量。
需要说明的是,这多个第一图像对应于多个图像类别,而每个类别可能包括至少一个第一图像,在确定均值向量时,分别确定每个类别的第一图像所对应的第二特征向量的均值向量,从而得到各个类别的第一图像所对应的均值向量。
在一种可能的实现方式中,对于属于任一图像类别的至少一个第一图像,对这至少一个第一图像所对应的至少一个第二特征向量进行求均值处理,得到这至少一个第二特征向量的均值向量。
步骤三、确定第一特征向量与均值向量之间的余弦距离,基于余弦距离,确定目标图像与至少一个第一图像的余弦相似度。
其中,在确定第一特征向量与均值向量之间的余弦距离时,可以先确定第一特征向量与均值向量的夹角的余弦值,在用1减去所确定出的余弦值,即可得到第一特征向量与均值向量之间的余弦距离。也即是,可以通过如下公式(1),来确定第一特征向量与均值向量之间的余弦距离:
dist(A,B)=1-cos(A,B) (1)
其中,A表示第一特征向量,B表示均值向量,dist(A,B)表示第一特征向量和均值向量之间的余弦距离,cos(A,B)表示第一特征向量与均值向量的夹角的余弦值。
在基于余弦距离,确定目标图像与至少一个第一图像的余弦相似度时,可以将 余弦距离与预设距离阈值进行比较,从而根据比较结果,确定该余弦相似度。
在一种可能的实现方式中,在余弦距离大于预设距离阈值的情况下,将余弦相似度确定为第一数值。
在另一种可能的实现方式中,在余弦距离小于或等于预设距离阈值的情况下,将余弦相似度确定为第二数值。
其中,预设距离阈值可以为任意正数值,本发明对预设距离阈值的具体取值不加以限定。该第一数值可以为0,该第二数值可以为1。
通过将余弦距离与预设距离阈值进行比较,从而根据比较结果将余弦相似度映射为0或1,从而实现对余弦相似度的二值化处理,以突出两个图像之间的余弦相似度情况,进而提高图像分类的准确性。
上述步骤二和步骤三仅以对任一图像类别的第一图像的处理过程为例来进行说明,不同图像类别的第一图像的处理过程同理,此处不再赘述其他图像类别的第一图像的处理过程。
在采用Vision Transformer模型作为图像分类模型的情况下,该图像分类模型的编码器中采用了注意力机制,以便基于该注意力机制,来确定目标图像中的目标区域和第一图像中的目标区域,使得后续仅需确定目标区域的色彩分布信息,进而基于目标区域的色彩分布信息,进行色彩分布相似度的确定即可,减少计算设备的处理压力,从而提高计算设备的处理速度,进而提高图像分类速度。
在一种可能的实现方式中,该图像分类模型的编码器中包括注意力矩阵,可以通过注意力矩阵,来从目标图像和第一图像中确定目标区域。也即是,在步骤103基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的第二相似度之前,该方法还包括以下步骤:
步骤一、基于图像分类模型的注意力矩阵,从目标图像和多个第一图像中,分别确定出目标区域。
以从目标图像中确定目标区域的过程为例,可以将目标图像的像素值与该注意力矩阵进行相乘,以得到目标图像中的目标区域。其中,在该注意力矩阵中,目标区域所包括的像素对应的矩阵元素的值为1,非目标区域所包括的像素对应的矩阵元素的值为0,从而可以通过将目标图像的像素值与该注意力矩阵进行相乘,实现目标区 域的确定。
上述仅以目标图像中目标区域的确定过程为例来进行说明,各个第一图像中目标区域的确定过程与之同理,此处不再赘述。
步骤二、获取目标图像中目标区域的第一色彩分布信息,以及各个第一图像中目标区域的第二色彩分布信息。
其中,色彩分布信息可以为色彩分布频谱。
在一种可能的实现方式中,可以统计目标图像中目标区域所包括的RGB颜色和各个颜色所分布的位置,以得到目标图像中目标区域的第一色彩分布频谱,并统计各个第一图像中目标区域所包括的RGB颜色和各个颜色所分布的位置,以得到多个第一图像中目标区域的第二色彩分布频谱。
在获取到目标图像中目标区域的第一色彩分布频谱,以及各个第一图像中目标区域的第二色彩分布频谱后,即可基于所获取到的第一色彩分布频谱和第二色彩分布频谱,来进行第二相似度的确定。
在一些实施例中,对于上述步骤103,在基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的色彩分布相似度时,可以通过如下步骤实现:
步骤1031、分别确定第一色彩分布频谱与各个第二色彩分布频谱的色彩分布相似度。
在一种可能的实现方式中,对于多个第二色彩分布频谱中任一个第二色彩分布频谱,通过对比第一色彩分布频谱所指示的RGB颜色和各个颜色所分布的位置,以及任一个第二色彩分布频谱所指示的RGB颜色和各个颜色所分布的位置,来确定第一色彩分布频谱与任一个第二色彩分布频谱的色彩分布相似度。
上述仅以第一色彩分布频谱与任一个第二色彩分布频谱的色彩分布相似度的确定过程为例来进行说明,其他各个第二色彩分布频谱与第一色彩分布频谱的色彩分布相似度的确定过程与之同理,此处不再赘述。
可选地,在确定出色彩分布相似度后,可以将色彩分布相似度与预设相似度阈值进行比较,从而实现色彩分布相似度的二值化处理。
在一种可能的实现方式中,在色彩分布相似度大于预设相似度阈值的情况下, 将色彩分布相似度确定为第一数值。
在另一种可能的实现方式中,在色彩分布相似度小于或等于预设相似度阈值的情况下,将色彩分布相似度确定为第二数值。
其中,预设相似度阈值可以为任意正数值,本发明对预设相似度阈值的具体取值不加以限定。该第一数值可以为0,该第二数值可以为1。
通过将色彩分布相似度与预设相似度阈值进行比较,从而根据比较结果将色彩分布相似度映射为0或1,从而实现对色彩分布相似度的二值化处理,以突出两个图像之间的色彩分布相似情况,进而提高图像分类的准确性。
步骤1032、对于属于任一图像类别的至少一个第一图像,将至少一个第一图像所对应的色彩分布相似度中取值最大的色彩分布相似度,确定为目标图像与至少一个第一图像的第二相似度。
需要说明的是,这多个第一图像对应于多个图像类别,而每个类别可能包括至少一个第一图像,在确定目标图像与这多个第一图像的第二相似度时,分别确定目标图像与每个类别的第一图像的第二相似度。
在一种可能的实现方式中,对于属于任一类别的至少一个第一图像,在确定出第一色彩分布频谱与这至少一个第一图像所对应的至少一个第二色彩分布频谱的色彩分布相似度后,对所确定出的色彩分布相似度按照取值从大到小的顺序进行排序,从而将排序位于第一位的色彩分布相似度(也即是取值最大的色彩分布相似度),确定为目标图像与这一类别的第一图像的第二相似度。
通过在图像分类过程中引入注意力机制,从图像分类模型的Transformer编码器中分离出注意力矩阵,从而将注意力矩阵应用到未经处理的目标图像和第一图像上,可以对目标图像的目标区域以及第一图像的目标区域中所包含的图像信息做更多的挖掘,进而得到目标图像的目标区域的色彩分布信息以及第一图像的目标区域的色彩分布信息,将色彩分布信息作为判断相似度的补充依据,直观快捷,而且符合人类的视觉习惯。
在本发明的一个实施例中,对于上述步骤104,在基于第一相似度和第二相似度,从多个第一图像的图像类别中,确定目标图像所属的图像类别时,可以通过如下步骤实现:
步骤1041、根据第一相似度对应的第一权重,以及第二相似度对应的第二权重, 对第一相似度和第二相似度进行加权求和,得到目标图像与各个类别的第一图像的图像相似度。
在一种可能的实现方式中,可以通过下述公式(2),来确定目标图像与各个类别的第一图像的图像相似度:
S=αS 1+βS 2 (2)
在上述公式(2)中,S表示图像相似度,S1表示第一相似度,S2表示第二相似度,α表示第一权重,β表示第二权重。
其中,该第一权重和第二权重为通过模型训练所获取到的权重值,具体获取过程在下述模型训练过程中进行说明,此处不再赘述。
步骤1042、将各个图像相似度中取值最大的目标图像相似度所对应的图像类别,确定为目标图像所属的图像类别。
上述各个实施例所描述的图像分类过程可以参见图2,图2是根据本发明实施例示出的一种图像处理方法的流程图。目标图像可以为查询集中的图像,第一图像可以为支持集中的图像。通过本发明所提供的图像处理方法,可以通过作为图像分类模型的Vision Transformer,分别对查询集和支持集中的图像进行处理,从而得到查询集中的目标图像对应的特征向量,以及支持集中各个第一图像对应的特征向量,进而对支持集中各个第一图像对应的特征向量进行均值处理,得到支持集的各个第一图像所对应的均值向量,从而基于均值向量和目标图像对应的特征向量,来确定目标图像和各个类别的第一图像的第一相似度;而Vision Transformer中包括注意力矩阵,基于该注意力矩阵,可以分别从查询集中的目标图像,以及支持集中的多个第一图像中获取到感兴趣区域的色彩分布频谱,从而基于获取到的色彩分布频谱,确定目标图像和各个类别的第一图像的第二相似度,从而对对应于同一图像类别的第一图像的第一相似度和第二相似度进行加权求和,得到图像相似度,进而通过对图像相似度进行排序,基于取值最大的图像相似度,来进行图像类别的确定。
其中,支持集中包括N个分类标签,每个分类标签下包括K个第一图像,也即是,支持集中包括N×K个第一图像,则在获取第一图像的色彩分布频谱时,可以获取到N×K个色彩分布频谱,再基于这N×K个色彩分布频谱,来进行色彩分布相似度的确定,可以得到N×K-1个色彩分布相似度,从而基于这N×K-1个色彩分布相似度,来确定目标图像与不同类别的第一图像的第二相似度。N和K均为任意正整数 值。
需要说明的是,在通过图像分类模型对图像进行处理时,先通过图像分类模型的嵌入层,对图像进行图像分块和位置嵌入,得到多个图像块对应的一维向量,进而对多个图像块对应的一维向量进行拼接,实现对多个图像块对应的一维向量的展平,得到图像对应的向量序列,从而通过Transformer编码器,来进行第一相似度的确定。其中,Transformer编码器中包括注意力矩阵。
上述图2所示仅为对本发明整体流程的说明,具体实现过程可以参见上述各个实施例,此处不再赘述。
可选地,在通过上述各个实施例确定出目标图像所属的图像类别后,还可以基于所确定出的图像类别,进而图像识别、图像分割、图像检测等过程,本发明对后续的处理过程不做限定。
需要说明的是,上述各个实施例为基于训练好的图像分类模型,来对图像进行分类的过程。其中,该图像分类模型预先通过训练得到,下面对图像分类模型的训练过程进行说明。
在训练该图像分类模型时,可以采用迁移学习的方式,先通过公共样本图像,来对初始视觉转换器模型进行预训练,得到具备初步的图像分类能力的视觉转换器模型,进而基于特定的小样本图像和训练好的视觉转换器模型,继续进行模型训练,得到可以用于识别小样本图像所属的图像类别的图像分类模型。下面结合几个非限制性实施例,对具体的模型训练过程进行说明。
在一个实施例中,图像分类模型的训练过程参见图3,图3是根据本发明实施例示出的一种训练图像分类模型的流程图,如图3所示,训练图像分类模型的过程包括以下步骤:
步骤301、获取已标注有样本图像类别的多个第一样本图像。
其中,第一样本图像为获取难度小的公共样本图像。可选地,可以采用本领域所提供的大数据集中的图像,作为第一样本图像。例如,可以采用ImageNet、ImageNet-21k和JFT300M等大规模数据集中的图像,作为第一样本图像。
步骤302、将多个第一样本图像输入初始视觉转换器模型,通过初始视觉转换器模型,确定多个第一样本图像的预测图像类别。
其中,该初始视觉转换器(Vision Transformer)模型包括Embedding层、Transformer Encoder和多头感知器(Multilayer Perceptron Head,MLP Head)。
下面以对任意两个第一样本图像的处理过程为例,来对初始Vision Transformer内部的处理过程进行说明:
将任意两个第一样本图像输入初始Vision Transformer,通过该初始Vision Transformer的Embedding层,按照设定图形块大小,将这两个第一样本图像分别划分为多个符合设定图像块大小的图像块,进而分别采用线性映射的方式将每个图像块映射到一维向量中,从而得到各个图像块对应的一维向量,进而分别对这多个一维向量进行拼接,得到这两个第一样本图像对应的样本向量序列。
将这两个样本向量序列输入Transformer Encoder,通过Transformer Encoder,确定这两个第一样本图像的余弦相似度,具体过程与步骤1022的处理过程同理,此处不再赘述。
基于所确定出的余弦相似度以及其中一个第一样本图像的样本图像类别,通过MLP Head,确定这两个第一样本图像的预测图像类别。
步骤303、基于指示多个第一样本图像的预测图像类别和多个第一样本图像的样本图像类别之间的差异的第一损失函数,对初始视觉转换器模型进行训练,直至满足预设的训练完成条件,得到训练好的视觉转换器模型。
其中,与初始视觉转换器模型的结构相同,训练好的视觉转换器模型也包括嵌入层、转换器编码器和多头感知器。
需要说明的是,上述步骤302和步骤303中训练模型的过程为迭代处理过程,也即是,确定出第一个第一样本图像的预测图像类别后,基于指示第一个第一样本图像的预测图像类别和第一个第一样本图像的样本图像类别之间的差异的第一损失函数,更新初始视觉转换器模型的模型参数,得到经过第一次参数更新的视觉转换器模型;继续对第二个第一样本图像进行处理,在确定出第二个第一样本图像的预测图像类别后,基于指示第二个第一样本图像的预测图像类别和第二个第一样本图像的样本图像类别之间的差异的第一损失函数,继续进行模型参数的更新,得到经过第二次参数更新的视觉转换器模型,以此类推,直至满足预设的训练完成条件,将满足训练完成条件的视觉转换器模型,作为训练好的视觉转换器模型。
其中,训练完成条件为第一损失函数满足设定条件,或者,迭代次数达到设定 次数,等等,本发明对此不加以限定。
步骤304、基于训练好的视觉转换器模型,获取图像分类模型。
通过先采用样本数量较多的大数据集来对初始视觉转换器模型进行预训练,得到具备图像分类能力的视觉转换器模型,但视觉转换器模型对特定的小样本数据的分类准确性较差,进而基于小样本数据,继续对基于视觉转换器模型获取到的初始图像分类模型进行训练,得到对特定的小样本数据的分类准确性较高的图像分类模型,提高通过小样本学习训练得到的图像分类模型的分类准确性,也就提高了模型训练效果。
在本发明的一个实施例中,上述步骤304可以包括如下步骤:
步骤3041、从训练好的视觉转换器模型中,获取嵌入层和转换器编码器,组成初始图像分类模型。
也即是,初始图像分类模型包括嵌入层和转换器编码器。
步骤3042、获取已标注有相似度真值的多个第二样本图像。
其中,第一样本图像为获取难度较大的小样本图像。可选地,可以采用本领域所提供的小样本数据集中的图像,作为第二样本图像。例如,可以采用miniImageNet数据集中的图像作为第二样本图像。
可选地,该多个第二样本图像在后续进行图像分类时,可以直接作为第一图像使用。
步骤3043、对于多个第二样本图像中任意两个第二样本图像,将两个第二样本图像输入初始图像分类模型,通过初始图像分类模型,输出两个第二样本图像的第一相似度预测值。
该步骤3043的过程与上述步骤302中通过Embedding层和Transformer Encoder确定第一相似度的过程同理,具体过程可以参见上述步骤302,此处不再赘述。
步骤3044、基于指示第一相似度预测值和相似度真值之间的差异的第二损失函数,对初始图像分类模型进行训练。
需要说明的是,上述步骤3043和步骤3044中训练模型的过程为迭代处理过程,也即是,确定出第一对第二样本图像的第一相似度预测值后,基于指示第一对第二样本图像的第一相似度预测值和第一对第一样本图像的相似度真值之间的差异的第二损失函数,更新初始图像分类模型的模型参数,得到经过第一次参数更新的图像分类模 型;继续对第二对第二样本图像进行处理,在确定出第二对第二样本图像的第一相似度预测值后,基于指示第二对第二样本图像的第一相似度预测值和第二对第二样本图像的相似度真值之间的差异的第二损失函数,继续进行模型参数的更新,得到经过第二次参数更新的图像分类模型,以此类推,实现基于多个第二样本图像来训练模型的过程。
在本发明的一个实施例中,在对初始图像分类模型进行训练时,还可以结合基于初始图像分类模型的注意力矩阵所确定出的第二相似度预测值,来进行初始图像分类模型的训练。也即是,在执行完上述步骤3033后,还可以通过下述步骤3045至步骤3047,来完成模型训练过程。
步骤3045、基于初始图像分类模型的注意力矩阵,确定两个第二样本图像中目标区域的色彩分布信息之间的第二相似度预测结果。
该步骤3045所涉及的具体过程可以参见上述步骤1031和步骤1032,此处不再赘述。
步骤3046、基于第二相似度预测结果和预设相似度阈值,确定第二相似度预测值。
在一种可能的实现方式中,在第二相似度预测结果大于预设相似度阈值的情况下,将第二相似度预测值确定为第一数值。
在另一种可能的实现方式中,在第二相似度预测结果小于或等于预设相似度阈值的情况下,将第二相似度预测值确定为第二数值。
该步骤3046所涉及的具体过程可以参见上述步骤1031,此处不再赘述。
步骤3047、基于指示第二相似度预测值和相似度真值之间的差异的第二损失函数,以及指示第二相似度预测值和相似度真值之间的差异的第三损失函数,对初始图像分类模型进行训练。
在一种可能的实现方式中,该步骤3047可以包括如下步骤:
步骤一、基于第二损失函数对应的第一初始权重,以及第三损失函数对应的第二初始权重,对第二损失函数和第三损失函数进行加权求和,得到目标损失函数。
在一种可能的实现方式中,可以通过下述公式(3),来确定目标损失函数:
Loss=α′Loss 1+β′Loss 2 (3)
在上述公式(3)中,Loss表示目标损失函数,Loss1表示第二损失函数,Loss2表示第三损失函数,α′表示第一初始权重,β′表示第二初始权重。
步骤二、基于目标损失函数,对初始图像分类模型进行训练,直至满足训练完成条件,得到图像分类模型。
需要说明的是,上述步骤一和步骤二中训练模型的过程为迭代处理过程,迭代处理的具体过程与上述内容同理,此处不再赘述。
需要说明的是,在基于目标损失函数,对初始图像分类模型的模型参数进行调整时,还可以对第一初始权重和第二初始权重的取值进行调整,直至满足训练完成条件,即可得到图像分类过程中所使用的第一权重和第二权重。其中,调整第一初始权重和第二初始权重的取值的过程也为迭代处理过程。
需要说明的是,上述模型训练过程可以由服务器执行,在模型训练完成后,由服务器将训练好的图像分类模型部署到用于图像分类的终端设备上。需要说明的是,若用于图像分类的计算设备为服务器,则服务器可以在模型训练完成后,直接通过训练好的图像分类模型来进行图像分类。
本发明的实施例还提出了一种图像处理装置,参见图4,图4是根据本发明实施例示出的一种图像处理装置的框图,该装置包括:
图像获取模块401,用于获取待处理的目标图像;
相似度确定模块402,用于基于目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像与各个类别的第一图像的第一相似度,多个第一图像已标注有图像类别,多个第一图像对应于多个图像类别;
该相似度确定模块402,还用于基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的第二相似度;
类别确定模块403,用于基于第一相似度和第二相似度,从多个第一图像的图像类别中,确定目标图像所属的图像类别。
在本发明的一个实施例中,该色彩分布信息为色彩分布频谱;
该相似度确定模块402,在用于基于目标图像中目标区域的第一色彩分布信息,以及多个第一图像中目标区域的第二色彩分布信息,确定目标图像与多个第一图像的 第二相似度时,用于:
分别确定第一色彩分布频谱与各个第二色彩分布频谱的色彩分布相似度;
对于属于任一图像类别的至少一个第一图像,将至少一个第一图像所对应的色彩分布相似度中取值最大的色彩分布相似度,确定为目标图像与至少一个第一图像的第二相似度。
在本发明的一个实施例中,该装置还包括:
区域确定模块,用于基于图像分类模型的注意力矩阵,从目标图像和多个第一图像中,分别确定出目标区域;
信息获取模块,用于获取目标图像中目标区域的第一色彩分布信息,以及各个第一图像中目标区域的第二色彩分布信息。
在本发明的一个实施例中,第一相似度为余弦相似度,余弦相似度用于指示目标图像对应的第一特征向量与各个类别的第一图像分别对应的第二特征向量之间的余弦距离;
该相似度确定模块402,在用于基于目标图像对应的多个第一特征向量和多个第一图像分别对应的第二特征向量,确定目标图像与各个类别的第一图像的第一相似度时,包括序列确定子模块和相似度确定子模块;
该序列确定子模块,用于基于目标图像和多个第一图像,通过图像分类模型的嵌入层,确定用于表示目标图像的第一向量序列和用于表示多个第一图像的多个第二向量序列;
该相似度确定子模块,用于基于第一向量序列和多个第二向量序列,通过图像分类模型的编码器,获取第一特征向量和多个第二特征向量,并基于第一特征向量和多个第二特征向量,确定目标图像与多个第一图像的余弦相似度。
在本发明的一个实施例中,该相似度确定子模块,在用于基于第一向量序列和多个第二向量序列,通过图像分类模型的编码器,获取第一特征向量和多个第二特征向量,并基于第一特征向量和多个第二特征向量,确定目标图像与多个第一图像的余弦相似度时,包括向量确定单元、距离确定单元和相似度确定单元;
该向量确定单元,用于将第一向量序列和多个第二向量序列输入至编码器,通过编码器,确定第一向量序列所对应的第一特征向量,以及多个第二向量序列所对应 的多个第二特征向量;
该向量确定单元,还用于确定多个第二特征向量的均值向量;
该距离确定单元,用于确定第一特征向量与均值向量之间的余弦距离;
该相似度确定单元,用于基于余弦距离,确定目标图像与多个第一图像的余弦相似度。
在本发明的一个实施例中,该相似度确定单元,在用于基于余弦距离,确定目标图像与多个第一图像的余弦相似度时,用于下述任一项:
在余弦距离大于预设距离阈值的情况下,将余弦相似度确定为第一数值;
在余弦距离小于或等于预设距离阈值的情况下,将余弦相似度确定为第二数值。
在本发明的一个实施例中,该类别确定模块403,在用于基于第一相似度和第二相似度,从多个第一图像的图像类别中,确定目标图像所属的图像类别时,用于:
根据第一相似度对应的第一权重,以及第二相似度对应的第二权重,对第一相似度和第二相似度进行加权求和,得到目标图像与各个类别的第一图像的图像相似度;
将各个图像相似度中取值最大的目标图像相似度所对应的图像类别,确定为目标图像所属的图像类别。
在本发明的一个实施例中,该图像分类模型预先通过训练得到;
该装置还包括:
样本获取模块,用于获取已标注有样本图像类别的多个第一样本图像;
样本类别确定模块,用于将多个第一样本图像输入初始视觉转换器模型,通过初始视觉转换器模型,确定多个第一样本图像的预测图像类别;
训练模块,用于基于指示多个第一样本图像的预测图像类别和多个第一样本图像的样本图像类别之间的差异的第一损失函数,对初始视觉转换器模型进行训练,直至满足预设的训练完成条件,得到训练好的视觉转换器模型;
模型获取模块,用于基于训练好的视觉转换器模型,获取图像分类模型。
在本发明的一个实施例中,该训练好的视觉转换器模型包括嵌入层、转换器编码器和多头感知器;
该模型获取模块,在用于基于训练好的视觉转换器模型,获取图像分类模型时,包括模型获取子模块、样本获取子模块、第一预测子模块和第一训练子模块;
模型获取子模块,用于从训练好的视觉转换器模型中,获取嵌入层和转换器编码器,组成初始图像分类模型;
样本获取子模块,用于获取已标注有相似度真值的多个第二样本图像;
第一预测子模块,用于对于多个第二样本图像中任意两个第二样本图像,将两个第二样本图像输入初始图像分类模型,通过初始图像分类模型,输出两个第二样本图像的第一相似度预测值;
第一训练子模块,用于基于指示第一相似度预测值和相似度真值之间的差异的第二损失函数,对初始图像分类模型进行训练。
在本发明的一个实施例中,该模型获取模块,还包括结果确定子模块、第二预测子模块和第二训练子模块;
结果确定子模块,用于基于初始图像分类模型的注意力矩阵,确定两个第二样本图像中目标区域的色彩分布信息之间的第二相似度预测结果;
第二预测子模块,用于基于第二相似度预测结果和预设相似度阈值,确定第二相似度预测值;
第二训练子模块,用于基于指示第一相似度预测值和相似度真值之间的差异的第二损失函数,以及指示第二相似度预测值和相似度真值之间的差异的第三损失函数,对初始图像分类模型进行训练。
在本发明的一个实施例中,该第二预测子模块,在用于基于第二相似度预测结果和预设相似度阈值,确定第二相似度预测值时,用于下述任一项:
在第二相似度预测结果大于预设相似度阈值的情况下,将第二相似度预测值确定为第一数值;
在第二相似度预测结果小于或等于预设相似度阈值的情况下,将第二相似度预测值确定为第二数值。
在本发明的一个实施例中,该第二训练子模块,在用于基于指示第一相似度预测值和相似度真值之间的差异的第二损失函数,以及指示第二相似度预测值和相似度真值之间的差异的第三损失函数,对初始图像分类模型进行训练时,用于:
基于第二损失函数对应的第一初始权重,以及第三损失函数对应的第二初始权重,对第二损失函数和第三损失函数进行加权求和,得到目标损失函数;
基于目标损失函数,对初始图像分类模型进行训练,直至满足训练完成条件,得到图像分类模型。
上述装置中各个模块、子模块及单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块、子模块及单元可以是或者也可以不是物理上分开的,作为模块、子模块及单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明还提供了一种计算设备,参见图5,图5是根据本发明实施例示出的一种计算设备的结构示意图。如图5所示,计算设备包括处理器510、存储器520和网络接口530,存储器520用于存储可在处理器510上运行的计算机程序代码,处理器510用于在执行该计算机程序代码时实现本发明任一实施例所提供的图像处理方法,网络接口530用于实现输入输出功能。在更多可能的实现方式中,计算设备还可以包括其他硬件,本发明对此不做限定。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质可以是多种形式,比如,在不同的例子中,计算机可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。特殊的,计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明任一实施例所提供的图像处理方法。
本发明还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本发明任一实施例所提供的图像处理方法。
在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示 相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (15)

  1. 一种图像处理方法,其特征在于,所述方法包括:
    获取待处理的目标图像;
    基于所述目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定所述目标图像与各个类别的第一图像的第一相似度,所述多个第一图像已标注有图像类别,所述多个第一图像对应于多个图像类别;
    基于所述目标图像中目标区域的第一色彩分布信息,以及所述多个第一图像中目标区域的第二色彩分布信息,确定所述目标图像与所述多个第一图像的第二相似度;
    基于所述第一相似度和所述第二相似度,从所述多个第一图像的图像类别中,确定所述目标图像所属的图像类别。
  2. 根据权利要求1所述的方法,其特征在于,所述色彩分布信息为色彩分布频谱;所述基于所述目标图像中目标区域的第一色彩分布信息,以及所述多个第一图像中目标区域的第二色彩分布信息,确定所述目标图像与所述多个第一图像的第二相似度,包括:
    分别确定所述第一色彩分布频谱与各个第二色彩分布频谱的色彩分布相似度;
    对于属于任一图像类别的至少一个第一图像,将所述至少一个第一图像所对应的色彩分布相似度中取值最大的色彩分布相似度,确定为所述目标图像与所述至少一个第一图像的第二相似度。
  3. 根据权利要求2所述的方法,其特征在于,所述基于所述目标图像中目标区域的第一色彩分布信息,以及所述多个第一图像中目标区域的第二色彩分布信息,确定所述目标图像与所述多个第一图像的第二相似度之前,所述方法还包括:
    基于图像分类模型的注意力矩阵,从所述目标图像和所述多个第一图像中,分别确定出所述目标区域;
    获取所述目标图像中目标区域的第一色彩分布信息,以及各个第一图像中目标区域的第二色彩分布信息。
  4. 根据权利要求1所述的方法,其特征在于,所述第一相似度为余弦相似度,所述余弦相似度用于指示所述目标图像对应的第一特征向量与各个类别的第一图像分别对应的第二特征向量之间的余弦距离;
    所述基于所述目标图像对应的第一特征向量和多个第一图像分别对应的第二特征向量,确定所述目标图像与各个类别的第一图像的第一相似度,包括:
    基于所述目标图像和所述多个第一图像,通过图像分类模型的嵌入层,确定用于表示所述目标图像的第一向量序列和用于表示所述多个第一图像的多个第二向量序列;
    基于所述第一向量序列和所述多个第二向量序列,通过所述图像分类模型的编码器,获取所述第一特征向量和多个第二特征向量,并基于所述第一特征向量和所述多个第二特征向量,确定所述目标图像与所述多个第一图像的余弦相似度。
  5. 根据权利要求4所述的方法,其特征在于,所述基于所述第一向量序列和所述多个第二向量序列,通过所述图像分类模型的编码器,获取所述第一特征向量和多个第二特征向量,并基于所述第一特征向量和所述多个第二特征向量,确定所述目标图像与所述多个第一图像的余弦相似度,包括:
    将所述第一向量序列和所述多个第二向量序列输入至所述编码器,通过所述编码器,确定所述第一向量序列所对应的第一特征向量,以及所述多个第二向量序列所对应的多个第二特征向量;
    对于属于任一图像类别的至少一个第一图像,确定所述至少一个第一图像所对应的第二特征向量的均值向量;
    确定所述第一特征向量与所述均值向量之间的余弦距离,基于所述余弦距离,确定所述目标图像与所述至少一个第一图像的余弦相似度。
  6. 根据权利要求5所述的方法,其特征在于,所述基于所述余弦距离,确定所述目标图像与所述多个第一图像的余弦相似度,包括下述任一项:
    在所述余弦距离大于预设距离阈值的情况下,将所述余弦相似度确定为第一数值;
    在所述余弦距离小于或等于预设距离阈值的情况下,将所述余弦相似度确定为第二数值。
  7. 根据权利要求1所述的方法,其特征在于,所述基于所述第一相似度和所述第二相似度,从所述多个第一图像的图像类别中,确定所述目标图像所属的图像类别,包括:
    根据所述第一相似度对应的第一权重,以及所述第二相似度对应的第二权重,对 所述第一相似度和所述第二相似度进行加权求和,得到所述目标图像与各个类别的第一图像的图像相似度;
    将各个图像相似度中取值最大的目标图像相似度所对应的图像类别,确定为所述目标图像所属的图像类别。
  8. 根据权利要求1所述的方法,其特征在于,所述图像分类模型预先通过训练得到;
    所述图像分类模型的训练过程包括:
    获取已标注有样本图像类别的多个第一样本图像;
    将所述多个第一样本图像输入初始视觉转换器模型,通过所述初始视觉转换器模型,确定所述多个第一样本图像的预测图像类别;
    基于指示所述多个第一样本图像的预测图像类别和所述多个第一样本图像的样本图像类别之间的差异的第一损失函数,对所述初始视觉转换器模型进行训练,直至满足预设的训练完成条件,得到训练好的视觉转换器模型;
    基于所述训练好的视觉转换器模型,获取所述图像分类模型。
  9. 根据权利要求8所述的方法,其特征在于,所述训练好的视觉转换器模型包括嵌入层、转换器编码器和多头感知器;
    所述基于所述训练好的视觉转换器模型,获取所述图像分类模型,包括:
    从所述训练好的视觉转换器模型中,获取嵌入层和转换器编码器,组成初始图像分类模型;
    获取已标注有相似度真值的多个第二样本图像;
    对于所述多个第二样本图像中任意两个第二样本图像,将所述两个第二样本图像输入初始图像分类模型,通过所述初始图像分类模型,输出所述两个第二样本图像的第一相似度预测值;
    基于指示所述第一相似度预测值和所述相似度真值之间的差异的第二损失函数,对所述初始图像分类模型进行训练。
  10. 根据权利要求9所述的方法,其特征在于,所述方法还包括:
    基于所述初始图像分类模型的注意力矩阵,确定所述两个第二样本图像中目标区域的色彩分布信息之间的第二相似度预测结果;
    基于所述第二相似度预测结果和预设相似度阈值,确定第二相似度预测值;
    基于指示所述第一相似度预测值和所述相似度真值之间的差异的第二损失函数,以及指示所述第二相似度预测值和所述相似度真值之间的差异的第三损失函数,对所述初始图像分类模型进行训练。
  11. 根据权利要求10所述的方法,其特征在于,所述基于所述第二相似度预测结果和预设相似度阈值,确定第二相似度预测值,包括下述任一项:
    在所述第二相似度预测结果大于预设相似度阈值的情况下,将所述第二相似度预测值确定为第一数值;
    在所述第二相似度预测结果小于或等于预设相似度阈值的情况下,将所述第二相似度预测值确定为第二数值。
  12. 根据权利要求10所述的方法,其特征在于,所述基于指示所述第一相似度预测值和所述相似度真值之间的差异的第二损失函数,以及指示所述第二相似度预测值和所述相似度真值之间的差异的第三损失函数,对所述初始图像分类模型进行训练,包括:
    基于所述第二损失函数对应的第一初始权重,以及所述第三损失函数对应的第二初始权重,对所述第二损失函数和所述第三损失函数进行加权求和,得到目标损失函数;
    基于所述目标损失函数,对所述初始图像分类模型进行训练,直至满足训练完成条件,得到所述图像分类模型。
  13. 一种图像处理装置,其特征在于,所述装置包括:
    图像获取模块,用于获取待处理的目标图像;
    相似度确定模块,用于基于所述目标图像和多个第一图像,确定所述目标图像与各个类别的第一图像的第一相似度,所述多个第一图像已标注有图像类别,所述多个第一图像对应于多个图像类别;
    所述相似度确定模块,还用于基于所述目标图像中目标区域的第一色彩分布信息,以及所述多个第一图像中目标区域的第二色彩分布信息,确定所述目标图像与所述多个第一图像的第二相似度;
    类别确定模块,用于基于所述第一相似度和所述第二相似度,从所述多个第一图 像的图像类别中,确定所述目标图像所属的图像类别。
  14. 一种计算设备,其特征在于,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至12中任一项所述的图像处理方法所执行的操作。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行时,实现如权利要求1-12中任一项所述的图像处理方法所执行的操作。
CN202180003422.2A 2021-11-17 2021-11-17 图像处理方法、装置、计算设备及介质 Pending CN116457776A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/131260 WO2023087184A1 (zh) 2021-11-17 2021-11-17 图像处理方法、装置、计算设备及介质

Publications (1)

Publication Number Publication Date
CN116457776A true CN116457776A (zh) 2023-07-18

Family

ID=86396178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180003422.2A Pending CN116457776A (zh) 2021-11-17 2021-11-17 图像处理方法、装置、计算设备及介质

Country Status (3)

Country Link
US (1) US20240153240A1 (zh)
CN (1) CN116457776A (zh)
WO (1) WO2023087184A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116908051B (zh) * 2023-06-21 2023-12-29 广州市嘉雁粘合剂有限公司 一种热熔胶流动性能检测方法
CN116539167B (zh) * 2023-07-04 2023-09-08 陕西威思曼高压电源股份有限公司 一种高压电源工作温度分布数据分析方法
CN117609529B (zh) * 2023-10-20 2024-09-10 粤港澳大湾区(广东)国创中心 电子元器件的替代检索方法及其系统
CN117746214B (zh) * 2024-02-07 2024-05-24 青岛海尔科技有限公司 基于大模型生成图像的文本调整方法、装置、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
CN109947991A (zh) * 2017-10-31 2019-06-28 腾讯科技(深圳)有限公司 一种关键帧提取方法、装置和存储介质
CN111709873B (zh) * 2020-05-27 2023-06-20 北京百度网讯科技有限公司 图像转换模型生成器的训练方法和装置

Also Published As

Publication number Publication date
US20240153240A1 (en) 2024-05-09
WO2023087184A1 (zh) 2023-05-25

Similar Documents

Publication Publication Date Title
CN110136103B (zh) 医学影像解释方法、装置、计算机设备及存储介质
CN116457776A (zh) 图像处理方法、装置、计算设备及介质
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
Rathod et al. Diagnosis of skin diseases using Convolutional Neural Networks
CN108280477B (zh) 用于聚类图像的方法和装置
CN108345875B (zh) 可行驶区域检测模型训练方法、检测方法和装置
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN108256479B (zh) 人脸跟踪方法和装置
CN112348117B (zh) 场景识别方法、装置、计算机设备和存储介质
CN110838125B (zh) 医学图像的目标检测方法、装置、设备、存储介质
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN115953665B (zh) 一种目标检测方法、装置、设备及存储介质
CN111695673B (zh) 训练神经网络预测器的方法、图像处理方法及装置
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
US20210012504A1 (en) Encoder Regularization of a Segmentation Model
US20220301297A1 (en) System, method and apparatus for obtaining sensitive and specific predictions from deep neural networks
US20240087368A1 (en) Companion animal life management system and method therefor
US20220292328A1 (en) Convolutional artificial neural network based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server
Albattah et al. Custom CornerNet: a drone-based improved deep learning technique for large-scale multiclass pest localization and classification
JP7225731B2 (ja) 多変数データシーケンスの画像化
CN114495241B (zh) 一种图像识别方法及装置、电子设备、存储介质
CN113240120A (zh) 基于温习机制的知识蒸馏方法、装置、计算机设备和介质
CN111353429A (zh) 基于眼球转向的感兴趣度方法与系统
CN110399868B (zh) 一种滨海湿地鸟类检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination