CN112307934B - 图像检测方法及相关模型的训练方法、装置、设备、介质 - Google Patents

图像检测方法及相关模型的训练方法、装置、设备、介质 Download PDF

Info

Publication number
CN112307934B
CN112307934B CN202011167402.2A CN202011167402A CN112307934B CN 112307934 B CN112307934 B CN 112307934B CN 202011167402 A CN202011167402 A CN 202011167402A CN 112307934 B CN112307934 B CN 112307934B
Authority
CN
China
Prior art keywords
image
sample
category
images
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011167402.2A
Other languages
English (en)
Other versions
CN112307934A (zh
Inventor
唐诗翔
蔡官熊
郑清源
陈大鹏
赵瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN202111108726.3A priority Critical patent/CN113850179A/zh
Priority to CN202011167402.2A priority patent/CN112307934B/zh
Priority to PCT/CN2020/135472 priority patent/WO2022088411A1/zh
Priority to KR1020227008920A priority patent/KR20220058915A/ko
Priority to TW110100322A priority patent/TWI754515B/zh
Publication of CN112307934A publication Critical patent/CN112307934A/zh
Application granted granted Critical
Publication of CN112307934B publication Critical patent/CN112307934B/zh
Priority to US17/718,585 priority patent/US20220237907A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像检测方法及相关模型的训练方法、装置、设备、介质,其中,图像检测方法包括:多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性;利用类别相关度,更新多张图像的图像特征;利用更新后的图像特征,得到目标图像的图像类别检测结果。上述方案,能够提高图像类别检测的准确性。

Description

图像检测方法及相关模型的训练方法、装置、设备、介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像检测方法及相关模型的训练方法、装置、设备、介质。
背景技术
近年来,随着信息技术的发展,图像类别检测已在人脸识别、视频监控等诸多场景得到了广泛应用。例如,在人脸识别场景中,基于图像类别检测,可以对若干人脸图像进行识别分类,从而有助于在若干人脸图像中分辨出用户指定人脸。一般而言,图像类别检测的准确性通常是衡量其性能的主要指标之一。故此,如何提高图像类别检测的准确性成为极具研究价值的课题。
发明内容
本申请提供一种图像检测方法及相关模型的训练方法、装置、设备、介质。
本申请第一方面提供了一种图像检测方法,包括:获取多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性;利用类别相关度,更新多张图像的图像特征;利用更新后的图像特征,得到目标图像的图像类别检测结果。
因此,获取多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性,并利用类别相关度,更新图像特征,从而利用更新后的图像特征,得到目标图像的图像类别检测结果。故此,通过利用类别相关度,更新图像特征,能够使相同图像类别的图像对应的图像特征趋于接近,并使不同图像类别的图像对应的图像特征趋于疏离,从而能够有利于提高图像特征的鲁棒性,并有利于捕捉到图像特征的分布情况,进而能够有利于提高图像类别检测的准确性。
其中,利用更新后的图像特征,确定目标图像的图像类别检测结果,包括:利用更新后的图像特征进行预测处理,得到概率信息,其中,概率信息包括目标图像属于至少一种参考类别的第一概率值,参考类别是参考图像所属的图像类别;基于第一概率值,得到图像类别检测结果;其中,图像类别检测结果用于指示目标图像所属的图像类别。
因此,通过利用更新后的图像特征进行预测处理,得到概率信息,且概率信息包括目标图像属于至少一种参考类别的第一概率值,从而基于第一概率值,得到图像类别检测结果,且图像类别检测结果用于指示目标图像所属的图像类别,进而能够在利用类别相关度更新后的图像特征的基础上进行预测,得到目标图像属于至少一种图像类别的第一概率值,能够有利于预测准确性。
其中,概率信息还包括参考图像属于至少一种参考类别的第二概率值;在基于第一概率值,得到图像类别检测结果之前,方法还包括:在执行预测处理的次数满足预设条件的情况下,利用概率信息,更新类别相关度;并重新执行利用类别相关度,更新多张图像的图像特征的步骤,在执行预测处理的次数不满足预设条件的情况下,基于第一概率值,得到图像类别检测结果。
因此,通过将概率信息设置为还包括参考图像属于至少一种参考类别的第二概率值,并在基于第一概率值,得到图像类别检测结果之前,进一步在执行预测处理的次数满足预设条件的情况下,利用概率信息,更新类别相关度,且重新执行利用类别相关度,更新图像特征的步骤,以及在执行预测处理的次数不满足预设条件的情况下,基于第一概率值,得到图像类别检测结果。故此,能够在执行预测处理的次数满足预设条件的情况下,利用目标图像属于至少一种参考类别的第一概率值和参考图像属于至少一种参考类别的第二概率值,来更新类别相关度,从而提高类别相似度的鲁棒性,并继续利用更新后的类别相似度,来更新图像特征,从而又提高图像特征的鲁棒性,进而能够使得类别相似度和图像特征相互促进,相辅相成,并在执行预测处理的次数不满足预设条件的情况下,基于第一概率值,得到图像类别检测结果,从而能够有利于进一步提高图像类别检测的准确性。
其中,类别相关度包括:每组图像对属于相同图像类别的最终概率值;利用概率信息,更新类别相关度,包括:分别以多张图像中每张图像作为当前图像,并将包含当前图像的图像对作为当前图像对;获取当前图像的所有当前图像对的最终概率值之和,作为当前图像的概率和;以及利用第一概率值和第二概率值,分别获取每组当前图像对属于相同图像类别的参考概率值;分别利用概率和、参考概率值,调整每组当前图像对的最终概率值。
因此,将类别相关度设置为包括每组图像对属于相同图像类别的最终概率值,并分别以多张图像中每张图像作为当前图像,将包含当前图像的图像对作为当前图像对,从而获取当前图像的所有当前图像对的最终概率值,作为当前图像的概率和,以及利用第一概率值和第二概率值,分别获取每组图像对属于相同图像类别的参考概率值,进而分别利用概率和、参考概率值,调整每组当前图像对的最终概率值。故此,能够利用每组当前图像对属于相同图像类别的参考概率值,来更新类别相关度,从而能够有利于聚合图像所属的图像类别,提升类别相关度的准确性。
其中,利用更新后的图像特征进行预测处理,得到概率信息,包括:利用更新后的图像特征,预测目标图像和参考图像所属的预测类别,其中,预测类别属于至少一个参考类别;针对每组图像对,获取图像对的类别比对结果和特征相似度,并得到图像对关于类别比对结果和特征相似度间的第一匹配度,其中,类别比对结果表示图像对所属的预测类别是否相同,特征相似度表示图像对的图像特征间的相似度;以及,基于参考图像所属的预测类别和参考类别,得到参考图像关于预测类别与参考类别的第二匹配度;利用第一匹配度和第二匹配度,得到概率信息。
因此,利用更新后的图像特征,预测目标图像和参考图像所属的预测类别,且预测类别属于至少一个参考类别,从而针对每组图像对,获取图像对的类别比对结果和特征相似度,并得到图像对关于类别比对结果和特征相似度间的第一匹配度,且类别比对结果表示图像对所属的预测类别是否相同,特征相似度表示图像对的图像特征间的相似度,并基于参考图像所属的预测类别和参考类别,得到参考图像关于预测类别与参考类别的第二匹配度,进而利用第一匹配度和第二匹配度,得到概率信息。故此,通过获取图像对关于类别比对结果和相似度的第一匹配度,能够在预测类别的类别比对结果以及特征相似度之间的匹配程度基础上,从任图像对的维度,表征图像类别检测的准确度,并通过获取参考图像关于预测类别与参考类别的第二匹配度,能够在预测类别与参考类别之间的匹配程度基础上,从单个图像的维度,表征图像类别检测的准确度,并结合任意两个图像和单个图像两个维度,来得到概率信息,能够有利于提高概率信息预测准确性。
其中,在类别比对结果为预测类别相同的情况下,特征相似度与第一匹配度正相关,在类别比对结果为预测类别不同的情况下,特征相似度与第一匹配度负相关,且预测类别与参考类别相同时的第二匹配度大于预测类别与参考类别不同时的第二匹配度。
因此,在类别比对结果为预测类别相同的情况下,将特征相似度设置为与第一匹配度正相关,在类别比对结果为预测类别不同的情况下,将特征相似度设置为与第一匹配度负相关,从而在类别比对结果为预测类别相同时,特征相似度越高,与类别对比结果的第一匹配度也越高,即特征相似度与类别比对结果越匹配,而在类别比对结果为预测类别不同时,特征相似度越高,与类别比对结果的第一匹配度越低,即特征相似度与类别比对结果越不匹配,从而能够有利于在后续概率信息的预测过程中,捕捉到任意两个图像之间图像类别相同的可能性,进而有利于提高概率信息预测的准确性,此外,由于预测类别与参考类别相同时的第二匹配度大于预测类别与参考类别不同时的第二匹配度,有利于在后续概率信息的预测过程中,捕捉到单个图像的图像特征的准确性,进而有利于提高概率信息预测的准确性。
其中,利用更新后的图像特征,预测图像所属的预测类别,包括:基于条件随机场网络,利用更新后的图像特征,预测图像所属的预测类别。
因此,通过基于条件随机场网络,利用更新后的图像特征,预测目标图像和参考图像所属的预测类别,能够有利于提高预测的准确性和效率。
其中,利用第一匹配度和第二匹配度,得到概率信息,包括:基于循环信念传播,利用第一匹配度和第二匹配度,得到概率信息。
因此,基于循环信念传播,利用第一匹配度和第二匹配度,得到概率信息,能够有利于提高概率信息的准确性。
其中,预设条件包括:执行预测处理的次数未达到预设阈值。
因此,将预设条件设置为:执行预测处理的次数未达到预设阈值,能够有利于在图像类别检测过程中,通过预设阈值次数的循环迭代,充分捕捉图像之间类别关系,从而能够有利于提高图像类别检测的准确性。
其中,利用类别相关度,更新多张图像的图像特征的步骤是由图神经网络执行的。
因此,通过利用图神经网络执行上述利用类别相关度,更新图像特征的步骤,能够有利于提高图像特征更新的效率。
其中,利用类别相关度,更新多张图像的图像特征,包括:利用类别相关度和图像特征,得到类内图像特征和类间图像特征;利用类内图像特征和类间图像特征进行特征转换,得到更新后的图像特征。
因此,通过利用类别相关度和图像特征,得到类内图像特征和类间图像特征,并结合类内图像特征和类间图像特征两个维度进行特征转换,得到更新后的图像特征,能够提高图像特征更新的准确性。
其中,图像检测方法还包括:在图像对属于相同图像类别的情况下,将图像对初始的类别相关度确定为预设上限值;在图像对属于不同图像类别的情况下,将图像对初始的类别相关度确定为预设下限值;在图像对中至少一个为目标图像的情况下,将图像对初始的类别相关度确定为预设下限值和预设上限值之间的预设数值。
因此,通过在图像对属于相同图像类别的情况下,将图像对初始的类别相关度确定为预设上限值,并在图像对属于不同图像类别的情况在,将图像对初始的类别相关度确定为预设下限值,在图像对中至少一个为目标图像的情况下,将图像对初始的类别相关度确定为预设下限值和预设上限值之间的预设数值,从而能够利用上述预设上限值、预设下限值和预设数值,表征图像对的图像类别相同的可能性,以便后续处理,进而能够提高表征类别相关度的便利性和准确性。
本申请第二方面提供了一种图像类别检测模型的训练方法,包括:获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度,其中,多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性;基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征;基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果;利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。
因此,获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度,且多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性,并基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征,从而基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果,进而利用图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。故此,通过利用样本类别相关度,更新样本图像特征,能够使相同图像类别的图像对应的样本图像特征趋于接近,并使不同图像类别的图像对应的样本图像特征趋于疏离,从而能够有利于提高样本图像特征的鲁棒性,并有利于捕捉到样本图像特征的分布情况,进而能够有利于提高图像检测模型的准确性。
其中,基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果,包括:基于第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息,其中,样本概率信息包括样本目标图像属于至少一种参考类别的第一样本概率值和样本参考图像属于至少一种参考类别的第二样本概率值,参考类别是样本参考图像所属的图像类别;基于第一样本概率值,得到样本目标图像的图像类别检测结果;在利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数之前,方法还包括:利用第一样本概率值和第二样本概率值,更新样本类别相关度;利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数,包括:利用第一样本概率值和样本目标图像标注的图像类别,得到图像检测模型的第一损失值;以及,利用样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度,得到图像检测模型的第二损失值;基于第一损失值和第二损失值,调整图像检测模型的网络参数。
因此,基于第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息,且样本概率信息包括样本目标图像属于至少一种参考类别的第一样本概率值和样本参考图像属于至少一种参考类别的第二样本概率值,且参考类别是样本参考图像所属的图像类别,从而基于第一样本概率值,得到样本目标图像的图像类别检测结果,并利用第一样本概率值和第二样本概率值,更新样本类别相关度,进而利用第一样本概率值和样本目标图像标注的图像类别,得到图像检测模型的第一损失值,并利用样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度,得到图像检测模型的第二损失值,从而基于第一损失值和第二损失值,调整图像检测模型的网络参数,故此能够从两个图像间的类别相关度的维度,以及单个图像的图像类别的维度,来调整图像检测模型的网络参数,进而能够有利于提高图像检测模型的准确性。
其中,图像检测模型包括至少一个顺序连接的网络层,每个网络层包括一个第一网络和一个第二网络;在基于第一损失值和第二损失值,调整图像检测模型的网络参数之前,方法还包括:在当前网络层不是图像检测模型的最后一层网络层的情况下,利用当前网络层的下一网络层,重新执行基于图像检测模型的第一网络,利用样本类别相关度,更新样本图像特征的步骤以及后续步骤,直至当前网络层是图像检测模型的最后一层网络层为止;基于第一损失值和第二损失值,调整图像检测模型的网络参数,包括:利用与各个网络层对应的第一权值分别将与各个网络层对应的第一损失值进行加权处理,得到第一加权损失值;以及,利用与各个网络层对应的第二权值分别将与各个网络层对应的第二损失值进行加权处理,得到第二加权损失值;基于第一加权损失值和第二加权损失值,调整图像检测模型的网络参数;其中,网络层在图像检测模型中越靠后,网络层对应的第一权值和第二权值均越大。
因此,将图像检测模型设置为包括至少一个顺序连接的网络层,且每个网络层包括一个第一网络和一个第二网络,并在当前网络层不是图像检测模型的最后一层网络层的情况下,利用当前网络层的下一网络层,重新执行基于图像检测模型的第一网络,利用样本类别相关度,更新样本图像特征的步骤以及后续步骤,直至当前网络层是图像检测模型的最后一层网络层为止,从而利用与各个网络层对应的第一权值分别将与各个网络层对应的第一损失值进行加权处理,得到第一加权损失值,并利用与各个网络层对应的第二权值分别将与各个网络层对应的第二损失值进行加权处理,得到第二加权损失值,进而基于第一加权损失值和第二加权损失值,调整图像检测模型的网络参数,且网络层在图像检测模型中越靠后,网络层对应的第一权值和第二权值均越大,能够获取到图像检测模型各层的网络层对应的损失值,且将越靠后的网络层对应的权值设置地越大,进而能够充分利用各层网络层处理所得的数据,调整图像检测的网络参数,有利于提高图像检测模型的准确性。
本申请第三方面提供了一种图像检测装置,包括图像获取模块、特征更新模块和结果获取模块,图像获取模块用于获取多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性;特征更新模块用于利用类别相关度,更新多张图像的图像特征;结果获取模块用于利用更新后的图像特征,得到目标图像的图像类别检测结果。
本申请第四方面提供了一种图像检测模型的训练装置,包括样本获取模块、特征更新模块、结果获取模块和参数调整模块,样本获取模块用于多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度,且多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性;特征更新模块用于基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征;结果获取模块用于基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果;参数更新模块用于利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。
本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的图像检测方法,或实现上述第二方面中的图像检测模型的训练方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的图像检测方法,或实现上述第二方面的图像检测模型的训练方法。
上述方案,获取多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性,并利用类别相关度,更新图像特征,从而利用更新后的图像特征,得到目标图像的图像类别检测结果。故此,通过利用类别相关度,更新图像特征,能够使相同图像类别的图像对应的图像特征趋于接近,并使不同图像类别的图像对应的图像特征趋于疏离,从而能够有利于提高图像特征的鲁棒性,并有利于捕捉到图像特征的分布情况,进而能够有利于提高图像类别检测的准确性。
附图说明
图1是本申请图像检测方法一实施例的流程示意图;
图2是本申请图像检测方法另一实施例的流程示意图;
图3是本申请图像检测方法又一实施例的流程示意图;
图4是本申请图像检测方法一实施例的状态示意图;
图5是本申请图像检测模型的训练方法一实施例的流程示意图;
图6是本申请图像检测模型的训练方法另一实施例的流程示意图;
图7是本申请图像检测装置一实施例的框架示意图;
图8是本申请图像检测模型的训练装置一实施例的框架示意图;
图9是本申请电子设备一实施例的框架示意图;
图10是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
本申请图像检测方法可用于检测图像的图像类别。图像类别具体可以根据实际应用情况进行设置。例如,为了区分图像是属于“人”,还是“动物”,图像类别可以设置为包括:人、动物;或者,为了区分图像是属于“男性”,还是“女性”,图像类别可以设置为包括:男性、女性;或者,为了区分图像是属于“白人男性”、还是“白人女性”,抑或是“黑人男性”、“黑人女性”,图像类别可以设置为包括:白人男性、白人女性、黑人男性、黑人女性,在此不做限定。此外,需要说明的是,本申请图像检测方法具体可以用于监控相机(或与监控相机连接的计算机、平板电脑等电子设备),从而在拍摄到图像之后,可以利用本申请所公开的图像检测方法检测其所属的图像类别;或者,本申请图像检测方法也可以用于计算机、平板电脑等电子设备,从而在获取到图像之后,可以利用本申请公开的图像检测方法检测出其所属的图像类别,具体请参阅本申请如下公开实施例。
请参阅图1,图1是本申请图像检测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取多张图像的图像特征以及至少一组图像对的类别相关度。
本公开实施例中,多张图像包括目标图像和参考图像。具体地,目标图像为图像类别未知的图像,而参考图像为图像类别已知的图像。例如,参考图像可以包括:图像类别为“白人”的图像、图像类别为“黑人”的图像,目标图像中包括一个人脸,但未知其具体是属于“白人”还是“黑人”,在此基础上,可以利用本公开实施例中的步骤,检测出其属于“白人”还是“黑人”,其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,为了提高提取图像特征的效率,可以预先训练一图像检测模型,且该图像检测模型包括一个特征提取网络,用于提取目标图像和参考图像的图像特征。具体训练过程可以参阅本申请图像检测模型的训练方法实施例中的步骤,在此暂不赘述。
在一个具体的实施场景中,特征提取网络可以包含顺序连接的骨干网络、池化层和全连接层。骨干网络具体可以是卷积网络、残差网络(如,ResNet12)中的任一者。卷积网络可以包含若干个(如,4个)卷积块,每个卷积块包含顺序连接的卷积层、批归一化层(batch normalization)、激活层(如,ReLu)。此外,卷积网络中最后若干个(如,最后2个)卷积块中还可以包含丢弃层(dropout layer)。池化层具体可以是全局平均池化(GlobalAverage Pooling,GAP)层。
在一个具体的实施场景中,目标图像和参考图像经上述特征提取网络处理后,可以得到预设维数(如,128维)的图像特征。具体地,图像特征可以以向量形式进行表示。
本公开实施例中,多张图像中每两张图像组成一组图像对。例如,多张图像包含参考图像A、参考图像B和目标图像C,则图像对可以包括:参考图像A和目标图像C、参考图像B和目标图像C、参考图像A和目标图像C,其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,图像对属于相同图像类别可能性的类别相关度具体可以包括:图像对属于相同图像类别的最终概率值。例如,当最终概率值为0.9时,可以认为图像对属于相同图像类别的可能性较高;或者,当最终概率值为0.1时,可以认为图像对属于相同图像类别的可能性较低;或者,当最终概率值为0.5时,可以认为图像对属于相同图像类别的可能性和属于不同图像类别的可能性均等。
在一个具体的实施场景中,在开始执行本公开实施例中的步骤时,可以初始化图像对属于相同图像类别的类别相关度。具体地,在图像对属于相同图像类别的情况下,可以将图像对初始的类别相关度确定为预设上限值,例如,当通过上述最终概率值表示类别相关度时,可以将预设上限值设置为1;此外,在图像对属于不同图像类别的情况下,将图像对初始的类别相关度确定为预设下限值,例如,当通过上述最终概率值表示类别相关度时,可以将预设下限值设置为0;此外,由于目标图像为待检测的图像,故此,在图像对中至少一个为目标图像时,图像对属于相同图像类别的类别相关度无法确定,为了提高初始化类别相关度的鲁棒性,可以将类别相关度确定为预设下限值和预设上限值之间的预设数值,例如,当通过上述最终概率值表示类别相关度时,可以将预设数值设置为0.5,当然也可以根据需要设置为0.4、0.6、0.7,在此不做限定。
在另一个具体的实施场景中,为了便于描述,在通过最终概率值表示类别相关度时,可以将目标图像和参考图像中第i个图像和第j个图像之间初始化的最终概率值记为
Figure BDA0002746217690000071
此外共有N种图像类别的参考图像,且每种图像类别对应有K个参考图像,则第1个至第NK个图像为参考图像时,第i个参考图像和第j个参考图像所标注的图像类别可以分别记为yi,yj,则图像对属于相同图像类别的初始化的最终概率值记为
Figure BDA0002746217690000081
可以表示为:
Figure BDA0002746217690000082
故此,当目标图像有T个时,即第NK+1至第NK+T个图像为目标图像时,可以图像对的类别相关度表示为一个(NK+T)*(NK+T)的矩阵。
在一个实施场景中,图像类别具体可以根据实际应用场景进行设置。例如,在人脸识别场景中,图像类别可以以年龄为维度,具体包括:“儿童”、“青少年”、“老年”等,或者可以以人种和性别为维度,具体包括:“白人女性”、“黑人女性”、“白人男性”、“黑人男性”等;或者,在医学图像分类场景中,图像类别可以以造影时长为维度,具体可以包括:“动脉期”、“门脉期”、“延迟期”等等。其他场景可以以此类推,在此不在一一举例。
在一个具体的实施场景中,如前所述,可以共有N种图像类别的参考图像,且每种图像类别对应有K个参考图像,N为大于或等于1的整数,K为大于或等于1的整数,即本公开图像检测方法实施例可以用于标注有图像类别的参考图像较为稀少的场景,例如,医学图像分类检测、稀有物种图像分类检测等等。
在一个实施场景中,目标图像的数量可以为1。在其他实施场景中,目标图像的数量也可以根据实际应用需要设置为多个。例如,在视频监控的人脸识别场景中,可以将拍摄得到的视频所包含的各个帧中检测得到的人脸区域的图像数据,作为目标图像,在此情形中,目标图像也可以是2个、3个、4个等等,其他场景可以以此类推,在此不在一一举例。
步骤S12:利用类别相关度,更新多张图像的图像特征。
在一个实施场景中,为了提高更新图像特征的效率,如前所述,可以预训练一图像检测模型,且该图像检测模型还进一步包括图神经网络(Graph Neural Network,GNN),具体训练过程可以参阅本申请公开的图像检测模型的训练方法实施例中的相关步骤,在此暂不赘述。在此基础上,可以将各个图像的图像特征作为图神经网络的输入图像数据的节点,为了便于描述,可以将初始化得到的图像特征记为
Figure BDA0002746217690000083
并将任意图像对的类别相关度作为节点之间的边,为了便于描述,可以将初始化得到的类别相关度记为ε0 gnn,从而可以利用图神经网络执行利用类别相关度,更新图像特征的步骤,具体可以表示为:
Figure BDA0002746217690000084
上述公式(1)中,f()表示图神经网络,
Figure BDA0002746217690000085
表示更新后的图像特征。
在一个具体的实施场景中,如前所述,在将图像对的类别相关度表示为一个(NK+T)*(NK+T)的矩阵时,可以将图神经网络的输入图像数据,视为一个有向图。此外,在任意两组图像对所包含的两个图像不重复时,也可以将图神经网络所对应的输入图像数据,视为一个无向图,在此不做限定。
在一个实施场景中,为了提高图像特征的准确性,可以利用类别相关度和图像特征,得到类内图像特征和类间图像特征,其中,类内图像特征为利用类别相关度将图像特征进行类内聚合所得到的图像特征,而类间图像特征为利用类别相关度将图像特征进行类间聚合所得到的图像特征。为了统一描述,仍以
Figure BDA0002746217690000086
表示初始化得到的图像特征,ε0 gnn初始化得到的类别相关度,则类内图像特征可以表示为
Figure BDA0002746217690000091
类间图像特征可以表示为
Figure BDA0002746217690000092
在得到类内图像特征和类间图像特征之后,可以利用类内图像特征和类间图像特征进行特征转换,得到更新后的图像特征。具体地,可以将类内图像特征和类间图像特征进行拼接,得到融合图像特征,并利用非线性转换函数fθ将融合图像特征进行转换,以得到更新后的图像特征,具体可以表示为:
Figure BDA0002746217690000093
上述公式(3)中,非线性转换函数fθ的参数为θ,||表示拼接操作。
步骤S13:利用更新后的图像特征,得到目标图像的图像类别检测结果。
在一个实施场景中,图像类别检测结果可以用于指示目标图像所属的图像类别。
在一个实施场景中,在得到更新后的图像特征之后,即可利用更新后的图像特征进行预测处理,得到概率信息,且概率信息包括目标图像属于至少一种参考类别的第一概率值,从而可以基于第一概率值,得到图像类别检测结果。具体地,参考类别是参考图像所属的图像类别。例如,多张图像包含参考图像A、参考图像B和目标图像C,参考图像A所属的图像类别为“黑人”、参考图像B所属的图像类别为“白人”,则至少一个参考类别包括:“黑人”、“白人”;或者,多张图像包含参考图像A1、参考图像A2、参考图像A3、参考图像A4和目标图像C,参考图像A1所属的图像类别为“平扫期”、参考图像A2所属的图像类别为“动脉期”、参考图像A3所属的图像类别为“门脉期”、参考图像A4所属的图像类别为“延迟期”,则至少一个参考类别包括:“平扫期”、“动脉期”、“门脉期”、“延迟期”。其他场景可以以此类推,在此不再一一举例。
在一个具体的实施场景中,为了提高预测效率,如前所述,可以预先训练一图像检测模型,且图像检测模型包括条件随机场(Conditional Random Field,CRF)网络,具体训练过程可以参阅本申请图像检测模型的训练方法实施例中的相关描述,在此暂不赘述。在此情形下,可以基于条件随机场(Conditional Random Field,CRF)网络,利用更新后的图像特征,预测得到目标图像属于至少一种参考类别的第一概率值。
在另一个具体的实施场景中,可以直接将上述包含第一概率值的概率信息,作为目标图像的图像类别检测结果,以供用户参考。例如,在人脸识别场景中,可以将目标图像分别属于“白人男性”、“白人女性”、“黑人男性”、“黑人女性”的第一概率值,作为该目标图像的图像类别检测结果;或者,在医学图像类别检测场景中,可以将目标图像分别属于“动脉期”、“门脉期”、“延迟期”的第一概率值,作为该目标图像的图像类别检测结果,其他场景可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,还可以基于目标图像属于至少一种参考类别的第一概率值,确定目标图像的图像类别,并将确定得到的图像类别,作为目标图像的图像类别检测结果。具体地,可以将最高的第一概率值所对应的参考类别,作为目标图像的图像类别。例如,在人脸识别场景中,预测得到目标图像分别属于“白人男性”、“白人女性”、“黑人男性”、“黑人女性”的第一概率值为:0.1、0.7、0.1、0.1,则可以将“白人女性”作为该目标图像的图像类别;或者,在医学图像类别检测场景中,预测得到目标图像分别属于“动脉期”、“门脉期”、“延迟期”的第一概率值为:0.1、0.8、0.1,则可以将“门脉期”作为该目标图像的图像类别,其他场景可以以此类推,在此不再一一举例。
在另一个实施场景中,利用更新后的图像特征进行预测处理,可以得到概率信息,且概率信息包含目标图像属于至少一种参考类别的第一概率值和参考图像属于至少一种参考类别的第二概率值,则在执行预测处理的次数满足预设条件的情况下,可以利用概率信息,更新多张图像的类别相关度,并重新执行上述步骤S12以及后续步骤,即利用类别相关度更新图像特征,并利用更新后的图像特征进行预测处理的步骤,直至执行预测处理的次数不满足预设条件为止。上述方式,能够在执行预测处理的次数满足预设条件的情况下,利用目标图像属于至少一种参考类别的第一概率值和参考图像属于至少一种参考类别的第二概率值,来更新表示图像对的类别相关度,从而提高类别相似度的鲁棒性,并继续利用更新后的类别相似度,来更新图像特征,从而又提高图像特征的鲁棒性,进而能够使得类别相似度和图像特征相互促进,相辅相成,能够有利于进一步提高图像类别检测的准确性。
在一个具体的实施场景中,预设条件具体可以包括:执行预测处理的次数未达到预设阈值。预设阈值至少为1,例如,1、2、3等等,在此不做限定。
在另一个具体的实施场景中,在执行预测处理的次数不满足预设条件的情况下,可以基于第一概率值,得到目标图像的图像类别检测结果。具体可以参阅前述相关描述,在此不再赘述。此外,利用概率信息更新类别相关度的具体过程,可以参阅下述公开实施例中的相关步骤,在此暂不赘述。
在一个实施场景中,仍以视频监控的人脸识别场景为例,通过获取拍摄得到的视频所包含的各个帧中检测得到的人脸区域的图像数据,作为若干目标图像,并给定白人男性人脸图像、白人女性人脸图像、黑人男性人脸图像和黑人女性人脸图像,作为参考图像,从而可以将上述参考图像和目标图像中每两张图像组成一组图像对,并获取图像对初始的类别相关度,与此同时,提取每张图像初始的图像特征,进而利用类别相关度更新上述多张图像的图像特征,以利用更新后的图像特征,得到上述若干目标图像的图像类别检测结果,例如,上述若干目标图像分别属于“白人男性”、“白人女性”、“黑人男性”、“黑人女性”的第一概率值;或者,以医学图像分类为例,通过获取对待检对象(如病患等)扫描得到的若干医学图像,作为若干目标图像,并给定动脉期医学图像、门脉期医学图像、延迟期医学图像,作为参考图像,从而可以将上述参考图像和目标图像中每两张图像组成一组图像对,并获取图像对初始的类别相关度,与此同时,提取每张图像初始的图像特征,进而利用类别相关度更新上述多张图像的图像特征,以利用更新后的图像特征,得到上述若干目标图像的图像类别检测结果,例如,上述若干目标图像分别属于“动脉期”、“门脉期”、“延迟期”的第一概率值。其他场景可以以此类推,在此不再一一举例。
上述方案,多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性,并利用类别相关度,更新图像特征,从而利用更新后的图像特征,得到目标图像的图像类别检测结果。故此,通过利用类别相关度,更新图像特征,能够使相同图像类别的图像对应的图像特征趋于接近,并使不同图像类别的图像对应的图像特征趋于疏离,从而能够有利于提高图像特征的鲁棒性,并有利于捕捉到图像特征的分布情况,进而能够有利于提高图像类别检测的准确性。
请参阅图2,图2是本申请图像检测方法另一实施例的流程示意图。具体可以包括如下步骤:
步骤S21:获取多张图像的图像特征以及至少一组图像对的类别相关度。
本公开实施例中,多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性。具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S22:利用类别相关度,更新多张图像的图像特征。
具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S23:利用更新后的图像特征进行预测处理,得到概率信息。
本公开实施例中,概率信息包括目标图像属于至少一种参考类别的第一概率值和参考图像属于至少一种参考类别的第二概率值。参考类别是参考图像所属的图像类别,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
具体地,可以利用更新后的图像特征,预测目标图像和参考图像所属的预测类别,且预测类别属于至少一个参考类别。以人脸识别场景为例,至少一个参考类别包括:“白人男性”、“白人女性”、“黑人男性”、“黑人女性”时,预测类别为“白人男性”、“白人女性”、“黑人男性”、“黑人女性”中的任一者;或者,以医学图像类别检测为例,至少一个参考类别包括:“动脉期”、“门脉期”、“延迟期”时,预测类别为“动脉期”、“门脉期”、“延迟期”中的任一者额,其他场景可以以此类推,在此不再一一举例。在得到预测类别之后,针对每组图像对,可以获取图像对的类别比对结果和特征相似度,并得到图像对关于类别比对结果和特征相似度间的第一匹配度,且类别比对结果表示图像对所属的预测类别是否相同,特征相似度表示图像对的图像特征间的相似度,以及基于参考图像所属的预测类别和参考类别,得到参考图像关于预测类别与参考类别的第二匹配度,从而可以利用第一匹配度和第二匹配度,得到概率信息。上述方式,通过获取图像对关于类别比对结果和相似度的第一匹配度,能够在预测类别的类别比对结果以及特征相似度之间的匹配程度基础上,从任图像对的维度,表征图像类别检测的准确度,并通过获取参考图像关于预测类别与参考类别的第二匹配度,能够在预测类别与参考类别之间的匹配程度基础上,从单个图像的维度,表征图像类别检测的准确度,并结合任意两个图像和单个图像两个维度,来得到概率信息,能够有利于提高概率信息预测准确性。
在一个实施场景中,为了提高预测效率,具体可以基于条件随机场网络,利用更新后的图像特征,预测图像所属的预测类别。
在一个实施场景中,在类别比对结果为预测类别相同的情况下,特征相似度与第一匹配度正相关,即特征相似度越大,第一匹配度越大,类别比对结果与特征相似度越匹配,反之,特征相似度越小,第一匹配度越小,类别比对结果与特征相似度越不匹配;而在类别比对结果为预测类别不同的情况下,特征相似度与第一匹配度负相关,即特征相似度越大,第一匹配度越小,类别比对结果与特征相似度越不匹配,反之,特征相似度越小,第一匹配度越大,类别比对结果与特征相似度越匹配。上述方式,能够有利于在后续概率信息的预测过程中,捕捉到图像对之间图像类别相同的可能性,进而有利于提高概率信息预测的准确性。
在一个具体的实施场景中,为了便于描述,可以为目标图像和参考图像的图像特征设置一随机变量u,进一步地,第l次预测处理时的随机变量可以记为ul,例如,第1至第NK个参考图像及第NK+1至第NK+T个目标图像中的第i个图像的图像特征所对应的随机变量,可以记为ui,类似地,第j个图像的图像特征所对应的随机变量,可以记为uj。随机变量的值具体为利用对应的图像特征所预测得到的预测类别,具体可以以N个图像类别的序号表示预测类别。以人脸识别场景为例,N个图像类别包括:“白人男性”、“白人女性”、“黑人男性”、“黑人女性”时,则当随机变量的值为1时,可以表示对应的预测类别为“白人男性”,当随机变量的值为2时,可以表示对应的预测类别为“白人女性”,以此类推,在此不再一一举例。故此,在第l次预测处理过程中,当图像对中一者的图像特征对应的随机变量
Figure BDA0002746217690000121
的值(即对应的预测类别)为m(即第m个图像类别),而另一者的图像特征对应的随机变量
Figure BDA0002746217690000122
的值(即对应的预测类别)为n(即第n个图像类别)时,对应的第一匹配度可以记为
Figure BDA0002746217690000123
具体可以表示为:
Figure BDA0002746217690000124
上述公式(4)中,
Figure BDA0002746217690000125
表示第l次预测处理时,第i个图像的图像特征与第j个图像的图像特征之间的特征相似度。具体地,可以通过余弦距离获取。为了便于描述,可以将第l次预测处理时,第i个图像的图像特征记为
Figure BDA0002746217690000126
并将第l次预测处理时,第j个图像的图像特征记为
Figure BDA0002746217690000127
则可以利用余弦距离获取两者之间的特征相似度,并归一化至0~1范围内,具体可以表示为:
Figure BDA0002746217690000128
上述公式(5)中,||||表示图像特征的模。
在另一个实施场景中,预测类别与参考类别相同时,参考图像之间的第二匹配度,大于预测类别与参考类别不同时,参考图像之间的第二匹配度。上述方式,有利于在后续概率信息的预测过程中,捕捉到单个图像的图像特征的准确性,进而有利于提高概率信息预测的准确性。
在一个具体的实施场景中,如前所述,第l次预测处理时,图像的图像特征对应的随机变量可以记为ul,如第i个图像的图像特征对应的随机变量可以记为
Figure BDA0002746217690000129
随机变量的值具体为利用对应的图像特征所预测得到的预测类别,如前所述,具体可以以N个图像类别的序号表示预测类别,此外,第i个图像所标注的图像类别可以记为yi。故此,当参考图像的图像特征对应的随机变量
Figure BDA00027462176900001210
的值(即对应的预测类别)为m(即第m个图像类别)时,对应的第二匹配度可以记为
Figure BDA00027462176900001211
具体可以表示为:
Figure BDA00027462176900001212
上述公式(6)中,σ表示当随机变量的值(即预测类别)错误(即不同于参考类别)时的容忍度概率。具体地,可以将σ设置为小于一预设数值阈值,例如,可以将σ设置为0.14,在此不做限定。
在一个实施场景中,在第l次预测处理过程中,可以基于第一匹配度和第二匹配度,得到条件分布,具体可以表示为:
Figure BDA00027462176900001213
上述公式(7)中,<j,k>表示一对随机变量
Figure BDA00027462176900001214
Figure BDA00027462176900001215
且j<k,∝表示正相关。由公式(7)可知,当第一匹配度和第二匹配度较高时,相应地,条件分布也会较大。在此基础上,针对每一图像,可以通过对除该图像之外的所有图像对应的随机变量所对应的条件分布进行求和,得到对应图像的概率信息,具体可以表示为:
Figure BDA0002746217690000131
上述公式(8)中,
Figure BDA0002746217690000132
其中,
Figure BDA0002746217690000133
表示随机变量
Figure BDA0002746217690000134
的图像类别为第m个参考类别的概率值。此外,为了便于描述,将第l次预测处理过程中,所有图像对应的随机变量表示为
Figure BDA0002746217690000135
其中,
Figure BDA0002746217690000136
如前所述,
Figure BDA0002746217690000137
表示第l次预测处理过程中,第i个图像的图像特征对应的随机变量。
在另一个实施场景中,为了提高概率信息的准确性,具体可以基于循环信念传播(Loopy Belief Propagation,LBP),利用第一匹配度和第二匹配度,得到概率信息。具体地,对于在第l次预测处理过程中,第i个图像的图像特征对应的随机变量
Figure BDA0002746217690000138
记其概率信息为bl,i。特别地,可以将概率信息为bl,i视为一列向量,且该列向量第j个元素表示随机变量
Figure BDA0002746217690000139
取值为j的概率值。故此,可以给定一初始值(bl,i)0,并通过下述规则迭代t次更新bl,i,直至收敛为止:
Figure BDA00027462176900001310
Figure BDA00027462176900001311
上述公式(9)(10)中,
Figure BDA00027462176900001312
表示包含随机变量
Figure BDA00027462176900001313
Figure BDA00027462176900001314
信息的1*N矩阵,
Figure BDA00027462176900001315
表示第一匹配度,
Figure BDA00027462176900001316
表示第二匹配度,
Figure BDA00027462176900001317
表示随机变量
Figure BDA00027462176900001318
之外的其他随机变量,/表示两个矩阵对应元素相除,
Figure BDA00027462176900001319
表示矩阵对应元素相乘。[]表示归一化函数,即表示[]符号内矩阵个元素除以所有元素之和。此外,当j>NK时,表示目标图像对应的随机变量,由于未知目标图像的图像类别,故其第二匹配度未知。当最终迭代t′次后收敛时,对应的概率信息bl,i=(bl,i)t′
步骤S24:判断执行预测处理的次数是否满足预设条件,若是,执行步骤S25,否则执行步骤S27。
具体地,预设条件可以包括:执行预测处理的次数未达到预设阈值。预设阈值至少为1,例如,1、2、3等等,在此不做限定。
步骤S25:利用概率信息,更新类别相关度。
本公开实施例中,如前所述,类别相关度具体可以包括:每组图像对属于相同图像类别的最终概率值。为了便于描述,可以将第l次预测处理之后,更新得到的类别相关度记为εl gnn。特别地,如前所述,在首次预测处理之前,经初始化得到的类别相关度可以记为ε0 gnn。此外,进一步地,类别相关度εl gnn所包含的第i个图像与第j个图像属于相同图像类别的最终概率值可以记为
Figure BDA00027462176900001320
特别地,类别相关度ε0 gnn所包含的第i个图像与第j个图像属于相同图像类别的最终概率值可以记为
Figure BDA00027462176900001321
在此基础上,可以分别以多张图像中每张图像作为当前图像,并将包含当前图像的图像对作为当前图像对,在第l次预测处理过程中,可以利用第一概率值和第二概率值,分别获取每组当前图像对属于相同图像类别的参考概率值。以当前图像对包含第i个图像和第j个图像为例,参考概率值
Figure BDA00027462176900001322
可以表示为:
Figure BDA00027462176900001323
上述公式(11)中,N表示至少一种图像类别的数量,上述公式(11)表示,对于第i个图像和第j个图像而言,通过获取两者对应的随机变量取相同数值的概率之积的和。仍以人脸识别场景为例,N个图像类别包括:“白人男性”、“白人女性”、“黑人男性”、“黑人女性”时,可以将第i个图像和第j个图像预测为“白人男性”的概率值之积、预测为“白人女性”的概率值之积、预测为“黑人男性”的概率值之积,预测为“黑人女性”概率值之积进行求和,作为第i个图像与第j个图像属于相同图像类别的参考概率值。其他场景可以以此类推,在此不再一一举例。
与此同时,可以获取当前图像的所有当前图像对的最终概率值之和,作为当前图像的概率和。具体地,对于第l次预测处理而言,其更新后的类别相关度可以表示为εl gnn,更新前的类别相关度可以表示为
Figure BDA0002746217690000141
即更新前的类别相关度
Figure BDA0002746217690000142
所包含的第i个图像与第j个图像属于相同图像类别的最终概率值可以记为
Figure BDA0002746217690000143
故对于当前图像为第i个图像而言,在包含第i个图像的图像对中另一图像记为k的情况下,当前图像的所有当前图像对的最终概率值之和可以表示为
Figure BDA0002746217690000144
在得到参考概率值、概率和之后,可以针对每组当前图像对,分别利用概率和、参考概率值,调整每组图像对的最终概率值。具体地,可以将图像对的最终概率值,作为权值,并利用该权值对上次预测处理所得到的图像对的参考概率值进行加权处理(如,加权平均),并利用加权处理结果和参考概率值,对最终概率值
Figure BDA0002746217690000145
进行更新,得到第l次预测处理过程中更新后的最终概率值
Figure BDA0002746217690000146
具体可以表示为:
Figure BDA0002746217690000147
上述公式(12)中,第i个图像表示当前图像,第i个图像和第j个图像组成一组当前图像对,
Figure BDA0002746217690000148
表示第l-1次预测处理所得到的包含第i个图像的图像对的参考概率值,
Figure BDA0002746217690000149
表示第l次预测处理所得到的第i个图像与第j个图像属于相同图像类别的参考概率值,
Figure BDA00027462176900001410
表示第l次预测处理过程中,第i个图像与第j个图像属于相同图像类别更新前的最终概率值,
Figure BDA00027462176900001411
表示l次预测处理过程中,第i个图像与第j个图像属于相同图像类别更新后的最终概率值,
Figure BDA00027462176900001412
表示当前图像(即第i个图像)所有当前图像对的最终概率值之和。
步骤S26:重新执行步骤S22。
在得到更新后的类别相关度之后,可以重新执行上述步骤S22以及后续步骤,即利用更新后的类别相关度,更新多张图像的图像特征。具体地,以更新后的类别相关度记为εl gnn,且第l次预测处理所使用的图像特征
Figure BDA00027462176900001413
为例,上述步骤S22“利用类别相关度,更新多张图像的图像特征”可以表示为:
Figure BDA00027462176900001414
上述公式(13)中,
Figure BDA00027462176900001415
表示第l+1次预测处理所使用的图像特征,其他可以参阅前述公开实施例中的相关描述,在此不再赘述。
如此循环,可以使得图像特征以及类别相关度相互促进,相辅相成,共同提高各自的鲁棒性,从而在多次循环之后,可以捕捉到更加准确的特征分布情况,有利于提高图像类别检测的准确性。
步骤S27:基于第一概率值,得到图像类别检测结果。
在一个实施场景中,在图像类别检测结果包含目标图像的图像类别的情况下,可以最大的第一概率值所对应的参考类别,作为目标图像的图像类别。具体可以表示为:
Figure BDA0002746217690000151
上述公式(14)中,
Figure BDA0002746217690000152
表示第i个图像的图像类别,
Figure BDA0002746217690000153
表示经L次预测处理之后,第i个图像属于至少一种参考类别的第一概率值,
Figure BDA0002746217690000154
表示至少一种参考类别。仍以人脸识别场景为例,
Figure BDA0002746217690000155
具体可以是“白人男性”、“白人女性”、“黑人男性”、“黑人女性”的集合。其他场景可以以此类推,在此不再一一举例。
具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
区别于前述实施例,通过将概率信息设置为还包括参考图像属于至少一种参考类别的第二概率值,并在基于第一概率值,得到图像类别检测结果之前,进一步在执行预测处理的次数满足预设条件的情况下,利用概率信息,更新类别相关度,且重新执行利用类别相关度,更新图像特征的步骤,以及在执行预测处理的次数不满足预设条件的情况下,基于第一概率值,得到图像类别检测结果。故此,能够在执行预测处理的次数满足预设条件的情况下,利用目标图像属于至少一种参考类别的第一概率值和参考图像属于至少一种参考类别的第二概率值,来更新类别相关度,从而提高类别相似度的鲁棒性,并继续利用更新后的类别相似度,来更新图像特征,从而又提高图像特征的鲁棒性,进而能够使得类别相似度和图像特征相互促进,相辅相成,并在执行预测处理的次数不满足预设条件的情况下,基于第一概率值,得到图像类别检测结果,从而能够有利于进一步提高图像类别检测的准确性。
请参阅图3,图3是本申请图像检测方法又一实施例的流程示意图。本公开实施例中,图像检测具体是由图像检测模型执行的,且图像检测模型包括至少一个(如,L个)顺序连接的网络层,每个网络层包括一个第一网络(如,GNN)和一个第二网络(如,CRF),则本公开实施例具体可以包括如下步骤:
步骤S31:获取多张图像的图像特征以及至少一组图像对的类别相关度。
本公开实施例中,多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
请结合参阅图4,图4是本申请图像检测方法一实施例的状态示意图。如图4所示,第一网络中圆形表示图像的图像特征,第二网络中实线方形表示参考图像标注的图像类别,虚线方形所表示的目标图像的图像类别表示未知。方形和圆形中不同填充对应于不同的图像类别。此外,第二网络中五边形表示图像特征对应的随机变量。
在一个实施场景中,特征提取网络可以视为与图像检测模型独立的网络,在另一个实施场景中,特征提取网络也可以视为图像检测模型的一部分。此外,特征提取网络的具体结构可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S32:基于第l个网络层的第一网络,利用类别相关度,更新多张图像的图像特征。
具体地,以l是1为例,可以利用上述步骤S31初始化得到的类别相关度,更新上述步骤S31初始化得到的图像特征,以得到如图4中第1层网络层中圆形所表示的图像特征。当l为其他值时,可以结合图4以此类推,在此不再一一举例。
步骤S33:基于第l个网络层的第二网络,利用更新后的图像特征进行预测处理,得到概率信息。
本公开实施例中,概率信息包括目标图像属于至少一种参考类别的第一概率值和参考图像属于至少一种参考类别的第二概率值。
具体地,以l是1为例,可以利用第1层网络层中圆形表示的图像特征进行预测处理,得到概率信息。当l为其他值时,可以结合图4以此类推,在此不再一一举例。
步骤S34:判断执行预测处理的是否为图像检测模型的最后一个网络层,若否,则执行步骤S35,若是,则执行步骤S37。
具体地,当图像检测模型包括L个网络层时,可以判断l是否小于L,若是,则表明尚存在网络层未执行上述图像特征更新以及概率信息预测的步骤,则可以继续执行下述步骤S35,以利用后续网络层继续更新图像特征并预测概率信息,若否,则表明图像检测模型的所有网络层均已全部执行上述图像特征更新以及概率信息预测的步骤,则可以执行下述步骤S37,即基于概率信息中的第一概率值,得到图像类别检测结果。
步骤S35:利用概率信息,更新类别相关度,并将l加1。
具体地,仍以l是1为例,可以利用第1层网络层所预测得到的概率信息,更新类别相关度,并将l+1,即此时l更新为2。
利用概率信息,更新类别相关度的具体过程可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S36:重新执行步骤S32以及后续步骤。
具体地,仍以l是1为例,在上述步骤S35之后,l更新为2,并重新执行上述步骤S32以及后续步骤,请结合参阅图4,即基于第2个网络层的第一网络,利用类别相关度,更新多张图像的图像特征,并基于第2个网络层的第二网络,利用更新后的图像特征进行预测处理,得到概率信息,以此类推,在此不再一一举例。
步骤S37:基于第一概率值,得到图像类别检测结果。
具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
区别于前述实施例,在执行预测处理的并非最后一个网络层情况下,利用概率信息,更新类别相关度,且重新利用下一网络层执行利用类别相关度,更新多张图像的图像特征的步骤。故此,能够提高类别相似度的鲁棒性,并继续利用更新后的类别相似度,来更新图像特征,从而又提高图像特征的鲁棒性,进而能够使得类别相似度和图像特征相互促进,相辅相成,能够有利于进一步提高图像类别检测的准确性。
请参阅图5,图5是本申请图像检测模型的训练方法一实施例的流程示意图。具体可以包括如下步骤:
步骤S51:获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度。
本公开实施例中,多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性。样本图像特征和样本类别相关度的获取过程,具体可以参阅前述公开实施例中图像特征和类别相关度的获取过程,在此不再赘述。
此外,样本目标图像、样本参考图像以及图像类别也可以参阅前述公开实施例中关于目标图像、参考图像以及图像类别的相关描述,在此不再赘述。
在一个实施场景中,样本图像特征具体可以是由特征提取网络提取得到的,特征提取网络可以与本公开实施例中的图像检测模型相互独立,也可以是本公开实施例中的图像检测模型的一部分,在此不做限定。特征提取网络的具体结构可以参阅前述公开实施例中的相关描述,在此不再赘述。
需要说明的是,不同于前述公开实施例,在训练过程中,样本目标图像的图像类别是已知的,具体可以在样本目标图像上标注其所属的图像类别。例如,在人脸识别场景中,至少一种图像类别可以包括:“白人女性”、“黑人女性”、“白人男性”、“黑人男性”,样本目标图像所属的图像类别可以为“白人女性”,在此不做限定。其他场景可以以此类推,在此不再一一举例。
步骤S52:基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征。
在一个实施场景中,第一网络具体可以是GNN,则可以将样本类别相关度作为GNN输入图像数据的边,并将样本图像特征作为GNN输入图像数据的点,从而利用GNN处理输入图像数据,以完成对样本图像特征的更新。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S53:基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果。
在一个实施场景中,第二网络具体可以是条件随机场(CRF)网络,则可以基于CRF,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果。具体地,图像类别检测结果可以包括样本目标图像属于至少一种参考类别的第一样本概率值,且参考类别为样本参考图像所属的图像类别。例如,在人脸识别场景中,至少一种参考类别可以包括:“白人女性”、“黑人女性”、“白人男性”、“黑人男性”,则样本目标图像的图像类别检测结果具体可以包括样本目标图像属于“白人女性”的第一概率值、属于“黑人女性”的第一概率值、属于“白人男性”的第一概率值和属于“黑人男性”的第一概率值。其他场景可以以此类推,在此不再一一举例。
步骤S54:利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。
具体地,可以利用交叉熵损失函数,计算样本目标图像的图像类别检测结果和样本目标图像标注的图像类别之间的差异,得到图像检测模型的损失值,并据此调整图像检测模型的网络参数。此外,在特征提取网络独立于图像检测模型的情况下,还可以根据损失值,一并调整图像检测模型的网络参数和特征提取网络的网络参数。
在一个实施场景中,可以采用随机梯度下降(Stochastic Gradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-BatchGradient Descent,MBGD)等方式,利用损失值对网络参数进行调整,其中,批量梯度下降是指在每一次迭代时,使用所有样本来进行参数更新;随机梯度下降是指在每一次迭代时,使用一个样本来进行参数更新;小批量梯度下降是指在每一次迭代时,使用一批样本来进行参数更新,在此不再赘述。
在一个实施场景中,还可以设置一训练结束条件,当满足训练结束条件时,可以结束训练。具体地,训练结束条件可以以下任一者包括:损失值小于一预设损失阈值,当前训练次数达到预设次数阈值(例如,500次、1000次等),在此不做限定。
在另一个实施场景中,具体可以基于第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息,且样本概率信息包括样本目标图像属于至少一种参考类别的第一样本概率值和样本参考图像属于至少一种参考类别的第二样本概率值,从而基于第一样本概率值,得到样本目标图像的图像类别检测结果,并在利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数之前,利用第一样本概率值和第二样本概率值,更新样本类别相关度,从而利用第一样本概率值和样本目标图像标注的图像类别,得到图像检测模型的第一损失值,并利用样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度,得到图像检测模型的第二损失值,进而基于第一损失值和第二损失值,调整图像检测模型的网络参数。上述方式,能够从两个图像间的类别相关度的维度,以及单个图像的图像类别的维度,来调整图像检测模型的网络参数,进而能够有利于提高图像检测模型的准确性。
在一个具体的实施场景中,基于第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息的具体过程,可以参阅前述公开实施例中,利用更新后的图像特征进行预测处理,得到概率信息的相关描述,在此不再赘述。此外,利用第一样本概率值和第二样本概率值,更新样本类别相关度的具体过程,可以参阅前述公开实施例中,利用概率信息,更新类别相关度的相关描述,在此不再赘述。
在另一个具体的实施场景中,可以利用交叉熵损失函数,计算第一样本概率值和样本目标图像标注的图像类别之间的第一损失值。
在又一个具体的实施场景中,可以利用二分类交叉熵损失函数,计算样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度之间的第二损失值。具体地,在图像对的图像类别相同的情况下,对应图像对的实际类别相关度可以设置为一预设上限值(如,1),在图像对的图像类别不同的情况下,对应图像对的实际类别相关度可以设置为一下限值(如,0)。为了便于描述,可以将实际类别相关度记为cij
在又一个具体的实施场景中,具体可以利用分别与第一损失值、第二损失值对应的权值,分别对第一损失值、第二损失值进行加权处理,得到加权损失值,并利用加权损失值,调整网络参数。具体地,第一损失值对应的权值可以设置为0.5,第二损失值对应的权值也可以设置为0.5,以表示第一损失值和第二损失值在调整网络参数时同等重要。此外,也可以根据第一损失值和第二损失值不同重要程度,调整对应的权值,在此不再一一举例。
上述方案,获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度,且多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性,并基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征,从而基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果,进而利用图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。故此,通过利用样本类别相关度,更新样本图像特征,能够使相同图像类别的图像对应的样本图像特征趋于接近,并使不同图像类别的图像对应的样本图像特征趋于疏离,从而能够有利于提高样本图像特征的鲁棒性,并有利于捕捉到样本图像特征的分布情况,进而能够有利于提高图像检测模型的准确性。
请参阅图6,图6是本申请图像检测模型的训练方法另一实施例的流程示意图。本公开实施例中,图像检测模型包括至少一个(如,L个)顺序连接的网络层,每个网络层包括一个第一网络和一个第二网络。具体可以包括如下步骤:
步骤S601:获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度。
本公开实施例中,多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性。
具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S602:基于第l个网络层的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征。
具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S603:基于第l个网络层的第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息。
本公开实施例中,样本概率信息包括样本目标图像属于至少一种参考类别的第一样本概率值和样本参考图像属于至少一种参考类别的第二样本概率值。至少一种参考类别为样本参考图像所属的图像类别。
具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S604:基于第一样本概率值,得到样本目标图像对应于第l个网络层的图像类别检测结果。
为了便于描述,可以将第i个图像对应于第l个网络层的图像类别检测结果记为
Figure BDA0002746217690000191
其中,
Figure BDA0002746217690000192
表示至少一种图像类别的集合,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S605:利用第一样本概率值和第二样本概率值,更新样本类别相关度。
具体可以参阅前述公开实施例中的相关描述,在此不再赘述。为了便于描述,可以将第l个网络层所得到的第i个图像和第j图像更新得到的样本类别相关度记为
Figure BDA0002746217690000193
步骤S606:利用第一样本概率值和样本目标图像标注的图像类别,得到与第l个网络层对应的第一损失值,并利用样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度,得到于第l个网络层的第二损失值。
具体地,可以利用交叉熵损失函数(Cross Entropy,CE),利用第一样本概率值
Figure BDA0002746217690000194
和样本目标图像标注的图像类别yi,得到与第l个网络层对应的第一损失值,为了便于描述,记为
Figure BDA0002746217690000195
其中,i的取值范围至NK+1至NK+T,即仅针对样本目标图像计算第一损失值。
此外,可以利用二分类交叉熵损失函数(Binary Cross Entropy,BCE),利用样本目标图像和样本参考图像之间的实际类别相关度cij和更新后的样本类别相关度
Figure BDA0002746217690000196
得到与第l个网络层对应的第二损失值,为了便于描述,记为
Figure BDA0002746217690000197
其中,i的取值范围至NK+1至NK+T,即仅针对样本目标图像计算第一损失值。
步骤S607:判断当前网络层是否为图像检测模型的最后一层网络层,若否,则执行步骤S608,否则执行步骤S609。
步骤S608:重新执行步骤S602以及后续步骤。
在当前网络层并非图像检测模型的最后一层网络层的情况下,可以将l加1,从而利用当前网络层的下一网络层,重新执行基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征的步骤以及后续步骤,直至当前网络层是图像检测模型的最后一层网络层为止。在此过程中,可以得到与图像检测模型各个网络层对应的第一损失值和第二损失值。
步骤S609:利用与各个网络层对应的第一权值分别将与各个网络层对应的第一损失值进行加权处理,得到第一加权损失值。
本公开实施例中,网络层在图像检测模型中越靠后,网络层对应的第一权值越大,为了便于描述,可以将第l个网络层对应的第一权值记为
Figure BDA0002746217690000198
例如,当l小于L时,对应的第一权值可以设置为0.2,当l等于L时,对应的第一权值可以设置为1。具体可以根据实际需要进行设置,例如,还可以基于越靠后的网络层越重要,将各个网络层对应的第一权值设置为不同数值,且每一网络层对应的第一权值均大于位于其之前的网络层对应的第一权值,在此不做限定。具体地,第一加权损失值可以表示为:
Figure BDA0002746217690000201
步骤S610:利用与各个网络层对应的第二权值分别将与各个网络层对应的第二损失值进行加权处理,得到第二加权损失值。
本公开实施例中,网络层在图像检测模型中越靠后,网络层对应的第二权值越大,为了便于描述,可以将第l个网络层对应的第二权值记为
Figure BDA0002746217690000202
例如,当l小于L时,对应的第二权值可以设置为0.2,当l等于L时,对应的第二权值可以设置为1。具体可以根据实际需要进行设置,例如,还可以基于越靠后的网络层越重要,将各个网络层对应的第二权值设置为不同数值,且每一网络层对应的第二权值均大于位于其之前的网络层对应的第二权值,在此不做限定。具体地,第二加权损失值可以表示为:
Figure BDA0002746217690000203
步骤S611:基于第一加权损失值和第二加权损失值,调整图像检测模型的网络参数。
具体地,可以利用分别与第一加权损失值、第二加权损失值对应的权值,分别对第一加权损失值、第二加权损失值进行加权处理,得到加权损失值,并利用加权损失值,调整网络参数。具体地,第一加权损失值对应的权值可以设置为0.5,第二加权损失值对应的权值也可以设置为0.5,以表示第一加权损失值和第二加权损失值在调整网络参数时同等重要。此外,也可以根据第一加权损失值和第二加权损失值不同重要程度,调整对应的权值,在此不再一一举例。
区别于前述实施例,将图像检测模型设置为包括至少一个顺序连接的网络层,且每个网络层包括一个第一网络和一个第二网络,并在当前网络层不是图像检测模型的最后一层网络层的情况下,利用当前网络层的下一网络层,重新执行基于图像检测模型的第一网络,利用样本类别相关度,更新样本图像特征的步骤以及后续步骤,直至当前网络层是图像检测模型的最后一层网络层为止,从而利用与各个网络层对应的第一权值分别将与各个网络层对应的第一损失值进行加权处理,得到第一加权损失值,并利用与各个网络层对应的第二权值分别将与各个网络层对应的第二损失值进行加权处理,得到第二加权损失值,进而基于第一加权损失值和第二加权损失值,调整图像检测模型的网络参数,且网络层在图像检测模型中越靠后,网络层对应的第一权值和第二权值均越大,能够获取到图像检测模型各层的网络层对应的损失值,且将越靠后的网络层对应的权值设置地越大,进而能够充分利用各层网络层处理所得的数据,调整图像检测的网络参数,有利于提高图像检测模型的准确性。
请参阅图7,图7是本申请图像检测装置70一实施例的框架示意图。图像检测装置70包括图像获取模块71、特征更新模块72和结果获取模块73,图像获取模块71用于获取多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性;特征更新模块72用于利用类别相关度,更新多张图像的图像特征;结果获取模块73用于利用更新后的图像特征,得到目标图像的图像类别检测结果。
上述方案,获取多张图像的图像特征以及至少一组图像对的类别相关度,且多张图像包括参考图像和目标图像,多张图像中每两张图像组成一组图像对,类别相关度表示图像对属于相同图像类别的可能性,并利用类别相关度,更新图像特征,从而利用更新后的图像特征,得到目标图像的图像类别检测结果。故此,通过利用类别相关度,更新图像特征,能够使相同图像类别的图像对应的图像特征趋于接近,并使不同图像类别的图像对应的图像特征趋于疏离,从而能够有利于提高图像特征的鲁棒性,并有利于捕捉到图像特征的分布情况,进而能够有利于提高图像类别检测的准确性。
在一些公开实施例中,结果获取模块73包括概率预测子模块,用于利用更新后的图像特征进行预测处理,得到概率信息,其中,概率信息包括目标图像属于至少一种参考类别的第一概率值,参考类别是参考图像所属的图像类别,结果获取模块73包括结果获取子模块,用于基于第一概率值,得到图像类别检测结果;其中,图像类别检测结果用于指示目标图像所属的图像类别。
在一些公开实施例中,概率信息还包括参考图像属于至少一种参考类别的第二概率值,图像检测装置70还包括相关更新模块,用于在执行预测处理的次数满足预设条件的情况下,利用概率信息,更新类别相关度,并结合特征更新模块72重新执行利用类别相关度,更新图像特征的步骤,结果获取子模块具体用于在执行预测处理的次数不满足预设条件的情况下,基于第一概率值,得到图像类别检测结果。
在一些公开实施例中,类别相关度包括:每组图像对属于相同图像类别的最终概率值,相关更新模块包括图像划分子模块,用于分别以多张图像中每张图像作为当前图像,并将包含当前图像的图像对作为当前图像对,相关更新模块包括概率统计子模块,用于获取当前图像的所有当前图像对的最终概率值之和,作为当前图像的概率和,相关更新模块包括概率获取子模块,用于利用第一概率值和第二概率值,分别获取每组当前图像对属于相同图像类别的参考概率值,相关更新模块包括概率调整子模块,用于分别利用概率和、参考概率值,调整每组当前图像对的最终概率值。
在一些公开实施例中,概率预测子模块包括预测类别单元,用于利用更新后的图像特征,预测目标图像和参考图像所属的预测类别,其中,预测类别属于至少一个参考类别,概率预测子模块包括第一匹配度获取单元,用于针对每组图像对,获取图像对的类别比对结果和特征相似度,并得到图像对关于类别比对结果和特征相似度间的第一匹配度,其中,类别比对结果表示图像对所属的预测类别是否相同,特征相似度表示图像对的图像特征间的相似度,概率预测子模块包括第二匹配度获取单元,用于基于参考图像所属的预测类别和参考类别,得到参考图像关于预测类别与参考类别的第二匹配度,概率预测子模块包括概率信息获取单元,用于利用第一匹配度和第二匹配度,得到概率信息。
在一些公开实施例中,在类别比对结果为预测类别相同的情况下,特征相似度与第一匹配度正相关,在类别比对结果为预测类别不同的情况下,特征相似度与第一匹配度负相关,且预测类别与参考类别相同时的第二匹配度大于预测类别与参考类别不同时的第二匹配度。
在一些公开实施例中,预测类别单元具体用于基于条件随机场网络,利用更新后的图像特征,预测图像所属的预测类别。
在一些公开实施例中,概率信息获取单元具体用于基于循环信念传播,利用第一匹配度和第二匹配度,得到概率信息。
在一些公开实施例中,预设条件包括:执行预测处理的次数未达到预设阈值。
在一些公开实施例中,利用类别相关度,更新图像特征的步骤是由图神经网络执行的。
在一些公开实施例中,特征更新模块72包括特征获取子模块,用于利用类别相关度和图像特征,得到类内图像特征和类间图像特征,特征更新模块72包括特征转换子模块,用于利用类内图像特征和类间图像特征进行特征转换,得到更新后的图像特征。
在一些公开实施例中,图像检测装置70还包括初始化模块,初始化模块具体用于在图像对属于相同图像类别的情况下,将图像对初始的类别相关度确定为预设上限值;在图像对属于不同图像类别的情况下,将图像对初始的类别相关度确定为预设下限值;在图像对中至少一个为目标图像的情况下,将图像对初始的类别相关度确定为预设下限值和预设上限值之间的预设数值。
请参阅图8,图8是本申请图像检测模型的训练装置80一实施例的框架示意图。图像检测模型的训练装置80包括样本获取模块81、特征更新模块82、结果获取模块83和参数调整模块84,样本获取模块81用于多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度,其中,多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能性;特征更新模块82用于基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征;结果获取模块83用于基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果;参数更新模块84用于利用样本目标图像的图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。
上述方案,获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度,且多张样本图像包括样本参考图像和样本目标图像,多张样本图像中的每两张样本图像形成一组样本图像对,样本类别相关度表示样本图像对属于相同图像类别的可能,并基于图像检测模型的第一网络,利用样本类别相关度,更新多张样本图像的样本图像特征,从而基于图像检测模型的第二网络,利用更新后的样本图像特征,得到样本目标图像的图像类别检测结果,进而利用图像类别检测结果和样本目标图像标注的图像类别,调整图像检测模型的网络参数。故此,通过利用样本类别相关度,更新样本图像特征,能够使相同图像类别的图像对应的样本图像特征趋于接近,并使不同图像类别的图像对应的样本图像特征趋于疏离,从而能够有利于提高样本图像特征的鲁棒性,并有利于捕捉到样本图像特征的分布情况,进而能够有利于提高图像检测模型的准确性。
在一些公开实施例中,结果获取模块83包括概率信息获取子模块,用于基于第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息,其中,样本概率信息包括样本目标图像属于至少一种参考类别的第一样本概率值和样本参考图像属于至少一种参考类别的第二样本概率值,参考类别是样本参考图像所属的图像类别,结果获取模块83包括检测结果获取子模块,用于基于第一样本概率值,得到样本目标图像的图像类别检测结果,图像检测模型的训练装置80还包括相关更新模块,用于利用第一样本概率值和第二样本概率值,更新样本类别相关度,参数更新模块84包括第一损失计算子模块,用于利用第一样本概率值和样本目标图像标注的图像类别,得到图像检测模型的第一损失值,参数更新模块84包括第二损失计算子模块,用于利用样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度,得到图像检测模型的第二损失值,参数更新模块84包括参数调整子模块,用于基于第一损失值和第二损失值,调整图像检测模型的网络参数。
在一些公开实施例中,图像检测模型包括至少一个顺序连接的网络层,每个网络层包括一个第一网络和一个第二网络,特征更新模块82模块还用于在在当前网络层不是图像检测模型的最后一层网络层的情况下,利用当前网络层的下一网络层,重新执行基于图像检测模型的第一网络,利用样本类别相关度,更新样本图像特征的步骤以及后续步骤,直至当前网络层是图像检测模型的最后一层网络层为止,参数调整子模块包括第一加权单元,用于利用与各个网络层对应的第一权值分别将与各个网络层对应的第一损失值进行加权处理,得到第一加权损失值,参数调整子模块包括第二加权单元,用于利用与各个网络层对应的第二权值分别将与各个网络层对应的第二损失值进行加权处理,得到第二加权损失值,参数调整子模块包括参数调整单元,用于基于第一加权损失值和第二加权损失值,调整图像检测模型的网络参数,其中,网络层在图像检测模型中越靠后,网络层对应的第一权值和第二权值均越大。
请参阅图9,图9是本申请电子设备90一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92,处理器92用于执行存储器91中存储的程序指令,以实现上述任一图像检测方法实施例中的步骤,或实现上述任一图像检测模型的训练方法实施例中的步骤。在一个具体的实施场景中,电子设备90可以包括但不限于:微型计算机、服务器,此外,电子设备90还可以包括笔记本电脑、平板电脑等移动设备,或者,电子设备90也可以是监控相机等等,在此不做限定。
具体而言,处理器92用于控制其自身以及存储器91以实现上述任一图像检测方法实施例中的步骤,或实现上述任一图像检测模型的训练方法实施例中的步骤。处理器92还可以称为CPU(Central Processing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由集成电路芯片共同实现。
上述方案,能够提高图像类别检测的准确性。
请参阅图10,图10为本申请计算机可读存储介质100一实施例的框架示意图。计算机可读存储介质100存储有能够被处理器运行的程序指令101,程序指令101用于实现上述任一图像检测方法实施例中的步骤,或实现上述任一图像检测模型的训练方法实施例中的步骤。
上述方案,能够提高图像类别检测的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (18)

1.一种图像检测方法,其特征在于,包括:
获取多张图像的图像特征以及至少一组图像对的类别相关度;其中,所述多张图像包括参考图像和目标图像,所述多张图像中的每两张图像组成一组所述图像对,所述类别相关度表示所述图像对属于相同图像类别的可能性;
利用所述类别相关度,更新所述多张图像的图像特征;
利用更新后的图像特征,得到所述目标图像的图像类别检测结果;
其中,所述利用所述类别相关度,更新所述多张图像的图像特征,包括:
利用所述类别相关度和所述图像特征,得到类内图像特征和类间图像特征;
利用所述类内图像特征和所述类间图像特征进行特征转换,得到更新后的图像特征。
2.根据权利要求1所述的方法,其特征在于,所述利用更新后的图像特征,得到所述目标图像的图像类别检测结果,包括:
利用更新后的图像特征进行预测处理,得到概率信息,其中,所述概率信息包括所述目标图像属于至少一种参考类别的第一概率值,所述参考类别是所述参考图像所属的图像类别;
基于所述第一概率值,得到所述图像类别检测结果;其中,所述图像类别检测结果用于指示所述目标图像所属的图像类别。
3.根据权利要求2所述的方法,其特征在于,所述概率信息还包括所述参考图像属于所述至少一种参考类别的第二概率值;
在所述基于所述第一概率值,得到所述图像类别检测结果之前,所述方法还包括:
在执行所述预测处理的次数满足预设条件的情况下,利用所述概率信息,更新所述类别相关度,并重新执行所述利用所述类别相关度,更新所述多张图像的图像特征的步骤;
所述基于所述第一概率值,得到所述图像类别检测结果,包括:
在执行所述预测处理的次数不满足所述预设条件的情况下,基于所述第一概率值,得到所述图像类别检测结果。
4.根据权利要求3所述的方法,其特征在于,所述类别相关度包括:每组所述图像对属于相同图像类别的最终概率值;所述利用所述概率信息,更新所述类别相关度,包括:
分别以所述多张图像中每张所述图像作为当前图像,并将包含所述当前图像的所述图像对作为当前图像对;
获取所述当前图像的所有所述当前图像对的所述最终概率值之和,作为所述当前图像的概率和;以及,
利用所述第一概率值和所述第二概率值,分别获取每组所述当前图像对属于相同图像类别的参考概率值;
分别利用所述概率和、所述参考概率值,调整每组所述当前图像对的所述最终概率值。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述利用更新后的图像特征进行预测处理,得到概率信息,包括:
利用更新后的图像特征,预测所述图像所属的预测类别,其中,所述预测类别属于所述至少一个参考类别;
针对每组所述图像对,获取所述图像对的类别比对结果和特征相似度,并得到所述图像对关于所述类别比对结果和所述特征相似度间的第一匹配度;其中,所述类别比对结果表示所述图像对所属的预测类别是否相同,所述特征相似度表示所述图像对的图像特征间的相似度;以及,
基于所述参考图像所属的预测类别和所述参考类别,得到所述参考图像关于所述预测类别与所述参考类别间的第二匹配度;
利用所述第一匹配度和所述第二匹配度,得到所述概率信息。
6.根据权利要求5所述的方法,其特征在于,在所述类别比对结果为所述预测类别相同的情况下,所述特征相似度与所述第一匹配度正相关,在所述类别比对结果为所述预测类别不同的情况下,所述特征相似度与所述第一匹配度负相关,且所述预测类别与所述参考类别相同时的第二匹配度大于所述预测类别与所述参考类别不同时的第二匹配度。
7.根据权利要求5所述的方法,其特征在于,所述利用更新后的图像特征,预测所述图像所属的预测类别,包括:
基于条件随机场网络,利用更新后的图像特征,预测所述图像所属的预测类别。
8.根据权利要求5所述的方法,其特征在于,所述利用所述第一匹配度和所述第二匹配度,得到所述概率信息,包括:
基于循环信念传播,利用所述第一匹配度和所述第二匹配度,得到所述概率信息。
9.根据权利要求3所述的方法,其特征在于,
所述预设条件包括:执行所述预测处理的次数未达到预设阈值。
10.根据权利要求1所述的方法,其特征在于,所述利用所述类别相关度,更新所述多张图像的图像特征的步骤是由图神经网络执行的。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述图像对属于相同图像类别的情况下,将所述图像对初始的类别相关度确定为预设上限值;
在所述图像对属于不同图像类别的情况下,将所述图像对初始的类别相关度确定为预设下限值;
在所述图像对中至少一个为所述目标图像的情况下,将所述图像对初始的类别相关度确定为所述预设下限值和所述预设上限值之间的预设数值。
12.一种图像检测模型的训练方法,其特征在于,包括:
获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度;其中,所述多张样本图像包括样本参考图像和样本目标图像,所述多张样本图像中的每两张样本图像形成一组所述样本图像对,所述样本类别相关度表示所述样本图像对属于相同图像类别的可能性;
基于所述图像检测模型的第一网络,利用所述样本类别相关度,更新所述多张样本图像的样本图像特征;
基于所述图像检测模型的第二网络,利用更新后的样本图像特征,得到所述样本目标图像的图像类别检测结果;
利用所述样本目标图像的图像类别检测结果和所述样本目标图像标注的图像类别,调整所述图像检测模型的网络参数;
其中,所述利用所述样本类别相关度,更新所述多张样本图像的样本图像特征,包括:
利用所述样本类别相关度和所述样本图像特征,得到样本类内图像特征和样本类间图像特征;
利用所述样本类内图像特征和所述样本类间图像特征进行特征转换,得到更新后的样本图像特征。
13.根据权利要求12所述的方法,其特征在于,所述基于所述图像检测模型的第二网络,利用更新后的样本图像特征,得到所述样本目标图像的图像类别检测结果,包括:
基于所述第二网络,利用更新后的样本图像特征进行预测处理,得到样本概率信息,其中,所述样本概率信息包括所述样本目标图像属于至少一种参考类别的第一样本概率值和所述样本参考图像属于所述至少一种参考类别的第二样本概率值,所述参考类别是所述样本参考图像所属的图像类别;
基于所述第一样本概率值,得到所述样本目标图像的图像类别检测结果;
在所述利用所述样本目标图像的图像类别检测结果和所述样本目标图像标注的图像类别,调整所述图像检测模型的网络参数之前,所述方法还包括:
利用所述第一样本概率值和所述第二样本概率值,更新所述样本类别相关度;
所述利用所述样本目标图像的图像类别检测结果和所述样本目标图像标注的图像类别,调整所述图像检测模型的网络参数,包括:
利用所述第一样本概率值和所述样本目标图像标注的图像类别,得到所述图像检测模型的第一损失值;以及,
利用所述样本目标图像和样本参考图像之间的实际类别相关度和更新后的样本类别相关度,得到所述图像检测模型的第二损失值;
基于所述第一损失值和所述第二损失值,调整所述图像检测模型的网络参数。
14.根据权利要求13所述的方法,其特征在于,所述图像检测模型包括至少一个顺序连接的网络层,每个所述网络层包括一个所述第一网络和一个所述第二网络;在所述基于所述第一损失值和所述第二损失值,调整所述图像检测模型的网络参数之前,所述方法还包括:
在当前网络层不是所述图像检测模型的最后一层网络层的情况下,利用所述当前网络层的下一网络层,重新执行所述基于所述图像检测模型的第一网络,利用所述样本类别相关度,更新所述多张样本图像的样本图像特征的步骤以及后续步骤,直至当前网络层是所述图像检测模型的最后一层网络层为止;
所述基于所述第一损失值和所述第二损失值,调整所述图像检测模型的网络参数,包括:
利用与各个所述网络层对应的第一权值分别将与各个所述网络层对应的第一损失值进行加权处理,得到第一加权损失值;以及,
利用与各个所述网络层对应的第二权值分别将与各个所述网络层对应的第二损失值进行加权处理,得到第二加权损失值;
基于所述第一加权损失值和所述第二加权损失值,调整所述图像检测模型的网络参数;
其中,所述网络层在所述图像检测模型中越靠后,所述网络层对应的第一权值和第二权值均越大。
15.一种图像检测装置,其特征在于,包括:
图像获取模块,用于获取多张图像的图像特征以及至少一组图像对的类别相关度;其中,所述多张图像包括参考图像和目标图像,所述多张图像中的每两张图像形成一组所述图像对,所述类别相关度表示所述图像对属于相同图像类别的可能性;
特征更新模块,用于利用所述类别相关度,更新所述多张图像的图像特征;
结果获取模块,用于利用更新后的图像特征,得到所述目标图像的图像类别检测结果;
其中,所述特征更新模块包括特征获取子模块和特征转换子模块,所述特征获取子模块用于利用所述类别相关度和所述图像特征,得到类内图像特征和类间图像特征;所述特征转换子模块用于利用所述类内图像特征和所述类间图像特征进行特征转换,得到更新后的图像特征。
16.一种图像检测模型的训练装置,其特征在于,包括:
样本获取模块,用于获取多张样本图像的样本图像特征以及至少一组样本图像对的样本类别相关度;其中,所述多张样本图像包括样本参考图像和样本目标图像,所述多张样本图像中的每两张样本图像形成一组所述样本图像对,所述样本类别相关度表示所述样本图像对属于相同图像类别的可能性;
特征更新模块,用于基于所述图像检测模型的第一网络,利用所述样本类别相关度,更新所述多张样本图像的样本图像特征;
结果获取模块,用于基于所述图像检测模型的第二网络,利用更新后的样本图像特征,得到所述样本目标图像的图像类别检测结果;
参数更新模块,用于利用所述样本目标图像的图像类别检测结果和所述样本目标图像标注的图像类别,调整所述图像检测模型的网络参数;
其中,所述特征更新模块包括特征获取子模块和特征转换子模块,所述特征获取子模块用于利用所述样本类别相关度和所述样本图像特征,得到样本类内图像特征和样本类间图像特征;所述特征转换子模块用于利用所述样本类内图像特征和所述样本类间图像特征进行特征转换,得到更新后的样本图像特征。
17.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至11任一项所述的图像检测方法,或权利要求12至14任一项所述的图像检测模型的训练方法。
18.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至11任一项所述的图像检测方法,或权利要求12至14任一项所述的图像检测模型的训练方法。
CN202011167402.2A 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质 Active CN112307934B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202111108726.3A CN113850179A (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质
CN202011167402.2A CN112307934B (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质
PCT/CN2020/135472 WO2022088411A1 (zh) 2020-10-27 2020-12-10 图像检测及相关模型训练方法、装置、设备、介质及程序
KR1020227008920A KR20220058915A (ko) 2020-10-27 2020-12-10 이미지 검출 및 관련 모델 트레이닝 방법, 장치, 기기, 매체 및 프로그램
TW110100322A TWI754515B (zh) 2020-10-27 2021-01-05 圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質
US17/718,585 US20220237907A1 (en) 2020-10-27 2022-04-12 Method, apparatus, device, medium and program for image detection and related model training

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011167402.2A CN112307934B (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111108726.3A Division CN113850179A (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质

Publications (2)

Publication Number Publication Date
CN112307934A CN112307934A (zh) 2021-02-02
CN112307934B true CN112307934B (zh) 2021-11-09

Family

ID=74331485

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111108726.3A Pending CN113850179A (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质
CN202011167402.2A Active CN112307934B (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111108726.3A Pending CN113850179A (zh) 2020-10-27 2020-10-27 图像检测方法及相关模型的训练方法、装置、设备、介质

Country Status (5)

Country Link
US (1) US20220237907A1 (zh)
KR (1) KR20220058915A (zh)
CN (2) CN113850179A (zh)
TW (1) TWI754515B (zh)
WO (1) WO2022088411A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879514B (zh) * 2022-12-06 2023-08-04 深圳大学 类相关性预测改进方法、装置、计算机设备及存储介质
CN117058549B (zh) * 2023-08-21 2024-02-20 中科三清科技有限公司 一种多行业二次污染动态来源解析系统及解析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN110188641A (zh) * 2019-05-20 2019-08-30 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN110502659A (zh) * 2019-08-23 2019-11-26 深圳市商汤科技有限公司 图像特征提取及网络的训练方法、装置和设备
CN110659625A (zh) * 2019-09-29 2020-01-07 深圳市商汤科技有限公司 物体识别网络的训练方法及装置、电子设备和存储介质
CN110913144A (zh) * 2019-12-27 2020-03-24 维沃移动通信有限公司 图像处理方法及摄像装置
CN111325276A (zh) * 2020-02-24 2020-06-23 Oppo广东移动通信有限公司 图像分类方法及装置、电子设备、计算机可读存储介质
CN111368934A (zh) * 2020-03-17 2020-07-03 腾讯科技(深圳)有限公司 图像识别模型训练方法、图像识别方法以及相关装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102428920B1 (ko) * 2017-01-03 2022-08-04 삼성전자주식회사 전자 장치 및 그 동작 방법
TWI604332B (zh) * 2017-03-24 2017-11-01 緯創資通股份有限公司 遠距離的身份辨識方法及其系統與電腦可讀取記錄媒體
CN108985190B (zh) * 2018-06-28 2021-08-27 北京市商汤科技开发有限公司 目标识别方法和装置、电子设备、存储介质
TWI696144B (zh) * 2018-12-19 2020-06-11 財團法人工業技術研究院 影像生成器的訓練方法
CN109754414A (zh) * 2018-12-27 2019-05-14 上海商汤智能科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN110689046A (zh) * 2019-08-26 2020-01-14 深圳壹账通智能科技有限公司 图像识别方法、装置、计算机装置及存储介质
CN111259967B (zh) * 2020-01-17 2024-03-08 北京市商汤科技开发有限公司 图像分类及神经网络训练方法、装置、设备及存储介质
CN111414862B (zh) * 2020-03-22 2023-03-24 西安电子科技大学 基于神经网络融合关键点角度变化的表情识别方法
CN111814845B (zh) * 2020-03-26 2022-09-20 同济大学 一种基于多支流融合模型的行人重识别方法
CN111539947B (zh) * 2020-04-30 2024-03-29 上海商汤智能科技有限公司 图像检测方法及相关模型的训练方法和相关装置、设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN110188641A (zh) * 2019-05-20 2019-08-30 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN110502659A (zh) * 2019-08-23 2019-11-26 深圳市商汤科技有限公司 图像特征提取及网络的训练方法、装置和设备
CN110659625A (zh) * 2019-09-29 2020-01-07 深圳市商汤科技有限公司 物体识别网络的训练方法及装置、电子设备和存储介质
CN110913144A (zh) * 2019-12-27 2020-03-24 维沃移动通信有限公司 图像处理方法及摄像装置
CN111325276A (zh) * 2020-02-24 2020-06-23 Oppo广东移动通信有限公司 图像分类方法及装置、电子设备、计算机可读存储介质
CN111368934A (zh) * 2020-03-17 2020-07-03 腾讯科技(深圳)有限公司 图像识别模型训练方法、图像识别方法以及相关装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Survey of Medical Image Classification Techniques;Eka Miranda et al;《2016 International Conference on Information Management and Technology (ICIMTech)》;20161118;56-61 *
Sequential similarity detection algorithm based on image edge feature;MA Guo-Hong et al;《Journal of Shanghai Jiaotong University(Science)》;20140131;第19卷(第1期);79-83 *
基于深度学习的图像物体检测与分类;夏源;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第4期);I138-2563 *
运动目标检测与跟踪算法研究;罗毅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第4期);I138-2663 *

Also Published As

Publication number Publication date
CN112307934A (zh) 2021-02-02
WO2022088411A1 (zh) 2022-05-05
CN113850179A (zh) 2021-12-28
TW202217645A (zh) 2022-05-01
KR20220058915A (ko) 2022-05-10
US20220237907A1 (en) 2022-07-28
TWI754515B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
WO2020098606A1 (zh) 节点分类方法、模型训练方法、装置、设备及存储介质
CN110717554B (zh) 图像识别方法、电子设备及存储介质
TWI761813B (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
CN112307934B (zh) 图像检测方法及相关模型的训练方法、装置、设备、介质
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
CN111444765B (zh) 图像重识别方法及相关模型的训练方法及相关装置、设备
JP7089045B2 (ja) メディア処理方法、その関連装置及びコンピュータプログラム
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
WO2023123923A1 (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
EP4343616A1 (en) Image classification method, model training method, device, storage medium, and computer program
CN111694954B (zh) 图像分类方法、装置和电子设备
Stivaktakis et al. Convolutional neural networks for spectroscopic redshift estimation on euclid data
CN111339884A (zh) 图像识别方法以及相关设备、装置
CN116628507B (zh) 数据处理方法、装置、设备及可读存储介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN112668718B (zh) 神经网络训练方法、装置、电子设备以及存储介质
CN116052286A (zh) 活体检测模型的训练方法、活体检测方法及相关设备
CN111931863B (zh) 误标注数据筛选方法、装置及计算机存储介质
CN113128278A (zh) 一种图像识别方法及装置
CN112818867B (zh) 人像聚类方法、设备及存储介质
CN117315310A (zh) 一种图像识别方法、图像识别模型训练方法及装置
US20240135698A1 (en) Image classification method, model training method, device, storage medium, and computer program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035891

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant