CN111597376A - 一种图像数据处理方法、装置以及计算机可读存储介质 - Google Patents

一种图像数据处理方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN111597376A
CN111597376A CN202010658577.7A CN202010658577A CN111597376A CN 111597376 A CN111597376 A CN 111597376A CN 202010658577 A CN202010658577 A CN 202010658577A CN 111597376 A CN111597376 A CN 111597376A
Authority
CN
China
Prior art keywords
image
detection
type
network
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010658577.7A
Other languages
English (en)
Other versions
CN111597376B (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010658577.7A priority Critical patent/CN111597376B/zh
Publication of CN111597376A publication Critical patent/CN111597376A/zh
Application granted granted Critical
Publication of CN111597376B publication Critical patent/CN111597376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

本申请公开了一种图像数据处理方法、装置以及计算机可读存储介质,该方法包括:获取包含样本检测对象的样本图像;通过初始检测模型获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;根据第一维度特征,获取样本检测对象的第一类型预测结果,根据第二维度特征,获取检测对象的第二类型预测结果;根据样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中检测对象的对象特征进行检测。采用本申请,可提高检测模型针对检测图像中的检测对象的对象特征的检测准确性。

Description

一种图像数据处理方法、装置以及计算机可读存储介质
技术领域
本申请涉及图像数据处理的技术领域,尤其涉及一种图像数据处理方法、装置以及计算机可读存储介质。
背景技术
随着计算机网络的不断发展,人工智能在各种领域中均有一定的应用,其中就涉及到将人工智能应用到图像检测的领域中,例如通过训练得到的检测模型实现对图像中的检测对象的对象类别的检测。
现有技术中,在训练初始检测模型以得到检测模型时,往往会通过大量的样本图像对初始检测模型进行训练,并且,每种类别的检测对象所在的样本图像的图像数量也非常多。由于初始检测模型本身的特征维度较高,对于每种类别的检测对象所在的样本图像的图像数量也很多,因此,初始检测模型在进行训练时,会学习到检测对象太多的冗余信息,该冗余信息不仅不会帮助到初始检测模型更好地识别出样本图像中的检测对象的对象类别,反而会干扰初始检测模型,使得初始检测模型容易将多种类别的检测对象识别为一种类别的检测对象,以致后续训练得到的检测模型也不能精确地对图像中的检测对象的对象类别进行区分。
发明内容
本申请提供了一种图像数据处理方法、装置以及计算机可读存储介质,可提高检测模型针对检测图像中的检测对象的对象特征的检测准确性。
本申请一方面提供了一种图像数据处理方法,包括:
获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;
通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;
根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;
根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。
其中,初始检测模型中包括第一预测子网络和第二预测子网络;第一预测子网络的特征维度大于第二预测子网络的特征维度;
通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征,包括:
基于第一预测子网络,获取样本图像的第一维度特征,基于第二预测子网络,对第一维度特征进行特征降维,得到第二维度特征;
则,根据第一维度特征,获取针对检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果,包括:
基于第一预测子网络和第一维度特征,预测得到样本检测对象的第一类型预测结果,基于第二预测子网络和第二维度特征,预测得到样本检测对象的第二类型预测结果。
其中,根据样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型,包括:
根据第一类型预测结果和实际对象类型,确定针对第一预测子网络的第一损失函数;
根据第二类型预测结果和实际对象类型,确定针对第二预测子网络的第二损失函数;
根据第一类型预测结果和第二类型预测结果,获取第一预测子网络和第二预测子网络之间的协同损失函数;
根据第一损失函数、第二损失函数和协同损失函数,确定初始检测模型的目标损失函数;
基于目标损失函数,修正初始检测模型的模型参数,得到检测模型。
其中,根据第一类型预测结果和实际对象类型,确定针对第一预测子网络的第一损失函数,包括:
根据第一类型预测结果和实际对象类型,确定第一预测子网络的第一预测损失值;
根据第一预测损失值,确定第一损失函数;第一损失函数用于使第一类型预测结果所指向的样本检测对象的预测对象类型,趋向于实际对象类型。
其中,根据第二类型预测结果和实际对象类型,确定针对第二预测子网络的第二损失函数,包括:
根据第二类型预测结果和实际对象类型,确定第二预测子网络的第二预测损失值;
根据第二预测损失值,确定第二损失函数;第二损失函数用于使第二类型预测结果所指向的样本检测对象的预测对象类型,趋向于实际对象类型。
其中,根据第一类型预测结果和第二类型预测结果,获取第一预测子网络和第二预测子网络之间的协同损失函数,包括:
获取第一类型预测结果和第二类型预测结果之间的互信息熵;
根据互信息熵,确定协同损失函数;协同损失函数用于使第二类型预测结果趋向于第一类型预测结果。
其中,根据第一损失函数、第二损失函数和协同损失函数,确定初始检测模型的目标损失函数,包括:
获取第一损失函数对应的第一模型影响权重、第二损失函数对应的第二模型影响权重、以及协同损失函数对应的第三模型影响权重;
基于第一模型影响权重对第一损失函数进行加权,得到第一加权损失函数,基于第二模型影响权重对第二损失函数进行加权,得到第二加权损失函数,基于第三模型影响权重对协同损失函数进行加权,得到第三加权损失函数;
将第一加权损失函数、第二加权损失函数和第三加权损失函数之和,确定为目标损失函数。
其中,上述方法还包括:
将检测模型中修正后的第一预测子网络,确定为第一目标子网络,将检测模型中修正后的第二预测子网络,确定为第二目标子网络;
获取客户端发送的包含检测对象的检测图像;
基于第一目标子网络或第二目标子网络,输出检测图像中的检测对象的目标类型预测结果;
根据目标类型预测结果,确定检测对象的检测对象类型;
将检测对象类型发送至客户端,以使客户端在客户端页面中对检测图像和检测对象类型进行关联输出。
其中,上述方法还包括:
将检测模型中修正后的第二预测子网络,确定为第二目标子网络;
获取客户端发送的检测图像;
基于第二目标子网络,输出检测图像的图像特征;
对检测图像的图像特征进行特征归一化,得到检测图像的匹配特征向量;
根据检测图像的匹配特征向量、以及图像检索库中的检索图像的匹配特征向量,从图像检索库中获取检测图像的相似检索图像;
将相似检索图像发送至客户端,以使客户端在客户端页面中输出相似检索图像。
其中,根据检测图像的匹配特征向量、以及图像检索库中的检索图像的匹配特征向量,从图像检索库中获取检测图像的相似检索图像,包括:
获取图像检索库中的每个检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离;
根据每个检索图像对应的向量距离,确定每个检索图像与检测图像之间的图像相似度;
将图像检索库中,与检测图像之间的图像相似度大于图像相似度阈值的检索图像,确定为检测图像的相似检索图像。
本申请一方面提供了一种图像数据处理装置,包括:
获取模块,用于获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;
降维模块,用于通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;
结果获取模块,用于根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;
模型更新模块,用于根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。
其中,初始检测模型中包括第一预测子网络和第二预测子网络;第一预测子网络的特征维度大于第二预测子网络的特征维度;
降维模块,用于:
基于第一预测子网络,获取样本图像的第一维度特征,基于第二预测子网络,对第一维度特征进行特征降维,得到第二维度特征;
则,结果获取模块,用于:
基于第一预测子网络和第一维度特征,预测得到样本检测对象的第一类型预测结果,基于第二预测子网络和第二维度特征,预测得到样本检测对象的第二类型预测结果。
其中,模型更新模块,包括:
第一损失确定单元,用于根据第一类型预测结果和实际对象类型,确定针对第一预测子网络的第一损失函数;
第二损失确定单元,用于根据第二类型预测结果和实际对象类型,确定针对第二预测子网络的第二损失函数;
第三损失确定单元,用于根据第一类型预测结果和第二类型预测结果,获取第一预测子网络和第二预测子网络之间的协同损失函数;
第四损失确定单元,用于根据第一损失函数、第二损失函数和协同损失函数,确定初始检测模型的目标损失函数;
损失修正单元,用于基于目标损失函数,修正初始检测模型的模型参数,得到检测模型。
其中,第一损失确定单元,包括:
第一损失值确定子单元,用于根据第一类型预测结果和实际对象类型,确定第一预测子网络的第一预测损失值;
第一损失确定子单元,用于根据第一预测损失值,确定第一损失函数;第一损失函数用于使第一类型预测结果所指向的样本检测对象的预测对象类型,趋向于实际对象类型。
其中,第二损失确定单元,包括:
第二损失值确定子单元,用于根据第二类型预测结果和实际对象类型,确定第二预测子网络的第二预测损失值;
第二损失确定子单元,用于根据第二预测损失值,确定第二损失函数;第二损失函数用于使第二类型预测结果所指向的样本检测对象的预测对象类型,趋向于实际对象类型。
其中,第三损失确定单元,包括:
互信息熵获取子单元,用于获取第一类型预测结果和第二类型预测结果之间的互信息熵;
第三损失确定子单元,用于根据互信息熵,确定协同损失函数;协同损失函数用于使第二类型预测结果趋向于第一类型预测结果。
其中,第四损失确定单元,包括:
权重获取子单元,用于获取第一损失函数对应的第一模型影响权重、第二损失函数对应的第二模型影响权重、以及协同损失函数对应的第三模型影响权重;
加权子单元,用于基于第一模型影响权重对第一损失函数进行加权,得到第一加权损失函数,基于第二模型影响权重对第二损失函数进行加权,得到第二加权损失函数,基于第三模型影响权重对协同损失函数进行加权,得到第三加权损失函数;
目标函数确定子单元,用于将第一加权损失函数、第二加权损失函数和第三加权损失函数之和,确定为目标损失函数。
其中,上述装置还包括:
第一网络确定模块,用于将检测模型中修正后的第一预测子网络,确定为第一目标子网络,将检测模型中修正后的第二预测子网络,确定为第二目标子网络;
第一图像获取模块,用于获取客户端发送的包含检测对象的检测图像;
结果输出模块,用于基于第一目标子网络或第二目标子网络,输出检测图像中的检测对象的目标类型预测结果;
类型确定模块,用于根据目标类型预测结果,确定检测对象的检测对象类型;
类型发送模块,用于将检测对象类型发送至客户端,以使客户端在客户端页面中对检测图像和检测对象类型进行关联输出。
其中,上述装置还包括:
第二网络确定模块,用于将检测模型中修正后的第二预测子网络,确定为第二目标子网络;
第二图像获取模块,用于获取客户端发送的检测图像;
特征输出模块,用于基于第二目标子网络,输出检测图像的图像特征;
归一化模块,用于对检测图像的图像特征进行特征归一化,得到检测图像的匹配特征向量;
相似检索模块,用于根据检测图像的匹配特征向量、以及图像检索库中的检索图像的匹配特征向量,从图像检索库中获取检测图像的相似检索图像;
图像发送模块,用于将相似检索图像发送至客户端,以使客户端在客户端页面中输出相似检索图像。
其中,相似检索模块,包括:
距离获取单元,用于获取图像检索库中的每个检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离;
相似度确定单元,用于根据每个检索图像对应的向量距离,确定每个检索图像与检测图像之间的图像相似度;
相似检索单元,用于将图像检索库中,与检测图像之间的图像相似度大于图像相似度阈值的检索图像,确定为检测图像的相似检索图像。
本申请一方面提供了一种图像数据处理装置,包括:
图像获取模块,用于获取包含检测对象的检测图像;
特征输出模块,用于将检测图像输入检测模型,基于检测模型输出检测图像的图像特征;检测模型是采用如权利要求1-10任一项的图像数据处理方法训练得到;
类型预测模块,用于基于图像特征,在检测模型中输出检测对象的类型预测结果;或者
图像检索模块,用于基于图像特征,从图像检索库中获取检测图像的相似检索图像。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
本申请获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。由此可见,本申请提出的方法可以通过样本图像的一个较高维度的特征(即第一维度特征)和一个较低维度的特征(即第二维度特征),协同对初始检测模型进行训练,使得初始检测模型不仅可以学习到样本图像较高维度的图像特征,而且还可以通过较低维度的图像特征减少初始检测模型所学习到的、较高维度的图像特征中的冗余图像特征,使得最终训练得到的检测模型可以更准确地对检测图像中的检测对象的对象特征进行检测。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请提供的一种图像检测的场景示意图;
图3是本申请提供的一种图像数据处理方法的流程示意图;
图4是本申请提供的一种模型训练的场景示意图;
图5是本申请提供的一种模型应用的场景示意图;
图6是本申请提供的一种终端页面的页面示意图;
图7是本申请提供的一种获取相似图像的场景示意图;
图8是本申请提供的一种图像数据处理方法的流程示意图;
图9是本申请提供的一种图像数据处理装置的结构示意图;
图10是本申请提供的一种图像数据处理装置的结构示意图;
图11是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请中所涉及到的机器学习主要指,通过机器学习来训练得到检测模型,该检测模型可以用于对图像中的检测对象的对象特征进行检测。通过机器学习得到检测模型的具体过程可以参见下述图3对应的实施例中的描述。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a;如图1所示,终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。
如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。下面以终端设备100a与服务器200之间的通信为例,进行本申请实施例的具体描述。
请一并参见图2,图2是本申请提供的一种图像检测的场景示意图。如图2所示,在描述终端设备100a与服务器200之间的交互过程之前,需要先描述服务器200如何训练得到检测模型116b。该检测模型116b可以用于对图像中的检测对象的对象类型进行检测。例如,该检测对象可以是狗,因此该检测对象的对象类型可以是吉娃娃、萨摩耶犬、田园犬、牧羊犬以及藏獒等。再例如,该检测对象还可以是猫,因此该检测对象的对象类型可以是波斯猫、博美拉猫、埃及猫、狸花猫以及布偶猫等。
下面描述服务器200如何训练初始检测模型120b,以得到检测模型116b的过程。首先,可以准备包含多个样本图像的样本训练集100b,该样本训练集100b中可以包括样本图像101b、样本图像102b、……以及样本图像103b等多个样本图像。接着,服务器200可以通过样本训练集100b中的每个样本图像对初始检测模型进行训练。
如图2所示,初始检测模型120b可以包括两个网络分支,一个为网络分支104b,一个为网络分支108b。需要进行说明的是,网络分支104b的特征维度要大于网络分支108b的特征维度,例如,通过网络分支104b所得到的样本图像的图像特征可以为维度为1×2048的特征向量,而通过网络分支105b所得到的样本图像的图像特征可以为维度为1×512的特征向量。
因此,首先服务器200可以通过网络分支104b中的特征提取网络层105b,提取得到样本图像的图像特征,该图像特征也就是特征提取网络层105b学习到的样本图像中的图像特征。接着,网络分支104b中的分类网络层106b可以通过特征提取网络层105b提取到的样本图像的图像特征,对样本图像中的检测对象的对象类型进行预测,得到第一类型预测结果107b,该第一类型预测结果107b即包含了网络分支104b预测到的样本图像中的检测对象的对象类型。
并且,当特征提取网络层105b提取得到样本图像的图像特征之后,特征提取网络层105b还可以将该图像特征,给到网络分支108b中的特征降维网络层109b。通过该特征降维网络层109b,可以对特征提取网络层得到的样本图像的图像特征进行降维,得到一个降维后的图像特征。例如,上述特征提取网络层所得到的样本图像的图像特征的维度为1×2048,那么,通过特征降维网络层109b就可以对该维度为1×2048的图像特征的特征维度进行降维,得到维度为1×512的图像特征。继而,分类网络层110b就可以通过特征降维网络层109b所得到的样本图像的图像特征,对样本图像中的检测对象的对象类型进行预测,得到第二类型预测结果111b,该第二类型预测结果111b即包含了网络分支108b预测得到的样本图像中的检测对象的对象类型。
在本申请中,初始检测模型108b的损失函数112b一共包含3个部分的损失函数,该3个部分的损失函数分别为损失函数113b、损失函数114b和损失函数115b。其中,损失函数113b为通过网络分支104b预测得到的样本图像的第一类型预测结果107b与样本图像的实际对象类型之间的偏差,所得到的损失函数。损失函数114b为通过网络分支108b预测得到的样本图像的第二类型预测结果111b与样本图像的实际对象类型之间的偏差,所得到的损失函数。损失函数115b为通过第一类型预测结果107b与第二类型预测结果111b之间的互信息熵所得到的损失函数,损失函数115b主要用于使网络分支108b所得到的第二类型预测结果111b,趋近于网络分支104b所得到的第一类型预测结果107b。换句话说,损失函数115b用于使网络分支108b尽可能学习到网络分支104b所学习到的样本图像的图像特征。
通过上述损失函数112b即可以将第一类型预测结果107b和第二类型预测结果111b,反向传播至初始检测模型120b,以更新初始检测模型120b的模型参数,更新的目的为使得损失函数112b达到最小值。因此,可以理解的是,特征提取网络层105b可以通过样本训练集100b中的若干个样本图像可以不断对初始检测模型120b进行训练,以不断更新初始检测模型120b的模型参数。当通过样本训练集100b对初始检测模型120b训练完成时,即可将训练完成的初始检测模型120b称之为检测模型116b。
接下来,即可将检测模型116b应用到具体的图像检测的场景中。
如图2所示,终端设备100a可以将需要检测的图像(可以称之为检测图像)117b发送给服务器200,该检测图像117b中可以包括检测对象。服务器200在获取到终端设备100a发送的检测图像117b之后,可以将该检测图像117b输入到检测模型116b中,通过检测模型116b即可检测出检测图像117b中的检测对象的对象类型。此处,检测模型116b检测出的检测图像中的检测对象的对象类型为“波斯猫”的类型118b。
服务器200可以将检测出的检测图像117b中的检测对象的“波斯猫”类型118b,发送给终端设备100a,终端设备100a可以在终端页面中输出检测图像117b中的检测对象的“波斯猫”类型118b,以向用户展示针对检测图像117b中的检测对象的对象类型的检测结果。
可选的,上述训练初始检测模型120b以得到检测模型116b的过程也可以是终端设备100a执行的。换句话说,训练初始检测模型120b以得到检测模型116b的执行主体可以是终端设备,也可以是服务器,具体根据实际应用场景决定,对此不作限制。
通过本申请所提供的方法,在训练初始检测模型时,可以提取得到样本图像的高维度的图像特征,通过对该高纬度的图像特征进行降维可以得到样本图像的低维度的图像特征。通过该高维度的图像特征和低维度的图像特征共同对初始检测模型进行训练,使得通过低维度的图像特征训练初始检测模型时,可以减少初始检测模型所学习到的高维度的图像特征中的样本图像的冗余图像特征,避免初始检测模型训练到过拟合的情况。
此外,通过网络分支104b和网络分支108b之间的协同损失函数(例如上述损失函数115b),使得特征维度较低的网络分支108b,可以尽可能多地学习到特征维度较高的网络分支104b所学习到的样本图像的图像特征,而不会导致网络分支108b由于特征维度较低,就丢弃掉样本图像中的有用图像特征。因此,通过本申请所提供的方法得到的检测模型,可以对检测图像中的检测对象的对象特征实现更为精确的检测。
请参见图3,图3是本申请提供的一种图像数据处理方法的流程示意图。该图像数据处理方法可以是由服务器执行,也可以是由终端设备执行,还可以是服务器和终端设备共同执行。本实施例中的执行主体具体根据实际应用场景决定,对此不作限制,此处,以服务器作为本实施例的执行主体为例进行说明。如图3所示,该方法可以包括:
步骤S101,获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;
具体的,样本图像用于训练下述初始检测模型,以得到检测模型。该检测模型可以用于对检测图像中的检测对象的对象类型进行检测,该检测模型也可以用于检索与检测图像相似的图像,具体参见下述。其中,样本图像可以有多个,本申请中的多个指至少两个。样本图像中的检测对象可以称之为样本检测对象,该样本检测对象可以是任意的对象。例如该样本检测对象可以为动物类的对象,具体的,该样本检测对象可以是猫、狗、羊、老虎、狮子和兔子等动物。再例如,该样本检测对象还可以是植物类的对象,具体的,该样本检测对象可以是花、草以及树等植物。
样本图像还可以携带有所包含的样本检测对象的对象类型标签,该对象类型标签表明了样本检测对象的实际对象类型。例如,若样本图像中的样本检测对象类型为狗,那么,该样本检测对象的实际对象类型可以是吉娃娃、萨摩耶犬、田园犬、牧羊犬或者藏獒等。再例如,若样本图像中的样本检测对象为猫,则样本检测对象的实际对象类型可以是波斯猫、博美拉猫、埃及猫、狸花猫或者布偶猫等。再例如,若样本检测对象为花,则样本检测对象的实际对象类型可以是牡丹、兰花、君子兰、玫瑰或者栀子花等。
因此,服务器可以获取到包含样本检测对象的若干个样本图像,该样本检测对象的对象类型可以是多种多样的,一个样本图像中可以只包括一种样本检测对象。样本图像的具体数量根据实际应用场景决定,对此不作限制,例如样本图像的具体数量可以为1万个或者10万个等。
步骤S102,通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;
具体的,初始检测模型中可以包括两个预测子网络,该两个预测子网络具体可以是第一预测子网络和第二预测子网络。其中,第一预测子网络的特征维度要大于第二预测子网络的特征维度,该特征维度指预测子网络学习到的样本图像的图像特征的维度。第一预测子网络可以等同于上述图2中的网络分支104b,第二预测子网络可以等同于上述图2中的网络分支108b。初始检测模型可以通过第一预测子网络得到样本图像的第一维度特征,该第一维度特征即为第一预测子网络学习到的样本图像的图像特征,该第一维度特征可以为一个特征向量。初始检测模型可以通过第二预测子网络,对第一预测子网络所得到的第一维度特征进行降维,得到第二维度特征,该第二维度特征即为第二预测子网络学习到的样本图像的图像特征,该第二维度特征也可以为一个特征向量。
举个例子,上述第一预测子网络所得到的样本图像的第一维度特征,可以是特征维度为1×2048的一个特征向量,上述第二预测子网络可以对该第一维度特征进行特征降维,得到第二维度特征,该第二维度特征可以是维度为1×512的一个特征向量。
其中,上述第一预测子网络可以是采用在ImageNet(一个图像识别数据库)数据集上预训练得到的ResNet-101(一种残差网络)网络所构成的。可以将第一预测子网络理解为是初始检测模型的主网络,第一预测子网络中除了可以包括ResNet-101网络之外,还可以包括一个池化层和一个全连接层。如下述表1所示,表1中记录了ResNet-101网络的网络结构。
如下述表1所示,ResNet-101网络一共包括5个部分的网络层,分别为第1部分、第2部分、第3部分、第4部分和第5部分的网络层。第1部分为单独的一个卷积层,第2部分包含3个残差块,第3部分包含4个残差块,第4部分包含23个残差块,第5部分包含3个残差块。由此可知,ResNet-101网络一共有3+4+23+3等于33个残差块。本申请中,在ResNet-101网络中所采用的的残差块为3层残差块,实际上,在本领域中,除了3层残差块之外还存在2层残差块,由于本申请中涉及到深度网络学习,因此,使用3层残差块相较于使用2层残差块会更加适用于进行深度网络学习。由此可知,ResNet-101网络中一共有1(第一部分的卷积层)+33(33个残差块)*3(3层)+1(ResNet-101网络最后有个全连接层)等于101层网络层,因此称之为ResNet-101网络。其中,表1中的1×1、3×3以及7×7均为卷积核的尺寸,卷积核的尺寸后面的数字(例如64、128、256、512、1024以及2048)为通过卷积核进行卷积所得到的图像特征的特征维度。
Figure BDA0002577658640000151
表1
请参见下述表2,下述表2中记录了第一预测子网络中的池化层和全连接层的规格(具体为网络层的维度)。其中,通过第一预测子网络中的ResNet-101网络可以提取得到样本图像的图像特征,将ResNet-101网络所得到的图像特征再输入第一预测子网络中的池化层,即可得到上述样本图像的第一维度特征,该第一维度特征的特征维度可以是1×2048。表2中的全连接层的输出尺寸中的N_class为所有样本检测对象的对象类型的类型总数量,例如,若样本检测对象一共有5种对象类型,则N就等于5。第一预测子网络中的全连接层,用于输出第一预测子网络所预测到的样本图像中的样本检测对象的对象类型为每一种对象类型的概率。
Figure BDA0002577658640000161
表2
更多的,第二预测子网络中可以包括特征降维网络和一个全连接层,第二预测子网络中的特征降维网络可以是单层全连层网络,也可以是多层全连层网络,还可以是卷积层迭代结构。其中,单层全连层网络中可以包括一个全连接层和一个relu(一种激活函数)层,多层全连层结构可以包括多个单层全连层网络。卷积层迭代结构中可以包括多个卷积结构,一个卷积结构中可以包括一个卷积层和一个relu(一种激活函数)层。请参见下述表3,表3中记录了第二预测子网络中的特征降维网络和全连接层的规格。
Figure BDA0002577658640000162
表3
其中,表3中的N_em可以等于512,即特征降维网络可以对上述第一维度特征进行降维,得到维度为1×512的第二维度特征。同样,表3中的全连接层的输出尺寸中的N_class也为所有样本检测对象的对象类型的类型数量。第二预测子网络中的全连接层,用于输出第二预测子网络所预测到的样本图像中的样本检测对象为每一种对象类型的概率。
更多的,还可以设置上述表1、表2和表3中的网络结构在进行模型训练过程中的学习率,由于样本图像中的图像特征主要是由第一预测子网络中的ResNet-101网络进行提取,因此,可以将ResNet-101网络的学习率设置得较低,使得ResNet-101网络可以更精确地学习到样本图像中的图像特征。例如,可以将上述表1中所记录的基础网络结构(即ResNet-101网络)的学习率设置为0.001,将上述表2和表3中的所记录的分支网络结构的学习率设置为0.01。此外,在初始检测模型进行训练的过程中,各个网络结构的学习率也可以持续进行更新,例如,可以对初始检测模型进行多轮(例如50轮)训练,每进行一轮训练,就将各个网络结构的学习率乘以0.1。其中,一轮训练可以指通过一轮指定数量的样本图像对初始检测模型训练完成。
步骤S103,根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;
具体的,第一维度特征就为第一预测子网络学习到的样本图像中的图像特征,可以将该第一维度特征给到第一预测子网络中的全连接层,通过该全连接层即可输出针对样本检测对象的第一类型预测结果,该第一类型预测结果中包括第一预测子网络所预测到的样本检测对象为每一种对象类型的概率。例如,若样本检测对象一共存在3种对象类型,那么,第一类型预测结果可以为[0.3,0.4,0.5],该第一类型预测结果表明,第一预测子网络预测到的样本检测对象为第一种对象类型的概率为0.3,样本检测对象为第二种对象类型的概率为0.4,样本检测对象为第三种对象类型的概率为0.5。
同理,第二维度特征就为第二预测子网络学习到的样本图像中的图像特征,可以将该第二维度特征给到第二预测子网络中的全连接层,通过该全连接层可以输出针对样本检测对象的第二类型预测结果,该第二类型预测结果中包括第二预测子网络所预测到的样本检测对象为每一种对象类型的概率。例如,若样本检测对象一共存在3种对象类型,那么,第二类型预测结果可以为[0.6,0.8,0.9],该第二类型预测结果表明,第二预测子网络预测到的样本检测对象为第一种对象类型的概率为0.6,第二预测子网络预测到的样本检测对象为第二种对象类型的概率为0.8,第二预测子网络预测到的样本检测对象为第三种对象类型的概率为0.9。
步骤S104,根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测;
具体的,服务器可以通过初始检测模型的损失函数,来更新初始检测模型的模型参数。其中,可以将初始检测模型的损失函数称之为目标损失函数,该目标损失函数一共包含3个部分,第一个部分为第一预测子网络对应的第一损失函数,第二个部分为第二预测子网络对应的第二损失函数,第三个部分为第一预测子网络和第二预测子网络之间的协同损失函数。
其中,第一损失函数是通过样本检测对象的实际对象类型与第一类型预测结果之间的损失值得到,该损失值表征了第一类型预测结果与实际对象类型之间的偏差,损失值越大,偏差就越大,损失值越小,偏差就越小。偏差越大,表明第一预测子网络预测得到的第一类型预测结果越不准确,偏差越小,表明第一预测子网络预测得到的第一类型预测结果就越准确。第一损失函数用于使第一预测子网络所得到的针对样本检测对象的第一类型预测结果,趋近于样本检测对象的实际对象类型。换句话说,通过第一损失函数可以使得第一类型预测结果中,样本检测对象的实际对象类型所对应的概率趋近于最大值“1”。
第二损失函数是通过样本检测对象的实际对象类型与第二类型预测结果之间的损失值得到,该损失值表征了第二类型预测结果与实际对象类型之间的偏差,损失值越大,偏差就越大,损失值越小,偏差就越小。偏差越大,表明第二预测子网络预测得到的第二类型预测结果越不准确,偏差越小,表明第二预测子网络预测得到的第二类型预测结果就越准确。第二损失函数用于使第二预测子网络所得到的针对样本检测对象的第二类型预测结果,趋近于样本检测对象的实际对象类型。换句话说,通过第二损失函数可以使得第二类型预测结果中,样本检测对象的实际对象类型所对应的概率趋近于最大值“1”。
协同损失函数可以通过上述第一类型预测结果和第二类型预测结果之间的互信息熵得到。该协同损失函数用于使第二预测子网络所得到的第二类型预测结果在各个对象类型上的概率分布,趋近于第一预测子网络所得到的第一类型预测结果在各个对象类型上的概率分布。第一类型预测结果与第二类型预测结果之间的互信息熵越大,表明第一预测子网络和第二预测子网络对于同一样本图像中的样本检测对象的对象类型的检测结果差异越大。反之,第一类型预测结果与第二类型预测结果之间的互信息熵越小,表明第一预测子网络和第二预测子网络对于同一样本图像中的样本检测对象的对象类型的检测结果差异越小。通过协同损失函数,可以使得第二预测子网络可以尽可能地学校到第一预测子网络所学习到的图像特征,使得第二预测子网络不会因为特征维度较低,就丢弃掉了样本图像中的有效信息。
其中,服务器还可以获取上述第一损失函数、第二损失函数和协同损失函数分别对应的模型影响权重,该模型影响权重表征了在对初始检测模型的模型参数进行修正时,对应的损失函数对初始检测模型的模型参数调整时的影响程度。模型影响权重越大,表明对应的损失函数对初始检测模型的模型参数调整时的影响程度越大。反之,模型影响权重越小,表明对应的损失函数对初始检测模型的模型参数调整时的影响程度越小。
其中,可以将第一损失函数的模型影响权重称之为第一模型影响权重,将第二损失函数的模型影响权重称之为第二模型影响权重,将协同损失函数的模型影响权重称之为第三模型影响权重。服务器可以通过上述第一模型影响权重、第二模型影响权重和第三模型影响权重,分别对第一损失函数、第二损失函数和协同损失函数进行加权求和,得到初始检测模型的目标损失函数。目标损失函数loss的具体获得方式,请参见下述公式(1):
loss=a*Lclass1+b*Lclass2+c*Lsyn (1)
Figure BDA0002577658640000191
其中,公式(1)中的Lclass1为针对第一预测子网络的上述第一损失函数,Lclass2为针对第二预测子网络的上述第二损失函数,Lsyn为第一预测子网络与第二预测子网络之间的协同损失函数。a为第一模型影响权重,b为第二模型影响权重,c为第三模型影响权重。其中,a、b和c的取值可以是合理范围内的任意取值,例如a可以等于1,b可以等于1,c可以0.1。N_class为样本检测对象的对象类型的种类数量。pi为第一预测子网络预测得到的样本检测对象的对象类型为第i种对象类型的概率,qi为第二预测子网络预测得到的样本检测对象的对象类型为第i种对象类型的概率。
其中,pi是从第一类型预测结果中获取到的,qi是从第二类型预测结果中获取到的。举个例子,若N_class等于3,即所有样本检测对象的对象类型一共有3种,i的取值可以为1、2和3,表明第一类型预测结果和第二类型预测结果中均包含3个值,一个值对应于一个概率,一个概率对应于一种对象类型。
举个例子,假设针对某个样本图像的第一类型预测结果为[0.1,0.2,0.3],该第一类型预测结果表明第一预测子网络预测到的该个样本图像中的样本检测对象的对象类型为第一种对象类型的概率为0.1,第一预测子网络预测到的该个样本图像中的样本检测对象的对象类型为第二种对象类型的概率为0.2,第一预测子网络预测到的该个样本图像中的样本检测对象的对象类型为第三种对象类型的概率为0.3。也就是说,i等于1时,p1等于0.1,i等于2时,p2等于0.2,i等于3时,p3等于0.3。
同理,假设针对某个样本图像的第二类型预测结果为[0.4,0.5,0.6],表明第二预测子网络预测到的该个样本图像中的样本检测对象的对象类型为第一种对象类型的概率为0.4,第二预测子网络预测到的该个样本图像中的样本检测对象的对象类型为第二种对象类型的概率为0.5,第二预测子网络预测到的该个样本图像中的样本检测对象的对象类型为第三种对象类型的概率为0.6。则i等于1时,q1等于0.4,i等于2时,q2等于0.5,i等于3时,q3等于0.6。
由上,每向初始检测模型输入一个样本图像时,均会得到针对该样本图像的第一类型预测结果和第二类型预测结果。并且,可以根据针对每个样本图像的第一类型预测结果和第二类型预测结果,得到一个目标损失函数,根据每个样本图像的第一类型预测结果和第二类型预测结果,得到其分别对应的目标损失函数的过程相同,具体可以参见上述公式(1)。
因此,可以不断向初始检测模型输入多个样本图像,并且,可以通过初始检测模型预测得到的每个样本图像的第一类型预测结果和第二类型预测结果,得到每个样本图像对应的目标损失函数,进而可以通过每个样本图像对应的目标损失函数,来更新(即修正)初始检测模型的模型参数,更新的原理即是通过更新初始检测模型的模型参数,使得目标损失函数达到最小值。当目标损失函数达到最小值时,表明初始检测模型对样本图像的预测结果(可以包括第一类型预测结果和第二类型预测结果)的损失值最小,也就是表明初始检测模型对样本图像的预测结果越准确,预测结果越接近样本图像的实际结果,该实际结果即为样本图像中的样本检测对象的实际对象类型。
本申请中训练检测模型时采用的是一种有监督的学习方法,可以理解为是上述第二预测子网络可以对第一预测子网络的训练过程进行监督学习,减少第一预测子网络学习到的冗余图像特征,避免第一预测子网络训练至过拟合。
当对初始检测模型训练完成时(也就是对初始检测模型的模型参数更新完成),即可将训练完成的初始检测模型作为最终的检测模型。其中,初始检测模型训练完成的标准可以是,已经通过指定数量的样本图像对初始检测模型训练完成,则可以将此时的初始检测模型称之为检测模型。初始检测模型训练完成的标准,也可以是初始检测模型针对样本图像的检测误差已经小于某个误差值了,该误差值可以通过目标损失函数来衡量,若目标损失函数小于某个误差值(该误差值的大小可以自行设定),则表明初始检测模型训练完成。
当对初始检测模型训练完成,得到检测模型时,就可以将检测模型投入实际应用场景中。该检测模型可以用于检测图像中的检测对象的对象类型,该检测模型也可以用于检测与某个图像相似的其他图像。可以将检测模型中修正完成的第一预测子网络,称之为第一目标子网络,可以将检测模型中修正完成的第二预测子网络,称之为第二目标子网络。
其中,本申请所训练得到的检测模型可以搭载在任意系统,用于实现图像类型识别或者用于实现对图像的图像特征的检测。
请参见图4,图4是本申请提供的一种模型训练的场景示意图。如图4所示,初始检测模型中包括一个特征维度较高的第一预测子网络100f、以及一个特征维度较低的第二预测子网络。可以将样本训练集100f中的多个样本图像均输入初始检测模型。通过初始检测模型中的第一预测子网络100f可以得到针对样本图像的第一类型预测结果103f,通过初始检测模型中的第二预测子网络102f得到针对样本图像的第二类型预测结果105f。此外,样本图像还携带有所包含的样本检测对象的对象类型标签,该对象类型标签说明了样本检测对象的实际对象类型104f。
继而,通过第一类型预测结果103f和实际对象类型104f,服务器可以得到针对第一预测子网络的第一损失函数;通过第二类型预测结果105f和实际对象类型104f,服务器可以得到针对第二预测子网络的第二损失函数;通过第一类型预测结果103f和第二类型预测结果104f,可以得到针对第一预测子网络和第二预测子网络之间的协同损失函数。通过上述第一损失函数、第二损失函数和协同损失函数,即可得到初始检测模型的目标损失函数106f。
通过该目标损失函数可以对初始检测模型的模型参数进行修正更新,得到检测模型。其中,对初始检测模型的模型参数进行更新,包括对第一预测子网络的网络参数和第二预测子网络的网络参数进行更新。检测模型中包括对第一预测子网络的网络参数修正完成后得到的第一目标子网络107f、以及对第二预测子网络的网络参数修正完成后得到的第二目标子网络108f。
请参见图5,图5是本申请提供的一种模型应用的场景示意图。首先,操作105d:服务器可以通过检测模型对图像检索库104e中的检索图像进行特征提取,得到每个检索图像的图像特征,进而可以通过每个检索图像的图像特征,得到每个检索图像(包括检索图像100e、检索图像101e、检索图像102e和检索图像103e)的匹配特征向量106e。此处,服务器获取到的检测图像为检测图像107e,服务器可以通过检测模型对该检测图像107e进行特征提取,得到该检测图像107e的图像特征,进而通过该图像特征可以执行检索操作111e,可以使得检测模型可以输出检测出的该检测图像107e中的检测对象的对象类型112e“博美”。
或者,通过该检测图像107e的图像特征,可以得到检测图像107e的匹配特征向量。通过检测图像107e的匹配特征向量、以及图像检索库104e中每个检索图像的匹配特征向量,可以从检索图像库104e中检索到检测图像107e的相似检索图像。此处检索到的检测图像107e的相似检索图像110e为图像检索库104e中的检索图像102e,表明检索图像102e的匹配特征向量与检测图像107e的匹配特征向量之间的向量距离,小于某个向量距离阈值(可以自行设定),换句话说,检索图像102e与检测图像107e之间的图像相似度大于某个相似度阈值(可以自行设定)。
更多的,客户端(可以搭载于终端设备中,为前端)可以向服务器(为后端)发送包含检测对象的检测图像,以向服务器请求检测该检测图像中的检测对象的对象类型。需要进行说明的是,在使用检测模型来检测检测图像中的检测对象的对象类型时,可以使用检测模型中的第一目标子网络来检测,或者使用检测模型中的第二目标子网络来检测。服务器在获取到客户端发送的检测图像之后,可以将该检测图像输入检测模型的第一目标子网络或者输入检测模型的第二目标子网络,通过该第一目标子网络或者该第二目标子网络,可以得到针对检测图像的一个类型预测结果,该类型预测结果中包含了检测图像中的检测对象的对象类型为每一种对象类型的概率。可以将该类型预测结果中,概率最高的对象类型,作为检测出来的检测图像中的检测对象的对象类型。可以将检测出来的检测图像中的检测对象的对象类型称之为检测对象类型。
举个例子,若针对检测图像的类型预测结果为[0.2,0.5,0.8],则服务器通过检测模型检测出的检测图像中的检测对象的检测对象类型,就为该类型预测结果中的概率0.8(最大概率)对应的对象类型。服务器可以将获取到的检测对象类型发送给客户端,客户端可以在客户端页面中对检测图像和该检测图像中的检测对象的检测对象类型进行关联输出,以向客户端所属的用户展示检测出的检测图像中的检测对象的检测对象类型。
请参见图6,图6是本申请提供的一种终端页面的页面示意图。如图6所示,终端页面100c为图像导入页面,终端设备可以响应用户针对终端页面100c中的控件101c的触发操作(例如点击操作),获取到用户录入的检测图像。如终端页面102c所示,用户录入的检测图像为检测图像103c。
在终端页面102c中还包括“物体类型识别”控件104c和“图像相似检索”控件105c。终端设备可以响应用户针对“物体类型识别”控件104c的点击操作,将检测图像103c发送给服务器。服务器在获取到该检测图像103c时,可以将该检测图像103c输入检测模型106c,通过检测模型106c可以输出该检测图像103c中的检测对象的对象类型107c。对象类型107c表明检测模型106c检测出的检测图像103c中的检测对象的对象类型为“向日葵”。
服务器可以将该对象类型107c发送给终端设备,终端设备可以在终端页面中输出该对象类型107c。如终端页面108c所示,终端页面108c中显示了终端设备获取到的服务器发送的检测图像103c的检测结果109c,该检测结果109c也就是检测出的检测图像103c中的检测对象的对象类型为“向日葵”的对象类型107c。更多的,在终端页面108c的页面区域110c中还可以显示有,所检测出来的属于“向日葵”对象类型107c的更多图像供用户查看。可以理解的是,在用户的视角下,当用户点击终端页面102c中的“物体类型识别”控件104c时,终端设备就可以从终端页面102c跳转显示到终端页面108c。
更多的,客户端还可以向服务器发送检测图像,以向服务器请求检索与该检测图像相似的其他图像。首先,服务器可以通过检测模型来得到该检测图像的检索特征,该检索特征可以是一个特征向量,该检索特征用于表示检测图像,并用于检索与检测图像相似的其他图像。为了提高检索与检测图像相似的其他图像的效率,可以通过第二目标子网络来得到检测图像的检索特征。使用第二目标子网络来得到检索图像的检索特征的维度,会比使用第一目标子网络来得到检测图像的检索特征的维度要低,因此,通过第二目标子网络来得到检测图像的检索特征,可以提高针对检测图像的相似图像的检索效率。参见下述。
服务器通过检测模型得到检测图像的检索特征的过程为:服务器可以将该检测图像输入检测模型中的第一目标子网络,得到该检测图像的图像特征(可以理解为是检测图像的第一维度特征)。服务器可以将该图像特征输入到检测模型中的第二目标子网络,进而通过该第二目标子网络可以输出检测图像的降维后的图像特征(可以理解为是检测图像的第二维度特征)。
接着,服务器可以对第二目标子网络所得到的检测图像的图像特征进行特征归一化,得到检测图像的匹配特征向量,该匹配特征向量也就是检索图像的检索特征。其中,对第二目标子网络所得到的检测图像的图像特征进行特征归一化,得到检索图像的匹配特征向量feat的过程,可以参见下述公式(2):
Figure BDA0002577658640000241
其中,公式(2)中的f为上述第二目标子网络输出的检测图像的图像特征,f可以为一个特征向量。N_em为f中的元素个数,例如若f的维度为1×512,则N_em可以等于512。fi表示f中的第i个元素的值。例如,若f为[2,3,4],则i的取值可以为1,2和3,且f1等于2,f2等于3,f3等于4。
服务器可以在图像检索库中检索与检测图像相似的其他图像,该图像检索库中可以存在多个图像,可以将图像检索库中的图像称之为检索图像。服务器可以通过与获取检测图像的匹配特征向量同样的方式,获取到图像检索库中的每个检索图像的匹配特征向量。服务器可以计算每个检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离,服务器可以通过每个检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离,来得到每个检索图像与检测图像之间的图像相似度。其中,可以将检索图像的匹配特征向量均记为a,将检测图像的匹配特征向量记为b,获取检索图像与检测图像之间的向量距离d(a,b)的过程可以参见下述公式(3):
Figure BDA0002577658640000242
每次,服务器可以将一个检索图像的匹配特征向量a和检测图像的匹配特征向量b带入上述公式(3),得到该检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离。同理,依次将每个检索图像的匹配特征向量与检测图像的匹配特征向量带入上述公式(3),可以得到每个检索图像的匹配特征向量分别与检测图像的匹配特征向量之间的向量距离。
检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离越小,表明检索图像与检测图像之间越相似。反之,检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离越大,表明检索图像与检测图像之间越不相似。因此,可选的,服务器可以将每个检索图像对应的向量距离的倒数,作为每个检索图像分别与检测图像之间的图像相似度。服务器可以将图像检索库中,与检测图像之间的图像相似度大于图像相似度阈值的检索图像,作为检测图像的相似检索图像。
服务器可以将检测图像的相似检索图像发送给客户端,客户端可以在客户端页面中输出该相似检索图像,以向客户端所属的用户展示与检测图像相似的检索图像。
请参见图7,图7是本申请提供的一种获取相似图像的场景示意图。如图7所示,终端设备可以响应终端页面100b中的控件101g的触发操作,获取到用户录入的检测图像。如终端页面102g所示,终端设备获取到的用户录入的检测图像为检测图像113g。在终端页面102g中还包括“物体类型识别”按钮106g和“图像相似检索”按钮105g。终端设备可以响应用户针对终端页面102g中的“图像相似检索”按钮105g的点击操作,将检索图像113g发送给服务器。
服务器获取到检索图像113g之后,可以将该检索图像113g输入检测模型103g,通过检测模型103g中的第二目标子网络可以输出检测图像113g的图像特征(可以理解为是检测图像113g的第二维度特征)。进而服务器可以对检测图像113g的图像特征进行归一化,即可得到检测图像113g的匹配特征向量104g。
在此之前,服务器还可以获取到检索图像库中的每个检索图像的匹配图像特征。如区域108g所示,此处,检索图像库中的检索图像可以包括图像1、图像2、图像3、……和图像n。其中,图像1的匹配特征向量为匹配特征向量1、图像2的匹配特征向量为匹配特征向量2、图像3的匹配特征向量为匹配特征向量3、……、图像n的匹配特征向量为匹配特征向量n。
服务器可以计算每个检索图像的匹配特征向量与检测图像113g的匹配特征向量之间的向量距离,进而服务器可以通过每个检索图像对应的向量距离,得到每个检索图像与检测图像113g之间的图像相似度。如区域107g所示,检测图像113g与图像1之间的图像相似度为图像相似度1、检测图像113g与图像2之间的图像相似度为图像相似度2、检测图像113g与图像3之间的图像相似度为图像相似度3、……、检测图像113g与图像n之间的图像相似度为图像相似度n。
服务器可以将与检测图像113g之间的图像相似度大于图像相似度阈值的检测图像,作为检测图像113g的相似检索图像;或者,服务器可以将与检测图像113g之间的图像相似度最大的m(可以自行设定,例如m等于3)个检索图像,作为检索图像113g的相似检索图像。此处,如区域109g所示,服务器获取到的检索图像113g的相似检索图像包括图像1、图像2和图像3。
服务器可以将检索到的与检索图像113g相似的图像1、图像2和图像3,发送给终端设备,终端设备可以在终端页面中输出所获取到的图像1、图像2和图像3。如终端页面110g所示,在页面区域111g中显示有与检测图像相似的图像1、图像2和图像3,其中,图像112g可以为图像1,图像114g可以为图像2,图像115g可以为图像3。可以理解的是,在用户的视角下,当用户点击终端页面102g中的“图像相似检索”控件105g时,终端设备就可以从终端页面102g跳转显示到终端页面110c。
本申请获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。由此可见,本申请提出的方法可以通过样本图像的一个较高维度的特征(即第一维度特征)和一个较低维度的特征(即第二维度特征),协同对初始检测模型进行训练,使得初始检测模型不仅可以学习到样本图像较高维度的图像特征,而且还可以通过较低维度的图像特征减少初始检测模型所学习到的、较高维度的图像特征中的冗余图像特征,使得最终训练得到的检测模型可以更准确地对检测图像中的检测对象的对象特征进行检测。
请参见图8,图8是本申请提供的一种图像数据处理方法的流程示意图。该图像数据处理方法可以是由服务器执行,也可以是由终端设备执行,还可以是服务器和终端设备共同执行。本实施例中的执行主体具体根据实际应用场景决定,对此不作限制,此处,以服务器作为本实施例的执行主体为例进行说明。如图8所示,该方法可以包括:
步骤S201,获取包含检测对象的检测图像;
具体的,服务器可以获取包含检测对象的检测图像,该检测图像可以是客户端向服务器发送的。检测图像中的检测对象可以与上述图3的步骤S101中所描述的样本检测对象相同。
步骤S202,将检测图像输入检测模型,基于检测模型输出检测图像的图像特征;
具体的,服务器可以将检测图像输入检测模型,通过检测模型中的第一目标子网络或者第二目标子网络得到检测图像的图像特征。若是通过检测模型中的第一目标子网络得到检测图像的图像特征,则该图像特征可以理解为是检测图像的第一维度特征。若是通过检测模型中的第二目标子网络得到检测图像的图像特征,则该图像特征可以理解为是检测图像的第二维度特征。其中,此处的检测模型是通过上述图3对应的实施例中所描述的方法训练得到的,检测模型的训练过程、以及上述第一目标子网络、第二目标子网络、第一维度特征和第二维度特征的具体描述,可以参见上述图3对应的实施例。
步骤S203,基于图像特征,在检测模型中输出检测对象的类型预测结果;
具体的,若该检测图像的图像特征是通过检测模型中的第一目标子网络得到,则该第一目标子网络可以进一步通过检测图像的图像特征,输出针对检测图像的类型预测结果。该类型预测结果中包含第一目标子网络预测到的检测对象的对象类型为每一种对象类型的概率,可以将该类型预测结果中概率最高的对象类型,作为检测模型预测到的检测对象的对象类型。
同理,若该检测图像的图像特征是通过检测模型中的第二目标子网络得到,则该第二目标子网络可以进一步通过检测图像的图像特征,输出针对检测图像的类型预测结果。该类型预测结果中包含第二目标子网络预测到的检测对象的对象类型为每一种对象类型的概率,可以将该类型预测结果中概率最高的对象类型,作为检测模型预测到的检测对象的对象类型。如何通过检测模型检测检测图像中的检测对象的对象类型的具体过程,也可以参见上述图3对应的实施例中的步骤S104。
步骤S204,基于图像特征,从图像检索库图像检索库中获取检测图像的相似检索图像;
具体的,可以将图像检索库中的图像称之为检索图像,通过上述检测图像的图像特征,还可以在图像检索库中检索与检测图像相似的检索图像,可以将检索到的与检测图像相似的检索图像,称之为检测图像的相似检索图像。在图像检索库中检索与检测图像相似的检索图像的具体过程,也可以参见上述图3对应的实施例中的步骤S104。
本申请获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。由此可见,本申请提出的方法可以通过样本图像的一个较高维度的特征(即第一维度特征)和一个较低维度的特征(即第二维度特征),协同对初始检测模型进行训练,使得初始检测模型不仅可以学习到样本图像较高维度的图像特征,而且还可以通过较低维度的图像特征减少初始检测模型所学习到的、较高维度的图像特征中的冗余图像特征,使得最终训练得到的检测模型可以更准确地对检测图像中的检测对象的对象特征进行检测。
请参见图9,图9是本申请提供的一种图像数据处理装置的结构示意图。该图像数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像数据处理装置为一个应用软件;该图像数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该图像数据处理装置1可以包括:获取模块101、降维模块102、结果获取模块103和模型更新模块104;
获取模块101,用于获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;
降维模块102,用于通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;
结果获取模块103,用于根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;
模型更新模块104,用于根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。
其中,获取模块101、降维模块102、结果获取模块103和模型更新模块104的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S104,这里不再进行赘述。
其中,初始检测模型中包括第一预测子网络和第二预测子网络;第一预测子网络的特征维度大于第二预测子网络的特征维度;
降维模块102,用于:
基于第一预测子网络,获取样本图像的第一维度特征,基于第二预测子网络,对第一维度特征进行特征降维,得到第二维度特征;
则,结果获取模块103,用于:
基于第一预测子网络和第一维度特征,预测得到样本检测对象的第一类型预测结果,基于第二预测子网络和第二维度特征,预测得到样本检测对象的第二类型预测结果。
其中,模型更新模块104,包括:第一损失确定单元1041、第二损失确定单元1042、第三损失确定单元1043、第四损失确定单元1044和损失修正单元1045;
第一损失确定单元1041,用于根据第一类型预测结果和实际对象类型,确定针对第一预测子网络的第一损失函数;
第二损失确定单元1042,用于根据第二类型预测结果和实际对象类型,确定针对第二预测子网络的第二损失函数;
第三损失确定单元1043,用于根据第一类型预测结果和第二类型预测结果,获取第一预测子网络和第二预测子网络之间的协同损失函数;
第四损失确定单元1044,用于根据第一损失函数、第二损失函数和协同损失函数,确定初始检测模型的目标损失函数;
损失修正单元1045,用于基于目标损失函数,修正初始检测模型的模型参数,得到检测模型。
其中,第一损失确定单元1041、第二损失确定单元1042、第三损失确定单元1043、第四损失确定单元1044和损失修正单元1045的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,第一损失确定单元1041,包括:第一损失值确定子单元10411和第一损失确定子单元10412;
第一损失值确定子单元10411,用于根据第一类型预测结果和实际对象类型,确定第一预测子网络的第一预测损失值;
第一损失确定子单元10412,用于根据第一预测损失值,确定第一损失函数;第一损失函数用于使第一类型预测结果所指向的样本检测对象的预测对象类型,趋向于实际对象类型。
其中,第一损失值确定子单元10411和第一损失确定子单元10412的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,第二损失确定单元1042,包括:第二损失值确定子单元10421和第二损失确定子单元10422;
第二损失值确定子单元10421,用于根据第二类型预测结果和实际对象类型,确定第二预测子网络的第二预测损失值;
第二损失确定子单元10422,用于根据第二预测损失值,确定第二损失函数;第二损失函数用于使第二类型预测结果所指向的样本检测对象的预测对象类型,趋向于实际对象类型。
其中,第二损失值确定子单元10421和第二损失确定子单元10422的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,第三损失确定单元1043,包括:互信息熵获取子单元10431和第三损失确定子单元10432;
互信息熵获取子单元10431,用于获取第一类型预测结果和第二类型预测结果之间的互信息熵;
第三损失确定子单元10432,用于根据互信息熵,确定协同损失函数;协同损失函数用于使第二类型预测结果趋向于第一类型预测结果。
其中,互信息熵获取子单元10431和第三损失确定子单元10432的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,第四损失确定单元1044,包括:权重获取子单元10441、加权子单元10442和目标函数确定子单元10443;
权重获取子单元10441,用于获取第一损失函数对应的第一模型影响权重、第二损失函数对应的第二模型影响权重、以及协同损失函数对应的第三模型影响权重;
加权子单元10442,用于基于第一模型影响权重对第一损失函数进行加权,得到第一加权损失函数,基于第二模型影响权重对第二损失函数进行加权,得到第二加权损失函数,基于第三模型影响权重对协同损失函数进行加权,得到第三加权损失函数;
目标函数确定子单元10443,用于将第一加权损失函数、第二加权损失函数和第三加权损失函数之和,确定为目标损失函数。
其中,权重获取子单元10441、加权子单元10442和目标函数确定子单元10443的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,上述图像数据处理装置,还包括:第一网络确定模块105、第一图像获取模块106、结果输出模块107、类型确定模块108和类型发送模块109;
第一网络确定模块105,用于将检测模型中修正后的第一预测子网络,确定为第一目标子网络,将检测模型中修正后的第二预测子网络,确定为第二目标子网络;
第一图像获取模块106,用于获取客户端发送的包含检测对象的检测图像;
结果输出模块107,用于基于第一目标子网络或第二目标子网络,输出检测图像中的检测对象的目标类型预测结果;
类型确定模块108,用于根据目标类型预测结果,确定检测对象的检测对象类型;
类型发送模块109,用于将检测对象类型发送至客户端,以使客户端在客户端页面中对检测图像和检测对象类型进行关联输出。
其中,第一网络确定模块105、第一图像获取模块106、结果输出模块107、类型确定模块108和类型发送模块109的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,上述图像数据处理装置,还包括:第二网络确定模块110、第二图像获取模块111、特征输出模块112、归一化模块113、相似检索模块114和图像发送模块115;
第二网络确定模块110,用于将检测模型中修正后的第二预测子网络,确定为第二目标子网络;
第二图像获取模块111,用于获取客户端发送的检测图像;
特征输出模块112,用于基于第二目标子网络,输出检测图像的图像特征;
归一化模块113,用于对检测图像的图像特征进行特征归一化,得到检测图像的匹配特征向量;
相似检索模块114,用于根据检测图像的匹配特征向量、以及图像检索库中的检索图像的匹配特征向量,从图像检索库中获取检测图像的相似检索图像;
图像发送模块115,用于将相似检索图像发送至客户端,以使客户端在客户端页面中输出相似检索图像。
其中,第二网络确定模块110、第二图像获取模块111、特征输出模块112、归一化模块113、相似检索模块114和图像发送模块115的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,相似检索模块114,包括:距离获取单元1141、相似度确定单元1142和相似检索单元1143;
距离获取单元1141,用于获取图像检索库中的每个检索图像的匹配特征向量与检测图像的匹配特征向量之间的向量距离;
相似度确定单元1142,用于根据每个检索图像对应的向量距离,确定每个检索图像与检测图像之间的图像相似度;
相似检索单元1143,用于将图像检索库中,与检测图像之间的图像相似度大于图像相似度阈值的检索图像,确定为检测图像的相似检索图像。
其中,距离获取单元1141、相似度确定单元1142和相似检索单元1143的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
本申请获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。由此可见,本申请提出的方法可以通过样本图像的一个较高维度的特征(即第一维度特征)和一个较低维度的特征(即第二维度特征),协同对初始检测模型进行训练,使得初始检测模型不仅可以学习到样本图像较高维度的图像特征,而且还可以通过较低维度的图像特征减少初始检测模型所学习到的、较高维度的图像特征中的冗余图像特征,使得最终训练得到的检测模型可以更准确地对检测图像中的检测对象的对象特征进行检测。
请参见图10,图10是本申请提供的一种图像数据处理装置的结构示意图。该图像数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像数据处理装置为一个应用软件;该图像数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该图像数据处理装置2可以包括:图像获取模块21、特征输出模块22、类型预测模块23和图像检索模块24;
图像获取模块21,用于获取包含检测对象的检测图像;
特征输出模块22,用于将检测图像输入检测模型,基于检测模型输出检测图像的图像特征;检测模型是采用如权利要求1-10任一项的图像数据处理方法训练得到;
类型预测模块23,用于基于图像特征,在检测模型中输出检测对象的类型预测结果;或者
图像检索模块24,用于基于图像特征,从图像检索库中获取检测图像的相似检索图像。
其中,图像获取模块21、特征输出模块22、类型预测模块23和图像检索模块24的具体功能实现方式请参见图8对应的实施例中的步骤S201-步骤S204,这里不再进行赘述。
本申请获取包含样本检测对象的样本图像;样本图像携带有样本检测对象的对象类型标签;通过初始检测模型,获取样本图像的第一维度特征,对第一维度特征进行特征降维,得到样本图像的第二维度特征;根据第一维度特征,获取针对样本检测对象的第一类型预测结果,根据第二维度特征,获取针对检测对象的第二类型预测结果;根据对象类型标签所指示的样本检测对象的实际对象类型、第一类型预测结果和第二类型预测结果,修正初始检测模型的模型参数,得到检测模型;检测模型用于对检测图像中的检测对象的对象特征进行检测。由此可见,本申请提出的方法可以通过样本图像的一个较高维度的特征(即第一维度特征)和一个较低维度的特征(即第二维度特征),协同对初始检测模型进行训练,使得初始检测模型不仅可以学习到样本图像较高维度的图像特征,而且还可以通过较低维度的图像特征减少初始检测模型所学习到的、较高维度的图像特征中的冗余图像特征,使得最终训练得到的检测模型可以更准确地对检测图像中的检测对象的对象特征进行检测。
请参见图11,图11是本申请提供的一种计算机设备的结构示意图。如图11所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3对应实施例中对图像数据处理方法的描述。应当理解,本申请中所描述的计算机设备1000也可执行前文图9所对应实施例中对图像数据处理装置1的描述、以及前文图10所对应实施例中对图像数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像数据处理装置1和图像数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3对应实施例中对图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖范围。

Claims (15)

1.一种图像数据处理方法,其特征在于,包括:
获取包含样本检测对象的样本图像;所述样本图像携带有所述样本检测对象的对象类型标签;
通过初始检测模型,获取所述样本图像的第一维度特征,对所述第一维度特征进行特征降维,得到所述样本图像的第二维度特征;
根据所述第一维度特征,获取针对所述样本检测对象的第一类型预测结果,根据所述第二维度特征,获取针对所述检测对象的第二类型预测结果;
根据所述对象类型标签所指示的所述样本检测对象的实际对象类型、所述第一类型预测结果和所述第二类型预测结果,修正所述初始检测模型的模型参数,得到检测模型;所述检测模型用于对检测图像中的检测对象的对象特征进行检测。
2.根据权利要求1所述的方法,其特征在于,所述初始检测模型中包括第一预测子网络和第二预测子网络;所述第一预测子网络的特征维度大于所述第二预测子网络的特征维度;
所述通过初始检测模型,获取所述样本图像的第一维度特征,对所述第一维度特征进行特征降维,得到所述样本图像的第二维度特征,包括:
基于所述第一预测子网络,获取所述样本图像的所述第一维度特征,基于所述第二预测子网络,对所述第一维度特征进行特征降维,得到所述第二维度特征;
则,所述根据所述第一维度特征,获取针对所述检测对象的第一类型预测结果,根据所述第二维度特征,获取针对所述检测对象的第二类型预测结果,包括:
基于所述第一预测子网络和所述第一维度特征,预测得到所述样本检测对象的所述第一类型预测结果,基于所述第二预测子网络和所述第二维度特征,预测得到所述样本检测对象的所述第二类型预测结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本检测对象的实际对象类型、所述第一类型预测结果和所述第二类型预测结果,修正所述初始检测模型的模型参数,得到检测模型,包括:
根据所述第一类型预测结果和所述实际对象类型,确定针对所述第一预测子网络的第一损失函数;
根据所述第二类型预测结果和所述实际对象类型,确定针对所述第二预测子网络的第二损失函数;
根据所述第一类型预测结果和所述第二类型预测结果,获取所述第一预测子网络和所述第二预测子网络之间的协同损失函数;
根据所述第一损失函数、所述第二损失函数和所述协同损失函数,确定所述初始检测模型的目标损失函数;
基于所述目标损失函数,修正所述初始检测模型的模型参数,得到所述检测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一类型预测结果和所述实际对象类型,确定针对所述第一预测子网络的第一损失函数,包括:
根据所述第一类型预测结果和所述实际对象类型,确定所述第一预测子网络的第一预测损失值;
根据所述第一预测损失值,确定所述第一损失函数;所述第一损失函数用于使所述第一类型预测结果所指向的所述样本检测对象的预测对象类型,趋向于所述实际对象类型。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第二类型预测结果和所述实际对象类型,确定针对所述第二预测子网络的第二损失函数,包括:
根据所述第二类型预测结果和所述实际对象类型,确定所述第二预测子网络的第二预测损失值;
根据所述第二预测损失值,确定所述第二损失函数;所述第二损失函数用于使所述第二类型预测结果所指向的所述样本检测对象的预测对象类型,趋向于所述实际对象类型。
6.根据权利要求3所述的方法,其特征在于,所述根据所述第一类型预测结果和所述第二类型预测结果,获取所述第一预测子网络和所述第二预测子网络之间的协同损失函数,包括:
获取所述第一类型预测结果和所述第二类型预测结果之间的互信息熵;
根据所述互信息熵,确定所述协同损失函数;所述协同损失函数用于使所述第二类型预测结果趋向于所述第一类型预测结果。
7.根据权利要求3所述的方法,其特征在于,所述根据所述第一损失函数、所述第二损失函数和所述协同损失函数,确定所述初始检测模型的目标损失函数,包括:
获取所述第一损失函数对应的第一模型影响权重、所述第二损失函数对应的第二模型影响权重、以及所述协同损失函数对应的第三模型影响权重;
基于所述第一模型影响权重对所述第一损失函数进行加权,得到第一加权损失函数,基于所述第二模型影响权重对所述第二损失函数进行加权,得到第二加权损失函数,基于所述第三模型影响权重对所述协同损失函数进行加权,得到第三加权损失函数;
将所述第一加权损失函数、所述第二加权损失函数和所述第三加权损失函数之和,确定为所述目标损失函数。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述检测模型中修正后的所述第一预测子网络,确定为第一目标子网络,将所述检测模型中修正后的所述第二预测子网络,确定为第二目标子网络;
获取客户端发送的包含所述检测对象的所述检测图像;
基于所述第一目标子网络或所述第二目标子网络,输出所述检测图像中的所述检测对象的目标类型预测结果;
根据所述目标类型预测结果,确定所述检测对象的检测对象类型;
将所述检测对象类型发送至所述客户端,以使所述客户端在客户端页面中对所述检测图像和所述检测对象类型进行关联输出。
9.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述检测模型中修正后的所述第二预测子网络,确定为第二目标子网络;
获取客户端发送的所述检测图像;
基于所述第二目标子网络,输出所述检测图像的图像特征;
对所述检测图像的图像特征进行特征归一化,得到所述检测图像的匹配特征向量;
根据所述检测图像的匹配特征向量、以及所述图像检索库中的检索图像的匹配特征向量,从所述图像检索库中获取所述检测图像的相似检索图像;
将所述相似检索图像发送至所述客户端,以使所述客户端在客户端页面中输出所述相似检索图像。
10.根据权利要求9所述的方法,其特征在于,所述根据所述检测图像的匹配特征向量、以及所述图像检索库中的检索图像的匹配特征向量,从所述图像检索库中获取所述检测图像的相似检索图像,包括:
获取所述图像检索库中的每个检索图像的匹配特征向量与所述检测图像的匹配特征向量之间的向量距离;
根据所述每个检索图像对应的向量距离,确定所述每个检索图像与所述检测图像之间的图像相似度;
将所述图像检索库中,与所述检测图像之间的图像相似度大于图像相似度阈值的检索图像,确定为所述检测图像的所述相似检索图像。
11.一种图像数据处理方法,其特征在于,包括:
获取包含检测对象的检测图像;
将所述检测图像输入检测模型,基于所述检测模型输出所述检测图像的图像特征;所述检测模型是采用如权利要求1-10任一项所述的图像数据处理方法训练得到;
基于所述图像特征,在所述检测模型中输出所述检测对象的类型预测结果;或者
基于所述图像特征,从图像检索库中获取所述检测图像的相似检索图像。
12.一种图像数据处理装置,其特征在于,包括:
获取模块,用于获取包含样本检测对象的样本图像;所述样本图像携带有所述样本检测对象的对象类型标签;
降维模块,用于通过初始检测模型,获取所述样本图像的第一维度特征,对所述第一维度特征进行特征降维,得到所述样本图像的第二维度特征;
结果获取模块,用于根据所述第一维度特征,获取针对所述样本检测对象的第一类型预测结果,根据所述第二维度特征,获取针对所述检测对象的第二类型预测结果;
模型更新模块,用于根据所述对象类型标签所指示的所述样本检测对象的实际对象类型、所述第一类型预测结果和所述第二类型预测结果,修正所述初始检测模型的模型参数,得到检测模型;所述检测模型用于对检测图像中的检测对象的对象特征进行检测。
13.一种图像数据处理装置,其特征在于,包括:
图像获取模块,用于获取包含检测对象的检测图像;
特征输出模块,用于将所述检测图像输入检测模型,基于所述检测模型输出所述检测图像的图像特征;所述检测模型是采用如权利要求1-10任一项所述的图像数据处理方法训练得到;
类型预测模块,用于基于所述图像特征,在所述检测模型中输出所述检测对象的类型预测结果;或者
图像检索模块,用于基于所述图像特征,从图像检索库中获取所述检测图像的相似检索图像。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-11中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-11任一项所述的方法。
CN202010658577.7A 2020-07-09 2020-07-09 一种图像数据处理方法、装置以及计算机可读存储介质 Active CN111597376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010658577.7A CN111597376B (zh) 2020-07-09 2020-07-09 一种图像数据处理方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010658577.7A CN111597376B (zh) 2020-07-09 2020-07-09 一种图像数据处理方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111597376A true CN111597376A (zh) 2020-08-28
CN111597376B CN111597376B (zh) 2021-08-10

Family

ID=72191855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010658577.7A Active CN111597376B (zh) 2020-07-09 2020-07-09 一种图像数据处理方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111597376B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084752A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质
CN113673332A (zh) * 2021-07-15 2021-11-19 浙江大华技术股份有限公司 对象识别方法、装置以及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080219498A1 (en) * 2007-03-05 2008-09-11 Siemens Corporate Research, Inc. Visual discrimination model for single image applications
CN110288049A (zh) * 2019-07-02 2019-09-27 北京字节跳动网络技术有限公司 用于生成图像识别模型的方法和装置
CN110765886A (zh) * 2019-09-29 2020-02-07 深圳大学 一种基于卷积神经网络的道路目标检测方法及装置
CN111062308A (zh) * 2019-12-12 2020-04-24 国网新疆电力有限公司信息通信公司 基于稀疏表达和神经网络的人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080219498A1 (en) * 2007-03-05 2008-09-11 Siemens Corporate Research, Inc. Visual discrimination model for single image applications
CN110288049A (zh) * 2019-07-02 2019-09-27 北京字节跳动网络技术有限公司 用于生成图像识别模型的方法和装置
CN110765886A (zh) * 2019-09-29 2020-02-07 深圳大学 一种基于卷积神经网络的道路目标检测方法及装置
CN111062308A (zh) * 2019-12-12 2020-04-24 国网新疆电力有限公司信息通信公司 基于稀疏表达和神经网络的人脸识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084752A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质
CN112084752B (zh) * 2020-09-08 2023-07-21 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质
CN113673332A (zh) * 2021-07-15 2021-11-19 浙江大华技术股份有限公司 对象识别方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
CN111597376B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN111523621A (zh) 图像识别方法、装置、计算机设备和存储介质
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN112445823A (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN113688304A (zh) 搜索推荐模型的训练方法、搜索结果排序的方法及装置
CN111597376B (zh) 一种图像数据处理方法、装置以及计算机可读存储介质
CN112232165B (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
US20200272812A1 (en) Human body part segmentation with real and synthetic images
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN114091554A (zh) 一种训练集处理方法和装置
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN113313215B (zh) 图像数据处理方法、装置、计算机设备和存储介质
Kittlein et al. Deep learning and satellite imagery predict genetic diversity and differentiation
CN113987236A (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN114332550A (zh) 一种模型训练方法、系统及存储介质和终端设备
CN111459990B (zh) 对象处理方法、系统及计算机可读存储介质和计算机设备
US20200410245A1 (en) Target model broker
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN114334040A (zh) 分子图重构模型的训练方法、装置以及电子设备
Jurj et al. Real-time identification of animals found in domestic areas of Europe

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028368

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant