CN111553419A - 一种图像识别方法、装置、设备以及可读存储介质 - Google Patents

一种图像识别方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN111553419A
CN111553419A CN202010350382.6A CN202010350382A CN111553419A CN 111553419 A CN111553419 A CN 111553419A CN 202010350382 A CN202010350382 A CN 202010350382A CN 111553419 A CN111553419 A CN 111553419A
Authority
CN
China
Prior art keywords
image
matrix
category
convolution
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010350382.6A
Other languages
English (en)
Other versions
CN111553419B (zh
Inventor
龚丽君
马锴
郑冶枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010350382.6A priority Critical patent/CN111553419B/zh
Publication of CN111553419A publication Critical patent/CN111553419A/zh
Application granted granted Critical
Publication of CN111553419B publication Critical patent/CN111553419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法、装置、设备及可读存储介质,该方法包括:获取对象类别关系信息,通过图像识别模型获取对象类别关系信息对应的对象类别卷积矩阵;获取图像样本,通过图像识别模型提取图像样本的图像特征;将对象类别卷积矩阵与图像特征进行融合得到融合特征,通过图像识别模型输出融合特征对应的至少两个预测概率;根据至少两个预测概率,分别对对象类别卷积矩阵和图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵。采用本申请,可以提高识别图像的对象类别的准确率。

Description

一种图像识别方法、装置、设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像识别方法、装置、设备以及可读存储介质。
背景技术
随着计算机技术的快速发展,图像已经成为人们传递信息、获取信息的重要载体,如何对图像进行快速、有效的分析和处理,并对图像进行识别和分类越来越重要。
现有技术可以利用人工智能来实现对图像的识别与分类,主要利用深度卷积神经网络来进行图像分类。利用深度卷积神经网络,提取出输入图像的图像特征,再根据图像特征,得到对输入图像的预测结果(如图像类别),通过比较预测结果与输入图像的真实值(如真实类别),得到一个差异值,再根据这个差异值不断优化卷积网络参数,从而使得深度卷积网络输出的预测结果不断地逼近输入图像的真实值。
对于不同类别间没有关联的图像,类别之间的界限明显,那么可以用现有技术来进行分类,但存在很多类别界限模糊的图像,这些图像的类别之间可能存在连续性,相邻类别之间存在很大的关联性,分界线并不明确。对于这些类别之间界限不明确的图像,若仍采用现有技术,单纯使用深度卷积神经网络来进行图像识别与分类,会存在一定的局限性,使得卷积神经网络对输入图像的类别识别错误,识别准确率很低。
申请内容
本申请提供一种图像识别方法、装置、设备及可读存储介质,可以提高识别图像的对象类别的准确率。
本申请实施例一方面提供一种图像识别方法,包括:
获取对象类别关系信息,通过图像识别模型获取上述对象类别关系信息对应的对象类别卷积矩阵;上述对象类别关系信息包括至少两个对象类别之间的关联关系;
获取图像样本,通过上述图像识别模型提取上述图像样本的图像特征;
将上述对象类别卷积矩阵与上述图像特征进行融合,得到融合特征,通过上述图像识别模型输出上述融合特征对应的至少两个预测概率;上述每个预测概率分别对应一个对象类别;
根据上述至少两个预测概率,分别对上述对象类别卷积矩阵和上述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将上述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标对象类别卷积矩阵以及上述目标图像识别模型用于识别目标图像所属的对象类别。
本申请实施例一方面提供一种图像识别装置,包括:
类别关系获取模块,用于获取对象类别关系信息;
类别矩阵获取模块,用于通过图像识别模型获取上述对象类别关系信息对应的对象类别卷积矩阵;上述对象类别关系信息包括至少两个对象类别之间的关联关系;
样本获取模块,用于获取图像样本;
图像特征提取模块,用于通过上述图像识别模型提取上述图像样本的图像特征;
融合特征生成模块,用于将上述对象类别卷积矩阵与上述图像特征进行融合,得到融合特征;
预测概率输出模块,用于通过上述图像识别模型输出上述融合特征对应的至少两个预测概率;上述每个预测概率分别对应一个对象类别;
模型调整模块,用于根据上述至少两个预测概率,分别对上述对象类别卷积矩阵和上述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将上述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标对象类别卷积矩阵以及上述目标图像识别模型用于识别目标图像所属的对象类别。
其中,上述图像识别模型包括类别关系子模型;上述对象类别关系信息为对象类别关系矩阵;
上述类别矩阵获取模块,包括:
单位矩阵获取单元,用于获取上述至少两个对象类别对应的类别单位矩阵;
第一矩阵输入单元,用于将上述对象类别关系矩阵以及上述类别单位矩阵输入上述类别关系子模型中的第一卷积层;
初始类别矩阵输出单元,用于通过上述第一卷积层输出初始对象类别卷积矩阵;
第二矩阵输入单元,用于将上述初始对象类别卷积矩阵输入上述类别关系子模型的第二卷积层;
类别矩阵输出单元,用于通过上述第二卷积层输出上述初始对象类别卷积矩阵对应的对象类别卷积矩阵。
其中,上述初始类别矩阵输出单元,包括:
第一参数获取子单元,用于获取上述第一卷积层的第一卷积参数;
第一相乘处理子单元,用于将上述类别单位矩阵、上述对象类别关系矩阵以及上述第一卷积参数进行相乘处理,得到上述初始对象类别卷积矩阵。
其中,上述类别矩阵输出单元,包括:
卷积计算子单元,用于获取上述第二卷积层中的卷积函数,根据上述卷积函数对上述初始对象类别卷积矩阵进行卷积计算,得到对象类别关系特征;
第二参数获取子单元,用于获取上述第二卷积层的第二卷积参数;
第二相乘处理子单元,用于将上述对象类别关系矩阵、上述对象类别关系特征以及上述第二卷积参数进行相乘处理,得到上述对象类别卷积矩阵。
其中,上述图像识别模型还包括分类子模型;上述图像特征为上述分类子模型提取出的图像特征矩阵;
上述融合特征生成模块,包括:
输出矩阵获取单元,用于获取上述类别关系子模型输出的上述对象类别卷积矩阵,以及上述分类子模型输出的上述图像特征矩阵;
融合矩阵生成单元,用于将上述对象类别卷积矩阵与上述图像特征矩阵进行相乘处理,得到融合矩阵;
融合函数获取单元,用于获取上述图像识别模型中的融合函数;
融合矩阵转换单元,用于根据上述融合函数将上述融合矩阵转换为融合特征;上述融合特征包括每个对象类别分别对应的特征值,上述特征值为上述对象类别卷积矩阵到上述图像特征矩阵的映射结果。
其中,上述预测概率输出模块,包括:
概率向量输出单元,用于将上述融合特征输入上述分类子模型的全连接层,通过上述全连接层输出上述融合特征对应的概率向量特征;
预测概率生成单元,用于将上述概率向量特征以及上述融合特征进行融合,生成上述每个对象类别分别对应的预测概率。
其中,上述模型调整模块,包括:
预测类别获取单元,用于获取上述至少两个预测概率中的最大预测概率,将上述最大预测概率对应的对象类别,作为预测对象类别;
类别标签获取单元,用于获取上述图像样本对应的对象类别标签;
子模型调整单元,用于根据上述预测对象类别和上述对象类别标签生成损失函数值,根据上述损失函数值对上述对象类别卷积矩阵、上述类别关系子模型以及上述分类子模型分别进行调整;
在调整后的类别关系子模型以及调整后的分类子模型均满足上述模型收敛条件时,将调整后的分类子模型确定为目标分类子模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标分类子模型用于提取目标图像的目标图像特征,上述目标图像特征和上述目标对象类别卷积矩阵用于确定上述目标图像所属的对象类别。
其中,上述子模型调整单元,包括:
梯度值确定子单元,用于根据上述损失函数值,确定上述对象类别标签对应的第一梯度值以及上述预测对象类别对应的第二梯度值;
预测误差确定子单元,用于根据上述第一梯度值以及上述第二梯度值,确定上述类别关系子模型以及上述分类子模型对上述图像样本的预测误差;
参数调整子单元,用于若上述预测误差大于误差阈值,则确定上述类别关系子模型以及上述分类子模型均不满足上述模型收敛条件,则根据上述预测误差对上述类别关系子模型的模型参数、上述分类子模型的模型参数以及上述对象类别卷积矩阵分别进行调整;调整后的对象类别卷积矩阵用于在下一轮训练中作为调整后的类别关系子模型的输入数据。
其中,还包括:
目标图像获取模块,用于获取目标图像,将上述目标图像输入上述调整后的图像识别模型;
目标特征提取模块,用于通过上述调整后的图像识别模型,提取出上述目标图像的目标图像特征;
目标预测概率输出模块,用于将上述调整后的对象类别卷积矩阵与上述目标图像特征进行融合,得到目标融合特征,通过上述调整后的图像识别模型输出上述目标融合特征对应的至少两个目标预测概率;每个目标预测概率分别对应一个对象类别;
对象类别确定模块,用于在上述至少两个目标预测概率中,确定出最大目标预测概率,将上述最大目标预测概率对应的对象类别确定为上述目标图像所属的对象类别。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
上述存储器存储有计算机程序,上述计算机程序被上述处理器执行时,使得所诉处理器执行如本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,执行如本申请实施例中的方法。
本申请实施例增加了对象类别间的关系信息,将该对象类别关系信息输入到图像识别模型中,通过图像识别模型来对该对象类别关系信息进行卷积计算,可以得到图像识别模型模拟的一个对象类别卷积矩阵,该对象类别卷积矩阵中就包括了对象类别间的相互关系;将该对象类别卷积矩阵与图像识别模型提取出的图像样本的图像特征进行融合,可以得到该图像样本的预测概率,根据该预测概率对对象类别卷积矩阵以及图像识别模型进行调整,可以使得对象类别卷积矩阵以及图像识别模型达到最优,也就是说通过调整模型可以使得模拟的对象类别间的相互关系为最优关系。由此,通过该调整后的对象类别卷积矩阵以及调整后的图像识别模型,可以更为准确的识别出目标图像的对象类别。可以看出,因为增加了对象类别间的相互关系,可以很好地对不同类别尤其是相似类别进行区分,可以提高模型对对象类别的预测准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2是本申请实施例提供的一种图像识别方法的流程示意图;
图3是本申请实施例提供的一种神经网络模块的结构示意图;
图4a-图4b是本申请实施例提供的一种模型训练示意图;
图5是本申请实施例提供的一种场景示意图;
图6是本申请实施例提供的一种方法架构图;
图7是本申请实施例提供的一种场景示意图;
图8是本申请实施例提供的一种图像识别装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习((Machine Learning,ML)。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
请参见图1,是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可以包括业务服务器1000以及后台服务器集群,其中,上述后台服务器集群可以包括多个后台服务器,如图1所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。如图1所示,后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分别与上述业务服务器1000进行网络连接,以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互,以便于上述业务服务器1000可以接收到来自于每个后台服务器的业务数据。
如图1所示的每个后台服务器均与用户终端相对应,可以用于存储对应的用户终端的业务数据。每个用户终端均可以集成安装有目标应用,当该目标应用运行于各用户终端中时,则每个用户终端对应的后台服务器可以对应用中的业务数据进行存储,并与上述图1所示的业务服务器1000之间进行数据交互。其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如,应用可以图像识别应用,可以用于用户上传图片并获取到图片的预测类别;该应用也可以为图像分类应用,可以用于用户上传至少两张图片,并得到分类结果等。本申请中的业务服务器1000可以从这些应用的后台(如上述后台服务器集群)收集到业务数据,如,该业务数据可以为用户上传的图像。根据收集到的业务数据,业务服务器1000可以确定出这些业务数据的对象类别,作为辅助处理结果,并将该对象类别返回至用户,以使用户可以根据该对象类别这一辅助处理结果,再结合着用户个人的经验,进行进一步处理。如该对象类别为糖尿病视网膜病变重度,用户在接收到该对象类别后,可以将该糖尿病视网膜病变为重度的对象类别,作为辅助诊断结果,用户可以结合个人的临床经验以及该辅助诊断结果,进行人工分析,来确定出最终的诊断方案。
本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、桌上型电脑等携带显示和播放数据信息功能的智能终端。例如,本申请实施例可以将图1所示的后台服务器100a对应的用户终端作为该目标用户终端,该目标用户终端中可以集成有上述目标应用,此时,该目标用户终端对应的后台服务器100a可以与业务服务器1000之间进行数据交互。如,用户在使用用户终端中的目标应用(如医疗类应用)时,业务服务器1000通过该用户终端对应的后台服务器,可以检测并收集到该用户上传了一张患者图像,业务服务器1000可以确定预测出该患者图像所属的对象类别(如糖尿病视网膜病变的病变程度、皮肤病的种类等类别),并将该对象类别返回至后台服务器,则用户可以在用户终端的显示页面上查看到该患者图像对应的对象类别,并根据该对象类别确定最终的诊断方案。对于业务服务器1000确定对象类别,可以根据对象类别卷积矩阵与图像识别模型来确定,这里的对象类别卷积矩阵中包括了对象类别间的相互关系;这里的图像识别模型可以用于提取输入图像的图像特征,将包括对象类别相互关系的对象类别卷积矩阵与图像识别模型提取出的图像特征进行融合,可以得到图像识别模型对输入图像的最终的预测对象类别。为了提高预测的对象类别的准确率,可以对对象类别卷积矩阵以及图像识别模型进行训练调整,使得对象类别卷积矩阵以及图像识别模型可以达到最优。对于训练调整对象卷积矩阵以及图像识别模型的具体过程可以参见后续图2所对应实施例中步骤S101-步骤S104的描述。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器。
请参见图2,是本申请实施例提供的一种图像识别方法的流程示意图。如图2所示,该图像识别方法可以包括:
步骤S101,获取对象类别关系信息,通过图像识别模型获取上述对象类别关系信息对应的对象类别卷积矩阵;上述对象类别关系信息包括至少两个对象类别之间的关联关系。
本申请中,这里的对象可以是指研究或思考时作为目标的事物,对象类别可以是指事物的类别。如在医学研究上,以人物体内的某个部位的组织结构(如脸部组织结构、心脏组织结构以及眼部组织结构等)为目标,那么该对象可以是部位组织结构,对象类别可以是指某个部位组织结构对应的疾病种类,如皮肤病、心脏病以及糖尿病视网膜病变等疾病种类;若以某种疾病为研究目标,则这里的对象可以是指疾病,那么这里的对象类别可以是指同一种疾病的轻重程度,如将糖尿病视网膜病变这个疾病作为对象,因为糖尿病视网膜病变的轻重程度可以分为5个级别,分别为正常、轻度、中度、重度以及增殖,那么这里的对象类别就可以为正常、轻度、中度、重度以及增殖这5个级别。对象类别关系信息可以是指对象类别间的关系信息,该对象类别关系信息可以由矩阵或表格的形式呈现,以对象类别为类别A、类别B、类别C、类别D以及类别E这5个类别为例,根据类别A、类别B、类别C、类别D以及类别E这5个类别,可以得到这5个类别的如表1所示的关系表。如表1所示,表1中包括5个类别的关系紧密程度,如类别A与类别A之间的关系紧密程度为0.85,类别A与类别B之间的关系紧密程度为0.15。若两个类别的关系越紧密,相似性越高,那么表1中的关系紧密程度越大。其中,对于表1中不同类别间的关系紧密程度均为根据类别对应的特定场景的规则,按照高斯分布来定义的初始值。如,这5个类别分别为正常、轻度、中度、重度以及增殖这5个糖尿病视网膜病变级别,那么表1中的关系紧密程度的初始值就可以为根据糖尿病视网膜病变级别对应的医学标注,按照医学标注中的规则以及高斯分布来定义。其中,类别A与类别B为相邻类别,类别B与类别C为相邻类别,类别C与类别D为相邻类别,类别D与类别E为相邻类别。因为相邻的两个类别(如类别A与类别B)之间,界限不够清晰,相邻两个类别之间存在较大的关联关系;而不相邻的两个类别(如类别A与类别C)之间,界限较为清晰,不会产生混淆,那么在表1中,相邻两个类别间的关系紧密程度的初始值较大(如类别A与类别A之间的初始值为0.85、类别B与类别B之间的初始值为0.70,不相邻两个类别之间的关系紧密程度的初始值较小(如类别B与类别D之间的初始值为0)。
表1
类别A 类别B 类别C 类别D 类别E
类别A 0.85 0.15 0 0 0
类别B 0.15 0.70 0.15 0 0
类别C 0 0.15 0.70 0.15 0
类别D 0 0 0.15 0.70 0.15
类别E 0 0 0 0.15 0.85
根据该表1中的关系紧密程度,可以得到这5个类别对应的类别关系矩阵A1:
Figure BDA0002471729170000101
类别关系矩阵A1
该类别关系矩阵A1即为该5个类别的对象类别关系信息。
将对象类别关系信息输入到图像识别模型中,图像识别模型可以对该对象类别关系信息进行卷积计算,输出该对象类别关系信息对应的对象类别卷积矩阵。以对象类别关系信息为上述类别关系矩阵A1为例,对于对对象类别关系信息进行卷积计算,得到对象类别卷积矩阵的具体方法可以为,获取到该类别关系矩阵A1中所包括的至少两个对象类别(如类别A、类别B、类别C、类别D以及类别E这5个类别)对应的类别单位矩阵;这里的类别单位矩阵的维度与上述类别关系矩阵A1的维度是一致的。如,上述类别关系矩阵A1是5*5的矩阵,那么类别A、类别B、类别C、类别D以及类别E这5个类别对应的类别单位矩阵也是5*5的矩阵,该类别单位矩阵可以如类别单位矩阵A2所示:
Figure BDA0002471729170000111
类别单位矩阵A2
将该类别关系矩阵A1以及类别单位矩阵A2共同输入到图像识别模型中的类别关系子模型中,可以通过类别关系子模型对该类别关系矩阵A1以及类别单位矩阵A2进行卷积计算,得到该类别关系矩阵A1对应的类别卷积矩阵(也就是对象类别卷积矩阵)。其中,这里的图像识别模型可以为深度卷积神经网络,该类别关系子模型可以是包括在该图像识别模型中的子模型,该类别关系子模型可以为深度卷积网络模型,如图卷积模型。该类别关系子模型中包括了两个卷积层,如第一卷积层与第二卷积层。每个卷积层都有各自的卷积参数,如第一卷积层包括第一卷积参数W1,第二卷积层包括第二卷积参数W2。这里的W1与W2可以为具体的数值呈现形式,也可以为矩阵呈现形式,对W1以及W2的具体呈现形式,本申请不做限制。
以W1与W2均为数值呈现方式为例,将该类别关系矩阵A1以及类别单位矩阵A2输入到该类别关系子模型的第一卷积层中,在该第一卷积层中可以将类别关系矩阵A1、类别单位矩阵A2以及该第一卷积参数W1进行相乘处理,可以得到初始类别卷积矩阵A3(也就是对象类别关系信息对应的初始对象类别卷积矩阵):
Figure BDA0002471729170000112
初始类别卷积矩阵A3
将该初始类别卷积矩阵A3输入到类别关系子模型的第二卷积层中,在第二卷积层中可以由第二卷积层的卷积函数对该初始类别卷积矩阵A3进行卷积计算处理,得到该初始类别卷积矩阵A3对应的类别关系特征(也就是对象类别关系特征);其中,这里的卷积函数可以是卷积神经网络中使用的激活函数,如ReLU函数等。通过卷积函数对初始级别卷积矩阵A3进行卷积计算,得到的类别关系特征可以如类别关系特征矩阵A4所示:
Figure BDA0002471729170000121
类别关系特征矩阵A4
在第二卷积层中,将对象类别关系矩阵(如类别关系矩阵A1)、对象类别关系特征(如类别关系特征矩阵A4)以及第二卷积参数(如第二卷积参数W2)进行相乘处理,可以得到对象类别关系信息对应的对象类别卷积矩阵。如,将类别关系矩阵A1与类别关系特征矩阵A4进行相乘处理,可以得到过渡矩阵A5:
Figure BDA0002471729170000122
过渡矩阵A5
以a为1、b为0.9以及c为1为例,该过渡矩阵A5可以为:
Figure BDA0002471729170000123
过渡矩阵A5
将该过渡矩阵A5与第二卷积参数W2进行相乘,可以得到类别关系矩阵A1对应的类别卷积矩阵A6:
Figure BDA0002471729170000124
类别卷积矩阵A6
该类别卷积矩阵A6即是图像识别模型对类别A、类别B、类别C、类别D以及类别E这5个类别的类别关系矩阵A1进行卷积后,所模拟的预测关系矩阵,该类别卷积矩阵A6中的每个数值,均代表了图像识别模型对类别A、类别B、类别C、类别D以及类别E这5个类别之间的关系紧密程度的预测值。如数值0.915W2是图像识别模型对类别B与类别A这两个级别之间的关系紧密程度预测值,因为类别B与类别A这两个类别属于相邻的两个类别,则0.915W2这个数值可以为较大值,用于表征类别A与类别B之间的关系紧密程度较大。
其中,对于上述矩阵A2-矩阵A6、W2以及W3中的数值均是为便于理解所作出的举例说明,不具有代表性。
步骤S102,获取图像样本,通过上述图像识别模型提取上述图像样本的图像特征。
本申请中,这里的图像样本可以为用于调整图像识别模型的图像数据集,如该图像数据集可以为糖尿病视网膜病变的眼底图像数据集,该眼底图像数据集中包括N张正常眼底图像、轻度眼底图像、中度眼底图像、重度眼底图像以及增殖眼底图像。将该图像样本输入图像识别模型中的分类子模型,通过该分类子模型可以提取出该图像样本的图像特征。这里的分类子模型可以为深度卷积神经网络中的基础分类网络,该基础分类网络可以为残差学习神经网络(Residual Neural Network,ResNet)或VGG(如,Visual GeometryGroup Network)等卷积神经网络。将该图像样本输入至基础分类网络中,可以有效提取出该图像样本的深层图像特征。在本方案中,可以采用ResNet18网络来作为基础分类网络,该ResNet18网络的网络结构可以如表2所示:
表2
Figure BDA0002471729170000141
如表2所示的ResNet18网络结构中,每个卷积层之后都接有ReLU层以及批规范化(Batch Normalization,BN)层。该ResNet18网络可以提取出输入图像的深层图像特征。表2中的block是ResNet网络中的模块,该模块结构示意图可以如图3所示,该模块结构包括三层卷积层。这三层分别是1×1、3×3、以及1×1的卷积层,其中1×1卷积层负责先减少后增加(恢复)尺寸,可以使3×3卷积层具有较小的输入或输出尺寸。如第一个1×1的卷积层可以将256维通道数降到64维,再通过1x1卷积恢复。
步骤S103,将上述对象类别卷积矩阵与上述图像特征进行融合,得到融合特征,通过上述图像识别模型输出上述融合特征对应的至少两个预测概率;上述每个预测概率分别对应一个对象类别。
本申请中,上述的图像特征可以为图像特征矩阵的形式呈现,可以将上述类别关系子模型输出的对象类别卷积矩阵与该图像特征矩阵进行相乘处理,得到融合矩阵;根据上述图像识别模型中的融合函数,可以将该融合矩阵转换为融合特征。其中,该融合特征包括了每个对象类别分别对应的特征值,该特征值可以是指该对象类别卷积矩阵到该图像特征矩阵的映射结果。其中,该融合函数可以是指深度卷积网络中的激活函数,如sigmoid激活函数。通过该sigmoid激活函数可以对象类别卷积矩阵与图像特征矩阵进行融合,从而可以使得对象类别卷积矩阵映射到图像特征矩阵上,得到一个新的特征向量(如融合特征)。如,以对象类别卷积矩阵为上述类别卷积矩阵A6、图像特征为图像特征矩阵G为例,sigmoid对类别卷积矩阵A6以及图像特征矩阵G进行融合的具体方式可以如公式(1)所示:
R=sigmoid(G×A6) (1)
其中,G×A6可以是指类别卷积矩阵A6以及图像特征矩阵G进行融合得到的融合矩阵,R可以是指sigmoid激活函数对融合矩阵G×A6进行转换后得到的融合特征。因为类别卷积矩阵A6对应的对象类别为类别A、类别B、类别C、类别D以及类别E这5个类别,则该融合特征R可以是1×5的特征向量。这里sigmoid激活函数的意义在于使得类别关系子模型的输出结果对象类别卷积矩阵(如类别卷积矩阵A6),与分类子模型的输出结果图像特征(如图像特征矩阵G)进行融合,得到一个既包括对象类别间的关系又具有图像特征的新的融合特征(如融合特征R)。
进一步地,可以将该融合特征输入到分类子模型的全连接层中,通过全连接层可以将融合特征进行转换为一个新的特征,从而输出该融合特征对应的概率向量特征;如将上述为1×5的融合特征R输入到分类子模型的全连接层中,通过全连接层可以输出该融合特征R对应的概率向量特征S,其中,该概率向量特征S也为1×5的向量,该概率向量特征S中的每个值表征了图像识别模型对类别A、类别B、类别C、类别D以及类别E这5个类别的初始预测概率。进一步地,可以将该概率向量特征以及该融合特征进行融合,生成该每个对象类别分别对应的预测概率。其中,将概率向量特征以及融合特征进行融合的具体方法可以为,以上述融合特征R为(0.2,0.4,0.25,0.1,0.05)、概率向量特征S为(0.15,0.45,0.20,0.1,0.1)为例,将融合特征R与概率向量特征S进行融合的具体方法可以如公式(2)所示:
P=R dot S+S (2)
其中,R dot S可以用于表征将融合特征R与概率向量特征S中的每个元素按照位置分别进行相乘(即0.2×0.15=0.03,0.4×0.45=0.18,0.25×0.20=0.05,0.1×0.1=0.01,0.05×0.1=0.0005),可以得到过渡向量Q为(0.03,0.18,0.05,0.01,0.005);将该过渡向量Q与上述概率向量特征S进行相加处理(即0.15+0.03=0.18,0.45+0.18=0.63,0.20+0.05=0.25,0.1+0.01=0.11,0.1+0.005=0.105),可以得到最终的目标概率向量P(0.18,0.63,0.25,0.11,0.105)。可以看出,目标概率向量P中包括了类别A、类别B、类别C、类别D以及类别E这5个类别的最终预测概率。其中,0.18可以为这张图像样本为类别A的预测概率,0.63可以为这张图像样本为类别B的预测概率,0.25可以为这张图像样本为类别C的预测概率,0.11可以为这张图像样本为类别D的预测概率,0.105可以为这张图像样本为类别E的预测概率。
需要说明的是,上述对于上述融合特征R、概率向量特征S中的数值均是为便于理解所作出的举例说明,不具有代表性。
步骤S104,根据上述至少两个预测概率,分别对上述对象类别卷积矩阵和上述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将上述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标对象类别卷积矩阵以及上述目标图像识别模型用于识别目标图像所属的对象类别。
本申请中,可以在上述图像识别模型输出的至少两个预测概率中,确定出最大的预测概率,并将该最大预测概率对应的对象类别,作为图像识别模型对图像样本的预测对象类别;再获取到该图像样本对应的对象类别标签;根据该预测对象类别与该对象类别标签可以生成损失函数值,根据该损失函数值可以对上述类别关系子模型输出的对象类别卷积矩阵、上述类别关系子模型以及上述分类子模型进行调整;在调整后的类别关系子模型以及调整后的分类子模型均满足模型收敛条件时,将该调整后的分类子模型确定为目标分类子模型,将该调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵。其中,该对象类别标签可以是指图像样本所属的真实类别标签,也就是说,将一张带有类别标签(如类别C)的图像样本输入到图像识别模型中,该图像识别模型可以对该图像样本预测出一个图像类别,如以上述图像识别模型输出的预测结果为目标概率向量P(0.18,0.63,0.25,0.11,0.105)为例,因为该5个预测概率(0.18,0.63,0.25,0.11,0.105)中,最大的预测概率为0.63,该最大预测概率0.63对应的对象类别为类别B,则图像识别模型可以将类别B作为预测对象类别;根据该预测对象类别“类别B”与对象类别标签“类别C”,可以生成图像识别模型对这张图像样本的损失函数值,根据该损失函数值可以对图像识别模型(包括类别关系子模型以及分类子模型)的模型参数以及对象类别卷积矩阵分别进行调整,使得图像识别模型以及对象类别卷积矩阵对图像样本的预测结果可以越来越逼近真实标签。其中,该损失函数值包括了对象类别标签对应的第一损失函数值以及预测对象类别对应的第二损失函数值,对于根据损失函数值对图像识别模型以及对象类别卷积矩阵进行调整的具体方法可以为,根据输入的图像样本的对象类别标签以及上述图像识别模型输出的至少两个预测概率,可以计算出该对象类别标签的第一损失函数值,计算出该第一损失函数值对该输入的图像样本的偏导数,可以作为该对象类别标签对应的第一梯度值;根据图像识别模型对输入的图像样本预测的预测对象类别以及上述图像识别模型输出的至少两个预测概率,可以计算出该预测对象类别的第二损失函数值,计算出该第二损失函数值对该输入的图像样本的偏导数,可以作为该预测对象类别对应的第二梯度值;根据该第一梯度值以及该第二梯度值,可以确定出该图像识别模型(包括类别关系子模型以及分类子模型)对该输入的图像样本的一个总的预测误差;若该预测误差大于误差阈值,则确定该类别关系子模型以及该分类子模型均不满足该模型收敛条件,则可以根据该预测误差对该类别关系子模型的模型参数、该分类子模型的模型参数以及该对象类别卷积矩阵分别进行调整;在下一轮的训练中,可以将该调整后的对象类别卷积矩阵输入到该调整后的类别关系子模型中,该调整后的类别关系子模型可以对该输入的调整后的对象类别卷积矩阵,进行卷积计算,输出该调整后的对象类别卷积矩阵所对应的新的对象类别卷积矩阵,该调整后的分类子模型也会提取出图像样本的新的图像特征,将该新的对象类别卷积矩阵与该新的图像特征进行融合,得到图像样本的新的预测对象类别,根据该新的预测对象类别得到一个新的预测误差;若该新的预测误差小于或等于了误差阈值,则完成对该类别关系子模型以及该分类子模型的训练,得到目标分类子模型以及目标对象类别卷积矩阵。完成训练的图像识别模型以及对象类别卷积矩阵(如目标分类子模型以及目标对象类别卷积矩阵)可以应用于图像识别场景中,如,需要确定目标图像所属的对象类别,则可以将该目标图像输入到该调整后的图像识别模型中,通过该调整后的图像识别模型中的目标分类子模型,可以提取出该目标图像的目标图像特征;将该目标对象类别卷积矩阵与该目标图像特征进行融合,可以得到目标融合特征,通过该调整后的图像识别模型可以输出该目标融合特征对应的至少两个目标预测概率;其中每个目标预测概率分别对应一个对象类别,在这至少两个目标预测概率中,可确定出最大目标预测概率,可以将该最大目标预测概率对应的对象类别确定为该目标图像所属的对象类别。可以看出,经过不断的对图像识别模型(包括类别关系子模型以及分类子模型)以及对象类别卷积矩阵进行训练,可以使得对象类别卷积矩阵达到最优,同时可以使得图像识别模型提取出更为符合图像的深层图像特征;也就是说,通过不停地训练,可以得到对象类别间的最优的相互关系,将该相互关系与图像的深层图像特征进行融合,得到的预测结果(如预测对象类别)更为准确。其中,这里的收敛条件可以是指满足迭代次数,也就是为模型训练设置一个迭代次数阈值,当迭代次数到达了迭代次数阈值,就完成对模型的训练;这里的收敛条件也可以是指预测误差在误差允许范围内,也就是说设置一个误差允许范围(如0.01-0.05),若预测误差在这个误差允许范围内,则完成对模型的训练。
本申请实施例增加了对象类别间的关系信息,将该对象类别关系信息输入到图像识别模型中,通过图像识别模型来对该对象类别关系信息进行卷积计算,可以得到图像识别模型模拟的一个对象类别卷积矩阵,该对象类别卷积矩阵中就包括了对象类别间的相互关系;将该对象类别卷积矩阵与图像识别模型提取出的图像样本的图像特征进行融合,可以得到该图像样本的预测概率,根据该预测概率对对象类别卷积矩阵以及图像识别模型进行调整,可以使得对象类别卷积矩阵以及图像识别模型达到最优,也就是说通过调整模型,可以使得模拟的对象类别间的相互关系为最优关系。由此,通过该调整后的对象类别卷积矩阵以及调整后的图像识别模型,可以更为准确的识别出目标图像的对象类别。可以看出,因为增加了对象类别间的相互关系,可以很好地对不同类别尤其是相似类别进行区分,可以提高模型对对象类别的预测准确率。
为便于理解,请参见图4a-图4b,是本申请实施例提供的一种模型训练示意图。如图4a所示,将对象类别关系信息30a输入图像识别模型中的类别关系子模型中,通过该类别关系子模型可以输出该对象类别关系信息30a对应的对象类别卷积矩阵;其中,类别关系子模型根据对象类别信息30a输出对象类别卷积矩阵的具体实现方式,可以参见上述图2所对应实施例中步骤S101中的描述,这里将不再进行赘述。将图像样本A输入图像识别模型中的分类子模型中,通过该分类子模型可以提取出该图像样本A的图像特征;将该对象类别卷积矩阵与该图像样本进行融合,可以得到包括P0、P1、P2、P3以及P4这5个预测概率值;其中,将对象类别卷积矩阵与图像特征进行融合,得到P0、P1、P2、P3以及P4这5个预测概率值的具体实现方式,可以参见上述图2所对应实施例中步骤S103中的描述,这里将不再进行赘述。在P0、P1、P2、P3以及P4这5个预测概率值中,可以确定出最大的一个预测概率,如P0为0.2,P1为0.1,P2为0.1,P3为0.15,P4为0.45,因为0.45>0.2>0.15>0.1=0.1,那么P4为最大预测概率值,如图4b所示,P4对应的病变级别为类别E,那么可以将类别E确定为图像识别模型对该图像样本A所预测出的对象类别。因为该图像样本A所属的对象类别标签为类别D,也就是说,该图像样本A的真实类别应该为类别D,那么图像识别模型预测出的对象类别则是错误的,则根据图像识别模型的预测对象类别“类别E”以及对象类别标签“类别D”,可以确定出一个图像识别模型对该图像样本A的预测误差,根据该预测误差,可以对上述类别关系子模型输出的对象类别卷积矩阵以及图像识别模型分别进行调整,通过调整来使得图像识别模型输出的预测值越来越接近真实值。其中,对于根据预测对象类别“类别E”以及对象类别标签“类别D”确定预测误差的具体实现方式,可以参见上述图2所对应实施例中步骤S104中确定预测误差的描述,这里将不再进行赘述;对于根据预测误差对对象类别卷积矩阵以及图像识别模型进行调整的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。
请参见图5,是本申请实施例提供的一种场景示意图。如图5所示,目标图像B时一位患有糖尿病视网膜病变的患者的眼底图,用户B若希望知道目标病变图像B在糖尿病视网膜病变的5个异常类别(分别为正常、轻度、中度、重度以及增殖)中,属于哪一个类别,可以将该目标图像B通过终端B发送至业务服务器4000,业务服务器4000可以将该目标图像B输入至训练好的图像识别模型中400a中。其中,该训练好的图像识别模型400a中包括有训练完成的异常类别卷积矩阵以及训练完成的分类子模型,该异常类别卷积矩阵可以用于表征正常、轻度、中度、重度以及增殖这5个异常类别之间的相互关系;对于图像识别模型400a以及异常类别卷积矩阵的训练,本方案可以采取以下方法,获取到异常类别关系矩阵,这里的异常类别关系矩阵中包括了上述正常、轻度、中度、重度以及增殖这5个异常类别的初始关联关系,也就是说,异常类别关系矩阵中的数值可以是指对这5个异常类别的关系初始值,这里的关系初始值可以是根据医学上对于糖尿病视网膜病变这一疾病的标注,按照高斯分布规则来进行初始化所得到。如上述图2所对应实施例中的类别关系矩阵A1,可以作为该糖尿病视网膜病变对应的异常类别关系矩阵。将该糖尿病视网膜病变的异常类别关系矩阵输入到图像识别模型400a的图卷积子模型中,通过该图卷积子模型可以输出该异常类别关系矩阵对应的异常类别卷积矩阵;其中,这里图卷积子模型输出该异常类别关系矩阵对应的异常类别卷积矩阵的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S102中,对于类别关系子模型输出对象类别关系信息对应的对象类别卷积矩阵的描述,这里将不再进行赘述。进一步地,可以获取到糖尿病视网膜病变的图像样本,将该图像样本输入到分类子模型中,通过该分类子模型可以提取出该图像样本的深层图像特征;将该异常类别卷积矩阵与该深层图像特征进行融合,可以得到融合特征,通过该分类子模型可以输出该融合特征对应的至少两个异常类别预测概率;其中,每个异常类别预测概率分别对应一个异常类别;根据该至少两个异常类别预测概率,可以分别对上述异常类别卷积矩阵、该图卷积模型以及分类子模型进行调整,当调整后的图卷积子模型以及调整后的分类子模型均满足收敛条件时,那么可以完成训练,将调整后的异常类别卷积矩阵以及调整后的分类子模型均应用于异常类别识别的场景中,也就是说,调整后的异常类别卷积矩阵以及调整后的分类子模型可以用于识别目标图像的异常类别。其中,上述图卷积子模型与上述图2所对应实施例中的类别关系子模型可以为同一种模型,这里将异常类别卷积矩阵与深层图像特征进行融合的具体方法,可以参见上述图2所对应实施例中步骤S103中将对象类别卷积矩阵与图像特征进行融合的描述,这里将不再进行赘述。进一步地,图像识别模型400a中的训练完成的分类子模型可以提取出该目标图像B的深层图像特征,后续,业务服务器4000可以通过sigmoid函数将训练好的异常类别卷积矩阵以及目标图像B的深层图像特征进行融合,得到目标图像B的融合特征;因为异常类别卷积矩阵是用于表征正常、轻度、中度、重度以及增殖5个异常类别之间的相互关系,这里通过sigmoid函数将异常类别卷积矩阵以及目标图像B的深层图像图像进行融合的意义在于,可以将这5个异常类别的相互关系映射到分类子模型输出的深层图像特征上,由此所得到的融合特征中既包括了5个异常类别之间的相互关系,也具有该目标图像B对应的深层图像特征。业务服务器4000可以将该融合特征输入到训练好的分类子模型的全连接层中,通过该全连接层可以输出该融合特征对应的概率向量特征,这里的概率向量特征中包括了由融合特征所生成的5个初始预测概率值,也就是对正常、轻度、中度、重度以及增殖5个异常类别中每个异常类别的初始预测概率;再将该概率向量特征与融合特征进行融合,可以得到对每个异常类别的目标预测概率,如图5所示,P0可以是对正常这个异常类别的目标预测概率,为0.2;P1可以是对轻度这个异常类别的目标预测概率,为0.7;P2可以是对中度这个异常类别的目标预测概率,为0.05;P3可以是对重度这个异常类别的目标预测概率,为0.05;P4可以是对增殖这个异常类别的目标预测概率,为0.1。根据这5个目标预测概率,可以确定最大目标预测概率为P1(0.7),则可以将该最大目标预测概率P1对应的异常类别“轻度”作为最终的预测异常类别,业务服务器4000可以将预测结果(目标图像B的图像类别为轻度糖尿病视网膜病变)返回用户终端B,用户B可以在用户终端B的显示页面上查看到这个预测结果。用户B可以将该预测结果作为辅助诊断结果,再结合个人的临床经验以及该辅助诊断结果,进行人工分析,确定出最终的诊断方案。可以看出,通过训练异常类别卷积矩阵以及图像识别模型,可以得到糖尿病视网膜病变的不同异常类别间的相互关系,将该相互关系与分类子模型输出的深层图像特征进行融合,得到对每个异常类别的目标预测概率,因为引入了异常类别间的相互关系,可以使得异常类别的预测准确率更高。
进一步地,请参见图6,是本申请实施例提供的一种方法架构图。如图6所示,将输入图像输入卷积神经网络中,该卷积神经网络是神经学习分类,检测技术中常用的一种神经网络,卷积神经网络由卷积层、池化层以及全连接层组成。本架构可以由两个部分组成,分别为基础分类网络以及图卷积网络。这里的基础分类网络可以为上述图2所对应实施例中的分类子模型,这里的图卷积网络可以为上述图2所对应实施例中的类别关系子模型。通过基础分类网络可以提取输入图像的图像特征;图卷积网络中包括了两个图卷积层,如图6所示,分别为第一卷积层以及第二卷积层,每个图卷积层都有各自的卷积参数,将对象类别的初始关系信息,即对象类别关系信息(如对象类别关系矩阵)以及类别单位矩阵一同输入到图卷积网络中,通过该图卷积网络的第一卷积层的卷积参数可以对该初始关系信息进行运算,得到输出C1(如对象类别关系矩阵对应的初始对象类别卷积矩阵),其中,对象类别关系矩阵与类别单位矩阵的维度是一致的,若有N个对象类别,则对象类别关系矩阵就为N×N的矩阵,类别单位矩阵也为N×N的矩阵。如图6所示的对象类别关系信息(对象类别矩阵)以及单位类别单位矩阵是5×5的矩阵,因为对象类别共包括了5个类别,分别为类别0、类别1、类别2、类别3以及类别4;如图6所示的符号W可以用于表征神经网络中的ReLU函数,ReLU函数可以对该输出C1进行卷积,得到卷积关系特征(如对象类别关系特征);通过该第二卷积层的卷积参数可以对该对象类别关系特征以及对象类别关系矩阵进行运算,得到对象类别关系矩阵对应的对象类别卷积矩阵;如图6所示,符号E可以用于表征将基础分类网络提取出的图像特征,与图卷积网络输出的对象类别卷积矩阵进行融合(如通过矩阵相乘将图像特征与对象类别卷积矩阵进行融合)。如图6所示的符号H可以用于表征sigmoid激活函数,通过sigmoid激活函数,可以将该对象类别卷积矩阵与上述图像特征进行融合后的结果再进行卷积计算得到融合特征。将融合特征再输入到基础分类网络的全连接层中,可以得到融合特征对应的概率向量特征,如图6所示的符号F可以用于表征将融合特征与概率向量特征每个元素进行相乘,得到相乘后的结果。如图6所示的符号J可以用于表征将相乘后的结果与融合特征进行相加,可得到至少两个预测概率,如图6所示,因为共有类别0、类别1、类别2、类别3以及类别4共5个类别,则可以得到P0,P1,P2,P3,P4共5个预测概率。其中P0对应类别0,P1对应类别1,P2对应类别2,P3对应类别3,P4对应类别4。若输入的图像是训练样本图像,则可以根据这5个预测概率对基础分类网络以及图卷积网络进行调整,使得对象类别卷积矩阵可以通过训练学习,相互关系达到最优;且基础分类网络也可以提取出更符合输入图像的图像特征。若基础分类网络与图卷积网络已训练完成,则输入的图像可以为需要识别对象类别的图像,可以根据这5个预测概率确定出该输入图像的对象类别。其中,对于基础分类网络以及图卷积网络的训练,可以参见上述图2所对应实施例中步骤S101-步骤S104对分类子模型、类别关系子模型以及对象类别卷积矩阵的训练的描述,这里将不再进行赘述。若输入的是目标图像,需要通过基础分类网络以及图卷积网络来识别出目标图像的对象类别,则可以通过输出的5个预测概率,确定出目标图像所属的对象类别。
请参见图7,是本申请实施例提供的一种场景示意图。如图7所示,用户C通过终端C输入一组待分类图像至业务服务器6000,其中,该待分类图像中包括了图像60a、图像60b以及图像60c。其中,图像60a为小猴子的图像,图像60b为小狗图像,图像60c为人物图像。业务服务器6000可以这组待分类图像输入到图像识别模型中,图像识别模型可以分别确定出图像60a的类别预测概率、图像60b的类别预测概率以及图像60c的类别预测概率,其中,对于图像识别模型确定图像60a、图像60b以及图像60c的类别预测概率的具体实现方式,可以参见上述图2所对应实施例中确定图像样本的预测概率的描述,这里将不再进行赘述。根据图像60a的类别预测概率可以确定出图像60a的类别是属于动物类还是人类,根据图像60b的类别预测概率可以确定出图像60b的类别是属于动物类还是人类,根据图像60c类别预测概率可以确定出图像60c的类别是属于动物类还是人类。根据图像60a、图像60b以及图像60c的类别,可以对图像60a、图像60b以及图像60c进行分类,如图5所示,图像60a与图像60b均属于动物类,图像60c属于人类。业务服务器6000可以将这个分类结果返回至用户终端,如此利用相似图像间的相互关系,可以实现对一组图像的自动化分类,可以提高图像识别以及图像分类的效率。
请参见图8,是本申请实施例提供的一种图像识别装置的结构示意图。上述数图像识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像识别装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该图像识别装置1可以包括:类别关系获取模块11、类别矩阵获取模块12、样本获取模块13、图像特征提取模块14、融合特征生成模块15、预测概率输出模块16以及模型调整模块17。
类别关系获取模块11,用于获取对象类别关系信息;
类别矩阵获取模块12,用于通过图像识别模型获取上述对象类别关系信息对应的对象类别卷积矩阵;上述对象类别关系信息包括至少两个对象类别之间的关联关系;
样本获取模块13,用于获取图像样本;
图像特征提取模块14,用于通过上述图像识别模型提取上述图像样本的图像特征;
融合特征生成模块15,用于将上述对象类别卷积矩阵与上述图像特征进行融合,得到融合特征;
预测概率输出模块16,用于通过上述图像识别模型输出上述融合特征对应的至少两个预测概率;上述每个预测概率分别对应一个对象类别;
模型调整模块17,用于根据上述至少两个预测概率,分别对上述对象类别卷积矩阵和上述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将上述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标对象类别卷积矩阵以及上述目标图像识别模型用于识别目标图像所属的对象类别。
其中,类别关系获取模块11、类别矩阵获取模块12、样本获取模块13、图像特征提取模块14、融合特征生成模块15、预测概率输出模块16以及模型调整模块17的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S104的描述,这里将不再进行赘述。
请参见图8,上述类别矩阵获取模块12,可以包括:单位矩阵获取单元121、第一矩阵输入单元122、初始类别矩阵输出单元123、第二矩阵输入单元124以及类别矩阵输出单元125。
单位矩阵获取单元121,用于获取上述至少两个对象类别对应的类别单位矩阵;
第一矩阵输入单元122,用于将上述对象类别关系矩阵以及上述类别单位矩阵输入上述类别关系子模型中的第一卷积层;
初始类别矩阵输出单元123,用于通过上述第一卷积层输出初始对象类别卷积矩阵;
第二矩阵输入单元124,用于将上述初始对象类别卷积矩阵输入上述类别关系子模型的第二卷积层;
类别矩阵输出单元125,用于通过上述第二卷积层输出上述初始对象类别卷积矩阵对应的对象类别卷积矩阵。
其中,单位矩阵获取单元121、第一矩阵输入单元122、初始类别矩阵输出单元123、第二矩阵输入单元124以及类别矩阵输出单元125的具体实现方式,可以参见上述图2所对应实施例中步骤S101中的描述,这里将不再进行赘述。
请参见图8,上述初始类别矩阵输出单元123,可以包括:第一参数获取子单元1231以及第一相乘处理子单元1232。
第一参数获取子单元1231,用于获取上述第一卷积层的第一卷积参数;
第一相乘处理子单元1232,用于将上述类别单位矩阵、上述对象类别关系矩阵以及上述第一卷积参数进行相乘处理,得到上述初始对象类别卷积矩阵。
其中,第一参数获取子单元1231以及第一相乘处理子单元1232的具体实现方式,可以参见上述图2所对应实施例中步骤S101中的描述,这里将不再进行赘述。
请参见图8,上述类别矩阵输出单元125,可以包括:卷积计算子单元1251、第二参数获取子单元1252以及第二相乘处理子单元1253。
卷积计算子单元1251,用于获取上述第二卷积层中的卷积函数,根据上述卷积函数对上述初始对象类别卷积矩阵进行卷积计算,得到对象类别关系特征;
第二参数获取子单元1252,用于获取上述第二卷积层的第二卷积参数;
第二相乘处理子单元1253,用于将上述对象类别关系矩阵、上述对象类别关系特征以及上述第二卷积参数进行相乘处理,得到上述对象类别卷积矩阵。
其中,卷积计算子单元1251、第二参数获取子单元1252以及第二相乘处理子单元1253的具体实现方式,可以参见上述图2所对应实施例中步骤S101中的描述,这里将不再进行赘述。
请参见图8,上述融合特征生成模块15,可以包括:输出矩阵获取单元151、融合矩阵生成单元152、融合函数获取单元153以及融合矩阵转换单元154。
输出矩阵获取单元151,用于获取上述类别关系子模型输出的上述对象类别卷积矩阵,以及上述分类子模型输出的上述图像特征矩阵;
融合矩阵生成单元152,用于将上述对象类别卷积矩阵与上述图像特征矩阵进行相乘处理,得到融合矩阵;
融合函数获取单元153,用于获取上述图像识别模型中的融合函数;
融合矩阵转换单元154,用于根据上述融合函数将上述融合矩阵转换为融合特征;上述融合特征包括每个对象类别分别对应的特征值,上述特征值为上述对象类别卷积矩阵到上述图像特征矩阵的映射结果。
其中,输出矩阵获取单元151、融合矩阵生成单元152、融合函数获取单元153以及融合矩阵转换单元154的具体实现方式,可以参见上述图2所对应实施例中步骤S103中的描述,这里将不再进行赘述。
请参见图8,上述预测概率输出模块16,可以包括:概率向量输出单元161以及预测概率生成单元162。
概率向量输出单元161,用于将上述融合特征输入上述分类子模型的全连接层,通过上述全连接层输出上述融合特征对应的概率向量特征;
预测概率生成单元162,用于将上述概率向量特征以及上述融合特征进行融合,生成上述每个对象类别分别对应的预测概率。
其中,概率向量输出单元161以及预测概率生成单元162的具体实现方式,可以参见上述图2所对应实施例中步骤S105中的描述,这里将不再进行赘述。
请参见图8,上述模型调整模块17,可以包括:预测类别获取单元171、类别标签获取单元172、子模型调整单元173以及目标模型确定单元174。
预测类别获取单元171,用于获取上述至少两个预测概率中的最大预测概率,将上述最大预测概率对应的对象类别,作为预测对象类别;
类别标签获取单元172,用于获取上述图像样本对应的对象类别标签;
子模型调整单元173,用于根据上述预测对象类别和上述对象类别标签生成损失函数值,根据上述损失函数值对上述对象类别卷积矩阵、上述类别关系子模型以及上述分类子模型分别进行调整;
目标模型确定单元174,用于在调整后的类别关系子模型以及调整后的分类子模型均满足上述模型收敛条件时,将调整后的分类子模型确定为目标分类子模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标分类子模型用于提取目标图像的目标图像特征,上述目标图像特征和上述目标对象类别卷积矩阵用于确定上述目标图像所属的对象类别。
其中,预测类别获取单元171、类别标签获取单元172、子模型调整单元173以及目标模型确定单元174的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。
其中,上述子模型调整单元173,可以包括:梯度值确定子单元1731、预测误差确定子单元1732以及参数调整子单元1733。
梯度值确定子单元1731,用于根据上述损失函数值,确定上述对象类别标签对应的第一梯度值以及上述预测对象类别对应的第二梯度值;
预测误差确定子单元1732,用于根据上述第一梯度值以及上述第二梯度值,确定上述类别关系子模型以及上述分类子模型对上述图像样本的预测误差;
参数调整子单元1733,用于若上述预测误差大于误差阈值,则确定上述类别关系子模型以及上述分类子模型均不满足上述模型收敛条件,则根据上述预测误差对上述类别关系子模型的模型参数、上述分类子模型的模型参数以及上述对象类别卷积矩阵分别进行调整;调整后的对象类别卷积矩阵用于在下一轮训练中作为调整后的类别关系子模型的输入数据。
其中,梯度值确定子单元1731、预测误差确定子单元1732以及参数调整子单元1733的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。
请参见图8,该数据处理装置1可以包括类别关系获取模块11、类别矩阵获取模块12、样本获取模块13、图像特征提取模块14、融合特征生成模块15、预测概率输出模块16以及模型调整模块17,还可以包括:目标图像获取模块18、目标特征提取模块19、目标预测概率输出模块20以及对象类别确定模块21。
目标图像获取模块18,用于获取目标图像,将上述目标图像输入上述调整后的图像识别模型;
目标特征提取模块19,用于通过上述调整后的图像识别模型,提取出上述目标图像的目标图像特征;
目标预测概率输出模块20,用于将上述调整后的对象类别卷积矩阵与上述目标图像特征进行融合,得到目标融合特征,通过上述调整后的图像识别模型输出上述目标融合特征对应的至少两个目标预测概率;每个目标预测概率分别对应一个对象类别;
对象类别确定模块21,用于在上述至少两个目标预测概率中,确定出最大目标预测概率,将上述最大目标预测概率对应的对象类别确定为上述目标图像所属的对象类别。
其中,目标图像获取模块18、目标特征提取模块19、目标预测概率输出模块20以及对象类别确定模块21的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。
本申请实施例增加了对象类别间的关系信息,将该对象类别关系信息输入到图像识别模型中,通过图像识别模型来对该对象类别关系信息进行卷积计算,可以得到图像识别模型模拟的一个对象类别卷积矩阵,该对象类别卷积矩阵中就包括了对象类别间的相互关系;将该对象类别卷积矩阵与图像识别模型提取出的图像样本的图像特征进行融合,可以得到该图像样本的预测概率,根据该预测概率对对象类别卷积矩阵以及图像识别模型进行调整,可以使得对象类别卷积矩阵以及图像识别模型达到最优,也就是说通过调整模型,可以使得模拟的对象类别间的相互关系为最优关系。由此,通过该调整后的对象类别卷积矩阵以及调整后的图像识别模型,可以更为准确的识别出目标图像的对象类别。可以看出,因为增加了对象类别间的相互关系,可以很好地对不同类别尤其是相似类别进行区分,可以提高模型对对象类别的预测准确率。
进一步地,请参见图9,是本申请实施例提供的一种计算机设备的示意图。如图9所示,上述计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备1000中,网络接口1004主要用于与业务服务器进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取对象类别关系信息,通过图像识别模型获取上述对象类别关系信息对应的对象类别卷积矩阵;上述对象类别关系信息包括至少两个对象类别之间的关联关系;
获取图像样本,通过上述图像识别模型提取上述图像样本的图像特征;
将上述对象类别卷积矩阵与上述图像特征进行融合,得到融合特征,通过上述图像识别模型输出上述融合特征对应的至少两个预测概率;上述每个预测概率分别对应一个对象类别;
根据上述至少两个预测概率,分别对上述对象类别卷积矩阵和上述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将上述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;上述目标对象类别卷积矩阵以及上述目标图像识别模型用于识别目标图像所属的对象类别。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2到图7所对应实施例中对该图像识别方法的描述,也可执行前文图8所对应实施例中对该图像识别装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的图像识别的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2到图7所对应实施例中对上述图像识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (12)

1.一种图像识别方法,其特征在于,包括:
获取对象类别关系信息,通过图像识别模型获取所述对象类别关系信息对应的对象类别卷积矩阵;所述对象类别关系信息包括至少两个对象类别之间的关联关系;
获取图像样本,通过所述图像识别模型提取所述图像样本的图像特征;
将所述对象类别卷积矩阵与所述图像特征进行融合,得到融合特征,通过所述图像识别模型输出所述融合特征对应的至少两个预测概率;所述每个预测概率分别对应一个对象类别;
根据所述至少两个预测概率,分别对所述对象类别卷积矩阵和所述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将所述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;所述目标对象类别卷积矩阵以及所述目标图像识别模型用于识别目标图像所属的对象类别。
2.根据权利要求1所述的方法,其特征在于,所述图像识别模型包括类别关系子模型;所述对象类别关系信息为对象类别关系矩阵;
所述通过图像识别模型获取所述对象类别关系信息对应的对象类别卷积矩阵,包括:
获取所述至少两个对象类别对应的类别单位矩阵;
将所述对象类别关系矩阵以及所述类别单位矩阵输入所述类别关系子模型中的第一卷积层,通过所述第一卷积层输出初始对象类别卷积矩阵;
将所述初始对象类别卷积矩阵输入所述类别关系子模型的第二卷积层,通过所述第二卷积层输出所述初始对象类别卷积矩阵对应的对象类别卷积矩阵。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第一卷积层输出初始对象类别卷积矩阵,包括:
获取所述第一卷积层的第一卷积参数;
将所述类别单位矩阵、所述对象类别关系矩阵以及所述第一卷积参数进行相乘处理,得到所述初始对象类别卷积矩阵。
4.根据权利要求2所述的方法,其特征在于,所述通过所述第二卷积层输出所述初始对象类别卷积矩阵对应的对象类别卷积矩阵,包括:
获取所述第二卷积层中的卷积函数,根据所述卷积函数对所述初始对象类别卷积矩阵进行卷积计算,得到对象类别关系特征;
获取所述第二卷积层的第二卷积参数;
将所述对象类别关系矩阵、所述对象类别关系特征以及所述第二卷积参数进行相乘处理,得到所述对象类别卷积矩阵。
5.根据权利要求2所述的方法,其特征在于,所述图像识别模型还包括分类子模型;所述图像特征为所述分类子模型提取出的图像特征矩阵;
所述将所述对象类别卷积矩阵与所述图像特征进行融合,得到融合特征,包括:
获取所述类别关系子模型输出的所述对象类别卷积矩阵,以及所述分类子模型输出的所述图像特征矩阵;
将所述对象类别卷积矩阵与所述图像特征矩阵进行相乘处理,得到融合矩阵;
获取所述图像识别模型中的融合函数;
根据所述融合函数将所述融合矩阵转换为融合特征;所述融合特征包括每个对象类别分别对应的特征值,所述特征值为所述对象类别卷积矩阵到所述图像特征矩阵的映射结果。
6.根据权利要求5所述的方法,其特征在于,所述通过所述图像识别模型输出所述融合特征对应的至少两个预测概率,包括:
将所述融合特征输入所述分类子模型的全连接层,通过所述全连接层输出所述融合特征对应的概率向量特征;
将所述概率向量特征以及所述融合特征进行融合,生成所述每个对象类别分别对应的预测概率。
7.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个预测概率,分别对所述对象类别卷积矩阵和所述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将所述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵,包括:
获取所述至少两个预测概率中的最大预测概率,将所述最大预测概率对应的对象类别,作为预测对象类别;
获取所述图像样本对应的对象类别标签;
根据所述预测对象类别和所述对象类别标签生成损失函数值,根据所述损失函数值对所述对象类别卷积矩阵、所述类别关系子模型以及所述分类子模型分别进行调整;
在调整后的类别关系子模型以及调整后的分类子模型均满足所述模型收敛条件时,将调整后的分类子模型确定为目标分类子模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;所述目标分类子模型用于提取目标图像的目标图像特征,所述目标图像特征和所述目标对象类别卷积矩阵用于确定所述目标图像所属的对象类别。
8.根据权利要求7所述的方法,其特征在于,所述根据所述损失函数值对所述对象类别卷积矩阵、所述类别关系子模型以及所述分类子模型分别进行调整,包括:
根据所述损失函数值,确定所述对象类别标签对应的第一梯度值以及所述预测对象类别对应的第二梯度值;
根据所述第一梯度值以及所述第二梯度值,确定所述类别关系子模型以及所述分类子模型对所述图像样本的预测误差;
若所述预测误差大于误差阈值,则确定所述类别关系子模型以及所述分类子模型均不满足所述模型收敛条件,根据所述预测误差对所述类别关系子模型的模型参数、所述分类子模型的模型参数以及所述对象类别卷积矩阵分别进行调整;调整后的对象类别卷积矩阵用于在下一轮训练中作为调整后的类别关系子模型的输入数据。
9.根据权利要求1所述的方法,其特征在于,还包括:
获取目标图像,将所述目标图像输入所述调整后的图像识别模型;
通过所述调整后的图像识别模型,提取出所述目标图像的目标图像特征;
将所述调整后的对象类别卷积矩阵与所述目标图像特征进行融合,得到目标融合特征,通过所述调整后的图像识别模型输出所述目标融合特征对应的至少两个目标预测概率;每个目标预测概率分别对应一个对象类别;
在所述至少两个目标预测概率中,确定出最大目标预测概率,将所述最大目标预测概率对应的对象类别确定为所述目标图像所属的对象类别。
10.一种图像识别装置,其特征在于,包括:
类别关系获取模块,用于获取对象类别关系信息;
类别矩阵获取模块,用于通过图像识别模型获取所述对象类别关系信息对应的对象类别卷积矩阵;所述对象类别关系信息包括至少两个对象类别之间的关联关系;
样本获取模块,用于获取图像样本;
图像特征提取模块,用于通过所述图像识别模型提取所述图像样本的图像特征;
融合特征生成模块,用于将所述对象类别卷积矩阵与所述图像特征进行融合,得到融合特征;
预测概率输出模块,用于通过所述图像识别模型输出所述融合特征对应的至少两个预测概率;所述每个预测概率分别对应一个对象类别;
模型调整模块,用于根据所述至少两个预测概率,分别对所述对象类别卷积矩阵和所述图像识别模型进行调整,在调整后的图像识别模型满足模型收敛条件时将所述调整后的图像识别模型确定为目标图像识别模型,将调整后的对象类别卷积矩阵确定为目标对象类别卷积矩阵;所述目标对象类别卷积矩阵以及所述目标图像识别模型用于识别目标图像所属的对象类别。
11.一种计算机设备,其特征在于,包括:处理器和存储器;
所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至9中任一项所述的方法。
CN202010350382.6A 2020-04-28 2020-04-28 一种图像识别方法、装置、设备以及可读存储介质 Active CN111553419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350382.6A CN111553419B (zh) 2020-04-28 2020-04-28 一种图像识别方法、装置、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350382.6A CN111553419B (zh) 2020-04-28 2020-04-28 一种图像识别方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111553419A true CN111553419A (zh) 2020-08-18
CN111553419B CN111553419B (zh) 2022-09-09

Family

ID=72000398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350382.6A Active CN111553419B (zh) 2020-04-28 2020-04-28 一种图像识别方法、装置、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111553419B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232165A (zh) * 2020-10-10 2021-01-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN112529038A (zh) * 2020-11-11 2021-03-19 联想(北京)有限公司 一种主板物料的识别方法、装置及存储介质
CN112686185A (zh) * 2021-01-05 2021-04-20 北京地平线机器人技术研发有限公司 关系特征提取方法及装置、电子设备
CN113221836A (zh) * 2021-06-01 2021-08-06 平安科技(深圳)有限公司 眼底彩照分类方法、装置、设备及存储介质
CN113255766A (zh) * 2021-05-25 2021-08-13 平安科技(深圳)有限公司 一种图像分类方法、装置、设备和存储介质
CN115129902A (zh) * 2022-06-30 2022-09-30 腾讯科技(深圳)有限公司 媒体数据处理方法、装置、设备及存储介质
WO2023179099A1 (zh) * 2022-03-23 2023-09-28 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285739A1 (en) * 2017-03-29 2018-10-04 University Of Florida Research Foundation, Incorporated Deep learning for characterizing unseen categories
CN109726671A (zh) * 2018-12-27 2019-05-07 上海交通大学 从全局到类别特征表达学习的动作识别方法和系统
CN109934293A (zh) * 2019-03-15 2019-06-25 苏州大学 图像识别方法、装置、介质及混淆感知卷积神经网络
CN110147699A (zh) * 2018-04-12 2019-08-20 北京大学 一种图像识别方法、装置以及相关设备
US20190355147A1 (en) * 2017-07-14 2019-11-21 Tencent Technology (Shenzhen) Company Limited Method and apparatus for determining object posture in image, device, and storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285739A1 (en) * 2017-03-29 2018-10-04 University Of Florida Research Foundation, Incorporated Deep learning for characterizing unseen categories
US20190355147A1 (en) * 2017-07-14 2019-11-21 Tencent Technology (Shenzhen) Company Limited Method and apparatus for determining object posture in image, device, and storage medium
CN110147699A (zh) * 2018-04-12 2019-08-20 北京大学 一种图像识别方法、装置以及相关设备
CN109726671A (zh) * 2018-12-27 2019-05-07 上海交通大学 从全局到类别特征表达学习的动作识别方法和系统
CN109934293A (zh) * 2019-03-15 2019-06-25 苏州大学 图像识别方法、装置、介质及混淆感知卷积神经网络

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAO-QING YANG ET AL: "Supervised class-specific dictionary learning for image classification", 《2016 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS (ICMLC)》 *
赵一等: "面向特定目标自识别的交通图像语义检索方法", 《计算机应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232165B (zh) * 2020-10-10 2024-03-01 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN112232165A (zh) * 2020-10-10 2021-01-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN112529038B (zh) * 2020-11-11 2023-07-25 联想(北京)有限公司 一种主板物料的识别方法、装置及存储介质
CN112529038A (zh) * 2020-11-11 2021-03-19 联想(北京)有限公司 一种主板物料的识别方法、装置及存储介质
CN112686185A (zh) * 2021-01-05 2021-04-20 北京地平线机器人技术研发有限公司 关系特征提取方法及装置、电子设备
CN112686185B (zh) * 2021-01-05 2024-05-07 北京地平线机器人技术研发有限公司 关系特征提取方法及装置、电子设备
CN113255766B (zh) * 2021-05-25 2023-12-22 平安科技(深圳)有限公司 一种图像分类方法、装置、设备和存储介质
CN113255766A (zh) * 2021-05-25 2021-08-13 平安科技(深圳)有限公司 一种图像分类方法、装置、设备和存储介质
CN113221836B (zh) * 2021-06-01 2023-09-05 平安科技(深圳)有限公司 眼底彩照分类方法、装置、设备及存储介质
CN113221836A (zh) * 2021-06-01 2021-08-06 平安科技(深圳)有限公司 眼底彩照分类方法、装置、设备及存储介质
WO2023179099A1 (zh) * 2022-03-23 2023-09-28 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及可读存储介质
CN115129902A (zh) * 2022-06-30 2022-09-30 腾讯科技(深圳)有限公司 媒体数据处理方法、装置、设备及存储介质
CN115129902B (zh) * 2022-06-30 2024-03-29 腾讯科技(深圳)有限公司 媒体数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111553419B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN111553419B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN112784764B (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN112446302B (zh) 一种人体姿态检测方法、系统、电子设备和存储介质
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN110796199A (zh) 一种图像处理方法、装置以及电子医疗设备
CN111242948A (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114611672A (zh) 模型训练方法、人脸识别方法及装置
CN114693624A (zh) 一种图像检测方法、装置、设备及可读存储介质
CN114333049A (zh) 猪只攻击行为识别方法、系统、计算机设备和存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN110457523B (zh) 封面图片的选取方法、模型的训练方法、装置及介质
CN112580616B (zh) 人群数量确定方法、装置、设备及存储介质
CN115374943A (zh) 一种基于域对抗迁移网络的数据认知计算方法及其系统
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质
CN111582404A (zh) 内容分类方法、装置及可读存储介质
CN111651626A (zh) 图像分类方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027948

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant