CN114445692A - 图像识别模型构建方法、装置、计算机设备及存储介质 - Google Patents
图像识别模型构建方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114445692A CN114445692A CN202111677012.4A CN202111677012A CN114445692A CN 114445692 A CN114445692 A CN 114445692A CN 202111677012 A CN202111677012 A CN 202111677012A CN 114445692 A CN114445692 A CN 114445692A
- Authority
- CN
- China
- Prior art keywords
- low
- bayesian
- image recognition
- dimensional
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例涉及深度学习领域,并提供了图像识别模型构建方法、装置、计算机设备及存储介质。其中方法包括:获取第一数据集,所述第一数据集包括多个图像;基于深度贝叶斯神经网络对所述第一数据集进行数据拟合,得到图像识别模型,其中,所述深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。上述方法能够使得构建得到的图像识别模型具有较好的扩展性,且对图像识别具有较优的准确性。
Description
技术领域
本申请实施例涉及深度学习领域,尤其是涉及图像识别模型构建方法、装置、计算机设备及存储介质。
背景技术
深度神经网络(DNNs)的贝叶斯处理具有贝叶斯不确定性,同时释放DNNs的能力,其中具有代表性的有贝叶斯神经网络(BNNs),贝叶斯不确定性在自动驾驶、医疗诊断、金融预测等安全性至关重要的场景里发挥着重要作用。尽管BNNs的进步激增,但是许多现有的BNNs在可扩展性和准确性的推理方面仍然面临挑战。
BNNs将神经网络的参数看作贝叶斯变量,引入先验,并进行后验推断,因此能提供良好的不确定性计算能力。但是,现有BNNs的可扩展性通常受限于对整个参数空间中学习复杂的非退化分布,实现BNNs算法需要比实现确定性DNNs程序更多的专业知识。可见,现有技术存在的不足在于,由于现有BNNs在训练时需要对整个参数空间进行推理,因此导致其在可扩展性方面存在的局限性较大,进而导致图像识别的准确性较低的技术问题。
发明内容
有鉴于此,本申请提供了图像识别模型构建方法、装置、计算机设备及存储介质,主要目的在于解决现有BNNs在训练时需要对整个参数空间进行推理,因此导致其在可扩展性方面存在的局限性较大,进而导致图像识别的准确性较低的技术问题。
依据本申请的一个方面,提供了一种图像识别模型构建方法,包括:
获取第一数据集,所述第一数据集包括多个图像;
基于深度贝叶斯神经网络对所述第一数据集进行数据拟合,得到图像识别模型,其中,所述深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。
依据本申请的另一方面,提供了一种图像识别模型构建装置,包括:
获取模块,用于获取第一数据集,所述第一数据集包括多个图像;
处理模块,用于基于深度贝叶斯神经网络对所述第一数据集进行数据拟合,得到图像识别模型,其中,所述深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。
在一个实施例中,所述处理模块,还用于得到所述深度贝叶斯神经网络各层的过参数化权重,具体用于获取所述深度贝叶斯神经网络中各层的确定性权重矩阵;利用所述两个低维贝叶斯变量对所述确定性权重矩阵进行过参数化,得到所述过参数化权重。
在一个实施例中,所述处理模块,还具体用于利用第一低维贝叶斯变量对所述确定性权重矩阵进行纵向扰动处理,并利用所述第二低维贝叶斯变量对所述确定性权重矩阵进行横向扰动处理,得到所述过参数化权重。
在一个实施例中,所述处理模块,还具体用于对所述第一低维贝叶斯变量和转置格式的所述第二低维贝叶斯变量进行卷积处理,得到卷积结果;
利用卷积结果对所述深度贝叶斯神经网络中各层的确定性权重矩阵进行点乘计算,得到所述过参数化权重。
在一个实施例中,所述处理模块,具体用于指定所述各层中低维贝叶斯变量的先验分布;为所述各层中低维贝叶斯变量定义参数化的变分分布;基于最大化证据下界的准则优化所述变分分布,使其逼近真实后验分布。
在一个实施例中,所述处理模块,具体用于根据从所述第一数据集中随机采样到的图像,近似计算证据下界;利用随机梯度下降算法更新所述参数化的变分分布,得到图像识别模型。
在一个实施例中,所述处理模块,用于获取输入所述图像识别模型的新图像;基于所述变分分布对所述新图像进行预测,得到所述新图像的预测语义类及不确定性估计。
在一个实施例中,所述处理模块,具体用于根据从所述变分分布中采样的多组所述低维贝叶斯变量的样本,分别对所述新图像进行预测,得到多组预测概率分布;对多组预测概率分布进行加权平均处理,得到所述新图像的近似后验预测概率分布;根据所述近似后验预测概率分布得到所述新图像的预测语义类及不确定性估计。
在一个实施例中,所述处理模块,具体用于根据所述多组所述低维贝叶斯变量的样本,分别对所述图像识别模型进行剪枝处理,得到多个预测网络模型;利用多个所述预测网络模型分别对所述新图像进行预测,得到多组预测概率分布。
依据本申请再一方面,提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述图像识别模型构建方法的步骤。
依据本申请又一个方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述图像识别模型构建方法的步骤。
借由上述技术方案,本申请提供的图像识别模型构建方法、装置、计算机设备及存储介质,本申请通过获取第一数据集,该第一数据集包括多个图像,进而基于深度贝叶斯神经网络对该第一数据集进行数据拟合,得到图像识别模型,其中,该深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。与现有BNNs对整个参数空间进行推理的方式相比,本申请基于深度贝叶斯神经网络各层包含的两个低维贝叶斯变量,将确定性权重矩阵转换为较低维度的参数空间,以使得到的图像识别模型具有较好的扩展性,进而对图像识别具有较优的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请实施例的进一步理解,构成本申请的一部分,本申请实施例的示意性实施例及其说明用于解释本申请实施例,并不构成对本申请实施例的不当限定。在附图中:
图1示出了本申请实施例提供的一种图像识别模型构建方法的流程示意图;
图2示出了本申请实施例提供的一种图像识别模型构建方法的架构示意图;
图3示出了本申请实施例提供的一种图像识别模型构建装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
为更进一步阐述本申请实施例为达成预定目的所采取的技术手段及功效,以下结合附图及实施例,对依据本申请的具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
此外,虽然各个实施例中的步骤是按照序号依次排列的,但是这些步骤并不是必然按照序号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,每个实施例中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、自然语言处理(Nature Language processing,NLP)、机器学习(Machine Learning,ML)等技术,具体通过如下实施例进行说明:
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
BNNs是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,需要特别说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
在一个实施例中,如图1所示,深度贝叶斯神经网络(DNNs)在图像识别、语音识别、自然语言处理、机器人等场景中均取得了杰出的成果。但是,DNNs往往受限于过拟合、过自信、不能融合先验知识、不能量化不确定性等问题,导致它们很难应用到对安全性有要求的场景,而本实施例能够应用于对安全性有要求的场景,如自动驾驶汽车、自动医疗诊断等。本实施例的所涉及的模型框架为在DNNs的框架基础上,利用深度贝叶斯神经网络各层包含的两个低维贝叶斯变量,将确定性权重矩阵转换为较低维度的参数空间,以使得到的图像识别模型具有较好的扩展性,进而对图像识别具有较优的准确性,本实施例执行主体为能够识别图像的装置,如服务器或者终端设备,提供了一种图像识别模型构建方法,包括以下步骤:
101、获取第一数据集,所述第一数据集包括多个图像。
其中,构建用于训练深度贝叶斯神经网络的第一数据集,该第一数据集表示为其中,xi∈RD和yi∈y分别表示图像和图像对应的标注(图像的语义类别),根据实际应用场景的需求,该深度贝叶斯神经网络可以为用于处理语义分割任务的骨干网络,例如,全卷积网络(FCN),相应的第一数据集包括多个图像,以及每个图像对应的像素级标注,此处不对深度贝叶斯神经网络的架构进行具体限定。
102、基于深度贝叶斯神经网络对第一数据集进行数据拟合,得到图像识别模型,其中,深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。
其中,在基于深度贝叶斯神经网络对所述第一数据集进行数据拟合之前,基于深度神经网络构建深度贝叶斯神经网络,基于θ参数化的L层深度神经网络DNNs(表示为f(·,θ):RD→y),通过对设置的两个低维贝叶斯变量进行贝叶斯建模,构建得到深度贝叶斯神经网络BNNs。进一步地,利用设置的两个低维贝叶斯变量,对深度贝叶斯神经网络各层中的确定性权重矩阵进行过参数化,并通过对第一数据集进行数据拟合得到图像识别模型。有别于现有BNNs在训练时需要对整个参数空间进行推理,利用基于低维扰动的过参数化技巧,使得通过数据拟合得到的图像识别模型具有低维参数空间的权重矩阵,从而使图像识别模型具有较好的扩展性,且对图像识别具有较优的准确性。
本实施例提供的图像识别模型构建方法,首先获取第一数据集,进而基于各网络层包括一个确定性权重矩阵和两个低维贝叶斯变量的深度贝叶斯神经网络对该第一数据集进行数据拟合,得到图像识别模型。上述方法利用各网络层包含一个确定性权重矩阵和两个低维贝叶斯变量的深度贝叶斯神经网络进行数据拟合,以使得到的图像识别模型具有较好的扩展性,且对图像识别具有较优的准确性。
在一个实施例中,步骤102中,深度贝叶斯神经网络各层的过参数化权重可以通过以下方法实现:首先获取深度贝叶斯神经网络中各层的确定性权重矩阵,并利用两个低维贝叶斯变量对该确定性权重矩阵进行过参数化,得到过参数化权重。本实施例通过对深度贝叶斯神经网络中各层的确定性权重矩阵进行降维处理(即过参数化处理),使其能够避免现有BNNs在训练时对整个参数空间进行推理,导致训练的计算量较大,且BNNs可扩展性较低的问题。
在一个实施例中,步骤102中的对利用两个低维贝叶斯变量对确定性权重矩阵进行过参数化,得到过参数化权重可以通过以下方法实现:利用第一低维贝叶斯变量对该确定性权重矩阵进行纵向扰动处理的同时,利用该第二低维贝叶斯变量对该确定性权重矩阵进行横向扰动处理,得到过参数化权重。本实施例在对深度贝叶斯神经网络各层的确定性权重矩阵进行过参数化处理的过程中,对确定性权重矩阵同时实现纵向扰动处理和横向扰动处理,以保证过参数化权重矩阵实现较低维度的参数空间,能够在面对大体量数据集的数据拟合处理时,表现出较优的训练能力,并保证较优的训练效果,节省训练过程中的计算资源。
在一个实施例中,步骤102中的利用第一低维贝叶斯变量对确定性权重矩阵进行纵向扰动处理的同时,利用第二低维贝叶斯变量对确定性权重矩阵进行横向扰动处理,得到过参数化权重矩阵可以通过以下方法实现:首先对第一低维贝叶斯变量和转置格式的第二低维贝叶斯变量进行卷积处理,得到卷积结果,进而利用卷积结果对深度贝叶斯神经网络中各层的确定性权重矩阵进行点乘计算,得到过参数化权重。
具体的,在上述实施例中,通过对设置的第二低维贝叶斯变量进行转置处理,使得第一低维贝叶斯变量能够通过与转置格式的第二低维贝叶斯变量进行卷积处理,得到的卷积结果为用于对确定性权重矩阵降维处理的低维扰动参数。具体的实现过程可以通过以下方法实现:通过获取深度神经网络中每一网络层的确定性权重矩阵,构建得到包含L层确定性权重矩阵的矩阵集合θ,即其中,在卷积网络中,wl表示第l层卷积层的通道数,在全连接卷积网络中,wl表示第l层网络层的宽度,R表示实数集。通过对L层的确定性权重矩阵分别进行过参数化处理,即 andω(l)∈Rw,表示第l层的确定性权重矩阵,利用第一低维贝叶斯变量υ(l)和第二低维贝叶斯变量的卷积结果,通过点乘算法对每一网络层的确定性权重矩阵进行过参数化处理,得到具有低维参数空间的过参数化矩阵。进一步地,可基于第一低维贝叶斯变量υ(l)和第二低维贝叶斯变量构建低维贝叶斯变量集合以便通过对低维贝叶斯变量集合进行贝叶斯建模,得到深度贝叶斯神经网络。可见,将高维参数空间的确定性权重矩阵进行降维处理,得到的低维参数空间的确定性权重矩阵能够推理出较为精确的不确定性估计。
在一个实施例中,步骤102中的数据拟合可以通过以下方法实现:通过下述步骤进行:通过指定深度贝叶斯神经网络各层中低维贝叶斯变量的先验分布,为各层中的低维贝叶斯变量定义参数化的变分分布,进而基于最大化证据下界的准则优化该变分分布,使其逼近真实后验分布。本实施例通过选取合适的先验分布诱导模型的稀疏性,以得到低维贝叶斯变量集合的先验分布,并根据该先验分布,利用预设变分分布参数对低维贝叶斯变量集合的变分分布进行参数化处理,得到低维贝叶斯变量集合的近似后验分布,进而根据先验分布和近似后验分布计算证据下界,通过最大化证据下界,使得该变分分布逼近真实后验分布,从而完成深度贝叶斯神经网络的训练。其中,训练好的深度贝叶斯神经网络中包括服从变分分布的目标低维贝叶斯变量和目标确定性权重矩阵,即得到的图像识别模型能够在提升模型可扩展性的同时提升图像识别的准确性,进而提升后续的模型测试效率。
具体的,在上述实施例中,选取合适的先验分布诱导模型的稀疏性,例如,分解的log-uniform先验分布,先验分布表示为进一步设计合理参数化的变分分布,作为低维贝叶斯变量集合的近似后验分布,进而通过对深度贝叶斯神经网络进行基于变分推断准则的模型训练,输出优化的变分分布qφ(γ),以及针对低维贝叶斯变量的近似后验分布,以便根据先验分布、近似后验分布、以及第一数据集中的多个图像计算证据下界(ELBO),并通过迭代优化ELBO,以实现对变分分布参数的更新,即更新得到目标变分分布参数,以及深度贝叶斯神经网络中服从变分分布的目标低维贝叶斯变量和目标确定性权重矩阵,从而得到图像识别模型。
在一个实施例中,步骤102中的基于最大化证据下界的准则优化变分分布,使其逼近真实后验分布之后,图像识别模型构建还可以包括以下步骤:根据从第一数据集中随机采样到的图像,近似计算证据下界,进而利用随机梯度下降算法更新参数化的变分分布,得到图像识别模型。本实施例在模型训练的过程中,若ELBO未停止持续下降,当前的变分分布参数不收敛,即ELBO迭代不收敛,则从第一数据集中随机采样一批图像,近似计算ELBO的无偏估计,然后利用随机梯度下降算法,通过更新变分分布参数,优化低维贝叶斯变量集合的变分分布,直至ELBO收敛,以得到图像识别模型,从而提升模型训练速度。
具体地,通过引入一个参数化且随机初始化的变分分布qφ(γ)来近似真实的后验分布,以优化变分分布qφ(γ)。通过迭代优化ELBO的近似误差,以实现期望对数似然lell与正则项lreg之间距离的缩减,N为迭代次数,ELBO表示为:
在一个实施例中,步骤102之后,图像识别模型构建还可以包括以下步骤:获取输入图像识别模型的新图像,并基于上述训练得到的变分分布对该新图像进行预测,得到新图像的预测语义类及不确定性估计。本实施例在应用模型实现图像识别时,首先将新图像输入图像识别模型,并基于图像识别模型中目标低维贝叶斯变量集合的变分分布,随机采样多组目标低维贝叶斯变量,并基于该多组目标低维贝叶斯变量得到的多个图像识别模型,分别输出该图像的多个候选预测语义类及不确定性估计,并从中确定最终的预测语义类,从而有别于现有模型单次预测的方式,能够有效保证图像识别的准确性。
在一个实施例中,步骤102之后,基于变分分布对新图像进行预测,得到新图像的预测语义类及不确定性估计可以通过以下方法实现:根据从变分分布中采样的多组低维贝叶斯变量的样本,分别对新图像进行预测,得到多组预测概率分布,通过对多组预测概率分布进行加权平均处理,得到新图像的近似后验预测概率分布,进而根据该近似后验预测概率分布得到该新图像的预测语义类及不确定性估计。其中,x*表示为新图像,近似后验预测概率分布表示为:
本实施例基于采样到的多组目标低维贝叶斯变量得到多个图像识别模型,将新图像同步输入至多个图像识别模型中,通过后验预测得到多组预测概率分布,以及每组预测概率分布对应的语义类,对多组预测概率分布分别进行加权平均,得到每组预测概率分布的加权平均值,将超过阈值的加权平均值作为新图像的近似后验预测概率分布,其所对应的语义类作为新图像最终的预测语义类,并同步输出针对该预测语义类的新图像的不确定性估计,将该不确定性估计与相应阈值进行比较,以确定针对该新图像的预测识别是否准确,进而确定是否根据该预测语义类输出相应结果,以避免将预测识别不准确的结果输出,有效保证输出的图像识别结果的准确性。
在一个实施例中,步骤102之后,根据从变分分布中采样的多组低维贝叶斯变量的样本,分别对新图像进行预测,得到多组预测概率分布可以通过以下方法实现:根据多组所述低维贝叶斯变量的样本,分别对图像识别模型进行剪枝处理,得到多个预测网络模型,进而利用多个预测网络模型分别对该新图像进行预测,得到多组预测概率分布。本实施例在利用该多个图像识别模型对新图像进行识别预测的过程中,采用多个蒙特卡洛样本来近似后验预测分布中的期望项,通常随机采样20个蒙特卡洛样本。由于在模型训练过程中引入了分解的log-uniform先验分布,能够较好地诱导稀疏性,因此在基于目标低维贝叶斯变量集合采样后,能够基于采样到的多组低维贝叶斯变量分别对当前的图像识别网络进行剪枝,得到针对不同低维贝叶斯变量的多个轻量化的图像识别模型,实现轻量化模型设计。同理,该图像识别预测也适用于图像识别模型的测试,进而通过剪枝实现快速测试。
进一步的,作为上述各个实施例具体实施方式的细化和扩展,为了完整说明本实施例的实施过程,下面通过具体的实施例对本申请提供的图像识别模型构建方法做进一步说明。
本实施例提供的图像识别模型构建方法通过获取第一数据集,该第一数据集包括多个图像,进而基于深度贝叶斯神经网络对该第一数据集进行数据拟合,得到图像识别模型,可见利用各层包含一个确定性权重矩阵和两个低维贝叶斯变量的深度贝叶斯神经网络进行数据拟合,以使得到的图像识别模型具有较好的扩展性,且对图像识别具有较优的准确性。具体实施方式包括以下步骤:
步骤1,训练集数据准备。给定一个自动驾驶场景的第一数据集,其中包含图像及其对应的像素级标注,构建用于处理语义分割任务的骨干网络,例如,全卷积网络(FCN),对FCN进行过参数化处理,即 andω(l)∈Rw,表示确定性权重矩阵。
步骤2,模型构建。以第1层为例,设置第一低维贝叶斯变量υ(1)和第二低维贝叶斯变量ω(1),在确定性权重矩阵完成横向和纵向扰动处理之后得到深度贝叶斯神经网络。在对深度贝叶斯神经网络进行变分推断的过程中,以第1个具有贝叶斯扰动变量的网络层为例,对第一低维贝叶斯变量υ(1)和第二低维贝叶斯变量ω(1)分别进行变分分布优化,表达式为υ(1)~qφ(υ(1))和ω(1)~qφ(ω(1)),并输出中间特征向量h1,直至最后输出预测概率分布p(y|x;θ,γ)(即近似后验预测概率分布)和预测不确定性MI(y,γ|x,θ-)(即不确定性估计)。
具体的,在对深度贝叶斯神经网络进行训练的过程中,若损失ELBO迭代不收敛,则从第一数据集中随机采样一批数据(蒙特卡洛样本)计算ELBO,即通过一个蒙特卡洛样本近似ELBO中的数据似然项,通过非参数估计近似ELBO中的KL分歧项,进而利用动量优化器进行随机梯度下降,并通过更新变分分布参数优化低维贝叶斯变量集合的变分分布,直至ELBO收敛,以得到图像识别模型,从而提升模型训练速度。
本实施例提供的图像识别模型构建方法通过获取第一数据集,该第一数据集包括多个图像,进而基于深度贝叶斯神经网络对该第一数据集进行数据拟合,得到图像识别模型,可见基于深度贝叶斯神经网络各层包含一个确定性权重矩阵和两个低维贝叶斯变量进行数据拟合,以使得到的图像识别模型具有较好的扩展性,且对图像识别具有较优的准确性。
图1或图2所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图3所对应的实施例,后续类似之处不再赘述。
以上对本申请实施例中一种图像识别模型构建方法进行说明,以下对执行上述图像识别模型构建方法的图像识别装置进行介绍。
如图3所示的一种图像识别模型构建装置的结构示意图,其可应用于自动驾驶汽车、自动医疗诊断等领域。本申请实施例中的图像识别模型构建装置能够实现对应于上述图1所对应的实施例中所执行的通用扰动获取图像识别模型构建方法的步骤。图像识别模型构建装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述图像识别模型构建装置可包括获取模块31、处理模块32,所述获取模块31、处理模块32的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。
进一步的,作为图1至图2所示方法的具体实现,本实施例提供了一种图像识别模型构建装置,所涉及的模型框架为在DNNs的框架基础上,利用深度贝叶斯神经网络各层包含的两个低维贝叶斯变量,将确定性权重矩阵转换为较低维度的参数空间,以使得到的图像识别模型具有较好的扩展性,进而对图像识别具有较优的准确性。如图3所示,该装置包括:获取模块31和处理模块32。
获取模块31,可用于获取第一数据集,第一数据集包括多个图像;
处理模块32,可用于基于深度贝叶斯神经网络对第一数据集进行数据拟合,得到图像识别模型,其中,深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。
在具体的应用场景中,所述处理模块32,还可用于得到深度贝叶斯神经网络各层的过参数化权重,具体用于获取深度贝叶斯神经网络中各层的确定性权重矩阵;利用两个低维贝叶斯变量对确定性权重矩阵进行过参数化,得到过参数化权重。
在具体的应用场景中,所述处理模块32,还具体可用于利用第一低维贝叶斯变量对确定性权重矩阵进行纵向扰动处理,并利用第二低维贝叶斯变量对确定性权重矩阵进行横向扰动处理,得到过参数化权重。
在具体的应用场景中,所述处理模块32,还具体可用于对第一低维贝叶斯变量和转置格式的第二低维贝叶斯变量进行卷积处理,得到卷积结果;利用卷积结果对深度贝叶斯神经网络中各层的确定性权重矩阵进行点乘计算,得到过参数化权重。
在具体的应用场景中,所述处理模块32,具体可用于指定各层中低维贝叶斯变量的先验分布;为各层中低维贝叶斯变量定义参数化的变分分布;基于最大化证据下界的准则优化变分分布,使其逼近真实后验分布。
在具体的应用场景中,所述处理模块32,具体可用于根据从第一数据集中随机采样到的图像,近似计算证据下界;利用随机梯度下降算法更新参数化的变分分布,得到图像识别模型。
在具体的应用场景中,所述处理模块32,可用于获取输入图像识别模型的新图像;基于变分分布对新图像进行预测,得到新图像的预测语义类及不确定性估计。
在具体的应用场景中,所述处理模块32,具体可用于根据从变分分布中采样的多组低维贝叶斯变量的样本,分别对新图像进行预测,得到多组预测概率分布;对多组预测概率分布进行加权平均处理,得到新图像的近似后验预测概率分布;根据近似后验预测概率分布得到新图像的预测语义类及不确定性估计。
在具体的应用场景中,所述处理模块32,具体可用于根据多组低维贝叶斯变量的样本,分别对图像识别模型进行剪枝处理,得到多个预测网络模型;利用多个预测网络模型分别对新图像进行预测,得到多组预测概率分布。
需要说明的是,本实施例提供的一种图像识别模型构建装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图2所示的图像识别模型构建方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图2所示的方法,以及图3所示的图像识别模型构建装置实施例,为了实现上述目的,如图4所示,本实施例还提供了一种图像识别模型构建的计算机设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序和操作系统;处理器,用于执行计算机程序以实现上述如图1至图2所示的方法。
可选的,该计算机设备还可以包括内存储器、通信接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块、显示屏(Display)、输入装置比如键盘(Keyboard)等,可选的,通信接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种图像识别模型构建的计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先获取第一数据集,该第一数据集包括多个图像,进而基于深度贝叶斯神经网络对该第一数据集进行数据拟合,得到图像识别模型,其中,该深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。与现有BNNs对整个参数空间进行推理的方式相比,本申请利用各层包含一个确定性权重矩阵和两个低维贝叶斯变量的深度贝叶斯神经网络进行数据拟合,以使得到的图像识别模型具有较好的扩展性,且对图像识别具有较优的准确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (12)
1.一种图像识别模型构建方法,其特征在于,所述方法包括:
获取第一数据集,所述第一数据集包括多个图像;
基于深度贝叶斯神经网络对所述第一数据集进行数据拟合,得到图像识别模型,其中,所述深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。
2.根据权利要求1所述的方法,其特征在于,所述深度贝叶斯神经网络各层的过参数化权重通过下述步骤得到:
获取所述深度贝叶斯神经网络中各层的确定性权重矩阵;
利用所述两个低维贝叶斯变量对所述确定性权重矩阵进行过参数化,得到所述过参数化权重。
3.根据权利要求2所述的方法,其特征在于,所述利用所述两个低维贝叶斯变量对所述确定性权重矩阵进行过参数化,得到所述过参数化权重,包括:
利用第一低维贝叶斯变量对所述确定性权重矩阵进行纵向扰动处理,并利用所述第二低维贝叶斯变量对所述确定性权重矩阵进行横向扰动处理,得到所述过参数化权重。
4.根据权利要求3所述的方法,其特征在于,所述利用第一低维贝叶斯变量对所述确定性权重矩阵进行纵向扰动处理,并利用所述第二低维贝叶斯变量对所述确定性权重矩阵进行横向扰动处理,得到所述过参数化权重矩阵,包括:
对所述第一低维贝叶斯变量和转置格式的所述第二低维贝叶斯变量进行卷积处理,得到卷积结果;
利用卷积结果对所述深度贝叶斯神经网络中各层的确定性权重矩阵进行点乘计算,得到所述过参数化权重。
5.根据权利要求1所述的方法,其特征在于,所述数据拟合通过下述步骤进行:
指定所述各层中低维贝叶斯变量的先验分布;
为所述各层中低维贝叶斯变量定义参数化的变分分布;
基于最大化证据下界的准则优化所述变分分布,使其逼近真实后验分布。
6.根据权利要求5所述的方法,其特征在于,所述基于最大化证据下界的准则优化所述变分分布,使其逼近真实后验分布之后,所述方法还包括:
根据从所述第一数据集中随机采样到的图像,近似计算证据下界;
利用随机梯度下降算法更新所述参数化的变分分布,得到图像识别模型。
7.根据权利要求1所述的方法,其特征在于,所述得到图像识别模型之后,所述方法还包括:
获取输入所述图像识别模型的新图像;
基于所述变分分布对所述新图像进行预测,得到所述新图像的预测语义类及不确定性估计。
8.根据权利要求7所述的方法,其特征在于,所述基于所述变分分布对所述新图像进行预测,得到所述新图像的预测语义类及不确定性估计,包括:
根据从所述变分分布中采样的多组所述低维贝叶斯变量的样本,分别对所述新图像进行预测,得到多组预测概率分布;
对多组预测概率分布进行加权平均处理,得到所述新图像的近似后验预测概率分布;
根据所述近似后验预测概率分布得到所述新图像的预测语义类及不确定性估计。
9.根据权利要求8所述的方法,其特征在于,所述根据从所述变分分布中采样的多组所述低维贝叶斯变量的样本,分别对所述新图像进行预测,得到多组预测概率分布,包括:
根据所述多组所述低维贝叶斯变量的样本,分别对所述图像识别模型进行剪枝处理,得到多个预测网络模型;
利用多个所述预测网络模型分别对所述新图像进行预测,得到多组预测概率分布。
10.一种图像识别模型构建装置,其特征在于,包括:
获取模块,用于获取第一数据集,所述第一数据集包括多个图像;
处理模块,用于基于深度贝叶斯神经网络对所述第一数据集进行数据拟合,得到图像识别模型,其中,所述深度贝叶斯神经网络各层包括一个确定性权重矩阵和两个低维贝叶斯变量。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的图像识别模型构建方法的步骤。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述图像识别模型构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111677012.4A CN114445692B (zh) | 2021-12-31 | 2021-12-31 | 图像识别模型构建方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111677012.4A CN114445692B (zh) | 2021-12-31 | 2021-12-31 | 图像识别模型构建方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114445692A true CN114445692A (zh) | 2022-05-06 |
CN114445692B CN114445692B (zh) | 2022-11-15 |
Family
ID=81366674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111677012.4A Active CN114445692B (zh) | 2021-12-31 | 2021-12-31 | 图像识别模型构建方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445692B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030063A (zh) * | 2023-03-30 | 2023-04-28 | 同心智医科技(北京)有限公司 | Mri图像的分类诊断系统、方法、电子设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902801A (zh) * | 2019-01-22 | 2019-06-18 | 华中科技大学 | 一种基于变分推理贝叶斯神经网络的洪水集合预报方法 |
CN110738242A (zh) * | 2019-09-25 | 2020-01-31 | 清华大学 | 一种深度神经网络的贝叶斯结构学习方法及装置 |
CN110955963A (zh) * | 2019-11-20 | 2020-04-03 | 南京航空航天大学 | 一种航空电缆剩余寿命预测方法 |
US20200326718A1 (en) * | 2019-04-09 | 2020-10-15 | Robert Bosch Gmbh | Control and monitoring of physical system based on trained bayesian neural network |
CN112001422A (zh) * | 2020-07-28 | 2020-11-27 | 南京航空航天大学 | 一种基于深度贝叶斯学习的图像标记估计方法 |
CN112016332A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 基于变分推理和多任务学习的多模态机器翻译方法 |
CN112651973A (zh) * | 2020-12-14 | 2021-04-13 | 南京理工大学 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
CN113221282A (zh) * | 2021-05-19 | 2021-08-06 | 西安交通大学 | 基于贝叶斯残差卷积网络的航空发动机寿命预测方法 |
-
2021
- 2021-12-31 CN CN202111677012.4A patent/CN114445692B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902801A (zh) * | 2019-01-22 | 2019-06-18 | 华中科技大学 | 一种基于变分推理贝叶斯神经网络的洪水集合预报方法 |
US20200326718A1 (en) * | 2019-04-09 | 2020-10-15 | Robert Bosch Gmbh | Control and monitoring of physical system based on trained bayesian neural network |
CN110738242A (zh) * | 2019-09-25 | 2020-01-31 | 清华大学 | 一种深度神经网络的贝叶斯结构学习方法及装置 |
CN110955963A (zh) * | 2019-11-20 | 2020-04-03 | 南京航空航天大学 | 一种航空电缆剩余寿命预测方法 |
CN112001422A (zh) * | 2020-07-28 | 2020-11-27 | 南京航空航天大学 | 一种基于深度贝叶斯学习的图像标记估计方法 |
CN112016332A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 基于变分推理和多任务学习的多模态机器翻译方法 |
CN112651973A (zh) * | 2020-12-14 | 2021-04-13 | 南京理工大学 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
CN113221282A (zh) * | 2021-05-19 | 2021-08-06 | 西安交通大学 | 基于贝叶斯残差卷积网络的航空发动机寿命预测方法 |
Non-Patent Citations (4)
Title |
---|
WINNIE XU等: ""Infinitely deep bayesian netural networks with stochasic differential equations"", 《ARXIV》 * |
YARIN GAL等: ""Dropout as a bayesian approximation:representing model uncertainty in deep learing"", 《ARXIV》 * |
何宗耀等: "一种隐式法的贝叶斯网络结构学习", 《河南师范大学学报(自然科学版)》 * |
陈久生等: "基于神经网络的导弹系统辨识", 《现代防御技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030063A (zh) * | 2023-03-30 | 2023-04-28 | 同心智医科技(北京)有限公司 | Mri图像的分类诊断系统、方法、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114445692B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021114625A1 (zh) | 用于多任务场景的网络结构构建方法和装置 | |
Scardapane et al. | Distributed learning for random vector functional-link networks | |
WO2022068623A1 (zh) | 一种模型训练方法及相关设备 | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
CN112784778B (zh) | 生成模型并识别年龄和性别的方法、装置、设备和介质 | |
CN112396106B (zh) | 内容识别方法、内容识别模型训练方法及存储介质 | |
CN110781686B (zh) | 一种语句相似度计算方法、装置及计算机设备 | |
CN109977394B (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
WO2020211611A1 (zh) | 用于语言处理的循环神经网络中隐状态的生成方法和装置 | |
CN110795527A (zh) | 候选实体排序方法、训练方法及相关装置 | |
CN111462088A (zh) | 基于图卷积神经网络的数据处理方法、装置、设备及介质 | |
CN113505883A (zh) | 一种神经网络训练方法以及装置 | |
WO2020171904A1 (en) | Human body part segmentation with real and synthetic images | |
CN114358250A (zh) | 数据处理方法、装置、计算机设备、介质及程序产品 | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
CN114445692B (zh) | 图像识别模型构建方法、装置、计算机设备及存储介质 | |
CN116401552A (zh) | 一种分类模型的训练方法及相关装置 | |
Nguyen et al. | Gradual federated learning with simulated annealing | |
CN114547308B (zh) | 文本处理的方法、装置、电子设备及存储介质 | |
CN116108195A (zh) | 基于时序元学习的动态知识图谱预测方法和装置 | |
CN115544307A (zh) | 基于关联矩阵的有向图数据特征提取与表达方法和系统 | |
CN111310794B (zh) | 目标对象的分类方法、装置和电子设备 | |
CN118095368A (zh) | 一种生成模型训练方法、数据转换方法以及装置 | |
US20230004791A1 (en) | Compressed matrix representations of neural network architectures based on synaptic connectivity | |
CN114332469A (zh) | 模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |