CN114065915A - 网络模型的构建方法、数据处理方法、装置、介质及设备 - Google Patents

网络模型的构建方法、数据处理方法、装置、介质及设备 Download PDF

Info

Publication number
CN114065915A
CN114065915A CN202111319517.3A CN202111319517A CN114065915A CN 114065915 A CN114065915 A CN 114065915A CN 202111319517 A CN202111319517 A CN 202111319517A CN 114065915 A CN114065915 A CN 114065915A
Authority
CN
China
Prior art keywords
network
model
network model
data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111319517.3A
Other languages
English (en)
Inventor
沈力
刘世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202111319517.3A priority Critical patent/CN114065915A/zh
Publication of CN114065915A publication Critical patent/CN114065915A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了网络模型的构建方法、数据处理方法、装置、介质及设备,其中网络模型的构建方法包括:获取待构建模型的基础结构参数和稀疏度;基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率;基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。实现在网络模型的训练之前,构建的初始网络模型满足稀疏度的需求,以减少初始网络模型中的网络参数的数量,在网络模型的存储过程、训练过程中均相应的减少了存储空间和计算量。

Description

网络模型的构建方法、数据处理方法、装置、介质及设备
技术领域
本发明实施例涉及深度学习技术领域,尤其涉及网络模型的构建方法、数据处理方法、装置、介质及设备。
背景技术
随着神经网络复杂性的增加,神经网络模型的应用领域也逐渐增大。但是由于复杂的深度神经网络模型计算量大,而实际应用平台只能支持小型且紧凑的网络模型。
针对上述技术问题,目前可通过对神经网络模型进行剪枝操作实现对神经网络模型进行压缩,具体的,可通过计算各模型参数或者模型中各模块的重要性进行剪枝操作,剪枝操作后可得到一个稀疏连接的神经网络模型,从而减少神经网络模型的网络参数,以得到减少神经网络模型存储空间以及计算量的效果。
在实现本发明的过程中,发现现有技术中至少存在以下技术问题:
在剪枝操作之前需训练一稠密的神经网络模型,且剪枝操作的过程包括迭代执行的剪枝和再训练的过程,导致整体计算量远超过稠密模型的训练。
发明内容
本发明实施例提供网络模型的构建方法、数据处理方法、装置、介质及设备,以实现构建稀疏网络模型,以减小网络模型的存储空间以及计算量。
第一方面,本发明实施例提供了一种网络模型的构建方法,包括:
获取待构建模型的基础结构参数和稀疏度;
基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率;
基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。
可选的,所述基础结构参数包括模型中网络参数的初始数量、网络层数量以及各网络层中神经元数量;
基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率,包括:
基于所述基础结构参数和所述稀疏度确定概率参数;
对于任一网络层,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率。
可选的,所述基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率,包括:
基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定一候选概率;
将所述候选概率与1的最小值确定为连接概率。
可选的,所述基于所述基础结构参数和所述稀疏度确定概率参数,包括:
基于所述待构建模型中网络参数的初始数量和稀疏度确定网络参数的目标数量;
基于所述网络参数的目标数量,以及各网络层的神经元数量确定概率参数。
可选的,所述基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,包括:
基于所述连接概率对对应相邻网络层间的连接进行随机采样,得到相邻网络层间的连接关系。
可选的,所述方法还包括:
获取样本数据,其中,所述样本数据包括训练数据和所述训练数据对应的监督数据;
基于所述样本数据对所述网络模型进行迭代训练,在满足训练结束条件的情况下,得到具有预设处理功能的目标网络模型,其中,所述迭代训练包监督训练和半监督训练。
第二方面,本发明实施例还提供了一种数据处理方法,包括:
获取待处理数据,调用所述待处理数据的处理方式对应的目标网络模型,其中,所述目标网络模型基于本发明任一实施例提供的网络模型的构建方法构建的初始网络模型经训练得到;
将所述待处理数据输入至所述目标网络模型,得到所述目标网络模型输出的处理结果。
第三方面,本发明实施例还提供了种网络模型的构建装置,包括:
参数获取模块,用于获取待构建模型的基础结构参数和稀疏度;
连接概率确定模块,用于基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率;
网络模型构建模块,用于基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。
第四方面,本发明实施例还提供了一种数据处理装置,包括:
数据获取模块,用于获取待处理数据;
模型调用模块,用于调用所述待处理数据的处理方式对应的目标网络模型,其中,所述目标网络模型基于本发明任一实施例提供的网络模型的构建方法构建的初始网络模型经训练得到;
数据处理模块,用于将所述待处理数据输入至所述目标网络模型,得到所述目标网络模型输出的处理结果。
第五方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任一实施例提供的数据处理方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例提供的数据处理方法。
本发明实施例提供的技术方案,通过获取的待构建模型的基础结构参数和稀疏度,确定各相邻网络层间的连接概率,并基于各相邻网络层间的连接概率确定对应相邻网络层的连接关系,以构建网络模型,实现在网络模型的训练之前,构建的初始网络模型满足稀疏度的需求,以减少初始网络模型中的网络参数的数量,在网络模型的存储过程、训练过程中均相应的减少了存储空间和计算量,进一步简化了网络模型的训练过程。同时网络模型中的连接是通过连接概率随机采集确定的,提高了网络模型的泛化性。
附图说明
图1为本发明实施例提供的一种网络模型的构建方法的流程示意图;
图2是本发明实施例提供的一种数据处理方法的流程示意图;
图3是本发明实施例提供的一种网络模型的构建装置的结构示意图;
图4是本发明实施例提供的一种数据处理模块的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的一种网络模型的构建方法的流程示意图,本实施例可适用于构建完全随机连接的网络模型的情况,该方法可以由本发明实施例提供的网络模型的构建装置来执行,该网络模型的构建装置可以由软件和/或硬件来实现,该网络模型的构建装置可以配置在电子计算设备上,具体包括如下步骤:
S110、获取待构建模型的基础结构参数和稀疏度。
S120、基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率。
S130、基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。
本实施例中,目标网络模型为具有对待处理数据的目标网络模型的处理能力的模型,待构建模型为目标网络模型在经过训练前的初始模型,即本实施例构建的网络模型经对应的样本数据的迭代训练可得到对应的目标网络模型。示例性的,目标网络模型可以包括但不限于图像处理模型、文本处理模型和音频处理模型等。示例性的,目标网络模型为图像处理模型,相应的,对待构建模型进行训练的样本数据为图像样本数据。例如目标处理模型可以是图像分类模型,图像分类模型用于对输入图像进行分类处理;或者,目标处理模型可以是图像增强模型,图像增强模型用于对输入图像进行图像增强处理;或者,目标处理模型可以是图像超分辨模型,图像超分辨模型用于对输入图像进行超分辨处理;或者,目标处理模型可以是图像分割模型,图像分割模型用于对输入图像进行感兴趣区域的分割处理;或者,目标处理模型可以是图像压缩模型,图像压缩模型用于对输入图像进行压缩处理;或者,目标处理模型可以是图像降噪模型,图像降噪模型用于对输入图像进行降噪处理;或者,目标处理模型可以是图像生成模型,图像生成模型用于基于输入图像生成另一类型的图像,其中,另一类型的图像可以是风格化图像等。示例性的,目标网络模型为文本处理模型,相应的,对待构建模型进行训练的样本数据为文本样本数据。例如目标处理模型可以是文本分类模型,文本分类模型用于对输入文本信息进行分类处理;或者,目标处理模型可以是文本摘要提取模型,文本摘要提取模型用于对输入文本信息进行摘要提取;或者,目标处理模型可以是文本翻译模型,文本翻译提取模型用于对输入文本信息进行翻译处理;或者,目标处理模型可以是语义分析模型,语义分析提取模型用于对输入文本信息进行文本语义分析处理;或者,目标处理模型可以是关键词转换模型,关键词转换提取模型用于对输入文本信息进行关键词转换处理。示例性的,目标网络模型为音频处理模型,相应的,对待构建模型进行训练的样本数据为音频样本数据。例如,目标处理模型可以是语音识别模型,语音识别模型用于识别输入的音频数据,输出识别的文本信息;或者,目标处理模型可以是音频降噪模型,音频降噪提取模型用于对输入音频信息进行降噪处理;或者,目标处理模型可以是音频合成模型,音频合成提取模型用于对输入音频信息进行合成处理。
待构建模型的基础结构参数可以是待构建模型对应稠密模型的结构参数,其中,稠密模型可以是全连接模型。本实施例中,根据模型的构建需求获取对应的基础结构参数,示例性的,待构建模型为图像分类模型,调用图像分类模型对应的基础结构参数,并以此类推。在一些实施例中,获取待构建模型的基础结构参数和稀疏度可以是接收外部输入的基础结构参数和稀疏度。
在一些实施例中,可以是预先创建一模型数据库,该数据库中可以是存储有各类型模型的基础结构参数,其中各类型模型可以包括上述图像处理模型、文本处理模型和音频处理模型中的各处理功能对应的模型。可选的,任一类型的模型可以是对应不同网络深度的基础结构参数。
该模型数据库可以是存储在云端,向云端的模型数据库发送数据请求,该数据请求中可以是包括模型的类型信息和网络深度的一项或多项,接收云端的模型数据库反馈的基础结构参数。该模型数据库可以是存储在本地,根据模型的构建需求从模型数据库调用对应的基础结构参数,其中,模型的构建需求可以是包括模型的类型信息和网络深度的一项或多项。可选的,模型的类型信息可以是根据模型的应用场景确定。
该模型数据库为可扩展数据库,接收用户上传的基础结构参数,在对上传的基础结构参数在已存储的基础结构参数进行匹配后,确定该上传的基础结构参数为新增基础结构参数的情况下进行存储,便于用户的后续调用。具体的,对新增基础结构参数的存储可以是确定该新增基础结构参数对应模型类型,将该新增基础结构参数存储在对应的模型类型下;若该新增基础结构参数的模型类型为新增类型,则创建一新增类型,将该增基础结构参数存储在该新增类型下,便于在对基础结构参数调用时,基于模型类型进行快速匹配和调用。
在一些实施例中,待构建模型为视觉变形器(Visual transformers),从模型数据库中调用视觉变形器的基础结构参数。例如可以是获取不同网络深度的视觉变形器的基础结构参数,便于用户进行选择;例如可以是基于预设的网络深度在模型数据库中调用对应网络深度的视觉变形器的基础结构参数。
在一些实施例中,基础结构参数包括模型中网络层数量以及各网络层中神经元数量。其中,网络模型中包括多个网络层,相邻网络层之间相互连接,以进行信息的传输,每一网络层中包括至少一个神经元,不同网络层之间的连接,通过各网络层中的神经元之间的连接实现,不同的神经元可以是对前一网络层中神经元输出的信息进行处理,例如,可以是卷积处理、池化处理等,对此不作限定,可根据网络层的功能确定。通过获取基础结构参数,可根据网络层数量、网络层中神经元数量确定待构建模型的基础框架。
需要说明的是,基础结构参数中各网络层的类型可以是预先设置的,例如可以是基于模型的类型确定的,其中,网络层的类型可以包括但不限于卷积层、池化层、反卷积层等。示例性的,图像处理模型可以是生成对抗网络模型或者VGG(Visual Geometry Group)模型等,模型中各网络层的类型是预先设置的。示例性的,模型数据库中可以是存储有各基础结构参数对应模型中各网络层的类型。
待构建模型的稀疏度用于表征模型中的网络参数的设置比例,稀疏度可以是0-100%之间的任意数值。网络参数可以是模型中各连接的权重参数,模型中各网络层之间的任意两神经元之间的连接,均设置有一网络参数,相应的,网络参数的初始数量可以是全连接模型中的各网络层之间全连接的权重参数的总数量,待构建模型的稀疏度可以是待构建模型中未激活网络参数的数量与对应全连接模型中网络参数的初始数量的比例,其中,未激活网络参数即未进行连接的两神经元对应的网络参数,即为空的网络参数。待构建模型的稀疏度越高,待构建模型中网络参数的数量越小。
待构建模型的稀疏度可以是根据模型的构建需求设置,在一些实施例中,待构建模型的稀疏度可根据实际应用平台的存储空间和/或网络模型的运算精度确定,其中,待构建模型的稀疏度与存储空间负相关,待构建模型的稀疏度与网络模型的运算精度负相关。
通过设置待构建模型的稀疏度,可减少待构建模型中的网络参数的数量,以使得构建的网络模型占用的存储空间小,且可减少训练过程中以及网络模型的运行过程中的计算量,降低对实际应用平台的存储空间以及算力的要求,提高了对实际应用平台的适用性和兼容性。
在一些实施例中,在调用基础结构参数之后,还包括将调用的基础结构参数进行可视化显示,其中,可视化显示可以包括图形显示和文本显示。其中,图形显示可以是通过根据基础结构参数将各网络层以及各网络层的神经元形成模型示意图形,将该图形进行展示,便于用户直观的获知待构建模型的模型结构。
文本显示可以是将基础结构参数通过文本形式进行显示,可选的,文本显示的内容包括基础结构参数中的网络层数量以及各网络层中神经元数量,以及基于基础结构参数确定的关联参数,其中,关联参数包括但不限于模型中网络参数的初始数量、待构建模型中网络参数的实际数量、待构建模型的存储空间和待构建模型的训练计算量,其中,待构建模型中网络参数的实际数量可以是基于网络参数的初始数量和当前选择的稀疏度计算确定,例如可以是网络参数的初始数量与稀疏度的乘积计算确定,待构建模型的存储空间和训练计算量可以是基于历史构建模型的网络参数的实际数量与对应的存储空间和训练计算量估量得到,示例性的,可以是将待构建模型的网络参数的实际数量与历史构建模型的网络参数的实际数量进行匹配,将匹配成功的历史模型的存储空间和训练计算量作为待构建模型的存储空间和训练计算量;示例性的,还可以是基于历史模型的网络参数的实际数量、存储空间和训练计算量分别形成网络参数数量与存储空间的变化曲线,以及网络参数数量与训练计算量的变化曲线,基于待构建模型的网络参数的实际数量在上述曲线中确定对应的存储空间和训练计算量。通过文本显示的方式,便于用户通过文本显示的信息直观获知待构建模型的相关参数。
可选的,接收用户对调用的基础结构参数的调节指令,以更新基础结构参数。其中,对基础结构参数的调节指令包括但不限于对网络层的增加指令、删除指令、对任一网络层中神经元数据的调节指令等。相应的,在更新基础结构参数的同时,更新对基础结构参数可视化显示。
根据确定基础结构参数和稀疏度构建网络模型包括:确定网络模型中各网络层之间的连接关系,基于该连接关系形成网络模型。具体的,确定各相邻网络层之间的连接概率,基于该连接概率确定各网络层之间的连接关系。其中,各相邻网络层之间的连接概率满足如下公式:
Figure BDA0003345048810000111
其中,N为网络参数的初始参数,s为待构建模型的稀疏度,nl为l层网络层的神经元数量,nl-1为l-1层网络层的神经元数量,P(l)为l层网络层与l-1层网络层之间的连接概率。
在一些实施例中,不同网络层之间的连接概率可以相同,例如,将稀疏度作为各网络层之间的连接概率,示例性的,稀疏度为50%,任意相邻网络层之间的连接概率均为50%,以满足上述公式。
在一些实施例中,不同网络层之间的连接概率可以不相同。由于不同网络层的神经元数量不同,导致不同网络层之间的网络参数的初始数量不同,为了保证网络模型的连通性,提高网络参数少的网络层之间的连接概率,为了保证网络模型的整体稀疏度,降低网络参数多的网络层之间的连接概率,即连接概率与网络层之间网络参数的初始数量负相关。
可选的,基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率,包括:基于所述基础结构参数和所述稀疏度确定概率参数;对于任一网络层,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率。
其中,概率参数为用于计算各网络层间连接概率的参数,基于基础结构参数中的网络层数量、各网络层中神经元数量以及稀疏度确定。可选的,基于所述基础结构参数和所述稀疏度确定概率参数,包括:基于所述待构建模型中网络参数的初始数量和稀疏度确定网络参数的目标数量;基于所述网络参数的目标数量,以及各网络层的神经元数量确定概率参数。
其中,待构建模型中网络参数的初始数量基于各相邻网络层的神经元数量的乘积的和确定。网络参数的目标数量可以是基于网络参数的初始数量和稀疏度的乘积确定,具体的,可以是基于如下公式计算概率参数:
Figure BDA0003345048810000121
其中σ为概率参数。
在一些实施例中,对于任一网络层,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率,可以包括:确定网络层的神经元数量、前一网络层的所述神经元数量的数量和,以及确定网络层的神经元数量、前一网络层的所述神经元数量的数量乘积,该数量和与概率参数的乘积,与数量乘积的比值,确定为网络层的连接概率。示例性的,基于如下公式确定:
Figure BDA0003345048810000122
在一些实施例中,对于任一网络层,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率,可以包括:确定网络层的神经元数量、前一网络层的所述神经元数量的数量和,与网络层的神经元数量、前一网络层的所述神经元数量的乘积的比值,基于该比值与概率参数的乘积确定所述网络层的连接概率。示例性的,基于如下公式计算得到:
Figure BDA0003345048810000123
需要说明的是,任一网络层的连接概率为该网络层与前一相邻网络层之间连接概率。
在上述实施例的基础上,为了避免基于上述方式确定的连接概率大于1的情况,可选的,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率,包括:基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定一候选概率;将所述候选概率与1的最小值确定为连接概率。
具体的,根据如下公式确定所述候选概率:
Figure BDA0003345048810000131
或者
Figure BDA0003345048810000132
其中,所述σ为概率参数,所述nl为第l层网络层的神经元数量,所述nl-1为第l-1层网络层的神经元数量。
相应的,连接概率为
Figure BDA0003345048810000133
或者
Figure BDA0003345048810000134
基于各网络层的连接概率确定对应相邻网络层的连接关系,例如,基于所述连接概率对对应相邻网络层间的连接进行随机采样,得到相邻网络层间的连接关系。将被采样的连接激活,未被采样的连接处于未激活状态。可选的,基于各网络层间连接的随机采样,形成连接矩阵,该连接矩阵中被采样的连接设置为1,未被采样的连接设置为0,以表征各网络层的连接关系。通过各网络层的连接关系对各网络层进行连接,以形成网络模型。
在一些实施例中,可根据各网络层的连接概率进行连接的多次随机采样,以得到多种连接关系,相应的,可基于每一连接关系构建一网络模型,即基于多种连接关系构建多个网络模型。进一步的,可基于样本数据对多个网络模型分别进行训练,并基于训练得到的模型精度确定目标网络模型,例如将模型精度最大的网络模型确定为目标网络模型,在保证网络模型稀疏度的基础上,得到满足精度要求的目标网络模型,避免单一随机采集确定的网络模型精度差的偶然现象。
在上述实施例的基础上,在形成网络模型的连接结构之后,还包括对网络模型进行网络参数的初始化,例如可以是将各连接的网络参数设置为初始值,初始值例如可以是0,或者0.5等,对此不作限定。
在一些实施例中,获取的基础结构参数中还包括各连接的网络参数的参数值,根据被激活的连接,调用激活连接对应的网络参数的参数值,进行网络模型的初始化设置,以加快网络参数的训练效率。
本实施例的技术方案,通过获取的待构建模型的基础结构参数和稀疏度,确定各相邻网络层间的连接概率,并基于各相邻网络层间的连接概率确定对应相邻网络层的连接关系,以构建网络模型,实现在网络模型的训练之前,构建的初始网络模型满足稀疏度的需求,以减少初始网络模型中的网络参数的数量,在网络模型的存储过程、训练过程中均相应的减少了存储空间和计算量,进一步简化了网络模型的训练过程。同时网络模型中的连接是通过连接概率随机采集确定的,提高了网络模型的泛化性。
在上述实施例的基础上,该方法还包括:获取样本数据;基于所述样本数据对所述网络模型进行迭代训练,在满足训练结束条件的情况下,得到具有预设处理功能的目标网络模型,其中,所述迭代训练包监督训练和半监督训练。
其中,样本数据可以是基于网络模型的应用场景确定,示例性的,网络模型的应用场景为图像处理,则样本数据为图像样本数据,网络模型的应用场景为文本处理,则样本数据的文本样本数据,网络模型的应用场景为音频处理,则样本数据为音频样本数据。
在一些实施例中,所述样本数据包括训练数据和所述训练数据对应的监督数据,相应的,基于训练数据和对应的监督数据对网络模型进行监督训练。其中,样本数据的训练数据和监督数据基于应用场景确定。例如图像处理场景可以包括但不限于图像分类、图像风格化迁移、图像增强、图像去噪、图像超分辨、图像压缩等,文本处理场景包括但不限于文本分类、文本摘要提取、文本翻译、语义分析和关键词转换等,音频处理场景包括但不限于语音识别、音频降噪、音频合成等。
对于图像分类场景,训练数据为图像数据,监督数据为该图像数据的分类标签;对于图像风格化迁移场景,训练数据为无风格的基础图像,监督数据为目标风格的风格化图像;对于图像增强场景,训练数据为基础图像,监督数据为增强图像;对于图像去噪场景,训练数据为增加了噪声的噪声图像,监督数据为噪声图像对应的无噪声图像;对于图像超分辨场景,训练数据为对基础图像进行降采样得到的图像,监督数据为基础图像;对于图像压缩场景,训练数据为基础图像,监督数据为压缩后的图像。对于文本分类场景,训练数据为文本数据,监督数据为文本数据的分类标签;对于文本摘要提取场景,训练数据为文本正文,监督数据为该文本正文对应的文本摘要;对于文本翻译场景,训练数据为第一语言类型的文本信息,监督数据为与输入文本信息对应的第二语言的文本信息;对于语义分析场景,训练数据为文本信息,监督数据为语义分析标签了;对于关键词转换场景,训练数据为文本信息,监督数据为文本信息中关键词的转换信息。对于语音识别场景,训练数据为音频数据,监督数据为音频数据对应的文本信息;对于音频降噪场景,训练数据为加噪声的音频数据,监督数据为未加噪声的音频数据;对应音频合成场景,训练数据为多个音频数据,监督数据为多个音频数据合并后的音频数据。
基于上述样本数据对网络模型进行有监督的迭代训练,直到满足训练结束条件,该训练结束条件可以是如下中的任一项:网络模型的训练次数满足预设次数、网络模型的训练过程达到收敛状态、网络模型的训练精度达到预设精度阈值。
在一些实施例中,所述样本数据包括设置有监督数据的第一样本数据和未设置有监督数据的第二训练数据,相应的,基于第一样本数据和第二样本数据对网络模型进行半监督训练,简化对样本数据中监督数据的确定过程。具体的,将上述样本数据划分为多组训练数据,将每一组样本数据多次输入至网络模型中,得到多个预测结果,基于网络模型的预测一致性原则,对网络模型进行迭代训练,直到满足训练结束条件,得到目标网络模型。
在上述实施例的基础上,本发明实施例还提供了一种优选示例。其中,待构建模型为视觉变形器ViT,该视觉变形器ViT为用于进行图像分类。获取待构建模型的初始化超参数,包括基础结构参数和稀疏度。具体的,获取网络总体稀疏度s,神经网络总的参数个数N,神经网络的层数l,视觉变形器神经网络参数{θ1,θ2,…θl},每层网络所包含的神经元个数{n1,n2…nl},和用来计算网络每层连接概率的参数,即概率参数σ。
计算每一层的连接被随机连中的概率,使得
Figure BDA0003345048810000161
相应的,每一网络层的连接概率为
Figure BDA0003345048810000162
对于网络参数少的小网络层分布较多的参数,来避免这一层被完全剪枝掉,而对于参数较多的大层,降低连接被连中的概率P(l),以平衡整体模型的稀疏度。
在获得所有层的连接概率之后,采用均匀分布的方法来随机的采样每一层的连接,得到网络模型。根据每一层的连接被选中的概率来随机初始化稀疏网络:
Figure BDA0003345048810000171
其中,P(i)为各连接的采样概率。
对于视觉变形器ViT,ImageNet数据集上验证了本实施例中提供的网络模型的构建方法的有效性,分别验证了本实施例中提供的网络模型的构建方法在不同模型深度和宽度的情况下的表现。每个类型的网络模型都选取了多个(例如可以是9个)稀疏度进行测试。随着网络模型大小的增大,基于本实施例提供的方法构建的网络模型的测试精度逐渐的提高。当网络层的层数增加到56层以上或者宽度增加到32个filter的情况下,训练一个50%稀疏度的完全随机连接的稀疏网络甚至能够达到稠密网络的表现,和其他经过精心挑选的剪枝算法(SNIP)相比,本实施例中构建的网络模型能够达到同样的预测精度。在大多数情况下,甚至能够超过SNIP的精度。
图2是本发明实施例提供的一种数据处理方法的流程示意图,本实施例可适用于基于训练完成的目标网络模型对待处理数据进行处理的情况,该方法可以由本发明实施例提供的数据处理装置来执行,该数据处理装置可以由软件和/或硬件来实现,该数据处理装置可以配置在电子计算设备上,具体包括如下步骤:
S210、获取待处理数据,调用所述待处理数据的处理方式对应的目标网络模型,其中,所述目标网络模型基于上述任意实施例的网络模型的构建方法构建的初始网络模型经训练得到。
S220、将所述待处理数据输入至所述目标网络模型,得到所述目标网络模型输出的处理结果。
本实施例中,可以基于待处理数据的处理方式调用对应的目标网络模型,其中,待处理数据可以是文本数据、图像数据或音频数据等,相应的,图像数据的处理方式包括但不限于图像分类、图像风格化迁移、图像增强、图像去噪、图像超分辨、图像压缩等,文本数据的处理方式包括但不限于文本分类、文本摘要提取、文本翻译、语义分析和关键词转换等,音频数据的处理方式包括但不限于语音识别、音频降噪、音频合成等。
相应的,目标网络模型为图像处理模型,处理结果为图像处理结果;目标网络模型为文本处理模型,处理结果为文本处理结果;目标网络模型为音频处理模型,处理结果为音频处理结果。
调用目标网络模型,将待处理数据输入至所述目标网络模型,得到待处理数据的处理结果,该目标网络模型基于上述任意实施例提供的网络模型的构建方法构建的网络模型,经样本数据的迭代训练得到,相应的,该目标网络模型满足预设的稀疏度,所占用的存储空间小,对待处理数据的处理过程中所需的计算量小,降低了对实际应用平台的存储空间和算力的占用。
图3是本发明实施例提供的一种网络模型的构建装置的结构示意图,该装置包括:
参数获取模块310,用于获取待构建模型的基础结构参数和稀疏度;
连接概率确定模块320,用于基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率;
网络模型构建模块330,用于基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。
可选的,所述基础结构参数包括模型中网络参数的初始数量、网络层数量以及各网络层中神经元数量;
可选的,连接概率确定模块320包括:
概率参数确定单元,用于基于所述基础结构参数和所述稀疏度确定概率参数;
连接概率确定单元,用于对于任一网络层,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率。
可选的,连接概率确定单元用于:
基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定一候选概率;
将所述候选概率与1的最小值确定为连接概率。
可选的,概率参数确定单元用于:
基于所述待构建模型中网络参数的初始数量和稀疏度确定网络参数的目标数量;
基于所述网络参数的目标数量,以及各网络层的神经元数量确定概率参数。
可选的,网络模型构建模块330用于:
基于所述连接概率对对应相邻网络层间的连接进行随机采样,得到相邻网络层间的连接关系。
可选的,该装置还包括:
样本数据获取模块,用于获取样本数据,其中,所述样本数据包括训练数据和所述训练数据对应的监督数据;
模型训练模块,用于基于所述样本数据对所述网络模型进行迭代训练,在满足训练结束条件的情况下,得到具有预设处理功能的目标网络模型,其中,所述迭代训练包监督训练和半监督训练。
本发明实施例所提供的网络模型的构建装置可执行本发明任意实施例所提供的网络模型的构建方法,具备执行网络模型的构建方法相应的功能模块和有益效果。
图4是本发明实施例提供的一种数据处理模块的结构示意图,该装置包括:
数据获取模块410,用于获取待处理数据;
模型调用模块420,用于调用所述待处理数据的处理方式对应的目标网络模型,其中,所述目标网络模型基于上述任意实施例提供的网络模型的构建方法构建的初始网络模型经训练得到;
数据处理模块430,用于将所述待处理数据输入至所述目标网络模型,得到所述目标网络模型输出的处理结果。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行数据处理方法相应的功能模块和有益效果。
图5为本发明实施例提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的电子设备12的框图。图5显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备12典型的是承担图像分类功能的电子设备。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器16,存储装置28,连接不同系统组件(包括存储装置28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储装置28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块26的程序36,可以存储在例如存储装置28中,这样的程序模块26包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网关环境的实现。程序模块26通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、摄像头、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网关适配器20与一个或者多个网关(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网关,例如因特网)通信。如图所示,网关适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储装置28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的网络模型的构建方法或者数据处理方法。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的网络模型的构建方法或者数据处理方法。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的网络模型的构建方法或者数据处理方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的源代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的源代码可以用任何适当的介质传输,包括——但不限于否线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机源代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。源代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网关——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种网络模型的构建方法,其特征在于,包括:
获取待构建模型的基础结构参数和稀疏度;
基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率;
基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。
2.根据权利要求1所述的方法,其特征在于,所述基础结构参数包括模型中网络层数量以及各网络层中神经元数量;
基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率,包括:
基于所述基础结构参数和所述稀疏度确定概率参数;
对于任一网络层,基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率。
3.根据权利要求2所述的方法,其特征在于,所述基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定所述网络层的连接概率,包括:
基于所述网络层的神经元数量、前一网络层的所述神经元数量以及概率参数确定一候选概率;
将所述候选概率与1的最小值确定为连接概率。
4.根据权利要求2所述的方法,其特征在于,所述基于所述基础结构参数和所述稀疏度确定概率参数,包括:
基于所述待构建模型中网络参数的初始数量和稀疏度确定网络参数的目标数量;
基于所述网络参数的目标数量,以及各网络层的神经元数量确定概率参数。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,包括:
基于所述连接概率对对应相邻网络层间的连接进行随机采样,得到相邻网络层间的连接关系。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本数据;
基于所述样本数据对所述网络模型进行迭代训练,在满足训练结束条件的情况下,得到具有预设处理功能的目标网络模型,其中,所述迭代训练包监督训练和半监督训练。
7.一种数据处理方法,其特征在于,包括:
获取待处理数据,调用所述待处理数据的处理方式对应的目标网络模型,其中,所述目标网络模型基于权利要求1-6任一所述的网络模型的构建方法构建的初始网络模型经训练得到;
将所述待处理数据输入至所述目标网络模型,得到所述目标网络模型输出的处理结果。
8.一种网络模型的构建装置,其特征在于,包括:
参数获取模块,用于获取待构建模型的基础结构参数和稀疏度;
连接概率确定模块,用于基于所述稀疏度和所述基础结构参数确定各相邻网络层间的连接概率;
网络模型构建模块,用于基于所述各相邻网络层间的连接概率确定对应相邻网络层的连接关系,并基于各所述相邻网络层的连接关系构建网络模型,其中,所述网络模型用于基于样本数据的迭代训练,得到具有预设处理功能的目标网络模型。
9.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取待处理数据;
模型调用模块,用于调用所述待处理数据的处理方式对应的目标网络模型,其中,所述目标网络模型基于权利要求1-6任一所述的网络模型的构建方法构建的初始网络模型经训练得到;
数据处理模块,用于将所述待处理数据输入至所述目标网络模型,得到所述目标网络模型输出的处理结果。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的网络模型的构建方法,或者权利要求7所述的数据处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的网络模型的构建方法,或者权利要求7所述的数据处理方法。
CN202111319517.3A 2021-11-09 2021-11-09 网络模型的构建方法、数据处理方法、装置、介质及设备 Pending CN114065915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111319517.3A CN114065915A (zh) 2021-11-09 2021-11-09 网络模型的构建方法、数据处理方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111319517.3A CN114065915A (zh) 2021-11-09 2021-11-09 网络模型的构建方法、数据处理方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN114065915A true CN114065915A (zh) 2022-02-18

Family

ID=80273790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111319517.3A Pending CN114065915A (zh) 2021-11-09 2021-11-09 网络模型的构建方法、数据处理方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN114065915A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627342A (zh) * 2022-03-03 2022-06-14 北京百度网讯科技有限公司 基于稀疏度的图像识别模型的训练方法、装置和设备
CN116684480A (zh) * 2023-07-28 2023-09-01 支付宝(杭州)信息技术有限公司 信息推送模型的确定及信息推送的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627342A (zh) * 2022-03-03 2022-06-14 北京百度网讯科技有限公司 基于稀疏度的图像识别模型的训练方法、装置和设备
CN116684480A (zh) * 2023-07-28 2023-09-01 支付宝(杭州)信息技术有限公司 信息推送模型的确定及信息推送的方法及装置
CN116684480B (zh) * 2023-07-28 2023-10-31 支付宝(杭州)信息技术有限公司 信息推送模型的确定及信息推送的方法及装置

Similar Documents

Publication Publication Date Title
JP7406606B2 (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN112699991A (zh) 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质
CN111523640B (zh) 神经网络模型的训练方法和装置
WO2022105125A1 (zh) 图像分割方法、装置、计算机设备及存储介质
GB2571825A (en) Semantic class localization digital environment
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
CN113361578B (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
WO2019232772A1 (en) Systems and methods for content identification
KR102250728B1 (ko) 샘플 처리 방법, 장치, 기기 및 저장 매체
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN114065915A (zh) 网络模型的构建方法、数据处理方法、装置、介质及设备
CN111368878B (zh) 一种基于ssd目标检测的优化方法、计算机设备和介质
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
CN111091182A (zh) 数据处理方法、电子设备及存储介质
WO2021127982A1 (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN110826327A (zh) 情感分析方法、装置、计算机可读介质及电子设备
CN113780326A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN116737895A (zh) 一种数据处理方法及相关设备
US11410016B2 (en) Selective performance of deterministic computations for neural networks
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
CN113409307A (zh) 基于异质噪声特性的图像去噪方法、设备及介质
WO2024001653A9 (zh) 特征提取方法、装置、存储介质及电子设备
CN116703659A (zh) 一种应用于工程咨询的数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination