CN111401544A - 一种深度神经网络的压缩方法、装置及计算机可读存储介质 - Google Patents

一种深度神经网络的压缩方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111401544A
CN111401544A CN201910002531.7A CN201910002531A CN111401544A CN 111401544 A CN111401544 A CN 111401544A CN 201910002531 A CN201910002531 A CN 201910002531A CN 111401544 A CN111401544 A CN 111401544A
Authority
CN
China
Prior art keywords
neural network
deep neural
data set
shallow
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910002531.7A
Other languages
English (en)
Inventor
鲍媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910002531.7A priority Critical patent/CN111401544A/zh
Publication of CN111401544A publication Critical patent/CN111401544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本发明公开了一种深度神经网络的压缩方法、装置及计算机可读存储介质,所述方法包括:基于预设训练集,预先训练得到初始深度神经网络;构建与所述预设训练集同分布的第一数据集;利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;构建浅层神经网络,基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。

Description

一种深度神经网络的压缩方法、装置及计算机可读存储介质
技术领域
本发明涉及深度学习领域,尤其涉及一种深度神经网络的压缩方法、装置及计算机可读存储介质。
背景技术
现有的神经网络压缩方法主要有网络剪枝、权值量化两种,两种方式都是对初始训练得到的模型进行分析,通过权值阈值等方式确定剪枝、量化等操作的对象,因此,目前神经网络压缩方法没有从本质上改变网络结构,只是对网络结构进行微调整,因此涉及的模型参数值、计算量仍很大,致使神经网络模型部署在轻量级的设备上所需花费的成本仍很高。
发明内容
为解决上述技术问题,本发明实施例提供了一种深度神经网络的压缩方法、装置及计算机可读存储介质。
本发明实施例提供的一种深度神经网络的压缩方法,包括:
基于预设训练集,预先训练得到初始深度神经网络;
构建与所述预设训练集同分布的第一数据集;
利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;
构建浅层神经网络,基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。
其中,所述构建与所述预设训练集同分布的第一数据集,包括:
获取所述预设训练集X:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};m表示所述训练集X包含的样本个数,n表示样本xi中包含的数值的个数,m和n均为正整数;
构建与X中每一个样本xi距离最近的两个样本pi和qi
pi={pij,j=1,2,3,…,n};
基于所述样本pi和qi,构建与样本xi对应的数据样本zi:
zi={zij,j=1,2,3,…,n};
其中,zij根据以下关系式得到:
Figure BDA0001934249230000021
其中,θ满足:0≤θ≤1,α满足:0≤α≤1;
基于得到的数据样本zi,构建与所述预设训练集同分布的第一数据集Z:
Z={zi,i=1,2,3,…,m}。
其中,所述利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集,包括:
将所述第一数据集输入所述初始深度神经网络,得到输出数据集,作为所述第一数据集的标注集。
其中,所述基于预设训练集,预先训练得到初始深度神经网络,包括:
利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络。
其中,所述基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络,包括:
基于目标函数f以及损失函数l训练得到所述初始深度神经网络;其中,目标函数f为:
Figure BDA0001934249230000022
其中,m和i均为正整数,Φ为模型集合;
损失函数l为:
Figure BDA0001934249230000023
其中,k和i均为正整数。
其中,所述构建浅层神经网络包括:
基于损失函数l训练得到所述浅层神经网络g;
其中,所述损失函数l为:
Figure BDA0001934249230000031
其中,k和i均为正整数;所述浅层神经网络模型g为:
Figure BDA0001934249230000032
其中,m和i均为正整数,Ψ为候选浅层模型集合,l为交叉熵损失函数。
本发明实施例提供一种深度神经网络的压缩装置,包括:
初始网络构建模块,用于基于预设训练集,预先训练得到初始深度神经网络;
同分布数据集构建模块,用于构建与所述预设训练集同分布的第一数据集;
第一处理模块,利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;
浅层神经网络构建模块,用于构建浅层神经网络;
监督训练模块,用于基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。
其中,所述同分布数据集构建模块具体用于获取所述预设训练集X:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};m表示所述训练集X包含的样本个数,n表示样本xi中包含的数值的个数,m和n均为正整数;
构建与X中每一个样本xi距离最近的两个样本pi和qi
pi={pij,j=1,2,3,…,n};
基于所述样本pi和qi,构建与样本xi对应的数据样本zi:
zi={zij,j=1,2,3,…,n};
其中,zij根据以下关系式得到:
Figure BDA0001934249230000033
其中,θ满足:0≤θ≤1,α满足:0≤α≤1;
基于得到的数据样本zi,构建与所述预设训练集同分布的第一数据集Z:
Z={zi,i=1,2,3,…,m}。
其中,所述第一处理模块具体用于将所述第一数据集输入所述初始深度神经网络,得到输出数据集,作为所述第一数据集的标注集。
其中,所述初始网络构建模块具体用于利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络。
其中,所述初始网络构建模块,还具体用于基于目标函数f以及损失函数l训练得到所述初始深度神经网络;其中,目标函数f为:
Figure BDA0001934249230000041
其中,m和i均为正整数,Φ为模型集合;
损失函数l为:
Figure BDA0001934249230000042
其中,k和i均为正整数。
其中,所述浅层神经网络构建模块,还用于基于损失函数l训练得到所述浅层神经网络g;
其中,所述损失函数l为:
Figure BDA0001934249230000043
其中,k和i均为正整数;所述浅层神经网络模型g为:
Figure BDA0001934249230000044
其中,m和i均为正整数,Ψ为候选浅层模型集合,l为交叉熵损失函数。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述深度神经网络的压缩方法中任一项步骤。
本发明实施例的技术方案中,基于预设训练集,预先训练得到初始深度神经网络;构建与所述预设训练集同分布的第一数据集;利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;构建浅层神经网络,基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。如此,从网络结构层面实现了深度神经网络的压缩,从本质上降低参数量、计算量;另外,通过构建与所述预设训练集同分布的第一数据集,有效增加了训练数据集,从而提高了压缩的精确度。
附图说明
附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例;
图1为本发明实施例的一种深度神经网络的压缩方法的流程示意图;
图2为本发明实施例的ResNet网络的结构示意图;
图3为本发明实施例的一种浅层网络模型的结构示意图;
图4为本发明实施例的一种深度神经网络的压缩装置的结构示意图;
图5为本发明实施例的一种深度神经网络的压缩装置的结构示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
图1为本发明实施例的一种深度神经网络的压缩方法的流程示意图,如图1所示,所述方法包括以下步骤:
步骤101:基于预设训练集,预先训练得到初始深度神经网络。
这里将预先训练得到初始深度神经网络作为待压缩对象。
在一个实施例中,利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络。具体地,可以按照步骤S1-S2进行实施:
S1,建立训练集以及对应的标记集。
假设预设训练集为:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};
假设预设训练集对应的标记集为:
Y={yi,i=1,2,3,…,m};
其中,
yi={[yi1,yi2,…,yik,…,yil],i=1,2,…,m,k=1,2,…,l};
其中,yik∈[0,1]。
S2,选取深度神经网络模型进行监督训练。
可以采用ResNet网络结构,其网络结构如图2所示。
根据如下目标函数:
Figure BDA0001934249230000061
可使用随机梯度下降算法训练得到最优模型f,即得到所述初始深度神经网络;(1)式中,Φ为模型集合,l是交叉熵损失函数,l如下表示:
Figure BDA0001934249230000062
步骤102:构建与所述预设训练集同分布的第一数据集。
在一个实施例中,所述构建与所述预设训练集同分布的第一数据集,包括:
获取所述预设训练集X:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};m表示所述训练集X包含的样本个数,n表示样本xi中包含的数值的个数,m和n均为正整数;
构建与X中每一个样本xi距离最近的两个样本pi和qi
pi={pij,j=1,2,3,…,n};
基于所述样本pi和qi,构建与样本xi对应的数据样本zi:
zi={zij,j=1,2,3,…,n};
其中,zij根据以下关系式得到:
Figure BDA0001934249230000063
其中,θ满足:0≤θ≤1,α满足:0≤α≤1;
基于得到的数据样本zi,构建与所述预设训练集同分布的第一数据集Z:
Z={zi,i=1,2,3,…,m}。
本实施例中,(3)式中,zij的生成是基于随机游走理论,具体地,(3)式表示:数据样本点xij以概率θ往一个方向偏移{max(pij,qij)-min(pij,qij)}×α,以概率1-θ往另外一个方向偏移{max(pij,qij)-min(pij,qij)}×α,θ为概率值,取值范围为[0,1],α为偏移幅度的影响系数,取值范围为[0,1]。
步骤103:利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集。
可以利用步骤101中得到的模型f(初始深度神经网络),和步骤102中得到的模拟生成的同分布第一数据集Z={zi,i=1,2,3,…,m},得到第一数据集的标注集B={bi=f(zi),i=1,2,3,…,m}。
在一个实施例中,所述利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集,包括:将所述第一数据集输入所述初始深度神经网络,得到输出数据集,作为所述第一数据集的标注集。具体地,可以将第一数据集Z={zi,i=1,2,3,…,m}输入初始深度神经网络f,将f输出结果作为所需要得到的标注集。
步骤104:构建浅层神经网络,基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。
可以构建如图3所示的浅层网络模型,其中,图3所示的模型只包含两层卷积层、一层全连接层。利用如图3所示的浅层网络模型,基于步骤102得到的同分布数据集Z(第一数据集)和基于步骤103得到的对应于同分布数据集Z的标注集B(第一数据集的标注集B),可采用如下函数为损失函数:
Figure BDA0001934249230000071
其中,k和i均为正整数,将(4)式所示的损失函数作为目标函数,可采用随机梯度下降算法监督训练得到浅层模型g:
Figure BDA0001934249230000072
其中,m和i均为正整数,Ψ是候选浅层模型集合,l是交叉熵损失函数,则得到的浅层神经网络g,g的网络参数即为所述浅层神经网络的网络参数,g为初始深度神经网络压缩后的浅层神经网络。至此,对深度神经网络的压缩完成。
图4为本发明实施例的一种深度神经网络的压缩装置的结构示意图,如图4所示,深度神经网络的压缩装置400包括:
初始网络构建模块401,用于基于预设训练集,预先训练得到初始深度神经网络;
同分布数据集构建模块402,用于构建与所述预设训练集同分布的第一数据集;
第一处理模块403,利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;
浅层神经网络构建模块404,用于构建浅层神经网络;
监督训练模块405,用于基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。
在一个实施例中,同分布数据集构建模块402中,所述构建与所述预设训练集同分布的第一数据集,包括:
获取所述预设训练集X:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};
构建与X中每一个样本xi距离最近的两个样本pi和qi
pi={pij,j=1,2,3,…,n};
基于所述样本pi和qi,构建与样本xi对应的数据样本zi:
zi={zij,j=1,2,3,…,n};
其中,zij根据以下关系式得到:
Figure BDA0001934249230000081
其中,θ满足:0≤θ≤1,α满足:0≤α≤1;
基于得到的数据样本zi,构建与所述预设训练集同分布的第一数据集Z:
Z={zi,i=1,2,3,…,m}。
在一个实施例中,第一处理模块403中,所述利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集,包括:将所述第一数据集输入所述初始深度神经网络,得到输出数据集,作为所述第一数据集的标注集。
在一个实施例中,初始网络构建模块401中,所述基于预设训练集,预先训练得到初始深度神经网络,包括:利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络。
在一些实施例中,所述初始网络构建模块401,还具体用于基于目标函数f以及损失函数l训练得到所述初始深度神经网络;其中,目标函数f为:
Figure BDA0001934249230000091
其中,m和i均为正整数,Φ为模型集合;
损失函数l为:
Figure BDA0001934249230000092
其中,k和i均为正整数。
在一些实施例中,所述浅层神经网络构建模块404,还用于基于损失函数l训练得到所述浅层神经网络g;
其中,所述损失函数l为:
Figure BDA0001934249230000093
其中,k和i均为正整数;所述浅层神经网络模型g为:
Figure BDA0001934249230000094
其中,m和i均为正整数,Ψ为候选浅层模型集合,l为交叉熵损失函数。
本领域技术人员应当理解,图4所示的深度神经网络的压缩装置400中的各模块的实现功能可参照前述深度神经网络的压缩方法的相关描述而理解。图4所示的深度神经网络的压缩装置400中的各模块的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图5是本发明实施例的一种深度神经网络的压缩装置的结构示意图,图5所示的深度神经网络的压缩装置500设置在所述终端上,包括:至少一个处理器501、存储器502、用户接口503、至少一个网络接口504。深度神经网络的压缩装置500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器502用于存储各种类型的数据以支持深度神经网络的压缩装置500的操作。这些数据的示例包括:用于在深度神经网络的压缩装置500上操作的任何计算机程序,如操作系统5021和应用程序5022;其中,操作系统5021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述方法的步骤。
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可评论显示可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可评论显示可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
基于本申请各实施例提供的深度神经网络的压缩方法,本申请还提供一种计算机可读存储介质,参照图5所示,所述计算机可读存储介质可以包括:用于存储计算机程序的存储器502,上述计算机程序可由深度神经网络的压缩装置500的处理器501执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种深度神经网络的压缩方法,其特征在于,所述方法包括:
基于预设训练集,预先训练得到初始深度神经网络;
构建与所述预设训练集同分布的第一数据集;
利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;
构建浅层神经网络,基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。
2.根据权利要求1所述的深度神经网络的压缩方法,其特征在于,所述构建与所述预设训练集同分布的第一数据集,包括:
获取所述预设训练集X:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};m表示所述训练集X包含的样本个数,n表示样本xi中包含的数值的个数,m和n均为正整数;
构建与X中每一个样本xi距离最近的两个样本pi和qi
pi={pij,j=1,2,3,…,n};
基于所述样本pi和qi,构建与样本xi对应的数据样本zi:
zi={zij,j=1,2,3,…,n};
其中,zij根据以下关系式得到:
Figure FDA0001934249220000011
其中,θ满足:0≤θ≤1,α满足:0≤α≤1;
基于得到的数据样本zi,构建与所述预设训练集同分布的第一数据集Z:
Z={zi,i=1,2,3,…,m}。
3.根据权利要求1所述的深度神经网络的压缩方法,其特征在于,所述利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集,包括:
将所述第一数据集输入所述初始深度神经网络,得到输出数据集,作为所述第一数据集的标注集。
4.根据权利要求1所述的深度神经网络的压缩方法,其特征在于,所述基于预设训练集,预先训练得到初始深度神经网络,包括:
利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络。
5.根据权利要求4所述的深度神经网络的压缩方法,其特征在于,所述基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络,包括:
基于目标函数f以及损失函数l训练得到所述初始深度神经网络;其中,目标函数f为:
Figure FDA0001934249220000021
其中,m和i均为正整数,Φ为模型集合;
损失函数l为:
Figure FDA0001934249220000022
其中,k和i均为正整数。
6.根据权利要求1所述的深度神经网络的压缩方法,其特征在于,所述构建浅层神经网络包括:
基于损失函数l训练得到所述浅层神经网络g;
其中,所述损失函数l为:
Figure FDA0001934249220000023
其中,k和i均为正整数;所述浅层神经网络模型g为:
Figure FDA0001934249220000024
其中,m和i均为正整数,Ψ为候选浅层模型集合,l为交叉熵损失函数。
7.一种深度神经网络的压缩装置,其特征在于,所述装置包括:
初始网络构建模块,用于基于预设训练集,预先训练得到初始深度神经网络;
同分布数据集构建模块,用于构建与所述预设训练集同分布的第一数据集;
第一处理模块,利用所述初始深度神经网络对所述第一数据集进行处理,得到所述第一数据集的标注集;
浅层神经网络构建模块,用于构建浅层神经网络;
监督训练模块,用于基于所述第一数据集以及所述第一数据集的标注集,对所述浅层神经网络进行监督训练,得到所述浅层神经网络的网络参数。
8.根据权利要求7所述的深度神经网络的压缩装置,其特征在于,所述同分布数据集构建模块,具体用于获取所述预设训练集X:
X={xi,i=1,2,3,…,m};
其中,xi={xij,j=1,2,3,…,n};
构建与X中每一个样本xi距离最近的两个样本pi和qi
pi={pij,j=1,2,3,…,n};
基于所述样本pi和qi,构建与样本xi对应的数据样本zi:
zi={zij,j=1,2,3,…,n};
其中,zij根据以下关系式得到:
Figure FDA0001934249220000031
其中,θ满足:0≤θ≤1,α满足:0≤α≤1;
基于得到的数据样本zi,构建与所述预设训练集同分布的第一数据集Z:
Z={zi,i=1,2,3,…,m}。
9.根据权利要求7所述的深度神经网络的压缩装置,其特征在于,所述第一处理模块具体用于:
将所述第一数据集输入所述初始深度神经网络,得到输出数据集,作为所述第一数据集的标注集。
10.根据权利要求7所述的深度神经网络的压缩装置,其特征在于,所述初始网络构建模块具体用于:
利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集,监督训练得到所述初始深度神经网络。
11.根据权利要求10所述的深度神经网络的压缩装置,其特征在于,
所述初始网络构建模块,还具体用于基于目标函数f以及损失函数l训练得到所述初始深度神经网络;其中,目标函数f为:
Figure FDA0001934249220000041
其中,m和i均为正整数,Φ为模型集合;
损失函数l为:
Figure FDA0001934249220000042
其中,k和i均为正整数。
12.根据权利要求7所述的深度神经网络的压缩装置,其特征在于,所述浅层神经网络构建模块,还用于基于损失函数l训练得到所述浅层神经网络g;
其中,所述损失函数l为:
Figure FDA0001934249220000043
其中,k和i均为正整数;所述浅层神经网络模型g为:
Figure FDA0001934249220000044
其中,m和i均为正整数,Ψ为候选浅层模型集合,l为交叉熵损失函数。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述深度神经网络的压缩方法的步骤。
CN201910002531.7A 2019-01-02 2019-01-02 一种深度神经网络的压缩方法、装置及计算机可读存储介质 Pending CN111401544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910002531.7A CN111401544A (zh) 2019-01-02 2019-01-02 一种深度神经网络的压缩方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910002531.7A CN111401544A (zh) 2019-01-02 2019-01-02 一种深度神经网络的压缩方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111401544A true CN111401544A (zh) 2020-07-10

Family

ID=71428245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910002531.7A Pending CN111401544A (zh) 2019-01-02 2019-01-02 一种深度神经网络的压缩方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111401544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202064A (zh) * 2022-02-17 2022-03-18 苏州浪潮智能科技有限公司 一种信源入射位置确定方法、装置及电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202064A (zh) * 2022-02-17 2022-03-18 苏州浪潮智能科技有限公司 一种信源入射位置确定方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
Zhang et al. Asymmetric two-stream architecture for accurate RGB-D saliency detection
CN108364061B (zh) 运算装置、运算执行设备及运算执行方法
Zhan et al. Achieving on-mobile real-time super-resolution with neural architecture and pruning search
US11494614B2 (en) Subsampling training data during artificial neural network training
CN112418292A (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113327599B (zh) 语音识别方法、装置、介质及电子设备
CN112699215B (zh) 基于胶囊网络与交互注意力机制的评级预测方法及系统
KR20180103671A (ko) 언어 모델을 압축하기 위한 전자 장치, 추천 워드를 제공하기 위한 전자 장치 및 그 동작 방법들
CN117256014A (zh) 由精细到粗略细化的对比性点补全系统和方法
JP2022188301A (ja) 情報処理装置、情報処理方法
CN111800289A (zh) 通信网络故障分析方法和装置
CN113656544B (zh) 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN111401544A (zh) 一种深度神经网络的压缩方法、装置及计算机可读存储介质
WO2018101958A1 (en) Fuzzy input for autoencoders
CN111507430B (zh) 基于矩阵乘法的特征编码方法、装置、设备及介质
CN112668347A (zh) 文本翻译方法、装置、设备及计算机可读存储介质
US20210110487A1 (en) Generating mode change alerts with automatic detection from sensor data
Uribarri et al. The structure of reconstructed flows in latent spaces
US20190236410A1 (en) Bootstrapping recommendation systems from passive data
CN115512762B (zh) 多肽序列的生成方法、装置、电子设备及存储介质
CN117216803B (zh) 一种面向智慧金融的用户信息保护方法及系统
JP7275903B2 (ja) データ分析システム、データ分析方法及びプログラム
CN113283248B (zh) 散点图描述的自然语言自动生成方法及装置
CN115691669B (zh) 一种基于量子卷积神经网络的蛋白质结构分类系统
WO2023236900A1 (zh) 一种项目推荐方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination