CN104751228B - 用于语音识别的深度神经网络的构建方法及系统 - Google Patents

用于语音识别的深度神经网络的构建方法及系统 Download PDF

Info

Publication number
CN104751228B
CN104751228B CN201310755401.3A CN201310755401A CN104751228B CN 104751228 B CN104751228 B CN 104751228B CN 201310755401 A CN201310755401 A CN 201310755401A CN 104751228 B CN104751228 B CN 104751228B
Authority
CN
China
Prior art keywords
node
neural network
deep neural
hidden layer
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310755401.3A
Other languages
English (en)
Other versions
CN104751228A (zh
Inventor
潘嘉
何婷婷
刘聪
王智国
胡国平
张仕良
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Kexun Information Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310755401.3A priority Critical patent/CN104751228B/zh
Publication of CN104751228A publication Critical patent/CN104751228A/zh
Application granted granted Critical
Publication of CN104751228B publication Critical patent/CN104751228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种深度神经网络的构建方法及系统,该方法包括:对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构;利用训练数据训练所述深度神经网络的模型参数;基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化。与现有技术的深度神经网络相比,应用本发明构建的深度神经网络极大地减少了神经网络的参数个数,减小了所需的存储空间并且加快了模型的训练速度。

Description

用于语音识别的深度神经网络的构建方法及系统
技术领域
本发明涉及信号处理领域,尤其涉及一种用于语音识别的深度神经网络的构建方法及系统。
背景技术
语音识别即让机器听懂人说的话,将语音信号转化为计算机可识别的输入。近20年来语音识别技术取得了显著成效,开始从实验室走向市场。目前基于语音识别技术的语音输入,语音检索,语音翻译等得到了广泛的运用。随着科技的进步,信息的爆炸性增长,可以获得的语音数据也越来越多,如何利用海量的数据训练一个语音识别系统,使语音识别率达到更高是实际应用中的一项难题。
传统自动连续语音识别系统主要采用基于隐马尔科夫模型(Hidden MarkovModel,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)的GMM-HMM语音识别系统。GMM-HMM语音识别系统使用HMM对语音信号的时序结构进行建模,每个HMM状态的输出概率采用混合高斯模型模拟。近年来基于深度神经网络(Deep Neural Networks,DNN)和隐马尔科夫模型的DNN-HMM语音识别系统受到研究人员越来越多的关注,DNN-HMM系统采用DNN替代GMM模拟每个HMM状态的输出概率。相比于GMM模型,DNN模型的描述能力更强,能够更好地模拟非常复杂的数据分布,并且能够很好地学习到数据上下文的信息,因此相对于GMM-HMM系统,DNN-HMM系统能够取得显著的性能提升。
然而尽管DNN-HMM系统在性能上具有明显优势,但在实际应用中依然较难推广,主要原因在于DNN-HMM的模型复杂度较高,模型训练和解码时所需时间均远远超出了GMM-HMM系统。比如通常情况下DNN模型中隐含层个数至少有6个,且每个隐含层的节点个数都由系统预先设定相同数值,如2048或者2560个节点。显然所述模型的拓扑结构较为复杂且模型参数众多,给大数据库上的模型训练及后续语音解码带来较大的运算压力,导致系统运行效率过慢,不利于系统实用化的推广和更新。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种用于语音识别的深度神经网络的构建方法及系统,通过对各隐含层的节点个数的有效控制,大大减少了深度神经网络中节点的冗余性。
为实现上述目的,本发明的技术方案是:
一种用于语音识别的深度神经网络的构建方法,包括:
对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构;
利用训练数据训练所述深度神经网络的模型参数,所述训练数据具有声学特征;
在模型训练过程中,基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化,具体包括:
根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化,以删除隐含层中对应的权重比率小于设定权重阈值的节点及其连接路径,其中,所述权重量级通过计算连接节点的所有节点与所述节点之间的权重小于权重阈值的比例获取;或者
根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化,以删除隐含层中的非活跃节点及其连接路径。
优选地,所述根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化包括:
对所述深度神经网络的隐含层中的节点,计算连接所述节点的所有节点与所述节点之间的权重小于权重阈值的比率;
如果所述节点对应的比率大于比率阈值,则删除所述节点和连接所述节点的路径。
优选地,所述根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化包括:
对所述深度神经网络的隐含层中的节点,计算所述训练数据在所述节点输出的均值和方差;
根据所述均值和方差,判断所述节点是否属于非活跃节点;
如果是,则删除所述节点和连接所述节点的路径。
优选地,所述判断所述节点是否属于非活跃节点包括:
对所述节点所在隐含层中所有节点对应的均值和方差分别从大到小进行排序,得到所述节点对应的均值排名和方差排名;
如果所述节点对应的均值排名在设定的均值排名阈值之前,并且所述节点对应的方差排名在设定的方差排名阈值之前,则确定所述节点为活跃节点;
否则,确定所述节点为非活跃节点。
优选地,所述方法还包括:
对结构优化后的深度神经网络进行参数重训练;
判断参数重训练后的深度神经网络是否满足预设条件;
如果是,则输出参数重训练后的深度神经网络;
否则,对所述参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练,直到满足预设条件为止。
优选地,所述预设条件为:达到预设模型更新最大次数,或者模型结构优化参数减少的规模小于设定的规模阈值,或者网络分类正确率下降幅度超过设定的幅度阈值。
一种用于语音识别的深度神经网络的构建系统,包括:
初始化模块,用于对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构;
参数训练模块,用于利用训练数据训练所述深度神经网络的模型参数;
结构优化模块,用于在模型训练过程中,基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化;
所述结构优化模块包括:第一优化单元、或者第二优化单元;
所述第一优化单元,用于根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化,以删除隐含层中对应的权重比率小于设定权重阈值的节点及其连接路径,其中,所述权重量级通过计算连接节点的所有节点与所述节点之间的权重小于权重阈值的比率获取;
所述第二优化单元,用于根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化,以删除隐含层中的非活跃节点及其连接路径。
优选地,所述第一优化单元包括:
第一计算单元,用于依次对所述深度神经网络的隐含层中的每个节点,计算连接所述节点的所有节点与所述节点之间的权重小于权重阈值的比率;
第一判断单元,用于判断所述节点对应的比率大于比率阈值;
第一删除单元,用于在所述第一判断单元判断所述节点对应的比率大于比率阈值时,删除所述节点和连接所述节点的路径。
优选地,所述第二优化单元包括:
第二计算单元,用于依次对所述深度神经网络的隐含层中的每个节点,计算所述训练数据在所述节点输出的均值和方差;
第二判断单元,用于根据所述均值和方差,判断所述节点是否属于非活跃节点;
第二删除单元,用于在所述第二判断单元判断所述节点属于非活跃节点时,删除所述节点和连接所述节点的路径。
优选地,所述第二判断单元包括:
排序单元,用于对所述节点所在隐含层中所有节点对应的均值和方差分别从大到小进行排序,得到所述节点对应的均值排名和方差排名;
确定单元,用于在所述节点对应的均值排名在设定的均值排名阈值之前,并且所述节点对应的方差排名在设定的方差排名阈值之前时,确定所述节点为活跃节点;否则,确定所述节点为非活跃节点。
优选地,所述系统还包括:
参数重训练模块,用于对结构优化后的深度神经网络进行参数重训练;
判断模块,用于判断参数重训练后的深度神经网络是否满足预设条件;输出模块,用于在所述判断模块判断参数重训练后的深度神经网络满足预设条件时,输出所述深度神经网络;在所述判断模块判断参数重训练后的深度神经网络不满足预设条件时,通知所述结构优化模块和所述参数重训练模块对所述参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练。
本发明的有益效果在于:
1.与目前通用的各隐含层的节点个数相同的深度神经网络相比,应用本发明构建的深度神经网络可以极大地减少神经网络的参数个数,从而减小了所需的存储空间并且加快了模型的训练速度;
2.由于神经网络参数减少使得解码时计算状态输出概率的时间减少,将采用本发明构建的深度神经网络应用于语音识别系统,可以提高语音识别系统的最终识别的解码速度,从而在实际运用中有更好的实时性;
3.本发明在神经网络参数大幅减少的情况下对于语音识别系统最终的识别性能没有影响,而在神经网络参数不变的前提下,还可以通过增加靠近输入层的隐含层节点个数的方法提升识别性能。
附图说明
为了更清楚地说明本发明实施的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例深度神经网络的构建方法的流程图;
图2示出了本发明实施例中对深度神经网络进行结构优化的一种流程图;
图3示出了本发明实施例中对深度神经网络进行结构优化的另一种流程图;
图4示出了本实施例中判断节点是否属于非活跃节点的方法的流程图;
图5示出了本发明实施例深度神经网络的构建系统的一种结构示意图;
图6示出了本发明实施例深度神经网络的构建系统的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本技术领域的人员更好地理解本发明实施例的方案,下面首先对传统DNN模型的训练过程做简要说明。
传统DNN模型的训练过程包括:
步一:确定DNN模型的拓扑结构;
具体地,DNN的输入层和输出层分别对应于声学特征和HMM模型的输出状态,其节点个数可在训练前预先确定。而隐含层的层数及每个隐含层的节点个数通常也根据经验预先设定,虽然不同系统经验值会有不同,但大多数情况下会设置DNN的隐含层数为4到9之间,每个隐含层的节点个数通常都相同,为1024、2048或者2560。
步二:深度神经网络模型参数训练;
具体地,模型参数为权重参数。利用采集的训练数据训练所述DNN模型的权重参数,整个训练过程分为两个步骤:
a)无监督预训练
系统首先随机生成符合高斯分布的随机数作为神经网络的初始权重,然后仅仅利用训练数据的声学特征从输入层往输出层按照受限玻尔兹曼机的训练方法逐层进行权重的训练。具体地,当输入层与第一个隐含层之间的权重首先训练完成后,利用声学特征和该权重得到第一个隐含层的输出值,将其视为受限玻尔兹曼机的输入训练第一个隐含层与第二个隐含层之间的权重,如此重复下去,直到倒数第二个隐含层与最后一个隐含层之间的权重训练完成为止。
b)有监督最终训练
将无监督预训练得到的权重作为神经网络的初始权重,利用训练数据的声学特征以及对应的标注,采用误差反向传播算法进行所有权重的最终优化调整。具体地,首先根据当前权重值计算出当前神经网络的输出与真实结果——标注之间的误差值E,然后计算出误差值E对各层权重的梯度最后根据梯度下降法进行各层权重的更新,即其中表示第i层的当前权重,表示第i层更新后的权重。
传统DNN模型的缺陷在于:传统DNN模型的拓扑结构主要采用经验设置的方法,对各隐含层选择相同节点个数。显然这样的DNN模型较大,冗余的模型参数较多,导致模型训练所需的时间很长及最终解码速度很慢。
然而,在应用于语音识别的深度神经网络的拓扑结构构建中,靠近输入层的隐含层由于需要保留从语音波形信号中提取出来的声学特征信息因此往往需要保留较多的节点个数以避免语音声学特征信息的丢失;而靠近输出层的隐含层,相比于原始的声学特征舍弃了很多对于识别不起作用或者产生干扰的信息,而保留了用于识别不同状态的区分性信息,因此这些层中可以采用较少的节点进行建模,从而在不损失识别性能的情况下实现网络参数规模的缩减,实现训练效率的提升。而研究结果进一步证实深度神经网络中随着层数的增高,其权重分布逐渐稀疏,一般的权重绝对值大部分都将小于0.1,很多节点在网络中不起作用或者作用很小。
对此,本发明实施例提出了一种符合深度神经网络模型规律特性的,实现隐含层的节点个数呈递减变化的深度神经网络的构建方法及系统,通过对各隐含层的节点个数的有效控制,大大减少了深度神经网络中节点的冗余性,将采用本发明实施例构建的深度神经网络应用于语音识别系统,可以在不损失最终识别性能的情况下,有效地提高深度神经网络的模型训练效率和解码速度。
在现有技术中,深度神经网络模型的拓扑结构通常会根据数据量和模型规模大小的关系进行经验性设置,而实际上DNN模型中各隐含层具体需要多少节点事先并不太明确,因而预设的拓扑结构可能存在节点冗余或不足等问题。通过实验发现,深度神经网络模型训练中有很多节点的相关权重值在0附近,而且越接近输出层,权重值在0附近的比率越大。显然权重在0附近时对网络没有多大贡献,去除这部分连接对于网络的区分性影响不大,但是可以有效地减少网络中的参数个数。
因此本发明实施例提供一种深度神经网络的构建方法,对初始化后的深度神经网络利用训练数据训练其模型参数,并基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化,在不损失最终识别性能的情况下,有效地提高深度神经网络的模型训练效率和解码速度。
如图1所示,是本发明实施例深度神经网络的构建方法的流程图,包括以下步骤:
步骤101:对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构。
步骤102:利用训练数据训练所述深度神经网络的模型参数。
步骤103:基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化。
在本发明实施例中,可以采用多种方式对所述初始化后的深度神经网络进行结构优化,比如,可以根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化,或者根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化。具体优化过程将在后面详细描述。
如图2所示,是本发明实施例中对深度神经网络进行结构优化的一种流程图,包括以下步骤:
步骤201:依次对所述深度神经网络的隐含层中的每个节点,计算连接所述节点的所有节点与所述节点之间的权重小于权重阈值的比率。
具体地,用表示深度神经网络中第k个隐含层的第l个节点,设k+1层和k-1的节点个数分别为Nk+1和Nk-1,则和相连的所有权重可以表示为wil和wlj,根据下式计算与相连的权重小于预设的权重阈值th的比率 其中,
步骤202:如果所述节点对应的比率大于比率阈值,则删除所述节点和连接所述节点的路径。
对于隐含层中的任意节点都可以计算得到该节点相连的权重值小于预设的权重阈值的比率大于预设的比率阈值T的节点从训练的模型中舍弃。这里,权重阈值th通常根据经验设定为0.1。比率阈值T既可以根据经验设定为0.9,也可以根据具体的实验进行调整,在全体训练数据经过一次迭代以后,可以对同一隐含层的节点的比率进行排序,从而可以得到的最大值Max和最小值Min,根据T=αMin+(1-α)Max确定比率阈值T,其中α为[0,1]之间的实数。
另一种对深度神经网络进行结构优化的方法,即能够有效地去除训练的深度神经网络模型的冗余性的方法是,找出模型中一些不活跃的节点,将这些节点以及相连的权重去除,从而就可以有效地降低模型的复杂度。
如图3所示,是本发明实施例中对深度神经网络进行结构优化的另一种流程图,包括以下步骤:
步骤301:依次对所述深度神经网络的隐含层中的每个节点,计算所述训练数据在所述节点输出的均值和方差。
具体地,隐含层节点的活跃度可以由训练数据在该节点输出的均值和方差来确定。基于这点在实际训练过程中每次全部训练数据迭代完一次以后,可以计算全部训练数据在各隐含层节点上的活跃度,为了加快计算过程,还可以随机抽取全部训练数据中的一部分来代替全部训练数据,随机抽取的训练数据可以为全部训练数据总量的10%,设这部分训练数据集为S,样本则S在第k个隐含层的输出值为yk=σ(Wkyk-1+bk)。对于第k个隐含层可以根据下式计算在训练数据集S上的均值向量Mk和方差向量Vk其中N为训练数据集S的总样本数,为S中第i个样本在第k个隐含层的输出值,这样就得到了在训练数据集S上各个隐含层节点的均值和方差。
步骤302:根据所述均值和方差,判断所述节点是否属于非活跃节点。
步骤303:如果所述节点属于非活跃节点,则删除所述节点和连接所述节点的路径。
如图4所示,是本实施例中判断节点是否属于非活跃节点的流程图,包括以下步骤:
步骤401:对所述节点所在隐含层中所有节点对应的均值和方差分别从大到小进行排序,得到所述节点对应的均值排名和方差排名。
步骤402:如果所述节点对应的均值排名在设定的均值排名阈值th1之前,并且所述节点对应的方差排名在设定的方差排名阈值th2之前,则确定所述节点为活跃节点;否则,确定所述节点为非活跃节点。
具体地,均值排名阈值th1和方差排名阈值th2的大小决定着节点舍弃的程度,通常情况下前几次迭代的均值排名阈值th1和方差排名阈值th2均设置得较小,两个排名阈值通常在50附近,随着迭代次数的增加两个排阈值均逐渐增加至80。
与目前通用的各隐含层的节点个数相同的深度神经网络相比,应用本发明实施例提供的方法构建的深度神经网络可以极大地减少神经网络的参数个数,从而减小了所需的存储空间并且加快了模型的训练速度。特别是目前大词汇量的语音识别系统使用的绑定状态的DNN-HMM系统,由于输出层的节点个数可以达到1万甚至更多,减少最后一个隐含层的节点个数可以非常有效地减少神经网络的参数个数。另外,由于网络参数减少使得解码时计算状态输出概率的时间减少,将采用本发明构建的深度神经网络应用于语音识别系统,可以提高最终识别的解码速度,从而在实际运用中有更好的实时性。再有,本发明实施例的方法在网络参数大幅减少的情况下对于语音识别系统最终的识别性能没有影响,而在网络参数不变的前提下,还可以通过增加靠近输入层的隐含层节点个数的方法提升识别性能。
需要说明的是,在实际应用中,还可以通过迭代方式,进一步减小神经网络的参数规模。具体地,可以对结构优化后的深度神经网络进行参数重训练;判断参数重训练后的深度神经网络是否满足预设条件;如果是,则输出参数重训练后的深度神经网络;否则,对所述参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练,直到满足预设条件为止。
在本发明实施例中,可以采用自适应的迭代方法,具体包括以下步骤:
(1)在训练数据上,根据预设步长调整模型参数,完成一次迭代;
(2)在测试数据集上进行网络分类正确率的测试;
(3)当该次迭代的分类正确率相比上次迭代分类正确率没有提升,则更新迭代步长,比如,将迭代步长的数值减半,然后执行步骤(4);反之保持相同的步长重新迭代,返回步骤(1);
(4)判断步长更新是否达到预设的次数N,一般的选择N=7,若是则终止训练,否则返回步骤(1)。
步骤104:判断参数重训练后的深度神经网络是否满足预设条件;如果是,则执行步骤105;否则,返回步骤102,对所述参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练,直到满足所述预设条件为止。
所述预设条件可以是:达到预设模型更新最大次数,或者模型结构优化参数减少的规模小于设定的规模域值,或者网络分类正确率下降幅度超过设定的幅度阈值等。
本发明实施例的方法,通过对深度神经网络进行结构优化,使得在全部训练数据每次迭代完成以后都可以将深度神经网络中的一些不活跃节点舍弃,从而逐渐地减小神经网络的参数规模,迭代多次以后的最终模型参数将会变得很小,从而大幅减少解码时的计算量。
相应地,本发明实施例还提供一种深度神经网络的构建系统,如图5所示,是该系统的一种结构示意图。
在该实施例中,所述深度神经网络的构建系统包括:
初始化模块501,用于对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构;
参数训练模块502,用于利用训练数据训练所述深度神经网络的模型参数;
结构优化模块503,用于基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化。
在实际应用中,上述结构优化模块503可以采用多种方式实现,比如:
所述结构优化模块503的功能可以通过第一优化单元或者第二优化单元来实现,其中:
所述第一优化单元,用于根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化;
所述第二优化单元,用于根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化。
上述第一优化单元具体可以包括:第一计算单元、第一判断单元和第一删除单元,其中:
第一计算单元,用于依次对所述深度神经网络的隐含层中的每个节点,计算连接所述节点的所有节点与所述节点之间的权重小于权重阈值的比率;
第一判断单元,用于判断所述节点对应的比率大于比率阈值;
第一删除单元,用于在所述第一判断单元判断所述节点对应的比率大于比率阈值时,删除所述节点和连接所述节点的路径。
第一优化单元对隐含层节点数的具体优化过程可参照前面本发明方法实施例中的描述,在此不再赘述。
上述第二优化单元具体可以包括:第二计算单元、第二判断单元和第二删除单元,其中:
第二计算单元,用于依次对所述深度神经网络的隐含层中的每个节点,计算所述训练数据在所述节点输出的均值和方差;
第二判断单元,用于根据所述均值和方差,判断所述节点是否属于非活跃节点;
第二删除单元,用于在所述第二判断单元判断所述节点属于非活跃节点时,删除所述节点和连接所述节点的路径。
第二优化单元对隐含层节点数的具体优化过程可参照前面本发明方法实施例中的描述,在此不再赘述。
上述第二判断单元具体可包括:排序单元,用于对所述节点所在隐含层中所有节点对应的均值和方差分别从大到小进行排序,得到所述节点对应的均值排名和方差排名;确定单元,用于在所述节点对应的均值排名在设定的均值排名阈值之前,并且所述节点对应的方差排名在设定的方差排名阈值之前时,确定所述节点为活跃节点;否则,确定所述节点为非活跃节点。
与目前通用的各隐含层的节点个数相同的深度神经网络相比,应用本发明实施例提供的系统构建的深度神经网络可以极大地减少神经网络的参数个数,从而减小了所需的存储空间并且加快了模型的训练速度。特别是目前大词汇量的语音识别系统使用的绑定状态的DNN-HMM系统,由于输出层的节点个数可以达到1万甚至更多,减少最后一个隐含层的节点个数可以非常有效地减少神经网络的参数个数。另外,由于网络参数减少使得解码时计算状态输出概率的时间减少,将采用本发明构建的深度神经网络应用于语音识别系统,可以提高最终识别的解码速度,从而在实际运用中有更好的实时性。再有,本发明实施例的方法在网络参数大幅减少的情况下对于语音识别系统最终的识别性能没有影响,而在网络参数不变的前提下,还可以通过增加靠近输入层的隐含层节点个数的方法提升识别性能。
需要说明的是,在实际应用中,还可以通过迭代方式,进一步减小神经网络的参数规模。为此,如图6所示,在本发明深度神经网络的构建系统的另一实施例中,所述系统还可进一步包括:
参数重训练模块601,用于对结构优化后的深度神经网络进行参数重训练;
判断模块602,用于判断参数重训练后的深度神经网络是否满足预设条件;
输出模块603,用于在所述判断模块602判断参数重训练后的深度神经网络满足预设条件时,输出所述深度神经网络;在所述判断模块602判断参数重训练后的深度神经网络不满足预设条件时,通知结构优化模块503和参数重训练模块601对参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练。
本发明实施例的系统,通过对深度神经网络进行结构优化,使得在全部训练数据每次迭代完成以后都可以将深度神经网络中的一些不活跃节点舍弃,从而逐渐地减小神经网络的参数规模,迭代多次以后的最终模型参数将会变得很小,从而大幅减少解码时的计算量。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (11)

1.一种用于语音识别的深度神经网络的构建方法,其特征在于,包括:
对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构;
利用训练数据训练所述深度神经网络的模型参数,所述训练数据具有声学特征;
在模型训练过程中,基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化,具体包括:
根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化,以删除隐含层中对应的权重比率小于设定权重阈值的节点及其连接路径,其中,所述权重量级通过计算连接节点的所有节点与所述节点之间的权重小于权重阈值的比率获取;或者
根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化,以删除隐含层中的非活跃节点及其连接路径。
2.根据权利要求1所述的深度神经网络的构建方法,其特征在于,所述根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化包括:
对所述深度神经网络的隐含层中的节点,计算连接所述节点的所有节点与所述节点之间的权重小于权重阈值的比率;
如果所述节点对应的比率大于比率阈值,则删除所述节点和连接所述节点的路径。
3.根据权利要求1所述的深度神经网络的构建方法,其特征在于,所述根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化包括:
对所述深度神经网络的隐含层中的节点,计算所述训练数据在所述节点输出的均值和方差;
根据所述均值和方差,判断所述节点是否属于非活跃节点;
如果是,则删除所述节点和连接所述节点的路径。
4.根据权利要求3所述的深度神经网络的构建方法,其特征在于,所述判断所述节点是否属于非活跃节点包括:
对所述节点所在隐含层中所有节点对应的均值和方差分别从大到小进行排序,得到所述节点对应的均值排名和方差排名;
如果所述节点对应的均值排名在设定的均值排名阈值之前,并且所述节点对应的方差排名在设定的方差排名阈值之前,则确定所述节点为活跃节点;
否则,确定所述节点为非活跃节点。
5.根据权利要求1至4任一项所述的深度神经网络的构建方法,其特征在于,所述方法还包括:
对结构优化后的深度神经网络进行参数重训练;
判断参数重训练后的深度神经网络是否满足预设条件;
如果是,则输出参数重训练后的深度神经网络;
否则,对所述参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练,直到满足预设条件为止。
6.根据权利要求5所述的深度神经网络的构建方法,其特征在于,所述预设条件为:达到预设模型更新最大次数,或者模型结构优化参数减少的规模小于设定的规模阈值,或者网络分类正确率下降幅度超过设定的幅度阈值。
7.一种用于语音识别的深度神经网络的构建系统,其特征在于,包括:
初始化模块,用于对深度神经网络进行初始化,所述初始化包括确定所述深度神经网络的拓扑结构;
参数训练模块,用于利用训练数据训练所述深度神经网络的模型参数;
结构优化模块,用于在模型训练过程中,基于所述深度神经网络的拓扑结构在所述训练数据上的分布特征对所述深度神经网络进行结构优化;
所述结构优化模块包括:第一优化单元、或者第二优化单元;
所述第一优化单元,用于根据所述深度神经网络的隐含层的权重量级对隐含层节点数进行优化,以删除隐含层中对应的权重比率小于设定权重阈值的节点及其连接路径,其中,所述权重量级通过计算连接节点的所有节点与所述节点之间的权重小于权重阈值的比率获取;
所述第二优化单元,用于根据所述深度神经网络的隐含层的节点活跃性对隐含层节点数进行优化,以删除隐含层中的非活跃节点及其连接路径。
8.根据权利要求7所述的深度神经网络的构建系统,其特征在于,所述第一优化单元包括:
第一计算单元,用于依次对所述深度神经网络的隐含层中的每个节点,计算连接所述节点的所有节点与所述节点之间的权重小于权重阈值的比率;
第一判断单元,用于判断所述节点对应的比率大于比率阈值;
第一删除单元,用于在所述第一判断单元判断所述节点对应的比率大于比率阈值时,删除所述节点和连接所述节点的路径。
9.根据权利要求7所述的深度神经网络的构建系统,其特征在于,所述第二优化单元包括:
第二计算单元,用于依次对所述深度神经网络的隐含层中的每个节点,计算所述训练数据在所述节点输出的均值和方差;
第二判断单元,用于根据所述均值和方差,判断所述节点是否属于非活跃节点;
第二删除单元,用于在所述第二判断单元判断所述节点属于非活跃节点时,删除所述节点和连接所述节点的路径。
10.根据权利要求9所述的深度神经网络的构建系统,其特征在于,所述第二判断单元包括:
排序单元,用于对所述节点所在隐含层中所有节点对应的均值和方差分别从大到小进行排序,得到所述节点对应的均值排名和方差排名;
确定单元,用于在所述节点对应的均值排名在设定的均值排名阈值之前,并且所述节点对应的方差排名在设定的方差排名阈值之前时,确定所述节点为活跃节点;否则,确定所述节点为非活跃节点。
11.根据权利要求7至10任一项所述的深度神经网络的构建系统,其特征在于,所述系统还包括:
参数重训练模块,用于对结构优化后的深度神经网络进行参数重训练;
判断模块,用于判断参数重训练后的深度神经网络是否满足预设条件;
输出模块,用于在所述判断模块判断参数重训练后的深度神经网络满足预设条件时,输出所述深度神经网络;在所述判断模块判断参数重训练后的深度神经网络不满足预设条件时,通知所述结构优化模块和所述参数重训练模块对所述参数重训练后的深度神经网络重复依次进行所述结构优化和所述参数重训练。
CN201310755401.3A 2013-12-31 2013-12-31 用于语音识别的深度神经网络的构建方法及系统 Active CN104751228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310755401.3A CN104751228B (zh) 2013-12-31 2013-12-31 用于语音识别的深度神经网络的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310755401.3A CN104751228B (zh) 2013-12-31 2013-12-31 用于语音识别的深度神经网络的构建方法及系统

Publications (2)

Publication Number Publication Date
CN104751228A CN104751228A (zh) 2015-07-01
CN104751228B true CN104751228B (zh) 2018-04-27

Family

ID=53590873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310755401.3A Active CN104751228B (zh) 2013-12-31 2013-12-31 用于语音识别的深度神经网络的构建方法及系统

Country Status (1)

Country Link
CN (1) CN104751228B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611599A (zh) * 2015-10-21 2017-05-03 展讯通信(上海)有限公司 基于人工神经网络的语音识别方法、装置及电子设备
US10699186B2 (en) * 2015-12-02 2020-06-30 Google Llc Determining orders of execution of a neural network
CN105575389B (zh) * 2015-12-07 2019-07-30 百度在线网络技术(北京)有限公司 模型训练方法、系统和装置
JP6601569B2 (ja) * 2016-03-31 2019-11-06 富士通株式会社 ニューラルネットワークモデルの訓練方法、装置及び電子機器
US20170364799A1 (en) * 2016-06-15 2017-12-21 Kneron Inc. Simplifying apparatus and simplifying method for neural network
CN106650928A (zh) * 2016-10-11 2017-05-10 广州视源电子科技股份有限公司 一种神经网络的优化方法及装置
CN107862380A (zh) * 2017-10-19 2018-03-30 珠海格力电器股份有限公司 人工神经网络运算电路
CN108304924B (zh) * 2017-12-21 2021-10-12 内蒙古工业大学 一种深度置信网的流水线式预训练方法
CN108417207B (zh) * 2018-01-19 2020-06-30 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN108985453A (zh) * 2018-06-27 2018-12-11 中国科学技术大学苏州研究院 基于非对称三元权重量化的深度神经网络模型压缩方法
WO2020019102A1 (en) * 2018-07-23 2020-01-30 Intel Corporation Methods, systems, articles of manufacture and apparatus to train a neural network
CN109190769B (zh) * 2018-08-21 2021-12-24 深圳点宽网络科技有限公司 一种基于区块链的人工智能训练方法
CN109446188B (zh) * 2018-10-17 2021-06-25 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的跟踪审计方法和机器人系统
WO2020211037A1 (zh) * 2019-04-18 2020-10-22 深圳市大疆创新科技有限公司 加速器的检测方法和验证平台
CN110428046B (zh) * 2019-08-28 2023-12-15 腾讯科技(深圳)有限公司 神经网络结构的获取方法及装置、存储介质
CN114627863B (zh) * 2019-09-24 2024-03-22 腾讯科技(深圳)有限公司 一种基于人工智能的语音识别方法和装置
CN111142378A (zh) * 2020-01-07 2020-05-12 四川省桑瑞光辉标识系统股份有限公司 一种双足机器人神经网络控制器的神经网络优化方法
TWI737300B (zh) * 2020-05-15 2021-08-21 國立陽明交通大學 深度神經網路壓縮的方法
CN112434805B (zh) * 2020-10-30 2022-08-05 河海大学 一种深度神经网络模块分割方法
CN112631216B (zh) * 2020-12-11 2023-07-21 江苏晶度半导体科技有限公司 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957356A (zh) * 2010-08-13 2011-01-26 北京工业大学 一种基于弹性径向基神经网络的生化需氧量bod软测量方法
CN101968832A (zh) * 2010-10-26 2011-02-09 东南大学 基于构造-剪枝混合优化rbf网络的煤灰熔点预测方法
CN102879541A (zh) * 2012-07-31 2013-01-16 辽宁工程技术大学 一种基于动态前馈神经网络的生化需氧量在线软测量方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108328B2 (en) * 2008-07-17 2012-01-31 Tokyo Electron Limited Neural network based hermite interpolator for scatterometry parameter estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957356A (zh) * 2010-08-13 2011-01-26 北京工业大学 一种基于弹性径向基神经网络的生化需氧量bod软测量方法
CN101968832A (zh) * 2010-10-26 2011-02-09 东南大学 基于构造-剪枝混合优化rbf网络的煤灰熔点预测方法
CN102879541A (zh) * 2012-07-31 2013-01-16 辽宁工程技术大学 一种基于动态前馈神经网络的生化需氧量在线软测量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BP网络中隐含层节点优化的研究;刘维群等;《交通与计算机》;20051231;第23卷(第2期);第83-86页 *

Also Published As

Publication number Publication date
CN104751228A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN104751228B (zh) 用于语音识别的深度神经网络的构建方法及系统
CN104751227B (zh) 用于语音识别的深度神经网络的构建方法及系统
CN104751842B (zh) 深度神经网络的优化方法及系统
CN112509564B (zh) 基于连接时序分类和自注意力机制的端到端语音识别方法
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN109036465B (zh) 语音情感识别方法
KR101844932B1 (ko) 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology
CN110164452A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN102779510B (zh) 基于特征空间自适应投影的语音情感识别方法
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN110046710A (zh) 一种神经网络的非线性函数极值优化方法及系统
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
WO2019223250A1 (zh) 一种确定剪枝阈值的方法及装置、模型剪枝方法及装置
CN106033555A (zh) 基于满足k度稀疏约束的深度学习模型的大数据处理方法
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN104504442A (zh) 神经网络优化方法
CN108133702A (zh) 一种基于mee优化准则的深度神经网络语音增强模型
CN111429947A (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
Yu et al. Forecasting house price index of China using dendritic neuron model
CN106897744A (zh) 一种自适应设置深度置信网络参数的方法及系统
CN105895104B (zh) 说话人自适应识别方法及系统
KR20210042696A (ko) 모델 학습 방법 및 장치
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181224

Address after: 130000 Room 1632, 16th Floor, Block B, Liwang Square, 996 Qianjin Street, Chaoyang District, Changchun City, Jilin Province

Patentee after: Jilin Kexun Information Technology Co., Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: Iflytek Co., Ltd.

TR01 Transfer of patent right