CN112735469B - 低内存语音关键词检测方法、系统、介质、设备及终端 - Google Patents

低内存语音关键词检测方法、系统、介质、设备及终端 Download PDF

Info

Publication number
CN112735469B
CN112735469B CN202110227395.9A CN202110227395A CN112735469B CN 112735469 B CN112735469 B CN 112735469B CN 202110227395 A CN202110227395 A CN 202110227395A CN 112735469 B CN112735469 B CN 112735469B
Authority
CN
China
Prior art keywords
low
model
memory
voice
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110227395.9A
Other languages
English (en)
Other versions
CN112735469A (zh
Inventor
张军英
王洋
邹台
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Publication of CN112735469A publication Critical patent/CN112735469A/zh
Application granted granted Critical
Publication of CN112735469B publication Critical patent/CN112735469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明属于语音信号处理技术领域,公开了一种低内存语音关键词检测方法、系统、介质、设备及终端,对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络模型训练;对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量。本发明不先对原有模型参数进行SVD实现模型参数的压缩,充分运用了模型参数间的关联性极大地减少了对参数存储的内存需求。本发明不同于传统的模型参数采用双精度浮点表示的做法;在对模型参数进行SVD降维的基础上,对压缩后的参数用低位表示,减少了对模型参数的内存需求。进一步的强化和适应轻量级设备对语音检测算法的部署能力。

Description

低内存语音关键词检测方法、系统、介质、设备及终端
技术领域
本发明属于语音信号处理技术领域,尤其涉及一种低内存语音关键词检测方法、系统、介质、设备及终端。
背景技术
目前:随着人工智能的发展,特别是在深度学习领域应用的突破,基于深度学习的架构方案成为关键词检测的主流方法。基于深度学习的关键词检测算法,首次采用深度学习模型的方式应用于关键词检测,使得关键词检测的准确率有很大的提升,但由于模型存在大量参数,从而消耗大量内存导致存储成本增加;基于深度学习算法主要是模型的参数过大,提取的特征存在冗余导致该模型的计算量、存储量消耗较大,导致成本增加,不适于内存匮乏的应用需求。针对深度学习需要大量参数的问题,研究人员提出了两种方案,一种是基于变分的特征压缩模型,先对特征进行压缩去除特征中的冗余,从而可以简化预测模型降低参数量,基于变分的特征压缩模型,采用的是贝叶斯的理论利用code层与特征(feature)的条件概率P(feature|code)逼近隐变量(Z)的条件概率P(feature|Z),从而根据code作为新的特征,但是该方法会丢失原有特征的大量信息;另一种是神经网络模型压缩算法,该方法采用SVD、剪枝结合聚类算法对神经网络的参数进行压缩,基于SVD、剪枝结合聚类的神经网络压缩算法在实施上是:先通过对网络参数进行聚类并对聚类结果进行SVD。由于每个聚类的数据具有一定的散度,使得待压缩的神经网络权重矩阵的关联性降低,从而导致压缩性能不够理想。上述两套方案为实现低内存模型的提供了有效参考。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术基于深度学习算法主要是模型的参数过大,提取的特征存在冗余导致该模型的计算量、存储量消耗较大,导致成本增加,不适于内存匮乏的应用需求。
(2)现有技术基于变分的特征压缩模型,采用的是贝叶斯的理论利用code层与特征(feature)的条件概率P(feature|code)逼近隐变量(Z)的条件概率P(feature|Z),从而根据code作为新的特征,但是该方法会丢失原有特征的大量信息。
(3)现有技术基于SVD、剪枝结合聚类的神经网络压缩算法在实施上是:先通过对网络参数进行聚类并对聚类结果进行SVD。由于每个聚类的数据具有一定的散度,使得待压缩的神经网络权重矩阵的关联性降低,导致压缩性能不够理想。
解决以上问题及缺陷的难度为:采用深度学习进行语音关键词检测已取得了很好的性能,但是其需要大规模的数据存储、计算,使得直接应用于轻便型应用几乎不可能。
解决以上问题及缺陷的意义为:本发明对训练好的模型参数进行SVD,达到降低模型的参数量的效果;同时将SVD压缩后的参数用低位表示,进一步降低每个参数所占的存储量。解决模型存储问题的意义不仅可以降低资源消耗,同时使在语音交互时,使模型运用到计算能力与存储能力十分有限的设备上,将基于深度学习的模型应用于本不适合的语音交互工具(例如天猫精灵等)、单片机等低内存低计算资源的设备上。
发明内容
针对现有技术存在的问题,本发明提供了一种低内存语音关键词检测方法、系统、介质、设备及终端。
本发明是这样实现的,一种低内存语音关键词检测方法,所述低内存语音关键词检测方法对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量。
进一步,所述低内存语音关键词检测方法包括以下步骤:
步骤一,采集待检测的关键词以及非关键词的语音,并对数据做好标签,
将采集到的语音分为训练集,测试集以及验证集;
步骤二,对语音信号做预处理,提取语音信号的梅尔倒谱系数特征,得到m行N列的特征矩阵F,其中m是梅尔倒谱系数特征矢量的维度,N是语音信号分帧总数;
步骤三,构建关注和时序卷积TACRNN模型,该模型包含卷积网络、循环网络、注意力机制、三层全连接层、softmax分类器五部分,其中softmax分类器的输出是计算出输入的语音为关键词的概率;
步骤四,将F作为模型的输入,通过softmax得到的关键词概率作为输出;
步骤五,以交叉熵作为模型的损失函数,利用梯度下降算法训练网络,直到模型的损失函数收敛,同时验证集达到最优时停止训练;
步骤六,提取出停止训练后三层全连接每层的权重矩阵Wc=[W1,W2,W3],其中W1表示第一层全连接层的权重矩阵,W2表示第二层全连接层的权重矩阵,W3表示第三层全连接层的权重矩阵;
步骤七,初始化SVD分解特征数量的k;
步骤八,初始化全连接层中存储每个参数的比特数b;
步骤九,设置计数器c=1;
步骤十,对全连接的权重矩阵Wc进行SVD分解;
步骤十一,根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc
步骤十二,分别对URc、VRc、ΛRc进行低位表示;
步骤十三,计数器c=c+1;
步骤十四,当计数器c大于3时,执行步骤十五,否则执行步骤十;
步骤十五,存储模型中三层全连接层权重矩阵的低位表示UR_Li、VR_Li、ΛR_Li,i=1,2,3,替换权重矩阵[W1,W2,W3]的存储,降低所需内存。
进一步,所述步骤十,对全连接的权重矩阵Wc进行SVD分解,形式如下:
Wc=UcΛcVc
其中:Uc和Vc均为正交矩阵,有和/>Uc和Vc分别称为Wc的左奇异矩阵和右奇异矩阵;Λc为如下形式的矩阵:
其中δ1>δ2,,,>δm分别为Wc的从大到小排列的奇异值。上述矩阵的维度分别为Uc∈Rm*m,Λc∈Rm*n,Vc∈Rn*n
进一步,所述步骤十一,根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc
URc=[Uc(1),Uc(2),....,Uc(k)];
VRc=[Vc T(1),,Vc T(2),...,Vc T(k)]T
其中:符号T表示转置。
进一步,所述步骤十二,分别对URc、VRc、ΛRc进行低位表示:
(1)计算出URc的最大值maxURc以及最小值minURc
(2)对URc中的每个元素URc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,m;j=1,2,,,k,2b表示2的b次方,为向下取整;
(3)计算出VRc的最大值max VRc以及最小值min VRc
(4)对VRc中的每个元素VRc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,k;j=1,2,,,N,2b表示2的b次方,为向下取整;
(5)计算出ΛRc的最大值maxΛRc以及最小值minΛRc
(6)对ΛRc中的每个元素ΛRc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,k;j=1,2,,,k,2b表示2的b次方,为向下取整。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的低内存语音关键词检测方法。
本发明的另一目的在于提供一种实施所述低内存语音关键词检测方法的低内存语音关键词检测系统,所述低内存语音关键词检测系统包括:
预处理模块,用于对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;
参数降维处理模块,用于对TACRNN模型中全连接层的参数通过SVD技术进行降维;
低位量化处理模块,用于对降维参数进行低位量化。
本发明的另一目的在于提供一种语音信号处理终端,所述语音信号处理终端安装有所述的低内存语音关键词检测系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明对语音信号进行预处理、时频域特征(MFCC)提取、关注和时序卷积神经网络(TACRNN)模型训练的基础上,对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,从而降低需要存储模型参数的存储量。
本发明不同于先剪枝结合聚类再进行SVD的神经网络压缩算法,本发明先对原有模型参数进行SVD实现模型参数的压缩,充分运用了模型参数间的关联性极大地减少了对参数存储的内存需求。本发明不同于传统的模型参数采用双精度浮点表示的做法,本发明在对模型参数进行SVD降维的基础上,对压缩后的参数用低位(例如8位浮点数)表示,进一步减少了对模型参数的内存需求。进一步的强化和适应轻量级设备对语音检测算法的部署能力。
从实验结果表1可以看出本发明的语音关键词检测方法,其他几种典型的语音关键词检测方法相比,其准确率基本相当甚至更高,达95%,而存储量只是传统模型的1/3,极大地扩展了语音关键词检测模型的部署范围,使得模型能够应用于轻量级设备。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的低内存语音关键词检测方法流程图。
图2是本发明实施例提供的低内存语音关键词检测系统的结构示意图;
图2中:1、预处理模块;2、参数降维处理模块;3、低位量化处理模块。
图3是本发明实施例提供的低内存语音关键词检测方法流程图。
图4是本发明实施例提供的模型数据流向结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种低内存语音关键词检测方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的低内存语音关键词检测方法包括以下步骤:
S101:对语音信号进行预处理、时频域特征(MFCC)提取、关注和时序卷积神经网络(TACRNN)模型训练;
S102:对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量。
本发明提供的低内存语音关键词检测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的低内存语音关键词检测方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的低内存语音关键词检测系统包括:
预处理模块1,用于对语音信号进行预处理、时频域特征(MFCC)提取、关注和时序卷积神经网络(TACRNN)模型训练;
参数降维处理模块2,用于对TACRNN模型中全连接层的参数通过SVD技术进行降维;
低位量化处理模块3,用于对降维参数进行低位量化。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明提供的低内存语音关键词检测方法包括以下步骤:
步骤一,采集待检测的关键词以及非关键词的语音,并对数据做好标签,将采集到的语音分为训练集,测试集以及验证集。
步骤二,对语音信号做预处理,提取语音信号的梅尔倒谱系数特征,得到m行N列的特征矩阵F,其中m是梅尔倒谱系数特征矢量的维度,N是语音信号分帧总数。
步骤三,构建关注和时序卷积(TACRNN)模型,该模型包含卷积网络、循环网络、注意力机制、三层全连接层、softmax分类器五部分,其中softmax分类器的输出是计算出输入的语音为关键词的概率。
步骤四,将F作为模型的输入,通过softmax得到的关键词概率作为输出。
步骤五,以交叉熵作为模型的损失函数,利用梯度下降算法训练网络,直到模型的损失函数收敛,同时验证集达到最优时停止训练。
步骤六,提取出停止训练后三层全连接每层的权重矩阵Wc=[W1,W2,W3],其中W1表示第一层全连接层的权重矩阵,W2表示第二层全连接层的权重矩阵,W3表示第三层全连接层的权重矩阵。
步骤七,初始化SVD分解特征数量的k。
步骤八,初始化全连接层中存储每个参数的比特数b。
步骤九,设置计数器c=1。
步骤十,对全连接的权重矩阵Wc进行SVD分解,其形式如下:
Wc=UcΛcVc
其中:Uc和Vc均为正交矩阵,即有和/>Uc和Vc分别称为Wc的左奇异矩阵和右奇异矩阵;Λc为如下形式的矩阵:
其中δ1>δ2,,,>δm分别为Wc的从大到小排列的奇异值。上述矩阵的维度分别为Uc∈Rm*m,Λc∈Rm*n,Vc∈Rn*n
步骤十一,根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc
URc=[Uc(1),Uc(2),....,Uc(k)];
VRc=[Vc T(1),,Vc T(2),...,Vc T(k)]T
其中:符号T表示转置。
步骤十二,分别对URc、VRc、ΛRc进行低位表示:
(1)计算出URc的最大值maxURc以及最小值minURc
(2)对URc中的每个元素URc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,m;j=1,2,,,k,2b表示2的b次方,为向下取整;
(3)计算出VRc的最大值max VRc以及最小值min VRc
(4)对VRc中的每个元素VRc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,k;j=1,2,,,N,2b表示2的b次方,为向下取整;
(5)计算出ΛRc的最大值maxΛRc以及最小值minΛRc
(6)对ΛRc中的每个元素ΛRc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,k;j=1,2,,,k,2b表示2的b次方,为向下取整。
步骤十三,计数器c=c+1。
步骤十四,当计数器c大于3时,执行步骤十五,否则执行步骤十。
步骤十五,存储模型中三层全连接层权重矩阵的低位表示UR_Li、VR_Li、ΛR_Li,i=1,2,3,替换权重矩阵[W1,W2,W3]的存储,降低所需内存。
下面结合附图对本发明的技术方案作进一步的描述。
本发明的语音关键词检测是一种通过对用户的语音命令,设备检测是否存在特殊指令(关键词),根据特殊指令的是否存在,而采取不同的应对模式。主要在于对训练好的网络参数利用SVD技术进行压缩,再对SVD压缩后的模型参数进行低位表示,从而达到降低对模型参数存储所需内存的目的;本发明以唤醒词“您好”为例。
步骤1.收集唤醒词“您好”的语音,以及非唤醒词的语音,做好标签,同时将唤醒词与非唤醒词70%的数据作为训练集,20%作为测试集,10%作为验证集。
步骤2.对语音信号做预加重处理,处理公式如下:
x(n)=x(n)-α*x(n-1);
α取值为0.98。
步骤3.利用窗长为512、步长为256的汉明窗对语音信号X分帧,X={S(1),S(2),...S(i)..,S(N)};其中S(i)是待处理语音所分的第i帧,其中N=49。
步骤4.初始化提取梅尔倒谱系数矢量维度m=10。
步骤5.提取分帧后的每一帧语音信号S(i)的10维梅尔倒谱系数MFCC特征MC(i),其中MC(i)是一个10维的矢量。
步骤6.将对每一帧语音信号S(i)提取到的特征MC(i)构建成一个大小为m*N的特征矩阵FM。
步骤7.构建关注和时序卷积(TACRNN)模型,该模型的组成步骤如下:
步骤7.1.构建四个1维的卷积网络;
步骤7.2.构建2个2维的卷积网络卷积部分;
步骤7.3.构建1个循环网络;
步骤7.4.对循环网络的输入加入注意力机制,循环网络以及注意力机制;
步骤7.5.构建一个三层的全连接网络;
步骤7.6.运用softmax做分类,计算出输入的语音为关键词的概率;
步骤7.7.以交叉熵作为模型的损失函数。
步骤8.将F作为模型的输入,通过softmax得到的关键词概率作为输出。
步骤9.利用梯度下降算法训练网络,直到模型的损失函数值在训练集上收敛,且在验证集上达到最小时停止训练。
步骤10.提取出停止训练后三层全连接层每层的权重矩阵W=[W1,W2,W3],其中W1表示第一层全连接层的权重矩阵,W2表示第二层全连接层的权重矩阵,W3表示第三层全连接层的权重矩阵。
步骤11.初始化SVD分解特征数量的k=2。
步骤12.初始化全连接层中每个参数的存储的比特数b=8。
步骤13.设置计数器c=1。
步骤14.对全连接的权重矩阵Wc进行SVD分解,其形式如下:
Wc=UcΛcVc
其中,Uc和Vc均为正交矩阵,即有和/>Uc和Vc分别称为Wc的左奇异矩阵和右奇异矩阵;Λc为如下形式的矩阵:
δ1>δ2,,,>δm分别为Wc的从大到小排列的奇异值。上述矩阵的维度分别为Uc∈Rm *m,Λc∈Rm*n,Vc∈Rn*n
步骤15.根据SVD的性质以及Uc、Vc、Λc特征数量k得到对应的URc、VRc、ΛRc
URc=[Uc(1),Uc(2),....,Uc(k)];
VRc=[Vc T(1),,Vc T(2),...,Vc T(k)]T
其中:符号T表示转置。
步骤16.分别对URc、VRc、ΛRc进行低位表示:
步骤16.1.计算出URc的最大值max URc以及最小值min URc
步骤16.2.对URc中的每个元素URc[i,j]进行低位表示,计算公式如下:
其中:i=1,2,,,m;j=1,2,,,k,2b表示2的b次方,为向下取整;
步骤16.3.计算出VRc的最大值max VRc以及最小值min VRc
步骤16.4.对VRc中的每个元素VRc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,k;j=1,2,,,N,2b表示2的b次方,为向下取整;
步骤16.5.计算出ΛRc的最大值maxΛRc以及最小值minΛRc
步骤16.6.对ΛRc中的每个元素ΛRc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,k;j=1,2,,,k,2b表示2的b次方,为向下取整。
步骤17.计数器c=c+1。
步骤18.当计数器c大于3时,执行步骤19,否则执行步骤14。
步骤19.存储UR_Li,VR_Li,ΛR_Li作为三层全连接的权重矩阵的表示,从而替换权重矩阵[W1,W2,W3],降低内存。
下面结合实验对本发明的技术效果作详细的描述。
为了更好地展示本发明所提出的算法相对于其他模型的优势,本发明在同等实验条件下(包括实验数据、数据参数等),复现了当前主流的关键词检测算法,包括:基本的深度学习网络DNN、卷积神经网络CNN、循环神经网络RNN(LSTM和GRU)以及相应的改进模型(DSCNN和CRNN)。为了解数据压缩对性能所带来的影响,用单位存储所贡献的检测率来评价语音检测方法的存储效率。实验结果如表1所示。
表1语音关键词检测性能及存储效率
从表1可以看到,本发明的算法在准确率上没有明显的降低,内存占用却只有传统模型的1/3,存储效率提升了3倍。
[1]Chen G,Parada C,Heigold G,et al.Small-footprint keyword spottingusing deep neural networks[C].international conference on acoustics speechand signal processing,2014.478-482
[2]Sainath T N,Parada C.Convolutional Neural Networks for Small-Footprint Keyword Spotting[C].conference of the international speechcommunication association,2015:1478-1482.
[3]Sun M,Raju A,Tucker G,et al.Max-pooling loss training of longshort-term memory networks for small-footprint keyword spotting[C].spokenlanguage technology workshop,2016:474-480.
[4]Zhang Y,Suda N,Lai L,et al.Hello Edge:Keyword Spotting onMicrocontrollers.[J].arXiv:Sound,2017.
[5]Arik S O,Kliegl M,Child R,et al.convolutional recurrent neuralnetworks for small-footprint keyword spotting[C].conference of theinternational speech communication association,2017:1606-1610
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种低内存语音关键词检测方法,其特征在于,所述低内存语音关键词检测方法对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量;
所述低内存语音关键词检测方法包括以下步骤:
步骤一,采集待检测的关键词以及非关键词的语音,并对数据做好标签,将采集到的语音分为训练集,测试集以及验证集;
步骤二,对语音信号做预处理,提取语音信号的梅尔倒谱系数特征,得到m行N列的特征矩阵F,其中m是梅尔倒谱系数特征矢量的维度,N是语音信号分帧总数;
步骤三,构建关注和时序卷积TACRNN模型,该模型包含卷积网络、循环网络、注意力机制、三层全连接层、softmax分类器五部分,其中softmax分类器的输出是计算出输入的语音为关键词的概率;
步骤四,将F作为模型的输入,通过softmax得到的关键词概率作为输出;
步骤五,以交叉熵作为模型的损失函数,利用梯度下降算法训练网络,直到模型的损失函数收敛,同时验证集达到最优时停止训练;
步骤六,提取出停止训练后三层全连接每层的权重矩阵Wc=[W1,W2,W3],其中W1表示第一层全连接层的权重矩阵,W2表示第二层全连接层的权重矩阵,W3表示第三层全连接层的权重矩阵;
步骤七,初始化SVD分解特征数量的k;
步骤八,初始化全连接层中存储每个参数的比特数b;
步骤九,设置计数器c=1;
步骤十,对全连接的权重矩阵Wc进行SVD分解;
步骤十一,根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc
步骤十二,分别对URc、VRc、ΛRc进行低位表示;
步骤十三,计数器c=c+1;
步骤十四,当计数器c大于3时,执行步骤十五,否则执行步骤十;
步骤十五,存储模型中三层全连接层权重矩阵的低位表示UR_Li、VR_Li、ΛR_Li,i=1,2,3,替换权重矩阵[W1,W2,W3]的存储,降低所需内存。
2.如权利要求1所述的低内存语音关键词检测方法,其特征在于,所述步骤十,对全连接的权重矩阵Wc进行SVD分解,形式如下:
Wc=UcΛcVc
其中:Uc和Vc均为正交矩阵,有和/>Uc和Vc分别称为Wc的左奇异矩阵和右奇异矩阵;Λc为如下形式的矩阵:
其中δ1>δ2,,,>δm分别为Wc的从大到小排列的奇异值,矩阵的维度分别为Uc∈Rm*m,Λc∈Rm*n,Vc∈Rn*n
3.如权利要求1所述的低内存语音关键词检测方法,其特征在于,所述步骤十一,根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc
URc=[Uc(1),Uc(2),....,Uc(k)];
VRc=[Vc T(1),,Vc T(2),...,Vc T(k)]T
其中:符号T表示转置。
4.如权利要求1所述的低内存语音关键词检测方法,其特征在于,所述步骤十二,分别对URc、VRc、ΛRc进行低位表示:
(1)计算出URc的最大值maxURc以及最小值minURc
(2)对URc中的每个元素URc[i,j]进行低位表示,其计算公式如下:
其中:i=1,2,,,m;j=1,2,,,k,2b表示2的b次方,为向下取整;
(3)计算出VRc的最大值maxVRc以及最小值minVRc
(4)对VRc中的每个元素VRc[i1,j1]进行低位表示,其计算公式如下:
其中:i1=1,2,,,k;j1=1,2,,,N,2b表示2的b次方,为向下取整;
(5)计算出ΛRc的最大值maxΛRc以及最小值minΛRc
(6)对ΛRc中的每个元素ΛRc[i2,j2]进行低位表示,其计算公式如下:
其中:i2=1,2,,,k;j2=1,2,,,k,2b表示2的b次方,为向下取整。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~4任意一项所述的低内存语音关键词检测方法的步骤。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~4任意一项所述的低内存语音关键词检测方法的步骤。
7.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~4任意一项所述的低内存语音关键词检测方法。
8.一种实施权利要求1~4任意一项所述低内存语音关键词检测方法的低内存语音关键词检测系统,其特征在于,所述低内存语音关键词检测系统包括:
预处理模块,用于对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;
参数降维处理模块,用于对TACRNN模型中全连接层的参数通过SVD技术进行降维;
低位量化处理模块,用于对降维参数进行低位量化。
9.一种语音信号处理终端,其特征在于,所述语音信号处理终端安装有权利要求8所述的低内存语音关键词检测系统。
CN202110227395.9A 2020-10-28 2021-03-02 低内存语音关键词检测方法、系统、介质、设备及终端 Active CN112735469B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020111745564 2020-10-28
CN202011174556 2020-10-28

Publications (2)

Publication Number Publication Date
CN112735469A CN112735469A (zh) 2021-04-30
CN112735469B true CN112735469B (zh) 2024-05-17

Family

ID=75595591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110227395.9A Active CN112735469B (zh) 2020-10-28 2021-03-02 低内存语音关键词检测方法、系统、介质、设备及终端

Country Status (1)

Country Link
CN (1) CN112735469B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4081607A (en) * 1975-04-02 1978-03-28 Rockwell International Corporation Keyword detection in continuous speech using continuous asynchronous correlation
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
CN102521357A (zh) * 2011-12-13 2012-06-27 曙光信息产业(北京)有限公司 一种利用自动机实现文本精确匹配的系统和方法
JP2013156524A (ja) * 2012-01-31 2013-08-15 Fujitsu Ltd 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
CN104050628A (zh) * 2013-03-11 2014-09-17 佳能株式会社 图像处理方法和图像处理装置
CN104598552A (zh) * 2014-12-31 2015-05-06 大连钜正科技有限公司 一种支持增量式更新的大数据特征学习的方法
CN105574981A (zh) * 2015-12-10 2016-05-11 武汉大学 一种基于安全线磁信息的人民币纸币面额识别方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106448652A (zh) * 2016-09-12 2017-02-22 珠海格力电器股份有限公司 空调器的控制方法和装置
CN107273925A (zh) * 2017-06-12 2017-10-20 太原理工大学 一种基于局部感受野和半监督深度自编码的肺结节诊断方法
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN110019647A (zh) * 2017-10-25 2019-07-16 华为技术有限公司 一种关键词搜索方法、装置和搜索引擎
CN110059796A (zh) * 2018-01-19 2019-07-26 杭州海康威视数字技术股份有限公司 卷积神经网络的生成方法及装置
CN110246490A (zh) * 2019-06-26 2019-09-17 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111161395A (zh) * 2019-11-19 2020-05-15 深圳市三维人工智能科技有限公司 一种人脸表情的跟踪方法、装置及电子设备
CN111477214A (zh) * 2020-03-31 2020-07-31 浙江大学 一种基于端到端深度卷积神经网络的关键词检测模型

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012156971A1 (en) * 2011-05-18 2012-11-22 Netspark Ltd. Real-time single-sweep detection of key words and content analysis
US10422673B2 (en) * 2014-04-01 2019-09-24 Saudi Arabian Oil Company Flow regime identification of multiphase flows by face recognition Bayesian classification
US9805714B2 (en) * 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4081607A (en) * 1975-04-02 1978-03-28 Rockwell International Corporation Keyword detection in continuous speech using continuous asynchronous correlation
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
CN102521357A (zh) * 2011-12-13 2012-06-27 曙光信息产业(北京)有限公司 一种利用自动机实现文本精确匹配的系统和方法
JP2013156524A (ja) * 2012-01-31 2013-08-15 Fujitsu Ltd 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
CN104050628A (zh) * 2013-03-11 2014-09-17 佳能株式会社 图像处理方法和图像处理装置
CN104598552A (zh) * 2014-12-31 2015-05-06 大连钜正科技有限公司 一种支持增量式更新的大数据特征学习的方法
CN105574981A (zh) * 2015-12-10 2016-05-11 武汉大学 一种基于安全线磁信息的人民币纸币面额识别方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106448652A (zh) * 2016-09-12 2017-02-22 珠海格力电器股份有限公司 空调器的控制方法和装置
CN107273925A (zh) * 2017-06-12 2017-10-20 太原理工大学 一种基于局部感受野和半监督深度自编码的肺结节诊断方法
CN110019647A (zh) * 2017-10-25 2019-07-16 华为技术有限公司 一种关键词搜索方法、装置和搜索引擎
CN110059796A (zh) * 2018-01-19 2019-07-26 杭州海康威视数字技术股份有限公司 卷积神经网络的生成方法及装置
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN110246490A (zh) * 2019-06-26 2019-09-17 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
CN111161395A (zh) * 2019-11-19 2020-05-15 深圳市三维人工智能科技有限公司 一种人脸表情的跟踪方法、装置及电子设备
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111477214A (zh) * 2020-03-31 2020-07-31 浙江大学 一种基于端到端深度卷积神经网络的关键词检测模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A 510nW 0.41V Low-Memory Low-Computation Keyword-Spotting Chip Using Serial FFT-Based MFCC and Binarized Depthwise Separable Convolutional Neural Network in 28nm CMOS;Weiwei Shan等;ISSCC 2020 PAPER CONTINUATIONS;230-232 *
噪声环境下的语音关键词检测;谷悦;中国优秀硕士学位论文全文数据库(第9期);1-44 *

Also Published As

Publication number Publication date
CN112735469A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology
Huang et al. Sndcnn: Self-normalizing deep cnns with scaled exponential linear units for speech recognition
Zheng et al. An ultra-low power binarized convolutional neural network-based speech recognition processor with on-chip self-learning
US11107461B2 (en) Low-power automatic speech recognition device
Myer et al. Efficient keyword spotting using time delay neural networks
Bai et al. Listen attentively, and spell once: Whole sentence generation via a non-autoregressive architecture for low-latency speech recognition
Huang et al. Recurrent poisson process unit for speech recognition
CN110634476B (zh) 一种快速搭建鲁棒性声学模型的方法及系统
CN110718211A (zh) 一种基于混合压缩卷积神经网络的关键词识别系统
Higuchi et al. Stacked 1D convolutional networks for end-to-end small footprint voice trigger detection
CN113196385B (zh) 用于音频信号处理的方法和系统及计算机可读存储介质
CN112735469B (zh) 低内存语音关键词检测方法、系统、介质、设备及终端
Jeon et al. Multitask learning and joint optimization for transformer-RNN-transducer speech recognition
WO2023059969A1 (en) Joint unsupervised and supervised training for multilingual automatic speech recognition
Wang et al. Gated convolutional LSTM for speech commands recognition
Chen et al. End-to-end language identification using NetFV and NetVLAD
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
JP4069715B2 (ja) 音響モデル作成方法および音声認識装置
Liu et al. Graph based emotion recognition with attention pooling for variable-length utterances
Li A lightweight architecture for query-by-example keyword spotting on low-power IoT devices
Morioka et al. Multiscale recurrent neural network based language model.
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
JP2018141925A (ja) 音響モデル学習装置および音響モデル学習プログラム
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN114822509A (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant