CN111862957A - 一种单声道语音关键词低功耗实时检测方法 - Google Patents

一种单声道语音关键词低功耗实时检测方法 Download PDF

Info

Publication number
CN111862957A
CN111862957A CN202010672476.5A CN202010672476A CN111862957A CN 111862957 A CN111862957 A CN 111862957A CN 202010672476 A CN202010672476 A CN 202010672476A CN 111862957 A CN111862957 A CN 111862957A
Authority
CN
China
Prior art keywords
keyword
power consumption
state
neural network
channel energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010672476.5A
Other languages
English (en)
Inventor
付志勇
姜黎
胡奎
王蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ccvui Intelligent Technology Co ltd
Original Assignee
Hangzhou Ccvui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ccvui Intelligent Technology Co ltd filed Critical Hangzhou Ccvui Intelligent Technology Co ltd
Priority to CN202010672476.5A priority Critical patent/CN111862957A/zh
Publication of CN111862957A publication Critical patent/CN111862957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种单声道语音关键词低功耗实时检测方法,包括以下步骤:预处理;提取归一化通道能量特征;得到卷积神经网络层的输出;使用一层门控循环单元神经元,对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;判断是否连续m帧预测概率值大于n,如是,则判定检测到关键词,反之则判定没有检测到关键词。具有计算量大大降低、检测效率和精度更高的优点。

Description

一种单声道语音关键词低功耗实时检测方法
技术领域
本发明涉及关键词检测领域,特别是涉及一种单声道语音关键词低功耗实时检测方法。
背景技术
目前在语音关键词检测中采用的门控循环单元(GRU)+注意力机制 (Attent ion)方案存在计算量太大及检测效率和精度不足的问题。
发明内容
针对上述问题,本发明提供了一种单声道语音关键词低功耗实时检测方法,具有计算量大大降低、检测效率和精度更高的优点。
本发明的技术方案是:
一种单声道语音关键词低功耗实时检测方法,包括以下步骤:
对语音数据进行预处理;
提取预处理后的数据的归一化通道能量特征,得到可以进行检测的数据;
卷积神经网络使用卷积核若干,卷积核大小固定,每一个卷积核在归一化通道能量特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到卷积神经网络层的输出;
使用一层门控循环单元神经元,对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;
门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;
判断是否连续m帧预测概率值大于n,如是,则判定检测到关键词,反之则判定没有检测到关键词。
本发明将预处理后的数据进行归一化通道能量特征的提取,采用归一化通道能量特征检测,归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测;在检测模型中,在模型的选择上增加了一层卷积神经网络,检测效率和精度更高,整体的计算量更少。
在进一步的技术方案中,还包括模型训练方法:
对语音数据进行预处理;
提取预处理后的数据的归一化通道能量特征,得到可以进行训练的数据;
卷积神经网络使用卷积核若干,卷积核大小固定,每一个卷积核在归一化通道能量特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到卷积神经网络层的输出;
使用一层门控循环单元神经元,对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;
门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;
将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值,并进行反向传播。
在进一步的技术方案中,对语音数据进行预处理包括以下步骤:
预加重;
加窗。
在进一步的技术方案中,提取预处理后的数据的归一化通道能量特征包括以下步骤:
进行短时快速傅里叶变换,将信号分离到不同的子带;
计算不同子带的能量;
生成相应的梅尔滤波器对子带进行滤波;
提取归一化通道能量特征。
在进一步的技术方案中,提取归一化通道能量特征的函数如下:
Figure 1
在进一步的技术方案中,预加重因子为0.97。
在进一步的技术方案中,使用汉明窗进行加窗,汉明窗函数如下:
Figure BDA0002582827100000032
本发明的有益效果是:
本发明将预处理后的数据进行归一化通道能量特征的提取,采用归一化通道能量特征检测,归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测;在检测模型中,在模型的选择上增加了一层卷积神经网络,检测效率和精度更高,整体的计算量更少。
附图说明
图1是本发明实施例的检测流程图;
图2是本发明实施例的训练学习流程图;
图3是本发明采用卷积神经网络进行卷积拼接的示意图;
图4是本发明的门控循环单元的流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步说明。
实施例:
如图1所示,一种单声道语音关键词低功耗实时检测方法,包括以下步骤:
信息提取:
S1.1、对语音数据进行预处理;
S1.2、提取预处理后的数据的归一化通道能量(PCEN)特征,得到可以进行检测的数据,每一帧的数据提取40个特征;
神经网络(CGA):
S2.1、如图3所示,卷积神经网络(CNN)使用卷积核若干,卷积核大小固定,每一个卷积核在PCEN特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到CNN的输出;
S2.2、如图4所示,使用一层门控循环单元(GRU)神经元,对CNN层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;
S2.3、GRU的状态经过注意力机制(Attent i on)层的变换得出一个重要性权重,与GRU当前帧的状态做内积后,得到最终的预测概率值;
判断是否连续m帧预测概率值大于n,如是,则判定检测到关键词,反之则判定没有检测到关键词。
在本实施例中,m=20,n=0.9,即判断是否连续20帧预测概率值大于0.9,如是,则判定检测到关键词,反之则判定没有检测到关键词。
本发明将预处理后的数据进行归一化通道能量特征的提取,采用归一化通道能量特征检测,归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测;在检测模型中,在模型的选择上增加了一层卷积神经网络,检测效率和精度更高,整体的计算量更少。
在另外一个实施例中,还包括模型训练方法:
信息提取:
S3.1、对语音数据进行预处理;
S3.2、提取预处理后的数据的归一化通道能量(PCEN)特征,得到可以进行训练的数据,此时输入为40个,进入CGA神经网络训练;
神经网络(CGA):
S2.1、如图3所示,卷积神经网络(CNN)使用卷积核若干,卷积核大小固定,每一个卷积核在PCEN特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到CNN层的输出;
S2.2、如图4所示,使用一层门控循环单元(GRU)神经元,对CNN层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;
S2.3、GRU的状态经过注意力机制(Attent i on)层的变换得出一个重要性权重,与GRU当前帧的状态做内积后,得到最终的预测概率值;
将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值 loss,并进行反向传播。
在另外一个实施例中,对语音数据进行预处理包括以下步骤:
预加重;
加窗。
在另外一个实施例中,提取预处理后的数据的PCEN特征包括以下步骤:
进行短时快速傅里叶变换(FFT),将信号分离到不同的子带;
计算不同子带的能量;
生成相应的梅尔滤波器对子带进行滤波;梅尔滤波函数如下:
Figure 2
提取PCEN特征。
在另外一个实施例中,提取PCEN特征的函数如下:
Figure 3
在另外一个实施例中,预加重因子为0.97,即每个采样点减去上一个采样点的97%。
在另外一个实施例中,使用汉明窗进行加窗,汉明窗函数如下:
Figure BDA0002582827100000062
可防止频率泄露。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种单声道语音关键词低功耗实时检测方法,其特征在于,包括以下步骤:
a、对语音数据进行预处理;
b、提取预处理后的数据的归一化通道能量特征,得到待检测数据;
c、利用若干大小固定的卷积核,在归一化通道能量特征上做内积后,根据指定的步进进行卷积,拼接所有内积结果,得到卷积神经网络层的输出特征;
d、对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,得到当前帧的新状态;
e、门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;
f、判断是否连续m帧预测概率值大于n,如是,则判定检测到关键词,反之则判定没有检测到关键词。
2.根据权利要求1所述的单声道语音关键词低功耗实时检测方法,其特征在于,在步骤a之前,还包括模型训练方法:
s1、对语音数据进行预处理;
s2、提取预处理后的数据的归一化通道能量特征,得到待训练数据;
s3、利用若干大小固定的卷积核,在归一化通道能量特征上做内积后,根据指定的步进进行卷积,拼接所有内积结果,得到卷积神经网络层的输出特征;
s4、使用一层门控循环单元神经元,对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;
s5、门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;
s6、将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值,并进行反向传播。
3.根据权利要求1或2所述的单声道语音关键词低功耗实时检测方法,其特征在于,所述步骤a和步骤s1中的预处理包括以下步骤:
y1、对接收到的每一帧数据进行预加重;
y2、基于汉明窗函数进行数据加窗。
4.根据权利要求1或2或所述的单声道语音关键词低功耗实时检测方法,其特征在于,所述步骤b和步骤s2中提取预处理后的数据的归一化通道能量特征包括以下步骤:
t1、进行短时快速傅里叶变换,将信号分离到不同的子带;
t2、计算不同子带的能量;
t3、生成相应的梅尔滤波器对子带进行滤波;
t4、提取归一化通道能量特征。
5.根据权利要求4所述的单声道语音关键词低功耗实时检测方法,其特征在于,所述步骤t4中提取归一化通道能量特征的函数如下:
Figure FDA0002582827090000021
6.根据权利要求3所述的单声道语音关键词低功耗实时检测方法,其特征在于,所述步骤y1中的预加重因子为0.97。
7.根据权利要求3所述的单声道语音关键词低功耗实时检测方法,其特征在于,所述步骤y2中的汉明窗函数如下:
Figure FDA0002582827090000022
CN202010672476.5A 2020-07-14 2020-07-14 一种单声道语音关键词低功耗实时检测方法 Pending CN111862957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672476.5A CN111862957A (zh) 2020-07-14 2020-07-14 一种单声道语音关键词低功耗实时检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672476.5A CN111862957A (zh) 2020-07-14 2020-07-14 一种单声道语音关键词低功耗实时检测方法

Publications (1)

Publication Number Publication Date
CN111862957A true CN111862957A (zh) 2020-10-30

Family

ID=72984327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672476.5A Pending CN111862957A (zh) 2020-07-14 2020-07-14 一种单声道语音关键词低功耗实时检测方法

Country Status (1)

Country Link
CN (1) CN111862957A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的系统和方法
CN108735202A (zh) * 2017-03-13 2018-11-02 百度(美国)有限责任公司 用于小占用资源关键词检索的卷积递归神经网络
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN110767223A (zh) * 2019-09-30 2020-02-07 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN110853630A (zh) * 2019-10-30 2020-02-28 华南师范大学 面向边缘计算的轻量级语音识别方法
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的系统和方法
CN108735202A (zh) * 2017-03-13 2018-11-02 百度(美国)有限责任公司 用于小占用资源关键词检索的卷积递归神经网络
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN110767223A (zh) * 2019-09-30 2020-02-07 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN110853630A (zh) * 2019-10-30 2020-02-28 华南师范大学 面向边缘计算的轻量级语音识别方法

Similar Documents

Publication Publication Date Title
CN111933188B (zh) 一种基于卷积神经网络的声音事件检测方法
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
US20190115011A1 (en) Detecting keywords in audio using a spiking neural network
US11069352B1 (en) Media presence detection
WO2019019252A1 (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
Weninger et al. Deep Learning Based Mandarin Accent Identification for Accent Robust ASR.
CN106940998A (zh) 一种设定操作的执行方法及装置
CN109243446A (zh) 一种基于rnn网络的语音唤醒方法
CN105139864A (zh) 语音识别方法和装置
CN105374352A (zh) 一种语音激活方法及系统
CN111312245A (zh) 一种语音应答方法、装置和存储介质
CN110570873A (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN111063336A (zh) 一种基于深度学习的端对端语音识别系统
US11741948B2 (en) Dilated convolutions and gating for efficient keyword spotting
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Lu et al. Deep convolutional neural network with transfer learning for environmental sound classification
Iqbal et al. General-purpose audio tagging from noisy labels using convolutional neural networks
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
Jiang et al. Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit.
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
CN111862957A (zh) 一种单声道语音关键词低功耗实时检测方法
Wang et al. A fusion model for robust voice activity detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination