CN109243446A - 一种基于rnn网络的语音唤醒方法 - Google Patents

一种基于rnn网络的语音唤醒方法 Download PDF

Info

Publication number
CN109243446A
CN109243446A CN201811163578.3A CN201811163578A CN109243446A CN 109243446 A CN109243446 A CN 109243446A CN 201811163578 A CN201811163578 A CN 201811163578A CN 109243446 A CN109243446 A CN 109243446A
Authority
CN
China
Prior art keywords
rnn
network
method based
voice
voice awakening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811163578.3A
Other languages
English (en)
Inventor
曾志先
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201811163578.3A priority Critical patent/CN109243446A/zh
Publication of CN109243446A publication Critical patent/CN109243446A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开一种基于RNN网络的语音唤醒方法,包括如下步骤:步骤1,采用麦克风实时采集用户语音,并提取其40维的MFCC特征;步骤2,将MFCC特征数据进行数值标准化处理;步骤3,将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中,判断该音频数据是否为关键词。此种语音唤醒方法可实现实时监测用户关键词,当用户的语音中包含关键词的时候,设备就会激活并开始监听用户语音。

Description

一种基于RNN网络的语音唤醒方法
技术领域
本发明属于语音识别技术领域,特别涉及一种基于RNN网络的语音唤醒方法。
背景技术
随着语音识别技术的不断发展,越来越多的智能设备实现通过语音来进行交互,其中语音唤醒就是语音交互中非常重要的一个环节。
语音唤醒系统是通过用户说出唤醒词,从而实现激活设备并使设备切换到工作状态的方式,语音唤醒的作用在于让用户直接通过语音来与设备进行交互,提高交互的便捷性与效率。
目前的语音唤醒技术主要基于GMM-HMM系统,该系统的主要问题就是激活效率不高,功耗较高,不适用于低功耗的设备使用。
基于以上分析,本发明人针对语音唤醒技术进行深入研究,本案由此产生。
发明内容
本发明的目的,在于提供一种基于RNN网络的语音唤醒方法,其可实现实时监测用户关键词,当用户的语音中包含关键词的时候,设备就会激活并开始监听用户语音。
为了达成上述目的,本发明的解决方案是:
一种基于RNN网络的语音唤醒方法,包括如下步骤:
步骤1,采用麦克风实时采集用户语音,并提取其40维的MFCC特征;
步骤2,将MFCC特征数据进行数值标准化处理;
步骤3,将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中,判断该音频数据是否为关键词。
上述步骤1中,采用pyaudio工具,通过循环的方式监听麦克风的音频数据,时隔一秒保存音频数据为字符串格式的一个数组,利用numpy工具的frombuffer将字符串数据转为数值形式;再通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征。
上述步骤2的具体过程是:首先通过numpy的mean方法计算平均值,然后通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)/标准差。
上述步骤3中,训练RNN循环神经网络的方法是:通过Google语音命令集训练网络,将go和house语音作为正样本,其他所有语言作为负样本,准备2000个语音作为正样本,10000个语音作为负样本,将80%数据作为训练集,20%的数据作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次。
上述步骤3中,使用3层GRU结构的RNN循环网络,隐藏层神经元个数300,输出两个数值,第一个数值是当前语音音频是关键词的分数,第二个数值是当前语音音频为非关键词的分数,结合前后的信息来做出概率的判断。
上述步骤3中,通过SoftMax将RNN循环神经网络输出层的两个数值转为概率,从而将RNN循环神经网络输出的数值转为0-1的范围中,从而根据这个0-1的概率值来作为判断结果。
还将几次的概率结果进行计算平均值,将平均值作为最后的判断结果,如果平均后概率超过先前设置的阈值,那么就将该音频数据判断为是关键词。
采用上述方案后,本发明的有益效果是:
(1)本发明实现端到端的网络结构,输入音频数据之后直接就可以输出关键词的判断结果,省去传统语音唤醒系统的解码过程;
(2)本发明实现网络结构简洁,能够实现低运算量,高准确率,适用于低功耗的智能设备。
附图说明
图1是本发明的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1所示,本发明提供一种基于RNN网络的语音唤醒方法,包括如下步骤:
(1)麦克风实时采集用户语音,本实施例中用到的是pyaudio工具,通过循环的方式来监听麦克风的音频数据,时隔一秒保存音频数据为一个数组,因为pyaudio采集到的数据为字符串格式,所以我们通过numpy工具的frombuffer将字符串数据转为数值形式;
(2)通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征,通过MFCC特征来进行模型的训练;
(3)将音频MFCC特征数据进行数值标准化处理,首先通过numpy的mean方法来计算平均值,接下来通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)/标准差;
(4)然后将所有预处理过后的MFCC特征数据传入已经训练好的RNN循环神经网络当中,判断该音频数据是否为关键词;
(5)在本实施例中,通过Google语音命令集来训练网络,将go和house语音作为正样本,其他所有语言作为负样本,准备2000个语音作为正样本,10000个语音作为负样本,将80%数据作为训练集,20%的数据作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次;
(6)使用3层GRU结构的RNN循环网络,隐藏层神经元个数300,输出两个数值,第一个数值是当前语音音频是关键词的分数,第二个数值是当前语音音频为非关键词的分数,之所以使用RNN网络来作为网络结构,是因为RNN可以充分利用时序方面的信息,结合前后的信息来做出概率的判断,而音频数据恰好就是建立在时序关系上面的;
(7)通过SoftMax将输出层的两个数值转为概率,概率的意义为当前音频数据是关键词的概率为多少,为非关键词的概率是多少,SoftMax计算方式用意在于可以将RNN循环网络输出的数值转为0-1的范围中,从而可以根据这个0-1的概率值来作为判断结果;
(8)将几次的概率结果进行计算平均值,这个步骤称为概率平滑,我们需要考虑到多个判断结果,从而中和考虑,将平均值作为最后的判断结果,如果平均后概率超过先前设置的阈值,那么就将该音频数据判断为是关键词,一般阈值设置为0.5,可以根据不断的实验来调整阈值,如果误警率过高,那么调高阈值,如果拒绝率太高,那么就调低阈值。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于RNN网络的语音唤醒方法,其特征在于包括如下步骤:
步骤1,采用麦克风实时采集用户语音,并提取其40维的MFCC特征;
步骤2,将MFCC特征数据进行数值标准化处理;
步骤3,将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中,判断该音频数据是否为关键词。
2.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤1中,采用pyaudio工具,通过循环的方式监听麦克风的音频数据,时隔一秒保存音频数据为字符串格式的一个数组,利用numpy工具的frombuffer将字符串数据转为数值形式;再通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征。
3.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤2的具体过程是:首先通过numpy的mean方法计算平均值,然后通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)/标准差。
4.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤3中,训练RNN循环神经网络的方法是:通过Google语音命令集训练网络,将go和house语音作为正样本,其他所有语言作为负样本,准备2000个语音作为正样本,10000个语音作为负样本,将80%数据作为训练集,20%的数据作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次。
5.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤3中,使用3层GRU结构的RNN循环网络,隐藏层神经元个数300,输出两个数值,第一个数值是当前语音音频是关键词的分数,第二个数值是当前语音音频为非关键词的分数,结合前后的信息来做出概率的判断。
6.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤3中,通过SoftMax将RNN循环神经网络输出层的两个数值转为概率,从而将RNN循环神经网络输出的数值转为0-1的范围中,从而根据这个0-1的概率值来作为判断结果。
7.如权利要求6所述的一种基于RNN网络的语音唤醒方法,其特征在于:还将几次的概率结果进行计算平均值,将平均值作为最后的判断结果,如果平均后概率超过先前设置的阈值,那么就将该音频数据判断为是关键词。
CN201811163578.3A 2018-10-01 2018-10-01 一种基于rnn网络的语音唤醒方法 Pending CN109243446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811163578.3A CN109243446A (zh) 2018-10-01 2018-10-01 一种基于rnn网络的语音唤醒方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811163578.3A CN109243446A (zh) 2018-10-01 2018-10-01 一种基于rnn网络的语音唤醒方法

Publications (1)

Publication Number Publication Date
CN109243446A true CN109243446A (zh) 2019-01-18

Family

ID=65055669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811163578.3A Pending CN109243446A (zh) 2018-10-01 2018-10-01 一种基于rnn网络的语音唤醒方法

Country Status (1)

Country Link
CN (1) CN109243446A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872713A (zh) * 2019-03-05 2019-06-11 深圳市友杰智新科技有限公司 一种语音唤醒方法及装置
CN110310628A (zh) * 2019-06-27 2019-10-08 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN111023470A (zh) * 2019-12-06 2020-04-17 厦门快商通科技股份有限公司 空调温度调节方法、介质、设备及装置
CN111429887A (zh) * 2020-04-20 2020-07-17 合肥讯飞数码科技有限公司 基于端到端的语音关键词识别方法、装置以及设备
CN111508493A (zh) * 2020-04-20 2020-08-07 Oppo广东移动通信有限公司 语音唤醒方法、装置、电子设备及存储介质
CN111583939A (zh) * 2019-02-19 2020-08-25 富港电子(东莞)有限公司 语音识别用于特定目标唤醒的方法及装置
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN111933180A (zh) * 2020-06-28 2020-11-13 厦门快商通科技股份有限公司 音频拼接检测方法、系统、移动终端及存储介质
CN112489648A (zh) * 2020-11-25 2021-03-12 广东美的制冷设备有限公司 唤醒处理阈值调整方法、语音家电、存储介质
CN112825250A (zh) * 2019-11-20 2021-05-21 芋头科技(杭州)有限公司 语音唤醒方法、设备、存储介质及程序产品
CN113782009A (zh) * 2021-11-10 2021-12-10 中科南京智能技术研究院 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107369439A (zh) * 2017-07-31 2017-11-21 北京捷通华声科技股份有限公司 一种语音唤醒方法和装置
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN108074561A (zh) * 2017-12-08 2018-05-25 北京奇虎科技有限公司 语音处理方法及装置
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107369439A (zh) * 2017-07-31 2017-11-21 北京捷通华声科技股份有限公司 一种语音唤醒方法和装置
CN108074561A (zh) * 2017-12-08 2018-05-25 北京奇虎科技有限公司 语音处理方法及装置
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵晓群等: "语音关键词识别系统声学模型构建综述", 《燕山大学学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583939A (zh) * 2019-02-19 2020-08-25 富港电子(东莞)有限公司 语音识别用于特定目标唤醒的方法及装置
CN109872713A (zh) * 2019-03-05 2019-06-11 深圳市友杰智新科技有限公司 一种语音唤醒方法及装置
CN110310628B (zh) * 2019-06-27 2022-05-20 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN110310628A (zh) * 2019-06-27 2019-10-08 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
US11189287B2 (en) 2019-06-27 2021-11-30 Baidu Online Network Technology (Beijing) Co., Ltd. Optimization method, apparatus, device for wake-up model, and storage medium
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN112825250A (zh) * 2019-11-20 2021-05-21 芋头科技(杭州)有限公司 语音唤醒方法、设备、存储介质及程序产品
CN111023470A (zh) * 2019-12-06 2020-04-17 厦门快商通科技股份有限公司 空调温度调节方法、介质、设备及装置
CN111429887A (zh) * 2020-04-20 2020-07-17 合肥讯飞数码科技有限公司 基于端到端的语音关键词识别方法、装置以及设备
CN111508493A (zh) * 2020-04-20 2020-08-07 Oppo广东移动通信有限公司 语音唤醒方法、装置、电子设备及存储介质
CN111429887B (zh) * 2020-04-20 2023-05-30 合肥讯飞数码科技有限公司 基于端到端的语音关键词识别方法、装置以及设备
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN111933180A (zh) * 2020-06-28 2020-11-13 厦门快商通科技股份有限公司 音频拼接检测方法、系统、移动终端及存储介质
CN112489648A (zh) * 2020-11-25 2021-03-12 广东美的制冷设备有限公司 唤醒处理阈值调整方法、语音家电、存储介质
CN112489648B (zh) * 2020-11-25 2024-03-19 广东美的制冷设备有限公司 唤醒处理阈值调整方法、语音家电、存储介质
CN113782009A (zh) * 2021-11-10 2021-12-10 中科南京智能技术研究院 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统

Similar Documents

Publication Publication Date Title
CN109243446A (zh) 一种基于rnn网络的语音唤醒方法
CN106340309B (zh) 一种基于深度学习的狗叫情感识别方法及装置
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
Wang et al. Learning utterance-level representations for speech emotion and age/gender recognition using deep neural networks
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN108829667A (zh) 一种基于记忆网络的多轮对话下的意图识别方法
CN102890930B (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN110827821B (zh) 一种语音交互装置、方法和计算机可读存储介质
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN108763326A (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
WO2020181998A1 (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
Cheng et al. Speech emotion recognition using gaussian mixture model
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
Liu et al. Group gated fusion on attention-based bidirectional alignment for multimodal emotion recognition
CN105427869A (zh) 一种基于深度学习的会话情感自动分析方法
CN109887511A (zh) 一种基于级联dnn的语音唤醒优化方法
CN105374352A (zh) 一种语音激活方法及系统
CN109243492A (zh) 一种语音情感识别系统及识别方法
CN109192210A (zh) 一种语音识别的方法、唤醒词检测的方法及装置
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN110570873A (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
Yılmaz et al. Deep convolutional spiking neural networks for keyword spotting
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
Chen et al. Distilled binary neural network for monaural speech separation
Deng et al. Confidence measures for speech emotion recognition: A start

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118

RJ01 Rejection of invention patent application after publication