CN109243446A - 一种基于rnn网络的语音唤醒方法 - Google Patents
一种基于rnn网络的语音唤醒方法 Download PDFInfo
- Publication number
- CN109243446A CN109243446A CN201811163578.3A CN201811163578A CN109243446A CN 109243446 A CN109243446 A CN 109243446A CN 201811163578 A CN201811163578 A CN 201811163578A CN 109243446 A CN109243446 A CN 109243446A
- Authority
- CN
- China
- Prior art keywords
- rnn
- network
- method based
- voice
- voice awakening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000000306 recurrent effect Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000000284 extract Substances 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000003134 recirculating effect Effects 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开一种基于RNN网络的语音唤醒方法,包括如下步骤:步骤1,采用麦克风实时采集用户语音,并提取其40维的MFCC特征;步骤2,将MFCC特征数据进行数值标准化处理;步骤3,将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中,判断该音频数据是否为关键词。此种语音唤醒方法可实现实时监测用户关键词,当用户的语音中包含关键词的时候,设备就会激活并开始监听用户语音。
Description
技术领域
本发明属于语音识别技术领域,特别涉及一种基于RNN网络的语音唤醒方法。
背景技术
随着语音识别技术的不断发展,越来越多的智能设备实现通过语音来进行交互,其中语音唤醒就是语音交互中非常重要的一个环节。
语音唤醒系统是通过用户说出唤醒词,从而实现激活设备并使设备切换到工作状态的方式,语音唤醒的作用在于让用户直接通过语音来与设备进行交互,提高交互的便捷性与效率。
目前的语音唤醒技术主要基于GMM-HMM系统,该系统的主要问题就是激活效率不高,功耗较高,不适用于低功耗的设备使用。
基于以上分析,本发明人针对语音唤醒技术进行深入研究,本案由此产生。
发明内容
本发明的目的,在于提供一种基于RNN网络的语音唤醒方法,其可实现实时监测用户关键词,当用户的语音中包含关键词的时候,设备就会激活并开始监听用户语音。
为了达成上述目的,本发明的解决方案是:
一种基于RNN网络的语音唤醒方法,包括如下步骤:
步骤1,采用麦克风实时采集用户语音,并提取其40维的MFCC特征;
步骤2,将MFCC特征数据进行数值标准化处理;
步骤3,将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中,判断该音频数据是否为关键词。
上述步骤1中,采用pyaudio工具,通过循环的方式监听麦克风的音频数据,时隔一秒保存音频数据为字符串格式的一个数组,利用numpy工具的frombuffer将字符串数据转为数值形式;再通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征。
上述步骤2的具体过程是:首先通过numpy的mean方法计算平均值,然后通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)/标准差。
上述步骤3中,训练RNN循环神经网络的方法是:通过Google语音命令集训练网络,将go和house语音作为正样本,其他所有语言作为负样本,准备2000个语音作为正样本,10000个语音作为负样本,将80%数据作为训练集,20%的数据作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次。
上述步骤3中,使用3层GRU结构的RNN循环网络,隐藏层神经元个数300,输出两个数值,第一个数值是当前语音音频是关键词的分数,第二个数值是当前语音音频为非关键词的分数,结合前后的信息来做出概率的判断。
上述步骤3中,通过SoftMax将RNN循环神经网络输出层的两个数值转为概率,从而将RNN循环神经网络输出的数值转为0-1的范围中,从而根据这个0-1的概率值来作为判断结果。
还将几次的概率结果进行计算平均值,将平均值作为最后的判断结果,如果平均后概率超过先前设置的阈值,那么就将该音频数据判断为是关键词。
采用上述方案后,本发明的有益效果是:
(1)本发明实现端到端的网络结构,输入音频数据之后直接就可以输出关键词的判断结果,省去传统语音唤醒系统的解码过程;
(2)本发明实现网络结构简洁,能够实现低运算量,高准确率,适用于低功耗的智能设备。
附图说明
图1是本发明的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1所示,本发明提供一种基于RNN网络的语音唤醒方法,包括如下步骤:
(1)麦克风实时采集用户语音,本实施例中用到的是pyaudio工具,通过循环的方式来监听麦克风的音频数据,时隔一秒保存音频数据为一个数组,因为pyaudio采集到的数据为字符串格式,所以我们通过numpy工具的frombuffer将字符串数据转为数值形式;
(2)通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征,通过MFCC特征来进行模型的训练;
(3)将音频MFCC特征数据进行数值标准化处理,首先通过numpy的mean方法来计算平均值,接下来通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)/标准差;
(4)然后将所有预处理过后的MFCC特征数据传入已经训练好的RNN循环神经网络当中,判断该音频数据是否为关键词;
(5)在本实施例中,通过Google语音命令集来训练网络,将go和house语音作为正样本,其他所有语言作为负样本,准备2000个语音作为正样本,10000个语音作为负样本,将80%数据作为训练集,20%的数据作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次;
(6)使用3层GRU结构的RNN循环网络,隐藏层神经元个数300,输出两个数值,第一个数值是当前语音音频是关键词的分数,第二个数值是当前语音音频为非关键词的分数,之所以使用RNN网络来作为网络结构,是因为RNN可以充分利用时序方面的信息,结合前后的信息来做出概率的判断,而音频数据恰好就是建立在时序关系上面的;
(7)通过SoftMax将输出层的两个数值转为概率,概率的意义为当前音频数据是关键词的概率为多少,为非关键词的概率是多少,SoftMax计算方式用意在于可以将RNN循环网络输出的数值转为0-1的范围中,从而可以根据这个0-1的概率值来作为判断结果;
(8)将几次的概率结果进行计算平均值,这个步骤称为概率平滑,我们需要考虑到多个判断结果,从而中和考虑,将平均值作为最后的判断结果,如果平均后概率超过先前设置的阈值,那么就将该音频数据判断为是关键词,一般阈值设置为0.5,可以根据不断的实验来调整阈值,如果误警率过高,那么调高阈值,如果拒绝率太高,那么就调低阈值。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于RNN网络的语音唤醒方法,其特征在于包括如下步骤:
步骤1,采用麦克风实时采集用户语音,并提取其40维的MFCC特征;
步骤2,将MFCC特征数据进行数值标准化处理;
步骤3,将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中,判断该音频数据是否为关键词。
2.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤1中,采用pyaudio工具,通过循环的方式监听麦克风的音频数据,时隔一秒保存音频数据为字符串格式的一个数组,利用numpy工具的frombuffer将字符串数据转为数值形式;再通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征。
3.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤2的具体过程是:首先通过numpy的mean方法计算平均值,然后通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)/标准差。
4.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤3中,训练RNN循环神经网络的方法是:通过Google语音命令集训练网络,将go和house语音作为正样本,其他所有语言作为负样本,准备2000个语音作为正样本,10000个语音作为负样本,将80%数据作为训练集,20%的数据作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次。
5.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤3中,使用3层GRU结构的RNN循环网络,隐藏层神经元个数300,输出两个数值,第一个数值是当前语音音频是关键词的分数,第二个数值是当前语音音频为非关键词的分数,结合前后的信息来做出概率的判断。
6.如权利要求1所述的一种基于RNN网络的语音唤醒方法,其特征在于:所述步骤3中,通过SoftMax将RNN循环神经网络输出层的两个数值转为概率,从而将RNN循环神经网络输出的数值转为0-1的范围中,从而根据这个0-1的概率值来作为判断结果。
7.如权利要求6所述的一种基于RNN网络的语音唤醒方法,其特征在于:还将几次的概率结果进行计算平均值,将平均值作为最后的判断结果,如果平均后概率超过先前设置的阈值,那么就将该音频数据判断为是关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811163578.3A CN109243446A (zh) | 2018-10-01 | 2018-10-01 | 一种基于rnn网络的语音唤醒方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811163578.3A CN109243446A (zh) | 2018-10-01 | 2018-10-01 | 一种基于rnn网络的语音唤醒方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109243446A true CN109243446A (zh) | 2019-01-18 |
Family
ID=65055669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811163578.3A Pending CN109243446A (zh) | 2018-10-01 | 2018-10-01 | 一种基于rnn网络的语音唤醒方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243446A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN110428845A (zh) * | 2019-07-24 | 2019-11-08 | 厦门快商通科技股份有限公司 | 合成音频检测方法、系统、移动终端及存储介质 |
CN111023470A (zh) * | 2019-12-06 | 2020-04-17 | 厦门快商通科技股份有限公司 | 空调温度调节方法、介质、设备及装置 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111508493A (zh) * | 2020-04-20 | 2020-08-07 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111583939A (zh) * | 2019-02-19 | 2020-08-25 | 富港电子(东莞)有限公司 | 语音识别用于特定目标唤醒的方法及装置 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN111933180A (zh) * | 2020-06-28 | 2020-11-13 | 厦门快商通科技股份有限公司 | 音频拼接检测方法、系统、移动终端及存储介质 |
CN112489648A (zh) * | 2020-11-25 | 2021-03-12 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
CN112825250A (zh) * | 2019-11-20 | 2021-05-21 | 芋头科技(杭州)有限公司 | 语音唤醒方法、设备、存储介质及程序产品 |
CN113782009A (zh) * | 2021-11-10 | 2021-12-10 | 中科南京智能技术研究院 | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108074561A (zh) * | 2017-12-08 | 2018-05-25 | 北京奇虎科技有限公司 | 语音处理方法及装置 |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
-
2018
- 2018-10-01 CN CN201811163578.3A patent/CN109243446A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN108074561A (zh) * | 2017-12-08 | 2018-05-25 | 北京奇虎科技有限公司 | 语音处理方法及装置 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
Non-Patent Citations (1)
Title |
---|
赵晓群等: "语音关键词识别系统声学模型构建综述", 《燕山大学学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583939A (zh) * | 2019-02-19 | 2020-08-25 | 富港电子(东莞)有限公司 | 语音识别用于特定目标唤醒的方法及装置 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110310628B (zh) * | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
US11189287B2 (en) | 2019-06-27 | 2021-11-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Optimization method, apparatus, device for wake-up model, and storage medium |
CN110428845A (zh) * | 2019-07-24 | 2019-11-08 | 厦门快商通科技股份有限公司 | 合成音频检测方法、系统、移动终端及存储介质 |
CN112825250A (zh) * | 2019-11-20 | 2021-05-21 | 芋头科技(杭州)有限公司 | 语音唤醒方法、设备、存储介质及程序产品 |
CN111023470A (zh) * | 2019-12-06 | 2020-04-17 | 厦门快商通科技股份有限公司 | 空调温度调节方法、介质、设备及装置 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111508493A (zh) * | 2020-04-20 | 2020-08-07 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111429887B (zh) * | 2020-04-20 | 2023-05-30 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN111933180A (zh) * | 2020-06-28 | 2020-11-13 | 厦门快商通科技股份有限公司 | 音频拼接检测方法、系统、移动终端及存储介质 |
CN112489648A (zh) * | 2020-11-25 | 2021-03-12 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
CN112489648B (zh) * | 2020-11-25 | 2024-03-19 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
CN113782009A (zh) * | 2021-11-10 | 2021-12-10 | 中科南京智能技术研究院 | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243446A (zh) | 一种基于rnn网络的语音唤醒方法 | |
CN106340309B (zh) | 一种基于深度学习的狗叫情感识别方法及装置 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
Wang et al. | Learning utterance-level representations for speech emotion and age/gender recognition using deep neural networks | |
CN107767863A (zh) | 语音唤醒方法、系统及智能终端 | |
CN108829667A (zh) | 一种基于记忆网络的多轮对话下的意图识别方法 | |
CN102890930B (zh) | 基于hmm/sofmnn混合模型的语音情感识别方法 | |
CN110827821B (zh) | 一种语音交互装置、方法和计算机可读存储介质 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN108763326A (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
WO2020181998A1 (zh) | 一种基于监督变分编码器因素分解的混合声音事件检测方法 | |
Cheng et al. | Speech emotion recognition using gaussian mixture model | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
Liu et al. | Group gated fusion on attention-based bidirectional alignment for multimodal emotion recognition | |
CN105427869A (zh) | 一种基于深度学习的会话情感自动分析方法 | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN109243492A (zh) | 一种语音情感识别系统及识别方法 | |
CN109192210A (zh) | 一种语音识别的方法、唤醒词检测的方法及装置 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN110570873A (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
Yılmaz et al. | Deep convolutional spiking neural networks for keyword spotting | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
Chen et al. | Distilled binary neural network for monaural speech separation | |
Deng et al. | Confidence measures for speech emotion recognition: A start |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |
|
RJ01 | Rejection of invention patent application after publication |