CN111653276A - 一种语音唤醒系统及方法 - Google Patents
一种语音唤醒系统及方法 Download PDFInfo
- Publication number
- CN111653276A CN111653276A CN202010573699.6A CN202010573699A CN111653276A CN 111653276 A CN111653276 A CN 111653276A CN 202010573699 A CN202010573699 A CN 202010573699A CN 111653276 A CN111653276 A CN 111653276A
- Authority
- CN
- China
- Prior art keywords
- voice
- wake
- awakening
- activated
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000004913 activation Effects 0.000 claims description 16
- 102100032202 Cornulin Human genes 0.000 claims description 6
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 5
- 230000002618 waking effect Effects 0.000 abstract 5
- 238000013500 data storage Methods 0.000 abstract 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种语音唤醒系统及方法,所述系统包括语音数据获取模块,用于接收语音数据并存储、更新至缓存区;语音特征提取模块,用于对缓存区的语音数据进行降噪处理并按帧提取语音特征;特殊标记预测模块,用于对语音特征预测其标记概率序列;局部判决模块,用于对预测的标记序列进行局部计算,判决是否唤醒或做二次唤醒判定。本发明在正负样本分类的基础上,预测每一帧为非激活、待激活、激活标记的概率,采用滑动窗口,只在激活词的尾部进行唤醒,有效降低了语音唤醒过程中误唤醒、提前唤醒的概率,同时采取接收端降噪以及在训练数据中加噪的方式,有效增强了噪声环境下语音唤醒的鲁棒性,使语音唤醒系统更为稳定、有效。
Description
技术领域
本发明涉及语音处理技术,具体涉及一种语音唤醒系统及方法。
背景技术
语音唤醒技术是指用户通过说出唤醒词来使智能设备从休眠状态进入激活状态,目前该技术已经得到了广泛的应用。传统的语音唤醒方法主要以正负样本作为分类标签,对检测语音提取音频特征,采用二分类网络对是否唤醒进行判决。使用传统的方法在在某些情境下容易存在误唤醒、提前唤醒的问题,比如激活词为“Hey Eva”,存在被“Hey”、“Eva”等词激活的情况。此外,噪声环境下对语音唤醒有较大影响,使得唤醒成功率较低。
发明内容
为了解决上述技术问题,本发明提出了一种语音唤醒系统及方法,该系统及方法可以解决在语音唤醒过程中误唤醒、提前唤醒以及在噪声环境下唤醒成功率较低的问题。
本发明解决上述技术问题采用的技术方案为:
一种语音唤醒系统,包括语音数据获取模块、语音特征提取模块、特殊标记预测模块以及局部判决模块;
所述语音数据获取模块,用于接收语音数据并存储、更新至缓存区;
所述语音特征提取模块,用于对缓存区的语音数据进行降噪处理并按帧提取语音特征;
所述特殊标记预测模块,用于对语音特征预测其标记概率序列;
所述局部判决模块,用于对预测的标记序列进行局部计算,判决是否唤醒或做二次唤醒判定。
本发明还提供了一种语音唤醒方法,包括训练阶段和唤醒阶段,其中训练阶段包括以下步骤:
S11.准备训练的语音数据集;
S12.正样本端点检测处理,训练集加噪处理;
S13.训练集声学特征提取,对样本进行特殊标记;
S14.将语音特征、标记序列共同输入语音唤醒模型训练;
唤醒阶段包括以下步骤:
S21.获取语音数据;
S22.降噪处理,按帧对处理后的语音数据进行特征提取;
S23.将语音特征输入语音唤醒模型,预测每一帧为特殊标记的概率;
S24.采用滑动窗口对预测的标记序列进行局部计算,判决是否唤醒或做二次唤醒判定。
进一步的技术方案为,所述步骤S11中的语音数据集包括不同环境下录制的正样本、负样本数据以及随机噪声数据,同时划分为训练集和测试集,所述正样本为唤醒词。
进一步的技术方案为,所述步骤S12具体为采用VAD算法对正样本唤醒词进行端点检测,并剪去端点范围外的音频;对训练集加入不同信噪比的随机噪声得到加噪训练集。
进一步的技术方案为,所述步骤S13具体为确定窗口大小,在正样本语音特征尾部端点之后再填充与窗口大小相同的随机噪声或填充零;在加噪训练集中随机选取负样本与正样本进行拼接,并加窗、分帧提取语音特征,得到输入特征X;提取的语音特征为MFCC特征;正样本末尾特殊标记方式为以尾部端点为中心,在前后各一个窗口大小的范围内标记为激活,其余范围标记为待激活,负样本则全部标记为非激活,得到输入标签Y。
进一步的技术方案为,所述步骤S14具体为将语音特征、标记序列共同输入语音唤醒模型进行训练,采用不同的阈值、窗口大小,在测试集上调试得到ROC曲线并分析出得到最佳阈值以及最佳窗口大小;所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN中的任意一种。
进一步的技术方案为,所述步骤S21具体为由人为设定数据块大小,按帧获取语音数据,同时存储并更新到缓存区,缓存区存储帧数与唤醒词的时长接近,也可人为设定,缓存区的更新按照先入先出的原则。
进一步的技术方案为,所述步骤S22具体为降噪处理为基于频谱噪声估计以及深度学习去噪算法;提取的声学特征为MFCC特征。
进一步的技术方案为,所述步骤S23具体为将语音特征输入到预训练的语音唤醒模型,预测每一帧为非激活、待激活、激活标记的概率;所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN模型中的任意一种。
进一步的技术方案为,所述步骤S24具体为若滑动窗口内平均值大于激活阈值,则判决为唤醒;若滑动窗口内平均值介于激活阈值与待激活阈值,并且此后窗口小于待激活阈值,则将待激活的语音帧片段用语音唤醒网络做二次判定,再判决是否唤醒。
与现有技术相比,本发明具有如下有益效果:本发明提供的语音唤醒系统及方法,在在正负样本分类的基础上,对正样本采取了特殊标记,正样本的尾部标记为激活,其余部分标记为待激活,并采用滑动窗口对局部进行判决是否唤醒,将未激活的待激活片段利用语音唤醒网络作二次判定,有效降低了语音唤醒过程中误唤醒、提前唤醒的概率,同时采取接收端降噪以及在训练数据中加噪的方式,有效增强了噪声环境下语音唤醒的鲁棒性,使语音唤醒系统更为稳定、有效。
附图说明
图1为本发明实施例所述语音唤醒方法的流程示意图;
图2为本发明实施例所述获取语音数据的流程示意图;
图3为本发明实施例所述特殊标记处理流程示意图;
图4为本发明实施例所述局部唤醒判决流程示意图。
具体实施方式
下面将结合附图和具体实施例对本发明的实施方式进行详细描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解的,本发明不受这里描述的实施例的限制。
实施例1
本发明所述的一种语音唤醒方法,如图1所示,在训练阶段包括以下步骤:
S11.准备训练的语音数据集;
训练数据集包括不同环境下录制的正样本(唤醒词)、负样本数据以及随机噪声数据,同时划分为训练集和测试集。
S12.正样本端点检测处理,训练集加噪处理;
采用VAD算法对正样本唤醒词进行端点检测,并剪去端点范围外的背景音频;对训练集加入不同信噪比的随机噪声得到加噪训练集。
S13.训练集声学特征提取,对样本进行特殊标记;
确定窗口大小,在正样本语音特征尾部端点之后再填充与窗口大小相同的随机噪声或填充零;在加噪训练集中随机选取负样本与正样本进行拼接,并加窗、分帧提取语音特征,得到输入特征X;提取的语音特征包括但不限于MFCC特征;正样本末尾特殊标记方式为以尾部端点为中心,在前后各一个窗口大小的范围内标记为激活,其余范围标记为待激活,负样本则全部标记为非激活,得到输入标签Y。
具体的,样本特殊标记方式如图3所示,在本实施例中窗口的大小选为15帧,在正样本末尾端点之后再填充15帧大小的随机噪声,将正样本拼接到负样本的末尾,然后加窗分帧得到X;将正样本端点处前后2倍窗口大小的范围语音帧对应为激活标记,标记为1;负样本语音帧对应为非激活标记,标记为0;其余正样本语音帧对应为待激活标记,标记为0.5(根据具体需求可标记为0~1之间)。
S14.将语音特征、标记序列共同输入语音唤醒模型训练;
语音唤醒模型包括但不限于LSTM、WaveNet、CNN、CRNN等模型。将语音特征、标记序列共同输入语音唤醒模型进行训练,采用不同的阈值以及窗口大小,在测试集上调试得到ROC曲线并分析出得到最佳阈值以及最佳窗口大小。
唤醒阶段包括以下步骤:
S21.获取语音数据;
本实施例中,所述获取语音数据的方式如图2所示,由人为设定数据块(chunksize)大小,按帧获取语音数据,同时存储并更新到缓存区,缓存区存储帧数一般与唤醒词的时长接近,也可人为设定,缓存区的更新按照先入先出的原则。
S22.降噪处理,按帧对处理后的语音数据进行特征提取;
降噪处理包括但不限于基于频谱噪声估计以及深度学习去噪等算法;提取的声学特征包括但不限于MFCC特征。
S23.将语音特征输入语音唤醒模型,预测每一帧为特殊标记的概率;
语音唤醒模型包括但不限于LSTM、WaveNet、CNN、CRNN等模型;将语音特征输入到预训练的语音唤醒模型,预测每一帧为非激活、待激活、激活标记的概率。
S24.采用滑动窗口对预测的标记序列进行局部计算,判决是否唤醒或做二次唤醒判定。
确定激活以及待激活的阈值,若滑动窗口内判定为激活,则判决为唤醒;若滑动窗口内判定为待激活,并且之后无判定为激活,则将待激活的语音帧片段用语音唤醒网络做二次判定,再判决是否唤醒。
具体的,在本实施例中,选定滑动窗口大小为30帧,窗口内的平均概率为s,利用滑动窗口对预测的标记概率序列进行判决,激活阈值为0.9,待激活阈值为0.5,非激活阈值为0.1,若s>0.9则为激活片段,若s介于0.5~0.9则为待激活片段,若s<0.1则为非激活片段,激活判决的详细方式参照图3。
通过本实施例1提供的一种语音唤醒的方法,通过对训练集进行特殊标记处理,采用滑动窗口对局部进行唤醒判决,有效降低了误唤醒、提前唤醒的问题,同时,通过在训练集中加入不同信噪比的噪声,在唤醒阶段对语音数据降噪处理,有效降低了噪声的影响。
实施例2
本发明实施例所述的一种语音唤醒的装置,包括:
语音数据获取模块,用于接收语音数据并存储、更新至缓存区;
如图2所示,由人为设定数据块(chunk size)大小,按帧获取语音数据,同时存储并更新到缓存区,缓存区存储帧数一般与唤醒词的时长接近,也可人为设定。可理解的是,缓存区的更新按照先入先出的原则。
语音特征提取模块,用于对缓存区的语音数据进行降噪处理并按帧提取语音特征;
降噪处理包括但不限于基于频谱噪声估计以及深度学习去噪等算法;提取的语音特征包括但不限于MFCC特征。
特殊标记预测模块,用于对语音特征预测其标记概率序列;
可理解的是,对每一帧的语音特征预测相应的标记概率。
局部判决模块,用于对预测的标记序列进行局部计算,判决是否唤醒。
如图4所示,确定激活、待激活的阈值,若滑动窗口内平均值大于激活阈值,则判决为唤醒;若滑动窗口内平均值介于激活阈值与待激活阈值,并且此后窗口小于待激活阈值,则将待激活的语音帧片段用语音唤醒网络做二次判定,再判决是否唤醒。
通过本实施例2提供的种语音唤醒的装置,有效降低了误唤醒、提前唤醒,通过训练阶段对训练集加入了不同信噪比的噪声,在接收端进行降噪处理,使得该装置对噪声有一定的鲁棒性。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (10)
1.一种语音唤醒系统,其特征在于,包括语音数据获取模块、语音特征提取模块、特殊标记预测模块以及局部判决模块;
所述语音数据获取模块,用于接收语音数据并存储、更新至缓存区;
所述语音特征提取模块,用于对缓存区的语音数据进行降噪处理并按帧提取语音特征;
所述特殊标记预测模块,用于对语音特征预测其标记概率序列;
所述局部判决模块,用于对预测的标记序列进行局部计算,判决是否唤醒或做二次唤醒判定。
2.一种语音唤醒方法,其特征在于,包括训练阶段和唤醒阶段,其中训练阶段包括以下步骤:
S11.准备训练的语音数据集;
S12.正样本端点检测处理,训练集加噪处理;
S13.训练集声学特征提取,对样本进行特殊标记;
S14.将语音特征、标记序列共同输入语音唤醒模型训练;
唤醒阶段包括以下步骤:
S21.获取语音数据;
S22.降噪处理,按帧对处理后的语音数据进行特征提取;
S23.将语音特征输入语音唤醒模型,预测每一帧为特殊标记的概率;
S24.采用滑动窗口对预测的标记序列进行局部计算,判决是否唤醒或做二次唤醒判定。
3.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S11中的语音数据集包括不同环境下录制的正样本、负样本数据以及随机噪声数据,同时划分为训练集和测试集,所述正样本为唤醒词。
4.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S12具体为采用VAD算法对正样本唤醒词进行端点检测,并剪去端点范围外的音频;对训练集加入不同信噪比的随机噪声得到加噪训练集。
5.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S13具体为确定窗口大小,在正样本语音特征尾部端点之后再填充与窗口大小相同的随机噪声或填充零;在加噪训练集中随机选取负样本与正样本进行拼接,并加窗、分帧提取语音特征,得到输入特征X;提取的语音特征为MFCC特征;正样本末尾特殊标记方式为以尾部端点为中心,在前后各一个窗口大小的范围内标记为激活,其余范围标记为待激活,负样本则全部标记为非激活,得到输入标签Y。
6.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S14具体为将语音特征、标记序列共同输入语音唤醒模型进行训练,采用不同的阈值、窗口大小,在测试集上调试得到ROC曲线并分析出得到最佳阈值以及最佳窗口大小;所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN中的任意一种。
7.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S21具体为由人为设定数据块大小,按帧获取语音数据,同时存储并更新到缓存区,缓存区存储帧数与唤醒词的时长接近,也可人为设定,缓存区的更新按照先入先出的原则。
8.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S22具体为降噪处理为基于频谱噪声估计以及深度学习去噪算法;提取的声学特征为MFCC特征。
9.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S23具体为将语音特征输入到预训练的语音唤醒模型,预测每一帧为非激活、待激活、激活标记的概率;所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN模型中的任意一种。
10.根据权利要求2所述的语音唤醒方法,其特征在于,所述步骤S24具体为若滑动窗口内平均值大于激活阈值,则判决为唤醒;若滑动窗口内平均值介于激活阈值与待激活阈值,并且此后窗口小于待激活阈值,则将待激活的语音帧片段用语音唤醒网络做二次判定,再判决是否唤醒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573699.6A CN111653276B (zh) | 2020-06-22 | 2020-06-22 | 一种语音唤醒系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573699.6A CN111653276B (zh) | 2020-06-22 | 2020-06-22 | 一种语音唤醒系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111653276A true CN111653276A (zh) | 2020-09-11 |
CN111653276B CN111653276B (zh) | 2022-04-12 |
Family
ID=72348963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010573699.6A Active CN111653276B (zh) | 2020-06-22 | 2020-06-22 | 一种语音唤醒系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111653276B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933114A (zh) * | 2020-10-09 | 2020-11-13 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN112365899A (zh) * | 2020-10-30 | 2021-02-12 | 北京小米松果电子有限公司 | 语音处理方法、装置、存储介质及终端设备 |
CN113012697A (zh) * | 2021-03-05 | 2021-06-22 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113516981A (zh) * | 2021-03-31 | 2021-10-19 | 深圳鱼亮科技有限公司 | 一种基于无线分布式麦克风阵列的语音唤醒决策系统 |
CN113628622A (zh) * | 2021-08-24 | 2021-11-09 | 北京达佳互联信息技术有限公司 | 语音交互方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3878337A (en) * | 1970-03-13 | 1975-04-15 | Communications Satellite Corp | Device for speech detection independent of amplitude |
US7292982B1 (en) * | 2003-05-29 | 2007-11-06 | At&T Corp. | Active labeling for spoken language understanding |
CN105374352A (zh) * | 2014-08-22 | 2016-03-02 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
US20160077574A1 (en) * | 2014-09-11 | 2016-03-17 | Nuance Communications, Inc. | Methods and Apparatus for Unsupervised Wakeup with Time-Correlated Acoustic Events |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
AU2014277847A1 (en) * | 2014-12-22 | 2016-07-07 | Canon Kabushiki Kaisha | A method or computing device for configuring parameters of a feature extractor |
CN108335696A (zh) * | 2018-02-09 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
US20180286396A1 (en) * | 2017-03-29 | 2018-10-04 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for processing speech instruction |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
CN110364143A (zh) * | 2019-08-14 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置及其智能电子设备 |
CN110428810A (zh) * | 2019-08-30 | 2019-11-08 | 北京声智科技有限公司 | 一种语音唤醒的识别方法、装置及电子设备 |
CN110473539A (zh) * | 2019-08-28 | 2019-11-19 | 苏州思必驰信息科技有限公司 | 提升语音唤醒性能的方法和装置 |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110634497A (zh) * | 2019-10-28 | 2019-12-31 | 普联技术有限公司 | 降噪方法、装置、终端设备及存储介质 |
-
2020
- 2020-06-22 CN CN202010573699.6A patent/CN111653276B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3878337A (en) * | 1970-03-13 | 1975-04-15 | Communications Satellite Corp | Device for speech detection independent of amplitude |
US7292982B1 (en) * | 2003-05-29 | 2007-11-06 | At&T Corp. | Active labeling for spoken language understanding |
CN105374352A (zh) * | 2014-08-22 | 2016-03-02 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
US20160077574A1 (en) * | 2014-09-11 | 2016-03-17 | Nuance Communications, Inc. | Methods and Apparatus for Unsupervised Wakeup with Time-Correlated Acoustic Events |
AU2014277847A1 (en) * | 2014-12-22 | 2016-07-07 | Canon Kabushiki Kaisha | A method or computing device for configuring parameters of a feature extractor |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
US20180286396A1 (en) * | 2017-03-29 | 2018-10-04 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for processing speech instruction |
CN108335696A (zh) * | 2018-02-09 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
CN110364143A (zh) * | 2019-08-14 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置及其智能电子设备 |
CN110473539A (zh) * | 2019-08-28 | 2019-11-19 | 苏州思必驰信息科技有限公司 | 提升语音唤醒性能的方法和装置 |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110428810A (zh) * | 2019-08-30 | 2019-11-08 | 北京声智科技有限公司 | 一种语音唤醒的识别方法、装置及电子设备 |
CN110634497A (zh) * | 2019-10-28 | 2019-12-31 | 普联技术有限公司 | 降噪方法、装置、终端设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
JUAN SEBASTIAN P.GIRALDO,ET AL.: "Vocell: A 65-nm Speech-Triggered Wake-Up SoC for 10- μ W Keyword Spotting and Speaker Verification", 《IEEE JOURNAL OF SOLID-STATE CIRCUITS》 * |
XINMAN ZHANG ET AL.: "An Efficient Android-Based Multimodal Biometric Authentication System With Face and Voice", 《IEEE ACCESS》 * |
李文凤: "基于状态后验概率的语音唤醒识别系统", 《2016年全国声学学术会议》 * |
郭瑜: "基于深度学习的唤醒词识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933114A (zh) * | 2020-10-09 | 2020-11-13 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN111933114B (zh) * | 2020-10-09 | 2021-02-02 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN112365899A (zh) * | 2020-10-30 | 2021-02-12 | 北京小米松果电子有限公司 | 语音处理方法、装置、存储介质及终端设备 |
CN113012697A (zh) * | 2021-03-05 | 2021-06-22 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113516981A (zh) * | 2021-03-31 | 2021-10-19 | 深圳鱼亮科技有限公司 | 一种基于无线分布式麦克风阵列的语音唤醒决策系统 |
CN113628622A (zh) * | 2021-08-24 | 2021-11-09 | 北京达佳互联信息技术有限公司 | 语音交互方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111653276B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111653276B (zh) | 一种语音唤醒系统及方法 | |
EP3522153B1 (en) | Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor | |
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
CN107123417B (zh) | 基于鉴别性训练的定制语音唤醒优化方法及系统 | |
US11094324B2 (en) | Accumulative multi-cue activation of domain-specific automatic speech recognition engine | |
CN107622770B (zh) | 语音唤醒方法及装置 | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN110890093B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
EP2932500B1 (en) | Speech recognition power management | |
KR102317608B1 (ko) | 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 | |
US9026444B2 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
US20160300568A1 (en) | Initiating actions based on partial hotwords | |
KR20160007527A (ko) | 타깃 키워드를 검출하기 위한 방법 및 장치 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN109686368B (zh) | 语音唤醒应答处理方法及装置、电子设备及存储介质 | |
CN110349579B (zh) | 语音唤醒处理方法及装置、电子设备及存储介质 | |
CN105700660A (zh) | 具有与核域不同的唤醒模块的电子设备 | |
CN104781862A (zh) | 实时交通检测 | |
CN105869622B (zh) | 中文热词检测方法和装置 | |
JP4521673B2 (ja) | 発話区間検出装置、コンピュータプログラム及びコンピュータ | |
CN111599352B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN111862963B (zh) | 语音唤醒方法、装置和设备 | |
KR100429896B1 (ko) | 잡음 환경에서의 음성신호 검출방법 및 그 장치 | |
US20210210109A1 (en) | Adaptive decoder for highly compressed grapheme model | |
CN114333794A (zh) | 语音唤醒方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |