CN111862973A - 一种基于多命令词的语音唤醒方法及其系统 - Google Patents
一种基于多命令词的语音唤醒方法及其系统 Download PDFInfo
- Publication number
- CN111862973A CN111862973A CN202010672496.2A CN202010672496A CN111862973A CN 111862973 A CN111862973 A CN 111862973A CN 202010672496 A CN202010672496 A CN 202010672496A CN 111862973 A CN111862973 A CN 111862973A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- neural network
- voice
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000012805 post-processing Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 230000002618 waking effect Effects 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 27
- 230000007246 mechanism Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/39—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于多命令词的语音唤醒方法,接收语音数据,进行CGA模型训练,获取优选神经网络参数;接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;进行CGA神经网络训练,输出预测概率值;对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。本发明还公开了一种基于多命令词的语音唤醒系统,包括数据预处理模块、神经网络训练模块以及后处理反馈模块。本发明大大减少了数据计算量,降低了生产成本。
Description
技术领域
本发明涉及嵌入式系统语音检测技术,具体涉及一种基于多命令词的语音唤醒方法及其系统。
背景技术
通过识别语音信号反馈数据信号进行唤醒是时下电子时代急需的技术。
在现有技术中,通常在特征提取过程中采用了梅尔频率倒谱系数 (Mel-frequency cepstral coefficients)的方案,对麦克风收集到语音信号进行预加重、分帧、加窗,得到一帧一帧的语音信号,再通过短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换后得到语音信号的梅尔特征(MFCC),将这些MFCC特征视为神经网络的输入来训练模型;神经网络则采用最原始的循环神经网络(GRU),将上一层输入的MFCC 特征通过循环神经网络(GRU)各个节点的计算逻辑得出每一帧语音信号的唤醒概率,并将每一帧的唤醒概率输入到下一层注意力机制层(attention)中进行计算,并得出最终的置信度。根据不同关键词的数目,置信度的标签数目也会不同,每个标签位置就代表一个不同的关键词,其置信度数值越大,该标签所代表关键词的概率越高;置信度数值一般在(0,1)区间范围内,1代表唤醒,0 代表未唤醒。
但上述现有技术中,存在以下几点缺陷:
1、帧长相对较短,使得语音帧的数目较多,计算量大大增加;
2、使用固定好的长度来训练,往往是根据经验来决定大小,既浪费训练数据,也易造成冗余;
3、采用MFCC特征进行训练,在计算完FFT子带的能量并做梅尔滤波之后,还要进行dct变换和lifter变换得到MFCC特征,致使训练时间增加;
4、现有技术采用GA模型,神经元个数较多、层数较深,使得计算量大大增加,进而导致生产成本增加;
5、现有技术在得到预测值后,用滑窗的机制来实现逐帧逐帧的判断,滑窗机制为每有一帧数据进入网络,便从窗长开始处重新计算到当前帧,所以GRU 及之后的部分需要多计算窗长-1次,耗费计算量过大。
发明内容
基于此,针对上述问题,有必要提出一种基于多命令词的语音唤醒方法及其系统,利用麦克风收集用户的声音,对收集到的声音进行实时检测,识别出用户的指令后对设备做出相对应的反馈和控制,本方案模型训练帧长更长,模型训练长度不同,提取特征的算法更优,模型更小巧,后处理判定机制更方便,一方面大大降低了计算量,有效降低了生产成本;另一方面,能够保持语音的连续稳定性。
本发明提供了一种基于多命令词的语音唤醒方法,其技术方案如下:
一种基于多命令词的语音唤醒方法,包括以下步骤:
a、接收语音数据,进行CGA模型训练,获取优选神经网络参数;
b、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;
c、进行CGA神经网络训练,输出预测概率值;
d、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。
在本技术方案中,通过不同的地域、年龄段、性别、场景按比例收集语音数据,针对不同的需求调整训练数据比例,从而获得更好的训练效果。并在所有数据上都增加了不同的底噪,结合不同的传输函数进行数据拓展,从而模拟不同设备上的噪声,增强了在不同拾音设备上的鲁棒性。本方案通过收集语音数据,对收集到的数据进行实时数据预处理,再经神经网络识别出用户的指令后,对设备做出相对应的反馈和控制,提高了语音识别的准确度和效率,同时降低计算量,节约了成本。
优选的,所述步骤a包括以下步骤:
a10、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据;
a20、进行CGA神经网络训练,输出预测概率值;
a30、将预测概率值与期望值进行对比,以交叉熵作为损失函数,计算出最终损失值loss,并进行反向传播。
通过模型训练,得到最终损失值loss,为后续测试提供数据支持。
优选的,所述步骤a10和步骤b中的预处理,包括以下步骤:
y10、对接收的语音数据进行预加重,其中预加重因子为0.97;
y20、基于汉明窗进行加窗,汉明窗函数为:
y30、针对每一帧数据,提取40个特征,并将40个特征输入CGA神经网络。
在模型训练和测试训练中均需进行数据预加重,预加重因子通常为0.97,即每个采样点减去上一个采样点的97%;预加重完成后为防止频率泄露,使用汉明窗进行加窗,之后提取特征,每一帧的数据提取40个特征。
优选的,所述步骤y30中提取特征包括以下步骤:
y301、通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
y302、计算出不同子带的能量;
y303、基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波,其中,梅尔滤波函数为:
y304、根据下列公式提取特征,得到可供训练的数据:
通过短时快速傅里叶变换、计算能量、梅尔滤波、提取PCEN特征,得到可以进行训练的数据,此时输入为40个,进入CGA神经网络训练。
优选的,所述步骤c和步骤a20中的CGA神经网络训练,包括以下步骤:
x10、接收所提取的特征,利用卷积神经网络进行卷积,得到CNN层的输出特征;
x20、针对CNN层的输出特征,结合历史状态进行记忆、更新和重置,得到 GRU当前帧的状态;
x30、经Attention层变换,获取一个重要性权重;
x40、接收该权重,与GRU当前帧的状态进行内积,得到预测概率值。
使用一层GRU神经元,对CNN层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;GRU的状态会经过Attention层的变换得出一个重要性权重,与GRU当前帧的状态做内积后,得到最终的预测概率值。
优选的,所述步骤x10包括以下步骤:
x101、对应特征数量,生成大小固定的等量卷积核;
x102、基于每一个卷积核,对特征进行内积;
x103、根据指定的步进进行卷积;
x104、拼接卷积核内积的结果,得到CNN层的输出特征。
卷积神经网络使用卷积核若干,卷积核大小固定,每一个卷积核在PCEN特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到CNN层的输出。
优选的,所述步骤d包括以下步骤:
d10、预设定测试阈值为0.9;
d20、获取连续20帧的预测概率值,并解码;
d30、判断连续20帧的预测概率值是否大于0.9的测试阈值,如果是,则判定检测到关键词,反馈唤醒信号;反之,则未检测到关键词。
本方案采用累计预测概率值的大小和次数,当预测概率值连续几帧都大于设定的测试阈值时判定为检测到关键词。这种方案相比与滑窗机制,在预测方面识别率会稍有下降,但是计算量缩小将近百倍。
本发明还提供了一种基于多命令词的语音唤醒系统,其技术方案如下:
一种基于多命令词的语音唤醒系统,包括数据预处理模块、神经网络训练模块以及后处理反馈模块,其中:
数据预处理模块,用于将收集到的语音数据进行预处理使其数据符合神经网络的计算需求;
神经网络训练模块,用于经CNN层、GRU层、Attention层分别进行内积、卷积、变换等操作后,获取预测概率值;
后处理反馈模块,用于累计预测概率值的大小和次数,判断预测概率值是否大于设定的测试阈值,并反馈唤醒信号。
优选的,所述数据预处理模块包括预加重子模块、加窗子模块、傅里叶变换子模块、能量计算子模块、梅尔滤波子模块以及特征提取子模块,其中:
预加重子模块,用于对接收的语音数据进行预加重;
加窗子模块,基于汉明窗进行加窗;
傅里叶变换子模块,用于通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
能量计算子模块,用于计算出不同子带的能量;
梅尔滤波子模块,基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波;
特征提取子模块,用于根据公式提取特征,得到可供训练的数据。
本发明的有益效果是:
1、本方案的训练数据是不同的地域、年龄段、性别、场景按比例收集而来,针对不同的需求可以调整训练数据比例,从而获得更好的训练效果;同时在所有数据上都增加了不同的底噪,并结合不同的传输函数进行数据拓展,从而模拟不同设备上的噪声,增强了在不同拾音设备上的鲁棒性。
2、帧长相对较长,可以降低语音帧的数目从而起到降低计算量的效果,同时帧长也不至于太低,能够保持语音的连续稳定性;
3、根据源数据的长度进行统计来确定的训练长度,得到的长度可以涵盖大部分的训练样本,这样既不会浪费训练数据,也不容易造成冗余。
4、本方案采用归一化通道能量(PCEN)特征训练,PCEN特征比MFCC特征更加适合神经网络的训练。
5、本方案在模型的选择上增加了一层CNN,充分利用卷积神经网络(CNN) 在提取特征方面的优势,用神经网络提取得到的特征更加适合训练神经网络,同时,只采用单层网络模型结构并酌情舍弃了一些神经元,使得模型会更加小巧,计算量成倍减小,有效的降低了生产成本。
6、本方案采用的是累计预测概率值的大小和次数,当预测概率值连续几帧都大于设定的阈值时判定为检测到关键词;本方案大大减少了计算量,使得计算量缩小将近百倍。
附图说明
图1是本发明实施例所述基于多命令词的语音唤醒方法模型训练过程的流程图;
图2是本发明实施例所述基于多命令词的语音唤醒方法测试过程的流程图;
图3是本发明实施例所述基于多命令词的语音唤醒系统的原理框图。
附图标记说明:
10-数据预处理模块;101-预加重子模块;102-加窗子模块;103-傅里叶变换子模块;104-能量计算子模块;105-梅尔滤波子模块;106-特征提取子模块; 20-神经网络训练模块;30-后处理反馈模块。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例1
如图1所示,一种基于多命令词的语音唤醒方法,包括以下步骤:
a、接收语音数据,进行CGA模型训练,获取优选神经网络参数;
b、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;
c、进行CGA神经网络训练,输出预测概率值;
d、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。
在本实施例中,通过不同的地域、年龄段、性别、场景按比例收集语音数据,针对不同的需求调整训练数据比例,从而获得更好的训练效果。并在所有数据上都增加了不同的底噪,结合不同的传输函数进行数据拓展,从而模拟不同设备上的噪声,增强了在不同拾音设备上的鲁棒性。本实施例通过收集语音数据,对收集到的数据进行实时数据预处理,再经神经网络识别出用户的指令后,对设备做出相对应的反馈和控制,提高了语音识别的准确度和效率,同时降低计算量,节约了成本。
实施例2
本实施例在实施例1的基础上,所述步骤a包括以下步骤:
a10、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据;
a20、进行CGA神经网络训练,输出预测概率值;
a30、将预测概率值与期望值进行对比,以交叉熵作为损失函数,计算出最终损失值loss,并进行反向传播。
通过模型训练,得到最终损失值loss,为后续测试提供数据支持。
实施例3
本实施例在实施例2的基础上,所述步骤a10和步骤b中的预处理,包括以下步骤:
y10、对接收的语音数据进行预加重,其中预加重因子为0.97;
y20、基于汉明窗进行加窗,汉明窗函数为:
y30、针对每一帧数据,提取40个特征,并将40个特征输入CGA神经网络。
在模型训练和测试训练中均需进行数据预加重,预加重因子通常为0.97,即每个采样点减去上一个采样点的97%;预加重完成后为防止频率泄露,使用汉明窗进行加窗,之后提取特征,每一帧的数据提取40个特征。
实施例4
本实施例在实施例3的基础上,所述步骤y30中提取特征包括以下步骤:
y301、通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
y302、计算出不同子带的能量;
y303、基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波,其中,梅尔滤波函数为:
y304、根据下列公式提取特征,得到可供训练的数据:
通过短时快速傅里叶变换、计算能量、梅尔滤波、提取PCEN特征,得到可以进行训练的数据,此时输入为40个,进入CGA神经网络训练。
实施例5
本实施例在实施例2的基础上,所述步骤c和步骤a20中的CGA神经网络训练,包括以下步骤:
x10、接收所提取的特征,利用卷积神经网络进行卷积,得到CNN层的输出特征;
x20、针对CNN层的输出特征,结合历史状态进行记忆、更新和重置,得到 GRU当前帧的状态;
x30、经Attention层变换,获取一个重要性权重;
x40、接收该权重,与GRU当前帧的状态进行内积,得到预测概率值。
使用一层GRU神经元,对CNN层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;GRU的状态会经过Attention层的变换得出一个重要性权重,与GRU当前帧的状态做内积后,得到最终的预测概率值。
实施例6
本实施例在实施例5的基础上,所述步骤x10包括以下步骤:
x101、对应特征数量,生成大小固定的等量卷积核;
x102、基于每一个卷积核,对特征进行内积;
x103、根据指定的步进进行卷积;
x104、拼接卷积核内积的结果,得到CNN层的输出特征。
卷积神经网络使用卷积核若干,卷积核大小固定,每一个卷积核在PCEN特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到CNN层的输出。
实施例7
本实施例在实施例1的基础上,所述步骤d包括以下步骤:
d10、预设定测试阈值为0.9;
d20、获取连续20帧的预测概率值,并解码;
d30、判断连续20帧的预测概率值是否大于0.9的测试阈值,如果是,则判定检测到关键词,反馈唤醒信号;反之,则未检测到关键词。
本实施例采用累计预测概率值的大小和次数,当预测概率值连续几帧都大于设定的测试阈值时判定为检测到关键词。这种方案相比与滑窗机制,在预测方面识别率会稍有下降,但是计算量缩小将近百倍。
实施例8
本实施例为实施例1的系统,如图2所示,一种基于多命令词的语音唤醒系统,包括数据预处理模块10、神经网络训练模块20以及后处理反馈模块30,其中:
数据预处理模块10,用于将收集到的语音数据进行预处理使其数据符合神经网络的计算需求;
神经网络训练模块20,用于经CNN层、GRU层、Attention层分别进行内积、卷积、变换等操作后,获取预测概率值;
后处理反馈模块30,用于累计预测概率值的大小和次数,判断预测概率值是否大于设定的测试阈值,并反馈唤醒信号。
实施例9
本实施例在实施例8的基础上,所述数据预处理模块10包括预加重子模块 101、加窗子模块102、傅里叶变换子模块103、能量计算子模块104、梅尔滤波子模块105以及特征提取子模块106,其中:
预加重子模块101,用于对接收的语音数据进行预加重;
加窗子模块102,基于汉明窗进行加窗;
傅里叶变换子模块103,用于通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
能量计算子模块104,用于计算出不同子带的能量;
梅尔滤波子模块105,基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波;
特征提取子模块106,用于根据公式提取特征,得到可供训练的数据。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (9)
1.一种基于多命令词的语音唤醒方法,其特征在于,包括以下步骤:
a、接收语音数据,进行CGA模型训练,获取优选神经网络参数;
b、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;
c、进行CGA神经网络训练,输出预测概率值;
d、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。
2.根据权利要求1所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤a包括以下步骤:
a10、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据;
a20、进行CGA神经网络训练,输出预测概率值;
a30、将预测概率值与期望值进行对比,以交叉熵作为损失函数,计算出最终损失值loss,并进行反向传播。
5.根据权利要求2所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤c和步骤a20中的CGA神经网络训练,包括以下步骤:
x10、接收所提取的特征,利用卷积神经网络进行卷积,得到CNN层的输出特征;
x20、针对CNN层的输出特征,结合历史状态进行记忆、更新和重置,得到GRU当前帧的状态;
x30、经Attention层变换,获取一个重要性权重;
x40、接收该权重,与GRU当前帧的状态进行内积,得到预测概率值。
6.根据权利要求5所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤x10包括以下步骤:
x101、对应特征数量,生成大小固定的等量卷积核;
x102、基于每一个卷积核,对特征进行内积;
x103、根据指定的步进进行卷积;
x104、拼接卷积核内积的结果,得到CNN层的输出特征。
7.根据权利要求1所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤d包括以下步骤:
d10、预设定测试阈值为0.9;
d20、获取连续20帧的预测概率值,并解码;
d30、判断连续20帧的预测概率值是否大于0.9的测试阈值,如果是,则判定检测到关键词,反馈唤醒信号;反之,则未检测到关键词。
8.一种基于多命令词的语音唤醒系统,其特征在于,包括数据预处理模块、神经网络训练模块以及后处理反馈模块,其中:
数据预处理模块,用于将收集到的语音数据进行预处理使其数据符合神经网络的计算需求;
神经网络训练模块,用于经CNN层、GRU层、Attention层分别进行内积、卷积、变换等操作后,获取预测概率值;
后处理反馈模块,用于累计预测概率值的大小和次数,判断预测概率值是否大于设定的测试阈值,并反馈唤醒信号。
9.根据权利要求8所述的基于多命令词的语音唤醒系统,其特征在于,所述数据预处理模块包括预加重子模块、加窗子模块、傅里叶变换子模块、能量计算子模块、梅尔滤波子模块以及特征提取子模块,其中:
预加重子模块,用于对接收的语音数据进行预加重;
加窗子模块,基于汉明窗进行加窗;
傅里叶变换子模块,用于通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
能量计算子模块,用于计算出不同子带的能量;
梅尔滤波子模块,基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波;
特征提取子模块,用于根据公式提取特征,得到可供训练的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672496.2A CN111862973A (zh) | 2020-07-14 | 2020-07-14 | 一种基于多命令词的语音唤醒方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672496.2A CN111862973A (zh) | 2020-07-14 | 2020-07-14 | 一种基于多命令词的语音唤醒方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111862973A true CN111862973A (zh) | 2020-10-30 |
Family
ID=72983303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010672496.2A Pending CN111862973A (zh) | 2020-07-14 | 2020-07-14 | 一种基于多命令词的语音唤醒方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111862973A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735202A (zh) * | 2017-03-13 | 2018-11-02 | 百度(美国)有限责任公司 | 用于小占用资源关键词检索的卷积递归神经网络 |
US20180336886A1 (en) * | 2017-05-16 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
WO2019232845A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN110767223A (zh) * | 2019-09-30 | 2020-02-07 | 大象声科(深圳)科技有限公司 | 一种单声道鲁棒性的语音关键词实时检测方法 |
-
2020
- 2020-07-14 CN CN202010672496.2A patent/CN111862973A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735202A (zh) * | 2017-03-13 | 2018-11-02 | 百度(美国)有限责任公司 | 用于小占用资源关键词检索的卷积递归神经网络 |
US20180336886A1 (en) * | 2017-05-16 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
WO2019232845A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN110767223A (zh) * | 2019-09-30 | 2020-02-07 | 大象声科(深圳)科技有限公司 | 一种单声道鲁棒性的语音关键词实时检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sailor et al. | Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification. | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
CN110852215A (zh) | 一种多模态情感识别方法、系统及存储介质 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN115062143A (zh) | 语音识别与分类方法、装置、设备、冰箱及存储介质 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
Liu et al. | Simple pooling front-ends for efficient audio classification | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN111554270B (zh) | 训练样本筛选方法及电子设备 | |
CN111028833B (zh) | 一种交互、车辆的交互方法、装置 | |
CN111429919A (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
Gaafar et al. | An improved method for speech/speaker recognition | |
CN111862973A (zh) | 一种基于多命令词的语音唤醒方法及其系统 | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及系统 | |
Vesperini et al. | Hierarchic conv nets framework for rare sound event detection | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
Zhou et al. | Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16 | |
CN113129926A (zh) | 语音情绪识别模型训练方法、语音情绪识别方法及装置 | |
Iswanto et al. | The Power-Normalized Cepstral Coefficient (PNCC) for convolutional neural networks-based robust speech command recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |