CN114093347A - 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 - Google Patents
唤醒词能量计算方法、系统、语音唤醒系统及存储介质 Download PDFInfo
- Publication number
- CN114093347A CN114093347A CN202111425576.9A CN202111425576A CN114093347A CN 114093347 A CN114093347 A CN 114093347A CN 202111425576 A CN202111425576 A CN 202111425576A CN 114093347 A CN114093347 A CN 114093347A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- wake
- word
- neural network
- awakening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 115
- 239000011159 matrix material Substances 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000003062 neural network model Methods 0.000 claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 84
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种唤醒词能量计算方法、系统、语音唤醒系统及存储介质,其中,方法包括:获取唤醒词音频信号,对唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱,对短时能量谱进行取对数,获得唤醒词音频的对数谱,将对数谱输入到预设神经网络模型中,以使预设神经网络模型根据对数谱,生成预测的概率矩阵,对预测的概率矩阵进行二值化,获得二值矩阵,对短时能量谱和二值矩阵进行第二转换,确定唤醒词音频信号的唤醒词语音能量。本发明通过引入预设神经网络模型对唤醒词语音成分进行估计,提高了对不同应用场景下的噪声时频点和唤醒词时频点的区别精度,提高了最终计算唤醒词能量在背景噪声条件下的鲁棒性和准确度。
Description
技术领域
本发明涉及智能家居技术领域,特别是涉及一种唤醒词能量计算方法、系统、语音唤醒系统及存储介质。
背景技术
随着智能家居的普及,越来越多的家用电子设备都嵌入了语音助手功能,以实现通过语音控制家用电子设备,提升家居智能化水平。但是当存在多个电子设备的唤醒关键词相同或相近时,往往会出现用户发出一个唤醒关键词,多台电子设备同时应答的情况,影响了用户体验。
发明内容
本发明实施例的目的在于提供一种唤醒词能量计算方法、系统、语音唤醒系统及存储介质,以实现提高背景噪声条件下对唤醒词能量的计算精度和鲁棒性。具体技术方案如下:
一种唤醒词能量计算方法,所述方法包括:
获取唤醒词音频信号。
对所述唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱。
对所述短时能量谱进行取对数,获得唤醒词音频的对数谱。
将所述对数谱输入到预设神经网络模型中,以使所述预设神经网络模型根据所述对数谱,生成预测的概率矩阵。
对所述预测的概率矩阵进行二值化,获得二值矩阵。
对所述短时能量谱和所述二值矩阵进行第二转换,确定所述唤醒词音频信号的唤醒词语音能量。
可选的,所述预设神经网络模型的训练过程,包括:
将带噪语音数据的对数谱输入到初始神经网络中进行处理,获得预测的训练概率矩阵。
基于交叉熵损失函数计算所述训练概率矩阵与标签矩阵的误差值。
根据所述误差值,利用预设优化算法对所述初始神经网络进行迭代更新,直至满足训练截至条件,得到所述预设神经网络模型。
可选的,在对所述初始神经网络进行训练之前,还包括:训练数据处理和/或训练数据特征提取,
其中,所述训练数据处理包括:
对唤醒词语音的训练数据进行所述第一转换,获得所述训练数据的短时能量谱。对所述训练数据的短时能量谱进行所述取对数,获得所述训练数据的对数谱。对所述训练数据的对数谱进行所述二值化,获得所述标签矩阵。
其中,所述训练数据特征提取包括:
按照信噪比将噪声训练数据插入到所述训练数据中,获得所述带噪语音数据。对所述带噪语音数据进行所述第一转换,获得所述带噪语音数据的短时能量谱。对所述带噪语音数据的短时能量谱进行所述取对数,获得所述带噪语音数据的对数谱。
可选的,所述将所述对数谱输入到预设神经网络模型中,以使所述预设神经网络模型根据所述对数谱,生成预测的概率矩阵,包括:
所述预设神经网络将接收到的所述对数谱的时频点映射为所述预测的概率矩阵,所述预测的概率矩阵中的每个元素均表示该元素对应的所述时频点属于唤醒数据的概率值。
可选的,所述对所述预测的概率矩阵进行二值化,获得二值矩阵,包括:
根据所述预设神经网络模型中的预设门限值,对所述预测的概率矩阵进行所述二值化,获得所述二值矩阵,其中,所述二值化是判断所述预测的概率矩阵中的每一个元素是否大于所述预设门限值,若是,则将该元素置为1。若所述元素不大于所述预设门限值,则将该元素置为0。
可选的,所述方法应用于分布式语音唤醒系统,所述方法还包括:
所述分布式语音唤醒系统中的多台电子设备,根据所述方法分别计算本设备的所述唤醒词语音能量,并将所述本设备的所述唤醒词语音能量与其它设备的所述唤醒词语音能量进行比较,所述唤醒词语音能量最大的设备执行唤醒操作,除执行所述唤醒操作的设备外的其它设备不执行所述唤醒操作。
可选的,所述唤醒词音频信号是包含有唤醒关键词的语音信号,以及所述分布式语音唤醒系统所处场景的场景噪音信号的音频信号。
一种唤醒词能量计算系统,所述系统应用于分布式语音唤醒系统所述系统包括:
信号获取模块:用于获取唤醒词音频信号。
第一转换模块:用于对所述唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱。
第二转换模块,用于对所述短时能量谱进行取对数,获得唤醒词音频的对数谱。
矩阵生成模块:用于将所述对数谱输入到预设神经网络模型中,以使所述预设神经网络模型根据所述对数谱,生成预测的概率矩阵。
第三转换模块:用于对所述预测的概率矩阵进行二值化,获得二值矩阵。
第四转换模块:用于对所述短时能量谱和所述二值矩阵进行第二转换,确定所述唤醒词音频信号的唤醒词语音能量。
可选的,上述系统还包括:
模型训练模块,用于将带噪语音数据的对数谱输入到初始神经网络中进行处理,获得预测的训练概率矩阵。基于交叉熵损失函数计算所述训练概率矩阵与标签矩阵的误差值。根据所述误差值,利用预设优化算法对所述初始神经网络进行迭代更新,直至满足训练截至条件,得到所述预设神经网络模型。
可选的,上述系统还包括:
训练数据处理模块,用于对唤醒词语音的训练数据进行所述第一转换,获得所述训练数据的短时能量谱;对训练数据的短时能量谱进行所述取对数,获得所述训练数据的对数谱;对所述训练数据的对数谱进行所述二值化,获得所述标签矩阵。
和/或,训练数据特征提取模块,用于按照信噪比将噪声训练数据插入到所述训练数据中,获得所述带噪语音数据。对所述带噪语音数据进行所述第一转换,获得所述带噪语音数据的短时能量谱。对所述带噪语音数据的短时能量谱进行所述取对数,获得所述带噪语音数据的对数谱。
可选的,矩阵生成模块被设置为:
所述矩阵生成模块中的所述预设神经网络,将接收到的所述对数谱的时频点映射为所述预测的概率矩阵,所述预测的概率矩阵中的每个元素均表示该元素对应的所述时频点属于唤醒数据的概率值。
可选的,第三转换模块被设置为:
根据所述预设神经网络模型中的预设门限值,对所述预测的概率矩阵进行所述二值化,获得所述二值矩阵,其中,所述二值化是判断所述预测的概率矩阵中的每一个元素是否大于所述预设门限值,若是,则将该元素置为1;若所述元素不大于所述预设门限值,则将该元素置为0。
可选的,上述系统还包括:
设备唤醒模块,用于控制分布式语音唤醒系统中的多台电子设备,根据所述方法分别计算本设备的所述唤醒词语音能量,并将所述本设备的所述唤醒词语音能量与其它设备的所述唤醒词语音能量进行比较,所述唤醒词语音能量最大的设备执行唤醒操作,除执行所述唤醒操作的设备外的其它设备不执行所述唤醒操作。
可选的,上述唤醒词音频信号是包含有唤醒关键词的语音信号,以及所述分布式语音唤醒系统所处场景的场景噪音信号的音频信号。
一种语音唤醒系统,所述系统包括:
多台电子设备,所述电子设备被配置为执行指令,以实现如上述任一项所述的唤醒词能量计算方法。
一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述设备能够执行如上述任一项所述的唤醒词能量计算方法。
本发明实施例提供的一种唤醒词能量计算方法、系统、语音唤醒系统及存储介质,通过引入预设神经网络模型,对唤醒词音频中的唤醒词语音成分进行估计,使得本发明相较于现有技术,提高了对于不同应用场景下的唤醒词音频中的噪声时频点和唤醒词时频点的区别精度,从而提高了最终计算唤醒词能量在背景噪声条件下的鲁棒性和准确度。同时,本发明通过引入预设神经网络模型,实现了针对不同的应用场景,动态更新参与计算唤醒词能量的内部参数,提高了本发明对于不同应用场景的适用性。最后,由于本发明可以基于现有的分布式语音唤醒系统实现部署,无需对硬件设备进行改造,进一步提升了本发明的普适性。可见,本发明提高了对背景噪声条件下的唤醒词能量的计算精度和鲁棒性。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种唤醒词能量计算方法的流程图;
图2为本发明实施例提供的一种唤醒词能量计算系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种唤醒词能量计算方法,如图1所示,方法包括:
S101、获取唤醒词音频信号。
可选的,在本发明的一个可选实施例中,上述获取唤醒词音频信号的设备可以为智能家居电子设备上部署的声音采集设备。
可选的,在本发明的另一个可选实施例中,上述唤醒词音频信号可以是包含有唤醒关键词的语音信号,以及分布式语音唤醒系统所处场景的场景噪音信号的音频信号。
S102、对唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱。
可选的,在本发明的一个可选实施例中,上述第一转换可以包括短时傅里叶变换(short-time Fourier transform,STFT)、取模运算和平方运算。上述对唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱的过程可以是:对唤醒词音频信号进行STFT变换,获得唤醒词音频信号的短时频谱,再将该短时频谱通过取模运算和平方运算,获得唤醒词音频信号的短时能量谱。
其中,上述STFT变换适用于分析缓慢时变信号的频谱分析,其方法为先将语音信号分帧,再将各帧信号进行傅里叶变换,这样每一帧语音信号可以被认为是从各个不同的平稳信号波形中截取出来的,各帧语音的短时频谱就是各个平稳信号波形频谱的近似。再对短时频谱进行取模运算和平方运算,即可获得表征语音信号随频率分布状况的短时能量谱。上述STFT、取模运算和平方运算为语音预处理的常用手段,本发明在此不做过多赘述。
S103、对短时能量谱进行取对数,获得唤醒词音频的对数谱。
可选的,在本发明的一个可选实施例中,通过对短时能量谱进行取对数,可以将唤醒词音频信号,由时域数据转换为对数谱特征,压缩了唤醒词音频信号中唤醒词特征数据的动态范围,从而保证用于后续神经网络模型计算的唤醒词音频的对数谱的数据完整,从而提高最终计算唤醒词能量的准确度。
S104、将对数谱输入到预设神经网络模型中,以使预设神经网络模型根据对数谱,生成预测的概率矩阵。
可选的,在本发明的一个可选实施例中,上述预设神经网络模型可以是卷积神经网络模型(Convolutional Neural Networks,CNN)。本发明通过基于CNN建模场景噪音和唤醒词音频的分类网络,计算输入的唤醒词音频的对数谱中的时频点属于唤醒数据的概率值,并将其映射为概率矩阵。
由于现有技术是通过计算多帧数据的能量来获取分辨场景噪声和唤醒音频的门限值,其实质上是假定了场景噪声为平稳噪声,且远小于唤醒词能量,但在实际应用场景中,上述假设条件很难满足,从而导致最终计算的唤醒词能量严重失准。同时,由于现有技术中用于计算门限值的系数和参数通常通过预先设定的静态场景中获得,再后续实际部署中不再根据实际应用场景继续更新,导致其普适性变差,进一步导致最终计算的唤醒词能量失准。因此本发明通过引入CNN对唤醒词音频中的唤醒词语音成分进行估计,使得本发明相较于现有技术,实现了对于不同应用场景的适配,同时实现了对于不同应用场景的内部参数动态调节,提高了最终计算唤醒词能量的准确度。
S105、对预测的概率矩阵进行二值化,获得二值矩阵。
可选的,在本发明的一个可选实施例中,由于上述步骤S104中生成的预测的概率矩阵的维度与上述步骤S102中生成的唤醒词音频的短时能量谱的维度不同,导致无法获得用于计算唤醒词能量的标量。因此通过矩阵二值化运算,将上述预测的概率矩阵转化为二值矩阵,该二值矩阵与上述唤醒词音频的短时能量谱的维度相同。同时,根据上述预设神经网络模型中的预设门限值,在进行上述二值化运算时,可以将上述预测的概率矩阵中,大于该预设门限值的元素置为1,不大于该预设门限值的元素置为0。减少了用于计算唤醒词语音能量的数据中的干扰数据,提高了最终计算唤醒词语音能量的准确度。
S106、对短时能量谱和二值矩阵进行第二转换,确定唤醒词音频信号的唤醒词语音能量。
可选的,在本发明的一个可选实施例中,上述第二转换包括但不限于:矩阵哈达玛积(Hadamard product)和矩阵维度求和。其中矩阵哈达玛积是一种常用的矩阵乘法运算。将上述短时能量谱和二值矩阵进行矩阵哈达玛积运算后,获得一个二维矩阵。再对该二维矩阵的两个维度进行矩阵维度求和运算,获得唤醒词语音能量。本发明通过上述矩阵哈达玛积运算,可以实现对上述唤醒词音频信号的短时能量谱中属于唤醒数据的时频点的选取,提高了最终计算唤醒词语音能量的准确度。
本发明通过引入预设神经网络模型,对唤醒词音频中的唤醒词语音成分进行估计,使得本发明相较于现有技术,提高了对于不同应用场景下的唤醒词音频中的噪声时频点和唤醒词时频点的区别精度,从而提高了最终计算唤醒词能量在背景噪声条件下的鲁棒性和准确度。同时,本发明通过引入预设神经网络模型,实现了针对不同的应用场景,动态更新参与计算唤醒词能量的内部参数,提高了本发明对于不同应用场景的适用性。最后,由于本发明可以基于现有的分布式语音唤醒系统实现部署,无需对硬件设备进行改造,进一步提升了本发明的普适性。可见,本发明提高了对背景噪声条件下的唤醒词能量的计算精度和鲁棒性。
可选的,预设神经网络模型的训练过程,包括:
将带噪语音数据的对数谱输入到初始神经网络中进行处理,获得预测的训练概率矩阵。
基于交叉熵损失函数计算训练概率矩阵与标签矩阵的误差值。
根据误差值,利用预设优化算法对初始神经网络进行迭代更新,直至满足训练截至条件,得到预设神经网络模型。
可选的,在本发明的一个可选实施例中,上述对预设神经网络模型的训练过程中,带噪语音数据可以是合成的。按照预设的信噪比,将噪声训练数据插入到唤醒词语音的训练数据中,获得带噪语音数据。其中,上述训练数据可以是无背景噪声的唤醒词语音的录音数据。
可选的,在本发明的另一个可选实施例中,上述标签矩阵的获取过程可以是对用于训练上述初始神经网络的训练数据进行第一转换、取对数和二值化后获得的。其中,在经过取对数获得训练数据的对数谱后,根据噪声训练数据所属的背景噪声级选定上述预设门限值,并将上述对数谱中大于预设门限值的时频点设置为1,小于预设门限值的时频点设置为零。由于该标签矩阵是由上述训练数据通过转换生成的,因此该标签矩阵中的时频点均属于唤醒数据的时频点。本发明通过利用标签矩阵,并结合交叉熵损失函数和基于自适应矩估计的优化算法(Adaptive Moment Estimation,Adam)对上述初始神经网络进行迭代更细,从而提高了预设神经网络对唤醒词音频中的唤醒数据进行筛选和判断的精度。
可选的,在本发明的另一个可选实施例中,上述训练截止条件可以是在预设时期内,上述初始神经网络在验证集上的损失不在下降。
可选的,在对初始神经网络进行训练之前,还包括:训练数据处理和/或训练数据特征提取。
其中,训练数据处理包括:
对唤醒词语音的训练数据进行第一转换,获得训练数据的短时能量谱;对训练数据的短时能量谱进行取对数,获得训练数据的对数谱;对训练数据的对数谱进行二值化,获得标签矩阵。
其中,训练数据特征提取包括:
按照信噪比将噪声训练数据插入到训练数据中,获得带噪语音数据;对带噪语音数据进行第一转换,获得带噪语音数据的短时能量谱;对带噪语音数据的短时能量谱进行取对数,获得带噪语音数据的对数谱。
可选的,将对数谱输入到预设神经网络模型中,以使预设神经网络模型根据对数谱,生成预测的概率矩阵,包括:
预设神经网络将接收到的对数谱的时频点映射为预测的概率矩阵,预测的概率矩阵中的每个元素均表示该元素对应的时频点属于唤醒数据的概率值。
可选的,对预测的概率矩阵进行二值化,获得二值矩阵,包括:
根据预设神经网络模型中的预设门限值,对预测的概率矩阵进行二值化,获得二值矩阵,其中,二值化是判断预测的概率矩阵中的每一个元素是否大于预设门限值,若是,则将该元素置为1;若元素不大于预设门限值,则将该元素置为0。
可选的,上述方法应用于分布式语音唤醒系统,方法还包括:
分布式语音唤醒系统中的多台电子设备,根据方法分别计算本设备的唤醒词语音能量,并将本设备的唤醒词语音能量与其它设备的唤醒词语音能量进行比较,唤醒词语音能量最大的设备执行唤醒操作,除执行唤醒操作的设备外的其它设备不执行唤醒操作。
可选的,在本发明的一个可选实施例中,分布式语音唤醒系统中的每台电子设备,均被配置为可以执行上述一种唤醒词能量计算方法。上述电子设备包括但不限于智能家居电子设备和智能通信设备。
可选的,在本发明的另一个可选实施例中,根据计算出的本设备的唤醒词语音能量和分布式语音唤醒系统中其它设备计算出的唤醒词语音能量,判断本设备是否执行唤醒操作:
其中,Ei为i设备的唤醒词语音能量,maxEj为除i设备外的j个设备计算出的唤醒词语音能量中最大的唤醒词语音能量。在Ei>maxEj的情况下,判断本设备的唤醒词语音能量最大,由本设备执行唤醒操作,其它设备不执行唤醒操作。本方法通过部署于分布式语音唤醒系统的每个电子设备中,使得本发明提高了分布式语音唤醒系统对于背景噪声的鲁棒性。
可选的,唤醒词音频信号是包含有唤醒关键词的语音信号,以及分布式语音唤醒系统所处场景的场景噪音信号的音频信号。
本发明通过引入预设神经网络模型,对唤醒词音频中的唤醒词语音成分进行估计,使得本发明相较于现有技术,提高了对于不同应用场景下的唤醒词音频中的噪声时频点和唤醒词时频点的区别精度,从而提高了最终计算唤醒词能量在背景噪声条件下的鲁棒性和准确度。同时,本发明通过引入预设神经网络模型,实现了针对不同的应用场景,动态更新参与计算唤醒词能量的内部参数,提高了本发明对于不同应用场景的适用性。最后,由于本发明可以基于现有的分布式语音唤醒系统实现部署,无需对硬件设备进行改造,进一步提升了本发明的普适性。可见,本发明提高了对背景噪声条件下的唤醒词能量的计算精度和鲁棒性。
与上述唤醒词能量计算方法实施例相对应,本发明还提供了一种唤醒词能量计算系统,该系统应用于分布式语音唤醒系统,如图2所示,系统包括:
信号获取模块201:用于获取唤醒词音频信号。
第一转换模块202:用于对唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱。
第二转换模块203,用于对短时能量谱进行取对数,获得唤醒词音频的对数谱。
矩阵生成模块204:用于将对数谱输入到预设神经网络模型中,以使预设神经网络模型根据对数谱,生成预测的概率矩阵。
第三转换模块205:用于对预测的概率矩阵进行二值化,获得二值矩阵。
第四转换模块206:用于对短时能量谱和二值矩阵进行第二转换,确定唤醒词音频信号的唤醒词语音能量。
可选的,上述系统还包括:
模型训练模块,用于将带噪语音数据的对数谱输入到初始神经网络中进行处理,获得预测的训练概率矩阵。基于交叉熵损失函数计算训练概率矩阵与标签矩阵的误差值。根据误差值,利用预设优化算法对初始神经网络进行迭代更新,直至满足训练截至条件,得到预设神经网络模型。
可选的,上述系统还包括:
训练数据处理模块,用于对唤醒词语音的训练数据进行第一转换,获得训练数据的短时能量谱;对训练数据的短时能量谱进行取对数,获得训练数据的对数谱;对训练数据的对数谱进行二值化,获得标签矩阵。
和/或,训练数据特征提取模块,用于按照信噪比将噪声训练数据插入到训练数据中,获得带噪语音数据。对带噪语音数据进行第一转换,获得带噪语音数据的短时能量谱。对带噪语音数据的短时能量谱进行取对数,获得带噪语音数据的对数谱。
可选的,矩阵生成模块204被设置为:
矩阵生成模块204中的预设神经网络,将接收到的对数谱的时频点映射为预测的概率矩阵,预测的概率矩阵中的每个元素均表示该元素对应的时频点属于唤醒数据的概率值。
可选的,第三转换模块205被设置为:
根据预设神经网络模型中的预设门限值,对预测的概率矩阵进行二值化,获得二值矩阵,其中,二值化是判断预测的概率矩阵中的每一个元素是否大于预设门限值,若是,则将该元素置为1;若元素不大于预设门限值,则将该元素置为0。
可选的,上述系统还包括:
设备唤醒模块,用于控制分布式语音唤醒系统中的多台电子设备,根据方法分别计算本设备的唤醒词语音能量,并将本设备的唤醒词语音能量与其它设备的唤醒词语音能量进行比较,唤醒词语音能量最大的设备执行唤醒操作,除执行唤醒操作的设备外的其它设备不执行唤醒操作。
可选的,上述唤醒词音频信号是包含有唤醒关键词的语音信号,以及分布式语音唤醒系统所处场景的场景噪音信号的音频信号。
本发明实施例提供了一种语音唤醒系统,系统包括:
多台电子设备,电子设备被配置为执行指令,以实现如上述任一项的唤醒词能量计算方法。
本发明实施例提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得设备能够执行如上述任一项的唤醒词能量计算方法。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种唤醒词能量计算方法,其特征在于,所述方法包括:
获取唤醒词音频信号;
对所述唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱;
对所述短时能量谱进行取对数,获得唤醒词音频的对数谱;
将所述对数谱输入到预设神经网络模型中,以使所述预设神经网络模型根据所述对数谱,生成预测的概率矩阵;
对所述预测的概率矩阵进行二值化,获得二值矩阵;
对所述短时能量谱和所述二值矩阵进行第二转换,确定所述唤醒词音频信号的唤醒词语音能量。
2.根据权利要求1所述的方法,其特征在于,所述预设神经网络模型的训练过程,包括:
将带噪语音数据的对数谱输入到初始神经网络中进行处理,获得预测的训练概率矩阵;
基于交叉熵损失函数计算所述训练概率矩阵与标签矩阵的误差值;
根据所述误差值,利用预设优化算法对所述初始神经网络进行迭代更新,直至满足训练截至条件,得到所述预设神经网络模型。
3.根据权利要求2所述的方法,其特征在于,在对所述初始神经网络进行训练之前,还包括:训练数据处理和/或训练数据特征提取,
其中,所述训练数据处理包括:
对唤醒词语音的训练数据进行所述第一转换,获得所述训练数据的短时能量谱;对所述训练数据的短时能量谱进行所述取对数,获得所述训练数据的对数谱;对所述训练数据的对数谱进行所述二值化,获得所述标签矩阵;
其中,所述训练数据特征提取包括:
按照信噪比将噪声训练数据插入到所述训练数据中,获得所述带噪语音数据;对所述带噪语音数据进行所述第一转换,获得所述带噪语音数据的短时能量谱;对所述带噪语音数据的短时能量谱进行所述取对数,获得所述带噪语音数据的对数谱。
4.根据权利要求1所述的方法,其特征在于,所述将所述对数谱输入到预设神经网络模型中,以使所述预设神经网络模型根据所述对数谱,生成预测的概率矩阵,包括:
所述预设神经网络将接收到的所述对数谱的时频点映射为所述预测的概率矩阵,所述预测的概率矩阵中的每个元素均表示该元素对应的所述时频点属于唤醒数据的概率值。
5.根据权利要求4所述的方法,其特征在于,所述对所述预测的概率矩阵进行二值化,获得二值矩阵,包括:
根据所述预设神经网络模型中的预设门限值,对所述预测的概率矩阵进行所述二值化,获得所述二值矩阵,其中,所述二值化是判断所述预测的概率矩阵中的每一个元素是否大于所述预设门限值,若是,则将该元素置为1;若所述元素不大于所述预设门限值,则将该元素置为0。
6.根据权利要求1所述的方法,其特征在于,所述方法应用于分布式语音唤醒系统,所述方法还包括:
所述分布式语音唤醒系统中的多台电子设备,根据所述方法分别计算本设备的所述唤醒词语音能量,并将所述本设备的所述唤醒词语音能量与其它设备的所述唤醒词语音能量进行比较,所述唤醒词语音能量最大的设备执行唤醒操作,除执行所述唤醒操作的设备外的其它设备不执行所述唤醒操作。
7.根据权利要求1所述的方法,其特征在于,所述唤醒词音频信号是包含有唤醒关键词的语音信号,以及所述分布式语音唤醒系统所处场景的场景噪音信号的音频信号。
8.一种唤醒词能量计算系统,其特征在于,所述系统应用于分布式语音唤醒系统所述系统包括:
信号获取模块:用于获取唤醒词音频信号;
第一转换模块:用于对所述唤醒词音频信号进行第一转换,获得唤醒词音频的短时能量谱;
第二转换模块,用于对所述短时能量谱进行取对数,获得唤醒词音频的对数谱;
矩阵生成模块:用于将所述对数谱输入到预设神经网络模型中,以使所述预设神经网络模型根据所述对数谱,生成预测的概率矩阵;
第三转换模块:用于对所述预测的概率矩阵进行二值化,获得二值矩阵;
第四转换模块:用于对所述短时能量谱和所述二值矩阵进行第二转换,确定所述唤醒词音频信号的唤醒词语音能量。
9.一种语音唤醒系统,其特征在于,所述系统包括:
多台电子设备,所述电子设备被配置为执行指令,以实现如上述权利要求1至7中任一项所述的唤醒词能量计算方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述设备能够执行如权利要求1至7中任一项所述的唤醒词能量计算方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111425576.9A CN114093347A (zh) | 2021-11-26 | 2021-11-26 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
PCT/CN2022/101249 WO2023093029A1 (zh) | 2021-11-26 | 2022-06-24 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111425576.9A CN114093347A (zh) | 2021-11-26 | 2021-11-26 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093347A true CN114093347A (zh) | 2022-02-25 |
Family
ID=80305091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111425576.9A Pending CN114093347A (zh) | 2021-11-26 | 2021-11-26 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114093347A (zh) |
WO (1) | WO2023093029A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023093029A1 (zh) * | 2021-11-26 | 2023-06-01 | 青岛海尔科技有限公司 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570858A (zh) * | 2019-09-19 | 2019-12-13 | 芋头科技(杭州)有限公司 | 语音唤醒方法、装置、智能音箱和计算机可读存储介质 |
CN113516990A (zh) * | 2020-04-10 | 2021-10-19 | 华为技术有限公司 | 一种语音增强方法、训练神经网络的方法以及相关设备 |
CN111739521B (zh) * | 2020-06-19 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN111667838B (zh) * | 2020-06-22 | 2022-10-14 | 清华大学 | 一种用于声纹识别的低功耗模拟域特征向量提取方法 |
CN112509568A (zh) * | 2020-11-26 | 2021-03-16 | 北京华捷艾米科技有限公司 | 一种语音唤醒方法及装置 |
CN113450771B (zh) * | 2021-07-15 | 2022-09-27 | 维沃移动通信有限公司 | 唤醒方法、模型训练方法和装置 |
CN114093347A (zh) * | 2021-11-26 | 2022-02-25 | 青岛海尔科技有限公司 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
-
2021
- 2021-11-26 CN CN202111425576.9A patent/CN114093347A/zh active Pending
-
2022
- 2022-06-24 WO PCT/CN2022/101249 patent/WO2023093029A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023093029A1 (zh) * | 2021-11-26 | 2023-06-01 | 青岛海尔科技有限公司 | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023093029A1 (zh) | 2023-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103971689B (zh) | 一种音频识别方法及装置 | |
CN102568474B (zh) | 信号处理装置和信号处理方法 | |
CN111383646B (zh) | 一种语音信号变换方法、装置、设备和存储介质 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN111312290B (zh) | 音频数据音质检测方法及装置 | |
US10726860B2 (en) | Methods and apparatus to reduce noise from harmonic noise sources | |
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN109920446B (zh) | 一种音频数据处理方法、装置及计算机存储介质 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
WO2023102930A1 (zh) | 语音增强方法、电子设备、程序产品及存储介质 | |
CN114093347A (zh) | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 | |
CN117524259A (zh) | 音频处理方法及系统 | |
CN111968620B (zh) | 算法的测试方法、装置、电子设备及存储介质 | |
CN116884431A (zh) | 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置 | |
US9398387B2 (en) | Sound processing device, sound processing method, and program | |
CN111326164B (zh) | 一种半监督式音乐主旋律提取方法 | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
CN111613211B (zh) | 特定词语音的处理方法及装置 | |
Wang et al. | Audio fingerprint based on spectral flux for audio retrieval | |
CN111613247A (zh) | 一种基于麦克风阵列的前景语音检测方法及装置 | |
CN117727298B (zh) | 基于深度学习的手提电脑语音识别方法及系统 | |
CN117577117B (zh) | 正交化低秩适应矩阵的语音检测模型的训练方法及装置 | |
Shi et al. | A speech endpoint detection algorithm based on BP neural network and multiple features | |
CN113496698B (zh) | 训练数据的筛选方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |