CN108429999A - 智能音箱的待机控制方法 - Google Patents

智能音箱的待机控制方法 Download PDF

Info

Publication number
CN108429999A
CN108429999A CN201810302821.9A CN201810302821A CN108429999A CN 108429999 A CN108429999 A CN 108429999A CN 201810302821 A CN201810302821 A CN 201810302821A CN 108429999 A CN108429999 A CN 108429999A
Authority
CN
China
Prior art keywords
audio signal
spectrum
angle value
amplitude angle
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810302821.9A
Other languages
English (en)
Inventor
向敏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Huarui Electronic Technology Co Ltd
Original Assignee
Dongguan Huarui Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Huarui Electronic Technology Co Ltd filed Critical Dongguan Huarui Electronic Technology Co Ltd
Priority to CN201810302821.9A priority Critical patent/CN108429999A/zh
Publication of CN108429999A publication Critical patent/CN108429999A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Abstract

本发明公开了一种智能音箱待机控制方法,所述方法包括:智能音箱获取音频信号;对所述音频信号进行快速傅里叶变换得到频域信号;根据所述频域信号计算谱幅度值;根据所述谱幅度值计算概率密度;根据所述概率密度计算所述音频信号的谱熵;根据所述谱熵判断所述音频信号是否为语音信号;若是语音信号,则判断所述语音信号的谱幅度值是否超过预设值;若是则所述智能音箱进入工作模式。本发明可以降低智能音箱的待机功耗,更快速的进入工作模式。

Description

智能音箱的待机控制方法
技术领域
本发明数据处理领域,尤其涉及一种智能音箱的待机控制方法。
背景技术
人工智能作为近几年广受关注的领域,其真正意义上的应用场景却是屈指可数。而在这为数不多的应用场景中,智能语音是一个非常重要的方向。而落脚在硬件产品上,智能音箱则是其一个重要的落地产品。
智能音箱作为各种场合下的一个控制中心,其重要性不言而喻,需要其能够在很短的时间内对用户的语音控制指示做出响应,从待机状态进入到工作状态。而这其中,如何识别出语音信号成为一个关键。
现有技术中,对于语音处理来说,其是一个复杂的交叉技术领域。近年来,语音处理技术得到了广泛的应用。语音处理的基础是语音检测,语音检测的目的是检测语音信号是否存在。
现有技术中,语音检测的过程通常是:获取各音频信号,从各音频信号中提取特征参数进行语义分析,再根据语义分析的结果获知该音频信号是否为语音。
但是,语义分析需要进行大量的计算和模板的匹配,影响了语音检测的效率。
发明内容
本发明所要解决的技术问题在于提供一种能够快速响应的智能音箱待机控制方法。
为了解决上述技术问题,本发明提出一种智能音箱待机控制方法,所述方法包括:
获取音频信号;
对所述音频信号进行快速傅里叶变换得到频域信号;
根据所述频域信号计算谱幅度值;
根据所述谱幅度值计算概率密度;
根据所述概率密度计算所述音频信号的谱熵;
根据所述谱熵判断所述音频信号是否为语音信号;
若是语音信号,则判断所述语音信号的谱幅度值是否超过预设值;
若是则所述智能音箱进入工作模式。
其中,所述谱幅度值通过以下方式获得:
其中,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值,z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度,N表示快速傅里叶变换的变化长度,k小于或等于N,exp(-j2πkn/N)表示幅角为2π的kn/N倍的复数。
其中,所述根据所述谱幅度值计算概率密度包括:
根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量;
根据所述总能量以及所述谱幅度值计算概率密度。
其中,所述根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量包括:
其中,Esum(y)表示第y个音频信号所在帧的带噪语音功率谱总能量,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值,N表示快速傅里叶变换的变化长度。
其中,所述根据所述总能量以及所述谱幅度值计算概率密度包括:
D(k,y)=|X(k,y)|2/Esum(y),D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。
其中,所述根据所述概率密度计算所述音频信号的谱熵包括:
其中,H(y)表示第y个音频信号的谱熵。
其中,所述根据所述谱熵判断所述音频信号是否为语音信号包括:
计算所述音频信号的能量;
根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号。
其中,所述计算所述音频信号的能量包括:
其中,E(y)表示第y个音频信号的能量,M表示音频信号所在帧的帧长,z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度。
其中,所述根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号包括:
判断P(y)是否大于预置门限值,若是,则确定音频信号是语音信号,若否,则确定音频信号不是语音信号,其中,
其中,所述判断所述语音信号的谱幅度值是否超过预设值包括判断所述语音信号中至少一个频段的谱幅度值是否超过预设值。
本发明中,由于根据音频信号的谱熵来进行语音检测,谱熵的计算过程主要涉及时频变换、幅度计算和能量计算等,这些计算过程所针对的都是语音信号本身的属性,而不必进行语义分析这种需要涉及到人工智能和神经网络的计算方式,从而减少了计算量,提高了语音检测的效率,因而使得智能音箱可快速的响应进入工作模式。同时,当确定为语音信号后,通过设置了谱幅度值的判断,减少了误触发的情况,在一定程度上降低了待机功耗。
附图说明
图1为本发明一种智能音箱的待机控制方法的一个实施例流程图。
具体实施方式
下面结合附图对本发明进行详细的说明。
参考图1,图示了本发明一种智能音箱待机控制方法的实施例的流程图。如图所示,本实施例中处于家庭场景下,智能音箱作为智能家居的控制中心来响应用户语音指令,控制各个家电的运行。该方法包括:
步骤S11,获取音频信号。
待机状态下,智能音箱仍然保留着能够进行语音检测的基本能力,以随时响应用户的语音控制指令。
但是,在现实的环境中,除了人所产生的语音信号之外,还包括很多其他的音频信号,例如走路的声音、物品撞击的声音等。显然,这些声音不应该触发智能音箱进入工作状态,否则将会加大智能音箱的功耗,同时在一定程度上也降低了其使用寿命。
因此,这里的音频信号是智能音箱所处环境中的所有能检测到的声音信号,包含了人的语音信号。
步骤S12,对所述音频信号进行快速傅里叶变换得到频域信号。
为便于对于音频进行进行分析处理,在信号处理领域,通常都要讲输入信号做傅里叶变换,以在频域进行各种分析和处理。由于,快速傅里叶变换已经是成熟的变换方法,在此不再赘述。
步骤S13,根据所述频域信号计算谱幅度值。
在本发明一个实施例中,谱幅度值的计算通过以下公式:
其中,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值,z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度,N表示快速傅里叶变换的变化长度,k小于或等于N,exp(-j2πkn/N)表示幅角为2π的kn/N倍的复数。
步骤S14,根据所述谱幅度值计算概率密度。
在本发明一个实施例中,可以通过以下方式来计算概率密度:
首先,根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量;
然后,根据所述总能量以及所述谱幅度值计算概率密度。
这其中,对于带噪语音功率谱总能量来说,其可以通过以下方式计算:
其中,Esum(y)表示第y个音频信号所在帧的带噪语音功率谱总能量,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值,N表示快速傅里叶变换的变化长度。
通过以上方式获得总能量后,再通过以下方式计算得到概率密度:
D(k,y)=|X(k,y)|2/Esum(y);
D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。
步骤S15,根据所述概率密度计算所述音频信号的谱熵。
在本发明一个实施例中,对于谱熵来说,通过以下公式计算获得:
其中,H(y)表示第y个音频信号的谱熵。
步骤S16,根据所述谱熵判断所述音频信号是否为语音信号。
本步骤中,对于具体的判断方法,可以参考下面的实施例:
首先,计算所述音频信号的能量;
然后,根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号。
其中,对于音频信号的能量的计算可以通过以下公式:
其中,E(y)表示第y个音频信号的能量,M表示音频信号所在帧的帧长,z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度。
针对具体的判断方法,在本发明一个实施例中,可以通过能量和谱熵来获取:
例如,判断P(y)是否大于预置门限值,若是,则确定音频信号是语音信号,若否,则确定音频信号不是语音信号,这其中,
步骤S17,若是语音信号,则判断所述语音信号的谱幅度值是否超过预设值;若是则所述智能音箱进入工作模式。
本步骤中,在上一步已经确定为语音信号时,进一步判断是否需要进入工作模式,因为检测到语音信号并不代表一定要进入工作模式,显然并不是所有的语音信号都是针对智能音箱的指示。
对于判断方法,则可以通过对该语音信号在其各个频段上的谱幅度值进行判断,对于该语音信号,其作为一个整体,只要其中包含有谱幅度值超过预设值的情况,那么就认为此语音信号是针对该智能音箱,或者至少是有更多的可能性,因此控制智能音箱进入工作模式。也就是说,该语音信号的任一频带的谱幅度值超过预设值,都控制智能音箱从待机模式进入工作模式。
在工作模式下,智能音箱会以更多的资源来对语音信号进行语义的分析,并作出响应。从而控制各个家电的运转。
以上为本发明的可选实施例,可以理解,在阅读上述实施例的基础上,本领域技术人员还可以做出一些等同的变化,这些仍然在本发明的保护范围之内。

Claims (9)

1.一种智能音箱待机控制方法,其特征在于,所述方法包括:
智能音箱获取音频信号;
对所述音频信号进行快速傅里叶变换得到频域信号;
根据所述频域信号计算谱幅度值;
根据所述谱幅度值计算概率密度;
根据所述概率密度计算所述音频信号的谱熵;
根据所述谱熵判断所述音频信号是否为语音信号;
若是语音信号,则判断所述语音信号的谱幅度值是否超过预设值;
若是则所述智能音箱进入工作模式;
其中,所述谱幅度值通过以下方式获得:
其中,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值,z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度,N表示快速傅里叶变换的变化长度,k小于或等于N,exp(-j2πkn/N)表示幅角为2π的kn/N倍的复数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述谱幅度值计算概率密度包括:
根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量;
根据所述总能量以及所述谱幅度值计算概率密度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量包括:
其中,Esum(y)表示第y个音频信号所在帧的带噪语音功率谱总能量,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值,N表示快速傅里叶变换的变化长度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述总能量以及所述谱幅度值计算概率密度包括:
D(k,y)=|X(k,y)|2/Esum(y),D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述概率密度计算所述音频信号的谱熵包括:
其中,H(y)表示第y个音频信号的谱熵。
6.根据权利要求5所述的方法,其特征在于,所述根据所述谱熵判断所述音频信号是否为语音信号包括:
计算所述音频信号的能量;
根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号。
7.根据权利要求6所述的方法,其特征在于,所述计算所述音频信号的能量包括:
其中,E(y)表示第y个音频信号的能量,M表示音频信号所在帧的帧长,z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度。
8.根据权利要求7所述的方法,其特征在于,所述根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号包括:
判断P(y)是否大于预置门限值,若是,则确定音频信号是语音信号,若否,则确定音频信号不是语音信号,其中,
9.根据权利要求8所述的方法,其特征在于,所述判断所述语音信号的谱幅度值是否超过预设值包括判断所述语音信号中至少一个频段的谱幅度值是否超过预设值。
CN201810302821.9A 2018-04-06 2018-04-06 智能音箱的待机控制方法 Pending CN108429999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810302821.9A CN108429999A (zh) 2018-04-06 2018-04-06 智能音箱的待机控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810302821.9A CN108429999A (zh) 2018-04-06 2018-04-06 智能音箱的待机控制方法

Publications (1)

Publication Number Publication Date
CN108429999A true CN108429999A (zh) 2018-08-21

Family

ID=63160667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810302821.9A Pending CN108429999A (zh) 2018-04-06 2018-04-06 智能音箱的待机控制方法

Country Status (1)

Country Link
CN (1) CN108429999A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5766601A (en) * 2000-07-31 2002-02-07 Lucent Technologies Inc. Post-filtering voice-activity detector
US6453041B1 (en) * 1997-05-19 2002-09-17 Agere Systems Guardian Corp. Voice activity detection system and method
EP1908059A2 (en) * 2005-07-22 2008-04-09 Softmax, Inc. Robust separation of speech signals in a noisy environment
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN106155621A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 可识别声源位置的关键词语音唤醒系统及方法及移动终端
WO2017137755A2 (en) * 2016-02-09 2017-08-17 Elliptic Laboratories As Proximity detection
CN107731223A (zh) * 2017-11-22 2018-02-23 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453041B1 (en) * 1997-05-19 2002-09-17 Agere Systems Guardian Corp. Voice activity detection system and method
AU5766601A (en) * 2000-07-31 2002-02-07 Lucent Technologies Inc. Post-filtering voice-activity detector
EP1908059A2 (en) * 2005-07-22 2008-04-09 Softmax, Inc. Robust separation of speech signals in a noisy environment
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN106155621A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 可识别声源位置的关键词语音唤醒系统及方法及移动终端
WO2017137755A2 (en) * 2016-02-09 2017-08-17 Elliptic Laboratories As Proximity detection
CN107731223A (zh) * 2017-11-22 2018-02-23 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备

Similar Documents

Publication Publication Date Title
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN103811003B (zh) 一种语音识别方法以及电子设备
Tian et al. Spoofing detection from a feature representation perspective
CN105810213A (zh) 一种典型异常声音检测方法及装置
WO2021008000A1 (zh) 语音唤醒方法、装置及电子设备、存储介质
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
JP2019053321A (ja) 音声信号を検出するための方法および装置
CN109801646A (zh) 一种基于融合特征的语音端点检测方法和装置
CN106971714A (zh) 一种应用于机器人的语音去噪识别方法及装置
WO2019121397A1 (en) System and method for determining occupancy
CN109300483A (zh) 一种智能化音频异音检测方法
CN107515852A (zh) 特定类型信息识别方法及装置
CN108538290A (zh) 一种基于音频信号检测的智能家居控制方法
CN115510909A (zh) 一种dbscan进行异常声音特征的无监督算法
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及系统
CN108429999A (zh) 智能音箱的待机控制方法
TWI684912B (zh) 語音喚醒裝置及方法
KR20180011015A (ko) 음성 인식을 위한 회로 및 방법
CN101308651A (zh) 音频暂态信号的检测方法
US20170154639A1 (en) Information processing apparatus, computer readable storage medium, and information processing method
CN114121025A (zh) 一种面向变电站设备的声纹故障智能检测方法及装置
CN110108936A (zh) 信号处理方法及装置
CN111190045A (zh) 电压异常预测方法及装置、电子设备
TWI756817B (zh) 語音活動偵測裝置與方法
US20080154597A1 (en) Voice processing apparatus and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180821

WD01 Invention patent application deemed withdrawn after publication