CN111445918A - 降低智能语音设备误唤醒的方法、装置和计算机设备 - Google Patents

降低智能语音设备误唤醒的方法、装置和计算机设备 Download PDF

Info

Publication number
CN111445918A
CN111445918A CN202010208426.1A CN202010208426A CN111445918A CN 111445918 A CN111445918 A CN 111445918A CN 202010208426 A CN202010208426 A CN 202010208426A CN 111445918 A CN111445918 A CN 111445918A
Authority
CN
China
Prior art keywords
frequency domain
echo
domain signal
channel frequency
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010208426.1A
Other languages
English (en)
Other versions
CN111445918B (zh
Inventor
陈俊彬
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010208426.1A priority Critical patent/CN111445918B/zh
Publication of CN111445918A publication Critical patent/CN111445918A/zh
Application granted granted Critical
Publication of CN111445918B publication Critical patent/CN111445918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本申请揭示了一种降低智能语音设备误唤醒的方法、装置和计算机设备,获取智能语音设备的回声通道数据与麦克风通道数据;对回声通道数据与麦克风通道数据进行处理,得到回声通道频域信号与麦克风通道频域信号;通过回声消除算法对麦克风通道频域信号进行回声消除,得到回声消除后的麦克风通道频域信号;计算回声消除后的麦克风通道频域信号与回声通道频域信号的第一互相干系数;按照预设规则获取与回声消除后的麦克风通道频域信号对应的指定数据值;判断第一互相干系数是否大于预设的第一阈值,以及判断指定数据值是否小于预设的第二阈值;若均是,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值。本申请能有效降低智能语音设备被误唤醒的可能性。

Description

降低智能语音设备误唤醒的方法、装置和计算机设备
技术领域
本申请涉及语音处理技术领域,具体涉及一种降低智能语音设备误唤醒的方法、装置和计算机设备。
背景技术
语音识别技术在近些年取得了显著的进步,该技术已进入工业、家电、智能家居等各个领域。包含唤醒词的语音唤醒技术是语音识别技术中的一种形式,其不直接接触硬件设备,通过包含唤醒词的语音即可实现设备的唤醒或者运行。现有的带有扬声器的智能语音设备,例如智能音箱、车载的手机架或者语音机器人等的播放打断功能也采用了包含唤醒词的语音唤醒技术进行实现,且现有应用于智能语音设备的语音唤醒技术中的唤醒词都是采用固定阈值的方式,即在智能语音设备的正唤醒率与误唤醒率之间取一个平衡数值作为固定的唤醒词阈值。在智能语音设备的工作过程中,例如在播放音乐或语音播报时,由于智能语音设备的扬声器发出的声音会传播到智能语音设备的麦克风并被麦克风采集,使得扬声器发出的声音会对智能语音设备的语音识别造成干扰。针对这种情况,智能语音设备通常会对扬声器发出的声音进行回声消除处理,但如果回声消除不完善或者扬声器到麦克风的非线性失真太大则会导致出现回声残余过大的情况,而当智能语音设备长时间处于具有过大的回声残余的环境中时,由于应用于智能语音设备内的唤醒词阈值始终是固定不变的,这样就会大大增加智能语音设备被回声残余误唤醒的可能性。如果智能语音设备的麦克风没有收到用户发出的包含唤醒词的语音,但智能语音设备当前的播放状态却因为残余的回声被打断了,这样便会大大降低用户的使用体验。
发明内容
本申请的主要目的为提供一种降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,旨在解决现有应用于智能语音设备的语音唤醒技术中的唤醒词都是采用固定阈值的方式,当智能语音设备长时间处于具有过大的回声残余的环境中时,由于应用于智能语音设备内的唤醒词阈值始终是固定不变的,这样就会大大增加智能语音设备被回声残余误唤醒的可能性的技术问题。
本申请提出一种降低智能语音设备误唤醒的方法,所述方法包括步骤:
获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,
按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
可选地,所述通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)的步骤,包括:
采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);
其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且
Figure BDA0002421987100000031
其中,μ是步长调节因子,·*表示求共轭。
可选地,所述计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)的步骤,包括:
通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:
Figure BDA0002421987100000033
其中,
Figure BDA0002421987100000032
Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。
可选地,所述按照预设规则获取与所述回声消除后的麦克风通道频域信号E(k,k)对应的指定数据值的步骤,包括:
计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);
将所述第二互相干系数CMd(l)确定为所述指定数据值。
可选地,所述计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)的步骤,包括:
通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:
Figure BDA0002421987100000041
其中,
Figure BDA0002421987100000042
Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。
可选地,所述按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,包括:
将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;
通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;
将所述概率数值确定为所述指定数据值。
可选地,所述将唤醒词的唤醒阈值调整为预设的指定唤醒阈值的步骤,包括:
计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,
计算所述指定数据值与所述第二阈值之间的第二差值;
从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;
从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;
将唤醒词的唤醒阈值调整为所述指定唤醒阈值。
本申请还提供一种降低智能语音设备误唤醒的装置,包括:
第一获取模块,用于获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
第一处理模块,用于通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
第二处理模块,用于通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
消除模块,用于通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算模块,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);
第二获取模块,用于按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断模块,用于判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
调整模块,用于若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,首先通过短时傅里叶变换对获取的智能语音设备的回声通道数据与麦克风通道数据进行处理,得到处理后的回声通道频域信号与麦克风通道频域信号。然后通过预设的回声消除算法对所述麦克风通道频域信号进行回声消除得到回声消除后的麦克风通道频域信号。之后计算所述回声消除后的麦克风通道频域信号与所述回声通道频域信号之间的第一互相干系数,并获取与回声消除后的麦克风通道频域信号对应的指定数据值。最后在判断出第一互相干系数大于预设的第一阈值,且指定数据值小于预设的第二阈值时,则判定智能语音设备当前处于回声残余较大而麦克风输入较小的环境中,此时便会对唤醒词的唤醒阈值进行智能调整,即自动将唤醒词的唤醒阈值调整为数值更大的指定唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,有效地降低了被智能语音设备回声残余误唤醒的可能性。
附图说明
图1是本申请一实施例的降低智能语音设备误唤醒的方法的流程示意图;
图2是本申请一实施例的降低智能语音设备误唤醒的装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
参照图1,本申请一实施例的降低智能语音设备误唤醒的方法,包括:
S1:获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
S2:通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
S3:通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
S4:通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
S5:计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,
S6:按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
S7:判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
S8:若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
如上述步骤S1至S8所述,本方法实施例的执行主体为一种降低智能语音设备误唤醒的装置。在实际应用中,该降低智能语音设备误唤醒的装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互,举例地,上述降低智能语音设备误唤醒的装置具体可以为带有扬声器的智能语音设备,例如智能音箱、车载的手机架或者语音机器人等。通过本实施例提供的降低智能语音设备误唤醒的装置可以有效实现对唤醒词的唤醒阈值的智能调整。具体地,首先获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l)。然后通过短时傅里叶变换对上述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及通过短时傅里叶变换对上述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k)。其中,短时傅里叶变换(STFT,short-timeFourier transform,或short-term Fourier transform)是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,通过短时傅里叶变换能够将上述回声通道数据转换为对应的回声通道频域信号,以及将上述麦克风通道数据转换为对应的麦克风通道频域信号。在得到了上述麦克风通道频域信号后,再通过预设的回声消除算法对上述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)。其中,对于上述回声消除算法不作具体限定,例如该回声消除算法可选用NLMS(Normalized Least Mean Square,归一化最小均方算法)算法、RLS(Recursive LeastSquare,递推最小二乘法算法)算法、LMS(Least Mean Square,最小均方算法)算法,等等,本实施例优选使用NLMS算法。在得到了上述回声消除后的麦克风通道频域信号E(l,k)后,再计算上述回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)。以及,按照预设规则获取与上述回声消除后的麦克风通道频域信号CMx(l)对应的指定数据值。其中,上述指定数据值可为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),或者还可以为上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值;对应的,当指定数据值为上述第二互相干系数CMd(l)时,上述预设规则可指代通过预设的第三计算公式计算出上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l);而当指定数据值为上述概率数值时,上述预设规则可指代通过预设的唤醒引擎对上述回声消除后的麦克风通道频域信号进行处理后生成上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值。在得到了上述指定数据值时,之后判断上述第一互相干系数是否大于预设的第一阈值,以及判断上述指定数据值是否小于预设的第二阈值。其中,对上述第一阈值与第二阈值的具体生成方式不作具体限定,例如可由上述降低智能语音设备误唤醒的装置根据以往的数据处理记录,例如大量的测试数据进行自行统计生成,也可由用户根据个人需求确定并输入至装置内得到,等等。如果判断出判断上述第一互相干系数大于预设的第一阈值,且上述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值。其中,上述唤醒词的唤醒阈值是指智能语音设备中最终用于进行语音唤醒识别处理的最终唤醒引擎内设置的初始的唤醒词的唤醒阈值,且也是将上述最终唤醒引擎内设置的初始的唤醒词的唤醒阈值调整为上述指定唤醒阈值,上述指定唤醒阈值的数值大于上述唤醒阈值,当上述第一互相干系数大于预设的第一阈值时,可判定当前出现了回声残余较大的情形,而当上述指定数据值小于预设的第二阈值时,可判定当前出现了麦克风输入较小的情形。另外,可以根据上述第一互相干系数与上述指定数据值,对预设的区间范围值-唤醒阈值映射表进行查表来筛选出对应的上述指定唤醒阈值。本申请实施例在根据智能语音设备的回声通道数据与麦克风通道数据获取到相应的第一互相干系数与指定数据值后,如果判断出第一互相干系数大于预设的第一阈值且指定数据值小于预设的第二阈值,则判定智能语音设备当前处于回声残余较大而麦克风输入较小的环境中,此时便会对唤醒词的唤醒阈值进行智能调整,即自动将唤醒词的唤醒阈值调整为数值更大的指定唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,有效地降低了被智能语音设备回声残余误唤醒的可能性。
进一步地,本申请一实施例中,上述步骤S4,包括:
S400:采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);
其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且
Figure BDA0002421987100000091
其中,μ是步长调节因子,·*表示求共轭。
如上述步骤S400所述,上述通过预设的回声消除算法对上述麦克风通道频域信号进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)的步骤,具体可包括:通过采用与NLMS算法对应的第一计算公式对上述麦克风通道频域信号D(l,k)进行回声消除,得到上述回声消除后的麦克风通道频域信号E(l,k),其中,上述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且
Figure BDA0002421987100000101
其中,μ是步长调节因子,·*表示求共轭。其中,除了采用NLMS算法对上述麦克风通道频域信号进行回声消除之外,还可以选用其他的回声消除算法,例如RLS算法、LMS算法,等等。本实施例通过采用与NLMS算法对应的第一计算公式来对上述麦克风通道频域信号进行回声消除,从而能快捷方便地计算出回声消除后的上述回声消除后的麦克风通道频域信号E(l,k),有利于后续能够根据该回声消除后的麦克风通道频域信号来快速地计算出回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),以及获取到与上述回声消除后的麦克风通道频域信号对应的指定数据值。
进一步地,本申请一实施例中,上述步骤S5,包括:
S500:通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:
Figure BDA0002421987100000102
其中,
Figure BDA0002421987100000103
Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。
如上述步骤S500所述,上述计算上述回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)的步骤,具体可包括:通过预设的第二计算公式计算上述回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,上述第二计算公式为:
Figure BDA0002421987100000111
其中,
Figure BDA0002421987100000112
Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。本实施例通过采用预设的第二计算公式来快捷方便地计算出回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),有利于后续根据将该第一互相干系数CMx(l)与预设的第一阈值进行比较得到对应的第一比较结果,进而根据该第一比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。
进一步地,本申请一实施例中,上述步骤S6,包括:
S600:计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);
S601:将所述第二互相干系数CMd(l)确定为所述指定数据值。
如上述步骤S600至S601所述,上述指定数据值可为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),或者还可以为上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值。当上述指定数据值可为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)时,上述按照预设规则获取与上述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,具体可包括:首先计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)。其中,上述第二互相干系数CMd(l)的计算过程与上述第一互相干系数CMx(l)的计算过程类型,可以采用预设的第三计算公式来计算出上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),上述第三计算公式具体可为:
Figure BDA0002421987100000121
然后将上述第二互相干系数CMd(l)确定为上述指定数据值。本实施例通过计算出回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),并将该第二互相干系数CMd(l)确定为上述指定数据值,有利于后续将该第二互相干系数CMd(l)与预设的第二阈值进行比较得到对应的第二比较结果,进而智能地根据该第二比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。
进一步地,本申请一实施例中,上述步骤S600,包括:
S6000:通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:
Figure BDA0002421987100000122
其中,
Figure BDA0002421987100000123
Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。
如上述步骤S6000所述,上述计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)的步骤,具体可包括:通过预设的第三计算公式计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,上述第三计算公式为:
Figure BDA0002421987100000124
其中,
Figure BDA0002421987100000125
Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。本实施例通过采用预设的第三计算公式计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),有利于后续根据将该第二互相干系数CMd(l)与预设的第二阈值进行比较得到对应的第二比较结果,进而根据该第二比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。
本申请一实施例中,上述步骤S6,包括:
S610:将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;
S611:通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;
S612:将所述概率数值确定为所述指定数据值。
如上述步骤S610至S612所述,上述指定数据值除了为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),还可以为上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值。具体地,上述按照预设规则获取与上述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,具体可包括:首先将上述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内。其中,上述唤醒引擎与智能语音设备中最终用于进行语音唤醒识别处理的最终唤醒引擎不是相同的引擎,即上述唤醒引擎为预先训练好的用于对输入的语音数据来进行该语音数据中包含有唤醒词的概率数值的计算的特定的唤醒引擎。然后通过上述唤醒引擎计算上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率,得到对应的概率数值。其中,对于上述概率数值的具体计算过程不作限制,优选地,概率数值的计算过程可为:获取上述唤醒词包含的所有的唤醒字,其中,上述唤醒字的数量为多个;计算出上述回声消除后的麦克风通道频域信号中含有指定唤醒字的指定概率,其中,上述指定唤醒字为上述唤醒词包含的所有的唤醒字中的任意一个唤醒字;根据上述指定概率,计算各指定概率之间的乘积,并将乘积确定为上述概率数值。举例地,假设上述唤醒词为小李同学,则其包含有4个唤醒字,分别为小、李、同、学。如果通过唤醒引擎分别计算出上述回声消除后的麦克风通道频域信号中含有小字的第一指定概率为0.9,上述回声消除后的麦克风通道频域信号中含有李字的第二指定概率为0.8,上述回声消除后的麦克风通道频域信号中含有同字的第三指定概率为0.7,上述回声消除后的麦克风通道频域信号中含有学字的第一指定概率为0.8,则上述概率数值可由第一指定概率、第二指定概率、第三指定概率与第四指定概率之间的乘积求出,即概率数值=0.9*0.8*0.7*0.8=0.4032。在得到了上述概率数值时,最后将上述概率数值确定为上述指定数据值。本实施例通过将回声消除后的麦克风通道频域信号输入至预设的唤醒引擎内来计算出回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值,并将该概率数值确定为上述指定数据值,有利于后续将该概率数值与预设的第二阈值进行比较得到对应的第二比较结果,进而智能地根据该第二比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。
进一步地,本申请一实施例中,上述步骤S8,包括:
S800:计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,
S801:计算所述指定数据值与所述第二阈值之间的第二差值;
S802:从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;
S803:从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;
S804:将唤醒词的唤醒阈值调整为所述指定唤醒阈值。
如上述步骤S800至S804所述,上述将唤醒词的唤醒阈值调整为预设的指定唤醒阈值的步骤,具体可包括:首先计算上述第一互相干系数CMx(l)与上述第一阈值之间的第一差值;其中,上述第一差值是指上述第一互相干系数CMx(l)减去上述第一阈值后得到的差值,举例地,如果计算出的第一互相干系数CMx(l)为0.9,第一阈值为0.8,则可计算出第一差值为0.9-0.8=0.1。以及计算上述指定数据值与上述第二阈值之间的第二差值。其中,上述第二互相干系数CMd(l)与上述概率数值可以分别对应着数值不同的第二阈值,举例地,与上述第二互相干系数CMd(l)对应的第二阈值可设为0.4,而与上述概率数值对应的第二阈值可设为0.9。另外,上述第二差值是指上述指定数据值减去上述第二阈值后得到的差值,且该第二差值的求取过程可参考上述第一差值的计算过程,举例地,当计算出的指定数据值为0.2,且第二阈值为0.4时,可计算出第二差值为0.2-0.4=-0.2。然后从预设的区间范围值-唤醒阈值映射表筛选出与上述第一差值对应的第一指定范围值,以及与上述第二差值对应的第二指定范围值。其中,上述区间范围值-唤醒阈值映射表可以由降低智能语音设备误唤醒的装置根据以往的数据处理记录自行统计编写生成。之后从上述区间范围值-唤醒阈值映射表提取出与上述第一指定范围值、上述第二指定范围值对应的指定唤醒阈值。举例地,如果上述区间范围值-唤醒阈值映射表中的某一列数据记录有与第一阈值对应的第一区间范围值0.05至0.15,与第二阈值对应的第二区间范围值-0.25至-0.15,且与第一区间范围值、第二区间范围值对应的唤醒阈值为0.95,则当第一差值为0.1,第二差值为-0.2时,通过对区间范围值-唤醒阈值映射表进行查表可查询出与第一差值0.1对应的第一指定范围值为0.05至0.15,与第二差值-0.2对应的第二指定范围值为-0.25至-0.15,进一步可以查找出与第一指定范围值、第二指定范围值对应的指定唤醒阈值为0.95。在得到上述指定唤醒阈值时,最后将唤醒词的唤醒阈值调整为上述指定唤醒阈值,以智能地实现在回声残余较大而麦克风输入较小的情况下自动提高唤醒词的唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,降低了智能语音设备被回声残余误唤醒的可能性。
参照图2,本申请一实施例还提供了一种降低智能语音设备误唤醒的装置,包括:
第一获取模块1,用于获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
第一处理模块2,用于通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
第二处理模块3,用于通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
消除模块4,用于通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算模块5,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,
第二获取模块6,用于按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断模块7,用于判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
调整模块8,用于若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
本实施例中,上述降低智能语音设备误唤醒的装置中的第一获取模块、第一处理模块、第二处理模块、消除模块、计算模块、第二获取模块、判断模块与调整模块的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S1至S8的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述消除模块,包括:
第一计算单元,用于采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);
其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且
Figure BDA0002421987100000171
其中,μ是步长调节因子,·*表示求共轭。
本实施例中,上述降低智能语音设备误唤醒的装置中的第一计算单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S400的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述计算模块,包括:
第二计算单元,用于通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:
Figure BDA0002421987100000172
其中,
Figure BDA0002421987100000173
Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。
本实施例中,上述降低智能语音设备误唤醒的装置中的第二计算单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S500的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二获取模块,包括:
第三计算单元,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);
第一确定单元,用于将所述第二互相干系数CMd(l)确定为所述指定数据值。
本实施例中,上述降低智能语音设备误唤醒的装置中的第三计算单元与第一确定单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S600至S601的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第三计算单元,包括:
计算子单元,用于通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:
Figure BDA0002421987100000181
其中,
Figure BDA0002421987100000182
Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。
本实施例中,上述降低智能语音设备误唤醒的装置中的计算子单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S6000的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二获取模块,包括:
输入单元,用于将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;
第四计算单元,用于通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;
第二确定单元,用于将所述概率数值确定为所述指定数据值。
本实施例中,上述降低智能语音设备误唤醒的装置中的输入单元、第四计算单元与第二确定单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S610至S612的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述调整模块,包括:
第五计算单元,用于计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,
第六计算单元,用于计算所述指定数据值与所述第二阈值之间的第二差值;
筛选单元,用于从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;
提取单元,用于从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;
调整单元,用于将唤醒词的唤醒阈值调整为所述指定唤醒阈值。
本实施例中,上述降低智能语音设备误唤醒的装置中的第五计算单元、第六计算单元、筛选单元、提取单元与调整单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S800至S804的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储回声消除后的麦克风通道频域信号E(l,k)、第一互相干系数CMx(l)、指定数据值以及指定唤醒阈值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种降低智能语音设备误唤醒的方法。
上述处理器执行上述降低智能语音设备误唤醒的方法的步骤:
获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,
按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种降低智能语音设备误唤醒的方法,具体为:
获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,
按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
综上所述,本申请实施例中提供的降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。本申请实施例在根据智能语音设备的回声通道数据与麦克风通道数据获取到相应的第一互相干系数与指定数据值后,如果判断出第一互相干系数大于预设的第一阈值且指定数据值小于预设的第二阈值,则判定智能语音设备当前处于回声残余较大而麦克风输入较小的环境中,此时便会对唤醒词的唤醒阈值进行智能调整,即自动将唤醒词的唤醒阈值调整为数值更大的指定唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,有效地降低了被智能语音设备回声残余误唤醒的可能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。处理器

Claims (10)

1.一种降低智能语音设备误唤醒的方法,其特征在于,包括:
获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,
按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
2.根据权利要求1所述的降低智能语音设备误唤醒的方法,其特征在于,所述通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)的步骤,包括:
采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);
其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且
Figure FDA0002421987090000021
其中,μ是步长调节因子,·*表示求共轭。
3.根据权利要求1所述的降低智能语音设备误唤醒的方法,其特征在于,所述计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)的步骤,包括:
通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:
Figure FDA0002421987090000022
其中,
Figure FDA0002421987090000023
Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。
4.根据权利要求1所述的降低智能语音设备误唤醒的方法,其特征在于,所述按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,包括:
计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);
将所述第二互相干系数CMd(l)确定为所述指定数据值。
5.根据权利要求4所述的降低智能语音设备误唤醒的方法,其特征在于,所述计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)的步骤,包括:
通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:
Figure FDA0002421987090000031
其中,
Figure FDA0002421987090000032
Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。
6.根据权利要求1所述的降低智能语音设备误唤醒的方法,其特征在于,所述按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,包括:
将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;
通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;
将所述概率数值确定为所述指定数据值。
7.根据权利要求1所述的降低智能语音设备误唤醒的方法,其特征在于,所述将唤醒词的唤醒阈值调整为预设的指定唤醒阈值的步骤,包括:
计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,
计算所述指定数据值与所述第二阈值之间的第二差值;
从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;
从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;
将唤醒词的唤醒阈值调整为所述指定唤醒阈值。
8.一种降低智能语音设备误唤醒的装置,其特征在于,包括:
第一获取模块,用于获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);
第一处理模块,用于通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,
第二处理模块,用于通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);
消除模块,用于通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);
计算模块,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);
第二获取模块,用于按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;
判断模块,用于判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;
调整模块,用于若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010208426.1A 2020-03-23 2020-03-23 降低智能语音设备误唤醒的方法、装置和计算机设备 Active CN111445918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010208426.1A CN111445918B (zh) 2020-03-23 2020-03-23 降低智能语音设备误唤醒的方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010208426.1A CN111445918B (zh) 2020-03-23 2020-03-23 降低智能语音设备误唤醒的方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111445918A true CN111445918A (zh) 2020-07-24
CN111445918B CN111445918B (zh) 2020-12-15

Family

ID=71653507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010208426.1A Active CN111445918B (zh) 2020-03-23 2020-03-23 降低智能语音设备误唤醒的方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111445918B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365883A (zh) * 2020-10-29 2021-02-12 安徽江淮汽车集团股份有限公司 座舱系统语音识别测试方法、装置、设备及存储介质
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN112581972A (zh) * 2020-10-22 2021-03-30 广东美的白色家电技术创新中心有限公司 语音交互方法及相关装置、对应关系建立方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105635500A (zh) * 2014-10-29 2016-06-01 联芯科技有限公司 双麦克风回声及噪声的抑制系统及其方法
US9595997B1 (en) * 2013-01-02 2017-03-14 Amazon Technologies, Inc. Adaption-based reduction of echo and noise
CN108564951A (zh) * 2018-03-02 2018-09-21 北京云知声信息技术有限公司 智能降低语音控制设备误唤醒概率的方法
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN109697984A (zh) * 2018-12-28 2019-04-30 北京声智科技有限公司 一种降低智能设备自唤醒的方法
CN109817209A (zh) * 2019-01-16 2019-05-28 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互系统
CN109961798A (zh) * 2017-12-26 2019-07-02 华平信息技术股份有限公司 回声消除系统、方法、可读计算机存储介质、及终端
CN110148405A (zh) * 2019-04-10 2019-08-20 北京梧桐车联科技有限责任公司 语音指令处理方法及装置、电子设备及存储介质
CN110660407A (zh) * 2019-11-29 2020-01-07 恒玄科技(北京)有限公司 一种音频处理方法及装置
CN110797051A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种唤醒门限设置方法、装置、智能音箱及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9595997B1 (en) * 2013-01-02 2017-03-14 Amazon Technologies, Inc. Adaption-based reduction of echo and noise
CN105635500A (zh) * 2014-10-29 2016-06-01 联芯科技有限公司 双麦克风回声及噪声的抑制系统及其方法
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN109961798A (zh) * 2017-12-26 2019-07-02 华平信息技术股份有限公司 回声消除系统、方法、可读计算机存储介质、及终端
CN108564951A (zh) * 2018-03-02 2018-09-21 北京云知声信息技术有限公司 智能降低语音控制设备误唤醒概率的方法
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN109697984A (zh) * 2018-12-28 2019-04-30 北京声智科技有限公司 一种降低智能设备自唤醒的方法
CN109817209A (zh) * 2019-01-16 2019-05-28 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互系统
CN110148405A (zh) * 2019-04-10 2019-08-20 北京梧桐车联科技有限责任公司 语音指令处理方法及装置、电子设备及存储介质
CN110797051A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种唤醒门限设置方法、装置、智能音箱及存储介质
CN110660407A (zh) * 2019-11-29 2020-01-07 恒玄科技(北京)有限公司 一种音频处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581972A (zh) * 2020-10-22 2021-03-30 广东美的白色家电技术创新中心有限公司 语音交互方法及相关装置、对应关系建立方法
WO2022083502A1 (zh) * 2020-10-22 2022-04-28 广东美的白色家电技术创新中心有限公司 语音交互方法及相关装置、对应关系建立方法
CN112365883A (zh) * 2020-10-29 2021-02-12 安徽江淮汽车集团股份有限公司 座舱系统语音识别测试方法、装置、设备及存储介质
CN112365883B (zh) * 2020-10-29 2023-12-26 安徽江淮汽车集团股份有限公司 座舱系统语音识别测试方法、装置、设备及存储介质
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111445918B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN110335620B (zh) 一种噪声抑制方法、装置和移动终端
CN111445918B (zh) 降低智能语音设备误唤醒的方法、装置和计算机设备
EP3910627A1 (en) Keyword detection method and related device
CN109218535B (zh) 智能调节音量的方法、装置、存储介质及终端
WO2019154442A1 (zh) 一种动态或准动态力度检测装置及方法
CN109308908B (zh) 一种语音交互方法及装置
TWI581254B (zh) 環噪消除系統及其應用方法
CN107507621B (zh) 一种噪声抑制方法及移动终端
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
CN105388992A (zh) 指纹识别方法、装置以及终端
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
CN111883091A (zh) 音频降噪方法和音频降噪模型的训练方法
CN109979469B (zh) 信号处理方法、设备及存储介质
CN111435462A (zh) 训练神经网络的方法及系统
CN110600048B (zh) 音频校验方法、装置、存储介质及电子设备
CN111048061B (zh) 回声消除滤波器的步长获取方法、装置及设备
CN111667843B (zh) 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN111524498A (zh) 滤波方法、装置及电子设备
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
CN111477243A (zh) 音频信号处理方法及电子设备
CN115171714A (zh) 一种语音增强方法、装置、电子设备及存储介质
CN111627416A (zh) 音频噪声消除方法、装置、设备和存储介质
CN111613246A (zh) 一种音频分类提示方法以及相关设备
CN110797040A (zh) 一种噪声消除方法、智能音箱及存储介质
CN114333817A (zh) 遥控器及遥控器语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant