CN111161753B

CN111161753B - 基于智能终端的安全语音交互方法及系统

Info

Publication number: CN111161753B
Application number: CN202010003312.3A
Authority: CN
Inventors: 朱弘恣; 王潇; 常姗; 王旭东
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2022-08-05
Anticipated expiration: 2040-01-03
Also published as: CN111161753A

Abstract

一种基于智能终端的安全语音交互方法，在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加，然后智能终端基于干扰噪声的先验知识，在接收信号上自适应消噪并提取出待采集音频。本发明使用用户自己的语音产生干扰噪声，并在时变信道下有效地进行自消除，能够在现有设备上部署使用、在不影响正常语音交互功能实现的基础上确保语音交互的安全性。

Description

基于智能终端的安全语音交互方法及系统

技术领域

本发明涉及一种信息安全领域的技术，具体涉及一种基于智能终端的安全语音交互方法及系统。

背景技术

随着移动设备的迅速普及，人机交互方式也在不断演变。语音交互作为一种新兴的交互方式正变得越越成熟和流行，包括语音输入法如iFLYTEK和语音助手如GoogleAssistant、Siri、Cortana等。然而，由于语音信号的开放性，这些交互可能面临很大的安全威胁，窃听者通过现场窃听或录音获取隐私信息。随着语音技术的广泛应用，安全问题变得越越重要。因此，为语音交互提供强有力的保护是非常重要的

在现有工作中，已有一些针对类似问题的方案。一类利用麦克风非线性特性的方案，例如Backdoor和Dolphinattack，利用超声波信号进行隐蔽干扰或通信。但是，这些方法也会影响语音交互应用的正常使用，且只能干扰录音设备而不能保护用户语音不被人听到。另一类方案利用噪声保护声学信号。然而，这些方案是为数据通信而设计的，使用的声学信号与人的声音有很大的不同。此外，有方法利用了多径效应，将音频信号与噪声混合编码后通过多扬声器播放，使得空间中只有特定位置能够听清音频内容实现隐蔽通信的目的。该方法的局限性在于需要多个扬声器，且只适合于静态环境。另一种方案需要利用额外的硬件过滤录音设备中敏感的语音内容。总体而言，目前尚不存在能在智能设备上提供安全的语音交互功能的解决方案。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于智能终端的安全语音交互方法及系统，使用用户自己的语音产生干扰噪声，并在时变信道下有效地进行自消除，能够在现有设备上部署使用、在不影响正常语音交互功能实现的基础上确保语音交互的安全性。

本发明是通过以下技术方案实现的：

本发明涉及一种基于智能终端的安全语音交互方法，在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加以防止被窃听，然后智能终端基于干扰噪声的先验知识，在采集的信号上自适应消噪并提取出用户交互语音信号。

所述的干扰噪声，根据历史记录混合生成语义混淆且频谱与待采集音频近似的信号。

所述的干扰噪声优选经宽带波束赋形处理。

所述的干扰噪声，具体通过以下方式得到：首先收集用户自身的失真的语音录音，并对采集设备造成的失真进行补偿，产生与用户真实声音频谱非常相似的语音记录；然后随机选择多个语音记录进行混合以混淆用户语音的语义。

所述的失真，是指收集语音过程中，采集设备的频率响应造成的声音特征的改变。

所述的补偿是指：先测量智能设备的频率响应，然后结合数字信号处理算法，将失真的语音录音还原为与用户真实声音有相同特征的声音信号。

所述的混合是指：将多段语音信号在时域上叠加，合并为一个声音信号。

所述的自适应消噪是指：先将干扰噪声与接收信号进行互相关运算，以获得待采集音频的起始位置；然后以起始位置开始的两秒接收信号为前导码，对交互设备的播放设备到采集设备的信道进行粗略估计，并借此推断采集的音频信号中用户实际交互的时间区间；获得音频信号的区间信息后，对只有干扰噪声的区间内的信号进行自适应信道估计，连续跟踪时变信道；对于接收信号的起始位置两秒后开始的用户语音区间，采用自适应信道估计得到的更新后的信道估计以消除干扰噪声。

所述的待采集音频的起始位置是指：使用干扰噪声的前两秒信号与所采集的声音进行互相关运算，获得不同对齐位置下的相关值。理想情况下，当两个信号对齐时，互相关的值达到最大，而实践中，由于采集到的信号与原始信号不同，把最早出现的相关值大于最大相关值85％的位置看作两个信号对齐时的位置，即待采集音频的起始位置。

所述的时变信道是指：播放设备和录音设备间的信道可能会因为周围场景中人员和物体的移动而随时间改变，此外交互设备或用户自身的移动也会改变信道参数。

所述的粗略估计是指：暂不考虑信道的时变性，将最开始两秒信号计算出的频率响应看作整段信号的频率响应。

所述的时间区间是指：用粗略估计的信道响应估计采集到的干扰噪声，这个估计结果包含了采集到的干扰噪声的大部分能量，将其从录音信号中减去，得到主要包含用户语音和环境噪声的剩余信号。然后，利用滑动窗口计算剩余信号每个窗口内的能量，判断能量是否大于阈值划分用户语音区间和非用户语音区间。

所述的自适应信道估计具体过程为：利用频域自适应滤波器持续估计时变的信道响应。首先用滑动窗口对非用户语音区间的录音信号和对应的原始干扰噪声信号进行傅里叶变换，得到其频域表示。最开始，随机假设一个频率响应估计值，并据此计算当前窗口内录音信号的估计值，根据估计的录音信号和实际录音信号得到当前窗口的估计误差，将此估计误差看作代价函数，当频响估计值与实际的频响一致时，估计误差应达到最小，因此利用梯度下降法随滑动窗口迭代更新频率响应的估计值以最小化代价函数，直到其收敛，即可得到随时间实时估计的频率响应。

所述的自适应消噪，优选进一步进行残余噪声衰减以去除由于信道估计误差而产生的剩余噪声以及环境噪声，从而得到最终纯净的用户语音。

所述的残余噪声衰减是指：采用谱减法降低残余噪声。自适应消噪后的残余噪声在整段信号中具有相似的能谱分布，对非用户语音区间的残余信号的频谱进行采样，得到各频率上噪声的平均能量作为阈值；对于用户语音区间，将信号的频谱与阈值进行比较，如果某一频率的幅值低于相应的阈值，则视该频率分量为噪声，并按比例衰减。

本发明涉及一种实现上述方法的安全的语音交互系统，包括：噪声干扰模块和干扰噪声自消除模块，其中：噪声干扰模块分别与智能终端的播放设备和干扰噪声自消除模块相连并输出干扰噪声，干扰噪声自消除模块分别与智能终端的采集设备和噪声干扰模块相连并根据接收信号和干扰噪声提取得到待采集音频。

技术效果

本发明整体所解决的技术问题是：如何设计干扰噪声以保证用户语音的安全以及如何从噪声和用户语音的混合信号中提取出清晰的用户语音信号。

与现有技术相比，本发明独有的新功能/效果包括：本发明是第一个考虑用户语音交互安全性的工作，创新性地利用了用户自身语音信号合成有效的干扰信号，并设计了一套机制补偿音频设备造成的语音信号失真，同时本发明设计了新的自适应消噪算法流程，更准确地检测用户语音交互时间区间，并实现更优良的噪声消除性能。

与现有技术相比，本发明抵御包括人耳窃听、数字信号分析在内的多种攻击方式，且不影响原有语音交互功能的实现；同时，本发明不需要额外的硬件设备，作为软件部署在现有大多数智能设备上，方便用户使用。

附图说明

图1为本发明系统结构图；

图2为设备频率响应造成用户语音失真的示意图；

图3为设备频率响应测量模型示意图；

图4为设备失真补偿的结果图；

图5为线性扬声器阵列波束赋形示意图；

图6为交互设备录音信号构成的示意图；

图7(a)为原始干扰噪声信号波形图；

图7(b)为录音信号、粗信道估计结果与自适应信道估计结果对比图；

图8(a)为录音信号与自适应滤波结果的波形对比图；

图8(b)为录音信号与残余噪声衰减结果的波形对比图；

图9为不同干扰噪声条件下的识别率结果图；

图10为不同距离实施例条件下的识别率结果图；

图11为对盲源分离算法结果的识别率结果图；

图12为MFCC相似度对比图；

图13为STOI值对比图；

图14(a)为两个扬声器组成的阵列的波束图；

图14(b)为四个扬声器组成的阵列的波束图；

图15(a)为两个扬声器组成的阵列的方向性功率增益结果图；

图15(b)为四个扬声器组成的阵列的方向性功率增益结果图；

具体实施方式

如图1所示，为本实施例涉及一种基于智能终端的安全的语音交互系统，包括：噪声干扰模块和干扰噪声自消除模块，其中：噪声干扰模块分别与智能终端的播放设备和干扰噪声自消除模块相连并输出干扰噪声，干扰噪声自消除模块分别与智能终端的采集设备和噪声干扰模块相连并根据接收信号和干扰噪声提取得到待采集音频。

所述的噪声干扰模块包括：用户语音收集单元、设备失真补偿单元、随机语音混合单元和多扬声器波束赋形单元，其中：用户语音收集单元与设备失真补偿单元相连并传输采集的用于合成干扰噪声的原始语音信号信息，设备失真补偿单元与随机语音混合单元相连并传输补偿失真后的语音信号信息，随机语音混合单元与多扬声器波束赋形单元相连并传输由多段语音混合而成的干扰噪声信号信息，多扬声器波束赋形单元与播放设备相连并传输经过调制的每个扬声器需要播放的噪声信号信息。

所述的干扰噪声自消除模块包括：干扰信号对齐单元、信道粗估计单元、用户语音分段单元、自适应干扰噪声消除单元和残余噪声衰减单元，其中：干扰信号对齐单元与信道粗估计单元相连并传输录音信号中干扰噪声的起始位置信息，信道粗估计单元与用户语音分段单元相连并传输初步消除了干扰噪声的录音信号信息，用户语音分段单元与自适应干扰噪声消除单元相连并传输用户语音时间区间信息，自适应干扰噪声消除单元与残余噪声衰减单元相连并传输进一步消除掉干扰噪声的录音信号信息，残余噪声衰减单元与语音交互应用相连并传输纯净的用户语音信息。

实际应用时，交互设备需同时开启干扰噪声播放和录音功能，但是由于不确定的系统延迟，干扰噪声要经过一段极短的时间后才开始播放，导致得到的录音信号中最开始没有声音。而后续单元的正常运行，需要通过干扰信号对齐单元保证录制的混合声音与原始干扰噪声准确对齐，即要求准确检测录音信号的开始位置。

实际应用时，要求用户在设备播放干扰噪音的两秒钟后才开始说话，因此使用干扰噪声的前两秒信号与所采集的声音进行互相关运算。理想情况下，当干扰噪声的前两秒信号与录音信号中的对应片段对齐时，互相关的值达到最大，而实践中，由于采集到的信号与原始信号不同，可将最早出现的超过最大相关值85％的位置看作两个信号对齐时的位置，即待采集音频的起始位置。

如图2所示，在频域，有Y＝X×H_m×H_s，其中：Y和X分别为播放设备输出的声音信号和原始声音信号，H_m和H_s分别为设备的麦克风和扬声器的频率响应失真，由于该失真会严重削弱干扰语音的掩蔽效果，需通过消除器件频率响应的影响进行补偿，即使用辅助设备帮助测量H_m×H_s。

如图3所示，所述的补偿，具体过程包括：

①辅助设备和用户设备同时记录用户首先说出一个句子X，辅助设备记录的声音信号为Y_u＝X×H′_m，其中：H′_m为辅助设备麦克风的频率响应；采集设备记录的声音信号为X′＝X×H_m；然后播放设备播放录制的X′，由辅助设备记录后得到Y_d＝X′×H_s×H′_m，将Y_d除以Y_u得到

即所需的交互设备的频响。

在上述补偿过程中，只考虑直接的空气传播信道，这种信道在不同频率分量之间具有一致的衰减。同时，因为人耳对声音的相位不敏感，H_m×H_s便表示成

α是一个常数，只会造成音量上的变化。

②对于确定的播放设备/采集设备组合，对其联合频率响应H_m×H_s的测量只需进行一次，设备造成的失真通过将录音除以测量到的H_m×H_s进行补偿。

如图4所示，为失真补偿前后的Y_d信号和用户的原始语音信号Y_u，可见补偿后的信号包络线与Y_u的更接近。

如图5所示，对于一个由M个扬声器组成的线性阵列，若要将声音信号ej^ωt对齐到θ方向上，系统的空间频率响应表示为

其中：ω表示频率，c表示声速，

表示第m个扬声器信号的权重的复共轭。

为了生成沿θ方向的主瓣，最优的权重向量通过

得到。对于宽带的声音信号，利用抽头延迟线(tapped delay lines，TDL)结构产生一组频率相关的权值，在频域上看，宽带信号被视为多个子频带的组合，每个子带都有一组单独的参数。

所述的干扰噪音在抵御窃听攻击的同时也会干扰用户的输入声音，如图6所示，用户设备记录的信号d(t)是用户语音x(t)、生成的干扰噪音n^jam(t)和环境噪音n^env(t)的混合，具体为d(t)＝n^jam(t)*h_s，m(t)+x(t)+n^env(t)，其中：h_s，m(t)表示设备的扬声器和麦克风之间的时变的信道频率响应。

本实施例通过上述信道粗估计单元进行信道频率响应的估计：首先利用对n^jam(t)的先验知识检测组合语音中的用户语音片段；其次使用非用户语音段持续地估计跟踪变化的信道h_s，m(t)；最后利用得到的h_s，m(t)估计并去除组合噪声中所记录的干扰噪声。

由于录音信号的开始部分没有用户语音，用原始干扰噪声n^jam(t)和对齐后的录音y(t)的对应的时间段的信号作为前导码，估计一个粗略的信道响应

然后用

估计大概的接收到的干扰噪声，即

虽然这个估计是不精确的，但它包含了接收到的干扰信号的大部分能量，通过将其从录音信号中减去，得到一个主要包含用户语音和环境噪声的剩余信号

_m(0)*n^jam(t)。

获得信号r(t)后，利用滑动窗口计算长度为l个样本点的窗口内的信号能量。通过判断每个窗口内的能量是否大于阈值划分用户语音段和非用户语音段。具体实现时，若采用16KHz的采样率，l可设为256，阈值设为最大窗口内能量的40％。

由于h_s，m(t)是时变的，由

处理得到的信号中会含有大量的残余噪声。为了得到更干净的用户语音，对y(t)中的非用户语音段，利用频域自适应滤波器持续估计h_s，m(t)。具体讲，用长度为Q的窗口对非用户语音区间的录音信号y(t)和对应的干扰噪声信号n^jam(t)进行滑动窗口FFT，对应得到Y(i)和N^jam(i)，其中：i表示第i个窗口。用

表示对应窗口内的频率响应估计值。第i窗口内的估计误差被表示为

定义E(i)的均方误差为代价函数，并利用梯度下降法更新

以最小化代价函数，直到其收敛。其迭代方程为

_m(i)+μ^Njam(i)*E(i)，其中：μ是梯度下降的步长。之后，使用最新的信道频响估计y(t)中的语音段包含的干扰噪声，并从y(t)中去除。

如图7所示，为利用粗信道响应估计和自适应信道响应估计对干扰噪声进行自消除的例子。看出，录到的干扰噪声的主要能量被消除，且使用自适应信道估计比使用粗信道估计获得多5dB的衰减。

在实际环境中，环境噪声使得自适应信道估计难以收敛，从而降低了自适应干扰噪声消除的性能。因此，在消除后仍然会有一些残留的噪声。采用谱减算法进一步降低残余噪声。具体说，对于非语音段，自适应干扰噪声消除后得到的残余信号具有相似的能谱分布。对残余信号的频谱进行采样，得到各频率分量的噪声阈值。然后，对于用户语音段，将E(i)的频谱与那些阈值进行比较。如果某一频率的幅值低于相应的阈值，则视该频率分量为噪声，并按比例衰减。

如图8(a)所示，为自适应干扰噪声消除后的残余噪声，图8(b)所示为残余噪声衰减后的信号。噪声的整体衰减达到30dB。

本实施例通过以下方式进行效果监测：在一个36平方米的会议室里进行实施例，窃听者距离用户1米，设备与用户之间的距离为20厘米。使用用户语音记录产生干扰噪声，并将信噪比(SNR)从-1dB变化到-5dB，间隔为1dB。除了用户语音记录外，还考虑利用随机噪声和三类音乐产生干扰噪声。针对每个窃听者和每种类型的干扰噪声，从每个用户的测试集中随机选择10个句子，要求窃听者在现场干扰噪声存在的情况下识别用户语音。此外，窃听者任意多次监听录制的内容。

如图9所示，为每种干扰噪声类型下所有窃听者的平均识别率。看出，不同类型的干扰噪声具有不同的干扰效果，使用用户语音产生的干扰噪声达到较好的干扰效果。同时，降低SNR将降低识别率，但也会给噪声自消除带困难。看出，-3dB的SNR，即用户语音的音量是干扰噪声的一半，是一个很好的权衡。

攻击者位置的影响。当窃听者故意接近受害者时，窃听者感知到用户声音内容的可能性就会增加。同样，当用户与设备之间的距离增加时，这种概率也会增加。采取与上述实施例相同的设置，测试了不同攻击距离，分别为0.5米和1.5米，以及不同用户与设备间距，分别为20厘米和50厘米的影响。图10描绘了不同距离配置下的平均识别率。看出，当用户与设备之间的距离为20厘米，攻击距离超过1.5米时，识别率为零。一般说，20厘米是一个舒适的交互距离，并且当人们打电话时，很容易与他人保持1.5米的距离。

DSP攻击的影响。在本实施例中，采用了与上述实施例相同的设置。尝试对干扰噪声和用户语音进行FastICA和DUET算法的分离，并要求攻击者识别这两种算法的输出信号。图11描绘了实施两种盲源分离算法后窃听者的平均识别率。与图10对比发现，盲源分离算法在提高窃听者的能力方面收效甚微。对于FastICA算法，它对线性组合和独立信号取得良好的分离效果。但在实际环境中，由于混响环境产生的空间频响，各音源的信号不再是简单的线性叠加，而是与环境的频响进行卷积。DUET算法也不能有效地分离信号。根据算法的原理，可能有两个原因。一是在的场景中，两个信号源的空间位置非常接近，导致它们之间的信道条件非常相似。更重要的是，与稀疏正常语音不同，为了保证掩蔽的有效性，所播放的干扰噪声是密集的，并且具有相似的频率分布。然而DUET算法的有效性是基于信号的稀疏性的，即在任何时间、任何频率都有一个信号，只有这样才能得到对应于某个信号的两个通道的幅值和相位之差的正确信息。

干扰噪声自消除的有效性。在本实施例中，窃听距离和用户与设备间距分别设置为1.5米和20厘米。考虑了三种常见的语音交互场景，分别对应于不同的噪音水平和信道复杂度，包括会议室(MT)、走廊(CO)和公共街道(ST)。会议室的噪声水平最低，但多径环境最复杂；走廊噪声水平适中，回声环境复杂。街道的环境噪声最大，但多径的复杂性最低。为了验证自消除算法的性能，将原始语音记录与自消除后的结果进行MFCC相似度和STOI值的比较。还比较了原始语音记录与FastICA和DUET结果的MFCC相似性和STOI值。如图12所示，为MFCC相似性的结果。从图中看出，自消除算法的结果与原始信号的MFCC相似度一般在0.8以上，平均比FastICA和DUET的结果高0.2。攻击算法的结果也具有较高的相似度的原因是干扰噪声是由同一人的声音组成的，而同一人的语音信号特征往往是非常相似的。如图13所示，为STOI结果，从图中看出，自消除结果的可懂度一般在0.8～0.9之间，而FastICA和DUET结果的平均可懂度在0.3以下。

声音波束赋形的有效性。验证了在智能设备上进行声音波束赋形的可行性，使用FPGA平台分别搭建两个和四个扬声器的线性阵列。扬声器的间距都设定在5厘米。使用1秒的从300Hz到8kHz的啁啾信号作为测试样本。每5度进行一次测试，每个测试结果是30个测量值的平均值。对于每种情况，首先测量其原始波束形状。如图14所示，为几个示例频率下的测量波束图。看到，即使没有调制，扬声器阵列也实现自然的波束。粗略估计，对于两个扬声器，在[-60，60]的角度范围内会有10dB的增益。对于4个扬声器，它在[-40，40]度范围内获得15dB的增益，并且在-50度和50度有两个侧瓣。实施例还表明，不同频率的波束形状不同，频率越高，空间分辨率越高。然后对波束方向进行不同角度的调制，并测量相应方向的功率，对比波束赋形与非波束赋形的结果得出在某个方向上获得的功率增益。如图15所示，为300Hz～2kHz主频范围内功率增益的箱线图。结果表明，多声源波束赋形确实能达到目标方向能量集中的效果。

经过具体实际实施例，在日常生活场景(如会议室、走廊、室外)，保持窃听者距离在1.5米以外，播放的干扰噪声为用户语音音量两倍，用户与交互设备的距离在20厘米以内的具体环境设置下，用户在交互设备播出干扰噪声两秒后开始语音交互，能够保证用户的语音内容无法被窃听者识别，也无法被音源分离算法从噪声和语音的混合信号中分离。与此同时，交互设备利用对噪声的先验知识通过自适应消噪对混合信号中的干扰噪声实现30dB以上的衰减，使其不会影响语音交互功能的正常实现。

与现有技术相比，本方法不需要额外的硬件设备，作为软件部署在现有大多数智能设备上，方便用户使用。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于智能终端的安全语音交互方法，其特征在于，在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加，然后智能终端基于干扰噪声的先验知识，在接收信号上自适应消噪并提取出待采集音频；

所述的干扰噪声，根据历史记录混合生成语义混淆且频谱与待采集音频近似的信号；

2.根据权利要求1所述的基于智能终端的安全语音交互方法，其特征是，所述的补偿是指：先测量智能设备的频率响应，然后结合数字信号处理算法，将失真的语音录音还原为与用户真实声音有相同特征的声音信号。

3.根据权利要求1所述的基于智能终端的安全语音交互方法，其特征是，所述的混合是指：将多段语音信号在时域上叠加，合并为一个声音信号。

4.根据权利要求1所述的基于智能终端的安全语音交互方法，其特征是，所述的自适应消噪是指：先将干扰噪声与接收信号进行互相关运算，以获得待采集音频的起始位置；然后以起始位置开始的两秒接收信号为前导码，对交互设备的播放设备到采集设备的信道进行粗略估计，并借此推断采集的音频信号中用户实际交互的时间区间；获得音频信号的区间信息后，对只有干扰噪声的区间内的信号进行自适应信道估计，连续跟踪时变信道；对于接收信号的起始位置两秒后开始的用户语音区间，采用自适应信道估计得到的更新后的信道估计以消除干扰噪声。

5.根据权利要求4所述的基于智能终端的安全语音交互方法，其特征是，所述的待采集音频的起始位置是指：使用干扰噪声的前两秒信号与所采集的声音进行互相关运算，获得不同对齐位置下的相关值；当两个信号对齐时，互相关的值达到最大，即待采集音频的起始位置；

所述的粗略估计是指：暂不考虑信道的时变性，将最开始两秒信号计算出的频率响应看作整段信号的频率响应；

所述的时间区间是指：用粗略估计的信道响应估计采集到的干扰噪声，这个估计结果包含了采集到的干扰噪声的大部分能量，将其从录音信号中减去，得到主要包含用户语音和环境噪声的剩余信号，然后，利用滑动窗口计算剩余信号每个窗口内的能量，判断能量是否大于阈值划分用户语音区间和非用户语音区间；

所述的自适应信道估计具体过程为：利用频域自适应滤波器持续估计时变的信道响应：首先用滑动窗口对非用户语音区间的录音信号和对应的原始干扰噪声信号进行傅里叶变换得到其频域表示；随机假设一个频率响应估计值并据此计算当前窗口内录音信号的估计值，根据估计的录音信号和实际录音信号得到当前窗口的估计误差，将此估计误差看作代价函数；当频响估计值与实际的频响一致时估计误差达到最小，因此利用梯度下降法随滑动窗口迭代更新频率响应的估计值以最小化代价函数直到其收敛，即可得到随时间实时估计的频率响应。

6.根据权利要求1或4所述的基于智能终端的安全语音交互方法，其特征是，所述的自适应消噪，进一步进行残余噪声衰减以去除由于信道估计误差而产生的剩余噪声以及环境噪声，从而得到最终纯净的用户语音；

所述的残余噪声衰减是指：采用谱减法降低残余噪声，自适应消噪后的残余噪声在整段信号中具有相似的能谱分布，对非用户语音区间的残余信号的频谱进行采样，得到各频率上噪声的平均能量作为阈值；对于用户语音区间，将信号的频谱与阈值进行比较，如果某一频率的幅值低于相应的阈值，则视该频率分量为噪声，并按比例衰减。

7.一种实现上述任一权利要求所述方法的安全的语音交互系统，其特征在于，包括：噪声干扰模块和干扰噪声自消除模块，其中：噪声干扰模块分别与智能终端的播放设备和干扰噪声自消除模块相连并输出干扰噪声，干扰噪声自消除模块分别与智能终端的采集设备和噪声干扰模块相连并根据接收信号和干扰噪声提取得到待采集音频。

8.根据权利要求7所述的语音交互系统，其特征是，所述的噪声干扰模块包括：用户语音收集单元、设备失真补偿单元、随机语音混合单元和多扬声器波束赋形单元，其中：用户语音收集单元与设备失真补偿单元相连并传输采集的用于合成干扰噪声的原始语音信号信息，设备失真补偿单元与随机语音混合单元相连并传输补偿失真后的语音信号信息，随机语音混合单元与多扬声器波束赋形单元相连并传输由多段语音混合而成的干扰噪声信号信息，多扬声器波束赋形单元与播放设备相连并传输经过调制的每个扬声器需要播放的噪声信号信息。

9.根据权利要求7所述的语音交互系统，其特征是，所述的干扰噪声自消除模块包括：干扰信号对齐单元、信道粗估计单元、用户语音分段单元、自适应干扰噪声消除单元和残余噪声衰减单元，其中：干扰信号对齐单元与信道粗估计单元相连并传输录音信号中干扰噪声的起始位置信息，信道粗估计单元与用户语音分段单元相连并传输初步消除了干扰噪声的录音信号信息，用户语音分段单元与自适应干扰噪声消除单元相连并传输用户语音时间区间信息，自适应干扰噪声消除单元与残余噪声衰减单元相连并传输进一步消除掉干扰噪声的录音信号信息，残余噪声衰减单元与语音交互应用相连并传输纯净的用户语音信息。