CN115376538A

CN115376538A - 用于交互的语音降噪方法、系统、电子设备和存储介质

Info

Publication number: CN115376538A
Application number: CN202210999534.4A
Authority: CN
Inventors: 陈明佳
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-22

Abstract

本发明实施例提供一种用于交互的语音降噪方法、系统、电子设备和存储介质。该方法包括：将智能终端采集到的带有播放设备背景噪音、环境噪音、目标人声的远场语音与背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，得到第一语音；检测远场语音的声源方向，确定智能终端与目标人声的第一相对位置关系，基于第一相对位置关系以及预先确定的智能终端与播放设备的第二相对位置关系，对第一语音进行环境噪音的抑制，得到纯净的第二语音；将第二语音输入至自适应识别模型，得到语音识别结果。本发明实施例解决了跨设备传输导致的回声数据的非线性变化及延时问题，提升实际情况下多变声学环境下的唤醒率，提供高效、稳定的语音交互功能。

Description

用于交互的语音降噪方法、系统、电子设备和存储介质

技术领域

本发明涉及智能语音领域，尤其涉及一种用于交互的语音降噪方法、系统、电子设备和存储介质。

背景技术

随着技术的进步，用户逐渐选择了智能电视机来进行视频节目的观看。然而，还是有一部分用户并没有更换最新的智能电视而继续使用家中老旧的电视机。有的老旧电视机并没有智能语音交互功能，或者有的老旧电视机虽然有语音交互功能，但是其使用体验并不好。为了低成本地丰富家中电视机的功能，可以在电视机的外接一个智能终端(例如，电视盒子)，用HDMI线将智能终端与电视机相连，电视盒子作为音视频的信号源，电视只是作为显示设备和音频输出设备。通常会在电视盒子上配备远场语音交互的功能。远场语音交互过程中存在电视播放的时候需要唤醒设备进行语音交互的场景。但是在这样的场景中，由于语音算法是内置在电视盒子中，语音算法无法获取到接近电视喇叭端播放的音频数据，导致回声消除的算法性能损失，从而出现无法唤醒或者唤醒率低的问题。

从电视盒子传到电视的声音经过多个晶振不同步的设备，会导致声音播放的时延不固定，从而使得从电视盒子内部拿到的播放数据与盒子麦克风录制到的数据无法完全对齐使得回声消除算法失效。其次，早期生产的电视设备的声学结构对远场语音算法并不适配，导致声音信号从电视播放出来会存在很多的非线性失真也会让回声消除算法失效。最后由于回声消除算法的失效并且电视盒子通常都距离电视比较近从而导致电视喇叭的噪声较大地影响语音唤醒的性能。

现有技术通常使用传统的回声消除方法缓解非线性失真的延时；也有一些方案通过麦克风录音的方式来估计回采数据从而缓解上述问题。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

对于延时估计的算法，由于存在延时不稳定，会导致回声消除算法失效；回声估计的方案需要通过麦克风录取相关音频在进行算法估计，然后再进行回声消除，这种方案原本回采就有延时，再加上算法估计的延时会导致唤醒的反馈性能以及速度均无法很好的提高。由于单一技术方案的性能有限，不能对唤醒的性能体验带来较多的提升。

发明内容

为了至少解决现有技术中因电视盒子传到电视的声音时延不固定，导致回声消除算法失效，电视盒子距离电视较近，无法完全解决回声消除，对唤醒识别模型需要更强性能的问题。第一方面，本发明实施例提供一种用于交互的语音降噪方法，包括：

将所述智能终端采集到的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音与所述背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，用于固定所述回采数据的延时，从所述远场语音消除所述播放设备背景噪音，得到第一语音；

检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音；

将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果。

第二方面，本发明实施例提供一种用于交互的语音降噪系统，包括：

回声消除程序模块，用于将所述智能终端采集到的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音与所述背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，用于固定所述回采数据的延时，从所述远场语音消除所述播放设备背景噪音，得到第一语音；

定向抑制程序模块，用于检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音；

识别程序模块，用于将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于交互的语音降噪方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于交互的语音降噪方法的步骤。

本发明实施例的有益效果在于：利用深度学习处理由于设备声学结构及传输跨设备传输导致的回声数据的非线性变化及延时，有较好的回声消除效果。并且在对于语音降噪和唤醒模型上使用的自适应唤醒。自适应唤醒可以保证实际情况下多变的声学环境下的唤醒率，提供更加高效和稳定的语音交互功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于交互的语音降噪方法的流程图；

图2是本发明一实施例提供的一种用于交互的语音降噪方法的神经网络回声消除流程图；

图3是本发明一实施例提供的一种用于交互的语音降噪方法的定向噪声抑制流程图；

图4是本发明一实施例提供的一种用于交互的语音降噪方法的自适应唤醒模型结构图；

图5是本发明一实施例提供的一种用于交互的语音降噪方法的整体流程示意图；

图6是本发明一实施例提供的一种用于交互的语音降噪系统的结构示意图；

图7为本发明一实施例提供的一种用于交互的语音降噪的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于交互的语音降噪方法的流程图，包括如下步骤：

S11：将所述智能终端采集到的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音与所述背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，用于固定所述回采数据的延时，从所述远场语音消除所述播放设备背景噪音，得到第一语音；

S12：检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音；

S13：将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果。

在本实施方式中，考虑到并不是所有的用户都购买了新的智能电视，一部分用户还在使用老旧的没有智能语音交互功能的普通电视，或者智能语音交互功能并不完善的智能电视(例如，该智能电视的系统的硬件限制，语音交互功能不再更新，仅仅具有识别率不高的基础语音功能，用户体验不佳，无法使用)。为了让这些用户也能体验到更新、更完善的语音交互功能，并且也考虑到了花销问题。用户可以购买搭载本方法的智能终端，将智能终端(例如，电视盒子)与家中老旧的播放设备(例如家中老旧的电视机)相配对。利用智能终端接收识别用户输入的语音、并且为播放设备提供音视频信号源。也就是说，本方法应用于为播放设备提供音视频信号源的智能终端，而并不是直接应用于播放设备。播放设备在接收到智能终端提供的音视频信号源后进行播放，在播放的过程中，此时，用户需要使用智能语音交互功能，说出了语音指令。要说明的是，播放设备可以是电视机，也可以是其他的电子设备，例如，音质好，但没有屏幕的大型音频播放器，用户也可以购买搭载本方法的智能终端来为大型音频播放器配置智能语音服务。用户还可以将搭载本方法的智能终端与常见的音视频播放设备(只要音视频播放设备可以与智能终端配对)进行连接配对，就可以为其配置智能语音服务，播放设备不限于上述举例的电视机。

对于步骤S11，用户购买了搭载本方法的智能终端，与家中的播放设备进行连接。在使用时，智能终端负责接收用户的语音指令，确定对应的音视频信号源，将音视频信号源发送给播放设备进行播放。在播放设备播放音视频时，此时用户又说出了新的语音指令。此时智能终端的麦克风采集到的远场用户语音中除了包含环境噪声之外，还包括播放设备播放音视频的背景噪声。对于环境噪声可以用传统已有的回声消除算法进行处理，去除环境噪声。但是，要注意的是，正如本方法上文中说到，由于智能设备传输到播放设备过程中，经过多个晶振不同步的设备从而导致声音播放的时延不固定，从而使得从智能设备内部拿到的播放数据与智能设备的麦克风录制到的播放设备的播放数据无法完全对齐使得回声消除算法失效。本方法解决的是强调解决播放设备播放音视频的情况下此时用户语音的唤醒率。并不是主要解决外界噪声干扰的场景。

播放设备以电视机为例，智能终端采集到带有背景噪音、环境噪音、目标人声的远场语音。考虑到由于智能终端传到电视机的声音经过多个晶振不同步的设备从而导致声音播放的时延不固定，从而使得从智能终端内部拿到的播放数据与智能终端麦克风录制到的数据无法完全对齐使得回声消除算法失效的问题，进行了神经网络回声消除模块的回声消除，消除播放设备背景噪音。

作为一种实施方式，所述神经网络回声消除模块由深度神经网络构建，用于处理所述远场语音中所述播放设备背景噪音的非线性失真，包括：与第一归一层相连的多头注意力层，以及与第二归一层相连的多头自注意力层，用于通过注意力机制获取回采数据和所述远场语音的对应关系，确定动态调整的加权信息；

通过所述与第一归一层相连的多头注意力层以及与第二归一层相连的多头自注意力层，构建的循环深度神经网络，通过所述循环深度神经网络记录的所述远场语音的上下文固定所述回采数据的延时。

所述神经网络回声消除模块由不含所述播放设备背景噪音的回采数据确定的标注数据、所述播放设备背景噪音下的音频训练数据、以及不含所述播放设备背景噪音的纯净音频训练数据训练。

在本实施方式中，如图2所示，为神经网络回声消除模块的结构，由编码器、解码器以及文本上下文注意层构成。其中，文本上下文注意层包括了：注意力机制的归一层相连的多头注意力层。多头的注意力机制是为了解决回采的数据延时不稳定问题，通过注意力机制可以让神经网络获得智能终端的麦克风采集的数据与回采音频的相关的关系，即麦克风采集的喇叭播放数据以及直接从芯片内部获得的喇叭播放音频的对应关系，注意力机制能够动态的调整需要加权的信息，只有找到了这种对应关系才能解决回声消除问题。在通过所述循环深度神经网络记录的所述远场用户语音的上下文固定所述回采数据的延时。

通过上述结构可以解决电视机导致的非线性失真，循环神经网络结构由于能够记录更长时间的音频上下文信息，因此可以解决回采延时不固定问题。此外在神经网络回声消除模块的训练时，标注数据为干净的不含电视机扬声器回采播放数据，训练的输入数据不止使用非唤醒场景下音频数据进行训练，还会将电视机播放音视频信号源的背景音场景下包含语音指令(例如，唤醒词)的音频进行训练，这样就可以从带有所述播放设备背景噪音、环境噪音、目标人声的远场语音中消除所述播放设备背景噪音，得到第一语音。

对于步骤S12，由于不同用户的喜好不同，有的用户不在意外接的智能终端摆放是否杂乱，通常将智能终端摆放在智能终端电视，例如，常见的智能终端摆放在播放设备(例如电视机)的显示器前下方的一定距离。有的用户对于摆放位置有所讲究，不希望显得杂乱，通常会将智能终端藏在播放设备显示器的后方。

在电视机播放智能终端提供的音视频信号的过程中，此时用户需要使用智能语音交互功能，说出了语音指令，智能终端会检测远场语音的声源方向，同时还会依据智能终端与电视机的位置关系，对步骤S11消除播放设备背景噪音后的语音进行环境噪音的抑制，得到纯净的语音。

作为一种实施方式，所述智能终端配置有麦克风阵列。

智能终端预先向所述播放设备提供测试音频；

智能终端的麦克风阵列采集所述播放设备播放的所述测试音频，通过声源定位确定出所述播放设备的各扬声器相对于所述智能终端的麦克风阵列的位置关系。

在本实施方式中，正是由于需要搭载本方法的智能终端配置有麦克风阵列，通过麦克风阵列可以获取多个角度采集的声音，进而进行声源定位，这样可以得到用户语音的声源方向，对其他方向的环境噪音进行抑制。

而智能终端与电视机的位置关系可以在为电视机安装智能终端时预先确定，例如，在智能终端与电视机安装好后，需要进行测试，判断是否成功安装可用。在这个测试过程中，智能终端预先向电视机提供测试音频，让电视机进行播放。智能终端利用麦克风阵列采集电视机播放的测试音频，同样的，利用声源定位也可以确定出电视机的各扬声器相对于智能终端的麦克风阵列的位置关系。

由于智能终端配置有麦克风阵列，在实际使用时就可以得到多通道的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音，其中，由于智能终端麦克风阵列与电视机扬声器的位置各不相同，会得到大小不一的带有播放设备背景噪音、环境噪音、目标人声的远场语音。

作为一种实施方式，基于所述第一相对位置关系以及所述第二相对位置关系，确定所述目标人声与所述播放设备是否处于所述智能终端的同一方向；

当所述目标人声与所述播放设备不处于所述智能终端的同一方向时，对所述第一语音进行所述环境噪音的抑制；

当所述目标人声与所述播放设备处于所述智能终端的同一方向时，对所述第一语音进行盲源分离，将所述第一语音中的人声和噪声分离。

在本实施方式中，进一步考虑到由于智能终端的摆放位置不固定，可能会存在用户和电视机都处于相对于智能终端相同的位置。例如，上述说到的，将智能终端安装在电视机的后方，如图3所示，用户在电视机扬声器的左侧，此时用户在左侧，扬声器声音方向与人声的方向不存在重叠的情况，就可以抑制扬声器的噪声并且保留较好的人声信息。然而附图中下方的图示小人，电视机扬声器与正面的用户的声音均处于智能终端90°的方向。此时基于固定方向抑制的算法就会导致人声也同时被抑制，为了保证此种情况下也能正常的交互。在语音交互的过程中当声源定位算法检测到用户声源的来向与电视机扬声器噪声的朝向重叠时，智能终端会启动盲源分离的算法，将人声和电视机的噪声进行分离处理，保证该场景下的语音交互性能，随着技术的进步，也可以使用基于深度学习的技术方案来进行分离处理，以提升分离效果。

对于步骤S13，本方法除了针对于智能终端语音降噪层上做了专门的技术优化，还在识别模块(例如唤醒模块)上也做技术优化。上文中说到，由于电视机有多个扬声器，智能终端也配置有麦克风阵列，获取了带有不同音量大小的带噪的多通道的语音，通过降噪处理，得到了不同音量的多通道的纯净语音。对于不同音量的大小，可以输入至不同的唤醒模型进行处理，如图4所示，由于播放音量信息可以传给唤醒模块，唤醒模块可以通过不同的音量信息如高，中，低等采取不同的对应的输入层做处理。这样，对于多通道的用户语音，有着针对性的多种自适应识别，这样可以得到更准确的用户语音识别结果。上述仅说明了将输入层做自适应处理，同样输出层也可以做自适应处理，可以满足更为复杂的需求，如声纹与唤醒功能结合的方案就需要做输入输出层均做自适应处理。智能终端确定出用户语音识别结果后准备相应的音视频信号源发送至电视机播放，实现与用户的智能语音交互，本方法的整体流程如图5所示。

总的来说，智能终端的麦克风输入语音中有三种声音(播放设备的喇叭声，外界的环境噪音，目标人声)，第一步是通过回声消除算法(包括传统和深度学习)消除麦克风采集到播放设备的喇叭声。再利用开机时播放音源预测播放设备与智能终端的麦克风的位置关系，然后通过定向抑制模块抑制喇叭噪声以及其他的环境噪声得到纯净的语音。最后为了解决目标人声的声源与播放设备的喇叭声音同向，定向抑制模块无法解决的问题，最后会配合盲源分离解决。

通过该实施方式可以看出，利用深度学习处理由于设备声学结构及传输跨设备传输导致的回声数据的非线性变化及延时，有较好的回声消除效果。并且在对于语音降噪和唤醒模型上使用的自适应唤醒。自适应唤醒可以保证实际情况下多变的声学环境下的唤醒率，提供更加高效和稳定的语音交互功能。

如图6所示为本发明一实施例提供的一种用于交互的语音降噪系统的结构示意图，该系统可执行上述任意实施例所述的用于交互的语音降噪方法，并配置在终端中。

本实施例提供的一种用于交互的语音降噪系统10包括：回声消除程序模块11，定向抑制程序模块12和识别程序模块13。

其中，回声消除程序模块11用于将所述智能终端采集到的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音与所述背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，用于固定所述回采数据的延时，从所述远场语音消除所述播放设备背景噪音，得到第一语音；定向抑制程序模块12用于检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音；识别程序模块13用于将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于交互的语音降噪方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于交互的语音降噪方法。

图7是本申请另一实施例提供的用于交互的语音降噪方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。用于交互的语音降噪方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的用于交互的语音降噪方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于交互的语音降噪方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的用于交互的语音降噪方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于交互的语音降噪方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于交互的语音降噪方法，应用于为播放设备提供音视频信号源的智能终端，包括：

2.根据权利要求1所述的方法，其中，所述神经网络回声消除模块由深度神经网络构建，用于处理所述远场语音中所述播放设备背景噪音的非线性失真，包括：与第一归一层相连的多头注意力层，以及与第二归一层相连的多头自注意力层，用于通过注意力机制获取回采数据和所述远场语音的对应关系，确定动态调整的加权信息；

3.根据权利要求2所述的方法，其中，所述神经网络回声消除模块由不含所述播放设备背景噪音的回采数据确定的标注数据、所述播放设备背景噪音下的音频训练数据、以及不含所述播放设备背景噪音的纯净音频训练数据训练。

4.根据权利要求1所述的方法，其中，所述检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音包括：

基于所述第一相对位置关系以及所述第二相对位置关系，确定所述目标人声与所述播放设备是否处于所述智能终端的同一方向；

5.根据权利要求1所述的方法，其中，所述智能终端配置有麦克风阵列。

6.根据权利要求5所述的方法，其中，在所述采集到远场语音之前，所述方法还包括：

智能终端预先向所述播放设备提供测试音频；

7.根据权利要求5所述的方法，其中，所述将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果包括：

通过所述麦克风阵列得到不同音量大小的第二语音，

配置与所述不同音量大小相对应的唤醒识别模块，分别对所述不同音量大小的第二语音进行各自的唤醒识别处理，得到语音识别结果。

8.一种用于交互的语音降噪系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。