CN115223548B

CN115223548B - 语音交互方法、语音交互设备及存储介质

Info

Publication number: CN115223548B
Application number: CN202110732106.0A
Authority: CN
Inventors: 董天旭
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-03-14
Anticipated expiration: 2041-06-29
Also published as: WO2023273230A1; CN115223548A

Abstract

本申请实施例涉及人机交互领域，公开了一种语音交互方法、语音交互设备及存储介质。本申请的语音交互方法包括以下步骤：通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频；确定唤醒音频所在的目标区域；通过每个麦克风接收语音交互设备的外部区域的当前音频，得到当前音频在每个麦克风处对应的音频信号；在当前音频中存在语音信号的情况下，确定语音信号所在的区域；在语音信号所在区域与目标区域满足预设条件的情况下，根据多个所述音频信号得到语音信号；根据语音信号进行语音识别。相对于相关技术通过能量比的方式来判断目标区域是否存在语音而言，无需对不同的情况设置不同的预设参数，步骤更加便捷且精确度较高。

Description

语音交互方法、语音交互设备及存储介质

技术领域

本申请实施例涉及人机交互领域，特别涉及一种语音交互方法、语音交互设备及存储介质。

背景技术

目前，语音交互是自然友好的交互方式，基于语音识别的语音交互逐渐被人们所认可并广泛应用于各个生活场景，如车载语音、智能电视与音响、智能机器人等。其中，语音交互分为近场语音交互和远场语音交互：近场语音交互，如手机上的语音输入法等，已经非常成熟完善。而远场语音交互主要是通过远场麦克风阵列进行拾音，对目标位置的存在的语音进行增强，并对其他位置的音频进行抑制，从而将增强的目标语音。

相关技术中，存在一种联合瞬时波束干扰比TBRR方法来实现对语音的增强，TBRR方法是通过对固定波束形成输出信号和干扰参考信号的能量比，来判断目标方向是否存在语音；然而，通过能量比判断目标方向是否存在语音的过程需要设置一个精确度较高的预设参数，而预设参数的设置需要结合麦克风矩阵的排布以及噪音的类型等综合来确定，不仅增加了计算量，且不同的麦克风矩阵需要设置不同的预设参数，需要根据不同情况设置不同的预设参数，导致这种确定方式较为复杂且精确度较低。

发明内容

本申请实施例的目的在于提供一种语音交互方法、语音交互设备及存储介质，判断目标区域是否存在语音的过程更加便捷且精确度较高。

为解决上述技术问题，本申请的实施例提供了一种语音交互方法，应用于语音交互设备，所述语音交互设备包括由多个麦克风构成的麦克风阵列；包括以下步骤：通过所述麦克风阵列接收来自所述语音交互设备的外部区域的唤醒音频；确定所述唤醒音频所在的目标区域；通过每个所述麦克风接收所述语音交互设备的外部区域的当前音频，得到所述当前音频在每个所述麦克风处对应的音频信号；在所述当前音频中存在语音信号的情况下，确定所述语音信号所在的区域；在所述语音信号所在区域与所述目标区域满足预设条件的情况下，根据多个所述音频信号得到所述语音信号；根据所述语音信号进行语音识别。

本申请的实施例还提供了一种语音交互设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的语音交互方法。

本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音交互方法。

本实施例通过判断当前音频中是否存在语音，并在当前音频存在语音时定位语音所在的区域，并在语音所在的区域与目标区域满足预设条件时，判断目标区域中存在语音，从而根据多个音频信号得到对应的语音信号，从而进行语音交互，相对于相关技术通过能量比的方式来判断目标区域是否存在语音而言，无需对不同的情况设置不同的预设参数，判断目标区域是否存在语音的过程更加便捷且精确度较高。

另外，所述根据多个所述音频信号得到所述语音信号之前，还包括：利用固定波束形成模块对多个所述音频信号进行处理，得到合并音频信号；所述合并音频信号表示所述目标区域内的所有音频信号的总和；利用差分矩阵模块对多个所述音频信号进行处理，得到干扰参考信号；所述根据多个所述音频信号得到所述语音信号，具体包括：将所述干扰参考信号输入至目标自适应干扰器模型中，得到目标干扰信号；所述目标干扰信号表示预测的当前所述目标区域中内存在的干扰信号；根据所述合并音频信号与所述目标干扰信号之间的差异得到所述语音信号。

另外，所述通过每个所述麦克风接收来自所述语音交互设备的外部区域的当前音频，得到所述当前音频在每个所述麦克风处对应的音频信号之后，还包括：将所述合并音频信号、所述干扰参考信号作为一对训练样本，并利用所述训练样本按照第一学习率对所述目标自适应干扰器模型进行训练，更新所述目标自适应干扰器模型。

另外，所述在所述当前音频中存在语音信号的情况下，确定所述语音信号所在的区域之后，还包括：在所述语音信号所在区域与所述目标区域不满足预设条件的情况下，将所述合并音频信号、所述干扰参考信号作为一对训练样本，并利用所述训练样本按照第一学习率对所述目标自适应干扰消除器模型进行训练，更新所述目标自适应干扰消除器模型。

另外，在所述更新所述目标模型之后，还包括：再次利用所述训练样本对所述目标自适应干扰器模型进行训练，再次更新所述目标自适应干扰器模型。

另外，通过多声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤；所述确定所述语音信号所在的区域之后，还包括：在所述语音信号所在的区域与所述目标区域满足预设条件的情况下，所述语音信号为目标语音指令信号，停止所述目标自适应干扰消除器模型的学习与更新。

另外，通过单声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤；所述确定所述语音信号所在的区域之后，还包括：在所述语音信号所在区域与所述目标区域满足预设条件的情况下，将所述合并音频信号、所述干扰参考信号作为一对训练样本，利用所述训练样本按照第二学习率对所述目标自适应干扰消除器模型进行训练，更新所述目标自适应干扰消除器模型；所述第二学习率小于第一学习率。

另外，所述当前音频的数据长度为10ms至30ms。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本申请一实施例的语音交互方法的流程示意图；

图2是根据本申请一实施例的语音交互方法的流程示意图；

图3是根据本申请一实施例的语音交互方法的流程示意图；

图4是根据本申请一实施例的语音交互方法的流程示意图；

图5是根据本申请一实施例的语音交互设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请的一实施例涉及一种语音交互方法，应用于语音交互设备，所述语音交互设备包括由多个麦克风构成的麦克风阵列；本实施例的语音交互方法的具体流程如图1所示，包括以下步骤：

步骤101，通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。

具体地说，语音交互设备的麦克风阵列用于接收语音交互设备外部发出的音频，包括唤醒音频；唤醒音频是指开启语音交互设备的唤醒语音，在语音交互设备接收到唤醒音频之后，语音设备开始进行语音识别的过程。

步骤102，确定唤醒音频所在的目标区域。

具体地说，当语音交互设备被唤醒之后，语音交互设备需要确定发出唤醒音频的位置即目标区域的位置，从而确定用户所在区域。

步骤103，通过每个麦克风接收语音交互设备的外部区域的当前音频，得到当前音频在每个麦克风处对应的音频信号。

具体地说，麦克风阵列的每个麦克风均可以接收语音交互设备外部区域的当前音频，由于多个麦克风设置的位置不同，每个麦克风所接收到的音频信号也不相同，因此，本实施例通过每个麦克风均接收到当前音频之后，均会得到当前音频对应的一个音频信号。

步骤104，在当前音频中存在语音信号的情况下，确定语音信号所在的区域。

一般而言，用户在目标区域唤醒语音交互设备之后，用户会继续在目标区域发送语音指令；当然，用户也可能会在唤醒语音交互设备之后，去处理其他事情，因此语音交互设备被唤醒之后，语音交互设备继续接收的当前音频可能存在语音，也可能不存在语音。

具体地说，本实施例通过声源定位算法判断当前语音是否存在语音信号，当确定当前音频存在语音信号的情况下，再通过声源定位算法确定语音信号所在的区域。

步骤105，在语音信号所在区域与目标区域满足预设条件的情况下，根据多个音频信号得到语音信号。

具体地说，在确定语音信号所在的区域之后，判断语音信号所在区域与目标区域是否满足预设条件，其中预设条件可以为语音信号所在的区域与目标区域的重合度是否大于预设阈值，在语音信号所在区域与目标区域满足预设条件的情况下，根据多个音频信号得到语音信号，通过对多个音频信号进行一定的运算处理，从而得到目标区域内的语音信号。

步骤106，根据语音信号进行语音识别。

具体地说，得到目标区域的语音信号之后，语音交互设备对语音信号进行语音识别，从而识别出语音信号携带的语音指令，并根据语音指令执行对应的操作。

本实施例通过判断当前音频中是否存在语音，并在当前音频存在语音时定位语音所在的区域，并在语音所在的区域与目标区域满足预设条件时，判断目标区域中存在语音，从而根据多个音频信号得到对应的语音信号，从而进行语音交互，相对于相关技术通过能量比的方式来判断目标区域是否存在语音而言，无需对不同的情况设置不同的预设参数，判断的过程更加便捷且精确度较高。

在一个实施例中，当前音频的数据长度为10ms至30ms。具体地说，语音交互设备是需要实时获取当前音频的，因此，每次获取的当前音频仅为一小段音频段，本实施例可以将当前音频的数据长度设置为10ms至30ms，用户可以根据实际的需要进行调整。

在一个实施例中，根据多个音频信号得到语音信号之前，还包括：利用固定波束形成模块对多个音频信号进行处理，得到合并音频信号；合并音频信号表示目标区域内的所有音频信号的总和；利用差分矩阵模块对多个音频信号进行处理，得到干扰参考信号。

本实施例的具体流程示意图如图2所示，具体包括以下步骤：

步骤201，通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。

步骤202，确定唤醒音频所在的目标区域。

步骤203，通过每个麦克风接收语音交互设备的外部区域的当前音频，得到当前音频在每个麦克风处对应的音频信号。

步骤204，利用固定波束形成模块对多个音频信号进行处理，得到合并音频信号；合并音频信号表示目标区域内的所有音频信号的总和。

具体地说，语音交互设备中包括有固定波束形成模块，固定波束形成模块是延时求和波束形成器，固定波束形成模块是对每个麦克风接收到的音频信号进行平均运算得到合并音频信号，即将多个音频信号相加并除以麦克风的个数，得到合并音频信号，从而消除由于麦克风位置不同导致多个音频信号的情况不一致的情况。需要说明的是，在语音信号所在区域与目标区域满足预设条件的情况下，合并音频信号表示目标区域内的语音信号与干扰信号的总和。

步骤205，利用差分矩阵模块对多个音频信号进行处理，得到干扰参考信号。

具体地说，语音交互设备中包括有差分矩阵模块，差分矩阵模块通过对相对设置的麦克风的音频信号相减，从而去掉了语音信号，将留下的信号作为干扰参考信号，该干扰参考信号消除了语音信号。

步骤206，在当前音频中存在语音信号的情况下，确定语音信号所在的区域。

步骤207，在语音信号所在区域与目标区域满足预设条件的情况下，将干扰参考信号输入至目标自适应干扰器模型中，得到目标干扰信号；目标干扰信号表示预测的当前目标区域中内存在的干扰信号。

具体地说，本实施例中的目标自适应干扰器中使用的滤波器为归一化最小均方自适应滤波器(NLMS，Normalized Least Mean Square)，NLMS具有较好的收敛性与平稳性，可以提高目标自适应干扰器的精确度，从而提高语音识别的精确度。然，实际应用中，也可以使用其他类型的滤波器，例如：最小均方误差滤波器(LMS，Least Mean Square)、递归最小二乘滤波器(RLS，Recursive Least Squares)。

具体地说，语音交互设备的自适应干扰器中存在一个目标自适应干扰器模型，目标自适应干扰器模型在进行语音交互之前已经进行了学习，目标自适应干扰器模型内的系数已经相对的比较完善，可以应用于具体的语音交互过程中。因此，本实施例将干扰参考信号输入至目标自适应干扰器模型中，从而得到目标自适应干扰器模型的输出，即目标干扰信号，该目标干扰信号表示预测的当前目标区域中内存在的干扰信号。

步骤208，根据合并音频信号与目标干扰信号之间的差异得到语音信号。

具体地说，在语音信号所在区域与目标区域满足预设条件的情况下，合并音频信号表示目标区域内的语音信号与干扰信号的总和，目标干扰信号表示预测的当前目标区域中内存在的干扰信号；在得到目标自适应干扰器模型的输出即目标干扰信号之后，将合并音频信号与目标干扰信号做减法处理之后，即得到目标区域内的语音信号，从而尽可能的滤除掉语音信号中存在的杂音。

步骤209，根据语音信号进行语音识别。

上述步骤201至步骤204、步骤209与上一实施例的步骤101至步骤104、步骤106相同，为避免重复，在此不再赘述。

在一个实施例中，通过每个麦克风接收来自语音交互设备的外部区域的当前音频，得到当前音频在每个麦克风处对应的音频信号之后，还包括：在当前音频中不存在语音信号的情况下，将合并音频信号、干扰参考信号样本作为一对训练样本，并利用训练样本按照第一学习率对目标模型进行训练，更新目标自适应干扰器模型。

本实施例的具体流程示意图如图3所示，具体包括以下步骤：

步骤301，通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。

步骤302，确定唤醒音频所在的目标区域。

步骤303，通过每个麦克风接收语音交互设备的外部区域的当前音频，得到当前音频在每个麦克风处对应的音频信号。

步骤304，利用固定波束形成模块对多个音频信号进行处理，得到合并音频信号；合并音频信号表示目标区域内的所有音频信号的总和。

步骤305，利用差分矩阵模块对多个音频信号进行处理，得到干扰参考信号。步骤305后，分别进入步骤306、步骤310。

步骤306，在当前音频中存在语音信号的情况下，确定语音信号所在的区域。

步骤307，在语音信号所在区域与目标区域满足预设条件的情况下，将干扰参考信号输入至目标自适应干扰器模型中，得到目标干扰信号；目标干扰信号表示预测的当前目标区域中内存在的干扰信号。

步骤308，根据合并音频信号与目标干扰信号之间的差异得到语音信号。

步骤309，根据语音信号进行语音识别。

步骤310，在当前音频中不存在语音信号的情况下，将合并音频信号、干扰参考信号作为一对训练样本，并利用训练样本按照第一学习率对目标自适应干扰器模型进行训练，更新目标自适应干扰器模型。

具体地说，目标自适应干扰器模型的输入数据为干扰参考信号样本，目标自适应干扰器模型的输出数据为音频信号样本，将两者作为一对训练样本对目标自适应干扰器模型进行训练，从而更新目标自适应干扰器模型，完善内部的系数，提高目标自适应干扰器模型的精确度。

具体地说，由于当前音频不存在语音信号，每个麦克风接收到的音频信息也不包括语音信号，此时，无法获取语音信息，而为了进一步提高目标自适应干扰器模型的精确度，充分利用样本，在此情况下，目标自适应干扰器模型也可以再次进行学习，不断完善目标自适应干扰器模型的系数，提高目标自适应干扰器模型的精确度。

上述步骤301至步骤309与上一实施例的步骤201至步骤209相同，为避免重复，在此不再赘述。

需要说明的是，学习率越大的NLMS的学习速度越快，学习率越小的NLMS的学习速度越慢；而学习速度越大，学习的精细度就越小，因此，必须确保目标自适应干扰器模型的输出数据音频信号样本不存在语音，即需要在语音交互设备外部区域不存在语音的情况下，将获取的干扰参考信号、合并音频信号作为一对训练样本，从而进行模型训练，因此，为了满足学习速度以及学习精度的要求，本实施例仅在语音交互设备外部不存在语音的情况下进行模型训练，第一学习率可以设置地较大，从而兼顾学习速度以及学习精度。

在一个实施例中，在更新目标自适应干扰器模型之后，还包括：再次利用训练样本对目标自适应干扰器模型进行训练，再次更新目标自适应干扰器模型。通过多次重复学习，进一步更新目标自适应干扰器模型，提高目标自适应干扰器模型的准确性。其中，二次重复学习有与两倍学习率一样的收敛速度，同时又有与单倍学习率一致的小误差。

在一个实施例中，在当前音频中存在语音信号的情况下，确定语音信号所在的区域之后，还包括：在语音信号所在区域与目标区域不满足预设条件的情况下，将合并音频信号、干扰参考信号作为一对训练样本，并利用训练样本按照第一学习率对目标自适应干扰消除器模型进行训练，更新目标自适应干扰消除器模型。具体地说，语音信号所在区域与目标区域不满足预设条件的情况下，即表示语音信号所在的区域不与目标区域重合，此时语音交互设备不会获取将这部分的语音信号作为用户发出的语音指令，该语音信号作为干扰信号；而为了进一步提高目标自适应干扰器模型的精确度，充分利用样本，在此情况下，目标自适应干扰器模型也可以再次进行学习，不断完善目标自适应干扰器模型的系数，提高目标自适应干扰器模型的精确度。当然，更新目标自适应干扰消除器模型之后，还可以进行二次或者多次学习并更新。

在一个实施例中，通过多声源定位算法来执行确定当前音频存在语音信号以及确定语音信号所在区域的步骤。多声源定位算法代表着具有高可信度的声源点位算法；多声源定位算法较为精确，可以提高检测目标区域是否存在语音信息的精确度。因此，本实施例中，确定语音信号所在的区域之后，还包括：在语音信号所在的区域与目标区域满足预设条件的情况下，即语音信号所在的区域与目标区域重合的情况下，语音信号为目标语音指令信号，停止目标自适应干扰消除器模型的学习与更新，即将目标自适应干扰消除器模型的学习率置为0。

在一个实施例中，通过单声源定位算法来执行确定当前音频存在语音信号以及确定语音信号所在区域的步骤；确定语音信号所在的区域之后，还包括：在语音信号所在区域与目标区域满足预设条件的情况下，将合并音频信号、干扰参考信号作为一对训练样本，利用训练样本按照第二学习率对目标自适应干扰消除器模型进行训练，更新目标自适应干扰消除器模型；第二学习率小于第一学习率。

本实施例的具体流程示意图如图4所示，具体包括以下步骤：

步骤401，通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。

步骤402，确定唤醒音频所在的目标区域。

步骤403，通过每个麦克风接收语音交互设备的外部区域的当前音频，得到当前音频在每个麦克风处对应的音频信号。

步骤404，利用固定波束形成模块对多个音频信号进行处理，得到合并音频信号；合并音频信号表示目标区域内的语音信号与干扰信号的总和。

步骤405，利用差分矩阵模块对多个音频信号进行处理，得到干扰参考信号。

步骤406，在当前音频中存在语音信号的情况下，确定语音信号所在的区域。

步骤407，在语音信号所在区域与目标区域满足预设条件的情况下，将干扰参考信号输入至目标模型中，得到目标干扰信号；目标干扰信号表示预测的当前目标区域中内存在的干扰信号。

步骤408，根据合并音频信号与目标干扰信号之间的差异得到语音信号。

步骤409，根据语音信号进行语音识别。

步骤410，在语音信号所在区域与目标区域满足预设条件的情况下，将合并音频信号、干扰参考信号作为一对训练样本，利用训练样本按照第二学习率对目标自适应干扰消除器模型进行训练，更新目标自适应干扰消除器模型；第二学习率小于第一学习率。

需要说明的是，单声源定位算法代表着具有高运算效率、但可信度略低的声源定位算法。具体地说，单声源定位算法是将当前时刻能量最大声音的方向作为语音所在方向，因此，单声源定位算法相对于多声源定位算法来说，运算过程更加简单，但单声源定位算法的精确度较低。

本实施例使用的单声源定位算法由于定位算法可信度略低，不能直接停止目标自适应干扰消除器模型的学习与更新；因此，本实施例在使用单声源定位算法的情况下，再次对目标自适应干扰消除器模型进行训练，将合并音频信号、干扰参考信号作为一对训练样本，利用训练样本按照第二学习率对目标模型进行训练，更新目标自适应干扰消除器模型。由于单声源定位算法的精确度较差，可以使用较小的学习率对目标自适应干扰消除器模型进行训练，将第二学习率设置地小于第一学习率，即减小自适应干扰消除器模型的学习率，从而提高本次学习的精确度。

上述步骤401至步骤409与上一实施例的步骤301至步骤304相同，为避免重复，在此不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请一实施例涉及一种语音交互设备，如图5所示，包括至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行上述的语音交互方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本申请一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种语音交互方法，其特征在于，应用于语音交互设备，所述语音交互设备包括由多个麦克风构成的麦克风阵列；所述方法包括：

通过所述麦克风阵列接收来自所述语音交互设备的外部区域的唤醒音频；

确定所述唤醒音频所在的目标区域；

通过每个所述麦克风接收所述语音交互设备的外部区域的当前音频，得到所述当前音频在每个所述麦克风处对应的音频信号；

在所述当前音频中存在语音信号的情况下，确定所述语音信号所在的区域；

在所述语音信号所在区域与所述目标区域满足预设条件的情况下，根据多个所述音频信号得到所述语音信号；

根据所述语音信号进行语音识别；

所述根据多个所述音频信号得到所述语音信号之前，还包括：

利用固定波束形成模块对多个所述音频信号进行处理，得到合并音频信号；所述合并音频信号表示所述目标区域内的所有音频信号的总和；

利用差分矩阵模块对多个所述音频信号进行处理，得到干扰参考信号；

所述根据多个所述音频信号得到所述语音信号，具体包括：

将所述干扰参考信号输入至目标自适应干扰器模型中，得到目标干扰信号；所述目标干扰信号表示预测的当前所述目标区域中内存在的干扰信号；

根据所述合并音频信号与所述目标干扰信号之间的差异得到所述语音信号。

2.根据权利要求1所述的语音交互方法，其特征在于，所述通过每个所述麦克风接收来自所述语音交互设备的外部区域的当前音频，得到所述当前音频在每个所述麦克风处对应的音频信号之后，还包括：

在所述当前音频中不存在语音信号的情况下，将所述合并音频信号、所述干扰参考信号作为一对训练样本，并利用所述训练样本按照第一学习率对所述目标自适应干扰器模型进行训练，更新所述目标自适应干扰器模型。

3.根据权利要求1所述的语音交互方法，其特征在于，所述在所述当前音频中存在语音信号的情况下，确定所述语音信号所在的区域之后，还包括：

在所述语音信号所在区域与所述目标区域不满足预设条件的情况下，将所述合并音频信号、所述干扰参考信号作为一对训练样本，并利用所述训练样本按照第一学习率对所述目标自适应干扰消除器模型进行训练，更新所述目标自适应干扰消除器模型。

4.根据权利要求2或3所述的语音交互方法，其特征在于，在更新目标模型之后，还包括：

再次利用所述训练样本对所述目标自适应干扰器模型进行训练，再次更新所述目标自适应干扰器模型。

5.根据权利要求2或3所述的语音交互方法，其特征在于，通过多声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤；

所述确定所述语音信号所在的区域之后，还包括：

在所述语音信号所在的区域与所述目标区域满足预设条件的情况下，所述语音信号为目标语音指令信号，停止所述目标自适应干扰消除器模型的学习与更新。

6.根据权利要求2或3所述的语音交互方法，其特征在于，通过单声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤；

所述确定所述语音信号所在的区域之后，还包括：

在所述语音信号所在区域与所述目标区域满足预设条件的情况下，将所述合并音频信号、所述干扰参考信号作为一对训练样本，利用所述训练样本按照第二学习率对所述目标自适应干扰消除器模型进行训练，更新所述目标自适应干扰消除器模型；所述第二学习率小于第一学习率。

7.根据权利要求1所述的语音交互方法，其特征在于，所述当前音频的数据长度为10ms至30ms。

8.一种语音交互设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的语音交互方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的语音交互方法。