CN111402883B

CN111402883B - 一种复杂环境下分布式语音交互系统中就近响应系统和方法

Info

Publication number: CN111402883B
Application number: CN202010245803.9A
Authority: CN
Inventors: 丁少为; 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-05-26
Anticipated expiration: 2040-03-31
Also published as: CN111402883A

Abstract

本发明提出了一种复杂环境下分布式语音交互系统中就近响应方法和系统，所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块；所述方法包括步骤1、采集多个可能被唤醒的智能设备的唤醒词段数据以及每个设备前t₁段时间内的噪声数据；步骤2、对每个智能设备的唤醒词数据进行盲源分离，分离出噪声干扰分量和唤醒词分量；步骤3、计算唤醒词前一段时间内唤醒词数据中噪声干扰能量和唤醒词能量，并确定唤醒词数据；步骤4、利用唤醒词分量计算各个智能设备唤醒词数据中，唤醒词分量在唤醒时间段内的能量，步骤5、在各个智能设备的唤醒词能量中，选择能量最大的设备作为最近设备进行响应。

Description

一种复杂环境下分布式语音交互系统中就近响应系统和方法

技术领域

本发明提出了一种复杂环境下分布式语音交互系统中就近响应系统和方法，属于语音降噪处理技术领域。

背景技术

随着语音智能设备的普及，家居环境中可能出现多个同一唤醒词的不同设备(如：电视、冰箱、空调、洗衣机等均由同一个唤醒词唤醒)，这种场景下很有可能出现“一呼百应”的情况，最简单的方法是根据唤醒词时间段的信号能量选择最近设备，即声音传播距离越远，能量衰减越严重，则距离用户最近的设备所接收的唤醒词能量最大，由此根据能量选择最近设备，过分依赖于唤醒词时间段内的信号能量，在噪声环境下就近响应正确率将急剧下降，若某一设备离噪声源较近且离用户较远，则其唤醒词时间段内同时会接收的噪声能量也较多，导致其能量高于最近设备而被误判为最近设备。

发明内容

本发明提供了一种复杂环境下分布式语音交互系统中就近响应系统和方法，用以解决现有的系统和方法对语音唤醒最近设备判断错误率较高的问题，所采取的技术方案如下：

一种复杂环境下分布式语音交互系统中就近响应系统，所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块；

所述信号采集模块，用于针对多个可能被唤醒的智能设备，采集每个设备的唤醒词段数据以及每个设备前t₁段时间内的噪声数据；其中，所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备；

所述信号输入模块，用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中；

所述分布式引擎，用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备，并选择唤醒词能量最大的智能设备作为最近设备进行响应；

所述响应信号传输模块，用于向分布式引擎筛选出的进行响应的智能设备发送响应指令。

进一步地，所述分布式引擎包括盲源分离模块和设备筛选模块；

所述盲源分离模块，用于对每个智能设备的唤醒词段数据进行盲源分离，获得噪声干扰分量和唤醒词分量；并根据噪声干扰和唤醒词计算唤醒词前t₁段时间数据中噪声干扰能量和唤醒词能量；

所述设备筛选模块，用于计算各个智能设备唤醒词数据中，各个智能设备的唤醒词分量在唤醒时间段内的能量，所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。

进一步地，所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二；

所述数据接收模块，用于接收信号采集模块采集到的唤醒词段数据和噪声数据，并将所述唤醒词段数据和噪声数据发送至分离模块中；

所述分离模块，用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离，并获得两个分量，所述两个分量分别为噪声干扰分量和唤醒词分量；

所述数据传输模块一，用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中；

所述筛选唤醒词分量模块，用于根据噪声干扰和唤醒词计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据；

所述数据传输模块二，用于将唤醒词数据输入至设备筛选模块。

进一步地，所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块；

所述能量判断模块，用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量，获得能量数据；

所述能量数据传输模块，用于将能量数据发送至设备选取模块；

所述设备选取模块，用于在所述能量数据中筛选出能量数值对大的智能设备，并将该智能设备作为最近设备进行响应。

进一步地，所述筛选唤醒词分量模块依据如下公式计算计算唤醒词前t₁段时间数据中的噪声干扰分量的能量：

其中，E_1k(t)和E_2k(t)为盲源分离所得两分量中前t₁段时间数据中的噪声干扰分量的能量；t₀为输出数据的开始时间，记唤醒词数据为Y_k(t)。

进一步地，所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量：

其中，E_Finalk为第k个智能设备的唤醒词能量，t₂为唤醒词结束的时间点。

进一步地，所述设备选取模块利用如下公式筛选出能量数值对大的智能设备：

其中，K_F为最终响应的设备编号。

一种如上述任一所述系统对应的就近响应方法，所述就近响应方法过程包括：

步骤1、针对K个可能被唤醒的智能设备，采集每个设备的唤醒词段数据以及每个设备前t₁段时间内的噪声数据，其中，K为大于1的整数；

步骤2、对每个智能设备的唤醒词数据进行盲源分离，分离出噪声干扰分量和唤醒词分量；

步骤3、根据噪声干扰和唤醒词计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据；

步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中，唤醒词分量在唤醒时间段内的能量，所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量；

步骤5、在各个智能设备的唤醒词能量中，选择能量最大的设备作为最近设备进行响应。

进一步地，所述就近响应方法的具体过程包括：

步骤1、假设K个智能设备可能被唤醒，针对K个可能被唤醒的智能设备，采集每个设备的唤醒词段数据以及每个设备前t₁段时间内的噪声数据，其中，K为大于1的整数；并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中，记第k各设备的数据为S_k(t)；

步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量，并将所得分量分别记为X_1_k(t)和X_2_k(t)，以备筛选唤醒词分量模块使用；由于此时只能得到两个分量供筛选唤醒词分量模块使用，在此处还不能确定哪个是噪声干扰分量，哪个是唤醒词分量，因此分别将这两个不能确定性质的分量进行标记，记做X_1_k(t)和X_2_k(t)；

步骤3、利用公式(1)并结合噪声干扰分量和唤醒词分量计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据

其中，E_1k(t)和E_2k(t)为盲源分离所得两分量中前t₁段时间数据中的噪声干扰分量的能量；t₀为输出数据的开始时间，记唤醒词数据为Y_k(t)；若E_1k(t)＜E_2k(t)，则Y_k(t)＝X_1_k(t)，否则，Y_k(t)＝X_2_k(t)；

步骤4、将唤醒词分量输入设备筛选模块，并根据公式(2)各个智能设备的唤醒词数据中，唤醒词分量在唤醒时间段内的能量，其中，所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量；

其中，E_Finalk为第k个智能设备的唤醒词能量，t₂为唤醒词结束的时间点；

步骤5、在各个智能设备的唤醒词能量中，利用公式(3)选择能量最大的设备作为最近设备进行响应；

其中，K_F为最终响应的设备编号。

本发明有益效果：

本发明提出的一种复杂环境下分布式语音交互系统中就近响应系统和方法，能够将唤醒词段数据中的噪声与唤醒词分离出来，再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选，从众多待应答的智能设备中选择出响应设备。该系统和方法能够有效降低噪声源对选择就近智能设备进行响应时的干扰，有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。

附图说明

图1为发明所述就近响应系统的结构示意图；

图2为发明所述就近响应系统的原理示意图；

图3为发明所述就近响应方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

一种复杂环境下分布式语音交互系统中就近响应系统，如图1所示，所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块；

上述技术方案的工作原理为：针对多个可能被唤醒的智能设备，通过所述信号采集模块采集每个设备的唤醒词段数据以及每个设备前t₁段时间内的噪声数据；其中，所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备；然后，通过信号输入模块将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中；并通过所述分布式引擎利用盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备，并选择唤醒词能量最大的智能设备作为最近设备进行响应；最后，利用所述响应信号传输模块向分布式引擎筛选出的进行响应的智能设备发送响应指令。

上述技术方案的技术效果为：该系统能够有效降低噪声源对选择就近智能设备进行响应时的干扰，有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。

本发明的一个实施例，所述分布式引擎包括盲源分离模块和设备筛选模块；

上述技术方案的工作原理为：通过盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离，获得噪声干扰分量和唤醒词分量；并根据噪声干扰和唤醒词计算唤醒词前t₁段时间数据中噪声干扰能量和唤醒词能量；然后，通过设备筛选模块计算各个智能设备唤醒词数据中，各个智能设备的唤醒词分量在唤醒时间段内的能量，所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。

上述技术方案的技术效果为：所述就近响应系统能够将唤醒词段数据中的噪声与唤醒词分离出来，再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选，从众多待应答的智能设备中选择出响应设备。该系统能够有效降低噪声源对选择就近智能设备进行响应时的干扰，有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。

本发明的一个实施例，所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二；

盲源分离后的数据中有噪声分量和唤醒词分量，但是并不能知道哪个分量中包含唤醒词，哪个分量中只有噪声；这里通过前端只包含噪声的数据能量来进行判断，包含唤醒词分量中的前段噪声数据能量会低于相应的噪声数据能量，以此筛选出包含唤醒词分量的数据，能够准确的提炼出包含唤醒词的噪声干扰分量。

其中，所述筛选唤醒词分量模块依据如下公式计算计算唤醒词前t₁段时间数据中的噪声干扰分量的能量：

上述技术方案的工作原理：通过所述数据接收模块接收信号采集模块采集到的唤醒词段数据和噪声数据，并将所述唤醒词段数据和噪声数据发送至分离模块中；然后利用所述分离模块，通过盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离，并获得噪声干扰分量和唤醒词分量；并利用数据传输模块一将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中；所述筛选唤醒词分量模块在接收到噪声干扰和唤醒词之后根据噪声干扰和唤醒词计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据；最后通过数据传输模块二将唤醒词数据输入至设备筛选模块。

上述技术方案的技术效果为：将唤醒词段和唤醒词前段时间数据有效结合起来能够更大程度上提高唤醒词能量的计算精度，并提高除噪音干扰能量的筛选率和剔除率，进而提高后续响应设备筛选的准确性。

本发明的一个实施例，所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块；

其中，所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量：

所述设备选取模块利用如下公式筛选出能量数值对大的智能设备：

其中，K_F为最终响应的设备编号。

上述技术方案的工作原理：通过能量判断模块接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量，获得能量数据；然后通过能量数据传输模块将能量数据发送至设备选取模块；最后，利用所述设备选取模块在所述能量数据中筛选出能量数值对大的智能设备，并将该智能设备作为最近设备进行响应。

上述技术方案的技术效果：将唤醒词前段时间和唤醒时间段相结合的方式计算唤醒此能量，能够进一步极大程度上提高除噪音干扰能量的筛选率和剔除率，进而提高后续响应设备筛选的准确性，提高响应设备被唤醒的正确率。

一种如上述任一所述系统对应的就近响应方法，如图3所示，所述就近响应方法过程包括：

上述技术方案的原理和效果为：通过对每个智能设备的唤醒词段数据进行盲源分离的方式，获得噪声干扰分量和唤醒词分量；再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选，从众多待应答的智能设备中选择出响应设备。该方法能够有效降低噪声源对选择就近智能设备进行响应时的干扰，有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。

本发明的一个实施例，所述就近响应方法的具体过程包括：

步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量，并将所得分量分别记为X_1_k(t)和X_2_k(t)，以备筛选唤醒词分量模块使用；由于此时只能得到两个分量供筛选唤醒词分量模块使用，这两个分量中，必有一个为噪声干扰分量，一个为唤醒词分量，但是在此处还不能确定哪个是噪声干扰分量，哪个是唤醒词分量，因此分别将这两个不能确定性质的分量进行标记，记做X_1_k(t)和X_2_k(t)；

步骤3、利用公式(1)并结合分量X_1_k(t)和X_2_k(t)计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据

其中，K_F为最终响应的设备编号。

上述技术方案的原理和效果为：通过盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离并利用筛选唤醒词分量模块计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据。将唤醒词段和唤醒词前段时间数据有效结合起来能够更大程度上提高唤醒词能量的计算精度，并提高除噪音干扰能量的筛选率和剔除率，进而提高后续响应设备筛选的准确性。同时，将唤醒词前段时间和唤醒时间段相结合的方式计算唤醒此能量，能够进一步极大程度上提高除噪音干扰能量的筛选率和剔除率，进而提高后续响应设备筛选的准确性，提高响应设备被唤醒的正确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种复杂环境下分布式语音交互系统中就近响应系统，其特征在于，所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块；

所述响应信号传输模块，用于向分布式引擎筛选出的进行响应的智能设备发送响应指令;

所述分布式引擎包括盲源分离模块和设备筛选模块；

所述盲源分离模块，用于对每个智能设备的唤醒词段数据进行盲源分离，获得噪声干扰分量和唤醒词分量；并根据噪声干扰和唤醒词计算唤醒词前t₁段时间数据能量；

所述设备筛选模块，用于计算各个智能设备唤醒词数据中，各个智能设备的唤醒词分量在唤醒时间段内的能量，所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量；

所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二；

所述筛选唤醒词分量模块，用于计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，并对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据；

所述数据传输模块二，用于将唤醒词数据输入至设备筛选模块；

所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块；

所述设备选取模块，用于在所述能量数据中筛选出能量数值对大的智能设备，并将该智能设备作为最近设备进行响应；

所述筛选唤醒词分量模块依据如下公式计算唤醒词前t₁段时间数据中的噪声干扰分量的能量：

（1）

其中，E _1k（t）和E _2k（t）为盲源分离所得两分量中前t₁段时间数据中的噪声干扰分量的能量；t₀为输出数据的开始时间，记唤醒词数据为Y_k（t）。

2.根据权利要求1所述系统，其特征在于，所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量：

（2）

其中，E _Finalk为第k个智能设备的唤醒词能量，t₂为唤醒词结束的时间点。

3.根据权利要求1所述系统，其特征在于，所述设备选取模块利用如下公式筛选出能量数值对大的智能设备：

（3）

其中，K_F为最终响应的设备编号。

4.一种如权利要求1-3任一所述系统对应的就近响应方法，其特征在于，所述就近响应方法过程包括：

5.根据权利要求4所述就近响应方法，其特征在于，所述就近响应方法的具体过程包括：

步骤1、假设K个智能设备可能被唤醒，针对K个可能被唤醒的智能设备，采集每个设备的唤醒词段数据以及每个设备前t₁段时间内的噪声数据，其中，K为大于1的整数；并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中，记第k各设备的数据为S_k（t）；

步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量，并将所得分量分别记为X_1_k（t）和X_2_k（t），以备筛选唤醒词分量模块使用；

步骤3、利用公式（1）并结合噪声干扰分量和唤醒词分量计算唤醒词前t₁段时间数据中的噪声干扰分量的能量，对各噪声干扰分量的能量进行比较，确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据，即为唤醒词数据

（1）

其中，E _1k（t）和E _2k（t）为盲源分离所得两分量中前t₁段时间数据中的噪声干扰分量的能量；t₀为输出数据的开始时间，记唤醒词数据为Y_k(t)；若E _1k（t）＜E _2k（t），则Y_k(t)=X_1_k（t），否则，Y_k(t)=X_2_k（t）；

步骤4、将唤醒词分量输入设备筛选模块，并根据公式（2）各个智能设备的唤醒词数据中，唤醒词分量在唤醒时间段内的能量，其中，所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量；

（2）

其中，E _Finalk为第k个智能设备的唤醒词能量，t₂为唤醒词结束的时间点；

步骤5、在各个智能设备的唤醒词能量中，利用公式（3）选择能量最大的设备作为最近设备进行响应；

（3）

其中，K_F为最终响应的设备编号。