CN111599375B

CN111599375B - 一种语音交互中多路语音的白化方法及其装置

Info

Publication number: CN111599375B
Application number: CN202010339154.9A
Authority: CN
Inventors: 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-03-21
Anticipated expiration: 2040-04-26
Also published as: CN111599375A

Abstract

本发明提供了一种语音交互中多路语音的白化方法及其装置，包括：将输入多路语音数据转换到频域，获取语音频域数据；将所述语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T1时，使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵，并求解所述各频带协方差矩阵的逆矩阵；继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵；重复迭代执行上述步骤，当检测到唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据。

Description

一种语音交互中多路语音的白化方法及其装置

技术领域

本发明涉及语音交互技术领域，特别涉及一种语音交互中多路语音的白化方法及其装置。

背景技术

目前，在语音交互中，通常需要先唤醒设备，唤醒设备后通过唤醒词对应的语音数据可以计算出空间滤波器系数，对后继信号做空域滤波可提高语音质量，提高语音交互成功率。多通道信号可以通过计算信号、噪声协方差阵估计空间滤波器，但信号和噪声通常是混叠的，需要通过估计方法估计时频点归属，通过白化处理，可以增强不同方向信号的可分性，从而提高信号、噪声协方差计算准确性，提高空间滤波器性能。白化通常做法是拿到足够的信号、噪声数据，全局处理，往往数据越多白化矩阵越稳定，效果越好，但这种做法最大的缺点是延迟较大，瞬间计算量大，且需缓存大量数据，工程应用并不方便。

发明内容

本发明提供一种语音交互中多路语音的白化方法及其装置，用以解决白化累积数据多，计算量大，造成延迟的情况。

一种语音交互中多路语音的白化方法，其特征在于，包括：

步骤1：将输入多路语音数据转换到频域，获取语音频域数据；

步骤2：将所述语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T1时，使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵，并求解所述各频带协方差矩阵的逆矩阵；

步骤3：继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对缓存的语音频域数据进行白化处理；

步骤4：重复迭代执行步骤1至步骤3，当检测到唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据。

作为本发明的一种实施例：所述将输入多路语音数据转换到频域，获取语音频域数据，包括：

通过所述唤醒设备采集所述多路语音；

将所述多路语音进行分帧加窗处理，获取所述分帧后多路语音的频域特征，确定所述多路语音的语音频域数据。

作为本发明的一种实施例所述使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵，包括：

获取缓存的时间数据T1；

按照下式(1)计算频带协方差矩阵：

其中，Y表示各频带协方差矩阵，所述t表示时刻；所述f表示频带；所述y_f,t表示t时刻频带向量；所述y^H _f,t表示t时刻共轭对称下的频带向量；所述H表示共轭对称。

作为本发明的一种实施例：所述当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，包括：

基于矩阵求逆引理，按照下式(2)计算计算各个频带逆矩阵；

其中，所述

表示协方差矩阵的逆矩阵；所述y_f,t表示t时刻的频带向量；所述

表示t-1时刻的逆矩阵；所述y_f,t-1表示t-1时刻的频带向量；

根据所述逆矩阵，通过乔利斯基分解U＝LL^H求解白化矩阵；其中，

所述U对应Y^-1 _f,t；所述L^H是L的共轭矩阵，表示乔利斯基分解后的上三角矩阵；所述L表示乔利斯基分解后的下三角矩阵。

作为本发明的一种实施例：所述当检测到所述唤醒设备处于唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据，包括：

步骤10：获取唤醒设备的实际状态特征；

步骤11：根据所述实际状态特征与预设的状态参数进行匹配，获取匹配结果；

步骤12：根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一；

步骤13：当所述唤醒设备处于休眠状态，转换为监测模式，持续监测所述唤醒设备的状态特征，并重复步骤10和步骤11；

当所述唤醒设备处于唤醒状态，用最后一次迭代获得的白化矩阵处理剩余的白化数据。

一种语音交互中多路语音的白化装置，其特征在于，包括：

第一获取模块：用于将输入多路语音数据转换到频域，获取语音频域数据；

第一处理模块：用于将所述语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T1时，使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵，并求解所述各频带协方差矩阵的逆矩阵；

第二处理模块：用于继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对缓存的语音频域数据进行白化处理；第三处理模块：用于重复迭代上述模块的执行操作，当检测到唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据。

作为本发明的一种实施例，所述第一获取模块包括：

第一采集单元：用于通过所述唤醒设备采集所述多路语音；

第一确定单元：用于将所述多路语音进行分帧加窗处理，获取所述分帧后多路语音的频域特征，确定所述多路语音的语音频域数据。

作为本发明的一种实施例，所述第一处理单元包括：

第一获取单元：用于获取缓存的时间数据T1；

第一处理单元：用于按照下式(1)计算频带协方差矩阵：

作为本发明的一种实施例，所述第二处理模块包括：

第二处理单元：用于基于矩阵求逆引理，按照下式(2)计算计算各个频带逆矩阵；

其中，所述

表示t-1时刻的逆矩阵；所述y_f,t-1表示t-1时刻的频带向量；

步骤10：获取唤醒设备的实际状态特征；

本发明的有益效果在于：本专利通过不断迭代更新的方式求解白化矩阵，避免了最后一次性估计白化矩阵，解决了瞬态计算峰值问题，并且包含了累积的数据信息，相比全局求解方法保持了良好的性能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例中一种语音交互中多路语音的白化方法的方法流程图；

图2为本发明实施例中一种语音交互中多路语音的白化装置的装置结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如附图1为本发明实施例中一种语音交互中多路语音的白化方法的方法流程图，包括：

步骤3：继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对新缓存的语音频域数据进行白化处理；这个是不断累积数据，达到一段则更新白化矩阵，并处理这部分数据。

步骤4：重复迭代执行步骤1至步骤3，当检测到唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据。当系统返回唤醒状态后，把缓存中的未被处理数据一起处理掉

本发明的原理在于：语音数据包括用户语音和噪声，本发明在不断采集的过程，语音检测的目的也是检测出那一部分是用户语音；本发明通过将多路语音转换为频域，得到语音的频域数据，执行缓存，通过在一定时间内利用协方差矩阵求取多路语音的逆矩阵，根据逆矩阵，再在一定的时长内获取白化矩阵，以重复迭代的方式处理白化矩阵。

在初始阶段会拿到一个初始值，然后不断迭代求解白化矩阵并对数据做白化处理，由于矩阵的逆需要一定数据累积才能计算，所以初始一定时间不断累积数据，然后计算得到初始的逆矩阵，然后在后继的过程中隔一段时间(很短，比如10帧)通过矩阵求逆引理更新逆矩阵，计算白化矩阵，同时对该段数据进行处理得到白化后的数据，不断往复，直到唤醒时刻，把缓存中未处理的数据做白化处理。缓存是一个一直持续的过程，不断有数据进来，不断处理，但总的缓存时长是有限的，比如4秒，满了就把前面的丢掉，先进先出，唤醒时用这4秒数据求解空间滤波器。

本发明的有益效果在于：本发明通过不断迭代更新的方式求解白化矩阵，避免了最后一次性估计白化矩阵，解决了瞬态计算峰值问题，并且包含了累积的数据信息，相比全局求解方法保持了良好的性能。

通过所述唤醒设备采集所述多路语音；

本发明的原理在于：本发明获取语音频域数据时，通过时域特征和语音特征，然后转化为数字化语音，数字化语音分帧处理，然后通过提取每帧数字化语音的频域特征，频域特征可以理解为频谱，综合为语音频域数据。

本发明的有益效果在于：本发明根据多路语音的时域特征和语音特征，转化为数字化语音。数字化语音能更加精确的得到频域特征。分帧处理之后，分别获取每帧数字化语音的频域特征，使得频域数据更加精确和全面。

获取缓存的时间数据T1；

按照下式(1)计算频带协方差矩阵：

基于矩阵求逆引理，按照下式(2)计算计算各个频带逆矩阵；

其中，所述

表示t-1时刻的逆矩阵；所述y_f,t-1表示t-1时刻的频带向量；

步骤10：获取唤醒设备的实际状态特征；

如附图2为本发明实施例中一种语音交互中多路语音的白化装置的装置结构图，包括：

第二处理模块：用于继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对缓存的语音频域数据进行白化处理；

第三处理模块：用于重复迭代上述模块的执行操作，当检测到唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据。

本发明的原理在于：本发明通过将多路语音转换为频域，得到语音的频域数据，执行缓存，通过在一定时间内利用协方差矩阵求取多路语音的逆矩阵，根据逆矩阵，再在一定的时长内获取白化矩阵，以重复迭代的方式处理白化矩阵。

作为本发明的一种实施例，所述第一获取模块包括：

第一采集单元：用于通过所述唤醒设备采集所述多路语音；

本发明的原理在于：本发明获取语音频域数据时，通过时域特征和语音特征，然后转化为数字化语音，数字化语音分帧处理，然后通过提取每帧数字化语音的频域特征，综合为语音频域数据。

作为本发明的一种实施例，所述第一处理单元包括：

第一获取单元：用于获取缓存的时间数据T1；

第一处理单元：用于按照下式(1)计算频带协方差矩阵：

作为本发明的一种实施例，所述第二处理模块包括：

其中，所述

表示t-1时刻的逆矩阵；所述y_f,t-1表示t-1时刻的频带向量；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音交互中多路语音的白化方法，其特征在于，包括：

步骤1：将输入唤醒设备的多路语音数据转换到频域，获取语音频域数据；

步骤3：继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对新缓存的语音频域数据进行白化处理；

步骤4：重复迭代执行步骤1至步骤3，当检测到所述唤醒设备处于唤醒状态时，使用最后一次迭代获得的白化矩阵对剩余数据进行白化处理。

2.根据权利要求1所述的一种语音交互中多路语音的白化方法，其特征在于，所述将输入唤醒设备的多路语音数据转换到频域，获取语音频域数据，包括：

通过所述唤醒设备采集所述多路语音；

3.根据权利要求1所述的一种语音交互中多路语音的白化方法，其特征在于，所述使用所缓存的T1时长对应的语音频域数据计算各频带的协方差矩阵，包括：

获取缓存的时间数据T1；

按照下式(1)计算频带协方差矩阵：

4.根据权利要求1所述的一种语音交互中多路语音的白化方法，其特征在于，所述继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对缓存的语音频域数据进行白化处理，包括：

基于矩阵求逆引理，按照下式(2)计算计算各个频带逆矩阵；

其中，所述

表示t-1时刻的逆矩阵；所述y_f,t-1表示t-1时刻的频带向量；

5.根据权利要求1所述的一种语音交互中多路语音的白化方法，其特征在于，所述当检测到所述唤醒设备处于唤醒状态时，使用最后一次迭代获得的白化矩阵处理剩余的白化数据，包括：

步骤10：获取唤醒设备的实际状态特征；

6.一种语音交互中多路语音的白化装置，其特征在于，包括：

第二处理模块：用于继续对新获得的语音频域数据进行缓存操作，当缓存的语音频域数据对应的时长达到T2时，根据各频带协方差矩阵的逆矩阵计算白化矩阵，通过所述白化矩阵对新缓存的语音频域数据进行白化处理；

7.根据权利要求6所述的一种语音交互中多路语音的白化装置，所述第一获取模块包括：

第一采集单元：用于通过唤醒设备采集所述多路语音；

8.根据权利要求6所述的一种语音交互中多路语音的白化装置，其特征在于，所述第一处理模块包括：

第一获取单元：用于获取缓存的时间数据T1；

第一处理单元：用于按照下式(1)计算频带协方差矩阵：

9.根据权利要求6所述的一种语音交互中多路语音的白化装置，其特征在于，所述第二处理模块包括：

其中，所述

表示t-1时刻的逆矩阵；所述y_f,t-1表示t-1时刻的频带向量；

10.根据权利要求6所述的一种语音交互中多路语音的白化装置，其特征在于，所述第三处理模块处理白化数据的步骤为：

步骤10：获取唤醒设备的实际状态特征；