CN111613243B

CN111613243B - 一种语音检测的方法及其装置

Info

Publication number: CN111613243B
Application number: CN202010339292.7A
Authority: CN
Inventors: 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-04-18
Anticipated expiration: 2040-04-26
Also published as: CN111613243A

Abstract

本发明提供了一种语音检测的方法及其装置。获取语音数据，并导入训练好的深度学习模型，预测语音数据的时频掩蔽值；其中，所述时频掩蔽值包括时间序列表征和频带表征；根据所述频带表征，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱；根据所述谐波乘积谱的峰值和位置判定所述语音和噪音。本发明的有益效果在于：本发明基于深度学习技术，预测语音信号时频点的掩蔽值时，利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱，即利用了深度学习良好的数据建模能力，又结合了语音的结构信息，可有效提高语音检测的性能。

Description

一种语音检测的方法及其装置

技术领域

本发明涉及语音检测技术领域，特别涉及一种语音检测的方法及其装置。

背景技术

现有技术中，语音检测是指检测出语音信号中的语音起止点信息，标志出噪声与信号区间，在语音交互中具有十分重要的意义，可以有效的减少误唤醒和误识别，同时大幅降低语音交互系统计算量。近场、安静或平稳噪声的环境下，语音检测性能已经比较理想，但在远场、非平稳噪声环境下语音检测性能急剧下降，基于深度学习的语音检测技术发展后，非平稳噪声下语音检测性能有所改善，但依然没有彻底解决该问题，其本质上来说深度学习虽然拥有强大的建模能力，但没有合理利用语音中有效的先验结构信息，比如语音所具备的谐波结构信息，在传统的语音信号处理中使用谐波乘积谱可以在较强噪声下将语音和噪声区分开，但谐波乘积谱也有其缺点，就是各个频带能量不均衡，造成阈值划定困难，不同场景泛化能力不足。

发明内容

本发明提供语音检测的方法及其装置，用以解决语音检测不准确的情况。

一种语音检测的方法，其特征在于，包括：

获取语音数据，并导入训练好的深度学习模型，预测语音数据的时频掩蔽值；其中，

所述时频掩蔽值包括时间序列表征和频带表征；

根据所时频掩蔽值述频带表征，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱；

根据所述谐波乘积谱峰值和峰值分布，判断所述语音数据为语音或噪音。

作为本发明的一种实施例：所述获取语音数据，并导入训练好的深度学习模型，预测语音数据的时频掩蔽值，包括：

预设干净语音数据库和噪声数据库；

根据所述噪声数据库，对所述干净语音数据库进行加噪处理，生成带噪语音；

通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|，并计算出对应的掩膜M＝|S|/|Y|；

根据所述带噪语音幅度谱|Y|，提取所述带噪语音的的语音特征；

将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型；

获取所述语音数据，并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。

作为本发明的一种实施例：所述根据所述时频掩蔽值，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱，包括：

通过所述频带表征，将所述语音数据的进行分帧；

获取分帧后语音数据的掩蔽值；

对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样，得到降采样后的序列；

根据所述每一帧语音数据的掩蔽值的序列，计算所述语音数据的谐波乘积谱；其中，

当所述掩蔽值的序列为n时，所述谐波乘积谱如下式：

Y(k)＝X(k)*X₂(k)*……X_n(k)；

其中，所述Y(k)为谐波乘积谱；所述X(k)表示时频掩蔽值；所述n表示序列数。

作为本发明的一种实施例：所述根据所述谐波乘积谱峰值和峰值分布，判断所述语音数据中的语音或噪音，包括：

获取所述谐波乘积谱峰值分布图；

确定所述谐波乘积谱峰值和峰值分布；

将所述谐波乘积谱的峰值和峰值分布与阈值对比，确定对比结果；

根据所述对比结果判定所述语音数据中的语音和噪声。

作为本发明的一种实施例：所述谐波乘积谱峰值和峰值分布，判断所述语音数据为语音或噪音，还包括：

根据所述预设干净语音数据库和噪声数据库，确定所述预设干净语音数据库和噪声数据库的谐波乘积谱；

根据所述预设干净语音数据库和噪声数据库的谐波乘积谱，确定所述预设干净语音数据库和噪声数据库的峰值分布；

根据所述预设干净语音数据库和噪声数据库的峰值分布，确定语音和噪音的阈值范围；其中，

所述阈值范围在0～1之间，语音趋近于1，噪音趋近于0。

一种语音检测的装置，包括：

预测模块：用于获取语音数据，并导入训练好的深度学习模型，预测语音数据的时频掩蔽值；其中，

所述时频掩蔽值包括时间序列表征和频带表征；

第一处理模块：根据所时频掩蔽值，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱；

第一确定模块：根据所述谐波乘积谱峰值和峰值分布，判断所述语音数据为语音或噪音。

作为本发明的一种实施例：所述预测模块包括：

第一获取单元：用于预设干净语音数据库和噪声数据库；

第二获取单元：用于根据所述噪声数据库，对所述干净语音数据库进行加噪处理，生成带噪语音；

第一处理单元：通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|，并计算出对应的掩膜M＝|S|/|Y|；

第一预估单元：获取所述语音数据，并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。

作为本发明的一种实施例：所述处理模块包括：

第二处理单元：用于通过所述频带表征，将所述语音数据的进行分帧；

第三获取单元：用于获取分帧后语音数据的掩蔽值；

第一采集单元：用于对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样，得到降采样后的序列；

第一计算单元：用于根据所述每一帧语音数据的掩蔽值的序列，计算所述语音数据的谐波乘积谱；其中，

当所述掩蔽值的序列为n时，所述谐波乘积谱如下式：

Y(k)＝X(k)*X₂(k)*……X_n(k)；

作为本发明的一种实施例：所述第一确定模块包括：

第四获取单元：用于获取所述谐波乘积谱峰值分布图，确定所述谐波乘积谱峰值和峰值分布；；

第五获取单元：用于将所述谐波乘积谱的峰值和峰值分布与阈值对比，确定对比结果；根据所述对比结果判定所述语音数据中的语音和噪声。

作为本发明的一种实施例：所述第一确定模块还包括：

第一确定单元：用于根据所述预设干净语音数据库和噪声数据库，确定所述预设干净语音数据库和噪声数据库的谐波乘积谱；

第二确定单元:用于根据所述预设干净语音数据库和噪声数据库的谐波乘积谱，确定所述预设干净语音数据库和噪声数据库的峰值分布；

第三确定单元：用于根据所述预设干净语音数据库和噪声数据库的峰值分布，确定语音和噪音的阈值范围；其中，

所述阈值范围在0～1之间，语音趋近于1，噪音趋近于0。

本发明的有益效果在于：本专利使用深度学习的建模能力得到时频域的掩蔽值，然后在时频掩蔽值上计算谐波乘积谱，即利用深度学习技术良好的建模能力，再利用语音特有的谐波结构信息。基于深度学习技术，估计语音信号时频点的掩蔽值时，利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱，即利用了深度学习良好的数据建模能力，又结合了语音的结构信息，可有效提高语音检测的性能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例中一种语音检测方法的方法流程图；

图2为本发明实施例中一种语音检测方法的算法结构图；

图3为本发明实施例中一种语音检测装置的模块结构图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示本发明实施例中一种语音检测方法的方法流程图包括：

步骤100：获取语音数据，并导入训练好的深度学习模型，预测语音数据的时频掩蔽值；其中，

所述时频掩蔽值包括时间序列表征和频带表征；

步骤101：根据所述频带表征，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱；

步骤102：根据所述谐波乘积谱峰值和峰值分布，判断所述语音数据为语音或噪音。

如附图1和2所示：本发明的算法结构图，本发明使用深度学习的建模能力得到时频域的掩蔽值，然后在时频掩蔽值上计算谐波乘积谱，即利用深度学习技术良好的建模能力，再利用语音特有的谐波结构信息。基于深度学习技术，估计语音信号时频点的掩蔽值时，利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱，即利用了深度学习良好的数据建模能力，又结合了语音的结构信息，可有效提高语音检测的性能。

预设干净语音数据库和噪声数据库；

本发明的原理在于：包括训练阶段和应用阶段，训练时建立干净语音数据集和噪声数据集；语音加噪，形成干净语音到噪声语音的对应数据；提取语音特征，如logMel，设定深度学习网络模型，训练从噪声谱到干净语音谱的映射网络，得到时频掩蔽网络；

应用时，将语音数据导入深度学习模型；提取语音数据特征经过网络计算，得到对应的时频掩蔽值；

本发明的有益效果在于：本发明通过训练好的深度学习模型预测时频掩蔽值，能够合理利用语音中有效的先验结构信息。训练和应用两个阶段分开进行，互不干扰。在实际实施时，还可以利用大数据进行预先的训练，不仅利用深度学习的建模技术，还结合了语音的结构信息，使得语音检测更加精确。

作为本发明的一种实施例：所述根据所述频带表征，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱，包括：

通过所述频带表征，将所述语音数据的进行分帧；

获取分帧后语音数据的掩蔽值；

所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样，得到降采样后的序列；

当所述掩蔽值的序列为n时，所述谐波乘积谱如下式：

Y(k)＝X(k)*X₂(k)*……X_n(k)；

本发明的原理在于：本发明通过语音数据的频域信号，以掩蔽值降采样的方式得到能够判断检测阀值的谐波乘积谱。在一个实施例中，假设序列x(n)，降采样2的序列为x(2n)，降采样3的序列为x(3n)，3阶谐波乘积谱就是y(n)＝x(n)*x(2n)*x(3n)。用掩蔽值计算，而非实际的语音谱计算，就是起到规整作用，所以谐波乘积谱用规整的谐波乘积谱更合适

本发明的有益效果在于：语音具有特有的谐波结构，而且可以基于谐波阶数，进行基频的二次谐波、三次谐波等计算谐波乘积谱，利用了深度学习良好的数据建模能力，又结合了语音的结构信息，可有效提高语音检测的性能。

作为本发明的一种实施例：所述根据所述规整的谐波乘积谱获取语音数据中的语音谐波乘积谱和噪音谐波乘积谱，包括：

获取所述谐波乘积谱峰值分布图；

确定所述谐波乘积谱峰值和峰值分布；

根据所述对比结果判定所述语音数据中的语音和噪声。

本发明的原理在于：本实施例主要目的是获取语音和噪音的在谐波乘积谱上的分布，最后根据谐波乘积谱峰值和峰值分布把语音数据区分为语音和噪音。

本发明的有益效果在于：因为语音的谐波乘积谱能量值很高，而噪声的谐波乘积谱能量要低得多，而能量值可以用时频掩蔽值进行表示，在谐波乘积谱上以峰值的形式表现出来，因此，从而确定语音数据中的噪音和语音，能量值的计算比较简单。

作为本发明的一种实施例：所述根据所述语音时频掩蔽值和噪音的时频掩蔽值确定语音和噪音的阀值范围，包括：

所述阈值范围在0～1之间，语音趋近于1，噪音趋近于0。

本发明原理在于：本发明在预设语音数据库和噪音数据库的谐波乘积谱确定的情况下，通过峰值和峰值分布，从而确定最终的语音检测的范围。

本发明的有益效果在于：本发明克服了谐波乘积谱的其缺点，通过时频掩蔽值可以防止频带能量不均衡，造成阈值划定困难，不同场景泛化能力不足的现象。

如附图3所示本发明实施例中的一种语音检测的装置，包括：

所述时频掩蔽值包括时间序列表征和频带表征；

处理模块：根据所述频带表征，对所述语音数据的时频掩蔽值进行降采样，确定谐波乘积谱；

第一确定模块：用于根据所述谐波乘积谱峰值和峰值分布，判断所述语音数据为语音或噪音。

本发明使用深度学习的建模能力得到时频域的掩蔽值，然后在时频掩蔽值上计算谐波乘积谱，即利用深度学习技术良好的建模能力，再利用语音特有的谐波结构信息。基于深度学习技术，估计语音信号时频点的掩蔽值时，利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱，即利用了深度学习良好的数据建模能力，又结合了语音的结构信息，可有效提高语音检测的性能。

作为本发明的一种实施例：所述预测模块包括：

第一获取单元：用于预设干净语音数据库和噪声数据库；

应用时，将语音数据导入深度学习模型；语音数据提取特征经过网络计算，得到对应的时频掩蔽值；

作为本发明的一种实施例：所述处理模块包括：

第三获取单元：用于获取分帧后语音数据的掩蔽值；

第一采集单元：用对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样，得到降采样后的序列；

当所述掩蔽值的序列为n时，所述谐波乘积谱如下式：

Y(k)＝X(k)*X₂(k)*……X_n(k)；

本发明的原理在于：本发明通过语音数据的频域信号，以掩蔽值降采样的方式得到能够判断检测阀值的谐波乘积谱。在一个实施例中，假设序列x(n),降采样2的序列为x(2n)，降采样3的序列为x(3n)，3阶谐波乘积谱就是y(n)＝x(n)*x(2n)*x(3n)。用掩蔽值计算，而非实际的语音谱计算，就是起到规整作用，所以谐波乘积谱用规整的谐波乘积谱更合适

作为本发明的一种实施例：所述第一确定模块包括：

所述第一确定模块包括：

第四获取单元：用于获取所述谐波乘积谱峰值分布图，确定所述谐波乘积谱峰值和峰值分布；

第五获取单元：用于将所述谐波乘积谱的峰值和峰值分布与阈值对比，确定对比结果；

根据所述对比结果判定所述语音数据中的语音和噪声。

本发明的有益效果在于：因为语音的谐波乘积谱能量值很高，而噪声的谐波乘积谱能量要低得多，而能量值可以用时频掩蔽值进行表示，在谐波乘积谱上以峰值的形式表现出来，因此，确定语音数据中的噪音和语音，以能量值的峰值来比对和计算比较简单。

作为本发明的一种实施例，所述第一确定模块还包括：

所述阈值范围在0～1之间，语音趋近于1，噪音趋近于0。

本发明的有益效果在于：本发明克服了谐波乘积谱的缺点，通过时频掩蔽值可以防止频带能量不均衡，造成阈值划定困难，不同场景泛化能力不足的现象。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音检测的方法，其特征在于，包括：

所述时频掩蔽值包括时间序列表征和频带表征；

根据所述频带表征，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱；

2.根据权利要求1所述的一种语音检测的方法，其特征在于，所述获取语音数据，并导入训练好的深度学习模型，预测语音数据的时频掩蔽值，包括：

预设干净语音数据库和噪声数据库；

3.根据权利要求1所述的一种语音检测的方法，其特征在于，所述根据所述频带表征，对所述语音数据的掩蔽值进行降采样，确定谐波乘积谱，包括：

通过所述频带表征，将所述语音数据的进行分帧；

获取分帧后语音数据的掩蔽值；

当所述掩蔽值的序列为n时，所述谐波乘积谱如下式：

Y(k)＝X(k)*X₂(k)*……X_n(k)；

4.根据权利要求3所述的一种语音检测的方法，其特征在于，所述根据所述谐波乘积谱峰值和峰值分布，判断所述语音数据中的语音或噪音，包括：

获取所述谐波乘积谱峰值分布图；

确定所述谐波乘积谱峰值和峰值分布；

根据所述对比结果判定所述语音数据中的语音和噪声。

5.根据权利要求2所述的一种语音检测的方法，其特征在于，所述谐波乘积谱峰值和峰值分布，判断所述语音数据为语音或噪音，还包括：

所述阈值范围在0～1之间，语音趋近于1，噪音趋近于0。

6.一种语音检测的装置，其特征在于，包括：

所述时频掩蔽值包括时间序列表征和频带表征；

7.根据权利要求6所述的一种语音检测的装置，其特征在于，所述预测模块包括：

第一获取单元：用于预设干净语音数据库和噪声数据库；

8.根据权利要求6所述的一种语音检测的装置，其特征在于，所述处理模块包括：

第二处理单元：用于通过所述时频掩蔽值，将所述语音数据的进行分帧；

第三获取单元：用于获取分帧后语音数据的掩蔽值；

第一采集单元：用于对所述每一帧语音数据的掩蔽值进行降采样，得到降采样后的序列；

第一计算单元：用于根据所述每一帧语音数据的掩蔽值的降采样的序列，计算所述语音数据的谐波乘积谱；其中，

当当所述掩蔽值的序列为n时，所述谐波乘积谱如下式：

Y(k)＝X(k)*X₂(k)*……X_n(k)；

9.根据权利要求8所述的一种语音检测的装置，其特征在于，所述第一确定模块包括：

第四获取单元：用于获取所述谐波乘积谱峰值分布图；

确定所述谐波乘积谱峰值和峰值分布；

根据所述对比结果判定所述语音数据中的语音和噪声。

10.根据权利要求7所述的一种语音检测的装置，其特征在于，所述第一确定模块包括：

所述阈值范围在0～1之间，语音趋近于1，噪音趋近于0。