CN111986686B

CN111986686B - 短时语音信噪比估算方法、装置、设备及存储介质

Info

Publication number: CN111986686B
Application number: CN202010657049.XA
Authority: CN
Inventors: 叶志坚; 李稀敏; 肖龙源; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-01-03
Anticipated expiration: 2040-07-09
Also published as: CN111986686A

Abstract

本发明提供了一种短时语音信噪比估算方法、装置、设备及存储介质，方法包括对原语音进行线性预测编码处理，得到生成语音；将生成语音作为维纳滤波器参考源，得到语音样本；计算语音样本的信噪比，并对比前一次迭代得到信噪比差值，若信噪比差值的增量小于预设阈值时，得到最终信噪比；若信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤。上述一种短时语音信噪比估算方法，通过线性预测编码生成一段语音，作为维纳滤波器的参考源，维纳滤波器可以在有语音参考源的情况，快速和准确的生成语音样本，通过维纳滤波器估计成语音样本，在从带噪语音中减去语音样本得到噪声样本，实现快速计算出信噪比。

Description

短时语音信噪比估算方法、装置、设备及存储介质

技术领域

本发明涉及语音音频处理技术领域，特别涉及一种短时语音信噪比估算方法、装置、设备及存储介质。

背景技术

高质量的语音音频是语音识别和声纹识别的关键，但是在实际使用由于存在背景噪声很难获得很好质量的语音音频，所以估计语音的信噪比去除信噪比高的就成了前端处理一个重要的步骤。

现有的信噪比估算方式，通过Vad(Voice Activity Detection,信噪比估算方式VAD)估计，又称语音端点检测，语音边界检测，Vad算法通过提取语音中间段的静音段来做为噪声估计样本估计信噪比。

但是，Vad估计依赖于优秀的vad算法只有优秀，需要二次优化的问题，其他深度学习算法需要太多的神经元，浪费计算时间，无法做到实时降噪。

发明内容

本发明的目的是提供一种短时语音信噪比估算方法、装置、设备及存储介质，以解决现有的信噪比估算方式需要二次优化、浪费计算时间、无法做到实时降噪的问题，从而起到实时、快速计算出信噪比的有益效果。

本发明提供了一种短时语音信噪比估算方法，包括：对原语音进行线性预测编码处理，得到生成语音；将所述生成语音作为维纳滤波器参考源，得到语音样本；计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤。

进一步地，所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：识别所有的所述原语音的时长，并筛选出时长小于预设值的所述原语音。

进一步地，所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：对估算环境做静音处理。

进一步地，所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：识别并选取所有的所述原语音中为平稳噪声的语音数据作为原语音。

本发明还提供了一种短时语音信噪比估算装置，包括线性预测编码处理模块、维纳滤波器以及计算模块；线性预测编码处理模块用于对原语音进行线性预测编码处理，得到生成语音，维纳滤波器将所述生成语音作为参考源，以得到语音样本；计算模块用于计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤。

进一步地，所述装置还包括语音时长筛选模块，用于识别所有的所述原语音的时长，并筛选出时长小于预设值的所述原语音。

进一步地，所述装置还包括静音处理模块，用于对估算环境做静音处理。

进一步地，还包括原语音选取模块，用于识别并选取所有的所述原语音中为平稳噪声的语音数据作为原语音。

本发明还提供了一种短时语音信噪比估算设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上述任一所述的短时语音信噪比估算方法。

本发明还提供了一种存储介质，包括存储数据区和存储程序区，存储数据区存储根据区块链节点的使用所创建的数据，存储程序区存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的短时语音信噪比估算方法。

本发明提供的一种短时语音信噪比估算方法，通过线性预测编码生成一段语音，作为维纳滤波器的参考源，维纳滤波器可以在有语音参考源的情况，快速和准确的生成语音样本，通过维纳滤波器估计成语音样本，在从带噪语音中减去语音样本得到噪声样本，实现快速计算出信噪比。

附图说明

图1为本发明第一实施例中的短时语音信噪比估算方法的流程图；

图2为本发明第二实施例中的短时语音信噪比估算方法的流程图；

图3为本发明第三实施例中的短时语音信噪比估算装置的流程图；

图4为本发明第四实施例中的短时语音信噪比估算设备的机构示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干个实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，本发明第一实施例提供的一种短时语音信噪比估算方法，包括步骤S01至步骤S03。

步骤S01，对原语音进行线性预测编码处理，得到生成语音；具体的，线性预测编码器通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。剔除共振峰的过程称为逆滤波，经过这个过程剩余的信号称为残余信号。描述峰鸣强度与频率、共鸣峰、残余信号的数字可以保存、发送到其它地方。线性预测编码器通过逆向的过程合成语音信号：使用蜂鸣参数与残余信号生成源信号、使用共振峰生成表示声道的滤波器，源信号经过滤波器的处理就得到语音信号。

步骤S02，将所述生成语音作为维纳滤波器参考源，得到语音样本；维纳滤波器可以在有语音参考源的情况，快速和准确的生成语音样本，同时维纳滤波器具有适应面较广，无论平稳随机过程是连续的还是离散的，是标量的还是向量的，都可应用的优点。对某些问题，还可求出滤波器传递函数的显式解，并进而采用由简单的物理元件组成的网络构成维纳滤波器。

步骤S03，计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤。

上述一种短时语音信噪比估算方法，通过线性预测编码生成一段语音，作为维纳滤波器的参考源，维纳滤波器可以在有语音参考源的情况，快速和准确的生成语音样本，通过维纳滤波器估计成语音样本，在从带噪语音中减去语音样本得到噪声样本，实现快速计算出信噪比。

在本发明的其他实施例中，所述对原语音进行线性预测编码处理的步骤之前，所述方法还可以包括：识别所有的所述原语音的时长，并筛选出时长小于预设值的所述原语音。以筛选出时长小于预设值的所述原语音。其中，短时长的语音用本发明提供的一种用种短时语音信噪比估算方法进行估算，长时长的语音用其他现有的常规方法进行估算，可优选对长时长的语音处理效率较好的方法，提高了估算效率。

在本发明的其他实施例中，所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：对估算环境做静音处理。以便提高估算准确率，具体的，可以在静音房内进行短时语音信噪比估算。

请参阅图2，本发明第二实施例提供的一种短时语音信噪比估算方法的流程图，包括步骤S11至步骤S14。

步骤S11，识别并选取所有的所述原语音中为平稳噪声的语音数据作为原语音。可以理解的，维纳滤波器的优点是适应面较广，无论平稳随机过程是连续的还是离散的，是标量的还是向量的,都可应用，还可求出滤波器传递函数的显式解，并进而采用由简单的物理元件组成的网络构成维纳滤波器。维纳滤波器的缺点是，要求得到半无限时间区间内的全部观察数据的条件很难满足，同时它也不能用于噪声为非平稳的随机过程的情况，因此，为了保证估算的效果，可预先筛选出平稳噪声的短时语音，以满足维纳滤波器的工作条件。

步骤S12，对原语音进行线性预测编码处理，得到生成语音；具体的，线性预测编码器通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。剔除共振峰的过程称为逆滤波，经过这个过程剩余的信号称为残余信号。描述峰鸣强度与频率、共鸣峰、残余信号的数字可以保存、发送到其它地方。线性预测编码器通过逆向的过程合成语音信号：使用蜂鸣参数与残余信号生成源信号、使用共振峰生成表示声道的滤波器，源信号经过滤波器的处理就得到语音信号。

步骤S13，将所述生成语音作为维纳滤波器参考源，得到语音样本；维纳滤波器可以在有语音参考源的情况，快速和准确的生成语音样本，同时维纳滤波器具有适应面较广，无论平稳随机过程是连续的还是离散的，是标量的还是向量的，都可应用的优点。对某些问题，还可求出滤波器传递函数的显式解，并进而采用由简单的物理元件组成的网络构成维纳滤波器。

步骤S14，计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤。

上述一种短时语音信噪比估算方法，通过线性预测编码生成一段语音，作为维纳滤波器的参考源，维纳滤波器可以在有语音参考源的情况，快速和准确的生成语音样本，通过维纳滤波器估计成语音样本，在从带噪语音中减去语音样本得到噪声样本，实现快速计算出信噪比，同时预先筛选出平稳噪声的短时语音，以满足维纳滤波器的工作条件，保证了短时语音信噪比估算的准确性。

请参与图3，本发明第三实施例提供的一种短时语音信噪比估算装置，包括线性预测编码处理模块10、维纳滤波器20以及计算模块30；线性预测编码处理模块10用于对原语音进行线性预测编码处理，得到生成语音，维纳滤波器20将所述生成语音作为参考源，以得到语音样本；计算模块30用于计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤。

具体的，在本发明的其他实施例中，所述装置还可以包括语音时长筛选模块，用于识别所有的所述原语音的时长，并筛选出时长小于预设值的所述原语音。其中，短时长的语音用本发明提供的一种用种短时语音信噪比估算装置进行估算，长时长的语音用其他现有的常规装置进行估算，可优选对长时长的语音处理效率较好的装置，提高了估算效率。

具体的，在本发明的其他实施例中，所述装置还包括静音处理模块，用于对估算环境做静音处理。以便提高估算准确率，具体的，可以在静音房内进行短时语音信噪比估算。

具体的，在本实施例中，所述短时语音信噪比估算装置还包括原语音选取模块40，用于识别并选取所有的所述原语音中为平稳噪声的语音数据作为原语音。可以理解的，维纳滤波器的优点是适应面较广，无论平稳随机过程是连续的还是离散的，是标量的还是向量的，都可应用，还可求出滤波器传递函数的显式解，并进而采用由简单的物理元件组成的网络构成维纳滤波器。维纳滤波器的缺点是，要求得到半无限时间区间内的全部观察数据的条件很难满足，同时它也不能用于噪声为非平稳的随机过程的情况，因此，为了保证估算的效果，可预先筛选出平稳噪声的短时语音，以满足维纳滤波器的工作条件。

本发明还提供了一种存储介质，其上存储有程序，所述程序被处理器执行时实现如上述任一所述的方法。

在本发明的一个实施例中，还提供了一种短时语音信噪比估算设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的方法。如图4所示的本发明实施例提供的短时语音信噪比估算设备的结构示意图。参考图4，该短时语音信噪比估算设备90包括：射频(Radio Frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(WirelessFidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图4中示出的短时语音信噪比估算设备结构并不构成对短时语音信噪比估算设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。下面结合图4对本实施例的短时语音信噪比估算设备的各个构成部件进行具体的介绍：

RF电路910可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯装置(Global System ofMobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器920可用于存储用户软件以及模块，处理器980通过运行存储在存储器920的用户软件以及模块，从而执行短时语音信噪比估算设备的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与短时语音信噪比估算设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及短时语音信噪比估算设备的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图4中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

短时语音信噪比估算设备还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度。音频电路960、扬声器961，传声器962可提供用户与短时语音信噪比估算设备之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一短时语音信噪比估算设备，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，短时语音信噪比估算设备通过WiFi模块970可以为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块970，但是可以理解的是，其并不属于短时语音信噪比估算设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是短时语音信噪比估算设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的用户软件和/或模块，以及调用存储在存储器920内的数据，执行短时语音信噪比估算设备的各种功能和处理数据，从而对短时语音信噪比估算设备进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器，应用处理器主要处理操作装置、用户界面和应用程序等。处理器980可以集成调制解调处理器，调制解调处理器也可以不集成到处理器980中。

短时语音信噪比估算设备还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理装置与处理器980逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。尽管未示出，短时语音信噪比估算设备还可以包括摄像头、蓝牙模块等，在此不再赘述。

本发明实施例所提供的一种自动识别装置的识别方法、装置及存储介质的应用程序产品，包括存储了程序代码的存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个短时语音信噪比估算设备可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该短时语音信噪比估算设备应用程序存储在一个存储介质中，包括若干指令用以使得一台短时语音信噪比估算设备(可以是手机、平板电脑、车载电脑或者PDA等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种短时语音信噪比估算方法，其特征在于，包括：

对原语音进行线性预测编码处理，得到生成语音；

将所述生成语音作为维纳滤波器参考源，得到语音样本；

计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤；

所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：识别所有的所述原语音的时长，并筛选出时长小于预设值的所述原语音；

所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：识别并选取所有的所述原语音中为平稳噪声的语音数据作为原语音。

2.根据权利要求1所述的短时语音信噪比估算方法，其特征在于，所述对原语音进行线性预测编码处理的步骤之前，所述方法还包括：

对估算环境做静音处理。

3.一种短时语音信噪比估算装置，其特征在于，包括线性预测编码处理模块、维纳滤波器以及计算模块；

线性预测编码处理模块用于对原语音进行线性预测编码处理，得到生成语音；

维纳滤波器将所述生成语音作为参考源，以得到语音样本；

计算模块用于计算所述语音样本的信噪比，并对比前一次迭代得到信噪比差值，若所述信噪比差值的增量小于预设阈值时，得到最终信噪比；若所述信噪比差值的增量大于所述预设阈值时，遍历所述对原语音进行线性预测编码处理的步骤；

所述装置还包括语音时长筛选模块，用于识别所有的所述原语音的时长，并筛选出时长小于预设值的所述原语音；

还包括原语音选取模块，用于识别并选取所有的所述原语音中为平稳噪声的语音数据作为原语音。

4.根据权利要求3所述的短时语音信噪比估算装置，其特征在于，所述装置还包括静音处理模块，用于对估算环境做静音处理。

5.一种短时语音信噪比估算设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1或2任一所述的短时语音信噪比估算方法。

6.一种存储介质，包括存储数据区和存储程序区，存储数据区存储根据区块链节点的使用所创建的数据，存储程序区存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或2任意一项所述的短时语音信噪比估算方法。