CN111429890B

CN111429890B - 一种微弱语音增强方法、语音识别方法及计算机可读存储介质

Info

Publication number: CN111429890B
Application number: CN202010162482.6A
Authority: CN
Inventors: 张广学; 肖龙源; 蔡振华; 李稀敏; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-02-10
Anticipated expiration: 2040-03-10
Also published as: CN111429890A

Abstract

本发明涉及人计算机技术领域，提供了一种微弱语音增强方法，所述方法包含以下步骤：获取待处理语音中的非静音片段；将所述非静音片段转换为频域；对所述非静音片段的频域进行基频检测，得到可能是说话人的基频，作为计算基频；分别基于所述计算基频进行计算，得到与所述计算基频对应的各待确认谐波；检测各所述待确认谐波是否包含在所述非静音片段的频域中；若包含，则确认所述待确认谐波对应的所述计算基频为标准基频；若不包含，则确定所述待确认谐波对应的所述计算基频为非标准基频；基于不同的预设方法，分别对所述标准基频和所述非标准基频进行处理，以实现对所述标准基频对应的语音数据进行增强。

Description

一种微弱语音增强方法、语音识别方法及计算机可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种微弱语音增强方法、语音识别方法及计算机可读存储介质。

背景技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

应用需求的不断增加，对语音识别的准确性也提出了更高的要求，例如，在远场语音的识别应用中，如何对目的语音信号进行增强，以提升语音识别准确性，已成为行业重要研究课题。

发明内容

针对上述问题，本发明的实施例提供了一种微弱语音增强方法，所述方法包含以下步骤：获取待处理语音中的非静音片段；将所述非静音片段转换为频域；对所述非静音片段的频域进行基频检测，得到可能是说话人的基频，作为计算基频；分别基于所述计算基频进行计算，得到与所述计算基频对应的各待确认谐波；检测各所述待确认谐波是否包含在所述非静音片段的频域中；若包含，则确认所述待确认谐波对应的所述计算基频为标准基频；若不包含，则确定所述待确认谐波对应的所述计算基频为非标准基频；基于不同的预设方法，分别对所述标准基频和所述非标准基频进行处理，以实现对所述标准基频对应的语音数据进行增强。本实施例所提供的方法，通过对待处理语音中的标准基频进行自动识别，从而对非标准基频进行反向补偿，以及不属于标准基频对应的说话人的共振峰进行去除，从而实现抑制或消除干扰信号，进而实现对微弱语音的增强处理。

基于同样的发明构思，本发明实施例还提供了一种语音识别方法，所述方法具体包含步骤：基于上述的微弱语音增强方法对待识别语音进行去噪处理；基于语音识别模型对处理后的所述待识别语音进行识别。

以及，一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的微弱语音增强方法和/或上述语音识别方法。

在一实施中，所述获取待处理语音中的非静音片段具体包含：基于语音活动检测技术对所述待处理语音中的非静音片段进行识别。

在一实施中，所述将所述非静音片段转换为频域具体包含：依次对各所述非静音片段进行分帧、加窗、快速傅里叶变换，从而转换为频域。

在一实施中，对所述标准基频进行处理的所述预设方法包含：获取所述标准基频范围中出现的所有共振峰；确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准；基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人；去除不属于所述标准基频对应的说话人的所述共振峰。

在一实施中，所述去除不属于所述标准基频对应的说话人的所述共振峰具体包含：基于所述共振峰的位置范围，获取所述位置范围内的基频与谐波，对所述基频和所述谐波进行反向补偿。

在一实施中，对所述非标准基频进行处理的所述预设方法包含：对所述非标准基频及谐波进行反向补偿。

在一实施中，所述方法更进一步包含：若所述非静音片段中确定出多个标准基频，则基于所述待确认谐波的匹配度，确认出其中一个为所述标准基频。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明第一实施例所提供的微弱语音增强方法流程图；

图2绘示第一实施例中处理标准基频的方法流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

在本发明的第一实施例中，提出了一种微弱语音增强方法，实现对微弱语音数据中的目的语音进行准确识别，并有效增强。本实施例所提供的方法可通过在服务设备上执行相应的代码程序来实现，服务设备可包含业务服务器、机器人、手机、平板电脑等智能终端设备。

具体请参照图1，图1绘示本发明第一实施例所提供的微弱语音增强方法流程图。如图1所示，所述方法具体包含以下步骤：

步骤101，获取待处理语音中的非静音片段。

在实施中，待处理语音中可包含静音片段和非静音片段，而在对待处理语音进行微弱语音增强时，可仅针对非静音片段进行处理，具体而言，可基于语音活动检测技术(Voice Activity Detection,VAD)对待处理语音中的非静音片段进行识别和获取。可以理解的是，待处理语音中可能包含有多个非静音片段，如此一来，在本实施例中，可分别对各非静音片段进行微弱语音增强处理，在本发明的其他实施例中，也可将多个非静音片段拼接成一个整体，来进行微弱语音增强处理，具体可基于实际应用需求来进行选择。

步骤102，将所述非静音片段转换为频域。

在实施中，可依次对待处理语音中的各非静音片段进行分帧、加窗、快速傅里叶变换，将其转换为对应的频域，以便于后续的处理。

具体而言，分帧和加窗都是语音信号提取特征的预处理阶段，先分帧，后加窗，再做快速傅里叶变换。由于语音信号整体上不稳定，但局部上可以看作是稳定的，在后续的处理中，需要输入一个稳定的信号，那么就可对非静音片段对应的语音信号进行分帧处理，即将其分割成多个片段。一般而言，在10-30ms的时长范围内，可以认为信号是稳定的，相应的可以不少于20毫秒为帧，再以1/2的时间作为帧移位帧，帧移位是指相邻两帧之间的重叠区域，以避免相邻两帧的变化，从而实现对非静音片段的分帧；按上述方法分帧后，每一帧的开始和结束都会出现间断，分割的帧越多，与原始信号的误差就越大，通过加窗则可解决这个问题，使成帧后的信号变得连续，并且每一帧都会表现出周期函数的特性，在语音信号处理中，通常会增加汉明窗；通过对非静音片段的分帧和加窗后，再进行快速傅里叶变化，以得到非静音片段对应的频域。

步骤103，对所述非静音片段的频域进行基频检测，得到可能是说话人的基频，作为计算基频。

一般而言，非静音片段中可包含各种音频信号，例如，人说话的声音、及各种背景音。本实施例主要实现对人说话的语音信号进行处理，即对非静音片段中的人说话的语音信号进行微弱增强处理。

在实施中，可基于预先获取的人说话的基频范围，对非静音片段的频域中的基频与预先获取的人说话的基频范围进行匹配，从而得到归属于人说话的基频范围内的各基频，那么该些基频就有可能为真实的人说话的基频，并可将该些基频作为计算基频，通过后续步骤的处理，从计算基频中确认出标准基频。

步骤104，分别基于所述计算基频进行计算，得到与所述计算基频对应的各待确认谐波。

在实施中，由于谐波是声音中所含有的频率为基波的整数倍的各次分量，如此一来，可基于基频与谐波的整数倍关系，则可通过分别获取各计算基频的各整数倍来得到各计算基频对应的多个待确认谐波。

步骤105，检测各所述待确认谐波是否包含在所述非静音片段的频域中。若包含，则执行步骤106；若不包含，则进入步骤107。

在实施中，可基于同一基频对应的各待确认谐波，依次检测非静音片段的频域中是否包含各待确认谐波的一个。

步骤106，确认所述待确认谐波对应的所述计算基频为标准基频。

在实施中，标准基频为非静音片段的频域中，确定的人的说话基频，通过确定标准基频的方式从而可确认出非静音片段中需要进行微弱增强的频率。

步骤107，确定所述待确认谐波对应的所述计算基频为非标准基频。

在实施中，若计算基频对应的所有谐波都无法从非静音片段的频域中检测出来，则可确认该基频为非标准基频，即干扰信号。

步骤108，基于不同的预设方法，分别对所述标准基频和所述非标准基频进行处理，以实现对所述标准基频对应的语音数据进行增强。

在实施中，处理标准基频和非标准基频的预设方法各不相同。

由于非标准基频可能为干扰信号，故对非标准基频的处理方法可包含对非标准基频进行反向补偿，从而对干扰信号进行抑制。

更进一步的，除了标准基频以及其对应的谐波之外，其他未被检测到的谐波也可被识别为干扰信号，对未被匹配到的谐波进行反向补偿，可更进一步的对干扰信号进行抑制。

处于标准基频的预设方法可参考图2，图2绘示第一实施例中处理标准基频的方法流程图，所述方法包含如下步骤：

步骤201，获取所述标准基频范围中出现的所有共振峰。

共振峰是指在声音的频谱中能量相对集中的一些区域，虽然不是音质的决定因素，但是可以反映声道(共振腔)的物理特征。具体而言，共振峰的本义是指声腔的共鸣频率，元音和响辅音声谱包络曲线上的峰巅位置，在元音和响辅音的产生中，声源谱经过声腔的调制，原来谐波振幅不再随频率的升高而依次递减，而是有的加强，有的减弱，形成有起伏的新的包络曲线，曲线峰巅位置的频率值和声腔共鸣频率是一致的。

共振峰可以反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，本发明实施中将共振峰作为重要的特征参数。

在实施中，可基于线性预测编码(linear predictive coding，LPC)的方式，检测标准基频范围内的所包含的共振峰。

步骤202，确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准。

如上文所述，共振峰可反映声道谐振特性，就元音来说，头三个共振峰对其音色有质的规定性，可识别为同一个说话人，在本实施中，可确定标准基频范围中的前三个共振峰为标准基频对应的说话人的共振峰标准。

步骤203，基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人。

在实施中，当标准基频范围中的共振峰个数明显多于三个时，就需要判断是否有背景说话人。

具体而言，若标准基频范围内有明显的三个共振峰，则可直接判定没有背景说话人；若有明显的多于三个共振峰，则可判定可能有背景说话人，则需要基于共振峰标准判断其他共振峰，其中，可通过比较其他共振峰与共振峰标准的振幅范围是否匹配，来判断其他共振峰是否归属于标准基频对应的说话人。

步骤204，去除不属于所述标准基频对应的说话人的所述共振峰。

在实施中，去除不属于标准基频对应的说话人的共振峰具体包含：基于共振峰的位置范围，获取位置范围内的基频与谐波，对基频和谐波进行反向补偿。

值得注意的是，在本发明的实施例中，若非静音片段中确定出多个标准基频，则分别基于各标准基频执行上述步骤，其中在对共振峰进行反向补偿时，则需要确认其他共振峰是否归属于其他标准基频对应的说话人，再统一进行处理，避免因误处理；本发明的其他实施例中，也可基于待确认谐波的匹配度，确认出其中一个作为标准基频，例如，可选取匹配度最高的，具体可基于实际应用场景的需求进行调整。

综上所述，基于本发明实施例提供的微弱语音增强方法可自动对待处理语音中的非静音片段中包含的标准基频进行识别，并同时对非标准基频进行降噪处理，从而抑制干扰信号，更进一步的，可通过共振峰的确认，对不属于标准基频对应的说话人的共振峰进行去除，以进一步对干扰信号进行抑制，从而实现目标语音信号的增强。

基于同样的发明构思，本发明的第二实施例提供了一种语音识别方法，所述方法可包含在通过上述方法实施例对待识别语音进行微弱语音增强处理，之后，基于语音识别模型对去噪后的待识别语音进行识别。

通过预先对待识别语音进行微弱语音增强处理，可将待识别语音中影响识别准确率的干扰信号进行去除，进而凸显出有效信号，从而提高语音识别准确率。

基于同样的发明构思，本发明另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现第一实施例中的方法。

基于同样的发明构思，本发明另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现第二实施例中的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微弱语音增强方法，其特征在于，所述方法包含以下步骤：

获取待处理语音中的非静音片段；

将所述非静音片段转换为频域；

对所述非静音片段的频域进行基频检测，得到可能是说话人的基频，作为计算基频；

分别基于所述计算基频进行计算，得到与所述计算基频对应的各待确认谐波；

检测各所述待确认谐波是否包含在所述非静音片段的频域中；

若包含，则确认所述待确认谐波对应的所述计算基频为标准基频；

若不包含，则确定所述待确认谐波对应的所述计算基频为非标准基频；

基于不同的预设方法，分别对所述标准基频和所述非标准基频进行处理，以实现对所述标准基频对应的语音数据进行增强；

对所述标准基频进行处理的所述预设方法包含：

获取所述标准基频范围中出现的所有共振峰；

确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准；

基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人；

去除不属于所述标准基频对应的说话人的所述共振峰；

对所述非标准基频进行处理的所述预设方法包含：

对所述非标准基频及谐波进行反向补偿；

所述方法更进一步包含：

若所述非静音片段中确定出多个标准基频，则基于所述待确认谐波的匹配度，确认出其中一个为所述标准基频。

2.如权利要求1所述的方法，其特征在于，所述获取待处理语音中的非静音片段具体包含：基于语音活动检测技术对所述待处理语音中的非静音片段进行识别。

3.如权利要求1所述的方法，其特征在于，所述将所述非静音片段转换为频域具体包含：

依次对各所述非静音片段进行分帧、加窗、快速傅里叶变换，从而转换为频域。

4.如权利要求1所述的方法，其特征在于，所述去除不属于所述标准基频对应的说话人的所述共振峰具体包含：

基于所述共振峰的位置范围，获取所述位置范围内的基频与谐波，对所述基频和所述谐波进行反向补偿。

5.一种语音识别方法，其特征在于，所述方法具体包含步骤：

基于权利要求1至4中任一项所述的微弱语音增强方法对待识别语音进行增强处理；

基于语音识别模型对处理后的所述待识别语音进行识别。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的微弱语音增强方法。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求5所述的语音识别方法。