CN114067784A

CN114067784A - 基频提取模型的训练方法及装置、基频提取方法及装置

Info

Publication number: CN114067784A
Application number: CN202111407245.2A
Authority: CN
Inventors: 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-18

Abstract

本发明涉及一种基频提取模型的训练方法及装置、基频提取方法及装置，包括：基于预设的干净语音数据库，提取所述干净语音数据库中干净语音的基频信息作为训练目标数据；对所述干净语音进行加噪处理，得到加噪语音；提取所述加噪语音的特征；将所述加噪语音的特征作为待训练模型的输入数据，将所述训练目标数据作为所述待训练模型的输出数据，对所述待训练模型进行训练，得到基频提取模型。本发明实现了对待训练模型的输入数据的降维处理，并利用已知的输出数据进行训练，使得基频提取模型的训练效率有较大的提升。

Description

基频提取模型的训练方法及装置、基频提取方法及装置

技术领域

本发明涉及语音降噪技术领域，具体涉及一种基频提取模型的训练方法及装置、基频提取方法及装置。

背景技术

语音降噪中有个比较好的倒谱平滑技术，针对神经网络模型降噪存在的伪谱和语音谐波间残留有较好的后处理效果，但是其本身依赖于语音基音频率(以下称基频)较为准确的估计。

由于，基于传统信号的基频提取方法，如基于相关性、倒谱、累积差分(YIN算法)等方法，在噪声下均表现不佳，并且即使在安静场景下，由于语音的谐波特性，也很容易出现半频、倍频问题，往往需要动态规划DP算法后处理，去除野点，但倍频、半频依然是两个相互矛盾问题，难以同时完全克服；再者，基于传统信号的基频提取方法往往需要使用较长帧以获取足够周期性，这导致预测延迟较大，对于实时性要求较高场景也不太适用。相关技术提出了基于神经网络模型的基频提取方法，其有时域、频域方法，虽然效果较好，但其输入维度较大，建模困难，需要使用大模型才能对其建模，导致计算量陡增。

因此，如何提高基频提取模型的训练效率是本领域技术人员亟待解决的技术问题。

发明内容

本发明提供一种基频提取模型的训练方法及装置、基频提取方法及装置，以解决现有技术中基频提取模型的训练效率较低的技术问题。

本发明解决上述技术问题的技术方案如下：

一种基频提取模型的训练方法，包括：

基于预设的干净语音数据库，提取所述干净语音数据库中干净语音的基频信息作为训练目标数据；

对所述干净语音进行加噪处理，得到加噪语音；

提取所述加噪语音的特征；

将所述加噪语音的特征作为待训练模型的输入数据，将所述训练目标数据作为所述待训练模型的输出数据，对所述待训练模型进行训练，得到基频提取模型。

进一步地，上述所述的基频提取模型的训练方法中，提取所述加噪语音的特征，包括：

通过分帧、加窗、短时傅里叶变换计算所述加噪语音的幅度谱特征；

对所述加噪语音的幅度谱特征进行降采样，确定所述加噪语音的初始谐波乘积谱；

对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征。

进一步地，上述所述的基频提取模型的训练方法中，对所述加噪语音的幅度谱特征进行降采样，确定所述加噪语音的初始谐波乘积谱，包括：

将所述加噪语音进行分帧；

获取分帧后语音的幅度谱特征；

对所述分帧后语音的每一帧语音的幅度谱特征进行降采样，得到降采样后的序列；

根据所述每一帧语音的幅度谱特征的降采样后的序列，计算所述加噪语音的初始谐波乘积谱；

其中，所述初始谐波乘积谱如下式：

HPS1(K)＝S(K)×S(2K)×S(3K)×S(4K)×……S(nK)；

其中，所述HPS1(K)为所述初始谐波乘积谱；所述S(K)表示幅度谱特征；所述n表示谐波乘积谱阶数。

进一步地，上述所述的基频提取模型的训练方法中，对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征，包括：

基于预设的改进谐波乘积谱计算式，对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征；

所述改进谐波乘积谱计算式为：

HPS2＝exp(log(HPS1)-max(log(HPS1)))；

其中，HPS2所述改进谐波乘积谱；log(HPS1)表示初始谐波乘积谱对数，max(log(HPS1))表示初始谐波乘积谱对数的最大值。

本发明还提供了一种基频提取方法，包括：

提取待处理语音的特征；

将所述待处理语音的特征输入预先训练的基频提取模型进行基频提取，得到所述待处理语音的基频；

其中，所述预先训练的基频提取模型通过上述任一项所述的基频提取模型的训练方法得到。

本发明还提供了一种基频提取模型的训练装置，包括：

第一基频提取模块，用于基于预设的干净语音数据库，提取所述干净语音数据库中干净语音的基频信息作为训练目标数据；

加噪模块，用于对所述干净语音进行加噪处理，得到加噪语音；

第一特征提取模块，用于提取所述加噪语音的特征；

训练模块，用于将所述加噪语音的特征作为待训练模型的输入数据，将所述训练目标数据作为所述待训练模型的输出数据，对所述待训练模型进行训练，得到基频提取模型。

进一步地，上述所述的基频提取模型的训练装置中，所述第一特征提取模块，具体用于：

进一步地，上述所述的基频提取模型的训练装置中，所述第二提取模块，还用于将所述加噪语音进行分帧；

获取分帧后语音的幅度谱特征；

其中，所述初始谐波乘积谱如下式：

HPS1(K)＝S(K)×S(2K)×S(3K)×S(4K)×……S(nK)；

进一步地，上述所述的基频提取模型的训练装置中，所述第二提取模块，还用于：

所述改进谐波乘积谱计算式为：

HPS2＝exp(log(HPS1)-max(log(HPS1)))；

本发明还提供了一种基频提取装置，包括：

第二特征提取模块，用于提取待处理语音的特征；

第二基频提取模块，用于将所述待处理语音的特征输入预先训练的基频提取模型进行基频提取，得到所述待处理语音的基频；

本发明的有益效果是：

通过提取预设的干净语音数据库中干净语音的基频信息作为训练目标数据，并将训练目标数据作为待训练模型的输出数据，通过对干净语音进行加噪，得到加噪语音数据后，提取述加噪语音的特征作为待训练模型的输入数据，实现了对待训练模型的输入数据的降维处理，并利用已知的输出数据进行训练，使得基频提取模型的训练效率有较大的提升。

附图说明

图1为本发明的基频提取模型的训练方法实施例的流程图；

图2为本发明的基频提取方法实施例的流程图；

图3为本发明的基频提取模型的训练装置实施例的结构示意图；

图4为本发明的基频提取模型的训练装置实施例的结构示意图；

图5为本发明的电子设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明的基频提取模型的训练方法实施例的流程图，如图1所示，本实施例的基频提取模型的训练方法具体可以包括如下步骤：

100、基于预设的干净语音数据库，提取所述干净语音数据库中干净语音的基频信息作为训练目标数据；

在一个具体实现过程中，在安静场景下基于信号的基频检测工具通常具有较高准确率，因此，本实施例中可以利用相关技术中语音工具箱(领域中熟知的voicebox工具箱)的基频提取工具v_fxpefac，从干净语音数据库中干净语音中提取干净语音的基频信息作为训练目标数据使用。

在实际应用中，考虑人类语音的基频大多集中在80～400Hz，通常60维频域坐标即可覆盖人类语音的基频，所以通过该工具，每一条语音对应多帧，每一帧有一个基频，通过将基频四舍五入映射到60维频域坐标即可。

101、对所述干净语音进行加噪处理，得到加噪语音；

在一个具体实现过程中，可以通过加入噪音等方式，对所述干净语音进行加噪处理，得到加噪语音。

102、提取所述加噪语音的特征；

在一个具体实现过程中可以通过如下步骤提取所述加噪语音的特征：

(1)通过分帧、加窗、短时傅里叶变换计算所述加噪语音的幅度谱特征；

(2)对所述加噪语音的幅度谱特征进行降采样，确定所述加噪语音的初始谐波乘积谱；

具体地，通过所述频带表征，将所述加噪语音进行分帧；获取分帧后语音的幅度谱特征；对所述分帧后语音的每一帧语音的幅度谱特征进行降采样，得到降采样后的序列；根据所述每一帧语音的幅度谱特征的降采样后的序列，计算所述加噪语音的初始谐波乘积谱。

其中，所述初始谐波乘积谱如下式：

HPS1(K)＝S(K)×S(2K)×S(3K)×S(4K)×……S(nK)；

其中，所述HPS1(K)为所述初始谐波乘积谱；所述S(K)表示幅度谱特征；所述n表示谐波乘积谱阶数。本实施例中，n可以等于4。

(3)对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征。

在一个具体实现过程中，可以基于预设的改进谐波乘积谱计算式，对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征。

其中，所述改进谐波乘积谱计算式为：

HPS2＝exp(log(HPS1)-max(log(HPS1)))；

在一个具体实现过程中，由于语音能量有大有小，通过改进谐波乘积谱计算式得到的改进谐波乘积谱与绝对能量无关，但谐波特性依然保持，也易于训练。

103、将所述加噪语音的特征作为待训练模型的输入数据，将所述训练目标数据作为所述待训练模型的输出数据，对所述待训练模型进行训练，得到基频提取模型。

在一个具体实现过程中，可以针对相关技术的RNN-Noise模型进行改进，将所述加噪语音的特征作为待训练模型的输入数据，将所述训练目标数据作为所述待训练模型的输出数据，对所述待训练模型进行训练，得到基频提取模型。

需要说明的是，还可以将RNN-Noise模型对应的语音活动检测输出内容修改为浊辅音，以进一步保证能提取到语音信号的基频，而将噪音信号的基频过滤。

在一个具体实现过程中，相关技术中基于神经网络模型的基频提取方法的时域、频域输入都是一帧完整的信号，而通过HPS2的求解，基频信息会被凸显出来，更容易学习，且可以只选择基频分布区间的特征，所以输入数据量远小于相关技术中基于神经网络模型的基频提取方法的时域、频域输入，也就是说，本申请的利用维度较低的输入数据和已知的输出数据进行训练，使得基频提取模型的训练效率有较大的提升。

本实施例的基频提取模型的训练方法，通过提取预设的干净语音数据库中干净语音的基频信息作为训练目标数据，并将训练目标数据作为待训练模型的输出数据，通过对干净语音进行加噪，得到加噪语音数据后，提取述加噪语音的特征作为待训练模型的输入数据，实现了对待训练模型的输入数据的降维处理，并利用已知的输出数据进行训练，使得基频提取模型的训练效率有较大的提升。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的基频提取方法实施例的流程图，如图2所示，本实施例的基频提取方法具体可以包括如下步骤：

200、提取待处理语音的特征；

201、将所述待处理语音的特征输入预先训练的基频提取模型进行基频提取，得到所述待处理语音的基频。

在一个具体实现过程中，所述预先训练的基频提取模型通过上述实施例的基频提取模型的训练方法得到。

图3为本发明的基频提取模型的训练装置实施例的结构示意图，如图3所示，本实施例的基频提取模型的训练装置可以包括第一基频提取模块30、加噪模块31、第一特征提取模块32和训练模块33。

第一基频提取模块30，用于基于预设的干净语音数据库，提取所述干净语音数据库中干净语音的基频信息作为训练目标数据；

加噪模块31，用于对所述干净语音进行加噪处理，得到加噪语音；

第一特征提取模块32，用于提取所述加噪语音的特征；

具体地，第一特征提取模块32，可以通过如下步骤实现提取所述加噪语音的特征：

其中，所述初始谐波乘积谱如下式：

HPS1(K)＝S(K)×S(2K)×S(3K)×S(4K)×……S(nK)；

具体地，可以基于预设的改进谐波乘积谱计算式，对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征；

其中，所述改进谐波乘积谱计算式为：

HPS2＝exp(log(HPS1)-max(log(HPS1)))；

训练模块33，用于将所述加噪语音的特征作为待训练模型的输入数据，将所述训练目标数据作为所述待训练模型的输出数据，对所述待训练模型进行训练，得到基频提取模型。

图4为本发明的基频提取模型的训练装置实施例的结构示意图，如图4所示，本实施例的基频提取模型的训练装置可以包括第二特征提取模块40和第二基频提取模块41。

第二特征提取模块40，用于提取待处理语音的特征；

第二基频提取模块41，用于将所述待处理语音的特征输入预先训练的基频提取模型进行基频提取，得到所述待处理语音的基频；

其中，所述预先训练的基频提取模型通过上述实施例的基频提取模型的训练方法得到。

上述实施例的装置用于实现前述实施例中相应的方法，其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明，并且具有相应的方法实施例的有益效果，在此不再赘述。

图5为本发明的电子设备的结构示意图，如图5所示，本实施例的电子设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的基频提取模型的训练方法和基频提取方法的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的基频提取模型的训练方法和基频提取方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基频提取模型的训练方法，其特征在于，包括：

对所述干净语音进行加噪处理，得到加噪语音；

提取所述加噪语音的特征；

2.根据权利要求1所述的基频提取模型的训练方法，其特征在于，提取所述加噪语音的特征，包括：

3.根据权利要求2所述的基频提取模型的训练方法，其特征在于，对所述加噪语音的幅度谱特征进行降采样，确定所述加噪语音的初始谐波乘积谱，包括：

将所述加噪语音进行分帧；

获取分帧后语音的幅度谱特征；

其中，所述初始谐波乘积谱如下式：

HPS1(K)＝S(K)×S(2K)×S(3K)×S(4K)×……S(nK)；

4.根据权利要求3所述的基频提取模型的训练方法，其特征在于，对所述初始谐波乘积谱进行改进得到改进谐波乘积谱作为所述加噪语音的特征，包括：

所述改进谐波乘积谱计算式为：

HPS2＝exp(log(HPS1)-max(log(HPS1)))；

5.一种基频提取方法，其特征在于，包括：

提取待处理语音的特征；

其中，所述预先训练的基频提取模型通过权利要求1-4任一项所述的基频提取模型的训练方法得到。

6.一种基频提取模型的训练装置，其特征在于，包括：

第一特征提取模块，用于提取所述加噪语音的特征；

7.根据权利要求6所述的基频提取模型的训练装置，其特征在于，所述第一特征提取模块，具体用于：

8.根据权利要求7所述的基频提取模型的训练装置，其特征在于，所述第二提取模块，还用于将所述加噪语音进行分帧；

获取分帧后语音的幅度谱特征；

其中，所述初始谐波乘积谱如下式：

HPS1(K)＝S(K)×S(2K)×S(3K)×S(4K)×……S(nK)；

9.根据权利要求8所述的基频提取模型的训练装置，其特征在于，所述第二提取模块，还用于：

所述改进谐波乘积谱计算式为：

HPS2＝exp(log(HPS1)-max(log(HPS1)))；

10.一种基频提取装置，其特征在于，包括：

第二特征提取模块，用于提取待处理语音的特征；