CN111833897B

CN111833897B - 一种用于交互式教育的语音增强方法

Info

Publication number: CN111833897B
Application number: CN202010909658.XA
Authority: CN
Inventors: 杨峰; 韩忠国; 彭岸青; 秦建明
Original assignee: Hefei Decibel Workshop Technology Co ltd
Current assignee: Hefei Decibel Workshop Technology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2023-08-22
Anticipated expiration: 2040-09-02
Also published as: CN111833897A

Abstract

本发明属于语音处理技术领域，具体涉及一种用于交互式教育的语音增强方法，包括：获取用户语音数据，并提取语音数据的特征值，建立用户交互式语音应答菜单树以及语音增强模型，接受用户的交互申请请求，根据请求数据识别用户身份，继续获取用户语音信息得到语音增强处理后的语音特征，解析并定位至知识点中的标准问，并反馈标准答案。本发明除了基于待处理语音数据的语音特征外，还提取了能够表征说话人的语音特性的身份特征，从而能够基于说话人语音特性进行语音增强，有效提高语音增强效果，相比传统单声道语音增强方法，该方法无论在语音质量还是语音可懂度上，都取得很大的提升，对非平稳噪声也能较好的抑制。

Description

一种用于交互式教育的语音增强方法

技术领域

本发明属于语音处理技术领域，具体涉及一种用于交互式教育的语音增强方法。

背景技术

语音增强(SpeechEnhancement)是指去除语音信号中的噪声，得到干净的语音信号。实际生活场景中，麦克风采集的语音信号通常是带有不同噪声以及混响的语音信号，其中混响主要是由于房间中的墙壁及各种物体的反射带来的干扰信号，不同的房间类型以及材料决定了混响的程度和房间混响的单位冲激响应。语音增强的主要目的就是将包含噪声的语音恢复成原始的干净语音。通过语音增强可以有效抑制各种干扰信号，增强目标语音信号，不仅可以提高语音可懂度和话音质量，还有助于提高语音识别的准确性。

按照进行语音增强所使用的方法来分，可以分为无监督语音增强方法和有监督语音增强方法，前者也称为传统语音增强方法。传统语音增强方法历史悠久，且具有很深的技术奠基，所需计算量也较小，是目前工业界进行降噪的主要思路。然而由于传统单声道语音增强方法进行了一些不合理的假设，而且难以处理突发性非平稳噪声，限制了性能的上限。有监督语音增强方法是近些年提出的，它借鉴机器学习的思路，通过有监督的训练实现语音增强。其中基于深度学习的语音增强方法使用神经网络来学习带噪语音和干净语音之间复杂的非线性关系，对突发性噪声能较好的处理，取得比传统语音增强方法更优的性能。在基于深度学习的语音增强方法中，难点是提升低信噪比、不可见噪声下语音质量和可懂度，设计满足实时应用需求的增强方案。

发明内容

针对现有技术中的问题，本发明的目的是设计一个新的技术方案，提供一种用于交互式教育的语音增强方法，用以解决上述问题。

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

为了达到上述目的，本发明是通过以下技术方案来实现的：

一种用于交互式教育的语音增强方法，包括以下步骤：

预先获取用户语音数据和身份信息，从所述语音数据中提取用户的语音特征，并设定用户身份账户信息，所述语音特征的提取包括：

对语音数据进行预处理，得到每个数据帧；

将所述每个数据帧由时域转换至频域；

利用预设尺度的三角形滤波器，对转换至频域的每个数据帧进行滤波；

对滤波后的每个数据帧进行离散余弦变换，得到所述语音数据的特征值；

建立用户交互式语音应答菜单树以及语音增强模型，所述语音增强模型通过以下方式得到：

在训练阶段，对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征，通过监督算法并采用最小均方误差准则训练DNN模型，所述最小均方误差准则为：

其中和/>是经过函数g变换之后的估计和干净语音的特征，维数都是D维，/>也是经过函数g变换之后的带噪语音特征，W和b分别表示网络的权重矩阵和偏置向量，W和b采用BP算法来学习，采用minibatch更新网络的梯度，N即为minibatch的大小，λ为用来防止过拟合的规整因子；

将训练结束时的神经网络模型作为语音增强模型；

接受用户的交互申请请求，根据请求数据识别用户身份：

若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程，其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序，所述应答菜单树的每一层均包括多个菜单，每一个所述菜单均映射一个业务节点；所述业务节点中包含知识点的集合，每个知识点包括标准问及对应的标准答案；

否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤；

继续获取用户语音信息，将带噪语音进行特征提取，将提取后的语音特征和用户身份特征，进行拼接，将拼接后的组合特征输入语音增强模型，得到语音增强处理后的语音特征；

对增强处理后的语音特征进行语义解析并定位至知识点中的标准问，并反馈标准答案。

优选地，所述交互式语音应答控制流程，通过所述用户的多个历史交互中的用户触发的菜单业务的顺序构建得到。

优选地，所述知识点中还包括抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

根据所述抽象语义数据库对所述标准问进行抽象语义推荐处理，当获得与所述标准问对应的一个或多个抽象语义表达式时，从所述标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述标准问对应的一个或多个具体语义表达式，所述具体语义表达式作为所述标准问的扩展问。

优选地，所述抽象语义推荐处理包括：

对所述标准问进行分词处理，得到若干单词，所述单词为语义规则词或非语义规则词；

分别对每个非语义规则词进行词性标注处理，得到每个非语义规则词的词性信息；

分别对每个语义规则词进行词类判断处理，得到每个语义规则词的词类信息；

根据所述词性信息和词类信息对抽象语义数据库进行搜索处理，得到与所述标准问匹配的抽象语义表达式。

优选地，所述抽象语义表达式还包括语义规则词，与所述标准问匹配的抽象语义表达式满足以下条件：

抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性；

抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类；

抽象语义表达式的顺序与标准问的表达顺序相同。

优选地，所述对所述语音数据进行预处理，得到每个数据帧的步骤，包括：

对所述语音数据进行预加重处理，得到加重后数据；

对所述加重后数据进行分帧处理，得到分帧数据；

利用预设窗函数对所述分帧数据进行加窗处理，得到每个数据帧。

优选地，所述语音增强处理具体包括：将带噪语音信号首先通过同样的变换函数g得到变换特征，输入到己经训练好的DNN模型生成增强的特征，利用带噪语音信号中的相位信息通过反向离散傅里叶变化得到増强语音的时域波形，并通过重叠相加算法合成得到整个句子的语音波形。

优选地，所述变换函数g为对数变换或线性变换中的一种。

本发明还提供一种用于交互式教育的语音增强方法，包括：

获取建模模块，用于预先获取用户语音数据和身份信息，从所述语音数据中提取用户的语音特征，并设定用户身份账户信息，所述语音特征的提取包括：

对语音数据进行预处理，得到每个数据帧；

将所述每个数据帧由时域转换至频域；

将训练结束时的神经网络模型作为语音增强模型；

交互模块，用于接受用户的交互申请请求，根据请求数据识别用户身份：

重构反馈模块，用于继续获取用户语音信息，将带噪语音进行特征提取，将提取后的语音特征和用户身份特征，进行拼接，将拼接后的组合特征输入语音增强模型，得到语音增强处理后的语音特征；

本发明还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。。

本发明具有如下的有益效果：

本发明在进行语音增强处理时，除了基于待处理语音数据的语音特征外，还提取了能够表征说话人的语音特性的身份特征，从而能够基于说话人语音特性进行语音增强，有效提高语音增强效果。此外，从噪声语音样本中提取训练语音特征，从无噪声语音样本提取训练参考语音特征和用于识别说话人声学身份的训练身份特征，进而获得拼接训练语音特征与训练身份特征而成的训练拼接特征，利用深层神经网络模型进行语音增强，该深层神经网络模型基于大通过监督算法并采用最小均方误差准则训练DNN模型训练得到，携带有丰富的语音信息，即使场景中出现异常噪声，语音增强效果不受影响，相比于现有方案，提高了语音增强效果；

此外本发明充分利用了知识库中的知识点，获得了与用户问题相关的语料，大大提高了语料对于语言模型训练的针对性，使得以极少的训练成本获得了较高准确度的语言模型

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本实施例2中用于交互式教育的语音增强系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在说明书及权利要求书当中使用了某些名称来指称特定组件。应当理解，本领域普通技术人员可能会用不同名称来指称同一个组件。本申请说明书及权利要求书并不以名称的差异作为区分组件的方式，而是以组件在功能上的实质性差异作为区分组件的准则。如在本申请说明书和权利要求书中所使用的“包含”或“包括”为一开放式用语，其应解释为“包含但不限定于”或“包括但不限定于”。具体实施方式部分所描述的实施例为本发明的较佳实施例，并非用以限定本发明的范围。

此外，所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为软硬件结合的形式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个微控制器可读介质中的计算机程序产品的形式，该微控制器可读介质中包含微控制器可读的程序代码。

对于交互式语音应答系统，用户以语音输入的形式提出问题。为了回答用户的问题，交互式语音应答系统的后台处理主要包括两个部分：语音识别部分和语义识别部分。语音识别部分的作用是对用户的语音输入进行语音识别，以获得文字形式的用户问题。语义识别部分是基于该文字形式的用户问题从知识库中寻找对应的答案。语音识别技术主要由语言模型训练阶段和使用语言模型的识别阶段构成。

实施例

本实施例提供一种用于交互式教育的语音增强方法，包括以下步骤：

对语音数据进行预处理，得到每个数据帧；

将所述每个数据帧由时域转换至频域；

将训练结束时的神经网络模型作为语音增强模型；

接受用户的交互申请请求，根据请求数据识别用户身份：

本实施例中的交互式语音应答控制流程，通过所述用户的多个历史交互中的用户触发的菜单业务的顺序构建得到。

本实施例中的知识点中还包括抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

本实施例中的抽象语义推荐处理包括：

本实施例中的抽象语义表达式还包括语义规则词，与所述标准问匹配的抽象语义表达式满足以下条件：

抽象语义表达式的顺序与标准问的表达顺序相同。

本实施例中对语音数据进行预处理，得到每个数据帧的步骤，包括：

对所述语音数据进行预加重处理，得到加重后数据；

对所述加重后数据进行分帧处理，得到分帧数据；

本实施例中的语音增强处理具体包括：将带噪语音信号首先通过同样的变换函数g得到变换特征，输入到己经训练好的DNN模型生成增强的特征，利用带噪语音信号中的相位信息通过反向离散傅里叶变化得到増强语音的时域波形，并通过重叠相加算法合成得到整个句子的语音波形。

本实施中的变换函数g为对数变换或线性变换中的一种。

实施例2

如图1所示，本实施例提供一种用于交互式教育的语音增强系统，包括：

对语音数据进行预处理，得到每个数据帧；

将所述每个数据帧由时域转换至频域；

将训练结束时的神经网络模型作为语音增强模型；

实施例3

本实施例提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现实施例1中的方法步骤。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于交互式教育的语音增强方法，其特征在于：包括以下步骤：

对语音数据进行预处理，得到每个数据帧；

将所述每个数据帧由时域转换至频域；

其中和/>是经过函数g变换之后的估计和干净语音的特征，维数都是D维，Y_n ^g也是经过函数g变换之后的带噪语音特征，W和b分别表示网络的权重矩阵和偏置向量，W和b采用BP算法来学习，采用minibatch更新网络的梯度，N即为minibatch的大小，λ为用来防止过拟合的规整因子；

将训练结束时的神经网络模型作为语音增强模型；

接受用户的交互申请请求，根据请求数据识别用户身份：

2.根据权利要求1所述的一种用于交互式教育的语音增强方法，其特征在于：所述交互式语音应答控制流程，通过所述用户的多个历史交互中的用户触发的菜单业务的顺序构建得到。

3.根据权利要求1所述的一种用于交互式教育的语音增强方法，其特征在于：所述知识点中还包括抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

4.根据权利要求3所述的一种用于交互式教育的语音增强方法，其特征在于，所述抽象语义推荐处理包括：

5.根据权利要求4所述的一种用于交互式教育的语音增强方法，其特征在于，所述抽象语义表达式还包括语义规则词，与所述标准问匹配的抽象语义表达式满足以下条件：

抽象语义表达式的顺序与标准问的表达顺序相同。

6.根据权利要求1所述的一种用于交互式教育的语音增强方法，其特征在于：对所述语音数据进行预处理，得到每个数据帧的步骤，包括：

对所述语音数据进行预加重处理，得到加重后数据；

对所述加重后数据进行分帧处理，得到分帧数据；

7.根据权利要求1所述的一种用于交互式教育的语音增强方法，其特征在于：所述语音增强处理具体包括：将带噪语音信号首先通过同样的变换函数g得到变换特征，输入到己经训练好的DNN模型生成增强的特征，利用带噪语音信号中的相位信息通过反向离散傅里叶变化得到増强语音的时域波形，并通过重叠相加算法合成得到整个句子的语音波形。

8.根据权利要求7所述的一种用于交互式教育的语音增强方法，其特征在于：所述变换函数g为对数变换或线性变换中的一种。

9.一种用于交互式教育的语音增强系统，其特征在于，包括：

对语音数据进行预处理，得到每个数据帧；

将所述每个数据帧由时域转换至频域；

将训练结束时的神经网络模型作为语音增强模型；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。