CN117316157A

CN117316157A - 语音信号的处理方法、装置、设备及存储介质

Info

Publication number: CN117316157A
Application number: CN202311406737.9A
Authority: CN
Inventors: 史欣宇; 贾巨涛; 唐杰; 黄鑫; 吴伟
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2023-12-29

Abstract

本申请提供的一种语音信号的处理方法、装置、设备及存储介质，通过获取语音信号；对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度；基于所述相位和幅度确定各个语音输出对象对应的语音子信号；将各个语音输出对象对应的语音子信号输入至门控网络确定各个语音输出对象对应的语音子信号的选择概率；基于所述选择概率确定各个语音输出对象对应的目标语音子信号；基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果，能够提高在复杂环境下识别语音的准确率。

Description

语音信号的处理方法、装置、设备及存储介质

技术领域

本申请涉及语音信号处理技术领域，特别地涉及一种语音信号的处理方法、装置、设备及存储介质。

背景技术

如今语音识别技术在越来越多的领域被广泛应用，传统的语音识别技术在多声源、多噪声、以及不同环境下的识别效率较低，且识别精度较低，由于传统的语音识别技术存在识别效率低，识别精度低，使得在许多需要高精确识别单个或某个声源时有较大的局限性。

发明内容

针对上述问题，本申请提供一种语音信号的处理方法、装置、设备及存储介质，能够提高在复杂情况下的语音识别的准确率。

本申请实施例提供一种语音信号的处理方法，包括：

获取语音信号；

对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度；

基于所述相位和幅度确定各个语音输出对象对应的语音子信号；

将各个语音输出对象对应的语音子信号输入至门控网络确定各个语音输出对象对应的语音子信号的选择概率；

基于所述选择概率确定各个语音输出对象对应的目标语音子信号；

基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果。

在一些实施例中，所述对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度，包括：

使用短时傅里叶变换将所述语音信号转换为频域或时频域内的相位和幅度。

在一些实施例中，所述使用短时傅里叶变换将所述语音信号转换为频域或时频域内的相位和幅度，包括：

对所述语音信号进行分帧处理，得到二维数组，其中，所述二维数组中每一行代表一帧；

使用短时傅里叶变换函数将所述二维数组进行变换，得到短时傅里叶系数；

基于所述短时傅里叶系数获取语音信号在频域或时域的相位和幅度。

在一些实施例中，所述基于所述相位和幅度确定各个语音输出对象对应的语音子信号，包括：

将所述相位和幅度输入至预先建立的神经网络模型中确定输出掩码和源信号；

基于所述掩码和源信号使用谱聚类算法对所述相位和幅度进行相似度计算，得到相似度矩阵；

对所述相似度矩阵进行拉普拉斯变换，得到拉普拉斯矩阵；

基于所述拉普拉斯矩阵确定各个语音子信号的特征向量；

基于所述语音子信号的特征向量采用聚类算法对语言子信号进行分类，得到各个语音输出对象对应的语音子信号。

在一些实施例中，所述基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果，包括：

将各个语音输出对象对应的目标语音子信号输入至预先建立的声学特征向量模型中，确定各个语音输出对象对应的语音识别结果。

在一些实施例中，所述声学特征向量模型包括：连接层和转录层，所述连接层用于将各个语音输出对象对应的目标语音子信号进行拼接，得到各个语音输出对象对应的语音信号的声学特征向量，所述转录层用于将各个语音输出对象对应的语音信号的声学特征向量转换为文本序列，并输出各个语音输出对象对应的语音信号的识别结果。

本申请实施例提供一种语音信号的处理装置，包括：

获取模块，用于获取语音信号；

预处理模块，用于对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度；

分类模块，用于基于所述相位和幅度确定各个语音输出对象对应的语音子信号；

门控网络模块，用于将各个语音输出对象对应的语音子信号输入至门控网络确定各个语音输出对象对应的语音子信号的选择概率；

确定模块，用于基于所述选择概率确定各个语音输出对象对应的目标语音子信号；

识别模块，用于基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果。

本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如上述任意一项所述语音信号的处理方法。

本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储的计算机程序，能够被一个或多个处理器执行，能够用来实现上述所述语音信号的处理方法。

附图说明

在下文中将基于实施例并参考附图来对本申请进行更详细的描述。

图1为本申请实施例提供的一种语音信号的处理方法的实现流程示意图；

图2为本申请实施例提供的一种语音信号的处理方法的实现流程示意图；

图3为本申请实施例提供的电子设备的组成结构示意图。

在附图中，相同的部件使用相同的附图表记，附图并未按照实际的比例绘制。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一\第二\第三”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

基于相关技术中存在的问题，本申请实施例提供一种语音信号的处理方法，所述方法的执行主体可以是电子设备，所述电子设备可以是终端设备等，所述终端设备可以是计算机、移动终端、服务器、智能穿戴设备等。在一些实施例中，所述电子设备可以是终端设备的控制器。

本申请实施例提供的语音信号的处理方法所实现的功能可以通过电子设备的处理器调用程序代码来实现，其中，程序代码可以保存在计算机存储介质中。

本申请实施例提供一种语音信号的处理方法，图1为本申请实施例提供的一种语音信号的处理方法的实现流程示意图，如图1所示，包括：

步骤S101，获取语音信号。

本申请实施例中，电子设备可以和采集设备通信连接，通过采集设备来获取语音信号。所述采集设备可以包括：语音采集设备。采集设备可以采用接口与电子设备连接，从而通过接口将语音信号输入至电子设备，从而使得电子设备获取语音信号。

本申请实施例中，所述语音信号可以包括多个语音输出对象说的话，所述语音信号可以包括多声源的语音信号，或者多噪音干扰的复杂情况下的语音信号。

步骤S102，对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度。

本申请实施例中，所述预处理可以包括：短时傅里叶变换。可以使用短时傅里叶变换将所述语音信号转换为频域或时频域内的相位和幅度。相位和幅度可以用向量来进行表示。即相位和幅度为语音信号的声学特征向量。

步骤S1021，对所述语音信号进行分帧处理，得到二维数组，其中，所述二维数组中每一行代表一帧。

本申请实施例中，语音信号可以以语音信号数组来进行表示。然后可以对语音信号进行分帧处理从而得到一个二维数组。

步骤S1022，使用短时傅里叶变换函数将所述二维数组进行变换，得到短时傅里叶系数。

步骤S1023，基于所述短时傅里叶系数获取语音信号在频域或时域的相位和幅度。

本申请实施例中，可以根据所述短时傅里叶系数取语音信号的相位和幅度。

步骤S103，基于所述相位和幅度确定各个语音输出对象对应的语音子信号。

本申请实施例中，语音输出对象可以为多个，语音输出对象可以为说话人。

本申请实施例中，各个语音输出对象对应的语音子信号表示某个语音子信号属于某个人或某个类。

在一些实施例中，步骤S103可以通过以下步骤实现：

步骤S1031，将所述相位和幅度输入至预先建立的神经网络模型中确定输出掩码和源信号。

本申请实施例中，可以通过样本数据来建立神经网络模型，所述神经网络模型可以包括：卷积神经网络模型。

本申请实施例中，可以获取样本数据集，所述样本数据集包括：相位、幅度与其对应的掩码和源信号。可以以相位和幅度为神经网络模型的输入，各掩码和源信号为神经网络模型的输出来进行神经网络模型的训练，在训练完成后，可以通过验证集来对神经网络模型进行验证，在验证通过后，将神经网络模型进行存储，从而在获取到相位和幅度后确定输出掩码和源信号。

本申请实施例中，输出掩码用实质矩阵表示，表示每个频点属于某个语音输出对象。

步骤S1032，基于所述掩码和源信号使用谱聚类算法对所述相位和幅度进行相似度计算，得到相似度矩阵。

步骤S1033，对所述相似度矩阵进行拉普拉斯变换，得到拉普拉斯矩阵。

步骤S1034，基于所述拉普拉斯矩阵确定各个语音子信号的特征向量。

本申请实施例中，可以对拉普拉斯矩阵进行解析，从而确定各个语音子信号的特征向量，在一些实施例中，对拉普拉斯矩阵进行解析后还可以确定特征值。

本申请实施例中，特征向量用于表示不同的语音子信号。

步骤S1035，基于所述语音子信号的特征向量采用聚类算法对语言子信号进行分类，得到各个语音输出对象对应的语音子信号。

本申请实施例中，可以将语音子信号的特征向量输入至聚类算法模型中，从而实现对语音子信号进行分类。

步骤S104，将各个语音输出对象对应的语音子信号输入至门控网络确定各个语音输出对象对应的语音子信号的选择概率。

本申请实施例中，门控网络可以由门控网络和声学模型组成，门控网络是一个多层感知器。

本申请实施例中，可以将各个语音输出对象对应的语音子信号输出到门控网络中，从而确定各个语音输出对象对应的语音子信号的选择概率。选择概率用于表示每个语音子信号被选中的概率。

步骤S105，基于所述选择概率确定各个语音输出对象对应的目标语音子信号。

本申请实施例中，可以设置选择概率阈值，选择概率阈值可以根据实际情况进行配置。

本申请实施例中，可以比较选择概率和选择概率阈值之间的大小关系，如果大于选择概率阈值，则将对应的字信号确定为目标子信号，如果选择概率小于选择概率阈值，则该选择概率对应的语音子信号则不进行选择。

步骤S106，基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果。

本申请实施例中，可以将各个语音输出对象对应的目标语音子信号输入至预先建立的声学特征向量模型中，确定各个语音输出对象对应的语音识别结果。

本申请实施例中，所述各个语音输出对象对应的语音识别结果可以用文本的形式来进行输出。每个语音识别结果可以对应语音输出对象的ID。

本申请实施例中，所述声学特征向量模型包括：连接层和转录层，所述连接层用于将各个语音输出对象对应的目标语音子信号进行拼接，得到各个语音输出对象对应的语音信号的声学特征向量，所述转录层用于将各个语音输出对象对应的语音信号的声学特征向量转换为文本序列，并输出各个语音输出对象对应的语音信号的识别结果。

本申请实施例中，可以通过样本数据来建立声学特征向量模型，所述神经网络模型可以包括：卷积神经网络模型。

本申请实施例中，可以获取样本数据集，所述样本数据集包括：各个语音输出对象对应的样本语音子信号与其对应的语音输出对象的语音识别结果。可以以各个语音输出对象对应的样本语音子信号为神经网络模型的输入，对应的语音输出对象的语音识别结果为神经网络模型的输出来进行声学特征向量模型的训练，在训练完成后，可以通过验证集来对声学特征向量模型进行验证，在验证通过后，将声学特征向量模型进行存储，从而在获取到各个语音输出对象对应的目标语音子信号后确定确定各个语音输出对象的语音识别结果。

本申请提供的一种语音信号的处理方法，通过获取语音信号；对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度；基于所述相位和幅度确定各个语音输出对象对应的语音子信号；将各个语音输出对象对应的语音子信号输入至门控网络确定各个语音输出对象对应的语音子信号的选择概率；基于所述选择概率确定各个语音输出对象对应的目标语音子信号；基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果，能够提高在复杂环境下识别语音的准确率。

基于前述的各个实施例，本申请实施例再提供一种语音信号的处理方法，使用PyTorch框架训练聚类分析模块结合门控机制(由门控网络和声学模型库组成)共同提高在复杂情况下的语音识别准确率。

所述语音信号的处理方法应用于语音信号的处理系统，所述语音信号的处理系统包括：语音训练数据源模块，聚类分析模块，门控机制模块，声学特征向量解码模块，图2为本申请实施例提供的一种语音信号的处理方法的实现流程示意图，如图2所示，包括：

对于语音训练数据源首先选择一个语音数据集用于预训练，在实际的使用过程中继续采集实际语音数据加入数据源。

聚类分析模块采用PyTorch框架训练聚类分析模块，用于将多通道的语音信号分成若干子信号；具体步骤如下：

数据预处理：使用短时傅里叶变换将多通道语音信号转换为频域或时频域的特征表示，可将语音信号在时间和频率上进行分解，得到语音信号的相位和幅度信息；首先载入语音信号，得到原始的语音信号数组，对原始的语音信号进行分帧，得到一个二维数组，每行代表一帧；使用stft函数进行变换，得到短时傅里叶系数，之后可以根据系数取语音信号的相位和幅度信息。

聚类分析模块：采用神经网络模型学习将数据预处理得到的输入特征和输出掩码和源信号的之间的映射函数。输出掩码用实质矩阵来表示，表示每个时频点属于某个说话人；接着根据输出掩码和源信号，使用谱聚类算法对语音信号的相位和幅度信息计算相似度矩阵，并分析相似度矩阵，由相似度矩阵进行拉普拉斯变换，解出拉普拉斯矩阵的特征值和特征向量；特征向量用于表示不同的语音信号，作为聚类的依据，根据聚类算法进行信号分类，得出某个语音信号属于某个人或某个类。

门控机制处理：由门控网络和声学模型组成，门控网络是一个多层感知器(MLP),可以根据声源信号的特征向量输出一个选择概率向量，可用于表示每个声源被选中的概率。

声学特征向量解码：由一个连接层和CTC层构成，连接层用于将门控机制选择出的声学模型拼接起来，形成一个完整地声学特征向量，CTC层再将声学特征向量转换为文本序列，并输出最终的语音识别结果。

本申请实施例提供的一种语音信号的处理方法，可以在复杂的环境中识别特定的语音信号并处理，提高了在复杂环境中语音识别的准确性。

基于前述的实施例，本申请实施例提供一种语音信号的处理装置，该装置包括的各模块、以及各模块包括的各单元，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU，CentralProcessing Unit)、微处理器(MPU，Microprocessor Unit)、数字信号处理器(DSP，DigitalSignal Processing)或现场可编程门阵列(FPGA，Field Programmable Gate Array)等。

本申请实施例提供一种语音信号的处理装置，包括：

获取模块，用于获取语音信号；

对所述相似度矩阵进行拉普拉斯变换，得到拉普拉斯矩阵；

基于所述拉普拉斯矩阵确定各个语音子信号的特征向量；

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的语音信号的处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述实施例中提供的语音信号的处理方法中的步骤。

本申请实施例提供一种电子设备；图3为本申请实施例提供的电子设备的组成结构示意图，如图3所示，所述电子设备500包括：一个处理器501、至少一个通信总线502、用户接口503、至少一个外部通信接口504、存储器505。其中，通信总线502配置为实现这些组件之间的连接通信。其中，用户接口503可以包括控制屏，外部通信接口504可以包括标准的有线接口和无线接口。所述处理器501配置为执行存储器中存储的语音信号的处理方法的程序，以实现以上述实施例提供的语音信号的处理方法中的步骤。其中，所述语音信号的处理方法包括：

获取语音信号；

对所述相似度矩阵进行拉普拉斯变换，得到拉普拉斯矩阵；

基于所述拉普拉斯矩阵确定各个语音子信号的特征向量；

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所控制或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元控制的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台控制器执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音信号的处理方法，其特征在于，包括：

获取语音信号；

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度，包括：

3.根据权利要求2所述的方法，其特征在于，所述使用短时傅里叶变换将所述语音信号转换为频域或时频域内的相位和幅度，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述相位和幅度确定各个语音输出对象对应的语音子信号，包括：

对所述相似度矩阵进行拉普拉斯变换，得到拉普拉斯矩阵；

基于所述拉普拉斯矩阵确定各个语音子信号的特征向量；

5.根据权利要求1所述的方法，其特征在于，所述基于各个语音输出对象对应的目标语音子信号确定各个语音输出对象的语音识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述声学特征向量模型包括：连接层和转录层，所述连接层用于将各个语音输出对象对应的目标语音子信号进行拼接，得到各个语音输出对象对应的语音信号的声学特征向量，所述转录层用于将各个语音输出对象对应的语音信号的声学特征向量转换为文本序列，并输出各个语音输出对象对应的语音信号的识别结果。

7.一种语音信号的处理装置，其特征在于，包括：

获取模块，用于获取语音信号；

8.根据权利要求7所述的语音信号的处理装置，其特征在于，所述对所述语音信号进行预处理，得到语音信号在频域或时域的相位和幅度，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如权利要求1至6任意一项所述语音信号的处理方法。

10.一种存储介质，其特征在于，该存储介质存储的计算机程序，能够被一个或多个处理器执行，能够用来实现如权利要求1至6任意一项所述语音信号的处理方法。