CN114550722A

CN114550722A - 语音信号处理方法和装置、存储介质、电子设备、产品

Info

Publication number: CN114550722A
Application number: CN202210283378.1A
Authority: CN
Inventors: 李先刚; 汤志远
Original assignee: Shell Housing Network Beijing Information Technology Co Ltd
Current assignee: Shell Housing Network Beijing Information Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-05-27

Abstract

本公开实施例公开了一种语音信号处理方法和装置、存储介质、电子设备、产品，其中，方法包括：对待处理的语音信号进行处理，得到长度为n帧的第一信号序列；其中，所述第一信号序列中的每帧为长度相同的信号向量；所述n为大于1的整数；对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列；其中，所述m为大于等于1的整数，所述n大于所述m；对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵；基于所述第一矩阵，确定所述语音信号的特征转换结果；本实施例通过下采样处理，减小了模型处理数据的大小，大大降低信号处理的复杂度，从而提升信号处理的计算效率。

Description

语音信号处理方法和装置、存储介质、电子设备、产品

技术领域

本公开涉及信号处理技术，尤其是一种语音信号处理方法和装置、存储介质、电子设备、产品。

背景技术

现有技术中的语音识别、语音唤醒等应用的实现通常通过Transformer模型进行关键词识别及响应唤醒，常规Transformer模型中自注意力机制的计算量较大(每一帧语音信号都需要与全部信号进行相关性计算，计算复杂度为O(T2)，T为输入语音信号帧数)，对系统服务器性能有较高要求。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音信号处理方法和装置、存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种语音信号处理方法，包括：

对待处理的语音信号进行处理，得到长度为n帧的第一信号序列；其中，所述第一信号序列中的每帧为长度相同的信号向量；所述n为大于1的整数；

对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列；其中，所述m为大于等于1的整数，所述n大于所述m；

对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵；

基于所述第一矩阵，确定所述语音信号的特征转换结果。

可选地，所述对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列，包括：

将所述第一信号序列分割为m个向量组；其中，每个所述向量组中包括至少一个信号向量；

针对所述m个向量组中的每个向量组，对所述向量组中包括的至少一个信号向量进行下采样处理，得到一个下采样向量；

基于所述m个向量组对应的m个所述下采样向量，得到长度为m帧的第二信号序列。

可选地，所述将所述第一信号序列分割为m个向量组，包括：

将所述第一信号序列中包括的n帧信号向量平均分割为m等份，得到所述m个向量组。

可选地，所述将所述第一信号序列分割为m个向量组，包括：

将所述第一信号序列转换为n维的分割向量；其中，所述分割向量由0和/或1构成；

基于所述分割向量中被0分割的至少一个1所在位置，确定m组目标位置；

针对所述m组目标位置中的每组目标信号位置，基于所述目标位置在所述第一信号序列中确定相应位置的信号向量，得到一个所述向量组。

可选地，所述将所述第一信号序列转换为n维的分割向量，包括：

将所述第一信号序列中包括的n个信号向量转换为数值表示，得到包括n个数值的n维中间向量；

确定所述n维中间向量中每个数值的取值与设定阈值之间的大小关系；

将所述n维中间向量中取值大于或等于所述设定阈值的数值转换为1，将所述取值小于所述设定阈值的数值转换为0；得到所述分割向量。

可选地，所述对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵，包括：

针对所述第一信号序列中包括的n个信号向量中的每个信号向量，将所述信号向量分别与所述第二信号序列中包括的m个下采样向量执行自注意力计算，得到计算结果；

基于所述n个计算结果得到所述第一矩阵。

可选地，在基于所述第一矩阵，确定所述语音信号的特征转换结果之前，还包括：

针对所述第一信号序列中包括的n个信号向量中每个信号向量，将所述信号向量与所述信号向量相邻的设定数量的信号向量执行自注意力计算，得到所述第一信号序列对应的第二矩阵；

所述基于所述第一矩阵，确定所述语音信号的特征转换结果，包括：

基于所述第一矩阵和所述第二矩阵，确定所述语音信号的特征转换结果。

可选地，所述基于所述第一矩阵和所述第二矩阵，确定所述语音信号的特征转换结果，包括：

对所述第一矩阵和所述第二矩阵执行矩阵相加，得到叠加矩阵；

对所述叠加矩阵执行至少一次编码处理和至少一次解码处理，得到所述语音信号的特征转换结果。

可选地，还包括：

对所述特征转换结果进行特征提取和特征转换，得到唤醒概率值；

基于所述唤醒概率值与唤醒阈值之间的大小关系，确定是否对预设设备进行唤醒。

可选地，还包括：

基于所述特征转换结果与设定词表进行匹配，得到第一词序列；其中，所述第一词序列中包括多个词向量；

基于所述第一词序列，确定所述语音信号对应的文本识别结果。

可选地，所述基于所述第一词序列，确定所述语音信号对应的文本识别结果，包括：

对所述第一词序列进行下采样处理，得到长度缩小的第二词序列；

对所述第一词序列和所述第二词序列执行自注意力计算，得到中间表征结果；

基于所述中间表征结果，确定所述语音信号的文本识别结果。

根据本公开实施例的另一方面，提供了一种语音信号处理装置，包括：

信号处理模块，用于对待处理的语音信号进行处理，得到长度为n帧的第一信号序列；其中，所述第一信号序列中的每帧为长度相同的信号向量；所述n为大于1的整数；

下采样模块，用于对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列；其中，所述m为大于等于1的整数，所述n大于所述m；

自注意力模块，用于对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵；

特征转换模块，用于基于所述第一矩阵，确定所述语音信号的特征转换结果。

可选地，所述下采样模块，包括：

序列分割单元，用于将所述第一信号序列分割为m个向量组；其中，每个所述向量组中包括至少一个信号向量；

信号采样单元，用于针对所述m个向量组中的每个向量组，对所述向量组中包括的至少一个信号向量进行下采样处理，得到一个下采样向量；

第二信号序列单元，用于基于所述m个向量组对应的m个所述下采样向量，得到长度为m帧的第二信号序列。

可选地，所述序列分割单元，具体用于将所述第一信号序列中包括的n帧信号向量平均分割为m等份，得到所述m个向量组。

可选地，所述序列分割单元，具体用于将所述第一信号序列转换为n维的分割向量；其中，所述分割向量由0和/或1构成；基于所述分割向量中被0分割的至少一个1所在位置，确定m组目标位置；针对所述m组目标位置中的每组目标信号位置，基于所述目标位置在所述第一信号序列中确定相应位置的信号向量，得到一个所述向量组。

可选地，所述序列分割单元在将所述第一信号序列转换为n维的分割向量时，用于将所述第一信号序列中包括的n个信号向量转换为数值表示，得到包括n个数值的n维中间向量；确定所述n维中间向量中每个数值的取值与设定阈值之间的大小关系；将所述n维中间向量中取值大于或等于所述设定阈值的数值转换为1，将所述取值小于所述设定阈值的数值转换为0；得到所述分割向量。

可选地，所述自注意力模块，具体用于针对所述第一信号序列中包括的n个信号向量中的每个信号向量，将所述信号向量分别与所述第二信号序列中包括的m个下采样向量执行自注意力计算，得到计算结果；基于所述n个计算结果得到所述第一矩阵。

可选地，所述装置还包括：

局部自注意力模块，用于针对所述第一信号序列中包括的n个信号向量中每个信号向量，将所述信号向量与所述信号向量相邻的设定数量的信号向量执行自注意力计算，得到所述第一信号序列对应的第二矩阵；

所述特征转换模块，具体用于基于所述第一矩阵和所述第二矩阵，确定所述语音信号的特征转换结果。

可选地，所述特征转换模块，具体用于对所述第一矩阵和所述第二矩阵执行矩阵相加，得到叠加矩阵；对所述叠加矩阵执行至少一次编码处理和至少一次解码处理，得到所述语音信号的特征转换结果。

可选地，所述装置还包括：

语音唤醒模块，用于对所述特征转换结果进行特征提取和特征转换，得到唤醒概率值；基于所述唤醒概率值与唤醒阈值之间的大小关系，确定是否对预设设备进行唤醒。

可选地，所述装置还包括：

词表匹配模块，用于基于所述特征转换结果与设定词表进行匹配，得到第一词序列；其中，所述第一词序列中包括多个词向量；

语音识别模块，用于基于所述第一词序列，确定所述语音信号对应的文本识别结果。

可选地，所述语音识别模块，具体用于对所述第一词序列进行下采样处理，得到长度缩小的第二词序列；对所述第一词序列和所述第二词序列执行自注意力计算，得到中间表征结果；基于所述中间表征结果，确定所述语音信号的文本识别结果。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时，实现上述任一实施例所述的语音信号处理方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

存储器，用于存储计算机程序产品；

处理器，用于执行所述存储器中存储的计算机程序产品，且所述计算机程序产品被执行时，实现上述任一实施例所述的语音信号处理方法。

根据本公开实施例的再一方面，提供了一种计算机程序产品，包括计算机程序指令，该计算机程序指令被处理器执行时实现上述任一实施例所述的语音信号处理方法。

基于本公开上述实施例提供的一种语音信号处理方法和装置、存储介质、电子设备、产品，对待处理的语音信号进行处理，得到长度为n帧的第一信号序列；其中，所述第一信号序列中的每帧为长度相同的信号向量；所述n为大于1的整数；对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列；其中，所述m为大于等于1的整数，所述n大于所述m；对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵；基于所述第一矩阵，确定所述语音信号的特征转换结果；本实施例通过下采样处理，减小了模型处理数据的大小，大大降低信号处理的复杂度，从而提升信号处理的计算效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的语音信号处理方法的流程示意图。

图2是本公开图1所示的实施例中步骤104的一个流程示意图。

图3是本公开图2所示的实施例中步骤1041的一个流程示意图。

图4是本公开一示例性实施例提供的语音信号处理装置的结构示意图。

图5是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。本公开中所指数据可以包括文本、图像、视频等非结构化数据，也可以是结构化数据。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一示例性实施例提供的语音信号处理方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，对待处理的语音信号进行处理，得到长度为n帧的第一信号序列。

其中，第一信号序列中的每帧为长度相同的信号向量；n为大于1的整数。

本实施例中，可对接收的任意语音信号进行信号处理，得到第一信号序列，该第一信号序列中包括n帧长度一致的信号向量；可选地，信号处理的方式可以为现有技术，只需实现将语音信号处理为矩阵即可，不限制具体处理方式。

步骤104，对第一信号序列进行下采样处理，得到长度为m帧的第二信号序列。

其中，m为大于等于1的整数，n大于m。

可选地，可通过深度神经网络的网络层实现对第一信号序列的下采样处理，或者通过函数实现下采样处理，处理后得到的第二信号序列中的每个信号向量可以是第一信号序列中的之一，或者以第一信号序列中多个信号向量计算获得。

步骤106，对第一信号序列和第二信号序列执行自注意力计算，得到第一矩阵。

现有技术中通常采用Transformer结构实现语音信号的处理，通过编码器中的自注意力计算实现多个信号向量之间的关联，本实施例通过下采样获得第二信号序列，将第一信号序列与第二信号序列执行自注意力计算，通过改变Transformer结构中初始编码器的结构大大降低了信息的处理量，提升了处理速度。

步骤108，基于第一矩阵，确定语音信号的特征转换结果。

可选地，可通过通用的Transformer结构中的后续处理对第一矩阵进行处理，以得到矩阵形式表达的特征转换结果，基于该特征转换结果可执行进一步的语音任务，例如，语音唤醒、语音识别等。

本公开上述实施例提供的一种语音信号处理方法，对待处理的语音信号进行处理，得到长度为n帧的第一信号序列；其中，所述第一信号序列中的每帧为长度相同的信号向量；所述n为大于1的整数；对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列；其中，所述m为大于等于1的整数，所述n大于所述m；对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵；基于所述第一矩阵，确定所述语音信号的特征转换结果；本实施例通过下采样处理，减小了模型处理数据的大小，大大降低信号处理的复杂度，从而提升信号处理的计算效率。

如图2所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，将第一信号序列分割为m个向量组。

其中，每个向量组中包括至少一个信号向量。

本实施例中，可通过等分、或不等分、或动态分割等方式将第一信号序列分割为m个向量组，本实施例不限制分割的方式，只需将n帧信号向量分割为m组即可。

步骤1042，针对m个向量组中的每个向量组，对向量组中包括的至少一个信号向量进行下采样处理，得到一个下采样向量。

步骤1043，基于m个向量组对应的m个下采样向量，得到长度为m帧的第二信号序列。

本实施例通过将每个向量组中包括的至少一个信号向量处理为一个下采样向量，实现将第一信号序列的长度进行缩减，可选地下采样方法可以包括但不限于：a.均值法，即将至少一个信号向量进行平均化处理得到一个下采样向量；b.最大值法，即将至少一个信号向量中的最大值作为下采样向量；c.函数转换法，即将至少一个信号向量输入一个函数，输出为1帧，该函数可以包括但不限于：可学习参数、可选择线性函数、神经网络结构等形式；以上仅为说明本实施例下采样的3个示例，并不用于限制本实施例中的下采样方法，现有技术以及之后可以实现下采样的方法均可以应用到本实施例中实现下采样处理。

可选地，在上述实施例的基础上，步骤1041可以包括：

将第一信号序列中包括的n帧信号向量平均分割为m等份，得到m个向量组。

本实施例为获得m个向量组的一种可实现方式，通过对n帧信号向量平均分割，以得到m个向量组，当然，存在n不能被m整除的情况，在此情况下，可通过在n帧信号向量后补零的方式实现整除，或者，以最后不能整除的至少一个信号向量作为一个向量组，以最后得到m个向量组为准；并且，由于m并不是固定数值，可根据n的数值对m进行调整，以使n能够被m整除，本实施例实现了固定窗口长度的下采样，这次采样方法简单快速，但是每一个处理单元的窗口长度是固定的，而语音发音中各个音素的时长并不固定，如果使用固定窗口来均分语音信号，容易造成单个窗口内的信息包含超过一个音素的信息，从而并不适应下采样，基于此，本申请提出以下图3所示实施例，通过动态窗口解决上述问题。

如图3所示，在上述图2所示实施例的基础上，步骤1041可包括如下步骤：

步骤301，将第一信号序列转换为n维的分割向量。

其中，分割向量由0和/或1构成。

本实施例中，通过将第一信号序列中每个信号向量转换为一个0或1表示，得到一个n维的分割向量，该分割向量中的每一维按照位置对应第一信号序列中的一个信号向量。

步骤302，基于分割向量中被0分割的至少一个1所在位置，确定m组目标位置。

可选地，基于分割向量中连续的至少一个1对应的位置，来确定m组目标位置，即，将分割向量中连续取值为1的位置划分为一个窗口，而对于0的位置可直接忽略，实现动态窗口分割。

步骤303，针对m组目标位置中的每组目标信号位置，基于目标位置在第一信号序列中确定相应位置的信号向量，得到一个向量组。

本实施例中，由于分割向量中每个值(0或1)对应的位置与第一信号序列中信号向量的位置一一对应，当确定了连续为1的至少一个动态窗口，即可得到至少一个向量组，而对于分割向量中的0对应第一信号序列中的信号向量可在确定向量组时进行删除，即，分割向量中的0在第一信号序列中对应的位置不参与向量组的构成，当然，存在特殊情况，当分割向量全为0或全为1时，可通过固定窗口的方式对第一信号序列进行下采样。

可选地，在上述实施例的基础上，步骤301可以包括：

a，将第一信号序列中包括的n个信号向量转换为数值表示，得到包括n个数值的n维中间向量。

可选地，可通过以下公式(1)实现数值转换：

G＝softmax(f(H)) 公式(1)

其中，H表示第一信号序列，长度为n，G表示中间向量，长度与H相同，形式为[g1,g2,…,gn]，各元素取值介于[0,1]，f为参数待学习函数(例如：常规神经网络、线性变换等)。

b，确定n维中间向量中每个数值的取值与设定阈值之间的大小关系。

c，将n维中间向量中取值大于或等于设定阈值的数值转换为1，将取值小于设定阈值的数值转换为0；得到分割向量。

本实施例，分割向量可表示为T，其形式为[t1,t2,…,tn]，各元素取值为0或1，得到该分割向量的过程是基于设定阈值基于中间向量确定，当中间向量中的一个元素大于或等于设定阈值，将分割向量中该位置的值置为1，当中间向量中的一个元素小于设定阈值，将分割向量中该位置的值置为0；可表示为：ti＝1 if gi>threshold,else(其他)0，其中threshold表示设定阈值，可根据实际应用场景进行设定，并且可通过调整设定阈值的大小以避免分割向量中全为0或全为1的情况。将T中连续取值为1的位置划分为一个窗口，H中对应位置的数据进行下采样处理(均值法、最大值法、函数转换法等)，例如，在一个可选示例中：如T＝[0000111100111000111100000]，可获得3个窗口，则对H相应位置的数据进行下采样处理，得到3帧，T中0值对应的数据直接丢弃。

可选地，在上述实施例的基础上，步骤106可以包括：

针对第一信号序列中包括的n个信号向量中的每个信号向量，将信号向量分别与第二信号序列中包括的m个下采样向量执行自注意力计算，得到计算结果。

基于n个计算结果得到第一矩阵。

现有技术中的自注意力机制是将n个信号向量中的每个信号向量与其他n-1个信号向量进行自注意力计算，计算复杂度为：O(n²)；本实施例通过增加下采样处理，对第一信号序列H与下采样后的第二信号序列H′进行自注意力计算，其计算复杂度为O(mn)，是原始自注意力计算复杂度的m/n，该自注意力计算过程如下所示：

Q＝HW^Q

K＝H′W^K

V＝H′W^V

G＝AV 公式(2)

其中，H表示第一信号序列，H′表示第二信号序列，W^Q、W^K、W^V表示待学习参数(权重矩阵)，为矩阵形式，Q、K和V分别表示查询矩阵、键矩阵和值矩阵；A表示中间计算结果，d_K表示K的长度。Softmax函数的输出A即为学习到的自注意力值，G为自注意力结果输出。

由于上述下采样处理，在第二信号序列相对第一信号序列必然减少了很多信息，本实施例通过局部自注意力弥补下采样可能造成的信息损失；可选地在步骤108之前，还可以包括：

针对第一信号序列中包括的n个信号向量中每个信号向量，将信号向量与信号向量相邻的设定数量的信号向量执行自注意力计算，得到第一信号序列对应的第二矩阵；

此时步骤108可以包括：基于第一矩阵和第二矩阵，确定语音信号的特征转换结果。

本实施例通过将每个信号向量与其相邻的设定数量的信号向量执行自注意力计算，实现局部自注意力机制，即针对第一信号序列中的每一个信号向量，都将其与其k帧上下文进行自注意力计算，k远小于n，计算方式可参照上述确定第一矩阵的自注意力计算过程，具体公式包括：

Q′＝HW^Q

K′＝H″W^K

V′＝H″W^V

G′＝A′V 公式(3)

其中，H表示第一信号序列，H″表示k帧上下文构成的信号序列，W^Q、W^K、W^V表示待学习参数(权重矩阵)，为矩阵形式，Q′、K′和V′分别表示查询矩阵、键矩阵和值矩阵；A′表示中间计算结果，d_K表示K′的长度。Softmax函数的输出A′即为学习到的自注意力值，G′为局部自注意力结果输出。

可选地，以得到的第二句子与第一矩阵进行累加，构成下采样自注意力的最终输出，本实施例所增加的计算复杂度仅为O(nk)，本实施例结合上述计算量，得到的总计算复杂度为O(n(k+m))，远小于原始计算复杂度O(n²)；本实施例通过局部自注意力机制增强输入序列局部范围内的自注意力关系，在计算量增加不多的同时，弥补下采样可能造成的信息损失。

可选地，基于第一矩阵和第二矩阵，确定语音信号的特征转换结果，包括：

对第一矩阵和第二矩阵执行矩阵相加，得到叠加矩阵；

对叠加矩阵执行至少一次编码处理和至少一次解码处理，得到语音信号的特征转换结果。

本实施例中，第一矩阵和第二矩阵的大小相同，二者的叠加通过对矩阵中每个元素相加实现，以得到叠加矩阵；后续基于通用的Transformer结构进行处理即可得到语音信号的特征转换结果，本实施例结合了下采样处理和局部自注意力机制对通用的Transformer结构进行了改进，改进后的Transformer结构在不降低计算精度的前提下，计算量明显减小，提升了语音信号的处理效率。

在一些可选的实施例中，本实施例提供的方法还包括：

对特征转换结果进行特征提取和特征转换，得到唤醒概率值；

基于唤醒概率值与唤醒阈值之间的大小关系，确定是否对预设设备进行唤醒。

本实施例为上述语音信号处理方法得到的特征转换结果的一个应用场景，语音唤醒，对得到的特征转换结果利用全连接神经网络作为特征提取器进行处理，并将全连接神经网络的处理结果(表示为一个数值)进行归一化(例如，通过Sigmoid函数处理得到一个0-1之间的数值)，将该归一化结果的数值作为唤醒概率值，当该唤醒概率值大于或等于唤醒阈值时，确定唤醒预设设备；否则，不唤醒该预设设备，不同场景以及不同预设设备可设置不同的唤醒阈值，因此，本实施例可适用多种语音唤醒场景。

在一些可选的实施例中，本实施例提供的方法还包括：

基于特征转换结果与设定词表进行匹配，得到第一词序列；其中，第一词序列中包括多个词向量。

可选地，设定词表中包括大量可能用到的词(或字)，并且，每个保存的词包括对应的词向量，本实施例中的匹配，可通过将特征转换结果的矩阵分解为多个向量表达，以该向量与设定词表中的词向量进行匹配，得到多个词向量组成第一词序列。

基于第一词序列，确定语音信号对应的文本识别结果。

输入的语音信号经声学处理后，得到声学特征；利用声学特征及声学模型进行声学编码，得到音节序列；基于音节序列和词表进行词表匹配，得到词序列；基于词序列和语言模型输出语言解码结果，从而完成语音识别过程。

改进后的Transformer结构计算复杂度显著下降，可用于声学模型和语言模型中的信号处理提高应用设备对语音信号的响应速度，从而实现更快的语音识别任务。

可选地，基于第一词序列，确定语音信号对应的文本识别结果，包括：

对第一词序列进行下采样处理，得到长度缩小的第二词序列；

对第一词序列和第二词序列执行自注意力计算，得到中间表征结果；

基于中间表征结果，确定语音信号的文本识别结果。

本实施例中，将第一词序列基于与图1提供的语音信号处理方法类似的方法进行处理，先通过上述实施例中任一可实现的方式对第一词序列进行下采样处理，得到长度缩小的第二词序列，利用Transformer结构中的其他部分对第二次序列进行处理，得到中间表征结果，可选地，以中间表征结果确定语音信号的文本识别结果；或者，基于上述实施例中公开的局部自注意力机制对第一词序列进行处理，得到第二表征结果，基于中间表征结果和第二表征结果矩阵相加的结果，确定文本识别结果；本实施例基于后的Transformer结构分别对第一信号序列和第一词序列进行处理，大大降低了计算复杂度，减少了计算资源的消耗，提升了语音识别的效率，使本实施例提供的方法可应用到更多计算空间较小的硬件设备中。

本申请提供的语音信号处理方法还可以应用到其他语音处理的应用中，上述实施例仅为便于理解，提供了语音唤醒和语音识别两种语音处理的应用，并不用于限制本申请提供的方法的应用范围。

本公开实施例提供的任一种语音信号处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种语音信号处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音信号处理方法。下文不再赘述。

示例性装置

图4是本公开一示例性实施例提供的语音信号处理装置的结构示意图。如图4所示，本实施例提供的装置包括：

信号处理模块41，用于对待处理的语音信号进行处理，得到长度为n帧的第一信号序列。

下采样模块42，用于对第一信号序列进行下采样处理，得到长度为m帧的第二信号序列。

其中，m为大于等于1的整数，n大于m。

自注意力模块43，用于对第一信号序列和第二信号序列执行自注意力计算，得到第一矩阵。

特征转换模块44，用于基于第一矩阵，确定语音信号的特征转换结果。

本公开上述实施例提供的一种语音信号处理装置，对待处理的语音信号进行处理，得到长度为n帧的第一信号序列；其中，所述第一信号序列中的每帧为长度相同的信号向量；所述n为大于1的整数；对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列；其中，所述m为大于等于1的整数，所述n大于所述m；对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵；基于所述第一矩阵，确定所述语音信号的特征转换结果；本实施例通过下采样处理，减小了模型处理数据的大小，大大降低信号处理的复杂度，从而提升信号处理的计算效率。

在一些可选的实施例中，下采样模块42，包括：

序列分割单元，用于将第一信号序列分割为m个向量组；其中，每个向量组中包括至少一个信号向量；

信号采样单元，用于针对m个向量组中的每个向量组，对向量组中包括的至少一个信号向量进行下采样处理，得到一个下采样向量；

第二信号序列单元，用于基于m个向量组对应的m个下采样向量，得到长度为m帧的第二信号序列。

在一些可选实施例中，序列分割单元，具体用于将第一信号序列中包括的n帧信号向量平均分割为m等份，得到m个向量组。

在另一些可选实施例中，序列分割单元，具体用于将第一信号序列转换为n维的分割向量；其中，分割向量由0和/或1构成；基于分割向量中被0分割的至少一个1所在位置，确定m组目标位置；针对m组目标位置中的每组目标信号位置，基于目标位置在第一信号序列中确定相应位置的信号向量，得到一个向量组。

可选地，序列分割单元在将第一信号序列转换为n维的分割向量时，用于将第一信号序列中包括的n个信号向量转换为数值表示，得到包括n个数值的n维中间向量；确定n维中间向量中每个数值的取值与设定阈值之间的大小关系；将n维中间向量中取值大于或等于设定阈值的数值转换为1，将取值小于设定阈值的数值转换为0；得到分割向量。

在一些可选实施例中，自注意力模块43，具体用于针对第一信号序列中包括的n个信号向量中的每个信号向量，将信号向量分别与第二信号序列中包括的m个下采样向量执行自注意力计算，得到计算结果；基于n个计算结果得到第一矩阵。

在一些可选实施例中，本实施例提供的装置还包括：

局部自注意力模块，用于针对第一信号序列中包括的n个信号向量中每个信号向量，将信号向量与信号向量相邻的设定数量的信号向量执行自注意力计算，得到第一信号序列对应的第二矩阵；

特征转换模块，具体用于基于第一矩阵和第二矩阵，确定语音信号的特征转换结果。

可选地，特征转换模块，具体用于对第一矩阵和第二矩阵执行矩阵相加，得到叠加矩阵；对叠加矩阵执行至少一次编码处理和至少一次解码处理，得到语音信号的特征转换结果。

在一些可选实施例中，本实施例提供的装置还包括：

语音唤醒模块，用于对特征转换结果进行特征提取和特征转换，得到唤醒概率值；基于唤醒概率值与唤醒阈值之间的大小关系，确定是否对预设设备进行唤醒。

在另一些可选实施例中，本实施例提供的装置还包括：

词表匹配模块，用于基于特征转换结果与设定词表进行匹配，得到第一词序列；其中，第一词序列中包括多个词向量；

语音识别模块，用于基于第一词序列，确定语音信号对应的文本识别结果。

可选地，语音识别模块，具体用于对第一词序列进行下采样处理，得到长度缩小的第二词序列；对第一词序列和第二词序列执行自注意力计算，得到中间表征结果；基于中间表征结果，确定语音信号的文本识别结果。

示例性电子设备

下面，参考图5来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图5图示了根据本公开实施例的电子设备的框图。

如图5所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备50中的其他组件以执行期望的功能。

存储器52可以存储一个或多个计算机程序产品，所述存储器52可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序产品，处理器51可以运行所述计算机程序产品，以实现上文所述的本公开的各个实施例的语音信号处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备50还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置53可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置53可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置53还可以包括例如键盘、鼠标等等。

该输出装置54可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置54可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备50中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备50还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音信号处理方法，其特征在于，包括：

基于所述第一矩阵，确定所述语音信号的特征转换结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一信号序列进行下采样处理，得到长度为m帧的第二信号序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一信号序列分割为m个向量组，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述第一信号序列分割为m个向量组，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一信号序列转换为n维的分割向量，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述对所述第一信号序列和所述第二信号序列执行自注意力计算，得到第一矩阵，包括：

基于所述n个计算结果得到所述第一矩阵。

7.一种语音信号处理装置，其特征在于，包括：

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时，实现上述权利要求1-6任一所述的语音信号处理方法。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机程序产品；

处理器，用于执行所述存储器中存储的计算机程序产品，且所述计算机程序产品被执行时，实现上述权利要求1-6任一所述的语音信号处理方法。

10.一种计算机程序产品，包括计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现上述权利要求1-6任一所述的语音信号处理方法。