CN113409827B

CN113409827B - 基于局部卷积块注意力网络的语音端点检测方法及系统

Info

Publication number: CN113409827B
Application number: CN202110673028.1A
Authority: CN
Inventors: 张鹏; 李姝�; 李晔; 冯涛; 汪付强
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-06-17
Anticipated expiration: 2041-06-17
Also published as: CN113409827A

Abstract

本发明属于语音信号处理领域，提供了一种基于局部卷积块注意力网络的语音端点检测方法及系统。该方法包括，获取语音数据的声谱图数据；利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧，得到帧级的局部声谱图数据；将局部声谱图数据输入局部卷积块注意力网络中，经过卷积模块进行特征提取，在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作，得到增强的数据；将增强的数据输入分类器中，进行语音/非语音帧检测，得到预测结果。

Description

基于局部卷积块注意力网络的语音端点检测方法及系统

技术领域

本发明属于语音信号处理领域，尤其涉及一种基于局部卷积块注意力网络的语音端点检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

语音端点检测(Voice activity detection,VAD)是一项检测话语中哪些部分包含语音，哪些部分是噪声段或静音段，并只保留语音段的任务。这样的任务通常是语音识别、语音增强等领域重要的预处理阶段，一个良好的VAD预处理系统能够减少整个模型的计算和延迟，是模型高性能的基础。但其还存在如下问题：

1)常规的时域、频域特征在低信噪比情境下无法准确的表征语音信号的特点；

2)在低信噪比条件下，VAD系统的检测精度受高强度噪声的影响较大；

3)面对非平稳的噪声背景，VAD系统的泛化能力会大幅降低。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于局部卷积块注意力网络的语音端点检测方法及系统，其通过局部敏感哈希算法动态的为声谱图中的每一帧频谱选取其近邻帧，形成帧级的局部声谱图输入；进而利用局部卷积块神经网络直接从频谱中学习帧级特征，同时在每一个卷积块后设置通道注意力、频谱注意力以及时间注意力，来帮助模型聚焦在更为重要的信息上，同时抑制不必要的特征。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于局部卷积块注意力网络的语音端点检测方法。

基于局部卷积块注意力网络的语音端点检测方法，包括：

获取语音数据的声谱图数据；

利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧，得到帧级的局部声谱图数据；

将局部声谱图数据输入局部卷积块注意力网络中，经过卷积模块进行特征提取，在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作，得到增强的数据；

将增强的数据输入分类器中，进行语音/非语音帧检测，得到预测结果。

进一步的，所述获取语音数据的声谱图数据包括：将语音数据进行分帧、加窗；对加窗后的每一帧语音数据进行快速傅里叶变换得到二维声谱图数据。

进一步的，所述得到帧级的局部声谱图数据的过程包括：

选取一组哈希函数族，然后将每帧频谱向量映射为一个整型向量；

将这个整型向量映射到哈希表的某一个位上，得到哈希表索引，其中每个哈希表索引对应一个哈希桶；

根据这个整型向量的哈希值，得到频谱向量在哈希桶内的关键字；

将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内，直到所有的帧频谱数据索引都存放完毕；

对于每个查询，得到其哈希桶索引以及在桶内的关键字，查找该哈希桶内是否存在此关键字，若是，从哈希桶中取出所有关键字所对应的帧频谱数据的位置索引；

取出位置索引对应的帧频谱数据，并将这些数据与该查询的欧式距离由小到大排列，取出距离最短的N个帧频谱数据，作为局部声谱图输入。

进一步的，所述通道注意力模块包括：

将局部声谱图数据输入到卷积块模块进行特征提取；

沿通道维度，将卷积块的输出进行最大池化和平均池化操作，再将得到的最大通道特征图和平均通道特征图经过神经网络，得到聚合的通道特征图；

采用sigmod(·)函数得到通道特征图的注意力分值，将通道特征图的注意力分值与卷积块的输出相乘，得到通道注意力模块的输出。

进一步的，所述频谱注意力模块包括：

将通道注意力模块输出的数值进行通道维度压缩，得到第一通道压缩特征图；

沿频率维度，分别将第一通道压缩特征图进行最大池化和平均池化操作，再将得到的最大频谱特征图和平均频谱特征图经过神经网络，得到聚合的频谱特征图；

采用sigmod(·)函数得到频谱特征图的注意力分值，将频谱特征图的注意力分值与通道注意力模块的输出相乘，得到频谱注意力模块的输出。

进一步的，所述时间注意力模块包括：

将频谱注意力模块输出的数值进行通道维度压缩，得到第二通道压缩特征图；

沿时间维度，分别将第二通道压缩特征图进行最大池化和平均池化操作，再将得到的最大时间特征图和平均时间特征图经过神经网络，得到聚合的时间特征图；

采用sigmod(·)函数得到时间特征图的注意力分值，将时间特征图的注意力分值与频谱注意力模块的输出相乘，得到时间注意力模块的输出。

进一步的，在每个卷积块注意力操作完成之后，设置与卷积块初始输入的残差连接。判断是否达到网络的最大卷积块数；若是，则得到增强的数据；否则迭代更新通道注意力模块、频谱注意力模块以及时间注意力模块的注意力操作。

本发明的第二个方面提供一种基于局部卷积块注意力网络的语音端点检测系统。

基于局部卷积块注意力网络的语音端点检测系统，包括：

声谱图模块，其被配置为：获取语音数据的声谱图数据；

局部声谱图模块，其被配置为：利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧，得到帧级的局部声谱图数据；

卷积块注意力模块，其被配置为：将局部声谱图数据输入局部卷积块注意力网络中，经过卷积模块进行特征提取，在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作，得到增强的数据；

预测模块，其被配置为：将增强的数据输入分类器中，进行语音/非语音帧检测，得到预测结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明通过基于局部卷积块注意力网络的语音端点检测方法，将原始语音作为输入，首先生成声谱图，声谱图中包含每一帧的频谱信息；其次使用局部敏感哈希算法动态的为每一帧选取若干近邻帧，形成帧级的局部声谱图输入；进而通过局部卷积块注意力网络分别计算通道注意力、频谱注意力与时间注意力，在提取特征的同时聚焦于更恰当的通道、频谱特征，抑制不必要的特征，最后聚焦于更恰当的上下文帧。相似度高的帧之间也会有十分相近的表示，有利于提升模型在低信噪比下对语音/非语音帧的检测精度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明基于局部卷积块注意力网络的语音端点检测方法的流程图；

图2是本发明通道注意力模块示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种基于局部卷积块注意力网络的语音端点检测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

S1：获取语音数据的声谱图数据；

S2：利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧，得到帧级的局部声谱图数据；

S3：将局部声谱图数据输入局部卷积块注意力网络中，经过卷积模块进行特征提取，在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作，得到增强的数据；

S4：将增强的数据输入分类器中，进行语音/非语音帧检测，得到预测结果。

进一步的技术方案，所述生成每一条语音数据的声谱图数据，包括：

1.1将原始音频信号进行分帧、加窗；

1.2对加窗后的每一帧音频信号进行快速傅里叶变换得到二维声谱图数据。

进一步的技术方案，所述利用局部敏感哈希算法为声谱图数据中的每一帧频谱数据选取N个近邻帧，生成帧级的局部声谱图数据，包括：

2.1随机选取k个不同的哈希函数，重复L次，得到L组哈希函数族，记为：{g₁(·)，g₂(·)，…，g_L(·)}，每组包含k个哈希函数，记为g_i(·)＝(h₁(·)，h₂(·)，…，h_k(·))；

2.2随机选取一组哈希函数族g_i(·)，每帧频谱向量经过g_i(·)被映射成一个整型向量，记为(x₁，x₂，…，x_k)；

2.3将这个整型向量映射到哈希表的某一个位上，得到哈希表索引index，一个哈希表索引对应一个哈希桶。所用哈希函数为：

式中，r_i为一个随机整数，mod为求余运算，C＝2³²-5为一个大素数，size为哈希表的长度。

2.4求出这个整型向量的哈希值，得到频谱向量在哈希桶内的关键字fp。所用哈希函数为：

式中，r_i′为一个随机整数。

2.5将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内，其在桶内的关键字为fp。

2.6重复2.2-2.5，直到所有的帧频谱数据索引都存放完毕；

2.7对于查询(query)，执行2.2-2.4步骤，得到其哈希桶索引index以及在桶内的关键字fp，查找该哈希桶内是否存在此关键字fp，若存在，则从该哈希桶中取出所有关键字所对应的帧频谱数据的位置索引，记为集合R；

2.8取出R中位置索引对应的帧频谱数据，并将这些数据与query的欧式距离由小到大排列，取出距离最短的N个帧频谱数据，作为局部声谱图输入x。

进一步的技术方案，如图2所示，所述通道注意力模块，包括：

3.1将局部声谱图数据x输入到卷积块模块进行特征提取，输出x₀；

3.2沿通道维度，分别将x₀进行最大池化与平均池化操作，再将得到的通道特征图C_max、C_avg经过神经网络，得到聚合的通道特征图(channel map)：

channel map＝mlp(C_max)+mlp(C_avg)

式中，mlp(·)为神经网络。

3.3利用sigmod(·)函数得到通道特征图的注意力分值，代表每个通道的重要程度，将分值施加到局部声谱图数据x，则重要程度更高的通道会有更为突出的表示：

x₁＝x₀*sigmoid(channel map)

式中，x₁为通道注意力模块的输出。

进一步的技术方案，所述频谱注意力模块，包括：

3.4将x₁进行通道维度压缩，得到通道压缩特征图x_compress；

3.5沿频率维度，分别将x_compress进行最大池化与平均池化操作，再将得到的频谱特征图F_max、F_avg经过神经网络，得到聚合的频谱特征图(frequency map)：

frequency map＝mlp(F_max)+mlp(F_avg)

3.6利用sigmod(·)函数得到频谱特征图的注意力分值，代表各个频率分量的重要程度，将分值施加到通道注意力模块的输出x₁，则重要程度更高的频率会有更为突出的表示：

x₂＝x₁*sigmoid(frequency map)

式中，x₂为频谱注意力模块的输出。

进一步的技术方案，所述时间注意力模块用于聚焦更恰当的近邻帧，得到最终的增强数据，包括：

3.7将x₂进行通道维度压缩，得到通道压缩特征图x′_compress；

3.8沿时间维度，分别将x′_compress进行最大池化与平均池化操作，再将得到的时间特征图T_max、T_avg经过神经网络，得到聚合的时间特征图(temporal map)：

temporal map＝mlp(T_max)+mlp(T_avg)

3.9利用sigmod(·)函数得到时间特征图的注意力分值，代表各个近邻帧的重要程度，将分值施加到频谱注意力模块的输出x₂，则重要程度更高的近邻帧会有更为突出的表示：

x₃＝x₂*sigmoid(temporal map)

式中，x₃为时间注意力模块的输出。

3.10注意力操作完成后设置与卷积块初始输入x的残差连接，其连接方式如下：

x₄＝x₃+x

3.11重复3.1-3.10，直至达到网络的最大卷积块数M。

进一步的技术方案，所述分类器为三层神经网络，最后一层输出神经元数为1，代表输出为语音帧的概率。

更进一步的技术方案，步骤1.2中所述二维声谱图数据中x轴代表时间帧，y轴代表频率，即每一列代表该帧时间内的频谱数据。声谱图数据能够很好的表示语音频谱随时间的变化。

更进一步的技术方案，步骤2.7中所述查询(query)应依次为所有帧频谱数据。

更进一步的技术方案，步骤2.8得到的最终结果应为：(H，N)，其中H为频谱向量维度。同时应使用unsqueeze(·)函数进行通道维度扩张。

更进一步的技术方案，步骤3.1中所述卷积块操作应保持时间维度不变。

更进一步的技术方案，步骤3.2中所述最大池化与平均池化的输出应满足：

其中C代表通道维度。

更进一步的技术方案，步骤3.4、3.7中所述通道压缩特征图应满足：

其中T代表时间(帧)维度。

更进一步的技术方案，步骤3.5中所述最大池化与平均池化的输出应满足：

更进一步的技术方案，步骤3.8中所述最大池化与平均池化的输出应满足：

更进一步的技术方案，步骤3.2、3.5、3.8中所述神经网络mlp(·)需满足输出维度等于网络初始输入维度。

更进一步的技术方案，步骤3.3、3.6、3.9中需要利用unsqueeze(·)函数，将sigmoid(·)的输出维度扩张至与x₀、x₁、x₂维度相同。

更进一步的技术方案，步骤3.10中残差连接的作用是：能够有效防止由于网络过深而造成的退化问题。

实施例二

本实施例提供了一种基于局部卷积块注意力网络的语音端点检测系统。

基于局部卷积块注意力网络的语音端点检测系统，包括：

声谱图模块，其被配置为：获取语音数据的声谱图数据；

此处需要说明的是，声谱图模块、局部声谱图模块、增卷积块注意力模块和预测模块对应于实施例一中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于局部卷积块注意力网络的语音端点检测方法，其特征在于，包括：

获取语音数据的声谱图数据；

将增强的数据输入分类器中，进行语音/非语音帧检测，得到预测结果；

所述得到帧级的局部声谱图数据的过程包括：

取出位置索引对应的帧频谱数据，并将这些数据与该查询的欧式距离由小到大排列，取出距离最短的N个帧频谱数据，作为局部声谱图输入；

所述通道注意力模块包括：

将局部声谱图数据输入到卷积块模块进行特征提取；

沿通道维度，将提取的特征进行最大池化和平均池化操作，再将得到的最大通道特征图和平均通道特征图经过神经网络，得到聚合的通道特征图；

采用sigmod(·)函数得到通道特征图的注意力分值，将通道特征图的注意力分值与卷积块输出相乘，得到通道注意力模块的输出；

所述频谱注意力模块包括：

采用sigmod(·)函数得到频谱特征图的注意力分值，将频谱特征图的注意力分值与通道注意力模块的输出相乘，得到频谱注意力模块的输出；

所述时间注意力模块包括：

采用sigmod(·)函数得到时间特征图的注意力分值，将时间特征图的注意力分值与频谱注意力模块的输出相乘，得到时间注意力模块的输出；

在每个卷积块注意力操作完成之后，设置与卷积块初始输入的残差连接；判断是否达到网络的最大卷积块数；若是，则得到增强的数据；否则迭代更新通道注意力模块、频谱注意力模块以及时间注意力模块的注意力操作。

2.根据权利要求1所述的基于局部卷积块注意力网络的语音端点检测方法，其特征在于，所述获取语音数据的声谱图数据包括：

将语音数据进行分帧、加窗；

对加窗后的每一帧语音数据进行快速傅里叶变换得到二维声谱图数据。

3.基于局部卷积块注意力网络的语音端点检测系统，其特征在于，包括：

声谱图模块，其被配置为：获取语音数据的声谱图数据；

卷积块注意力获得模块，其被配置为：将局部声谱图数据输入局部卷积块注意力网络中，经过卷积模块进行特征提取，在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作，得到增强的数据；

预测模块，其被配置为：将增强的数据输入分类器中，进行语音/非语音帧检测，得到预测结果；

所述得到帧级的局部声谱图数据的过程包括：

所述通道注意力模块包括：

将局部声谱图数据输入到卷积块模块进行特征提取；

所述频谱注意力模块包括：

所述时间注意力模块包括：

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一项所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2中任一项所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。