CN113409827B - 基于局部卷积块注意力网络的语音端点检测方法及系统 - Google Patents
基于局部卷积块注意力网络的语音端点检测方法及系统 Download PDFInfo
- Publication number
- CN113409827B CN113409827B CN202110673028.1A CN202110673028A CN113409827B CN 113409827 B CN113409827 B CN 113409827B CN 202110673028 A CN202110673028 A CN 202110673028A CN 113409827 B CN113409827 B CN 113409827B
- Authority
- CN
- China
- Prior art keywords
- attention
- data
- channel
- module
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 30
- 230000006835 compression Effects 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 3
- 230000037361 pathway Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于语音信号处理领域,提供了一种基于局部卷积块注意力网络的语音端点检测方法及系统。该方法包括,获取语音数据的声谱图数据;利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
Description
技术领域
本发明属于语音信号处理领域,尤其涉及一种基于局部卷积块注意力网络的语音端点检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
语音端点检测(Voice activity detection,VAD)是一项检测话语中哪些部分包含语音,哪些部分是噪声段或静音段,并只保留语音段的任务。这样的任务通常是语音识别、语音增强等领域重要的预处理阶段,一个良好的VAD预处理系统能够减少整个模型的计算和延迟,是模型高性能的基础。但其还存在如下问题:
1)常规的时域、频域特征在低信噪比情境下无法准确的表征语音信号的特点;
2)在低信噪比条件下,VAD系统的检测精度受高强度噪声的影响较大;
3)面对非平稳的噪声背景,VAD系统的泛化能力会大幅降低。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于局部卷积块注意力网络的语音端点检测方法及系统,其通过局部敏感哈希算法动态的为声谱图中的每一帧频谱选取其近邻帧,形成帧级的局部声谱图输入;进而利用局部卷积块神经网络直接从频谱中学习帧级特征,同时在每一个卷积块后设置通道注意力、频谱注意力以及时间注意力,来帮助模型聚焦在更为重要的信息上,同时抑制不必要的特征。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于局部卷积块注意力网络的语音端点检测方法。
基于局部卷积块注意力网络的语音端点检测方法,包括:
获取语音数据的声谱图数据;
利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
进一步的,所述获取语音数据的声谱图数据包括:将语音数据进行分帧、加窗;对加窗后的每一帧语音数据进行快速傅里叶变换得到二维声谱图数据。
进一步的,所述得到帧级的局部声谱图数据的过程包括:
选取一组哈希函数族,然后将每帧频谱向量映射为一个整型向量;
将这个整型向量映射到哈希表的某一个位上,得到哈希表索引,其中每个哈希表索引对应一个哈希桶;
根据这个整型向量的哈希值,得到频谱向量在哈希桶内的关键字;
将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内,直到所有的帧频谱数据索引都存放完毕;
对于每个查询,得到其哈希桶索引以及在桶内的关键字,查找该哈希桶内是否存在此关键字,若是,从哈希桶中取出所有关键字所对应的帧频谱数据的位置索引;
取出位置索引对应的帧频谱数据,并将这些数据与该查询的欧式距离由小到大排列,取出距离最短的N个帧频谱数据,作为局部声谱图输入。
进一步的,所述通道注意力模块包括:
将局部声谱图数据输入到卷积块模块进行特征提取;
沿通道维度,将卷积块的输出进行最大池化和平均池化操作,再将得到的最大通道特征图和平均通道特征图经过神经网络,得到聚合的通道特征图;
采用sigmod(·)函数得到通道特征图的注意力分值,将通道特征图的注意力分值与卷积块的输出相乘,得到通道注意力模块的输出。
进一步的,所述频谱注意力模块包括:
将通道注意力模块输出的数值进行通道维度压缩,得到第一通道压缩特征图;
沿频率维度,分别将第一通道压缩特征图进行最大池化和平均池化操作,再将得到的最大频谱特征图和平均频谱特征图经过神经网络,得到聚合的频谱特征图;
采用sigmod(·)函数得到频谱特征图的注意力分值,将频谱特征图的注意力分值与通道注意力模块的输出相乘,得到频谱注意力模块的输出。
进一步的,所述时间注意力模块包括:
将频谱注意力模块输出的数值进行通道维度压缩,得到第二通道压缩特征图;
沿时间维度,分别将第二通道压缩特征图进行最大池化和平均池化操作,再将得到的最大时间特征图和平均时间特征图经过神经网络,得到聚合的时间特征图;
采用sigmod(·)函数得到时间特征图的注意力分值,将时间特征图的注意力分值与频谱注意力模块的输出相乘,得到时间注意力模块的输出。
进一步的,在每个卷积块注意力操作完成之后,设置与卷积块初始输入的残差连接。判断是否达到网络的最大卷积块数;若是,则得到增强的数据;否则迭代更新通道注意力模块、频谱注意力模块以及时间注意力模块的注意力操作。
本发明的第二个方面提供一种基于局部卷积块注意力网络的语音端点检测系统。
基于局部卷积块注意力网络的语音端点检测系统,包括:
声谱图模块,其被配置为:获取语音数据的声谱图数据;
局部声谱图模块,其被配置为:利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
卷积块注意力模块,其被配置为:将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
预测模块,其被配置为:将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明通过基于局部卷积块注意力网络的语音端点检测方法,将原始语音作为输入,首先生成声谱图,声谱图中包含每一帧的频谱信息;其次使用局部敏感哈希算法动态的为每一帧选取若干近邻帧,形成帧级的局部声谱图输入;进而通过局部卷积块注意力网络分别计算通道注意力、频谱注意力与时间注意力,在提取特征的同时聚焦于更恰当的通道、频谱特征,抑制不必要的特征,最后聚焦于更恰当的上下文帧。相似度高的帧之间也会有十分相近的表示,有利于提升模型在低信噪比下对语音/非语音帧的检测精度。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明基于局部卷积块注意力网络的语音端点检测方法的流程图;
图2是本发明通道注意力模块示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
如图1所示,本实施例提供了一种基于局部卷积块注意力网络的语音端点检测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
S1:获取语音数据的声谱图数据;
S2:利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
S3:将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
S4:将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
进一步的技术方案,所述生成每一条语音数据的声谱图数据,包括:
1.1将原始音频信号进行分帧、加窗;
1.2对加窗后的每一帧音频信号进行快速傅里叶变换得到二维声谱图数据。
进一步的技术方案,所述利用局部敏感哈希算法为声谱图数据中的每一帧频谱数据选取N个近邻帧,生成帧级的局部声谱图数据,包括:
2.1随机选取k个不同的哈希函数,重复L次,得到L组哈希函数族,记为:{g1(·),g2(·),…,gL(·)},每组包含k个哈希函数,记为gi(·)=(h1(·),h2(·),…,hk(·));
2.2随机选取一组哈希函数族gi(·),每帧频谱向量经过gi(·)被映射成一个整型向量,记为(x1,x2,…,xk);
2.3将这个整型向量映射到哈希表的某一个位上,得到哈希表索引index,一个哈希表索引对应一个哈希桶。所用哈希函数为:
式中,ri为一个随机整数,mod为求余运算,C=232-5为一个大素数,size为哈希表的长度。
2.4求出这个整型向量的哈希值,得到频谱向量在哈希桶内的关键字fp。所用哈希函数为:
式中,ri′为一个随机整数。
2.5将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内,其在桶内的关键字为fp。
2.6重复2.2-2.5,直到所有的帧频谱数据索引都存放完毕;
2.7对于查询(query),执行2.2-2.4步骤,得到其哈希桶索引index以及在桶内的关键字fp,查找该哈希桶内是否存在此关键字fp,若存在,则从该哈希桶中取出所有关键字所对应的帧频谱数据的位置索引,记为集合R;
2.8取出R中位置索引对应的帧频谱数据,并将这些数据与query的欧式距离由小到大排列,取出距离最短的N个帧频谱数据,作为局部声谱图输入x。
进一步的技术方案,如图2所示,所述通道注意力模块,包括:
3.1将局部声谱图数据x输入到卷积块模块进行特征提取,输出x0;
3.2沿通道维度,分别将x0进行最大池化与平均池化操作,再将得到的通道特征图Cmax、Cavg经过神经网络,得到聚合的通道特征图(channel map):
channel map=mlp(Cmax)+mlp(Cavg)
式中,mlp(·)为神经网络。
3.3利用sigmod(·)函数得到通道特征图的注意力分值,代表每个通道的重要程度,将分值施加到局部声谱图数据x,则重要程度更高的通道会有更为突出的表示:
x1=x0*sigmoid(channel map)
式中,x1为通道注意力模块的输出。
进一步的技术方案,所述频谱注意力模块,包括:
3.4将x1进行通道维度压缩,得到通道压缩特征图xcompress;
3.5沿频率维度,分别将xcompress进行最大池化与平均池化操作,再将得到的频谱特征图Fmax、Favg经过神经网络,得到聚合的频谱特征图(frequency map):
frequency map=mlp(Fmax)+mlp(Favg)
3.6利用sigmod(·)函数得到频谱特征图的注意力分值,代表各个频率分量的重要程度,将分值施加到通道注意力模块的输出x1,则重要程度更高的频率会有更为突出的表示:
x2=x1*sigmoid(frequency map)
式中,x2为频谱注意力模块的输出。
进一步的技术方案,所述时间注意力模块用于聚焦更恰当的近邻帧,得到最终的增强数据,包括:
3.7将x2进行通道维度压缩,得到通道压缩特征图x′compress;
3.8沿时间维度,分别将x′compress进行最大池化与平均池化操作,再将得到的时间特征图Tmax、Tavg经过神经网络,得到聚合的时间特征图(temporal map):
temporal map=mlp(Tmax)+mlp(Tavg)
3.9利用sigmod(·)函数得到时间特征图的注意力分值,代表各个近邻帧的重要程度,将分值施加到频谱注意力模块的输出x2,则重要程度更高的近邻帧会有更为突出的表示:
x3=x2*sigmoid(temporal map)
式中,x3为时间注意力模块的输出。
3.10注意力操作完成后设置与卷积块初始输入x的残差连接,其连接方式如下:
x4=x3+x
3.11重复3.1-3.10,直至达到网络的最大卷积块数M。
进一步的技术方案,所述分类器为三层神经网络,最后一层输出神经元数为1,代表输出为语音帧的概率。
更进一步的技术方案,步骤1.2中所述二维声谱图数据中x轴代表时间帧,y轴代表频率,即每一列代表该帧时间内的频谱数据。声谱图数据能够很好的表示语音频谱随时间的变化。
更进一步的技术方案,步骤2.7中所述查询(query)应依次为所有帧频谱数据。
更进一步的技术方案,步骤2.8得到的最终结果应为:(H,N),其中H为频谱向量维度。同时应使用unsqueeze(·)函数进行通道维度扩张。
更进一步的技术方案,步骤3.1中所述卷积块操作应保持时间维度不变。
更进一步的技术方案,步骤3.2、3.5、3.8中所述神经网络mlp(·)需满足输出维度等于网络初始输入维度。
更进一步的技术方案,步骤3.3、3.6、3.9中需要利用unsqueeze(·)函数,将sigmoid(·)的输出维度扩张至与x0、x1、x2维度相同。
更进一步的技术方案,步骤3.10中残差连接的作用是:能够有效防止由于网络过深而造成的退化问题。
实施例二
本实施例提供了一种基于局部卷积块注意力网络的语音端点检测系统。
基于局部卷积块注意力网络的语音端点检测系统,包括:
声谱图模块,其被配置为:获取语音数据的声谱图数据;
局部声谱图模块,其被配置为:利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
卷积块注意力模块,其被配置为:将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
预测模块,其被配置为:将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
此处需要说明的是,声谱图模块、局部声谱图模块、增卷积块注意力模块和预测模块对应于实施例一中的步骤S1至S4,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.基于局部卷积块注意力网络的语音端点检测方法,其特征在于,包括:
获取语音数据的声谱图数据;
利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果;
所述得到帧级的局部声谱图数据的过程包括:
选取一组哈希函数族,然后将每帧频谱向量映射为一个整型向量;
将这个整型向量映射到哈希表的某一个位上,得到哈希表索引,其中每个哈希表索引对应一个哈希桶;
根据这个整型向量的哈希值,得到频谱向量在哈希桶内的关键字;
将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内,直到所有的帧频谱数据索引都存放完毕;
对于每个查询,得到其哈希桶索引以及在桶内的关键字,查找该哈希桶内是否存在此关键字,若是,从哈希桶中取出所有关键字所对应的帧频谱数据的位置索引;
取出位置索引对应的帧频谱数据,并将这些数据与该查询的欧式距离由小到大排列,取出距离最短的N个帧频谱数据,作为局部声谱图输入;
所述通道注意力模块包括:
将局部声谱图数据输入到卷积块模块进行特征提取;
沿通道维度,将提取的特征进行最大池化和平均池化操作,再将得到的最大通道特征图和平均通道特征图经过神经网络,得到聚合的通道特征图;
采用sigmod(·)函数得到通道特征图的注意力分值,将通道特征图的注意力分值与卷积块输出相乘,得到通道注意力模块的输出;
所述频谱注意力模块包括:
将通道注意力模块输出的数值进行通道维度压缩,得到第一通道压缩特征图;
沿频率维度,分别将第一通道压缩特征图进行最大池化和平均池化操作,再将得到的最大频谱特征图和平均频谱特征图经过神经网络,得到聚合的频谱特征图;
采用sigmod(·)函数得到频谱特征图的注意力分值,将频谱特征图的注意力分值与通道注意力模块的输出相乘,得到频谱注意力模块的输出;
所述时间注意力模块包括:
将频谱注意力模块输出的数值进行通道维度压缩,得到第二通道压缩特征图;
沿时间维度,分别将第二通道压缩特征图进行最大池化和平均池化操作,再将得到的最大时间特征图和平均时间特征图经过神经网络,得到聚合的时间特征图;
采用sigmod(·)函数得到时间特征图的注意力分值,将时间特征图的注意力分值与频谱注意力模块的输出相乘,得到时间注意力模块的输出;
在每个卷积块注意力操作完成之后,设置与卷积块初始输入的残差连接;判断是否达到网络的最大卷积块数;若是,则得到增强的数据;否则迭代更新通道注意力模块、频谱注意力模块以及时间注意力模块的注意力操作。
2.根据权利要求1所述的基于局部卷积块注意力网络的语音端点检测方法,其特征在于,所述获取语音数据的声谱图数据包括:
将语音数据进行分帧、加窗;
对加窗后的每一帧语音数据进行快速傅里叶变换得到二维声谱图数据。
3.基于局部卷积块注意力网络的语音端点检测系统,其特征在于,包括:
声谱图模块,其被配置为:获取语音数据的声谱图数据;
局部声谱图模块,其被配置为:利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
卷积块注意力获得模块,其被配置为:将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
预测模块,其被配置为:将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果;
所述得到帧级的局部声谱图数据的过程包括:
选取一组哈希函数族,然后将每帧频谱向量映射为一个整型向量;
将这个整型向量映射到哈希表的某一个位上,得到哈希表索引,其中每个哈希表索引对应一个哈希桶;
根据这个整型向量的哈希值,得到频谱向量在哈希桶内的关键字;
将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内,直到所有的帧频谱数据索引都存放完毕;
对于每个查询,得到其哈希桶索引以及在桶内的关键字,查找该哈希桶内是否存在此关键字,若是,从哈希桶中取出所有关键字所对应的帧频谱数据的位置索引;
取出位置索引对应的帧频谱数据,并将这些数据与该查询的欧式距离由小到大排列,取出距离最短的N个帧频谱数据,作为局部声谱图输入;
所述通道注意力模块包括:
将局部声谱图数据输入到卷积块模块进行特征提取;
沿通道维度,将提取的特征进行最大池化和平均池化操作,再将得到的最大通道特征图和平均通道特征图经过神经网络,得到聚合的通道特征图;
采用sigmod(·)函数得到通道特征图的注意力分值,将通道特征图的注意力分值与卷积块输出相乘,得到通道注意力模块的输出;
所述频谱注意力模块包括:
将通道注意力模块输出的数值进行通道维度压缩,得到第一通道压缩特征图;
沿频率维度,分别将第一通道压缩特征图进行最大池化和平均池化操作,再将得到的最大频谱特征图和平均频谱特征图经过神经网络,得到聚合的频谱特征图;
采用sigmod(·)函数得到频谱特征图的注意力分值,将频谱特征图的注意力分值与通道注意力模块的输出相乘,得到频谱注意力模块的输出;
所述时间注意力模块包括:
将频谱注意力模块输出的数值进行通道维度压缩,得到第二通道压缩特征图;
沿时间维度,分别将第二通道压缩特征图进行最大池化和平均池化操作,再将得到的最大时间特征图和平均时间特征图经过神经网络,得到聚合的时间特征图;
采用sigmod(·)函数得到时间特征图的注意力分值,将时间特征图的注意力分值与频谱注意力模块的输出相乘,得到时间注意力模块的输出;
在每个卷积块注意力操作完成之后,设置与卷积块初始输入的残差连接;判断是否达到网络的最大卷积块数;若是,则得到增强的数据;否则迭代更新通道注意力模块、频谱注意力模块以及时间注意力模块的注意力操作。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-2中任一项所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-2中任一项所述的基于局部卷积块注意力网络的语音端点检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110673028.1A CN113409827B (zh) | 2021-06-17 | 2021-06-17 | 基于局部卷积块注意力网络的语音端点检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110673028.1A CN113409827B (zh) | 2021-06-17 | 2021-06-17 | 基于局部卷积块注意力网络的语音端点检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113409827A CN113409827A (zh) | 2021-09-17 |
CN113409827B true CN113409827B (zh) | 2022-06-17 |
Family
ID=77684848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110673028.1A Active CN113409827B (zh) | 2021-06-17 | 2021-06-17 | 基于局部卷积块注意力网络的语音端点检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113409827B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921041B (zh) * | 2021-10-11 | 2024-10-29 | 山东省计算中心(国家超级计算济南中心) | 基于分组卷积注意力网络的录音设备识别方法及系统 |
CN114596879B (zh) * | 2022-03-25 | 2022-12-30 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
CN114648987A (zh) * | 2022-04-28 | 2022-06-21 | 歌尔股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
KR20210009194A (ko) * | 2019-07-16 | 2021-01-26 | 한양대학교 산학협력단 | 다중 디코더를 이용한 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템 |
CN112562741A (zh) * | 2021-02-20 | 2021-03-26 | 金陵科技学院 | 一种基于点积自注意力卷积神经网络的歌声检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106024017A (zh) * | 2015-03-18 | 2016-10-12 | 展讯通信(上海)有限公司 | 语音检测方法及装置 |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
-
2021
- 2021-06-17 CN CN202110673028.1A patent/CN113409827B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
KR20210009194A (ko) * | 2019-07-16 | 2021-01-26 | 한양대학교 산학협력단 | 다중 디코더를 이용한 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN112562741A (zh) * | 2021-02-20 | 2021-03-26 | 金陵科技学院 | 一种基于点积自注意力卷积神经网络的歌声检测方法 |
Non-Patent Citations (3)
Title |
---|
Automatic Modulation Classification;Yuzheng Yang etc;《Mobile Multimedia Communications,14th EAI International Conference, Mobimedia 2021》;20210725;第736-747页 * |
Convolutional Neural Network with Convolutional;Zhongxia Zhang etc;《IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT》;20220214;第1-11页 * |
基于卷积神经网络的语音端点检测方法研究;王海旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160115(第01期);第1-48页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113409827A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113409827B (zh) | 基于局部卷积块注意力网络的语音端点检测方法及系统 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
US8977067B1 (en) | Audio identification using wavelet-based signatures | |
US20190115013A1 (en) | Complex linear projection for acoustic modeling | |
US8589163B2 (en) | Adapting language models with a bit mask for a subset of related words | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
US11741343B2 (en) | Source separation method, apparatus, and non-transitory computer-readable medium | |
CN114708855B (zh) | 一种基于二值残差神经网络的语音唤醒方法及系统 | |
US20210125628A1 (en) | Method and device for audio recognition | |
CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
CN113921041B (zh) | 基于分组卷积注意力网络的录音设备识别方法及系统 | |
CN108847251A (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
CN115862676A (zh) | 基于深度学习的语音叠音检测方法、装置和计算机设备 | |
CN115221351A (zh) | 音频匹配方法、装置、电子设备和计算机可读存储介质 | |
CN114495911A (zh) | 说话人聚类方法、装置及设备 | |
CN115116469A (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
CN114155868A (zh) | 语音增强方法、装置、设备及存储介质 | |
Li et al. | Model Compression for DNN-based Speaker Verification Using Weight Quantization | |
CN112528646A (zh) | 词向量生成方法、终端设备及计算机可读存储介质 | |
CN118551075B (zh) | 一种音频检索方法、系统、电子设备及产品 | |
CN115035897B (zh) | 一种关键词检测方法及系统 | |
CN114443476B (zh) | 一种代码评审方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |