CN112233685B - 基于深度学习注意力机制的频带扩展方法及装置 - Google Patents
基于深度学习注意力机制的频带扩展方法及装置 Download PDFInfo
- Publication number
- CN112233685B CN112233685B CN202010933415.XA CN202010933415A CN112233685B CN 112233685 B CN112233685 B CN 112233685B CN 202010933415 A CN202010933415 A CN 202010933415A CN 112233685 B CN112233685 B CN 112233685B
- Authority
- CN
- China
- Prior art keywords
- frequency
- signal
- frame
- layer
- pseudo high
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 46
- 230000007246 mechanism Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 138
- 238000001914 filtration Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000005070 sampling Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 16
- 230000006854 communication Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 6
- 230000003595 spectral effect Effects 0.000 description 9
- 238000013136 deep learning model Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明实施例公开一种基于深度学习注意力机制的频带扩展方法及装置,所述方法包括:基于窄带语音信号生成伪高频信号;计算所述伪高频信号的功率谱能量;通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到;将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号。本发明实施例既保证了扩频效果,保证语音质量,还可应用部署于要求时延低,内存小、计算能力较弱的通信设备。
Description
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种基于深度学习注意力机制的频带扩展方法及装置。
背景技术
语音信号的中高频段成分蕴含着丰富的声学信息,这些声学信息直接影响语音信号的音色、自然度、清晰读、可懂度等。中高频段语音信号的缺失会导致语音质量严重下降,例如会使得声音变得低沉、降低了原有自然语音信号的表现力。
在目前的公共交换电话网(Public Switched Telephone Networks)和一些无线通信系统中,由于受到信道带宽、编码方式等多方面因素的影响,语音信号在通信过程中仅仅能够保留低频(0.3kHz-3.4kHz)部分进行传输,导致语音质量受到严重的影响。
频带扩展技术是一种参数编码技术,通过频带扩展可以在接收端实现恢复或扩展出高频成分,以提高音频信号的质量,使用户直观感受到更亮的音色,更大的音量和更好的可懂度。通过深度学习实现频带扩展是目前的研究热点之一,但是,目前的基于深度学习的频带扩展方法是利用大量的数据进行模型的拟合窄带语音信号到宽带语音信号的映射,因此需要动用大量的参数,而动则几十兆至上百兆的模型规模是要求时延低,内存小、计算能力较弱的终端系统,如会议终端系统所不能承受的,同时投入的各种资源也让各中小企业忘而却步。
因此,如何解决现有深度学习模型参数规模大、计算开销大导致基于其的频带扩展方法无法应用在要求时延低,内存小、计算能力较弱的终端系统是亟需解决的技问题。
发明内容
本发明提供一种基于深度学习注意力机制的频带扩展方法及装置,以解决由于现有深度学习模型参数规模大、计算开销大导致基于其的频带扩展方法无法应用在会议终端系统的技问题,能够通过参数规模小、结构简单的深度学习模型实现频带扩展。
第一方面,本发明实施例提供一种基于深度学习注意力机制的频带扩展方法,包括:
基于窄带语音信号生成伪高频信号;
计算所述伪高频信号的功率谱能量;
通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到;
将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;
对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号。
优选地,所述逆滤波参数估计模型包括输入层、第一Dense层、第一GRU层、第二GRU层、Attention层、第二Dense层以及输出层;其中,所述第一Dense层接收所述输入层输出的数据,所述第一GRU层接收所述第一Dense层输出的数据,所述第二GRU层接收所述第一GRU层输出的数据,所述Attention层接收所述第一GRU层输出的数据和所述第二GRU层输出的数据,所述第二Dense层接收所述Attention层输出的数据和所述第一GRU层输出的数据。
优选地,所述逆滤波参数估计模型通过采用Adam训练策略和改进的loss函数训练得到,所述改进的loss函数为:
其中,x为期望的逆滤波参数,n为输入训练的总帧数,u为放缩因子,t表示期望的逆滤波参数对应的功率谱频率索引,h表示2kHz对应的频率索引,表示1~2kHz的能量总和。
优选地,所述Attention层的计算公式为:
score(hk,hq)=hk TWhq
其中,hk为所述第一GRU层的输出、hq为所述第二GRU层的输出,score(.)表示相关性得分,W为hk和hq的权重。
优选地,所述基于窄带语音信号生成伪高频信号,包括:
当检测到窄带语音信号时,对所述窄带语音信号进行上采样处理;
对上采样处理后的窄带语音信号进行分帧处理;
分别对分帧后的每一帧语音信号进行加窗处理;
分别对加窗处理后的每一帧语音信号进行快速傅里叶变换,获得每一帧语音信号的频谱;
根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率;
根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带,并分别基于其最高频率向上填充频谱,直至频谱补充完成,得到每一帧语音信号的第二频谱;
对每一帧语音信号的第二频谱进行逆傅里叶变换,得到伪高频信号。
优选地,估计当前帧最高频率的方法包括:
计算设定频率范围内的平均功率谱能量,并取所述平均功率谱能量的1/N作为能量阈值,以估计当前帧的最高频率;其中,N大于1;
从所述设定频率范围的最高频率往下逐一检索,若检索到某一频率对应的功率谱能量大于所述能量阈值,则所述某一频率为所述当前帧的最高频率。
优选地,根据当前帧的最高频率确定其谱平移的子带,包括:
设当前帧的最高频率为Q,取[Q-1000,Q]Hz范围的子带作为谱平移的子带。
优选地,当将8kHz的窄带语音信号扩展成16kHz的宽语音带信号时,所述设定频率为2kHz~4kHz,所述N等于8。
第二方面,本发明实施例提供一种基于深度学习注意力机制的频带扩展装置,包括:
伪高频信号生成装置,用于基于窄带语音信号生成伪高频信号;
功率谱能量计算单元,用于计算所述伪高频信号的功率谱能量;
逆滤波参数获取单元,通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号的功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到;
相乘单元,用于将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;
逆傅里叶变换及低通滤波单元,用于对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号。
第三方面,本发明实施例提供一种会议终端系统,包括:
声音信号采集器、信号转换器、处理装置、传输模块和终端;其中,所述声音信号采集器与所述信号转换器连接,所述信号转换器与所述处理装置连接,所述处理装置与所述传输模块连接,所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于深度学习注意力机制的频带扩展程序,所述基于深度学习注意力机制的频带扩展程序被所述处理器执行时实现如上述所述的基于深度学习注意力机制的频带扩展方法的步骤;所述终端用于接收频带扩展后的信号。
综上,本发明实施例的有益效果在于:
本发明实施例通过基于深度学习注意力机制构建并训练逆滤波参数模型,并在检测到窄带语音信号时,基于窄带语音信号生成伪高频信号,并计算所述伪高频信号的功率谱能量;将所述伪高频信号的功率谱能量输入到逆滤波参数估计模型,获取所述伪高频信号功率谱能量对应的逆滤波参数;将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到扩频后的宽带信号。由于基于深度学习自注意机制的模型相比于深度学习模型来说,网络结构简单,仅需要少量的训练数据便能得到很好的效果,因此,本发明实施例既保证了扩频效果,保证语音质量,还可应用部署于要求时延低,内存小、计算能力较弱的通信设备,如实时会议通信设备,且易于实施和部署;此外,引入注意力机制能很好地提取语音之间的上下文信息,从而保证算法的稳定性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于深度学习注意力机制的频带扩展方法的流程图。
图2是是本发明实施例提供的逆滤波参数估计模型的结构图。
图3是本发明其中一种优选实施例提供的基于深度学习注意力机制的频带扩展方法的流程图。
图4是本发明实施例提供的基于深度学习注意力机制的频带扩展装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例1:
请参阅图1,本发明实施例提供一种基于深度学习注意力机制的频带扩展方法,包括步骤S1-步骤S5:
S1、基于窄带语音信号生成伪高频信号。
在本发明实施例中,所述窄带语音信号为时域窄带语音信号,当检测到时域语音信号为窄带语音信号时,优选地,执行步骤S11-S17以生成伪高频信号:
S11、对所述窄带语音信号进行上采样处理;
S12、对上采样处理后的窄带语音信号进行分帧处理。此处,应当理解的是,时域语音信号是一系列有序信号,其中将N个采样点结合成一个观测单位,称为帧。
S13、分别对分帧后的每一帧语音信号进行加窗处理。此处,应当理解的是,加窗使得语音信号有周期性,以减少语音信号FFT变换(快速傅里叶变换)中的语音能量泄露。具体加窗的计算公式如下:
S′(n)=S(n)×W(n)
其中,S(n)表示语音信号,W(n)表示汉明窗,N为帧长大小,a为汉明窗系数。
S14、分别对加窗处理后的每一帧语音信号进行快速傅里叶变换,获得每一帧语音信号的频谱。此处,应当理解的是,由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性,所以在进行加窗处理后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。傅里叶变换计算公式如下:
其中,X(k)表示变换后的频谱,x(n)为语音信号(时域),j表示虚数,表示角频率,N1表示傅里叶变换的点数。
S15、根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率。
为了避免生成的伪高频信号的中频部分产生接近值为0的间隙,从而影响频带扩展的语音质量(接近值伪0的间隙几乎无法被修复,因此会影响频带扩展的语音质量),因此,需要对每一帧语音信号的最高频率进行估计,优选地,估计当前帧最高频率的方法包括:
计算设定频率范围内的平均功率谱能量,并取所述平均功率谱能量的1/N作为能量阈值,以估计当前帧的最高频率;其中,N大于1;
从所述设定频率范围的最高频率往下逐一检索,若检索到某一频率对应的功率谱能量大于所述能量阈值,则所述某一频率为所述当前帧的最高频率。
其中,功率谱能量的计算公式为:
其中P(x)表示功率谱能量,Freal(x)表示频谱的实部,Fimag(x)表示频谱的虚部。
S16、根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带,并分别基于其最高频率向上填充频谱,直至频谱补充完成,得到每一帧语音信号的第二频谱。
在本发明实施例中,优选地,根据当前帧的最高频率确定其(当前帧)谱平移的子带,包括:
设最高频率为Q,取[Q-1000,Q]Hz范围的子带作为谱平移的子带。
S17、对每一帧语音信号的第二频谱进行逆傅里叶变换,得到伪高频信号。
S2、计算所述伪高频信号的功率谱能量。
S3、通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到。
应当理解的是,在训练逆滤波参数估计模型之前,先通过实地采集和网上下载的方式得到宽带语音数据库,并以该宽带语音数据库中的宽带语音信号作为样本,对其进行下采样,得到对应的样本窄带语音信号,再通过基于样本窄带语音信号生成样本伪高频信号,通过计算得到样本伪高频信号的功率谱能量。由于窄带信号和宽带信号是成对存在的(对宽带信号进行下采样得到窄带信号),因此,宽带信号的功率谱能量也是可以计算得出的。因此,在计算得到样本宽带信号的功率谱能量和样本窄带信号的功率谱能量后,根据宽带信号的功率谱能量和窄带信号的功率谱能量可计算得到逆滤波参数,这样,在训练神经网络时,通过以窄带信号的功率谱能量作为输入、逆滤波参数作为输出,并通过采用训练策略和loss函数进行训练便可得到。其中,所述逆滤波参数的计算公式为:
filter(x)=Pbroad(x)/Pnarrow
其中,filter(x)表示逆滤波参数,Pbroad(x)表示宽带信号的功率谱能量,Pnarrow表示窄带信号的功率谱能量。
在本发明实施例中,优选地,所述逆滤波参数估计模型结构如图2所示,包括输入层101、第一Dense层102、第一GRU层103、第二GRU层104、Attention层105、第二Dense层106以及输出层107;其中,所述第一Dense层102接收所述输入层输出101的数据,所述第一GRU103层接收所述第一Dense层102输出的数据,所述第二GRU层104接收所述第一GRU层103输出的数据,所述Attention层105接收所述第一GRU层103输出的数据和所述第二GRU层104输出的数据,所述第二Dense层106接收所述Attention层105输出的数据和所述第一GRU层103输出的数据。
在本发明实施例中,优选地,所述通过采用Adam训练策略和改进的loss函数训练得到,所述改进的loss函数为:
其中,x为期望的逆滤波参数,n为输入训练的总帧数,u为放缩因子,t表示期望的逆滤波参数对应的功率谱频率索引,h表示2kHz对应的频率索引,表示1~2kHz的能量总和。
应当理解的是,Dense层为神经网络中的全连接层,GRU层为一种变种的RNN神经网络层,Attentionc是近年来提出的一种神经网络层,由于Attention层有多种类型,优选地,本发明实施例采用的Attention层的计算公式为
score(hk,hq)=hk TWhq
其中,hk为所述第一GRU层103的输出、hq为所述第二GRU层104的输出,score(.)表示相关性得分,W为hk和hq的权重。
还应当理解的是,所述逆滤波参数估计模型的参数主要包括输入层101与第一Dense层102的权重和偏置、第一Dense102层与第一GRU层103的权重和偏置,第一GRU层103和第二GRU层104的权重与偏置,第一GRU层103串联第二GRU层104和Attention层105的权重与偏置,第二GRU层104联合Attention105层的和二Dense层106的权重和偏置,第二Dense层106和输出层107的权重和偏置;根据模型结构并优化前向算法,具体为根据权重数量与各个层之间的连接情况定义同等大小的数组,并根据Dense层、GRU层和Attention层神经元的输入输出设计对应数据结构存储参数,从而可以存储至存储器中,进而可以部署在系统中。
S4、将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果。
在本发明实施例中,所述相乘结果实际上为恢复后的频域宽带信号,由于输出的语音信号是在时域上连续的,因此,需要执行步骤S5,将频域宽带信号转换为时域宽带信号。在本发明实施例中,需要说明地是,若没有前缀说明,信号均值的是时域信号。
S5、对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号。
逆傅里叶变换是一种将频域信号转换为时域信号的处理方法,因此,通过对所述相乘结果,即通过对频域宽带信号进行逆傅里叶变换便可得到扩频后的时域宽带信号。
本发明实施例通过基于深度学习注意力机制构建并训练逆滤波参数模型,并在检测到窄带语音信号时,基于窄带语音信号生成伪高频信号,并计算所述伪高频信号的功率谱能量;将所述伪高频信号的功率谱能量输入到逆滤波参数估计模型,获取所述伪高频信号功率谱能量对应的逆滤波参数;将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到扩频后的宽带信号。由于基于深度学习自注意机制的模型相比于深度学习模型来说,网络结构简单,仅需要少量的训练数据便能得到很好的效果,因此,本发明实施例既保证了扩频效果,还可应用部署于要求时延低,内存小、计算能力较弱的通信设备,如实时会议通信设备,且易于实施和部署;此外,引入注意力机制能很好地提取语音之间的上下文信息,从而保证算法的稳定性。
以下是将8kHz的窄带信号扩展为16kHz的宽带信号的实施例:
请参阅图3,首先,通过实地采集和网上下载的方式得到宽带语音数据库,并以该宽带语音数据库中的宽带语音信号作为样本,以一段宽带语音信号为例子,对该段宽带语音信号进行下采样,得到8kHZ的窄带信号,之后,基于该8kHz的窄带信号生成伪高频信号。
基于8kHz的窄带信号生成伪高频信号的具体实现方法为:
将8kHz的窄带语音信号上采样为16kHZ的语音信号;
以320个采样点为一帧,即以20ms为一帧,10ms的重叠长度对该16kHz语音信进行分帧;
将每一帧语音信号乘以汉明窗,优选地,汉明窗系数取0.46。
在每一帧语音信号乘以汉明窗后,分别对其结果进行快速傅里变换,得到每一帧语音信号的频谱;其中,傅里叶变换的点数取320;
根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率。需要说明的是,由于将8kHz的窄带信号上采样到16kHz后,仅是采样率发生了变化,其在频域的特征并没有改变,根据奈奎斯特定理,时域8kHz的窄带信号,在频域中的最高频率为4kHz,因此,此时上采样后的窄带信号在频域4kHz以上的能量为0,而在窄带信号中,每一帧最高频率(功率谱能量大于阈值)并非总是4kHz,如果按照4kHz的频率进行下个的谱频移,则将在中频3kHz~5kHz部分产生一条间隙,而由于该间隙的值接近为0,因此也几乎无法被修复,从而影响频带扩展的语音质量,
为避免在谱频以操作时产生“间隙”,本发明实施例采用的策略为,首先计算2kHz~4kHz的平均功率谱能量,并取其1/8作为能量阈值用来估计当前帧的最高频率,然后从4kHz开始往下逐一检索,若检索到某一频率的功率谱能量大于阈值,则认为该帧的最高频率为所述某一频率;其中,功率谱能量的计算公式为:
其中P(x)表示功率谱能量,Freal(x)表示频谱的实部,Fimag(x)表示频谱的虚部。
设Q为最高频率,对于每一帧语音信号,取其对应的Q,并以【Q-1000,Q】Hz范围的子带作为其谱平移的子带,并分别基于其最高频率Q向上填充频谱,直至频谱补充完成,得到每一帧语音信号的第二频谱;
最后,对每一帧语音信号的第二频谱进行逆傅里叶变换便可得到伪高频信号。
在获得伪高频信号后,计算该伪高频信号的功率谱能量以及于其对应的宽带信号的功率谱能量。在获得伪高频信号的功率谱能量和于其对应的宽带信号的功率谱能量后,根据以下公式计算得到逆滤波参数
filter(x)=Pbroad(x)/Pnarrow
其中,filter(x)表示逆滤波参数,Pbroad(x)表示宽带信号的功率谱能量,Pnarrow表示窄带信号的功率谱能量。对宽带语音数据库中的每一段宽带语音信号执行上述步骤,可获得每一段宽带语音信号对应的窄带语音信号、窄带语音信号的功率谱能量以及逆滤波参数。
构建模型,构建的模型结构如图2所示,包括:包括输入层101、第一Dense层102、第一GRU层103、第二GRU层104、Attention层105、第二Dense层106以及输出层107;其中,所述第一Dense层102接收所述输入层输出101的数据,所述第一GRU103层接收所述第一Dense层102输出的数据,所述第二GRU层104接收所述第一GRU层103输出的数据,所述Attention层105接收所述第一GRU层103输出的数据和所述第二GRU层104输出的数据,所述第二Dense层106接收所述Attention层105输出的数据和所述第一GRU层103输出的数据。
由于Attention层105有多种类型,优选地,本发明实施例采用的Attention层的计算公式为:
score(hk,hq)=hk TWhq
其中,hk为所述第一GRU层的输出、hq为所述第二GRU层的输出,score(.)表示相关性得分,W为hk和hq的权重。
在模型构建后,以窄带语音信号的功率谱能量作为输入,与其对应的逆滤波参数作为输出,采用用Adam训练策略和改进的loss函数进行训练得到逆滤波参数估计模型;其中模型的学习率为0.0001,改进的loss函数公式如下所示:
其中,x为期望的逆滤波参数,n为输入训练的总帧数,u为放缩因子,t表示期望的逆滤波参数对应的功率谱频率索引,h表示2kHz对应的频率索引,表示1~2kHz的能量总和。
在训练结束后,便可得到训练好的逆滤波参数估计模型。
当检测到接收到的时域语音信号为窄带语音信号时,采用上述基于窄带语音信号生成伪高频信号相同的方法得到伪高频信号,并计算该伪高频信号的功率谱能量,将该伪高频信号的功率谱能量输入到训练好的逆滤波参数模型,可得到逆滤波参数;将该逆滤波参数与该伪高频信号的频谱相乘,得到相乘结果;对该相乘结果进行逆傅里叶变换和通过一阶IIR滤波器进行6kHz低通滤波处理,得到最终的宽带信号。
实施例2:
请参阅图4,本发明实施例提供一种基于深度学习注意力机制的频带扩展装置,包括:
伪高频信号生成单元200,用于基于窄带语音信号生成伪高频信号;
功率谱能量计算单元201,用于计算所述伪高频信号的功率谱能量;
逆滤波参数获取单元202,通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号的功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到;
相乘单元203,用于将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;
逆傅里叶变换及低通滤波单元204,用于对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号。
作为本发明实施例的一种举例,所述逆滤波参数估计模型包括输入层、第一Dense层、第一GRU层、第二GRU层、Attention层、第二Dense层以及输出层;其中,所述第一Dense层接收所述输入层输出的数据,所述第一GRU层接收所述第一Dense层输出的数据,所述第二GRU层接收所述第一GRU层输出的数据,所述Attention层接收所述第一GRU层输出的数据和所述第二GRU层输出的数据,所述第二Dense层接收所述Attention层输出的数据和所述第一GRU层输出的数据。
作为本发明实施例的一种举例,所述逆滤波参数估计模型通过采用Adam训练策略和改进的loss函数训练得到,所述改进的loss函数为:
其中,x为期望的逆滤波参数,n为输入训练的总帧数,u为放缩因子,t表示期望的逆滤波参数对应的功率谱频率索引,h表示2kHz对应的频率索引,表示1~2kHz的能量总和。
作为本发明实施例的一种举例,所述Attention层的计算公式为:
score(hk,hq)=hk TWhq
其中,hk为所述第一GRU层的输出、hq为所述第二GRU层的输出,score(.)表示相关性得分,W为hk和hq的权重。
作为本发明实施例的一种举例,所述基于窄带语音信号生成伪高频信号,包括:
当检测到窄带语音信号时,对所述窄带语音信号进行上采样处理;
对上采样处理后的窄带语音信号进行分帧处理;
分别对分帧后的每一帧语音信号进行加窗处理;
分别对加窗处理后的每一帧语音信号进行快速傅里叶变换,获得每一帧语音信号的频谱;
根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率;
根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带,并分别基于其最高频率向上填充频谱,直至频谱补充完成,得到每一帧语音信号的第二频谱;
对每一帧语音信号的第二频谱进行逆傅里叶变换,得到伪高频信号。
优选地,估计当前帧最高频率的方法包括:
计算设定频率范围内的平均功率谱能量,并取所述平均功率谱能量的1/N作为能量阈值,以估计当前帧的最高频率;其中,N大于1;
从所述设定频率范围的最高频率往下逐一检索,若检索到某一频率对应的功率谱能量大于所述能量阈值,则所述某一频率为所述当前帧的最高频率。
作为本发明实施例的一种举例,根据当前帧的最高频率确定其谱平移的子带,包括:
设当前帧的最高频率为Q,取[Q-1000,Q]Hz范围的子带作为谱平移的子带。
优选地,当将8kHz的窄带语音信号扩展成16kHz的宽语音带信号时,所述设定频率为2kHz~4kHz,所述N等于8。
实施例3:
本发明实施例提供一种会议终端系统,包括:
声音信号采集器、信号转换器、处理装置、传输模块和终端;其中,所述声音信号采集器与所述信号转换器连接,所述信号转换器与所述处理装置连接,所述处理装置与所述传输模块连接,所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于深度学习注意力机制的频带扩展程序,所述基于深度学习注意力机制的频带扩展程序被所述处理器执行时实现实施例1所述的基于深度学习注意力机制的频带扩展方法的步骤;所述终端用于接收频带扩展后的信号。
需要说明的是,本发明第一实施例提供的的所有技术内容、技术效果以及对所述第一实施例提供的的所有解释、说明均适用于本发明第二实施例提供的装置,第三实施例提供的会议终端系统,因此本发明第二实施例、第三实施例在此不作过多赘述。
实施例4:
本发明实施例提供一种计算机可读存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的基于深度学习注意力机制的频带扩展方法,并达到与上述基于深度学习注意力机制的频带扩展方法一致的技术效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可监听存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (9)
1.一种基于深度学习注意力机制的频带扩展方法,其特征在于,包括:
基于窄带语音信号生成伪高频信号;
计算所述伪高频信号的功率谱能量;
通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到;
将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;
对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号;
所述基于窄带语音信号生成伪高频信号,包括:
当检测到窄带语音信号时,对所述窄带语音信号进行上采样处理;
对上采样处理后的窄带语音信号进行分帧处理;
分别对分帧后的每一帧语音信号进行加窗处理;
分别对加窗处理后的每一帧语音信号进行快速傅里叶变换,获得每一帧语音信号的频谱;
根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率;
根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带,并分别基于其最高频率向上填充频谱,直至频谱补充完成,得到每一帧语音信号的第二频谱;
对每一帧语音信号的第二频谱进行逆傅里叶变换,得到伪高频信号。
2.根据权利要求1所述的基于深度学习注意力机制的频带扩展方法,其特征在于,所述逆滤波参数估计模型包括输入层、第一Dense层、第一GRU层、第二GRU层、Attention层、第二Dense层以及输出层;其中,所述第一Dense层接收所述输入层输出的数据,所述第一GRU层接收所述第一Dense层输出的数据,所述第二GRU层接收所述第一GRU层输出的数据,所述Attention层接收所述第一GRU层输出的数据和所述第二GRU层输出的数据,所述第二Dense层接收所述Attention层输出的数据和所述第一GRU层输出的数据。
3.根据权利要求1所述的基于深度学习注意力机制的频带扩展方法,其特征在于,所述逆滤波参数估计模型通过采用Adam训练策略和改进的loss函数训练得到,所述改进的loss函数为:
其中,x为期望的逆滤波参数,n为输入训练的总帧数,u为放缩因子,t表示期望的逆滤波参数对应的功率谱频率索引,h表示2kHz对应的频率索引,表示1~2kHz的能量总和。
4.根据权利要求2所述的基于深度学习注意力机制的频带扩展方法,其特征在于,所述Attention层的计算公式为:
score(hk,hq)=hk TWhq
其中,hk为所述第一GRU层的输出、hq为所述第二GRU层的输出,score(.)表示相关性得分,W为hk和hq的权重。
5.根据权利要求1所述的基于深度学习注意力机制的频带扩展方法,其特征在于,估计当前帧最高频率的方法包括:
计算设定频率范围内的平均功率谱能量,并取所述平均功率谱能量的1/N作为能量阈值,以估计当前帧的最高频率;其中,N大于1;
从所述设定频率范围的最高频率往下逐一检索,若检索到某一频率对应的功率谱能量大于所述能量阈值,则所述某一频率为所述当前帧的最高频率。
6.根据权利要求1所述的基于深度学习注意力机制的频带扩展方法,其特征在于,根据当前帧的最高频率确定其谱平移的子带,包括:
设最高频率为Q,取[Q-1000,Q]Hz范围的子带作为谱平移的子带。
7.根据权利要求5所述的基于深度学习注意力机制的频带扩展方法,其特征在于,当将8kHz的窄带语音信号扩展成16kHz的宽语音带信号时,所述设定频率为2kHz~4kHz,所述N等于8。
8.一种基于深度学习注意力机制的频带扩展装置,其特征在于,包括:
伪高频信号生成装置,用于基于窄带语音信号生成伪高频信号;
功率谱能量计算单元,用于计算所述伪高频信号的功率谱能量;
逆滤波参数获取单元,通过预先训练好的逆滤波参数估计模型,获取所述伪高频信号的功率谱能量对应的逆滤波参数;所述逆滤波参数估计模型为基于深度学习注意力机制,以伪高频信号的功率谱能量作为输入,逆滤波参数作为输出训练得到;
相乘单元,用于将所述逆滤波参数与所述伪高频信号的频谱相乘,得到相乘结果;
逆傅里叶变换及低通滤波单元,用于对所述相乘结果进行逆傅里叶变换和低通滤波处理,得到宽带信号;
所述基于窄带语音信号生成伪高频信号,包括:
当检测到窄带语音信号时,对所述窄带语音信号进行上采样处理;
对上采样处理后的窄带语音信号进行分帧处理;
分别对分帧后的每一帧语音信号进行加窗处理;
分别对加窗处理后的每一帧语音信号进行快速傅里叶变换,获得每一帧语音信号的频谱;
根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率;
根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带,并分别基于其最高频率向上填充频谱,直至频谱补充完成,得到每一帧语音信号的第二频谱;
对每一帧语音信号的第二频谱进行逆傅里叶变换,得到伪高频信号。
9.一种会议终端系统,其特征在于,包括:
声音信号采集器、信号转换器、处理装置、传输模块和终端;其中,所述声音信号采集器与所述信号转换器连接,所述信号转换器与所述处理装置连接,所述处理装置与所述传输模块连接,所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于深度学习注意力机制的频带扩展程序,所述基于深度学习注意力机制的频带扩展程序被所述处理器执行时实现如权利要求1至7任一项所述的基于深度学习注意力机制的频带扩展方法的步骤;所述终端用于接收频带扩展后的信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010933415.XA CN112233685B (zh) | 2020-09-08 | 2020-09-08 | 基于深度学习注意力机制的频带扩展方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010933415.XA CN112233685B (zh) | 2020-09-08 | 2020-09-08 | 基于深度学习注意力机制的频带扩展方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233685A CN112233685A (zh) | 2021-01-15 |
CN112233685B true CN112233685B (zh) | 2024-04-19 |
Family
ID=74116618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010933415.XA Active CN112233685B (zh) | 2020-09-08 | 2020-09-08 | 基于深度学习注意力机制的频带扩展方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233685B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436406A (zh) * | 2008-12-22 | 2009-05-20 | 西安电子科技大学 | 音频编解码器 |
JP2010066335A (ja) * | 2008-09-09 | 2010-03-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体 |
CN102201240A (zh) * | 2011-05-27 | 2011-09-28 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
CN103314407A (zh) * | 2011-01-14 | 2013-09-18 | 索尼公司 | 信号处理装置、方法以及程序 |
EP2750134A1 (en) * | 2011-08-24 | 2014-07-02 | Sony Corporation | Encoding device and method, decoding device and method, and program |
CN112201261A (zh) * | 2020-09-08 | 2021-01-08 | 厦门亿联网络技术股份有限公司 | 基于线性滤波的频带扩展方法、装置及会议终端系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
KR101775084B1 (ko) * | 2013-01-29 | 2017-09-05 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법 |
-
2020
- 2020-09-08 CN CN202010933415.XA patent/CN112233685B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010066335A (ja) * | 2008-09-09 | 2010-03-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体 |
CN101436406A (zh) * | 2008-12-22 | 2009-05-20 | 西安电子科技大学 | 音频编解码器 |
CN103314407A (zh) * | 2011-01-14 | 2013-09-18 | 索尼公司 | 信号处理装置、方法以及程序 |
CN102201240A (zh) * | 2011-05-27 | 2011-09-28 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
EP2750134A1 (en) * | 2011-08-24 | 2014-07-02 | Sony Corporation | Encoding device and method, decoding device and method, and program |
CN112201261A (zh) * | 2020-09-08 | 2021-01-08 | 厦门亿联网络技术股份有限公司 | 基于线性滤波的频带扩展方法、装置及会议终端系统 |
Non-Patent Citations (2)
Title |
---|
A. Ferreol ,et al.Space-frequency direction finding in wideband and multi-path contexts.《 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings》.2002,全文. * |
基于MDCT的线性带宽扩展方法;李思源等;《智能计算机与应用》;第10卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112233685A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5551258B2 (ja) | 狭帯域信号から「より上の帯域」の信号を決定すること | |
CN112712812B (zh) | 音频信号生成方法、装置、设备以及存储介质 | |
EP2151822B1 (en) | Apparatus and method for processing and audio signal for speech enhancement using a feature extraction | |
CN103026407B (zh) | 带宽扩展器 | |
CN1750124B (zh) | 带限音频信号的带宽扩展 | |
JP5127754B2 (ja) | 信号処理装置 | |
CN101976566B (zh) | 语音增强方法及应用该方法的装置 | |
CN101141533B (zh) | 用于提供具有扩展带宽的声音信号的方法和系统 | |
Pulakka et al. | Speech bandwidth extension using gaussian mixture model-based estimation of the highband mel spectrum | |
WO2005117517A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
CN105321525A (zh) | 一种降低voip通信资源开销的系统和方法 | |
WO2006082868A2 (en) | Method and system for identifying speech sound and non-speech sound in an environment | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN113299313B (zh) | 音频处理方法、装置及电子设备 | |
CN116368563B (zh) | 使用深度生成网络的实时数据包丢失隐藏 | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
CN112233685B (zh) | 基于深度学习注意力机制的频带扩展方法及装置 | |
CN112201261B (zh) | 基于线性滤波的频带扩展方法、装置及会议终端系统 | |
Hammam et al. | Blind signal separation with noise reduction for efficient speaker identification | |
JP2012181561A (ja) | 信号処理装置 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN113823309B (zh) | 一种降噪模型构建和降噪处理方法 | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 | |
Kumar et al. | Speech quality evaluation for different pitch detection algorithms in LPC speech analysis–synthesis system | |
Wang et al. | Combined Generative and Predictive Modeling for Speech Super-resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |