CN116705042A - 一种长帧移语音相位谱预测方法及装置 - Google Patents
一种长帧移语音相位谱预测方法及装置 Download PDFInfo
- Publication number
- CN116705042A CN116705042A CN202310737506.XA CN202310737506A CN116705042A CN 116705042 A CN116705042 A CN 116705042A CN 202310737506 A CN202310737506 A CN 202310737506A CN 116705042 A CN116705042 A CN 116705042A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- frame shift
- voice
- frame
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 233
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000037433 frameshift Effects 0.000 claims abstract description 156
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 9
- 238000006467 substitution reaction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004804 winding Methods 0.000 description 7
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种长帧移语音相位谱预测方法及装置,涉及语音信号处理技术领域,该方法包括:基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;根据短帧移语音相位谱,生成长帧移语音相位谱。本发明能够提高长帧移语音相位谱的预测结果准确度。
Description
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种长帧移语音相位谱预测方法及装置。
背景技术
语音相位预测(speech phase prediction)又名语音相位重构(speech phasereconstruction),旨在于根据语音的幅度谱或其相关特征恢复对应的相位谱。早期,使用Griffin-Lim算法进行语音相位预测。Griffin-Lim算法是一个著名的迭代式语音相位谱估计算法,通过短时傅里叶变换(short-time Fourier transform,STFT)和逆短时傅里叶变换(inverse short-time Fourier transform,ISTFT)迭代地从幅度谱中估计相位谱。随着深度学习和神经网络的发展,一些结合神经网络的相位预测方法逐渐被提出。例如,一种基于平行估计架构和抗卷绕损失的神经网络语音相位谱预测方法,该方法实现了通过神经网络模型从语音对数幅度谱中直接预测语音卷绕相位谱。
然而,无论是Griffin-Lim算法等传统的迭代式语音相位谱估计算法,还是基于平行估计架构和抗卷绕损失的神经网络语音相位谱预测方法,其性能对于语音相位谱的短时傅里叶变换帧移长短均十分敏感。由于相位的卷绕特性,卷绕相位谱随时间变化曲线的值域限制在相位主值区间内,在主值区间边界处会存在时域不连续的现象。对于同一段语音,当进行更长帧移的短时傅里叶变换时,生成的相位谱帧数更少,因此这一时域不连续现象在长帧移相位谱上体现地更加明显。长帧移相位谱的帧间相位关联性较小,帧独立性较强,时域连续性较差,导致更难恢复和预测。当帧移较短时,现有的语音相位谱预测方法能够精确恢复相位谱,甚至某些方法可以达到接近自然语音的效果;当帧移较长时,传统的迭代式语音相位谱估计算法重构的波形几乎完全丢失了频谱细节,基于平行估计架构和抗卷绕损失的神经网络语音相位谱预测方法重构的语音波形质量也有明显的下降,出现明显的噪声,难以对相位谱的时域不连续性精确建模。
因此,现有技术中存在难以提高长帧移语音相位谱的预测结果准确度的技术问题。
发明内容
为了解决现有技术中存在的难以提高长帧移语音相位谱的预测结果准确度的技术问题,本发明提供了一种长帧移语音相位谱预测方法及装置。
本发明的技术方案如下:
本发明提供了一种长帧移语音相位谱预测方法,包括:
基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;
使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;
根据所述短帧移语音相位谱,生成长帧移语音相位谱。
可选的,基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱,具体包括:
对所述长帧移语音对数幅度谱进行分频,得到多个第一帧序列;
针对每个所述第一帧序列,对该第一帧序列进行无损插值,得到第二帧序列;
按频率轴拼接各个所述第二帧序列,得到所述短帧移语音对数幅度谱。
可选的,对该第一帧序列进行无损插值,得到第二帧序列,具体包括:
在所述该第一帧序列中的每个样值点之后插入预设数量样值点,得到对应的第二帧序列。
可选的,对该第一帧序列进行无损插值,得到第二帧序列,具体包括:
使用基于信号处理的无损插值模块或基于神经网络的无损插值模块,对所述该第一帧序列进行无损插值,得到对应的第二帧序列。
可选的,所述基于信号处理的无损插值模块包括补零器和低通滤波器;
所述基于信号处理的无损插值模块具体用于:
使用所述补零器,在所述该第一帧序列中的每个样值点之后插入预设数量的零值点,得到补零序列;
使用所述低通滤波器,将所述补零序列中的各个零值点替换为插值点,得到对应的第二帧序列。
可选的,所述基于神经网络的无损插值模块包括步长为D的反卷积层和替换模块;
所述基于神经网络的无损插值模块具体用于:
使用所述反卷积层,将所述该第一帧序列转换为长度为D*F的中间序列,其中,F为所述该第一帧序列的长度;
针对所述中间序列中的每个样值点,使用所述替换模块,将该样值点替换为所述该第一帧序列中的与该样值点对应的样值点,得到对应的第二帧序列。
可选的,根据所述短帧移语音相位谱,生成长帧移语音相位谱,具体包括:
将所述短帧移语音相位谱中的非插值帧抽取出;
按频率轴拼接抽取出的各个所述非插值帧,得到所述长帧移语音相位谱。
可选的,根据所述短帧移语音相位谱,生成长帧移语音相位谱之后,本发明的方法,还包括:
将所述长帧移语音相位谱与所述长帧移语音对数幅度谱进行组合,得到短时复数谱;
对所述短时复数谱进行逆短时傅里叶变换,得到语音波形。
可选的,使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱,具体包括:
将所述短帧移语音对数幅度谱输入预设相位预测神经网络,得到所述预设相位预测神经网络输出的短帧移语音相位谱;
其中,所述预设相位预测神经网络包括残差卷积网络、平行的第一线性卷积层和第二线性卷积层、以及相位计算单元,且所述预设相位预测神经网络的损失函数包括瞬时相位损失、群延时损失和瞬时角频率损失的线性组合。
本发明还提供了一种长帧移语音相位谱预测装置,包括:
插值模块,用于基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;
预测模块,用于使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;
抽取模块,用于根据所述短帧移语音相位谱,生成长帧移语音相位谱。
本发明采用上述技术方案,具备如下有益效果:
一种长帧移语音相位谱预测方法,包括:基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;根据短帧移语音相位谱,生成长帧移语音相位谱。基于此,由于基于无损插值技术将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱后,使用短帧移语音对数幅度谱进行相位谱预测,而避免直接对长帧移语音对数幅度谱进行相位谱预测,使得本发明能够提高长帧移语音相位谱的预测结果准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的一种长帧移语音相位谱预测方法的整体架构示意图;
图2是本发明实施例提供的一种长帧移语音相位谱预测方法的流程示意图;
图3是本发明实施例提供的一种基于信号处理的无损插值模块的结构示意图;
图4是本发明实施例提供的一种基于神经网络的无损插值模块的结构示意图;
图5是本发明实施例提供的一种长帧移语音相位谱预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解本申请的技术方案,首先对本申请可能涉及的部分术语进行说明。
相位卷绕:假设相位的主值区间为(-π,π],相位会在边界-π和π处发生跳变,表现出一种不连续的现象,这种现象就称为语音信号的相位卷绕。
幅度谱和相位谱:语音信号经过短时傅里叶变换后可以得到短时复数谱,然后根据幅度计算公式对短时复数谱进行计算,可以得到语音信号的幅度谱,幅度谱反映了该组成该语音信号的不同频率正弦信号的幅度,而根据幅度谱预测出的该语音信号的相位谱,则反映了该语音信号中不同频率正弦信号的相位。
对数幅度谱:对幅度谱取自然对数后,可以得到信号的对数幅度谱。
下面结合附图,详细说明本申请的技术方案。
图1是本发明实施例提供的一种长帧移语音相位谱预测方法的整体架构示意图。如图1所示,本长帧移语音相位谱预测方法整体分为插值、预测和抽取三个阶段。
在插值阶段中,首先将输入的长帧移语音对数幅度谱分频,得到多个第一帧序列。然后,针对每个所述第一帧序列,对该第一帧序列进行无损插值,得到第二帧序列;对第一帧序列进行无损插值,可以扩大该第一帧序列的帧数。最后拼接各个第二帧序列得到短帧移语音对数幅度谱。无损插值后的短帧移语音对数幅度谱完整保存了长帧移语音对数幅度谱的原始信息,未出现信息损失。
在预测阶段中,使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱,使得本申请能够避免直接对长帧移语音对数幅度谱进行相位谱预测,进而使得本申请能够提高长帧移语音相位谱的预测结果准确度。
在抽取阶段中,通过隔帧抽取方式,将短帧移语音相位谱中的非插值帧抽取出并按频率轴进行拼接,得到长帧移语音相位谱。
图2是本发明实施例提供的一种长帧移语音相位谱预测方法的流程示意图。下面结合图1和图2,具体说明本发明实施例的长帧移语音相位谱预测方法。
参考图1和图2,本流程包括:
步骤201:基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱。
具体的,步骤201:基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱,具体可以包括:
1、对长帧移语音对数幅度谱进行分频,得到多个第一帧序列。
2、针对每个第一帧序列,对该第一帧序列进行无损插值,得到第二帧序列。
3、按频率轴拼接各个第二帧序列,得到短帧移语音对数幅度谱。
可选的,对该第一帧序列进行无损插值,得到第二帧序列,具体可以包括:
在该第一帧序列中的每个样值点之后插入预设数量样值点,得到对应的第二帧序列。
在一个具体的例子中,获取帧移为T/F的长帧移语音对数幅度谱 后,对长帧移语音对数幅度谱logAL进行分频,得到N个第一帧序列/>即:
其中,表示实数集,T表示语音时域波形点数,F和N分别表示谱的帧数和频点数。
接下来,每个第一帧序列分别经过相同的无损插值模块,以在每个第一帧序列/>中的每个样值点之后插入D-1个样值点,得到各个第二帧序列其长度为第一帧序列/>的D倍。
按频率轴拼接各个第二帧序列得到帧移为T/(DF)的短帧移语音对数幅度谱logAS,即:
步骤202:使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱。
具体的,步骤202:使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱,具体可以包括:
将短帧移语音对数幅度谱输入预设相位预测神经网络,得到预设相位预测神经网络输出的短帧移语音相位谱。
其中,预设相位预测神经网络包括残差卷积网络、平行的第一线性卷积层和第二线性卷积层、以及相位计算单元。
接上述示例,短帧移语音对数幅度谱logAS通过残差卷积网络后,再分别通过第一线性卷积层和第二线性卷积层,得到第一线性卷积层输出的伪实部和第二线性卷积层输出的伪虚部/>接着,相位计算单元(二元激活函数)使用伪实部和伪虚部/>计算短帧移语音相位谱/>
其中,Φ()表示用于进行相位计算的函数,该函数的表达式如下:
其中,Φ(0,0)=0。当x≥0时,Sgn*(x)=1;当x<0时,Sgn*(x)=-1。
上述的伪实部伪虚部/>以及计算出的短帧移语音相位谱均为DF行N列的矩阵,因此,公式(4)中,对输入的伪实部和伪虚部两个矩阵逐元素进行计算,获得短帧移语音相位谱中对应位置的元素,例如,将伪实部的第1行第1列的元素和伪虚部的第1行第1列的元素代入公式(4)中,计算出的结果作为短帧移语音相位谱中第1行第1列的元素。
本说明书实施例中,第一线性卷积层、第二线性卷积层和相位计算单元构成了平行估计架构,是实现语音相位谱直接精确预测的关键之一,该架构模拟了语音信号短时复数谱的实部和虚部到相位谱的计算过程,将模型预测的相位值严格地限制在主值区间(-π,π]内,即实现了卷绕相位谱的预测。
步骤203:根据短帧移语音相位谱,生成长帧移语音相位谱。
具体的,步骤203:根据短帧移语音相位谱,生成长帧移语音相位谱,具体可以包括:
1、将短帧移语音相位谱中的非插值帧抽取出。
2、按频率轴拼接抽取出的各个非插值帧,得到长帧移语音相位谱。
在一个具体的例子中,预测的短帧移语音相位谱通过隔帧抽取的方式(抽取第1帧、第1+D帧、…、第1+(F-1)D帧),将长帧移对应位置处的帧抽取出来并进行拼接,得到一个F×N矩阵的长帧移语音相位谱/>
其中,即与插值过程中输入的长帧移对数幅度谱logAL所对应的相位谱。
本发明实施例采用上述技术方案,一种长帧移语音相位谱预测方法,包括:基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;根据短帧移语音相位谱,生成长帧移语音相位谱。基于此,由于基于无损插值技术将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱后,使用短帧移语音对数幅度谱进行相位谱预测,而避免直接对长帧移语音对数幅度谱进行相位谱预测,使得本发明实施例能够提高长帧移语音相位谱的预测结果准确度。
本发明实施例中,上述的无损插值模块具体可以为基于信号处理的无损插值模块或基于神经网络的无损插值模块。
图3是本发明实施例提供的一种基于信号处理的无损插值模块的结构示意图。如图3所示,基于信号处理的无损插值模块包括补零器31和低通滤波器32。
基于信号处理的无损插值模块具体用于:
针对任意一个第一帧序列,使用补零器31,在该第一帧序列中的每个样值点之后插入预设数量的零值点,得到补零序列;然后,使用低通滤波器32,将补零序列中的各个零值点替换为插值点,得到对应的第二帧序列。
在一个具体的例子中,针对任意一个第一帧序列其首先通过补零器31在其每个样值点之后插入D-1个零值点,得到长度为DF的补零序列/>即:
其中,f表示样值点索引,集合 有DF个点,例如f=1,则/>就是/>第一个点的值。公式(6)表示:在长度为F的序列/>的每个样值点之后补D-1个0,构造长度为DF的序列/>
接下来,补零序列通过频率响应为HD(ejω)的低通滤波器32:
以将零值点替换为插值点,但原待插值点保持不变,生成最终插值后的第二帧序列这一过程可以在频域中实现,即:
其中,DTFT和IDTFT分别表示离散时间傅里叶变换和逆离散时间傅里叶变换。⊙表示连续函数相乘。
其次,这一过程也可以在时域中实现。
本实施例中,基于信号处理的无损插值模块具有易于实现和操作简便的优点。
图4是本发明实施例提供的一种基于神经网络的无损插值模块的结构示意图。如图4所示,基于神经网络的无损插值模块包括步长为D的反卷积层41和替换模块42。
基于神经网络的无损插值模块具体用于:
针对任意一个第一帧序列,使用反卷积层41,将该第一帧序列转换为长度为D*F的中间序列,其中,F为该第一帧序列的长度;然后,针对中间序列中的每个样值点,使用替换模块42,将该样值点替换为该第一帧序列中的与该样值点对应的样值点,得到对应的第二帧序列。
在一个具体的例子中,第一帧序列首先通过一个步长(stride)为D的可训练反卷积层生成一个长度为DF的中间序列/>
接下来,针对中间序列中的每个样值点,使用替换模块42,将该样值点替换为对应第一帧序列/>中的与该样值点对应的样值点,其他位置处的样值点保持不变,生成最终插值后的第二帧序列/>即:
本实施例中,基于神经网络的无损插值模块中的反卷积层41是可训练的,因此,使得该模块可以与上述的预设相位预测神经网络进行联合训练,插值过程可学习,具备较好的泛化能力。
本说明书实施例中,根据短帧移语音相位谱,生成长帧移语音相位谱之后,本说明书实施例的方法,还可以包括:
将长帧移语音相位谱与长帧移语音对数幅度谱/>进行组合,得到短时复数谱;然后,对短时复数谱进行逆短时傅里叶变换,得到语音波形/>即:
本说明书实施例中,由于本发明能够提高长帧移语音相位谱的预测结果准确度,进而,本发明重构出的语音波形的质量较高。
本发明实施例中,预设相位预测神经网络的损失函数包括瞬时相位损失、群延时损失和瞬时角频率损失的线性组合。
参考图1,预设相位预测神经网络的损失函数定义在预测的短帧移语音相位谱与自然的短帧移语音相位谱/>之间。其中,自然的短帧移相位谱PS的提取过程为:
首先从自然的语音时域波形中,通过帧移设置为T/(DF)的短时傅里叶变换提取短时复数谱/>其中/>为复数集。然后计算短时复数谱S的实部/>和虚部/>最后通过二元激活函数Φ计算得到PS,即PS=Φ(RS,IS)。
损失函数为预设相位预测神经网络中使用的相位抗卷绕损失,包括瞬时相位损失群延时损失/>和瞬时角频率损失/>分别定义为:
其中,为线性抗卷绕函数,用于避免因相位卷绕导致的训练误差扩大问题,round表示四舍五入;fAW(X)表示对矩阵X进行逐元素的抗卷绕函数计算;/>表示对矩阵Y中所有元素计算平均值;ΔDF和
ΔDT分别表示沿频率轴差分和沿时间轴差分;表示计算期望值。
预设相位预测神经网络的训练准则为最小化瞬时相位损失、群延时损失和瞬时角频率损失的线性组合,即:
需要说明的是,本发明实施例中,预设相位预测神经网络的训练过程仅包含上述的插值阶段和预测阶段。
基于一个总的发明构思,本发明还提供了一种长帧移语音相位谱预测装置。图5是本发明实施例提供的一种长帧移语音相位谱预测装置的结构示意图。如图5所示,本装置包括:
插值模块51,用于基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱。
预测模块52,用于使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱。
抽取模块53,用于根据短帧移语音相位谱,生成长帧移语音相位谱。
可选的,插值模块51可以包括:
分频单元,用于对长帧移语音对数幅度谱进行分频,得到多个第一帧序列。
插值单元,用于针对每个第一帧序列,对该第一帧序列进行无损插值,得到第二帧序列。
拼接单元,用于按频率轴拼接各个第二帧序列,得到短帧移语音对数幅度谱。
可选的,插值单元具体可以用于:
在该第一帧序列中的每个样值点之后插入预设数量样值点,得到对应的第二帧序列。
可选的,插值单元具体可以用于:
使用基于信号处理的无损插值模块或基于神经网络的无损插值模块,对该第一帧序列进行无损插值,得到对应的第二帧序列。
其中,基于信号处理的无损插值模块包括补零器和低通滤波器;
基于信号处理的无损插值模块具体用于:
使用补零器,在该第一帧序列中的每个样值点之后插入预设数量的零值点,得到补零序列;
使用低通滤波器,将补零序列中的各个零值点替换为插值点,得到对应的第二帧序列。
基于神经网络的无损插值模块包括步长为D的反卷积层和替换模块;
基于神经网络的无损插值模块具体用于:
使用反卷积层,将该第一帧序列转换为长度为D*F的中间序列,其中,F为该第一帧序列的长度;
针对中间序列中的每个样值点,使用替换模块,将该样值点替换为该第一帧序列中的与该样值点对应的样值点,得到对应的第二帧序列。
可选的,抽取模块53具体可以用于:
将短帧移语音相位谱中的非插值帧抽取出;
按频率轴拼接抽取出的各个非插值帧,得到长帧移语音相位谱。
可选的,本发明实施例的装置,还可以包括生成语音波形模块,用于:
将长帧移语音相位谱与长帧移语音对数幅度谱进行组合,得到短时复数谱;
对短时复数谱进行逆短时傅里叶变换,得到语音波形。
可选的,预测模块52具体可以用于:
将短帧移语音对数幅度谱输入预设相位预测神经网络,得到预设相位预测神经网络输出的短帧移语音相位谱;
其中,预设相位预测神经网络包括残差卷积网络、平行的第一线性卷积层和第二线性卷积层、以及相位计算单元,且预设相位预测神经网络的损失函数包括瞬时相位损失、群延时损失和瞬时角频率损失的线性组合。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本发明各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本发明所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种长帧移语音相位谱预测方法,其特征在于,包括:
基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;
使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;
根据所述短帧移语音相位谱,生成长帧移语音相位谱。
2.根据权利要求1所述的方法,其特征在于,基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱,具体包括:
对所述长帧移语音对数幅度谱进行分频,得到多个第一帧序列;
针对每个所述第一帧序列,对该第一帧序列进行无损插值,得到第二帧序列;
按频率轴拼接各个所述第二帧序列,得到所述短帧移语音对数幅度谱。
3.根据权利要求2所述的方法,其特征在于,对该第一帧序列进行无损插值,得到第二帧序列,具体包括:
在所述该第一帧序列中的每个样值点之后插入预设数量样值点,得到对应的第二帧序列。
4.根据权利要求2所述的方法,其特征在于,对该第一帧序列进行无损插值,得到第二帧序列,具体包括:
使用基于信号处理的无损插值模块或基于神经网络的无损插值模块,对所述该第一帧序列进行无损插值,得到对应的第二帧序列。
5.根据权利要求4所述的方法,其特征在于,所述基于信号处理的无损插值模块包括补零器和低通滤波器;
所述基于信号处理的无损插值模块具体用于:
使用所述补零器,在所述该第一帧序列中的每个样值点之后插入预设数量的零值点,得到补零序列;
使用所述低通滤波器,将所述补零序列中的各个零值点替换为插值点,得到对应的第二帧序列。
6.根据权利要求4所述的方法,其特征在于,所述基于神经网络的无损插值模块包括步长为D的反卷积层和替换模块;
所述基于神经网络的无损插值模块具体用于:
使用所述反卷积层,将所述该第一帧序列转换为长度为D*F的中间序列,其中,F为所述该第一帧序列的长度;
针对所述中间序列中的每个样值点,使用所述替换模块,将该样值点替换为所述该第一帧序列中的与该样值点对应的样值点,得到对应的第二帧序列。
7.根据权利要求2所述的方法,其特征在于,根据所述短帧移语音相位谱,生成长帧移语音相位谱,具体包括:
将所述短帧移语音相位谱中的非插值帧抽取出;
按频率轴拼接抽取出的各个所述非插值帧,得到所述长帧移语音相位谱。
8.根据权利要求1所述的方法,其特征在于,根据所述短帧移语音相位谱,生成长帧移语音相位谱之后,还包括:
将所述长帧移语音相位谱与所述长帧移语音对数幅度谱进行组合,得到短时复数谱;
对所述短时复数谱进行逆短时傅里叶变换,得到语音波形。
9.根据权利要求1所述的方法,其特征在于,使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱,具体包括:
将所述短帧移语音对数幅度谱输入预设相位预测神经网络,得到所述预设相位预测神经网络输出的短帧移语音相位谱;
其中,所述预设相位预测神经网络包括残差卷积网络、平行的第一线性卷积层和第二线性卷积层、以及相位计算单元,且所述预设相位预测神经网络的损失函数包括瞬时相位损失、群延时损失和瞬时角频率损失的线性组合。
10.一种长帧移语音相位谱预测装置,其特征在于,包括:
插值模块,用于基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;
预测模块,用于使用所述短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;
抽取模块,用于根据所述短帧移语音相位谱,生成长帧移语音相位谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310737506.XA CN116705042A (zh) | 2023-06-19 | 2023-06-19 | 一种长帧移语音相位谱预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310737506.XA CN116705042A (zh) | 2023-06-19 | 2023-06-19 | 一种长帧移语音相位谱预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705042A true CN116705042A (zh) | 2023-09-05 |
Family
ID=87840818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310737506.XA Pending CN116705042A (zh) | 2023-06-19 | 2023-06-19 | 一种长帧移语音相位谱预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705042A (zh) |
-
2023
- 2023-06-19 CN CN202310737506.XA patent/CN116705042A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yegnanarayana et al. | Significance of group delay functions in signal reconstruction from spectral magnitude or phase | |
DK2337224T3 (en) | Filter unit and method for generating subband filter pulse response | |
Najim | Digital filters design for signal and image processing | |
JP6677662B2 (ja) | 音響処理装置、音響処理方法およびプログラム | |
CN108564958B (zh) | 音频帧丢失隐藏 | |
Oudre | Interpolation of missing samples in sound signals based on autoregressive modeling | |
EP2562751B1 (en) | Temporal interpolation of adjacent spectra | |
JP2019078864A (ja) | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム | |
CN108011615B (zh) | 一种信号处理的方法和装置 | |
CN110557122B (zh) | 一种tiadc系统频响非一致性误差的校正方法 | |
CN117318671B (zh) | 一种基于快速傅里叶变换的自适应滤波方法 | |
Milani et al. | Analysis and optimal design of delayless subband active noise control systems for broadband noise | |
JPS6051017A (ja) | アナログ信号の解析及び検索方法及び装置 | |
CN116705042A (zh) | 一种长帧移语音相位谱预测方法及装置 | |
CN112505413B (zh) | 一种时频分析方法和系统 | |
Dong et al. | Audio super-resolution using analysis dictionary learning | |
Kim et al. | Hd-demucs: General speech restoration with heterogeneous decoders | |
JP6154777B2 (ja) | 高速畳込近似装置、高速畳込近似方法、プログラム | |
CN105849802B (zh) | 用于正交镜像滤波的方法和装置 | |
JP4814899B2 (ja) | 音響信号フィルタとそのフィルタリング方法と、そのプログラムと記録媒体 | |
Isen | DSP for MATLABTM and LabVIEWTM I: Fundamentals of Discrete Signal Processing | |
Bank | Warped, kautz, and fixed-pole parallel filters: A review | |
Douglas et al. | Single-channel Wiener filtering of deterministic signals in stochastic noise using the panorama | |
JP6728250B2 (ja) | 音響処理装置、音響処理方法およびプログラム | |
Carson et al. | Sample Rate Independent Recurrent Neural Networks for Audio Effects Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |