CN114170995A - 一种语音信号频带扩展方法、装置、设备及存储介质 - Google Patents
一种语音信号频带扩展方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114170995A CN114170995A CN202111314241.XA CN202111314241A CN114170995A CN 114170995 A CN114170995 A CN 114170995A CN 202111314241 A CN202111314241 A CN 202111314241A CN 114170995 A CN114170995 A CN 114170995A
- Authority
- CN
- China
- Prior art keywords
- speech
- signal
- source
- sampling
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000001228 spectrum Methods 0.000 claims abstract description 108
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 36
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 219
- 238000005070 sampling Methods 0.000 claims description 79
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音信号频带扩展方法,包括以下步骤:确定源语音,并获取源语音的信号频谱;基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号;对源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得源语音对应的扩展语音。应用本申请所提供的技术方案,提高了进行频带扩展后得到的语音信号的语音质量,进而提升了用户的听感体验。本申请还公开了一种语音信号频带扩展装置、设备、存储介质及计算机程序产品,具有相应技术效果。
Description
技术领域
本申请涉及信号处理技术领域,特别是涉及一种语音信号频带扩展方法、装置、设备及存储介质。
背景技术
在用户双方或者多方进行语音通话、娱乐互动等很多场景中,都会涉及到语音信号的采集、传输。例如,在发言者一侧进行语音信号采集、编码,然后通过通信网络传输到接收端,在接收端可以对接收到的语音信号进行解码输出,使得对方用户能够收听到具体的语音信号。
但是受到通信网络中信道带宽、编码方式、成本等多方面因素的影响,在进行语音信号的采集时,多是进行低采样率的语音信号的采集,或者,在采集到高采样率的语音信号后,进行语音信号的传输时,仅保留语音信号的低频部分,使得接收端获得的是低采样率的语音信号。而低采样率的语音信号语音质量较差,无法满足真实的听感体验,这就需要在接收端接收到语音信号之后,还需要首先对低采样率的语音信号进行频带扩展,将低采样率的语音信号恢复成高采样率的语音信号,然后再进行播放,以提升用户的听感体验。
那么,如何对语音信号进行有效的频带扩展,提高语音质量,是目前本领域技术人员需要解决的技术问题。
发明内容
本申请的目的是提供一种语音信号频带扩展方法、装置、设备及存储介质,以提高频带扩展后得到的语音信号的语音质量,提升听感体验。
为解决上述技术问题,本申请提供如下技术方案:
一种语音信号频带扩展方法,包括:
确定源语音,并获取所述源语音的信号频谱;
基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号;
对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音。
在本申请的一种具体实施方式中,还包括:
基于所述源语音对应的扩展语音的谐波信号和清音噪声信号,预测所述源语音对应的扩展语音缺失的高频信号;
所述对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音,包括:
对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音缺失的高频信号进行语音合成处理,获得所述源语音对应的扩展语音。
在本申请的一种具体实施方式中,所述基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号,包括:
对所述源语音的信号频谱进行编码处理,获得所述源语音的编码信号;
利用所述源语音的基频和所述源语音的编码信号,生成所述源语音对应的扩展语音的谐波信号;
利用所述源语音的编码信号,生成所述源语音对应的扩展语音的清音噪声信号。
在本申请的一种具体实施方式中,所述基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号,基于所述源语音对应的扩展语音的谐波信号和清音噪声信号,预测所述源语音对应的扩展语音缺失的高频信号,包括:
将所述源语音的信号频谱输入到源滤波器模型,经过所述源滤波器模型的预测,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号,并将所述源语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得所述源滤波器模型输出的所述源语音对应的扩展语音缺失的高频信号。
在本申请的一种具体实施方式中,通过以下步骤预先训练获得所述源滤波器模型:
获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,直至所述源滤波器初始模型的损失误差小于预设的第一误差阈值,获得所述源滤波器模型。
在本申请的一种具体实施方式中,所述依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,包括:
针对每条训练数据,获取当前训练数据中低采样率语音的信号频谱;
将当前低采样率语音的信号频谱输入到预先建立的源滤波器初始模型,经过所述源滤波器初始模型的预测,得到所述当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号,并将所述当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得所述源滤波器初始模型输出的所述当前低采样率语音对应的扩展语音缺失的高频信号;
基于所述当前低采样率语音对应的扩展语音缺失的高频信号和所述当前训练数据中的高采样率语音的比较结果,对所述源滤波器初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的所述源滤波器初始模型进行训练。
在本申请的一种具体实施方式中,所述对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音,包括:
将所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号输入到序列生成模型,经过所述序列生成模型进行语音合成处理,获得所述序列生成模型输出的所述源语音对应的扩展语音。
在本申请的一种具体实施方式中,通过以下步骤预先训练获得所述序列生成模型:
获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,直至所述序列生成初始模型的损失误差小于预设的第二误差阈值,获得所述序列生成模型。
在本申请的一种具体实施方式中,所述依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,包括:
针对每条训练数据,分别获得当前训练数据中的低采样率语音的信号频谱及当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号;
将所述当前低采样率语音、所述当前低采样率语音的信号频谱以及所述当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号输入到预先建立的序列生成初始模型,经过所述序列生成初始模型进行语音合成处理,获得所述序列生成初始模型输出的所述当前低采样率语音对应的扩展语音;
基于所述当前低采样率语音对应的扩展语音和所述当前训练数据中的高采样率语音的比较结果,对所述序列生成初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的所述序列生成初始模型进行训练。
在本申请的一种具体实施方式中,所述获得多条训练数据,包括:
采集得到多个高采样率语音;
分别在每个高采样率语音中提取低采样率语音;
逐一将每个高采样率语音和对应的低采样率语音构成的数据对确定为训练数据。
在本申请的一种具体实施方式中,在所述采集得到多个高采样率语音之后、所述分别在每个高采样率语音中提取低采样率语音之前,还包括:
对采集得到的每个高采样率语音进行清洗处理。
一种语音信号频带扩展装置,包括:
源语音确定模块,用于确定源语音;
频谱获取模块,用于获取所述源语音的信号频谱;
信号获得模块,用于基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号;
扩展语音获得模块,用于对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音。
一种语音信号频带扩展设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一项所述的语音信号频带扩展方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的语音信号频带扩展方法的步骤。
一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,且适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行上述任一项所述的语音信号频带扩展方法。
应用本申请实施例所提供的技术方案,先基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号,符合信号实际构成,再对源语音、源语音的信号频谱和源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,得到的源语音对应的扩展语音更为全面,因此,有利于提高进行频带扩展后得到的语音信号的语音质量,进而提升用户的听感体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种语音信号频带扩展方法的实施流程图;
图2为本申请实施例中一种语音信号频带扩展系统的结构示意图;
图3为本申请实施例中一种语音信号频带扩展装置的结构示意图;
图4为本申请实施例中一种语音信号频带扩展设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的核心是提供一种语音信号频带扩展方法。该方法可以应用于语音通话、娱乐互动、语音修复、语音合成、语音识别、语音播放等各种场景。以语音通话场景为例,因为受到通信网络中信道带宽、编码方式、成本等多方面因素的影响,所以发送方设备在对发送方的语音信号进行采集时,采集到的多是低采样率语音,发送方设备通过通信网络将采集到的低采样率语音发送给接收方设备,接收方设备接收到低采样率语音后,可以通过本申请实施例所提供的技术方案对其进行频带扩展,得到的扩展语音即为高采样率语音,再将高采样率语音播放输出给接收方,这样接收方将会享受到真实的听感体验。
本申请所提供的语音信号频带扩展方法,确定出源语音后,进一步获取源语音的信号频谱,然后基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号,符合信号实际构成,最后对源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,得到的源语音对应的扩展语音更为全面,因此,有利于提高进行频带扩展后得到的语音信号的语音质量,进而提升用户的听感体验。
参见图1所示,为本申请实施例所提供的一种语音信号频带扩展方法的实施流程图,该方法可以包括以下步骤:
S110:确定源语音,并获取源语音的信号频谱。
在本申请实施例中,可以根据实际需求确定源语音。如语音通话场景中,将接收方设备接收到的低采样率语音确定为源语音。再如音箱播放场景中,将当前待播放的低采样率语音确定为源语音。源语音可以是常规的语音信号,还可以是歌声。
在确定源语音后,进一步可以获取源语音的信号频谱。语音信号不是平稳信号,但在较短的一段时间内,可以看作是平稳的。所以,在确定源语音后,可以对源语音进行短时傅里叶变换(STFT,short-time fourier transform)处理,这样可以得到按照时间顺序排列的多段信号的频谱,即源语音的信号频谱,以方便后续步骤的处理。
S120:基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号。
语音信号由谐波信号和清音噪声信号构成。清音噪声信号是指发音时声带不振动的音对应的信号。获取到源语音的信号频谱后,可以基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号,这样得到的谐波信号和清音噪声信号更符合信号实际构成。
S130:对源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得源语音对应的扩展语音。
确定出源语音,并获取到源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号之后,可以对这些信号进行语音合成处理,得到源语音对应的扩展语音。这样得到的扩展语音更为全面。
应用本申请实施例所提供的方法,先基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号,符合信号实际构成,再对源语音、源语音的信号频谱和源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,得到的源语音对应的扩展语音更为全面,因此,有利于提高进行频带扩展后得到的语音信号的语音质量,进而提升用户的听感体验。
在本申请的一个实施例中,该方法还可以包括以下步骤:
基于源语音对应的扩展语音的谐波信号和清音噪声信号,预测源语音对应的扩展语音缺失的高频信号;
相应的,步骤S130可以包括以下步骤:
对源源语音、源语音的信号频谱以及源语音对应的扩展语音缺失的高频信号进行语音合成处理,获得源语音对应的扩展语音。
在本申请实施例中,在基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号之后,可以基于源语音对应的扩展语音的谐波信号和清音噪声信号,对源语音对应的扩展语音缺失的高频信号进行预测。具体的,可以将源语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,然后在叠加语音信号中提取高频部分,得到源语音对应的扩展语音缺失的高频信号。
预测得到源语音对应的扩展语音缺失的高频信号后,可以对源语音、源语音的信号频谱以及源语音对应的扩展语音缺失的高频信号进行语音合成处理,得到源语音对应的扩展语音。这样得到的扩展语音具有更好的高频采集效果,语音质量更高,用户的听感体验更真实。
在本申请的一个实施例中,步骤S120可以包括以下步骤:
步骤一:对源语音的信号频谱进行编码处理,获得源语音的编码信号;
步骤二:利用源语音的基频和源语音的编码信号,生成源语音对应的扩展语音的谐波信号;
步骤三:利用源语音的编码信号,生成源语音对应的扩展语音的清音噪声信号。
为便于描述,将上述三个步骤结合起来进行说明。
获取到源语音的信号频谱后,可以对源语音的信号频谱进行编码处理,如利用编码器对其进行编码处理,获得源语音的编码信号。
因为任何复杂的波型都可以被分解为基波和与基波成倍率的高次谐波,所以,在得到源语音的编码信号后,进一步可以利用源语音的基频和源语音的编码信号,生成源语音对应的扩展语音的谐波信号。具体的,可以将源语音的基频和源语音的编码信号输入到谐波发生器中,通过谐波发生器生成源语音对应的扩展语音的谐波信号。其中,通过对源语音的分析可以得到源语音的基频,即发音时人的声带振动频率。
同时,在得到源语音的编码信号后,进一步可以利用源语音的编码信号,生成源语音对应的扩展语音的清音噪声信号。具体的,可以将源语音的编码信号输入到噪声发生器中,通过噪声发生器生成源语音对应的扩展语音的清音噪声信号。
得到源语音对应的扩展语音的谐波信号和清音噪声信号,对语音信号的生成过程进行了合理分析,可以提高对源语音进行频带扩展的准确性。
在本申请的一个实施例中,在获取到源语音的信号频谱后,可以将源语音的信号频谱输入到源滤波器模型,经过源滤波器模型的预测,得到源语音对应的扩展语音的谐波信号和清音噪声信号,并将源语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得源滤波器模型输出的源语音对应的扩展语音缺失的高频信号。
在本申请实施例中,可以预先训练获得源滤波器模型,如可以利用预先获得的包括高采样率语音和低采样率语音的训练数据训练获得源滤波器模型。源滤波器模型可以根据人的发音机制,用输入激励和滤波器描述整个发音过程。如图2所示,源滤波器模型可以包括编码器、谐波发生器、噪声发生器、叠加器等。
获取到源语音的信号频谱后,可以将源语音的信号频谱输入到源滤波器模型,经过源滤波器模型预测可以得到源语音对应的扩展语音的谐波信号和清音噪声信号。具体的,可以先通过源滤波器模型的编码器进行编码处理,获得源语音的编码信号,再通过源滤波器模型的谐波发生器进行谐波生成处理,以生成源语音对应的扩展语音的谐波信号,同时,通过源滤波器模型的噪声发生器进行噪声生成处理,以生成源语音对应的扩展语音的清音噪声信号。源滤波器模型对语音信号的生成过程进行了合理分析。源滤波器模型的叠加器可以对源语音对应的扩展语音的谐波信号和清音噪声信号进行叠加后,源滤波器模型可以输出源语音对应的扩展语音缺失的高频信号。
利用源滤波器模型的谐波发生器进行谐波信号的生成,利用源滤波器模型的噪声发生器进行清音噪声信号的生成,对语音信号的生成过程进行了合理分析,可以提高对源语音进行频带扩展的准确性。
在本申请的一个实施例中,可以通过以下步骤预先训练获得源滤波器模型:
第一个步骤:获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据高采样率语音生成的;
第二个步骤:依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,直至源滤波器初始模型的损失误差小于预设的第一误差阈值,获得源滤波器模型。
为便于描述,将上述两个步骤结合起来进行说明。
在本申请实施例中,可以基于神经网络预先建立源滤波器初始模型,源滤波器初始模型可以包括编码器、谐波发生器、噪声发生器、叠加器等,并对各参数进行初始化处理。利用训练数据对源滤波器初始模型进行预先训练可以得到源滤波器模型,源滤波器模型与源滤波器初始模型具有相同结构。
可以先获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的,即每条训练数据中的高采样率语音和低采样率语音相对应。
具体的,可以先采集得到多个高采样率语音,然后分别在每个高采样率语音中提取低采样率语音,再逐一将每个高采样率语音和对应的低采样率语音构成的数据对确定为训练数据。这样获得的每条训练数据中的低采样率语音均是从其所在训练数据的高采样率语音中提取得到,保证了每个训练数据中的高采样率语音和低采样率语音的对应关系。
在采集得到多个高采样率语音之后、分别在每个高采样率语音中提取低采样率语音之前,还可以对采集得到的每个高采样率语音进行清洗处理,以获得干净的语音信号,提高后续对模型的训练效率。
获得多条训练数据后,可以依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,并确定源滤波器初始模型的损失误差。当源滤波器初始模型的损失误差小于预设的第一误差阈值时,可以认为当前训练得到的源滤波器初始模型具有较高的准确性,可以将其确定为源滤波器模型,应用到实际的语音信号频带扩展场景中。当源滤波器初始模型的损失误差大于或等于第一误差阈值时,可以认为当前训练得到的源滤波器初始模型准确性不高,可以继续对其进行训练。
第一误差阈值可以根据实际情况进行设定和调整。
在本申请的一个实施例中,依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,可以包括以下步骤:
步骤一:针对每条训练数据,获取当前训练数据中低采样率语音的信号频谱;
步骤二:将当前低采样率语音的信号频谱输入到预先建立的源滤波器初始模型,经过源滤波器初始模型的预测,得到当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号,并将当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号;
步骤三:基于当前低采样率语音对应的扩展语音缺失的高频信号和当前训练数据中的高采样率语音的比较结果,对源滤波器初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的源滤波器初始模型进行训练。
为便于描述,将上述三个步骤结合起来进行说明。
在本申请实施例中,每条训练数据中的低采样率语音是根据对应的高采样率语音生成的,可以依次利用每条训练数据对预先建立的源滤波器初始模型进行训练。
针对每条训练数据,可以将当前训练数据中的低采样率语音进行短时傅里叶变换处理,获得当前低采样率语音的信号频谱。当前训练数据为当前操作所针对的训练数据,当前低采样率语音为当前训练数据中的低采样率语音。
获得当前低采样率语音的信号频谱后,可以将其输入到预先建立的源滤波器初始模型中。源滤波器初始模型可以通过其包括的各部分对当前低采样率语音的信号频谱进行相应处理。具体的,可以先通过编码器进行编码处理,获得当前低采样率语音的编码信号,然后再利用当前低采样率语音的基频和当前低采样率语音的编码信号,通过谐波发生器生成当前低采样率语音对应的扩展语音的谐波信号,同时,利用当前低采样率语音的编码信号,通过噪声发生器生成当前低采样率语音对应的扩展语音的清音噪声信号,再通过叠加器将当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号进行叠加处理,最后获得源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号。
获得的源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号相较于当前低采样率语音已进行了频带扩展,为判别源滤波器初始模型的预测准确性,可以将当前低采样率语音对应的扩展语音缺失的高频信号和当前训练数据中的高采样率语音进行比较。根据比较结果,可以确定是对源滤波器初始模型继续训练,还是结束训练过程。如果确定对源滤波器初始模型继续训练,则可以基于比较结果,对源滤波器初始模型进行参数调整。如对源滤波器初始模型中的编码器、谐波发生器、噪声发生器等部分的参数进行调整。具体的调整规则可以以减小源滤波器初始模型的损失误差为目标预先设定。
利用当前训练数据对源滤波器初始模型进行训练,进行参数调整后,可以继续利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的源滤波器初始模型继续进行训练。这样不断对源滤波器初始模型进行训练,不断进行参数调整,可以使得源滤波器初始模型的损失误差逐渐减小,使得源滤波器初始模型的预测准确性不断提高。如果源滤波器初始模型的损失误差小于预设的第一误差阈值,则可以将当前训练得到的源滤波器初始模型确定为源滤波器模型,应用于实际的语音信号频带扩展场景。
在本申请的一个实施例中,针对每条训练数据,在利用当前训练数据中的高采样率语音和低采样率语音对源滤波器初始模型进行训练过程中,可以通过以下步骤确定源滤波器初始模型的损失误差:
第一个步骤:将当前训练数据中的低采样率语音对应的扩展语音缺失的高频信号和当前训练数据中的高采样率语音确定为第一损失函数的输入;
第二个步骤:基于第一损失函数的输出,确定源滤波器初始模型的损失误差。
为便于描述,将上述两个步骤结合起来进行说明。
针对每条训练数据,在利用当前训练数据对源滤波器初始模型进行训练过程中,可以获得源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号。当前训练数据为当前操作所针对的训练数据,当前低采样率语音为当前训练数据中的低采样率语音。
可以根据实际情况预先设定源滤波器初始模型的第一损失函数。将当前低采样率语音对应的扩展语音缺失的高频信号和当前训练数据中的高采样率语音确定为第一损失函数的输入。通过第一损失函数的计算,可以得到第一损失函数的输出。基于第一损失函数的输出,可以确定源滤波器初始模型的损失误差。
利用第一损失函数确定源滤波器初始模型的损失误差,可以提高源滤波器初始模型的预测准确性。
在本申请的一个实施例中,在获得源语音对应的扩展语音的谐波信号和清音噪声信号之后,可以将源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号输入到序列生成模型,经过序列生成模型进行语音合成处理,获得序列生成模型输出的源语音对应的扩展语音。
在本申请实施例中,可以预先训练获得序列生成模型。具体的,可以利用预先获得的包括高采样率语音和低采样率语音的训练数据训练获得序列生成模型。
在确定了源语音,获得了源语音的信号频谱及源语音对应的扩展语音的谐波信号和清音噪声信号后,进一步可以将源语音、源语音的信号频谱和源语音对应的扩展语音的谐波信号和清音噪声信号输入到序列生成模型,序列生成模型进行相应的语音合成处理后,可以输出源语音对应的扩展语音。当然,在获得源语音对应的扩展语音的谐波信号和清音噪声信号后,还可以基于源语音对应的扩展语音的谐波信号和清音噪声信号,预测源语音对应的扩展语音缺失的高频信号,然后将源语音、源语音的信号频谱和源语音对应的扩展语音缺失的高频信号输入到序列生成模型,经过序列生成模型进行的相应的语音合成处理,得到序列生成模型输出的源语音对应的扩展语音。
源语音对应的扩展语音的谐波信号、清音噪声信号、缺失的高频信号可以通过源滤波器模型获得,源滤波器模型基于神经网络与信号的结合,可以获得对源语音进行频带扩展后的信号的高频缺失的部分,源滤波器模型与序列生成模型相结合,可以对语音信号进行有效的频带扩展,提高得到的扩展语音的语音质量。
在本申请的一个实施例中,可以通过以下步骤预先训练获得序列生成模型:
步骤一:获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
步骤二:依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,直至序列生成初始模型的损失误差小于预设的第二误差阈值,获得序列生成模型。
在本申请实施例中,可以基于神经网络预先建立序列生成初始模型,并初始化相应参数。序列生成初始模型和序列生成模型结构相同。
获得多条训练数据的过程可以参考对源滤波器模型进行训练时训练数据的获得过程,对于源滤波器模型的训练和对于序列生成模型的训练可以使用相同训练数据。
在获得多条训练数据后,可以依次利用每条训练数据对序列生成初始模型进行训练。
需要说明的是,本申请实施例中对源滤波器初始模型的训练和序列生成初始模型的训练可以分别进行,还可以同时进行。如可以在依次利用每条训练数据对源滤波器初始模型进行训练,获得源滤波器模型之后,再依次利用每条训练数据对序列生成初始模型进行训练,还可以针对每条训练数据,在利用当前训练数据对源滤波器初始模型进行训练之后,继续利用当前训练数据对序列生成初始模型进行训练。
依次利用每条训练数据中的高采样率语音和低采样率语音对序列生成初始模型进行训练,每次训练完成,都可以确定序列生成初始模型的损失误差。当序列生成初始模型的损失误差小于预设的第二误差阈值时,可以认为当前训练得到的序列生成初始模型具有较高的准确性,可以将当前训练得到的序列生成初始模型确定为序列生成模型,应用于实际的语音信号频带扩展场景。当序列生成初始模型的损失误差大于或等于第二误差阈值时,可以认为当前训练得到的序列生成初始模型准确性不高,还需要继续对其进行训练。
第二误差阈值可以根据实际情况进行设定和调整。
在本申请的一个实施例中,依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,可以包括以下步骤:
步骤一:针对每条训练数据,分别获得当前训练数据中的低采样率语音的信号频谱及当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号;
步骤二:将当前低采样率语音、当前低采样率语音的信号频谱以及当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号输入到预先建立的序列生成初始模型,经过序列生成初始模型进行语音合成处理,获得序列生成初始模型输出的当前低采样率语音对应的扩展语音;
步骤三:基于当前低采样率语音对应的扩展语音和当前训练数据中的高采样率语音的比较结果,对序列生成初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的序列生成初始模型进行训练。
为方便描述,将上述三个步骤结合起来进行说明。
获得多条训练数据后,针对每条训练数据,可以先将当前训练数据中的低采样率语音进行短时傅里叶变换处理,获得当前低采样率语音的信号频谱,然后可以基于当前低采样率语音的信号频谱,得到当前低采样率语音的谐波信号和清音噪声信号。具体的,可以将当前低采样率语音的信号频谱输入到源滤波器初始模型,通过源滤波器初始模型得到当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号。源滤波器初始模型可以是训练过程中的模型,还可以是训练结束后的模型。当前训练数据为当前操作所针对的训练数据,当前低采样率语音为当前训练数据中的低采样率语音。
经过上述处理后,可以将当前低采样率语音、当前低采样率语音的信号频谱、当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号输入到序列生成初始模型中。序列生成初始模型可以进行相应的语音合成处理,进而可以获得序列生成初始模型输出的当前低采样率语音对应的扩展语音。
序列生成初始模型输出的当前低采样率语音对应的扩展语音即为对当前低采样率语音进行频带扩展后最终得到的语音信号,为判别源滤波器初始模型和序列生成初始模型的预测准确性,可以将当前低采样率语音对应的扩展语音与当前训练数据中的高采样率语音进行比较。如可以通过图2所示的判别器进行比较。根据比较结果,可以确定是对序列生成初始模型继续训练,还是结束训练过程。如果确定对序列生成初始模型继续训练,则可以基于比较结果,对序列生成初始模型进行参数调整。具体的调整规则可以以减小序列生成初始模型的损失误差为目标预先设定。
利用当前训练数据对序列生成初始模型进行训练,进行参数调整后,可以继续利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的序列生成初始模型继续进行训练。这样不断对序列生成初始模型进行训练,不断进行参数调整,可以使得序列生成初始模型的损失误差逐渐减小,使得源滤波器初始模型和序列生成初始模型的整体预测准确性不断提高。如果序列生成初始模型的损失误差小于预设的第二误差阈值,则可以将当前训练得到的序列生成初始模型确定为序列生成模型,应用于实际的语音信号频带扩展场景。
在本申请的一个实施例中,针对每条训练数据,在利用当前训练数据中的高采样率语音和低采样率语音对序列生成初始模型进行训练过程中,可以通过以下步骤确定序列生成初始模型的损失误差:
第一个步骤:将当前训练数据中的低采样率语音对应的扩展语音和当前训练数据中的高采样率语音确定为第二损失函数的输入;
第二个步骤:基于第二损失函数的输出,确定序列生成初始模型的损失误差。
为便于描述,将上述两个步骤结合起来进行说明。
针对每条训练数据,在利用当前训练数据对序列生成初始模型进行训练过程中,可以获得序列生成初始模型输出的当前低采样率语音对应的扩展语音。当前训练数据为当前操作所针对的训练数据,当前低采样率语音为当前训练数据中的低采样率语音。
可以根据实际情况预先设定序列生成初始模型的第二损失函数。将当前低采样率语音对应的扩展语音和当前训练数据中的高采样率语音确定为第二损失函数的输入。通过第二损失函数的计算,可以得到第二损失函数的输出。基于第二损失函数的输出,可以确定序列生成初始模型的损失误差。
利用第二损失函数确定序列生成初始模型的损失误差,可以提高源滤波器初始模型和序列生成初始模型的整体预测准确性。
总体来说,本申请实施例所提供的技术方案可以包括两个阶段,一个是模型训练阶段,一个是实际应用阶段。在模型训练阶段包括两个过程,一个是对源滤波器模型的训练过程,一个是对序列生成模型的训练过程。模型训练完成后,应用到实际的语音信号频带扩展场景中。
为方便理解,以如图2所示语音信号频带扩展系统的整体结构为例,对本申请实施例所提供的技术方案再次进行说明。该语音信号频带扩展系统包括源滤波器模型和序列生成模型,源滤波器模型为利用训练数据对源滤波器初始模型进行训练后获得,序列生成模型为利用训练数据对序列生成初始模型进行训练后获得。源滤波器模型和源滤波器初始模型结构相同,序列生成模型和序列生成初始模型结构相同,只是在不同阶段名称有所差别。
在对源滤波器模型进行训练过程中,针对每条训练数据,可以将当前训练数据中的低采样率语音进行短时傅里叶变换(STFT)处理,获得当前低采样率语音的信号频谱,然后将当前低采样率语音的信号频谱输入到源滤波器初始模型,经过源滤波器初始模型的编码器、谐波发生器、噪声发生器、叠加器等部分进行相应处理,获得源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号,基于当前低采样率语音对应的扩展语音缺失的高频信号和当前训练数据中的高采样率语音的比较结果,对源滤波器初始模型进行参数调整,以利用后一训练数据继续对进行参数调整后的源滤波器初始模型进行训练,直至利用第一损失函数确定源滤波器初始模型的损失误差小于第一误差阈值时,将当前训练得到的源滤波器初始模型确定为源滤波器模型。
在对序列生成模型进行训练过程中,针对每条训练数据,可以得到当前训练数据中的低采样率语音的信号频谱及源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号,将当前低采样率语音、当前低采样率语音的信号频谱、当前低采样率语音对应的扩展语音缺失的高频信号输入到序列生成初始模型(WaveNet),进行语音合成处理,可以获得序列生成初始模型输出的当前低采样率语音对应的扩展语音。利用判别器对当前低采样率语音对应的扩展语音和当前训练数据中的高采样率语音进行比较,基于比较结果可以确定是否继续训练。如继续训练,可以对序列生成初始模型进行参数调整,以利用后一训练数据继续对进行参数调整后的序列生成初始模型进行训练,直至利用第二损失函数确定序列生成初始模型的损失误差小于第二误差阈值时,将当前训练得到的序列生成初始模型确定为序列生成模型。
在实际应用阶段,对源语音进行短时傅里叶变换(STFT)处理,获得源语音的信号频谱后,将源语音的信号频谱输入到源滤波器模型,经过源滤波器模型进行谐波生成、噪声生成、叠加等处理,获得源滤波器模型输出的源语音对应的扩展语音缺失的高频信号,将源语音、源语音的信号频谱和源语音对应的扩展语音缺失的高频信号输入到序列生成模型(WaveNet),经过序列生成模型的语音合成处理,获得序列生成模型输出的源语音对应的扩展语音。实现了对源语音的频带扩展。
本申请实施例将源滤波器模型和序列生成模型相结合,对于语音信号的频带扩展具有较强的稳定性和通用性。而且基于语音信号的源滤波器技术分解了信号,降低了整体模型对扩展语音的预测难度。
另外,本申请实施例中,每条训练数据中的低采样率语音都是根据相应的高采样率语音生成的,在训练过程中,将高频信号、扩展语音与相应的真实的高采样率语音进行对比,使用较少的训练数据即可达到较好效果,提高训练效率。
相应于上面的方法实施例,本申请实施例还提供了一种语音信号频带扩展装置,下文描述的语音信号频带扩展装置与上文描述的语音信号频带扩展方法可相互对应参照。
参见图3所示,该装置可以包括以下模块:
源语音确定模块310,用于确定源语音;
频谱获取模块320,用于获取源语音的信号频谱;
信号获得模块330,用于基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号;
扩展语音获得模块340,用于对源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得源语音对应的扩展语音。
应用本申请实施例所提供的装置,先基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号,符合信号实际构成,再对源语音、源语音的信号频谱和源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,得到的源语音对应的扩展语音更为全面,因此,有利于提高进行频带扩展后得到的语音信号的语音质量,进而提升用户的听感体验。
在本申请的一种具体实施方式中,还包括高频信号预测模块,用于:
基于源语音对应的扩展语音的谐波信号和清音噪声信号,预测源语音对应的扩展语音缺失的高频信号;
相应的,扩展语音获得模块340,用于:
对源语音、源语音的信号频谱以及源语音对应的扩展语音缺失的高频信号进行语音合成处理,获得源语音对应的扩展语音。
在本申请的一种具体实施方式中,信号获得模块330,用于:
对源语音的信号频谱进行编码处理,获得源语音的编码信号;
利用源语音的基频和源语音的编码信号,生成源语音对应的扩展语音的谐波信号;
利用源语音的编码信号,生成源语音对应的扩展语音的清音噪声信号。
在本申请的一种具体实施方式中,信号获得模块330和高频信号预测模块,用于:
将源语音的信号频谱输入到源滤波器模型,经过源滤波器模型的预测,得到源语音对应的扩展语音的谐波信号和清音噪声信号,并将源语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得源滤波器模型输出的源语音对应的扩展语音缺失的高频信号。
在本申请的一种具体实施方式中,还包括源滤波器模型训练模块,用于通过以下步骤预先训练获得源滤波器模型:
获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,直至源滤波器初始模型的损失误差小于预设的第一误差阈值,获得源滤波器模型。
在本申请的一种具体实施方式中,源滤波器模型训练模块,用于:
针对每条训练数据,获取当前训练数据中低采样率语音的信号频谱;
将当前低采样率语音的信号频谱输入到预先建立的源滤波器初始模型,经过源滤波器初始模型的预测,得到当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号,并将当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得源滤波器初始模型输出的当前低采样率语音对应的扩展语音缺失的高频信号;
基于当前低采样率语音对应的扩展语音缺失的高频信号和当前训练数据中的高采样率语音的比较结果,对源滤波器初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的源滤波器初始模型进行训练。
在本申请的一种具体实施方式中,扩展语音获得模块340,用于:
将源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号输入到序列生成模型,经过序列生成模型进行语音合成处理,获得序列生成模型输出的源语音对应的扩展语音。
在本申请的一种具体实施方式中,还包括序列生成模型训练模块,用于通过以下步骤预先训练获得序列生成模型:
获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,直至序列生成初始模型的损失误差小于预设的第二误差阈值,获得序列生成模型。
在本申请的一种具体实施方式中,序列生成模型训练模块,用于:
针对每条训练数据,分别获得当前训练数据中的低采样率语音的信号频谱及当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号;
将当前低采样率语音、当前低采样率语音的信号频谱以及当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号输入到预先建立的序列生成初始模型,经过序列生成初始模型进行语音合成处理,获得序列生成初始模型输出的当前低采样率语音对应的扩展语音;
基于当前低采样率语音对应的扩展语音和当前训练数据中的高采样率语音的比较结果,对序列生成初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的序列生成初始模型进行训练。
在本申请的一种具体实施方式中,源滤波器模型训练模块或序列生成模型训练模块,用于:
采集得到多个高采样率语音;
分别在每个高采样率语音中提取低采样率语音;
逐一将每个高采样率语音和对应的低采样率语音构成的数据对确定为训练数据。
在本申请的一种具体实施方式中,源滤波器模型训练模块或序列生成模型训练模块,还用于:
在采集得到多个高采样率语音之后、分别在每个高采样率语音中提取低采样率语音之前,对采集得到的每个高采样率语音进行清洗处理。
相应于上面的方法实施例,本申请实施例还提供了一种语音信号频带扩展设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现上述语音信号频带扩展方法的步骤。
如图4所示,为语音信号频带扩展设备的组成结构示意图,语音信号频带扩展设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行语音信号频带扩展方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
确定源语音,并获取源语音的信号频谱;
基于源语音的信号频谱,得到源语音对应的扩展语音的谐波信号和清音噪声信号;
对源语音、源语音的信号频谱以及源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得源语音对应的扩展语音。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如频谱获取功能、谐波生成功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如谐波信号数据、清音噪声信号数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图4所示的结构并不构成对本申请实施例中语音信号频带扩展设备的限定,在实际应用中语音信号频带扩展设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
相应于上面的方法实施例,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述语音信号频带扩展方法的步骤。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文所对应实施例中语音信号频带扩展方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (15)
1.一种语音信号频带扩展方法,其特征在于,包括:
确定源语音,并获取所述源语音的信号频谱;
基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号;
对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音。
2.根据权利要求1所述的语音信号频带扩展方法,其特征在于,还包括:
基于所述源语音对应的扩展语音的谐波信号和清音噪声信号,预测所述源语音对应的扩展语音缺失的高频信号;
所述对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音,包括:
对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音缺失的高频信号进行语音合成处理,获得所述源语音对应的扩展语音。
3.根据权利要求1所述的语音信号频带扩展方法,其特征在于,所述基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号,包括:
对所述源语音的信号频谱进行编码处理,获得所述源语音的编码信号;
利用所述源语音的基频和所述源语音的编码信号,生成所述源语音对应的扩展语音的谐波信号;
利用所述源语音的编码信号,生成所述源语音对应的扩展语音的清音噪声信号。
4.根据权利要求2所述的语音信号频带扩展方法,其特征在于,所述基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号,基于所述源语音对应的扩展语音的谐波信号和清音噪声信号,预测所述源语音对应的扩展语音缺失的高频信号,包括:
将所述源语音的信号频谱输入到源滤波器模型,经过所述源滤波器模型的预测,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号,并将所述源语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得所述源滤波器模型输出的所述源语音对应的扩展语音缺失的高频信号。
5.根据权利要求4所述的语音信号频带扩展方法,其特征在于,通过以下步骤预先训练获得所述源滤波器模型:
获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,直至所述源滤波器初始模型的损失误差小于预设的第一误差阈值,获得所述源滤波器模型。
6.根据权利要求5所述的语音信号频带扩展方法,其特征在于,所述依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的源滤波器初始模型进行训练,包括:
针对每条训练数据,获取当前训练数据中低采样率语音的信号频谱;
将当前低采样率语音的信号频谱输入到预先建立的源滤波器初始模型,经过所述源滤波器初始模型的预测,得到所述当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号,并将所述当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号进行叠加,获得所述源滤波器初始模型输出的所述当前低采样率语音对应的扩展语音缺失的高频信号;
基于所述当前低采样率语音对应的扩展语音缺失的高频信号和所述当前训练数据中的高采样率语音的比较结果,对所述源滤波器初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的所述源滤波器初始模型进行训练。
7.根据权利要求1所述的语音信号频带扩展方法,其特征在于,所述对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音,包括:
将所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号输入到序列生成模型,经过所述序列生成模型进行语音合成处理,获得所述序列生成模型输出的所述源语音对应的扩展语音。
8.根据权利要求7所述的语音信号频带扩展方法,其特征在于,通过以下步骤预先训练获得所述序列生成模型:
获得多条训练数据,每条训练数据对应一个数据对,每个数据对包括一个高采样率语音和一个低采样率语音,每个数据对中的低采样率语音是根据对应的高采样率语音生成的;
依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,直至所述序列生成初始模型的损失误差小于预设的第二误差阈值,获得所述序列生成模型。
9.根据权利要求8所述的语音信号频带扩展方法,其特征在于,所述依次利用每条训练数据中的高采样率语音和低采样率语音对预先建立的序列生成初始模型进行训练,包括:
针对每条训练数据,分别获得当前训练数据中的低采样率语音的信号频谱及当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号;
将所述当前低采样率语音、所述当前低采样率语音的信号频谱以及所述当前低采样率语音对应的扩展语音的谐波信号和清音噪声信号输入到预先建立的序列生成初始模型,经过所述序列生成初始模型进行语音合成处理,获得所述序列生成初始模型输出的所述当前低采样率语音对应的扩展语音;
基于所述当前低采样率语音对应的扩展语音和所述当前训练数据中的高采样率语音的比较结果,对所述序列生成初始模型进行参数调整,以利用后一训练数据中的高采样率语音和低采样率语音对进行参数调整后的所述序列生成初始模型进行训练。
10.根据权利要求5或8所述的语音信号频带扩展方法,其特征在于,所述获得多条训练数据,包括:
采集得到多个高采样率语音;
分别在每个高采样率语音中提取低采样率语音;
逐一将每个高采样率语音和对应的低采样率语音构成的数据对确定为训练数据。
11.根据权利要求10所述的语音信号频带扩展方法,其特征在于,在所述采集得到多个高采样率语音之后、所述分别在每个高采样率语音中提取低采样率语音之前,还包括:
对采集得到的每个高采样率语音进行清洗处理。
12.一种语音信号频带扩展装置,其特征在于,包括:
源语音确定模块,用于确定源语音;
频谱获取模块,用于获取所述源语音的信号频谱;
信号获得模块,用于基于所述源语音的信号频谱,得到所述源语音对应的扩展语音的谐波信号和清音噪声信号;
扩展语音获得模块,用于对所述源语音、所述源语音的信号频谱以及所述源语音对应的扩展语音的谐波信号和清音噪声信号进行语音合成处理,获得所述源语音对应的扩展语音。
13.一种语音信号频带扩展设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至11任一项所述的语音信号频带扩展方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的语音信号频带扩展方法的步骤。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,且适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行如权利要求1-11任一项所述的语音信号频带扩展方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111314241.XA CN114170995A (zh) | 2021-11-08 | 2021-11-08 | 一种语音信号频带扩展方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111314241.XA CN114170995A (zh) | 2021-11-08 | 2021-11-08 | 一种语音信号频带扩展方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114170995A true CN114170995A (zh) | 2022-03-11 |
Family
ID=80478194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111314241.XA Pending CN114170995A (zh) | 2021-11-08 | 2021-11-08 | 一种语音信号频带扩展方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114170995A (zh) |
-
2021
- 2021-11-08 CN CN202111314241.XA patent/CN114170995A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9570072B2 (en) | System and method for noise reduction in processing speech signals by targeting speech and disregarding noise | |
US8725501B2 (en) | Audio decoding device and compensation frame generation method | |
CN1750124B (zh) | 带限音频信号的带宽扩展 | |
CN102652336B (zh) | 声音信号复原装置以及声音信号复原方法 | |
BRPI0812029B1 (pt) | método de recuperar dados ocultados, dispositivo de telecomunicações, aparelho de ocultar dados, método de ocultar dados e caixa de conjunto superior | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN113470667A (zh) | 语音信号的编解码方法、装置、电子设备及存储介质 | |
CN112652318A (zh) | 音色转换方法、装置及电子设备 | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
Diener et al. | An initial investigation into the real-time conversion of facial surface EMG signals to audible speech | |
CN114170995A (zh) | 一种语音信号频带扩展方法、装置、设备及存储介质 | |
US20230050519A1 (en) | Speech enhancement method and apparatus, device, and storage medium | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
EP3023983B1 (en) | Method of packet loss concealment in ADPCM codec and ADPCM decoder with PLC circuit | |
Strods et al. | Enhancing Gappy Speech Audio Signals with Generative Adversarial Networks | |
Lependin et al. | Speech enhancement method based on modified encoder-decoder pyramid transformer | |
CN117672254A (zh) | 语音转换方法、装置、计算机设备及存储介质 | |
CN117334204A (zh) | 信号处理方法、装置、计算机设备、存储介质及程序产品 | |
CN118155592A (zh) | 基于深度学习的伴奏提取方法、系统、存储介质及设备 | |
CN112201229A (zh) | 一种语音处理方法、装置及系统 | |
CN115083429A (zh) | 语音降噪的模型训练方法、语音降噪方法、装置及介质 | |
CN117594057A (zh) | 一种伴奏与人声分离方法、系统、编码器、介质及设备 | |
CN114678036A (zh) | 语音增强方法、电子设备和存储介质 | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 | |
Yu et al. | An algorithm for finding line spectrum frequencies of added speech signals and its application to robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |