CN109147806B - 基于深度学习的语音音质增强方法、装置和系统 - Google Patents
基于深度学习的语音音质增强方法、装置和系统 Download PDFInfo
- Publication number
- CN109147806B CN109147806B CN201810583123.0A CN201810583123A CN109147806B CN 109147806 B CN109147806 B CN 109147806B CN 201810583123 A CN201810583123 A CN 201810583123A CN 109147806 B CN109147806 B CN 109147806B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- sample
- neural network
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 98
- 238000013528 artificial neural network Methods 0.000 claims abstract description 96
- 238000009432 framing Methods 0.000 claims description 41
- 238000005070 sampling Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims 2
- 230000002708 enhancing effect Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 25
- 238000007781 pre-processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种基于深度学习的语音音质增强方法、装置和系统。所述方法包括:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。根据本发明实施例的基于深度学习的语音音质增强方法、装置和系统基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。
Description
技术领域
本发明涉及音质优化技术领域,更具体地涉及一种基于深度学习的语音音质增强方法、装置和系统。
背景技术
近年来,语音无线通信飞速发展,目前广泛应用于各种民用和工业领域。无线通信受带宽限制,要求对语音编码压缩,尽可能地降低语音的采样频率和码率。语音编码尽管降低了语音质量,但也极大节省了资源。早期的数字语音通信编码,如全球移动通信系统-半速率(GMS-HR),码率在6.5kbps左右,采用8kHz的采样频率,实际带宽小于4k,损失了很多高频信息,使得人声缺乏辨识度,只能满足基本的语音通信需求。
随着人们对音质的需求越来越高,低码率低质量语音音质已不能满足需求。随着网络带宽提升,更高码率质量的语音通信也成为了可能。例如,增强语音服务(EVS)编码技术可能达到48k采样频率和128kbps的码率。但是这并不意味着所有用户都能享受到高清语音通信的体验,例如这样的场景:打电话用户的运营商支持4G网络,而接电话用户的运营商只支持3G网络,那么双方可能只能选择自适应多速率编码-窄带(amr-nb)编码方式进行语音编码,而不是例如16kHz采样频率的自适应多速率编码-宽带(amr-wb)编码方式。由于存在这些因为硬件条件而不得不采用低质量码率语音的场景存在,并不是所有人都能享受到高清语音通信的好处。
另一方面,在保持音质情况下尽可能降低编码码率,也是语音通信的主要研究方向。因此,在有限的存储和带宽资源限制下,通过数字信号处理方法,对低质量码率语音进行重构,使其音质接近高质量语音是一个有价值的研究方向。然而,目前用软件方法进行低质量码率语音重构尚无相应可行方案。对于低质量码率语音的重构,通常是采取填充或插值数据的方法,但这种方法过于粗糙,基本无法还原高质量语音的音质。
发明内容
为了解决上述问题中的至少一个而提出了本发明。本发明提出了一种关于基于深度学习的语音音质增强的方案,其基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。下面简要描述本发明提出的关于基于深度学习的语音音质增强的方案,更多细节将在后续结合附图在具体实施方式中加以描述。
根据本发明一方面,提供了一种基于深度学习的语音音质增强方法,所述方法包括:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
在本发明的一个实施例中,所述语音重构神经网络的训练包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。
在本发明的一个实施例中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
在本发明的一个实施例中,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。
在本发明的一个实施例中,所述特征提取得到的特征包括频域幅度和/或能量信息。
在本发明的一个实施例中,所述特征提取得到的特征还包括频谱相位信息。
在本发明的一个实施例中,所述特征提取的方式包括短时傅里叶变换。
在本发明的一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。
在本发明的一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。
在本发明的一个实施例中,所述利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据包括:将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及基于所述重构语音特征生成时域语音波形以作为所述输出语音数据。
根据本发明另一方面,提供了一种基于深度学习的语音音质增强装置,所述装置包括:特征提取模块,用于获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及语音重构模块,用于基于所述特征提取模块提取的所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
在本发明的一个实施例中,所述语音重构神经网络的训练包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。
在本发明的一个实施例中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
在本发明的一个实施例中,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。
在本发明的一个实施例中,所述特征提取得到的特征包括频域幅度和/或能量信息。
在本发明的一个实施例中,所述特征提取得到的特征还包括频谱相位信息。
在本发明的一个实施例中,所述特征提取的方式包括短时傅里叶变换。
在本发明的一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。
在本发明的一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。
在本发明的一个实施例中,所述语音重构模块进一步包括:重构模块,用于将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及生成模块,用于基于所述重构模块输出的所述重构语音特征生成时域语音波形以作为所述输出语音数据。
根据本发明又一方面,提供了一种基于深度学习的语音音质增强系统,所述系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行上述任一项所述的基于深度学习的语音音质增强方法。
根据本发明再一方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序在运行时执行上述任一项所述的基于深度学习的语音音质增强方法。
根据本发明又一方面,提供了一种计算机程序,所述计算机程序被计算机或处理器运行时用于执行上述任一项所述的基于深度学习的语音音质增强方法,所述计算机程序还用于实现上述任一项所述的基于深度学习的语音音质增强装置中的各模块。
根据本发明实施例的基于深度学习的语音音质增强方法、装置和系统基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。此外,根据本发明实施例的基于深度学习的语音音质增强方法、装置和系统可以便利地部署在服务端或用户端,能够高效地实现语音音质的增强。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的基于深度学习的语音音质增强方法、装置和系统的示例电子设备的示意性框图;
图2示出根据本发明实施例的基于深度学习的语音音质增强方法的示意性流程图;
图3示出根据本发明实施例的语音重构神经网络的训练示意图;
图4A、图4B以及4C分别示出高质量语音、低质量语音、以及采用根据本发明实施例的基于深度学习的语音音质增强方法将低质量语音重构所得到的语音各自的语谱图;
图5示出根据本发明实施例的基于深度学习的语音音质增强装置的示意性框图;以及
图6示出根据本发明实施例的基于深度学习的语音音质增强系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参照图1来描述用于实现本发明实施例的基于深度学习的语音音质增强方法、装置和系统的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108,这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。此外,所述输入装置106也可以是任何接收信息的接口。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。此外,所述输出装置108也可以是任何其他具备输出功能的设备。
示例性地,用于实现根据本发明实施例的基于深度学习的语音音质增强方法、装置和系统的示例电子设备可以被实现诸如智能手机、平板电脑等终端。
下面,将参考图2描述根据本发明实施例的基于深度学习的语音音质增强方法200。如图2所示,基于深度学习的语音音质增强方法200可以包括如下步骤:
在步骤S210,获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征。
在一个实施例中,在步骤S210中所获取的待处理语音数据可以为语音通信终端、语音存储/播放设备中接收、存储或播放的需要进行音质增强的低质量语音数据,例如低码率、低采样频率的语音数据。示例性地,待处理语音数据可以包括但不限于:无线语音通话的数据流、用户正在播放的在列表中的语音、或存储在云端、客户端的语音文件等。在其他示例中,在步骤S210中所获取的待处理语音数据也可以为任何需要进行音质增强的数据,例如包括在视频数据中的语音数据等。此外,在步骤S210中所获取的待处理语音数据可以来自离线存放的文件,也可以来自在线播放的文件。
在一个实施例中,对所获取的待处理语音数据进行特征提取的方式可以包括但不限于短时傅里叶变换(STFT)。示例性地,对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征可以包括频域幅度和/或能量信息。示例性地,对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征还可以包括频谱相位信息。示例性地,对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征也可以是时域特征。在其他示例中,对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征还可以包括任何其他可以表征待处理语音数据的特征。
在一个实施例中,在对待处理语音数据进行特征提取之前,可以先对其进行分帧处理,并且前述的特征提取针对分帧后得到语音数据逐帧进行。这种情况可以适用于在步骤S210所获取的待处理语音数据是来自于离线存放的文件或来自于任何源的完整文件时。在另一个实施例中,如果在步骤S210所获取的待处理语音数据来自于在线播放的文件,则可以缓存一帧或多帧待处理语音数据后再进行特征提取。示例性地,可以针对分帧后得到的或缓存后得到的每帧待处理语音数据选择部分数据进行特征提取,这样可以有效减少数据量,提高处理效率。
在又一个实施例中,在对待处理语音数据进行前述的分帧处理之前,可以先对待处理语音数据进行解码处理,并且前述的分帧处理可以针对解码后得到的时域波形数据进行。这是因为,所获取的待处理语音数据一般为经过编码的形式,为了获得其完整的语音时域信息,可先对其进行解码。
在又一个实施例中,在对待处理语音数据进行特征提取之前,还可以先对待处理语音数据进行预处理,并且前述的特征提取可以针对预处理后得到的语音数据进行。示例性地,对待处理语音数据的预处理可以包括但不限于:去噪、回声抑制和自动增益控制等。示例性地,预处理可以是在前述解码处理之后进行。因此,在一个示例中,可以对所获取的待处理语音数据依次进行解码、预处理、分帧和特征提取,以高效地提取具有很好代表性的特征。在其他示例中,前述的预处理操作也可以在分帧之后特征提取之前进行。
现在继续参考图2,描述根据本发明实施例的基于深度学习的语音音质增强方法200的后续步骤。
在步骤S220,基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
在本发明的实施例中,将在步骤S210中提取的待处理语音数据的特征输入到训练好的语音重构神经网络,由该语音重构神经网络对输入的特征进行重构得到重构语音特征,该重构得到的重构语音特征可以用于生成相对于所获取的待处理语音数据语音质量更高的输出语音数据。因此,本发明的语音音质增强方法可以基于深度学习精确地补充低质量语音中丢失的语音信息,不仅能够高效地实现低质量语音音质的极大提升,又不影响对通信带宽的兼顾(因为传输的仍然是数据量较小的低质量语音数据,但该低质量语音数据可在接收端被重构为高质量语音数据)。
下面结合图3描述根据本发明实施例的上述语音重构神经网络的训练过程。如图3所示,根据本发明实施例的语音重构神经网络的训练可以包括如下过程:
在S310,获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到。
在一个示例中,第一语音样本可以是高质量语音样本,第二语音样本可以是低质量语音样本。示例性地,第一语音样本可以是一组高码率、高采样频率的语音样本,包括但不限于16kHz、24kHz、32kHz采样频率的语音数据。在一个示例中,可以将第一语音样本进行转码以获得第二语音样本。例如,可以将采样频率为16kHz、码率为23.85kbps的amr-wb语音样本作为第一语音样本,通过将其转码为采样频率为8kHz、码率为12.2kbps的amr-nb语音来得到第二语音样本。再如,可以通过将FLAC格式的第一语音样本变换为MP3格式来得到第二语音样本,而不降低码率和采样频率。也就是说,第一语音样本的码率可以高于或等于第二语音样本的码率;第一语音样本的采样频率可以高于或等于第二语音样本的采样频率。当然,这仅是示例性的。第一语音样本(即高质量语音样本)转码得到第二语音样本(即低质量语音样本)也可以是其他的情况,这可以基于实际应用场景来适应性调整。具体地,可以基于对步骤S210获取的待处理语音数据的重构需求来确定应选择的第一语音样本和第二语音样本,也就是说可以基于上述重构需求确定应选择的第一语音样本和应采用的将其转码为第二语音样本的转码方式。
继续参考图3,在S320,对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征。
与前文在步骤S210中所描述的类似的,在一个实施例中,对第一语音样本和第二语音样本各自进行特征提取的方式可以包括但不限于短时傅里叶变换。示例性地,对第一语音样本和第二语音样本各自进行特征提取所得到的特征可以包括其各自的频域幅度和/或能量信息。示例性地,对第一语音样本和第二语音样本进行特征提取所得到的特征还可以包括其各自的频谱相位信息。示例性地,对第一语音样本和第二语音样本进行特征提取所得到的特征也可以是其各自的时域特征。在其他示例中,对第一语音样本和第二语音样本各自进行特征提取所得到的特征还可以包括任何其他可以表征其各自的特征。
此外,仍与前文在步骤S210中所描述的类似的,在一个实施例中,在对第一语音样本和第二语音样本各自进行特征提取之前,可以先对第一语音样本和第二语音样本各自进行分帧处理,并且前述的特征提取可以针对第一语音样本和第二语音样本各自分帧后得到的其各自的语音样本逐帧进行。示例性地,可以针对每帧语音样本选择部分数据进行特征提取,这样可以有效减少数据量,提高处理效率。
在又一个实施例中,在对第一语音样本和第二语音样本各自进行前述的分帧处理之前,可以先对第一语音样本和第二语音样本各自进行解码处理,并且前述的分帧处理可以针对第一语音样本和第二语音样本各自解码后得到的其各自的时域波形数据进行。
在又一个实施例中,在对第一语音样本和第二语音样本进行特征提取之前,还可以先对第一语音样本和第二语音样本各自进行预处理,并且前述的特征提取可以针对预处理后得到的语音样本进行。示例性地,对第一语音样本和第二语音样本各自进行的预处理可以包括但不限于:去噪、回声抑制和自动增益控制等。示例性地,预处理可以是前述解码处理之后进行。因此,在一个示例中,可以对第一语音样本和第二语音样本各自依次进行解码、预处理、分帧和特征提取,以高效地提取具有很好代表性的特征。在其他示例中,前述的预处理操作也可以在对第一语音样本和第二语音样本分别分帧之后特征提取之前进行。
在S330,将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。
在一个实施例中,可以将一帧或多帧第二语音样本的特征作为语音重构神经网络的输入层的输入,可以将一帧或多帧第一语音样本的特征作为语音重构神经网络的输出层的目标,从而训练一个神经网络回归器作为在步骤S220中采用的语音重构神经网络。
以上结合图3示例性地描述了根据本发明实施例的语音重构神经网络的训练过程。现在继续参考图2,如前所述,在步骤S220中,基于训练好的语音重构神经网络,可将待处理语音数据的特征重构为重构语音特征,由于该重构语音特征为频域特征,因此可基于该重构语音特征生成时域语音波形输出。示例性地,可以通过傅里叶逆变换来对该重构语音特征进行变换得到时域语音波形。输出的语音波形可被存储或经缓存用于播放,从而为用户提供更好的经提升的语音音质体验。下面可以结合图4A-图4C来体会根据实施例的基于深度学习的语音音质增强方法的语音音质增强效果。
图4A、图4B以及4C分别示出高质量语音、低质量语音、以及采用根据本发明实施例的基于深度学习的语音音质增强方法将低质量语音重构所得到的语音各自的语谱图。其中,图4A示出以PCM格式、16kHz采样频率、16bit量化位数为例的高质量语音的语谱图400;图4B示出对该高质量语音进行转码得到的MP3格式、8kHz采样频率、8kbps码率的低质量语音的语谱图401;图4C示出采用根据本发明实施例的基于深度学习的语音音质增强方法将该低质量语音重构得到的16kHz采样频率的重构语音的语谱图402。从图4A-图4C很明显可以看出,与图4A示出的高质量语音的语谱图相比,图4B示出的低质量语音的语谱图缺少了很多高频成分,而经过根据本发明实施例的基于深度学习的语音音质增强方法的重构,图4C示出的重构语音的语谱图又恢复了这些高频成分,实现窄带语音的超分辨率,使得低质量语音的音质得到了较好的提升。
基于上面的描述,根据本发明实施例的基于深度学习的语音音质增强方法基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。
以上示例性地描述了根据本发明实施例的基于深度学习的语音音质增强方法。示例性地,根据本发明实施例的基于深度学习的语音音质增强方法可以在具有存储器和处理器的设备、装置或者系统中实现。
此外,根据本发明实施例的基于深度学习的语音音质增强方法可以方便地部署到智能手机、平板电脑、个人计算机、耳机、音箱等移动设备上。替代地,根据本发明实施例的基于深度学习的语音音质增强方法还可以部署在服务器端(或云端)。替代地,根据本发明实施例的基于深度学习的语音音质增强方法还可以分布地部署在服务器端(或云端)和个人终端处。
下面结合图5描述本发明另一方面提供的基于深度学习的语音音质增强装置。图5示出了根据本发明实施例的基于深度学习的语音音质增强装置500的示意性框图。
如图5所示,根据本发明实施例的基于深度学习的语音音质增强装置500包括特征提取模块510和语音重构模块520。所述各个模块可分别执行上文中结合图2描述的基于深度学习的语音音质增强方法的各个步骤/功能。以下仅对基于深度学习的语音音质增强装置500的各模块的主要功能进行描述,而省略以上已经描述过的细节内容。
特征提取模块510用于获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征。语音重构模块520用于基于所述特征提取模块提取的所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。特征提取模块510和语音重构模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
在一个实施例中,特征提取模块510所获取的待处理语音数据可以为语音通信终端、语音存储/播放设备中接收、存储或播放的需要进行音质增强的低质量语音数据,例如低码率、低采样频率的语音数据。示例性地,待处理语音数据可以包括但不限于:无线语音通话的数据流、用户正在播放的在列表中的语音、或存储在云端、客户端的语音文件等。在其他示例中,特征提取模块510所获取的待处理语音数据也可以为任何需要进行音质增强的数据,例如包括在视频数据中的语音数据等。此外,特征提取模块510所获取的待处理语音数据可以来自离线存放的文件,也可以来自在线播放的文件。
在一个实施例中,特征提取模块510对所获取的待处理语音数据进行特征提取的方式可以包括但不限于短时傅里叶变换(STFT)。示例性地,特征提取模块510对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征可以包括频域幅度和/或能量信息。示例性地,特征提取模块510对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征还可以包括频谱相位信息。示例性地,特征提取模块510对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征也可以是时域特征。在其他示例中,特征提取模块510对所获取的待处理语音数据进行特征提取所得到的待处理语音数据的特征还可以包括任何其他可以表征待处理语音数据的特征。
在一个实施例中,在特征提取模块510对待处理语音数据进行特征提取之前,可以先对其进行分帧处理,并且前述的特征提取针对分帧后得到语音数据逐帧进行。这种情况可以适用于在特征提取模块510所获取的待处理语音数据是来自于离线存放的文件或来自于任何源的完整文件时。在另一个实施例中,如果特征提取模块510所获取的待处理语音数据来自于在线播放的文件,则可以缓存一帧或多帧待处理语音数据后再进行特征提取。示例性地,特征提取模块510可以针对分帧后得到的或缓存后得到的每帧待处理语音数据选择部分数据进行特征提取,这样可以有效减少数据量,提高处理效率。
在又一个实施例中,在特征提取模块510对待处理语音数据进行前述的分帧处理之前,可以先对待处理语音数据进行解码处理,并且前述的分帧处理可以针对解码后得到的时域波形数据进行。这是因为,所获取的待处理语音数据一般为经过编码的形式,为了获得其完整的语音时域信息,可先对其进行解码。
在又一个实施例中,在特征提取模块510对待处理语音数据进行特征提取之前,还可以先对待处理语音数据进行预处理,并且前述的特征提取可以针对预处理后得到的语音数据进行。示例性地,特征提取模块510对待处理语音数据的预处理可以包括但不限于:去噪、回声抑制和自动增益控制等。示例性地,预处理可以是在前述解码处理之后进行。因此,在一个示例中,特征提取模块510可以对所获取的待处理语音数据依次进行解码、预处理、分帧和特征提取,以高效地提取具有很好代表性的特征。在其他示例中,前述的预处理操作也可以在分帧之后特征提取之前进行。
基于特征提取模块510所提取的待处理语音数据的特征,语音重构模块520可以利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据。
在本发明的实施例中,语音重构模块520可以进一步包括重构模块(未在图5中示出)和生成模块(未在图5中示出)。其中,重构模块可以包括训练好的语音重构神经网络,该语音重构神经网络将特征提取模块510提取的待处理语音数据的特征作为输入,对输入的特征进行重构得到重构语音特征。生成模块基于重构模块输出的重构语音特征生成相对于所获取的待处理语音数据语音质量更高的输出语音数据。因此,本发明的语音音质增强装置可以基于深度学习精确地补充低质量语音中丢失的语音信息,不仅能够高效地实现低质量语音音质的极大提升,又不影响对通信带宽的兼顾(因为传输的仍然是数据量较小的低质量语音数据,但该低质量语音数据可在接收端被重构为高质量语音数据)。
在本发明的实施例中,语音重构模块520所利用的语音重构神经网络的训练可以包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。可以结合图3参照上文关于图3的描述理解根据本发明实施例的基于深度学习的语音音质增强装置500的语音重构模块520所利用的语音重构神经网络的训练过程。为了简洁,此处不赘述过多的细节。
在一个示例中,第一语音样本可以是高质量语音样本,第二语音样本可以是低质量语音样本。示例性地,第一语音样本可以是一组高码率、高采样频率的语音样本,包括但不限于16kHz、24kHz、32kHz采样频率的语音数据。在一个示例中,可以将第一语音样本进行转码以获得第二语音样本。例如,可以将采样频率为16kHz、码率为23.85kbps的amr-wb语音样本作为第一语音样本,通过将其转码为采样频率为8kHz、码率为12.2kbps的amr-nb语音来得到第二语音样本。再如,可以通过将FLAC格式的第一语音样本变换为MP3格式来得到第二语音样本,而不降低码率和采样频率。也就是说,第一语音样本的码率可以高于或等于第二语音样本的码率;第一语音样本的采样频率可以高于或等于第二语音样本的采样频率。当然,这仅是示例性的。第一语音样本(即高质量语音样本)转码得到第二语音样本(即低质量语音样本)也可以是其他的情况,这可以基于实际应用场景来适应性调整。具体地,可以基于对特征提取模块510获取的待处理语音数据的重构需求来确定应选择的第一语音样本和第二语音样本,也就是说可以基于上述重构需求确定应选择的第一语音样本和应采用的将其转码为第二语音样本的转码方式。
在一个实施例中,对第一语音样本和第二语音样本各自进行特征提取的方式可以包括但不限于短时傅里叶变换。示例性地,对第一语音样本和第二语音样本各自进行特征提取所得到的特征可以包括其各自的频域幅度和/或能量信息。示例性地,对第一语音样本和第二语音样本进行特征提取所得到的特征还可以包括其各自的频谱相位信息。示例性地,对第一语音样本和第二语音样本进行特征提取所得到的特征也可以是其各自的时域特征。在其他示例中,对第一语音样本和第二语音样本各自进行特征提取所得到的特征还可以包括任何其他可以表征其各自的特征。
在一个实施例中,在对第一语音样本和第二语音样本各自进行特征提取之前,可以先对第一语音样本和第二语音样本各自进行分帧处理,并且前述的特征提取可以针对第一语音样本和第二语音样本各自分帧后得到的其各自的语音样本逐帧进行。示例性地,可以针对每帧语音样本选择部分数据进行特征提取,这样可以有效减少数据量,提高处理效率。
在又一个实施例中,在对第一语音样本和第二语音样本各自进行前述的分帧处理之前,可以先对第一语音样本和第二语音样本各自进行解码处理,并且前述的分帧处理可以针对第一语音样本和第二语音样本各自解码后得到的其各自的时域波形数据进行。
在又一个实施例中,在对第一语音样本和第二语音样本进行特征提取之前,还可以先对第一语音样本和第二语音样本各自进行预处理,并且前述的特征提取可以针对预处理后得到的语音样本进行。示例性地,对第一语音样本和第二语音样本各自进行的预处理可以包括但不限于:去噪、回声抑制和自动增益控制等。示例性地,预处理可以是在前述解码处理之后进行。因此,在一个示例中,可以对第一语音样本和第二语音样本各自依次进行解码、预处理、分帧和特征提取,以高效地提取具有很好代表性的特征。在其他示例中,前述的预处理操作也可以在对第一语音样本和第二语音样本分别分帧之后特征提取之前进行。
在一个实施例中,可以将一帧或多帧第二语音样本的特征作为语音重构神经网络的输入层的输入,可以将一帧或多帧第一语音样本的特征作为语音重构神经网络的输出层的目标,从而训练一个神经网络回归器作为在语音重构模块520中采用的语音重构神经网络。
基于训练好的语音重构神经网络,语音重构模块520的重构模块可将待处理语音数据的特征重构为重构语音特征,由于该重构语音特征为频域特征,因此语音重构模块520的生成模块可基于该重构语音特征生成时域语音波形输出。示例性地,生成模块可以通过傅里叶逆变换来对该重构语音特征进行变换得到时域语音波形。输出的语音波形可被存储或经缓存用于播放,从而为用户提供更好的经提升的语音音质体验。可以结合图4A-图4C参照前述关于图4A-图4C的描述来体会根据实施例的基于深度学习的语音音质增强装置的语音音质增强效果。为了简洁,此处不再赘述。
基于上面的描述,根据本发明实施例的基于深度学习的语音音质增强装置基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。此外,根据本发明实施例的基于深度学习装置可以便利地部署在服务端或用户端,能够高效地实现语音音质的增强。
图6示出了根据本发明实施例的基于深度学习的语音音质增强系统600的示意性框图。基于深度学习的语音音质增强系统600包括存储装置610以及处理器620。
其中,存储装置610存储用于实现根据本发明实施例的基于深度学习的语音音质增强方法中的相应步骤的程序。处理器620用于运行存储装置610中存储的程序,以执行根据本发明实施例的基于深度学习的语音音质增强方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的语音音质增强装置中的相应模块。
在一个实施例中,在所述程序被处理器620运行时使得基于深度学习的语音音质增强系统600执行以下步骤:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
在一个实施例中,所述语音重构神经网络的训练包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。
在一个实施例中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
在一个实施例中,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。
在一个实施例中,所述特征提取得到的特征包括频域幅度和/或能量信息。
在一个实施例中,所述特征提取得到的特征还包括频谱相位信息。
在一个实施例中,所述特征提取的方式包括短时傅里叶变换。
在一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。
在一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。
在一个实施例中,在一个实施例中,在所述程序被处理器620运行时使得基于深度学习的语音音质增强系统600执行的所述利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据包括:将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及基于所述重构语音特征生成时域语音波形以作为所述输出语音数据。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于深度学习的语音音质增强方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的语音音质增强装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的基于深度学习的语音音质增强装置的各个功能模块,并且/或者可以执行根据本发明实施例的基于深度学习的语音音质增强方法。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
在一个实施例中,所述语音重构神经网络的训练包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。
在一个实施例中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
在一个实施例中,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。
在一个实施例中,所述特征提取得到的特征包括频域幅度和/或能量信息。
在一个实施例中,所述特征提取得到的特征还包括频谱相位信息。
在一个实施例中,所述特征提取的方式包括短时傅里叶变换。
在一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。
在一个实施例中,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据包括:将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及基于所述重构语音特征生成时域语音波形以作为所述输出语音数据。
根据本发明实施例的基于深度学习的语音音质增强装置中的各模块可以通过根据本发明实施例的基于深度学习的语音音质增强的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
此外,根据本发明实施例,还提供了一种计算机程序,该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的基于深度学习的语音音质增强方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的语音音质增强装置中的相应模块。
根据本发明实施例的基于深度学习的语音音质增强方法、装置、系统、存储介质和计算机程序基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。此外,根据本发明实施例的基于深度学习的语音音质增强方法、装置、系统、存储介质和计算机程序可以便利地部署在服务端或用户端,能够高效地实现语音音质的增强。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (17)
1.一种基于深度学习的语音音质增强方法,其特征在于,所述方法包括:
获取待处理语音数据,并对所述待处理语音数据进行解码和特征提取以得到所述待处理语音数据的特征;以及
将所述待处理语音数据的特征输入到训练好的语音重构神经网络,由所述语音重构神经网络对输入的特征进行重构得到重构语音特征;
基于所述重构语音特征生成输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量,所述语音质量的衡量指标包括码率;
其中,所述语音重构神经网络的训练包括:
获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;
对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及
将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络;
其中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
2.根据权利要求1所述的方法,其特征在于,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。
3.根据权利要求1所述的方法,其特征在于,所述特征提取得到的特征包括频域幅度和/或能量信息。
4.根据权利要求3所述的方法,其特征在于,所述特征提取得到的特征还包括频谱相位信息。
5.根据权利要求4所述的方法,其特征在于,所述特征提取的方式包括短时傅里叶变换。
6.根据权利要求1所述的方法,其特征在于,所述语音重构神经网络的训练还包括:
在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。
7.根据权利要求6所述的方法,其特征在于,所述语音重构神经网络的训练还包括:
在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。
8.根据权利要求1所述的方法,其特征在于,所述利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据包括:
将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及
基于所述重构语音特征生成时域语音波形以作为所述输出语音数据。
9.一种基于深度学习的语音音质增强装置,其特征在于,所述装置包括:
特征提取模块,用于获取待处理语音数据,并对所述待处理语音数据进行解码和特征提取以得到所述待处理语音数据的特征;以及
语音重构模块,用于将所述特征提取模块提取的所述待处理语音数据的特征输入到训练好的语音重构神经网络,由所述语音重构神经网络对输入的特征进行重构得到重构语音特征,并基于所述重构语音特征生成输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量,所述语音质量的衡量指标包括码率;
其中,所述语音重构神经网络的训练包括:
获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;
对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及
将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络;
其中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
10.根据权利要求9所述的装置,其特征在于,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。
11.根据权利要求9所述的装置,其特征在于,所述特征提取得到的特征包括频域幅度和/或能量信息。
12.根据权利要求11所述的装置,其特征在于,所述特征提取得到的特征还包括频谱相位信息。
13.根据权利要求12所述的装置,其特征在于,所述特征提取的方式包括短时傅里叶变换。
14.根据权利要求9所述的装置,其特征在于,所述语音重构神经网络的训练还包括:
在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。
15.根据权利要求14所述的装置,其特征在于,所述语音重构神经网络的训练还包括:
在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。
16.根据权利要求9所述的装置,其特征在于,所述语音重构模块进一步包括:
重构模块,用于将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及
生成模块,用于基于所述重构模块输出的所述重构语音特征生成时域语音波形以作为所述输出语音数据。
17.一种基于深度学习的语音音质增强系统,其特征在于,所述系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1-8中的任一项所述的基于深度学习的语音音质增强方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069826.XA CN113870872A (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
CN201810583123.0A CN109147806B (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
PCT/CN2019/089759 WO2019233362A1 (zh) | 2018-06-05 | 2019-06-03 | 基于深度学习的语音音质增强方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583123.0A CN109147806B (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111069826.XA Division CN113870872A (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109147806A CN109147806A (zh) | 2019-01-04 |
CN109147806B true CN109147806B (zh) | 2021-11-12 |
Family
ID=64801980
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810583123.0A Active CN109147806B (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
CN202111069826.XA Pending CN113870872A (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111069826.XA Pending CN113870872A (zh) | 2018-06-05 | 2018-06-05 | 基于深度学习的语音音质增强方法、装置和系统 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN109147806B (zh) |
WO (1) | WO2019233362A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147806B (zh) * | 2018-06-05 | 2021-11-12 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
CN110022400A (zh) * | 2019-01-28 | 2019-07-16 | 努比亚技术有限公司 | 一种语音通话输出方法、终端及计算机可读存储介质 |
CN111833892B (zh) * | 2019-04-22 | 2024-07-30 | 浙江宇视科技有限公司 | 音视频数据处理方法及装置 |
CN113748460A (zh) * | 2019-04-30 | 2021-12-03 | 渊慧科技有限公司 | 使用神经网络的传入数据的带宽扩展 |
CN111429930B (zh) * | 2020-03-16 | 2023-02-28 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及系统 |
CN111681669A (zh) * | 2020-05-14 | 2020-09-18 | 上海眼控科技股份有限公司 | 一种基于神经网络的语音数据的识别方法与设备 |
US20220365799A1 (en) * | 2021-05-17 | 2022-11-17 | Iyo Inc. | Using machine learning models to simulate performance of vacuum tube audio hardware |
CN114360562A (zh) * | 2021-12-17 | 2022-04-15 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN114863940B (zh) * | 2022-07-05 | 2022-09-30 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
CN114863942B (zh) * | 2022-07-05 | 2022-10-21 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升语音音质的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1719114A2 (en) * | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
CN103236262A (zh) * | 2013-05-13 | 2013-08-07 | 大连理工大学 | 一种语音编码器码流的转码方法 |
CN103531205A (zh) * | 2013-10-09 | 2014-01-22 | 常州工学院 | 基于深层神经网络特征映射的非对称语音转换方法 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及系统 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107622777A (zh) * | 2016-07-15 | 2018-01-23 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3184092B2 (ja) * | 1996-05-27 | 2001-07-09 | シャープ株式会社 | 画像処理方法 |
US6154499A (en) * | 1996-10-21 | 2000-11-28 | Comsat Corporation | Communication systems using nested coder and compatible channel coding |
CN101197576A (zh) * | 2006-12-07 | 2008-06-11 | 上海杰得微电子有限公司 | 一种音频信号编码、解码方法 |
CN102238373A (zh) * | 2010-04-20 | 2011-11-09 | 上海精视信息技术有限责任公司 | 基于宽带移动通信技术的电视节目传输系统及工作方法 |
WO2012081166A1 (ja) * | 2010-12-14 | 2012-06-21 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
CN103038825B (zh) * | 2011-08-05 | 2014-04-30 | 华为技术有限公司 | 语音增强方法和设备 |
WO2014039828A2 (en) * | 2012-09-06 | 2014-03-13 | Simmons Aaron M | A method and system for reading fluency training |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
US9305559B2 (en) * | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
CN103151049B (zh) * | 2013-01-29 | 2016-03-02 | 武汉大学 | 一种面向移动音频的服务质量保障方法及系统 |
CN103338534B (zh) * | 2013-06-04 | 2016-01-20 | 沈阳空管技术开发有限公司 | 卫星传输路由器 |
CN103354588A (zh) * | 2013-06-28 | 2013-10-16 | 贵阳朗玛信息技术股份有限公司 | 录放音采样率的确定方法、装置及系统 |
CN103854655B (zh) * | 2013-12-26 | 2016-10-19 | 上海交通大学 | 一种低码率语音编码器以及解码器 |
US10347271B2 (en) * | 2015-12-04 | 2019-07-09 | Synaptics Incorporated | Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network |
CN107516527A (zh) * | 2016-06-17 | 2017-12-26 | 中兴通讯股份有限公司 | 一种语音编解码方法和终端 |
CN107358966B (zh) * | 2017-06-27 | 2020-05-12 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107274883B (zh) * | 2017-07-04 | 2020-06-02 | 清华大学 | 语音信号重构方法及装置 |
CN107564538A (zh) * | 2017-09-18 | 2018-01-09 | 武汉大学 | 一种实时语音通信的清晰度增强方法及系统 |
CN107845389B (zh) * | 2017-12-21 | 2020-07-17 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN109147806B (zh) * | 2018-06-05 | 2021-11-12 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
-
2018
- 2018-06-05 CN CN201810583123.0A patent/CN109147806B/zh active Active
- 2018-06-05 CN CN202111069826.XA patent/CN113870872A/zh active Pending
-
2019
- 2019-06-03 WO PCT/CN2019/089759 patent/WO2019233362A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1719114A2 (en) * | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
CN103236262A (zh) * | 2013-05-13 | 2013-08-07 | 大连理工大学 | 一种语音编码器码流的转码方法 |
CN103531205A (zh) * | 2013-10-09 | 2014-01-22 | 常州工学院 | 基于深层神经网络特征映射的非对称语音转换方法 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及系统 |
CN107622777A (zh) * | 2016-07-15 | 2018-01-23 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109147806A (zh) | 2019-01-04 |
CN113870872A (zh) | 2021-12-31 |
WO2019233362A1 (zh) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147806B (zh) | 基于深度学习的语音音质增强方法、装置和系统 | |
CN109147805B (zh) | 基于深度学习的音频音质增强 | |
US10297263B2 (en) | High band excitation signal generation | |
US8965545B2 (en) | Progressive encoding of audio | |
US8554550B2 (en) | Systems, methods, and apparatus for context processing using multi resolution analysis | |
JP6486962B2 (ja) | 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器 | |
US9293143B2 (en) | Bandwidth extension mode selection | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
JP2016540255A (ja) | ブラインド帯域幅拡張のシステムおよび方法 | |
WO2023241205A1 (zh) | 音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN113903345A (zh) | 音频处理方法、设备及电子设备 | |
WO2023241254A1 (zh) | 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
Dendani et al. | Speech enhancement based on deep AutoEncoder for remote Arabic speech recognition | |
JP6141443B2 (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
AU2015241092B2 (en) | Apparatus and methods of switching coding technologies at a device | |
WO2015196835A1 (zh) | 编解码方法、装置及系统 | |
CN114333891B (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN105336327B (zh) | 音频数据的增益控制方法及装置 | |
Jose | Amrconvnet: Amr-coded speech enhancement using convolutional neural networks | |
US20220277754A1 (en) | Multi-lag format for audio coding | |
TW201435859A (zh) | 用於量化及解量化相位資訊之系統及方法 | |
WO2024082928A1 (zh) | 语音处理方法、装置、设备和介质 | |
CN117351943A (zh) | 音频处理方法、装置、设备和存储介质 | |
CN118314876A (zh) | 语音合成方法、语音合成装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |