CN114420140A - 基于生成对抗网络的频带扩展方法、编解码方法及系统 - Google Patents
基于生成对抗网络的频带扩展方法、编解码方法及系统 Download PDFInfo
- Publication number
- CN114420140A CN114420140A CN202210322549.7A CN202210322549A CN114420140A CN 114420140 A CN114420140 A CN 114420140A CN 202210322549 A CN202210322549 A CN 202210322549A CN 114420140 A CN114420140 A CN 114420140A
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- spectral coefficient
- audio
- band
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 140
- 230000003595 spectral effect Effects 0.000 claims abstract description 208
- 230000008569 process Effects 0.000 claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 9
- 238000007493 shaping process Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000005070 sampling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013386 optimize process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种基于生成对抗网络的频带扩展方法、编解码方法及系统,属于音频编解码技术领域,该方法包括:在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;对谱系数进行带宽检测,得到带宽指示;若带宽指示为窄带宽,则通过预训练的生成神经网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;将低频谱系数和高频谱系数组合,得到宽带谱系数。本申请在音频编码或解码过程中,利用LC3编解码器中已有的模块获取音频数据的谱系数,并通过神经网络生成最终的宽带谱系数,完成频带的扩展。在编码或解码过程中完成频带扩展,节省算力,降低功耗,适用低功耗蓝牙,保证频带扩展的准确性。
Description
技术领域
本申请涉及音频编解码技术领域,尤其涉及一种基于生成对抗网络的频带扩展方法、编解码方法及系统。
背景技术
音频带宽用于描述组成复合信号的频率范围,常见的音乐歌曲的音频带宽在20Hz到20000Hz之间,音频信号的频带越宽,所包含的音频信号分量越丰富,音质也就越好,因此较高带宽的音频信号具有较好的听觉质量。但由于某些录音装置能够处理或者通过的频率范围有限等原因导致歌曲的频谱高度不高(例如:小于8K),导致歌曲对应的音质沉闷、不够明亮,因此常通过音频带宽扩展技术增强歌曲的高频带细节,使高频分量更丰富以提高歌曲的音质。
目前,传统的音频带宽扩展方法有非盲目式高频重建方法(例如:频带复制(Spectral Band Replication,SBR)法、简化参数的带宽扩展(Simplified ParametersBand width Extension ,SPBE) 等) 和盲目式高频重建方法(例如:线性外推(LinearExtrapolation,LE)、非线性预测等),这些传统方法大多数都在时域中,通过线性预测编码(Linear Predictive Coding,LPC)提取窄带信号的频谱包络等窄带特征,结合线性匹配或者统计方法由窄带特征预测得到高频带特征,进而合成得到超分辨率音频。传统的音频带宽扩展方法大多在时域进行处理,且音乐的音频频谱特征复杂多变。音频生成的泛化能力差,合成的超分辨率音频往往含有很多杂音,失真度高,听感沉闷。
另外,现有的频带扩展方法大多针对普通蓝牙设备,占用较大的存储空间并消耗较多的运算量,而LC3低功耗蓝牙对功耗有着严格的要求,因此上述的方法不能适用于低功耗蓝牙的应用场景。
发明内容
针对现有技术中,在进行频带扩展得到宽带宽音频时,操作过程复杂,功耗高,无法在嵌入式蓝牙系统中实施,无法适用低功耗蓝牙的应用场景的问题,本申请提出一种基于生成对抗网络的频带扩展方法、编解码方法及系统。
在本申请的一个技术方案中,提供一种基于生成对抗网络的频带扩展方法,包括:在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;对谱系数进行带宽检测,得到带宽指示;若带宽指示为窄带宽,则通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;将低频谱系数和高频谱系数组合,得到宽带谱系数。
可选的,生成网络的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行特征提取换,得到宽带语音对应的真宽带谱系数和窄带语音对应的窄带谱系数;根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数。
可选的,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数,包括:在LC3音频编码器的音频编码过程中,通过对音频数据进行低延迟改进型离散余弦变换,得到谱系数;或在LC3音频解码器的音频解码过程中,对输入的解码音频数据解码至变换域噪声整形步骤,得到谱系数。
可选的,生成网络的预训练过程还包括:将低频谱系数和高频谱系数组合,得到假宽带谱系数;通过判别网络对真宽带谱系数和假宽带谱系数进行判断,对生成网络进行优化。
在本申请的一个技术方案中,提供一种频带扩展的音频编解码方法,包括:在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;对谱系数进行带宽检测,得到带宽指示;若带宽指示为窄带宽,则通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;将低频谱系数和高频谱系数组合,得到宽带谱系数。LC3音频编码器或解码器根据宽带谱系数对音频数据进行编码或解码。
可选的,生成网络的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行离散余弦变换,得到宽带语音对应的宽带谱系数和窄带语音对应的窄带谱系数;根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数。
在本申请的一个技术方案中,提供一种频带扩展系统,包括:特征提取模块,其在LC3音频编解码器的音频编码或解码过程中,对输入的音频数据进行特征提取,确定其对应的谱系数;带宽检测模块,其对谱系数进行带宽检测,得到带宽指示;带宽扩展模块,若带宽指示为窄带宽,则其通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数,并将低频谱系数和高频谱系数组合,得到宽带谱系数。
在本申请的一个技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一或方案二中的方法。
在本申请的一个技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一或方案二中的方法。
本申请的有益效果是:本申请在音频编码或解码过程中,利用LC3编解码器中已有的模块获取音频数据的谱系数,并通过神经网络生成最终的宽带谱系数,完成频带的扩展。在编码或解码过程中完成频带扩展,节省算力,降低功耗,适用低功耗蓝牙,同时保证频带扩展的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请基于生成对抗网络的频带扩展方法的一个实施方式的流程示意图;
图2是一种宽带语音的示意图;
图3是滤波后的窄带语音示意图;
图4是本申请生成网络训练及推理过程的一个实例的示意图;
图5是本申请频带扩展的音频编解码方法的一个实施方式的流程示意图;
图6是本申请频带扩展系统的一个实施方式的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的产品或设备不必限于清楚地列出的哪些单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。
音频带宽用于描述组成复合信号的频率范围,常见的音乐歌曲的音频带宽在20Hz到20000Hz之间,音频信号的频带越宽,所包含的音频信号分量越丰富,音质也就越好,因此较高带宽的音频信号具有较好的听觉质量。但由于某些录音装置能够处理或者通过的频率范围有限等原因导致歌曲的频谱高度不高(例如:小于8K),导致歌曲对应的音质沉闷、不够明亮,因此常通过音频带宽扩展技术增强歌曲的高频带细节,使高频分量更丰富以提高歌曲的音质。
目前,传统的音频带宽扩展方法有非盲目式高频重建方法(例如:频带复制(Spectral Band Replication,SBR)法、简化参数的带宽扩展(Simplified ParametersBand width Extension,SPBE) 等) 和盲目式高频重建方法(例如:线性外推(LinearExtrapolation,LE)、非线性预测等),这些传统方法大多数都在时域中,通过线性预测编码(Linear Predictive Coding,LPC)提取窄带信号的频谱包络等窄带特征,结合线性匹配或者统计方法由窄带特征预测得到高频带特征,进而合成得到超分辨率音频。传统的音频带宽扩展方法大多在时域进行处理,且音乐的音频频谱特征复杂多变。音频生成的泛化能力差,合成的超分辨率音频往往含有很多杂音,失真度高,听感沉闷。
另外,现有的频带扩展方法大多针对普通蓝牙设备,占用加大的存储空间并消耗较多的运算量,而LC3低功耗蓝牙对功耗有着严格的要求,因此上述的方法不能适用于低功耗蓝牙的应用场景。
针对上述问题本申请提出一种基于生成对抗网络的频带扩展方法、编解码方法、系统、介质及设备。该频带扩展方法包括:在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;对谱系数进行带宽检测,得到带宽指示;若带宽指示为窄带宽,则通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;将低频谱系数和高频谱系数组合,得到宽带谱系数。
本申请通过将频带扩展过程直接在音频编码或解码的过程中进行,利用音频编码或解码时的已有模块和得出的参数进行频带的扩展,将窄带宽的音频扩展为具有宽带宽的音频,节省算力,降低功耗,适用于低功耗蓝牙的应用场景。在生成宽带宽的过程中,利用预先训练好的神经网络,保证准确性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请基于生成对抗网络的频带扩展方法的一个实施方式的流程示意图。
在图1所示的所示方式中,本申请的基于生成对抗网络的频带扩展方法包括过程S101,在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数。
在该实施方式中,与现有技术中的频带扩展方法不同,为了降低频带扩展过程中的功耗和算力,使得能够在低功耗蓝牙设备领域进行实施,本申请的频带扩展方法直接利用LC3低功耗蓝牙编码过程中的已有编码过程,获得对应的参数,以进行后续的频带扩展过程,使得功耗降低,节省算力。首先,在LC3音频编码器或解码器在对输入的音频数据进行对应的编码或解码过程时,直接利用LC3音频编码器或解码器中的已有编码或解码模块对音频数据进行特征提取,得到音频数据的谱系数。
可选的,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数,包括:在LC3音频编码器或解码器的音频编码或解码过程中,通过对音频数据进行低延迟改进型离散余弦变换,得到谱系数;或在LC3音频解码器的音频解码过程中,对输入的解码音频数据解码至变换域噪声整形步骤,得到谱系数。
在该可选实施例中,在音频数据的编码过程中,利用LC3音频编码器中的低延迟改进型离散余弦变换模块对音频数据进行离散余弦变换,进而得到音频数据对应的谱系数,或者在音频解码器对解码音频数据解码过程中,解码至变换域噪声整形步骤,从而得到相应的谱系数。其中,该过程是在音频编码或解码过程的一部分,本申请直接利用该标准编码或解码过程的结果进行后续的频带扩展过程,相比较与现有技术中需要额外的离散余弦变换模块对音频数据的处理过程,节省算力,降低功耗。
具体的,以16kHz采样率为例,其理论带宽为8kHz,实际带宽通常是8kHz或4kHz,本申请的方法主要是针对带宽为4kHz音频数据进行频带扩展。对于在进行音频编码过程时,将PCM格式的音频数据输入到LC3音频编码器中,完成低延迟改进型离散余弦变换,得到音频数据的谱系数。具体公式表达如下:
在图1所示的所示方式中,本申请的基于生成网络的频带扩展方法包括过程S102,对谱系数进行带宽检测,得到带宽指示。
在该实施方式中,因为输入音频的不确定性,即输入到LC3音频编码器或解码器中的音频数据可能为全带宽的数据,该数据不需要进行频带扩展;也可能为只有窄带宽的音频数据,该数据需要进行频带扩展,以提升音频的音质。因此,需要对得到的谱系数进行带宽检测,得到对应的带宽指示。其中,带宽检测过程也是LC3音频编码器或解码器中的固有过程,此处也是直接应用,不需要增加额外的运算,节省算力。
具体的,在进行带宽检测时,带宽指示分为两种。以16kHz采样率为例,第一种为宽带宽,用WB表示,其表示音频数据的有效带宽为8kHz;第二种为窄带宽,用NB表示,其表示音频数据的有效带宽为4kHz。
在图1所示的所示方式中,本申请的基于生成网络的频带扩展方法包括过程S103,若带宽指示为窄带宽,则通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数.
在该实施方式中,在经过带宽检测,得到带宽指示后,若带宽指示表明该音频数据为窄带宽数据,则通过预训练的生成网络对该音频数据的低频谱系数进行扩展得到对应的高频谱系数。其中,对于宽带宽的音频数据,其谱系数既包括低频谱系数,又包括高频谱系数。而对于窄带宽的音频数据,其谱系数仅仅对应低频谱系数。因此,在进行频带扩展时,通过预先训练的生成网络对低频谱系数进行处理,得到预测的高频谱系数。
具体的,以16kHz采样率为例,如果带宽指示为窄带宽,即时,需要对该音频数据进行频带扩展。首先将该音频数据的低频谱系数输入到生成网络中,得到预测的高频谱系数。其中,即谱系数的前一半,对应低频谱系数,为生成网络得到的高频谱系数。如果带宽指示为宽带宽,即=WB时,则不执行上述的频带扩展过程。
在图1所示的所示方式中,本申请的基于生成对抗网络的频带扩展方法包括过程S104,将低频谱系数和高频谱系数组合,得到宽带谱系数。
在该实施方式中,在通过预训练的生成网络预测出高频谱系数后,将低频谱系数和预测的高频谱系数进行组合,从而得到该窄带宽音频数据对应的宽带谱系数。根据该宽带谱系数对该音频数据进行后续的编码过程,从而提升编码结果的音质。
可选的,生成网络的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行特征提取,得到宽带语音对应的真宽带谱系数和窄带语音对应的窄带谱系数;根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数。
在该可选实施例中,对生成网络的训练过程进行简单说明。生成网络可以基于自编码器也可以基于其他神经网络模型,如CNN、RNN、LSTM等,本发明并不限制。因此,在进行模型训练时,首先获得训练的数据集。以16kHz采样率为例,首先获取宽带语音,即有效带宽为8KHz的音频数据。其中,该宽带语音可以基于公开的语音材料或者自己录制。图2示出了一种宽带语音的示意图。如图2所示,横坐标为时间,纵坐标是频率,可以看出,在0~8kHz都有谱能量信息。在获得宽带语音后,对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽。
具体的,以16kHz采样率为例,对宽带语音使用窄带滤波器进行滤波,生成有效带宽为4kHz的语音。其中,图3是滤波后的窄带语音示意图。如图3所示,其采样率仍然是16kHz,但有效带宽只有4kHz。对宽带语音进行窄带滤波属于较为成熟的技术,此处不再赘述。
在该可选实施例中,在得到宽带语音和窄带语音后,进行特征提取,即进行低延迟改进型离散余弦变换,得到宽带语音对应的真宽带谱系数和窄带语音对应的窄带谱系数。最后,根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数。
具体的,以16kHz采样率为例,宽带语音进行特征提取,得到对应的真宽带谱系数表示为;窄带语音进行特征提取,得到对应的窄带谱系数表示为。提取其中的低频谱系数,得到。经过生成网络对该低频谱系数进行处理,得到对应的高频谱系数,k=0-79。
可选的,生成网络的预训练过程还包括:将低频谱系数和高频谱系数组合,得到假宽带谱系数;通过对判别网络对真宽带谱系数和假宽带谱系数进行判断,对生成网络进行优化。
在该可选实施例中,模型训练过程是一个不断优化的过程。在训练过程中,得到高频谱系数后,将低频谱系数和高频谱系数进行组合得到假宽带谱系数。通过判别网络对宽带语音的真宽带谱系数和组合后的假宽带谱系数进行判断,根据判断结果进而对生成网络的参数进行调整,从而提高生成网络生成高频谱系数的准确性。
具体的,图4示出了本申请生成网络训练及推理过程的一个实例。
如图4所示,在离线训练过程中,对带宽为8KHz的宽带语音进行特征提取,得到真宽带谱系数;对该宽带语音进行窄带滤波,得到带宽为4KHz的窄带语音,在经过特征提取后得到低频谱系数,经过生成网络,得到预测的高频谱系数。将低频谱系数和预测的高频谱系数进行组合,得到带宽为8KHz的假宽带谱系数。通过判别网络对真宽带谱系数和假宽带谱系数进行判断,进而对生成网络进行优化,当真宽带谱系数和假宽带谱系数的误差在一定范围内时,确定生成网络的参数,完成模型的训练。其中,离线训练通常基于PC使用浮点运算,得到的网络模型参数为浮点表示,蓝牙领域的在线推理通常基于嵌入式设备,未必有浮点运算单元,所以需要将参数量化为8bit,既可以节省运算量,也可以节省存储空间。
在具体的推理过程时,若输入的语音为窄带语音,则可通过预先训练好的生成网络进行处理,最终将窄带语音进行频带扩展,提升音质。
具体的,本发明使用的生成网络可以基于自编码器也可以基于其他神经网络模型,如CNN、RNN、LSTM等,本发明并不限制),一种基于自编码器的实现方式简述如下:输入为,编码器输入160个节点,第一隐藏层80个节点,输出40个节点,解码器输入40个节点,第一隐藏层80个节点,输出160个节点,每一层还包括批标准化函数和激活函数。
本发明使用的判别网络可以基于深度神经网络也可以基于其他神经网络模型,本发明并不限制),一种实现方式简述如下:以配置采样率16kHz、帧长配置10ms为例,输入层320个节点,第一隐藏层640个节点、第二隐藏层640个节点、输出层1个节点,每一层还包括批标准化函数和激活函数。
生成对抗网络(Generative Adversarial Networks, GAN)由Ian J .Goodfellow等人2014年提出,此处简要介绍,它是一种无监督学习方法,其通过让两个神经网络相互博弈的方式进行学习。GAN主要由一个生成网络(Generator Network)和一个判别网络(Discriminator Network)组成,生成网络主要用于生成样本,其输入可以为噪声数据,得到则是生成的目标样本;判别网络主要用于区分其输入样本是生成网络生成的目标样本还是真实样本中的存在的。两个神经网络在训练时进行博弈,即生成网络的得到结果需要尽量模仿训练集中的真实样本,而判别网络则需要尽可能地分辨其所输入样本,两个网络在训练过程中不断调整参数、相互对抗,最终达到纳什均衡,生成网络生成的样本(假数据)接近真实(真数据),以至于判别网络无法判断生成网络的得到结果是否为真实样本。
其训练过程简述如下:先固定生成网络(Generator,简称G)不变,当判别网络(Discriminator,简称D)输入为真数据时,使用‘真’去监督并更新判别网络G参数,当判别网络输入为假数据时,用‘假’去监督并更新判别网络参数,以此找出当前最优的判别网络;然后固定判别网络D不变,用‘真’去监督并更新生成网络的参数,找出当前最优的生成网络。通过生成网络和判别网络组成的生成对抗网络,在训练阶段使用判别网络对生成网络的训练结果进行把控,保证生成网络的训练效果,进而在利用生成网络进行实际推理时,能够保证结果的准确性。
本申请的频带扩展方法在音频编码或解码过程中,利用LC3编解码器中已有的模块获取音频数据的谱系数,并通过神经网络生成最终的宽带谱系数,完成频带的扩展。在编码或解码过程中完成频带扩展,节省算力,降低功耗,适用低功耗蓝牙,同是保证频带扩展的准确性。
图5示出了本申请频带扩展的音频编解码方法的一个实施方式的流程示意图。
在图5所示的实施方式中,本申请频带扩展的音频编解码方法包括:过程S501,在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;过程S502,对谱系数进行带宽检测,得到带宽指示;过程S503,若带宽指示为窄带宽,则通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;过程S504,将低频谱系数和高频谱系数组合,得到宽带谱系数;以及过程S505,LC3音频编码器或解码器根据宽带谱系数对音频数据进行编码或解码。
可选的,生成网络的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行离散余弦变换,得到宽带语音对应的宽带谱系数和窄带语音对应的窄带谱系数;根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数
图6示出了本申请频带扩展系统的一个实施方式的结构示意图。
在图6所示的实施方式中,本申请的频带扩展系统包括:特征提取模块601,其在LC3音频编解码器的音频编码或解码过程中,对输入的音频数据进行特征提取,确定其对应的谱系数;带宽检测模块602,其对谱系数进行带宽检测,得到带宽指示;以及带宽扩展模块603,若带宽指示为窄带宽,则其通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数,并将低频谱系数和高频谱系数组合,得到宽带谱系数。
可选的,在特征提取模块601中,在LC3音频编码器或解码器的音频编码或解码过程中,通过对音频数据进行低延迟改进型离散余弦变换,得到谱系数。
可选的,在带宽检测模块602中,生成神经网络的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行特征提取,得到宽带语音对应的真宽带谱系数和窄带语音对应的窄带谱系数;根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成神经网络进行训练,使得生成神经网络能够根据窄带谱系数生成高频谱系数。
本申请的频带扩展系统在音频编码或解码过程中,利用LC3编解码器中已有的模块获取音频数据的谱系数,并通过神经网络生成最终的宽带谱系数,完成频带的扩展。在编码或解码过程中完成频带扩展,节省算力,降低功耗,适用低功耗蓝牙,同是保证频带扩展的准确性。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的基于生成网络的频带扩展方法或频带扩展的音频编解码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于生成对抗网络的频带扩展方法或频带扩展的音频编解码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种基于生成对抗网络的频带扩展方法,其特征在于,包括:
在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;
对所述谱系数进行带宽检测,得到带宽指示;
若所述带宽指示为窄带宽,则通过预训练的生成网络对所述窄带宽对应的低频谱系数进行扩展,得到高频谱系数;
将所述低频谱系数和所述高频谱系数组合,得到宽带谱系数。
2.根据权利要求1所述的基于生成对抗网络的频带扩展方法,其特征在于,所述生成网络的预训练过程包括:
获取宽带语音,并对所述宽带语音进行滤波,得到窄带语音,其中所述宽带语音具有宽带宽,所述窄带语音仅具有窄带宽;
分别对所述宽带语音和所述窄带语音进行特征提取,得到所述宽带语音对应的真宽带谱系数和所述窄带语音对应的窄带谱系数;
根据所述真宽带谱系数和从所述窄带谱系数中提取的所述低频谱系数对所述生成网络进行训练,使得所述生成网络能够根据所述窄带谱系数生成所述高频谱系数。
3.根据权利要求1所述的基于生成对抗网络的频带扩展方法,其特征在于,所述通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数,包括:
在LC3音频编码器的音频编码过程中,通过对所述音频数据进行低延迟改进型离散余弦变换,得到所述谱系数,或
在LC3音频解码器的音频解码过程中,对输入的解码音频数据解码至变换域噪声整形步骤,得到所述谱系数。
4.根据权利要求2所述的基于生成对抗网络的频带扩展方法,其特征在于,所述生成网络的预训练过程还包括:
将所述低频谱系数和所述高频谱系数组合,得到假宽带谱系数;
通过判别网络对所述真宽带谱系数和所述假宽带谱系数进行判断,对所述生成网络进行优化。
5.一种频带扩展的音频编解码方法,其特征在于,包括:
在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;
对所述谱系数进行带宽检测,得到带宽指示;
若所述带宽指示为窄带宽,则通过预训练的生成网络对所述窄带宽对应的低频谱系数进行扩展,得到高频谱系数;
将所述低频谱系数和所述高频谱系数组合,得到宽带谱系数;
所述LC3音频编码器或解码器根据所述宽带谱系数对所述音频数据进行编码或解码。
6.根据权利要求5所述的频带扩展的音频编解码方法,其特征在于,所述生成网络的预训练过程包括:
获取宽带语音,并对所述宽带语音进行滤波,得到窄带语音,其中所述宽带语音具有宽带宽,所述窄带语音仅具有窄带宽;
分别对所述宽带语音和所述窄带语音进行离散余弦变换,得到所述宽带语音对应的宽带谱系数和所述窄带语音对应的窄带谱系数;
根据所述宽带谱系数和从所述窄带谱系数中提取的所述低频谱系数对所述生成网络进行训练,使得所述生成网络能够根据所述窄带谱系数生成所述高频谱系数。
7.一种频带扩展系统,其特征在于,包括:
特征提取模块,其在LC3音频编解码器的音频编码或解码过程中,对输入的音频数据进行特征提取,确定其对应的谱系数;
带宽检测模块,其对所述谱系数进行带宽检测,得到带宽指示;
带宽扩展模块,若所述带宽指示为窄带宽,则其通过预训练的生成网络对所述窄带宽对应的低频谱系数进行扩展,得到高频谱系数,并将所述低频谱系数和所述高频谱系数组合,得到宽带谱系数。
8.一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行权利要求1-4或5-6任一项所述的方法。
9.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中:所述处理器操作计算机指令以执行权利要求1-4或5-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210322549.7A CN114420140B (zh) | 2022-03-30 | 2022-03-30 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210322549.7A CN114420140B (zh) | 2022-03-30 | 2022-03-30 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114420140A true CN114420140A (zh) | 2022-04-29 |
CN114420140B CN114420140B (zh) | 2022-06-21 |
Family
ID=81262704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210322549.7A Active CN114420140B (zh) | 2022-03-30 | 2022-03-30 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114420140B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863940A (zh) * | 2022-07-05 | 2022-08-05 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
CN114999503A (zh) * | 2022-05-23 | 2022-09-02 | 北京百瑞互联技术有限公司 | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705801A (zh) * | 2016-08-05 | 2018-02-16 | 中国科学院自动化研究所 | 语音带宽扩展模型的训练方法及语音带宽扩展方法 |
CN107945811A (zh) * | 2017-10-23 | 2018-04-20 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
US20190214038A1 (en) * | 2016-05-06 | 2019-07-11 | Eers Global Technologies Inc. | Device and method for improving the quality of in-ear microphone signals in noisy environments |
CN110556121A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556123A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
US20210166705A1 (en) * | 2017-06-27 | 2021-06-03 | Industry-University Cooperation Foundation Hanyang University | Generative adversarial network-based speech bandwidth extender and extension method |
-
2022
- 2022-03-30 CN CN202210322549.7A patent/CN114420140B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190214038A1 (en) * | 2016-05-06 | 2019-07-11 | Eers Global Technologies Inc. | Device and method for improving the quality of in-ear microphone signals in noisy environments |
CN107705801A (zh) * | 2016-08-05 | 2018-02-16 | 中国科学院自动化研究所 | 语音带宽扩展模型的训练方法及语音带宽扩展方法 |
US20210166705A1 (en) * | 2017-06-27 | 2021-06-03 | Industry-University Cooperation Foundation Hanyang University | Generative adversarial network-based speech bandwidth extender and extension method |
CN107945811A (zh) * | 2017-10-23 | 2018-04-20 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
CN110556121A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556123A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
凌贤鹏: "基于深度神经网络的语音频带扩展研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, 15 January 2022 (2022-01-15), pages 136 - 550 * |
陆泱: "一种改进的频带复制方法", 《半导体技术》, no. 06, 23 June 2004 (2004-06-23), pages 84 - 88 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999503A (zh) * | 2022-05-23 | 2022-09-02 | 北京百瑞互联技术有限公司 | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
CN114999503B (zh) * | 2022-05-23 | 2024-08-27 | 北京百瑞互联技术股份有限公司 | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
CN114863940A (zh) * | 2022-07-05 | 2022-08-05 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
CN114863940B (zh) * | 2022-07-05 | 2022-09-30 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114420140B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114420140B (zh) | 基于生成对抗网络的频带扩展方法、编解码方法及系统 | |
Wali et al. | Generative adversarial networks for speech processing: A review | |
KR102002681B1 (ko) | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 | |
RU2676242C1 (ru) | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора | |
Beritelli et al. | A pattern recognition system for environmental sound classification based on MFCCs and neural networks | |
KR20060009605A (ko) | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 | |
Nie et al. | Exploiting spectro-temporal structures using NMF for DNN-based supervised speech separation | |
CN117612545A (zh) | 语音转换方法、装置、设备及计算机可读介质 | |
Xu et al. | Speaker Recognition Based on Long Short-Term Memory Networks | |
Wu et al. | Nonlinear speech coding model based on genetic programming | |
Jadhav et al. | Review of various approaches towards speech recognition | |
Peng et al. | Perceptual Characteristics Based Multi-objective Model for Speech Enhancement. | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Kuropatwinski et al. | Estimation of the short-term predictor parameters of speech under noisy conditions | |
KR20080039072A (ko) | 홈 네트워크 제어를 위한 음성인식시스템 | |
Yang et al. | The research of voiceprint recognition based on genetic optimized RBF neural networks | |
Pavithra et al. | Neural Network Based Curve Fitting to Enhance the Intelligibility of Dysarthric Speech | |
Hongyan et al. | Separation of Reverberant Speech Based on Computational Auditory Scene Analysis | |
Revathi et al. | Perceptual features based isolated digit and continuous speech recognition using iterative clustering approach | |
Zhao et al. | Improve Speech Enhancement using Perception-High-Related Time-Frequency Loss. | |
Chaudhari et al. | A STUDY ON GENERATIVE MODELS FOR SYNTHESIS OF REALISTIC VOICES USING DEEP LEARNING | |
Karthik et al. | An optimized convolutional neural network for speech enhancement | |
Vimala et al. | Efficient Acoustic Front-End Processing for Tamil Speech Recognition using Modified GFCC Features | |
CN115346549A (zh) | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Patentee after: Beijing Bairui Internet Technology Co.,Ltd. Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Patentee before: BARROT WIRELESS Co.,Ltd. |