CN114999503B - 一种基于生成对抗网络的全带宽谱系数生成方法及系统 - Google Patents
一种基于生成对抗网络的全带宽谱系数生成方法及系统 Download PDFInfo
- Publication number
- CN114999503B CN114999503B CN202210560097.6A CN202210560097A CN114999503B CN 114999503 B CN114999503 B CN 114999503B CN 202210560097 A CN202210560097 A CN 202210560097A CN 114999503 B CN114999503 B CN 114999503B
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- coefficient
- audio
- sampling rate
- spectrum coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000001228 spectrum Methods 0.000 claims abstract description 162
- 230000008569 process Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims description 82
- 238000012549 training Methods 0.000 claims description 29
- 238000007493 shaping process Methods 0.000 claims description 21
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 101150036464 aptx gene Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种基于生成对抗网络的全带宽谱系数生成方法及系统,属于音频编解码技术领域,该方法包括:在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数。本申请通过在LC3解码器对音频的解码过程中获取音频的带宽谱系数,并利用预训练的生成网络根据带宽谱系数生成LC3编解码器损失的高频缺失谱系数,通过将标准编码获得的带宽谱系数与生成的高频缺失谱系数进行拼接,从而得到完整的全带宽谱系数,从而保证音频在收听时的音质,提升用于体验。
Description
技术领域
本申请涉及音频编解码技术领域,特别涉及一种基于生成对抗网络的全带宽谱系数生成方法及系统。
背景技术
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC:音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC:音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
但是为了降低编解码器复杂度和码率,以便在嵌入式蓝牙设备实施,标准规范的LC3编解码器在处理以下两个采样率的音频时,会丢弃一些高频部分。例如,对于采样率为44.1KHz,原始音频的有效带宽为22.05KHz,经过LC3编解码器后的音频的有效带宽为18.375KHz;对于采样率为48KHz,原始音频的有效带宽为24KHz,经过LC3编解码器后的音频的有效带宽为20KHz,均存在带宽的损失,因此损失的带宽造成音频音质的降低。
发明内容
针对在通过LC3编解码器对音频编解码时,存在音频带宽的损失,而影响音频音质,降低用户体验的问题,本申请提出一种基于生成对抗网络的全带宽谱系数生成方法及系统。
第一方面,本申请提出一种基于生成对抗网络的全带宽谱系数生成方法,包括:在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数。
可选的,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数,包括:利用LC3解码器对音频码流进行解码至变换域噪声整形步骤,获取带宽谱系数,解码的过程仅包括,算术与残差解码,噪声填充,全局增益,时域噪声整形解码和变换域噪声整形解码步骤。
可选的,利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数,包括:确定音频码流的采样率;若采样率为第一采样率,则通过生成网络生成对应的第一高频缺失谱系数;若采样率为第二采样率,则通过生成网络生成对应的第二高频缺失谱系数。
可选的,生成网络的预训练过程,包括:获取音频数据的全带宽谱系数,并从全带宽谱系数中提取得到真实高频缺失谱系数;利用LC3解码器对音频数据对应的音频码流进行解码,得到带宽谱系数;通过高频谱系数和带宽谱系数对生成网络进行训练,使得生成网络能够根据带宽谱系数得到高频缺失谱系数。
可选的,通过高频谱系数和带宽谱系数对生成网络进行训练,包括:通过生成网络对带宽系数进行处理,得到预测高频缺失谱系数;利用对抗网络对预测高频缺失谱系数和真实高频缺失谱系数进行对比,得到对比结果;根据对比结果对生成网络进行优化,使得预测高频缺失谱系数与真实高频缺失谱系数之间的误差低于预设阈值。
可选的,获取音频数据的全带宽谱系数,并从全带宽谱系数中提取得到真实高频谱系数,包括:对音频数据的采样率进行判断,其中,若采样率为48KHz,则其对应的是20-24KHz的真实高频谱系数;若采样率为44.1KHz,则其对应的是18.375-22.05KHz的真实高频谱系数。
第二方面,本申请提供一种基于生成对抗网络的全带宽谱系数生成系统,包括:特征提取模块,其在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;带宽扩展模块,其利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;拼接模块,其将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数。
第三方面,本申请提出一种全带宽谱系数解码方法,包括:在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数;利用LC3解码器,根据全带宽谱系数对音频码流继续解码,得到音频码流对应的音频数据。
第四方面,本申请提出一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被执行时,使得计算机执行方案一或方案三中的方法。
第五方面,本申请提出一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行方案一或方案二中的方法。
本申请通过在LC3解码器对音频的解码过程中获取音频的带宽谱系数,并利用预训练的生成网络根据带宽谱系数生成LC3编解码器损失的高频缺失谱系数,通过将标准编码获得的带宽谱系数与生成的高频缺失谱系数进行拼接,从而得到完整的全带宽谱系数,从而保证音频在收听时的音质,提升用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本申请的一些实施例。
图1是本申请基于生成对抗网络的全带宽谱系数生成方法的一个实施方式的示意图;
图2是48KHz采样率下音频的原始频谱图;
图3是48KHz采样率下经过LC3编解码器编解码后的频谱图;
图4是本申请生成网络训练过程的一个实例的示意图;
图5是本申请基于生成对抗网络的全带宽谱系数生成系统的一个实施方式的示意图;
图6是本申请全带宽谱系数解码方法的一个实施方式的示意图;
图7是本申请全带宽谱系数解码方法的一个实例的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC:音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC:音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
但是为了降低编解码器复杂度和码率,以便在嵌入式蓝牙设备实施,标准规范的LC3编解码器在处理以下两个采样率的音频时,会丢弃一些高频部分。例如,对于采样率为44.1KHz,原始音频的有效带宽为22.05KHz,经过LC3编解码器后的音频的有效带宽为18.375KHz;对于采样率为48KHz,原始音频的有效带宽为24KHz,经过LC3编解码器后的音频的有效带宽为20KHz,均存在带宽的损失,因此损失的带宽造成音频音质的降低。因为LC3编解码器本身对功耗和算力有着严格的要求,另外LC3编码器应用在嵌入式系统中,因此存储空间和运算能力都比较有限,在解决上述带宽缺失的问题时,也需要充分考虑到LC3编辑器和嵌入式系统本身的低功耗,低运算力等特点。
针对上述问题,本申请提出一种基于生成对抗网络的全带宽谱系数生成方法及系统。通过利用LC3解码器对音频解码时的相关参数,利用生成网络进行缺失带宽的生成,最终得到全带宽,输出全带宽信号,提高音频音质。不需要对编码端进行任何改变,即可得到高音质的音频,降低处理的复杂度,仅需要较低的功耗和算力,适用于LC3编解码器低功耗蓝牙以及嵌入式系统中。
为此,本申请提出一种基于生成对抗网络的全带宽谱系数生成方法及系统。该方法包括:在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数。
本申请通过在LC3解码器对音频的解码过程中获取音频的带宽谱系数,并利用预训练的生成网络根据带宽谱系数生成LC3编解码器损失的高频缺失谱系数,通过将标准解码获得的带宽谱系数与生成的高频缺失谱系数进行拼接,从而得到完整的全带宽谱系数,从而保证音频在收听时的音质,提升用户体验。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请基于生成对抗网络的全带宽谱系数生成方法的一个实施方式。
在图1所示的实施方式中,本申请的基于生成对抗网络的全带宽谱系数生成方法包括过程S101,在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数。
在该实施方式中,在对音乐音频进行解码时,将经过LC3编码器编码后的音乐音频的码流数据输入到LC3音频解码器中,利用LC3解码器对该码流进行解码,在解码过程中提取音频码流对应的带宽谱系数。因为LC3编解码器本身的特性,输出的带宽谱系数并非全带宽谱系数。例如针对采样率为44.1KHz的音频数据经过LC3编解码器的编解码后,得到0-18.375KHz的有效带宽,而非0-22.05KHz的全带宽;对采样率为48KHz的音频数据经过LC3编解码器的编解码后,得到0-20KHz的有效带宽,而非0-24KHz的全带宽。由于缺失了带宽的高频部分,对音频音质存在一定的影响。
可选的,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数,包括:利用LC3解码器对音频码流进行解码至变换域噪声整形步骤,获取带宽谱系数,解码的过程仅包括,算术与残差解码,噪声填充,全局增益,时域噪声整形解码和变换域噪声整形解码步骤。
在该可选实施例中,在LC3解码器对音频码流进行解码获取带宽谱系数时,按照LC3解码器标准的解码流程进行解码,到变换域噪声整形步骤,得到带宽谱系数。其中该解码流程依次为算术和残差解码、噪声填充、全局增益、时域噪声整形解码和变换域噪声整形解码步骤,得到音频码流对应的带宽谱系数。本申请获取带宽谱系数的过程,直接在标准LC3解码器的解码流程中获得,不需要进行其他的改变和操作,减少不必要的处理,降低功耗和算力,从而更加适用于LC3低功耗蓝牙和嵌入式系统中。
在图1所示的实施方式中,本申请的基于生成对抗网络的全带宽谱系数生成方法包括过程S102,利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数。
在该实施方式中,为了对LC3编解码器对音频编解码时损失的带宽进行补充,本申请利用生成网络根据已有的带宽谱系数,生成预测的高频缺失谱系数。利用深度学习网络进行高频缺失谱系数的生成,通过良好的模型训练,能够保证生成的高频缺失谱系数的准确性,从而保证音频的音质。
可选的,利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数,包括:确定音频码流的采样率;若采样率为第一采样率,则通过生成网络生成对应的第一高频缺失谱系数;若采样率为第二采样率,则通过生成网络生成对应的第二高频缺失谱系数。
在该可选实施例中,已知LC3编解码器对应着第一采样率48KHz和第二采样率44.1KHz两种采样率,对于这两种不同的采样率,在解码得到音频的带宽损失也不尽相同。因此,在利用生成网络进行高频缺失带宽的生成时,需要对音频的采样率进行区分,然后进行对应的处理。其中,对于采样率为48KHz采样率的音频,通过生成网络生成20-24KHz的第一高频缺失谱系数;对于采样率为44.1KHz采样率的音频,通过生成网络生成18.375-24KHz的第二高频缺失谱系数。通过对音频采样率的区分,对应生成相应的高频缺失谱系数,保证得到高频缺失谱系数的准确性,进而保证音质。
可选的,生成网络的预训练过程,包括:获取音频数据的全带宽谱系数,并从全带宽谱系数中提取得到真实高频缺失谱系数;利用LC3解码器对音频数据对应的音频码流进行解码,得到带宽谱系数;通过高频谱系数和带宽谱系数对生成网络进行训练,使得生成网络能够根据带宽谱系数得到高频缺失谱系数。
在该可选实施例中,在生成网络的训练过程中,首先获得生成网络的训练数据。对44.1KHz或48KHz采样率的全带宽音频数据,提取出其中的全带宽谱系数,然后根据某一采样率下,提取出相应的真实高频缺失谱系数,例如对于48KHz采样率的音频数据,提取20-24KHz的带宽谱系数作为模型训练的真值数据。然后利用LC3解码器对该音频码流进行解码,得到带宽谱系数。通过利用带宽谱系数和真实高频缺失谱系数进行模型训练,最终使得生成网络能够根据带宽谱系数得到高频缺失谱系数,并且得到的高频缺失谱系数与真实高频缺失谱系数之间的误差在预设范围内,完成模型的训练。
具体的,以配置帧长10ms,采样率为48KHz的音频数据为例,输入音频数据以帧为单位切分,切分后每一帧的大小为480个采样点,每次输入一帧数据。其中一路输入LD-MDCT(即标准LC3编码器中的低延迟改进型离散余弦变换),输出为全带宽的谱系数,取其中的高频谱系数作为生成对抗网络训练中使用的‘真’信号,简述如下:
t(n)=xs(Z-NF+n),for n=0…2·NF-1-Z
t(2NF-Z+n)=0,for n=0…Z-1
其中xs(n)是输入的时域音频pcm的信号,以48kHz、10ms的配置为例,一帧长度是480个采样点,X(k)是经过离散余弦变换的频域谱系数,其包含480个有效的谱系数。用于训练的高频谱系数定义为:X(k),k=400~479。通过以上过程可得到真实高频缺失谱系数,也就是模型训练的真值。
另外一路处理如下:将音频数据输入标准LC3编码器、编码并输出码流码流经标准LC3解码器解码至变换域噪声整形,包括算术与残差解码、噪声填充、全局增益、时域噪声整形解码和变换域噪声整形解码,输出0~20kHz的带宽谱系数。
以配置10ms、48kHz采样率为例,NF=480,即总共480个谱系数,由于编码过程中舍弃了后80个谱系数,所有当k=0~399时,包含有效谱系数,当k=400~479时,通过以上过程便可得到带宽谱系数。
具体的,关于模型训练时,带宽谱系数的获取有两种不同改的方式。一是使用编码器中LD-MDCT输出的X(k),k=0~399时,此时X(k)与比较相似但不完全相同;二是经LC3编码和部分解码得到的k=0~399。本发明使用第二种,因为本发明的生成网络实际部署在嵌入式网络时,只能得到第二种方案中的这样训练出来的生成网络效果更佳。虽然基于第二种方法,训练时的运算量比较大,但通常训练都是离线的,基于PC或服务器的,对运算量并不敏感。
可选的,通过高频谱系数和带宽谱系数对生成网络进行训练,包括:通过生成网络对带宽谱系数进行处理,得到预测高频缺失谱系数;利用对抗网络对预测高频缺失谱系数和真实高频缺失谱系数进行对比,得到对比结果;根据对比结果对生成网络进行优化,使得预测高频缺失谱系数与真实高频缺失谱系数之间的误差低于预设阈值。
在该可选实施例中,为了保证得到训练效果较佳的生成网络,对生成网络生成的预测高频缺失谱系数和真实高频缺失谱系数通过对抗网络进行对比学习,根据两者的对比结果对生层网络的相关参数进行调整优化,最终使得预测高频缺失谱系数与真实高频缺失谱系数之间的误差低于预设阈值。此时对生成网络的参数进行记录,完成模型的训练。
具体的,预设阈值的设置可根据具有的生成网络训练的精度要求等进行合理的设置,对此本申请不进行具体限制。
可选的,获取音频数据的全带宽谱系数,并从全带宽谱系数中提取得到真实高频谱系数,包括:对音频数据的采样率进行判断,其中,若采样率为48KHz,则其对应的是20-24KHz的真实高频谱系数;若采样率为44.1KHz,则其对应的是18.375-22.05KHz的真实高频谱系数。
在该可选实施例中,对于LC3编解码器来说,其主要由44.1KHz和48KHZ两种采样率。因此,在生成网络的训练过程中,需要对不同的采样率进行对应的处理过程。其中,在获取真实高频谱系数时,对音频数据的采样率进行判断,其中,若采样率为48KHz,则获取20-24KHz的真实高频缺失谱系数;若采样率为44.1KHz,则获取18.375-22.05KHz的真实高频缺失谱系数。
在图1所示的实施方式中,本申请的基于生成对抗网络的全带宽谱系数生成方法包括过程S103,将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数。
在该实施方式中,在通过生成网络得到高频缺失谱系数后,通过将高频缺失谱系数与经过LC3编解码器进行编解码得到的带宽谱系数进行拼接,得到全带宽谱系数。然后利用全带宽谱系数进行后续的音频解码过程,最终得到全带宽谱系数对应的音频数据,相比较于原有的带宽谱系数对应的音频数据,因为补充了高频缺失的部分,因此提高了音质,提升用户体验。
具体的,图2示出了48KHz采样率下音频的原始频谱图。图3示出了48KHz采样率下经过LC3编解码器编解码后的频谱图。通过对图2和图3的对比可知,原始频谱图的有效带宽为0-24KHz,而经过LC3编解码器编解码后的音频的有效带宽为0-20KHz,损失了20-24KHz的高频部分,对音频音质产生影响。本申请通过上述方法,通过利用生成网络生成高频缺失部分的谱系数,使得LC3编解码器对音频编解码后,也具有全带宽谱系数对应的良好音质,提升用户体验。
具体的,图4示出了本申请生成网络训练过程的一个实例。
在图4所示的实例中,以48KHz采样率的音频为输入音频。通过对输入音频进行LD-MDCT离散余弦变换得到0-24KHz的全带宽谱系数,然后截取其中的高频部分,得到20-24KHz的真实高频缺失谱系数。在另外一个支路中,对输入音频进行标准的LC3编码和解码至变换域噪声整形解码步骤,得到0-20KHz的带宽谱系数,然后通过生成网络,得到20-24KHz的预测高频缺失谱系数。通过判别网络对真实高频缺失谱系数和预测高频缺失谱系数进行对比,进行训练结果真假的判断,根据对比结果进行生成网络的优化,最终完成生成网络的训练。
具体的,本发明使用的生成网络可以基于深度神经网络也可以基于其他神经网络模型,如CNN、RNN、LSTM等,本发明并不限制),一种实现方式简述如下:使用全连接网络,输入为k=0…399,第一隐藏层200个节点,第二隐藏层100个节点,输出80个节点,每一层还包括批标准化函数和激活函数。
本发明使用的判别网络可以基于深度神经网络也可以基于其他神经网络模型,本发明并不限制),一种实现方式简述如下:以输入音频采样率48kHz、帧长配置10ms为例,输入层160个节点,第一隐藏层80个节点、第二隐藏层80个节点、输出层1个节点,每一层还包括批标准化函数和激活函数。
本申请的基于生成对抗网络的全带宽谱系数生成方法通过在LC3解码器对音频的解码过程中获取音频的带宽谱系数,并利用预训练的生成网络根据带宽谱系数生成LC3编解码器损失的高频缺失谱系数,通过将标准编码获得的带宽谱系数与生成的高频缺失谱系数进行拼接,从而得到完整的全带宽谱系数,从而保证音频在收听时的音质,提升用于体验。本申请编码端不用做任何改变即可在解码端输出全频带的信号,有效提高了音质增强了用户体验;本申请的既可以应用于44.1kHz采样率也可以应用于48kHz采样率的配置;可以应用于帧长10ms的配置可以应用于帧长7.5ms的配置;本发明以蓝牙领域举例,其他领域也可以使用。
图5示出了本申请基于生成对抗网络的全带宽谱系数生成系统的一个实施方式的示意图。
在图5所示的实施方式中,本申请的基于生成对抗网络的全带宽谱系数生成系统包括:特征提取模块501,其在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;带宽扩展模块502,其利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;拼接模块503,其将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数。
可选的,在特征提取模块501中,利用LC3解码器对音频码流进行解码至变换域噪声整形步骤,获取带宽谱系数,解码的过程仅包括,算术与残差解码,噪声填充,全局增益,时域噪声整形解码和变换域噪声整形解码步骤。
可选的,在带宽扩展模块502中,确定音频码流的采样率;若采样率为48KHz,则通过生成网络生成20-24KHz的高频缺失谱系数;若采样率为44.1KHz,则通过生成网络生成18.375-22.05KHz的高频缺失谱系数。
可选的,生成网络的预训练过程,包括:获取音频数据的全带宽谱系数,并从全带宽谱系数中提取得到真实高频缺失谱系数;利用LC3解码器对音频码流进行解码,得到带宽谱系数;通过高频谱系数和带宽谱系数对生成网络进行训练,使得生成网络能够根据带宽谱系数得到高频缺失谱系数。
可选的,在生成网络的训练过程中,通过生成网络对带宽谱系数进行处理,得到预测高频缺失谱系数;利用对抗网络对预测高频缺失谱系数和真实高频缺失谱系数进行对比,得到对比结果;根据对比结果对生成网络进行优化,使得预测高频缺失谱系数与真实高频缺失谱系数之间的误差低于预设阈值。
可选的,在生成网络的训练过程中,对音频数据的采样率进行判断,其中,若采样率为48KHz,则其对应的是20-24KHz的真实高频缺失谱系数;若采样率为44.1KHz,则其对应的是18.375-22.05KHz的真实高频缺失谱系数。
本申请的基于生成对抗网络的全带宽谱系数生成系统通过在LC3解码器对音频的解码过程中获取音频的带宽谱系数,并利用预训练的生成网络根据带宽谱系数生成LC3编解码器损失的高频缺失谱系数,通过将标准编码获得的带宽谱系数与生成的高频缺失谱系数进行拼接,从而得到完整的全带宽谱系数,从而保证音频在收听时的音质,提升用于体验。本申请编码端不用做任何改变即可在解码端输出全频带的信号,有效提高了音质增强了用户体验。
图6示出了本申请全带宽谱系数解码方法的一个实施方式的示意图。
在图6所示的实施方式中,本申请的全带宽谱系数解码方法包括:过程601,在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取音频码流对应的带宽谱系数;过程602,利用预训练的生成网络对带宽谱系数进行处理,得到音频码流对应的高频缺失谱系数;过程603,将带宽谱系数和高频缺失谱系数进行拼接,得到全带宽谱系数;过程S604,利用LC3解码器,根据全带宽谱系数对音频码流继续解码,得到音频码流对应的音频数据。
具体的,图7示出了本申请全带宽谱系数解码方法的一个实例。
在图7所示的实例中,LC3解码器对输入的48KHz采样率的码流分别进行码流解析、算术及残差解码、噪声填充、全局增益、时域噪声整形解码以及变换域噪声整形解码得到码流部分的0-20KHz带宽谱系数,然后经过生成网路处理,得到20-24KHz的高频缺失谱系数。,然后将谱系数进行拼接,得到0-24KHz的全带宽谱系数,后续利用全带宽谱系数进行后续的解码过程,进行低延迟改进型离散余弦反变换和长期后置滤波器解码,得到全带宽谱系数对应的谱系数,相比较之前部分的带宽谱系数的音频数据,提升音质,提升用户体验。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的基于生成对抗网络的全带宽谱系数生成方法或全带宽谱系数解码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于生成对抗网络的全带宽谱系数生成方法或全带宽谱系数解码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种基于生成对抗网络的全带宽谱系数生成方法,其特征在于,包括:
在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取所述音频码流对应的带宽谱系数;
利用预训练的生成网络对所述带宽谱系数进行处理,得到所述音频码流对应的高频缺失谱系数,包括,确定所述音频码流的采样率,若所述采样率为第一采样率,则通过所述生成网络生成对应的第一高频缺失谱系数,若所述采样率为第二采样率,则通过所述生成网络生成对应的第二高频缺失谱系数,其中,所述第一采样率为48kHz,所述第二采样率为44.1kHz;
将所述带宽谱系数和所述高频缺失谱系数进行拼接,得到全带宽谱系数。
2.根据权利要求1所述的基于生成对抗网络的全带宽谱系数生成方法,其特征在于,所述利用LC3解码器对音频码流进行解码,获取所述音频码流对应的带宽谱系数,包括:
利用所述LC3解码器对所述音频码流进行解码至变换域噪声整形步骤,获取所述带宽谱系数,所述解码的过程仅包括,算术与残差解码,噪声填充,全局增益,时域噪声整形解码和变换域噪声整形解码步骤。
3.根据权利要求1所述的基于生成对抗网络的全带宽谱系数生成方法,其特征在于,所述生成网络的预训练过程,包括:
获取音频数据的全带宽谱系数,并从所述全带宽谱系数中提取得到真实高频缺失谱系数;
利用LC3解码器对所述音频数据对应的音频码流进行解码,得到带宽谱系数;
通过所述真实高频缺失谱系数和所述带宽谱系数对所述生成网络进行训练,使得所述生成网络能够根据所述带宽谱系数得到所述高频缺失谱系数。
4.根据权利要求3所述的基于生成对抗网络的全带宽谱系数生成方法,其特征在于,所述通过所述真实高频缺失谱系数和所述带宽谱系数对所述生成网络进行训练,包括:
通过所述生成网络对所述带宽谱系数进行处理,得到预测高频缺失谱系数;
利用对抗网络对所述预测高频缺失谱系数和所述真实高频缺失谱系数进行对比,得到对比结果;
根据所述对比结果对所述生成网络进行优化,使得所述预测高频缺失谱系数与所述真实高频缺失谱系数之间的误差低于预设阈值。
5.根据权利要求3所述的基于生成对抗网络的全带宽谱系数生成方法,其特征在于,所述获取音频数据的全带宽谱系数,并从所述全带宽谱系数中提取得到真实高频缺失谱系数,包括:
对所述音频数据的采样率进行判断,其中,
若所述采样率为48KHz,则其对应的是20-24KHz的真实高频缺失谱系数;
若所述采样率为44.1KHz,则其对应的是18.375-22.05KHz的真实高频缺失谱系数。
6.一种基于生成对抗网络的全带宽谱系数生成系统,其特征在于,包括:
特征提取模块,其在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取所述音频码流对应的带宽谱系数;
带宽扩展模块,其利用预训练的生成网络对所述带宽谱系数进行处理,得到所述音频码流对应的高频缺失谱系数,包括,确定所述音频码流的采样率,若所述采样率为第一采样率,则通过所述生成网络生成对应的第一高频缺失谱系数,若所述采样率为第二采样率,则通过所述生成网络生成对应的第二高频缺失谱系数,其中,所述第一采样率为48kHz,所述第二采样率为44.1kHz;
拼接模块,其将所述带宽谱系数和所述高频缺失谱系数进行拼接,得到全带宽谱系数。
7.一种全带宽谱系数解码方法,其特征在于,包括:
在对音乐音频的解码过程中,利用LC3解码器对音频码流进行解码,获取所述音频码流对应的带宽谱系数;
利用预训练的生成网络对所述带宽谱系数进行处理,得到所述音频码流对应的高频缺失谱系数,包括,确定所述音频码流的采样率,若所述采样率为第一采样率,则通过所述生成网络生成对应的第一高频缺失谱系数,若所述采样率为第二采样率,则通过所述生成网络生成对应的第二高频缺失谱系数,其中,所述第一采样率为48kHz,所述第二采样率为44.1kHz;
将所述带宽谱系数和所述高频缺失谱系数进行拼接,得到全带宽谱系数;
利用所述LC3解码器,根据所述全带宽谱系数对所述音频码流继续解码,得到所述音频码流对应的音频数据。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,其特征在于,所述计算机指令被执行时,使得计算机执行权利要求1-5中任一项所述的基于生成对抗网络的全带宽谱系数生成方法或权利要求7中所述全带宽谱系数解码方法。
9.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中:所述处理器操作计算机指令以执行权利要求1-5中任一项所述的基于生成对抗网络的全带宽谱系数生成方法或权利要求7中所述全带宽谱系数解码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210560097.6A CN114999503B (zh) | 2022-05-23 | 2022-05-23 | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210560097.6A CN114999503B (zh) | 2022-05-23 | 2022-05-23 | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114999503A CN114999503A (zh) | 2022-09-02 |
CN114999503B true CN114999503B (zh) | 2024-08-27 |
Family
ID=83027594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210560097.6A Active CN114999503B (zh) | 2022-05-23 | 2022-05-23 | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114999503B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420140A (zh) * | 2022-03-30 | 2022-04-29 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101458930B (zh) * | 2007-12-12 | 2011-09-14 | 华为技术有限公司 | 带宽扩展中激励信号的生成及信号重建方法和装置 |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
CN107945811B (zh) * | 2017-10-23 | 2021-06-01 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
CN112767954B (zh) * | 2020-06-24 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 音频编解码方法、装置、介质及电子设备 |
-
2022
- 2022-05-23 CN CN202210560097.6A patent/CN114999503B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420140A (zh) * | 2022-03-30 | 2022-04-29 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114999503A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731223B (zh) | 语音活性检测方法、相关装置和设备 | |
CN113724725B (zh) | 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备 | |
JP6616470B2 (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
CN111833891B (zh) | 一种lc3编解码系统、lc3编码器及其优化方法 | |
CN113870885B (zh) | 蓝牙音频啸叫检测和抑制方法、装置、介质及设备 | |
CN111681663A (zh) | 一种降低音频编码运算量的方法、系统、存储介质及设备 | |
Sinha | Speech processing in embedded systems | |
CN114999503B (zh) | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 | |
CN112992189A (zh) | 语音音频的检测方法及装置、存储介质及电子装置 | |
CN114582361B (zh) | 基于生成对抗网络的高解析度音频编解码方法及系统 | |
CN116844558A (zh) | 基于深度学习的音频降噪方法、系统、编码器及介质 | |
CN115881142A (zh) | 一种骨导语音编码模型的训练方法、装置及存储介质 | |
CN113823277A (zh) | 基于深度学习的关键词识别方法、系统、介质及设备 | |
CN114863942A (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN110197666B (zh) | 一种基于神经网络的语音识别方法、装置 | |
CN112735452B (zh) | 实现超低编码速率的编码方法、装置、存储介质及设备 | |
AU2021289000A1 (en) | Frame loss concealment for a low-frequency effects channel | |
CN114566174B (zh) | 一种优化语音编码的方法、装置、系统、介质及设备 | |
CN115346549A (zh) | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 | |
CN112599138B (zh) | 一种lc3音频编码器的多pcm信号编码方法、装置及介质 | |
CN114067814B (zh) | 基于蓝牙音频接收器的啸叫检测和抑制方法及装置 | |
CN116884423A (zh) | 混响检测与抑制方法、系统、介质及设备 | |
CN111916090B (zh) | 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备 | |
CN113205826B (zh) | 一种lc3音频噪声消除方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Applicant after: Beijing Bairui Internet Technology Co.,Ltd. Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Applicant before: BARROT WIRELESS Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |