CN117351943A - 音频处理方法、装置、设备和存储介质 - Google Patents
音频处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117351943A CN117351943A CN202311348351.7A CN202311348351A CN117351943A CN 117351943 A CN117351943 A CN 117351943A CN 202311348351 A CN202311348351 A CN 202311348351A CN 117351943 A CN117351943 A CN 117351943A
- Authority
- CN
- China
- Prior art keywords
- sub
- band
- bands
- frequency
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 214
- 239000013598 vector Substances 0.000 claims abstract description 195
- 238000005070 sampling Methods 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 120
- 238000013139 quantization Methods 0.000 claims abstract description 89
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 54
- 238000013528 artificial neural network Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 abstract description 29
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000003062 neural network model Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 40
- 238000005516 engineering process Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 26
- 238000001228 spectrum Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供了一种音频处理方法、模型训练方法和装置,涉及人工智能领域、音视频编解码领域。该音频处理方法包括:将输入的第一音频信号采样至第一采样率,得到第二音频信号;沿频域维度对第二音频信号的时频数据进行频带切分,得到至少两个子带;对该至少两个子带的时频数据进行编码,得到至少两个子带的编码特征向量;对该至少两个子带的编码特征向量进行残差向量量化,得到至少两个子带的编码特征量化结果;根据该至少两个子带的编码特征量化结果,得到第一音频信号的码流。模型的计算复杂度可以根据输入音频信号的采样率而自适应调整,且能够通过单一神经网络模型对不同采样率的音频信号进行编解码,避免了额外的模型训练和存储开销。
Description
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种音频处理方法、装置、设备和存储介质。
背景技术
音视频编解码系统一般分为基于信号处理的传统编解码方法与基于神经网络的编解码方法两大类。基于信号处理的传统方法优势在于其有完善的数学定义,编解码所需的计算复杂度一般较小,支持各种音频与各种采样率,且在特定的设定下可以达到无损(lossless)编码,但劣势在于其在中低码率下的性能有限。基于神经网络的方法优势在于利用神经网络的建模能力在中低码率下大幅提升编解码性能(如提升音质、音频可懂度等)。
但是,基于神经网络的方法的劣势在于,一般此类系统中的神经网络均有较大的计算量,且需要使用不同的神经网络处理不同采样率的音频信号,增加了模型训练和存储开销。
发明内容
本申请提供一种音频处理方法、装置、设备和存储介质,能够通过单一神经网络模型对不同采样率的音频信号进行编解码,避免了额外的模型训练和存储开销。
第一方面,本申请实施例提供一种音频处理方法,包括:
将输入的第一音频信号采样至第一采样率,得到第二音频信号;
沿频域维度对所述第二音频信号的时频数据进行频带切分,得到至少两个子带;
对所述至少两个子带的时频数据进行特征提取,得到所述至少两个子带的时频特征;
对所述至少两个子带的时频特征进行编码,得到所述至少两个子带的编码特征向量;
对所述至少两个子带的编码特征向量进行残差向量量化,得到所述至少两个子带的编码特征量化结果。
第二方面,本申请实施例提供一种音频处理方法,包括:
获取至少两个子带的编码特征量化结果;所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的;所述第二音频信号是对第一音频信号采样至第一采样率得到的;
对所述至少两个子带的编码特征量化结果进行解码,得到所述至少两个子带的解码特征向量;
对所述至少两个子带的解码特征向量进行特征转换,得到所述至少两个子带的时频数据;
对所述至少两个子带的时频数据进行拼接,得到所述第二音频信号;
对所述第二音频信号进行采样至所述第一音频信号的原始采样率,得到所述第一音频信号。
第三方面,本申请实施例提供了一种音频处理装置,包括:
采样单元,用于将输入的第一音频信号采样至第一采样率,得到第二音频信号;
切分单元,用于沿频域维度对所述第二音频信号的时频数据进行频带切分,得到至少两个子带;
特征提取单元,用于对所述至少两个子带的时频数据进行特征提取,得到所述至少两个子带的时频特征;
编码单元,用于对所述至少两个子带的时频特征进行编码,得到所述至少两个子带的编码特征向量;
量化单元,用于对所述至少两个子带的编码特征向量进行残差向量量化,得到所述至少两个子带的编码特征量化结果。
第四方面,本申请实施例提供了一种音频处理装置,包括:
获取单元,用于获取至少两个子带的编码特征量化结果;所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的;所述第二音频信号是对第一音频信号采样至第一采样率得到的;
解码单元,用于对所述至少两个子带的编码特征量化结果进行解码,得到所述至少两个子带的解码特征向量;
特征转换单元,用于对所述至少两个子带的解码特征向量进行特征转换,得到所述至少两个子带的时频数据;
拼接单元,用于对所述至少两个子带的时频数据进行拼接,得到所述第二音频信号;
采样单元,用于对所述第二音频信号进行采样至所述第一音频信号的原始采样率,得到所述第一音频信号。
第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或第二方面中的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。
第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。
第八方面,本申请实施例提供一种计算机程序,计算机程序使得计算机执行如第一方面或第二方面中的方法。
上述技术方案,通过对输入的音频信号采样至预先设置的第一采样率,得到第二音频信号,进而对第二音频信号进行沿频域维度进行频带切分,得到音频信号的至少两个子带,然后对该至少两个子带的时频数据进行特征提取、编码和残差向量量化,使得音频编解码过程中能够实现利用单个模型对具有不同采样率的音频信号进行编解码,并且通过频带切分使得单个模型的计算复杂度可以根据输入音频信号的采样率而自适应调整,使得本申请实施例能够在不改变模型的情况下广泛适用于各种采样率的音频信号,避免了额外的模型训练和存储开销。
附图说明
图1为本申请实施例的方案的应用场景的一个示意图;
图2为根据本申请实施例的一种音频处理方法的示意性流程图;
图3为根据本申请实施例的音频编解码过程的示意性流程图;
图4为根据本申请实施例的另一种音频处理方法的示意性流程图;
图5为根据本申请实施例的另一种音频处理方法的示意性流程图;
图6为根据本申请实施例的另一种音频处理方法的示意性流程图;
图7为根据本申请实施例的另一种音频处理方法的示意性流程图;
图8A为根据本申请实施例的一语音编解码任务对应的输入和输出的音频信号的示意图;
图8B为根据本申请实施例的一音乐编解码任务对应的输入和输出的音频信号的示意图;
图8C为根据本申请实施例的一语音编解码+超分辨率任务对应的输入和输出的音频信号的示意图;
图9为根据本申请实施例的一种音频处理装置的示意性框图;
图10为根据本申请实施例的另一种音频处理装置的示意性框图;
图11为根据本申请实施例的电子设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
应理解,在本申请实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“至少一个”是指一个或多个,“多个”是指两个或多于两个。另外,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
还应理解,本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
还应理解,说明书中与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例应用于人工智能技术领域。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例也可以涉及人工智能技术中的语音技术(Speech Technology)。语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
其中,本申请进一步涉及语音技术中的音频编解码技术。音频编解码技术将原始音频信号进行数字化处理,经过压缩编码后再进行传输或存储。音频编码的原理是利用数字信号处理技术,将音频信号转化为数字信号,分析音频特征并提取其中重要特征,再采用压缩编码算法将音频数据压缩成较小的数据量,以便传输和存储。解码是对编码过程的逆过程,解码器将接收到的压缩编码数据解压成原始音频信号,还原码流中包含的音频信息。
本申请实施例也可以涉及人工智能技术中的机器学习(Machine Learning,ML),ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
进一步的,本申请实施例涉及基于神经网络的音频编解码技术。深度学习概念的提出,为音频编解码技术提供了研究方向。基于神经网络的音频编解码方法利用神经网络的建模能力,通过训练大量的数据形成特定的模型,实现对音频信号的编码和解码。
相关技术中,音视频编解码系统一般分为基于信号处理的传统编解码方法与基于神经网络的编解码方法两大类。基于信号处理的传统方法优势在于其有完善的数学定义,编解码所需的计算复杂度一般较小,支持各种音频与各种采样率,且在特定的设定下可以达到无损(lossless)编码,但劣势在于其在中低码率下的性能有限。基于神经网络的方法优势在于利用神经网络的建模能力在中低码率下大幅提升编解码性能(如提升音质、音频可懂度等)。
基于神经网络的音频编解码方法能够利用神经网络的建模能力在中低码率下大幅提升编解码性能(如提升音质、音频可懂度等)。但是,基于神经网络的音频编解码方法中神经网络有较大的计算量,且需要使用不同的神经网络处理不同采样率的音频信号,增加了模型训练和存储开销。
有鉴于此,本申请实施例提出了一种音频处理方法、装置、设备和存储介质,模型的计算复杂度可以根据输入音频信号的采样率而自适应调整,且能够通过单一神经网络模型对不同采样率的音频信号进行编解码,避免了额外的模型训练和存储开销。
具体而言,在一种音频处理方法中,将输入的第一音频信号采样至第一采样率,得到第二音频信号;沿频域维度对第二音频信号的时频数据进行频带切分,得到至少两个子带;对该至少两个子带的时频数据进行编码,得到至少两个子带的编码特征向量;对该至少两个子带的编码特征向量进行残差向量量化,得到至少两个子带的编码特征量化结果;根据该至少两个子带的编码特征量化结果,得到第一音频信号的码流。
在另一种音频处理方法中,可以对至少两个子带的编码特征量化结果进行解码,得到至少两个子带的解码特征向量;对至少两个子带的解码特征向量进行特征转换,得到至少两个子带的时频特征;以及对至少两个子带的时频特征进行拼接,得到第二音频信号;对第二音频信号进行采样至第一音频信号的原始采样率,得到第一音频信号。
本申请实施例通过对输入的音频信号采样至预先设置的第一采样率,得到第二音频信号,进而对第二音频信号进行沿频域维度进行频带切分,得到音频信号的至少两个子带,然后对该至少两个子带的时频数据进行特征提取、编码和残差向量量化,使得音频编解码过程中能够实现利用单个模型对具有不同采样率的音频信号进行编解码,并且通过频带切分使得单个模型的计算复杂度可以根据输入音频信号的采样率而自适应调整,使得本申请实施例能够在不改变模型的情况下广泛适用于各种采样率的音频信号,避免了额外的模型训练和存储开销。
下面结合附图描述适用于本申请的系统架构。
图1示出了本申请实施例的应用场景的一个示意图。
如图1所示,该应用场景涉及终端102和服务器104,终端102可以通过通信网络与服务器104进行数据通信。服务器104可以为终端102的后台服务器。
示例性的,终端102可以是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端设备可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑、可穿戴设备、车载设备等终端设备,但不限于此。
服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器也可以成为区块链的节点。
服务器可以是一台或多台。服务器是多台时,存在至少两台服务器用于提供不同的服务,和/或,存在至少两台服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。
终端设备和服务器可以通过有线或无线通信的方式进行直接或间接的连接,本申请对此不作限定。本申请对服务器或终端设备的数量不作限定。本申请提供的方案可以由终端设备独立完成,也可以由服务器独立完成,还可以由终端设备和服务器配合完成,本申请对此不作限定。可选的,本申请实施例中,终端102或服务器104中安装有音视频编解码系统或音视频服务。
可选的,如图1所示,该应用场景还可以包括数据存储系统106。数据存储系统106可以存储服务器104需要的数据。数据存储系统可以集成在服务器104上,也可以部署在云上或其他服务器上,不做限定。
应理解,图1仅是示例性说明,并不对本申请实施例的应用场景进行具体限定。例如,图1示例性地示出了一个终端设备、一台服务器,实际上可以包括其他数量的终端设备和服务器,本申请对此不做限制。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为根据本申请实施例的一种音频处理方法200的示意性流程图,该方法200可以由任何具有数据处理能力的电子设备执行,例如,该电子设备可实施为服务器或终端设备本申请对此不做限定。可选的,该服务器或终端设备中可以包括音频信号的编码端。如图2所示,音频处理方法200包括步骤210至250。
210,将输入的第一音频信号采样至第一采样率,得到第二频信号。
示例性的,第一音频信号可以包括但不限于如语音通话、会议、广播、直播和线上音乐等场景中的音频信号。应当理解,本申请的音频处理方法并不对音频信号的应用场景做任何限制。
其中,第一采样率可以为预先设置的神经网络模型中处理的音频信号的采样率。第一采样率也可以称为运行采样率,本申请对此不做限定。示例性的,可以在音频编解码系统训练与部署时确定该第一采样率,以将输入的第一音频信号统一上采样或下采样到该第一采样率后输入至神经网络模型中进行操作。例如,当第一音频信号的原始采样率低于第一采样率时,可以对第一音频信号进行上采样(upsample)得到第二音频信号;当第一音频信号的原始采样率高于第一采样率时,可以对第一音频信号进行下采样(downsample)得到第二音频信号。
可选的,神经网络模型操作完成后对于系统输出信号可以重新下采样或上采样到第一音频信号本身的原始采样率。
示例性的,在不同的场景中,通常使用不同的原始采样率从原始的模拟音频信号中提取第一音频信号用于后续的处理。采样率也称为采样速度或者采样率,其定义了每秒从连续信号中提取并组成离散信号的采样个数,可以用赫兹(Hz)来表示。音频采样率指示计算机每秒钟采集多少个声音样本,其是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。
不同语音场景所使用的音频采样率不同。例如,在语音通话场景中,一般使用8kHz或16kHz的采样率提取音频信号,而在诸如直播和线上音乐的场景中,通常使用44.1kHz或48kHz的采样率提取一音频信号。对于不同原始采样率的输入第一音频信号,本申请实施例可以采样至预先设置的第一采样率得到上述第二音频信号,使得本申请实施例提供的方法适用于任何原始采样率的音频信号,从而避免针对不同原始采样率的输入音频信号训练和存储不同模型而导致的附加开销。
在大多数音频信号的应用场景中,对原始的模拟音频信号的采样率存在上限值(例如,一般不超过48kHz)。基于此,作为一种可能的实现方式,可以将上述第一采样率设置为特定的上限采样率(如48kHz),以对大部分输入第一音频信号进行上采样至该上限采样率,得到第二音频信号。可选的,当第一采样率为48kHz时,第二音频信号为全带音频信号。这里,该第一采样率即为模型需要处理的音频信号的最大可能采样率。
可选的,本申请实施例可以对第二音频信号进行傅里叶变换,将第二音频信号映射到频域,以得到第二音频信号的时频数据。例如,可以对第二音频信号应用短时傅里叶变换(short-timeFouriertransform,STFT),得到第二音频信号的复数频谱图作为第二音频信号的时频数据。
示例性的,图3示出了根据本申请实施例的音频编解码过程的示意性流程图,可以对应于音频编码和解码过程。其中,编码过程包括输入音频信号至获取编码特征量化结果C∈RN×K×T的过程。
如图3所示,对“输入”,即第一音频信号可以进行上采样(upsample)和STFT操作,得到第二音频信号,即图中的X∈CF×T。示例性的,当输入的第一音频信号的原始采样率低于预设的第一采样率时,可以对输入的第一音频信号进行上采样操作,使得采样后的第二音频信号具有第一采样率。在X∈CF×T中,F为频率维度(即频率点个数,由STFT的窗长决定),T为时间帧个数(由STFT的窗长与跳帧长决定)。
值得注意的是,如果输入的第一音频信号的原始采样率低于第一采样率,那么第一音频信号在上采样到第一采样率后,其高于原始采样率所对应的频率分量(即奈奎斯特频率(Nyquist frequency)以上的频率分量)为0,对于该部分频率分量可以不需要进行编解码。可选的,不高于奈奎斯特频率的频段(即不高于原始采样率的频段)可以称为有效频段,高于奈奎斯特频率的频段(即高于原始采样率的频段)可以称为无效频段。
示例性的,对于8kHz或16kHz的通话音频信号(第一音频信号的一个示例),可以上采样至48kHz得到上采样后的通话音频信号(第二音频信号的一个示例),此时8kHz通话音频信号上采样到48kHz后对应的有效频段在0~4kHz,16kHz通话音频信号上采样到48kHz后对应的有效频段在0~8kHz。
220,沿频域维度对第二音频信号的时频数据进行频带切分,得到至少两个子带。
示例性的,继续参见图3,对于第二音频信号X∈CF×T进行频带切分(band-split)操作,将X沿着频率维度切分为K个子带(subband),该K个子带宽度分别为F1,F2,...,FK,且满足如图3所示,至少两个子带可以表示为B1,B2,...,BK,其中/>
在一些实施例中,当第一音频信号的原始采样率低于第一采样率时,还可以根据至少两个子带中的不大于第一音频信号的奈奎斯特频率的子带,确定至少一个有效子带。
具体而言,至少两个子带中的不大于第一音频信号的奈奎斯特频率的子带对应的频率分量不为0,其对应的频段为有效频段,也可以称为有效子带。对于有效子带,在后续编解码流程中需要进行编解码操作。相应的,至少两个子带中的大于第一音频信号的奈奎斯特频率的子带对应的频率分量为0,其对应的频段为无效频段,也可以称为无效子带。对于无效子带,在后续的编解码流程中不需要进行编解码操作。
本申请实施例通过在编解码过程中仅对有效子带部分进行编解码操作,而对无效子带部分进行不编解码操作,使得模型的计算复杂度可以根据输入音频信号的采样率而自适应调整,有利于降低基于神经网络的编解码方案的复杂度,提高编解码效率。例如,对于较低采样率的输入音频信号,由于不需要编解码操作的无效子带较多,因此模型的计算复杂度更低。示例性的,对于第一采样率为48kHz而言,较低采样率可以为4kHz、8kHz或16kHz等,本申请对此不做限定。
示例性的,在图3中,虚线所标示的部分子带为无效子带,如子带B1,B2,实线所标示的部分子带为有效子带,如子带BK-1,BK。
230,对至少两个子带的时频数据进行特征提取,得到至少两个子带的时频特征。
示例性的,可以通过神经网络模块对至少两个子带的时频数据进行特征提取,得到至少两个子带的时频特征。可选的,可以对该至少两个子带中的有效子带的时频数据进行特征提取,得到有效子带的时频特征。对于该至少两个子带中的无效子带,无需进行特征提取操作。
通过对至少两个子带的时频数据进行特征提取,可以将子带的时频数据映射到特定的特征空间,获取在时间和频率上的子带的时频特征。进一步地,通过对该时频特征进行编码可以有助于实现音频编码。
在一些实施例中,参见图4,可以通过以下步骤231至232实现对子带的特征提取。需要说明的是,在图4中以对至少两个子带中的第一子带的特征提取为例进行描述,对于至少两个子带中的其他需要特征提取的子带(如有效子带),其特征提取过程与第一子带类似,将不再赘述。
231,将第一子带的时频数据从复数域转化到实数域,得到第一子带的实数域子带数据。
也就是说,在将第一子带的时频数据映射到特定的特征空间之前,可以通过步骤231将第一子带的时频数据从复数域转化到实数域。
示例性的,可以使用增益-形状编码(gain-shaperepresentation)的模式将第一子带特征从复数域转化到实数域,得到第一子带的实数域子带数据。其中,复数域时频数据包括实部和虚部。示例性的,当第一子带为第k个子带时,为第一子带复数域时频数据,其实部为/>虚部为/>模为|Bk|∈R1×T。
作为一种可实现方式,可以使用第一子带的时频数据的模,对第一子带的时频数据的实部和虚部分别进行归一化处理;以及将归一化处理后的第一子带的时频数据的实部和虚部,与第一子带的时频数据的模的对数沿着频带宽度维度进行拼接,得到第一子带的实数域子带数据。
示例性的,继续参见图3,对于第一子带可以使用增益-形状编码将第一子带特征/>从复数域转化到实数域,得到/>具体的,对于第一子带/>可以将其实部/>与虚部/>分别使用其模|Bk|∈R1×T进行归一化处理,得到归一化后的/>和/>可选的,对于T中的每一个时间帧可以独立进行归一化处理,本申请对此不做限定。然后,计算第一子带的模|Bk|的对数log(|Bk|)∈R1×T。对于归一化后的/>和/>和log(|Bk|)可以沿着频带宽度维度进行拼接(concatenate),得到拼接后的特征/>可选的,对于归一化后的/>和和log(|Bk|)可以逐帧进行拼接,得到特征/>
本申请实施例通过对第一子带的时频数据的实部和虚部进行归一化处理,得到的归一化后处理后的实部和虚部能够表征音频信号的内容。同时,第一子带的时频数据的模能够表征音频信号的能量。因此,本申请实施例通过对对第一子带的时频数据的实部和虚部进行归一化处理,能够实现将第一子带的音频信号的内容和能量进行解耦。同时,对归一化处理后的音频信号的时频数据的实部、虚部和模的对数拼接后得到的实数域子带数据能够显式表征解耦后的音频信号的内容和能量,进而在后续基于第一子带拼接后的实数域子带数据编码时能够同时兼顾音频信号内容和能量两方面的编码性能。
232,对第一子带的实数域子带数据进行特征变换,得到第一子带的时频特征。
具体而言,在通过上述步骤231将第一子带的时频数据从复数域转化到实数域后,可以通过神经网络模块将第一子带的实数域子带映射到特定的特征空间进行特征变换,得到第一子带的时频特征。
作为一种可实现方式,可以将第一子带的实数域子带数据依次输入重新缩放均方差归一化(rescaled mean-variance normalization,RMVN)模块和全连接(fully-connected,FC)层,得到第一子带的时频特征。
示例性的,RMVN模块可以输入第一子带的实数域子带数据,并获取第一子带的实数域子带数据的均值与标准差,进一步根据第一子带的实数域子带数据及其均值与标准差,得到并输出第一子带的第一子带特征。作为具体的例子,RMVN模块可以进行如下定义:
RMVN(x)=(x-mean(x))/std(x)*γ+β
其中,x∈RD表示一个D维向量,mean(x)表示x的均值,std(x)表示x的标准差;γ与β表示两个可学习的参数。γ和β在训练时可与其他模块联合进行优化,其维度均为D维(与x相同)。
示例性的,RMVN模块输出的第一子带特征可以FC层,FC层每个节点都与上一层所有节点相连,将RMVN模块输出的第一子带特征综合后输出得到第一子带的时频特征。
需要说明的是,第一子带的时频特征在特征变换后都统一映射到一个特征维度相同的特征空间,其特征维度为N。此时,第一子带的时频特征的时间帧数量仍然为T。第一子带的时频特征为一个二维特征,维度为N×T。
可选的,可以通过上述步骤231至233,对至少两个子带中的每个有效子带进行特征提取,得到每个有效子带的时频特征。
示例性的,继续参见图3,每个子带有每个子带对应的RMVN+FC模块,所有子带的特征在经过RMVN+FC模块进行特征变换后都统一映射到一个特征维度相同的空间,其特征维度为N×T。示例性的,将K个子带的转换后的二维特征进行合并合并(merge),可以得到三维张量E∈RN×K×T。该三维张量E∈RN×K×T即第二音频特征的经神经网络模块提取的时频特征。需要说明的是,对于K个子带中的无效子带,并不需要进行特征提取处理。
240,对至少两个子带的时频特征进行编码,得到至少两个子带的编码特征向量。
示例性的,可以通过神经网络模块对至少两个子带的时频特征进行编码,得到至少两个子带的编码特征向量。可选的,可以对该至少两个子带中的有效子带的时频数据进行编码,得到有效子带的编码特征向量。对于该至少两个子带中的无效子带,无需进行编码操作。
通过对至少两个子带的时频特征进行编码,可以根据子带时频特征生成子带的时频特征的估计。
在一些实施例中,以对至少两个子带中的第二子带的编码为例,可以将第二子带的时频特征输入序列建模神经网络,对第二子带的时频特征沿时间维度进行序列建模,或沿频带维度进行频带间关系建模,得到第二子带的所述编码特征向量。作为一个示例,可以对第二子带的时频特征沿时间维度进行序列建模,以及沿频带维度进行频带间关系建模,得到第二子带的所述编码特征向量。作为另一个示例,可以对第二子带的时频特征沿时间维度进行序列建模,得到第二子带的所述编码特征向量。作为另一个示例,可以对第二子带的时频特征沿频带维度进行频带间关系建模,得到第二子带的所述编码特征向量。
示例性的,继续参见图3,对于K个子带的转换后的二维特征合并后得到的三维张量E∈RN×K×T,可以输入至编码器进行编码,得到每个子带的编码特征向量。示例性的,编码器可以包括序列建模神经网络。需要说明的是,编码器模块只对有效频段进行建模获取编码特征向量,对于无效子带,并不需要进行编码处理。
示例性的,当第二子带为第K个子带时,可以使用若干序列建模神经网络对第二子带对应的维度为N×T的特征Ek∈RN×t进行建模。示例性的,每个序列建模神经网络可以包括一个时间建模的循环神经网络(Recurrent Neural Network,RNN)层和一个频带建模的RNN层,时间建模的RNN层用于对第二子带的时频特征沿时间维度进行序列建模,频带建模的RNN层用于对第二子带的时频特征沿频带维度进行序列建模,输出第二子带的时频特征的编码特征向量。可选的,第二子带的时频特征的编码特征向量可以表征第二子带的时频特征中目标分量的编码特征向量。
通过对第二子带对应的特征序列沿时间维度进行序列建模,可以建模语音的时间上下文关系,从而获得对当前时刻的特征估计。通过对第二子带对应的特征序列沿频带维度进行频带间关系建模,可以建模语音的频率上下文关系,从而获得对第二子带的特征估计。因此,通过上述对第二子带的序列建模和频带间关系建模,可以通过建模语音上下文关系和频率上下文关系生成时频特征的估计。
在一些实施例中,对第二子带对应的特征序列可以沿低频带到高频带的方向进行频带间关系建模。具体的,可以通过将频带建模的RNN层设置为单向(uni-directional)RNN,实现对第二子带对应的特征序列沿低频带到高频带的方向进行频带间关系建模,从而有利于减小或避免高频带子带对低频带子带编码性能的影响。
示例性的,对于8kHz通话音频信号上采样到48kHz后对应的有效频段在0~4kHz,可以从0kHz频段开始向高频段扫描进行频带间关系建模,此时4kHz频段的子带的频带间关系建模依赖于0~4kHz频段的信息。
示例性的,对于16kHz通话音频信号上采样到48kHz后对应的有效频段在0~8kHz,可以从0kHz频段开始向高频段扫描进行频带间关系建模,此时0~4kHz频段的子带的频带间关系建模依赖于0~4kHz频段的信息,而不依赖于从8kHz频段向低频段扫描得到的8kHz~4kHz频段的信息;同时4~8kHz频段的子带的频带间关系建模依赖于0~4kHz频段、4~8kHz频段的信息。
需要说明的是,这里以对至少两个子带中的第二子带的时频特征进行编码为例进行描述,对于至少两个子带中的其他需要编码的子带(如有效子带),其时频特征的编码过程与第二子带类似,将不再赘述。示例性的,该第二子带与图4中的第一子带可以为相同的子带,本申请对此不做限定。
250,对至少两个子带的编码特征向量进行残差向量量化,得到至少两个子带的编码特征量化结果。
示例性的,继续参见图3,对于编码器输出的每个子带的编码特征向量,可以进行残差向量量化(residual vector quantization,RVQ),得到每个子带的编码特征量化结果。在图3中,K个子带的编码特征量化结果可以表示为C∈RN×K×T。至少两个子带的编码特征量化结果可以作为码流。可选的,码流可以保存在本地,或者在发送至解码端设备,本申请对此不做限定。
本申请实施例通过RVQ可以对编码特征向量进行压缩,同时编码特征量化结果能够保留编码特征向量中的重要信息,这些信息能够用于重建原始音频信号。
可选的,可以对该至少两个子带中的有效子带的编码特征向量进行残差向量量化,得到有效子带的编码特征量化结果。对于该至少两个子带中的无效子带,无需进行残差向量量化操作。
在一些实施例中,可以根据R个码本对至少两个子带的编码特征向量进行RVQ处理,得到至少两个子带的编码特征量化结果。其中,R为大于1的正整数。示例性的,可以在R个码本中的每个码本中寻找距离残差向量最近的向量,并对这些距离残差向量最近的向量进行求和,得到子带的编码特征量化结果。因此,通过R个码本能够实现对每个子带的编码特征向量进行近似表达,从而得到每个子带的编码特征向量的量化结果,实现对每个子带的编码特征向量的信息压缩。
在一些实施例中,参见图5,可以通过以下步骤251至253实现对子带的编码特征向量的RVQ。需要说明的是,在图5中以对至少两个子带中的第三子带的编码特征向量的RVQ过程为例进行描述,对于至少两个子带中的其他需要RVQ的子带(如有效子带),其编码特征向量的RVQ与第三子带类似,将不再赘述。示例性的,第三子带可以为上文中的第一子带或第二子带,不做限定。
251,对第三子带的编码特征向量表示进行归一化处理,使得第三子带的编码特征向量的2范数为1。
具体的,对于编码器输出的K个子带(包含第三子带)的编码特征向量,其维度为N×K×T。将K个子带中的第三子带的每一帧的N维特征进行归一化,使得N维特征的2范数(L2-norm)为1(即使其为unitnorm)。示例性的,归一化处理后的每个子带的每一帧对应的N维特征可以表示为e∈RN。这里,省略了时间戳下标。
252,对R个码本中的第1个码本中的每个向量进行归一化处理,使得第1个码本中的每个向量的2范数均为1。
其中,该R个码本(codebook)用于表征第三子带的编码特征向量,R为大于1的正整数。可选的,R个码本的大小均为P,R和P的值可以预先指定。也就是说,每个码本可以包括P个N维向量Zr∈RN×P,r=1,...,R。其中,r=1时对应的码本Z1为第1个码本,依次类推,r=R时对应的码本ZR为第R个码本。
本申请实施例通过对R个码本中的第1个码本进行归一化,使得第1个码本中每个向量的2范数均为1,能够将第1个码本的向量长度与归一化后的子带的每一帧的N维特征向量对齐。通过将第1个码本的向量长度与归一化后的子带的每一帧的N维特征向量对齐,能够使得RVQ部分在模型训练过程中更加稳定。
示例性的,继续参见图3,对于编码器输出的每个子带的编码特征向量,在进行RVQ之前,可以对每个子带的每一帧的特征编码向量和R个码本中的第1个码本的所有向量进行归一化处理,使得每个子带的每一帧的特征编码向量和R个码本中的第1个码本的所有向量对齐。
253,根据R个码本,对第三子带的归一化处理后的编码特征向量进行残差向量量化,得到第三子带的编码特征量化结果。
具体的,通过残差向量量化RVQ过程,可以实现使用R个码本表征第三子带的编码特征向量,得到第三子带的编码特征量化结果,从而实现对第三子带的编码特征向量的信息压缩。
可选的,RVQ的输入为子带的每一帧的归一化后的N维特征e∈RN,RVQ的残差次数R,R个码本,其中每个码本为P个N维向量Zr∈RN×P,r=1,...,R,其中P为码本大小。其中,r=1时码本中的每个向量的2-范数均为1。
在一些实施例中,参见图6,可以通过以下步骤2531至2533,得到第三子带的编码特征量化结果。
2531,在第1个码本中确定距离第三子带的归一化处理后的编码特征向量最近的第1个向量,并根据第1个向量和第三子带的归一化处理后的编码特征向量,得到第1残差向量。
也就是说,r=1时,寻找Z1中距离e最近的向量,记为y1(即第1个向量的一个示例),此时第1残差向量为:e-y1。
需要说明的是,本申请实施例中,由于在对第1个码本的向量进行归一化处理之后,残差向量的模长不为1,因此对R个码本中的除第1个码本之外的其他码本中的向量不需要进行归一化处理。
2532,在第i个码本中确定距离第三子带的第(i-1)残差向量最近的第i个向量,并根据第i个向量和第三子带的第(i-1)残差向量,得到第i残差向量。其中,i大于1且小于或等于R,i、R分别为正整数。
也就是说,r=i时,寻找Zi中距离第(i-1)残差向量最近的向量,记为yi(即第i个向量的一个示例),此时第i残差向量为:e-y1-y2-…-yi。
示例性的,r=2时,寻找Z2中距离第1残差向量(e-y1)最近的向量,记为y2(即第2个向量的一个示例),此时第2残差向量为:e-y1-y2。
示例性的,r=3时,寻找Z3中距离第2残差向量(e-y1-y2)最近的向量,记为y3(即第3个向量的一个示例),此时第3残差向量为:e-y1-y2-y3。
依次类推,直至r=R。
2533,根据第1个向量至第i个向量之和,得到第三子带的所述编码特征量化结果。
也就是说,将视为e的近似,即e的量化结果。
需要说明的是,对于码本大小为P的P个向量,需要使用log(P)个比特(bit)对向量索引进行编码。其中,向量索引指的是P个向量中每个向量的索引。对于R个这样的码本,一共需要R×log(P)个比特。通常,对于常见的浮点数类型(如float32)来说,一个D维浮点数向量需要32×D个比特进行表示,那么当R×log(P)小于32×D时,就实现了信息压缩。
在一些实施例中,i取值为J;其中,J为小于R的正整数。
具体而言,对K个子带使用不同的R个码本(其大小均为P),其中R与P均为预先设置。在方案实际使用过程中,可以不使用所有的R个码本的输出来作为e的量化结果,而是使用R个码本中的前J个码本的输出/>来作为e的量化结果,其中J小于R,这样就e的量化结果的比特率从R*log(P)变为了J*log(P),因此本申请实施例通过设置J的大小可以灵活实现调整模型输出码流的比特率。
需要说明的是,这里以对至少两个子带中的第三子带的编码特征向量进行RVQ为例进行描述,对于至少两个子带中的其他需要RVQ的子带(如有效子带),其RVQ过程与第三子带类似,将不再赘述。示例性的,该第三子带与图4中的第一子带可以为相同的子带,或者与上文中的第二子带为相同的子带,本申请对此不做限定。
还需要说明的是,在对至少两个子带中的不同子带的编码特征向量进行RVQ时,不同子带使用的R个码本可以为不同的码本。也就是说,每个子带使用各自对应的R个码本对其编码特征向量进行RVQ处理。示例性的,K个子带可以使用K×R个码本实现对每个子带的时频特征的编码。
可选的,在另一些实施例中,不同子带可以使用相同的R个码本进行RVQ处理,本申请实施例对此不做限定。
因此,本申请实施例通过对输入的音频信号采样至预先设置的第一采样率,得到第二音频信号,进而对第二音频信号进行沿频域维度进行频带切分,得到音频信号的至少两个子带,然后对该至少两个子带的时频数据进行特征提取、编码和残差向量量化,实现对音频信号的编码处理。在该过程中可以利用单个模型对具有不同采样率的音频信号进行编码,并且通过频带切分使得单个模型的计算复杂度可以根据输入音频信号的采样率而自适应调整,使得本申请实施例能够在不改变模型的情况下广泛适用于各种采样率的音频信号,避免了额外的模型训练和存储开销。
例如,模型可以运行在第一采样率(如48kHz采样率),对不同采样率(如8kHz、16kHz等)的音频信号可以上采样至第一采样率后输入模型进行音频处理,实现单个模型对具有不同采样率的音频信号进行编码处理。
进一步的,通过对音频信号进行频带切分得到的至少两个子带,由于其由低采样率的音频信号进行上采样得到,其至少两个子带中包括至少一个音频分量为0的无效子带,通过对无效子带不进行编码处理可以降低模型的计算复杂度,并且无效子带越多则模型的计算复杂度越低,实现模型的复杂度根据输入音频信号的采样率而自适应调整,降低模型的复杂度。
图7为根据本申请实施例的另一种音频处理方法300的示意性流程图,该方法300可以由任何具有数据处理能力的电子设备执行,例如,该电子设备可实施为服务器或终端设备本申请对此不做限定。可选的,该服务器或终端设备中可以包括音频信号的解码端。如图7所示,音频处理方法300包括步骤310至350。
310,获取至少两个子带的编码特征量化结果;该至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的;第二音频信号是对第一音频信号采样至第一采样率得到的。
示例性的,音频信号的解码端可以从编码端获取至少两个子带的编码特征量化结果。具体的,至少两个子带的编码特征量化结果为根据图2所示的音频处理方法200得到的,可以参考上文中的相关描述,不再赘述。
320,对至少两个子带的编码特征量化结果进行解码,得到至少两个子带的解码特征向量。
示例性的,可以通过神经网络模块对至少两个子带的编码特征量化结果进行解码,得到至少两个子带的解码特征向量。可选的,可以对至少两个子带中的有效子带的编码特征量化结果进行解码,得到有效子带的解码特征向量。对于该至少两个子带中的无效子带,无需进行解码操作。
继续参见图3,解码过程包括根据编码特征量化结果C∈RN×K×T得到输出音频信号的过程。如图3所示,对于RVQ输出的至少两个子带的编码特征量化结果C∈RN×K×T,可以将每个子带中每一帧的近似进行解码,得到至少两个子带的解码特征向量。可选的,在对每一帧的近似/>进行解码之前,还可以对/>再次进行归一化(unitnorm)处理,此时每个子带的特征维度仍然与之前相同,为N×K×T。此时,可以将特征输入解码器进行特征解码,得到解码特征向量D∈RN×K×T。
在一些实施例中,至少两个子带包括第四子带。以对至少两个子带中的第四子带的解码为例,可以将第四子带的编码特征量化结果输入序列建模神经网络,对该第四子带的编码特征量化结果沿时间维度进行序列建模,或沿频带维度进行频带间关系建模,得到第四子带的解码特征向量。作为一个示例,可以对该第四子带的编码特征量化结果沿时间维度进行序列建模,以及沿频带维度进行频带间关系建模,得到第四子带的解码特征向量。作为另一个示例,可以对该第四子带的编码特征量化结果沿时间维度进行序列建模,得到第四子带的解码特征向量。作为一个示例,可以对该第四子带的编码特征量化结果沿频带维度进行频带间关系建模,得到第四子带的解码特征向量。
通过对第四子带对应的特征序列沿时间维度进行序列建模,可以建模语音的时间上下文关系,从而获得对当前时刻的特征估计。通过对第四子带对应的特征序列沿频带维度进行频带间关系建模,可以建模语音的频率上下文关系,从而获得对第四子带的特征估计。因此,通过上述对第四子带的序列建模和频带间关系建模,可以通过建模语音上下文关系和频率上下文关系生成时频特征的估计。
在一些实施例中,对第四子带对应的特征序列可以沿低频带到高频带的方向进行频带间关系建模,或者沿低频带到高频带的方向进行频带间关系建模,或者同时沿低频带到高频带的方向进行频带间关系建模和沿低频带到高频带的方向进行频带间关系建模。
示例性的,可以通过将频带建模的RNN层设置为单向(uni-directional)RNN,实现对第四子带对应的特征序列沿低频带到高频带的方向进行频带间关系建模,或者实现对第四子带对应的特征序列沿高频带到低频带的方向进行频带间关系建模。
示例性的,可以通过将频带建模的RNN层设置为双向(bi-directional)RNN,即包含一个沿着低频带到高频带的方向建模的RRN层和一个沿着高频带到低频带的方向建模的RNN层,实现对第四子带对应的特征序列同时沿低频带到高频带的方向进行频带间关系建模,以及沿高频带到低频带的方向进行频带间关系建模,此时高频带的信息可以作为低频带信息的补充,生成时频特征的估计。
具体的,序列建模神经网络与步骤240中的序列建模神经网络类似,可以参考上文中的相关描述,这里不再赘述。
330,对至少两个子带的解码特征向量进行特征转换,得到至少两个子带的时频数据。
示例性的,可以通过神经网络模块对至少两个子带的解码特征向量进行特征转换,得到至少两个子带的时频数据。可选的,可以对该至少两个子带中的有效子带的时频数据进行特征提取,得到有效子带的时频特征。对于该至少两个子带中的无效子带,无需进行特征转换操作。
示例性的,继续参见图3,对于至少两个子带的解码特征向量D∈RN×K×T对应的每个子带的解码特征向量Dk∈RN×T,k=1,…,K,分别输入到每个子带对应的FC层(一共K个FC层),生成解码信号的每个子带的复数频谱图的实部/>和虚部每个子带的复数频谱图即为每个子带的时频数据的一个示例。可选的,对于无效子带,可以将其复数频谱图的实部和虚部均置零。
340,对至少两个子带的时频数据进行拼接,得到第二音频信号。
示例性的,继续参见图3,对于每个子带的复数频谱图可以进行合并,即得到解码信号完整的复数频谱图/>这里,该解码信号即第二音频信号的一个示例。可选的,还可以对复数频谱图/>进行逆短时傅里叶变换(inverse short-timeFouriertransform,ISTFT)得到解码信号的波形。
350,对第二音频信号进行采样至第一音频信号的原始采样率,得到第一音频信号。
示例性的,当对第一音频信号进行上采样至第一采样率得到第二音频信号时,可以对第二音频信号进行下采样至其原始采样率,即可得到最终解码得到的音频信号,即第一音频信号。
需要说明的是,上述方法300中的步骤330至350可以为方法200中步骤210至230的逆过程,具体过程可以参考上述方法200中的相关描述。应理解,通过方法300得到的第二音频信号与方法200中输入模型的第二音频信号为相同或相似的信号,通过方法300得到的第一音频信号与方法200中输入的第一音频信号为相同或相似的信号。
还需要说明的是,图3示出了音频编解码的示意性流程图,其中音频编码过程可以应用在编码端,音频解码过程可以应用在解码端。应理解,一个电子设备可以只包含编码端或解码端中的其中一种,也可以同时包括编码端和解码端,本申请对此不做限定。
在一些实施例中,可以根据图3所示的音频编解码流程,对编码端和解码端的模型参数进行训练或优化。示例性的,可以根据模型输入和输出确定目标损失函数,通过梯度下降法迭代网络模型中的各参数。
示例性的,在模型训练时可以预先收集大量全带(fullband)音频,包括语音、音乐、环境声等。在模型训练的过程中,可以随机将这些全带音频下采样到某一随机采样率(如16kHz),然后再提供给模型进行训练,以使得模型能够使用不同采样率的音频进行训练,从而达到单一模型能够处理任意采样率的效果。在模型训练期间,也可以随机设置RVQ中J的值(即使用R个码本中的前几个码本),从而达到单一模型能够灵活调整码率的效果。
需要说明的是,编码器和解码器部分的网络模型可以为流式(causal)模型,从而使得音频编解码系统能够对音频信号逐帧编解码,适用于实时通信场景。例如,当编码器或解码器中的时间建模的RNN层为单向RNN时,可以实现编码器或解码器为流式模型。
另外,任意非流式的编码器或解码器同样可以使用本申请实施例的方案进行音频信号处理,此时音频编解码系统可用于数据压缩和存储场景。例如,当编码器或解码器中的时间建模的RNN层为双向RNN时,编码器或解码器为非流式模型。
本申请实施例能够适用于多种类型的音频处理任务的场合,如语音增强、音频超分辨率、语音识别等。以下是对一些可选模式的说明:
语音增强:在音频编解码系统的模型训练的过程中,可以令输入语音信号为带噪音语音,目标输出语音信号为干净语音,即可使得音频编解码系统在训练完成后实现在对语音信号的编解码的同时,对语音信号进行降噪处理。
音频超分辨率:在音频编解码系统的模型训练的过程中,对于某一输入采样率的音频,可以指定一个高于输入采样率的目标输出采样率。在音频编码过程中,系统仍然只对有效频段进行编码与量化;在解码过程中,可以通过对量化后的特征C∈RN×K×T中高于输入采样率的有效频段且低于目标采样率的有效频段的频率部分进行补零,然后让解码器对目标采样率的有效频段进行频带间关系建模,令其补全高于输入采样率的有效频段且低于目标采样率的有效频段的频率部分。模型的目标输出语音为目标采样率下的语音。训练后即可使得系统在接收一个较低采样率语音、且只对该采样率下的有效频段进行建模与量化的情况下,通过解码模块实现在编解码的同时进行语音超分辨率。
语音识别:将训练好的音频编解码系统的RVQ部分的每一轮VQ量化中选中的向量的索引(一共有至多R个索引)作为当前帧的特征,替代一般语音识别系统中使用的音频特征(如梅尔频谱等),即可直接使用音频编解码系统的量化结果训练语音识别系统。
类似的,其他类型神经网络编解码器下可以进行的认为(如音色转化、语音合成等),均可以在本申请实施例提供的音频编解码系统中进行,此处不再赘述。
综上,本申请实施例提供的音频处理方案相对其他现有神经网络编解码系统的主要优点在于:1)全采样率支持,即单一模型即可处理任意采样率音频信号,为当前唯一具有此特性的神经网络编解码系统;2)轻量化,相对于现有基于神经网络的编解码系统的大模型复杂度,本申请实施例可以使用很小的模型达到接近甚至更好的编解码效果,且适合各种硬件场景下的音频信号实时处理;3)多任务,本申请实施例的神经网络编解码系统可以无缝与各类其他任务进行联合处理。
以下提供了本申请实施例的音频编解码系统(模型均为流式)在两类任务的样例运行结果。
1)语音与音乐编解码任务:输入语音信号为16/24/32/48kHz采样率,输入音乐信号为44.1kHz采样率,模型最大复杂度为1.05G MACs,总参数量为0.62M,运行复杂度由输入/输出语音的采样率动态变化;语音支持码率为4kbps-40kbps不等(可调节,根据输入采样率不同而调节范围不同),音乐支持码率为20kbps-100kbps不等(可调节)。
图8A示出了语音编解码任务对应的输入和输出的音频信号的示意图。其中,(a)图表示输入的采样率为16kHz的语音信号的频谱图,(b)图表示输出的采样率为16kHz、码率为4kbps的语音信号频谱图,(c)图表示输出的采样率为16kHz、码率为16kbps的语音信号频谱图。可见,本申请实施例的音频编解码系统可以很好的对输入语音信号进行恢复,使得输出音频信号接近于输入音频信号。
图8B示出了音乐编解码任务对应的输入和输出的音频信号的示意图。其中,(a)图表示输入的采样率为44.1kHz的音乐信号的频谱图,(b)图表示输出的采样率为44.1kHz、码率为20kbps的音乐信号频谱图,(c)图表示输出的采样率为44.1kHz、码率为60kbps的音乐信号频谱图,(d)图表示输出的采样率为44.1kHz、码率为100kbps的音乐信号频谱图。可见,本申请实施例的音频编解码系统可以很好的对输入音乐信号进行恢复,使得输出音频信号接近于输入音频信号。
2)语音编解码+超分辨率任务:输入语音信号为16kHz采样率,输出语音信号可选16kHz,24kHz,32kHz或48kHz。模型最大复杂度为1.05G MACs,总参数量为0.62M,运行复杂度由输入/输出语音的采样率动态变化;16kHz输入下码率为8kbps。
图8C示出了语音编解码+超分辨率任务对应的输入和输出的音频信号的示意图。其中,(a)图表示输入的采样率为16kHz的语音信号的频谱图,(b)图表示输出的采样率为16kHz(编解码+无超分辨率)的语音信号频谱图,(c)图表示输出的采样率为24kHz(编解码+超分辨率)的语音信号频谱图,(d)图表示输出的采样率为32kHz(编解码+超分辨率)的语音信号频谱图。可见,本申请实施例的音频编解码系统可以很好的对输入语音信号进行恢复,使得输出音频信号接近于输入音频信号。
以上结合附图详细描述了本申请的具体实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。应理解这些序号在适当情况下可以互换,以便描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
上文详细描述了本申请的方法实施例,下文结合图10至图11,详细描述本申请的装置实施例。
图9是本申请实施例的音频处理装置10的示意性框图。如图9所示,所述装置10可包括采样单元11、切分单元12、特征提取单元13、编码单元14和量化单元15。
采样单元11,用于将输入的第一音频信号采样至第一采样率,得到第二音频信号;
切分单元12,用于沿频域维度对所述第二音频信号的时频数据进行频带切分,得到至少两个子带;
特征提取单元13,用于对所述至少两个子带的时频数据进行特征提取,得到所述至少两个子带的时频特征;
编码单元14,用于对所述至少两个子带的时频特征进行编码,得到所述至少两个子带的编码特征向量;
量化单元15,用于对所述至少两个子带的编码特征向量进行残差向量量化,得到所述至少两个子带的编码特征量化结果。
在一些实施例中,所述第一音频信号的原始采样率低于所述第一采样率;所述装置10还包括确定单元,用于:
根据所述至少两个子带中的不大于所述第一音频信号的奈奎斯特频率的子带,确定至少一个有效子带;
其中,编码单元14具体用于:
对所述至少一个有效子带的时频数据进行编码,得到所述至少一个有效子带的所述编码特征向量。
在一些实施例中,所述至少两个子带包括第一子带;所述特征提取单元13具体用于:
将所述第一子带的时频数据从复数域转化到实数域,得到所述第一子带的实数域子带数据;
对所述第一子带的所述实数域子带数据进行特征变换,得到所述第一子带的所述时频特征。
在一些实施例中,特征提取单元13具体用于:
使用所述第一子带的时频数据的模,对所述第一子带的时频数据的实部和虚部分别进行归一化处理;
将归一化处理后的所述第一子带的时频数据的实部和虚部,与所述第一子带的时频数据的模的对数沿着频带宽度维度进行拼接,得到所述实数域子带数据。
在一些实施例中,特征提取单元13具体用于:
将所述第一子带的所述实数域子带数据依次输入重新缩放均方差归一化RMVN模块和全连接层,得到所述时频特征。
在一些实施例中,所述至少两个子带包括第二子带;所述编码单元14具体用于:
将所述第二子带的时频特征输入序列建模神经网络,对所述第二子带的时频特征沿时间维度进行序列建模,或沿频带维度进行频带间关系建模,得到所述第二子带的所述编码特征向量。
在一些实施例中,所述编码单元14具体用于:
沿低频带到高频带的方向进行频带间关系建模。
在一些实施例中,所述至少两个子带包括第三子带;所述量化单元15具体用于:
对所述第三子带的所述编码特征向量表示进行归一化处理,使得所述第三子带的所述编码特征向量的2范数为1;
对R个码本中的第1个码本中的每个向量进行归一化处理,使得所述第1个码本中的每个向量的2范数均为1;
根据所述R个码本,对所述第三子带的归一化处理后的所述编码特征向量进行残差向量量化,得到所述第三子带的所述编码特征量化结果。
在一些实施例中,所述量化单元15具体用于:
在所述第1个码本中确定距离所述第三子带的归一化处理后的所述编码特征向量最近的第1个向量,并根据所述第1个向量和所述第三子带的归一化处理后的所述编码特征向量,得到第1残差向量;
在所述R个码本中的第i个码本中确定距离所述第三子带的第(i-1)残差向量最近的第i个向量,并根据所述第i个向量和所述第三子带的第(i-1)残差向量,得到第i残差向量;其中,i大于1且小于或等于R,i、R分别为正整数;
根据所述第1个向量至所述第i个向量之和,得到所述第三子带的所述编码特征量化结果。
在一些实施例中,i取值为J;其中,J为小于R的正整数。
在一些实施例中,所述第二音频信号为全带音频信号。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图9所示的音频处理装置10可以执行上述方法实施例,并且音频处理装置10中的各个模块的前述和其它操作和/或功能分别为了实现上述方法200中的相应流程,为了简洁,在此不再赘述。
图10是本申请实施例的另一音频处理装置20的示意性框图。如图10所示,所述音频处理装置20可包括获取单元21、解码单元22、特征转换单元23、拼接单元24和采样单元25。
获取单元21,用于获取至少两个子带的编码特征量化结果;所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的;所述第二音频信号是对第一音频信号采样至第一采样率得到的;
解码单元22,用于对所述至少两个子带的编码特征量化结果进行解码,得到所述至少两个子带的解码特征向量;
特征转换单元23,用于对所述至少两个子带的解码特征向量进行特征转换,得到所述至少两个子带的时频数据;
拼接单元24,用于对所述至少两个子带的时频数据进行拼接,得到所述第二音频信号;
采样单元25,用于对所述第二音频信号进行采样至所述第一音频信号的原始采样率,得到所述第一音频信号。
在一些实施例中,所述至少两个子带包括第四子带;所述解码单元22具体用于:
将所述第四子带的编码特征量化结果输入序列建模神经网络,对所述第四子带的编码特征量化结果沿时间维度进行序列建模,或沿频带维度进行频带间关系建模,得到所述第四子带的所述解码特征向量。
在一些实施例中,所述解码单元22具体用于:
沿低频带到高频带的方向进行频带间关系建模,以及沿低频带到高频带的方向进行频带间关系建模的至少一种。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图10所示的音频处理装置20可以执行上述方法实施例,并且音频训练装置20中的各个模块的前述和其它操作和/或功能分别为了实现上述方法300中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图11是本申请实施例提供的电子设备的示意性框图。
如图11所示,该电子设备30可包括:
存储器33和处理器32,该存储器33用于存储计算机程序34,并将该程序代码34传输给该处理器32。换言之,该处理器32可以从存储器33中调用并运行计算机程序34,以实现本申请实施例中的方法。
例如,该处理器32可用于根据该计算机程序34中的指令执行上述方法200或300中的步骤。
在本申请的一些实施例中,该处理器32可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器33包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序34可以被分割成一个或多个单元,该一个或者多个单元被存储在该存储器33中,并由该处理器32执行,以完成本申请提供的方法。该一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序34在该电子设备30中的执行过程。
可选的,如图11所示,该电子设备30还可包括:
收发器33,该收发器33可连接至该处理器32或存储器33。
其中,处理器32可以控制该收发器33与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器33可以包括发射机和接收机。收发器33还可以进一步包括天线,天线的数量可以为一个或多个。应当理解,该电子设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的具体实施方式中,当本申请以上实施例运用到具体产品或技术中并涉及到用户信息等相关的数据时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (19)
1.一种音频处理方法,其特征在于,包括:
将输入的第一音频信号采样至第一采样率,得到第二音频信号;
沿频域维度对所述第二音频信号的时频数据进行频带切分,得到至少两个子带;
对所述至少两个子带的时频数据进行特征提取,得到所述至少两个子带的时频特征;
对所述至少两个子带的时频特征进行编码,得到所述至少两个子带的编码特征向量;
对所述至少两个子带的编码特征向量进行残差向量量化,得到所述至少两个子带的编码特征量化结果。
2.根据权利要求1所述的方法,其特征在于,所述第一音频信号的原始采样率低于所述第一采样率;所述方法还包括:
根据所述至少两个子带中的不大于所述第一音频信号的奈奎斯特频率的子带,确定至少一个有效子带;
其中,所述对所述至少两个子带的时频数据进行编码,得到所述至少两个子带的编码特征向量,包括:
对所述至少一个有效子带的时频数据进行编码,得到所述至少一个有效子带的所述编码特征向量。
3.根据权利要求1所述的方法,其特征在于,所述至少两个子带包括第一子带;所述对所述至少两个子带的视频数据进行特征提取,得到所述至少两个子带的时频特征,包括:
将所述第一子带的时频数据从复数域转化到实数域,得到所述第一子带的实数域子带数据;
对所述第一子带的所述实数域子带数据进行特征变换,得到所述第一子带的所述时频特征。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一子带的时频数据从复数域转化到实数域,得到所述第一子带的实数域子带数据,包括:
使用所述第一子带的时频数据的模,对所述第一子带的时频数据的实部和虚部分别进行归一化处理;
将归一化处理后的所述第一子带的时频数据的实部和虚部,与所述第一子带的时频数据的模的对数沿着频带宽度维度进行拼接,得到所述实数域子带数据。
5.根据权利要求3所述的方法,其特征在于,所述对所述第一子带的所述实数域子带数据进行特征变换,得到所述第一子带的所述时频特征,包括:
将所述第一子带的所述实数域子带数据依次输入重新缩放均方差归一化RMVN模块和全连接层,得到所述时频特征。
6.根据权利要求1所述的方法,其特征在于,所述至少两个子带包括第二子带;所述对所述至少两个子带的时频特征进行编码,得到所述至少两个子带的编码特征向量,包括:
将所述第二子带的时频特征输入序列建模神经网络,对所述第二子带的时频特征沿时间维度进行序列建模,或沿频带维度进行频带间关系建模,得到所述第二子带的所述编码特征向量。
7.根据权利要求6所述的方法,其特征在于,所述沿频带维度进行频带间关系建模,包括:
沿低频带到高频带的方向进行频带间关系建模。
8.根据权利要求1所述的方法,其特征在于,所述至少两个子带包括第三子带;所述对所述至少两个子带的编码特征向量进行残差向量量化,得到所述至少两个子带的编码特征量化结果,包括:
对所述第三子带的所述编码特征向量表示进行归一化处理,使得所述第三子带的所述编码特征向量的2范数为1;
对R个码本中的第1个码本中的每个向量进行归一化处理,使得所述第1个码本中的每个向量的2范数均为1;
根据所述R个码本,对所述第三子带的归一化处理后的所述编码特征向量进行残差向量量化,得到所述第三子带的所述编码特征量化结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述R个码本,对所述第三子带的归一化处理后的所述编码特征向量进行残差向量量化,得到所述第三子带的所述编码特征量化结果,包括:
在所述第1个码本中确定距离所述第三子带的归一化处理后的所述编码特征向量最近的第1个向量,并根据所述第1个向量和所述第三子带的归一化处理后的所述编码特征向量,得到第1残差向量;
在所述R个码本中的第i个码本中确定距离所述第三子带的第(i-1)残差向量最近的第i个向量,并根据所述第i个向量和所述第三子带的第(i-1)残差向量,得到第i残差向量;其中,i大于1且小于或等于R,i、R分别为正整数;
根据所述第1个向量至所述第i个向量之和,得到所述第三子带的所述编码特征量化结果。
10.根据权利要求9所述的方法,其特征在于,i取值为J;其中,J为小于R的正整数。
11.根据权利要求1所述的方法,其特征在于,所述第二音频信号为全带音频信号。
12.一种音频处理方法,其特征在于,包括:
获取至少两个子带的编码特征量化结果;所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的;所述第二音频信号是对第一音频信号采样至第一采样率得到的;
对所述至少两个子带的编码特征量化结果进行解码,得到所述至少两个子带的解码特征向量;
对所述至少两个子带的解码特征向量进行特征转换,得到所述至少两个子带的时频数据;
对所述至少两个子带的时频数据进行拼接,得到所述第二音频信号;
对所述第二音频信号进行采样至所述第一音频信号的原始采样率,得到所述第一音频信号。
13.根据权利要求12所述的方法,其特征在于,所述至少两个子带包括第四子带;所述对所述至少两个子带的编码特征量化结果进行解码,得的所述至少两个子带的解码特征向量,包括:
将所述第四子带的编码特征量化结果输入序列建模神经网络,对所述第四子带的编码特征量化结果沿时间维度进行序列建模,或沿频带维度进行频带间关系建模,得到所述第四子带的所述解码特征向量。
14.根据权利要求13所述的方法,其特征在于,所述沿频带维度进行频带间关系建模,包括:
沿低频带到高频带的方向进行频带间关系建模,以及沿低频带到高频带的方向进行频带间关系建模的至少一种。
15.一种音频处理装置,其特征在于,包括:
采样单元,用于将输入的第一音频信号采样至第一采样率,得到第二音频信号;
切分单元,用于沿频域维度对所述第二音频信号的时频数据进行频带切分,得到至少两个子带;
特征提取单元,用于对所述至少两个子带的时频数据进行特征提取,得到所述至少两个子带的时频特征;
编码单元,用于对所述至少两个子带的时频特征进行编码,得到所述至少两个子带的编码特征向量;
量化单元,用于对所述至少两个子带的编码特征向量进行残差向量量化,得到所述至少两个子带的编码特征量化结果。
16.一种音频处理装置,其特征在于,包括:
获取单元,用于获取至少两个子带的编码特征量化结果;所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的;所述第二音频信号是对第一音频信号采样至第一采样率得到的;
解码单元,用于对所述至少两个子带的编码特征量化结果进行解码,得到所述至少两个子带的解码特征向量;
特征转换单元,用于对所述至少两个子带的解码特征向量进行特征转换,得到所述至少两个子带的时频数据;
拼接单元,用于对所述至少两个子带的时频数据进行拼接,得到所述第二音频信号;
采样单元,用于对所述第二音频信号进行采样至所述第一音频信号的原始采样率,得到所述第一音频信号。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有指令,所述处理器执行所述指令时,使得所述处理器执行权利要求1-14任一项所述的方法。
18.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于执行权利要求1-14中任一项所述的方法。
19.一种计算机程序产品,其特征在于,包括计算机程序代码,当所述计算机程序代码被电子设备运行时,使得所述电子设备执行权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348351.7A CN117351943A (zh) | 2023-10-16 | 2023-10-16 | 音频处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348351.7A CN117351943A (zh) | 2023-10-16 | 2023-10-16 | 音频处理方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351943A true CN117351943A (zh) | 2024-01-05 |
Family
ID=89366428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311348351.7A Pending CN117351943A (zh) | 2023-10-16 | 2023-10-16 | 音频处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351943A (zh) |
-
2023
- 2023-10-16 CN CN202311348351.7A patent/CN117351943A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767954B (zh) | 音频编解码方法、装置、介质及电子设备 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
Deng et al. | Exploiting time-frequency patterns with LSTM-RNNs for low-bitrate audio restoration | |
Zhen et al. | Cascaded cross-module residual learning towards lightweight end-to-end speech coding | |
CN109147806B (zh) | 基于深度学习的语音音质增强方法、装置和系统 | |
CN110176256B (zh) | 录音文件格式转换方法、装置、计算机设备以及存储介质 | |
CN115050378B (zh) | 音频编解码方法及相关产品 | |
CN1138386A (zh) | 分布式话音识别系统 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN111816197B (zh) | 音频编码方法、装置、电子设备和存储介质 | |
Dendani et al. | Speech enhancement based on deep AutoEncoder for remote Arabic speech recognition | |
CN113903345A (zh) | 音频处理方法、设备及电子设备 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
Zhang et al. | An efficient perceptual hashing based on improved spectral entropy for speech authentication | |
JP2024527536A (ja) | ニューラルネットワークおよびベクトル量子化器を使用したオーディオ波形の圧縮 | |
WO2023241193A1 (zh) | 音频编码方法、装置、电子设备、存储介质及程序产品 | |
Jiang et al. | Latent-domain predictive neural speech coding | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 | |
Anees | Speech coding techniques and challenges: A comprehensive literature survey | |
WO2024093588A1 (zh) | 语音合成模型的训练方法、装置、设备、存储介质及程序产品 | |
Pan et al. | PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders | |
Joseph et al. | Wavelet energy based voice activity detection and adaptive thresholding for efficient speech coding | |
WO2023241254A1 (zh) | 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN115116455B (zh) | 音频处理方法、装置、设备、存储介质及计算机程序产品 | |
CN117351943A (zh) | 音频处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |