CN113903345A - 音频处理方法、设备及电子设备 - Google Patents

音频处理方法、设备及电子设备 Download PDF

Info

Publication number
CN113903345A
CN113903345A CN202111151494.XA CN202111151494A CN113903345A CN 113903345 A CN113903345 A CN 113903345A CN 202111151494 A CN202111151494 A CN 202111151494A CN 113903345 A CN113903345 A CN 113903345A
Authority
CN
China
Prior art keywords
audio
cepstrum
information corresponding
frame
audio frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111151494.XA
Other languages
English (en)
Inventor
熊伟浩
周新权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202111151494.XA priority Critical patent/CN113903345A/zh
Publication of CN113903345A publication Critical patent/CN113903345A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

本公开实施例提供一种音频处理方法、设备及电子设备,该方法包括:获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据,有效实现了低比特率下的编解码,提高用户的使用满意度。

Description

音频处理方法、设备及电子设备
技术领域
本公开实施例涉及音频技术领域,尤其涉及一种音频处理方法、设备及电子设备。
背景技术
在音频传输过程中,经常需要对音频进行编解码,即编码端需要先对音频进行压缩编码,以得到相应的编码音频。在得到编码音频后,将该编码音频发送解码端,以使解码端对该编码音频进行解码,恢复得到该音频。
目前,在对音频数据进行编解码时,一般是采用线性预测分析建模方式对音频数据进行编解码。但由于使用线性预测分析建模方式进行编解码会有较多的残差信息,难以实现低比特率的编解码。因此,亟需一种实现低比特率下的音频的编解码方法。
发明内容
本公开实施例提供一种音频处理方法、设备及电子设备,以实现低比特率下的音频编解码。
第一方面,本公开实施例提供一种音频处理方法,应用于第一设备,所述方法包括:
获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
第二方面,本公开实施例提供一种音频处理方法,应用于第二设备,所述方法包括:
获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
第三方面,本公开实施例提供一种音频处理设备,应用于第一设备,所述设备包括:
第一处理模块,用于获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
所述第一处理模块,还用于提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
第一收发模块,用于将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
第四方面,本公开实施例提供一种音频处理设备,应用于第二设备,所述设备包括:
第二收发模块,用于获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
第二处理模块,用于采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
第五方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器。
所述存储器存储计算机执行指令。
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第六方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器。
所述存储器存储计算机执行指令。
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第二方面以及第二方面各种可能的设计所述的音频处理方法。
第七方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第八方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第二方面以及第二方面各种可能的设计所述的音频处理方法。
第九方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第十方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第二方面以及第二方面各种可能的设计所述的音频处理方法。
本实施例提供的音频处理方法、设备及电子设备,该方法通过在获取到待处理音频数据时,表明需对该待处理音频数据进行编码,以便于将该待处理音频数据传输至第二设备,则提取该待处理音频数据中的各个音频帧对应的音频特征信息,以实现对该待处理音频数据的初步压缩。在得到各个音频帧对应的音频特征信息后,对该各个音频帧对应的音频特征信息进行量化压缩,即进行进一步压缩,得到压缩程度更大的编码音频,即编码后的音频数据,将该编码后的音频数据传输至第二设备,以使该第二设备利用目标升采样网络对该编码后的音频数据进行解码处理,即对编码压缩后的音频数据进行恢复,得到相应的待处理音频数据。由于在对待处理音频数据进行编码时,对其进行两次压缩,使得编码后的音频数据相较于原始的待处理音频数据的压缩程度较大,即使当前的比特率较低,也可以成功将编码后的音频数据发送至第二设备,且第二设备在接收到编码后的音频数据后,利用目标升采样网络对该编码后的音频数据进行解码处理,可以快速地对音频数据进行高质量的恢复,保证解码得到的音频数据的质量,从而有效实现了低比特率下的编解码,提高用户的使用满意度。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的音频处理方法的场景示意图;
图2为本公开实施例提供的音频处理方法的流程示意图一;
图3为本公开实施例提供的音频处理方法的流程示意图二;
图4为本公开实施例提供的音频处理方法的流程示意图三;
图5为本公开实施例提供的音频处理方法的流程示意图四;
图6为本公开实施例提供的升采样神经网络模型的结构示意图;
图7为本公开实施例提供的残差网络的结构示意图
图8为本公开实施例提供的音频处理设备的结构框图一;
图9为本公开实施例提供的音频处理设备的结构框图二;
图10为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
现有技术中,在对音频数据进行编解码时,一般是采用线性预测分析建模方式对音频数据进行编解码。然而由于使用线性预测分析建模方式进行编解码会有较多的残差信息,因此,难以实现低于6kbps的编解码。在实现低于6kbps的编解码时,一般采用基于频域的方法(例如,codec2,melp等)进行编解码,但由于压缩造成的损失较大,解码得到的音频质量较差,导致出现声音失真、细节损失等情况,从而出现用户听不懂的问题,影响用户体验。
因此,针对上述问题,本发明的技术构思是在进行编码时,采用基因频率集合感知域频谱信息对音频数据进行压缩,有利于解码端利用压缩的音频数据恢复为真实、可懂的音频。在进行解码时,采用运算量较小的基于升采样的神经网络模型进行解码,一次生成一段音频,恢复得到相应的音频数据,实现低比特率下的编解码,且在提升低比特率下的编解码音频质量的同时可以实现高速的处理,提高用户体验。
图1为本发明实施例提供的音频处理方法的场景示意图,如图1所示,第一设备101在需要传输待处理音频数据至第二设备102时,第一设备101对该待处理音频数据进行编码,得到便于传输的编码后的音频数据,并将该编码后的音频数据发送至第二设备102。第二设备102在接收到编码后的音频数据后,对其进行解压缩,即进行解码处理,以将其恢复为该待处理音频数据。
其中,第一设备101可以是计算机设备(如,台式机、笔记本电脑、一体机等)、移动终端(例如手机、平板电脑等)等设备。第二设备102也可以是计算机设备(如,台式机、笔记本电脑、一体机等)、移动终端(例如手机、平板电脑等)等设备。
可选的,第一设备101和第二设备102可以为同一个设备,也可以为不同设备,在此,不对其进行限定。
参考图2,图2为本公开实施例提供的音频处理方法流程示意图一。本实施例的方法可以应用于如图1所示的第一设备上,该音频处理方法包括:
S201:获取待处理音频数据。其中,待处理音频数据包括至少一个音频帧。
S202:提取各个音频帧对应的音频特征信息,并基于各个音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据。
在本公开实施例中,第一设备在需要将音频数据传输至第二设备时,将该音频数据作为待处理音频数据,该待处理音频数据是由至少一个音频帧组成。在得到待处理音频数据时,对待处理音频数据进行特征提取,以得到待处理音频数据中的各个音频帧对应的音频特征信息,实现音频的初步压缩。
为了更好地进行压缩,在得到音频帧对应的音频特征信息后,利用音频帧之间的关联性,对音频帧对应的音频特征信息进行进一步压缩,即进行量化压缩,得到编码后的音频数据。
其中,音频帧表示一定时长的音频信号,即表示预设时长(例如,10ms)的波形。
可选的,音频帧对应的音频特征信息包括音频帧对应的倒谱信息、音频帧对应的基因频率和音频帧对应的基频互相关值中的一个或多个。
其中,倒谱信息,即倒谱特征包含了音频数据,即音频帧中的语言信息,其被广泛应用与语音识别场景中。基因频率包括音频帧中与说话者相关的信息。在使用倒谱特征和/基因频率可以较好的在解码端恢复出说话者和说话的内容,从而还原真实的声音。
进一步的,提取音频帧对应的倒谱信息,即倒谱特征的过程包括输入音频时域信号拼帧,加窗,短时傅里叶变换,计算频带能量,离散余弦变换等步骤。
以一个具体应用场景为例,当待处理音频数据为16KHz,音频帧的时长为10ms时,一个音频帧输入为x(n),其中,n=0...160,即160个采样点的数据。在进行信号拼帧时,将当前输入的音频帧与上一时刻输入的音频帧进行拼接,得到x(n),其中,n=-160...160。在进行加窗时,将信号x(n)乘以窗函数w(n),得到加窗后的信号x(n)*w(n),n=-160...160。其中,窗函数可以为汉宁窗等函数。在进行傅里叶变换时,对加窗后的信号进行傅里叶变换,得到信号频谱X(m)=FFT(x(n)*w(n)),取频谱能量X2(m)。在计算频带能量时,将频谱划分成若干个频带,对每个频带能量求和,将频谱划分成若干个频带,对每个频带能量求和,即通过
Figure BDA0003287298450000061
得到频带能量B(l)。在进行离散余弦变换时,对频带能量取对数并进行离散余弦变换,得到倒谱特征C(K)。
其中,倒谱信息包括多个维度对应的倒谱参数,可以根据需求确定倒谱信息对应的维数。例如,倒谱信息的维数为18维,则其包括18个维度对应的倒谱参数;又例如,倒谱信息的维数为80维,则其包括80个维度对应的倒谱参数。
进一步的,在确定音频帧对应的基因频率时,可以采用自相关算法进行确定,其具体确定过程与现有基因频率确定过程类似,即计算当前音频帧对应的音频时域信号与前一段时间内的音频帧对应的音频时域信号(例如,上一时刻的音频帧对应的音频时域信号)之间的自相关结果,通过自相关的最大值,即最大的自相关值对应的时间延迟得到当前音频帧对应的基音频率。
另外,在计算音频帧对应的基因频率时,需确定最大的自相关值,并将该最大的自相关值作为该音频帧对应的基频互相关值。
在任意实施例中,可选的,在提取音频帧对应的音频特征信息时,可以根据比特率确定所需的提取的音频特征,其具体过程为:获取当前比特率。若当前比特率大于预设比特率,则提取各个音频帧对应的倒谱信息。若当前比特率小于或等于预设比特率,则提前各个音频帧对应的倒谱信息和基因频率。
具体的,当当前比特率大于预设比特率时,表明当前比特率较高,为了保证音频质量,可以仅使用倒谱特征对待处理音频数据进行压缩,则提取待处理音频数据中的各个音频帧对应的倒谱信息。当当前比特率小于或等于预设比特率时,表明当前比特率较低,为了更大限度的压缩待处理音频数据,可以利用基因频率和倒谱特征对待处理音频数据进行压缩,则提取待处理音频数据中的各个音频帧对应的倒谱信息和基因频率。
另外,在当前比特率大于预设比特率时,也可以提取音频帧对应的倒谱信息和基因频率,以供利用倒谱信息和基因频率对待处理音频数据进行更大限度的压缩。
S203:将编码后的音频数据发送至第二设备,以使第二设备采用目标升采样网络模型,对编码后的音频数据进行解码处理,得到待处理音频数据。
在本公开实施例中,在对待处理音频数据压缩后,即在得到编码后的音频数据后,将该编码后的音频数据发送至第二设备,以使第二设备在接收到该编码后的音频数据时,采用目标升采样网络模型对该编码后的音频数据进行解码处理,即进行还原处理,得到相应的音频数据。
在本公开实施例中,在确定音频帧对应的音频特征信息后,为了满足低比特率场景下的需求,利用音频帧之间的相关性,对音频特征信息进行进一步压缩,即进行量化压缩,实现对音频数据最大程度低压缩,便于在低比特率场景下的传输。
从上述描述可知,获取到待处理音频数据时,表明需对该待处理音频数据进行编码,以便于将该待处理音频数据传输至第二设备,则提取该待处理音频数据中的各个音频帧对应的音频特征信息,以实现对该待处理音频数据的初步压缩。在得到各个音频帧对应的音频特征信息后,对该各个音频帧对应的音频特征信息进行量化压缩,即进行进一步压缩,得到更便于传输的编码后的音频数据,将该编码后的音频数据传输至第二设备,以使该第二设备利用目标升采样网络对该编码后的音频数据进行解码处理,即对编码压缩后的音频数据进行恢复,得到相应的待处理音频数据。由于在对待处理音频数据进行编码时,对其进行两次压缩,使得编码后的音频数据相较于原始的待处理音频数据的压缩程度更大,即使当前的比特率较低,也可以成功将编码后的音频数据发送至第二设备,且第二设备在接收到编码后的音频数据后,利用目标升采样网络对该编码后的音频数据进行解码处理,可以快速地对音频数据进行高质量的恢复,保证解码得到的音频数据的质量,从而有效实现了低比特率下的编解码,提高用户的使用满意度。
参考图3,图3为本公开实施例提供的音频处理方法流程示意图二。本实施例中详细描述在得到音频帧对应的音频特征信息后,利用音频帧之间的关联关系,对相应的音频特征信息进行进一步压缩的过程,该音频处理方法包括:
S301:获取待处理音频数据。其中,待处理音频数据包括至少一个音频帧。
S302:对音频帧对应的音频特征信息进行合并处理,得到至少一个音频包,其中音频包包括预设数量的音频帧对应的音频特征信息。
在本公开实施例中,按照预设数量,对音频帧对应的音频特征信息进行合并,得到相应的音频包,该音频包包括预设数量的音频帧对应的音频特征信息。例如,预设数量为4,音频帧对应的时长为10ms,则音频包包括40ms的音频信号对应的音频特征信息。
S303:对于每个音频包,根据音频包中的音频帧对应的音频特征信息对音频包进行量化压缩,得到编码后的音频包。
在本公开实施例中,在得到音频包后,利用音频包中的音频帧对应的音频特征信息之间的关联性,对音频包进行进一步压缩,以得到编码后的音频包,即得到编码后的音频数据。
在本公开实施例中,可选的,在根据音频包中的音频帧对应的音频特征信息对音频包进行量化压缩时,计算音频包中的第一音频帧对应的倒谱信息与第二音频帧的倒谱信息之间的差值,得到第二音频帧对应的倒谱差值。其中,第一音频帧对应的倒谱信息为音频包中的一个音频帧对应的倒谱信息,第二音频帧对应的倒谱信息为音频包中除第一音频帧对应的倒谱信息以外的任一音频帧对应的倒谱信息。对第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,并根据量化倒谱信息和第二音频帧对应的倒谱差值生成编码后的音频包。
具体的,对于每个音频包,从该音频包中的音频帧对应的倒谱信息中获取第一音频帧对应的倒谱信息,并将剩余的音频帧对应的倒谱信息作为第二音频帧对应的倒谱信息。对于每个第二音频帧对应的倒谱信息,计算该第二音频帧对应的倒谱信息与该第一音频帧对应的倒谱信息,得到该第二音频帧对应的倒谱差值,以供第二设备在进行解码时,可以利用第二音频帧对应的倒谱差值和第一音频帧对应的倒谱信息,还原出第二音频帧对应的倒谱信息。
在确定音频包中的第一音频帧对应的倒谱信息后,继续对其进行压缩,即对第一音频帧对应的倒谱信息进行矢量量化,得到该音频包对应的量化倒谱信息。在得到该音频包对应的量化倒谱信息后,利用该音频包对应的量化倒谱信息和该音频包对应的各个第二音频帧所对应的倒谱差值确定编码后的音频包。
其中,音频包包括预设数量的音频帧对应的倒谱信息,从该预设数量的音频帧对应的倒谱信息中任意选择一个音频帧对应的倒谱信息,并将选择的音频帧对应的倒谱信息作为第一音频帧对应的倒谱信息,或者将指定音频帧对应的倒谱信息作为第一音频帧对应的倒谱信息。例如,预设数量为4个,指定音频帧对应的倒谱信息为音频包中的第一个音频帧对应的倒谱信息,即第一音频帧对应的倒谱信息为音频包中的第一个音频帧对应的倒谱信息,相应的,剩余三个音频帧对应的倒谱信息均为第二音频帧对应的倒谱信息。
其中,在计算第二音频帧对应的倒谱信息与第一音频帧对应的倒谱信息时,基于维度分别进行作差,即对于倒谱信息对应的每个维度,计算第二音频帧对应的倒谱信息中的该维度对应的倒谱参数与第一音频帧对应的倒谱信息中的该维度对应的倒谱参数之间的差值,得到该维度对应的倒谱差值。例如,计算第二音频帧对应的第0维与第一音频帧对应的第0维之间的差值,得到地0维对应的倒谱差值。
进一步的,可选的,在对第一音频帧对应的倒谱信息进行矢量量化时,获取第一音频帧对应的倒谱信息中的目标维度对应的倒谱参数,并对目标维度对应的倒谱参数进行矢量量化,得到量化倒谱信息。
具体的,从音频包中的第一音频帧对应的倒谱信息中获取目标维度对应的倒谱参数,并基于矢量量化技术,对该目标维度对应的倒谱参数进行矢量量化,得到该音频包对应的量化倒谱信息。
其中,目标维度包括一个或多个维度,其可以是相关人员根据实际情况设定的维度。例如,目标维度为除第0维以外的17维。又例如,当音频特征信息仅包括倒谱信息时,目标维度可以为所有维度,即对倒谱信息中的所有倒谱参数进行矢量量化。
可选的,当提取的音频特征信息还包括基因频率时,在进行量化压缩时,还需对基因频率进行压缩,其具体过程为:
获取第一音频帧对应的倒谱信息中的除目标维度对应的倒谱参数以外的倒谱参数,并将其确定为目标倒谱参数。
获取音频包中的音频帧对应的基因频率的平均值,并将其确定为音频包对应的平均基因频率。
根据音频包中的音频帧对应的基因频率确定音频包对应的基因斜率。
根据平均基因频率、基因斜率、目标倒谱参数、量化倒谱信息和第二音频帧对应的倒谱差值确定编码后的音频包。
具体的,计算音频包中的所有音频帧对应的基因频率的平均值,得到该音频包对应的平均基因频率。由于音频包对应的基因斜率,即音频包中音频帧对应的基因频率是随着时间线性变换的,因此,可以利用音频包中的音频帧对应的基因频率确定基因斜率,即对音频包中的音频帧对应的基因频率进行线性拟合,得到该音频包对应的基因斜率,例如,基因斜率对应的系数为1,即基因斜率为1。
可选的,在确定音频包对应的平均基因频率、基因斜率、目标倒谱参数、量化倒谱信息和第二音频帧对应的倒谱差值后,利用该音频包对应的平均基因频率、基因斜率、目标倒谱参数、量化倒谱信息和第二音频帧对应的倒谱差值确定编码后的音频包,其具体过程包括:
对基频互相关值、平均基因频率、基因斜率和目标倒谱参数进行标量量化,得到综合特征信息。
根据综合特征信息、量化倒谱信息和第二音频帧对应的倒谱差值得到编码后的音频包。
具体的,在确定音频包对应的基频互相关值、平均基因频率、基因斜率和目标倒谱参数后,采用标量量化方式,将该基频互相关值、平均基因频率、基因斜率和目标倒谱参数量化为一个值,即得到综合特征信息。生成包含该音频包对应的综合特征信息、量化特征信息和与该音频包对应的各个第二音频帧对应的倒谱差值的压缩包,即得到编码后的音频包。
在本公开实施例中,为了提高解码得到的音频质量,可以从音频帧对应的倒谱信息中获取较为重要的目标倒谱参数,并将其与基频互相关值、平均基因频率、基因斜率等参数进行标量量化。
另外,需要说明,在对待处理音频数据进行编码时,还可以采用其它编码方式,相关人员可以根据实际需求进行使用,在此,不对其进行赘述。例如,采用线性预测系数+基音频率的方式;又例如,采用基音频率+各个谐波的能量的方式。
S303:将编码后的音频数据发送至第二设备,以使第二设备采用目标升采样网络模型,对编码后的音频数据进行解码处理,得到待处理音频数据。
在本公开实施例中,在压缩音频数据时,采用基因频率结合倒谱信息,即感知域频率信息进行压缩,有利于第二设备,即解码端恢复真实、可靠的音频,保证解码得到的音频质量,从而可以有效提升低比特率下得到的音频质量。
参考图4,图4为本公开实施例提供的音频处理方法流程示意图三。本实施例的方法可以应用在如图1所示的第二设备上,该音频处理方法包括:
S401:获取第一设备发送的编码后的音频数据,其中编码后的音频数据是第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的。
S402:采用目标升采样网络模型,对编码后的音频数据进行解码处理,得到待处理音频数据。
在本公开实施例中,第二设备在接收到第一设备发送的编码后的音频数据后,利用训练后的升采样网络模型,即目标升采样网络模型对编码后的音频数据进行解码处理,得到相应的待处理音频数据,即恢复成相应的音频数据。
其中,编码后的音频数据包括编码后的音频包。
在本公开实施例中,使用神经网络对进行解码可以提升解码的音频质量,且由于在使用自回归网络模型进行解码时,输出每一个音频采样点均需要之前所有采样点的信息,导致运行速度较慢,即导致解码速度较慢,无法满足实时解码音频数据的需求,因此,为了在保证解码的音频质量的基础上,提升解码的速度,采用基于升采样的神经网络模型对编码后的音频数据进行解码,可以在提升解码的音频质量的同时实现高速的处理。
在本公开实施例中,在需要进行解码时,利用目标升采样网络模型对编码后的音频数据进行解码处理,即对编码压缩后的音频数据进行高质量恢复,由于在目标升采样网络模型进行恢复时,该目标升采样网络模型不依赖未来信息,未引入延迟,在保持解码得到的音频质量的同时解码效率也得到了大大的提升,满足低比特率下的解码需求。
参考图5,图5为本公开实施例提供的音频处理方法流程示意图四。本实施例中详细描述利用目标升采样网络模型对编码后的音频数据进行解码处理的过程,该音频处理方法包括:
S501:获取第一设备发送的编码后的音频数据,其中编码后的音频数据是第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的。
S502:对编码后的音频数据进行特征恢复处理,得到至少一个音频帧对应的音频特征信息。
在本公开实施例中,对于编码后的音频数据中的每个编码后的音频包,对该编码后的音频包进行特征恢复处理,即对压缩的比特流进行恢复,得到相应数量的音频帧对应的音频特征信息,例如,预设数量的音频帧对应的音频特征信息。
可选的,当提取的音频帧对应的音频特征信息包括倒谱信息、基因频率和基频互相关值时,利用码字搜索技术,对编码后的音频包对应的量化倒谱信息进行解码,得到与该音频包中第一音频帧对应的目标维度对应的倒谱参数。以及利用码字搜索技术,对该音频包对应的综合特征信息进行解码,得到该音频包对应的平均基因频率、基因斜率、基因的互相关值和该第一音频帧对应的目标倒谱参数。
在确定第一音频帧对应的目标维度对应的倒谱参数及目标倒谱参数时,对其进行组合,得到该第一音频帧对应的倒谱信息。对于该音频包对应的每个第二音频帧,根据该第二音频帧对应的倒谱差值和该第一音频帧对应的倒谱信息,得到该第二音频帧对应的倒谱信息。
在确定音频包对应的基因斜率和平均基因频率后,在进行解码时,可以根据该基因斜率和平均基因频率确定出该音频包中的各个音频帧对应的基因频率,即通过pitch=t*β*main_pitch进行确定,其中,picth为音频帧对应的基因频率,β为基因斜率,main_pitch为平均基因频率。例如,音频帧对应的时长为10ms,则在确定第一个音频帧对应的基因频率时,将t=10ms,则确定第一个音频帧对应的基因频率为10*β*main_pitch。
在得到音频帧对应的倒谱信息、基因频率和基频互相关值后,便可以得到该音频帧对应的音频特征信息。
可选的,当提取的音频帧对应的音频特征信息仅包括倒谱信息时,表明编码后的音频包包括量化倒谱信息,则利用码字搜索技术,对该量化倒谱信息进行解码,即恢复为该音频包中的第一音频帧对应的倒谱信息。对于该音频包对应的每个第二音频帧,根据该第二音频帧对应的倒谱差值和该第一音频帧对应的倒谱信息,得到该第二音频帧对应的倒谱信息。在确定该音频包中的第一音频帧对应的倒谱信息和第二音频帧对应的倒谱信息后,便得到该音频包中的各个音频帧对应的音频特征信息。
S503:将各个音频帧对应的音频特征信息分别输入至目标升采样网络模型中,以使目标升采样网络模型对各个音频帧对应的音频特征信息进行升采样处理,得到各个音频帧对应的音频波形。
在本公开实施例中,在得到音频帧对应的音频特征信息后,将其输入至目标升采样网络模型中,以使目标升采样网络模型进行相关升采样处理,得到该音频对应的音频波形,即时域波形。
以一个具体应用场景为例,采样率为16KHz,音频帧对应的时长为10ms,音频帧对应的音频特征信息包括18维的倒谱信息、基因频率和基频互相关值,则将10ms,即音频帧对应的特征信息(20*1,其中18维倒谱信息,一维基音频率,一维基频互相关值)输入至目标升采样网络模型中,该目标升采样网络模型输出为160个音频采样点(1*169)。因此,目标升采样网络模型在处理的过程中,时间维度上需进行升采样操作,如图6所示,目标升采样网络模型分为三层网络堆叠,每一层上采样的倍数分别为×8,×5,×4,每一次升采样之后,均需要使用残差网络(如图7所示)对升采样的结果进行调整,使得该结果更接近实际音频。
在本公开实施例中,可选的,在使用目标升采样网络模型进行解码前,需要先对初始升采样网络模型,以得到可以准确解码的升采样网络模型,即得到可以高质量解码的目标升采样网络模型,其训练过程为:获取样本音频对应的音频特征信息,并根据样本音频对应的音频特征信息和预设损失函数对初始升采样网络模型进行训练,得到目标升采样网络模型,其中,预设损失函数包括频谱损失函数和/或判别器损失函数。
具体的,采用频谱作为损失函数可以使生成的频谱接近实际音频数据对应的频谱,采用判别器可以判断生成的音频是否为真实音频。在利用预设损失函数和样本音频对应的音频特征信息对初始升采样网络模型进行训练时,计算得到相应的损失值,当损失值大于预设损失值时,表明训练得到的升采样网络模型不满足需求,需继续进行训练,则继续对初始升采样网络模型进行训练。当该损失值小于或等于预设损失值时,表明训练得到的升采样网络模型满足需求,则将训练得到的升采样网络模型作为目标网络模型。
其中,当采用频谱或判别器作为损失函数,即预设损失函数包括频谱损失函数或判别器损失函数时,相应的,损失值包括频谱损失值或判别器损失值,则当频谱损失值大于第一预设损失值或判别器损失值大于第二预设损失值时,继续对初始升采样网络模型进行训练。
当采用频谱和判别器作为损失函数,即预设损失函数包括频谱损失函数和判别器损失函数时,相应的,损失值包括频谱损失值和判别器损失值,则当频谱损失值大于第一预设损失值以及判别器损失值大于第二预设损失值时,继续对初始升采样网络模型进行训练。
另外,可选的,升采样神经网络输出的还可以是分频带的音频(例如,高频带和低频带这两个子带),然后通过滤波器组合成完整的音频。举例来说,当音频帧对应的时长为10ms,采样率为16KHz时,当升采样神经网络输出两个子带时,即输出的为2段80个音频采样点(2*80),并使用子带滤波器将输出的音频合成为160个音频采样点
在本公开实施例中,在采用频谱和判别器同时作为损失函数时,生成的音频更接近真实的音频,且可以避免生成的音频带有杂音,从而使得生成的音频与原始音频类似且流畅,提高用户使用满意度。
S504:获取目标升采样网络模型输出的各个音频帧对应的音频波形,并将其确定为待处理音频数据。
在本公开实施例中,在利用目标升采样网络模型确定待处理音频数据中的各个音频帧,即各个音频帧对应的音频波形后,对各个音频帧对应的音频波形进行组合,得到该待处理音频数据。
在任意实施例中,可选的,对待处理音频数据进行谐波增强处理。
具体的,为了避免解码得到的音频数据,即解码得到的待处理音频数据对听感造成损伤,可以对解码得到的待处理音频数据进行谐波增强,即通过滤波器将基音频率及其倍频能量进行增强,该滤波器的时域形式为:y(n)=αx(n)+(1-α)y(n-T),其中y为增强后的音频信号,α为预设增强系数,T为基音频率对应的频点间隔,即采样点之间的间隔时间。
其中,α的取值范围为0~1。
在本公开实施例中,升采样网络模型的输入为音频特征信息,输出为音频帧的时域波形,其节省了传统编解码中需要的残差或者相位信息所占用的带宽。且升采样网络模型是以音频帧为生成单位的高效模型,可以实现实时运行。
在本公开实施例中,在对待处理音频数据进行编码时,提取待处理音频数据中的各个音频帧对应的音频特征信息,并对其进行量化压缩,得到相应的编码后的音频数据。在对编码后的音频数据进行解码时,对其进行特征恢复,得到各个音频帧对应的音频特征信息,并将各个音频帧对应的音频特征信息输入至基于升采样的神经网络模型,即目标升采样网络模型中,以得到各个音频帧对应的波形,实现低比特率下的低延迟的音频编解码,从而当用户网络带宽不足时,只需要占用极少的流量便可实现流畅的语音通话,以及当用户网络卡顿时,可以发送占用带宽较低的冗余信息,以针对丢包场景进行音频恢复,提高用户体验。
在本公开实施例中,由于模型的输入为音频特征,输出为音频波形,在对升采样网络模型进行训练时,由于收敛较困难,因此,并未使用真实的音频波形作为目标函数,而是采用频率和/或判别器作为损失函数,从而使得升采样网络模型输出的音频波形接近于原始的音频波形,保证解码得到的音频质量。
对应于上文图2至图3实施例的音频处理方法,图8为本公开实施例提供的音频处理设备的结构框图一,该音频处理设备应用于第一设备。为了便于说明,仅示出了与本公开实施例相关的部分。参照图8,音频处理设备80包括:第一处理模块801和第一收发模块802。
其中,第一处理模块,用于获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
所述第一处理模块,还用于提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
第一收发模块,用于将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
在本公开的一个实施例中,所述第一处理模块还用于:
对所述音频帧对应的音频特征信息进行合并处理,得到至少一个音频包,其中所述音频包包括预设数量的音频帧对应的音频特征信息;
对于每个音频包,根据所述音频包中的音频帧对应的音频特征信息对所述音频包进行量化压缩,得到编码后的音频包。
在本公开的一个实施例中,所述音频帧对应的音频特征信息包括音频帧对应的倒谱信息;
所述第一处理模块还用于:
计算所述音频包中的第一音频帧对应的倒谱信息与第二音频帧的倒谱信息之间的差值,得到所述第二音频帧对应的倒谱差值;其中,所述第一音频帧对应的倒谱信息为所述音频包中的一个音频帧对应的倒谱信息,所述第二音频帧对应的倒谱信息为所述音频包中除所述第一音频帧对应的倒谱信息以外的任一音频帧对应的倒谱信息;
对所述第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,并根据所述量化倒谱信息和所述第二音频帧对应的倒谱差值生成编码后的音频包。
在本公开的一个实施例中,所述第一处理模块还用于:
获取所述第一音频帧对应的倒谱信息中的目标维度对应的倒谱参数,并对所述目标维度对应的倒谱参数进行矢量量化,得到量化倒谱信息。
在本公开的一个实施例中,所述音频帧对应的音频特征信息还包括音频帧对应的基因频率;
所述第一处理模块还用于:
获取所述第一音频帧对应的倒谱信息中的除所述目标维度对应的倒谱参数以外的倒谱参数,并将其确定为目标倒谱参数;
获取所述音频包中的音频帧对应的基因频率的平均值,并将其确定为所述音频包对应的平均基因频率;
根据所述音频包中的音频帧对应的基因频率确定所述音频包对应的基因斜率;
根据所述平均基因频率、基因斜率、所述目标倒谱参数、所述量化倒谱信息和所述第二音频帧对应的倒谱差值确定所述编码后的音频包。
在本公开的一个实施例中,所述音频帧对应的音频特征信息还包括音频帧对应的基频互相关值;
所述第一处理模块还用于:
对所述基频互相关值、所述平均基因频率、基因斜率和所述目标倒谱参数进行标量量化,得到综合特征信息;
根据所述综合特征信息、量化倒谱信息和所述第二音频帧对应的倒谱差值得到所述编码后的音频包。
在本公开的一个实施例中,所述第一处理模块还用于:
获取当前比特率;
若所述当前比特率大于预设比特率,则提取各个所述音频帧对应的倒谱信息;
若所述当前比特率小于或等于预设比特率,则提前各个音频帧对应的倒谱信息和基因频率。
本实施例提供的设备,可用于执行上述图2和图3方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
对应于上文图4至图5实施例的音频处理方法,图9为本公开实施例提供的音频处理设备的结构框图二,该音频处理设备应用于第二设备。为了便于说明,仅示出了与本公开实施例相关的部分。参照图10,音频处理设备100包括:第二收发模块901和第二处理模块902。
其中,第二收发模块,用于获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
第二处理模块,用于采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
在本公开的一个实施例中,第二处理模块还用于:
对所述编码后的音频数据进行特征恢复处理,得到至少一个音频帧对应的音频特征信息;
将各个音频帧对应的音频特征信息分别输入至所述目标升采样网络模型中,以使所述目标升采样网络模型对各个音频帧对应的音频特征信息进行升采样处理,得到各个音频帧对应的音频波形;
获取所述目标升采样网络模型输出的各个音频帧对应的音频波形,并将其确定为所述待处理音频数据。
在本公开的一个实施例中,第二处理模块还用于:
获取样本音频对应的音频特征信息,并根据所述样本音频对应的音频特征信息和预设损失函数对初始升采样网络模型进行训练,得到所述目标升采样网络模型,其中,所述预设损失函数包括频谱损失函数和/或判别器损失函数。
在本公开的一个实施例中,第二处理模块还用于:
对所述待处理音频数据进行谐波增强处理。
本实施例提供的设备,可用于执行上述图4和图5方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
参考图10,其示出了适于用来实现本公开实施例的电子设备1000的结构示意图,该电子设备1000可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(PortableMedia Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(Read Only Memory,简称ROM)1002中的程序或者从存储装置1009加载到随机访问存储器(Random Access Memory,简称RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1009;以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1009被安装,或者从ROM1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上所述的音频处理方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
第一方面,根据本公开的一个或多个实施例,提供了一种音频处理方法,应用于第一设备,所述方法包括:
获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
根据本公开的一个或多个实施例,所述基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据,包括:
对所述音频帧对应的音频特征信息进行合并处理,得到至少一个音频包,其中所述音频包包括预设数量的音频帧对应的音频特征信息;
对于每个音频包,根据所述音频包中的音频帧对应的音频特征信息对所述音频包进行量化压缩,得到编码后的音频包。
根据本公开的一个或多个实施例,所述音频帧对应的音频特征信息包括音频帧对应的倒谱信息;
所述根据所述音频包中的音频帧对应的音频特征信息对所述音频包进行量化压缩,得到编码后的音频包,包括:
计算所述音频包中的第一音频帧对应的倒谱信息与第二音频帧的倒谱信息之间的差值,得到所述第二音频帧对应的倒谱差值;其中,所述第一音频帧对应的倒谱信息为所述音频包中的一个音频帧对应的倒谱信息,所述第二音频帧对应的倒谱信息为所述音频包中除所述第一音频帧对应的倒谱信息以外的任一音频帧对应的倒谱信息;
对所述第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,并根据所述量化倒谱信息和所述第二音频帧对应的倒谱差值生成编码后的音频包。
根据本公开的一个或多个实施例,所述对所述第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,包括:
获取所述第一音频帧对应的倒谱信息中的目标维度对应的倒谱参数,并对所述目标维度对应的倒谱参数进行矢量量化,得到量化倒谱信息。
根据本公开的一个或多个实施例,所述音频帧对应的音频特征信息还包括音频帧对应的基因频率;
所述根据所述量化倒谱信息和所述第二音频帧对应的倒谱差值生成编码后的音频包,包括:
获取所述第一音频帧对应的倒谱信息中的除所述目标维度对应的倒谱参数以外的倒谱参数,并将其确定为目标倒谱参数;
获取所述音频包中的音频帧对应的基因频率的平均值,并将其确定为所述音频包对应的平均基因频率;
根据所述音频包中的音频帧对应的基因频率确定所述音频包对应的基因斜率;
根据所述平均基因频率、基因斜率、所述目标倒谱参数、所述量化倒谱信息和所述第二音频帧对应的倒谱差值确定所述编码后的音频包。
根据本公开的一个或多个实施例,所述音频帧对应的音频特征信息还包括音频帧对应的基频互相关值;
所述根据所述平均基因频率、基因斜率、所述目标倒谱参数、所述量化倒谱信息和所述第二音频帧对应的倒谱差值确定所述编码后的音频包,包括:
对所述基频互相关值、所述平均基因频率、基因斜率和所述目标倒谱参数进行标量量化,得到综合特征信息;
根据所述综合特征信息、量化倒谱信息和所述第二音频帧对应的倒谱差值得到所述编码后的音频包。
根据本公开的一个或多个实施例,所述提取各个所述音频帧对应的音频特征信息,包括:
获取当前比特率;
若所述当前比特率大于预设比特率,则提取各个所述音频帧对应的倒谱信息;
若所述当前比特率小于或等于预设比特率,则提前各个音频帧对应的倒谱信息和基因频率。
第二方面,根据本公开的一个或多个实施例,提供了一种音频处理方法,应用于第二设备,所述方法包括:
获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
根据本公开的一个或多个实施例,所述采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据,包括:
对所述编码后的音频数据进行特征恢复处理,得到至少一个音频帧对应的音频特征信息;
将各个音频帧对应的音频特征信息分别输入至所述目标升采样网络模型中,以使所述目标升采样网络模型对各个音频帧对应的音频特征信息进行升采样处理,得到各个音频帧对应的音频波形;
获取所述目标升采样网络模型输出的各个音频帧对应的音频波形,并将其确定为所述待处理音频数据。
根据本公开的一个或多个实施例,所述方法还包括:
获取样本音频对应的音频特征信息,并根据所述样本音频对应的音频特征信息和预设损失函数对初始升采样网络模型进行训练,得到所述目标升采样网络模型,其中,所述预设损失函数包括频谱损失函数和/或判别器损失函数。
根据本公开的一个或多个实施例,所述方法还包括:
对所述待处理音频数据进行谐波增强处理。
第三方面,根据本公开的一个或多个实施例,提供了一种音频处理设备,应用于第一设备,所述音频处理设备包括:
第一处理模块,用于获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
所述第一处理模块,还用于提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
第一收发模块,用于将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
根据本公开的一个或多个实施例,所述第一处理模块还用于:
对所述音频帧对应的音频特征信息进行合并处理,得到至少一个音频包,其中所述音频包包括预设数量的音频帧对应的音频特征信息;
对于每个音频包,根据所述音频包中的音频帧对应的音频特征信息对所述音频包进行量化压缩,得到编码后的音频包。
根据本公开的一个或多个实施例,所述音频帧对应的音频特征信息包括音频帧对应的倒谱信息;
所述第一处理模块还用于:
计算所述音频包中的第一音频帧对应的倒谱信息与第二音频帧的倒谱信息之间的差值,得到所述第二音频帧对应的倒谱差值;其中,所述第一音频帧对应的倒谱信息为所述音频包中的一个音频帧对应的倒谱信息,所述第二音频帧对应的倒谱信息为所述音频包中除所述第一音频帧对应的倒谱信息以外的任一音频帧对应的倒谱信息;
对所述第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,并根据所述量化倒谱信息和所述第二音频帧对应的倒谱差值生成编码后的音频包。
根据本公开的一个或多个实施例,所述第一处理模块还用于:
获取所述第一音频帧对应的倒谱信息中的目标维度对应的倒谱参数,并对所述目标维度对应的倒谱参数进行矢量量化,得到量化倒谱信息。
根据本公开的一个或多个实施例,所述音频帧对应的音频特征信息还包括音频帧对应的基因频率;
所述第一处理模块还用于:
获取所述第一音频帧对应的倒谱信息中的除所述目标维度对应的倒谱参数以外的倒谱参数,并将其确定为目标倒谱参数;
获取所述音频包中的音频帧对应的基因频率的平均值,并将其确定为所述音频包对应的平均基因频率;
根据所述音频包中的音频帧对应的基因频率确定所述音频包对应的基因斜率;
根据所述平均基因频率、基因斜率、所述目标倒谱参数、所述量化倒谱信息和所述第二音频帧对应的倒谱差值确定所述编码后的音频包。
根据本公开的一个或多个实施例,所述音频帧对应的音频特征信息还包括音频帧对应的基频互相关值;
所述第一处理模块还用于:
对所述基频互相关值、所述平均基因频率、基因斜率和所述目标倒谱参数进行标量量化,得到综合特征信息;
根据所述综合特征信息、量化倒谱信息和所述第二音频帧对应的倒谱差值得到所述编码后的音频包。
根据本公开的一个或多个实施例,所述第一处理模块还用于:
获取当前比特率;
若所述当前比特率大于预设比特率,则提取各个所述音频帧对应的倒谱信息;
若所述当前比特率小于或等于预设比特率,则提前各个音频帧对应的倒谱信息和基因频率。
第四方面,根据本公开的一个或多个实施例,提供了一种音频处理设备,应用于第二设备,所述音频处理设备包括:
第二收发模块,用于获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
第二处理模块,用于采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
根据本公开的一个或多个实施例,第二处理模块还用于:
对所述编码后的音频数据进行特征恢复处理,得到至少一个音频帧对应的音频特征信息;
将各个音频帧对应的音频特征信息分别输入至所述目标升采样网络模型中,以使所述目标升采样网络模型对各个音频帧对应的音频特征信息进行升采样处理,得到各个音频帧对应的音频波形;
获取所述目标升采样网络模型输出的各个音频帧对应的音频波形,并将其确定为所述待处理音频数据。
根据本公开的一个或多个实施例,第二处理模块还用于:
获取样本音频对应的音频特征信息,并根据所述样本音频对应的音频特征信息和预设损失函数对初始升采样网络模型进行训练,得到所述目标升采样网络模型,其中,所述预设损失函数包括频谱损失函数和/或判别器损失函数。
在本公开的一个实施例中,第二处理模块还用于:
对所述待处理音频数据进行谐波增强处理。
第五方面,根据本公开的一个或多个实施例,提供了一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第六方面,根据本公开的一个或多个实施例,提供了一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第二方面以及第二方面各种可能的设计所述的音频处理方法。
第七方面,根据本公开的一个或多个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第八方面,根据本公开的一个或多个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第二方面以及第二方面各种可能的设计所述的音频处理方法。
第九方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第十方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第二方面以及第二方面各种可能的设计所述的音频处理方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (19)

1.一种音频处理方法,其特征在于,包括:
获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
2.根据权利要求1所述的方法,其特征在于,所述基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据,包括:
对所述音频帧对应的音频特征信息进行合并处理,得到至少一个音频包,其中所述音频包包括预设数量的音频帧对应的音频特征信息;
对于每个音频包,根据所述音频包中的音频帧对应的音频特征信息对所述音频包进行量化压缩,得到编码后的音频包。
3.根据权利要求2所述的方法,其特征在于,所述音频帧对应的音频特征信息包括音频帧对应的倒谱信息;
所述根据所述音频包中的音频帧对应的音频特征信息对所述音频包进行量化压缩,得到编码后的音频包,包括:
计算所述音频包中的第一音频帧对应的倒谱信息与第二音频帧的倒谱信息之间的差值,得到所述第二音频帧对应的倒谱差值;其中,所述第一音频帧对应的倒谱信息为所述音频包中的一个音频帧对应的倒谱信息,所述第二音频帧对应的倒谱信息为所述音频包中除所述第一音频帧对应的倒谱信息以外的任一音频帧对应的倒谱信息;
对所述第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,并根据所述量化倒谱信息和所述第二音频帧对应的倒谱差值生成编码后的音频包。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一音频帧对应的倒谱信息进行矢量量化,得到量化倒谱信息,包括:
获取所述第一音频帧对应的倒谱信息中的目标维度对应的倒谱参数,并对所述目标维度对应的倒谱参数进行矢量量化,得到量化倒谱信息。
5.根据权利要求4所述的方法,其特征在于,所述音频帧对应的音频特征信息还包括音频帧对应的基因频率;
所述根据所述量化倒谱信息和所述第二音频帧对应的倒谱差值生成编码后的音频包,包括:
获取所述第一音频帧对应的倒谱信息中的除所述目标维度对应的倒谱参数以外的倒谱参数,并将其确定为目标倒谱参数;
获取所述音频包中的音频帧对应的基因频率的平均值,并将其确定为所述音频包对应的平均基因频率;
根据所述音频包中的音频帧对应的基因频率确定所述音频包对应的基因斜率;
根据所述平均基因频率、所述基因斜率、所述目标倒谱参数、所述量化倒谱信息和所述第二音频帧对应的倒谱差值确定所述编码后的音频包。
6.根据权利要求5所述的方法,其特征在于,所述音频帧对应的音频特征信息还包括音频帧对应的基频互相关值;
所述根据所述平均基因频率、基因斜率、所述目标倒谱参数、所述量化倒谱信息和所述第二音频帧对应的倒谱差值确定所述编码后的音频包,包括:
对所述基频互相关值、所述平均基因频率、基因斜率和所述目标倒谱参数进行标量量化,得到综合特征信息;
根据所述综合特征信息、量化倒谱信息和所述第二音频帧对应的倒谱差值得到所述编码后的音频包。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述提取各个所述音频帧对应的音频特征信息,包括:
获取当前比特率;
若所述当前比特率大于预设比特率,则提取各个所述音频帧对应的倒谱信息;
若所述当前比特率小于或等于预设比特率,则提前各个音频帧对应的倒谱信息和基因频率。
8.一种音频处理方法,其特征在于,包括:
获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
9.根据权利要求8所述的方法,其特征在于,所述采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据,包括:
对所述编码后的音频数据进行特征恢复处理,得到至少一个音频帧对应的音频特征信息;
将各个音频帧对应的音频特征信息分别输入至所述目标升采样网络模型中,以使所述目标升采样网络模型对各个音频帧对应的音频特征信息进行升采样处理,得到各个音频帧对应的音频波形;
获取所述目标升采样网络模型输出的各个音频帧对应的音频波形,并将其确定为所述待处理音频数据。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取样本音频对应的音频特征信息,并根据所述样本音频对应的音频特征信息和预设损失函数对初始升采样网络模型进行训练,得到所述目标升采样网络模型,其中,所述预设损失函数包括频谱损失函数和/或判别器损失函数。
11.根据权利要求8至10任一项所述的方法,其特征在于,所述方法还包括:
对所述待处理音频数据进行谐波增强处理。
12.一种音频处理设备,其特征在于,包括:
第一处理模块,用于获取待处理音频数据;其中,所述待处理音频数据包括至少一个音频帧;
所述第一处理模块,还用于提取各个所述音频帧对应的音频特征信息,并基于各个所述音频帧对应的音频特征信息进行量化压缩,得到编码后的音频数据;
第一收发模块,用于将所述编码后的音频数据发送至第二设备,以使所述第二设备采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
13.一种音频处理设备,其特征在于,包括:
第二收发模块,用于获取第一设备发送的编码后的音频数据,其中所述编码后的音频数据是所述第一设备提取待处理音频数据中的各个音频帧对应的音频特征信息,并在基于各个音频帧对应的音频特征信息进行量化压缩后得到的;
第二处理模块,用于采用目标升采样网络模型,对所述编码后的音频数据进行解码处理,得到所述待处理音频数据。
14.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的音频处理方法。
15.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求8至11任一项所述的音频处理方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的音频处理方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求8至11任一项所述的音频处理方法。
18.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的音频处理方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8至11任一项所述的音频处理方法。
CN202111151494.XA 2021-09-29 2021-09-29 音频处理方法、设备及电子设备 Pending CN113903345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111151494.XA CN113903345A (zh) 2021-09-29 2021-09-29 音频处理方法、设备及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111151494.XA CN113903345A (zh) 2021-09-29 2021-09-29 音频处理方法、设备及电子设备

Publications (1)

Publication Number Publication Date
CN113903345A true CN113903345A (zh) 2022-01-07

Family

ID=79189207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111151494.XA Pending CN113903345A (zh) 2021-09-29 2021-09-29 音频处理方法、设备及电子设备

Country Status (1)

Country Link
CN (1) CN113903345A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023221674A1 (zh) * 2022-05-19 2023-11-23 腾讯科技(深圳)有限公司 音频编解码方法及相关产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023221674A1 (zh) * 2022-05-19 2023-11-23 腾讯科技(深圳)有限公司 音频编解码方法及相关产品

Similar Documents

Publication Publication Date Title
US11727946B2 (en) Method, apparatus, and system for processing audio data
US10909992B2 (en) Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
CN109147806B (zh) 基于深度学习的语音音质增强方法、装置和系统
KR101019398B1 (ko) 오디오 코딩 및 디코딩에서의 여기의 프로세싱
WO2021258940A1 (zh) 音频编解码方法、装置、介质及电子设备
CN106847297B (zh) 高频带信号的预测方法、编/解码设备
US20040002854A1 (en) Audio coding method and apparatus using harmonic extraction
CN115050378A (zh) 音频编解码方法及相关产品
US7603271B2 (en) Speech coding apparatus with perceptual weighting and method therefor
CN113903345A (zh) 音频处理方法、设备及电子设备
EP3637417B1 (en) Signal processing method and device
CN111816197B (zh) 音频编码方法、装置、电子设备和存储介质
US10468033B2 (en) Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
CN113314132A (zh) 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置
CN117649846B (zh) 语音识别模型生成方法、语音识别方法、设备和介质
US11978464B2 (en) Trained generative model speech coding
US20220277754A1 (en) Multi-lag format for audio coding
CN113096670B (zh) 音频数据的处理方法、装置、设备及存储介质
CN117351943A (zh) 音频处理方法、装置、设备和存储介质
CN113096670A (zh) 音频数据的处理方法、装置、设备及存储介质
CN115641857A (zh) 音频处理方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination