CN111899748B - 基于神经网络的音频编码方法及装置、编码器 - Google Patents

基于神经网络的音频编码方法及装置、编码器 Download PDF

Info

Publication number
CN111899748B
CN111899748B CN202010296175.7A CN202010296175A CN111899748B CN 111899748 B CN111899748 B CN 111899748B CN 202010296175 A CN202010296175 A CN 202010296175A CN 111899748 B CN111899748 B CN 111899748B
Authority
CN
China
Prior art keywords
data
audio
line spectrum
neural network
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010296175.7A
Other languages
English (en)
Other versions
CN111899748A (zh
Inventor
闫玉凤
肖全之
方桂萍
黄荣均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Jieli Technology Co Ltd
Original Assignee
Zhuhai Jieli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Jieli Technology Co Ltd filed Critical Zhuhai Jieli Technology Co Ltd
Priority to CN202010296175.7A priority Critical patent/CN111899748B/zh
Publication of CN111899748A publication Critical patent/CN111899748A/zh
Application granted granted Critical
Publication of CN111899748B publication Critical patent/CN111899748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于神经网络的音频编码方法及装置、编码器。音频编码方法包括:对原始音频数据进行预处理;对预处理后的音频数据进行运算处理得到线性预测音频数据、线谱对数据或线谱频率数据;将线性预测音频数据或者线谱对数据或线谱频率数据作为输入数据,输入用于量化的神经网络模型,得到音频关联数据;根据音频关联数据确定量化后的线谱频率数据;将量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;按后续的编码协议进行运算,得到音频编码数据。本发明提供的音频编码方法运算量小,神经网络模型的大小比较灵活,可以根据具体的精度需求灵活调整神经网络的大小,以减少使用的数据带宽。

Description

基于神经网络的音频编码方法及装置、编码器
技术领域
本发明涉及音频编码技术领域,尤其涉及一种基于神经网络的音频编码方法及装置、计算机可读存储介质、编码器、音频处理芯片及电子设备。
背景技术
语音压缩编码技术是数字通信技术中非常重要的部分,随着多媒体信息技术和网络技术的飞速发展,人们可利用的信道资源越来越多,用尽量少的信道资源传输极可能多的信息,是现代数字通信的迫切要求,其中语音压缩编码技术显得尤为重要。
线性预测是进行语音信号分析最有效和最流行的分析技术之一,其能够在运算量相对不大的情况下较准确地表征语音信号的频率幅度,其已成为语音信号处理的一个强有力的工具和方法。
在线性预测过程中需要进行线性预测音频数据进行量化,在量化过程中需要的运算量比较大,且需要比较大的数据带宽,这大大限制了线性预测的应用范围,尤其是运算能力有限的应用场合。
发明内容
基于上述现状,本发明的主要目的在于提供一种基于神经网络的音频编码方法及装置、计算机可读存储介质、编码器、音频处理芯片及电子设备,以解决现有音频编码方法存在的运算量大、数据带宽大的问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于神经网络的音频编码方法,包括步骤:
S10、对原始音频数据进行预处理,得到预处理后的音频数据;
S20、对所述预处理后的音频数据进行运算处理得到线性预测音频数据;或对所述线性预测音频数据进行第一域变换后得到线谱对数据;或对所述线谱对数据进行第二域变换后得到线谱频率数据;
S30、将所述线性预测音频数据或者所述线谱对数据或者所述线谱频率数据作为输入数据,输入用于量化的神经网络模型,得到音频关联数据;其中,所述用于量化的神经网络模型被训练成能够利用所述输入数据经过运算输出音频关联数据,所述音频关联数据用于确定量化后的线谱频率数据;
S40、根据所述音频关联数据确定量化后的线谱频率数据;
S50、将所述量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;
S60、根据所述量化后的线性预测音频数据、未量化的所述线性预测音频数据以及所述预处理后的音频数据进行运算处理,得到音频编码数据。
优选地,所述步骤S40中,根据所述音频关联数据确定量化后的线谱频率数据包括步骤:
S41、根据所述音频关联数据查找第一数据库,得到与所述音频关联数据对应的量化数据,所述第一数据库包括所述音频关联数据与所述量化数据的映射;
S42、根据所述量化数据得到所述量化后的线谱频率数据,其中,所述量化后的线谱频率数据为所述量化数据本身,或者为利用所述量化数据进一步查找至少一个数据库并经计算得到。
优选地,所述线谱频率数据为16位数据,所述用于量化的神经网络模型为8位数据。
优选地,所述音频编码方法采用G729协议。
优选地,所述用于量化的神经网络模型的构建方法包括步骤:
S200、将标记音频关联数据的样本数据构建为训练样本,所述样本数据为线性预测音频数据、线谱对数据或线谱频率数据;
S300、将所述训练样本的样本数据输入初始神经网络模型,并将所述样本数据所标记的音频关联数据作为期望输出,训练所述初始神经网络模型,得到训练后的神经网络模型;
S400、对训练后的神经网络模型中的参数进行量化,得到所述用于量化的神经网络模型。
优选地,所述用于量化的神经网络模型的构建方法还包括所述步骤S200之前执行的步骤:
S110、获取原始音频数据;
S120、对所述原始音频数据进行预处理;
S130、对预处理后的音频数据进行加窗和自相关计算得到自相关数据;
S140、根据所述自相关数据计算得到所述线性预测音频数据;
S150、对所述线性预测音频数据进行第一域变换得到所述线谱对数据;
S160、对所述线谱对数据进行第二域变换得到所述线谱频率数据;
S170、对所述线谱频率数据进行量化得到对应的音频关联数据;
S180、将所述音频关联数据标记至所述线性预测音频数据、所述线谱对数据或所述线谱频率数据以形成所述标记音频关联数据的样本数据。
优选地,所述步骤S170中,利用第二数据库对所述线谱频率数据进行一级量化得到一级量化数据,利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据,对所述二级量化数据进行重排和稳定性检查,得到量化后的线谱频率数据,对所述量化后的线谱频率数据标记音频关联数据,并利用标记有音频关联数据的所述量化后的线谱频率数据构建所述第一数据库,其中,所述第二数据库包括129个量化数据10维矢量数据库,所述第三数据库和所述第四数据库均为包括32个量化数据的5维矢量数据库。
优选地,利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据的方法包括步骤:
S171、将所述一级量化数据与所述线谱频率数据做差得到差值数据;
S172、取所述差值数据的高维部分查找所述第三数据库得到所述二级量化数据的高维部分;
S173、取所述差值数据的低维部分查找所述第四数据库得到所述二级量化数据的低维部分。
优选地,所述初始神经网络模型为深度神经网络模型或卷积神经网络模型。
一种基于神经网络的音频编码装置,所述音频编码装置包括:
预处理模块,用于对原始音频数据进行预处理;
第一处理单元,用于对预处理后的音频数据运算处理得到线性预测音频数据,或对所述线性预测音频数据进行第一域变换后得到线谱对数据;或对所述线谱对数据进行第二域变换后得到线谱频率数据;
第二处理单元,存储有用于量化的神经网络模型,用于将所述线性预测音频数据或者所述线谱对数据或者所述线谱频率数据作为输入数据,输入所述用于量化的神经网络模型,得到音频关联数据;其中,所述用于量化的神经网络模型被训练成能够利用所述输入数据经过运算输出音频关联数据,所述音频关联数据用于确定量化后的线谱频率数据;
第三处理单元,用于根据所述音频关联数据确定量化后的线谱频率数据;
第四处理单元,用于将所述量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;
后处理模块,用于根据所述量化后的线性预测音频数据、未量化的所述线性预测音频数据以及预处理后的音频数据进行运算处理,得到音频编码数据。
优选地,所述音频编码装置还包括构建模块,用于构建所述用于量化的神经网络模型,所述构建模块包括:
训练样本构建单元,用于将标记音频关联数据的样本数据构建为训练样本,所述样本数据为线性预测音频数据、线谱对数据或线谱频率数据;
训练单元,用于将所述训练样本的样本数据输入初始神经网络模型,并将所述样本数据所标记的音频关联数据作为期望输出,训练所述初始神经网络模型,得到训练后的神经网络模型;
第一量化单元,用于对训练后的神经网络模型中的参数进行量化,得到所述用于量化的神经网络模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的音频编码方法。
一种编码器,所述编码器采用如上所述的音频编码方法对音频数据进行编码。
一种音频处理芯片,所述音频处理芯片在进行音频编码时采用如上所述的音频编码方法。
一种电子设备,所述电子设备包括如上所述的计算机可读存储介质、或者如上所述的编码器、或者如上所述的音频处理芯片。
本发明提供的基于神经网络的音频编码方法中,在进行线性预测分析量化过程时,利用神经网络模型替换传统的量化运算,无需再与量化数据循环计算距离来确定音频关联数据,大大降低了运算量,另外,神经网络模型的大小比较灵活,可以根据具体的精度需求灵活调整神经网络的大小,以减少使用的数据带宽。
本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
附图说明
以下将参照附图对根据本发明的充电控制方法及装置、芯片、移动充电装置的优选实施方式进行描述。图中:
图1为根据本发明的一种优选实施方式的基于神经网络的音频编码方法的流程图;
图2为根据本发明的一种优选实施方式的用于量化的神经网络模型的构建方法流程图之一;
图3为根据本发明的一种优选实施方式的基于神经网络的音频编码装置的结构框图。
具体实施方式
针对现有音频编码方法存在的运算量大、数据带宽大的问题,申请人仔细研究了音频编码中的线性预测分析量化过程,发现线性预测分析量化过程中的一些步骤非常适于利用神经网络模型进行运算。
线性预测分析量化过程通常包括如下步骤:
S1、对预处理后的音频数据进行计算得到线性预测音频数据;
S2、将线性预测音频数据转化为线谱对数据;
S3、将线谱对数据转化为线谱频率数据;
S4、对线谱频率数据进行量化;
S5、对量化的线谱频率数据以及未进行量化的线谱对数据进行内插;
S6、将完成量化和内插的数据转化回线性预测音频数据。
其中,对预处理后的音频数据进行计算得到线性预测音频数据的过程例如为,对预处理后的数据进行加窗和自相关计算得到自相关数据,然后根据自相关数据计算得到线性预测音频数据,例如通过林文孙-杜宾算法计算得到线性预测音频数据。后续需要对线性预测音频数据进行量化和内插,为了量化和内插,需要将线性预测音频数据转化为线谱对数据,线谱对数据的量化可使用规格化的频率域[0,π]中的线谱频形式的ωi,即需要将线谱对数据转化为线谱频率数据进行量化,在完成量化和内插过程后,需要将数据再转回到线性预测音频数据,完成整个的线性预测分析量化过程。现有的线谱频率数据的量化过程为,对于每个线谱频率数据,均需要与所有的量化数据进行比较,得到最接近的量化数据,一方面,这种量化方式的运算量是非常大的,且需要比较大的数据带宽,另一方面,若系统支持的运算位数较少,则还存在溢出的问题,需要增加移位运算,例如,量化数据为16位数据时,若系统只支持32位运算,则运算过程中会出现溢出问题,从而进一步增加了运算量。
基于此,本发明提供了一种基于神经网络的音频编码方法,如图1所示,音频编码方法包括步骤:
S10、对原始音频数据进行预处理,得到预处理后的音频数据;
S20、对所述预处理后的音频数据进行运算处理得到线性预测音频数据;或对所述线性预测音频数据进行第一域变换后得到线谱对数据;或对所述线谱对数据进行第二域变换后得到线谱频率数据;
S30、将所述线性预测音频数据或者所述线谱对数据或者所述线谱频率数据作为输入数据,输入用于量化的神经网络模型,得到音频关联数据;其中,所述用于量化的神经网络模型被训练成能够利用所述输入数据经过运算输出音频关联数据,所述音频关联数据用于确定量化后的线谱频率数据;
S40、根据所述音频关联数据确定量化后的线谱频率数据;
S50、将所述量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;
S60、根据所述量化后的线性预测音频数据、未量化的所述线性预测音频数据以及所述预处理后的音频数据进行运算处理,得到音频编码数据。
如此,在进行线性预测分析量化过程时,利用神经网络模型替换传统的量化运算,大大降低了运算量,另外,神经网络模型的大小比较灵活,可以根据具体的精度需求灵活调整神经网络的大小,以减少使用的数据带宽。例如,线谱频率数据为16位数据,用于量化的神经网络模型为8位数据,这样设置则不需要考虑数据溢出的问题,从而进一步减少运算量。
其中,步骤S10中,通过对原始音频数据进行预处理,以便进行后续的线性预测分析量化过程,预处理过程与现有音频编码方法的预处理过程一致,例如包括信号定标和高通滤波,通过信号定标使得信号幅度减半,减小定点实现时的数据上溢概率,通过高通滤波滤除不希望的低频成分,经过预处理后的音频数据记为s(n)。
步骤S20中,对预处理后的音频数据进行运算得到线性预测音频数据的过程可以依据现有的编码协议执行,例如,首先对预处理后的音频数据进行加窗和自相关计算得到自相关数据,然后根据自相关数据计算得到线性预测音频数据,例如通过林文孙-杜宾算法计算得到线性预测音频数据。
下面给出运算过程的一个具体实施例:
(1)加窗
线性预测分析窗包括两部分:第一部分为半个汉明窗,第二部分为1/4余弦函数,通过如下公式表达:
在线性预测分析中有5ms的预视,这意味着要从下一个语音帧中抽取40个抽样,同时给编码器阶段引入额外的5ms的算法时延。如此,线性预测分析窗共有240个抽样,其中120个抽样属于前一帧,80个抽样属于当前帧,40个抽样属于后一帧。
经过加分析窗后所得的语音信号如下:
s′(n)=wlp(n)s(n),n=0,1,...239
(2)计算自相关数据
自相关数据r(k)通过如下公式计算:
为了避免低电平的输入信号导致某些算法问题,使r(0)有一下界r(0)=1.0,同时用下式与自相关数据相乘以扩展60Hz的带宽。
其中f0=60Hz是带宽扩展,fs=8KHz是抽样频率,而且r(0)要乘以一个白噪声校正因子1.0001,相当于加了一个-40dB的噪声门限,最后的自相关数据如下:
r′(0)=1.001r(0)
r′(k)=wlog(k)r(k)
(3)林文孙-杜宾算法
利用自相关数据计算得到线性预测音频数据ai,i=1,2,…,10的过程即为解下述方程组的过程:
该求解过程可通过林文孙-杜宾算法求解,具体使用如下递归方法:
其中,ki为反射系数。
现有技术中,要实现线性预测音频数据的量化,首先要进行数据的域变换过程,即按线性预测音频数据-线谱对数据-线谱频率数据进行转化,之后再通过对比计算得到最接近的量化数据,从而实现对线谱频率数据的量化。而本发明中,在步骤S30中,利用构建好映射关系的神经网络模型实现量化过程,大大缩减了运算量,且设置比较灵活。具体地,可以直接将线性预测音频数据作为用于量化的神经网络模型的输入数据,也可以是对线性预测音频数据进行第一域变换后得到的线谱对数据或者是对线谱对数据进行第二域变换后得到的线谱频率数据作为输入数据,神经网络模型中相应构建有线性预测音频数据、线谱对数据或者线谱频率数据与音频关联数据的映射关系,例如,当将线性预测音频数据作为输入数据时,用于量化的神经网络模型被训练成能够利用线性预测音频数据经过运算输出音频关联数据,训练的过程即构建线性预测音频数据与音频关联数据的映射关系的过程,训练完成后,当输入线性预测音频数据时,神经网络模型经过运算会输出与输入的线性预测音频数据对应的音频关联数据。将线谱对数据或者线谱频率数据作为输入数据时类似,不再赘述。
若将线谱对数据作为输入数据时,步骤S20还包括对线性预测音频数据进行第一域变换后得到线谱对数据,该变换过程与现有的音频编码方法中的变换过程一致。具体地,线谱对数据为下列和与差多项式的根。
F′1(z)=A(z)+z-11A(z-1)
F′2(z)=A(z)-z-11A(z-1)
多项式F′1(z)是对称的,F′2(z)是反对称的。能够分别证明这两个多项式的所有根都在单位圆上,且他们相互之间交替出现。F′1(z)有一个根在z=-1(ω=π),F′2(z)有一个根在z=1(ω=0)。如此,定义下述新的多项式可将这两个跟消去。
F1(z)=F′1(z)/(1+z-1)
F2(z)=F′2(z)/(1-z-1)
每一个多项式在单位圆上有5对共轭复根,因此多项式可以写为:
式中,qi即为线谱对数据。
由于两个多项式是对称的,每个多项式仅前面5个数据需要计算,可用下列递归关系得到:
f1(i+1)=ai+1+a10-i-f1(i),i=0,...,4
f2(i+1)=ai+1-a10-i+f2(i),i=1,...,4
式中f1(0)=f2(0)=1.0。
求解线谱对数据可以通过简化算法进行计算,在0和π之间等间隔的60个点是那个,估算多项式F1(z)和F2(z)使用z=ejm进行估算,能够写为:
F(ω)=2e-j5ωC(x)
式中,C(x)=T5(x)+f(1)T4(x)+f(2)T3(x)+f(3)T2(x)+f(4)T1(x)f(5)/2
式中,Tm(x)=cos(mω)是m阶切比雪夫多项式,写f(i),i=1,…,5是每一个F1(z)或F2(z)的系数。多项式C(x)在x=cos(ω)的某些值上使用递归关系估算
for k=4down to 1
bk=2xbk+1-bk+2+f(5-k)
End
C(x)-xb1-b2+f(5)/2
初始值b5=1,b6=0。
当然,可以理解的是,上述的第一域变换过程也可以为了减少运算量采用神经网络模型运算得到,例如,提供第一神经网络模型,第一神经网络模型被训练成能够利用线性预测音频数据作为输入数据经过运算输出线谱对数据。
若将线谱频率数据作为输入数据时,步骤S20还包括对线谱对数据进行第二域变换后得到线谱频率数据,该变换过程与现有的音频编码方法中的变换过程一致。具体地,通过下述公式进行第二域变换:
ωi=arccos(qi),i=1,...,10
其中的ωi为线谱频率数据,qi为线谱对数据。
当然,可以理解的是,上述的第二域变换过程也可以为了减少运算量采用神经网络模型运算得到,例如,提供第二神经网络模型,第二神经网络模型被训练成能够利用线谱对数据作为输入数据经过运算输出线谱频率数据。
步骤S40中,根据所述音频关联数据确定量化后的线谱频率数据包括步骤:
S41、根据所述音频关联数据查找第一数据库,得到与所述音频关联数据对应的量化数据,所述第一数据库包括所述音频关联数据与所述量化数据的映射;
S42、根据所述量化数据得到所述量化后的线谱频率数据,其中,所述量化后的线谱频率数据为所述量化数据本身,或者为利用所述量化数据进一步查找至少一个数据库并经计算得到。即,根据神经网络模型输出的音频关联数据确定量化后的线谱频率数据的方式取决于查找的第一数据库,在一个实施例中,在第一数据库中查到的量化数据即为量化后的线谱频率数据,在另一个实施例中,第一数据库采用的是现有编码过程中使用的数据库,则在查找到量化数据后,需要利用量化数据再进一步查找数据库并经计算得到量化后的线谱频率数据。
下面以G729协议为例对上述问题做具体说明。
G729协议的矢量量化算法是预测分裂矢量量化,采用二级矢量量化器量化,第一级量化使用包括128个量化数据的10维矢量数据库(下称第二数据库),第二级量化使用包含32个量化数据的两个5维矢量数据库(下称第三数据库和第四数据库),对线谱频率数据的量化过程如下:
利用第二数据库对所述线谱频率数据进行一级量化得到一级量化数据;
利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据,具体地,将一级量化数据与线谱频率数据差值的高维部分(前五维)在第三数据库中进行搜索得到二级量化数据的高维部分(前五维),将一级量化数据与线谱频率数据差值的低维部分(后五维)在第四数据库中进行搜索得到二级量化数据的低维部分(后五维);
对所述二级量化数据进行重排和稳定性检查,得到量化后的线谱频率数据。
可以直接利用第二数据库作为前述的第一数据库,在这种情况下,根据神经网络模型输出的音频关联数据查找第一数据库得到的量化数据还需要进行后续的数据库查找过程(即前述的查找第三数据库和第四数据库)和计算过程(即前述的重排和稳定性检查)得到量化后的线谱频率数据。也可以重新构建第一数据库,使得根据神经网络模型输出的音频关联数据查找第一数据库得到的量化数据本身即为量化后的线谱频率数据。
步骤S50中,通过进行内插处理提高预测器密度,避免造成太大的失真,内插处理过程与现有编码方法中的处理过程一致,例如,经内插处理后的两子帧的量化后的线谱频率数据ωi由下式给出:
完成量化和差值后,需要将上述数据经第三域变换得到量化后的线性预测音频数据。该变换过程与现有的音频编码方法的变换过程一致。例如,首先根据如下公式将量化后的线谱频率数据变换为量化后的线谱对数据。
ωi=arccos(qi),i=1,...,10
然后利用下列递归关系式从qi求得f1(i)和f2(i)。
初始值为f1(0)=1,f1(-1)=0
f2(i)计算类似。
之后,F1(z)和F2(z)分别乘1+z-1和1-z-1得到F′1(z)和F′2(z),具体参见下述公式:
最后由下述公式计算得到量化后的线性预测音频数据:
步骤S60的后处理过程与现有的语音编码方法中的处理过程一致,例如,当采用G729协议时,后处理过程包括感知加权、开环音调分析、脉冲响应计算、目标信号计算、自适应数据库搜索、固定数据库搜索、增益量化和存储器的修正。
如图2所示,所述用于量化的神经网络模型的构建方法包括步骤:
S200、将标记音频关联数据的样本数据构建为训练样本,所述样本数据为线性预测音频数据、线谱对数据或线谱频率数据;
S300、将所述训练样本的样本数据输入初始神经网络模型,并将所述样本数据所标记的音频关联数据作为期望输出,训练所述初始神经网络模型,得到训练后的神经网络模型;
S400、对训练后的神经网络模型中的参数进行量化,得到所述用于量化的神经网络模型。
其中,步骤S200中的线性预测音频数据、线谱对数据、线谱频率数据可直接选用现成的数据库,或者在音频编码的历史数据中进行提取,优选地,收集不同语言、不同环境的语音数据,并按相应的音频编码协议进行数据运算得到线性预测音频数据、线谱对数据或线谱频率数据,例如,在一个具体的实施例中,包括在步骤S200之前执行的步骤:
S110、获取原始音频数据;
S120、对所述原始音频数据进行预处理;
S130、对预处理后的音频数据进行加窗和自相关计算得到自相关数据;
S140、根据所述自相关数据计算得到所述线性预测音频数据;
S150、对所述线性预测音频数据进行第一域变换得到所述线谱对数据;
S160、对所述线谱对数据进行第二域变换得到所述线谱频率数据;
S170、对所述线谱频率数据进行量化得到对应的音频关联数据;
S180、将所述音频关联数据标记至所述线性预测音频数据、所述线谱对数据或所述线谱频率数据以形成所述标记音频关联数据的样本数据。
初始神经网络模型可以选用深度神经网络模型或者卷积神经网络模型,例如,可以选用具有良好的特征提取和分类功能的卷积神经网络模型,在一个具体的实施例中,卷积神经网络模型包括输入层、第一卷积层、第二卷积层、全连接层和输出层,利用第一卷积层、第二卷积层能够对语音数据进行很好的特征提取,以利于全连接层进行分类并由输出层输出。第一卷积层例如可以使用10×5,第二卷基层例如可以使用5×128。
在前述的步骤S50中将量化数据本身作为量化后的线谱频率数据的实施例中,可在进行神经网络模型的训练过程的同时,进行第一数据库的构建,具体地,在步骤S170中,利用第二数据库对所述线谱频率数据进行一级量化得到一级量化数据,利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据,其中,所述第二数据库为包括129个量化数据的10维矢量数据库,所述第三数据库和所述第四数据库均为包括32个量化数据的5维矢量数据库。
其中,利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据的方法包括步骤:
S171、将所述一级量化数据与所述线谱频率数据做差得到差值数据;
S172、取所述差值数据的高维部分查找所述第三数据库得到所述二级量化数据的高维部分;
S173、取所述差值数据的低维部分查找所述第四数据库得到所述二级量化数据的低维部分。
对所述二级量化数据进行重排和稳定性检查,得到量化后的线谱频率数据,对所述量化后的线谱频率数据标记音频关联数据以形成样本数据,并利用标记有音频关联数据的所述量化后的线谱频率数据构建所述第一数据库。
本发明提供的音频编码方法可以采用任意需要执行前述的线性预测分析量化过程的音频编码协议,例如G729、G723、opus等。G729协议在8KBPS的压缩率下具有很高的语音质量和很低的延迟,被广泛应用在数据通信的各个领域,但G729在线性预测分析量化过程中数据的运算量很大,因此非常适于采用本发明的编码方法。
本发明还提供了一种基于神经网络的音频编码装置,如图3所示,音频编码装置包括:
预处理模块10,用于对原始音频数据进行预处理;
第一处理单元20,用于对预处理后的音频数据运算处理得到线性预测音频数据,或对所述线性预测音频数据进行第一域变换后得到线谱对数据;或对所述线谱对数据进行第二域变换后得到线谱频率数据;
第二处理单元30,存储有所述用于量化的神经网络模型,用于将所述线性预测音频数据或者所述线谱对数据或者所述线谱频率数据作为输入数据,输入所述用于量化的神经网络模型,得到音频关联数据;其中,所述用于量化的神经网络模型被训练成能够利用所述输入数据经过运算输出音频关联数据,所述音频关联数据用于确定量化后的线谱频率数据;
第三处理单元40,用于根据所述音频关联数据确定量化后的线谱频率数据;
第四处理单元50,用于将所述量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;
后处理模块60,用于根据所述量化后的线性预测音频数据、未量化的所述线性预测音频数据以及预处理后的音频数据进行运算处理,得到音频编码数据。
如此,在进行线性预测分析量化过程时,利用神经网络模型替换传统的量化运算,大大降低了运算量,另外,神经网络模型的大小比较灵活,可以根据具体的精度需求灵活调整神经网络的大小,以减少使用的数据带宽。例如,线谱频率数据为16位数据,用于量化的神经网络模型为8位数据,这样设置则不需要考虑数据溢出的问题,从而进一步减少运算量。
本发明提供的音频编码装置可以采用任意需要执行前述的线性预测分析量化过程的音频编码协议,例如G729、G723、opus等。G729协议在8KBPS的压缩率下具有很高的语音质量和很低的延迟,被广泛应用在数据通信的各个领域,但G729在线性预测分析量化过程中数据的运算量很大,因此非常适于采用本发明的编码装置。
进一步地,所述音频编码装置还包括构建模块,用于构建所述用于量化的神经网络模型,所述构建模块包括:
训练样本构建单元,用于将标记音频关联数据的样本数据构建为训练样本,所述样本数据为线性预测音频数据、线谱对数据或线谱频率数据;
训练单元,用于将所述训练样本的样本数据输入初始神经网络模型,并将所述样本数据所标记的音频关联数据作为期望输出,训练所述初始神经网络模型,得到训练后的神经网络模型;
量化单元,用于对训练后的神经网络模型中的参数进行量化,得到所述用于量化的神经网络模型。
初始神经网络模型可以选用深度神经网络模型或者卷积神经网络模型,例如,可以选用具有良好的特征提取和分类功能的卷积神经网络模型,在一个具体的实施例中,卷积神经网络模型包括输入层、第一卷积层、第二卷积层、全连接层和输出层,利用第一卷积层、第二卷积层能够对语音数据进行很好的特征提取,以利于全连接层进行分类并由输出层输出。第一卷积层例如可以使用10×5,第二卷基层例如可以使用5×128。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如上所述的音频编码方法。需要说明的是,本公开的实施例所述的计算机可读存储介质例如可以为电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本发明还提供了一种编码器,编码器采用上述的音频编码方法对音频数据进行编码。编码器可以是硬件电路,也可以是软件。
本发明还提供了一种音频处理芯片,音频处理芯片在进行音频编码时采用上述的音频编码方法。
本发明还提供了一种电子设备,其具有语音编码功能,包括上述的计算机可读存储介质、或者包括上述的编码器、或者包括上述的音频处理芯片。电子设备例如可以是需要进行语音识别的设备、具有语音存储播放功能的设备等。
本领域的技术人员能够理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。

Claims (15)

1.一种基于神经网络的音频编码方法,其特征在于,包括步骤:
S10、对原始音频数据进行预处理,得到预处理后的音频数据;
S20、对所述预处理后的音频数据进行运算处理得到线性预测音频数据;或对所述线性预测音频数据进行第一域变换后得到线谱对数据;或对所述线谱对数据进行第二域变换后得到线谱频率数据;
S30、将所述线性预测音频数据或者所述线谱对数据或者所述线谱频率数据作为输入数据,输入用于量化的神经网络模型,得到音频关联数据;其中,所述用于量化的神经网络模型被训练成能够利用所述输入数据经过运算输出音频关联数据,所述音频关联数据用于确定量化后的线谱频率数据;
S40、根据所述音频关联数据确定量化后的线谱频率数据;
S50、将所述量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;
S60、根据所述量化后的线性预测音频数据、未量化的所述线性预测音频数据以及所述预处理后的音频数据进行运算处理,得到音频编码数据。
2.根据权利要求1所述的基于神经网络的音频编码方法,其特征在于,所述步骤S40中,根据所述音频关联数据确定量化后的线谱频率数据包括步骤:
S41、根据所述音频关联数据查找第一数据库,得到与所述音频关联数据对应的量化数据,所述第一数据库包括所述音频关联数据与所述量化数据的映射;
S42、根据所述量化数据得到所述量化后的线谱频率数据,其中,所述量化后的线谱频率数据为所述量化数据本身,或者为利用所述量化数据进一步查找至少一个数据库并经计算得到。
3.根据权利要求1所述的基于神经网络的音频编码方法,其特征在于,所述线谱频率数据为16位数据,所述用于量化的神经网络模型为8位数据。
4.根据权利要求1所述的基于神经网络的音频编码方法,其特征在于,所述音频编码方法采用G729协议。
5.根据权利要求2所述的基于神经网络的音频编码方法,其特征在于,所述用于量化的神经网络模型的构建方法包括步骤:
S200、将标记音频关联数据的样本数据构建为训练样本,所述样本数据为线性预测音频数据、线谱对数据或线谱频率数据;
S300、将所述训练样本的样本数据输入初始神经网络模型,并将所述样本数据所标记的音频关联数据作为期望输出,训练所述初始神经网络模型,得到训练后的神经网络模型;
S400、对训练后的神经网络模型中的参数进行量化,得到所述用于量化的神经网络模型。
6.根据权利要求5所述的基于神经网络的音频编码方法,其特征在于,所述用于量化的神经网络模型的构建方法还包括所述步骤S200之前执行的步骤:
S110、获取原始音频数据;
S120、对所述原始音频数据进行预处理;
S130、对预处理后的音频数据进行加窗和自相关计算得到自相关数据;
S140、根据所述自相关数据计算得到所述线性预测音频数据;
S150、对所述线性预测音频数据进行第一域变换得到所述线谱对数据;
S160、对所述线谱对数据进行第二域变换得到所述线谱频率数据;
S170、对所述线谱频率数据进行量化得到对应的音频关联数据;
S180、将所述音频关联数据标记至所述线性预测音频数据、所述线谱对数据或所述线谱频率数据以形成所述标记音频关联数据的样本数据。
7.根据权利要求6所述的基于神经网络的音频编码方法,其特征在于,所述步骤S170中,利用第二数据库对所述线谱频率数据进行一级量化得到一级量化数据,利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据,对所述二级量化数据进行重排和稳定性检查,得到量化后的线谱频率数据,对所述量化后的线谱频率数据标记音频关联数据,并利用标记有音频关联数据的所述量化后的线谱频率数据构建所述第一数据库,其中,所述第二数据库包括129个量化数据10维矢量数据库,所述第三数据库和所述第四数据库均为包括32个量化数据的5维矢量数据库。
8.根据权利要求7所述的基于神经网络的音频编码方法,其特征在于,利用第三数据库和第四数据库对所述一级量化数据进行二级量化得到二级量化数据的方法包括步骤:
S171、将所述一级量化数据与所述线谱频率数据做差得到差值数据;
S172、取所述差值数据的高维部分查找所述第三数据库得到所述二级量化数据的高维部分;
S173、取所述差值数据的低维部分查找所述第四数据库得到所述二级量化数据的低维部分。
9.根据权利要求5所述的基于神经网络的音频编码方法,其特征在于,所述初始神经网络模型为深度神经网络模型或卷积神经网络模型。
10.一种基于神经网络的音频编码装置,其特征在于,所述音频编码装置包括:
预处理模块,用于对原始音频数据进行预处理;
第一处理单元,用于对预处理后的音频数据运算处理得到线性预测数据,或对所述线性预测音频数据进行第一域变换后得到线谱对数据;或对所述线谱对数据进行第二域变换后得到线谱频率数据;
第二处理单元,存储有用于量化的神经网络模型,用于将所述线性预测音频数据或者所述线谱对数据或者所述线谱频率数据作为输入数据,输入所述用于量化的神经网络模型,得到音频关联数据;其中,所述用于量化的神经网络模型被训练成能够利用所述输入数据经过运算输出音频关联数据,所述音频关联数据用于确定量化后的线谱频率数据;
第三处理单元,用于根据所述音频关联数据确定量化后的线谱频率数据;
第四处理单元,用于将所述量化后的线谱频率数据进行内插处理后经第三域变换得到量化后的线性预测音频数据;
后处理模块,用于根据所述量化后的线性预测音频数据、未量化的线性预测音频数据以及预处理后的音频数据进行运算处理,得到音频编码数据。
11.根据权利要求10所述的基于神经网络的音频编码装置,其特征在于,所述音频编码装置还包括构建模块,用于构建所述用于量化的神经网络模型,所述构建模块包括:
训练样本构建单元,用于将标记音频关联数据的样本数据构建为训练样本,所述样本数据为线性预测音频数据、线谱对数据或线谱频率数据;
训练单元,用于将所述训练样本的样本数据输入初始神经网络模型,并将所述样本数据所标记的音频关联数据作为期望输出,训练所述初始神经网络模型,得到训练后的神经网络模型;
量化单元,用于对训练后的神经网络模型中的参数进行量化,得到所述用于量化的神经网络模型。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-9任一项所述的音频编码方法。
13.一种编码器,其特征在于,所述编码器采用如权利要求1-9任一项所述的音频编码方法对音频数据进行编码。
14.一种音频处理芯片,其特征在于,所述音频处理芯片在进行音频编码时采用如权利要求1-9任一项所述的音频编码方法。
15.一种电子设备,其特征在于,所述电子设备包括如权利要求12所述的计算机可读存储介质、或者如权利要求13所述的编码器、或者如权利要求14所述的音频处理芯片。
CN202010296175.7A 2020-04-15 2020-04-15 基于神经网络的音频编码方法及装置、编码器 Active CN111899748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010296175.7A CN111899748B (zh) 2020-04-15 2020-04-15 基于神经网络的音频编码方法及装置、编码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010296175.7A CN111899748B (zh) 2020-04-15 2020-04-15 基于神经网络的音频编码方法及装置、编码器

Publications (2)

Publication Number Publication Date
CN111899748A CN111899748A (zh) 2020-11-06
CN111899748B true CN111899748B (zh) 2023-11-28

Family

ID=73207366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010296175.7A Active CN111899748B (zh) 2020-04-15 2020-04-15 基于神经网络的音频编码方法及装置、编码器

Country Status (1)

Country Link
CN (1) CN111899748B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN115638831B (zh) * 2022-12-21 2023-04-25 四川九通智路科技有限公司 基于mems传感器的公路设施风险监测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432883A (en) * 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
CN101145787A (zh) * 2006-09-13 2008-03-19 华为技术有限公司 一种矢量量化方法及矢量量化器
CN103093757A (zh) * 2012-01-17 2013-05-08 大连理工大学 一种窄带码流转换为宽带码流的转换方法
RU2504027C1 (ru) * 2012-07-03 2014-01-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ создания кодовой книги и поиска в ней при векторном квантовании данных
FR3018385A1 (fr) * 2014-03-04 2015-09-11 Georges Samake Methodes de compression audio additionnelles a tres bas debit utilisant la quantification vectorielle et la recherche du plus proche voisin
WO2015170899A1 (ko) * 2014-05-07 2015-11-12 삼성전자 주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
CN107077856A (zh) * 2014-08-28 2017-08-18 诺基亚技术有限公司 音频参数量化
CN110428846A (zh) * 2019-07-08 2019-11-08 清华大学 基于双向循环神经网络的网络语音流隐写分析方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432883A (en) * 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
CN101145787A (zh) * 2006-09-13 2008-03-19 华为技术有限公司 一种矢量量化方法及矢量量化器
CN103093757A (zh) * 2012-01-17 2013-05-08 大连理工大学 一种窄带码流转换为宽带码流的转换方法
RU2504027C1 (ru) * 2012-07-03 2014-01-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ создания кодовой книги и поиска в ней при векторном квантовании данных
FR3018385A1 (fr) * 2014-03-04 2015-09-11 Georges Samake Methodes de compression audio additionnelles a tres bas debit utilisant la quantification vectorielle et la recherche du plus proche voisin
WO2015170899A1 (ko) * 2014-05-07 2015-11-12 삼성전자 주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
CN107077856A (zh) * 2014-08-28 2017-08-18 诺基亚技术有限公司 音频参数量化
CN110428846A (zh) * 2019-07-08 2019-11-08 清华大学 基于双向循环神经网络的网络语音流隐写分析方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Single and multiple frame coding of LSF parameters using deep neural network and pyramid vector quantizer;Yaxing Li等;Speech Communication;全文 *
多带激励语音编码算法中矢量量化方案的设计;袁春 等;重庆邮电学院学报(自然科学版)(第03期);全文 *
神经网络矢量量化技术在语音编码中的应用;罗艳芬 等;计算机与现代化(第08期);全文 *
神经网络矢量量化的设计与实现;徐勇 等;长春邮电学院学报(第03期);全文 *

Also Published As

Publication number Publication date
CN111899748A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
Giacobello et al. Sparse linear prediction and its applications to speech processing
JP5551715B2 (ja) 信号の信号特性の変化を記載しているパラメータを得る装置、方法およびコンピュータプログラム
US8468017B2 (en) Multi-stage quantization method and device
EP2502231B1 (en) Bandwidth extension of a low band audio signal
RU2591021C2 (ru) Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp
CA2578610A1 (en) Voice encoding device, voice decoding device, and methods therefor
EP1796084A1 (en) Vector conversion device and vector conversion method
JPH03211599A (ja) 4.8kbpsの情報伝送速度を有する音声符号化/復号化器
RU2005137320A (ru) Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
WO2007070007A1 (en) A method and system for extracting audio features from an encoded bitstream for audio classification
CN111899748B (zh) 基于神经网络的音频编码方法及装置、编码器
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
CN116997962A (zh) 基于卷积神经网络的鲁棒侵入式感知音频质量评估
EP1495465B1 (en) Method for modeling speech harmonic magnitudes
JP2006171751A (ja) 音声符号化装置及び方法
WO2020141108A1 (en) Method, apparatus and system for hybrid speech synthesis
JP2000132194A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
CN100343895C (zh) 音频编码方法和装置,音频解码方法和装置
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
JP2011009861A (ja) 符号化方法、復号方法、符号化器、復号器、プログラム
JP3194930B2 (ja) 音声符号化装置
JP3186020B2 (ja) 音響信号変換復号化方法
CN116911251A (zh) 一种信息处理方法、装置及设备
CN116798401A (zh) 语音转换的方法、装置、处理设备及存储介质
Shin et al. Quantization Noise Masking in Perceptual Neural Audio Coder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 519075 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province

Applicant after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd.

Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province

Applicant before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant