CN115101088A - 音频信号恢复方法、装置、电子设备及介质 - Google Patents

音频信号恢复方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115101088A
CN115101088A CN202210648023.8A CN202210648023A CN115101088A CN 115101088 A CN115101088 A CN 115101088A CN 202210648023 A CN202210648023 A CN 202210648023A CN 115101088 A CN115101088 A CN 115101088A
Authority
CN
China
Prior art keywords
audio
frame
parameter
audio frame
pitch period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210648023.8A
Other languages
English (en)
Inventor
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202210648023.8A priority Critical patent/CN115101088A/zh
Publication of CN115101088A publication Critical patent/CN115101088A/zh
Priority to PCT/CN2023/098671 priority patent/WO2023236961A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种音频信号恢复方法、装置、电子设备及介质,属于通信技术领域。该方法包括:在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数;根据上述M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数;基于上述第一音频参数,得到第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,上述ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,上述基音周期是通过第一函数模型得到的。

Description

音频信号恢复方法、装置、电子设备及介质
技术领域
本申请属于通信技术领域,具体涉及一种音频信号恢复方法、装置、电子设备及介质。
背景技术
随着通信技术的发展,语音通信得到了广泛应用。目前,在当前基于IP的语音通信背景下,语音通常会被分割成较小的分组包或帧,并按一定时序进行传输。
在相关技术中,在通过网络传输语音数据包的过程中,由于实际通信信道下网络拥塞、抖动延迟等原因,通常会在传输过程中出现语音丢包现象。如此,导致语音通话质量较差,从而导致用户的通信满意度下降。
发明内容
本申请实施例的目的是提供一种音频信号恢复方法、装置、电子设备及介质,能够在音频信号的音频帧为错误音频帧的情况下,语音通话质量较差的技术问题。
第一方面,本申请实施例提供了一种音频信号恢复方法,该方法包括:在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数;根据M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数;基于第一音频参数,得到第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,上述ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,上述基音周期是通过第一函数模型得到的。
第二方面,本申请实施例提供了一种音频信号恢复装置,该装置包括:获取模块,确定模块和合成模块,其中:上述获取模块,用于在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数;上述确定模块,用于根据获取模块获取的M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数;上述合成模块,用于基于确定模块确定的第一音频参数,合成第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,上述ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,上述基音周期是通过第一函数模型得到的。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,音频信号恢复装置在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数,并根据上述M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数,然后,基于上述第一音频参数,得到第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,该ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,该基音周期是通过第一函数模型得到的。如此,音频信号恢复装置能够通过神经网络基于语音编码参数帧间的相关性预测错误音频帧的ISF参数,以及通过第一函数模型计算错误音频帧的基音周期,从而有效提升了现有错误隐藏算法的性能和鲁棒性,对错误码流仍然可以解码恢复出高质量的语音。
附图说明
图1为本申请实施例提供的音频信号恢复方法的方法流程图;
图2为本申请实施例提供的音频信号恢复方法的示意图之一;
图3为本申请实施例提供的音频信号恢复方法的示意图之二;
图4为本申请实施例提供的音频信号恢复方法的示意图之三;
图5为本申请实施例提供的音频信号恢复方法的示意图之四;
图6为本申请实施例提供的音频信号恢复方法的示意图之五;
图7为本申请实施例提供的音频信号恢复方法的示意图之六;
图8为本申请实施例提供的音频信号恢复装置的结构示意图;
图9为本申请实施例提供的电子设备的结构示意图;
图10为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频信号恢复方法进行详细地说明。
AMR-WB是3GPP于2001年3月制定的移动通信宽带语音编码标准,同时其也被ITU-T选定为有线通信的宽带语音编码标准,即ITU-T G.722.2。AMR-WB语音编码具有较高的自然度和可懂度,已被广泛应用于移动通信、VoIP、电视会议等领域。AMR-WB是一种基于ACELP的编码,该编码以代数码本作为激励信号源,具有合成语音质量高、编码速率低、抗噪性能强等优点。现有的基于ACELP编码的错误隐藏算法利用丢失语音帧编码参数的帧内与帧间的相关性来对丢包的语音帧参数进行恢复。然而,由于ACELP编码方法固有的较紧密的帧间相关性,使得一个完整语音帧信息的丢失不仅会对当前丢失帧的合成语音质量造成严重影响,还会影响其后连续的几帧甚至十几帧。ACELP编码的码流参数包括:导抗谱频率参数、基音周期、自适应码本增益、固定码本及其增益等。其中,导抗谱频率参数、基音周期以及自适应码本增益和固定码本增益的丢失都会降低合成语音质量。对于导抗谱频率参数(ISF/ISP),其表征的是语音信号的频谱包络信息,即声道模型参数,若丢失会使频谱发生较大的失真。对于基音周期,其描述的是声道模型的振动频率,由于自适应码本是在基音周期处内插过去的激励而得到的,因此,如果基音周期恢复不好,将会直接影响此后连续几帧的自适应码本,进而影响丢帧之后连续数帧的合成语音质量。对于自适应码本增益和固定码本增益,其表征的是激励信号的强度,若丢失会导致合成语音信号的幅度发生较大畸变。对于固定码本,其包含的是语音信号中的清音成分,主要用来表示不发声的语音信息,因此丢失后不会对语音质量造成很大影响,可以使用随机数替代。因此,如何能够更有效地恢复导抗谱频率参数、基音周期、自适应码本增益和固定码本增益等几个重要的参数便成为基于ACELP编码的语音错误隐藏算法的关键。
语音信号是一种短时平稳的准周期信号,这使得AMR-WB编码中的自适应码本增益和固定码本增益在相邻的语音帧之间存在着一定的相关性。现有的AMR-WB错误隐藏算法引入了错误隐藏状态机模型,在结合信道质量、语音帧类型,并充分利用相邻语音帧之间相关性的基础上,通过过去正确接收的语音帧编码参数较好的恢复了自适应码本增益和固定码本增益。但是,AMR-WB的错误隐藏算法对基音周期和ISF谱参数的恢复效果不够理想,存在如下缺陷:
(1).忽略了在不同环境下的语音信号本身在更大范围内具有某种统计学上的关联性,往往是集中在一个局部的信号的变化估计,因而在连续丢帧时,其恢复特征参数不准确,严重降低了合成语音的质量。
(2).针对复杂的应用环境,算法的鲁棒性比较差。
因此,如何高效恢复错误帧信号的基音周期和ISF谱参数是AMR-WB语音编码帧错误隐藏算法在实际应用中必须面对和解决的问题。
本申请实施例提供了一种音频信号恢复方法,该音频信号恢复方法可以应用于电子设备,图1示出了本申请实施例提供的音频信号恢复方法的流程图。如图1所示,本申请实施例提供的音频信号恢复方法可以包括如下步骤201至步骤203:
步骤201:音频信号恢复装置在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧。
其中,M为大于1的整数。
在本申请实施例中,上述第一音频信号为:语音信号。示例性地,在进行语音通信或者多媒体通信的情况下,上述第一音频信号可以为接收到的来自语音信号发送端的语音信号。
需要说明的是,在当前基于IP的语音通信背景下,语音通常会被分割成较小的分组包或帧,并按一定时序进行传输。但是,在实际通信信道下,由于网络拥塞、抖动延迟等原因,极大概率会出现语音丢包现象。
在本申请实施例中,可以通过解码端接收第一音频信号的编码码流,当解码端检测到编码码流在传输过程中发生丢包时,调用错误隐藏模块进行错误恢复。
可选地,上述编码端和错误隐藏模块可以以软件或者硬件,如芯片的形式集成在音频信号恢复装置。
在本申请实施例中,上述错误音频帧包括:接收但错误的音频帧和未被接收的音频帧,未被接收的语音帧即丢失的语音帧。示例性地,上述错误音频帧为接收到的一帧错误音频帧,或者,为第一音频信号的编码码流在传输过程中发生丢包后,未被接收到的某帧音频帧。
可以理解的是,本申请实施例中将未被接收到的音频帧以及接收到的错误音频帧统称为错误音频帧。
在本申请实施例中,上述第二音频帧为在接收第一音频帧之前接收的至少两个音频帧。示例性地,第一音频帧为第一音频信号的第n帧,则上述第二音频帧可以包括:第一音频信号的第n-1帧,第n-2帧,第n-3帧,…,第n-m帧。
例如,假设第二音频帧包括第一音频帧的前6帧,第一音频帧为第一音频信号的第7帧,则第二音频信号包括:第一音频信号的第6帧,第5帧,第4帧,第3帧,第2帧以及第1帧;再例如,假设第二音频帧包括第一音频帧的前6帧,第一音频帧为第一音频信号的第20帧,则第二音频信号包括:第一音频信号的第19帧,第18帧,第17帧,第16帧,第15帧以及第14帧。
步骤202:音频信号恢复装置根据上述M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数。
其中,在第一音频参数包括导抗谱频率ISF参数的情况下,该ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,该基音周期是通过第一函数模型得到的。
可选地,在本申请实施例中,所述第二音频参数包括导抗谱频率参数和目标参数;
所述目标参数包括以下至少一项:
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
示例性地,对于导抗谱频率参数(ISF/ISP),其表征的是语音信号的频谱包络信息,即声道模型参数,若丢失会使频谱发生较大的失真。示例性地,上述导抗谱频率参数可以为16阶ISF参数。
示例性地,VAD判决结果,即VADflag,该参数指示当前帧信号是否包含语音信号。例如,VADflag=1表示当前帧有语音,VADflag=0表示当前帧无语音。需要说明的是,可采用任一现有技术对一帧信号做VAD判决,本申请对此不作任何限定。
示例性地,谱倾斜,即,etilt,该参数表征了信号频谱的动态变化范围。该值越大,信号频谱的动态变化范围越小;该值越小,信号频谱的动态变化范围越大。
为了便于理解,本申请实施例中的音频参数也可以称为音频特征参数,即第二音频参数也可以称为第二音频特征参数。
可选地,在本申请实施例中,上述第一音频参数可以包括以下至少之一:ISF参数,基音周期,固定码本矢量,自适应码本增益,以及固定码本增益。
需要说明的是,基音周期描述的是声道模型的振动频率,由于自适应码本是在基音周期处内插过去的激励而得到的,因此,如果基音周期恢复较差,将会直接影响此后连续几帧的自适应码本,进而影响丢帧之后连续数帧的合成语音质量。
在一些可能的实施例中,在第一音频参数为第一音频帧的ISF参数的情况下,音频信号恢复装置可以基于该第一音频帧的前M帧的导抗谱频率参数,稳定性因子,语音活动检测VAD判决结果,以及谱倾斜参数,通过神经网络预测第一音频帧的第一音频参数。
可选地,上述神经网络包括以下任一项:深度神经网络DNN循环神经网络RNN以及卷积神经网络CNN等,上述神经网络还可以为其他神经网络,本申请实施例对此不做任何限定。
在另一些可能的实施例中,在第一音频参数为第一音频帧的基音周期的情况下,音频信号恢复装置可以根据第一音频帧的前N帧的基音周期,通过第一函数模型确定第一音频帧的基音周期。
如此,充分利用了语音编码参数帧内和帧间的相关性,有效提升了现有错误隐藏算法的性能和鲁棒性,使解码器对错误码流仍然可以解码恢复出高质量的语音。
步骤203:音频信号恢复装置基于第一音频参数,得到第一音频帧的音频信号。
在相关技术中,在调用错误隐藏模块进行错误恢复的情况下,可以使用状态机来确定错误音频帧的状态,并根据状态机状态来恢复编码参数,包括ISF参数、基音周期、固定码本矢量、自适应码本增益、固定码本增益。得到恢复的编码参数后,再使用AMR-WB解码器来合成语音。如图2所示为一种AMR-WB语音编码帧错误隐藏系统框图。
以下对使用状态机对错误音频帧的判决过程进行详细解释说明:
图3为AMR-WB帧错误隐藏状态机模型的示意图,在通过状态机模型进行状态判决时,将当前帧的错帧指示BFI和前一帧的错帧指示prevBFI同时作为输入量,根据两个输入量确定单前帧处于状态机模型中的何种状态。系统从状态0开始。每次检测到一个错误语音帧,状态计数器就加1,当它达到6时饱和。每次检测到一个正确语音帧,状态计数器就右移1。状态表示信道的质量:状态计数器的值越大,信道质量越差。
示例性地,状态机的控制流程可以用下面的C语言代码来描述,BFI=当前帧错帧指示,BFI=1为错误帧,BFI=0为正确帧,State=状态变量,prevBFI=前一帧错帧指示。
Figure BDA0003684762380000081
示例性地,在状态机模型判决时,可以分为以下几种情况:
情况1:BFI=0,prevBFI=0,State=0 or 1
具体地,当前接收或先前接收的语音帧中没有检测到错误。当前接收的正确语音帧被正常解码,并且语音帧解码后的参数被保存。
情况2:BFI=0,prevBFI=1,State=0 to 3
具体地,当前接收到的语音帧中没有检测到错误,但之前接收到的语音帧是错误的。当前正确接收帧的固定码本增益gc(n)参数会做修改,其被限制在最后一个正确接收帧的最后一个子帧所使用的固定码本增益gc(n-1)值以下,如式(1)所示:
Figure BDA0003684762380000091
式(1)中为当前正确接收帧解码的固定码本增益,gc(n-1)为最后一个正确接收帧的最后一个子帧的固定码本增益(BFI=0),gc(n)为当前帧的固定码本增益。其中,当前帧的其余编码参数正常解码并用于合成语音,同时编码参数被保存。
情况3:BFI=1,prevBFI=0 or 1,State=1 to 6
具体地,当前接收到的语音帧中检测到错误,调用错误隐藏恢复编码参数,包括:自适应码本增益、固定码本增益、ISF参数、基音周期、固定码本矢量。
以下对自适应码本增益和固定码本增益的恢复的过程进行详细说明。
自适应码本增益和固定码本增益恢复中使用的增益因子根据状态机状态确定,状态值越大,表示信道质量越差,衰减因子也越大。在AMR-WB错误隐藏算法中,自适应码本增益gp(n)和固定码本增益gc(n)由先前子帧的衰减值代替。
自适应码本增益gp(n)计算如下:
gp(n)=Pp(state)*median5(gp(n-1),...,gp(n-5)) (2)
式(2)中gp(n)为当前帧的自适应码本增益,gp(n-1),...,gp(n-5)为过去5个子帧的自适应码本增益。Pp(state)为抑制因子,state为当前状态机模型的状态,Pp(1)=0.98,Pp(2)=0.96,Pp(3)=0.75,Pp(4)=0.23,Pp(5)=0.05,Pp(6)=0.01,状态值越高,增益衰减得越多。median5(gp(n-1),...,gp(n-5)表示过去5个自适应码本增益gp(n)数值的中间值。
固定码本增益gc(n)计算如下:
Figure BDA0003684762380000101
式(3)中gc(n)为当前帧的固定码本增益,gc(n-1),...,gc(n-5)为过去5个子帧的固定码本增益。VAD_HIST是连续VAD=0判决的数量,VAD=0表示当前帧为非语音帧。Pc(state)为抑制因子,state为当前状态机模型的状态,Pc(1)=0.50,Pc(2)=0.25,Pc(3)=0.25,Pc(4)=0.25,Pc(5)=0.15,Pc(6)=0.01,状态值越高,增益衰减得越多。median5(gc(n-1),...,gc(n-5)表示过去5个固定码本增益gc(n)数值的中间值。
以下对进行ISF矢量参数的恢复的过程进行说明。
AMR-WB标准使用的谱系数是16阶ISF参数。在发生帧错误时,错误帧ISF参数的估计值通过ISF参数的自适应平均值插值得到,其计算如式(4)所示:
ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i) (4)
式(4)中i=0,…15,α=0.9,ISFq(i)为当前帧的ISF矢量参数,past_ISFq(i)为前一帧的ISF矢量参数,ISFmean(i)表示自适应均值和常量ISF的加权值,其计算如式(5)所示:
ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i) (5)
式(5)中i=0,…15,=0.75,ISFconst_mean(i)是一个包含长时间平均ISF的矢量。ISFadaptive_mean(i)是最近3个正确接收帧的past_ISFq(i)的平均值,只有当BFI=0时(即正确接收帧),才更新,其计算如式(6)所示:
Figure BDA0003684762380000102
以下对进行基音周期参数的恢复的过程进行说明。
5个最后正确接收语音帧的基音周期和自适应码本增益分别被存入缓冲buffer,令其分别为Tbuffer和
Figure BDA0003684762380000103
它们将用于寻找当前帧最佳的基音周期。基音周期恢复算法首先对过去子帧基音周期的可用性进行判断,如果浊音性和稳定性强,说明该错误帧和过去帧比较变化不大,丢失帧的基音周期可以用过去一帧的代替;否则,该错误帧的基音周期值在一定范围内随机产生。基音周期参数恢复算法分为如下两步:
步骤1:计算过去基音周期可用性因子Qlag_t-1,其定义如式(7)所示:
Figure BDA0003684762380000111
式(7)中
Figure BDA0003684762380000112
代表自适应码本增益缓冲buffer中的最小值,gp(n-1)表示前一个正确接收帧的自适应码本增益,gp(n-2)是前一个正确接收帧之前的正确帧的自适应码本增益。
步骤2:估计当前帧基音周期T。步骤1得到Qlag_t-1后,当前帧基音周期T计算如下:
Figure BDA0003684762380000113
式(8)中T(n-1)为前一个正确接收帧的基音周期,Tmax=max(Tbuffer),其定义为基音周期缓冲buffer中的最大值,Tmax-1为基音周期缓冲buffer中的第二大值,Tmax-2为基音周期缓冲buffer中的第三大值。RND(x)定义为一个随机数生成函数,其用于生成
Figure BDA0003684762380000114
范围内的一个随机数。
以下对进行固定码本矢量的恢复的过程进行说明。
具体地,可以将错误帧的固定码本矢量由随机产生的序列代替。
可选地,在本申请实施例中,音频信号恢复装置在确定该第一音频帧的第一音频参数后,可以基于该第一音频参数以及该第一音频帧的其他音频参数再使用AMR-WB解码器来合成语音。AMR-WB解码器原理框图如图4所示,解码器首先把接收到的编码比特流恢复成参数编码,解码后得到20ms语音帧对应的编码参数。这些参数为:ISF参数、4个基音周期、4个固定码本矢量、4个自适应码本增益、4个固定码本增益。每帧ISF参数被转换为ISP参数,然后内插并转换得到4个子帧的LPC合成滤波器系数,然后每5ms子帧按下面的步骤执行:
步骤1a:在基音周期处内插过去的激励而得到自适应码本,并将自适应码本乘以自适应码本增益得到自适应码本激励v(n)。
步骤2a:固定码本乘以固定码本增益得到固定码本激励c(n)。
步骤3a:将自适应码本激励和固定码本激励相加得到总激励信号u(n),然后通过LPC合成滤波器得到合成语音。
示例性地,在第一音频参数为ISF参数的情况下,在确定第一音频帧的ISF参数的情况下,音频信号恢复装置可以基于该ISF参数,以及第一音频帧的自适应码本增益、固定码本增益、基音周期以及固定码本矢量,合成第一音频帧的语音信号。
在本申请实施例提供的音频信号恢复方法中,音频信号恢复装置在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前的M个第二音频帧;M为大于1的整数,并根据上述M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数,然后,基于上述第一音频参数,得到第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,该ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,该基音周期是通过第一函数模型得到的。如此,音频信号恢复装置能够通过神经网络基于语音编码参数帧间的相关性预测错误音频帧的ISF参数,以及通过第一函数模型计算错误音频帧的基音周期,从而有效提升了现有错误隐藏算法的性能和鲁棒性,对错误码流仍然可以解码恢复出高质量的合成语音。
可选地,在本申请实施例中,上述第一音频参数包括导抗谱频率ISF参数;上述步骤202可以包括以下步骤202a1和步骤202a2:
步骤202a1:音频信号恢复装置提取每个第二音频帧的音频特征,得到每个第二音频帧对应的第二音频参数。
步骤202a2:音频信号恢复装置将上述M个第二音频帧中每个第二音频帧对应的第二音频参数输入深度神经网络预测第一音频帧的ISF参数。
其中,第二音频参数包括:与上述第一音频参数相关的至少一个第二音频参数。
可选地,上述第二音频参数可以包括导抗谱频率参数和目标参数;
上述目标参数包括以下至少一项:
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
示例性地,以第一音频帧为第一音频信号的第n+1帧为例,第二音频帧可以为该第一音频信号的第n帧,n-1帧、…、n-L,其中,n为正整数,L为小于n的正整数,音频信号恢复装置可以通过特征提取模块获取上述第n帧,n-1帧、…、n-L中每帧音频帧的导抗谱频率参数、稳定性因子、VAD判决结果以及谱倾斜参数。
示例地,稳定性因子可以用θ表示,该值越大则代表相邻帧ISF参数变化越小,信号越平稳;该值越小则代表相邻帧ISF参数变化越大,信号非平稳性越强。稳定性因子的定义如式(9)、式(10)所示:
Figure BDA0003684762380000131
θ=1.25-Ds/400000.0 (10)
式(9)计算相邻帧ISF参数的距离Ds,其中ISFn(i)表示第n帧ISF参数,ISFn-1(i)表示第n-1帧ISF参数。
示例地,谱倾斜的定义如式(11)所示:
Figure BDA0003684762380000132
式(11)中N代表子帧长度,s(m)代表语音信号样本点。AMR-WB中一帧信号的长度为20ms,其被分为4个子帧,每个子帧的长度为5ms。计算时,每个子帧信号计算1个谱倾斜参数。因此,针对一帧信号,可以得到4个谱倾斜参数,令其分别为etilt(0)、etilt(1)、etilt(2)、etilt(3)。
示例性地,音频信号恢复装置可以将提取到的每帧音频帧的上述音频参数输入至训练好的神经网络,来预测第一音频帧的ISF参数。
示例性地,上述神经网络可以为DNN神经网络。
需要说明的是,DNN神经网络是一种单向传播的多层前向网络,其能够高效的对复杂数据进行抽象和建模。DNN神经网络拓扑结构分为三类,输入层、隐藏层和输出层。通常,第一层是输入层,最后一层是输出层,中间层都是隐藏层。各层神经元之间实现全连接,而相同层神经元之间无连接。
示例性地,音频信号恢复装置可以采用DNN网络用过去帧的ISF参数来预测错误帧的ISF参数。DNN网络的输入为超帧特征向量,输出为预测的一帧的ISF参数。针对一帧信号,需要提取的特征参数可以包括:16阶ISF参数、稳定性因子θ、VAD判决结果VADflag、谱倾斜etilt。需要说明的是,关于上述特征参数的解释具体可以参见上文,此处不再赘述。
以下通过具体的实施例对采用DNN网络预测第一音频帧的ISF参数的过程进行详细说明。
图5为本申请实施例提供的基于深度学习的ISF参数恢复流程图,假定第n帧、n-1帧、…、n-L帧为正确接收语音帧,第n+1帧语音帧丢失。
针对第一音频信号帧之前的第n帧语音信号,特征提取模块计算一组22维的特征矢量Fn,定义为:
Fn={ISF(0),ISF(1),...,ISF(15),θ,VADflag,etilt(0),etilt(1),etilt(2),etilt(3)} (12)
需要说明的是,语音信号是有时序的“序列化”数据,前后信号是有关联的。为了能充分利用其上下文相关性,DNN模型采用拼帧来考虑上下文相关信息对于当前帧的影响。同时,为了不引入额外的时延,在拼帧时,仅使用当前帧之前的语音帧,不使用当前帧之后的语音帧。
具体地,假定第n+1帧语音帧丢失,第n帧、n-1帧、…、n-L帧为正确接收语音帧。在使用DNN模型预测第n+1帧语音帧的ISF参数时,首先将第n帧、n-1帧、…、n-L帧的每一帧的特征参数矢量组成一个超帧特征向量FINn作为DNN模型的输入,FINn表示如下:
FINn={Fn-L,Fn-(L-1),...,Fn-1,Fn} (13)
然后,将超帧特征向量FINn输入DNN模型,DNN模型的输出为第n+1帧预测的ISF参数ISFn+1,即
Figure BDA0003684762380000141
可选地,音频信号恢复装置也可以将上述M个第二音频帧中每个第二音频帧对应的第二音频参数输入循环神经网络RNN来预测第一音频帧的ISF参数。
以下通过具体的实施例对采用RNN预测第一音频帧的ISF参数的过程进行说明。
图6为本申请实施例提供的基于RNN的ISF参数恢复流程图,假定第n帧为正确接收语音帧,第n+1帧语音帧丢失。
针对第一音频信号帧之前的第n帧语音信号,特征提取模块计算一组22维的特征矢量Fn,将该特征矢量Fn输入至RNN,RNN的输出为第n+1帧预测的ISF参数ISFn+1
可选地,音频信号恢复装置也可以将上述M个第二音频帧中每个第二音频帧对应的第二音频参数输入卷积神经网络CNN来预测第一音频帧的ISF参数。
以下通过具体的实施例对采用CNN预测第一音频帧的ISF参数的过程进行说明。
图7为本申请实施例提供的基于CNN的ISF参数恢复流程图。假定第n+1帧语音帧丢失,第n帧、n-1帧、…、n-L帧为正确接收语音帧。
在使用CNN模型预测第n+1帧语音帧的ISF参数时,首先将第n帧、n-1帧、…、n-L帧的每一帧的特征参数矢量组成一个超帧特征向量FINn作为CNN模型的输入,CNN模型的输出为Cn,其表征了前L帧特征参数的相关性,然后再将Cn作为DNN模型的输入,其输出即为第n+1帧的ISF特征ISFn+1
在本申请实施例提供的音频信号恢复方法中,采用神经网络建立了从过去接收帧的ISF参数来预测错误帧ISF参数的非线性映射,能够对非线性系统进行高效建模的能力,从而在各种复杂的环境下均可有效估计错误帧ISF参数。
可选地,在本申请实施例中,上述步骤203之后,本申请实施例提供的音频信号恢复方法还包括以下步骤204和步骤205:
步骤204:音频信号恢复装置从第一音频帧的音频信号中提取第一音频帧的音频特征,得到上述第一音频帧对应的第三音频参数。
步骤205:音频信号恢复装置基于第一音频帧对应的第三音频参数和M个第二音频帧中的目标第二音频帧对应的第二音频参数,确定第三音频帧的第四音频参数。
其中,上述第三音频帧为:上述第一音频信号中在上述第一音频帧之后接收的错误音频帧。
可选地,上述第三音频参数可以包括:
导抗谱频率参数;
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
示例性地,上述第二目标音频帧包括:第二音频帧中的一个或者多个音频帧。
可选地,上述第四音频参数可以包括:ISF参数。
在一些可能的实施例方式中,在第一音频信号发生连续丢帧的情况下,假定第n+1帧、n+2帧、n+3帧、…、n+m帧均丢失,则可以对ISF参数采用逐帧恢复法,即先恢复第n帧ISF参数,然后恢复第n+1帧ISF参数,依次循环直至恢复第n+m帧ISF参数。具体步骤如下:
步骤11:首先将第n帧、n-1帧、…、n-L帧的每一帧的特征参数矢量组成一个超帧特征向量作为DNN模型的输入,DNN模型的输出为第n+1帧的ISF预测参数ISFn+1
步骤12:恢复第n+1帧其它编码参数,并合成第n+1帧语音。
步骤13:将第n+1帧恢复语音输入特征提取模块,提取本帧的特征矢量。
步骤14:将第n+1帧、n帧、n-1帧、…、n-(L-1)帧的每一帧的特征参数矢量组成一个超帧特征向量FINn+1作为DNN模型的输入,DNN模型的输出为第n+2帧的ISF预测参数ISFn+2。其中,FINn+1的定义如下:
FINn+1={Fn+1,Fn,...,Fn-(L-2),Fn-(L-1)} (14)
步骤15:重复步骤12到14,直至合成第n+m帧语音。
如此,在第一音频信号发生连续丢帧的情况下,音频信号恢复装置可以基于恢复的每个音频帧的多个不同音频参数,来依次恢复后续未恢复的丢失的语音帧的ISF参数,直至恢复所有丢失的语音帧的ISF参数,相比于相关技术中集中在一个局部的信号的变化估计,在发生连续丢帧时,有效提高恢复特征参数的准确性,从而提高合成语音的质量。
可选地,在本申请实施例中,上述第一音频参数包括:基音周期;上述步骤202可以包括以下步骤202b1至步骤202b4:
步骤202b1:音频信号恢复装置获取预设函数模型。
步骤202b2:音频信号恢复装置将M个第二音频帧中每个第二音频帧对应的基音周期输入上述预设函数模型,得到预设函数模型的模型信息。
步骤202b3:音频信号恢复装置基于预设函数模型的模型信息,得到第一函数模型;
步骤202b4:音频信号恢复装置通过第一函数模型和第一音频帧的帧序列信息,得到上述第一音频帧的基音周期。
其中,上述M个第二音频帧为:在上述第一音频帧之前接收的M个正确的音频帧。
可选地,上述预设函数模型的模型信息可以为预设函数模型的参数信息。
可选地,上述第一音频帧的帧序列信息为该第一音频帧在多个音频帧中所处的时间序列信息。示例性地,该第一音频帧为第一音频信号的第N+1个数据采样点对应的音频帧,则第一音频帧的帧序列信息为N+1。
示例性地,假定当前第一音频帧的时间为n,令过去N个正确接收子帧的基音周期分别为Tn-N,Tn-(N-1),…,Tn-1,构造N个形如(t,y)数据点:(1,Tn-N)、(2,Tn-(N-1))、…,(N,Tn-1)。假定第一音频帧的基音周期为TN,则可以通过已知的N个数据采样点(1,Tn-N)、(2,Tn-(N-1))、…,(N,Tn-1),估计当前丢失的第N+1个数据采样点(N+1,Tn)。
为了得到时间t和观测值基音周期T之间的关系,本申请实施例使用如下函数模型:
y=b0+b1t (15)
并建立如下准则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。基于上述函数模型和参数估计准则,可以选择最小二乘法准则来进行参数估计。将函数模型写成矩阵形式,定义如下:
Figure BDA0003684762380000181
其中,式(16)中的
Figure BDA0003684762380000182
进一步地,解上述方程组(16)可以得到:
Figure BDA0003684762380000183
Figure BDA0003684762380000184
其中,
Figure BDA0003684762380000185
为t值的算术平均值。
Figure BDA0003684762380000186
为y值的算术平均值。
进一步地,计算得到参数b0、b1,即上述预设函数模型的参数信息后,第n帧的基音周期Tn可以通过以下公式(19)计算得到:
Tn=b0+b1(N+1) (19)
如此,在当前的第一音频帧丢失或者为错误音频帧的情况下,音频信号恢复装置可以根据在该第一音频帧之前接收的,即过去接收的多个正确音频帧帧的基音周期的变化规律,拟合出基音周期全局变化规律,并根据该基音周期全局变化规律,计算出该第一音频帧的基音周期,从而有效提高恢复基音周期的准确性。
进一步可选地,上述步骤202b4之后,本申请实施例提供的音频信号恢复方法还包括以下步骤202c:
步骤202c:音频信号恢复装置基于第一音频帧的基音周期和预设参数,确定第四音频帧的基音周期。
其中,上述第四音频帧为第一音频信号中在第一音频帧之后接收的错误音频帧。
示例性地,上述预设参数可以为预设周期。例如,上述预设参数可以为1/4或者1/2。
示例性地,在发生连续丢帧的情况下,音频信号恢复装置可以基于当前恢复的第一音频帧的基音周期,确定该第一音频帧后续丢失的音频帧的基音周期。
具体地,以预设参数为1/4为例。假定丢失的第一帧为第n帧,从丢失的第二帧开始,下一帧基音周期为:在当前帧基音周期的数值上增加1/4得到的基音周期。即假定第n帧、n+1帧、n+2帧、…、n+m帧均丢失,其对应的基音周期分别为Tn,Tn+1,…,Tn+m,则第n+1帧,第n+2帧,…,第n+m帧的基音周期如式(20)所示:
Tn+1=Tn+1/4
Tn+2=Tn+1+1/4
……
Tn+m=Tn+(m-1)+1/4 (20)
其中,第n帧的基音周期Tn由式(19)计算得到,并且基音周期满足T<PIT_MAX。PIT_MAX=231为AMR-WB标准中规定的最大基音周期。
在本申请实施例提供的音频信号恢复装置中,提出了基于最小二乘法的基音周期参数恢复方法,该方法利用了基音周期的全局参考轨迹,提高了基音周期参数恢复的准确性。
以下通过具体的实施例对本申请实施例提供的音频信号恢复方法进行说明。
示例性地,假定一段16kHz采样宽带语音信号通过AMR-WB编码器编码,AMR-WB编码器的编码码率设定为12.65kbit/s。假定解码端已正确接收第1、2、……、100帧,第101帧丢失。同时,假定第90帧、91帧、……、100帧的VADflag=1,即它们都包含语音信号。此时,解码器调用错误隐藏模块恢复第101帧语音信号。音频信号恢复方法执行步骤如下:
步骤1:状态机模型状态判决
由于状态机从状态0开始,而之前100帧均正确接收,因此状态机在100帧之前一直处于状态0。当前帧101帧发生错误,前一帧100帧被正确接收,因此BFI=1,prevBFI=0。此时,状态机从状态0跳转到状态1。
步骤2:固定码本增益的恢复
根据上述公式(3),当前帧的固定码本增益gc(n)的恢复,需要gc(n-1),...,gc(n-5)过去5个子帧的固定码本增益。针对本例,当前帧为101帧,过去5个子帧的固定码本增益分别为:
Figure BDA0003684762380000201
99、100代表帧索引,0、1、2、3分别代表一帧信号中4个子帧的索引。例如,
Figure BDA0003684762380000202
代表第99帧信号的第3个子帧的固定码本增益。
已假定第90帧、91帧、……、100帧的VADflag=1,即它们都包含语音信号。因此,由于状态机位于状态1,因此Pc(state)=Pc(1)=0.5。
当前帧固定码本增益gc(n)计算如下:
Figure BDA0003684762380000203
式(21)中
Figure BDA0003684762380000204
表示
Figure BDA0003684762380000205
Figure BDA0003684762380000206
这5个数的中值。
步骤3:自适应码本增益的恢复
根据公式(2),当前帧的自适应码本增益gp(n),需要gp(n-1),...,gp(n-5)过去5个子帧的自适应码本增益。示例地,当前帧为101帧,过去5个子帧的自适应码本增益分别为:
Figure BDA0003684762380000207
99、100代表帧索引,0、1、2、3分别代表一帧信号中4个子帧的索引。由于状态机位于状态1,因此Pc(state)=Pc(1)=0.98。
当前帧固定码本增益gp(n)计算如下:
Figure BDA0003684762380000208
式(22)中
Figure BDA0003684762380000211
表示
Figure BDA0003684762380000212
Figure BDA0003684762380000213
这5个数的中值。
步骤4:ISF矢量参数的恢复
在采用DNN网络使用过去接收帧的ISF参数来预测错误帧的ISF参数的情况下,本步骤包括特征提取和ISF参数预测两步。
(1).特征提取
针对第n帧语音信号,特征提取模块计算一组22维的特征矢量,表1示出了各个特征名称和维数:
特征名称 特征维数
ISF参数 16
稳定性因子θ 1
VAD判决结果VADflag 1
谱倾斜e<sub>tilt</sub> 4
表1特征名称和维数
其中,一帧22维的特征矢量Fn定义如下:
Fn={ISF(0),ISF(1),...,ISF(15),θ,VADflag,etilt(0),etilt(1),etilt(2),etilt(3)}
为了能充分利用其上下文相关性,DNN模型采用拼帧来考虑上下文相关信息对于当前帧的影响。针对本实现,拼帧的长度L=15。当前帧为101帧,需要将第100帧、99帧、…、86帧、85帧,一共16帧每一帧的特征参数矢量组成一个超帧特征向量作为DNN模型的输入,FIN100定义如下:
FIN100={F85,F86,...,F99,F100} (23)
其中,FIN100的特征维度为22*16=352。
(2).ISF参数预测
示例地,DNN模型的输入为超帧特征向量FIN100,模型的输出为第101帧预测的16维ISF参数ISF101,即
Figure BDA0003684762380000214
示例地,DNN神经网络的超参数设置如表2所示:
Figure BDA0003684762380000215
Figure BDA0003684762380000221
表2 DNN神经模型的超参数
步骤5:基于最小二乘法的基音周期参数的恢复
示例地,音频信号恢复装置可以采用过去6个正确接收子帧的基音周期来估计当前帧的基音周期。当前帧为101帧,过去6个子帧的基音周期为:T99(2)、T99(3)、T100(0)、T100(1)、T100(2)、T100(3)。99、100代表帧索引,0、1、2、3分别代表一帧信号中4个子帧的索引。例如,T99(2)表示代表第99帧信号的第2个子帧的基音周期。上述步骤5分为以下4步:
步骤A1:构造6个形如(t,y)数据点:(1,T99(2))、(2,T99(3))、(3,T100(0))、(4,T100(1))、(5,T100(2))、(6,T100(3)),其中t1=1,t2=2,t3=3,t4=4,t5=5,t6=6;y1=T99(2),y2=T99(3),y3=T100(0),y4=T100(1),y5=T100(2),y6=T100(3)。
步骤A2:计算
Figure BDA0003684762380000222
Figure BDA0003684762380000223
Figure BDA0003684762380000224
Figure BDA0003684762380000225
步骤A3:计算b0和b1
Figure BDA0003684762380000226
Figure BDA0003684762380000227
上式中
Figure BDA0003684762380000228
Figure BDA0003684762380000229
如式(24)和式(25)所示。
步骤A4:计算第101帧的基音周期T101
T101=b0+7b1 (28)
步骤6:固定码本矢量的恢复
错误帧的固定码本矢量由随机产生的序列代替。
步骤7:合成语音
得到恢复的编码参数后,根据图4所示的AMR-WB解码器原理框图来合成语音。首先每帧ISF参数被转换为ISP参数,然后内插并转换得到4个子帧的LPC合成滤波器系数,然后每5ms子帧按下面的步骤B1至步骤B3来执行:
步骤B1:在基音周期处内插过去的激励而得到自适应码本,并将自适应码本乘以自适应码本增益得到自适应码本激励v(n)。
步骤B2:固定码本乘以固定码本增益得到固定码本激励c(n)。
步骤B3:将自适应码本激励和固定码本激励相加得到总激励信号u(n),然后通过LPC合成滤波器得到合成语音。
在本申请实施例提供的音频信号恢复方法中,充分利用了语音编码参数帧内和帧间的相关性,有效提升了现有错误隐藏算法的性能和鲁棒性,使解码器对错误码流仍然可以解码恢复出高质量的合成语音。同时,本申请实施例提供的音频信号恢复方法还具有以下优势:第一,可以是基于接收端,作为解码端的后处理模块不需要修改编码器,也不需要修改编码比特流语法格式,具有较好的兼容性和广泛的适用性。第二,本申请中基于最小二乘法的基音周期参数恢复方法和基于深度学习的ISF参数恢复方法,不仅适用于AMR-WB编码的错误隐藏算法,而且还适用于其它基于CELP/ACELP编码的错误隐藏算法,例如ITU-TG.729、ITU-T G.723.1、3GPP AMR、3GPP EVS、3GPP AMR-WB+、AVS-P10等,具有广泛的适用性。
需要说明的是,本申请实施例提供的音频信号恢复方法,执行主体可以为音频信号恢复装置,或者该音频信号恢复装置中的用于执行音频信号恢复方法的控制模块。本申请实施例中以音频信号恢复装置执行音频信号恢复方法为例,说明本申请实施例提供的音频信号恢复装置。
本申请实施例提供一种音频信号恢复装置,如图8所示,该音频信号恢复装置600包括:获取模块601,确定模块602和合成模块603,其中:上述获取模块601,用于在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数;上述确定模块602,用于根据上述获取模块601获取的M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数;上述合成模块603,用于基于确定模块确定502的第一音频参数,合成第一音频帧的音频信号;
其中,在第一音频参数包括导抗谱频率ISF参数的情况下,上述ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,上述基音周期是通过第一函数模型得到的。
可选地,在本申请实施例中,上述第一音频参数为:导抗谱频率ISF参数;
上述获取模块,还用于提取每个第二音频帧的音频特征,得到每个第二音频帧的第二音频参数;上述确定模块,具体用于将M个第二音频帧中每个第二音频帧对应的第二音频参数输入深度神经网络预测第一音频帧的ISF参数;其中,上述第二音频参数包括:与第一音频参数相关的至少一个第二音频参数。
可选地,在本申请实施例中,上述第二音频参数包括导抗谱频率参数和目标参数;上述目标参数包括以下至少一项:
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
可选地,在本申请实施例中,上述确定模块,还用于从第一音频帧的音频信号中提取第一音频帧的音频特征,得到第一音频帧对应的第三音频参数;
上述确定模块,还用于基于第一音频帧对应的第三音频参数和M个第二音频帧中的目标第二音频帧对应的第二音频参数,确定第三音频帧的第四音频参数;其中,上述第三音频帧为:第一音频信号中在第一音频帧之后的错误音频帧。
可选地,在本申请实施例中,上述第一音频参数包括:基音周期;上述装置还包括:处理模块;上述获取模块,还用于获取预设函数模型;上述处理模块,用于将M个第二音频帧中每个第二音频帧对应的基音周期输入预设函数模型,得到预设函数模型的模型信息;上述处理模块,还用于基于预设函数模型的模型信息,得到第一函数模型;上述确定模块,具体用于通过上述第一函数模型和第一音频帧的帧序列信息,得到第一音频帧的基音周期。
可选地,在本申请实施例中,上述确定模块,还用于根据第一函数模型和第一音频帧的帧序列信息,得到第一音频帧的基音周期之后,基于第一音频帧的基音周期和预设参数,确定第四音频帧的基音周期;
其中,第四音频帧为第一音频信号中在第一音频帧之后接收的错误音频帧。
在本申请实施例提供的音频信号恢复装置中,音频信号恢复装置在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前的M个第二音频帧;M为大于1的整数,并根据上述M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数,然后,基于上述第一音频参数,得到第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,该ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,该基音周期是通过第一函数模型得到的。如此,音频信号恢复装置能够通过神经网络基于语音编码参数帧间的相关性预测错误音频帧的ISF参数,以及通过第一函数模型计算错误音频帧的基音周期,从而有效提升了现有错误隐藏算法的性能和鲁棒性,对错误码流仍然可以解码恢复出高质量的合成语音。
本申请实施例中的音频信号恢复装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的音频信号恢复装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的音频信号恢复装置能够实现图1至图7的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选的,如图9所示,本申请实施例还提供一种电子设备700,包括处理器701,存储器702,存储在存储器702上并可在所述处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现上述音频信号恢复方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图10为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,上述处理器110,用于在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数;上述处理器110,还用于根据上述获取模块401获取的M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数;上述处理器110,还用于基于第一音频参数,合成第一音频帧的音频信号;
其中,在第一音频参数包括导抗谱频率ISF参数的情况下,上述ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,上述基音周期是通过第一函数模型得到的。
可选地,在本申请实施例中,上述第一音频参数为:导抗谱频率ISF参数;
上述处理器110,还用于提取每个第二音频帧的音频特征,得到每个所述第二音频帧的第二音频参数;上述处理器110,具体用于将M个第二音频帧中每个第二音频帧对应的第二音频参数输入深度神经网络预测第一音频帧的ISF参数;其中,上述第二音频参数包括:与第一音频参数相关的至少一个第二音频参数。
可选地,在本申请实施例中,上述第二音频参数包括导抗谱频率参数和目标参数;上述目标参数包括以下至少一项:
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
可选地,在本申请实施例中,上述处理器110,还用于从第一音频帧的音频信号中提取第一音频帧的音频特征,得到第一音频帧对应的第三音频参数;
上述处理器110,还用于基于第一音频帧对应的第三音频参数和M个第二音频帧中的目标第二音频帧对应的第二音频参数,确定第三音频帧的第四音频参数;其中,上述第三音频帧为:第一音频信号中在第一音频帧之后的错误音频帧。
可选地,在本申请实施例中,上述第一音频参数包括:基音周期;上述处理器110,还用于获取预设函数模型;上述处理器110,用于将M个第二音频帧中每个第二音频帧对应的基音周期输入预设函数模型,得到预设函数模型的模型信息;上述处理器110,还用于基于预设函数模型的模型信息,得到第一函数模型;上述处理器110,具体用于通过上述预设函数模型和第一音频帧的帧序列信息,得到第一音频帧的基音周期。
可选地,在本申请实施例中,上述处理器110,还用于根据第一函数模型和第一音频帧的帧序列信息,得到第一音频帧的基音周期之后,基于第一音频帧的基音周期和预设参数,确定第四音频帧的基音周期;
其中,第四音频帧为第一音频信号中在第一音频帧之后接收的错误音频帧。
在本申请实施例提供的电子设备中,电子设备在第一音频信号的第一音频帧为错误音频帧的情况下,获取第一音频帧之前正确接收的M个第二音频帧;M为大于1的整数,并根据上述M个第二音频帧对应的M个第二音频参数,确定第一音频帧的第一音频参数,然后,基于上述第一音频参数,得到第一音频帧的音频信号;其中,在第一音频参数包括导抗谱频率ISF参数的情况下,该ISF参数是通过神经网络预测得到的;在第一音频参数包括基音周期的情况下,该基音周期是通过第一函数模型得到的。如此,电子设备能够通过神经网络基于语音编码参数帧间的相关性预测错误音频帧的ISF参数,以及通过第一函数模型计算错误音频帧的基音周期,从而有效提升了现有错误隐藏算法的性能和鲁棒性,对错误码流仍然可以解码恢复出高质量的合成语音。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频信号恢复方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述音频信号恢复方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行以实现上述音频信号恢复方法实施例的各个过程,且能达到相同的技术效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (14)

1.一种音频信号恢复方法,其特征在于,所述方法包括:
在第一音频信号的第一音频帧为错误音频帧的情况下,获取所述第一音频帧之前正确接收的M个第二音频帧,M为大于1的整数;
根据所述M个第二音频帧对应的M个第二音频参数,确定所述第一音频帧的第一音频参数;
基于所述第一音频参数,得到所述第一音频帧的音频信号;
其中,在所述第一音频参数包括导抗谱频率ISF参数的情况下,所述ISF参数是通过神经网络预测得到的;
在所述第一音频参数包括基音周期的情况下,所述基音周期是通过第一函数模型得到的。
2.根据权利要求1所述的方法,其特征在于,所述第一音频参数包括ISF参数,所述根据所述M个第二音频帧对应的M个第二音频参数,确定所述第一音频帧的第一音频参数,包括:
提取每个所述第二音频帧的音频特征,得到每个所述第二音频帧对应的第二音频参数;
将所述M个第二音频帧中每个第二音频帧对应的第二音频参数输入深度神经网络预测所述第一音频帧的ISF参数;
其中,第二音频参数包括与所述第一音频参数相关的至少一个第二音频参数。
3.根据权利要求1或2所述的方法,其特征在于,所述第二音频参数包括导抗谱频率参数和目标参数;
所述目标参数包括以下至少一项:
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一音频参数,得到所述第一音频帧的音频信号之后,所述方法还包括:
从所述第一音频帧的音频信号中提取所述第一音频帧的音频特征,得到所述第一音频帧对应的第三音频参数;
基于所述第一音频帧对应的第三音频参数和所述M个第二音频帧中的目标第二音频帧对应的目标第二音频参数,确定第三音频帧的第四音频参数;
其中,所述第三音频帧为所述第一音频信号中在所述第一音频帧之后接收的错误音频帧。
5.根据权利要求1所述的方法,其特征在于,所述第一音频参数包括:基音周期;所述根据所述M个第二音频帧对应的M个第二音频参数,确定所述第一音频帧的第一音频参数,包括:
获取预设函数模型;
将所述M个第二音频帧中每个所述第二音频帧对应的基音周期输入所述预设函数模型,得到所述预设函数模型的模型信息;
基于所述预设函数模型的模型信息,得到所述第一函数模型;
根据所述第一函数模型和所述第一音频帧的帧序列信息,得到所述第一音频帧的基音周期。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一函数模型和所述第一音频帧的帧序列信息,得到所述第一音频帧的基音周期之后,所述方法还包括:
基于所述第一音频帧的基音周期和预设参数,确定第四音频帧的基音周期;
其中,所述第四音频帧为所述第一音频信号中在所述第一音频帧之后接收的错误音频帧。
7.一种音频信号恢复装置,其特征在于,所述装置包括:获取模块,确定模块和合成模块,其中:
所述获取模块,用于在第一音频信号的第一音频帧为错误音频帧的情况下,获取所述第一音频帧之前正确接收的M个第二音频帧,M为大于1的整数;
所述确定模块,用于根据所述获取模块获取的所述M个第二音频帧对应的M个第二音频参数,确定所述第一音频帧的第一音频参数;
所述合成模块,用于基于所述确定模块确定的所述第一音频参数,得到所述第一音频帧的音频信号;
其中,在所述第一音频参数包括导抗谱频率ISF参数的情况下,所述ISF参数是通过神经网络预测得到的;
在所述第一音频参数包括基音周期的情况下,所述基音周期是通过第一函数模型得到的。
8.根据权利要求7所述的装置,其特征在于,所述第一音频参数为:ISF参数;
所述获取模块,还用于提取每个所述第二音频帧的音频特征,得到每个所述第二音频帧对应的第二音频参数;
所述确定模块,具体用于将所述M个第二音频帧中每个第二音频帧对应的第二音频参数输入深度神经网络预测所述第一音频帧的ISF参数;
其中,所述第二音频参数包括与所述第一音频参数相关的至少一个第二音频参数。
9.根据权利要求7或8所述的装置,其特征在于,所述第二音频参数包括抗谱频率参数和目标参数;
所述目标参数包括以下至少一项:
稳定性因子;
语音活动检测VAD判决结果;
谱倾斜参数。
10.根据权利要求8所述的装置,其特征在于,
所述确定模块,还用于从所述第一音频帧的音频信号中提取所述第一音频帧的音频特征,得到所述第一音频帧对应的第三音频参数;
所述确定模块,还用于基于所述第一音频帧对应的第三音频参数和所述M个第二音频帧中的目标第二音频帧对应的目标第二音频参数,确定第三音频帧的第四音频参数;
其中,所述第三音频帧为:所述第一音频信号中在所述第一音频帧之后的错误音频帧。
11.根据权利要求7所述的装置,其特征在于,所述第一音频参数包括:基音周期;所述装置还包括:处理模块;
所述获取模块,还用于获取预设函数模型;
所述处理模块,用于将所述M个第二音频帧中每个第二音频帧对应的基音周期输入所述预设函数模型,得到所述预设函数模型的模型信息;
所述处理模块,还用于基于所述预设函数模型的模型信息,得到所述第一函数模型;
所述确定模块,具体用于根据所述第一函数模型和所述第一音频帧的帧序列信息,得到所述第一音频帧的基音周期。
12.根据权利要求7所述的装置,其特征在于,
所述确定模块,还用于根据所述第一函数模型和所述第一音频帧的帧序列信息,得到所述第一音频帧的基音周期之后,基于所述第一音频帧的基音周期和预设参数,确定第四音频帧的基音周期;
其中,所述第四音频帧为所述第一音频信号中在所述第一音频帧之后接收的错误音频帧。
13.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的音频信号恢复方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的音频信号恢复方法的步骤。
CN202210648023.8A 2022-06-08 2022-06-08 音频信号恢复方法、装置、电子设备及介质 Pending CN115101088A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210648023.8A CN115101088A (zh) 2022-06-08 2022-06-08 音频信号恢复方法、装置、电子设备及介质
PCT/CN2023/098671 WO2023236961A1 (zh) 2022-06-08 2023-06-06 音频信号恢复方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210648023.8A CN115101088A (zh) 2022-06-08 2022-06-08 音频信号恢复方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN115101088A true CN115101088A (zh) 2022-09-23

Family

ID=83288885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210648023.8A Pending CN115101088A (zh) 2022-06-08 2022-06-08 音频信号恢复方法、装置、电子设备及介质

Country Status (2)

Country Link
CN (1) CN115101088A (zh)
WO (1) WO2023236961A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236961A1 (zh) * 2022-06-08 2023-12-14 维沃移动通信有限公司 音频信号恢复方法、装置、电子设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000013870A (ko) * 1998-08-14 2000-03-06 서정욱 음성 부호화기에서 피치 예측을 이용한 오류 프레임 처리 방법및 그를 이용한 음성 부호화 방법
KR20000045610A (ko) * 1998-12-30 2000-07-25 김영환 오디오의 에러 프레임 추정 장치 및 그 방법
CN103117062B (zh) * 2013-01-22 2014-09-17 武汉大学 语音解码器中帧差错隐藏的谱参数代替方法及系统
CN104318927A (zh) * 2014-11-04 2015-01-28 东莞市北斗时空通信科技有限公司 一种抗噪声的低速率语音编码方法及解码方法
CN111883173B (zh) * 2020-03-20 2023-09-12 珠海市杰理科技股份有限公司 基于神经网络的音频丢包修复方法、设备和系统
CN115101088A (zh) * 2022-06-08 2022-09-23 维沃移动通信有限公司 音频信号恢复方法、装置、电子设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236961A1 (zh) * 2022-06-08 2023-12-14 维沃移动通信有限公司 音频信号恢复方法、装置、电子设备及介质

Also Published As

Publication number Publication date
WO2023236961A1 (zh) 2023-12-14

Similar Documents

Publication Publication Date Title
CN110648658B (zh) 一种语音识别模型的生成方法、装置及电子设备
JP7490804B2 (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
CN108475505B (zh) 使用部分条件从输入序列生成目标序列
WO2016192410A1 (zh) 一种音频信号增强方法和装置
RU2568278C2 (ru) Расширение полосы пропускания звукового сигнала нижней полосы
CN111816162B (zh) 一种语音变化信息检测方法、模型训练方法以及相关装置
WO2008044164A2 (en) Pitch lag estimation
US20060053008A1 (en) Noise robust speech recognition with a switching linear dynamic model
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
JP6812504B2 (ja) 音声符号化方法および関連装置
EP1443495A1 (en) Method of speech recognition using hidden trajectory hidden markov models
CN111640456A (zh) 叠音检测方法、装置和设备
WO2023236961A1 (zh) 音频信号恢复方法、装置、电子设备及介质
CN112751820B (zh) 使用深度学习实现数字语音丢包隐藏
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP2010156975A (ja) ピッチ検索のための方法及び装置
CN114495977B (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN114678032A (zh) 一种训练方法、语音转换方法及装置和电子设备
Mohamed et al. On deep speech packet loss concealment: A mini-survey
JP3806344B2 (ja) 定常雑音区間検出装置及び定常雑音区間検出方法
Liu et al. PLCNet: Real-time Packet Loss Concealment with Semi-supervised Generative Adversarial Network.
US20220262377A1 (en) Electronic device and control method thereof
US20230290345A1 (en) Code-Mixed Speech Recognition Using Attention and Language-Specific Joint Analysis
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
CN114155834A (zh) 一种语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination