CN103646647A - 混合音频解码器中帧差错隐藏的谱参数代替方法及系统 - Google Patents

混合音频解码器中帧差错隐藏的谱参数代替方法及系统 Download PDF

Info

Publication number
CN103646647A
CN103646647A CN201310683244.XA CN201310683244A CN103646647A CN 103646647 A CN103646647 A CN 103646647A CN 201310683244 A CN201310683244 A CN 201310683244A CN 103646647 A CN103646647 A CN 103646647A
Authority
CN
China
Prior art keywords
frame
isf
neighbour
good
spectrum parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310683244.XA
Other languages
English (en)
Other versions
CN103646647B (zh
Inventor
胡瑞敏
杨玉红
王衍业
董少龙
谢松波
余洪江
高丽
王晓晨
涂卫平
高戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201310683244.XA priority Critical patent/CN103646647B/zh
Publication of CN103646647A publication Critical patent/CN103646647A/zh
Application granted granted Critical
Publication of CN103646647B publication Critical patent/CN103646647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种混合音频解码器中帧差错隐藏的谱参数代替方法及系统,该方法把语音帧提供给混合音频解码器,语音帧提供混合音频解码器在合成音频信号中所需使用的谱参数;根据谱参数判断当前帧是否为坏帧,若为坏帧,则根据当前坏帧与近邻好帧编码模式的相关性,选择近邻N个好帧的谱参数恢复当前坏帧谱参数。本发明既考虑了连续坏帧和当前坏帧与近邻好帧间编码模式的相关性,从而进一步提高了音频质量。

Description

混合音频解码器中帧差错隐藏的谱参数代替方法及系统
技术领域
本发明涉及混合音频解码器,具体涉及一种混合音频解码器中帧差错隐藏的谱参数代替方法及系统。
背景技术
现代移动通信中,音频信号通过分帧打包,然后以比特流的形式传输。由于不存在理想信道,传输过程中会出现丢包现象,接收端就会接收到错误信息,我们称之为坏帧。在现有的AMR-WB、AMR-WB+、AVS-P10编解码器中,当出现坏帧时,一般根据相邻好帧的谱参数来代替当前坏帧的谱参数,从而隐藏当前坏帧谱参数,达到增强音频质量的效果。
现有的编码方式中,ACELP256编码模式适合语音音频信号,TCX256编码模式适合瞬变音乐音频信号,TCX512编码模式适合暂稳态音频信号,TCX1024编码模式适合稳态音频信号。AMR-WB+和AVS-P10编解码器都是采用混合编码模式,混合音频编码模式比单一音频编码模式适用范围更广。但是,混合音频解码器对坏帧进行恢复时,均未考虑当前坏帧与近邻好帧编码模式的相关性。
发明内容
针对现有技术存在的不足,本发明提供了一种考虑了当前坏帧与近邻好帧编码模式相关性的、混合音频解码器中帧差错隐藏的谱参数代替方法及系统。
为解决上述问题,本发明采用如下的技术方案:
一、混合音频解码器中帧差错隐藏的谱参数代替方法,该方法把语音帧提供给混合音频解码器,语音帧提供混合音频解码器在合成音频信号中所需使用的谱参数;根据谱参数判断当前帧是否为坏帧,若为坏帧,则根据当前坏帧与近邻好帧编码模式的相关性,选择近邻N个好帧的谱参数恢复当前坏帧谱参数。所述的N优选为1或2或3。所述的待定系数α、β、γ通过样本训练获得。
上述选择近邻N个好帧的谱参数恢复当前坏帧谱参数,具体采用如下公式进行恢复:
ISFq(i)=α*past_ISFq(i)+β*ISFadaptive_mean(i)+γ*ISFconst_mean(i)
其中:ISFq(i)是当前坏帧ISF向量的第i分量;past_ISFq(i)是当前坏帧的上一好帧ISF向量的第i分量;ISFadaptive_mean(i)是当前坏帧的近邻N个好帧ISF向量的第i分量的平均值;ISFconst_mean(i)是ISF向量的长期平均值常数向量的第i分量,为经验常数;α、β、γ是待定系数,由当前坏帧与近邻好帧编码模式的相关性、连续坏帧数量及当前误码率决定;i为ISF向量的分量编号,i=0,1,...,15。
如果当前坏帧与最近好帧的编码模式相同,且当前坏帧的近邻M个好帧的编码模式也相同,则使用该近邻M个好帧的谱参数恢复当前坏帧谱参数,即所述的ISFadaptive_mean(i)为该近邻M个好帧的ISF向量第i分量的平均值;考虑当前坏帧与近邻好帧的相关度确定M。
如果当前坏帧与最近好帧的编码模式相同,当前坏帧的近邻M个好帧中离当前坏帧最近的N个好帧的编码模式相同,则使用该近邻N个好帧的谱参数恢复当前坏帧谱参数,即所述的ISFadaptive_mean(i)为该近邻N个好帧的ISF向量第i分量的平均值;考虑当前坏帧与近邻好帧的相关度确定M。
如果当前坏帧与最近好帧的编码模式不同,则使用该最近好帧的谱参数恢复当前坏帧谱参数,即所述的ISFadaptive_mean(i)为该最近好帧的ISF向量的第i分量。
二、混合音频解码器中帧差错隐藏的谱参数代替系统,包括:
坏帧判断模块,用来根据谱参数判断当前帧是否为坏帧;
谱参数代替模块,用来根据当前坏帧与近邻好帧编码模式的相关性,选择近邻N个好帧的谱参数恢复当前坏帧谱参数。
本发明根据当前坏帧与近邻好帧编码模式的相关性,采用近邻好帧的自适应平均值来代替坏帧谱参数,隐藏坏帧对语音解码器的影响,以提高语音解码器合成音频的主观质量。本发明中,坏帧指损坏帧和丢失帧。
与现有技术相比,本发明具有如下有益效果:
AMR-WB+编解码器未考虑连续丢帧情况,当连续丢帧较多时,其音频质量较差;AVS-P10编解码器虽然考虑了连续丢帧情况,但其仅利用最近一个好帧对坏帧谱参数进行恢复,忽略了近邻好帧间编码模式的相关性,其音频质量仍有待提高。本发明既考虑了连续坏帧情况,也考虑了当前坏帧与近邻好帧间编码模式的相关性,从而可进一步提高合成音频质量。
附图说明
图1是发射和存储音频信号的系统框图;
图2是本发明方法的一种具体流程图。
具体实施方式
本发明用于混合音频解码器中帧差错隐藏的谱参数替代,把语音帧提供给混合音频解码器,语音帧提供混合音频解码器在合成音频中所需使用的谱参数,混合音频解码器根据谱参数判断当前语音帧是否为坏帧,若为坏帧,则根据当前坏帧与近邻好帧编码模式的相关性确定谱参数代替方法。
AMR-WB、AMR-WB+和AVS-P10等编解码器将接收语音帧的线性预测系数转换为导谱频率ISF并进行量化,将ISF作为谱参数传送至解码端。本发明所需使用的谱参数即ISF向量。
本发明的谱参数替代方法可采用如下公式来表示:
ISFq(i)=α*past_ISFq(i)+β*ISFadaptive_mean(i)+γ*ISFconst_mean(i)  (1)
其中:
ISFq(i)是当前坏帧ISF向量的第i分量;
past_ISFq(i)是当前坏帧的上一好帧ISF向量的第i分量;
ISFadaptive_mean(i)是当前坏帧的近邻N个好帧ISF向量的第i分量的平均值,根据当前坏帧和近邻好帧编码模式的相关性确定N值;
ISFconst_mean(i)是ISF向量的长期平均值常数向量的第i分量,为经验常数;
α、β、γ是待定系数,由当前坏帧与近邻好帧编码模式的相关性、连续坏帧数量及当前误码率决定;
i为ISF向量的分量的编号,i=0,1,...,15。
上述待定系数可通过样本训练得到,具体为:
根据当前坏帧和前近邻M个好帧编码模式的相关性分为M类情况,该M类情况分别指取前近邻1、2、…M个近邻好帧ISF向量的平均值来恢复当前坏帧的谱参数,这里M的优选取值为1~3。基于上述M类情况对若干音频序列在无差错解码时的ISF向量进行分类训练。训练各类ISF向量时,考虑连续坏帧数量,分别在连续坏帧数量为1~P的情况下训练ISF向量,并以当前坏帧的正确ISF向量为拟合目标对该类ISF向量训练样本进行拟合,以获得不同连续坏帧及不同误码率下对应的待定系数。当连续坏帧数大于3时,采用指数函数表示待定系数;当连续坏帧数量不大于3时,则直接获得待定系数值。
下面结合附图和上述谱参数替代方法进一步说明本发明的具体实施方式。
见图1,音频信号通过信道传输到混合音频解码端,当混合音频解码器检测到坏帧时,分析当前坏帧和近邻好帧的编码模式,采用近邻好帧的谱参数对当前坏帧谱参数进行隐藏。坏帧的谱参数会影响语音的质量,隐藏坏帧的谱参数可增强音频质量。
目前的音频编码模式主要有四种,ACELP256编码模式适合语音音频信号,TCX256编码模式适合瞬变音乐音频信号,TCX512编码模式适合暂稳态音频信号,TCX1024编码模式适合稳态音频信号。混合音频编码模式比单一音频编码模式适用范围更广,AMR-WB+和AVS-PL0编解码器均是采用混合编码模式,但在进行帧差错隐藏时,均未考虑当前坏帧与近邻好帧编码模式的相关性,仅仅只是在编码模式切换时做了平滑处理。而本发明在帧差错隐藏时考虑了当前坏帧与近邻好帧编码模式的相关性。
图2为本发明方法的一种具体实施方式。根据本发明,把语音帧提供给混合音频解码器,各语音帧提供混合音频解码器在合成音频中所需使用的谱参数,当接收到好帧时,混合音频解码器使用常规解码方式进行解码。当接收到坏帧时,则对坏帧的谱参数进行替代,然后使用常规解码方式对谱参数替代后的坏帧进行解码。
在混合音频编码器编码模式切换处,帧的相关性很低,需要用近邻好帧的谱参数来恢复当前坏帧。距离当前坏帧越远的帧,当前坏帧与其相关度越低。实际应用过程中,一般可选取当前坏帧的近邻1~3个好帧的谱参数来恢复当前坏帧。本具体实施方式中,取当前坏帧的近邻三个好帧的谱参数对当前坏帧执行谱参数代替,具体恢复方法为:如果当前坏帧与最近好帧编码模式相同,且当前坏帧的近邻三个好帧的编码模式相同,则使用近邻三个好帧的谱参数恢复当前坏帧的谱参数,即公式(1)中的ISFadaptive_mean(i)为当前坏帧的近邻三个好帧ISF向量第i分量的平均值。如果当前坏帧与最近好帧编码模式相同,但当前坏帧的近邻三个好帧中仅最近的两个近邻好帧编码模式相同,则使用近邻两个好帧的谱参数恢复当前坏帧的谱参数,即公式(1)中的ISFadaptive_mean(i)为当前坏帧的近邻两个好帧的ISF向量第i分量的平均值。如果当前坏帧与最近好帧编码模式相同,但该最近好帧与其前一好帧的编码模式不同,则仅使用该最近好帧的谱参数恢复当前坏帧的谱参数,即公式(1)中的ISFadaptive_mean(i)为当前坏帧的最近好帧的ISF向量第i分量。如果当前坏帧与最近好帧编码模式不同,则使用该最近好帧的谱参数恢复当前坏帧的谱参数,即公式(1)中的ISFadaptive_mean(i)为当前坏帧的最近好帧的ISF向量第i分量。

Claims (8)

1.混合音频解码器中帧差错隐藏的谱参数代替方法,把语音帧提供给混合音频解码器,语音帧提供混合音频解码器在合成音频信号中所需使用的谱参数,其特征在于:
根据谱参数判断当前帧是否为坏帧,若为坏帧,则根据当前坏帧与近邻好帧编码模式的相关性,选择近邻N个好帧的谱参数恢复当前坏帧谱参数。
2.如权利要求1所述的混合音频解码器中帧差错隐藏的谱参数代替方法,其特征在于:
所述的N为1或2或3。
3.如权利要求1所述的混合音频解码器中帧差错隐藏的谱参数代替方法,其特征在于:
所述的选择近邻N个好帧的谱参数恢复当前坏帧谱参数,具体采用如下公式进行恢复:
ISFq(i)=α*past_ISFq(i)+β*ISFadaptive_mean(i)+γ*ISFconst_mean(i)
其中:ISFq(i)是当前坏帧ISF向量的第i分量;past_ISFq(i)是当前坏帧的上一好帧ISF向量的第i分量;ISFadaptive_mean(i)是当前坏帧的近邻N个好帧ISF向量的第i分量的平均值;ISFconst_mean(i)是ISF向量的长期平均值常数向量的第i分量,为经验常数;α、β、γ是待定系数,由当前坏帧与近邻好帧编码模式的相关性、连续坏帧数量及当前误码率决定;i为ISF向量的分量编号,i=0,1,...,15。
4.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法,其特征在于:
如果当前坏帧与最近好帧的编码模式相同,且当前坏帧的近邻M个好帧的编码模式也相同,则使用该近邻M个好帧的谱参数恢复当前坏帧谱参数,即所述的ISFadaptive_mean(i)为该近邻M个好帧的ISF向量第i分量的平均值;考虑当前坏帧与近邻好帧的相关度确定M。
5.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法,其特征在于:
如果当前坏帧与最近好帧的编码模式相同,当前坏帧的近邻M个好帧中离当前坏帧最近的N个好帧的编码模式相同,则使用该近邻N个好帧的谱参数恢复当前坏帧谱参数,即所述的ISFadaptive_mean(i)为该近邻N个好帧的ISF向量第i分量的平均值;考虑当前坏帧与近邻好帧的相关度确定M。
6.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法,其特征在于:
如果当前坏帧与最近好帧的编码模式不同,则使用该最近好帧的谱参数恢复当前坏帧谱参数,即所述的ISFadaptive_mean(i)为该最近好帧的ISF向量的第i分量。
7.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法,其特征在于:
所述的待定系数α、β、γ通过样本训练获得。
8.混合音频解码器中帧差错隐藏的谱参数代替系统,其特征在于,包括:
坏帧判断模块,用来根据谱参数判断当前帧是否为坏帧;
谱参数代替模块,用来根据当前坏帧与近邻好帧编码模式的相关性,选择近邻N个好帧的谱参数恢复当前坏帧谱参数。
CN201310683244.XA 2013-12-13 2013-12-13 混合音频解码器中帧差错隐藏的谱参数代替方法及系统 Active CN103646647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310683244.XA CN103646647B (zh) 2013-12-13 2013-12-13 混合音频解码器中帧差错隐藏的谱参数代替方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310683244.XA CN103646647B (zh) 2013-12-13 2013-12-13 混合音频解码器中帧差错隐藏的谱参数代替方法及系统

Publications (2)

Publication Number Publication Date
CN103646647A true CN103646647A (zh) 2014-03-19
CN103646647B CN103646647B (zh) 2016-03-16

Family

ID=50251849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310683244.XA Active CN103646647B (zh) 2013-12-13 2013-12-13 混合音频解码器中帧差错隐藏的谱参数代替方法及系统

Country Status (1)

Country Link
CN (1) CN103646647B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104269176A (zh) * 2014-09-30 2015-01-07 武汉大学深圳研究院 一种isf系数矢量量化的方法与装置
CN105654957A (zh) * 2015-12-24 2016-06-08 武汉大学 联合声道间和声道内预测的立体声误码隐藏方法及系统
CN107221334A (zh) * 2016-11-01 2017-09-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1957399A (zh) * 2004-05-24 2007-05-02 松下电器产业株式会社 语音/音频解码装置以及语音/音频解码方法
CN101046964A (zh) * 2007-04-13 2007-10-03 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
CN101937679A (zh) * 2010-07-05 2011-01-05 展讯通信(上海)有限公司 音频数据帧的错误掩盖方法及音频解码端
CN102057424A (zh) * 2008-06-13 2011-05-11 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
US20130144632A1 (en) * 2011-10-21 2013-06-06 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1957399A (zh) * 2004-05-24 2007-05-02 松下电器产业株式会社 语音/音频解码装置以及语音/音频解码方法
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
CN101046964A (zh) * 2007-04-13 2007-10-03 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
CN102057424A (zh) * 2008-06-13 2011-05-11 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
CN101937679A (zh) * 2010-07-05 2011-01-05 展讯通信(上海)有限公司 音频数据帧的错误掩盖方法及音频解码端
US20130144632A1 (en) * 2011-10-21 2013-06-06 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
成鸿飞 等: "G.729.1和AMRWB标准的差错控制与错误隐藏技术研究", 《电声技术》, vol. 35, no. 12, 31 December 2011 (2011-12-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104269176A (zh) * 2014-09-30 2015-01-07 武汉大学深圳研究院 一种isf系数矢量量化的方法与装置
CN105654957A (zh) * 2015-12-24 2016-06-08 武汉大学 联合声道间和声道内预测的立体声误码隐藏方法及系统
CN105654957B (zh) * 2015-12-24 2019-05-24 武汉大学 联合声道间和声道内预测的立体声误码隐藏方法及系统
CN107221334A (zh) * 2016-11-01 2017-09-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置

Also Published As

Publication number Publication date
CN103646647B (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
JP7245856B2 (ja) 符号化器、復号器ならびに隠蔽を増強するためのパラメータを使用してオーディオ内容を符号化および復号するための方法
EP1288913B1 (en) Speech transcoding method and apparatus
JP5017418B2 (ja) 符号化方法、装置及び機器、及び復号化方法
NO20055660L (no) Fremgangsmate for hybrid videokompresjon
WO2010038951A3 (ko) 영상 부호화/복호화 방법 및 장치
US20170187635A1 (en) System and method of jitter buffer management
CN103646647B (zh) 混合音频解码器中帧差错隐藏的谱参数代替方法及系统
RU2445737C2 (ru) Способ передачи данных в системе связи
CN103198834B (zh) 一种音频信号处理方法、装置及终端
Dong et al. A multiple description speech coder based on AMR-WB for mobile ad hoc networks
CN103827964A (zh) 编解码系统、解码装置、编码装置以及编解码方法
KR101166650B1 (ko) 배경 잡음 정보를 디코딩하기 위한 방법 및 수단
Seto et al. Scalable multi-rate iLBC
Liu et al. FEC-based packet loss recovery for AVS-M audio codec
JP4985743B2 (ja) 音声符号変換方法
Ye et al. Multiple description speech codecs applying distributed subframe interleaving
Edan et al. HIGH QUALITY LOW BITRATE VOICE CODEC FOR TRANSMISSION OVER ADVANCED LTE
Merazka et al. Dynamic forward error correction algorithm over IP network services for ITU-t g. 722.2 codec
Yahampath et al. DESIGn of Multiple Description Predictive Vector Quantizers
Deshpande Speech Enhancement By Bandwidth Extension-A Codebook Based Approach In G. 729 Compressed Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210707

Address after: 215000 unit 01, 5 / F, building a, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee before: WUHAN University