CN111402907B - 一种基于g.722.1的多描述语音编码方法 - Google Patents
一种基于g.722.1的多描述语音编码方法 Download PDFInfo
- Publication number
- CN111402907B CN111402907B CN202010177908.5A CN202010177908A CN111402907B CN 111402907 B CN111402907 B CN 111402907B CN 202010177908 A CN202010177908 A CN 202010177908A CN 111402907 B CN111402907 B CN 111402907B
- Authority
- CN
- China
- Prior art keywords
- mlt
- code stream
- index
- rms
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000000295 complement effect Effects 0.000 claims abstract description 16
- 230000008447 perception Effects 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 8
- 238000004806 packaging method and process Methods 0.000 claims abstract description 3
- 238000013139 quantization Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 101150040334 KLHL25 gene Proteins 0.000 claims description 5
- 101100065246 Mus musculus Enc1 gene Proteins 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims 1
- 208000029589 multifocal lymphangioendotheliomatosis-thrombocytopenia syndrome Diseases 0.000 description 52
- 238000011156 evaluation Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101001033699 Homo sapiens Insulinoma-associated protein 2 Proteins 0.000 description 1
- 102100039093 Insulinoma-associated protein 2 Human genes 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于G.722.1的多描述语音编码方法,将原始语音信号分别输入至G.722.1编码器和互补编码器进行编码分别得到码流I和码流II;将码流I和码流II分别打包成packet1和packet2,再将packet1和packet2通过通信网络传输至解码器中进行解码得到解码语音信号。该方法采用一种多描述语音编码框架,将一条语音编码出两个码流,这两个码流互不影响,可以使用原解码器单独解码,且解码出的语音质量不低于原G.722.1编解码器;如果两个码流联合解码,解码出的语音质量明显优于原G.722.1编解码器,并且新引入的互补编码器,编码时采用不断量化、反馈感知误差的方法。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于G.722.1的多描述语音编码方法。
背景技术
随着计算机网络和通信技术的迅猛发展,VoIP已经被广泛使用在多媒体通信和实时传输中,它采用UDP快速地、一次性地传输语音数据,由于UDP不能保证数据包能有序并全部到达接收端,当网络阻塞时,就会发生丢包。当丢包率超过10%,通信质量就会明显下降。在语音信号编解码的过程中,通过在解码端或信道进行额外的操作,可以实现丢包隐藏,进而明显提升语音信号的通信质量。
在陈羿江发表的“G.729语音编码抗丢包算法研究及其ARM平台实现”[1]文章中提到的多描述编码,它的思想是将待编码语音信号分为奇偶序列,两个序列通过两个DPCM编码器编码,编码后的码流分别在不同的信道上进行传输。在接收端,如果只接收到其中一个码流,则使用解码器进行半速率的解码,然后进行升采样,得到输出语音;如果同时接收到两个码流,则分别对两个码流进行半速率解码,然后对解码语音进行奇偶交叠,得到最终的语音信号。因此该技术具有如下缺陷:在解码端,当只接收到其中一个码流时,只能进行半速率的解码,这会导致语音质量的下降;同时接收到两个码流时,解码出的语音质量与原来DPCM的编解码方案没有提升。
另外在徐明亮发表的“多描述抗丢包音频编码与传输算法研究”[2]文章中提到的听觉剩余信号标量量化双描述编码,它的思想是将待编码的语音信号首先通过心理声学模型,分解为听觉掩蔽门限和听觉剩余信号,对听觉剩余信号进行标量量化双描述编码。编码端,听觉剩余信号先通过取整算法取整,然后将其分别输入到两个标量量化器中,生成码流1与码流2;解码端,根据接收到的码流选择相应的边解码器或中央解码器对其进行解码。但是该技术的缺陷是:在解码端,它使用三个解码器,不同码流需要对应的解码器来解码,因此需要引入额外的比特来标识码流,破坏原比特流格式,系统的复杂度高;并且发生丢帧时,码流1或码流2只包含原有信号的一部分量化信息,这样重构语音的质量会受到很大的影响;在对已经部署的编解码系统进行升级时,工作量大,独立性和兼容性较差;同时接收到两个码流时,解码出的语音质量与原编解码方案没有提升。
发明内容
根据现有技术存在的问题,本发明公开了一种基于G.722.1的多描述语音编码方法,具体包括如下步骤:
将原始语音信号分别输入至G.722.1编码器和互补编码器进行编码分别得到码流I和码流II;
将原始语音信号输入至G.722.1编码器进行MLT变换得到MLT系数,将MLT系数划分为多个区域并计算每个区域的区域功率,对区域功率进行量化处理得到区域功率的量化指数,对量化指数进行编码得到区域功率编码比特,对MLT系数、区域功率的量化指数以及区域功率编码比特进行进一步编码处理得到码流I;
将原始语音信号输入至互补编码器中首先获取语音信号的量化指数,对该量化指数进行优化调整获得该语音信号的码流,对该码流进行部分解码处理得到对应的解码MLT系数,将此解码MLT系数和码流I进行部分解码得到的MLT系数输入至感知误差计算模块获取感知误差,循环优化调整过程在最优调整方案下获取码流II;
将码流I和码流II分别打包成packet1和packet2,再将packet1和packet2通过通信网络传输至解码器中进行解码得到解码语音信号。
所述量化指数进行优化调整过程为:
设量化指数为rms_index(r),集合C={rms_index(r)-1,rms_index(r)+1},将编码器分为14个区域,每一区域有两种可能取值,将每个区域r初步量化的rms_index(r)替换为集合C中的任一元素,对全部14个区域进行调整,共有约为214-1种调整方法,对于任一区域r,有-8≤rms_index(r)≤31,r≠0,因此对于rms_index(r)=-8,对于区域0,rms_index(0)=0,不选取集合C的第一个元素,对于rms_index(r)=31,不选取集合C的第二个元素,设初始调整方法为P0,P0为214-1种调整方法中的随机一种,最优调整方法为Pm,并满足联合感知误差最小同时互补编码器的感知误差不大于G.722.1编码器的感知误差。
所述感知误差采用如下方式获取:
将码流I进行部分解码得到enc1_mlt(n),将优化调整后的码流进行部分解码得到enc2_mlt(n),对enc1_mlt(n)和enc2_mlt(n)加权得到联合解码的MLT系数com_mlt(n),其计算公式为
计算相对误差
计算感知加权权重w(n)
其中E是等响度曲线中听阈曲线上对应25nHz频率的dB值;
计算感知误差为
其中0≤n<280,mlt(n)为编码信号经过MLT变换得到的MLT系数,将式(4)中的com_mlt(n)替换为enc1_mlt(n)和enc2_mlt(n),对应的误差记为eenc1和eenc2。
由于采用了上述技术方案,本发明提供的一种基于G.722.1的多描述语音编码方法,该方法采用一种多描述语音编码框架,将一条语音编码出两个码流,这两个码流互不影响,可以使用原解码器单独解码,且解码出的语音质量不低于原G.722.1编解码器;如果两个码流联合解码,解码出的语音质量明显优于原G.722.1编解码器,并且新引入的互补编码器,编码时采用不断量化、反馈感知误差的方法,来寻找与原G.722.1编码器量化方向相反的量化方向,且保证自身量化方向的感知误差更小。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中基于G.722.1的多描述语音编码系统的结构示意图;
图2为本发明中G.722.1编码器内部框图;
图3为本发明中互补编码器模块的结构示意图;
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的基于G.722.1的多描述语音编码的结构示意图,其中G.722.1编码器模块内部结构如图2所示,互补编码器模块的内部结构如图3所示。
一种基于G.722.1的多描述语音编码方法,具体包括如下步骤:
S1:使用G.722.1编码器模块对输入语音信号进行编码。如图2所示,这里使用的G.722.1编码器模块与ITU标准完全相同,在G.722.1编码器模块中,输入的语音信号分别经过MLT变换模块、区域功率量化编码模块、MLT系数编码模块,具体步骤如下:
S11:输入语音信号经过MLT变换模块21得到MLT系数:将采样率16kHz位深16bit的PCM小端语音信号x(n)分帧,帧长320点,连续两帧(640点)进行一次MLT变换,得到320个MLT系数,每次进行MLT变换的640个点由前一帧的320个点和当前帧的320个点组成。
其中,0≤n<640,0≤m<320。
对得到的320个MLT系数mlt(m),丢弃后40个,仅处理前280个MLT系数。
S12:280个MLT系数经过区域功率量化编码模块22得到区域功率的量化指数和区域功率的编码比特。这部分与ITU标准中描述的做法完全相同,参考[3]进行实现。
S13:将280个MLT系数、区域功率的量化指数和区域功率的编码比特输送至MLT系数编码模块23中,最终得到G.722.1编码器的编码结果码流I,对应的打包结果为图1中的packet1。
S2:使用互补编码器对输入语音信号进行编码。如图3所示,语音帧分别经过互补编码器模块中的编码参数调节模块31、部分解码模块32、感知误差计算模块33。具体操作步骤如下:
S21:语音信号首先进入编码参数调节模块31,该模块与S1所述G.722.1编码器模块中,除S12步骤外,其余步骤相同。该模块输出为码流,送入部分解码模块32继续处理。这里给出该模块中区域功率量化编码模块22的具体做法:
(1)把280个MLT系数分成每20个系数一组的区域,总的区域数number_of_regions=14。区域r包括第20r至20r+19个MLT系数,其中:
0≤r<number_of_regions
(2)计算所有区域r的幅度包络即该区域中MLT系数的RMS值:
(3)量化rms(r),得到量化指数rms_index(r)。量化重建值集合为:
(4)对量化指数rms_index(r)进行调整。具体调整方法如下:设集合C={rms_index(r)-1,rms_index(r)+1},用集合C中任一元素替代rms_index(r)来完成调整操作。编码器分为14个区域,每一区域有两种可能取值。一次调整为对全部14个区域,将每个区域r初步量化的rms_index(r)替换为集合C中的任一元素。对全部14个区域进行调整,共有约为214-1种调整方法。对于的任一频带r,有-8≤rms_index(r)≤31,r≠0,因此对于rms_index(r)=-8(对于频带0,rms_index(0)=0),不选取集合C的第一个元素,对于rms_index(r)=31,不选取集合C的第二个元素。设初始调整方法为P0,P0为214-1种调整方法中的随机一种,最优调整方法为Pm。
(5)将rms_index(r)进行编码,得到幅度包络的编码,即包络编码比特。rms_index(0)是每帧中最先传输的值,使用5个比特,最高有效位先传输,rms_index(0)=0值保留,不使用。对其余13个区域的量化指数进行微分编码,即差值diff_rms_index(r)为rms_index(r)-rms_index(r-1),其中rms_index(r)为后一个区域的量化指数,rms_index(r-1)为前一个区域的量化指数,并且差值是按区域顺序传输的。最后对差值进行霍夫曼编码,这些差值对应的编码比特使用ITU标准中的规定。
S22:编码参数调节模块31计算出的码流进入部分解码模块32得到当前调整方案(S21中的(4))下,解码出的MLT系数。部分解码模块32的具体步骤与ITU标准中,G.722.1解码器的步骤相同,但仅是一部分,解码出280个MLT系数即可,不进行后续的IMLT变换,这里不赘述。将当前部分解码模块32输出的280个MLT系数记为enc2_mlt(n)。码流I经过部分解码模块得到的280个MLT系数记为enc1_mlt(n)。
S23:将码流I进行部分解码得到enc1_mlt(n),将当前编码参数调节模块31计算出的码流进行部分解码得到enc2_mlt(n)。将enc1_mlt(n)和enc2_mlt(n)输入到感知误差计算模块33中,计算出感知误差值。具体步骤如下:
(1)计算联合解码的结果,记为com_mlt(n),其计算公式为
(2)计算相对误差
(3)计算感知加权权重w(n)
其中E是等响度曲线中听阈曲线上对应25nHz频率的dB值,如表1所示。
(4)计算感知误差为
其中0≤n<280,mlt(n)为编码信号经过MLT变换得到的MLT系数。将式(4)中的com_mlt(n)替换为enc1_mlt(n)和enc2_mlt(n),对应的误差记为eenc1和eenc2。
表1等响度表
Tab.1 Table of equal loudness
S24:结合上述的S21编码参数调节模块31、S22部分解码模块32、S23感知误差计算模块33,互补编码器执行流程为:
首先,执行编码参数调节模块31,其中量化指数rms_index(r)的调整方法采用初始调整方法P0;其次,执行部分解码模块32;然后,执行感知误差计算模块33,得到初始调整方法P0下的eenc1、eenc2和ecom。
不断重复上述过程,遍历214-1种调整方法,得到最优的调整方法Pm,满足以下:
1.调整方法Pm满足,在214-1种调整方法中,ecom最小;
2.调整方法Pm满足,eenc2≤eenc1;
调整方法Pm下得到的码流即为互补解码器的输出,记为码流II,如图3所示,对应的打包结果为图1中的packet2。
S3:如图1所示,packet1和packet2通过通信网传输到解码端,本方法解码端的具体操作步骤如下:
S31:计算当前帧的最终解码出的MLT系数。对每一帧数据,根据数据包的丢失情况,存在4种情形:(1)packet1、packet2都不丢;(2)packet1不丢而packet2丢;(3)packet1丢而packet2不丢;(4)packet1、packet2都丢。设多描述编解码最终输出的280个MLT系数记为newmlt(n),解码packet1、packet2得到的MLT系数记为mlt1(n)和mlt2(n),其解码过程与部分解码模块32相同,newmlt_his(n)表示上一帧解码的newmlt(n)。对于上述每种情况的处理方法如表2所示。
表2 MLT系数的替换公式
Tab.2 Substitution formula of MLT coefficients
S32:将解码出的280个MLT系数newmlt(n),补上40个零,得到320个MLT系数,做IMLT变换得到时域音频信号。IMLT过程是先进行IV型DCT,然后进行加窗、重叠处理,具体操作如下。
IV型DCT为
其中,u(n)表示当前帧IV型DCT,newmlt(m)表示解码出的280个MLT系数补上40个零的结果。
加窗、重叠处理的具体方法为
其中u_old表示前一帧DCT输出的一半,窗函数
u(n)中未使用的后一半存储为u_old,供下一帧使用,即
u_old(n)=u(n+160),0≤n<160 (10)
式(8)中的y(n)为最终解码出的时域语音信号。
为验证本专利算法的有效性,分别对多描述编码器和G.722.1编码器解码出的语音质量进行主观评价和客观评价。在进行主观评价实验时,使用两种编码器对同一段语音进行编码,选取12位试听者对解码出的语音进行试听评分,主观评价采用MOS评分,评分准则如表3所示。客观评价采用主观语音质量评估PESQ(Perceptual Evaluation of SpeechQuality)[4]。在进行客观评价时,对于宽带PESQ的测量,用12个人的48段8-10s的语音作为输入,将48段语音使用两个编码器进行编解码,对输出结果进行宽带PESQ测试取均值。所有主观和客观实验均分别在32kbps和24kbps两种码率下进行,丢包率分别设定为0%、1%、3%、5%、10%、20%、30%,丢包方式为随机丢包。
表3 MOS语音评分标准
Tab.3 Standard of Mean Opinion Score
主观实验结果如表4所示。从表4可以看出,多描述编解码方法在不同码率和丢包率下的MOS评分较高,即语音的质量较好。在32kbps和24kbps两种码率下,宽带PESQ实验结果如表5所示。不丢包时(丢包率0%),本文的分布式语音编码方法宽带PESQ的改善量在0.1以上,随着丢包率的提高,改善量先增加后略有减小;在丢包率为10%和20%时,改善量在1以上。由此可见,多描述编码算法可以实现,在不丢包时,语音质量明显提升;在丢包时,语音质量改善明显。
表4两种方法的MOS评分结果
Tab.4 MOS score results for both methods
表5 PESQ测试结果
Tab.5 PESQ test results
所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
[1]陈羿江.G.729语音编码抗丢包算法研究及其ARM平台实现[D].西安电子科技大学,2012.
[2]徐明亮.多描述抗丢包音频编码与传输算法研究[D].西安电子科技大学,2007.
[3]ITU-T Recommendation G.722.1,Low-complexity coding at 24and 32kbitfor hands-free operations in systems with low frame loss[S],2005,05.
[4]ITU-T Recommendation P.862,Perceptual evaluation of speech quality(PESQ):An objective method for end-to-end speech quality assessment ofnarrow-band telephone networks and speech codecs[S],2005,11.
Claims (3)
1.一种基于G.722.1的多描述语音编码方法,其特征在于包括:
将原始语音信号分别输入至G.722.1编码器和互补编码器进行编码分别得到码流I和码流II;
将原始语音信号输入至G.722.1编码器进行MLT变换得到MLT系数,将MLT系数划分为多个区域并计算每个区域的区域功率,对区域功率进行量化处理得到区域功率的量化指数,对量化指数进行编码得到区域功率编码比特,对MLT系数、区域功率的量化指数以及区域功率编码比特进行进一步编码处理得到码流I;
将原始语音信号输入至互补编码器中首先获取语音信号的量化指数,对该量化指数进行优化调整获得该语音信号的码流,对该码流进行部分解码处理得到对应的解码MLT系数,将此解码MLT系数和码流I进行部分解码得到的MLT系数输入至感知误差计算模块获取感知误差,循环优化调整过程在最优调整方案下获取码流II;
将码流I和码流II分别打包成packet1和packet2,再将packet1和packet2通过通信网络传输至解码器中进行解码得到解码语音信号。
2.根据权利要求1所述的一种基于G.722.1的多描述语音编码方法,其特征还在于:所述量化指数进行优化调整过程为:
设量化指数为rms_index(r),集合C={rms_index(r)-1,rms_index(r)+1},将编码器分为14个区域,每一区域有两种可能取值,将每个区域r初步量化的rms_index(r)替换为集合C中的任一元素,对全部14个区域进行调整,共有约为214-1种调整方法,对于任一区域r,有-8≤rms_index(r)≤31,r≠0,因此对于rms_index(r)=-8,对于区域0,rms_index(0)=0,不选取集合C的第一个元素,对于rms_index(r)=31,不选取集合C的第二个元素,设初始调整方法为P0,P0为214-1种调整方法中的随机一种,最优调整方法为Pm,并满足联合感知误差最小同时互补编码器的感知误差不大于G.722.1编码器的感知误差。
3.根据权利要求2所述的一种基于G.722.1的多描述语音编码方法,其特征还在于:所述感知误差采用如下方式获取:
将码流I进行部分解码得到enc1_mlt(n),将优化调整后的码流进行部分解码得到enc2_mlt(n),对enc1_mlt(n)和enc2_mlt(n)加权得到联合解码的MLT系数com_mlt(n),其计算公式为
计算相对误差
计算感知加权权重w(n)
其中E是等响度曲线中听阈曲线上对应25nHz频率的dB值;
计算感知误差为
其中0≤n<280,mlt(n)为编码信号经过MLT变换得到的MLT系数,将式(4)中的com_mlt(n)替换为enc1_mlt(n)和enc2_mlt(n),对应的误差记为eenc1和eenc2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010177908.5A CN111402907B (zh) | 2020-03-13 | 2020-03-13 | 一种基于g.722.1的多描述语音编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010177908.5A CN111402907B (zh) | 2020-03-13 | 2020-03-13 | 一种基于g.722.1的多描述语音编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402907A CN111402907A (zh) | 2020-07-10 |
CN111402907B true CN111402907B (zh) | 2023-04-18 |
Family
ID=71428926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010177908.5A Active CN111402907B (zh) | 2020-03-13 | 2020-03-13 | 一种基于g.722.1的多描述语音编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402907B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831546A (zh) * | 2022-09-29 | 2024-04-05 | 抖音视界有限公司 | 编码、解码方法、编码器、解码器、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1744198A (zh) * | 2005-09-26 | 2006-03-08 | 海信集团有限公司 | 基于celp的语音多描述编解码方法 |
EP1914724A2 (en) * | 2006-10-18 | 2008-04-23 | Polycom, Inc. | Dual-transform coding of audio signals |
CN101180677A (zh) * | 2005-04-01 | 2008-05-14 | 高通股份有限公司 | 用于宽频带语音编码的系统、方法和设备 |
WO2008074251A1 (fr) * | 2006-12-20 | 2008-06-26 | Huawei Technologies Co., Ltd. | Procédé et dispositif de codage-décodage hiérarchique |
CN102016985A (zh) * | 2008-03-04 | 2011-04-13 | 弗劳恩霍夫应用研究促进协会 | 对输入数据流进行混合以及从中产生输出数据流 |
CN103915100A (zh) * | 2013-01-07 | 2014-07-09 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CN105957533A (zh) * | 2016-04-22 | 2016-09-21 | 杭州微纳科技股份有限公司 | 语音压缩方法、语音解压方法及音频编码器、音频解码器 |
-
2020
- 2020-03-13 CN CN202010177908.5A patent/CN111402907B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101180677A (zh) * | 2005-04-01 | 2008-05-14 | 高通股份有限公司 | 用于宽频带语音编码的系统、方法和设备 |
CN1744198A (zh) * | 2005-09-26 | 2006-03-08 | 海信集团有限公司 | 基于celp的语音多描述编解码方法 |
EP1914724A2 (en) * | 2006-10-18 | 2008-04-23 | Polycom, Inc. | Dual-transform coding of audio signals |
WO2008074251A1 (fr) * | 2006-12-20 | 2008-06-26 | Huawei Technologies Co., Ltd. | Procédé et dispositif de codage-décodage hiérarchique |
CN102016985A (zh) * | 2008-03-04 | 2011-04-13 | 弗劳恩霍夫应用研究促进协会 | 对输入数据流进行混合以及从中产生输出数据流 |
CN103915100A (zh) * | 2013-01-07 | 2014-07-09 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CN105957533A (zh) * | 2016-04-22 | 2016-09-21 | 杭州微纳科技股份有限公司 | 语音压缩方法、语音解压方法及音频编码器、音频解码器 |
Non-Patent Citations (4)
Title |
---|
8~64kbit/s超宽带嵌入式语音频编码方法;贾懋;鲍长春;李锐;;通信学报(第05期);全文 * |
Multiple description coding technique to improve the robustness of ACELP based coders AMR-WB;Hocine C,Fatiha M,Philippe M.;Speech Communication;33-40 * |
基于局部最小二乘支持向量机的音频频带扩展方法;白海钏;鲍长春;刘鑫;;电子学报(第09期);全文 * |
基于非线性音频特征分类的频带扩展方法;张丽燕;鲍长春;刘鑫;张兴涛;;通信学报(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111402907A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1080542B1 (en) | System and method for masking quantization noise of audio signals | |
US6029126A (en) | Scalable audio coder and decoder | |
US6058362A (en) | System and method for masking quantization noise of audio signals | |
US6253165B1 (en) | System and method for modeling probability distribution functions of transform coefficients of encoded signal | |
TWI464734B (zh) | 用於在一語音訊框內避免資訊流失的系統與方法 | |
US7110941B2 (en) | System and method for embedded audio coding with implicit auditory masking | |
CN103415884B (zh) | 用于执行霍夫曼编码的装置和方法 | |
CA2378435C (en) | Method for improving the coding efficiency of an audio signal | |
CN101325059B (zh) | 语音编解码收发方法及装置 | |
Kovesi et al. | A scalable speech and audio coding scheme with continuous bitrate flexibility | |
US20130218557A1 (en) | Adaptive Approach to Improve G.711 Perceptual Quality | |
Ramprashad | A two stage hybrid embedded speech/audio coding structure | |
CN111402907B (zh) | 一种基于g.722.1的多描述语音编码方法 | |
US9691398B2 (en) | Method and a decoder for attenuation of signal regions reconstructed with low accuracy | |
CN112992166B (zh) | 一种动态调整lc3音频编码速率的方法、装置及存储介质 | |
CN101325058B (zh) | 语音编码发送和接收解码的方法及装置 | |
KR101563555B1 (ko) | 디지털 오디오 바이너리 프레임 내의 바이너리 에러들의 프로세싱 | |
Sugiura et al. | Spectral-envelope-based least significant bit management for low-delay bit-error-robust speech coding | |
Merazka | Differential quantization of spectral parameters for CELP based coders in packet networks | |
Viswanathan et al. | Noisy-channel performance of 16 kb/s APC coders | |
Hoang et al. | Embedded transform coding of audio signals by model-based bit plane coding | |
CN116137151A (zh) | 低码率网络连接中提供高质量音频通信的系统和方法 | |
De Meuleneire et al. | Algebraic quantization of transform coefficients for embedded audio coding | |
Netirojjanakul et al. | A Hi-Fi Audio Coding Technique for Wireless Communication based on Wavelet Packet Transformation♠ | |
JPH06291679A (ja) | オーディオ信号のためのしきい値制御量子化決定法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |