CN101167124B - 语音编码装置和语音编码方法 - Google Patents

语音编码装置和语音编码方法 Download PDF

Info

Publication number
CN101167124B
CN101167124B CN2006800142383A CN200680014238A CN101167124B CN 101167124 B CN101167124 B CN 101167124B CN 2006800142383 A CN2006800142383 A CN 2006800142383A CN 200680014238 A CN200680014238 A CN 200680014238A CN 101167124 B CN101167124 B CN 101167124B
Authority
CN
China
Prior art keywords
signal
sound channel
prediction
sound
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800142383A
Other languages
English (en)
Other versions
CN101167124A (zh
Inventor
吉田幸司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101167124A publication Critical patent/CN101167124A/zh
Application granted granted Critical
Publication of CN101167124B publication Critical patent/CN101167124B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

在具有单声道/立体声可伸缩结构的语音编码中,能够高效率地对立体声语音进行编码的语音编码装置。在该装置中,相关度比较单元(304)从第1ch语音信号计算第1ch的声道内相关(第1ch内的以前的信号与当前的信号之间的相关度),同时从第2ch语音信号计算第2ch的声道内相关(第2ch内的以前的信号与当前的信号之间的相关度),并比较第1ch的声道内相关与第2ch的声道内相关,选择具有较大的相关的声道;选择单元(305)根据相关度比较单元(304)中的选择结果,选择从第1ch内预测单元(307)输出的第1ch预测信号或从第1ch信号生成单元(311)输出的第1ch预测信号中的任一个,并将其输出到减法器(303)和第1ch预测残差信号编码单元(308)。

Description

语音编码装置和语音编码方法
技术领域
本发明涉及语音编码装置和语音编码方法,特别涉及用于立体声语音的语音编码装置和语音编码方法。
背景技术
随着移动通信或IP通信中的传输频带的宽频化、服务的多样化,在语音通信中,对高质量化、富于临场感的需求提高。例如,预计今后电视电话服务中的免提(hands free)方式的通话、电视会议中的语音通信、多个通话者在多个地点同时进行会话的多地点语音通信、能够在保持临场感的同时传输周围的声音环境的语音通信等的需要增加。在这样的情况下,期望实现比单声道信号富有临场感,而且能够识别多个通话者的讲话位置的基于立体声语音的语音通信。为了实现这样的基于立体声语音的语音通信,必须将立体声语音编码。
此外,为了在IP网络上的语音数据通信中,实现网络上的通信量控制和组播通信,期望具有可伸缩(scalable)的结构的语音编码。可伸缩的结构是指在接收端即使从一部分的编码数据也能够进行语音数据的解码的结构。
从而,期望具有在将立体声语音编码并传输的情况下也能够在接收端选择立体声信号的解码和使用了编码数据的一部分的单声道信号的解码的、单声道-立体声之间的可伸缩结构(单声道/立体声可伸缩结构)的编码。
作为这样的具有单声道/立体声可伸缩结构的语音编码方法,例如有通过声道相互间的音调(pitch)预测来进行声道(以下简称为“ch”)之间的信号预测(从第1ch信号预测第2ch信号或从第2ch信号预测第1ch信号),即利用两个声道间的相关来进行编码的方法(参照非专利文献1)。
非专利文献1:Ramprashad,S.A.,“tereophonic CELP coding using cross channel prediction”,Proc.IEEE Workshop on Speech Coding,pp.136-138,Sep.2000.
发明内容
发明要解决的问题
但是,在上述非专利文献1记载的语音编码方法中,在两个声道间的相关小的情况下,声道间的预测性能(预测增益(gain))降低,编码效率劣化。
此外,将使用了声道间的预测的编码适用于具有单声道/立体声可伸缩结构的语音编码方法中的立体声增强层中的编码时,两个声道间的相关较小且在立体声增强层成为编码的对象的声道的声道内相关(也就是说,声道内的以前的信号与当前的信号之间的相关度)较小的情况下,仅用声道间的预测不能获得充分的预测性能(预测增益),编码效率劣化。
本发明的目的在于,提供在具有单声道/立体声可伸缩结构的语音编码中,能够高效率地对立体声语音进行编码的语音编码装置和语音编码方法。
解决该问题的方案
本发明的语音编码装置采用以下的结构包括:第1编码单元,进行用于单声道信号的核心层的编码;以及第2编码单元,进行用于立体声信号的增强层的编码,所述第1编码单元从构成立体声信号的第1声道的信号和第2声道的信号生成单声道信号,对所述单声道信号进行编码,以生成所述单声道信号的编码数据,并从所述编码数据生成单声道解码信号,所述第2编码单元分别计算所述第一声道和所述第二声道的声道内相关,在所述第一声道的声道内相关大于所述第二声道的声道内相关时,将进行所述第一声道上的声道内预测所生成的第一声道预测信号选择为编码对象,而在所述第一声道的声道内相关不大于所述第二声道的声道内相关时,生成所述第二声道的解码信号,并使用通过所述第二声道上的声道内预测所生成的第二预测信号和所述单声道解码信号,以求取第一声道预测信号。
本发明的无线通信移动台装置具有上述的语音编码装置。
本发明的无线通信基站装置具有上述的语音编码装置。
本发明的语音编码方法,进行用于单声道信号的核心层的编码和用于立体声信号的增强层扩展层的编码,其中:在所述核心层中,从构成立体声信号的第1声道的信号和第2声道的信号生成单声道信号,对所述单声道信号进行编码,以生成所述单声道信号的编码数据,并从所述编码数据生成单声道解码信号;以及在所述增强层中,分别计算所述第一声道和所述第二声道的声道内相关,在所述第一声道的声道内大于所述第二的声道的声道内相关时,将进行所述第一声道上的声道内预测所生成的第一声道预测信号选择为编码对象,而在所述第一声道的声道内相关不大于所述第二声道的声道内相关时,生成所述第二声道的解码信号,并使用通过所述第二声道上的声道内预测所生成的第二预测信号和所述单声道解码信号,以求取第一声道预测信号。
发明的有益效果
根据本发明,能够高效率地对立体声语音进行编码。
附图说明
图1是表示本发明实施方式1的语音编码装置的结构的方框图;
图2是本发明实施方式1的增强层编码单元的动作流程图;
图3是本发明实施方式1的增强层编码单元的动作示意图;
图4是本发明实施方式1的增强层编码单元的动作示意图;
图5是表示本发明实施方式1的语音解码装置的结构的方框图;
图6是表示本发明实施方式2的语音编码装置的结构的方框图;
图7是表示本发明实施方式2的第1chCELP编码单元的结构的方框图;以及
图8是本发明实施方式2的第1chCELP编码单元的动作流程图。
具体实施方式
以下,参照附图详细说明与具有单声道/立体声可伸缩结构的语音编码有关的本发明的实施方式。
(实施方式1)
图1表示本实施方式的语音编码装置的结构。图1所示的语音编码装置100包括用于单声道信号的核心层编码单元200和用于立体声信号的增强层编码单元300。另外,在以下的说明中,将以帧为单位的动作作为前提来进行说明。
在核心层编码单元200中,单声道信号生成单元201根据式(1),从输入的第1ch语音信号s_ch1(n)和第2ch语音信号s_ch2(n)(其中,n=0~NF-1;NF为帧长度)生成单声道信号s_mono(n),并输出到单声道信号编码单元202。
s_mono(n)=(s_ch1(n)+s_ch2(n))/2    ...式(1)
单声道信号编码单元202进行对单声道信号s_mono(n)的编码,并将该单声道信号的编码数据输出到单声道信号解码单元203。此外,将该单声道信号的编码数据与从增强层编码单元300输出的量化代码、编码数据以及选择信息进行复用,作为编码数据传输到后面叙述的语音解码装置。
单声道信号解码单元203从单声道信号的编码数据生成单声道的解码信号而将它输出到增强层编码单元300。
在增强层编码单元300中,声道间预测参数分析单元301从第1ch语音信号和单声道解码信号求取并量化对单声道信号的第1ch语音信号的预测参数(声道间预测参数),并将其输出到声道间预测单元302。在此,声道间预测参数分析单元301求取对单声道信号(单声道解码信号)的第1ch语音信号的延迟差(D样本)和振幅比(g)作为声道间预测参数。此外,声道间预测参数分析单元301将对声道间预测参数进行量化和编码而获得的声道间预测参数量化代码输出。将该声道间预测参数量化代码与其他的量化代码、编码数据以及选择信息复用,作为编码数据传输到后面叙述的语音解码装置。
声道间预测单元302使用经量化的声道间预测参数,从单声道解码信号预测第1ch信号,将该第1ch预测信号(声道间预测)输出到减法器303和第1ch预测残差信号编码单元308。例如,声道间预测单元302通过式(2)所表示的预测,从单声道解码信号sd_mono(n)合成第1ch预测信号sp_ch1(n)。
sp_ch1(n)=g·sd_mono(n-D)    ...式(2)
相关度比较单元304从第1ch语音信号计算第1ch的声道内相关(第1ch内的以前的信号与当前的信号之间的相关度),同时从第2ch语音信号计算第2ch的声道内相关(第2ch内的以前的信号与当前的信号之间的相关度)。作为各声道的声道内相关,例如,能够使用对应的语音信号的归一化最大自身相关系数值、对应的语音信号的音调预测增益值、从对应的语音信号所求得的LPC预测残差信号的归一化最大自身相关系数值、以及从对应的语音信号所求得的LPC预测残差信号的音调预测增益值等。然后,相关度比较单元304比较第1ch的声道内相关与第2ch的声道内相关,并选择具有较大相关的声道。表示该选择的结果的选择信息被输出到选择单元305和306。此外,将该选择信息与量化代码及编码数据进行复用,作为编码输出而传输到后面叙述的语音解码装置。
第1声道内预测单元307由第1ch语音信号和从第1ch预测残差信号编码单元308输入的第1ch解码信号,通过第1ch上的声道内预测,预测第1ch信号,并将该第1ch预测信号输出到选择单元305。此外,第1ch内预测单元307将通过对第1ch上的声道内预测中所需要的声道内预测参数进行量化而获得的第1ch的声道内预测参数量化代码输出到选择单元306。另外,声道内预测的细节将后述。
第2ch信号生成单元309从单声道信号解码单元203输入的单声道解码信号和从第1ch预测残差信号编码单元308输入的第1ch解码信号,基于上面的式(1)的关系生成第2ch解码信号。也就是说,第2ch信号生成单元309从单声道解码信号sd_mono(n)和第1ch解码信号sd_ch1(n),根据式(3)生成第2ch解码信号sd_ch2(n),并将其输出到第2ch内预测单元310。
sd_ch2(n)=2·sd_mono(n)-sd_ch1(n)    ...式(3)
第2ch内预测单元310从第2ch语音信号和第2ch解码信号,通过在第2ch的声道内预测,预测第2ch信号,并将该第2ch预测信号输出到第1ch信号生成单元311。此外,第2ch内预测单元310将通过对在第2ch的声道内预测中所需要的声道内预测参数进行量化而获得的第2ch的声道内预测参数量化代码输出到选择单元306。另外,声道内预测的细节将后述。
第1ch信号生成单元311由第2ch预测信号和从单声道信号解码单元203输入的单声道解码信号,基于上面的式(1)的关系,生成第1ch预测信号。也就是说,第1ch信号生成单元311从单声道解码信号sd_mono(n)和第2ch预测信号s_ch2_p(n),根据式(4)生成第1ch预测信号s_ch1_p(n),并将它输出到选择单元305。
s_ch1_p(n)=2·sd_mono(n)-s_ch2_p(n)    ...式(4)
选择单元305根据在相关度比较单元304的选择结果,选择从第1ch内预测单元307输出的第1ch预测信号或从第1ch信号生成单元311输出的第1ch预测信号中的任一个,并将它输出到减法器303和第1ch预测残差信号编码单元308。在通过相关度比较单元304选择第1ch时(即,第1ch的声道内相关大于第2ch的声道内相关时),选择单元305选择从第1ch内预测单元307输出的第1ch预测信号。另一方面,在通过相关度比较单元304选择第2ch时(即,第1ch的声道内相关小于等于第2ch的声道内相关时),选择单元305选择从第1eh信号生成单元311输出的第1ch预测信号。
选择单元306根据在相关度比较单元304的选择结果,选择从第1ch内预测单元307输出的第1ch的声道内预测参数量化代码或从第2ch内预测单元310输出的第2ch的声道内预测参数量化代码中的任一个,将其作为声道内预测参数量化代码输出。将该声道内预测参数量化代码与其他的量化代码、编码数据以及选择信息进行复用,作为编码数据传输到后面叙述的语音解码装置。
具体而言,在通过相关度比较单元304选择第1ch时(即,第1ch的声道内相关大于第2ch的声道内相关时),选择单元306选择从第1ch内预测单元307输出的第1ch的声道内预测参数量化代码。另一方面,在通过相关度比较单元304选择第2ch时(即,第1ch的声道内相关小于等于第2ch的声道内相关时),选择单元306选择从第2ch内预测单元310输出的第2ch的声道内预测参数量化代码。
减法器303求作为输入信号的第1ch语音信号与第1ch预测信号之间的残差信号(第1ch预测残差信号),即,从第1ch语音信号中减去从声道间预测单元302输出的第1ch预测信号和从选择单元305输出的第1ch预测信号后所剩余的信号,并将它输出到第1ch预测残差信号编码单元308。
第1ch预测残差信号编码单元308输出将第1ch预测残差信号编码后所得的第1ch预测残差编码数据。将该第1ch预测残差编码数据与其它的编码数据、量化代码以及选择信息复用,作为编码数据传输到后面叙述的语音解码装置。此外,第1ch预测残差信号编码单元308将第1ch预测残差编码数据解码后所得的信号和从声道间预测单元302输出的第1ch预测信号,与从选择单元305输出的第1ch预测信号相加,求第1ch解码信号,并将该第1ch解码信号输出到第1ch内预测单元307和第2ch信号生成单元309。
在此,第1ch内预测单元307和第2ch内预测单元310利用各声道内的信号的相关性,进行从以前的信号来预测编码对象帧的信号的声道内预测。例如,使用1次的音调预测滤波器时,用式(5)表示声道内预测所预测的各声道的信号。在此,Sp(n)为各个声道的预测信号,s(n)为各个声道的解码信号(第1ch解码信号或第2ch解码信号)。此外,从各个声道的解码信号和各个声道的输入信号(第1ch语音信号或第2ch语音信号)求得T和gp,该T和gp为1次的音调预测滤波器的延迟和预测系数,并由它们构成声道内预测参数。
Sp(n)=gp·s(n-T)    ...式(5)
接着,用图2~图4,说明增强层编码单元300的动作。
首先,计算第1ch的声道内相关度cor1及第2ch的声道内相关度cor2(ST11)。
接着,比较cor1和cor2(ST12),使用声道内相关度较大的声道中的声道内预测。
也就是说,在为cor1>cor2时(ST12:“是”),将进行第1ch上的声道内预测而求得的第1ch预测信号选择为编码对象。具体而言,如图3所示,根据上面的式(5)从第n-1帧的第1ch解码信号21预测第n帧的第1ch信号22(ST13)。于是将所预测的第1ch预测信号22作为编码对象输出到选择单元305(ST17)。也就是说,在为cor1>cor2时,从第1eh解码信号直接预测第1ch信号。
另一方面,在为cor1≤cor2时(ST12:“否”),生成第2ch解码信号(ST14),进行第2ch上的声道内预测而求取第2声道预测信号(ST15),从第2ch预测信号和单声道解码信号求取第1ch预测信号(ST16)。将以此方式所求得的第1ch预测信号作为编码对象输出到选择单元305(ST17)。具体而言,如图4所示,根据上面的式(3),从第n-1帧的第1ch解码信号31和第n-1帧的单声道解码信号32生成第n-1帧的第2ch解码信号。接着,根据上面的式(5),从第n-1帧的第2ch解码信号33预测第n帧的第2ch信号34。接着,根据上面的式(4),从第n帧的第2ch预测信号34和第n帧的单声道解码信号35生成第n帧的第1ch预测信号36。然后,将以此方式所预测的第1ch预测信号36选择为编码对象。也就是说,在为cor1≤cor2时,从第2ch预测信号和单声道解码信号间接预测第1ch信号。
接着,说明本实施方式的语音解码装置。图5表示本实施方式的语音解码装置的结构。图5所示的语音解码装置400包括用于单声道信号的核心层解码单元410和用于立体声信号的增强层解码单元420。
单声道信号解码单元411将所输入的单声道信号的编码数据解码,并将单声道解码信号输出到增强层解码单元420,同时作为最终输出进行输出。
声道间预测参数解码单元421对所输入的声道间预测参数量化代码进行解码后,将其输出到声道间预测单元422。
声道间预测单元422使用经量化的声道间预测参数,从单声道解码信号预测第1ch信号,并将该第1ch预测信号(声道间预测)输出到加法器423。例如,声道间预测单元422通过上面的式(2)所表示的预测,从单声道解码信号sd_mono(n)合成第1ch预测信号sp_ch1(n)。
第1ch预测残差信号解码单元424将所输入的第1ch预测残差编码数据解码后,将它输出到加法器423。
加法器423将从声道间预测单元422输出的第1ch预测信号、从第1ch预测残差信号解码单元424输出的第1ch预测残差信号以及从选择单元426输出的第1ch预测信号相加,求第1ch解码信号,并将该第1ch解码信号输出到第1ch内预测单元425和第2ch信号生成单元427,同时作为最终输出进行输出。
第1ch内预测单元425通过与上述同样的声道内预测,从第1ch解码信号和第1ch的声道内预测参数量化代码预测第1ch信号,并将第1ch预测信号输出到选择单元426。
第2ch信号生成单元427根据上面的式(3),从单声道解码信号和第1ch解码信号生成第2ch解码信号,并将它输出到第2ch内预测单元428。
第2ch内预测单元428通过与上述同样的声道内预测,从第2ch解码信号和第2ch的声道内预测参数量化代码来预测第2ch信号,并将第2ch预测信号输出到第1ch信号生成单元429。
第1ch信号生成单元429根据上面的式(4),从单声道解码信号和第2ch预测信号生成第1ch预测信号,并将它输出到选择单元426。
选择单元426根据选择信息示出的选择结果,选择从第1ch内预测单元425输出的第1ch预测信号或从第1ch信号生成单元429输出的第1ch预测信号中的任一个,并将它输出到加法器423。在由图1的语音编码装置100选择了第1ch时(即,第1ch的声道内相关大于第2ch的声道内相关时),选择单元426选择从第1ch内预测单元425输出的第1ch预测信号,而在由语音编码装置100选择了第2ch时(即,第1ch的声道内相关小于等于第2ch的声道内相关时),选择单元426选择从第1ch信号生成单元429输出的第1ch预测信号。
在采用这样的结构的语音解码装置400中,在单声道/立体声可伸缩结构中,在使输出语音为单声道时,将仅从单声道信号的编码数据获得的解码信号作为单声道解码信号输出。另一方面,在语音解码装置400中,在使输出语音为立体声时,使用所有的所接收的编码数据和量化代码来将第1ch解码信号和第2ch解码信号解码并输出。
于是,在本实施方式中,由于使用由声道内相关较大的声道中的声道内预测所求得的预测信号来进行增强层中的编码,所以即使在编码对象声道(在本实施方式中为第1ch)的编码对象帧中的声道内相关(声道内预测性能)较小而不能有效地进行预测时,在其他的声道(在本实施方式中为第2ch)的声道内相关较大的情况下,也能够使用通过其他的声道中的声道内预测所求得的预测信号来预测编码对象声道的信号,从而即使在编码对象声道的声道内相关较小时,也能够获得充分的预测性能(预测增益),其结果,能够防止编码效率劣化。
另外,在上述说明中,说明了在增强层编码单元300中设置声道间预测参数分析单元301和声道间预测单元302的结构,但是也可以是增强层编码单元300不具有这些单元的结构。此时,在增强层编码单元300中,从核心层编码单元200输出的单声道信号被直接输入到减法器303,减法器303从第1ch语音信号减去单声道解码信号和第1ch预测信号而求预测残差信号。
此外,在上述说明中,根据声道内相关的大小,选择通过第1ch中的声道内预测而直接求得的第1ch预测信号(直接预测),或从通过第2ch中的声道内预测所求得的第2ch预测信号而间接求得的第1ch预测信号(间接预测)中的任一个。但是,本发明不限于此,也可以选择编码对象声道即第1ch的声道内预测误差(即,相对于作为输入信号的第1ch语音信号的第1ch预测信号的误差)较小的一方的第1ch预测信号。此外,也可以使用双方的第1ch预测信号来进行增强层中的编码,选择其结果所产生的编码失真较小的一方的第1ch预测信号。
(实施方式2)
图6表示本实施方式的语音编码装置500的结构。
在核心层编码单元510中,单声道信号生成单元511根据上面的式(1)生成单声道信号,并将其输出到单声道信号CELP编码单元512。
单声道信号CELP编码单元512对由单声道信号生成单元511生成的单声道信号进行CELP编码,并输出单声道信号编码数据和通过CELP编码而获得的单声道驱动音源信号。单声道信号编码数据被输出到单声道信号解码单元513,同时与第1ch编码数据进行复用后被传输到语音解码装置。此外,单声道驱动音源信号被保持在单声道驱动音源信号保持单元521中。
单声道信号解码单元513从单声道信号的编码数据生成单声道的解码信号,将它输出到单声道解码信号保持单元522。该单声道解码信号被保持在单声道解码信号保持单元522中。
在增强层编码单元520中,第1chCELP编码单元523对第1ch语音信号进行CELP编码后输出第1ch编码数据。第1chCELP编码单元523使用单声道信号编码数据、单声道解码信号、单声道驱动音源信号、第2ch语音信号以及从第2ch信号生成单元525输入的第2ch解码信号,进行与第1ch语音信号对应的驱动音源信号的预测以及对该预测残差分量的CELP编码。在对该预测残差分量的CELP音源编码中,第1chCELP编码单元523基于立体声信号的各声道的声道内相关,切换用于进行自适应码本搜索的码本(也就是说,切换进行声道内预测的声道,该声道内预测用于编码)。在后面叙述第1chCELP编码单元523的细节。
第1ch解码单元524将第1ch编码数据解码而求取第1ch解码信号,并将该第1ch解码信号输出到第2ch信号生成单元525。
第2ch信号生成单元525根据上面的式(3),从单声道解码信号和第1ch解码信号生成第2ch解码信号,并将其输出到第1chCELP编码单元523。
接着,说明第1chCELP编码单元523的细节。图7表示第1chCELP编码单元523的结构。
在图7中,第1chLPC分析单元601进行对第1ch语音信号的LPC分析,并将所获得的LPC参数进行量化后输出到第1chLPC预测残差信号生成单元602和合成滤波器615,同时将第1chLPC量化代码作为第1ch编码数据输出。在第1chLPC分析单元601中,在将LPC参数量化时,利用对单声道信号的LPC参数和从第1ch语音信号获得的LPC参数(第1chLPC参数)之间的相关较大,从单声道信号的编码数据将单声道信号量化LPC参数解码,通过对相对于该单声道信号量化LPC参数的第1chLPC参数的差分分量进行量化,从而进行高效率的量化。
第1chLPC预测残差信号生成单元602使用第1ch量化LPC参数,计算对于第1ch语音信号的LPC预测残差信号并将它输出到声道间预测参数分析单元603。
声道间预测参数分析单元603从LPC预测残差信号和单声道驱动音源信号,求取并量化对单声道信号的第1ch语音信号的预测参数(声道间预测参数),并将其输出到第1ch驱动音源信号预测单元604。此外,声道间预测参数分析单元603将对声道间预测参数进行量化和编码后所得的声道间预测参数量化代码作为第1ch编码数据而输出。
第1ch驱动音源信号预测单元604使用单声道驱动音源信号和经量化的声道间预测参数,合成与第1ch语音信号对应的预测驱动音源信号。在乘法器612-1将该预测驱动音源信号乘以增益后,将它输出到加法器614。
在此,声道间预测参数分析单元603与实施方式1(图1)中的声道间预测参数分析单元301对应,并且它们的动作相同。此外,第1ch驱动音源信号预测单元604与实施方式1(图1)中的声道间预测单元302对应,并且它们的动作相同。但是,在本实施方式中,不是进行对单声道解码信号的预测而合成第1ch预测信号,而是进行对单声道驱动音源信号的预测而合成第1ch的预测驱动音源信号,在这方面与实施方式1不同。而且,在本实施方式中,通过CELP编码中的音源搜索来将对该预测驱动音源信号的残差分量(预测不了的误差分量)的音源信号进行编码。
相关度比较单元605从第1ch语音信号计算第1ch的声道内相关,同时从第2ch语音信号计算第2ch的声道内相关。然后,相关度比较单元605比较第1ch的声道内相关与第2ch的声道内相关,选择具有较大相关的声道。表示该选择的结果的选择信息被输出到选择单元613。此外,将该选择信号作为第1ch编码数据输出。
第2chLPC预测残差信号生成单元606从第1ch量化LPC参数和第2ch解码信号生成对第2ch解码信号的LPC预测残差信号,并生成由直至前一个子帧(第n-1子帧)为止的第2chLPC预测残差信号所构成的第2ch自适应码本607。
单声道LPC预测残差信号生成单元609从第1ch量化LPC参数和单声道解码信号生成对单声道解码信号的LPC预测残差信号(单声道LPC预测残差信号),并将它输出到第1ch信号生成单元608。
第1ch信号生成单元608基于与由失真最小化单元618指示的索引对应的自适应码本延迟(1ag),使用从第2ch自适应码本607输出的第2ch的代码向量Vacb_ch2(n)(其中n=0~NSUB-1;NSUB为子帧长度(CELP音源搜索时的区间长度单元)),和编码对象的当前子帧(第n子帧)的单声道LPC预测残差信号Vres_mono(n),基于上面的式(1)的关系并根据式(6),计算与第1ch的自适应音源对应的代码向量Vacb_ch1(n),并将它作为自适应码本向量输出。在乘法器612-2将该代码向量Vacb_ch1(n)乘以自适应码本增益后,将其输出到选择单元613。
Vacb_ch1(n)=2·Vres_mono(n)-Vacb_ch2(n)    ...(6)
第1ch自适应码本610基于与由失真最小化单元618指示的索引对应的自适应码本延迟,将相当于1子帧的第1ch的代码向量作为自适应码本向量输出到乘法器612-3。在乘法器612-3将该自适应码本向量乘以自适应码本增益后,将它输出到选择单元613。
选择单元613根据相关比较单元605中的选择结果,选择从乘法器612-2输出的自适应码本向量或从乘法器612-3输出的自适应码本向量中的任一个,并将它输出到乘法器612-4。在由相关度比较单元605选择了第1ch时(即,第1ch的声道内相关大于第2ch的声道内相关时),选择单元613选择从乘法器612-3输出的自适应码本向量,而在由相关度比较单元605选择了第2ch时(即,第1ch的声道内相关小于等于第2ch的声道内相关时),选择单元613选择从乘法器612-3输出的自适应码本向量。
乘法器612-4将从选择单元613输出的自适应码本向量乘以其他的增益,将它输出到加法器614。
第1ch固定码本611将与由失真最小化单元618指示的索引对应的代码向量作为固定码本向量输出到乘法器612-5。
乘法器612-5将从第1ch固定码本611输出的固定码本向量乘以固定码本增益,将它输出到乘法器612-6。
乘法器612-6将固定码本向量乘以其他的增益,将它输出到加法器614。
加法器614将从乘法器612-1输出的预测驱动音源信号、从乘法器612-4输出的自适应码本向量以及从乘法器612-6输出的固定码本向量相加,将相加后的音源向量作为驱动音源输出到合成滤波器615。
合成滤波器615使用第1ch量化LPC参数,将从加法器614输出的音源向量作为驱动音源来进行由LPC合成滤波器进行的合成,并将通过该合成而获得的合成信号输出到减法器616。此外,合成信号中与第1ch的预测驱动音源信号对应的分量相当于在实施方式1(图1)中从声道间预测单元302输出的第1ch预测信号。
减法器616通过从第1ch语音信号中减去从合成滤波器615输出的合成信号来计算误差信号,并将该误差信号输出到听觉加权单元617。该误差信号相当于编码失真。
听觉加权单元617对于从减法器616输出的编码失真进行听觉加权,并将其输出到失真最小化单元618。
失真最小化单元618对第2ch自适应码本607、第1ch自适应码本610以及第1ch固定码本611,决定使从听觉加权单元617输出的编码失真为最小的索引,并指示第2ch自适应码本607、第1ch自适应码本610以及第1ch固定码本611所使用的索引。此外,失真最小化单元618生成与这些索引对应的增益(自适应码本增益和固定码本增益),并将其分别输出到乘法器612-2、612-3以及612-5。
此外,失真最小化单元618生成用于调整从第1ch驱动音源信号预测单元604输出的预测驱动音源信号、从选择单元613输出的自适应码本向量以及从乘法器612-5输出的固定码本向量这三种信号之间的增益的各种增益,并分别输出到乘法器612-1、612-4以及612-6。期望用于调整这三种信号之间的增益的三种增益优选以在这些增益值之间相互具有关系性的方式生成。例如,在第1ch语音信号和第2ch语音信号的声道间相关大的情况下,使得预测驱动音源信号的贡献部分对于乘以增益后的自适应码本向量和乘以增益后的固定码本向量的贡献部分相对地增大,反之在声道间相关小的情况下,使得预测驱动音源信号的贡献部分对于乘以增益后的自适应码本向量和乘以增益后的固定码本向量的贡献部分相对地减小。
此外,失真最小化单元618将这些索引、与这些索引对应的各增益的代码以及信号之间调整用增益的代码作为第1ch音源编码数据输出。将该第1ch音源编码数据作为第1ch编码数据输出。
接着,用图8,说明第1chCELP编码单元523的动作。
首先,计算第1ch的声道内相关度cor1和第2ch的声道内相关度cor2(ST41)。
接着,比较cor1和cor2(ST42),进行使用了声道内相关度较大的声道的自适应码本的自适应码本搜索。
也就是说,在为cor1>cor2时(ST42:“是”),进行使用了第1ch自适应码本的自适应码本搜索(ST43),并输出搜索结果(ST48)。
另一方面,在为cor1≤cor2时(ST42:“否”),生成单声道LPC预测残差信号(ST44),生成第2chLPC预测残差信号(ST45),从第2chLPC预测残差信号生成第2ch自适应码本(ST46),进行使用了单声道LPC预测残差信号和第2ch自适应码本的自适应码本搜索(ST47),输出搜索结果(ST48)。
这样,根据本实施方式,由于使用适于语音编码的CELP编码,与实施方式1相比,能够进行更高效率的编码。
此外,在上述说明中,说明了在第1chCELP编码单元523中设有第1chLPC预测残差信号生成单元602、声道间预测参数分析单元603以及第1ch驱动音源信号预测单元604的结构,但是第1chCELP编码单元523也可以采用不具有这些单元的结构。此时,在第1chCELP编码单元523中,将从单声道驱动音源信号保持单元521输出的单声道驱动音源信号乘以直接增益后输出到加法器614。
此外,在上述说明中,基于声道内相关的大小,选择了使用第1ch自适应码本610的自适应码本搜索或使用第2ch自适应码本607的自适应码本搜索中的任一个,但是也可以进行它们双方的自适应码本搜索,选择编码对象声道(在本实施方式中为第1ch)的编码失真较小的一方的搜索结果。
也可以将上述各实施方式的语音编码装置和语音解码装置搭载在移动通信系统中使用的无线通信移动台装置或无线通信基站装置等无线通信装置上。
此外,在上述各实施方式中,以由硬件构成本发明的情况为例进行了说明,但本发明也可以由软件实现。
另外,在上述各实施方式的说明中使用的各功能块典型地通过集成电路的LSI来实现。它们可单独地一芯片化,也可一部分或是包括全部那样一芯片化。
这里为LSI,而根据集成度的不同,有时也称为IC、系统LSI、超级LSI、超大LSI。
在集成电路化的方法不局限于LSI,也可用专用电路或通用处理器实现。也可以利用能在LSI制造后编程的FPGA(Field Programable Gate Array,现场可编程门阵列),或将LSI内部的电路单元连接或设定重新配置的可重配置处理器。
进而,若由半导体技术的进步或派生的不同技术而出现取代LSI的集成电路化的技术,当然也可以使用该技术进行功能块的集成化。并且存在着适用生物技术的可能性。
本说明书是基于2005年4月28日申请的日本专利特愿2005-132365。其内容全部包含于此。
产业上的可利用性
本发明可以应用于移动通信系统或使用因特网协议的分组通信系统等中的通信装置的用途。

Claims (4)

1.一种语音编码装置,包括:
第1编码单元,进行用于单声道信号的核心层的编码;以及
第2编码单元,进行用于立体声信号的增强层的编码,
所述第1编码单元从构成立体声信号的第1声道的信号和第2声道的信号生成单声道信号,对所述单声道信号进行编码,以生成所述单声道信号的编码数据,并从所述编码数据生成单声道解码信号,
所述第2编码单元分别计算所述第一声道和所述第二声道的声道内相关,在所述第一声道的声道内相关大于所述第二声道的声道内相关时,将进行所述第一声道上的声道内预测所生成的第一声道预测信号选择为编码对象,而在所述第一声道的声道内相关不大于所述第二声道的声道内相关时,生成所述第二声道的解码信号,并使用通过所述第二声道上的声道内预测所生成的第二预测信号和所述单声道解码信号,以求取第一声道预测信号。
2.一种无线通信移动台装置,具有权利要求1所述的语音编码装置。
3.一种无线通信基站装置,具有权利要求1所述的语音编码装置。
4.一种语音编码方法,进行用于单声道信号的核心层的编码和用于立体声信号的增强层扩展层的编码,其中:
在所述核心层中,从构成立体声信号的第1声道的信号和第2声道的信号生成单声道信号,对所述单声道信号进行编码,以生成所述单声道信号的编码数据,并从所述编码数据生成单声道解码信号;以及
在所述增强层中,分别计算所述第一声道和所述第二声道的声道内相关,在所述第一声道的声道内大于所述第二的声道的声道内相关时,将进行所述第一声道上的声道内预测所生成的第一声道预测信号选择为编码对象,而在所述第一声道的声道内相关不大于所述第二声道的声道内相关时,生成所述第二声道的解码信号,并使用通过所述第二声道上的声道内预测所生成的第二预测信号和所述单声道解码信号,以求取第一声道预测信号。
CN2006800142383A 2005-04-28 2006-04-27 语音编码装置和语音编码方法 Expired - Fee Related CN101167124B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005132365 2005-04-28
JP132365/2005 2005-04-28
PCT/JP2006/308811 WO2006118178A1 (ja) 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法

Publications (2)

Publication Number Publication Date
CN101167124A CN101167124A (zh) 2008-04-23
CN101167124B true CN101167124B (zh) 2011-09-21

Family

ID=37307976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800142383A Expired - Fee Related CN101167124B (zh) 2005-04-28 2006-04-27 语音编码装置和语音编码方法

Country Status (7)

Country Link
US (1) US8433581B2 (zh)
EP (1) EP1876585B1 (zh)
JP (1) JP4850827B2 (zh)
KR (1) KR101259203B1 (zh)
CN (1) CN101167124B (zh)
DE (1) DE602006014957D1 (zh)
WO (1) WO2006118178A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090028240A1 (en) * 2005-01-11 2009-01-29 Haibin Huang Encoder, Decoder, Method for Encoding/Decoding, Computer Readable Media and Computer Program Elements
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
US20100049508A1 (en) * 2006-12-14 2010-02-25 Panasonic Corporation Audio encoding device and audio encoding method
JPWO2008090970A1 (ja) * 2007-01-26 2010-05-20 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP5190445B2 (ja) * 2007-03-02 2013-04-24 パナソニック株式会社 符号化装置および符号化方法
SG179433A1 (en) * 2007-03-02 2012-04-27 Panasonic Corp Encoding device and encoding method
ATE547786T1 (de) 2007-03-30 2012-03-15 Panasonic Corp Codierungseinrichtung und codierungsverfahren
EP2209114B1 (en) * 2007-10-31 2014-05-14 Panasonic Corporation Speech coding/decoding apparatus/method
JP5153791B2 (ja) * 2007-12-28 2013-02-27 パナソニック株式会社 ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
EP2144228A1 (en) 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
EP2402941B1 (en) 2009-02-26 2015-04-15 Panasonic Intellectual Property Corporation of America Channel signal generation apparatus
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
WO2010140350A1 (ja) * 2009-06-02 2010-12-09 パナソニック株式会社 ダウンミックス装置、符号化装置、及びこれらの方法
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
WO2017109865A1 (ja) * 2015-12-22 2017-06-29 三菱電機株式会社 データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274740A (en) * 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
JP3622365B2 (ja) 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
CN1205842C (zh) 1997-04-10 2005-06-08 索尼株式会社 编码方法和装置、解码方法和装置
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
US6356211B1 (en) 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6961432B1 (en) 1999-04-29 2005-11-01 Agere Systems Inc. Multidescriptive coding technique for multistream communication of signals
JP3335605B2 (ja) * 2000-03-13 2002-10-21 日本電信電話株式会社 ステレオ信号符号化方法
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP3951690B2 (ja) * 2000-12-14 2007-08-01 ソニー株式会社 符号化装置および方法、並びに記録媒体
US6614365B2 (en) 2000-12-14 2003-09-02 Sony Corporation Coding device and method, decoding device and method, and recording medium
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
AU2002246280A1 (en) * 2002-03-12 2003-09-22 Nokia Corporation Efficient improvements in scalable audio coding
US20030231799A1 (en) * 2002-06-14 2003-12-18 Craig Schmidt Lossless data compression using constraint propagation
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
EP1914723B1 (en) * 2004-05-19 2010-07-07 Panasonic Corporation Audio signal encoder and audio signal decoder
US7742912B2 (en) * 2004-06-21 2010-06-22 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
EP1801783B1 (en) * 2004-09-30 2009-08-19 Panasonic Corporation Scalable encoding device, scalable decoding device, and method thereof
US20090028240A1 (en) * 2005-01-11 2009-01-29 Haibin Huang Encoder, Decoder, Method for Encoding/Decoding, Computer Readable Media and Computer Program Elements
EP1859531A4 (en) * 2005-03-11 2008-04-09 Agency Science Tech & Res predictor
KR20130079627A (ko) * 2005-03-30 2013-07-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 인코딩 및 디코딩
US8032368B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block swithcing and linear prediction coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding

Also Published As

Publication number Publication date
CN101167124A (zh) 2008-04-23
JP4850827B2 (ja) 2012-01-11
EP1876585A1 (en) 2008-01-09
US20090076809A1 (en) 2009-03-19
EP1876585B1 (en) 2010-06-16
DE602006014957D1 (de) 2010-07-29
EP1876585A4 (en) 2008-05-21
KR20080003839A (ko) 2008-01-08
US8433581B2 (en) 2013-04-30
WO2006118178A1 (ja) 2006-11-09
JPWO2006118178A1 (ja) 2008-12-18
KR101259203B1 (ko) 2013-04-29

Similar Documents

Publication Publication Date Title
CN101167124B (zh) 语音编码装置和语音编码方法
CN101167126B (zh) 语音编码装置和语音编码方法
CN101091208B (zh) 语音编码装置和语音编码方法
CN101091206B (zh) 语音编码装置和语音编码方法
JP5413839B2 (ja) 符号化装置および復号装置
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP4887279B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
US8271275B2 (en) Scalable encoding device, and scalable encoding method
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
US9053701B2 (en) Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
JP2009134187A (ja) 符号化装置、復号装置、およびこれらの方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140717

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140717

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170524

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110921

CF01 Termination of patent right due to non-payment of annual fee