CN101635145A - 编解码方法、装置和系统 - Google Patents

编解码方法、装置和系统 Download PDF

Info

Publication number
CN101635145A
CN101635145A CN200810132296A CN200810132296A CN101635145A CN 101635145 A CN101635145 A CN 101635145A CN 200810132296 A CN200810132296 A CN 200810132296A CN 200810132296 A CN200810132296 A CN 200810132296A CN 101635145 A CN101635145 A CN 101635145A
Authority
CN
China
Prior art keywords
code stream
signal
stereo
coding
arrowband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810132296A
Other languages
English (en)
Other versions
CN101635145B (zh
Inventor
张树华
窦维蓓
吴文海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Huawei Technologies Co Ltd
Original Assignee
Tsinghua University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Huawei Technologies Co Ltd filed Critical Tsinghua University
Priority to CN2008101322967A priority Critical patent/CN101635145B/zh
Priority to PCT/CN2009/072793 priority patent/WO2010009659A1/zh
Publication of CN101635145A publication Critical patent/CN101635145A/zh
Application granted granted Critical
Publication of CN101635145B publication Critical patent/CN101635145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例公开了一种编解码方法、装置和系统,音频编解码领域,为解决现有技术无法对双声道的立体声信号进行编解码的问题而发明。本发明实施例提供的方法,包括如下步骤:对左、右声道的信号下混后进行窄带编码,得到核心码流;将核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号;获得所述左、右声道的残差信号的立体声码流和扩展码流;将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。本发明适用于各种立体声语音音乐编解码系统。

Description

编解码方法、装置和系统
技术领域
本发明涉及音频编解码领域,尤其涉及编解码方法、装置和系统。
背景技术
随着通信技术的发展,利用宽带的语音音乐传输越来越普遍,宽带语音音乐编码技术便是伴随着宽带音频数据传输产生的。
现有宽带语音音乐编解码技术主要是基于以下方式实现的:
在发射端,输入的单声道语音音乐信号经过时域窄带编码,得到核心码流。所述核心码流一路直接发送给接收端,一路与原输入的单声道语音音乐信号做差,得到残差信号。所述残差信号在频域进行编码后向接收端发送。接收端接收所述核心码流和残差信号,按照与发射端相反的顺序还原出语音音乐信号并输出。
在实现上述编解码的过程中,发明人发现现有技术中至少存在如下问题:在输入的是多声源语音音乐信号时,现有技术对语音音乐信号的还原效果较差。
发明内容
本发明的实施例提供一种编解码方法、装置和系统,能够提高对语音音乐信号的还原效果。
为达到上述目的,本发明的实施例采用如下技术方案:
一种编码方法,包括:
对左、右声道的信号下混后进行窄带编码,得到核心码流;
将核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号;
获得所述左、右声道的残差信号的立体声码流和扩展码流;
将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
一种解码方法,包括:
将接收的编码码流解复用为核心码流、立体声码流和扩展码流;
将所述核心码流通过窄带解码还原成窄带单声道信号;
将所述扩展码流扩展解码;
将所述立体声码流、所述窄带单声道信号和所述扩展解码后的扩展码流还原出左、右声道信号。
一种编码装置,包括:
窄带编码单元,用于对左、右声道的信号下混后进行窄带编码,得到核心码流;
残差信号截取单元,用于将所述核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号;
立体声处理单元,用于获得所述左、右声道的残差信号的立体声码流和扩展码流;
复用单元,用于将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
一种解码装置,包括:
解复用单元,用于将接收到的编码码流解复用为核心码流、立体声码流和扩展码流;
窄带解码单元,用于将所述核心码流通过窄带解码还原成窄带单声道信号;
扩展码流解码单元,用于将所述扩展码流扩展解码;
左右声道信号还原单元,用于根据立体声码流、窄带单声道信号和扩展解码后的扩展码流还原出左、右声道信号。
一种编解码系统,包括:
编码模块,用于发送进行窄带编码的左右声道输入信号,以及立体声编码处理的左右声道的残差信号;
解码模块,用于根据所述窄带编码的左右声道输入信号,以及所述立体声编码处理的左右声道的残差信号,还原左右声道信号和窄带单声道信号。
本发明实施例提供的编解码方法、装置和系统,通过在发送端分别提取左、右声道的残差信号,然后对所述残差信号进行立体声处理,另将核心码流与经过立体声处理的残差信号一起发送给接收端,接收端通过所述核心码流与经过立体声处理的残差信号,可以还原出左、右声道信号,这样,在输入的是多声源语音音乐信号时,相较于现有技术的单声道语音音乐编解码方案,本发明实施例可以通过左、右声道信号间的差异,提高对语音音乐信号的还原效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法第一实施例发射端编码流程;
图2为本发明方法第一实施例接收端编码流程;
图3为本发明方法第二实施例发射端编码流程;
图4为本发明方法第二实施例接收端编码流程;
图5为16kHz清晰语音信号,AMR-WB模式2下编解码与原信号的差异;
图6为16kHz女声歌唱,AMR-WB模式2下编解码与原信号的差异;
图7为本发明装置第一实施例发射端结构图;
图8为本发明装置第一实施例接收端结构图;
图9为本发明装置第二实施例发射端结构图;
图10为本发明装置第二实施例接收端结构图;
图11为本发明系统实施例发射端结构图;
图12为本发明系统实施例接收端结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例主要是针对宽带语音音乐,提出了一种立体声编解码方案。下面结合附图对本发明实施例编解码的方法、装置、系统进行详细描述。
本发明编解码方法的第一实施例如下:
其中,发射端编码方法如图1所示,包括:
S101、对左、右声道的信号下混后进行窄带编码,得到核心码流。
本发明实施例与现有技术显著的不同就是针对左右声道进行信号处理,而现有技术只针对单声道语音音乐信号进行处理。此步骤将左右声道的两路输入信号合并成一路信号,主要是为了统一进行窄带编码,以节省系统资源。
S102、将核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号。
由于输入的宽带语音音乐信号的带宽要大于窄带带宽,所以经过窄带编码的左右声道下混输入信号由于带宽的限制,会有一部分数据在窄带编码过程中损失了,为了尽量保证输入信号的完整性,本步骤将经过窄带编码的核心码流再解码还原成下混输入信号,这个经过了窄带编码的信号是有失真的,将这个有失真的数据与未经过窄带编码的原始的左、右声道的输入信号做差,也就是相减,就能得到在通过窄带时失去的那部分数据,也就是窄带之外的宽带数据,所述宽带数据就是本步骤最终得到的残差信号。
现有技术也是要将核心码流还原后与原输入信号做差的,不同的是,本实施例输入是双声道,所以需要将核心码流还原后分别与原左、右声道的输入信号做差,分别得到左声道残差信号和右声道残差信号。
S103、获得所述左、右声道的残差信号的立体声码流和扩展码流。
本步骤是本实施例区别于现有技术的最主要技术特征。现有技术对单声道输入信号的残差信号在频域只进行扩展编码,得到扩展码流发送出去。本实施例针对左、右声道的输入信号,在取得残差信号之后,在频域先要对残差信号进行一步立体声编码,提取立体声码流,之后再进行扩展编码,得到扩展码流。这主要是因为频域输入的是左、右两路残差信号,比原来多了一路,由于输入信号不再单一,所以,两声道通过输入信号彼此之间的细微差异可以体现出立体声效果,即,可以将多个声源区分开。换句话说,能否将左右声道的残差信号间的差异表现出来,是能否还原立体声的关键。如果此时仅仅将两路残差信号下混后,再经过扩展编码输出,那么在接收端将无法凭此一路扩展码流还原出有差异的左右声道残差信号。
综上所述,为了体现左右声道残差信号之间的差异,需要在扩展码流之外再提取两路残差信号的差异值,本步骤的立体声编码就是为了提取所述差异值,结合扩展码流,就可以在接收端还原出左右声道两路残差信号。
除了能够对立体声信号进行编码以外,本步骤还带来了以下好处:
左右声道的主要输入信号不经过时频变换,不进行后续立体声处理,降低了系统复杂性和时延。
S104、将所述核心码流、立体声码流和扩展码流复用成一路码流并发送。
接收端解码方法如图2所示,包括:
S201、将接收的编码码流解复用为核心码流、立体声码流和扩展码流。
此步骤与发射端相对应。
S202、将所述核心码流通过窄带解码还原成窄带单声道信号。
由于核心码流未经过时频变换和立体声处理,所以只需窄带解码就可还原成窄带单声道信号,过程简单,也保证了系统时延最小。
S203、将所述扩展码流扩展解码。
S204、将所述立体声码流、所述窄带单声道信号和所述扩展解码后的扩展码流还原出左、右声道信号。
以核心码流为主体,加上用立体声码流和扩展解码后的扩展码流还原出的残差信号,可以还原出左右声道的立体声信号。
本实施例通过在发送端分别提取左、右声道的残差信号,然后对所述残差信号进行立体声处理,另将核心码流与经过立体声处理的残差信号一起发送给接收端,接收端通过所述核心码流与经过立体声处理的残差信号,可以还原出左、右声道信号,这样,在输入的是多声源语音音乐信号时,相较于现有技术的单声道语音音乐编解码方案,本发明实施例可以通过左、右声道信号间的差异,还原出原始多声源语音音乐信号的立体声效果。
另外,需要指出的是,本实施例的设计是针对双声道输入输出的立体声语音音乐编解码方案,但本实施例的设计思想可以应用到更多声道的立体声输入输出设计中。
本发明编解码方法的第二实施例如下:
其中,发射端编码方法如图3所示,包括:
S301、将左、右声道信号均匀下混成一路信号,并进行带通滤波和下采样。
下采样主要是为了将信号从输入采样率降低到核心编码的内部采样率。
S302、将所述经过带通滤波和下采样的信号进行核心编码以获得所述核心码流。
S303、将所述核心码流解码成下混信号。
在不计核心编码误差,核心编码得到的信号精确等于输入的下混信号M=(L+R)/2,其中L,R分别表示左右声道信号。此时左路残差信号ΔL=(L-R)/2,右路残差信号ΔR=(R-L)/2,此时ΔL=-ΔR,两路残差信号可以用其中一路表示。实际情况下,核心编码得到的信号
Figure S2008101322967D00071
总是不同于下混信号M。此时左右两路残差信号 ΔL = L - M ~ ,右声道残差信号 ΔR = R - M ~ ,一般有ΔL≠-ΔR,两路信号不能无损的只用其中一路表示,即左右声道残差信号中仍存有立体信号,这个信号是通过核心编码后产生的误差。
关于这个误差的问题,这里举一个针对AMR-WB的例子,对于16kHz采样的单声道语音信号,采用基于内部采样率12.8kHz的AMR-WB进行在模式2(12.65kbps)下编码和解码,并与原信号相减(经过6ms的延时调整),其差信号如图5所示(图5中部水平线代表参照系M,水平线附近信号为相对与参照系M的差值)。可以看出,M与
Figure S2008101322967D00082
的差异是非常显著的。对于16kHz采样的女声歌唱,M与
Figure S2008101322967D00083
更加显著,如下图6所示(图6中部水平线代表参照系M,水平线附近信号为
Figure S2008101322967D00084
相对与参照系M的差值)。
本步骤就是为了消除这个误差而做出的改进。
S304、将所述解码得到的下混信号上采样到原左、右声道的信号的采样率。
S305、将原左、右声道的信号与上采样后的下混信号相减,分别得到所述左、右声道的残差信号。
从步骤S303可以知道,左右声道在实际中的残差信号是不一致的,所以本步骤必须分别得到左声道和右声道的残差信号,以便进行立体声编码。
S306、对所述左、右声道的残差信号进行时频变换,获得左、右声道残差频域信号。
进行时频变换的目的是为了在频域对信号进行立体声处理。这是因为如果在时域进行立体声处理,现有的时域立体声技术是通过线性回归和预测滤波器等方法从一个声道预测另一个声道的,对含有多个声源的立体声信号处理的分离度不高,其直接结果就是立体声效果很差。频域处理可以有效避免时域当中遇到的问题,多个声源的声像分离度高。
对所述残差信号进行时频变换,是为了下一步在频域对其进行立体声处理。这样在保证声像分离度方面效果会好于在时域对残差信号进行立体声处理。
S307、对所述左、右声道残差频域信号进行立体声编码,得到所述立体声码流。
所述立体声码流主要是两路残差信号之间的相位差、强度差、相关度、极大相关旋转角。
立体声编码在频域进行,可以降低复杂度并减小系统延时。分子带提取残差信号的立体声信息,如参数立体声方法提取的相位差(Inter-channel PhaseDifference,IPD),强度差(Inter-channel Level Difference,ILD),和相关度(Inter-channel Coherence,IC),或者极大相关度立体声方法提取极大相关旋转角θ。进一步的,低频和高频部分采用不同的量化和熵编码方法,以反映低频残差信号和高频残差信号不同的特性。
S308、将所述左、右声道残差频域信号下混成另一路信号,进行扩展编码,形成所述扩展码流。
所述扩展码流包括频谱编码量化数据。
S309、将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
接收端解码方法如图4所示,包括:
S401、将接收到的编码码流解复用为核心码流、立体声码流和扩展码流。
由于三路信号所需进行的后续处理不同,所以,首先在本步骤进行解复用,使三路信号分离。
S402、对所述核心码流进行核心解码。
S403、对经过核心解码的信号进行上采样,得到窄带单声道信号。
由于核心码流在发射端未经过频域立体声处理,所以接收端也无需进行频域立体声处理,这样,对核心码流的处理过程最为简短,有利于减小延时。
S404、将所述扩展码流扩展解码,再进行时频逆变换,将时频逆变换后的信号与所述窄带单声道信号合并成宽带单声道信号。
虽然扩展码流在发射端经过了较为复杂的处理流程,但由于数据相对较少,还是能够保证与窄带单声道信号合并后形成的宽带单声道信号的延时和相位失真最小的。
S405、将所述立体声码流和所述扩展解码后的扩展码流经立体声解码处理,得到左、右声道的残差频域信号。
之所以要将左右声道残差频域信号分离成立体声码流和扩展码流传输,是因为这样可以降低发射端和接收端之间的传输数据量,但代价是增加了本处理步骤。
S406、所述左、右声的道残差频域信号经时频逆变换后得到左、右声道的残差信号。
将左右声道残差频域信号转换成时域信号以便与时域的窄带单声道信号合并,得到最终的左右声道输出信号。
S407、左声道的残差信号与所述窄带单声道信号合并,得到左声道信号。
S408、右声道的残差信号与所述窄带单声道信号合并,得到右声道信号。
本实施例二相对于现有技术,具有以下优点:
1、本实施例二在输入的是多声源语音音乐信号时,相较于现有技术的单声道语音音乐编解码方案,本实施例二可以通过左、右声道信号间的差异,还原出原始多声源语音音乐信号的立体声效果。
2、本实施例二在频域进行立体声处理,可以方便的分子带提取立体声信息。而在实际的信号中,其中包含的声源通常分布在不同的频带,因此逐子带处理可以将分布在不同频带的声源分离开。此外,若频带按人耳的非线性特性划分,那么即便出现在同一个带的不同声源也由于人耳的有限的分辨力将其当作一个声源来识别。
3、本实施例二只在发射端进行了一次时频变换,之后的频域处理,包括立体声编码、两路残差信号下混、扩展编码都是在同一频带下进行的,避免了现有技术在频域信号处理时,由于不同的处理步骤在不同的频段进行,造成立体声处理部分在不同频段之间频繁的正变换和反变换的问题,减少了由此带来的加窗操作和缓冲,在接收端也相应减少了处理流程,降低了整体的编解码复杂度和系统复杂度。
4、传输信号分为核心码流,扩展码流,以及立体声码流三个部分。仅仅根据核心码流可以得到窄带单声道信号,而不依赖扩展码流和立体声码流;根据核心码流和扩展码流可以得到宽带单声道信号,而不依赖立体声码流数据;如果有全部三个传输信号,就可以重建宽带立体声信号。这样,本实施例在传输过程中可以很好的适应传输线路的环境。如果实际的传输线路带宽有限,只能传输窄带信号,那么通过本实施例的编解码方法,可以只传输窄带单声道信号。如果实际的传输线路带宽较大,但发送端和接收端不支持立体声信号的输入输出,通过本实施例的编解码方法依然可以传输完整的宽带单声道信号。如果实际的传输线路带宽很高,发送端和接收端也支持立体声信号的输入输出,那么通过本实施例的编解码方法,就可以传输左右声道立体声信号。
本发明编解码装置的第一实施例如下:
其中,发射端编码装置如图7所示,包括:
窄带编码单元1:用于对左、右声道的信号下混后进行窄带编码,得到核心码流。
此单元与现有技术相同,主要是为了将左右声道的两路输入信号合并成一路信号,统一进行窄带处理。
残差信号截取单元2:用于将经过窄带编码单元1编码得到的核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号。
由于输入的宽带语音音乐信号的带宽要大于窄带带宽,所以经过窄带编码的左右声道下混输入信号由于带宽的限制,会有一部分数据在窄带编码过程中损失了,为了尽量保证输入信号的完整性,本单元将经过窄带编码的核心码流再解码还原成下混输入信号,这个经过了窄带编码的信号是有失真的,将这个有失真的数据与未经过窄带编码的原始的左、右声道的输入信号做差,也就是相减,就能得到在通过窄带时失去的那部分数据,也就是窄带之外的宽带数据,所述宽带数据就是本单元最终得到的残差信号。
现有技术也是要将核心码流还原后与原输入信号做差的,不同的是,本实施例输入是双声道,所以需要将核心码流还原后分别与原左、右声道的输入信号做差,分别得到左声道残差信号和右声道残差信号。
立体声处理单元3:用于获得所述残差信号截取单元2得到的左、右声道的残差信号的立体声码流和扩展码流。
本单元是本实施例区别于现有技术的最主要技术特征。现有技术对单声道输入信号的残差信号在频域只进行扩展编码,得到扩展码流发送出去。本实施例针对左、右声道的输入信号,在取得残差信号之后,在频域先要对残差信号进行一步立体声编码,提取立体声码流,之后再进行扩展编码,得到扩展码流。这主要是因为频域输入的是左、右两路残差信号,比原来多了一路,由于输入信号不再单一,所以,两声道通过输入信号彼此之间的细微差异可以体现出立体声效果,即,可以将多个声源区分开。换句话说,能否将左右声道的残差信号间的差异表现出来,是能否还原立体声的关键。如果此时仅仅将两路残差信号下混后,再经过扩展编码输出,那么在接收端将无法凭此一路扩展码流还原出有差异的左右声道残差信号。
综上所述,为了体现左右声道残差信号之间的差异,需要在扩展码流之外再提取两路残差信号的差异值,本步骤的立体声编码就是为了提取所述差异值,结合扩展码流,就可以在接收端还原出左右声道两路残差信号。
除了能够对立体声信号进行编码以外,本单元还带来了以下好处:
左右声道的主要输入信号不经过时频变换,不进行后续立体声处理,降低了系统复杂性和时延。
复用单元4:用于将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
接收端解码装置如图8所示,包括:
解复用单元5:用于将接收到的编码码流解复用成核心码流、立体声码流和扩展码流。
此单元与发射端复用单元4相对应。
窄带解码单元6:用于将解复用单元5解出的核心码流通过窄带解码还原成窄带单声道信号。
由于核心码流未经过时频变换和立体声处理,所以只需窄带解码就可还原成窄带单声道信号,过程简单,也保证了系统时延最小。
扩展码流解码单元7:用于将解复用单元5解出的扩展码流扩展解码。
虽然扩展码流在发射端经过了较为复杂的处理流程,但由于数据相对较少,还是能够保证与窄带单声道信号合并后形成的宽带单声道信号的延时和相位失真最小的。
左右声道信号还原单元8:用于根据用立体声码流、窄带单声道信号和扩展解码后的扩展码流还原出左右声道信号。
本实施例通过在发送端分别提取左、右声道的残差信号,然后对所述残差信号进行立体声处理,另将核心码流与经过立体声处理的残差信号一起发送给接收端,接收端通过所述核心码流与经过立体声处理的残差信号,可以还原出左、右声道信号,这样,就完成了双声道语音音乐信号的立体声编解码过程。
本发明编解码装置的第二实施例如下:
其中,发射端编码装置如图9所示,包括:
窄带编码单元1:用于对左、右声道的信号下混后进行窄带编码,得到核心码流。
残差信号截取单元2:用于将窄带编码单元编码1得到的核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号。
立体声处理单元3:用于对所述残差信号截取单元2得到的左、右声道的残差信号在频域进行立体声编码和扩展编码,通过立体声编码得到立体声码流,通过扩展编码得到扩展码流。
复用单元4:用于将立体声处理单元3得到的立体声码流和扩展码流,以及窄带编码单元1得到的核心码流复用成一路编码码流发送出去。
其中,所述窄带编码单元1包括:
下混采样子单元11:用于将输入的左、右声道信号均匀下混成一路信号,进行带通滤波和下采样。
下采样是指将输入采样率下的单声道信号变为内部采样率,例如将12.8kHz的单声道信号变为16kHz的单声道信号。
核心编码子单元12:用于将所述经过下混采样子单元11带通滤波和下采样的信号进行核心编码以获得所述核心码流。
所述核心编码子单元12可以是一个低码率的语音编码器,例如AMR-WB或G.729.1的核心编码器,输入为下采样到内部采样率的单声道信号,输出为核心编码数据。
所述残差信号截取单元2包括:
信号还原子单元21:用于将所述核心码流解码成下混信号。
上采样子单元22:用于将所述信号还原子单元21还原后的下混信号,上采样到原左右声道输入信号的采样率,其作用与下采样相反。
残差处理子单元23:用于将上采样子单元22处理过的原左、右声道的输入信号,与上采样子单元得到的上采样后的下混信号相减,分别得到所述左、右声道的残差信号。
所述立体声处理单元3包括:
时频变换子单元31:用于对所述左、右声道的残差信号进行时频变换,获得左、右声道的残差频域信号。
时频变换子单元31可以分为复变换和实变换两类,前者如FFT,后者如修正离散余弦(MDCT,Modified Di screte Cosine Transform)。例如当扩展编码器采用TCX时,其变换采用FFT,此时左右声道的残差信号也采用FFT变换到复频域;当扩展编码器采用MPEG-2/4AAC时,其变换采用MDCT,此时左右声道的残差信号也采用MDCT变换到实频域。
立体声编码子单元32:用于从时频变换子单元31得到的左、右声道残差频域信号进行立体声编码,得到所述立体声码流。
下混扩展编码子单元33:用于将所述立体声编码单元32提取完立体声码流的左、右声道残差频域信号,下混成一路信号,进行扩展编码,形成所述扩展码流。
所述复用单元4是将核心码流、立体声码流和扩展码流复用成一路编码码流后发送的。
接收端解码装置如图10所示,包括:
解复用单元5:用于将接收到的编码码流解复用成核心码流、立体声码流和扩展码流。
窄带解码单元6:用于将解复用单元5解出的核心码流通过窄带解码还原成窄带单声道信号。
扩展码流解码单元7:用于将解复用单元5解出的扩展码流扩展解码。扩展码流解码单元7还用于将扩展解码后的扩展码流再进行时频逆变换,将时频逆变换后的信号与窄带单声道信号合并成宽带单声道信号。
左右声道信号还原单元8:用于根据立体声码流、窄带单声道信号和扩展解码后的扩展码流还原出左、右声道信号。
所述窄带解码单元6包括:
核心解码子单元61:用于对所述核心码流进行核心解码。
所述核心解码子单元61与核心编码子单元12对应。例如核心编码器是AMR-WB时,解码器是AMR-WB解码器。其输入是12.8kHz核心编码数据,输出为内部采样率下的单声道信号。
上采样子单元62:用于对所述经过核心解码子单元61核心解码的信号进行上采样,得到窄带单声道信号,其作用与下采样相反。
所述扩展码流解码单元7包括:
扩展解码子单元71:用于将所述扩展编码的信号扩展解码。
扩展解码时频逆变换子单元72:用于将所述经过扩展解码子单元71扩展解码的信号进行时频逆变换。
宽带单声道信号合成子单元73:用于将扩展解码时频逆变换子单元72时频逆变换后的信号与窄带单声道信号合并成宽带单声道信号。
所述左右声道信号还原单元8包括:
立体声解码子单元81:用于将所述立体声码流和所述扩展解码后的扩展码流经立体声解码处理,得到左右声道的残差频域信号。
时频逆变换子单元82:用于将所述立体声解码子单元81处理后的左右声道残差频域信号经时频逆变换后得到左右声道的残差信号。
左声道信号合成子单元83:用于将时频逆变换子单元82得到的左声道残差信号与窄带单声道信号合并,得到左声道信号。
右声道信号合成子单元84:用于将时频逆变换子单元82得到的右声道残差信号与窄带单声道信号合并,得到右声道信号。
本实施例相对于现有技术,具有以下优点:
1、在输入的是多声源语音音乐信号时,相较于现有技术的单声道语音音乐编解码方案,本实施例二可以通过左、右声道信号间的差异,还原出原始多声源语音音乐信号的立体声效果。
2、本实施例在频域进行立体声处理,可以方便的分子带提取立体声信息。而在实际的信号中,其中包含的声源通常分布在不同的频带,因此逐子带处理可以将分布在不同频带的声源分离开。此外,若频带按人耳的非线性特性划分,那么即便出现在同一个带的不同声源也由于人耳的有限的分辨力将其当作一个声源来识别。
3、本实施例只在发射端进行了一次时频变换,之后在立体声处理单元3的频域处理,包括立体声编码、两路残差信号下混、扩展编码都是在同一频带下进行的,避免了现有技术在频域信号处理时,由于不同的处理单元在不同的频段进行信号处理,造成立体声处理部分在不同频段之间频繁的正变换和反变换的问题,减少了由此带来的加窗操作和缓冲,在接收端也相应减少了处理流程,降低了整体的编解码复杂度和系统复杂度。
4、传输信号分为核心码流,扩展码流,以及立体声码流三个部分。仅仅根据核心码流可以得到窄带单声道信号,而不依赖扩展码流和立体声码流;根据核心码流和扩展码流可以得到宽带单声道信号,而不依赖立体声码流数据;如果有全部三个传输信号,就可以重建宽带立体声信号。这样,本实施例在传输过程中可以很好的适应传输线路的环境。如果实际的传输线路带宽有限,只能传输窄带信号,那么通过本实施例的编解码方法,可以只传输窄带单声道信号。如果实际的传输线路带宽较大,但发送端和接收端不支持立体声信号的输入输出,通过本实施例的编解码方法依然可以传输完整的宽带单声道信号。如果实际的传输线路带宽很高,发送端和接收端也支持立体声信号的输入输出,那么通过本实施例的编解码方法,就可以传输左右声道立体声信号。
本发明编解码系统的实施例如下:
包括:
编码模块:用于发送进行窄带编码的左右声道输入信号,以及立体声编码处理的左右声道的残差信号。
解码模块:用于根据窄带编码的左右声道输入信号,以及立体声编码处理的左右声道的残差信号,还原左右声道信号、宽带单声道信号和窄带单声道信号。
其中,编码模块如图11所示,包括:
窄带编码子模块111:用于对左、右声道的输入信号下混后进行窄带编码,得到核心码流。
残差信号截取子模块112:用于将经过窄带编码子模块111编码得到的核心码流还原后与原左、右声道的输入信号做差,分别得到左、右声道的残差信号。
立体声处理子模块113:用于对所述残差信号截取子模块112得到的左、右声道的残差信号在频域进行立体声编码和扩展编码,通过立体声编码得到立体声码流,通过扩展编码得到扩展码流。
复用子模块114:用于将立体声处理子模块113编码后的立体声码流和扩展码流以及核心码流复用成一路编码码流发送出去。
解码模块如图12所示,包括:
解复用子模块121:用于将接收到的编码码流解复用成核心码流、立体声码流和扩展码流。
窄带解码子模块122:用于将解复用子模块121解出的核心码流通过窄带解码还原成窄带单声道信号。
扩展码流解码子模块123:用于将解复用子模块121解出的扩展码流扩展解码。扩展码流解码子模块123还用于将扩展解码后的扩展码流再进行时频逆变换,将时频逆变换后的信号与窄带单声道信号合并成宽带单声道信号。
左右声道信号还原子模块124:用于根据立体声码流、窄带单声道信号和扩展解码后的扩展码流还原出左右声道信号。
本实施例通过在发送端分别提取左、右声道的残差信号,然后对所述残差信号进行立体声处理,另将核心码流与经过立体声处理的残差信号一起发送给接收端,接收端通过所述核心码流与经过立体声处理的残差信号,可以还原出左、右声道信号,这样,就完成了双声道语音音乐信号的立体声编解码过程。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (17)

1、一种编码方法,其特征在于,包括:
对左、右声道的信号下混后进行窄带编码,得到核心码流;
将核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号;
获得所述左、右声道的残差信号的立体声码流和扩展码流;
将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
2、根据权利要求1所述的编码方法,其特征在于,所述对左、右声道的信号下混后进行窄带编码,得到核心码流的步骤包括:
将左、右声道信号均匀下混成一路信号,并进行带通滤波和下采样;
将所述经过带通滤波和下采样的信号进行核心编码以获得所述核心码流。
3、根据权利要求1所述的编码方法,其特征在于,所述将核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号的步骤包括:
将所述核心码流解码成下混信号;
将所述解码得到的下混信号上采样到原左、右声道的信号的采样率;
将原左、右声道的信号与上采样后的下混信号相减,分别得到所述左、右声道的残差信号。
4、根据权利要求1所述的编码方法,其特征在于,所述获得所述左、右声道的残差信号的立体声码流和扩展码流的步骤包括:
对所述左、右声道的残差信号进行时频变换,获得左、右声道残差频域信号;
对所述左、右声道残差频域信号进行立体声编码,得到所述立体声码流;
将所述左、右声道残差频域信号下混成另一路信号,进行扩展编码,形成所述扩展码流。
5、一种解码方法,其特征在于,包括:
将接收的编码码流解复用为核心码流、立体声码流和扩展码流;
将所述核心码流通过窄带解码还原成窄带单声道信号;
将所述扩展码流扩展解码;
将所述立体声码流、所述窄带单声道信号和所述扩展解码后的扩展码流还原出左、右声道信号。
6、根据权利要求5所述的解码方法,其特征在于,所述将所述核心码流通过窄带解码还原成窄带单声道信号的步骤包括:
对所述核心码流进行核心解码;
对经过核心解码的信号进行上采样,得到窄带单声道信号。
7、根据权利要求5所述的解码方法,其特征在于,所述将立体声码流、核心码流和扩展解码后的扩展码流还原出左、右声道信号的步骤包括:
将所述立体声码流和所述扩展解码后的扩展码流经立体声解码处理,得到左、右声道的残差频域信号;
所述左右声道的残差频域信号经时频逆变换后得到左、右声道的残差信号;
左声道的残差信号与所述窄带单声道信号合并,得到左声道信号;
右声道的残差信号与所述窄带单声道信号合并,得到右声道信号。
8、一种编码装置,其特征在于,包括:
窄带编码单元,用于对左、右声道的信号下混后进行窄带编码,得到核心码流;
残差信号截取单元,用于将所述核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号;
立体声处理单元,用于获得所述左、右声道的残差信号的立体声码流和扩展码流;
复用单元,用于将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
9、根据权利要求8所述的编码装置,其特征在于,所述窄带编码单元包括:
下混采样子单元,用于将输入的左、右声道信号均匀下混成一路信号,进行带通滤波和下采样;
核心编码子单元,用于将所述带通滤波和下采样的信号进行核心编码以获得所述核心码流。
10、根据权利要求8所述的编码装置,其特征在于,所述残差信号截取单元包括:
信号还原子单元,用于将所述核心码流解码成下混信号;
上采样子单元,用于将所述下混信号,上采样到原左、右声道的信号的采样率;
残差处理子单元,用于将原左、右声道的信号,与所述上采样子单元得到的上采样后的下混信号相减,分别得到所述左、右声道的残差信号。
11、根据权利要求8所述的编码装置,其特征在于,所述立体声处理单元包括:
时频变换子单元,用于对所述左、右声道的残差信号进行时频变换,获得左、右声道的残差频域信号;
立体声编码子单元,用于对所述左、右声道的残差频域信号进行立体声编码,得到所述立体声码流;
下混扩展编码子单元,用于将所述立体声编码子单元提取完立体声码流的左、右声道残差频域信号,下混成一路信号,进行扩展编码,形成所述扩展码流。
12、一种解码装置,其特征在于,包括:
解复用单元,用于将接收到的编码码流解复用为核心码流、立体声码流和扩展码流;
窄带解码单元,用于将所述核心码流通过窄带解码还原成窄带单声道信号;
扩展码流解码单元,用于将所述扩展码流扩展解码;
左右声道信号还原单元,用于根据立体声码流、所述窄带单声道信号和扩展解码后的扩展码流还原出左、右声道信号。
13、根据权利要求12所述的解码装置,其特征在于,所述窄带解码单元包括:
核心解码子单元,用于对所述核心码流进行核心解码;
上采样子单元,用于对所述经过核心解码的信号进行上采样,得到窄带单声道信号。
14、根据权利要求12所述的解码装置,其特征在于,所述左右声道信号还原单元包括:
立体声解码子单元,用于将所述立体声码流和所述扩展解码后的扩展码流经立体声解码处理,得到左右声道的残差频域信号;
时频逆变换子单元,用于将所述左右声道残差频域信号经时频逆变换后得到左右声道的残差信号;
左声道信号合成子单元,用于将所述左声道残差信号与所述窄带单声道信号合并,得到左声道信号;
右声道信号合成子单元,用于将所述右声道残差信号与所述窄带单声道信号合并,得到右声道信号。
15、一种编解码系统,其特征在于,包括:
编码模块,用于发送进行窄带编码的左右声道输入信号,以及立体声编码处理的左右声道的残差信号;
解码模块,用于根据所述窄带编码的左右声道输入信号,以及所述立体声编码处理的左右声道的残差信号,还原左右声道信号和窄带单声道信号。
16、根据权利要求15所述的编解码系统,其特征在于,所述编码模块包括:
窄带编码子模块,用于对左、右声道的信号下混后进行窄带编码,得到核心码流;
残差信号截取子模块,用于将所述核心码流还原后与原左、右声道的信号做差,分别得到左、右声道的残差信号;
立体声处理子模块,用于获得所述左、右声道的残差信号的立体声码流和扩展码流;
复用子模块,用于将所述核心码流、立体声码流和扩展码流复用成一路编码码流并发送。
17、根据权利要求15所述的编解码系统,其特征在于,所述解码模块包括:
解复用子模块,用于将接收到的编码码流解复用为核心码流、立体声码流和扩展码流;
窄带解码子模块,用于将所述核心码流通过窄带解码还原成窄带单声道信号;
扩展码流解码子模块,用于将所述扩展码流扩展解码;
左右声道信号还原子模块,用立体声码流、窄带单声道信号和扩展解码后的扩展码流还原出左、右声道信号。
CN2008101322967A 2008-07-24 2008-07-24 编解码方法、装置和系统 Active CN101635145B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008101322967A CN101635145B (zh) 2008-07-24 2008-07-24 编解码方法、装置和系统
PCT/CN2009/072793 WO2010009659A1 (zh) 2008-07-24 2009-07-16 编解码方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101322967A CN101635145B (zh) 2008-07-24 2008-07-24 编解码方法、装置和系统

Publications (2)

Publication Number Publication Date
CN101635145A true CN101635145A (zh) 2010-01-27
CN101635145B CN101635145B (zh) 2012-06-06

Family

ID=41570018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101322967A Active CN101635145B (zh) 2008-07-24 2008-07-24 编解码方法、装置和系统

Country Status (2)

Country Link
CN (1) CN101635145B (zh)
WO (1) WO2010009659A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280107A (zh) * 2010-06-10 2011-12-14 华为技术有限公司 边带残差信号生成方法及装置
WO2019227991A1 (zh) * 2018-05-31 2019-12-05 华为技术有限公司 立体声信号的编码方法和装置
CN112740708A (zh) * 2020-05-21 2021-04-30 华为技术有限公司 一种音频数据传输方法及相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1148297A (zh) * 1995-10-16 1997-04-23 王亚伦 调频l-r数据广播系统及其数据信号的处理方法
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
GB9801386D0 (en) * 1998-01-22 1998-03-18 British Telecomm Receiving spread spectrum signals
EP1818911B1 (en) * 2004-12-27 2012-02-08 Panasonic Corporation Sound coding device and sound coding method
CN101202042A (zh) * 2006-12-14 2008-06-18 中兴通讯股份有限公司 可扩展的数字音频编码框架及其扩展方法
CN101188878B (zh) * 2007-12-05 2010-06-02 武汉大学 立体声音频信号的空间参数量化及熵编码方法和所用系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280107A (zh) * 2010-06-10 2011-12-14 华为技术有限公司 边带残差信号生成方法及装置
CN102280107B (zh) * 2010-06-10 2013-01-23 华为技术有限公司 边带残差信号生成方法及装置
US9123329B2 (en) 2010-06-10 2015-09-01 Huawei Technologies Co., Ltd. Method and apparatus for generating sideband residual signal
WO2019227991A1 (zh) * 2018-05-31 2019-12-05 华为技术有限公司 立体声信号的编码方法和装置
CN110556117A (zh) * 2018-05-31 2019-12-10 华为技术有限公司 立体声信号的编码方法和装置
CN110556117B (zh) * 2018-05-31 2022-04-22 华为技术有限公司 立体声信号的编码方法和装置
US11462224B2 (en) 2018-05-31 2022-10-04 Huawei Technologies Co., Ltd. Stereo signal encoding method and apparatus using a residual signal encoding parameter
US11978463B2 (en) 2018-05-31 2024-05-07 Huawei Technologies Co., Ltd. Stereo signal encoding method and apparatus using a residual signal encoding parameter
CN112740708A (zh) * 2020-05-21 2021-04-30 华为技术有限公司 一种音频数据传输方法及相关装置
CN112740708B (zh) * 2020-05-21 2022-07-22 华为技术有限公司 一种音频数据传输方法及相关装置

Also Published As

Publication number Publication date
WO2010009659A1 (zh) 2010-01-28
CN101635145B (zh) 2012-06-06

Similar Documents

Publication Publication Date Title
JP7053725B2 (ja) フレーム制御同期化を使用して多チャネル信号を符号化又は復号化する装置及び方法
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
TWI545560B (zh) 具有在頻譜域填充有智慧間隙之音頻訊號之編碼或解碼裝置與方法
EP1851997B1 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
Schuijers et al. Low complexity parametric stereo coding
AU2008326956B2 (en) A method and an apparatus for processing a signal
CN110010140B (zh) 立体声音频编码器和解码器
EP2431971B1 (en) Audio decoding method and audio decoder
CN100571043C (zh) 一种空间参数立体声编解码方法及其装置
US20080046253A1 (en) Temporal Envelope Shaping for Spatial Audio Coding Using Frequency Domain Wiener Filtering
CN101887726A (zh) 立体声编码和解码的方法及其设备
CN101401151A (zh) 根据主分量分析的多通道音频信号的可分级编码的设备和方法
KR102514418B1 (ko) 오디오 신호에 대한 고주파 재구성 기술의 하위 호환 통합
CN103918029A (zh) 使用过采样谱带复制的上采样
KR102474146B1 (ko) 후처리 지연을 저감시킨 고주파 재구성 기술의 통합
US20230036258A1 (en) Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals
CN105308680A (zh) 音频编码器和解码器
CN101635145B (zh) 编解码方法、装置和系统
Lindblom et al. Flexible sum-difference stereo coding based on time-aligned signal components
KR20210005164A (ko) 고주파 오디오 재구성 기술의 통합
KR20070011100A (ko) 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법
Jianxin et al. low bit rate audio coder based on DRA
Chiang et al. Advances in Low Bit-Rate Audio Coding: A Digest of Selected Papers from Recent AES Conventions
CN113948094A (zh) 音频编解码方法和相关装置及计算机可读存储介质
KR20090043352A (ko) 상호 운용성을 지원하는 오디오/스피치 신호의부호화/복호화 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant