CN101116137B - 语音编码中的脉冲分配方法 - Google Patents
语音编码中的脉冲分配方法 Download PDFInfo
- Publication number
- CN101116137B CN101116137B CN2006800045364A CN200680004536A CN101116137B CN 101116137 B CN101116137 B CN 101116137B CN 2006800045364 A CN2006800045364 A CN 2006800045364A CN 200680004536 A CN200680004536 A CN 200680004536A CN 101116137 B CN101116137 B CN 101116137B
- Authority
- CN
- China
- Prior art keywords
- pulse
- sound channel
- sound
- umber
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 73
- 238000004891 communication Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 108090000237 interleukin-24 Proteins 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
能够对立体声语音信号高效率地进行编码的脉冲分配方法。在该脉冲分配方法的固定码本搜索(ST21~ST25)中,对各个子帧进行立体声信号的比较,判断声道间的相似性(ST21),判断立体声信号的特性(ST22),基于声道间的相似性和立体声信号的特性,决定对各个声道分配的脉冲数(ST23),进行脉冲搜索并决定对各个声道的脉冲位置(ST24),并对在ST24所决定的脉冲进行编码(ST25)。
Description
技术领域
本发明涉及语音编码中的脉冲分配方法。
背景技术
一般而言,在语音编码中,使用声道模型来合成尽可能相似于原始语音的语音信号。作为这种语音编码之一,有用于3GPP系统的自适应多速率宽带(AMR-WB:Adaptive MultiRate-WideBand)语音编码(参照非专利文献1)。该AMR-WB语音编码也是作为ITU-T建议G.722.2(非专利文献2)由ITU-T选定并承认的。下面,举例说明采用23.85kbps的比特率的AMR-WB语音编码。
作为AMR-WB语音编码的重要的结构元素之一,有固定码本(图1)的搜索。在AMR-WB语音编码中,将具有下采样后的256个样本的语音样本的帧,分割成各自具有64个样本的4个子帧。在搜索固定码本的过程中,将该子帧分割成4个音轨。在AMR-WB语音编码的模式8,从各个音轨可取得的16个脉冲位置中,对每个音轨选择6个脉冲位置。也就是说, 各个子帧的脉冲的数目被设定为p0~p23的24个。并且,对这些p0~p23的24个脉冲的位置进行编码,而形成用于合成对应于各个子帧的语音的码本索引(参照非专利文献1)。
另外,在ITU-T建议G.722.2中,目前虽然支持对单声道语音信号的AMR-WB语音编码,但没有支持对立体声语音信号的AMR-WB语音编码。
另一方面,近年来,随着移动通信和IP通信中的传输频带的宽带化以及服务的多样化,在语音通信中,对高音质化和更强的现场感的需求日益增高。例如,可以预料今后对下述的服务的需求会增多,即,电视电话服务中的免提(Handsfree)形式的通话、在电视会议中的语音通信、在多个地点多个说话人同时进行会话的多地点语音通信、在保持现场感的同时能够传输周围的声音环境的语音通信等。那时,人们期待实现比单声道信号现场感更强并能够识别多个说话人的说话位置的使用立体声语音的语音通信的。为了实现这样的使用立体声语音的语音通信,必须对立体声语音进行编码。作为立体声语音信号的编码方法之一,有对各个声道的语音信号独立地进行编码的方法(双重单声道编码)。
(非专利文献1)“AMR Wideband Speech Codec;General Description”,3GPP TS 26.171,V5.0.0(2001-03)
(非专利文献2)“Wideband Coding of Speech at Around 16 kbit/s Using Adaptive Multi-Rate Wideband(AMR-WB)”,Geneva,ITU-T RecommendationG.722.2(2003-07)
发明内容
本发明需要解决的问题
然而,对立体声语音信号单纯地进行使用AMR-WB语音编码的双重单声道编码时,必须对各个声道的语音信号分别进行上述的固定码本的搜索,因此从编码效率和处理效率的观点而言,不够理想。
本发明的目的是,提供能够对立体声语音信号高效率地进行编码的脉冲分配方法。
解决问题的方案
本发明的脉冲分配方法是,在对立体声信号的语音编码中,进行固定码本搜索时所使用的脉冲分配方法,其包括:判断立体声信号的各个声道间的相似程度的相似程度判断步骤;基于作为各个声道的特性的稳定度和周期性,判断声道是否为稳定有声的稳定有声判断步骤;以及根据所述相似程度判断步骤和所述稳定有声判断步骤的判断结果,决定分配给各个声道的脉冲数的分配步骤。
本发明的有益效果
根据本发明,能够对立体声语音信号高效率地进行编码。
附图说明
图1是AMR-WB语音编码的固定码本。
图2是本发明实施方式1的语音编码的处理流程。
图3是本发明实施方式1的固定码本搜索的主要的处理流程。
图4是本发明实施方式1的固定码本搜索的详细处理流程。
图5是本发明实施方式1的脉冲分配的一个例子。
图6是本发明实施方式1的脉冲分配的一个例子。
图7是本发明实施方式1的通知例。
图8是本发明实施方式1的语音解码的处理流程。
图9是本发明实施方式2的通知例。
图10是本发明实施方式2的语音解码的处理流程。
具体实施方式
下面,参照附图详细地说明本发明的实施方式。另外,在以下说明中,举一例说明AMR-WB语音编码。另外,在以下的说明中,说明采用AMR-WB语音编码的编码模式中的模式8的情况下的实施方式,但各个实施方式同样可适用于其它编码模式。
在AMR-WB语音编码的模式8中,固定码本矢量(创新矢量)包括24个脉冲。如上述图1所示,在各个子帧中有0~63的64个可取的脉冲位置,这些脉冲位置,以各个音轨包含6个脉冲的方式,被分割成1~4的4个音轨。
(实施方式1)
在本实施方式,基于输入立体声信号的各个声道间的相似程度,以及各个声道的周期性和稳定度,决定对各个声道的脉冲数的分配。基于相似程度、周期性和稳定度,对各个声道分配所需数目的脉冲。对各个声道的分配脉冲数决定后,进行与一般的AMR-WB语音编码相同的脉冲搜索,决定对各个声道的脉冲位置。将这些脉冲作为码字组进行编码,并作为语音比特流中的参数之一的码本索引发送。
图2表示本实施方式的语音编码的主要的处理流程。
首先,在ST(步骤)11,对立体声信号进行预处理,该预处理包括下采样和使用高通滤波器和预加重滤波器的滤波处理。
在ST12,对预处理后的立体声信号进行LPC分析,获得立体声信号的L声道(左声道)和R声道(右声道)的各个声道的LPC参数。将LPC参数变换成ISP(Immittance Spectrum Pair)和对各个声道的量化矢量。
在ST13,对各个声道进行基音搜索,对各个帧估两次计开环基音延迟。
在ST14,使用估计出的基音延迟(估计基音延迟),对于各个子帧,对估计基音延迟的周边进行使用闭环基音的自适应码本搜索,获得自适应码本矢量。
在ST15,使用自适应码本矢量,进行伴随脉冲分配的固定码本搜索,获得对各个声道的固定码本矢量。
然后,在ST16,为了下一个子帧的运算,更新滤波器记忆和样本数据。
另外,在本实施方式中,除图2所示的处理外,与上述非专利文献1所记载的处理相同。
接着,图3表示固定码本搜索(ST15)的主要的处理流程。主要通过ST21~ST25的处理来进行固定码本搜索(ST15)。
在ST21,对各个子帧进行立体声信号的比较,而判断L声道和R声道的相似性,即声道间的相似程度。
在ST22,进行立体声信号的分类,判断信号的特性。
在ST23,基于声道间的相似程度和立体声信号的特性,对L声道和R声道,各自分配所需数目的脉冲。
在ST24,执行AMR-WB语音编码的脉冲搜索,决定对各个声道的脉冲位置。
在ST25,将在ST24所决定的脉冲,作为码字组进行编码,并作为语音比特流中的参数之一的码本索引,发送到语音解码装置。
下面,使用图4更详细地说明图3所示的处理流程。特别对脉冲分配(ST23)进行详细的说明。
在ST301,对各个子帧的L声道和R声道进行比较。通过该比较,在进行脉冲分配之前,判断两个声道间的信号特性的相似程度(在两个声道间,有多少程度的相似性)。在判断相似程度时,可利用相互相关、在时域中的信号包络的比较、在频域中的频谱信号或频谱能量的比较以及中侧(Mid-Side)运算等。
在ST302,在L声道和R声道非常相似时(例如,相互相关值大于阈值时),或者在L声道和R声道相同时(也就是单声道信号时),双方声道使用共同的脉冲组。也就是说,在ST303,将对L声道的脉冲数Num_Pulse(L)设定为P,将对R声道的脉冲数Num_Pulse(R)设定为0。或者相反地,将对L声道的脉冲数Num_Pulse(L)设定为0,将对R声道的脉冲数Num_Pulse(R)设定为P。例如,AMR-WB语音编码的模式8时,设定为P=24。图5A表示在ST303设定Num_Pulse的情况。在此例中,P=24。因为对L声道或R声道的任意一方分配全部的,24个脉冲,所以如图6A所示,对双方声道使用p0~p23 的共同的一个脉冲组。以下将图6A所示的脉冲分配的类型称为“类型0”。
在ST302,在L声道和R声道不相似时(例如,相互相关值为阈值以下时),在ST304进行信号的分类判断,并确认在L声道或R声道中是否存在“稳定有声”信号。L声道信号或R声道信号在具有周期性且稳定时,被判定为“稳定有声”,而在不具有周期性且不稳定时,被判定为其它类型的信号。在L声道或R声道的任何一方为“稳定有声”时,进至ST305,而在L声道和R声道都不是“稳定有声”时,进至ST310。另外,在判断信号是否为“稳定有声”时,可利用基于自相关方法的自相关值运算、基音预测增益、自适应码本增益等等。另外,也可使用各个声道的能量电平或信号电平等,来判断是否为“稳定有声”。
在ST305,如果L声道和R声道都被判断为“稳定有声”(具有稳定性且周期性的),则该双方声道各自具有脉冲组。也就是说,此时,在ST306,将P个(P=24)脉冲分配给L声道和R声道,将对L声道的脉冲数Num_Pulse(L)设定为脉冲数K1P,而将对R声道的脉冲数Num_Pulse(R)设定为脉冲数(1-K1)P。这里,假设K1=1/2。也就是说,对双方声道分配相等数目的脉冲。图5B表示在ST306设定Num_Pulse的情况。因为以图5B所示的方式设定Num_Pulse,所以将P=24个脉冲均等地对两个声道各分配12个。因此,如图6B所示,对各个声道使用不同的脉冲组。但是,各个脉冲组所包含的脉冲数是同数(这里是12个)。以下将图6B所示的脉冲分配的类型称为“类型1”。
另外,在图6B中,脉冲Pch,i的ch表示该脉冲所属的声道(L声道或R声道),i表示该脉冲的位置。在图6C和图6D中也是一样。
在ST305,如果判断为一方的声道是“稳定有声”,但另一方的声道不是 “稳定有声”,则不在双方声道间均等地分配脉冲数P。此时,脉冲数的分配,基于哪一方的声道需要更多的脉冲而进行。一般而言,“稳定有声”的声道只需要较少数目的脉冲,因此,对“稳定有声”的声道分配较少数目的脉冲。这是因为,对于“稳定有声”的声道,自适应码本能够有效地发挥功能而生成声源信号,因而固定码本搜索只需要较少数目的脉冲。
也就是说,在ST307,在判断L声道是“稳定有声”,R声道不是 “稳定有声”时,在L声道只需要较少数目的脉冲,因此,与R声道相比,对L声道分配较少数目的脉冲。即,在ST308,将对L声道的脉冲数Num_Pulse(L)设定为脉冲数K2P,而将对R声道的脉冲数Num_Pulse(R)设定为脉冲数(1-K2)P, 将P个(P=24)脉冲分配给L声道和R声道。这里,假设K2=1/3。由此,对L声道分配8个脉冲,对R声道分配16个脉冲,与R声道相比,对L声道分配较少数目的脉冲。
另一方面,在ST307,在判断L声道不是“稳定有声”,而R声道是 “稳定有声”时,与L声道相比,对R声道分配较少数目的脉冲。即,在ST309,将对L声道的脉冲数Num_Pulse(L)设定为脉冲数(1-K2)P,而将对R声道的脉冲数Num_Pulse(R)设定为脉冲数K2P,对L声道和R声道分配P个(P=24)脉冲。这里,与上述同样地,假设K2=1/3。由此,对R声道分配8个脉冲,对L声道分配16个脉冲,与L声道相比,对R声道分配较少数目的脉冲。
图5C和图5D表示在ST308和ST309,设定Num_Pulse的情况。因为P=24且K2=1/3,Num_Pulse成为8个脉冲(图5C)和16个脉冲(图5D)。因此,如图6C和图6D所示,对各个声道使用脉冲数相互不同的两个不同脉冲组。以下将图6C所示的脉冲分配的类型称为“类型2”,将图6D所示的脉冲分配的类型称为”类型3”。在类型2,与R声道相比,对L声道分配较少数目的脉冲,在类型3,与L声道相比,对R声道分配较少数目的脉冲。这样,在类型2和类型3,对L声道和R声道不均等地分配24个脉冲。
在ST304,如果L声道和R声道都不是“稳定有声”,则基于各个声道的最大自相关系数(MAF:Maximum Autocorrelation Factor)来决定脉冲分配。通过式(1)来定义MAF。在式(1)中,x(n)(n=0,...,N-1)是对L声道或R声道的编码对象子帧的MAF的计算对象区间的输入信号,N是该计算对象区间的区间长度(样本数),τ是延迟。另外,作为x(n),可使用LPC残差信号以代替输入信号,该LPC残差信号使用LPC逆滤波器而求得的。
在ST310,在L声道的MAF大于R声道的MAF时,在ST312,与ST308同样地,将对L声道的脉冲数Num_Pulse(L)设定为脉冲数K2P,而将对R声道的脉冲数Num_Pulse(R)设定为脉冲数(1-K2)P,对L声道和R声道分配P个(P=24)脉冲。这里,假设K2=1/3。也就是说,对L声道分配8个脉冲,对R声道分配16个脉冲,与R声道相比,对L声道分配较少数目的脉冲。因此,脉冲分配的类型为类型2(图6C)。
另一方面,在ST310,R声道的MAF为L声道的MAF以上时,在ST311,与ST309同样地,将对R声道的脉冲数Num_Pulse(R)设定为脉冲数K2P,而将对L声道的脉冲数Num_Pulse(L)设定为脉冲数(1-K2)P,对L声道和R声道分配P个(P=24)脉冲。这里,与上述同样地,假设K2=1/3。也就是说,对R声道分配8个脉冲,对L声道分配16个脉冲,与L声道相比,对R声道分配较少数目的脉冲。因此,脉冲分配的类型为类型3(图6D)。
在ST303、ST306、ST308、ST309、ST311和ST312,如上述决定对各个声道分配的脉冲数后,在ST313,对各个声道进行脉冲位置的搜索。
然后,在搜索出L声道和R声道的两个声道的脉冲位置后,在ST314,使用在ST313所搜索出的脉冲来生成码字组,在ST315生成对各个声道的码本索引。
另外,在ST304中,对于L声道和R声道都不是“稳定有声”时的脉冲分配,也可以不是如上述这样基于各个声道的MAF决定,而是对各个声道总是分配相等数目的脉冲。
这里,如上述在将K1和K2设为固定值时,基于脉冲分配的4个类型(类型0~3)唯一地决定分配给各个声道的脉冲数,因此向语音解码端通知对各个声道分配了的脉冲数时,如图7所示,有两个比特就足够。也就是说,将类型0(对L声道和R声道共同地分配24个脉冲的情况)设为码字‘00’,将类型1(对L声道和R声道各分配12个脉冲的情况)设为码字‘01’,将类型2(对L声道分配8个脉冲,对R声道分配16个脉冲的情况)设为码字‘ 10’,将类型3(对L声道分配16个脉冲,对R声道分配8个脉冲的情况)设为码字‘ 11’,并通知给语音解码端。
图8表示在语音解码端的处理流程。
在ST701,从比特流提取处于对脉冲数据进行了量化的状态的码本索引。另外,从比特流提取表示脉冲分配的类型的上述2比特的信息。
在ST702,基于上述2比特的信息,并参照上述图7所示的表,判断脉冲分配的类型。
在ST703,在脉冲分配的类型是类型0时,进至ST704,而在是类型1~3时,进至ST707。
在脉冲分配的类型是类型0时,由两个声道共同使用同一码本。也就是说,在ST704,将全部的P=24个脉冲都设定给预先决定的一方的声道(规定 声道),并在ST705,对于该规定声道,将P=24个脉冲解码。然后,在ST706,将在ST705所解码的脉冲复制到另一方的声道。
另一方面,在脉冲分配的类型是类型1~3时,基于各个类型,设定对各个声道的脉冲数。即,在类型1时,对L声道和R声道分别设定12个脉冲,在类型2时,对L声道设定8个脉冲,对R声道设定16个脉冲,在类型3时,对L声道设定16个脉冲,对R声道设定8个脉冲。
假设规定声道是L声道,则在ST707设定对L声道的脉冲数PL,在ST708设定对R声道的脉冲数PR。然后,在ST709,将PL个脉冲作为对L声道的码本数据解码,在ST710,将PR个脉冲作为对R声道的码本数据解码。
另外,在规定声道为R声道时,处理流程成为ST708、ST707、ST710、ST709的次序。
这样,根据本实施方式,基于声道间的相似程度和各个声道的特性(周期性和稳定度)而决定脉冲数的分配,因此能够对各个声道分配最适合的数目的脉冲。
(实施方式2)
在本实施方式中,基于语音信号的特性而决定K1、K2,并使各个声道间的脉冲分配自适应地变化。例如,能够基于各个声道的语音信号的周期性和MAF而求对各个声道的脉冲数的分配比例。
例如,在L声道和R声道的双方都是“稳定有声”时,通过式(2)来求K1。
在式(2)中,τL、τR分别是L声道的基音周期和R声道的基音周期,α1是用于微调K1的系数。根据式(2),能够对具有越短的基音周期的,即越高的基音的声道,分配越多的脉冲。
另外,在一方的声道是“稳定有声”,另一方的声道不是“稳定有声”时,通过式(3)来求K2。
在式(3)中,Cuv为不是“稳定有声”的一方的声道的MAF,CL、CR分别是L声道的MAF和R声道的MAF,α2是用于微调K2的系数。根据式(3),能够对“稳定有声”的声道,分配较少数目的脉冲。
另外,在式(3)中,β是使“稳定有声”的声道确实具有至少为最小数的脉冲的参数,通过式(4)来定义。
在式(4)中,L是一个帧内的样本数,τch是“稳定有声”的声道的基音周期,P是子帧内的总脉冲数。因此,比例L/τch基本上是一个帧内的周期数。例如,假设L为256、τch为77,则比例L/τch(一个帧内的周期数)成为4。由此,在各个基音周期确实存在至少一个脉冲。
基于式(2)~(4)所求出的K1和K2,用于对L声道和R声道的脉冲数的分配。被分配到L声道和R声道的脉冲数可取满足式(5)和式(6)的条件的最小值MIN_PULSE和最大值MAX_PULSE。
MIN_PULSE≤Num_Pulse(channel)≤MAX_PULSE ...式(5)
Num_Pulse(L)+Num_Pulse(R)=TOTAL_PULSE ...式(6)
在式(5)和(6)中,MIN_PULSE和MAX_PULSE是对特定的声道的每个子帧所能分配的脉冲数的最小值和最大值,TOTAL_PULSE是对双方声道的每个子帧所能分配的合计的脉冲数。例如,典型的值是:MIN_PULSE=4、MAX_PULSE=20、TOTAL_PULSE=24。另外,还可以将所计算出的脉冲数取整为1、2或4的倍数中,最接近的倍数值。
这里,在使分配给各个声道的脉冲数自适应地变化时,必须将对各个声道分配了的脉冲数通知给语音解码端。但是,对一方的声道的分配数,通过从两个声道的所有脉冲数减去另一方的声道的分配数而能够导出,因此,将任意一方的声道定为规定声道,并仅通知该规定声道的分配数即可。例如,将L声道定为规定声道,通知对L声道的脉冲数Num_Pulse(L),并通过式(7)来求对R声道的脉冲数Num_Pulse(R)。
Num_Pulse(R)=TOTAL_PULSE-Num_Pulse(L) ...式(7)
以下示出对规定声道的脉冲数的通知方法。
在对各个声道的脉冲数为4的倍数时,对规定声道的脉冲数有4个脉冲、8个脉冲、12个脉冲、16个脉冲、20个脉冲的5个可能性。因此,为了区别这5个脉冲数,有3比特就足够。另外,在对各个声道的脉冲数为2的倍数时,对规定声道的脉冲数有4个脉冲、6个脉冲、8个脉冲、10个脉冲、12个脉冲、14个脉冲、16个脉冲、18个脉冲、20个脉冲的9个可能性。因此, 为了区别这些9个脉冲数,需要4比特。再者,对各个声道的脉冲数为从4到20的按一个个脉冲递增的数目时,有17个可能性,因此为了区别17个脉冲数,需要5比特。由此,能够将这些脉冲数总结为图9所示的表。在语音编码端,参照该表将脉冲数变换成3~5比特的码字并通知,在语音解码端,同样地参照该表,从所通知的码字导出对各个声道分配的脉冲数。
图10表示在语音解码端的处理流程。
在ST901,从比特流提取处于对脉冲数据进行了量化的状态的码本索引。另外,从比特流提取表示脉冲数的码字(3~5比特)。
在ST902,基于表示脉冲数的码字,并参照上述图9所示的表,判断规定声道的脉冲数。这里,假设规定声道是L声道。
在ST903,通过式(7)来计算另一方的声道,即R声道的脉冲数。
在ST904,在任何一方的声道的脉冲数为0时,进至ST905,在除此之外的情况下,进至ST907。
在任意一方的声道的脉冲数为0时,由两个声道共同使用同一码本。也就是说,在ST905,将全部P=24个脉冲都设定给规定声道,并对于该规定声道,将P=24个脉冲解码。然后,在ST906,将在ST905所解码的脉冲复制到另一方的声道。
另一方面,在ST907,参照上述图9所示的表设定对L声道(规定声道)的脉冲数PL,将PL个脉冲作为对L声道的码本数据进行解码。并且,在ST908,通过式(7)设定对R声道的脉冲数PR,将PR个脉冲作为对R声道的码本数据解码。
另外,在规定声道是R声道时,处理流程成为ST908、ST907的次序。
这样,根据本实施方式,基于语音信号的特性而决定K1和K2,使各个声道间的脉冲分配自适应地变化,因此,能够在声道间进行更加灵活且正确的脉冲数的分配。
另外,在上述各个实施方式中,假设对各个声道分配的合计的脉冲数为固定(在上述各个实施方式中,固定为P=24个)而进行说明,但也可以使对各个声道分配的合计的脉冲数,基于声道间的相似程度和各个声道的特性(周期性和稳定度)而变化。例如,在实施方式1,在脉冲分配的类型为“类型0”时,即,在L声道和R声道非常相似时(例如,在相互相关值大于阈值时),或者,在L声道和R声道相同时(也就是单声道信号时),可以将少于其它类型的合 计的分配脉冲数(在上述各个实施方式中,P=24个)的数目的脉冲,只分配给R声道或L声道的任意一方。由此能够更加提高传输效率。
另外,上述各个实施方式的处理流程,可在语音编码装置和语音解码装置中实施。另外,还可以将该语音编码装置和语音解码装置,装载于在移动通信系统中所使用的无线通信移动台装置和无线通信基站装置等无线通信装置。
另外,上述实施方式的处理流程,通常被作为集成电路的LSI来实现。这些既可以被单独地集成为一个芯片,也可以一部分或全部被集成为一个芯片。
虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以使用在LSI制造后,可编程的FPGA(Field ProgrammableGate Array),或者可重构LSI内部的电路单元的连接和设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果能够出现替代LSI集成电路化的新技术,当然可利用新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
本说明书是根据2005年2月10日申请的日本专利申请第2005-034984号。其内容全部包含于此。
工业实用性
本发明可适用于移动通信系统或使用因特网协议的分组通信系统等中的通信装置。
Claims (7)
1.一种脉冲分配方法,该脉冲分配方法为在对立体声信号的语音编码中,进行固定码本搜索时所使用的脉冲分配方法,其包括:
判断立体声信号的各个声道间的相似程度的相似程度判断步骤;
基于作为各个声道的特性的稳定度和周期性,判断声道是否为稳定有声的稳定有声判断步骤;以及
根据所述相似程度判断步骤和所述稳定有声判断步骤的判断结果,决定分配给各个声道的脉冲数的分配步骤。
2.如权利要求1所述的脉冲分配方法,
在所述相似程度为阈值以上时,对任意一方的声道分配所有的脉冲。
3.如权利要求1所述的脉冲分配方法,
在所述分配步骤中,基于各个声道的最大自相关系数,决定分配给各个声道的脉冲数。
4.如权利要求1所述的脉冲分配方法,
对所述稳定度和所述周期性越高的声道,分配越少的脉冲数。
5.如权利要求1所述的脉冲分配方法,
在各个声道的特性相等时,对各个声道均等地分配脉冲数。
6.如权利要求1所述的脉冲分配方法,
将表示已分配给各个声道的脉冲数的码字,通知给语音解码端。
7.如权利要求3所述的脉冲分配方法,
对所述最大自相关系数越大的声道,分配越少的脉冲数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP034984/2005 | 2005-02-10 | ||
JP2005034984 | 2005-02-10 | ||
PCT/JP2006/302258 WO2006085586A1 (ja) | 2005-02-10 | 2006-02-09 | 音声符号化におけるパルス割当方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101116137A CN101116137A (zh) | 2008-01-30 |
CN101116137B true CN101116137B (zh) | 2011-02-09 |
Family
ID=36793157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800045364A Expired - Fee Related CN101116137B (zh) | 2005-02-10 | 2006-02-09 | 语音编码中的脉冲分配方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8024187B2 (zh) |
EP (1) | EP1847988B1 (zh) |
JP (1) | JP4887282B2 (zh) |
CN (1) | CN101116137B (zh) |
WO (1) | WO2006085586A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2827327B1 (en) | 2007-04-29 | 2020-07-29 | Huawei Technologies Co., Ltd. | Method for Excitation Pulse Coding |
CN101931414B (zh) | 2009-06-19 | 2013-04-24 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
KR101381272B1 (ko) * | 2010-01-08 | 2014-04-07 | 니뽄 덴신 덴와 가부시키가이샤 | 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 |
CN102299760B (zh) | 2010-06-24 | 2014-03-12 | 华为技术有限公司 | 脉冲编解码方法及脉冲编解码器 |
JP5613781B2 (ja) * | 2011-02-16 | 2014-10-29 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム及び記録媒体 |
WO2018221138A1 (ja) * | 2017-06-01 | 2018-12-06 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置及び符号化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1320258A (zh) * | 1998-09-30 | 2001-10-31 | 艾利森电话股份有限公司 | 多信道信号编码和解码 |
CN1391689A (zh) * | 1999-11-18 | 2003-01-15 | 语音时代公司 | 宽带语音和音频信号解码器中的增益平滑 |
CN1395742A (zh) * | 2000-11-21 | 2003-02-05 | 皇家菲利浦电子有限公司 | 具有荧光物质层的气体放电灯 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
JP2778567B2 (ja) * | 1995-12-23 | 1998-07-23 | 日本電気株式会社 | 信号符号化装置及び方法 |
JP3329216B2 (ja) * | 1997-01-27 | 2002-09-30 | 日本電気株式会社 | 音声符号化装置及び音声復号装置 |
SE519985C2 (sv) | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
SE519976C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
WO2004090870A1 (ja) * | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
-
2006
- 2006-02-09 US US11/815,916 patent/US8024187B2/en active Active
- 2006-02-09 JP JP2007502640A patent/JP4887282B2/ja not_active Expired - Fee Related
- 2006-02-09 EP EP06713401A patent/EP1847988B1/en not_active Not-in-force
- 2006-02-09 WO PCT/JP2006/302258 patent/WO2006085586A1/ja active Application Filing
- 2006-02-09 CN CN2006800045364A patent/CN101116137B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1320258A (zh) * | 1998-09-30 | 2001-10-31 | 艾利森电话股份有限公司 | 多信道信号编码和解码 |
CN1391689A (zh) * | 1999-11-18 | 2003-01-15 | 语音时代公司 | 宽带语音和音频信号解码器中的增益平滑 |
CN1395742A (zh) * | 2000-11-21 | 2003-02-05 | 皇家菲利浦电子有限公司 | 具有荧光物质层的气体放电灯 |
Non-Patent Citations (2)
Title |
---|
Bruno Bessette, et. al..The Adaptive Multirate Wideband Speech Codec (AMR-WB).《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2002,第10卷(第8期), * |
TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU.1.《ITU-T G.722.2 (2003.07) Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)》.INTERNATIONAL TELECOMMUNICATION UNION,2003, * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006085586A1 (ja) | 2008-06-26 |
WO2006085586A1 (ja) | 2006-08-17 |
JP4887282B2 (ja) | 2012-02-29 |
EP1847988B1 (en) | 2011-08-17 |
US20090043572A1 (en) | 2009-02-12 |
CN101116137A (zh) | 2008-01-30 |
US8024187B2 (en) | 2011-09-20 |
EP1847988A4 (en) | 2010-12-29 |
EP1847988A1 (en) | 2007-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100508030C (zh) | 一种编码/解码音频信号的方法及相应设备 | |
CN101116137B (zh) | 语音编码中的脉冲分配方法 | |
CN102682777B (zh) | 一种衰减因子的获取方法和获取装置 | |
CN101836251B (zh) | 使用mdct频谱的组合编码的可缩放的语音和音频编码 | |
KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
RU2351907C2 (ru) | Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) | |
CN101218628B (zh) | 编码和解码音频信号的装置和方法 | |
US8063809B2 (en) | Transient signal encoding method and device, decoding method and device, and processing system | |
KR100923891B1 (ko) | 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치 | |
EP2209114B1 (en) | Speech coding/decoding apparatus/method | |
CN1849647B (zh) | 采样速率转换装置、编码装置、解码装置及它们的方法 | |
US20070150271A1 (en) | Optimized multiple coding method | |
JPWO2007116809A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
CN103366755A (zh) | 对音频信号进行编码和解码的方法和设备 | |
US8036390B2 (en) | Scalable encoding device and scalable encoding method | |
JP2004509367A (ja) | 複数チャネル信号の符号化及び復号化 | |
US20130275126A1 (en) | Methods and systems to modify a speech signal while preserving aural distinctions between speech sounds | |
US8725500B2 (en) | Apparatus and method for encoding at least one parameter associated with a signal source | |
CN100579297C (zh) | 音频信号处理 | |
US20040158472A1 (en) | Method and apparatus for encoding or decoding an audio signal that is processed using multiple subbands and overlapping window functions | |
FR2861491B1 (fr) | Procede de selection d'unites de synthese | |
KR20060036724A (ko) | 오디오 신호 부호화 및 복호화 방법 및 그 장치 | |
CN101981616A (zh) | 立体声信号变换装置、立体声信号逆变换装置及其方法 | |
US20070094015A1 (en) | Audio codec using the Fast Fourier Transform, the partial overlap and a decomposition in two plans based on the energy. | |
CN108463850B (zh) | 用于音频变换编码中重叠率的信号自适应切换的编码器、解码器以及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110209 Termination date: 20130209 |