CN1135527C - 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质 - Google Patents
语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质 Download PDFInfo
- Publication number
- CN1135527C CN1135527C CNB001262777A CN00126277A CN1135527C CN 1135527 C CN1135527 C CN 1135527C CN B001262777 A CNB001262777 A CN B001262777A CN 00126277 A CN00126277 A CN 00126277A CN 1135527 C CN1135527 C CN 1135527C
- Authority
- CN
- China
- Prior art keywords
- interval
- parameter
- background noise
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 48
- 238000012850 discrimination method Methods 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims description 37
- 230000008859 change Effects 0.000 claims description 12
- 230000005284 excitation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 28
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 17
- 238000007493 shaping process Methods 0.000 description 17
- 238000013139 quantization Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000002131 composite material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000005055 memory storage Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000005303 weighing Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 101100455541 Drosophila melanogaster Lsp2 gene Proteins 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010189 synthetic method Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102000001690 Factor VIII Human genes 0.000 description 1
- 108010054218 Factor VIII Proteins 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
在语音编解码器中,通过给予语音间隔中具有关键意义的有声语音相对大量的比特,从而通过减少分配给无声声音和背景噪音的比特数,来减少传输比特的总数从而减少传输比特的平均数。为此,该系统包括一个用来计算输入端(1)提供的滤波输入语音信号的均方根值(有效值)的rms计算单元(2)、用来通过rms值计算有效值的稳态电平计算单元(3)、用来以稳态电平计算单元(3)的输出min rms除rms计算单元(2)的输出rms值从而得到商rmsg的除法器(4)、以及用于通过对数振幅差分计算单元(8)的对数振幅差分wdif输出一个判别标记decflag的模糊推理单元(9)。
Description
技术领域
本发明涉及当无声间隔内的比特率与有声间隔内的比特率不同时对输入语音信号编码的编码方法和装置。本发明还涉及对用该编码方法和装置进行编码和传输的编码数据进行解码的方法和装置,并且涉及用于通过软件相关技术执行编码方法和解码方法的程序提供介质。
背景技术
近来,在需要传输路径的通信领域,为了实现高效地使用传输带宽,希望在传输输入信号前根据输入信号的种类,诸如被分为例如有声声音和无声声音的语音信号间隔,或者背景噪音间隔,来改变传输的输入信号的编码率。
例如,如果给出的间隔被检验为背景噪音间隔,在解码设备不会特意产生背景噪音的情况下,就会希望不要传输编码参数而只是简单地对该间隔进行静噪。
然而这样会导致不自然呼叫,因为背景噪音是叠加在通信一方发出的语音上,并且在没有语音时会突然产生无声状态。
考虑到这一点,常规处理是这样的,即,如果给出的间隔被检验为背景噪音间隔,那么不发出一些编码参数,这时解码设备通过重复使用过去的参数产生背景噪音。
然而,如果一直以重复的方式使用过去的参数,会得到这样的印象,即,噪音自身具有音调,从而产生非自然的噪音。只要线谱对(LSP)参数保持相同,即使电平等发生改变也会发生这样的情况。
发明内容
因此本发明的一个目的是提出一种语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质,其中,在语音编解码器中,相对大量的传输比特被给予语音间隔的语言语音判据,使非语言语音和背景噪音序列中减少的比特数抑制传输比特的总数并且减少了传输比特的平均量。
一方面,本发明提出了一种在输入语音信号的有声间隔和无声间隔之间以不同比率进行有效编码的语音编码装置,包括输入信号检验装置,用来在时间轴上将语音信号以预置单位进行划分并且根据信号电平和预置单位的频谱包络的时间变化来检验无声间隔是背景噪音间隔还是语音间隔,其中编码比特的分配在背景噪音间隔的参数、语音间隔的参数和有声间隔的参数之间是不同的。
另一方面,本发明提出了一种在输入语音信号的有声间隔和无声间隔之间以不同比率进行有效编码的语音编码方法,包括输入信号检验步骤,用来在时间轴上将语音信号以预置单位进行划分并且根据信号电平和预置单位的频谱包络的时间变化来检验无声间隔是背景噪音间隔还是语音间隔,其中编码比特的分配在背景噪音间隔的参数、语音间隔的参数和有声间隔的参数之间是不同的。
再一方面,本发明提出了一种对输入信号进行检验的方法,包括以预置单位划分输入语音信号并且以预置单位寻找信号电平时间改变的步骤,以该单位寻找频谱包络时间改变的步骤,和根据信号电平时间改变及频谱包络时间改变检验可能出现的背景噪音的步骤。
另一方面,本发明提出了一种将不同比特分配的编码比特解码为无声间隔参数和语音间隔参数的解码装置,包括检验所述编码比特中的间隔是语音间隔还是背景噪音间隔的检验装置,以及通过使用当前或当前及过去接收到的LPC系数、当前或当前及过去接收到的CELP增益索引信号和如果所述检验装置去掉了表示背景噪音间隔的信息则在内部随机产生的CELP整形索引信号而在背景噪音间隔解码编码比特的解码器件。
另一方面,本发明提出了一种将不同比特分配的编码比特解码为无声间隔参数和语音间隔参数的解码方法,包括检验所述编码比特中的间隔是语音间隔还是背景噪音间隔的检测步骤,以及通过使用当前或当前及过去接收到的LPC系数、当前或当前及过去接收到的CELP增益索引信号和在内部随机产生的CELP整形索引信号而在背景噪音间隔解码编码比特的解码步骤。
另一方面,本发明提出了一种用于提供在输入语音信号的有声间隔和无声间隔之间以不同比率进行编码的语音编码程序的介质,其中该程序包括输入信号检验步骤,用来在时间轴上将输入语音信号以预置单位进行划分并且根据信号电平的时间变化和预置单位的频谱包络来检验无声间隔是背景噪音间隔还是语音间隔。编码比特的分配在背景噪音间隔的参数、语音间隔的参数和有声间隔的参数之间是不同的。
另一方面,本发明提出了一种用于提供将以不同比特分配进行编码的传输比特解码为无声间隔参数和有声间隔参数的语音解码程序的介质,其中该程序包括检验编码比特中的间隔是语音间隔还是背景噪音间隔的检验步骤,以及通过使用当前或当前及过去接收到的LPC系数、当前或当前及过去接收到的CELP增益索引信号和在内部随机产生的CELP整形索引信号而在背景噪音间隔解码编码比特的解码步骤。
通过根据本发明的解码方法和装置,能够保持语音信号的连续性从而解码高质量的语音。
此外,通过根据本发明的程序提供介质,能够使计算机系统保持语音信号的连续性从而解码高质量的语音。
附图说明
图1是表示体现本发明的便携电话设备的结构方框图;
图2表示便携电话设备除输入信号判别单元和参数控制器之外的语音编码设备的内部详细结构;
图3表示输入信号判别单元和参数控制器的详细结构;
图4是表示计算稳态电平均方值的处理流程图;
图5表示模糊推理单元的模糊规则;
图6表示模糊规则中关于信号电平的隶属函数;
图7表示模糊规则中关于频谱的隶属函数;
图8表示模糊规则中关于推理结果的隶属函数;
图9表示模糊推理单元中的推理的一个特定的例子;
图10是表示在参数产生单元中确定传输参数的处理部分的流程图;
图11是表示在参数产生单元中确定传输参数的剩余处理部分的流程图;
图12表示作为一个例子使用在MPEG4(运动图象专家组4)中采用的语音编解码器HVXC(谐波向量激发编码)编码每一个条件下的比特;
图13是表示语音解码装置的详细结构方框图;
图14是表示语音编码设备的基本和周边部分的结构方框图;
图15是LPC参数再现控制单元的LPC参数再现部分的详细流程图;
图16表示标题比特的结构;
图17是表示应用本发明的传输系统的方框图;
图18是构成传输系统的服务器方框图;
图19是构成传输系统的客户终端方框图。
具体实施方式
参照附图,将详细描述根据本发明的编码方法和装置以及语音解码方法和装置的优选实施例。
基本上,这样的系统可以这样描述,在发射侧分析语音以找到编码参数,发射编码参数并且在接收侧合成语音。特别地,发射侧根据输入语音的特性将编码模式分类,并且改变比特率来消除传输比特率的平均值。
一个特定的例子是便携电话设备,其结构如图1所示。该便携电话设备以图1所示语音编码设备20和语音解码设备31的形式使用根据本发明的编码方法和装置以及解码方法和装置。
语音编码设备20进行编码以便与有声(V)间隔的比特率相比降低输入语音信号的无声(UV)间隔的比特率。语音编码设备20还在无声间隔将背景噪音间隔(无语音间隔)和语音间隔相互判别从而在无声间隔以相当低比特率进行编码。它还从语音间隔判别无语音间隔从而将判别结果发射到语音解码设备31。
在语音编码设备20中,通过输入信号判别单元21a在输入语音信号中判别无声间隔和有声间隔或者在无声间隔判别无语音间隔和语音间隔。接着将详细解释该输入信号判别单元21a。
首先,解释发射侧的结构。从麦克风1输入的语音信号通过A/D转换器10转换为数字信号并且由语音编码设备20以不同的比率编码。接着传输路径编码器22将编码信号编码从而使语音质量不容易被传输路径的质量所损坏。调制器23调制结果信号并且由发射器24为发射做处理,以便通过天线共享器25经天线26发射。
另一方面,接收侧的语音解码器31接收一个标记,该标记表示给出的间隔是语音间隔还是无语音间隔。如果间隔是无语音间隔,语音解码器31使用当前或当前及过去接收的LPC系数、当前或当前及过去接收的CELP(码激发线性预测)增益索引信号和在解码器中随机产生的CELP的整形索引信号,对所述间隔解码。
下面解释接收侧的结构。接收器27通过天线共享器25接收天线26捕获的电磁波并且由解调器13解调,从而接着由传输路径解码器30修正传输差错。D/A转换器32将结果信号转换回由扬声器33输出的模拟语音信号。
控制器34控制上述各个部分,同时合成器28将发射/接收频率通知发射器24和接收器27。键盘35和LCD显示器36作为人机交互界面。
下面参照图2和3详细解释语音编码设备20。图2给出了语音编码设备20内部的编码单元的详细结构,不包括输入信号判别单元21a和参数控制单元21b。图3给出了输入信号判别单元21a和参数控制单元21b的详细结构。
将采样频率为8kHz的语音信号提供给输入端101。在高通滤波器(HPF)109中将不需要波段的信号从输入语音信号中去掉并且接着提供给输入信号判别单元21a,LPC(线性预测编码)分析量化单元113的LPC分析电路132和LPC反滤波电路111。
参照图3,输入信号判别单元21a包括一个均方根计算单元2,用来计算滤波输入语音信号的rms(均方根)值并提供给输入端1,稳态电平计算单元3,用来通过有效值的均方根计算有效值的稳态电平,还包括除法器4,用于用稳态电平计算单元3的输出min_rms除均方根计算单元2的输出均方根以得到商rmsg,还包括LPC分析单元5,用于对来自输入端1的输入语音信号进行LPC分析以找到LPC系数α(m),还包括LPC对数倒频谱系数计算单元6,用来将来自LPC分析单元5的LPC系数α(m)转换为LPC对数倒频谱系数CL(m),和对数幅值计算单元7,用来从LPC对数倒频谱系数计算单元6的LPC对数倒频谱系数CL(m)找到平均对数振幅logAmp(i)。输入信号判别单元21a包括对数振幅差分计算单元8,用于从对数振幅计算单元7的平均对数振幅logAmp(i)中找到对数振幅差分wdif,以及一个模糊推理单元9,用于通过除法器4的rmsg和对数振幅差分计算单元8的对数振幅差分wdif输出一个判别标记decflag。同时,后面将解释到,如图2所示,示出包括V/UV判断单元115的编码单元,,该编码单元用于从输入语音信号输出idVUV判断结果并编码各种参数以输出编码参数,为便于描述,该编码单元作为语音编码单元13在图3示出。
参数控制单元21b包括一个计数器控制器11,用来根据来自V/VU判断单元115的idVUV判断结果和来自模糊推理单元9的判断结果decflag设置背景噪音计数器bgnCnt,和参数产生单元12,用于确定一个更新标记Flag并将该标记在输出端106上输出。
现在详细解释输入信号判别单元21a以及参数控制单元21b的的不同部分的操作。首先,下面是输入信号判别单元21a的不同部分的操作。
均方根计算单元2将以8kHz频率采样的输入语音信号分为20毫秒基本帧(160个样值)。对于语音分析,在重叠的32毫秒帧(256个样值)上执行。输入信号s(n)被分为8个间隔并且由下面的公式(1)得到间隔幂ene(i):
通过下面的公式(2)或者(3)由ene(i)得到使前一边相对后一边信号间隔部分比率ratio最大的边界m:
这里公式(2)是当前一部分大于后一部分时的比率,而公式(3)是当后一部分大于前一部分时的比率。
需要指出的是m限制为m=2,…,6.
这样根据下面的公式(4)或(5),信号有效值值rms就能够通过较大的前一部分或后一部分的均方根,以及这样得到的边界值m而得到:
需要注意的是公式(4)是当前一部分大于后一部分时的有效值rms,而公式(5)是当后一部分大于前一部分时的有效值rms。
通过前面描述的有效值rms,稳态电平计算单元3按照图4的流程图计算有效值的稳态电平。在步骤S1,根据过去帧的有效值rms的稳态检测计数器的状态st_cnt是否小于4。如果在步骤S1检测的结果是YES,则稳态电平计算单元3执行步骤S2来将过去连续4帧的第二大的rms值设置为near_rms。接着,在步骤3,从前面的rms中找到最小值minval,它是far_rms(i)(i=0,1)和near_rms。
如果这样在步骤S4中找到的最小值minval大于作为稳态rms的min_rms,稳态电平计算单元3执行步骤S5以便如下面的公式(6)所示更新min_rms:
min_rms=0.8·min_rms+0.2·minval …(6)
接着,在步骤S6,按下面的公式(7)和(8)更新far_rms:
far_rms(0)=far_rms(1) …(7)
far_rms(1)=near_rms …(8)
接着,在步骤S7,rms和标准电平STD_LEVEL中较小的一个被设置为max_val,这里STD_LEVEL等于信号电平-30dB,以便设置一个上限电平,从而使当前rms是一个较高信号电平时不会发生故障。在步骤S8,将maxval与min_rms进行比较以便如下更新min_rms:即,如果maxval小于min_rms,在步骤S9只稍微更新min_rms,如公式(9)所示,然而,如果maxval不小于min_rms,在步骤S10只稍微更新min_rms,如公式(10)所示:
min_rms=min_rms+0.001·maxval(maxval≥min_rms)…(9)
min_rms=min_rms+0.002·(maxval≥min_rms)…(10)
在步骤S11,如果min_rms小于静音电平MIN_LEVEL,设置min_rms=MIN_LEVEL,这里MIN_LEVEL是信号电平-66dB。
同时,如果在步骤S12前面与后面信号部分的电平比率ratio小于4,同时rms小于STD_LEVEL,帧信号是稳定的。因此,稳态电平计算单元3执行步骤S13将稳定指示计数器st_cnt增加到1,如果是其它情况,稳态电平计算单元3执行步骤S14设置st_cnt=0,因为这时的稳定性较低。这样实现了目标稳态rms。
除法器4将rms计算单元2的输出rms除以稳态电平计算单元3的输出min_rms来计算rmsg。即,该rmsg表示当前rms相对稳态rms的大概电平。
接着LPC分析单元5从输入语音信号s(n)中找到短期预测(LPC)系数α(m)(m=1,i,KI0)。同时,也可以用语音编码单元13的内部LPC分析得到的LPC系数α(m)。LPC对数倒频谱系数计算单元6将LPC系数α(m)转换为LPC系数CL(m)。
对数振幅计算单元7能够按照下面的公式(11)从LPC系数CL(m)中找到对数平方振幅特性ln|HL(ejΩ)|2:
然而,这里上面公式右边的求和计算的上限,在无穷大的位置上,设为16,并且按照下面的公式(12)和(13)找到一个整数以找到间隔平均logAmp(i)。同时,CL(0)=0因此忽略掉。
其中对于平均间隔(ω=Ωi+1-ΩI)设置ω为500Hz(=π/8)。这里,对应于以500Hz为间隔4等分范围0到2kHz,计算i=0,…,3时的logAmp(i)。
现在解释对数振幅差分计算单元8和模糊推理单元9。在本发明中,使用模糊理论检测静音和背景噪音。模糊推理单元9如下所述使用除法器4用min_rms除rms得到的rmsg值和来自对数振幅差分计算单元8的wdif输出判断标记decflag。
图5给出的是模糊推理单元9中使用的模糊规则。在图5中,上一行(a),中间行(b)和下一行(c)是用于背景噪音的规则,分别主要是噪音参数更新规则和语言规则。还有,在图5中,左面的一列,中间列和右面的一列分别表示rms的隶属函数,频谱包络的隶属函数和推理结果。
模糊推理单元9首先使用图5左面一列的隶属函数将除法器4用min_rms除rms得到的rmsg值分类。从上面一行,如图6所示定义隶属函数μAi1(x1)(i=1,2,3)。同时,x1=rmsg。
另一方面,对数振幅差分计算单元8保持过去n(例如,4)帧的频频的对数振幅logAmp(i)并找到平均值aveAmp(i)。对数振幅差分计算单元8接着通过下面的公式(14)找到aveAmp(i)与当前logAmp(i)之差的平方和wdif:
模糊推理单元9用图5中间一行所示的隶属函数对对数振幅差分计算单元8如上所述得到的wdif进行分类。通过上面一行,如图7所示定义隶属函数μAj1(x1)(i=1,2,3),这里x2=wdif。即,图5中间一列所示的隶属函数从上面一行(a),中间行(b)到下面一行(c)定义为μA12(x2),μA22(x2)和μA32(x2)。同时,如果rms小于上述常数MIN_LEVEL(静音电平),图7未给出,但是这时μA12(x2)=1而μA22(x2)=μA32(x2)=0。原因是,如果信号较弱,频谱变化比一般情况更加剧烈从而影响判断。
由于从μAij(xj)得到推理结果,模糊推理单元9如下得到隶属函数μBi(y):首先,在图5的上面,中间和下面行中的每行的μAi1(x1)和μAi2(x2)中的较小者被设定为该行的μBi(y),如下面的公式(15)所示:
μBi(y)=min(μAi1(x1),μAi2(x2))(i=1,2,3)(15)
注意到这样的配置,其中,如果表示语音的隶属函数μA31(x1)和μA32(x2)中的一个为1,输出μB1(y)=μB2(y)=0和μB3(y)=1。
注意,从公式(15)得到的每一级的μBi(y)等于图5的右侧列的函数值。如图8所示定义隶属函数μBi(y)。即,右列所示的隶属函数以图8所示的上面行(a),中间行(b)和下面行(c)所示的顺序被定义为μB1(y),μB2(y)和μB3(y)。
根据这些值,模糊推理单元9进行推理,其通过下面公式(16)所示的区域法进行判别:
这里y*和yi *表示推理结果和每行的隶属函数的重心。在图5,以上面,中间和下面行的顺序分别是0.1389,0.5和0.8611。Si表示一个区域。使用隶属函数μBi(y),从下面的公式(17),(18)和(19)可以得到S1到S3:
S1=μB1(y)·(1-μB1(y)/3)/2 (17)
S2=μB2(y)·(2/3-μB2(y)/3) (18)
S3=μB3(y)·(1-μB3(y)/3)/2 (19)
通过从这些值得到的y*的推理结果值,判定标记decFlag的输出值定义如下:
0≤y*≤0.34 →decFlag=0
0.34<y*<0.66 →decFlag=2
0.66≤y*≤1 →decFlag=1
这里decFlag=0指出判定结果表示背景噪音,decFlag=2指出参数需要被更新,以及decFlag=1指出语音判别结果。
图9示出一个具体的例子。假定x1=1.6和x2=0.35,从这里,如下定义
μAij(xj),μAi2(x2)和μBi(y):
μA11(x1)=0.4,μA12(x2)=0,μB1(y)=0
μA21(x1)=0.4,μA22(x2)=0.5,μB2(y)=0.4
μA31(x1)=0.6,μA32(x2)=0.5,μB3(y)=0.5
如果从这里计算一个区域,则S1=0,S2=0.2133以及S3=0.2083,因此最终y*=0.6785以及decFlag=1,这样就指出语音。
前面的是输入信号判别单元21a的操作。下面解释参数控制单元21b的各个部分的详细操作。
计数器控制器11根据来自V/UV判定单元115的idVUV的判定结果和来自模糊推理单元9的标记decflag设定背景噪音计数器bgnCnt以及背景噪音间隔计数器bgnIntvl。
参数产生单元12从计数器控制器11的bgnIntvl和idVUV的判定结果确定idVUV参数和更新标记Flag以设定从输出端106发出的更新标记Flag。
确定传输参数的流程图如图10和11所示。定义背景噪音计数器bgnCnt以及背景噪音间隔计数器bgnIntvl,二者都具有初始值0。首先,如果图10中的步骤S21的输入信号的分析结果指示无声声音(idVUV=0),并且在步骤S22到S24decFlag=0,则程序进入步骤S25将背景噪音间隔计数器bgnIntvl增加1。如果decFlag=2,则保持bgnCnt。在步骤S26,如果bgnCnt不小于一个恒定的BGN_CNT,例如6,则程序进入步骤S27以便将idVUV设定到表示背景噪音的值或1。在步骤S28,如果decFlag=0,并且bgnCnt>BGN_CNT,则在步骤S29将bgnCnt增加1。如果在步骤S31,bgnIntvl等于一个恒定的BGN_CNT,例如16,则程序进入步骤S32以便设定bgnIntvl=0。如果在步骤S28 dec Flag=2或者bgnCnt=BGN=CNT,则程序进入步骤S30,在这里设定bgmIntvl=0。
在步骤S21,如果该声音为有声(idVUV=2,3),或者如果在步骤S22,decFlag=1,则程序进入步骤S23,在这里bgnCnt=0并设定bgnIntvl=0。
参照图11,如果在步骤S33该声音为无声或者背景噪音(idVUV=0,1),并且如果在步骤S35,如果该声音为无声(idVUV=0),则在步骤S36输出无声参数。
如果在步骤S35背景噪音(idVUV=1)并且如果在步骤S37,bgnIntvl=0,则在步骤S38输出背景噪音参数(BGN=背景噪音)。另一方面,如果在步骤S37bgnIntvl>0,则程序进入步骤S39以便今发射标题比特。
标题比特的配置如图16所示。注意,idVUV比特被直接设定到上面的两个比特。如果背景噪音周期(idVUV=1)和帧不是更新帧,则下一个比特被设定为0并且,如果是其他情况,则下一个比特被设定为1。
作为一个示例,采用MPEG4所使用的语音编解码器HVXC((谐波向量激发编码),在图12详细示出各种条件下的编码比特。
对于有声,无声,背景噪音更新或背景噪音无更新,使用两个比特编码idVUV。作为更新标记,在背景噪音更新和无更新时每次分配1比特。
LSP参数被分为LSP0,LSP2,LSP3,LSP4和LSP5。在这些参数中,LSP0是第10个LSP的代码本索引并用作基本的包络参数。对于20毫秒帧,分配5比特。LSP2是第5个低频纠错的LSP参数的代码本索引并且已将7个比特分配在这里。LSP3是第5个高频范围纠错的LSP参数的代码本索引并且已将5个比特分配在这里。LSP5是第10个全频范围纠错的LSP参数的代码本索引并且已将8个比特分配在这里。在这些参数中,当LSP0还不能充分表示包络时,LSP2,LSP3和LSP5是用作补偿前面级的差错并被补充使用的索引。LSP4是用于选择编码时的编码模式是直接模式还是差模差分模式的1比特选择标记。具体地说,其表示通过量化得到的直接模式的LSP和从量化差值得到的LSP之间的选择,无论哪个值都具有与从原始波形分析得到的原始LSP参数较小的差值。如果LSP4是0或1,则模式分别为直接模式或差模差分模式。
对于有声声音,其全部的LSP参数为编码比特。对于有声声音和背景噪音更新,从编码比特中去除LSP5。在背景噪音的无更新时不发送LSP代码比特。特别是,背景噪音更新时的LSP代码比特为量化最新的三个帧的LSP参数的平均值时所得到的编码比特。
音调参数PCH为仅用于有声声音的7-比特代码比特。频谱代码本的代码本参数idS被分为第零LPC剩余频谱代码本索引idS0以及第一LPC剩余频谱代码本索引idS1。对于有声声音,两个索引都为4代码比特。对于无声征引在6个比特内编码该噪音代码本索引idSL00,idSL01。
对于有声声音,LPC剩余频谱增益代码本索引idG被设定为5比特代码标志(bot)。对于无声声音,将4比特代码比特分配给噪音代码本增益索引idGL00和idGL11中的每一个。对于背景噪音更新,仅将4比特代码比特分配给idGL00。背景噪音更新内的这4比特idGL00为量化最新4帧(8个子帧)的CELP增益的平均值所得到的代码比特。
对于有声声音,将7,10,9和6比特分别分配给表示为idS0_4k的零扩展LPC剩余频谱代码本索引,表示为idS1_4k的第一扩展LPC剩余频谱代码本索引,表示为idS2_4k的第二扩展LPC剩余频谱代码本索引以及表示为idS3_4k的第三扩展LPC剩余频谱代码本索引。
分别分配80比特用于有声声音,40比特用于无有声声音,25比特用于背景噪音更新以及3比特用于背景噪音无更新。
参照图2,详细解释图12所示的用于产生代码比特的语音编码器。
提供给输入端101的语音信号由高通滤波器(HPF)109滤波以取出不必要频率范围的信号。如上所述,滤波输出送到输入信号判别单元21a,LPC(线性预测编码)分析量化单元113的LPC分析电路132以及LPC反-滤波电路111。
LPC分析量化单元113的LPC分析电路132应用具有大约256个样值作为一个模块的输入信号波形的长度的Hamming窗口,以便通过自相关方法找到线性预测系数,该系统也称为α-参数。作为数据输出单元的成帧间隔大约为160个样值。采用例如8kHz的采样频率fs,帧间隔为160个样值或20毫秒。
来自LPC分析电路132的α-参数被送到用于转换到线性频谱对(LSP)参数的α-LSP转换电路133。在这种情况下,所找到的作为直接滤波器系数的α-参数通过例如Newton-Rhapson方法被转换为,例如为5对的10个LSP参数。因为LSP参数的插补特性优于α-参数的描补特性,所以使用到LSP参数的转换。
来自α-LSP转换电路133的LSP参数被LSP量化器134进行矩阵或向量量化。在向量量化之前首先消除帧到帧的差值。作为一种替换,通过矩阵量化可以一起取出并量化数个帧。这里,20毫秒是一帧并且每20毫秒计算的LSP参数被一起取出并进行矩阵或向量量化。
作为LSP量化索引的LSP量化器134的量化输出在终端102输出,同时量化LSP向量被送到LSP插补电路136。
LSP插补电路136插补每20毫秒或每40毫秒量化的LSP向量,以便将比率提高因数8,从而LSP向量每2.5毫秒被更新。其原因是,如果剩余波形被谐波编码/解码方法分析-合成,则合成波形的包络极为光滑,因此,如果LPC系数变化剧烈,将导致产生极大的声音。即,如果LPC系数每2.5毫秒逐渐变化,则将阻止产生极大的声音。
对于使用插补基于2.5毫秒的LSP向量执行输入语音的反-滤波,通过LSP-α转换电路137将LSP参数转换为α-参数,该α-参数为具有大约10级的直接类型滤波器的系数。LSP-α转换电路137的输出被送到LPC反-滤波电路111,在这里使用每2.5毫秒更新的α-参数完成反-滤波以便实现光滑输出。LPC反-滤波电路111的输出被送到正弦分析编码单元114,具体为谐波编码电路的诸如离散傅立叶变换电路之类的正交转换电路145。
来自LPC分析量化单元113的LPC分析电路132的α-参数被送到心理加权滤波器计算电路139,在这里找到用于心理加权的数据。该加权数据被送到第二编码单元120的心理加权向量量化单元116,心理加权滤波器125以及心理加权合成滤波器122。
正弦分析编码单元114可以是诸如谐波编码电路之类的电路,LPC反-滤波电路111的输出通过谐波编码方法进行分析。即,正弦分析编码单元检测音调,计算每个谐波的幅值Am并执行V/UV判别。正弦分析编码单元还在幅值上将具有变化音调的幅值Am或谐波的包络转换为恒定数。
在图2示出的正弦分析编码单元114的一个具体的示例,预先抑制例行谐波编码。特别是,在多-频带激励(MBE)编码中,假定在同时发生的每个频率范围或频段,即,在相同的帧块出现一个语言部分和一个无语言部分的情况下进行建模。在其他的谐波编码形式中,一种替换判定是就该帧块内的语音是语言还是无语言进行判定。在下面的解释中,基于帧的V/UV含义是在采用MBE编码情况下当整个频带为UV时的给定帧的V/UV。就分析方法的合成而言,由本专利受让人提出的日本特开专利H-5-265487公开了一种本专利受让人建议的具体示例。
将来自输入端101的输入语音信号反馈给图2的正弦分析编码单元114的开环音调查找单元141,同时将来自高通滤波器(HPF)109的信号反馈给过零计数器142。将来自LPC反-滤波电路111的LPC剩余或线性预测剩余反馈给正弦分析编码单元114的正交转换电路145。开环音调查找单元141取出输入信号的LPC剩余以便通过取出取出输入信号的LPC剩余执行相对粗糙的音调查找。所提取的粗音调数据被送到高准确性音调查找单元146,在这里执行后面所述的闭环查找高准确性音调(精细音调查找)。从开环音调查找单元141,与粗音调数据一起取出标准化LPC剩余的最大自相关值时得到的最大标准化自相关值r(p),并将其送到V/UV判定单元115。
正交转换电路145执行诸如离散余弦变换(DFT)之类的处理以便将时间州上的LPC剩余转换为频率轴上的频谱幅值数据。正交转换电路145的输出被送到高准确性音调查找单元146以及用于评价频谱幅值或包络的频谱评价单元148。
将开环音调查找单元141提取的相对较粗音调的粗音调数据和开环音调查找单元141提取的频率间隔上的数据反馈给高准确性音调查找单元146。在该高准确性音调查找单元146,以粗音调数据为中心音调数据被偏移正负数个样值以接近具有最佳小数点(浮点)的精细音调数据值。作为精细查找技术,使用由合成方法进行的所谓分析并选择音调以便合成功率频谱将最接近原始语音的功率频谱。通过闭环来自高准确性音调查找单元146的音调数据通过开关118被送到输出端104。
在频谱评价单元148,根据作为LPC剩余的正交转换输出的音调和频谱幅值评价其设定的每个谐波的幅值和频谱包络。评价结果送到高准确性音调查找单元146,V/UV判定单元115以及心理加权向量量化单元116。
在V/UV判定单元115,根据正交转换电路145的输出,高准确性音调查找单元146的最佳音调,频谱评价单元148的幅值数据,开环音调查找单元141的最大标准化自相关值r(p)以及过零计数器142的过零值给出所述帧的V/UV判定。MBE编码情况下的基于频带的V/UV判定结果的边界位置也用作所述帧的V/UV判定条件。经输出端105取出V/UV判定单元115的判定输出。
频谱评价单元148的输出或向量量化单元116的输入提供给多个转换单元119,该转换单元是一种采样率转换单元。在考虑到音调改变在频率间隔分开的频带数目从而改变数据量的情况下,该数据转换单元的数目用于将包络的幅值数据|Am|设定为恒定数。即,如果有效频带高达3400kHz,则根据音调将该有效频带分为8到63个频带,以便从频带到频带所得到的幅值数据|Am|的数字mMX+1也在8到63的范围内变化。因此,数据转换单元119的数目将变化的数字mMX+1幅值数据转换为恒定数M,例如,44。
按照预设定的数据数,例如44数据收集上述诸如44之类的恒定数,来自频谱评价单元148的输出提供的数据转换单元数的振幅数据或包络数据或向量量化单元116的输入作为进行加权向量量化的向量。由心理加权滤波器计算电路139的输出进行加权。来自向量量化单元116的上述包络的索引idS在输出端103通过开关117输出。同时,在加权向量量化之前取出采用适当漏出系数的内帧差值以用于由预设定数据数组成的向量。
下面将描述具有所谓的CELP(编码激励线性预测)编码配置的编码方法。该编码方法用于编码输入语音信号的无声部分。在用于输入语音信号的无声语音部分的该CELP编码配置中,对应于作为噪音代码本各输出的无声语音的LPC剩余的噪音输出,或所谓的随机代码本121通过增益电路126送到心理加权合成滤波器122。加权合成滤波器122通过LPC合成方法LPC合成输入噪音以便将产生的加权无声语音信号送到减法器123。将输入端101提供的语音信号经高通滤波器(HPF)109反馈给减法器,该信号已由心理加权滤波器125心理加权。这样,减法器从合成滤波器122的信号得到差值或误差。注意到在心理加权滤波器125的输出开始减去心理加权合成滤波器的零输入响应。该误差被送到距离计算电路124以便进行查找最小化噪音代码本121的误差的表示值向量的距离计算。也就是通过采用闭环查找,采用合成方法的依次合成所得到的时间间隔波形,该波形是被量化的向量。
就用于体现CELP编码配置的编码单元的UV(无声)部分的数据而言,取出来自噪音代码本121的代码本的整形索引idSI以及来自增益电路126的代码本的增益索引idGI。作为来自噪音代码本121的UV数据的整形索引idSI经开关127a送到输出端107a,同时作为增益电路126的的UV数据的增益索引idGI经开关127g送到输出端107g。
根据V/UV判定单元115的V/UV判定结果接通/断开控制这些开关127s,127g以及上述开关117,118。当与现在发送有关的帧语音信号的V/UV判定结果指示有声声音(V)时接通开关117,118,同时当与现在发送有关的帧语音信号指出无声声音(UV)时接通开关127s,127g。
由传输路径编码器22编码由上述语音编码器以可变比率编码的各个参数,这些参数为LSP参数LSP,有声/无声判别参数idVUV,音调参数PCH,频谱包络的代码本参数idS和增益索引idG,噪音代码本参数idS1以及增益索引idG1,以便语音质量不受传输路径质量的影响。所产生的信号由调制器23调制并被处理以用于发射器24发射,从而经天线共享器25由天线发射。如上所述,上述参数也送到参数控制单元21b的参数产生单元12。参数产生单元12使用来自V/UV判定单元115的V/UV判定结果,来自计数器控制器11的上面参数以及bgnIntvl产生idVUV以及0更新标记。参数控制单元21b还管理控制,因此,如果从V/UV判定单元115产生指示背景噪音的idVUV=1,则作为LSP量化方法的差模差分模式(LSP4=1)禁止LSP量化器134使用,从而使得仅通过直接模式(LSP4=0)执行量化。
解释图1所示的便携电话设备的接收侧的语音解码设备31。将由天线26俘获,由接收器27经天线共享器25接收,由解调器29解调并由用于传输路径误差的传输路径解码器30校正的接收比特反馈给语音解码设备31。
语音解码设备31的结构在图13详细示出。具体地说,语音解码设备包括用于从输入端200输入的接收比特取出标题比特以便如图16所示分开idVUV和更新标记并用于输出代码比特的标题比特解释单元201,和用于通过idVUV和更新标记如后面所解释的控制开关143和248的切换的切换控制器241。语音解码设备还包括用于用于通过后面解释的序列确定LPC参数或LSP参数的LPC参数再现控制器240,以及用于从代码比特内的LSP索引再现LPC参数的LPC参数再现单元213。语音解码设备还包括用于将代码比特分解为各个参数索引的代码比特解释单元209以及由切换控制器241控制,在接收到背景噪音更新帧闭合,反之断开的开关248。语音解码设备还包括由切换控制器241控制,使其在接收到背景噪音更新帧与RAM244连接,反之断开的开关243,以及用于产生UV整形索引作为随机数的随机数发生器208。语音解码设备还包括用于向量量化来自包络索引的包络的向量去量化器212和用于合成来自idVUV,音调和包络的有声声音的语言语音合成单元211。语音解码设备还包括LPC合成滤波器214以及用于在接收到背景噪音更新标记时保留代码比特并在接收到背景噪音无更新标记时提供代码比特的RAM244。
首先,标题比特解释单元201从输入端200提供的接收比特取出标题比特以便从更新标记Flag分离idVUV以识别所述帧内的帧数。如果存在下一个后面的比特,则标题比特解释单元201将其输出作为一个代码比特。如果标题比特配置的上面两比特为00,则该比特被认为是背景噪音(BGN)。因此,如果下一个比特为0,则该帧为无更新帧,因此该处理接近结束。如果下一个比特为1,则读出下面的22比特以读出背景噪音的更新帧。如果上面两位为10/11,则该帧被认为是语言,因此读出下面的78比特。
切换控制器241检查idVUV和更新标记。如果idVUV=1,并且更新标记Flag=1,则发生更新,因此开关248被闭合以便将代码比特发送到RAM244。同时,开关243闭合到标题比特解释单元201一侧以便将代码比特送到代码比特解释单元209。如果相反更新标记Flag=0,则未发生更新,因此开关248被断开。开关243闭合到RAM244一侧以便在更新开始时提供代码比特。如果idVUV≠1,则开关248断开,同时开关243打开到上面一侧。
代码比特解释单元209将从标题比特解释单元201经开关243提供到这里的代码比特分解为相应的参数索引,也就是LSP索引,音调,包络索引,UV增益索引或UV整形索引。
随机数发生器208产生UV整形索引作为随机数。如果开关249接收到具有idVUV=1的背景噪音帧,则开关249由切换控制器241闭合以便将UV整形索引发送到无有声声音合成单元220。如果idVUV≠1,则UV整形索引经开关249从代码比特解释单元209发送到无有声声音合成单元220。
LPC参数再现控制器240内部具有一个切换控制器和一个索引判定单元并以后面解释的方式,根据判定结果通过切换控制器检测idVUV以控制LPC参数再现单元213的操作。
LPC参数再现单元213,无有声声音合成单元200,向量去量化器212,有声声音合成单元211以及LPC合成滤波器214构成语音解码设备31的基本部分。图14示出这些基本部分和外围部分的结构。
将也被称为代码本索引的LSP向量量化输出反馈给输入端202。
将LSP索引发送给LPC参数再现单元213。如上所述,LPC参数再现单元213通过代码比特内的LSP索引再现LPC参数。LPC参数再现单元213由未示出的LPC参数再现控制器240内的切换控制器控制。
首先,解释LPC参数再现单元213。LPC参数再现单元213包括一个LSP去量化器231,转换开关251,LSP插补电路232(用于V)以及233(用于UV),LSP-α转换电路234(用于V)以及235(用于UV),开关252,RAM 253,帧插补电路245,LSP插补电路246(用于BGN)以及LSP-α转换电路247(用于BGN)。
LSP去量化器231去量化来自LSP索引的LSP参数。解释LSP去量化器231内的LSP参数的生成。这里,引入背景噪音计数器bgnIntvl(初始值=0)。在有声声音(idVUV=2,3)或无有声声音(idVUV=0)的情况下,通过所用的解码处理产生LSP参数。
在背景噪音(idVUV=1)的情况下,如果该帧为更新帧,则设定bgnIntvl=0,并且,如果相反,则将bgnIntvl增加1。如果当bgnIntvl增加1时,其等于后面解释的BGN_INTVL_RX,则bgnIntvl不增加1。
接着,如下面公式(20)所述产生LSP参数。
注意到在更新帧为qLSP(prev)(1,…,10)之前直接接收LSP参数,则在更新帧内接收的LSP参数为qLSP(prev)(1,…,10)并且通过插补产生的LSP参数为qLSP(prev)(1,…,10)。
在上面的公式,BGN_INTVL_RX为恒定值,并且使用bgnIntvl和随机数rnd(=-3,…,3)通过下面公式(21)产生bgnIntvl’:
bgnIntvl’=bgnIntvl+rnd …(21)
注意到,如果当bgnIntvl’<0,bgnIntvl’=bgnIntvl以及bgnIntvl′≥BGN_INTVL_RX,则设定bgnIntvl’=bgnIntvl。
LPC参数再现控制器240内的未示出的切换控制器根据V/UV参数以及更新标记Flag控制LPC参数再现单元213内的开关252,262.
对于idVUV=0,2,3以及对于idVUV=1,开关251被分别设定到上端和下端。如果更新标记Flag=1,即,在背景噪音更新帧的情况下,开关252被闭合到将LSP参数发送到RAM253以便在qLSP(curr)更新qLSP(prev)之后更新qLSP(curr)。RAM253保留qLSP(prev)和qLSP(curr)。
帧插补电路245使用内部计数器bgnIntvl从qLSP(prev)和qLSP(curr)产生qLSP。LSP插补电路246插补LSPs。LSP-α转换电路247将用于BGN的LSP转换为α。
参照图15的流程图将详细解释由LPC参数再现控制器240进行的LPC参数再现单元213的控制。
首先,在步骤S41 LPC参数再现控制器240的切换控制器检测V/UV判定参数idVUV。如果该参数为0,则切换控制器进入步骤S42以便通过LSP插补电路233插补LSPs。接着切换控制器进入步骤S43,在这里通过LSP-0转换电路235将LSPs转换为α。
如果在步骤S41,idVUV=1,并且在步骤S44,更新标记Flag=1,则该帧为更新帧,因此在步骤S45在帧插补电路245设定bgnIntvl=0。
如果在步骤S44,更新标记Flag=0,并且bgnIntvl<BGN_INTVL_RX-1,则切换控制器进入步骤S47以便将bgnIntvl增加1。
在步骤S48,产生bgnIntvl’作为帧插补电路245使用的随机数rnd。然而,如果bgnIntvl’<0或者如果bgnIntvl’≥BGN_INTVL_RX,则在步骤S50设定bgnIntvl’=bgnIntvl。
接着,在步骤S51,通过帧插补电路245帧-插补LSPs。在步骤S52,通过插补电路246插补LSPs并且在步骤S53,通过LSP-α转换电路247将LSPs转换为α。
如果在步骤S41,idVUV=2,3,则切换控制器进入步骤S54,在这里通过LSP插补电路232插补LSPs。在步骤S55,通过LSP-α转换电路234将LSPs转换为α。
LPC合成滤波器214将用于有声部分的LPC合成滤波器236与无声部分的LPC合成滤波器237分开。即,在有声和无声部分独立执行LPC系数插补以防止不利影响,该不利影响可能通过插补从有声到无声部分或从无声到有声部分转换时的完全不同特性的LSPs引入。
将对应于加权向量量化频谱包络Am的代码索引数据反馈给输入端203。将音调参数PCH的数据和上述V/UV判定数据id VUV分别反馈给输入端204,205。
将对应于来自输入端203的加权向量量化频谱包络Am的索引数据发送到用于向量去量化的向量去量化器212。这样,以对应于数据数转换的方式逆-转换数据并检验送到有声声音合成单元211的正弦合成电路215的频谱包络数据。
如果在编码内的频谱的向量量化之前得到帧到帧的差值,则在数据数转换所跟随的向量去量化之后执行帧到帧的差值的解码,以产生频谱包络数据。
将来自输入端204的音调以及来自输入端205的V/UV判定数据idVUV反馈给正弦合成电路215。从正弦合成电路215,输出对应于图2的LPC逆-滤波器111的输出的LPC剩余并将其送到加法器218。以本专利受让人的姓名申请的日本专利申请H-4-91422或日本专利申请H-6-198451公开了该正弦合成的特定技术。
将来自向量去量化器212的包络数据,来自输入端204,205的音调和V/UV判定数据以及V/UV判定数据idVUV路由到适用于增加有声(V)部分的噪音的噪音合成电路216。噪音合成电路216的输出经一个加权的加权加法电路217被送到加法器218。这样作的原因是,由于通过正弦合成检验到有声声音的LPC滤波器的输入的激励给出诸如男性声音之类的低音调声音的填充感觉并且声音质量在有声(V)和无声(UV)声音之间突然改变从而产生不自然的感觉,噪音,该噪音考虑从诸如音调,频谱包络幅值,帧的最大幅值之类的编码语言数据得到的参数或者剩余信号电平被增加到LPC剩余信号的有声部分。
加法器218的和输出被发送到用于LPC合成滤波器214的有声语音的合成滤波器236以进行LPC合成处理以便产生一个时间间隔波形信号,该波形信号接着由用于有声语音238v的后滤波器滤波并路由到加法器239。
如图14所示,作为UV数据的整形索引和增益索引被分别路由到输入端207s和207g。接着将增益索引提供给无有声声音合成单元220。来自终端207s的整形索引被送到转换开关249的固定端,将随机数发生器208的输出反馈给该开关的另一个固定端。如果接收到背景噪音帧,在图13所示的切换控制器241的控制下,开关249闭合到随机数发生器208的一侧。将来自随机数发生器208的整形索引反馈给无有声声音合成单元220。如果idVUV≠1,则通过开关249从代码比特插补单元209提供整形索引。
即,在有声声音(idVUV=2,3)或无声声音(idVUV=0)的情况下通过例行解码处理产生激励信号。在背景噪音(idVUV=1)的情况下,产生CELP idSL00,idSL01的整形索引作为随机数rnd(=0,…,N_SHAPE=LO-1,这里N_SHAPE=LO-1为CELP整形代码向量数)。将CELP增益索引idGL00,idGL01提供给更新帧内的两个子帧。
上面已经解释了具有体现本发明的编码方法和设备以及解码方法和设备的便携电话设备。然而,本发明不限于便携电话设备的编码设备和解码设备,而是可以应用于,例如,传输系统。
图17所示为实施本发明传输系统的实施例的示意性结构。这时,系统是指多个设备的逻辑集成,而没有考虑各个设备是否是处于相同的壳体内。
在该传输系统中,客户终端63拥有解码设备,同时服务器61拥有编码设备。客户终端63和服务器61通过网络62,例如因特网,ISDN(综合服务数字网),LAN(局域网)或PSTN(公共交换电话网)彼此相连。
如果从客户终端63通过网络62向服务器61发出例如音符这样的音频信号请求,对应于请求音符的音频信号的编码参数受到保护以便响应心理声学的比特敏感度,防止在网络62上产生传输路径差错,并传输到客户终端63,它接着解码编码参数,这些编码参数是受到保护的,以便防止对应于解码方法的来自服务器61的传输路径差错,并且从象扬声器这样的输出设备中输出解码信号作为语音。
图18所示为图17的服务器61的示意性硬件结构。
这里ROM(只读存储器)71存储了例如IPL(初始程序装入)程序。CPU(中央处理器)72根据存储在ROM 71中的IPL程序执行OS(操作系统)程序。在OS控制下,执行存储在外部存储设备76中的预先设置的应用程序以便保护音频信号的编码处理并且编码得到的编码以便为客户终端63进行编码数据传输处理。RAM(随机存储器)73存储CPU 72的操作所要求的程序或数据。输入设备74由例如键盘,鼠标,麦克风或外部接口构成,当需要输入数据或命令时发挥作用。输入设备74还用于作为从设置到客户终端63的数字音频信号之外接收输入的接口。输出设备75由例如显示器,扬声器或打印机构成,并且显示和输出需要的信息。外部存储器76包括例如其中存有上述OS或预先设置的应用程序的硬盘。通信设备77进行在网络62上的通信所需要的控制。
存储在外部存储器76中的预先设置的应用程序是用来使CPU 72执行语音编码器3,传输路径编码器4或调制器7所发挥的作用的程序。
图19所示为图17中的客户终端63的示意性硬件结构。
客户终端63由连接到通信设备87的ROM 81构成并且基本结构与由连接到通信设备77的ROM 71构成的服务器61的结构类似。
需要注意的是,外部存储器86中存储了作为应用程序的程序,用来执行本发明的解码方法以解码来自服务器61的编码数据,或者存储现在要解释的进行其它处理的程序。通过执行这些应用程序,CPU 82解码或再现防止出现传输路径差错的编码数据。
具体地,外部存储器86中存储一个应用程序,它使CPU 82执行解调器13,传输路径解码器14和语音解码器17的功能。
这样,客户终端63能够通过软件实现存储在外部存储器86中的解码方法,而不需要图1所示硬件结构。
客户终端还能够存储从服务器61传输到外部存储器86的编码数据并在期望的时间读出编码数据并执行编码方法在期望的时间输出语音。编码数据还能够存储在另外的象磁光盘或其它记录介质这样的外部存储器中。
此外,作为服务器61的外部存储器76,可以使用象磁光盘或磁记录介质这样的可记录介质以便在这些记录介质上记录编码数据。
Claims (9)
1.一种以输入语音信号的有声间隔和无声间隔之间的不同比率进行编码的语音编码装置,包括:
输入信号检验装置,用来在时间轴上将输入语音信号以预置单位进行划分并且根据信号电平和预置单位的频谱包络的时间变化来检验无声间隔是背景噪音间隔还是语音间隔;
其中
编码比特的分配在背景噪音间隔的参数、语音间隔的参数和有声间隔的参数之间是不同的。
2.根据权利要求1的语音编码装置,其中
无声间隔的参数比特率低于有声间隔参数的比特率。
3.根据权利要求1的语音编码装置,其中
背景噪音间隔的参数比特率低于语音间隔的参数比特率。
4.根据权利要求1的语音编码装置,其中
在根据背景噪音间隔中的信号电平和频谱包络的时间变化的控制下产生表示所述背景噪音间隔中出现还是消失背景噪音参数更新的信息。
5.根据权利要求1的语音编码装置,其中
如果背景噪音间隔中的信号电平和频谱包络的时间变化较小,则发出表示背景噪音间隔的信息和表示背景噪音参数不更新的信息,并且其中
如果背景噪音间隔中的信号电平和频谱包络的时间变化较大,则发出表示背景噪音间隔的信息、更新的背景噪音参数和表示背景噪音参数更新的信息。
6.根据权利要求5的语音编码装置,其中
为限制背景噪音间隔中表示背景噪音的参数的持续时间大于一个预置时间,至少在一个预置时间间隔内更新背景噪音参数。
7.根据权利要求6的语音编码装置,其中
所述背景噪音参数是表示CELP激发信号的增益参数的频谱包络或者索引的LPC系数。
8.一种以输入语音信号的有声间隔和无声间隔之间的不同比率进行编码的语音编码方法,包括:
输入信号检验步骤,用来在时间轴上将输入语音信号以预置单位进行划分并且根据信号电平和预置单位的频谱包络的时间变化来检验无声间隔是背景噪音间隔还是语音间隔;
其中
编码比特的分配在背景噪音间隔的参数、语音间隔的参数和有声间隔的参数之间是不同的。
9.根据权利要求1的语音编码装置,其中
使用模糊推理检验背景噪音出现的可能。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP173354/1999 | 1999-06-18 | ||
JP17335499A JP4438127B2 (ja) | 1999-06-18 | 1999-06-18 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1282952A CN1282952A (zh) | 2001-02-07 |
CN1135527C true CN1135527C (zh) | 2004-01-21 |
Family
ID=15958866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB001262777A Expired - Lifetime CN1135527C (zh) | 1999-06-18 | 2000-06-17 | 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6654718B1 (zh) |
EP (2) | EP1598811B1 (zh) |
JP (1) | JP4438127B2 (zh) |
KR (1) | KR100767456B1 (zh) |
CN (1) | CN1135527C (zh) |
DE (2) | DE60027956T2 (zh) |
TW (1) | TW521261B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7386449B2 (en) | 2002-12-11 | 2008-06-10 | Voice Enabling Systems Technology Inc. | Knowledge-based flexible natural speech dialogue system |
US7518976B2 (en) * | 2003-01-30 | 2009-04-14 | Panasonic Corporation | Optical head with light sources of different wavelength |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
EP1817767B1 (en) | 2004-11-30 | 2015-11-11 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
DE602005017302D1 (de) | 2004-11-30 | 2009-12-03 | Agere Systems Inc | Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
JP4572123B2 (ja) | 2005-02-28 | 2010-10-27 | 日本電気株式会社 | 音源供給装置及び音源供給方法 |
JP4793539B2 (ja) * | 2005-03-29 | 2011-10-12 | 日本電気株式会社 | 符号変換方法及び装置とプログラム並びにその記憶媒体 |
KR20080101873A (ko) * | 2006-01-18 | 2008-11-21 | 연세대학교 산학협력단 | 부호화/복호화 장치 및 방법 |
KR101244310B1 (ko) * | 2006-06-21 | 2013-03-18 | 삼성전자주식회사 | 광대역 부호화 및 복호화 방법 및 장치 |
US8725499B2 (en) | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US8442822B2 (en) | 2006-12-27 | 2013-05-14 | Intel Corporation | Method and apparatus for speech segmentation |
KR101413967B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 |
CN101582263B (zh) * | 2008-05-12 | 2012-02-01 | 华为技术有限公司 | 语音解码中噪音增强后处理的方法和装置 |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
CN103581603B (zh) * | 2012-07-24 | 2017-06-27 | 联想(北京)有限公司 | 一种多媒体数据的传输方法及电子设备 |
US9357215B2 (en) * | 2013-02-12 | 2016-05-31 | Michael Boden | Audio output distribution |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08102687A (ja) * | 1994-09-29 | 1996-04-16 | Yamaha Corp | 音声送受信方式 |
US6148282A (en) * | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
-
1999
- 1999-06-18 JP JP17335499A patent/JP4438127B2/ja not_active Expired - Lifetime
-
2000
- 2000-06-15 DE DE60027956T patent/DE60027956T2/de not_active Expired - Lifetime
- 2000-06-15 EP EP05014448A patent/EP1598811B1/en not_active Expired - Lifetime
- 2000-06-15 EP EP00305073A patent/EP1061506B1/en not_active Expired - Lifetime
- 2000-06-15 DE DE60038914T patent/DE60038914D1/de not_active Expired - Lifetime
- 2000-06-16 KR KR1020000033295A patent/KR100767456B1/ko not_active IP Right Cessation
- 2000-06-17 US US09/595,400 patent/US6654718B1/en not_active Expired - Lifetime
- 2000-06-17 TW TW089111963A patent/TW521261B/zh not_active IP Right Cessation
- 2000-06-17 CN CNB001262777A patent/CN1135527C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001005474A (ja) | 2001-01-12 |
JP4438127B2 (ja) | 2010-03-24 |
DE60027956T2 (de) | 2007-04-19 |
DE60027956D1 (de) | 2006-06-22 |
KR100767456B1 (ko) | 2007-10-16 |
CN1282952A (zh) | 2001-02-07 |
DE60038914D1 (de) | 2008-06-26 |
EP1061506A2 (en) | 2000-12-20 |
EP1598811A3 (en) | 2005-12-14 |
EP1598811A2 (en) | 2005-11-23 |
TW521261B (en) | 2003-02-21 |
US6654718B1 (en) | 2003-11-25 |
KR20010007416A (ko) | 2001-01-26 |
EP1061506B1 (en) | 2006-05-17 |
EP1598811B1 (en) | 2008-05-14 |
EP1061506A3 (en) | 2003-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1135527C (zh) | 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质 | |
CN1096148C (zh) | 信号编码方法和装置 | |
CN1201288C (zh) | 解码方法和设备 | |
CN1264138C (zh) | 复制语音信号、解码语音、合成语音的方法和装置 | |
CN1158648C (zh) | 语音可变速率编码方法与设备 | |
CN1161751C (zh) | 语音分析方法和语音编码方法及其装置 | |
CN1212606C (zh) | 处理丢失帧的语音通信系统及方法 | |
CN100350807C (zh) | 在不连续传输期间产生安慰噪声的改进方法 | |
CN1104710C (zh) | 在语音数字传输系统中产生悦耳噪声的方法与装置 | |
CN1172292C (zh) | 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1185624C (zh) | 具有自适应编码配置的语音编码系统 | |
CN1202514C (zh) | 编码和解码语音及其参数的方法、编码器、解码器 | |
CN1274456A (zh) | 语音编码器 | |
CN1618093A (zh) | 有效编码语音信号的信号修改方法 | |
CN1820306A (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
CN1156872A (zh) | 语音编码的方法和装置 | |
CN1161750C (zh) | 语音编码译码方法和装置、电话装置、音调变换方法和介质 | |
CN1692408A (zh) | 码分多址无线系统的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置 | |
JP2011150357A (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
CN1097396C (zh) | 声音编码装置和方法 | |
CN1359513A (zh) | 话音解码装置和编码差错补偿方法 | |
CN1145143C (zh) | 综合分析的语音编码方法 | |
CN1701353A (zh) | 基于celp的语音代码之间的代码转换方案 | |
CN1849648A (zh) | 编码装置和译码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20040121 |