CN1234898A - 具有改进语音编码器和解码器的发射机 - Google Patents

具有改进语音编码器和解码器的发射机 Download PDF

Info

Publication number
CN1234898A
CN1234898A CN98800967A CN98800967A CN1234898A CN 1234898 A CN1234898 A CN 1234898A CN 98800967 A CN98800967 A CN 98800967A CN 98800967 A CN98800967 A CN 98800967A CN 1234898 A CN1234898 A CN 1234898A
Authority
CN
China
Prior art keywords
coefficient
analysis
voice signal
transition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN98800967A
Other languages
English (en)
Other versions
CN1145925C (zh
Inventor
R·陶里
R·J·斯勒伊特
A·J·格尔里茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1234898A publication Critical patent/CN1234898A/zh
Application granted granted Critical
Publication of CN1145925C publication Critical patent/CN1145925C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

在语音编码器(4)中,使用浊音编码器(16)和清音编码器(14)编码语音信号。两个语音编码器(14,16)都使用分析系数表示语音信号。根据本发明,当检测到从浊音向清音(或反之)过渡时,更频繁地确定分析系数。

Description

具有改进语音编码器和解码器的发射机
本发明涉及一个传输系统,该系统包括具有语音编码器的发射机,该语音编码器包括从语音信号中周期性地确定分析系数的分析装置,该发射机包括通过传输媒介向接收机发射所述分析系数的发射装置,所述接收机包括具有重建装置的语音解码器,重建装置基于分析系数获得重建的语音信号。
本发明还涉及发射机,接收机,语音编码器,语音解码器,语音编码方法,语音解码方法,和包括计算机程序在内实现所述方法的有形媒介。
前述的传输系统可从EP 259 950得知。
这种传输系统和语音编码器用于语音信号必须通过传输容量有限的传输媒介传输或必须存储在存储容量有限的存储介质中的应用。这种应用的例子是在Internet上传送语音信号,从移动电话向基站以及反之传送语音信号,和在CD-ROM上,在固态存储器中,或在硬盘驱动器上存储语音信号。
已经尝试了不同的语音编码器工作原理,以便在合适的比特率上获得合理的语音质量。这些工作原理中的一个就是区分浊音信号和清音信号。这两类语音信号使用不同的语音编码器编码,每一种编码器都是针对相应类型的语音信号的特性优化的。
另一种操作类型称为CELP编码器,语音信号和使用存储在码本中的多个激励信号导出的激励信号激励合成滤波器得到的合成语音信号比较。为了处理浊音信号这样的周期性信号,使用了所谓的自适应码本。
在两类语音编码器中,都必须对描述的语音信号确定分析系数。当降低语音编码器可用的比特率时,可获得的重建语音的语音质量迅速恶化。
本发明的目的是提供一个语音信号传输系统,减少降低比特率带来的语音质量恶化。
因此,根据本发明的传输系统,其特征在于分析装置在浊音段和清音段(或反之)之间过渡附近更频繁地确定分析系数,并且重建装置基于更频繁确定的分析系数得到重建的语音信号。
本发明基于这样的认识,即语音信号质量恶化的一个重要原因是在从浊音向清音(或反之)过渡期间,分析参数不足以跟踪变化。通过在这样的过渡附近提高分析参数的更新速率,可以充分地提高语音质量。因为过渡并不是非常经常地出现,处理更频繁更新分析参数所要求的额外比特率是适度的。注意到可以在过渡实际发生之前提高确定分析系数的频率,但是也可以在过渡发生之后提高确定分析系数的频率。结合上述提高确定分析系数频率的方法也是可行的。
本发明的一个实施例的特征在于语音编码包括编码浊音段的浊音编码器,同时语音编码器包括编码清音段的清音编码器。
实验显示,在过渡附近提高分析系数的更新速率所获得的改善对使用浊音和清音解码器的语音编码器特别有利。采用这类语音编码器,可能的改进是相当大的。
本发明的另一个实施例的特征在于使分析装置对过渡之后的两段更频繁地确定分析系数。
已经发现对过渡后的两帧更频繁地确定分析系数会显著地提高语音质量。
本发明的另一个实施例的特征在于,分析装置在浊音和清音段(或反之)之间过渡时,加倍确定分析系数的频率。
已经证明加倍确定分析系数的频率足以获得显著提高的语音质量。
现在将参考附图解释本发明。在这里:
图1,可以使用本发明的传输系统;
图2,根据本发明的语音编码器4;
图3,根据本发明的浊音编码器16;
图4,在根据图3的浊音编码器16中使用的LPC计算装置30;
图5,在根据图3的语音编码器中使用的基音调谐装置32;
图6,在根据图2的语音编码器中用于清音的的语音编码器14;
图7,在根据图1的系统中使用的语音解码器14;
图8,在语音解码器14中使用的浊音解码器94;
图9,浊音解码器94中各点呈现的信号图;
图10,在语音解码器14中使用的清音解码器96。
在根据图1的传输系统中,语音信号送到发射机2的输入端。在发射机2中,语音信号在语音编码器4中编码。语音编码器4输出端的编码的语音信号被送到发射装置6。发射装置6用于完成对编码的语音信号的信道编码,交织和调制。
发射装置6的输出信号送到发射机的输出,并且通过传输媒介8传送到接收机5。在接收机5,信道的输出信号送到接收装置7。这些接收装置7提供RF处理,如调谐和解调,解-交织(如果适当)和信道解码。接收装置7的输出信号送到语音解码器9,该语音解码器将它的输入信号转换为重建的语音信号。
根据图2,语音编码器4的输入信号ss[n]由DC陷波滤波器滤波以从输入中消除不希望的DC偏置。所述DC陷波滤波器的截止频率(-3dB)是15Hz。DC陷波滤波器10的输出信号送到缓冲区11的输入。根据本发明,缓冲区11为浊音编码器16提供具有400个DC滤波的语音抽样的块。所述有400个抽样的块包括5个10毫秒的语音帧(每个80个抽样)。它包括要被编码的当前帧,两个以前和两个后续帧。缓冲区11以每帧的间隔将最近接收的有80个抽样的帧送到200Hz高通滤波器12的输入。高通滤波器12的输出连接到清音编码器14的输入和浊音/清音检测器28的输入。高通滤波器12为浊音/清音检测器28提供有360个抽样的块并为清音编码器14提供有160个抽样的块(如果语音编码器4工作在5.2kbit/sec模式)或有240个抽样的块(如果语音编码器4工作在3.2kbit/sec模式)。上述具有不同抽样的块和缓冲区11的输出之间的关系在下表中列出。
组件     5.2kbit/sec      3.2kbit/sec
 抽样数   起始  抽样数     起始
高通滤波器12    80   320    80     320
浊音/清音检测器28   360  0…40   360    0…40
浊音编码器16   400    0   400      0
清音编码器14   160   120   240     120
将被编码的当前帧    80   160    80     160
浊音/清音检测器28确定当前帧是否包含浊音或清音,并且将结果作为浊音/清音标志给出。这个标志送到复用器22,再送到清音编码器14和浊音编码器16。根据浊音/清音标志的值,激活浊音编码器16或清音编码器14。
在浊音编码器16中,输入信号被表示为多个谐波相关的正弦信号。浊音编码器的输出提供一个基音值,一个增益值和一种16个预测参数的表示。基音值和增益值被送到复用器22相应的输入。
在5.2kbit/sec模式,每10毫秒进行一次LPC计算。在3.2kbit/sec,每20毫秒进行一次LPC计算,除非在清音到浊音(或反之)之间出现过渡。如果发生这样的过渡,在3.2kbit/sec模式,也是每10毫秒进行一次LPC计算。
浊音编码器输出的LPC系数由霍夫曼编码器24编码。在霍夫曼编码器24中,比较器比较霍夫曼编码序列的长度和相应的输入序列的长度。如果霍夫曼编码序列的长度大于输入序列的长度,就决定发射未编码的序列。否则决定发射霍夫曼编码序列。所述判决由送到复用器26和复用器22的“霍夫曼比特”表示。复用器26用于根据“霍夫曼比特”的值向复用器22传送霍夫曼编码序列或输入序列。在复用器26中结合使用“霍夫曼比特”具有确保预测序列的表示的长度不超过一个预定值的好处。不使用“霍夫曼比特”,复用器26就可能出现霍夫曼编码序列的长度超过输入序列的长度一部分,这样编码的序列就不再能够放入只为传输LPC系数保留了有限数目比特的发射帧。
在清音编码器14中确定一个增益值和6个预测系数来表示清音信号。这6个LPC系数由霍夫曼编码器18编码,该编码器在它的输出端给出一个霍夫曼编码序列和一个“霍夫曼比特”。霍夫曼编码序列和霍夫曼编码器18的输入序列被这到由“霍夫曼比特”控制的复用器20。霍夫曼编码器18和复用器20结合的操作与霍夫曼编码器24和复用器20的操作一样。
复用器20的输出信号和“霍夫曼比特”被送到复用器22的相应输入端。复用器22用于根据浊音-清音检测器28的判决选择编码的浊音信号或编码的清音语音信号。在复用器22的输出端得到编码的语音信号。
在根据图3的浊音编码器16中,根据本发明的分析装置由LPC参数计算单元30,精确基音计算单元32和基音估计器38构成。语音信号s[n]送到LPC参数计算单元30的输入。LPC参数计算单元30确定系数a[i],在量化,编码和解码a[i]之后确定量化预测系数aq[i],以及确定LPC码C[i],其中i的值从0-15。
根据发明的概念的基音确定装置包括初始基音确定装置(在这里是基音估计器38),和基音调谐装置(在这里是基音范围计算单元34和精确基音计算单元32)。基音估计器38确定粗略基音值,该值由基音范围计算单元34用来确定基音值,这个值再由后面称为精确基音计算单元32的基音调谐装置尝试,确定最终的基音值。基音估计器38提供由多个抽样表示的粗略基音周期。精确基音计算单元32中使用的基音值是由基音范围计算单元34根据下表通过粗略基音周期确定的。
粗略基音周期p    频率(Hz)    搜索范围   步长 候选个数
  20≤p≤39    400…200    p-3…p+3   0.25     24
  40≤p≤79    200…100    p-2…p+2   0.25     16
  80≤p≤200    100…40        P    1      1
在幅度谱计算单元36中,根据下式通过信号s[i]确定加窗的语音信号SHAM:      SHAM[i-120]=wHAM[i]·S[i]         (1)
在(1)中wHAM[i]等于: w HAM = 0.54 - 0.46 cos { 2 &pi; ( ( i + 0.5 ) - 120 160 } ; 120 &le; i < 280 - - - - - - - ( 2 )
加窗的语音信号SHAM使用512点FFT变换到频域。所述变换所获得的频谱SW等于: S w [ k ] = &Sigma; m = 0 159 S HAM [ m ] &CenterDot; e - j 2 &pi;km / 512 - - - - - - - - ( 3 )
其中,基音计算单元32中使用的幅度谱根据下式计算:
Figure A9880096700083
精确基音计算单元32通过LPC参数计算单元30提供的a-参数和粗略基音值确定精确基音值,该精确基音值使根据(4)的幅度谱和包括多个幅度由所述精确基音周期抽样LPC谱确定的谐波相关正弦信号的信号的幅度谱之间的误差信号最小。
在增益计算单元40中,与目标谱精确匹配的最佳增益是使用量化的a-参数再合成的语音信号谱计算的,而不是向精确基音计算单元32那样使用非量化的a-参数。
在浊音编码器40的输出端,得到16个LPC码,精确的基音和增益计算单元40计算的增益。LPC参数计算单元30和精确基音计算单元32的操作在下面做更详细地描述。
在根据图4的LPC计算单元30中,加窗操作是由加窗处理器50在信号s[n]上进行的。根据本发明的一个方面,分析长度取决于浊音/清音标志的值。在5.2kbit/sec模式,LPC计算每10毫秒执行一次。在3.2kbit/sec模式,LPC计算每20毫秒执行一次,除非在浊音到清音(或反之)过渡期间。如果出现这样的过渡,LPC计算每10毫秒执行一次。
下表中给出了预测系数判决所涉及的抽样数。
比特率和模式  分析长度NA和涉及的抽样  更新间隔
5.2kbit/sec     160(120-280)   10毫秒
3.2kbit/sec(过渡)     160(120-280)   10毫秒
3.2kbit/sec(非过渡)     240(120-360)   20毫秒
对出现过渡的5.2kbit/sec情况和3.2kbit/sec情况,窗可以写为: w HAM = 0.54 - 0.46 cos { 2 &pi; ( ( i + 0.5 ) - 120 160 } ; 120 &le; i < 280 - - - - - - ( 5 )
加窗的语音信号这样建立:
SHAM[i-120]=wHAM[i]·s[i];120≤i<280             (6)
如果在3.2kbit/s情况下没发生过渡,就在窗口的中间引入80个抽样的平顶部分将窗口扩展为跨越从第120抽样开始并且以第360抽样终止的240个抽样。这样,根据下式获得窗w′HAM
对加窗的语音信号可以写出下式。
 SHAM[i-120]=wHAM[i]·s[i];120≤i<360              (8)
自相关函数计算单元58确定加窗的语音信号的自相关函数Rss。所计算的相关系数的个数等于预测系数的个数+1.如果出现浊音帧,所计算的自相关系数的个数是17。如果出现清音帧,所计算的自相关系数的个数是7。出现浊音还是清音帧由浊音/清音标志告知自相关函数计算单元58。
自相关系数被所谓的滞后窗加窗以对自相关系数表示的谱获得一些平滑效果.平滑的自相关系数ρ[i]根据下式计算: &rho; [ i ] = R SS [ i ] &CenterDot; exp ( - &pi; f &mu; i 8000 ) ; 0 &le; i &le; P - - - - - - - ( 9 )
在(9)中,fμ是值为46.4Hz的谱平滑常数。加窗的自相关值ρ[i]送到Schur递归模块62,用递归的方法计算反射系数k[1]到k[P]。Schur递归对本领域的技术人员是众所周知的。
在变换器66中,P个反射系数ρ[i]被变换为在图3中的精确基音计算单元32中使用的a-参数。在量化器64中,反射系数被变换为对数域比值,随后这些对数域比值被均匀量化。所得到的LPC码C[1]…C[P]送到LPC参数计算单元的输出以便进一步传输。
在本地解码器54中,LPC码C[1]…C[P]被反射系数重建器54转换为重建的反射系数
Figure A9880096700102
。随后,重建的反射系数
Figure A9880096700103
被反射系数到a-参数转换器56转换为(量化的)a-参数。
这个本地解码用于得到在语音编码器4和语音解码器14中可以得到的相同的a-参数。
在根据图5的精确基音计算单元32中,基音频率候选选择器70通过从基音范围计算单元34接收的候选的个数,起始值和步长确定用于精确基音计算单元32的候选基音值。对每个候选者,基音频率候选选择器70确定基频f0,i
使用候选频率f0,i,谱包络抽样器72在谐波位置抽样LPC系数所描述的谱包络。第i个候选者f0,i的k次谐波的幅度mi,k可以写作: m i , k = | 1 A ( z ) | z = 2 &pi;k &CenterDot; f 0 , j - - - - - - - ( 10 ) 在(10)中,A(z)等于:
A(z)=1+α1·Z-12·Z-2+…+αP·Z-P              (11)将 z = e j &theta; i , k = cos &theta; i , k + j &CenterDot; sin &theta; i , k 和θi,k=2πkf0,i代入11,得到: A ( z ) | &theta; = &theta; i , k = 1 + &alpha; 1 ( cos &theta; i , k + j &CenterDot; sin &theta; i , k ) + &CenterDot; &CenterDot; &CenterDot; + &alpha; P ( cos &theta; P , k + j &CenterDot; sin &theta; P , k ) - - - - - - ( 12 ) 将(12)分为实部和虚部,可以根据下式获得幅度mi,k m i , k = 1 R 2 ( &theta; i , k ) + I 2 ( &theta; i , k ) - - - - - - - ( 13 ) 其中
R(θi,k)=1+α1(cosθi,k)+…+αp(cosθi,k)    (14)而
I(θi,k)=1+α1(sinθi,k)+…+αP(sinθi,k)    (15)
根据编码器当前的工作模式,将谱线mi,k(1≤k≤L)与谱的窗函数W(根据(5)或(7)得到的160点汉明窗的8192点FFT)卷积得到候选谱
Figure A9880096700115
可以预先计算8192点FFT并将结果存储在ROM中。在卷积处理中,执行了下抽样操作,因为必须将候选谱与256点的参考谱比较,多于256点的计算是无用的。因此,
Figure A9880096700116
可以写作: | S ^ w , i [ f ] | = &Sigma; k = 1 L m i , k &CenterDot; W ( 16 &CenterDot; f - k &CenterDot; f 0 , i ) ; 0 &le; f < 256 - - - - - - - ( 16 ) 表达式(16)只对候选基音i给出了幅度谱的大体形状,而不是它的幅度。因此,谱
Figure A9880096700118
必须由增益因子gi修正,该增益因子由MSE-增益计算器78根据(17)计算: g i = &Sigma; j = 0 256 S w [ j ] &CenterDot; S ^ w , i [ j ] &Sigma; j = 0 256 ( S w [ j ] ) 2 - - - - - - - - - - ( 17 ) 乘法器82使用增益因子gi缩放谱 减法器84计算幅度谱计算单元36确定的目标谱的系数和乘法器82的输出信号之差。随后,求和平方器根据下式计算方差信号Ei E i = E ( f 0 , i ) = &Sigma; j = 0 255 ( | S w [ j ] | - g i &CenterDot; | S ^ w , i [ j ] | ) 2 - - - - - - - - ( 18 ) 产生最小值的候选基频f0,i被选做精确的基频或基音。在根据本例的编码器中,共有368个可能的基音周期,需要用9bit编码。基音每10毫秒更新一次而不管语音编码器的工作模式。在根据图3的增益计算器40中,发射到解码器的增益是用上面对增益gi描述的相同方法计算的,只是使用量化的a-参数替代计算增益gi时使用的未量化的a-参数。发射到解码器的增益因子是6比特非线性量化的,对小的gi值使用小量化步长,对较大的gi值使用较大的量化步长。
在根据图6的清音编码器14中,LPC参数计算单元82的操作类似于根据图4的LPC参数计算单元30的操作。LPC参数计算单元82在高通滤波的语音信号上操作,而不象LPC参数计算单元30那样在原始语音信号上进行。另外,LPC计算单元82的预测阶数是6,而不是LPC参数基音计算单元30使用的16。
时域加窗处理器84根据(19)计算通过汉宁窗的语音信号: S w [ n ] = s [ n ] &CenterDot; ( 0.5 - 0.5 cos ( 2 &CenterDot; &pi; ( i + 0.5 - 120 ) 160 ) ) ; 120 &le; 280 - - - - - - ( 19 ) 在RMS值计算单元86中,根据(20)计算语音帧的幅度的平均值: g uv = 1 4 1 N &Sigma; i = 0 159 S w 2 [ i ] - - - - - - - - ( 20 )
发射到解码器的增益因子guv是5比特非线性量化的,对小的guv值使用小量化步长,对较大的guv值使用较大的量化步长。清音编码器14不确定激励参数。
在根据图7的语音编码器中,为霍夫曼解码器90提供霍夫曼编码的LPC码和浊音/清音标志。如果浊音/清音标志指示浊音信号,霍夫曼解码器90根据霍夫曼编码器18使用的霍夫曼表解码霍夫曼编码的LPC码。根据霍夫曼比特的值,所接收的LPC码由霍夫曼解码器90解码或直通到解复用器92。增益值和接收的精确基音值也送到解复用器92。
如果浊音/清音标志指示浊音帧,就将精确的基音,增益和16个LPC码送到谐波语音合成器94。如果浊音/清音标志指示清音帧,则将增益和6个LPC码送到清音合成器96。谐波语音合成器94输出的合成浊音信号
Figure A9880096700131
和清音合成器96输出的合成清音信号
Figure A9880096700132
一起送到复用器98相应的输入端。
在浊音模式,复用器98将谐波语音合成器94的输出信号
Figure A9880096700133
送到重叠相加综合模块100的输入端。在清音模式,复用器98将清音合成器96的输出信号
Figure A9880096700134
送到重叠相加综合模块100的输入端。在重叠相加模块100中,部分重叠的浊音和清音段被加在一起。重叠相加综合模块100的输出信号
Figure A9880096700135
可以写为:
Figure A9880096700136
在(21)中,Ns是语音帧的长度,vk-1是前一语音帧的浊音/清音标志,而vk是当前语音帧的浊音/清音标志。
重叠和块的输出信号
Figure A9880096700137
送到后置滤波器102。后置滤波器通过抑制共振区外的噪声增强感知的语音质量。
在根据图8的浊音解码器94中,基音解码器104解码从解复用器92接收的编码的基音并将其转换为基音周期。基音解码器104确定的基音周期送到相位合成器106的输入端,谐波振荡器组108的输入端和LPC谱包络抽样器110的第一输入端。
LPC解码器112解码从解复用器92接收的LPC系数。解码LPC系数的方法取决于当前语音帧包含浊音还是清音。因此,浊音/清音标志送到LPC解码器112的第二输入端。LPC解码器将量化的a-参数送到LPC谱包络抽样器110的第二输入端。LPC谱包络抽样器112的操作由(13),(14)和(15)描述,因为精确基音计算单元32完成相同的操作。
相位合成器106用于计算表示语音信号的第i阶正弦信号的相位k[i]。选择的相位k[i]使第i阶正弦信号从一帧到下一帧保持连续。浊音信号是通过合并重叠帧合成的,每一个重叠帧包括160个加窗的抽样。从图9中的图118和122可以看出两个相邻帧之间有50%重叠。图118和122中使用的窗用点划线表示。现在,相位合成器用于在重叠影响最大的位置提供连续的相位。这里使用的窗口函数的这个位置在抽样119。当前帧的相位k[i]现在可以写作:
Figure A9880096700141
在当前描述的语音编码器中N6的值等于160。对于最初的浊音帧,k[i]的值初始化为一个预定值。相位k[i]不断地更新,即使接收到一个清音帧。在这种情况下,
f0,k被设置为50Hz。
谐波振荡器组108产生多个谐波相关的信号 来表示语音信号。这个计算是使用谐波幅度 频率
Figure A9880096700144
和合成的相位
Figure A9880096700145
根据(23)进行的:
Figure A9880096700146
在时域窗模块114中使用汉宁窗对信号 加窗。这个加窗的信号如图9中的图120所示。使用在时间上移位Ns/2抽样的汉宁窗对信号
Figure A9880096700148
加窗。这个加窗的信号如图9中的图124所示。将上述加窗的信号相加得到时域窗模块144的输出信号。这个输出信号如图9中的图126所示。增益解码器118从它的输入信号中得到增益值gv,而信号缩放模块116使用所述增益因子gv缩放时域窗模块114的输出信号,从而获得重建的浊音信号
在清音合成器96中,LPC码和浊音/清音标志送到LPC解码器130。LPC解码器130为LPC综合滤波器134提供多组6个a-参数。高斯白噪声发生器132的输出连接到LPC综合滤波器143的输入端。LPC综合滤波器134的输出信号被时域窗模块140中的汉宁窗加窗。
清音增益解码器136得到表示当前清音帧的期望能量的增益值
Figure A9880096700152
通过这个增益和加窗的信号的能量,可以确定加窗的语音信号增益的缩放因子
Figure A9880096700153
以获得具有正确能量的语音信号。这个缩放因子可以写作: g &prime; ^ uv = g ^ uv &Sigma; n = 0 N s - 1 ( S &prime; ^ uv , k &CenterDot; w [ n ] ) 2 - - - - - - - - - - - ( 24 )
信号缩放块142用缩放因子
Figure A9880096700155
乘时域窗模块140的输出信号确定输出信号
可以改进当前描述的语音编码系统以获得更低的比特率或更高的语音质量。需要更低的比特率的语音编码系统的一个例子是2kbit/sec编码系统。这样的系统可以通过将用于浊音的预测系数的个数从16降为12并且对预测系数,增益和精确基音使用差分编码获得。差分编码意味着被编码的数据不是独立编码的,而是只发射与后续帧的相应数据之差。在从浊音到清音(或反之)过渡时,第一个新帧的所有系数都独立编码,以为解码器提供初始值。
也可以在6kbit/sec的比特率上获得语音质量更好的语音编码器。这里所做的改进是确定多个谐波相关正弦信号的前8个谐波的相位。相位[i]是根据(25)计算的:
Figure A9880096700157
其中θi=2πf0·i。R(θi),I(θi)等于: R ( &theta; i ) = &Sigma; n = 0 N - 1 S w [ n ] &CenterDot; cos ( &theta; i &CenterDot; n ) - - - - - - ( 26 ) I ( &theta; i ) = - &Sigma; n = 0 N - 1 S w [ n ] &CenterDot; sin ( &theta; i &CenterDot; n ) - - - - - - - ( 27 )
这样得到的8个相位[i]被均匀量化为6比特并且包括在输出比特流中。
对6kbit/sec编码器的进一步改进是在清音模式传输附加的增益值。通常是用每2毫秒发射一个增益代替每帧一次。在紧接着过渡后的第一帧,发射10个增益值,其中5个表示当前的清音帧,另5个表示清音编码器处理的前一个清音帧。增益是从4毫秒的重叠窗中确定的。
应该注意到LPC系数的个数是12并且可能使用差分编码。

Claims (14)

1.一种包括具有语音编码器的发射机的传输系统,所述语音编码器包括从语音信号周期性地确定分析系数的分析装置,发射机包括通过传输媒介向接收机发射所述分析系数的发射装置,所述接收机包括具有重建装置的语音解码器,重建装置基于分析系数获得重建的语音信号,其特征在于分析装置在浊音段和清音段(或反之)之间过渡附近更频繁地确定分析系数,并且重建装置基于更频繁确定的分析系数得到重建的语音信号。
2.根据权利要求1的传输系统,其特征在于语音编码器包括编码浊音段的浊音编码器,同时语音编码器包括编码清音段的清音编码器。
3.根据权利要求1或2的传输系统,其特征在于分析装置对过渡之后的两段更频繁地确定分析系数。
4.根据权利要求1,2或3的传输系统,其特征在于分析装置在浊音和清音段(或反之)之间过渡时,加倍确定分析系数的频率。
5.根据权利要求4的传输系统,其特征在于,如果不发生过渡,分析装置每20毫秒确定一次分析系数,同时如果发生过渡,分析装置每10毫秒确定一次分析系数。
6.一种具有语音编码器的发射机,该语音编码器包括从语音信号周期性地确定分析系数的分析装置,发射机包括发射所述分析系数的发射装置,其特征在于分析装置在浊音段和清音段(或反之)之间过渡附近更频繁地确定分析系数。
7.一种接收包括多个分析系数的编码的语音信号的接收机,所述接收机包括语音解码器,该语音解码器包括基于接收信号中提取的分析系数,获得重建的语音信号的重建装置,其特征在于编码的语音信号携带在浊音段和清音段(或反之)之间过渡附近更频繁的分析系数,并且重建装置基于更频繁的可用分析系数得到重建的语音信号。
8.一种包括从语音信号周期性地确定分析系数的分析装置的语音编码方案,其特征在于分析装置在浊音段和清音段(或反之)之间过渡附近更频繁地确定分析系数。
9.一种解码包括多个分析系数的编码的语音信号的语音解码方案,所述语音解码方案包括基于接收信号中提取的分析系数,获得重建的语音信号的重建装置,其特征在于编码的语音信号携带在浊音段和清音段(或反之)之间过渡附近更频繁的分析系数,并且重建装置基于更频繁的可用分析系数得到重建的语音信号。
10.一种包括从语音信号周期性地确定分析系数的语音编码方法,其特征在于分析方法包括在浊音段和清音段(或反之)之间过渡附近更频繁地确定分析系数。
11.一种解码包括多个分析系数的编码的语音信号的语音解码方法,所述方法包括基于接收信号中提取的分析系数,获得重建的语音信号的重建装置,其特征在于编码的语音信号携带在浊音段和清音段(或反之)之间过渡附近更频繁的分析系数,并且基于更频繁的可用分析系数得到重建的语音信号。
12.一种编码的语音信号,该信号包括在其中周期性地引入的多个分析系数,其特征在于编码的语音信号在浊音段和清音段(或反之)之间过渡附近更频繁地携带分析系数。
13.一种包括计算机程序在内执行语音编码方法的有形媒介,该语音编码方法包括从语音信号中周期性地确定分析系数,其特征在于该方法包括在浊音段和清音段(或反之)之间过渡附近更频繁地确定分析系数。
14.一种包括计算机程序在内执行语音解码方法解码包括多个分析系数的编码的语音信号的有形媒介,所述语音解码方法包括基于接收信号中提取的分析系数,获得重建的语音信号,其特征在于编码的语音信号携带在浊音段和清音段(或反之)之间过渡附近更频繁的分析系数,并且基于更频繁的可用分析系数得到重建的语音信号。
CNB988009676A 1997-07-11 1998-06-11 具有改进语音编码器和解码器的发射机 Expired - Fee Related CN1145925C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97202166.1 1997-07-11
EP97202166 1997-07-11

Publications (2)

Publication Number Publication Date
CN1234898A true CN1234898A (zh) 1999-11-10
CN1145925C CN1145925C (zh) 2004-04-14

Family

ID=8228544

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB988009676A Expired - Fee Related CN1145925C (zh) 1997-07-11 1998-06-11 具有改进语音编码器和解码器的发射机

Country Status (7)

Country Link
US (1) US6128591A (zh)
EP (1) EP0925580B1 (zh)
JP (1) JP2001500285A (zh)
KR (1) KR100568889B1 (zh)
CN (1) CN1145925C (zh)
DE (1) DE69819460T2 (zh)
WO (1) WO1999003097A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2040253B1 (en) 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
CN1272911C (zh) * 2001-07-13 2006-08-30 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
US6958196B2 (en) * 2003-02-21 2005-10-25 Trustees Of The University Of Pennsylvania Porous electrode, solid oxide fuel cell, and method of producing the same
US20110057818A1 (en) * 2006-01-18 2011-03-10 Lg Electronics, Inc. Apparatus and Method for Encoding and Decoding Signal
CN101371295B (zh) * 2006-01-18 2011-12-21 Lg电子株式会社 用于编码和解码信号的设备和方法
US8364492B2 (en) * 2006-07-13 2013-01-29 Nec Corporation Apparatus, method and program for giving warning in connection with inputting of unvoiced speech
EP2458588A3 (en) 2006-10-10 2012-07-04 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
WO2012063185A1 (en) * 2010-11-10 2012-05-18 Koninklijke Philips Electronics N.V. Method and device for estimating a pattern in a signal
GB2524682B (en) * 2011-10-24 2016-04-27 Graham Craven Peter Lossless buried data
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US9542358B1 (en) * 2013-08-16 2017-01-10 Keysight Technologies, Inc. Overlapped fast fourier transform based measurements using flat-in-time windowing
CN108461088B (zh) * 2018-03-21 2019-11-19 山东省计算中心(国家超级计算济南中心) 基于支持向量机在语音解码端重构子带清浊音度参数的方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
CN1099663C (zh) * 1994-03-11 2003-01-22 皇家菲利浦电子有限公司 准周期信号的传输系统
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP2861889B2 (ja) * 1995-10-18 1999-02-24 日本電気株式会社 音声パケット伝送システム
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator

Also Published As

Publication number Publication date
EP0925580A2 (en) 1999-06-30
WO1999003097A2 (en) 1999-01-21
JP2001500285A (ja) 2001-01-09
KR100568889B1 (ko) 2006-04-10
WO1999003097A3 (en) 1999-04-01
DE69819460D1 (de) 2003-12-11
DE69819460T2 (de) 2004-08-26
EP0925580B1 (en) 2003-11-05
US6128591A (en) 2000-10-03
CN1145925C (zh) 2004-04-14
KR20010029498A (ko) 2001-04-06

Similar Documents

Publication Publication Date Title
CN1154086C (zh) Celp转发
CN1121683C (zh) 语音编码
CN1143265C (zh) 具有改进的语音编码器的传输系统
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
CN1145925C (zh) 具有改进语音编码器和解码器的发射机
CN1133151C (zh) 纠正传输差错的声频信号解码方法
CN101061535A (zh) 用于人工扩展语音信号的带宽的方法和装置
CN1669075A (zh) 音频编码
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1193786A (zh) 频谱幅度的双子帧量化
JP2001222297A (ja) マルチバンドハーモニック変換コーダ
CN1154283C (zh) 编码方法和装置以及解码方法和装置
CN1739142A (zh) 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备
CA2309921C (en) Method and apparatus for pitch estimation using perception based analysis by synthesis
CN1437184A (zh) 解码装置及编码装置与解码方法及编码方法
CN1147833C (zh) 生成和编码线状谱平方根的方法和装置
CN101044554A (zh) 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法
CN1272939A (zh) 语音编码设备和语音解码设备
CN1231050A (zh) 具有改进谐波语音编码器的发射机
CN1173690A (zh) 识别浊音/清音的方法和装置及其语音编码方法
CN1192357C (zh) 用于语音编码的自适应规则
CN1140894C (zh) 可变位速率语音传输系统
CN101572092B (zh) 编解码端的固定码本激励的搜索方法及装置
CN1227646C (zh) 音频信号传输系统
US6377920B2 (en) Method of determining the voicing probability of speech signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee