JPH07234697A - 音声信号の符号化方法 - Google Patents

音声信号の符号化方法

Info

Publication number
JPH07234697A
JPH07234697A JP7042616A JP4261695A JPH07234697A JP H07234697 A JPH07234697 A JP H07234697A JP 7042616 A JP7042616 A JP 7042616A JP 4261695 A JP4261695 A JP 4261695A JP H07234697 A JPH07234697 A JP H07234697A
Authority
JP
Japan
Prior art keywords
waveform
signal
prototype
speech
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7042616A
Other languages
English (en)
Other versions
JP3241959B2 (ja
Inventor
Willem Bastiaan Kleijn
バスチアン クレイジン ウイレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc, AT&T Corp filed Critical American Telephone and Telegraph Co Inc
Publication of JPH07234697A publication Critical patent/JPH07234697A/ja
Application granted granted Critical
Publication of JP3241959B2 publication Critical patent/JP3241959B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【目的】 音声符号化で周期性レベルを効率よく再構成
し音声品質を改善する。 【構成】 音声符号器は外層および内層からなる。外層
は、プロトタイプ波形補間分析合成システムである。そ
の分析部は、線形予測残差を計算し、ピッチ検出を実行
し、プロトタイプ波形を抽出する。内層は、プロトタイ
プ波形を量子化する。まず、プロトタイプ波形を、平滑
化窓で処理することにより、各プロトタイプ波形に対応
する滑らかに変化する波形SEWを得る。次に、SEW
をもとのプロトタイプ波形から減算して、急速に変化す
る波形REWを得る。SEWとREWは独立に量子化さ
れる。REWは、既知の絶対値スペクトルを乱数位相と
組み合わせることによって、または、ガウス雑音を表す
スペクトルと乗算することによって、再構成される。S
EWは、量子化テーブルを使用して再構成される。プロ
トタイプ波形は、SEWとREWの加算によって得られ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的に音声符号化シ
ステムに関し、特に、波形補間を使用した音声符号化シ
ステムに関する。
【0002】
【従来の技術】音声符号化システムは、チャネルあるい
はネットワークを通じて1個以上のシステム受信器と通
信するために音声信号の符号語表現を提供する働きをす
る。各システム受信器は受信した符号語から音声信号を
再構成する。与えられた期間にシステムによって通信さ
れる符号語情報の量はシステム帯域幅を定義し、システ
ム受信器によって受信される音声の品質を左右する。
【0003】音声符号化システムの目的は、入力信号品
質、チャネル品質、帯域幅制限、およびコストなどの副
次的条件が与えられた場合に、音声品質と帯域幅の間の
最適なトレードオフを実現することである。音声信号
は、伝送のために量子化されるパラメータのセットによ
って表現される。おそらく音声符号器の設計において最
も重要なことは、音声信号を記述するために良好なパラ
メータ(ベクトルを含む)のセットを探索することであ
る。良好なパラメータのセットは、知覚的に正確な音声
信号の再構成のために小さいシステム帯域幅しか要求し
ない。各パラメータに要求される帯域幅は、それが変化
する速度と、高品質の再構成音声に必要となる精度との
関数である。
【0004】人間の聴覚系は再構成信号の周期性のレベ
ルに非常に敏感である。周期性のレベルは時間と周波数
の両方の関数である。音声は周期性のレベルで変わる。
有声音声は高レベルの周期性によって特徴づけられ、無
声音声は低レベルの周期性を有する。低いビットレート
で動作する符号器は、周期性のレベルを知覚的に透過的
には再構成しない。
【0005】情報理論的考察から、雑音のある信号の波
形を正確に伝送するのに要求される信号帯域幅は非常に
高いことがわかる。しかし、知覚的に正確な信号再構成
には、信号の雑音成分のうちのある一定の統計量(主に
その絶対値スペクトルの大まかな記述)しか伝送する必
要はない。このことにより、低ビットレートでの効率的
符号化には、原信号の周期成分と雑音成分の分離が避け
られないものとなる。
【0006】第1世代の線形予測に基づくボコーダは一
般に単純な2状態周期性記述(周期的か非周期的か)を
使用していた。この記述は、全信号周波数帯域にわたっ
て一様であり、25msごとに1回更新した。例えば、
トレメイン(Tremain)、「政府標準線形予測符号化アル
ゴリズム(The Government Standard Linear Predictive
Coding Algorithm)」、Speech Technology、第40〜
49ページ(1982年4月)参照。その後の符号器に
は、周波数依存周期性レベル(通常は帯域あたり2レベ
ル)を使用するものもある。また、複数の符号化モード
を使用し、各モードは一般に特定の平均の周期性レベル
に対応するものもある。一般的に、現在の方法で周期性
のレベルを信頼性高く評価するのは困難である。さら
に、周期性レベルの時間分解能は低い。
【0007】近年では、プロトタイプ波形補間(PW
I)法が、有声音声の符号化の効率的な方法を提供して
いる。PWIの基本的な考え方は、一定間隔で代表的な
ピッチサイクル(プロトタイプ波形)を抽出し、その記
述を伝送し、プロトタイプ波形間を補間することによっ
て音声信号を再構成することである。ほとんどの実装で
は、PWI法は線形予測残差信号に作用し、プロトタイ
プ波形はフーリエ級数で記述される。ダブリュ.ビー.
クレイン(W. B. Kleijn)、「プロトタイプ波形を使用し
た音声の符号化(Encoding Speech Using Prototype Wav
eforms)」、IEEETrans. Speech and Audio Processin
g、第1巻第4号第386〜399ページ(1993
年)参照。
【0008】
【発明が解決しようとする課題】PWI符号化法の現在
の実装では、非周期信号は他の音声符号化法(通常はC
ELP)によって符号化される。符号器間の切替えは本
来的に弱いところがある。通常、CELPは、システム
が動作するビットレートが低いために、ピッチ予測器を
有しない。従って、周期性のレベルは、PWIモードお
よびCELPモードの両方で小さい範囲内でしか変化す
ることができない。PWI符号化の性能は、PWI合成
信号にスペクトル成形雑音を加えることによって、また
は、プロトタイプ波形の更新レートを増加させる(信号
帯域幅を増加させる)ことによって、改善することが可
能である。実際には、PWI符号化法の現在の実装は、
周期性レベルの不正確な表現によって導入される欠点を
有する。
【0009】
【課題を解決するための手段】本発明は、音声符号化の
方法および装置を提供する。本発明の音声符号器の実施
例は、外層および内層からなる。外層は、プロトタイプ
波形補間分析合成システムである。その分析部は、線形
予測残差を計算し、ピッチ検出を実行し、プロトタイプ
波形を抽出する。外層の分析部は、プロトタイプ波形を
整列し、整列したプロトタイプ波形間を時間的に補間し
て瞬間波形を作成し、連続する瞬間波形からとったサン
プルの連接によって残差(励起)信号を再構成し、線形
予測合成フィルタでその励起信号をフィルタリングす
る。高いサンプリングレート(プロトタイプ波形あたり
ピッチサイクルの半分以下)では、この外層の分析合成
システムは、再構成された音声を実質的に透過的にす
る。
【0010】実施例の音声符号器の内層は、プロトタイ
プ波形を量子化する。まず、プロトタイプ波形を、平滑
化窓で処理する。これによって、各プロトタイプ波形に
対応する滑らかに変化する波形(SEW)が得られる。
(以下、この波形を「緩変化波形」という。)次に、S
EWをもとのプロトタイプ波形から減算する。その残差
を急速に変化する波形(REW)という。(以下、この
波形を「急変化波形」という。)SEWとREWは独立
に量子化される。低ビットレートでは、SEWは平坦な
絶対値のスペクトルおよび一定位相のスペクトルを有す
る波形で置き換えることができる。SEWの位相スペク
トルは、可能な状態の少ないセットで量子化することが
可能であり、SEWの絶対値スペクトルは差分量子化す
ることが可能である。REWに対しては、絶対値スペク
トルのみが知覚的に意味のある情報を運ぶ。この絶対値
スペクトルは、プロトタイプ波形の全絶対値スペクトル
との比として量子化することができる。その比は、周波
数の関数として、周期性レベルを効果的に記述する。R
EWおよびSEWの量子化記述は(必要に応じて)シス
テム受信器へ伝送される。
【0011】REWは、既知の絶対値スペクトルをラン
ダム位相と組み合わせることによって、または、この既
知の絶対値スペクトルを、ガウス雑音を表すスペクトル
と乗算することによって、再構成される。SEWは、量
子化テーブルを使用して再構成される。プロトタイプ波
形は、SEWとREWの加算によって得られ、これによ
って音声符号器の内層が完了する。
【0012】周期性レベルを得るのに必要な動作のサブ
セットは周期性レベル検出器を構成する。この周期性検
出器は、高い時間分解能および低い周波数分解能を有す
る判定を行う。この検出器は、他の音声符号化アルゴリ
ズムとともに使用することも可能である。
【0013】本発明の実施例は、適応線形予測器の残差
信号に作用するが、音声信号自体を含めて、音声を表す
他の信号に作用することも可能である。
【0014】
【実施例】 [序論]本発明は、符号化する音声信号を特徴づける作
用をする波形を使用して音声を符号化する方法に関す
る。このような波形を特徴波形という。特徴波形は、少
なくとも1ピッチ周期の長さの信号である。ただし、ピ
ッチ周期とは、ピッチ検出プロセスの出力として定義さ
れる。(注意:ピッチ検出プロセスは、明らかに周期性
のない音声信号に対しても、常にピッチ周期を出力す
る。無声音声の場合、このようなピッチ周期は本質的に
任意である。)実施例の特徴波形は、(符号化されるべ
き)原音声に作用する線形予測(LP)フィルタの出力
に基づいて形成される。この出力をLP残差という。
【0015】図1は、本発明によって符号化されるべき
音声信号のセグメントの例を示す。図からわかるよう
に、このセグメントは無声音声(最初の約50ms)お
よび有声音声(セグメントの残りの部分)のサブセグメ
ントからなる。通常の音声符号化のように、この原音声
信号をLPフィルタに通し、音声信号中の短時間相関を
除去する。このフィルタリングは符号化プロセスを改善
する。
【0016】図1の音声信号がLPフィルタを通過する
と、残差音声信号が形成される。この残差信号を図2に
示す。残差信号の絶対値はLPフィルタリングの結果と
して減少している。さらに、短時間相関が除去されてい
るため、残差信号は、原音声信号の長時間相関特徴を明
らかに表示している。
【0017】その準周期的性質のため、残差音声信号は
(さらに言えば、原音声信号も)、信号が厳密に周期的
ではないという事実を考慮して、時変係数を有するフー
リエ級数によって効率的に記述することが可能である。
すなわち、図2の残差信号は以下のフーリエ級数によっ
て記述される。
【数1】 ただし、ω0は基本周波数である。このフーリエ級数
は、次のように、相異なる離散的時点t1,t2
3,...で評価することができる。
【数2】
【0018】これらの各フーリエ級数は、特定の時点で
(離散的な瞬間に)評価された係数を有することに注意
すべきである。与えられたフーリエ級数のフーリエ係数
(すなわちパラメータ)の集合はインデックスiによっ
てインデックスづけられている。これらの個々のフーリ
エ級数は、それぞれ変数τの周期関数であるとみること
ができる。これらの個々の周期関数は、与えられた時点
における残差信号を特徴づける波形である。これらの関
数が特徴波形である。従って各特徴波形はインデックス
づけられたパラメータ(ここではフーリエ係数)の有限
集合によって記述される。
【0019】このような特徴波形の例を図3に示す。こ
の特定例は、残差音声信号の時刻t=100msに対応
する。フーリエ係数は、残差音声信号のセグメントのフ
ーリエ変換によって生成される。このフーリエ変換を計
算する際に、注目する離散時刻またはその付近(この例
ではt=100ms)を中心とする残差音声信号のセグ
メントが使用される。この残差信号セグメントは、いず
れかの方向に少なくとも半ピッチ周期の間継続する。
【0020】文献では、ほぼ1ピッチ周期の特徴波形を
プロトタイプ波形と呼んでいる。例えば、バーネット(B
urnett)とホルベック(Holbech)、「混合プロトタイプ波
形/3kb/s以下のCELP符号器(A Mixed Prototy
pe Waveform/CELP Coder forSub 3kb/s)」、Proceeding
s ICASSP、第II175〜II178ページ(1993
年);カバル(Kabal)とレオン(Leong)、「プロトタイプ
波形補間を用いた滑らかな音声再構成(Smooth Speech R
econstruction Using Prototype Waveform Interpolati
on)」、Proc. IEEE Workshop on Speech Coding for Te
lecommunications、第39〜41ページ(1993
年);クレイン(Kleijn)とマックリー(McCree)、「混合
励起プロトタイプ波形補間(Mixed-Excitation Prototyp
e WaveformInterpolation)」、Proc. IEEE Workshop on
Speech Coding for Telecommunications、第51〜5
2ページ(1993年)、を参照。説明を明確にするた
め、この序論の残りの部分およびそれに続く実施例の説
明はプロトタイプ波形に関して行う。
【0021】当然のことながら、特徴波形は、有声音声
を少なくとも1ピッチサイクルは完全に記述しなければ
ならない。波形補間符号器は一般に、連続する特徴波形
の整列処理を含む。後述の実施例の符号化では、この整
列は、ピッチサイクル波形を1ピッチ周期を有するよう
に時間スケール正規化した後で実行される。この時間ス
ケール正規化は1ピッチサイクルにわたって一様であ
る。有声音声中では、単一のピッチサイクルの整列は特
徴波形の(単一の)ピッチパルスをほぼ整合させる。仮
に特徴波形が複数のピッチサイクルを記述しているとす
ると、複数のピッチパルスが各波形に現れる可能性があ
り、それらの同時整列は、一様な時間スケーリングを用
いるときにはしばしば問題となる。時間スケーリングと
ともに時間ウォーピングを用いることは、このような整
列の問題を解決する1つの方法である。このような実際
上の問題のため、特徴波形は通常有声音声中の1ピッチ
サイクル(すなわちプロトタイプ波形)に対応する。し
かし、当業者には明らかなように、本発明は特徴波形に
一般的に適用可能である。
【0022】上記のように、プロトタイプ波形を表す各
フーリエ級数は変数τの周期関数とみなすことができ
る。ここで、フーリエ係数を2.5msごとに評価する
と仮定する。従って、時間軸に直交して2.5msごと
にプロトタイプ波形が存在することになる。これらの各
プロトタイプ波形を時間軸に直交する軸τ上にプロット
すると、プロトタイプ波形「面」が作成される。この面
を図4に示す。この面の、任意の2.5msの時点にお
ける断面は個々のプロトタイプ波形となる。例えば、図
3はt=100msにおけるこの面の断面に対応するプ
ロトタイプ波形を表す。図3および図4からわかるよう
に、t=100msにおけるプロトタイプ波形は0≦τ
≦1radの間のピッチパルスを示す。
【0023】時間軸に沿ってみていくと、与えられたτ
の値に対するプロトタイプ波形の列は、波形時刻τにお
いて時間tにわたるプロトタイプ波形の変化を表す「信
号」を形成する。こうして、図4の面はプロトタイプ波
形形状の変化を表す。このように、この面は、隣接する
プロトタイプ波形の列からなるものとして、または、隣
接する(プロトタイプ波形に直交して走る)信号の列か
らなるものとしてみることができる。
【0024】各プロトタイプ波形をフーリエ級数で表現
すると、インデックスiの各フーリエ係数は時間の関数
である。フーリエ係数関数の集合はプロトタイプ波形の
変化を記述する。
【0025】(図4の面に例示したような)プロトタイ
プ波形形状の変化は、低周波および高周波のプロトタイ
プ波形形状変化からなるものとみなすことができる。例
として、このような低周波および高周波のプロトタイプ
波形形状変化をそれぞれ図6および図8に示したような
2つの面として図示することができる。図6および図8
は、それぞれ、例示的な低周波および高周波の波形形状
変化面を表し、これらの和が図4の面となる。低周波お
よび高周波の波形形状変化の本発明における意味は、ゆ
っくりとした変化(緩変化)と急速な変化(急変化)と
を区別する耳の能力にある。緩変化波形は本質的に音声
信号の周期成分を記述し、急変化波形は本質的に音声信
号の雑音成分を記述する。情報理論によれば、音声の雑
音成分中の情報を知覚する耳の能力は低い。その結果、
このような成分は、周期成分とは別に量子化することが
できる。
【0026】離散的な時点における各プロトタイプ波形
(例えば図3に示したもの)には、緩変化面および急変
化面の波形が対応する。緩変化波形および急変化波形の
例をそれぞれ図5および図7に示す。これらの波形は、
それぞれ、t=100における、緩変化面および急変化
面の断面を表す。
【0027】本発明によれば、緩変化波形および急変化
波形が、音声を符号化する際に使用するために決定され
る。これらの波形に対して耳の感度が異なるため、本発
明による符号化方法の実施例は、緩変化波形に関する情
報を、対応する急変化波形に関する情報よりも精密に符
号化する。
【0028】実施例の符号器は2.5msごとに緩変化
波形および急変化波形を形成する。与えられた時点にお
ける緩変化波形は、その緩変化波形を所望する時点また
はその付近を中心とする時間窓内に入るプロトタイプ波
形の集合を入力として使用する平滑化プロセスによって
形成される。このプロトタイプ波形の集合は、図4に示
した面の一部に対応し、その部分は窓によって規定され
る。同じインデックスのプロトタイプ波形パラメータ
(例えばフーリエ係数)をまとめて平均する。これは各
パラメータインデックス値ごとに行う。その結果は、所
望の時点における緩変化波形に対応するパラメータ平均
の集合である。この波形が緩変化波形(SEW)であ
り、例えば図5に示したようなものである。急変化波形
(REW)は、プロトタイプ波形から(対応するパラメ
ータ値の減算によって)SEWを減算することによって
決定される。その後、SEWおよびREWは符号化に利
用可能となる。本発明の一実施例では、量子化する必要
があるのはREWのみである。他の実施例では、REW
およびSEWの両方が(これらの波形に対する人間の聴
覚感度を反映するように異なる方式で)量子化される。
これらの実施例について以下で詳細に説明する。
【0029】[実施例のハードウェア]説明を明確にす
るため、本発明の実施例は、個別の機能ブロック(「プ
ロセッサ」とラベルされた機能ブロックを含む)からな
るものとして示す。それらのブロックが表す機能は、共
用または専用のハードウェアを使用して実現可能であ
る。ハードウェアにはソフトウェアを実行可能なハード
ウェアが含まれるが、それに限定されるものではない。
例えば、図13および図15に示されたプロセッサの機
能は、単一の共用プロセッサによっても実現可能であ
る。(「プロセッサ」という用語の使用は、ソフトウェ
アを時刻可能なハードウェアのみを指すものと解釈して
はならない。)
【0030】実施例は、AT&TのDSP16またはD
SP32Cのようなディジタル信号プロセッサ(DS
P)ハードウェアと、以下で説明する動作を実行するソ
フトウェアを記憶する読み出し専用メモリ(ROM)
と、DSPの結果を記憶するランダムアクセスメモリ
(RAM)とを含むことが可能である。超大規模集積
(VLSI)ハードウェア実施例や、汎用DSP回路と
カスタムVLSI回路の組合せも可能である。
【0031】[実施例]本発明による実施例の音声符号
器は、図9に示すように、外層および内層からなる。外
層101はプロトタイプ波形抽出器110およびプロト
タイプ波形からの音声再構成器111を含む。もとの音
声および再構成された音声は、サンプリングされたディ
ジタル形式であり、代表的には8000Hzでサンプリ
ングされたものである。内層102はプロトタイプ波形
量子化器120およびプロトタイプ波形再構成器121
を含む。内層を省略すると、外層101は、知覚的に透
過的またはほとんど透過的な音声を再構成する分析−合
成システムを形成する。一般に、外層は、周期的、雑音
的、またはこれら2つの組合せとして分類することがで
きるすべての信号に対して知覚的に正確な再構成を実行
する。外層は、音楽のように、パワースペクトルの微細
構造がより複雑な信号に対してはそれほどうまく作用し
ない。このような場合には、再構成された信号は、正確
なスペクトルエンベロープを有するが微細構造のない信
号に次第に収束する。(多くの低ビットレート符号器と
は異なり、微細構造は、周期性と非周期性の間で煩雑に
切り替わることはない。)
【0032】[外層:プロトタイプ波形抽出器]図10
に、外層のプロトタイプ波形抽出器110の例のブロッ
ク図を示す。まず、201で、線形予測(LP)係数を
(ダービン再帰法またはシューア再帰法のような周知の
方法を使用して)計算し、量子化する。この動作は一定
速度で実行される。代表的には20〜30msごとに1
回である。次に、LP係数は、通常のように、ブロック
ごとに補間される(1ブロックは通常約5msであ
る)。この補間は、一般に、変換領域(例えば、線スペ
クトル周波数領域)で実行される。次に、入力音声信号
は従来のLPフィルタ203でフィルタリングされ、残
差信号が得られる。残差信号は、もとの音声信号よりも
ずっと平坦なエンベロープを有するパワースペクトルに
よって特徴づけられる。
【0033】ローパスフィルタ211を使用して、ピッ
チ検出のための、残差信号のローパスフィルタ処理バー
ジョンが得られる。ピッチ検出器212は、加重自己相
関関数基準を使用して、ある一定の時点に対して適当な
ピッチ周期を選択する。ピッチ検出方法は、最終決定前
に20〜30msの遅延を含む。この遅延中に、現在お
よび未来のピッチ検出の信頼性に関する情報を使用し
て、ピッチ周期を補正することができる。これは特に有
声開始時に有用である。この場合、信頼性のあるピッチ
検出は、有声領域のほうを前方参照することによっての
み可能である。次に、補間器213で、ピッチ周期の逆
数(基本周波数)がある時間にわたって線形補間され
る。他の補間手続き(例えば、ピッチ周期の線形補間)
も同様の出力音声品質を与えるが、一般にはより多くの
計算量が必要となる。(補間された基本周波数は、分析
中の各サンプルにおいて必要とされる。)
【0034】プロセッサ221は、まずサンプルを2乗
し、次に約4サンプルの長さの窓(8000Hzのサン
プリングレートの場合)を適用することによって、信号
パワーの等高線を計算する。実施例によっては、プロセ
ッサ221は残差信号のローパスフィルタ処理バージョ
ンに作用する。この窓の目的は、ピッチパルスがもし存
在すれば明確に見えるように、各ピッチサイクル内の信
号パワーの変動を示すことである。
【0035】プロセッサ231は、実際のプロトタイプ
波形抽出を実行する。プロトタイプ波形は、規則的な時
間間隔で残差信号から抽出される。しかし、外層の正し
い動作のためには、抽出したプロトタイプ波形の境界に
高パワー信号セグメント(例えばピッチパルス)が位置
しないことが重要である。その理由は、波形補間方式で
は、プロトタイプ波形は周期信号の1サイクルであると
みなされ、その周期信号が、抽出の瞬間における音声信
号を表すとされるためである。境界の不適当な選択によ
って、この周期信号に大きい不連続が生じることがある
が、この不連続は音声波形を表すものではなく、抽出に
より生じた産物である。このような不連続を防ぐため、
プロトタイプ波形は、(1)中心が抽出時点付近に位置
し、(2)長さは1ピッチ周期(これはプロセッサ21
3により得られる)であり、(3)境界付近で信号パワ
ー(これはプロセッサ221により得られる)が低いよ
うな、残差信号のセグメントとして選択される。プロト
タイプ波形抽出器は、15サンプル(8000Hzのサ
ンプリングレートの場合)以内に中心のある長さ1ピッ
チ周期の複数の信号セグメントの境界付近の信号パワー
を計算し、境界付近で最も低い信号パワーを有するセグ
メントをプロトタイプ波形として選択することによって
動作する。
【0036】プロトタイプ波形は、プロトタイプ波形整
列器232によって受信されると、前のプロトタイプ波
形と整列される。この整列の意味は、これらの2つの波
形の時間領域の特徴を、単位長さに時間スケールして、
極大に整列することである。両方のプロトタイプ波形が
フーリエ係数で記述されている場合、この整列は、現在
のプロトタイプ波形と前のプロトタイプ波形に対応する
周期信号間の相互相関が最大になるまで現在のプロトタ
イプ波形の位相を前進させることによって実行される。
この手続きは、ダブリュ.ビー.クレイン(W. B. Kleij
n)、「プロトタイプ波形を使用した音声の符号化(Encod
ing Speech Using Prototype Waveforms)」、IEEE Tran
s. Speech and Audio Processing、第1巻第4号第38
6〜399ページ(1993年)、の式(24)によっ
て記述される。
【0037】整列手続きは、特別な特徴によって改善す
ることができる。すべての可能な位相前進を探索する代
わりに、小範囲(例えば0.1×2π)の位相前進のみ
を許容する。この範囲の中心が、前進の予想値から得ら
れる。前のプロトタイプ波形と比較すると、現在のプロ
トタイプ波形は前のプロトタイプ波形から2πD/pだ
け前進していると予想される。ただし、Dはそれらの抽
出の中心間の時間距離であり、pはピッチ周期である。
このように許容される前進が少量であるということは、
周期性の程度が高い信号セグメント中にはプロトタイプ
波形は正しく整列されるが、非周期的特徴は一般に最大
相関で整列されないということである。これにより、周
期的でないもとの信号に対して生成される周期性の量が
減少する。
【0038】[外層:プロトタイプ波形からの音声再構
成器]図11に、外層の、プロトタイプ波形からの音声
再構成器111の例の詳細を示す。プロセッサ301
は、量子化インデックスから予測係数を取得する(30
1は、量子化されていないLP係数が合成プロセスで使
用される場合には不活性である)。プロセッサ302
は、図10のプロセッサ202と全く同じようにLP係
数を補間する。プロセッサ311はピッチ周期を逆量子
化する。プロセッサ311は、量子化されたピッチ周期
が再構成器111に提供される場合には不活性である。
補間器312は、図10のプロセッサ213と同じ補間
を実行する。整列プロセッサ321は、図10の整列プ
ロセッサ232と同一である。明らかに、プロトタイプ
波形がプロトタイプ波形抽出器110から直接プロトタ
イプ波形からの音声再構成器111に到着する場合に
は、プロセッサ321は省略することができる。
【0039】プロトタイプ波形補間器322は、プロト
タイプ波形形状を補間する(形状補間は、正規化ピッチ
周期を用いて実行可能である)。補間器322は、出力
音声信号のサンプルごとに瞬間波形を生成する。励起サ
ンプル計算器323は、その瞬間波形から適当なサンプ
ルを取得する。各サンプルは、前のサンプルから2πT
/pだけ前進させられる。ただし、Tはサンプル間隔で
あり、pは現在のピッチ周期である。時刻tにおける瞬
間波形をf(τ,t)とする。ただし、f(τ,t)は
τの周期関数である。f(τ,t)は、2πのピッチ周
期を有するようにτについて正規化される。時刻t0
おける残差サンプルをf(τ0,t0)で表す。すると、
時刻t0+Tにおける出力はf(τ0+2πT/p,
0)となる。(周期性のため、2πの倍数はτから差
し引くことができる。)結果として得られる励起信号は
LP合成フィルタ303によってフィルタリングされ
る。
【0040】[外層:性能の問題]図9の外層によって
記述される分析合成システムの性能は、プロトタイプ波
形の更新レートに強く依存する。図12の(A)に代表
的な励起信号を示す。線形補間の場合を考える。更新が
時刻aおよびa+Tにある場合、時間区間[a,a+
T]内の瞬間波形はプロトタイプ波形f(τ,a)およ
びf(τ,a+T)から次式を用いて計算される。
【数3】 特定のプロトタイプ波形の効果は過去のTの範囲および
未来のTの範囲にわたる。この範囲は、周期信号および
非周期信号を再生する合成システムの能力に影響を与え
る。このことを図12に例示する。
【0041】図12の(A)に、周期信号(6サンプル
の周期を有する)と雑音信号の混合の信号のサンプルイ
ンデックスを示す。この信号の周期成分はサンプルイン
デックスで示される。その第1の数字はピッチサイクル
インデックスであり、第2の数字はそのサイクル内のサ
ンプルインデックスである。従って、サンプル23は第
2ピッチサイクルの第3サンプルである。プロトタイプ
波形はピッチサイクルあたりちょうど1回だけ抽出され
る。プロトタイプ波形のサンプルは縦(τ)軸に沿って
示され、各プロトタイプ波形は英大文字でラベルされて
いる。この抽出は、各ピッチサイクルのサンプル4と5
の間に行われている(非整数サンプル時刻における抽出
を選んだのは単なる例示であるが、それによって図12
の(A)と(B)の間の適当な関係付けが可能とな
る)。ここで、サンプルインデックス13および23に
おける瞬間波形、すなわち、ちょうど1ピッチ周期だけ
離れた2つのサンプルを考える。サンプルインデックス
13における瞬間波形はプロトタイプ波形Aおよびプロ
トタイプ波形Cに依存し、サンプルインデックス23に
おける瞬間プロトタイプ波形はプロトタイプ波形Cおよ
びEに依存する。これらの瞬間波形はいずれもプロトタ
イプ波形Cに依存する。このことは、サンプルインデッ
クス13および23における瞬間波形の間には相関があ
ることを意味する。このような相関は、再構成された信
号の周期性を生じる。これは、低い周期性のレベルを有
する信号の再構成には適当でない。
【0042】周期性の増大の問題は、プロトタイプ波形
の抽出の更新レートを増大させることによって縮小す
る。これを図12の(B)に例示する。再び、サンプル
インデックス13および23における瞬間波形を考え
る。サンプルインデックス13における瞬間波形はプロ
トタイプ波形BおよびCに依存し、サンプルインデック
ス23における瞬間波形はプロトタイプ波形DおよびE
に依存する。しかし、これらの瞬間波形は完全に独立で
はない。プロトタイプ波形CおよびDはその6個のサン
プルのうちの3個を共有する。従って、瞬間波形間の望
ましくない相関は更新レートを増大させることによって
大幅に縮小するが、完全に消失はしない。注意すべき点
であるが、このような相関するサンプルの小さいセグメ
ントが、高い更新レートでない場合に取得されるのと同
じ相関を有する励起信号のセグメントとなる可能性もあ
るが、平均相関は減少する。プロトタイプ波形の更新レ
ートが高くなると、もとの周期性のレベルの再構成が正
確になる。しかし、理解されるように、信号サンプルあ
たり1回の更新および厳密なピッチトラックという極限
においても、一般にもとの信号は正確には再構成されな
いが、そのようなシステムは非常に高いレベルの知覚的
精度を備えるものとなる。このようなシステムに伴う多
大な計算量を回避するため、音声信号および共通の背景
雑音の知覚的に透過的な分析−合成に必要な更新レート
を知ることが有用である。実験的証拠によれば、この目
的のためには、信号の基本周波数の少なくとも2倍の更
新レートで十分であることがわかっている。ほとんどの
音声に対しては約500Hzの更新レートを使用するこ
とができる。外層は、500Hzの更新レートで動作す
る音声符号器のプロトタイプ波形抽出および音声再構成
手続きを使用することによって得られる。
【0043】主に合成器について更新レートの説明をし
た。原理的には、ピッチサイクルあたり1個のプロトタ
イプ波形の伝送によって、より高い更新レートのプロト
タイプ波形の列を生成することができる。実際には、分
析器も、より高いレートで動作させると非常に都合がよ
い。
【0044】[内層]図9に示したように、符号器10
2の内層は、プロトタイプ波形の量子化および再構成を
含む。通信チャネルはこれら2つの機能の間に位置す
る。これら2つの機能についてはそれぞれ図13および
図14にさらに詳細に示してある。プロトタイプ波形は
フーリエ級数の形式で表現することができる。従って、
各プロトタイプ波形はフーリエ係数の集合によって記述
することができる。フーリエ係数は、各高調波に対する
2個の実数から、または、同じことであるが、各高調波
に対する1個の複素数からなる。複素フーリエ係数の集
合はプロトタイプ波形の複素フーリエスペクトルを形成
する。複素フーリエスペクトルは、各複素フーリエ係数
を極座標で書くことによって位相スペクトルと絶対値ス
ペクトルに分離することができる。
【0045】[内層:利得量子化]プロトタイプ波形量
子化器を図13のブロック図に示す。量子化プロセスの
第1ステップは、正規化器および抽出器501ならびに
利得量子化器506におけるプロトタイプ利得の決定お
よび量子化である。プロトタイプ波形は、まず正規化さ
れている場合にはより効率的に符号化することができ
る。正規化プロトタイプ波形と非正規化プロトタイプ波
形の間の関係は利得によって表現することができる。正
規化プロトタイプが決定されると、利得が量子化され
る。量子化された利得はチャネルを通じて通信され、受
信器でプロトタイプ波形を合成する際に使用される。利
得は、信号パワーを意味するように定義される。一般
に、信号パワーという用語は、ちょうど1ピッチサイク
ルにわたって平均したサンプルあたりのパワーを記述す
ることを暗に意味している。しかし、CELPのよう
に、信号がピッチサイクルで記述されないような符号器
では、この量は評価することが難しい。信号パワーは、
非整数ピッチサイクルの効果が小さくなるように十分長
い窓にわたって単に平均されることが多い。このような
手続きは時間分解能を低下させる。波形補間方式では、
プロトタイプ波形のエネルギーは容易に計算され、これ
によって、可能な限り高い解像度を有する正しい信号パ
ワー等高線が得られる。
【0046】利得抽出および量子化、ならびに波形正規
化の概観を図15に示す。まず、プロセッサ701にお
いて、プロトタイプ波形(ここではLP残差領域にある
と仮定する)に対して高調波ごとの平均二乗根(rm
s)エネルギーを計算する。高調波ごとのrmsエネル
ギーの信頼性のある評価を得るために、200〜130
0Hzの高調波のサブセットを使用する。回路707に
おいて、量子化されていないプロトタイプ波形をこの数
で除算して、(利得)正規化プロトタイプ波形を得る。
これらの2つの操作は図13の抽出器501内に入る。
【0047】図15はさらに図13の利得量子化器50
6によって実行される処理も示している。LP利得プロ
セッサ702においてLP利得を計算する。乗算器70
8において、このLP利得を、701で計算したrms
エネルギーに乗算する。音声領域を使用することは、L
P係数におけるチャネル誤りが、再構成される信号パワ
ーに影響し得ないことを意味する。従って、量子化エネ
ルギーを誤りなしで受信した場合、信号のエネルギー等
高線は正確となる。
【0048】ダウンサンプラ706において、調整され
た利得をダウンサンプリングする。10msあたり1利
得のレートのダウンサンプリングが良好な性能を与え
る。次に、プロセッサ703で10を底とする対数をと
る。信号パワーの対数は、線形信号パワーよりも知覚的
に重要である。
【0049】ダウンサンプラ706を使用する理由は、
利得に必要な帯域幅は一般にプロトタイプ波形の抽出周
波数より小さいためである。原理的には、ダウンサンプ
リングの前にアンチエイリアシングフィルタを使用すべ
きである。しかし、本実施例では、アンチエイリアシン
グフィルタは、知覚される性能にあまり影響を与えな
い。反対に、アンチエイリアシングフィルタは符号器遅
延を導入するため、アンチエイリアシングフィルタを含
めることは不利である。注意すべき点であるが、アンチ
エイリアシングフィルタを使用した場合、プロセッサ7
03をプロセッサ706の前に配置することができる。
これによって、アンチエイリアシングフィルタが、線形
エネルギー測度(これは乗算器708の出力である)よ
り知覚的に重要な音声エネルギーの対数に対して使用さ
れることが可能となる。
【0050】音声領域における信号パワーの対数の実際
の量子化は、リーク差分量子化器712によって実行さ
れる。リーク係数によって、不定なチャネル誤り伝搬が
回避される。ダウンサンプリングされた利得間の間隔を
τとして、時刻kτにおいて、対数音声領域における利
得をG(kτ)とし、対数音声領域における量子化利得
をG ̄(kτ)とすると、量子化器712は次式(6)
に従って動作する。
【数4】 ただし、α<1はリーク(忘却)係数であり、Q(・)
は、その引数を、利得量子化テーブルで最も近いエント
リに写像する。量子化作用Q(・)は従来のものであ
り、量子化器704によって実行され、τの遅延作用は
遅延ユニット705によって実行される。
【0051】[内層:SEWおよびREWの計算]利得
の正規化および量子化の後に、プロトタイプ波形は、滑
らかに変化する成分(緩変化波形(SEW)と呼ぶ)
と、急速に変化する成分(急変化波形(REW)と呼
ぶ)に分解される。周期信号(例えば有声音声)の場合
はSEWが優勢であるが、雑音信号(例えば無声音声)
の場合はREWが優勢である。
【0052】再び図13を参照すると、SEWは、波形
平滑化器502で実行される平滑化作用によって形成さ
れる。プロトタイプ波形のフーリエ級数表示の複素フー
リエ係数をc(kT,h)と表す。ただし、kTはプロ
トタイプ波形の抽出の時刻、Tは更新間隔、およびhは
高調波のインデックスである。波形平滑化器502は、
次式(7)に従って、窓w(m)を使用して平滑化した
係数を生成する。
【数5】 平滑化器502によって使用される窓w(m)は、例え
ば、係数の和が1になるように正規化したハミング窓ま
たはハニング窓(またはその他の線形位相ローパスフィ
ルタ)である。例えば、更新間隔2.5msでn=7と
する。プロトタイプ波形を平滑化する他の方法も使用可
能である。本実施例の正規化プロトタイプ波形の場合、
窓w(・)は、利得抽出器501によって得られるよう
な高調波ごとの平均二乗根(rms)エネルギー(量子
化されていない利得)によって重みづけしなければなら
ない。すなわち、v(m)を平滑化窓係数とした場合、
使用する重みづけはw(m)=βv(m)G(m)であ
る。ただし、G(m)は時刻(k+m)Tに抽出された
プロトタイプ波形の高調波ごとのrmsエネルギーであ
り、βは、窓係数の和が1になること、すなわち、
【数6】 となることを保証するために用いられる係数である。
【0053】こうして、SEWは係数c ̄(kT,h)
の集合によって記述される。REWが係数c^(kT,
h)によって記述されるとすると、次式のようになる。
【数7】 これは、図13の減算509で示される。
【0054】上の説明では、プロトタイプ波形は、滑ら
かに変化する波形SEWと、急速に変化する波形REW
に分解された。例えば、SEWの変化は、20Hzの帯
域幅を有し、REWの変化は、20Hz〜1/pの周波
数範囲を有する。ただし、pはピッチ周期である。(注
意:平滑化フィルタのロールオフはむしろ緩やかであ
る。)REWに対する高い時間分解能は、急峻なオンセ
ットの再構成にとって非常に好ましいことであるが、そ
の分解能を維持するためには、REWに対する大きい変
化帯域幅が必要であり、REWをさらに分解することは
有用ではない。REWの高い時間分解能は図8に明確に
示されている。それにもかかわらず、SEW−REW分
解は、2個だけではなく、任意数の波形を含み、各波形
がある周波数帯域に対応する変化に相当するように一般
化することが可能であり、これは特定の符号化方式では
有用となる可能性もある。
【0055】[内層:REW量子化]REWの絶対値ス
ペクトルが、プロセッサ504によって従来技術により
計算される。情報理論的意味では、REWはプロトタイ
プ波形の列に含まれる情報のほとんどを含む。しかし、
この情報のほとんどは知覚的には重要ではない。実際、
知覚品質を実質的に変化させずに、REWの位相スペク
トルをランダム位相スペクトルによって置き換えること
が可能である。さらに、REW絶対値スペクトルは、歪
みを増大させずに大幅に平滑化することが可能である。
例えば、この平滑化のために、幅が約1000Hzの矩
形窓を使用することができる。最後に、REWの絶対値
スペクトルは、非常に少ない歪みで、5ms間隔内に抽
出されたすべてのプロトタイプ波形にわたって平均され
る。このようにして、量子化前に、REWの位相スペク
トルはプロセッサ504で捨てられる。
【0056】プロトタイプ波形は正規化されるため、R
EW絶対値スペクトルの形状は、少ない形状のセットの
うちの1つとして量子化器505によって直接量子化さ
れる。正規化は、利得形状量子化器ではなく形状量子化
器を使用することによって活用される。REW絶対値ス
ペクトルに対しては一般に5msの時間分解能で十分で
ある。2.5msのプロトタイプ抽出レートでは、この
ことは、REW絶対値スペクトルが2つのREWごとに
変化することを意味する。REWの量子化された絶対値
スペクトルは、その2個のREWに対して同時に得られ
る。REWの絶対値スペクトルは、量子化前に周波数に
ついて平滑化することが可能である。もとのプロトタイ
プ絶対値スペクトルについてREW絶対値スペクトルを
分割する結果、周波数依存周期性レベルが得られる。こ
の出力は、周波数依存周期性レベルの検出に使用するこ
とができる。
【0057】REWを量子化するために、量子化された
REW絶対値スペクトルの形状を、信号のピッチ周期と
ともに次元が変化するベクトルにフィットさせなければ
ならない。コードブックに対する形状は、N個の解析関
数のセット、zi(x),i=1,...,N、で指定する
ことができる。形状は、xの区間[0,1]にわたって
指定され、絶対値も0と1の間で変化する。妥当な形状
のセットは、zi(x)=0.1、zi(x)=0.9、
およびいくつかの単調増加関数を含む。高調波の数をH
とし、高調波hのREW絶対値スペクトルをZ(h)と
すると、形状インデックスioptは次式によって選択さ
れる。
【数8】 知覚的に満足に有声レベル関数Z(h)を量子化するた
めには、3ビットを必要とする8個の形状のセット、す
なわち、8個の解析関数で十分である。これが、REW
に必要な全ビット割当てである。
【0058】さらに良好な性能を得るためには、REW
絶対値スペクトル量子化は、例えば、CELPにおける
残差信号または初期の波形補間符号器におけるプロトタ
イプ波形を量子化するために従来使用されたのと同様
に、スペクトル重みづけを使用することができる。実際
には、これは、知覚的に適当なように修正された音声ス
ペクトルエンベロープを表す対角行列で上記の誤差最適
化を重みづけすることを意味する。知覚重み行列を計算
するためには、補間されたLP係数が必要である。
【0059】[内層:SEW量子化]プロトタイプ波形
の平均絶対値スペクトルが正規化されるため(平均は、
上記の高調波のサブセットにわたる平均を意味するよう
にとる)、REWの平均絶対値とSEWの平均絶対値は
独立ではない。一般に、ピッチサイクル波形の正規化の
ため、SEWの平均二乗絶対値(パワー)スペクトル
は、REWの平均パワースペクトルを1から引いたもの
に近似される。SEWに関する情報が伝送されない場
合、SEWパワースペクトルは、受信器によって、RE
Wパワースペクトルを1から引いたものとして得られ、
あるいは、精度を落とせば、SEW絶対値スペクトルが
REW絶対値スペクトルを1から引いたものとして得ら
れる。SEWのパワースペクトルの平均の平方根をとる
ことは、SEWの複素スペクトルまたは絶対値スペクト
ルの形状量子化器に対して適当な利得を与える。SEW
の絶対値スペクトルまたは複素スペクトルのいずれかに
対する形状コードブックは、この利得によって正規化さ
れた(すなわち、各高調波の絶対値をこの利得によって
除した)SEWの絶対値スペクトルまたは複素スペクト
ルの代表的データベースを使用して学習させることが可
能である。
【0060】当業者には明らかなように、REWとSE
Wの平均絶対値の依存性のため、本発明の実施例は、S
EW(REWはなし)情報を通信するように実現するこ
とも可能である。この場合、REWパワースペクトル
は、SEWパワースペクトルを1から引いたものとして
得られる。しかし、このような実施例はREWの時間分
解能を犠牲にし、従って、好ましい実施例ではない。
【0061】SEW量子化器503はさまざまなレベル
の精度で動作可能である。ここで説明する音声符号化シ
ステムのビットレートをほとんど決定するのはSEW量
子化である。上記のように、最も低いビットレートの符
号器では、SEW情報の伝送は不要である。その結果、
音声は、REW情報のみを使用して符号化され、量子化
器503は作用しない。
【0062】低ビットレートでは、SEWに関する情報
を伝送しないか、または、その絶対値スペクトルのみを
量子化する。この場合、SEWの絶対値スペクトルおよ
び位相スペクトルは別々に扱われ、SEW位相スペクト
ル表示は位相スペクトルのいくつかのセットの間で切り
替えることができる。この切替えは、さらに情報を伝送
することを必要とせずに実行可能である。実際、この切
替えは、REW絶対値スペクトル(すなわち、周波数依
存有声レベル)に基づくことが可能である。有声音声中
では、(好ましくは、多数の高調波を有する、すなわ
ち、基本周波数の低い、男性からの)もとのピッチサイ
クル波形から導出される位相スペクトルを使用可能であ
る。このような位相スペクトルは、明瞭なピッチパルス
を生じやすく、その結果、再構成されるプロトタイプ波
形が適切に整列される。無声信号中では、ランダム位相
を使用可能である。これは、高いパルスのような、大き
い時間領域特徴を生じない。しかし、これらの位相間の
切替え中に明確な位相不連続が現れないように、任意の
時間領域特徴(有声位相スペクトルの場合には大きい)
が事前に整列されるようにこれらのスペクトルを選択す
ることが有利である。
【0063】SEWに対して、0〜Kの範囲のインデッ
クスで特徴づけられる位相スペクトルの列を使用するこ
とができる。信号が周期性であることをREW情報が示
しているときにはインデックスを増加させ、信号が非周
期性であることをREW情報が示しているときにはイン
デックスを減少させる。このように、SEWは、インデ
ックスの関数として、「尖鋭」から「不鮮明」まで変化
する。あるいは、尖鋭度は、もとのSEWで測定する
(例えば、ピッチサイクル内の高信号パワーの領域と低
信号パワーの領域での相対的な信号エネルギーを測定す
ることによって)ことも可能である。この場合、尖鋭度
インデックスを伝送しなければならない。
【0064】注意すべき点であるが、固定または切替え
の位相スペクトルは高精度のピッチ検出器を必要とす
る。例えば、ピッチ検出器が、セグメント有声音声中に
正しい値の2倍のピッチ周期を示した場合、抽出される
(もとの)プロトタイプ波形は2個のピッチサイクルを
含む。これは、プロトタイプ波形内に2個のピッチパル
スがあることを意味する。この場合、外層101の基礎
的な分析−合成システムはなお優れた再構成音声品質を
与える。しかし、SEWの量子化で位相情報が捨てられ
ると、ただ1つのピッチパルスのみが再構成波形に存在
することになり、再構成される音声波もとの音声とはか
なり異なって聞こえることになる。しかし、このような
歪みは、自然に生起する条件をシミュレートしているた
め、自然に聞こえることも多い。
【0065】音声品質を改善するためには、SEWの絶
対値スペクトルを量子化することができる。これは、従
来のベクトル量子化または差分ベクトル量子化によって
実行可能である。上記のように、REW絶対値スペクト
ルが既知でありプロトタイプ波形が正規化される場合、
SEW絶対値スペクトルのデフォルト値は成分としてR
EWパワースペクトル成分を1から引いたものの平方根
を有する。REW絶対値スペクトルを1から引いたもの
を使用することだけでも良好な性能を与える。
【0066】周波数依存周期性レベルと同様に、絶対値
スペクトル形状の量子化を、絶対値スペクトルを記述す
るベクトルの次元とは独立に実行しなければならない。
再び、この目的のために、解析関数のセット(例えば、
多項式のセット)を使用することができる。SEWの絶
対値スペクトルはゆっくりと変化するため、リークのあ
る差分量子化を使用することが有利である。この量子化
が絶対値スペクトルに直接作用する場合、符号器をチャ
ネル誤りに対して強くするために、リークはデフォルト
絶対値スペクトルに向かって起こるべきである。時刻k
Tにおける量子化されていない絶対値スペクトルをS
(kT)とし、デフォルトスペクトルをFとする。する
と、絶対値形状は次式に従って量子化することができ
る。
【数9】 ただし、αはリーク係数であり、Q(・)は差分形状の
量子化である。この量子化は、線形または対数のいずれ
の絶対値スペクトルでも実行可能である。スペクトルF
は、対数スペクトルの場合には零ベクトルとすることが
できる。
【0067】良好な性能は、SEWの全複素スペクトル
を絶対値スペクトルと位相スペクトルに分離せずに量子
化される場合に得られる。有声音声セグメントにはピー
クがあるが無声セグメントにはないため、このようなア
プローチは、有声音声と無声音声の音の性質の差によく
一致する。プロトタイプ波形が正規化されているため、
利得形状量子化器の代わりに従来の(形状)ベクトル量
子化器を使用することが可能である。しかし、高いビッ
トレートでは、コードブックが大きくなりすぎて全数検
索ができないため、利得形状量子化器も有用となる。形
状の差分量子化に対する式(10)は、複素スペクトル
の量子化にも使用可能である。この場合、Fは0と置く
ことができる。この場合は、最大数の高調波より大きい
次元の複素ベクトルを含むコードブックを設け、そのコ
ードブックから必要な成分のみを選択することが適当で
ある。このようなコードブックは、時間領域形状がピッ
チ周期とともにスケールすることを意味する。
【0068】SEWに対する前の量子化方法は、量子化
されていない各SEWに作用することが可能であり、ま
た、SEWのダウンサンプリングされた列に作用するこ
とも可能である。SEWは本来的に帯域制限されている
ため、アンチエイリアシングフィルタは不要である。S
EWの逆量子化中には、「欠けた」SEWを生成するた
めに補間を用いなければならない。この目的のためには
単純な線形補間を使用することができる。
【0069】ベクトル量子化器の性能を改善するため
に、多段コードブックを使用することができる。一般
に、いくつかの段で使用されるコードブックは同一では
ない。このような多段コードブックは、SEWのダウン
サンプリングされた列を量子化するために使用可能であ
る。しかし、サンプリングレートを増加させ(すなわ
ち、ダウンサンプリングをゆるくし)、量子化を多数回
にすることも可能である。注意すべき点であるが、2段
検索によって得られる性能をおよそ維持するためには、
2倍のサンプリングレートで動作するベクトル量子化器
は2つのコードブックを交互に有しなければならない。
換言すれば、コードブックAはサンプル時刻t,3t,
5t,...(ただしtはサンプリング時刻)での量子化
に使用し、コードブックBはサンプル時刻0t,2t,
4t,6t,...での量子化に使用する。このような交
互コードブックは、全サンプリング点で単一のコードブ
ックを使用するよりも高い性能が得られる。この原理
を、コードブックのセットを通じて回転するものに一般
化することによってさらに性能を向上させることができ
る。
【0070】注意すべき点であるが、信号パワーは、有
声音声セグメントにおいて非常に高く、この信号パワー
は、式(7)でSEWを計算するために重みw(m)で
考慮されている。有声音声中のSEWの形状が有声領域
の前に予測されるため、これは好ましい性質である。そ
の結果、SEWに対する形状量子化器は、通常は差分的
に作用するが、有声セグメントが生起する前にSEWの
正しい形状に収束することが可能である。このようなメ
カニズムは例えばCELPとは対照的である。CELP
では、有声開始は予測することができず、有声開始直後
では波形一致は非常に不正確であることが多い。一方、
有声セグメントの予測は、SEWのエネルギーを、プロ
トタイプ波形エネルギーに比べて幾分増加させる。この
効果は、最終的な再正規化のため、性能にはあまり影響
しない。しかし、SEWの平均エネルギーがプロトタイ
プ波形の平均エネルギーを超えることがないように、量
子化前にSEWを再正規化することによって、可能な歪
みを除去することができる。
【0071】各プロトタイプ波形をSEWとREWに分
解することによって、低ビットレート符号器をより高い
レートの符号器に埋め込むことが可能となる。埋め込ま
れた符号器は、通信システムが時に容量を超過する場合
および会議システムの場合に有用である。8kb/sで
埋め込まれた符号器の例では、ビットストリームは、4
kb/s符号器を表す第1のビットストリームと、再構
成される音声品質を向上させる第2の4kb/sビット
ストリームに分割することができる。外部状況が要求す
る場合、第2のビットストリームを除去し、4kb/s
符号器として受信器に対する。注意すべき点であるが、
この4kb/s符号器自体も埋め込まれた符号器である
ことが可能である。現在の波形補間方法では、ピッチト
ラック、線形予測係数、信号パワー、およびREW(更
新レート10msで)の伝送は基本的音声符号器には本
質的である。このようなシステムは約2〜3kb/sを
必要とする。REWの更新レートの増大、および、SE
Wの絶対値スペクトルまたは複素スペクトルの記述は、
再構成される音声品質を改善するために使用することが
できる。多重レベルの埋め込みをするため、SEWの記
述は、いくつかの符号化の和に分割することができる。
【0072】[内層:プロトタイプ波形再構成器]図1
4に、受信器におけるプロトタイプ波形再構成器を示
す。プロセッサ601では、量子化されたREW絶対値
スペクトルが、伝送された量子化インデックスおよび量
子化され補間されたピッチ周期から決定される。絶対値
スペクトルの高調波の数Hを決定するためには局所ピッ
チ周期が必要である。解析関数zi()の表示は伝送さ
れたインデックスiを使用してテーブルから取得され、
関数zi(h/H)の値が各高調波hに対して計算され
る。
【0073】REW再構成器602では、REWのフー
リエ級数表示が得られる。602において、まず、ラン
ダム位相スペクトル(各更新で異なる)が、乱数発生器
または表参照手続きを用いて計算される。絶対値スペク
トルおよびランダム位相スペクトルはともに極座標での
複素スペクトルを形成する。極座標をデカルト座標に変
換することによってフーリエ係数が得られる。
【0074】決定論的な絶対値スペクトルとともにラン
ダム位相スペクトルを使用することにより、再構成され
る音声において比較的「ざらざらした」音の雑音寄与が
ある。これはほとんどの目的では満足なものであるが、
「滑らかな」音の雑音寄与は、1ピッチサイクルの長さ
の時間領域ガウス雑音サンプル列を表すフーリエ係数の
セットを使用してREWを生成することによって得られ
る。これらの複素フーリエ級数にREW絶対値スペクト
ルを乗じることにより良好なREWが得られる。
【0075】再構成された音声品質は、REW再構成器
602内の追加処理によりさらに改善させることができ
る。周期性レベルが低周波に対して小さく、高周波に対
して大きくなる場合には、そのような改善は、REWの
振幅変調によって得られる。声帯の研究から既知である
が、いわゆる呼吸雑音はピッチサイクルにわたって一様
分布しないが、ほとんどはピッチパルス付近に位置す
る。この知識は、SEW振幅エンベロープを用いてRE
W振幅を変調するためにプロトタイプ波形の再構成にお
いて利用することができる。あるいは、REWの振幅エ
ンベロープに関する情報を伝送することも可能である。
【0076】SEW逆量子化器603では、量子化され
たSEW波形が量子化インデックスから得られる(量子
化値が提供される場合は逆量子化器は何の作用も実行し
ない)。差分量子化器を使用している場合、式(6)を
再び使用することができる。ただし、その場合にはQ
(・)の項は、伝送されたインデックスを用いたテーブ
ル参照を表す。正しい数の高調波を有するSEWを得る
ためには、量子化され補間されたピッチ周期が必要であ
る。SEWに関する情報を伝送しない場合、SEWはR
EWの表示から得られる。前に説明したように、この場
合には、SEWパワースペクトルは、REWパワー(絶
対値二乗)スペクトルを1から引いたスペクトルとして
得られ、また、精度を落とせば、SEW絶対値スペクト
ルはREW絶対値スペクトルを1から引いたものとして
得られる。
【0077】SEWおよびREWは加算器609で加算
される。フーリエ級数は時間領域波形の線形変換である
ため、この加算は、フーリエ係数(または、同じことで
あるが、複素フーリエスペクトル)の加算によって実行
することができる。加算器609の出力は、正規化され
量子化されたプロトタイプ波形である。
【0078】スペクトル前置成形器604では、正規化
され量子化されたプロトタイプ波形をスペクトル前置成
形し、最終音声品質を改善する。このスペクトル前置成
形の目的は、例えばCELPアルゴリズムで使用される
ような後置フィルタの目的と同一である。すなわち、前
置成形器は、縦続の全極全零フィルタでプロトタイプ波
形をフィルタリングすることと等価である。全極フィル
タの極は、周波数は全極線形予測(LP)フィルタの極
と同じであるが、半径はγp倍だけ小さい。全零フィル
タの零点は、周波数は全極フィルタの極と同じである
が、半径はγz/γp倍だけ小さい。このフォルマント構
造を加えるため、波形を、ダブリュ.ビー.クレイン
(W. B. Kleijn)、「プロトタイプ波形を使用した音声の
符号化(Encoding Speech Using Prototype Waveform
s)」、IEEE Trans. Speech and AudioProcessing、第1
巻第4号第386〜399ページ(1993年)の式
(18)および(19)に従って処理することが可能で
ある。前置成形されたプロトタイプ波形に対する良好な
フォルマント構造は、γp=0.9、およびγz=0.8
を用いることによって得られる。この前置成形により、
再構成された音声信号のスペクトルピークが改善され
る。あるいは、前置成形は、全零全極前置成形フィルタ
のカスケードの伝達関数の絶対値スペクトルを計算し、
正規化され量子化されたプロトタイプ波形の複素スペク
トルにその絶対値スペクトルを乗じることによって実行
することも可能である。注意すべき点であるが、従来の
後置フィルタリングとは異なり、前置成形は符号化遅延
に影響を及ぼさない。
【0079】一般に、前置成形スペクトルの利得は1で
はない。利得正規化器606は、乗算器607で正規化
プロトタイプ波形に量子化利得を乗じる前に、利得を再
正規化する。利得正規化器606は、利得抽出器および
正規化器501と同じ作用を実行する。
【0080】[内層:利得逆量子化器]受信器の利得逆
量子化器605を図16に詳細に示す。逆量子化器80
4は、受信したインデックスを用いて量子化されたスカ
ラーを調べる。対数音声領域で前に量子化された利得が
遅延ユニット805に格納されており、リーク係数αが
乗じられる。加算器807で、804の量子化スカラー
出力を、このスケールされた、前に量子化された利得値
に加える。加算器807の出力は対数音声領域における
量子化利得である。この利得は806で線形補間を用い
てアップサンプリングされる。(対数音声領域利得の補
間は、音声領域利得の線形補間よりも、もとのエネルギ
ー等高線によく一致する。)806の出力は、伝送され
た各プロトタイプに対する量子化対数音声領域利得であ
る。803で、この量子化対数音声領域利得は量子化音
声領域利得に変換される。
【0081】802(これは702と同一である)で、
量子化され補間されたLP係数からLP利得を計算す
る。除算器808において、量子化音声領域利得(80
3の出力)をこのLP利得で除する。除算器808の出
力は高調波ごとのプロトタイプ波形のrmsエネルギー
である。正規化され量子化されたプロトタイプ波形に、
この高調波ごとのrmsエネルギーを乗じることによっ
て、正しくスケールされた量子化プロトタイプ波形が得
られる(このスケーリングは図6の乗算器607で実行
されている)。
【0082】
【発明の効果】以上述べたごとく、本発明によれば、低
ビットレートでの音声符号化において、周期性レベルを
効率よく再構成することが可能となり、受信音声品質が
改善される。
【図面の簡単な説明】
【図1】有声および無声のサブセグメントを含む音声信
号のセグメントの図である。
【図2】図1の音声信号の線形予測残差の図である。
【図3】図2の残差信号の特徴波形の図である。
【図4】図2の残差信号の隣接する特徴波形の列からな
る面の図である。
【図5】緩変化特徴波形の図である。
【図6】隣接する緩変化特徴波形の列からなる面の図で
ある。
【図7】急変化特徴波形の図である。
【図8】隣接する急変化特徴波形の列からなる面の図で
ある。
【図9】本発明による基本的な符号器−復号器システム
のブロック図である。
【図10】図9に示した外層のプロトタイプ波形抽出器
のブロック図である。
【図11】図9の外層のプロトタイプ波形からの音声再
構成器のブロック図である。
【図12】プロトタイプ抽出技術の例の説明図である。
【図13】図9に示した内層のプロトタイプ波形量子化
器の図である。
【図14】図9に示した内層のプロトタイプ波形再構成
器の図である。
【図15】図13のプロトタイプ波形量子化器の利得正
規化器および量子化器の図である。
【図16】図14のプロトタイプ波形再構成器の利得逆
量子化器の図である。
【符号の説明】
101 外層 102 内層 110 プロトタイプ波形抽出器 111 プロトタイプ波形からの音声再構成器 120 プロトタイプ波形量子化器 121 プロトタイプ波形再構成器 201 線形予測分析器および量子化器 202 係数補間器 203 線形予測フィルタ 211 ローパスフィルタ 212 ピッチ検出器および量子化器 213 ピッチ補間器 221 信号パワー等高線計算器 231 プロトタイプ波形抽出器 232 プロトタイプ波形整列器 301 線形予測逆量子化器 302 係数補間器 303 線形予測フィルタ 311 ピッチ逆量子化器 312 ピッチ補間器 321 プロトタイプ波形整列器 322 プロトタイプ波形補間器 323 励起サンプル計算器 501 利得抽出器および波形正規化器 502 波形平滑化器 503 SEW量子化器 504 REW絶対値スペクトルプロセッサ 505 REW絶対値スペクトル量子化器 506 利得量子化器 601 REW絶対値スペクトル逆量子化器 602 REW再構成器 603 SEW逆量子化器 604 スペクトル前置成形器 605 利得逆量子化器 606 利得正規化器 701 高調波ごとのエネルギープロセッサ 702 LP利得プロセッサ 703 底10対数プロセッサ 704 量子化器 705 更新間隔遅延 706 ダウンサンプラ 712 リーク差分量子化器 802 LP利得プロセッサ 803 10の累乗プロセッサ 804 逆量子化器 805 更新間隔遅延プロセッサ 806 (線形補間による)アップサンプラ

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 音声信号のサンプルに基づいて、その音
    声信号を離散時刻において特徴づける第1の特徴波形に
    対応するインデックスづけされたパラメータのセットを
    複数個生成するステップと、 インデックスの値に基づいて複数個のセットのパラメー
    タをグループ分けし、第1特徴波形の変化を表す第1セ
    ットの信号を形成するグループ分けステップと、 第1セットの信号をフィルタリングしてその信号の低周
    波成分を除去することにより、第1特徴波形の比較的高
    速の変化を表す第2セットの信号を生成するフィルタリ
    ングステップと、 第2セットの信号に基づいて前記音声信号を符号化する
    符号化ステップとからなることを特徴とする音声信号の
    符号化方法。
  2. 【請求項2】 第2セットの信号が第2の特徴波形から
    なり、第2特徴波形の絶対値スペクトルを前記音声信号
    の符号化に使用することを特徴とする請求項1の方法。
  3. 【請求項3】 複数の第2特徴波形の絶対値スペクトル
    の平均を前記音声信号の符号化に使用することを特徴と
    する請求項2の方法。
  4. 【請求項4】 第2特徴波形の位相スペクトルを前記音
    声信号の符号化に使用することを特徴とする請求項2の
    方法。
  5. 【請求項5】 前記フィルタリングステップは、 第1セットの信号を平滑化して第3の特徴波形を形成す
    る平滑化ステップと、 複数の離散時刻において、第3特徴波形と、第1特徴波
    形の差を形成するステップとからなることを特徴とする
    請求項1の方法。
  6. 【請求項6】 前記平滑化ステップは、第1セットの信
    号の値の重みづけ平均を形成するステップからなること
    を特徴とする請求項5の方法。
  7. 【請求項7】 第1セットの信号の値が第1特徴波形の
    フーリエ級数パラメータ値を表すことを特徴とする請求
    項6の方法。
  8. 【請求項8】 第1セットの信号の値が第1特徴波形の
    時間領域サンプルを表すことを特徴とする請求項6の方
    法。
  9. 【請求項9】 前記符号化ステップが、離散時点におけ
    る第2セットの信号の値を決定するステップと、その決
    定した値に基づいて前記音声信号を符号化するステップ
    とからなることを特徴とする請求項1の方法。
  10. 【請求項10】 前記インデックスづけされたパラメー
    タがフーリエ係数からなることを特徴とする請求項1の
    方法。
  11. 【請求項11】 前記グループ分けステップは、同じイ
    ンデックス値のフーリエ係数を選択するステップからな
    ることを特徴とする請求項10の方法。
  12. 【請求項12】 前記インデックスづけされたパラメー
    タが時間領域信号サンプルからなることを特徴とする請
    求項1の方法。
  13. 【請求項13】 前記グループ分けステップは、同じイ
    ンデックス値の時間領域信号サンプルを選択するステッ
    プからなることを特徴とする請求項12の方法。
  14. 【請求項14】 第1特徴波形の長さがほぼ1ピッチ周
    期であることを特徴とする請求項1の方法。
  15. 【請求項15】 前記符号化ステップがさらに、平滑化
    したした第1信号のセットに基づくことを特徴とする請
    求項1の方法。
  16. 【請求項16】 前記符号化ステップが少なくとも2個
    のビットストリームを形成するステップからなり、第1
    のビットストリームは第2セットの信号を表し、第2の
    ビットストリームは前記平滑化した第1信号を表すこと
    を特徴とする請求項15の方法。
  17. 【請求項17】 前記平滑化した第1信号は、少なくと
    も2個の第3特徴波形を決定するために少なくとも2個
    の離散時刻において評価され、前記符号化ステップが、
    その少なくとも2個の第3特徴波形を別々のコードブッ
    クで表すステップからなることを特徴とする請求項15
    の方法。
  18. 【請求項18】 前記符号化ステップが埋め込み符号化
    を実行するステップからなることを特徴とする請求項1
    の方法。
  19. 【請求項19】 音声信号のサンプルに基づいて、その
    音声信号を離散時刻において特徴づける第1の特徴波形
    に対応するインデックスづけされたパラメータのセット
    を複数個生成するステップと、 インデックスの値に基づいて複数個のセットのパラメー
    タをグループ分けし、第1特徴波形の変化を表す第1セ
    ットの信号を形成するグループ分けステップと、 第1セットの信号をフィルタリングしてその信号の高周
    波成分を除去することにより、第1特徴波形の比較的低
    速の変化を表す第2セットの信号を生成するフィルタリ
    ングステップと、 第2セットの信号に基づいて前記音声信号を符号化する
    符号化ステップとからなることを特徴とする音声信号の
    符号化方法。
  20. 【請求項20】 サンプルの各セットが特定の時点にお
    ける信号の値を指定するような複数の信号のサンプルの
    順序セットを、固定コードブックのセットのうちの1つ
    を使用して符号化する方法において、 第1のサンプルのセットを第1のコードブックで量子化
    するステップと、 引き続くサンプルのセットを、第1のコードブック以外
    のコードブックで量子化するステップとからなることを
    特徴とする符号化方法。
JP04261695A 1994-02-08 1995-02-08 音声信号の符号化方法 Expired - Lifetime JP3241959B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US195221 1994-02-08
US08/195,221 US5517595A (en) 1994-02-08 1994-02-08 Decomposition in noise and periodic signal waveforms in waveform interpolation

Publications (2)

Publication Number Publication Date
JPH07234697A true JPH07234697A (ja) 1995-09-05
JP3241959B2 JP3241959B2 (ja) 2001-12-25

Family

ID=22720511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04261695A Expired - Lifetime JP3241959B2 (ja) 1994-02-08 1995-02-08 音声信号の符号化方法

Country Status (5)

Country Link
US (1) US5517595A (ja)
EP (1) EP0666557B1 (ja)
JP (1) JP3241959B2 (ja)
CA (1) CA2140329C (ja)
DE (1) DE69529356T2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
KR100389898B1 (ko) * 1996-10-31 2003-10-17 삼성전자주식회사 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
JP2009512895A (ja) * 2005-10-21 2009-03-26 クゥアルコム・インコーポレイテッド スペクトル・ダイナミックスに基づく信号コーディング及びデコーディング
WO2011125430A1 (ja) * 2010-03-31 2011-10-13 ソニー株式会社 復号装置および復号方法、符号化装置および符号化方法、並びにプログラム
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US9015095B2 (en) 2012-01-25 2015-04-21 Fujitsu Limited Neural network designing method and digital-to-analog fitting method
JP2022516784A (ja) * 2019-01-11 2022-03-02 ネイバー コーポレーション 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
US5727125A (en) * 1994-12-05 1998-03-10 Motorola, Inc. Method and apparatus for synthesis of speech excitation waveforms
KR980700637A (ko) * 1994-12-08 1998-03-30 레이어스 닐 언어 장애자의 언어 인식 강화를 위한 방법 및 장치(method and device for enhancing the recognition of speechamong speech-impai red individuals)
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
IT1277194B1 (it) * 1995-06-28 1997-11-05 Alcatel Italia Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
EP0804787B1 (en) * 1995-11-22 2001-05-23 Koninklijke Philips Electronics N.V. Method and device for resynthesizing a speech signal
US5924061A (en) * 1997-03-10 1999-07-13 Lucent Technologies Inc. Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US6109107A (en) 1997-05-07 2000-08-29 Scientific Learning Corporation Method and apparatus for diagnosing and remediating language-based learning impairments
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6731811B1 (en) * 1997-12-19 2004-05-04 Voicecraft, Inc. Scalable predictive coding method and apparatus
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
EP0987680B1 (en) * 1998-09-17 2008-07-16 BRITISH TELECOMMUNICATIONS public limited company Audio signal processing
DE69939086D1 (de) 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6754630B2 (en) 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
AU1929400A (en) * 1998-12-01 2000-06-19 Regents Of The University Of California, The Enhanced waveform interpolative coder
US6304843B1 (en) * 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
US6278385B1 (en) * 1999-02-01 2001-08-21 Yamaha Corporation Vector quantizer and vector quantization method
EP1088304A1 (en) * 1999-04-05 2001-04-04 Hughes Electronics Corporation A frequency domain interpolative speech codec system
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US7010482B2 (en) * 2000-03-17 2006-03-07 The Regents Of The University Of California REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
AU2001267764A1 (en) * 2000-08-09 2002-02-18 Thomson Licensing S.A. Method and system for enabling audio speed conversion
US6801887B1 (en) 2000-09-20 2004-10-05 Nokia Mobile Phones Ltd. Speech coding exploiting the power ratio of different speech signal components
US7280969B2 (en) * 2000-12-07 2007-10-09 International Business Machines Corporation Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
US6931373B1 (en) 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US7013269B1 (en) 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6996523B1 (en) 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
WO2003019527A1 (fr) * 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
KR100487645B1 (ko) * 2001-11-12 2005-05-03 인벤텍 베스타 컴파니 리미티드 유사주기 파형들을 이용한 음성 인코딩 방법
US6993478B2 (en) * 2001-12-28 2006-01-31 Motorola, Inc. Vector estimation system, method and associated encoder
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20050153267A1 (en) * 2004-01-13 2005-07-14 Neuroscience Solutions Corporation Rewards method and apparatus for improved neurological training
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070020595A1 (en) * 2004-01-13 2007-01-25 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US7114638B2 (en) * 2004-01-20 2006-10-03 Xerox Corporation Bin partitions to improve material flow
JP4954069B2 (ja) * 2005-06-17 2012-06-13 パナソニック株式会社 ポストフィルタ、復号化装置及びポストフィルタ処理方法
JP4988757B2 (ja) * 2005-12-02 2012-08-01 クゥアルコム・インコーポレイテッド 周波数ドメイン波形アラインメントのためのシステム、方法、および装置
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
US7899667B2 (en) * 2006-06-19 2011-03-01 Electronics And Telecommunications Research Institute Waveform interpolation speech coding apparatus and method for reducing complexity thereof
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
US8090049B2 (en) * 2007-02-12 2012-01-03 Broadcom Corporation Method and system for an alternating delta quantizer for limited feedback MIMO pre-coders
US8090048B2 (en) * 2007-02-12 2012-01-03 Broadcom Corporation Method and system for an alternating channel delta quantizer for MIMO pre-coders with finite rate channel state information feedback
EP2159790B1 (en) * 2007-06-27 2019-11-13 NEC Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
JP5275612B2 (ja) * 2007-07-18 2013-08-28 国立大学法人 和歌山大学 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
US9601026B1 (en) 2013-03-07 2017-03-21 Posit Science Corporation Neuroplasticity games for depression
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
US9607610B2 (en) 2014-07-03 2017-03-28 Google Inc. Devices and methods for noise modulation in a universal vocoder synthesizer
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
EP0314018B1 (en) * 1987-10-30 1993-09-01 Nippon Telegraph And Telephone Corporation Method and apparatus for multiplexed vector quantization
JPH02250100A (ja) * 1989-03-24 1990-10-05 Mitsubishi Electric Corp 音声符合化装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100389898B1 (ko) * 1996-10-31 2003-10-17 삼성전자주식회사 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법
JP4824167B2 (ja) * 1998-12-21 2011-11-30 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
JP2009512895A (ja) * 2005-10-21 2009-03-26 クゥアルコム・インコーポレイテッド スペクトル・ダイナミックスに基づく信号コーディング及びデコーディング
US8027242B2 (en) 2005-10-21 2011-09-27 Qualcomm Incorporated Signal coding and decoding based on spectral dynamics
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
WO2011125430A1 (ja) * 2010-03-31 2011-10-13 ソニー株式会社 復号装置および復号方法、符号化装置および符号化方法、並びにプログラム
CN102812513A (zh) * 2010-03-31 2012-12-05 索尼公司 解码设备和解码方法、编码设备和编码方法、以及程序
US8972249B2 (en) 2010-03-31 2015-03-03 Sony Corporation Decoding apparatus and method, encoding apparatus and method, and program
US9015095B2 (en) 2012-01-25 2015-04-21 Fujitsu Limited Neural network designing method and digital-to-analog fitting method
JP2022516784A (ja) * 2019-01-11 2022-03-02 ネイバー コーポレーション 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Also Published As

Publication number Publication date
US5517595A (en) 1996-05-14
JP3241959B2 (ja) 2001-12-25
CA2140329C (en) 2000-06-27
DE69529356D1 (de) 2003-02-20
EP0666557A3 (en) 1997-08-06
CA2140329A1 (en) 1995-08-09
EP0666557B1 (en) 2003-01-15
EP0666557A2 (en) 1995-08-09
DE69529356T2 (de) 2003-08-28

Similar Documents

Publication Publication Date Title
JP3241959B2 (ja) 音声信号の符号化方法
Kleijn Encoding speech using prototype waveforms
EP1408484B1 (en) Enhancing perceptual quality of sbr (spectral band replication) and hfr (high frequency reconstruction) coding methods by adaptive noise-floor addition and noise substitution limiting
CA2099655C (en) Speech encoding
JP4843124B2 (ja) 音声信号を符号化及び復号化するためのコーデック及び方法
Atal et al. Spectral quantization and interpolation for CELP coders
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP4662673B2 (ja) 広帯域音声及びオーディオ信号復号器における利得平滑化
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
EP0745971A2 (en) Pitch lag estimation system using linear predictive coding residual
KR20010022092A (ko) 이격 대역 선형 예상 보코더
JPH03211599A (ja) 4.8kbpsの情報伝送速度を有する音声符号化/復号化器
CA2412449C (en) Improved speech model and analysis, synthesis, and quantization methods
KR100408911B1 (ko) 선스펙트럼제곱근을발생및인코딩하는방법및장치
CA2156558C (en) Speech-coding parameter sequence reconstruction by classification and contour inventory
EP1672619A2 (en) Speech coding apparatus and method therefor
JP3087814B2 (ja) 音響信号変換符号化装置および復号化装置
CA2124713C (en) Long term predictor
US6801887B1 (en) Speech coding exploiting the power ratio of different speech signal components
JP3437421B2 (ja) 楽音符号化装置及び楽音符号化方法並びに楽音符号化プログラムを記録した記録媒体
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
KR100712409B1 (ko) 벡터의 차원변환 방법
JPH0736484A (ja) 音響信号符号化装置
JP2000132195A (ja) 信号符号化装置及び方法
Nishiguchi Weighted vector quantization of harmonic spectral magnitudes for very low-bit-rate speech coding

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071019

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091019

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091019

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term