JP3191926B2 - 音響波形のコード化方式 - Google Patents

音響波形のコード化方式

Info

Publication number
JP3191926B2
JP3191926B2 JP07665188A JP7665188A JP3191926B2 JP 3191926 B2 JP3191926 B2 JP 3191926B2 JP 07665188 A JP07665188 A JP 07665188A JP 7665188 A JP7665188 A JP 7665188A JP 3191926 B2 JP3191926 B2 JP 3191926B2
Authority
JP
Japan
Prior art keywords
phase
speech
pitch
frequency
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP07665188A
Other languages
English (en)
Other versions
JPH01221800A (ja
Inventor
ロバート・ジェイ・マコーレイ
トマス・エフ・カティエリ・ジュニア
Original Assignee
マサチューセッツ・インスティテュート・オブ・テクノロジー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マサチューセッツ・インスティテュート・オブ・テクノロジー filed Critical マサチューセッツ・インスティテュート・オブ・テクノロジー
Publication of JPH01221800A publication Critical patent/JPH01221800A/ja
Application granted granted Critical
Publication of JP3191926B2 publication Critical patent/JP3191926B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、スピーチ処理技術に関し、特定すると、ス
ピーチまたはその他の音響波を分析し、ディジタル的に
コード化し、変更しそして合成するための方法および装
置に関する。
[従来技術における問題点] ディジタルスピーチコード化方法および装置、特に従
来の伝送線と適合する速度(すなわち2.4〜9.6キロビッ
ト/秒)のものは、かなり緊急の問題である。このよう
な速度においては、いわゆる『2進励起モデル』のよう
なスピーチモデル化のための代表的手法は、コード化の
応用に適当でなく、線形予測コード化やその他の従来の
コード化技術をもってしてさえ品質の劣るスピーチ伝送
を生ずる。
2進励起モデルにおいては、スピーチは、声道の共鳴
特性を模疑する時間可変線形フィルタ中に声門励起波形
を通す結果であると観察される。音声勃起は、ボイス化
または非ボイス化に対応する2つの可能な状態の1つに
あると仮定される。ボイス化スピーチ状態においては、
時間に関して緩やかに変化する周期をもって周期的であ
る。非ボイス化状態においては、声門励起は、平坦なス
ペクトルをもつランダムな雑音として擬似される。
米国特許出願第712,866号は、2進励起モデルに代わ
る方法を開示しているが、この方法にあっては、スピー
チ分析および合成ならびにコード化が、スピーチ状態に
無関係なスピーチ波形の時間−周波数表示を採用するこ
とにより簡単かつ有効に遂行される。詳述すると、スピ
ーチ波形に対する正弦モデルが新しい分析−合成技術を
展開するのに使用される。
米国特許出願第712,866号は、(a)波形からサンプ
ルのフレーム(すなわち約20〜40ミリ秒の窓)を選択す
ること、(b)サンプルの各フレームを分析して1組の
周波数成分を抽出すること、(c)1フレームから次の
フレームまで該成分を追跡すること、(d)1フレーム
から次のフレームまで上記成分の値を補間して、波形の
パラメータ表示を得ることの諸段階を含む。ついで、パ
ラメータ表示に対応する一連の正弦波を発生することに
より、合成波を構成し得る。この特許出願の開示を参照
されたい。
米国特許出願第712,866号に詳細に説明される1つの
実施例において、上述の方法は、スピーチ状態と無関係
に、測定された信号のペリオドグラム内で最大のピーク
に対応する振幅、周波数および位相を選ぶように採用さ
れる。スピーチ波形を再構成するため、1フレーム上で
評価された正弦波の振幅、周波数および位相は、整合さ
れ、逐次のフレーム上の対応するパラメータセットに連
続的に展開せしめられる。評価されたピークの数は、一
定でなく緩やかに変化するから、整合過程は簡単でなく
直線的でない。非ボイス化/ボイス化転換のようなスピ
ーチの迅速変化領域は、ピークの位置および数に大きな
変化をもたらすことがあり得る。スペクトルエネルギの
このような迅速な動きを説明するため、各フレーム上で
評価された周波数に基づく最隣接整合方法においては、
正弦成分の『生』および『死』の概念が採用される。新
しいピークが現われると、『生』が生じたといわれ、新
しい追跡が開始される。古いピークが整合しない場合、
『死』が生じたといわれ、対応するトラックはゼロに崩
壊せしめられる。一度逐次のフレーム上のパラメータが
整合されてしまうと、各正弦成分の位相の連続性が位相
を解くことにより保証される。1つの好ましい実施例に
おいて、位相は、フレームの継続時間に亙り最大の円滑
性を維持しながらフレームの境界にて測定される位相お
よび周波数抑制を満足するように選択されたパラメータ
値を有する三次元位相補間関数を使用して解かれる。最
後に、対応する正弦振幅が、各フレームを横切って直線
的態様で簡単に補間される。
スピーチコード化の応用において、米国特許第712,86
6号は、周波数成分が割当てられる1組の調波周波数ビ
ンを設定するためにピッチ評価値が使用できることを教
示している。(ここで、ピッチなる用語は、話者の声帯
が振動している基本的速度を意味するのに使用され
る。)成分の振幅は、適応性差分パルスコード変調(AD
PCM)を使って直接的にあるいは線形予測コード化を使
って間接的にコード化される。各調波周波数ビンにおい
て、最大の振幅を有するピークが選択され、ビンの中心
にて周波数に割り当てられる。これは、コード化ピッチ
周期に基づく一連の調波をもたらす。ついで、位相が、
周波数を利用してフレームの端部における位相を予測
し、測定された位相をこの予測に関して解き(アンラッ
ピングし)、ついで4〜5ビット/位相ピークを使用し
て位相残分をコード化することによりコード化される。
低データ速度(すなわち4.8キロビット/またはそれ
以下)の場合、特に低ピッチ話者に対しては、上述の技
術を使用して振幅情報をコード化するのにビットが不十
分な場合がしばしばある。同様に、低データ速度におい
ては、全位相情報をコード化するのに利用可能なビット
が不十分なことがあり得る。そこで、音響波をコード化
するための、とりわけ低データ速度のスピーチをコード
化するためのより良好な方法および装置の必要性が存在
する。
[問題点を解決するための手段] 本発明に従えば、正弦スピーチ表示モデルに基づく新
規なコード化技術が開示される。本発明においては、振
幅コード化のためのピッチ適応性チャンネルコード化技
術が開示されるが、この技術にあっては、チャンネルの
間隔が、話者のボイスのピッチにしたがって変化され
る。そこで、本発明は、迅速に変化する位相を基本波の
位相と同期するように固定する位相合成技術が開示され
る。
正弦モデルのパラメータは、基礎となる正弦波の振
幅、周波数および位相であり、代表的な低ピッチ話者の
場合4KHzのスピーチ帯域幅に80程の正弦波があり得るか
ら、すべてのパラメータを直接的にコード化し、9.6kbp
s以下の伝送速度を達成することは不可能である。
コード化されるべきパラメータセットのサイズを減ず
るに際しての第1ステップは、測定された正弦波に対し
て知覚的な最良の適合を示す1組の調波の正弦波をもた
らすピッチ抽出アルゴリズムを採用することである。こ
の戦略の場合、個々の正弦波周波数のコード化は回避さ
れる。ついで、ピッチ調波にて振幅および位相をサンプ
ルすることにより、新しい1組の正弦波振幅および位相
が得られる。隣接する正弦波の振幅間に存在する相関を
利用することにより、振幅のコード化に際して効率が増
大される。正弦波の位相に対する予測的モデルも開発さ
れるが、このモデルは、ダイナミックレンジが測定され
る位相の[−π,π]領域の1部である1組の残留位相
をもたらすだけでなく、1組のコード化された基本帯域
位相から高周波正弦波の位相を生成できるモデルをもた
らす。コード化される振幅および基本帯域位相の数に対
して許容されるビット数によれば、非常に自然で了解し
易いコード化スピーチが、8.0kbpsで得られる。
本発明においてはまた、正弦変換コード化装置(ST
C)を最低1.8kbpsまでの速度で動作せしめる振幅および
位相をコード化する技術が開示される。得られた等級の
コード化装置の顕著な特徴は、合成スピーチの了解度お
よび自然さ、話者が容易に認識し得るような話者識別品
質の保持ならびに高周囲雑音の背景下における頑健さで
ある。
隣接するチャンネル間の振幅の相関を利用するために
差分パルスコード変調(DPCM)を利用することに加え
て、チャンネルの分離を周波数に関して対数的に増し
(少なくとも低ピッチ話者に対して)、それにより耳の
臨界帯域特性を利用することにより、効率がさらに増さ
れる。1つの好ましい実施例においては、基本帯域にお
ける1組の直線的に離間された周波数およびより高次の
周波数領域における他の1組の対数的に離間された周波
数が、送信機において振幅をコード化するのに使用され
る。受信機においては、チャンネル振幅間において直線
的に補間を行なうことにより、他の振幅エンベロープが
構成される。ついで、これがピッチ調波でサンプルさ
れ、合成のために使用されるべき1組の正弦波振幅を生
ずる。
定常的にボイス化されたスピーチの場合、系の位相
は、準同形技術を使ってコード化対数振幅から予測で
き、そしてこれは、励起位相の予測と組み合わされると
き、単に位相残分をコード化することにより合成中完全
な忠実度を復旧できる。非ボイス化転換および混合励起
中、位相予測は不十分であるが、その標準偏差が被分析
スピーチが非ボイス化される程度に比例する均一に分配
されたランダム変数により各残留位相を置き代えること
により、同種の姿態を擬似できる。
さらに、ごく低データ速度の伝送線(すなわち4.8kbp
s以下)の場合、位相情報をコード化する必要性を本質
的に排除するコード化方式が案出された。『大きさだけ
による』分析/合成システムにおいて起こるような品質
および自然さにおける損失を避けるため、ここでは位相
コヒレントを維持し人工的位相分散を導入するシステム
が開示される。すべての正弦波の位相を基本波の位相に
固定し、ピッチ依存性の二次位相分散およびボイシング
依存性のランダム位相を各位相トラックに加える合成位
相モデルが用いられる。
スピーチは、ここでは位相に対して2つの成分を有す
るものとして分析される。すなわち、各サンプルに関し
て変わる迅速変化成分と、各フレームに関して変わる緩
速変化成分とである。迅速変化位相は、基本波の位相に
同期するように固定され、そしてピッチオンセット(立
ち上がる)時間ですべての励起正弦波が同相になる時間
を簡単に設定する。正弦波は位相が固定されるから、こ
のオンセット時間は、耳で知覚できない、すなわち無視
できる遅延を表わす。それゆえ、基本波の位相は、瞬間
的ピッチ周波数を積分することにより生成でき、迅速変
化位相は、基本波の位相の倍数となるであろう。
[実施例] 以下、本発明を、例示の実施例との関係において説明
する。しかしながら、当業者であれば本発明の技術思想
から逸脱することなく種々の変化変更をなしえることは
明らかであろう。例えば、以下の記述は特にスピーチコ
ード化に適用されるが、種々の音響波形を同様な様式で
処理できることは明らかである。
本発明においては、スピーチ波形は、正弦波の総和と
して模擬される。従って、スピーチをコード化する際の
第1のステップは、入力スピーチ波形s(n)を正弦モ
デルにより表すことである。
すなわち、 ここにAkおよびθは、高分解能短時間フーリエ
変換の大きさのピークに対応する振幅、周波数および位
相である。測定される周波数は、一般的に調波でないこ
とに留意されたい。スピーチ波形は、声門励起波形を声
道フィルタ中に通す結果として模擬できる。もしH
(ω)がこのフィルタの伝達特性を表わすと、声門励起
波形e(n)は下記のように表わすことができる。
ここでak =Ak/|H(ω)| (3a) θ=θ−argH(ω) (3b) 式(3b)における励起位相を計算するためには、声道
フィルタの振幅および位相を計算することが必要であ
る。これは、準同形技術を使用するか、測定された正弦
波振幅に全極モデルを適合させることによりなすことが
できる。これらの技術は、米国特許出願第712,866号に
論述されている。これらの両方法は、本質的に不明確な
声道位相の評価値を生ずる。何故ならば、波形−s
(n)に対して、s(n)に対して得られるのと同じ伝
達特性が得られるからである。この本質的アンビギュイ
ティーは、励起モデルにおいて下記の式により説明され
る。
φ=θ−argH(ω)−βπ (4) ここで、βは0または1のいずれかであり、これは分
析手続きにおいて明らかにされねばならぬ決定である。
第1図は、本発明の基本的分析/合成システムを示す
ブロック図である。窓処理波形の離散的フーリエ変換
(DFT)の大きさのピークは、スロープ(凹面)におけ
る変化の位置を決定することにより簡単に見出される。
位相測定値は、評価された周波数ピークにおいて逆正接
を計算することにより離散的フーリエ変換から導出され
る。
簡単な実施例において、スピーチ波形は、10KHzのサ
ンプリング速度でディジタル化され、5KHzでローパス濾
披され、そして可変継続時間の分析窓を使用して10〜20
msecのフレーム間隔で分析できる。この際、分析窓の幅
は、ピッチ適合性とされ、例えば、20msecの最小幅をも
つ平均ピッチ周期の2.5倍に設定される。
[ピッチ適合性振幅コード化] 従来の形式の正弦変換コード化装置(STC)は、PCMを
使用して差分対数振幅をコード化することにより隣接す
る正弦波間に存する相関を利用する。振幅コード化に対
して固定数のビットが割り当てられたから、単位振幅当
りのビット数は、ピッチが変わるにつれ変化せしめられ
る。低ピッチの話者の場合、4000Hzのスピーチ帯域幅に
80程の正弦波があり得るから、8.0kbpsにて、ピッチ、
エネルギおよび約12の基本帯域位相をコード化するのに
4000ビット/秒を残しながら、各差分振幅に対して少な
くとも1ビットを割当てることができる。4.8kbpsで
は、1ビット/振幅を割当てると、コード化予定は直ち
に使い果たされ、位相はコード化できない。それゆえ、
低速度で動作のためには、より効率的な振幅コード化装
置が必要とされる。
約7の基本帯域位相がコード化されるならば、良好な
品質の自然のスピーチを得ることができることが分かっ
た。また、予測的位相モデルを使用すると、非直線的量
子化ルールが使用されるならば、4ビット/位相で十分
であることが分かった。しかして、該非直線的量子化ル
ールにおいては、量子ステップサイズが、その残留位相
が±π境界に近づくにしたがって増大される。ピッチ、
エネルギおよび位相モデルのパラメータのコード化を許
容した後、振幅をコード化するために50ビットが残った
(50Hzフレーム速度が使用された場合)。
低速度にて振幅情報をコード化する1つの方法は、知
覚に基づいた手法を利用することである。DPCM技術を使
用して隣接するチャンネル間の振幅相関を利用すること
に加えて、チャンネル分離を周波数に関して対数的に増
加せしめ、それにより耳に対する臨界的帯域特性を利用
することにより、効率がさらに増大される。これは、正
弦波ピーク間において直線的に補間を行なうことにより
正弦波振幅のエンベロープを構成することによりなすこ
とができる。このエンベロープは、ついで予め限定され
た周波数にてサンプルされる。基本帯域において93Hz/
チャンネルにて直線的に離間された9つの周波数および
より高次の周波数において対数的に離間された11の周波
数を可能にする22チャンネルの設計が開発された。DPCM
コード化は、チャンネル2〜9に対して3ビット/チャ
ンネル、そしてチャンネル10〜22チャンネルに対して2
ビット/チャンネルを使ってコード化された。チャンネ
ル1のレベルは所望のエネルギを得るように選択される
から、チャンネル1をはっきりとコード化することは必
要でない。受信機においては、チャンネル振幅間におい
て直線的に補間を行なうことにより他の振幅エンベロー
プが構成される。ついでこれがピッチ調波にてサンプル
され、合成に使用されるべき1組の正弦波振幅を生成す
る。
この手法は、ピッチが93Hz以下である話者に対しては
合理的な設計技術であるが、高ピッチの話者に対しては
明らかに不十分である。例えば、もしもピッチが174Hz
以上であると、正弦波は多くとも22であり、これらは直
接コード化できたであろう。このアイディアに基づき、
ピッチが93以上であった場合には増大されたチャンネル
間隔を許容するように設計が変更された。もしもF0がピ
ッチであり、全部でNのチャンネルの中からMの直線的
に離間されたチャンネルがあるとすると、直線的基本帯
域は周波数FM=MF0で終る。(N−M)の残りのチャン
ネルの間隔は、以下のように対数的に増す。すなわち、 Fn=(1+α)Fn-1 n=M+1,M+2,…,N (5) 拡張ファクタαは、Fnが4000Hzの縁部に近くなるように
選ばれる。もしもピッチが93Hzまたはそれ以下である
と、固定の93Hzの直線/対数設計が選択され、また93Hz
以上であると、ピッチ適合性の直線/対数設計が使用さ
れよう。さらに、もしもピッチが174Hz以上であると、
厳格に直線的設計が使用されよう。加えて、チャンネル
当りのビットの割当ては、利用可能なビットのすべてを
効率的に利用するようにピッチ適合性とし得る。
ついで、DPCMコード化装置が、ピッチ適合性チャンネ
ル周波数にてエンベロープサンプルの対数に通用され
る。量子化ノイズはケフレンシー領域において平坦なス
ペクトルを有し(対数値のフーリエ変換)、スピーチエ
ンベロープスペクトルは、この領域において1/n2のよう
に変化するから、ワイナーフィルタを設計することによ
り量子化雑音の最適の低減が可能である。これは適切に
設計されたケプストラムローパスフィルタで近似でき
る。
この振幅コード化アルゴリズムは、実時間設備で実施
され、診断ライム試験を使用して評価される。3人の男
性話者の場合、平均スコアは、静寂なところで95.2、空
輸指令所雑音下において92.5、そしてオフィス雑音下に
おいて92.2であった。女性の場合、スコアは、各ケース
において約2DRTポイント低かった。
ピッチ適合性22チャンネル振幅コード化装置は、4.8k
bpsにて動作するように設計されるが、振幅および位相
に対するビット割当てを変えることにより1.8kbps〜8.0
kbpsの任意の速度で動作し得る。4.8kbps以下の速度に
おける動作は、位相コード化を除去することにより最も
容易に得られた。これは、コード化装置を『大きさだけ
の』分析/合成装置に有効に落し、位相追跡が、各正弦
波と関連する瞬間的周波数を積分することにより簡単に
得られるようにする。このようにして、3.1kbpsにおけ
る動作が、振幅コード化装置に対して何ら変更なしに達
成された。各チャンネルに対するビット割当てをさらに
減ずることにより、最低1.8kbpsまでの速度における動
作が可能となった。低速度の装置はすべて相当に了解度
がよいと思われるが、1.8kbpsの装置においては由々し
いアーチフアクトが聞かれよう。これは、この場合、1
ビット/チャンネルしか使用されていないからである。
2.4kbpsでは、これらのアーチフアクトは本質的に除去
され、そして3.1kbpsでは、合成スピーチは非常に滑ら
かであり、完全にアーチファクトがなかった。しかしな
がら、これらの低速度における合成スピーチの品質は、
多数の聴取者により『反響的』、『きしんでいる』、あ
るいは『機械的』と判断された。
実際に、非コード化の大きさのみの装置においては、
品質および自然さに同じような損失が起こると思われ
る。この品質の損失における主要なファクタは、正弦波
に位相コヒレント性を欠いていると仮定された。それ
故、STC装置を使用して、4.8kbps以下の速度で高品質ス
ピーチが所望されるならば、隣接する正弦波間において
位相コヒレントを維持するための用意がなされよう。こ
の位相コヒレントを達成するための手法について以下に
論述する。
[位相モデル化] 位相モデル化の目標は、式(4)における位相測定値
を表わすパラメータモデルを生成することである。新し
い位相モデルの背後にある直感的認識は、定常的ボイシ
ン中励起波形が一連のピッチパルスよりなるであろうと
いう事実に由来する。正弦波モデルの関係においては、
ピッチパルスは、すべての正弦波がコヒレントに加わる
ときに(すなわち同相であるとき)に起こる。これは、
声門励起波形が下式のごとく模擬できることを意味す
る。すなわち、 ここでn0は、分析フレームの中心に関して測定されたピ
ッチパルスのオンセット時間である。これは、励起位相
が周波数に直線的に依存することを示す。位相モデル
は、2つのパラメータn0おょびβに依存する。しかし
て、パラメータn0おょびβは、(n)をe(n)に近
くするように選ばれるべきである。励起正弦波の振幅は
多少平坦であるから、使用すべき良好な規準は最小平均
二乗誤差である。それゆえ、本発明者は、下記の誤差を
最小にする位相アンビギュイティーおよびオンセット時
間の値を探索する。すなわち、 ここで(N+1)は、分析フレームにおける点の数であ
る。式(7)において式(2)および(6)を使用しか
つ分析フレームが最初にすべての成分正弦披を解くのに
十分に長く選ばれたという事実を使用すると、モデルパ
ラメータの最小二乗評価値が下記の関数の最大値を見出
すことにより得ることができることを示すことは容易で
ある。
この式は、ピッチオンセット尤度関数を次のように定
め、すなわち ついで、β=0に対してρ(n0,0)=l(n0)、β=1
に対してρ(n0,1)=−l(n0)であることに注目する
ことにより若干簡単化できる。これは、オンセット時間
が|l(n0)|の最大値を見つけることにより評価される
ことを意味する。n0が最大化値を表わせば、位相アンビ
ギュイティーは、l(n0)が正であればβ=0を選択
し、l(n0)が負であればβ=1を選択することにより
解かれる。不幸にして、関数l(n0)はn0において高度
に非直線的であり、最適値に対する簡単な分析的解を見
出すことは困難である。
結果として、最適化値は、最大の予測ピッチ周期(本
件においては20ms)に対応するオンセット時間範囲にわ
たりl(n0)を評価することにより見出された。第2図
は、男性スピーチのフレームに対して評価されたピッチ
オンセット尤度関数のプロットを例示している。正向き
ピークは、測定された系の位相にアンビギュイティーが
ないことを指示している。第3図は、女性スピーチのフ
レームに対応するものであるが、これは、系の位相にお
ける固有のアンビギュイティーが、尤度関数の負向きピ
ークに現われる態様を示している。ボイス化スピーチに
対して得られたものの典型であるこれらの結果は、正弦
表示に使用される位相測定値からピッチパルスのオンセ
ット時間を評価できることを示している。
正弦波パラメータをコード化するのに使用される第1
のステップは、各調波周波数ビンに1つの正弦波を割当
てることである。究極的に受信機において再構成される
のはこの1組の正弦波であるから、新しい位相モデルが
適用されるのはこの低減された1組の正弦波である。ST
Cシステムの最も最近の形式においては、低減された1
組の正弦波の振幅に直線的補間を適用することにより振
幅エンベロープが創成される。これは振幅を平坦化する
のに使用され、そして、声門励起波形の正弦波表示を創
成するため系の位相を評価し除去するのに準同形方法が
使用される。ついでオンセット時間および系の位相アン
ビギュイティーが評価され、1組の残留位相を形成する
のに使用される。モデルが完全であれば、これらの位相
残分は0となろう。勿論モデルは完全でない。したがっ
て、良好な合成スピーチを得るためには、残分をコード
化することが必要である。このような1組の残分の1例
は、第2図に例示される同じデータに対して第4図に示
されている。基本帯域(最高1000Hzまで)の正弦波のみ
がコード化されるから、モデルは、実際には基本領域に
おける正弦波位相データのみに適合される。主要な点
は、現位相測定値は、[−π,π]領域にわたり一様に
分布された値を有するが、位相残分のダイナミックレン
ジはπよりもずっと小さく、したがってコード化の高効
率が得られるということである。
正弦波パラメータをコード化するに際しての最終的ス
テップは、周波数を量子化することである。これは、測
定される周波数を正弦波が存在する調披の中心周波数に
より置き代えることにより得られる残留周波数を量子化
することによりなされる。正弦波の測定された励起位相
およびその周波数間の緊密な関係のため、量子化された
周波数が測定された値から相当に異なる場合位相を補償
するのが望ましい。最終の解読励起位相はモデルプラス
コード化位相残分により予測される位相であるから、プ
ロセスには若干の位相補償が本質的に備わっている。何
故ならば、位相モデルはコード化周波数で評価され、合
成波形にピッチ構造をよりよく保存するからである。
上述の分析は、ボイス化スピーチの場合に基づく。ス
ピーチが非ボイス化されるべき場合は、線形モデルは全
体的にエラーとなり、残留位相は提案された直線モデル
に関して大幅に偏向することが予測されよう。これらの
偏向はランダムとなり、したがって位相コード化装置に
より捕捉される特質で非ボイス化スピーチの本質的な雑
音状品質が保存されよう。
定常的ボイシング中、声門励起は、各ピッチパルスの
発生時にコヒレントに加わる1組の調波に分解され得る
一連の周期的インパルスであると考えることができる。
この考えに基づき、スピーチ波形に対するモデルは下記
のように書くことができる。すなわち、 ここで、A(ω)は振幅エンベロープ、n0はピッチオン
セット時間、ωはピッチ周波数、Φ(ω)は系の位
相、ε(mω)は第m高調波における残留位相であ
り、そして ω=2πf/fSはサンプリング周波数fSに関する角周波数
(ラジアン)である。最小位相の仮定下においては、系
の位相は準同形技術を使ってコード化対数振幅から決定
できるから、調波再構成の忠実度は、位相残分のコード
化に割り当てることができるビット数にのみ依存する。
4.8kbps装置の開発中に遂行される実験に基づき、定
常的ボイス化中予測的位相モデルは全く精確で本質的に
0である位相残分をもたらし、他方非ボイス化スピーチ
中位相予測は十分でなく、[−π,π]内においてラン
ダムな値であると思われる位相残分をもたらすことが観
察された。転換および混合励起中、位相残分の姿態がこ
れらの2極限間のどこかに存在した。同じ種類の姿態
は、各残留位相を一様に分配されたランダム変数で置き
代えることにより擬似できる。しかして、該変数は、そ
の標準偏差は被分析スピーチが非ボイス化される程度に
比例するものとする。Pvがスピーチがボイス化される確
率を表わし、θが[−π,π]上において一様に分配
されたランダム変数であるとすると、 は位相残分に対する評価値を与える。ボイシング確率の
評価値は、調披モデルが測定された1組の正弦波に適合
される程度に関係づけられるピッチ抽出装置から得られ
る。
このモデルは実時間で実施され、即座の感覚は、合成
スピーチにおいて『ブンブンという感じ』であった。こ
れに対する説明は、残留位相モデルの当然の帰結として
強くボイス化されたスピーチ中Pv=1,ε(mω)=0と
なり、したがって式(11)から となることから導かれる。
系の位相Φ(ω)はコード化対数値から導出されるか
ら、これは最小位相であり、そしてこれは、合成波形を
『先鋭』にししたがってブンブンいう感じを認識させ
る。ある種の位相分散を導入することによりこの影響を
減ずるため、数種の手法が提案された。例えば、平坦な
振幅および二次位相を有する分散フィルタを使用でき
る。これは、式(10)における系の位相を により置き代えることにより簡単に実施できるから正弦
合成装置に特に適合した手法である。STC装置の自在性
は、ピッチ適合性、話者依存性の設計を可能にする。こ
れは、下式により与えられるこの位相特性と関連する群
遅延を考慮することによりなすことができる。すなわ
ち、 合理的な設計規準は、甲高音の縦続時間が平均ピッチ周
期の何分の1かであることを要件とする。ω=2πf/fS
であるから、甲高音の縦続時間は概ねT(π)で与えら
れる。それゆえ、もしも▲ ▼が平均ピッチ周期を表
わすと、 により下記の設計規準がもたらされる。すなわち、 ここで は平均ピッチ周波数、そして0<α<1は甲高音の長さ
を制御する。合成モデルは次のごとくなる。
式(16)における分散モデルは、ボイス化スピーチの
場合に対して導出されたが、全ボイシング状態中に使用
される。なぜならば、非ボイス化スピーチ中、位相残分
はランダム変数となるからである。
低速度の応用の場合、さらに拘束された位相モデルを
使用することが必要である。位相に対して2つの成分が
ある。すなわち、各サンプルに関して変わる迅速変化成
分と、各フレームに関して変わる緩速変化成分である。
迅速変化成分は下記のように書ける。すなわち、 φ(n)=(n−n0)mω=mφ(n) ……(1
7) ここで φ(n)=(n−n0)ω (18) これは、迅速変化位相が基本波の位相と同期するように
固定され、全励起正弦波が同相になる時間が単にピッチ
オンセット時間で確定されることを示している。正弦波
は位相が固定されているから、このオンセット時間は単
に耳で知覚できない、したがって無視できる遅延を表わ
している。それゆえ、基本波の位相は、瞬間的ピッチ周
波数を積分することにより生成されるが、いまや式(1
0)の結果として隣接する正弦波間の位相関係が保存さ
れる。それゆえ、迅速変化位相は、基本波の位相の倍数
であり、これは次のようになる。
そして ここでω0 k0 k+1はそれぞれフレームk,k+1上におい
て測定されたピッチ周波数である。
得られた位相固定合成装置は、実時間方式で実施さ
れ、合成スピーチの品質を劇的に改善することが分かっ
た。改善は、位相コード化が可能でない3kbps以下の低
速度においてもっとも顕著であるが、位相固定技術は、
基本帯域位相のすべてがコード化されない場合に高周波
再生においても使用できる。実際に、従来の設計におい
て使用されたより少ない位相をコード化して、4.8kbps
にて非常に良好な品質が得られた。さらに、式(16〜2
0)は測定されたピッチ周波数ωおよびボイシング確
率Pvのみに依存するから、4.8kbps以下におけるデータ
速度の低減は、はっきりした位相情報がコード化されな
くても、品質のより少しの損失で起こり得ない。
【図面の簡単な説明】
第1図は本発明の概略ブロック図、第2図は男性スピー
チフレームに対する本発明に従うピッチオンセット尤度
関数のプロット、第3図は女性スピーチフレームに対す
る本発明に従うピッチオンセット尤度関数のプロット、
第4図は第2図のサンプルされたスピーチデータに対す
るコード化に適当な位相残分の例示である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 トマス・エフ・カティエリ・ジュニア 米国マサチューセッツ州アーリントン、 マサチューセッツ・アベニュー993 (56)参考文献 特開 昭58−23100(JP,A)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】送信機および受信機を含むコード化装置を
    用いて、送信機でスピーチをコード化し、受信機でコー
    ド化された基本波(ω)ないし第m高調波(mω
    を合成する方法であって、 スピーチのコード化は、振幅および位相を有する個々の
    周波数成分(ω〜mω)を多数組連らねたスピーチ
    波形((n))を、下式のように表し、 スピーチ波形を形成する基本波(ω)の位相と同期す
    るように、スピーチ波形を形成する第m高調波(m
    ω)の位相成分((n−n0)mω)が基本波
    (ω)で固定されていることを特徴とするスピーチコ
    ード化方法。 ここで、A(ω)は振幅エンベロープ、n0はピッチオン
    セット時間、ωはピッチ周波数、Φ(ω)は系の位
    相、ε(mω)は第m高調波における残留位相であ
    り、そして ω=2πf/fSはサンプリング周波数fSに関する角周波数
    (ラジアン)である。
  2. 【請求項2】送信機および受信機を含み、送信機でスピ
    ーチをコード化し、受信機でコード化された基本波(ω
    )ないし第m高調波(mω)を合成するコード化装
    置であって、 スピーチのコード化は、振幅および位相を有する個々の
    周波数成分(ω〜mω)を多数組連らねたスピーチ
    波形((n))を、下式のように表し、 スピーチ波形を形成する基本波(ω)の位相と同期す
    るように、スピーチ波形を形成する第m高調波(m
    ω)の位相成分((n−n0)mω)が基本波
    (ω)で固定されていることを特徴とするスピーチコ
    ード化装置。 ここで、A(ω)は振幅エンベロープ、n0はピッチオン
    セット時間、ωはピッチ周波数、Φ(ω)は系の位
    相、ε(mω)は第m高調波における残留位相であ
    り、そして ω=2πf/fSはサンプリング周波数fSに関する角周波数
    (ラジアン)である。
JP07665188A 1987-04-02 1988-03-31 音響波形のコード化方式 Expired - Lifetime JP3191926B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3409787A 1987-04-02 1987-04-02
US034097 1987-04-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2000393559A Division JP2001228898A (ja) 1987-04-02 2000-12-25 音響波形のコード化方式

Publications (2)

Publication Number Publication Date
JPH01221800A JPH01221800A (ja) 1989-09-05
JP3191926B2 true JP3191926B2 (ja) 2001-07-23

Family

ID=21874290

Family Applications (2)

Application Number Title Priority Date Filing Date
JP07665188A Expired - Lifetime JP3191926B2 (ja) 1987-04-02 1988-03-31 音響波形のコード化方式
JP2000393559A Pending JP2001228898A (ja) 1987-04-02 2000-12-25 音響波形のコード化方式

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2000393559A Pending JP2001228898A (ja) 1987-04-02 2000-12-25 音響波形のコード化方式

Country Status (6)

Country Link
EP (1) EP0285276B1 (ja)
JP (2) JP3191926B2 (ja)
AT (1) ATE95936T1 (ja)
AU (2) AU612351B2 (ja)
CA (1) CA1332982C (ja)
DE (1) DE3884839T2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
JPH04150233A (ja) * 1990-10-09 1992-05-22 Matsushita Electric Ind Co Ltd 信号伝送方法
JP2606756B2 (ja) * 1990-10-22 1997-05-07 財団法人鉄道総合技術研究所 ディジタル信号伝送装置
DE4126882A1 (de) * 1991-08-14 1993-02-18 Philips Patentverwaltung Anordnung zur sprachuebertragung
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
BE1007428A3 (nl) * 1993-08-02 1995-06-13 Philips Electronics Nv Transmissiesysteem met reconstructie van ontbrekende signaalmonsters.
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
US6112169A (en) * 1996-11-07 2000-08-29 Creative Technology, Ltd. System for fourier transform-based modification of audio
US6449592B1 (en) 1999-02-26 2002-09-10 Qualcomm Incorporated Method and apparatus for tracking the phase of a quasi-periodic signal
CN1262991C (zh) * 2000-02-29 2006-07-05 高通股份有限公司 跟踪准周期性信号的相位的方法和设备
KR100861884B1 (ko) * 2000-06-20 2008-10-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 정현파 코딩 방법 및 장치
AU2003274617A1 (en) * 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
JP2007504503A (ja) * 2003-09-05 2007-03-01 コニンクリユケ フィリップス エレクトロニクス エヌ.ブイ. 低ビットレートオーディオ符号化
KR101441474B1 (ko) 2009-02-16 2014-09-17 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
US8494199B2 (en) 2010-04-08 2013-07-23 Gn Resound A/S Stability improvements in hearing aids

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU597573B2 (en) * 1985-03-18 1990-06-07 Massachusetts Institute Of Technology Acoustic waveform processing
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus

Also Published As

Publication number Publication date
DE3884839D1 (de) 1993-11-18
CA1332982C (en) 1994-11-08
EP0285276A2 (en) 1988-10-05
EP0285276B1 (en) 1993-10-13
AU7436491A (en) 1991-07-11
EP0285276A3 (en) 1989-11-23
DE3884839T2 (de) 1994-05-05
ATE95936T1 (de) 1993-10-15
AU612351B2 (en) 1991-07-11
AU643769B2 (en) 1993-11-25
JP2001228898A (ja) 2001-08-24
JPH01221800A (ja) 1989-09-05
AU1314588A (en) 1988-10-06

Similar Documents

Publication Publication Date Title
US4937873A (en) Computationally efficient sine wave synthesis for acoustic waveform processing
US4885790A (en) Processing of acoustic waveforms
US5054072A (en) Coding of acoustic waveforms
EP1914729B1 (en) Apparatus and method for adjusting the spectral envelope of an high frequency reconstructed signal
US6377916B1 (en) Multiband harmonic transform coder
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP3191926B2 (ja) 音響波形のコード化方式
CA1285071C (en) Voice coding process and device for implementing said process
AU597573B2 (en) Acoustic waveform processing
McAulay et al. Multirate sinusoidal transform coding at rates from 2.4 kbps to 8 kbps
EP1676262A2 (en) Method and system for speech coding
JPH11219198A (ja) 位相検出装置及び方法、並びに音声符号化装置及び方法
Sercov et al. An improved speech model with allowance for time-varying pitch harmonic amplitudes and frequencies in low bit-rate MBE coders.
EP4018440B1 (en) Multi-lag format for audio coding
JP3297750B2 (ja) 符号化方法
Macon et al. Applications of sinusoidal modeling to speech and audio signal processing
JPH07104793A (ja) 音声信号の符号化装置及び復号化装置
JPH0744194A (ja) 高能率符号化方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term