JPH01221800A - 音響波形のコード化方式 - Google Patents

音響波形のコード化方式

Info

Publication number
JPH01221800A
JPH01221800A JP63076651A JP7665188A JPH01221800A JP H01221800 A JPH01221800 A JP H01221800A JP 63076651 A JP63076651 A JP 63076651A JP 7665188 A JP7665188 A JP 7665188A JP H01221800 A JPH01221800 A JP H01221800A
Authority
JP
Japan
Prior art keywords
phase
frequency
speech
encoding
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63076651A
Other languages
English (en)
Other versions
JP3191926B2 (ja
Inventor
Robert J Mcaulay
ロバート・ジェイ・マコーレイ
Jr Thomas F Quatieri
トマス・エフ・カティエリ・ジュニア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Massachusetts Institute of Technology
Original Assignee
Massachusetts Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Massachusetts Institute of Technology filed Critical Massachusetts Institute of Technology
Publication of JPH01221800A publication Critical patent/JPH01221800A/ja
Application granted granted Critical
Publication of JP3191926B2 publication Critical patent/JP3191926B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、スピーチ処理技術に関し、特定すると、スピ
ーチまたはその他の音響波を分析し、ディジタル的にコ
ード化し、変更しそして合成するための方法および装置
に関する。
[従来技術における問題点] ディジタルスピーチコード化方法および装置、特に従来
の伝送線と適合する速度(すなわち2.4〜9.6キロ
ビツト/秒)のものは、かなり緊急の問題である。この
ような速度においては、いわゆる「2進励起モデル」の
ようなスピーチモデル化のための代表的手法は、コード
化の応用に適当でなく、線形予測コード化やその他の従
来のコード化技術をもってしてさえ品質の劣るスピーチ
伝送を生ずる。
2進励起モデルにおいては、スピーチは、声道の共鳴特
性を模擬する時間可変線形フィルタ中に声門励起波形を
通す結果であると観察される。声v1励起は、ボイス化
または非ボイス化に対応する2つの可能な状態の1つに
あると仮定される。ボイス化スピーチ状態においては、
時間に関して緩やかに変化する周期をもって周期的であ
る。非ボイス化状態においては、声門励起は、平坦なス
ペクトルをもつランダムな雑音として擬似される。
米国特許出願第712.866号は、2進励起モデルに
代わる方法を開示しているが、この方法にあっては、ス
ピーチ分析および合成ならびにコード化が、スピーチ状
態に無関係なスピーチ波形の時間−周波数表示を採用す
ることにより簡単かつ有効に遂行される。詳述すると、
スピーチ波形に対する正弦モデルが新しい分析−合成技
術を展開するのに使用される。
米国特許出願第712,866号は、(a)波形からサ
ンプルのフレーム(すなわち約20〜40ミリ秒の窓)
を選択すること、(b)サンプルの各フレームを分析し
て1組の周波数成分を抽出すること、(C)1フレーム
から次のフレームまで該成分を追跡すること、 (d)
 1フレームから次のフレームまで上記成分の値を補間
して、波形のパラメータ表示を得ることの諸段階を含む
。ついで、パラメータ表示に対応する一連の正弦波を発
生することにより、合成波を構成し得る。この特許出願
の開示を参照されたい。
米国特許出願第712,866号に詳細に説明される1
つの実施例において、上述の方法は、スピーチ状態と無
関係に、測定された信号のべりオドグラム内で最大のピ
ークに対応する振幅、周波数および位相を選ぶように採
用される。スピーチ波形を再構成するため、lフレーム
上で評価された正弦波の振幅、周波数および位相は、整
合され、逐次のフレーム上の対応するパラメータセット
に連続的に展開せしめられる。評価されたピークの数は
、一定でなく緩やかに変化するから、整合過程は簡単で
なく直線的でない。非水イス化/ボイス化転換のような
スピーチの迅速変化領域は、ピークの位置および数に大
きな変化をもたらすことがあり得る。スペクトルエネル
ギのこのような迅速な動きを説明するため、各フレーム
上で評価された周波数に基づく最隣接整合方法において
は、正弦成分のr生jおよびr死」の概念が採用される
。新しいピークが現われると、「生」が生じたといわれ
、新しい追跡が開始される。古いピークが整合しない場
合、r死jが生じたといわれ、対応するトラックはゼロ
に崩壊せしめられる。−度逐次のフレーム上のパラメー
タが整合されてしまうと、各正弦成分の位相の連続性が
位相を解くことにより保証される。1つの好ましい実施
例において、位相は、フレームの継続時間に亙り最大の
円滑性を維持しながらフレームの境界にて測定される位
相および周波数抑制を満足するように選択されたパラメ
ータ値を有する三次元位相補間関数を使用して解かれる
。最後に、対応する正弦振幅が、各フレームを横切って
直線的態様で簡単に補間される。
スピーチコード化の応用において、米国特許節712.
866号は、周波数成分が割当てられる1組の調波周波
数ビンを設定するためにピッチ評価値が使用できること
を教示している。(ここで、ピッチなる用語は、話者の
声帯が振動している基本的速度を意味するのに使用され
る。) 成分の振幅は、適応性差分パルスコード変調(
ADPCM)を使って直接的にあるいは線形予測コード
化を使って間接的にコード化される。各調波周波数ビン
において、最大の振幅を有するピークが選択され、ビン
の中心にて周波数に割り当てられる。これは、コード化
ピッチ周期に基づく一連の調波をもたらす。ついで、位
相が、周波数を利用してフレームの端部における位相を
予測し、測定された位相をこの予測に関して解き(アン
ラッピングし)、ついで4〜5ビット/位相ピークを使
用して位相残分なコード化することによりコード化され
る。
低データ速度(すなわち4.8キロビツト/またはそれ
以下)の場合、特に低ピツチ話者に対しては、上述の技
術を使用して振幅情報をコード化するのにビットが不十
分な場合がしばしばある。同様に、低データ速度におい
ては、全位相情報をコード化するのに利用可能なビット
が不十分なことがあり得る。そこで、音響波をコード化
するための、とりわけ低データ速度のスピーチをコード
化するためのより良好な方法および装置の必要性が存在
する。
[問題点を解決するための手段] 本発明に従えば、正弦スピーチ表示モデルに基づく新規
なコード化技術が開示される。本発明の1側面において
は、振幅コード化のためのピッチ適応性チャンネルコー
ド化技術が開示されるが、この技術にあっては、チャン
ネルの間隔が、話者のボイスのピッチにしたがって変化
される。本発明の他の側面においては、迅速に変化する
位相を基本はの位相と同期するように固定する位相合成
技術が開示される。
正弦モデルのパラメータは、基礎となる正弦波の振幅、
周波数および位相であり、代表的な低ピツチ話者の場合
4KHzのスピーチ帯域幅に80程の正弦波があり得る
から、すべてのパラメータを直接的にコード化し、9.
6 kbps以下の伝送速度を達成することは不可能で
ある。
コード化されるべきパラメータセットのサイズを減する
に際しての第1ステツプは、測定された正弦波に対して
知覚的な最良の適合を示す1組の調波の正弦波をもたら
すピッチ抽出アルゴリズムを採用することである。この
戦略の場合、個々の正弦波周波数のコード化は回避され
る。ついで、ピッチ調波にて振幅および位相をサンプル
することにより、新しい1組の正弦波振幅および位相が
得られる。隣接する正弦波の振幅間に存在する相関を利
用することにより、振幅のコード化に際して効率が増大
されろ。正弦波の位相に対する予測的モデルも開発され
るが、このモデルは、ダイナミックレンジが測定される
位相の[−π、π]領域の1部である1組の残留位相を
もたらすだけでなく、1組のコード化された基本帯域位
相から高周波正弦波の位相を生成できるモデルをもたら
す。コード化される振幅および基本帯域位相の数に対し
て許容されるビット数によれば、非常に自然で了解し易
いコード化スピーチが、8.Okpbsで得られる。
本発明においてはまた、正弦変換コード化装置(5TC
)を最低1.8kpbsまでの速度で動作せしめる振幅
および位相をコード化する技術が開示される。得られた
等級のコード化装置の顕著な特徴は、合成スピーチの了
解度および自然さ、話者が容易に認識し得るような話者
識別品質の保持ならびに高周囲雑音の背景下における頑
健さである。
隣接するチャンネル間の振幅の相関を利用するために差
分パルスコード変調(DPCM)を利用することに加え
て、チャンネルの分離を周波数に関して対数的に増しく
少なくとも低ピツチ話者に対して)、 それににより耳
の臨界帯域特性を利用することにより、効率がさらに増
される。1つの好ましい実施例においては、基本帯域に
おける1組の直線的に離間された周波数およびより高次
の周波数領域における他の1組の対数的に離間された周
波数が、送信機において振幅をコード化するのに使用さ
れる。受信機においては、チャンネル振幅間において直
線的に補間な行なうことにより、他の振幅エンベロープ
が構成される。ついで、これがピッチ調波でサンプルさ
れ、合成のために使用されるべき1組の正弦波振幅を生
ずる。
定常的にボイス化されたスピーチの場合、系の位相は、
型間形技術を使ってコード化対数振幅から予測でき、そ
してこれは、励起位相の予測と組み合わされるとき、単
に位相残分をコード化することにより合成中完全な忠実
度を復旧できる。
非ボイス化転換および混合励起中、位相予測は不十分で
あるが、その標準偏差が被分析スピーチが非ボイスカさ
れる程度に比例する均一に分配されたランダム変数によ
り各残留位相を置き代えることにより、同種の姿態を擬
似できる。
さらに、ごく低データ速度の伝送線(すなわち4.8 
kbps以下)の場合、位相情報をコード化する必要性
を本質的に排除するコード化方式が案出された。r大き
さだけによるJ分析/合成システムにおいて起こるよう
な品質および自然さにおける損失を避けるため、ここで
は位相コヒレントを維持し人工的位相分散を導入するシ
ステムが開示される。すべての正弦波の位相を基本波の
位相に固定し、ピッチ依存性の二次位相分散およびボイ
シング依存性のランダム位相を各位相トラックに加える
合成位相モデルが用いられる。
スピーチは、ここでは位相に対して2つの成分を有する
ものとして分析される。すなわち、各サンブルンブルに
関して変わる迅速変化成分と、各フレームに関して変わ
る緩速変化成分とである。迅速変化位相は、基本波の位
相に同期するように固定され、そしてピッチオンセット
(立ち上がる)時間ですべての励起正弦波が同相になる
時間を簡単に設定する。正弦波は位相が固定されるから
、このオンセット時間は、耳で知覚できない、すなわち
無視できる遅延を表わす。それゆえ、基本波の位相は、
瞬間的ピッチ周波数を積分することにより生成でき、迅
速変化位相は、基本波の位相の倍数となるであろう。
[実施例] 以下、本発明を、例示の実施例との関係において説明す
る。しかしながら、当業者であれば本発明の技術思想か
ら逸脱することなく種々の変化変更をなしえることは明
らかであろう。例えば、以下の記述は特にスピーチコー
ド化に適用されるが、種々の音響波形を同様な様式で処
理できることは明らかである。
本発明においては、スピーチ波形は、正弦波の総和とし
て模擬される。従って、スピーチをコード化する際の第
1のステップは、入力スピーチ波形s (n)を正弦モ
デルにより表わすことである。すなわち、 ここにAk、ω諷およびθ、は、高分解能短時間フーリ
エ変換の大きさのピークに対応する振幅、周波数および
位相である。測定される周波数は、−船釣に調波でない
ことに留意されたい。スピーチ波形は、声門励起波形を
声道フィルタ中に通す結果として模擬できる。もしH(
ω)がこのフィルタの伝達特性を表わすと、声門励起波
形e (n)は下記のように表わすことができる。
e(n)=Σakexp  [j (nωb+φk)k
=1 ここでai= =Ai= / I H(0m )  l
    C3a)φk =θm−argH(ωi+  
)     (3b)式(3b)における励起位相を計
算するためには、声道フィルタの振幅および位相を計算
することが必要である。これは、重量形技術を使用する
か、測定された正弦波振幅に全極モデルを適合させるこ
とによりなすことができる。これらの技術は、米国特許
出願節712,866号に論述されている。これらの両
方法は、本質的に不明確な声道位相の評価値を生ずる。
何故ならば、波形−5(n)に対して、s (n)に対
して得られるのと同じ伝達特性が得られるからである。
この本質的アンビギュイティーは、励起モデルにおいて
下記の式により説明される。
6つ=θm −argH((d v、 )−βπ   
(4)ここで、βは0または1のいずれかであり、これ
は分析手続きにおいて明らかにされねばならぬ決定であ
る。
第1図は、本発明の基本的分析/合成システムを示すブ
ロック図である。窓処理波形の離散的フーリエ変換(D
FT)の大きさのピークは、スロープ(凹面)における
変化の位置を決定することにより簡単に見出される。位
相測定値は、評価された周波数ピークにおいて逆正接を
計算することにより離散的フーリエ変換から導出される
簡単な実施例において、スピーチ波形は、10KHzの
サンプリング速度でディジタル化され、5KHzでロー
パス濾波され、そして可変継続時間の分析窓を使用して
10〜20 m5ecのフレーム間隔で分析できる。こ
の際、分析窓の幅は、ピッチ適合性とされ、例えば、2
0 m5ecの最小幅をもつ平均ピッチ周期の2.5倍
に設定される。
[ピッチ適合性振幅コード化] 従来の形式の正弦変換コード化装置(STC)は、PC
Mを使用して差分対数振幅をコード化することにより隣
接する正弦波間に存する相関を利用する。振幅コード化
に対して固定数のビットが割り当てられたから、単位振
幅当りのビット数は、ピッチが変わるにつれ変化せしめ
られる。低ピツチの話者の場合、4000Hzのスピー
チ帯域幅に80程の正弦波があり得るから、8.0にP
BSにて、ピッチ、エネルギおよび約12の基本帯域位
相をコード化するのに4000ビット/秒を残しながら
、各差分振幅に対して少なくとも1ビツトを割当てるこ
とができる。 4.8 kbpsでは、1ビット/振幅
を割当てると、コード化予定は直ちに使しλへ果たされ
、位相はコード化できない。それゆえ、低速度で動作の
ためには、より効率的な振幅コード化装置が必要とされ
る。
約7の基本帯域位相がコード化されるならば、良好な品
質の自然のスピーチを得ることができることが分かった
。また、予測的位相モデルを使用すると、非直線的量子
化ルールが使用されるならば、4ビット/位相で十分で
あることが分かった。しかして、該非直線的量子化ルー
ルにおいては、量子ステップサイズが、その残留位相が
±π境界に近づくにしたがって増大される。ピッチ、エ
ネルギおよび位相モデルのパラメータのコード化を許容
した後、振幅をコード化するために50ビツトが残った
(50Hzフレ一ム速度が使用された場合)。
低速度にて振幅情報をコード化する1つの方法は、知覚
に基づいた手法を利用することである。
DPCM技術を使用して隣接するチャンネル間の振幅相
関を利用することに加えて、チャンネル分離を周波数に
関して対数的に増加せしめ、それにより耳に対する臨界
的帯域特性を利用することにより、効率がさらに増大さ
れる。これは、正弦波ピーク間において直線的に補間を
行なうことにより正弦波振幅のエンベロープを構成する
ことによりなすことができる。このエンベロープは、つ
いで予め限定された周波数にてサンプルされる。基本帯
域において93Hz/チヤンネルにて直線的に離間され
た9つの周波数およびより高次の周波数において対数的
に離間された11の周波数を可能にする22チヤンネル
の設計が開発された。DPCMコード化は、チャンネル
2〜9に対して3ビツト/チヤンネル、そしてチャンネ
ル10〜22チヤンネルに対して2ビツト/チヤンネル
を使ってコード化された。チャンネル1のレベルは所望
の工ネルギを得るように選択されるから、チャンネルl
をはっきりとコード化することは必要でない。
受信機においては、チャンネル振幅間において直線的に
補間を行なうことにより他の振幅エンベロープが構成さ
れる。ついで、これがピッチ調波にてサンプルされ、合
成に使用されるべき1組の正弦波振幅を生成する。
この手法は、ピッチが93Hz以下である話者に対して
は合理的な設計技術であるが、高ピツチの話者に対して
は明らかに不十分である。例えば、もしもピッチが17
4Hz以上であると、正弦波は多くとも22であり、こ
れらは直接コード化できたであろう、このアイディアに
基づき、ピッチが93以上であった場合には増大された
チャンネル間隔を許容するように設計が変更された。
もしもFoがピッチであり、全部でNのチャンネルの中
からMの直線的に離間されたチャンネルがあるとすると
、直線的基本帯域は周波数Fv”MF、で終る。(N−
M)の残りのチャンネルの間隔は、以下のように対数的
に増す。すなわち、F、=  (1+α)Fn−1 n=M+1.M+2.−−−、N   (5)拡張ファ
クタaは、Fnが4000H2の縁部に近くなるように
選ばれる。もしもピッチが93H2またはそれ以下であ
ると、固定の93Hzの直線/対数設計が選択され、ま
た93Hz以上であると、ピッチ適合性の直線/対数設
計が使用されよう。さらに、もしもピッチが174Hz
以上であると、厳格に直線的設計が使用されよう。加え
て、チャンネル当りのビットの割当ては、利用可能なビ
ットのすべてを効率的に利用するようにピッチ適合性と
し得る。
ついで、DPCMコード化装置が、ピッチ適合性チャン
ネル周波数にてエンベロープサンプルの対数に適用され
る。ii子化ノイズはケフレンシー領域において平坦な
スペクトルを有しく対数値のフーリエ変換)、スピーチ
エンベロープスペクトルは、この領域において1/n2
のように変化するから、ワイナーフィルタを設計するこ
とにより量子化雑音の最適の低減が可能である。これは
適切に設計されたケプストラムローパスフィルタで近似
できる。
この振幅コード化アルゴリズムは、実時間設備で実施さ
れ、診断ライム試験を使用して評価される。3人の男性
話者の場合、平均スコアは、静寂なところで95.2、
空輸指令所雑音下において92.5、そしてオフィス雑
音下において92.2であった。女性の場合、スコアは
、各ケースにおいて約2DRTポイント低かった。
ピッチ適合性22チヤンネル振幅コード化装置は、4.
8 KBPSにて動作するように設計されるが、振幅お
よび位相に対するビット割当てを変えることにより1.
8kbps〜8.Okbpsの任意の速度で動作し得る
。 4.8 kbps以下の速度における動作は、位相
コード化を除去することにより最も容易に得られた。こ
れは、コード化装置をr大きさだけの」分析/合成装置
に有効に落し、位相追跡が、各正弦波と関連する瞬間的
周波数を積分することにより簡単に得られるようにする
。このようにして、3、1kbpsにおける動作が、振
幅コード化装置に対して何ら変更なしに達成された。各
チャンネルに対するビット割当てをさらに減することに
より、最低1.8kbpsまでの速度における動作が可
能となった。低速度の装置はすべて相当に了解度がよい
と思われるが、1.8kbpsの装置においては由々し
いアーチファクトが聞かれよう、これは、この場合、1
ビツト/チヤンネルしか使用されていないからである。
2.4kbpsでは、これらのアーチファクトは本質的
に除去され、そして3.1kbpsでは、合成スピーチ
は非常に滑らかであり、完全にアーチファクトがなかっ
た。しかしながら、これらの低速度における合成スピー
チの品質は、多数の聴取者によりr反響的1、rきしん
でいる」、あるいはr機械的」と判断された。
実際に、非コード化の大きさのみの装置においては、品
質および自然さに同じような損失が起こると思われる。
この品質の損失における主要なファクタは、正弦波に位
相コヒレント性を欠いていると仮定された。それ故、S
TC装置を使用して4、8kbps以下の速度で高品質
スピーチが所望されるならば、隣接する正弦波間におい
て位相コヒレントを維持するための用意がなされよう、
この位相コヒレントを達成するための手法について以下
に論述する。
[位相モデル化] 位相モデル化の目標は、式(4)における位相測定値を
表わすパラメータモデルを生成することである。新しい
位相モデルの背後にある直感的認識は、定常的ボイシン
中励起波形が一連のピッチパルスよりなるであるつとい
う事実に由来する。
正弦波モデルの関係においては、ピッチパルスは、すべ
ての正弦波がコヒレントに加わるときに(すなわち同相
であるとき)に起こる。これは、声門励起波形が下式の
ごとく模擬できることを意味する。すなわち、 に ここでn。は、分析フレームの中心に関して測定された
ピッチパルスのオンセット時間である。これは、励起位
相が周波数に直線的に依存することを示す0位相モデル
は、2つのパラメータnoおよびβに依存する。しかし
て、パラメータn0およびβは、 e (n)をe (
n)に近くするように選ばれるべきである。励起正弦波
の振幅は多少平坦であるから、使用すべき良好な規準は
最小平均二乗誤差である。それゆえ、本発明者は、下記
の誤差を最、小にする位相アンビギュイティーおよびオ
ンセット時間の値をを探索する。すなわち、ここで(N
+1)は、分析フレームにおける点の数である0式(7
)において式(2)および(6)を使用しかつ分析フレ
ームが最初にすべての成分正弦波を解くのに十分に長く
選ばれたという事実を使用すると、モデルパラメータの
最小二乗評価値が下記の関数の最大値を見出すことによ
り得ることができることを示すことは容易である。
ρ (no  、  β)= に +no  ωk     (8) この式は、ピッチオンセット尤度関数を次のように定め
、すなわち l2(no)= に +noωk]   (9) ついで、β=0に対してρ(no、0)=12(no)
、β=1に対してp(no、1)=−β(no)である
ことに注目することにより若干簡単化できる。これは、
オンセット時間が1I2(no)Iの最大値を見つける
ことにより評価されることを意味する。noが最大化値
を表わせば、位相アンビギュイティーは、fl(no)
が正であればβ=0を選択し、l2(no)が負であれ
ばβ=1を選択することにより解かれる。不幸にして、
関数12(no)はnoにおいて高度に比直線的であり
、最適値に対する簡単な分析的解を見出すことは困難で
ある。
結果として、最適化値は、最大の予測ピッチ周期(本件
においては20m5)に対応するオンセット時間範囲に
わたりl2(no)を評価することにより見出された。
第2図は、男性スピーチのフレームに対して評価された
ピッチオンセット尤度関数のプロットを例示している。
正向きピークは、測定された系の位相にアンビギュイテ
ィーがないことを指示している。第3図は、女性スピー
チのフレームに対応するものであるが、これは、系の位
相における固有のアンビギュイティーが、尤度関数の負
向きピークに現われる態様を示している。ボイス化スピ
ーチに対して得られたものの典型であるこれらの結果は
、正弦表示に使用される位相測定値からピッチパルスの
オンセット時間を評価できることを示している。
正弦波パラメータをコード化するのに使用される第1の
ステップは、各調波周波数ビンに1つの正弦波を割当て
ることである。究極的に受信機において再構成されるの
はこの1組の正弦波であるから、新しい位相モデルが適
用されるのはこの低減された1組の正弦波である。 S
TCシステムの最も最近の形式においては、低減された
1組の正弦波の振幅に直線的補間を適用することにより
振幅エンベロープが創成される。これは振幅を平坦化す
るのに使用され、そして、声門励起波形の正弦波表示を
創成するため系の位相を評価し除去するのに重量形方法
が使用される。ついでオンセット時間および系の位相ア
ンビギュイティーが評価され、1組の残留位相を形成す
るのに使用される。
モデルが完全であれば、これらの位相残分はOとなろう
。勿論モデルは完全でない。したがって、良好な合成ス
ピーチを得るためには、残分をコード化することが必要
である。このような1組の残分の1例は、第2図に例示
される同じデータに対して第4図に示されている。基本
帯域(最高1000Hzまで)の正弦波のみがコード化
されるから、モデルは、実際には基本領域における正弦
波位相データのみに適合される。主要な点は、現位相測
定値は、[−π、π]領域にわたり一様に分布された値
を有するが、位相残分のダイナミックレンジはπよりも
ずっと小さく、したがってコード化の高効、率が得られ
るということである。
正弦波パラメータをコード化するに際しての最終的ステ
ップは、周波数を量子化することである。これは、測定
される周波数を正弦波が存在する調波の中心周波数によ
り置き代えることにより得られる残留周波数を量子化す
ることによりなされる。正弦波の測定された励起位相お
よびその周波数間の緊密な関係のため、量子化された周
波数が測定された値から相当に異なる場合位相を補償す
るのが望ましい、最終の解読励起位相はモデルプラスコ
ード化位相残分により予測される位相であるから、プロ
セスには若干の位相補償が本質的に備わっている。何故
ならば、位相モデルはコード化周波数で評価され、合成
波形にピッチ構造をよりよく保存するからである。
上述の分析は、ボイス化スピーチの場合に基づく。スピ
ーチが非ボイス化されるべき場合は、線形モデルは全体
的にエラーとなり、残留位相は提案された直線モデルに
関して大幅に偏向することが予測されよう、これらの偏
向はランダムとなり、したがって位相コード化装置によ
り捕捉される特質で非ボイス化スピーチの本質的な雑音
状品質が保存されよう。
定常的ボイシング中、声門励起は、各ピッチパルスの発
生時にコヒレントに加わる1組の調波に分解され得る一
連の周期的インパルスであると考えることができる。こ
の考えに基づき、スピーチ波形に対するモデルは下記の
ように書くことができる。すなわち、 5(n)= ΣΔ(mωo ) exp  [j (n−no ) 
nωOM=1 +Φ(mω0)+ε(mω。)]  (10)ここで、
A(ω)は振幅エンベロープ、noはとッチオンセット
時間、ω0はピッチ周波数、Φ(ω)は系の位相、ε(
mω0)は第m高調波における残留位相であり、そして ω=2πf/f、はサンプリング周波数f8に関する角
周波数(ラジアン)である。最小位相の仮定下において
は、系の位相は早開形技術を使ってコード化対数振幅か
ら決定できるから、調波再構成の忠実度は、位相残分の
コード化に割り当てることができるビット数にのみ依存
する。
4、8kbps装置の開発中に遂行される実験に基づき
、定常的ボイス化中子測的位相モデルは全く精確で本質
的に0である位相残分をもたらし、他方非水イス化スピ
ーチ中位相予測は十分でなく、[−π、π]内において
ランダムな値であると思われる位相残分なもたらすこと
が観察された。転換および混合励起中、位相残分の姿態
がこれらの2極限間のどこかに存在した。同じ種類の姿
態は、各残留位相を一様に分配されたランダム変数で置
き代えることにより擬似できる。しかして、該変数は、
その標準偏差は非分析スピーチが非ボイス化される程度
に比例するものとする。Pvがスピーチがボイス化され
る確率を表わし、θ′、が[−π、π]上において一様
に分配されたランダム変数であるとすると、 t (mω。)=θ−(1−Pv)     (11)
は位相残分に対する評価値を与える。ボイシング確率の
評価値は、調波モデルが測定された1組の正弦波に適合
される程度に関係づけられるピッチ抽出装置から得られ
る。
このモデルは実時間で実施され、即座の感覚は、合成ス
ピーチにおいてrブンブンという感じ」であった、これ
に対する説明は、残留位相モデルの当然の帰結として強
くボイス化されたスピーチ中Pv=1.  ε(mω)
=0となり、したがって式(11)から s (n) = +Φ(mω。)]  (12) となることから導かれる。
系の位相Φ(ω)はコード化対数値から導出されるから
、これは最小位相であり、そしてこれは、合成波形を「
先鋭」にししたがってブンブンいう感じを認識させる。
ある種の位相分散を導入することによりこの影響を減す
るため、数種の手法が提案された。例えば、平坦な振幅
および二次位相を有する分散フィルタを使用できる。こ
れは、式(10)における系の位相を Φ(ω)=βω2           (13)によ
り置き代えることにより簡単に実施できるから正弦合成
装置に特に適合した手法である。STC装置の自在性は
、ピッチ適合性、話者依存性の設計を可能にする。これ
は、下式により与えられるこの位相特性と関連する群遅
延を考慮することによりなすことができる。すなわち、 合理的な設計規準は、甲高音の継続時間が平均ピッチ周
期の何分の1かであることを要件とする。
ω=2πf / f aであるから、甲高音の継続時間
は概ねT(π)で与えられる。それゆえ、もしもPoが
平均ピッチ周期を表わすと、 T(π)=α乙により下記の設計規準がもたらされる。
すなわち、 ここでω=iπ/■は平均ピッチ周波数、そしてOくα
く1は甲高音の長さを制御する0合成モデルは次のごと
くなる。
s、(n)= 式(16)における分散モデルは、ボイス化スピーチの
場合に対して導出されたが、全ボイリング状態中に使用
される。なぜならば、非ボイス化スピーチ中、位相残分
はランダム変数となるからである。
低速度の応用の場合、さらに拘束された位相モデルを使
用することが必要である0位相に対して2つの成分があ
る。すなわち、各サンプルに関して変わる迅速変化成分
と、各フレームに関して変わる緩速変化成分である。迅
速変化成分は下記のように書ける。すなわち、 φ−(N)=  (n−no  )mωo  =nφ0
(n)ここで φ。(n)=  (n−no )  ω。      
 (18)これは、迅速変化位相が基本波の位相と同期
するように固定され、全励起正弦波が同相になる時間が
単にピッチオンセット時間で確定されることを示してい
る。正弦波は位相が固定されているから、このオンセッ
ト時間は単に耳で知覚できない、したがって無視できる
遅延を表わしている。
それゆえ、基本波の位相は、瞬間的ピッチ周波数を積分
することにより生成されるが、いまや式(10)の結果
として隣接する正弦波間の位相関係が保存される。それ
ゆえ、迅速変化位相は、基本波の位相の倍数であり、こ
れは次のようになる。
φ0(n)= −kN φ。(kN)P+lω。(t)dt kN≦n≦(k+1)N        (19)そし
て O≦t≦N              (20)ここ
でω。′、ω。klilはそれぞれフレームに、に+1
上において測定されたピッチ周波数である。
得られた位相固定合成装置は、実時間方式で実施され、
合成スピーチの品質を劇的に改善することが分かった。
改善は、位相コード化が可能でない3 kbps以下の
低速度においてもっとも顕著であるが、位相固定技術は
、基本帯域位相のすべてがコード化されない場合に高周
波再生においても使用できる。実際に、従来の設計にお
いて使用されたより少ない位相をコード化して、4.8
kbpsにて非常に良好な品質が得られた。さらに、式
(16〜20)は測定されたピッチ周波数ω。およびボ
イシング確率Pvのみに依存するから、4.8kbps
以下におけるデータ速度の低減は、はっきりした位相情
報がコード化されなくても、品質のより少しの損失で起
こり得ない。
4、   の。 な1口 第1図は本発明の概略ブロック図、第2図は男性スピー
チフレームに対する本発明に従うピッチオンセット尤度
関数のプロット、第3図は女性スピーチフレームに対す
る本発明に従うピッチオンセット尤度関数のプロット、
第4図は第2図のサンプルされたスピーチデータに対す
るコード化に適当な位相残分の例示である。
1・ マ 代理人の氏名  倉 内 基 語f、x、’ l、J、
:。
生糸ダと宇甫正で) 昭和63年6月30日

Claims (1)

  1. 【特許請求の範囲】 (1)スピーチをサンプルして、一連の離散的サンプル
    を得、該サンプルから、各々複数のサンプルを跨ぐ一連
    のフレームを再構成し、各サンプルフレームを分析して
    、個々の振幅および位相を有する1組の周波数成分を抽
    出し、1フレームから次のフレームまで該成分を追跡し
    、前記1フレームから次のフレームまで前記成分の値を
    補間して波形のパラメータ表示を得、合成スピーチ波形
    がパラメータ表示の補間値に対応する1組の正弦波を生
    成することにより構成され得るようになし、そして周波
    数成分の位相に対する励起の貢献が共時性となるよう固
    定されるように、ディジタル伝送のため周波数成分をコ
    ード化することを特徴とするディジタル伝送のためのス
    ピーチコード化方法。 (2)前記の周波数成分をコード化する段階がさらに、
    周波数成分が位相共時性となる時間を確定するためピッ
    チオンセット時間を決定することを含む特許請求の範囲
    第1項記載のコード化方法。 (3)前記の各サンプルフレームを分析して周波数を抽
    出する段階さらにが、準同形変換およびピッチオンセッ
    ト時間分析により周波数成分の位相を予測することを含
    み、前記の周波数成分をコード化する段階が、伝送のた
    め位相残分のみをコード化することを含む特許請求の範
    囲第1項記載のコード化方法。 (4)前記の周波数をコード化する段階がさらに、周波
    数分散に対してピッチ依存性二次位相分散を適用して、
    周波数成分に対する位相値をコード化する必要性を排除
    することを含む特許請求の範囲第1項記載のコード化方
    法。 (5)前記の周波数成分をコード化する段階がさらに、
    前記周波数成分に対してボイシング依存性のランダムな
    位相を生成し、周波数成分に対する位相値をコード化す
    る必要性を排除することを含む特許請求の範囲第1項記
    載のコード化方法。 (6)前記の各サンプルフレームを分析して周波数成分
    を抽出する段階がさらに、瞬間的ピッチ周波数を積分す
    ることにより基本周波数の位相を決定し、周波数成分の
    位相を基本周波数の位相の倍数として定める特許請求の
    範囲第1項記載のコード化方法。 (7)スピーチをサンプルして、一連の離散的サンプル
    を得、該サンプルから、各々複数のサンプルを跨ぐ一連
    のフレームを再構成し、各サンプルフレームを分析して
    、個々の振幅および位相を有する1組の周波数成分を抽
    出し、1フレームから次のフレームまで該成分を追跡し
    、前記1フレームから次のフレームまで前記成分の値を
    補間して波形のパラメータ表示を得、合成スピーチ波形
    がパラメータ表示の補間値に対応する1組の正弦波を生
    成することにより構成され得るようになし、そして周波
    数成分が複数の調波周波数により定められる1組の振幅
    チャンネルに制限されるように、ディジタル伝送のため
    周波数成分をコード化することを特徴とするディジタル
    伝送のためのスピーチコード化方法。 (8)前記の周波数成分をコード化する段階がさらに、
    スピーチのピッチ測定値に基づき振幅チャンネルの数を
    変化させることを含む特許請求の範囲第7項記載のコー
    ド化方法。(9)前記の周波数成分をコード化する段階
    がさらに、基本帯域において直線的に離間された第1の
    1組の周波数チャンネルを定め、より高次の周波数領域
    において第2の1組の対数的に離間された周波数チャン
    ネルを定めることを含む特許請求の範囲第7項記載のコ
    ード化方法。 (10)前記の直線的および対数的に離間されたチャン
    ネルを定める段階がさらに、スピーチのピッチ測定値に
    基づいて前記の直線的に離間された周波数チャンネルか
    ら前記の対数的に離間された周波数チャンネルへの転換
    周波数を定めることを含む特許請求の範囲第9項記載の
    コード化方法。 (11)スピーチ波形をサンプルして、一連の離散的サ
    ンプルを得、該サンプルから、各々複数のサンプルを跨
    ぐ一連のフレームを再構成するためのサンプリング手段
    と、フーリエ分析により各サンプルフレームを分析して
    、個々の振幅および位相値を有する1組の周波数成分を
    抽出するための分析手段と、1フレームから次のフレー
    ムまで該成分を追跡する手段と、周波数成分の位相の励
    起の貢献が共時性となるよう固定されるように、周波数
    成分をコード化する手段とを備えることを特徴とするス
    ピーチコード化装置。 (12)前記分析手段がさらに、周波数成分が同相とな
    る時間を確定するためのピッチオンセット評価装置を備
    える特許請求の範囲第11項記載のスピーチコード化装
    置。 (13)前記分析装置がさらに、周波数成分の位相を評
    価するための準同形位相評価装置を備え、前記コード化
    手段が、伝送のため位相残分のみをコード化するための
    手段を備える特許請求の範囲第11項記載のスピーチコ
    ード化装置。 (14)前記コード化手段がさらに、二次位相分散コン
    ピュータを備え、これにより周波数成分に対する位相値
    をコード化する必要性を排除する特許請求の範囲第11
    項記載のスピーチコード化装置。 (15)前記コード化手段がさらに、周波数成分に対す
    るボイシング依存性のランダム位相を発生するためのラ
    ンダム位相発生装置を備える特許請求の範囲第11項記
    載のスピーチコード化装置。 (16)前記分析装置がさらに、瞬間的ピッチ周波数を
    積分することにより基本周波数の位相を決定するための
    手段と、周波数成分の位相を基本周波数の位相の倍数と
    して定めるための手段を備える特許請求の範囲第11項
    記載のスピーチコード化装置。 (17)スピーチ波形をサンプルして、一連の離散的サ
    ンプルを得、該サンプルから、各々複数のサンプルを跨
    ぐ一連のフレームを再構成するためのサンプリング手段
    と、フーリエ分析により各サンプルフレームを分析して
    、個々の振幅および位相値を有する1組の周波数成分を
    抽出するための分析手段と、1フレームから次のフレー
    ムまで該成分を追跡する追跡手段と、周波数成分複数の
    調波周波数により定められる1組のチャンネルに制限さ
    れるように、周波数成分をコード化するためのコード化
    手段と備えることを特徴とするスピーチコード化装置。 (18)前記コード化手段がさらに、スピーチのピッチ
    測定値に基づきチャンネルの数を変更する手段を備える
    特許請求の範囲第17項記載のスピーチコード化装置。 (19)前記コード化手段がさらに、基本帯域に第1の
    1組の直線的に離間された周波数チャンネルを備え、よ
    り高次の周波数領域において第2の1組の対数的に離間
    されたチャンネルを備える特許請求の範囲第17項記載
    のスピーチコード化装置。 (20)前記コード化手段がさらに、前記直線的に離間
    されたチャンネルから前記対数的に離間されたチャンネ
    ルへの転換周波数を定めるための手段を備える特許請求
    の範囲第19項記載のスピーチコード化装置。
JP07665188A 1987-04-02 1988-03-31 音響波形のコード化方式 Expired - Lifetime JP3191926B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3409787A 1987-04-02 1987-04-02
US034097 1987-04-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2000393559A Division JP2001228898A (ja) 1987-04-02 2000-12-25 音響波形のコード化方式

Publications (2)

Publication Number Publication Date
JPH01221800A true JPH01221800A (ja) 1989-09-05
JP3191926B2 JP3191926B2 (ja) 2001-07-23

Family

ID=21874290

Family Applications (2)

Application Number Title Priority Date Filing Date
JP07665188A Expired - Lifetime JP3191926B2 (ja) 1987-04-02 1988-03-31 音響波形のコード化方式
JP2000393559A Pending JP2001228898A (ja) 1987-04-02 2000-12-25 音響波形のコード化方式

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2000393559A Pending JP2001228898A (ja) 1987-04-02 2000-12-25 音響波形のコード化方式

Country Status (6)

Country Link
EP (1) EP0285276B1 (ja)
JP (2) JP3191926B2 (ja)
AT (1) ATE95936T1 (ja)
AU (2) AU612351B2 (ja)
CA (1) CA1332982C (ja)
DE (1) DE3884839T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04150233A (ja) * 1990-10-09 1992-05-22 Matsushita Electric Ind Co Ltd 信号伝送方法
JPH04157823A (ja) * 1990-10-22 1992-05-29 Railway Technical Res Inst ディジタル信号伝送装置
JP2003536112A (ja) * 2000-06-20 2003-12-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 正弦波符号化
JP2012518194A (ja) * 2009-02-16 2012-08-09 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
DE4126882A1 (de) * 1991-08-14 1993-02-18 Philips Patentverwaltung Anordnung zur sprachuebertragung
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
BE1007428A3 (nl) * 1993-08-02 1995-06-13 Philips Electronics Nv Transmissiesysteem met reconstructie van ontbrekende signaalmonsters.
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
US6112169A (en) * 1996-11-07 2000-08-29 Creative Technology, Ltd. System for fourier transform-based modification of audio
US6449592B1 (en) 1999-02-26 2002-09-10 Qualcomm Incorporated Method and apparatus for tracking the phase of a quasi-periodic signal
KR100711040B1 (ko) * 2000-02-29 2007-04-24 퀄컴 인코포레이티드 유사주기 신호의 위상을 추적하는 방법 및 장치
AU2003274617A1 (en) * 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
JP2007504503A (ja) * 2003-09-05 2007-03-01 コニンクリユケ フィリップス エレクトロニクス エヌ.ブイ. 低ビットレートオーディオ符号化
EP2375785B1 (en) * 2010-04-08 2018-08-29 GN Hearing A/S Stability improvements in hearing aids

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
JP2759646B2 (ja) * 1985-03-18 1998-05-28 マサチユ−セツツ インステイテユ−ト オブ テクノロジ− 音響波形の処理

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04150233A (ja) * 1990-10-09 1992-05-22 Matsushita Electric Ind Co Ltd 信号伝送方法
JPH04157823A (ja) * 1990-10-22 1992-05-29 Railway Technical Res Inst ディジタル信号伝送装置
JP2003536112A (ja) * 2000-06-20 2003-12-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 正弦波符号化
JP2013080252A (ja) * 2000-06-20 2013-05-02 Koninkl Philips Electronics Nv 正弦波符号化
JP2012518194A (ja) * 2009-02-16 2012-08-09 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US8805694B2 (en) 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
JP2014170232A (ja) * 2009-02-16 2014-09-18 Electronics & Telecommunications Research Inst 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US9251799B2 (en) 2009-02-16 2016-02-02 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding

Also Published As

Publication number Publication date
AU7436491A (en) 1991-07-11
JP3191926B2 (ja) 2001-07-23
EP0285276A2 (en) 1988-10-05
ATE95936T1 (de) 1993-10-15
JP2001228898A (ja) 2001-08-24
EP0285276A3 (en) 1989-11-23
DE3884839T2 (de) 1994-05-05
AU1314588A (en) 1988-10-06
EP0285276B1 (en) 1993-10-13
AU643769B2 (en) 1993-11-25
AU612351B2 (en) 1991-07-11
CA1332982C (en) 1994-11-08
DE3884839D1 (de) 1993-11-18

Similar Documents

Publication Publication Date Title
US4885790A (en) Processing of acoustic waveforms
US6377916B1 (en) Multiband harmonic transform coder
US5054072A (en) Coding of acoustic waveforms
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
JP2759646B2 (ja) 音響波形の処理
JPH01221800A (ja) 音響波形のコード化方式
JP2001525079A (ja) 音声符号化システム及び方法
McAulay et al. Multirate sinusoidal transform coding at rates from 2.4 kbps to 8 kbps
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
NO312428B1 (no) Fremgangsmåte og anordning for syntetisering av tale
Wang et al. Robust voicing estimation with dynamic time warping
JPH11219198A (ja) 位相検出装置及び方法、並びに音声符号化装置及び方法
JP3218679B2 (ja) 高能率符号化方法
JP2001249698A (ja) 音声符号化パラメータ取得方法、音声復号方法及び装置
JP2000514207A (ja) 音声合成システム
EP0713208B1 (en) Pitch lag estimation system
KR100712409B1 (ko) 벡터의 차원변환 방법
JP3321933B2 (ja) ピッチ検出方法
Sercov et al. An improved speech model with allowance for time-varying pitch harmonic amplitudes and frequencies in low bit-rate MBE coders.
JP3297750B2 (ja) 符号化方法
KR100255297B1 (ko) 음성 데이터 부호화/복호화장치 및 그 방법
JPH05281995A (ja) 音声符号化方法
WO2021032719A1 (en) Multi-lag format for audio coding
KR100310930B1 (ko) 음성합성장치및그방법
JPH05297892A (ja) 有声音合成方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term