JP2954588B2 - 音声の符号化装置、復号装置及び符号化・復号システム - Google Patents
音声の符号化装置、復号装置及び符号化・復号システムInfo
- Publication number
- JP2954588B2 JP2954588B2 JP61198297A JP19829786A JP2954588B2 JP 2954588 B2 JP2954588 B2 JP 2954588B2 JP 61198297 A JP61198297 A JP 61198297A JP 19829786 A JP19829786 A JP 19829786A JP 2954588 B2 JP2954588 B2 JP 2954588B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- generating
- code
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004044 response Effects 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 230000005284 excitation Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 240000007124 Brassica oleracea Species 0.000 description 2
- 235000003899 Brassica oleracea var acephala Nutrition 0.000 description 2
- 235000012905 Brassica oleracea var viridis Nutrition 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- QUTYKIXIUDQOLK-PRJMDXOYSA-N 5-O-(1-carboxyvinyl)-3-phosphoshikimic acid Chemical group O[C@H]1[C@H](OC(=C)C(O)=O)CC(C(O)=O)=C[C@H]1OP(O)(O)=O QUTYKIXIUDQOLK-PRJMDXOYSA-N 0.000 description 1
- UNPLRYRWJLTVAE-UHFFFAOYSA-N Cloperastine hydrochloride Chemical compound Cl.C1=CC(Cl)=CC=C1C(C=1C=CC=CC=1)OCCN1CCCCC1 UNPLRYRWJLTVAE-UHFFFAOYSA-N 0.000 description 1
- 241000255925 Diptera Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004392 genitalia Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 235000002020 sage Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
- G10L2019/0014—Selection criteria for distances
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の詳細な説明】
発明の背景
本発明は音声処理、より詳細にはデジタル音声符号化
に関する。 音声記憶装置及び音声応答設備を含むデジタル音声通
信システムは記憶及び/あるいは伝送に要求されるビツ
ト速度を落すために信号の圧縮を行なう。当技術におい
て周知のごとく、音声パターンは見掛けの品質には重要
でない冗長を含む。音声パターンから冗長成分を除去す
ることによつて音声のリプリカを構成するのに必要なデ
ジタル符号を大きく減少することができる。ただし、音
声リプリカの主観的品質はこの圧縮及び符号化技術に依
存する。 1つの周知のデジタル音声符号化システム、例えば、
合衆国特許第3,624,302号に開示されるシステムは入力
音声信号の線形予測分析を含む。音声信号が5から20ミ
リ秒の間隔の連続の期間に分割され、この期間の音声を
表わすセツトのパラメータが生成される。このセツトの
パラメータはその期間内の音声のスペクトルの包絡線を
表わす線形予測係数信号、及びその音声の励起に対応す
るピツチ及び発生信号を含む。これらパラメータ信号は
音声信号の波形自体よりもかなり低いビツト速度にて符
号化できる。入力音声信号のリプリカがそのパラメータ
信号の符号から合成によつて生成される。シンセサイザ
装置は、通常、声帯のモデルを含むが、この中で個々の
連続の期間の励起パルスがオールポール予測フイルタ内
のこの期間のスペクトルの包絡線を表わす予測係数によ
つて修正される。 前述のピツチ励起線形予測符号化は非常に効率的であ
り、符号化ビツト速度を例えば64kb/sから2.4kb/sに落
とす。しかし、生成された音声リプリカの品質が悪く理
解が困難となる場合もある。一般的にいつて、この低い
音声品質は音声パターンと使用される線形予測モデルの
間の一致の悪さに起因する。ピツチ符号のエラーあるい
はある音声期間が発声されたか否かの決定のエラーは音
声リプリカにひずみあるいは不自然さを与える。音声の
フォーマツト符号化においても同様の問題が存在する。
音声励起が予測の後の残留から得られる別の符号化装
置、例えば、APCが励起が完全でないモデルに依存しな
いため大きな進歩である。しかし、これらシステムの励
起ビツト速度は線形予測モデルより少なくとも1桁高
い。残留タイプのシステムにおいて励起ビツト速度を落
すための試は、多くの場合、品質を大きく落す結果とな
る。 通信に関する国際会議−ICC'84の議事録(Proceeding
s of the International Conference on Communication
s−ICC'84)、1984年5月、ページ1610−1613に掲載の
ビヌスS.アトール(Bishns S.Atal)及びマンフレツド
スクローダ(Manfred Schroeder)らによる論文〔非
常に低ビツト速度での音声信号の統計的符号化(Stocha
stic Coding of Speech Signals at Very Low Bit Rate
s)は音声励起信号を生成するための統計的モデルを開
示する。この方法においては、音声波形がゆるやかに変
化するパワー スペクトルを持つゼロ平均のガウスの統
計的プロセスとして表わされる。最適ガウス刷新シーケ
ンスが典型的には5ミリ秒の期間の音声の波形セグメン
トと複数のランダムのガウスのイノベーシヨン シーケ
ンスから得られる合成音声の波形が比較される。知覚エ
ラー基準を最小限にするイノベーシヨン シーケンスが
そのセグメントの音声の波形を表わすものとして選択さ
れる。この論文において説明される統計的モデルは音声
波形励起信号を低ビツト速度符号化を実現するが、適切
な選択には多数のイノベーシヨン シーケンスが要求さ
れる。最良のイノベーシヨン シーケンスを選択するた
めに要求される信号処理はこのイノベーシヨン信号を符
号化するための莫大な探索手順を伴なう。問題は4.8Kbi
t/secの符号生成に対応する符号ビツト速度に対するこ
のような探索は大きな高速科学コンピユータによつて処
理したとしても非常に時間を費やすことである。 発明の概要 この問題は本発明によつて音声アラナイザのイノベー
シヨン シーケンスの統計的あるいは他の非定符号の膨
大な探索に代りにこの統計的符号を変換領域符号信号に
変換し個々の時間フレーム期間に対する変換符号からセ
ツトの変換領域パターンを生成する装置を使用すること
によつて解決される。変換領域の符号パターンが入力音
声から得られた時間期間の音声パターンと比較され、最
も一致する統計的符号が選択され、この最も一致する統
計的符号に対応するインデツクス信号がその時間フレー
ム期間の音声を表わすものとして出力される。変換領域
での処理は符号選択のために必要とされる繁雑さ及び所
要時間を削減する。 インデツクス信号が音声復号器に加えられる。復号器
はこれを使用してそこに格納された統計的符号の1つを
選択する。予測音声シンセサイザ内において、この統計
的符号は時間フレーム期間音声パターン励起信号を表わ
し、これによつて符号ビツト速度が時間フレームのイン
デツクス信号及び予測パラメータに要求されるビツト速
度に落される。この統計的符号は記憶要件を減少するた
めの統計的数のストリングの所定の重複セグメントであ
つてもよい。 本発明は音声メツセージを処理するための装置に関す
るが、この装置内でセツトの非定値符号信号、例えば、
乱数並びにこの非定値符号信号を同定するインデツクス
信号及び非定値符号の変換されたものを表わす信号が生
成される。音声メツセージが時間フレーム期間の音声パ
ターンに分割され、個々の連続の時間フレーム期間の音
声パターンを表わす第1の信号がこの分割された音声に
応答して生成される。変換領域の符号信号から生成され
た時間フレーム期間のパターンを表わす複数の第2の信
号が生成される。この時間フレーム期間の第1の信号及
び第2の信号の両方に応答して個々の時間フレーム期間
に対して非定値符号信号の1つが選択され、この選択さ
れた変換領域信号に対応するインデツクス信号が出力さ
れる。 本発明の一面によると、第1の信号の生成には現在の
時間フレーム期間の音声パターンに対応する変換領域の
信号である第3の信号の生成が含まれ、個々の第2の信
号の生成にはこの変換領域の符号信号に応答して1つの
時間フレーム期間のパターンに対応する変換領域の信号
である第4の信号の生成が含まれる。非定符号の選択に
はこの第3の信号と第4の信号の間の一致度を表わす信
号の生成及び最大の一致度を持つ第4の信号に対応する
インデツクス信号の決定が含まれる。 本発明のもう一面によると、この変換領域符号信号は
非定符号から得られる周波数領域変換符号である。 本発明のさらにもう一面によると、変換領域符号信号
は非定符号のフーリエ変換符号である。 本発明のさらにもう一面によると、音声メツセージが
出力されたインデツクス信号のシーケンスを受信するこ
とによつて生成されるが、このインデツクス信号は各々
が所定の非定符号を同定する。個々のインデツクス信号
は1つの時間フレーム期間の音声パターンに対応する。
この非定符号が受信されるインデツクス信号のシーケン
スに応答して連結され、連結された符号に応答して音声
メツセージが生成される。 本発明のさらにもう一面によると、音声メツセージが
インデツクス信号によつて同定される所定のセグメント
を持つ非定値符号信号のストリングを使用して生成され
る。このストリングの所定のセグメントを同定する信号
のシーケンスが受信される。このシーケンスの個々の信
号は連続の時間フレーム期間の音声パターンに対応す
る。この非定符号ストリングの所定のセグメントが受信
された同定信号のシーケンスに応答して選択され、選択
された非定符号が連結されて、音声メツセージのリプリ
カが生成される。 本発明のさらにもう一面によると、このストリングの
非定値信号シーケンスは重複するシーケンスである。 概括説明 第1図は励起信号のために統計的符号を使用するよう
に構成された先行技術によるデジタル音声符号器を示
す。第1図に示されるように、マイクロホン101に加え
られた音声パターンは、当技術において周知のように、
この中で音声信号に変換され、フィルタ/サンプラ105
内でバンド バス フイルタリング及びサンプリングさ
れる。結果としてのサンプルはA/Dコンバータによつて
デジタル符号化音声信号s(n)を得るためにデジタル
符号に変換される。信号s(n)はLPC/ピツチ予測アナ
ライザ115内で処理される。この処理には符号化された
サンプルの連続の音声フレーム期間への分割及び個々の
連続フレーム内の信号s(n)に対応するセツトのパラ
メータ信号の生成が含まれる。パラメータ信号a
(1)、a(2)、…、a(p)は短時間遅延相関、つ
まり、この期間の音声パターンのスペクトルと関連る特
性を表わし、パラメータ信号β(1)、β(2)、β
(3)、及びmは長時間遅延相関、つまり、この音声パ
ターンのピツチと関連する特性を表わす。このタイプの
符号器内においては、音声信号はフレームあるいはブロ
ツク、例えば、5ミリ秒の期間あるいは40個のサンプル
に分割される。このブロツクに対して、統計的符号蓄積
器120は1024のランダムのホワイト ガウス符号語シー
ケンスを含むが、個々のシーケンスは一連の40個の乱数
から構成される。個々の符号語には、フィルタリングの
前に、スケーラ125内でこの5ミリ秒のブロツクに対し
て一定の因子γが掛けられる。音声適応が遅延予測フイ
ルタ135及び145内で遂行されるが、これは反復的に行な
われる。 フイルタ135は長時間の蓄積(2から15ミリ秒)の予
測子を使用して合成音声信号内に音声の反復性を導入
し、フイルタ145は短時間の蓄積(2ミリ秒以下)の予
測子を使用して合成音声信号内にスペクトル包絡線を導
入する。このフイルタは、IEEE トランザクシヨンズ
オン コミユニケーシヨンズ(IEEE Transactions on C
ommunications)、Vol.COM−30、1982年4月、ページ60
0−514にB.S.アトール(B.S.Atal)らによつて紹介の論
文〔定ビツト速度での音声の予測符号化(Predicitive
coding of speechat low bit rates)〕において説明さ
れている。引き算器150に加えられる元の音声信号s
(n)とフイルタ145から加えられる合成音声信号s
()との間の差を表わすエラーがさらに知覚重み付け
フイルタ155内で処理され、このエラーが知覚的にあま
り重要でない周波数成分が減衰され、このエラーが知覚
的に重要である周波数成分が増幅される。最小平均2乗
主観エラー信号E(k)及び対応する最適スケール因子
γを生成する蓄積器120からの統計的符号シーケンスは
蓄積器120内の1024個の符号語シーケンスの全てが処理
された後にはじめてピーク摘出器170によつて選択され
る。 第1図の回路の符号語処理を分析する目的で、フイル
タ135及び145並びに知覚重み付けフイルタ155は1つの
線形フイルタに結合することもできる。その等価のフイ
ルタのインパルス応答はシーケンスf(n)によつて表
わすことができる。現在の5ミリ秒期間においては、当
技術において周知のごとく、フイルタ出力の一部が先行
フレームに由来する信号と対応するため、この等価のフ
イルタ出力の一部のみがその入力と比較される。先行フ
レームからのフイルタ蓄積は現在のフレームの最適イノ
ベーシヨン シーケンスを捜す役割は果さない。従つ
て、現在のフレームのフイルタ出力への先行蓄積の寄与
が統計的蓄積器120からの最適符号語の決定のために音
声信号から除去される。先行フレームに由来するフイル
タ蓄積の寄与を除去した後の残留値は信号x(n)によ
つて表わされる。現在のフレーム内の蓄積器120からの
k番目の符号語によつて寄与されるフイルタ出力は以下
によつて表わされる。 ここで、c(k)(i)はk番目の符号語の1番目のサン
プルである。式(1)は行列式にて以下のように書くこ
とができる。 (k)=ν(k)Fc(k), (2) ここで、FはNxNの行列であり、n番目の行及びi番
目の列内の項はf(n−i)によつて与えられる。x
(n)とx (n)の間の差を表わす2乗されたエラー
の総和E(k)は、以下によつて与えられる。 E(k)=‖x−ν(k)Fc(k)‖2, (3) ここで、スペクトルxはベクトル表記法による信号x
(n)の表わし、そして| |2は2乗されたベクトル成
分の総和を表わす。エラーE(k)を最小にする最適ス
ケール因子γ(k)はδE(k)/δγ(k)=0とセ
ツトすることによつて簡単に決定できるが、これから以
下が導かれる。 最適符号語はE(k)の最小を発見すること、つまり
式(5)の右側の第2の項の最大を発見することによつ
て得られる。 第1図との関連で説明された信号処理は比較的に単純
であるが、式(5)の1024個のエラー信号E(k)の生
成は時間のかかる動作であり、現在知られている高速大
規模コンピユータ内でリアル タイムにて達成すること
は不可能である。第1図の探索処理の複雑さはエラーE
(k)内の行列Fによつて表わされるたたきこみ演算の
存在に起因する。この複雑さは行列Fを直交行列によつ
て置換することによつて減少される。これは、G.W.スチ
ユワート(G.W.Stewart)による参考書〔行列計算の初
歩(Introduction to Matrix Computations)〕、アカ
デミツク プレス、1973年、ページ 317−320において
説明されているごとく、特異値分解を使用して行列Fを
直交形式によつて表わすことによつて達成できる。 F=UDVt, (6) であると仮定する。ここで、U及びVは直交行列であ
り、Dは正の要素を持つ直交行列であり、VtはVの移項
を示す。すると、Uの直交性より、式(3)は以下のよ
うに書くことができる。 E(k)=‖Ut(x−ν(k)Fc(k)‖2. (7) ここで、Fを式(6)によつて表わされる直交形式に
て置換すると以下が得られる。 E(k)=‖Utx−ν(k)DVtc(k)‖2. (8) または式(8)に z=Utx 及び b(k)=Vtc(k), (9) を代入すると、以下が得られる。 上に同様に、E(k)を最小にする最適γ(k)はδ
E(k)/δγ(k)=0にセツトすることによつて決
定でき、式(10)は以下のように簡素化することができ
る。 式(11)によつて表されるエラー信号は式(5)の数
式よりもかなり速く処理することができる。Fc(k)が
オーダー(p)(典型的には20)の反復フイルタ内で処
理されると、式(11)に従がう処理は統計的符号化に要
求される処理時間要件を大きく減少する。 別の方法として、式(5)の演算を時間領域から変換
領域、例えば、周波数領域に拡張することによつても処
理時間を短縮することができる。長時間遅延予測が排除
された合成フイルタと知覚重み付けされたフイルタの結
合インパルス応答がシーケンスh(n)によつて表わさ
れるものとすると、現在のフレーム内のk番目の符号語
によつて寄与されるフイルタ出力は入力γ(k)c
(k)(n)とインパルス応答h(n)との間のたたきこ
みとして表わすことができる。フイルタの出力は以下に
よつて与えられる。 (k)(n)=ν(k)h(n)*c(k)(n) (12) このフィルタ出力は周波数領域にて以下のように表わ
すことができる。 (k)(i)=ν(k)H(i)C(k)(i) (13) ここで、(k)(i)、H(i)及びC(k)(i)はそ
れぞれx(k)(n)、h(n)及びc(k)(n)の離散フー
リエ変換(DFT)である。実施においては、フイルタ出
力の期間は10ミリ秒の期間に限定され外側は0であると
みなすことができる。従つて、80ポイントを持つDFTは
式(13)を表わすのに十分に正確である。2乗されたエ
ラーの総和は周波数領域表現では以下のように表わされ
る。 ここで、X(i)はx(n)のDFTである。ここで、 及び とすると、式(14)は以下のように変換できる。 ここでも、スケール因子γ(k)を式(17)から除去
することができ、総エラーは以下によつて表わすことが
できる。 ここでζ(i)*はζ(i)の複素共役である。周波
数領域探索は行列Fの特異値分解が離散高速フーリエ変
換値によつて置換され、全体的な処理の繁雑さが大きく
減少されるという長所を持つ。特異値分解あるいは離散
フーリエ変換処理を使用する変換領域においては、この
探索をd(i)(あるいはb(i))の大きな値に対応
する周波数(あるいは固有ベクトル)のサブセツトに制
限することによつて計算負荷の節約がさらに達成され
る。本発明によると、処理が大きく削減され、マイクロ
プロセツサ集積回路によるリアル タイム動作が実現可
能となる。これはイノベーシヨン符号に応答して生成さ
れる合成音声信号と第1図の入力音声信号との間のエラ
ーの生成に関与する時間領域処理を前述の変換領域処理
と置換することによつて達成される。 細部説明 本発明の一例としての励起信号を励起するための非定
の符号を使用する変換領域デジタル音声符号器が第2図
及び第3図に示される。この非定の符号は乱数シーケン
スの形式をとることも、あるいは、例えば、非定の順番
の+1と−1の変化するシーケンスでもありうる。シー
ケンス全体の平均が小さくなるという緩い制約が満たさ
れれば、変化するシーケンスの非定の配列を使用するこ
とができる。第2図に示されるように、音声パターン、
例えば、会話メツセージがマイクロホン トランジユー
サ201によつて受信され、フイルタ/サンプラ203内でバ
ンド制限されパルス サンプルのシーケンスに変換さ
れ、A/D変換器205を介して線形予測係数(LPC)アナラ
イザ209に供給される。このフイルタリングは当技術に
おいて周知のように4.0KHz以上の音声信号の周波数成分
を除去するように構成され、サンプリングは8.0KHzの速
度にて行なわれる。回路203からの個々のサンプルはA/D
変換器内の振幅を表わすデジタル符号に変換される。こ
のデジタル符号音声サンプルのシーケンスはLPCアナラ
イザ209に供給される。アナライザ208は、当技術におい
て周知のごとく、この音声信号を5から20msの時間フレ
ーム期間に分割し、個々のフレームの音声サンプルの予
測短時間スペクトルを表わすセツトの線形予測係数信号
a(k)、k=1、2…p、を生成する。アナライザは
また以下の式によつて表わされる知覚重み付けされた線
形予測係数信号を生成する。 b(k)=ka(k),k=1,2,…,p, (19) ここで、pは予測係数の数を表わす。 A/D変換器205からの音声サンプルは遅延回路207内で
音声パラメータ信号a(k)を形成するための時間の調
節のために遅延された後予測残留信号発生器211の入力
に供給される。予測残留信号発生器は、当技術において
周知のごとく、遅延された音声サンプルs(n)及び予
測パラメータa(k)に応答して音声サンプルとこれら
の予測値の間の差に対応する信号δ(n)を生成する。
予測アナライザ209内での個々のフレームに対する予測
パラメータ及び予測残留信号の生成は合衆国特許第3,74
0,476号において開示される装置、あるいは当技術にお
いて周知の他の装置によつて遂行される。 予測残留信号発生器211は、以下の式に従つて、サン
プル信号s(n)からフレーム信号の予測部分を引くこ
とによつて信号δ(n)を生成する。 ここで、pは予測係数の数、例えば、12であり、Nは
音声フレーム内のサンプルの数、例えば、40であり、そ
してa(k)はフレームの予測係数である。予測残留信
号δ(n)はそのフレームの音声信号から短期間冗長を
除去したものに相当する。数個の音声フレームのオーダ
ーの長期間冗長がこの予測残留信号内にとどまり、合衆
国特許第4,354,057号において説明されるように、予測
パラメータβ(1)、β(2)、β(3)及びこれら長
期間冗長に対応するmが予測ピツチ アナライザ220内
で生成される。ここでmは以下を最大化する整数であり そして、β(1)、β(2)、β(3)は以下を最小化
する整数である。 周知のごとく、デジタル音声エンコーダは個々の連続
のフレーム、及び予測フレーム残留を復号器に伝送する
ためあるいは後の探索のために格納するために符号化す
ることによつて生成される。予測パラメータを符号化す
るためのビツト速度は比較的遅が、残留の非冗長特性か
ら非常に高ビツト速度が要求される。本発明において
は、最適非定符号ck*(n)がフレーム励起を表わす
ように選択され、選択された非定励起符号の指数を示す
信号K*が送信される。この方法によつて、了解度に悪
影響を与えることなく、音声符号ビツト速度が最小限に
される。非定符号が選択プロセスを軽減しマイクロプロ
セツサによつてリアルタイマにて遂行できるように変換
領域内で選択される。 励起に対する非定符号の選択は、予測残留をフレーム
の知覚重み付けされた線形予測パラメータと結合して信
号y(n)を生成することからなる。この知覚重み付け
された音声信号に対応する音声パラメータ信号y(n)
は前のフレームに由来する成分(n)を含む。この前
のフレーム成分(n)は選択プロセスの前に蓄積され
た非定符号が現在のフレーム励起に対してのみ比較され
るように除去される。信号y(n)は予測フイルタ217
内でフレームの知覚重み付けされた予測パラメータ及び
予測残留信号に応答して、以下の式に従つて生成されy
(n)蓄積器227内に蓄積される。 先行フレーム音声寄与信号y(n)は先行フレーム寄
与信号発生器222内で現在のフレームの知覚重み付けさ
れた予測パラメータ信号b(k)、ピツチ予測パラメー
タβ(1)、β(2)、β(3)及び蓄積器230から得
られるmから生成され、以下に従つて選択される。 a(n)=β(1) a(n−m−1)+ β(2) a(n−m)+β(3) a(n−m+1)
(24a) 及び ここで、 ≦0及び( )、≦0は過去のフレーム成分を表わ
す。発生器222は式24の信号を生成するための周知のプ
ロセツサから構成される。蓄積器240の過去のフレーム
音声寄与信号(n)が引き算回路247内で蓄積器227の
知覚重み付けされた信号から引かれ、過去のフレーム成
分が除去された現在のフレーム音声パターン信号が生成
される。 x(n)=y(n)−(n) n=1,2,…,N (25) 引き算回路247からの差信号x(n)が次に離散フー
リエ変換(DFT)発生器250内で以下のように周波数領域
信号に変換される。 ここで、NfはDFTポイントの数、例えば、80である。D
FT変換発生器は合衆国特許第3,588,460号に開示される
ように動作する。あるいは非定の周知の離散フーリエ回
路から構成することもできる。 現在の音声フレームに対して複数の非定励起符号の1
つを選択するためには、知覚重み付けされたLPCフイル
タが励起符号に与える影響を考慮することが必要であ
る。これはフイルタのインパルス応答を表わす信号を以
下の式、つまり に従つて生成し、このインパルス応答を以下のように離
散フーリエ変換によつて周波数領域信号に変換すること
によつて行なわれる。 知覚重み付けされたインパルス応答信号h(n)はイ
ンパルス応答発生器225内で生成され、周波数領域信号
H(i)への変換はDFT発生器245内で遂行される。 この周波数領域インパルス応答信号H(i)及び前の
フレーム寄与を除去された周波数領域知覚重み付け音声
信号X(i)は第3図内の変換パラメータ信号コンバー
タ301に加えられ、ここで、信号d(i)及びζ(i)
が以下に式に従つて生成される。 d(i)及びζ(i)によつて表わされる現在の音声
フレーム励起信号と比較される非定符号は統計的符号蓄
積器330内に蓄積される。個々の符号はN個、例えば、4
0個のシーケンスのデジタル符号信号c(k)(1)、c(k)
(2)、…、c(k)(40)を含む。これら信号は総平均が
比較的に小さいという緩い制約内で任意に選択された数
のセツトであつても、あるいはランダムに選択されたデ
ジタル符号信号であつてもよい。さらに、この制約を満
足すれば、当技術において周知の他の符号の形式をとる
こともできる。このセツトの信号c(k)(n)は第2図の
符号器装置に悪影響を与えることなく記憶要件を最小限
をするために重複された個別の符号から構成することも
できる。変換領域符号蓄積器305は蓄積器330内の以下の
式に従つて生成されるフーリエ変換周波数領域の符号の
形式を持つ。 ここでは、変換符号信号が蓄積されるが、蓄積された
非定符号から変換信号を生成する当技術において周知の
他の装置を使用することもできる。周波数領域符号は実
及び虚数成分の信号を含むため、周波数領域符号C
(k)(i)には対応する時間領域符号c(k)(n)の2倍
の要素が含まれる。 変換領域符号蓄積器305からの個々の符号出力C
(k)(i)はK個の誤り/スケール因子発生器315−1か
ら315−Kの1つに加えられ、変換された非定符号がパ
ラメータ信号コンバータ301から得られる時間フレーム
に対する信号d(i)及びζ(i)によつて表わされる
時間フレーム音声信号と比較される。第5図は誤り/ス
ケール因子発生器315−Kに対する誤り及びスケール因
子を生成するのに使用される装置をブロツク図にて示
す。第5図に示されるように、非定符号シーケンスC(k)
(1)、C(k)(2)、…、C(k)(N)が音声パターン相
互相関器501及び音声パターン エネルギー係数発生器5
05に供給される。変換パラメータ信号コンバータ301か
らの信号d(i)は相互相関器501及び正規化器505に供
給され、一方、コンバータ301からのζ(i)は相互相
関器501に供給される。相互相関器501は以下の式によつ
て表わされる信号を生成する。 これは過去のフレーム成分が除去された音声フレーム
信号ζ(i)と変換された非定符号から派生されるフレ
ーム音声信号d(i) Ck(i)との相関を表わす。一
方、2乗化回路510は以下によつて表わされる信号を生
成する。 符号シーケンスc(n)を使用してのエラーが割り算
器回路515内で相互相関器501及び正規化器505の出力に
応答して以下の式に従つて現在の音声時間フレームにつ
いて生成される。 そして、スケール因子が割り算器520内で相互相関器
回路501及び正規化器505の出力に応答して以下の式に従
つて生成される。 第5図の相互相関器、正規化器及び割り算器回路は周
知の論理回路要素から構成され、後に説明されるように
1つのデジタル信号プロセツサに組立てられる。現在の
フレームの音声パターンの特性と最も合致する非定符号
が第3図の符号選択器320内で選択され、選択された符
号のインデツクスK*並びにその符号に対するスケール
因子λ(K*)がマルチプレクサ325に供給される。こ
のマルチプレクサは励起符号信号K*及びλ(K*)を
現在の音声時間フレームLPCパラメータ信号a(K)及
びピツチ パラメータ信号β(1)、β(2)、β
(3)及びmとを伝送あるいは蓄積するのに適する形式
に結合する。インデツクス信号K*も選択器325に供給
され、そのインデツクスに対する時間領域符号が蓄積器
330から選択される。こうして選択された時間領域符号C
k *(n)は第2図内の先行フレーム寄与発生器222に供
給され、ここでこれは、以下の式に従つて、次の音声時
間フレーム処理のための信号y(n)を生成するのに使
用される。 第4図は本発明による音声符号器装置を示す。第2図
及び第3図との関連で説明された演算はプロセツサ435
の制御下において一連のデジタル信号プロセツサ405、4
10、415、及び4201から420−Kによつて遂行される。プ
ロセツサ405は第2図のLPCアナライザ209、LPC及び重み
付けされたLPC信号蓄積器213及び215、予測残留信号発
生器211、及びヒツチ予測アナライザ220と関連する予測
係数信号処理を遂行するのに使用される。予測残留信号
プロセツサ410は予測フイルタ217、先行フレーム寄与信
号発生器222、引き算器247及びインパルス応答発生器22
5との関連で説明の機能を遂行する。変換信号プロセツ
サ415は第2図のDFT発生器245及び250、及び第3図の変
換パラメータ信号コンバータ301の演算を遂行する。プ
ロセツサ420−1から420−Kは第3図の誤り/スケール
係数発生器315−1から315−Kから得られるエラー及び
スケール因子信号を生成する。 個々のこれらデジタル信号プロセツサにはIEEEジヤー
ナル オブ ソリツド ステート サーキツツ(IEEE J
ournal of Solid State Circuits)、Vol.SC20、NO.5、
1985年10月号、ページ998にP.ハイズ(P.Hays)らによ
って発表の論文〔32ビツトVLSIデジタル信号プロセツサ
(A 32 Bit VLSI Digital Processor)〕に説明のWEO D
Sデジタル信号プロセツサを使用することができる。ま
た、制御プロセツサには、参考書〔MC68000 16ビツト
マイクロプロセツサ、ユーザーズマニユアル(MC68000
16 Bit microprocessor User's Manual)〕、第2版、
モトローラ社(Motorola Inc.)、1980年出版に説明の
モトローラ タイプの68000マイクロプロセツサ及び関
連する回路を使用することができる。個々のデジタル信
号プロセツサは、それと関連する演算のためにデータを
格納するためのメモリ、例えば、予測係数信号プロセツ
サ405に接続されたデータ メモリ408を持つ。共通デー
タ メモリ450は他のデジタル プロセツサの動作に必
要なあるデジタル信号プロセツサからの信号を格納す
る。共通プログラム蓄積器430は制御プロセツサ435及び
デジタル信号プロセツサによつてタイミングの目的及び
第4図の符号化機能を遂行するために使用される一連の
永久的に内蔵された命令信号を持つ。統計的符号信号蓄
積器440は読出し専用メモリであり、第3図との関連で
説明の乱数符号▲(k n▼)を含む。変換符号信号蓄積器
445はもう1つの読出し専用メモリであり、蓄積器440内
の符号と対応するフーリエ変換された周波数領域符号信
号を保持する。 第4図の符号器は通信システムの一部を構成すること
も考えられる。この場合は、ここでマイクロホン401に
加えられた会話が低ビツト速度デジタル信号、例えば、
4.8kb/sに符号化され、通信リンクを介してこの非定符
号インデツクス及びフレーム パラメータ信号を復号す
る受信機に送信される。一方、第4図の符号器の出力は
後に復号するために格納及び前送りシステム内に格納さ
れる場合も、あるいは後に説明のタイプの音声シンセサ
イザ内で使用するために読出し専用メモリ内に格納され
る場合もある。第6図の流れ図に示されるように、制御
プロセツサ435はスイツチあるいは他のデバイス(図示
なし)からの手操作信号STによつて符号器の動作を起動
される。第4図のデジタル信号プロセツサの1つの時間
フレーム期間に対する予測パラメータ信号及び励起符号
信号K*及びγ*を生成する全ての動作はその時間フレ
ーム期間内に起こる。オフ スイツチがセツトされると
(ステツプ601)、信号TSが予測係数プロセツサ405を起
動するために生成され、プロセツサ405の動作を制御す
るために共通プログラム蓄積器430内の命令がアクセス
される。マイクロホン401に加えられる音声がフイルタ
/サンプラ406内でろ波及びサンプリングされ、A/Dコン
バータ404内でデジタル信号のシーケンスに変換され
る。プロセツサ405はコンバータ404からデジタル的に符
号化されたサンプル信号を受信し、このサンプルを受信
される順に時間フレーム セグメントに分割し、この一
連のフレーム サンプルを第7図のステツプ705によつ
て示されるようにデータ メモリ408内に格納する。ス
テツプ710に示されるように、現在の時間フレームに対
する短時間遅延係数信号a(k)及び知覚重み付けされ
た短時間遅延信号b(k)が前述の特許第4,133,476号
及び式(19)に従つて生成される。ステツプ715におい
て、現在のフレームの予測残留信号δ(n)が式20に従
つて現在のフレーム音声サンプルs(n)及びLPC係数
信号a(k)から生成される。ステツプ715の動作が完
了すると、制御プロセツサ435に短時間遅延分析終了(S
TELPC)信号が送くられる(ステツプ720)。このTELPC
信号は第6図のステツプ615に示されるようにプロセツ
サ410の動作を開始するのに使用される。次に、ステツ
プ725に示されるように、式21及び22に従つて長時間遅
延係数信号β(1)、β(2)、β(3)及びmが生成
され、予測係数分析終了信号STEPCAが生成される(ステ
ツプ730)。プロセツサ405は前述の特許第4,133,976号
に説明されるように予測係数信号を生成するのに使用さ
れる。現在の音声フレームの信号a(k)、b(k)、
δ(n)、及びβ(n)並びにmは残留信号処理に使用
するために共通データ メモリ450に送くられる。 プロセツサ405内で現在のフレームのLPC係数信号が生
成されると、制御プロセツサ435はSTELPC信号に応答し
て第8図のステツプ801に示されるように予測残留信号
プロセツサを起動する。プロセツサ410の動作は第8図
の流れ図に示されるように共通プログラム蓄積器430の
制御下で遂行される。第8図に示されるように、現在の
フレームの知覚重み付けされた信号y(n)がステツプ
805において式(23)に従つて生成及び格納される。ス
テツプ810において、式(24)に従つて、長時間遅延予
測寄与信号δ(n)が生成される。ステツプ815におい
て、短時間遅延予測寄与信号(n)が生成される。ス
テツプ820において信号y(n)から信号(n)を引
くことによつて先行フレームの成分が除去された現在の
フレームの音声パターン信号(x(n))が生成され、
前述の特許第4,133,476号に説明されるようにLPC係数信
号a(k)からインパルス応答信号h(n)が生成され
る(ステツプ825)。信号x(n)及びh(n)は変換
信号プロセツサ415に使用するために共通データ メモ
リ450に送くられ格納される。 現在の時間フレームに対する信号x(n)、h(n)
の生成が完了すると、制御プロセツサ435はプロセツサ4
10から信号STEPSPを受信する。制御プロセツサ435によ
つて信号STEPSP及びSTEPCAの両方が受信されると(第6
図のステツプ621)、変換信号プロセツサ415の動作が第
6図のステツプ625に示されるようにプロセツサ415にST
EPSP信号を送くることによつて開始される。プロセツサ
415は信号x(n)及びh(n)に関して離散フーリエ
変換演算を遂行することによつて周波数領域音声フレー
ムを表わす信号x(i)及びH(i)を生成する。第9
図に示されるように、信号STEPSPが検出されると(ステ
ツプ901)、x(n)及びh(n)信号が共通データ
メモリ450から読み出される(ステツプ905)。当分野に
おいて周知のフーリエ変換によつて信号X(i)が信号
x(n)から生成され(ステツプ910)、信号H(i)
がh(n)信号から生成される(ステツプ915)。DFTは
前述の特許第3,588,460号に開示の原理に従つて実現で
きる。次にステツプ920において式(29)に従つて信号
X(i)及びH(i)の音声フレームを表わす信号d
(i)及びζ(i)への変換がプロセツサ415によつて
遂行され、信号d(i)及びζ(i)が共通データ メ
モリ450に格納される。現在のフレームの変換予測処理
が終了すると、信号STETPSが制御プロセツサ435に送く
られる(ステツプ925)。ステツプ630において、信号ST
ETPSに応答して、制御プロセツサは誤り/スケール因子
信号プロセツサ420−1から420−Rを起動する(ステツ
プ635)。 現在のフレームに対する変換領域時間フレーム音声信
号がプロセツサ415内で生成され、共通データ メモリ4
50内に格納されると、誤り/スケール因子信号プロセツ
サ420−1から420−K内で現在のフレームの音声パター
ンも最も一致する統計的符号ck*(n)の探索動作が
遂行される。個々のプロセツサは蓄積器455内の1つあ
るいは複数(例えば100個)の変換領域符号に対応する
エラー及びスケール因子信号を生成する。このエラー及
びスケール因子信号の生成が第10図の流れ図に図解され
る。第10図に示されるように、制御信号STETPSの存在に
よつて(ステツプ1001)、処理される統計的符号を同定
するパラメータk、現在のフレームに対して選択された
統計的符号を同定するパラメータK*、現在のフレーム
に対して選択された符号の相互相関係数信号を同定する
パラメータP(r)*、及び現在のフレームに対して選
択された符号のエネルギー係数信号を同定するパラメー
タQ(r)*がセツトされる。 現在対象とされる変換領域非定符号C(k)(i)が変換
符号信号蓄積器445から読み出され(ステツプ1010)、
変換領域非定符号Ck(i)から得られる現在のフレーム
の変換領域音声パターン信号が信号d(i)及びC
k(i)から生成される(ステツプ1015)。信号d
(i)C(k)(i)は非定符号c(n)によつて生成され
たフレームの音声パターンを表わす。符号信号C
(k)(i)はフレーム励起に対応し、信号d(i)は人
間の音声器官を表わす予測フイルタに対応する。共通デ
ータ メモリ450内に格納される信号ζ(i)はマイク
ロホン401から得られる現在のフレームの音声パターン
を表わす。 信号d(i)C(k)(i)及びζ(i)を表わす2つの
変換領域音声パターンがステツプ1020において信号P
(k)を生成するために相互相関され、ステツプ1022に
おいて正規化の目的でエネルギー係数信号Q(k)が生
成される。そのフレームの実際の音声パターンからの統
計的符号フレーム音声パターンの現在の偏差がステツプ
1025において計算される。符号パターンと実際のパター
ンとの間のエラーが先行符号に対して計算された最良の
ものより小さい場合は、インデツクス信号K(r)*、
相互相関信号P(r)*及びエネルギー係数信号Q
(r)*がステツプ1030において、k、P(k)、及び
Q(k)にセツトされる。次にステツプ1035において、
全ての符号が比較されたか調べられる。終了してない場
合は、信号K(r)*、P(r)*、及びQ(r)*は
変更されないままとされ、ステツプ1025から直線にステ
ツプ1035に進む。ステツプ1035において、k>Kmaxとな
るまでインデツクス信号kが増分され(ステツプ104
0)、ステツプ1010に再び進む。k>K maxとなると、信
号K(r)*が格納され、ステツプ1045において、スケ
ール因子係数信号γ*が生成される。誤り/スケール因
子信号プロセツサ内で処理された符号に対するインデツ
クス信号K(r)*及びスケール因子信号γ(r)*は
共通データ メモリ450内に格納される。次にステツプ1
050に入いり、STEER制御信号が制御プロセツサ435に送
くられ、誤り/スケール因子信号プロセツサ内での変換
符号の選択が完了したことが通知される(第6図のステ
ツプ640)。 プロセツサ420−1から420−R内での比較の結果とし
て得られる信号P(r)*、Q(r)*、及びK(r)
*は共通データ メモリ450に格納され、最小誤り/多
重処理装置455に送くられる。プロセツサ455は第11図の
流れ図に従つて動作し、蓄積器440内のインデツクスK
*を持つ最も一致する統計的符号を選択する。このイン
デツクスはプロセツサ420−1から420−Rに対する信号
K*(1)からK*(R)によつて示される最良の非定
符号から選択される。このインデツクスK*は最小エラ
ーの信号を与える統計的符号に対応する。第11図のステ
ツプ1101に示されるように、プロセツサ455は制御プロ
セツサ435からプロセツサ420−1から420−1がSTEER信
号を送つたことを示す信号を受信することによつて起動
される。信号r、K*、P*、及びQ*がそれぞれ初期
の値である1にセツトされ、信号P(r)*、Q(r)
*、K(r)*及びγ(r)*が共通データ メモリ45
0から読み出される(ステツプ1110)。ステツプ1115に
よつて現在の信号P(r)*及びQ(r)*がよく一致
する統計的符号信号を与えることが決定されると、これ
ら値は現在のフレームに対するK*、P*、Q*、及び
γ*として格納され、次に判定1125に進む。R番目のセ
ツトの信号K(R)*、P(R)*、Q(R)*が処理
されるまで、ステツプ1110がステツプ1130を増分するこ
とによつて反復して遂行され、これが最良であると考え
られる全ての候補が評価されるまで行なわれる。R番目
のセツトの信号の処理が終わると、現在のフレームに対
して選択されたインデツクスK*、及び対応するスケー
ル因子信号γ*が共通データ メモリ450内に格納され
る。 この時点において、共通データ メモリ内に現在の時
間フレーム音声符号を生成するための全ての信号が揃
う。信号プロセツサ内で次の時間フレーム期間において
前述したごとく現在の時間フレームの先行フレーム成分
を除去するのに使用される現在のフレーム励起符号の寄
与ck*(n)を生成することが必要である。これはス
テツプ1135において行なわれるが、ここで、信号δ
(n)及びy(n)が更新される。 現在のフレームに対する予測パラメータ信号及び信号
K*及びγ*が次にメモリ450から読み出され(ステツ
プ1140)、次にこれら信号が当技術において周知のよう
にフレーム伝送符号セツトに変換される(ステツプ114
5)。次に現在のフレーム終了伝送信号FETが生成され、
制御プロセツサ435に送くられ、プロセツサ435に次のフ
レーム信号の開始が通知される(第6図のステツプ65
0)。 通信システム内で使用される場合は、この時間フレー
ムの符号化音声信号はセツトのLPC係数a(k)、セツ
トのピツチ予測係数β(1)、β(2)、β(3)、及
びm、並びに統計的符号インデツクス信号K*及びスケ
ール因子信号γ*から構成される。当技術において周知
のごとく、予測復号器回路は個々の音声の時間フレーム
の励起信号を人間の音声器官のモデルである1つあるい
は複数のフイルタに送くる。本発明の一面によると、こ
の励起信号は第2図及び第3図あるいは第4図の回路の
音声符号器との関連において説明されたごとく、格納さ
れた非定符号の1つである。この統計的符号は個々がレ
ジスタ内に格納された1024個の乱数g(1)、g
(2)、…、g(1063)のシーケンスから得られる40個
のセツトの乱数を含む1024個の符号のセツトから構成さ
れる。この統計的符号はテーブル1に示されるように重
複して配列された40個の要素を含む。 第1図に示されるように、個々の符号は40個の乱数の
シーケンスを持ち、これら乱数は個々の連続の符号が先
行符号の第2の数の位置から始まるように重複される。
テーブル1内の第1の項目はインデツクスk=1並びに
最初の40個の乱数のストリング、つまり、g(1)、g
(2)、…、g(40)を含む。従つて、後続の39個の位
置の符号は重複し、これら乱数特性に影響を与えること
なく蓄積要件を最小限にすることができる。この重複の
度合いは回路の動作に影響を与えることなく変更するこ
とができる。このストリングの信号g(1)からg(10
63)までの全体の平均は比較的に小さなことが要求され
る。この非定符号は必ずしも乱数である必要はなく、ま
た、これらの符号は必ずしも重複して配列する必要はな
い。従つて、セツトの一意の符号を定義する+1、−1
の非定シーケンスを使用することも可能である。 第12図の復号器あるいはシンセサイザ回路のデマルチ
プレクサ1201内のLPC係数信号a(k)、ピツチ予測係
数信号β(1)、β(2)、β(3)、及びm、並びに
統計的符号インデツクス信号K及びスケール因数信号γ
が分離される。ビツチ予測パラメータ信号β(k)及び
mはピツチ予測フイルタ1220に加えられ、LPC係数信号
はLPC予測フイルタ1225に加えられる。フイルタ1220及
び1225は当技術において周知であり前述の合衆国特許第
4,133,976号において説明されるように動作し、音声器
官の特性に従つてスケーラ1215からの励起信号を修正す
る。インデツクス信号K*は選択器1205に加えられる
が、これは統計的ストリング レジスタ1210にアドレス
する。インデツクス信号K*に応答して、その音声の時
間フレーム励起を最も良く表わす統計的符号がスケーラ
1215に加えられる。この統計的符号は実際の音声の強度
と無関係に時間フレーム音声パターンに対応する。スケ
ーラはこの統計的符号を音声フレームの励起の強度に従
つて修正する。この方法による励起信号の生成は伝送に
必要とされる励起ビツト速度を最小限に押さえ、また符
号が重複して蓄積されることから復号器の回路要件が軽
減され、広範囲の暗号技術を使用することが可能とな
る。スケーラ1215からの統計的符号信号が予測フイルタ
1210及び1225内で修正された結果として得られるデジタ
ル符号化信号はD/Aコンバータ1230に加えられ、ここ
で、一連のアナログ サンプルが生成される。これらサ
ンプルがロード パス フイルタ1235内でフイルタさ
れ、第2図及び第3図あるいは第4図の回路の符号器に
加えられた時間フレーム信号s(n)のリプリカが生成
される。 本発明鋭は音声合成にも使用できるが、この場合は、
音声パターンが第2図及び第3図あるいは第4図の回路
によつて示される統計的符号方法を使用して符号化され
る。音声シンセサイザは第12図の回路を含む。周知のデ
ータ処理装置からインデツクス信号K*が予測パラメー
タ信号とともに、次々と、生成される音声パターンに従
つて統計的ストリングレジスタ1210に加えられる。重複
する符号配列のために記憶要件が最小限にされ、従つて
広範囲の音声が生成でき、また統計的符号をインデツク
ス信号にて非常に効率的にアクセスすることが可能であ
る。同様に、本発明による後に再生するための音声メツ
セージの記憶は連続フレームの予測パラメータ及び励起
インデツクス信号の記憶のみが必要であり、再生された
メツセージの了解度を低下させることなく音声圧縮を向
上できる。 ここでは、本発明は本発明の特定の実施態様との関連
で説明されたが、本発明の精神及び範囲から逸脱するこ
となく各種の変更及び修正を加えることができることは
勿論である。
に関する。 音声記憶装置及び音声応答設備を含むデジタル音声通
信システムは記憶及び/あるいは伝送に要求されるビツ
ト速度を落すために信号の圧縮を行なう。当技術におい
て周知のごとく、音声パターンは見掛けの品質には重要
でない冗長を含む。音声パターンから冗長成分を除去す
ることによつて音声のリプリカを構成するのに必要なデ
ジタル符号を大きく減少することができる。ただし、音
声リプリカの主観的品質はこの圧縮及び符号化技術に依
存する。 1つの周知のデジタル音声符号化システム、例えば、
合衆国特許第3,624,302号に開示されるシステムは入力
音声信号の線形予測分析を含む。音声信号が5から20ミ
リ秒の間隔の連続の期間に分割され、この期間の音声を
表わすセツトのパラメータが生成される。このセツトの
パラメータはその期間内の音声のスペクトルの包絡線を
表わす線形予測係数信号、及びその音声の励起に対応す
るピツチ及び発生信号を含む。これらパラメータ信号は
音声信号の波形自体よりもかなり低いビツト速度にて符
号化できる。入力音声信号のリプリカがそのパラメータ
信号の符号から合成によつて生成される。シンセサイザ
装置は、通常、声帯のモデルを含むが、この中で個々の
連続の期間の励起パルスがオールポール予測フイルタ内
のこの期間のスペクトルの包絡線を表わす予測係数によ
つて修正される。 前述のピツチ励起線形予測符号化は非常に効率的であ
り、符号化ビツト速度を例えば64kb/sから2.4kb/sに落
とす。しかし、生成された音声リプリカの品質が悪く理
解が困難となる場合もある。一般的にいつて、この低い
音声品質は音声パターンと使用される線形予測モデルの
間の一致の悪さに起因する。ピツチ符号のエラーあるい
はある音声期間が発声されたか否かの決定のエラーは音
声リプリカにひずみあるいは不自然さを与える。音声の
フォーマツト符号化においても同様の問題が存在する。
音声励起が予測の後の残留から得られる別の符号化装
置、例えば、APCが励起が完全でないモデルに依存しな
いため大きな進歩である。しかし、これらシステムの励
起ビツト速度は線形予測モデルより少なくとも1桁高
い。残留タイプのシステムにおいて励起ビツト速度を落
すための試は、多くの場合、品質を大きく落す結果とな
る。 通信に関する国際会議−ICC'84の議事録(Proceeding
s of the International Conference on Communication
s−ICC'84)、1984年5月、ページ1610−1613に掲載の
ビヌスS.アトール(Bishns S.Atal)及びマンフレツド
スクローダ(Manfred Schroeder)らによる論文〔非
常に低ビツト速度での音声信号の統計的符号化(Stocha
stic Coding of Speech Signals at Very Low Bit Rate
s)は音声励起信号を生成するための統計的モデルを開
示する。この方法においては、音声波形がゆるやかに変
化するパワー スペクトルを持つゼロ平均のガウスの統
計的プロセスとして表わされる。最適ガウス刷新シーケ
ンスが典型的には5ミリ秒の期間の音声の波形セグメン
トと複数のランダムのガウスのイノベーシヨン シーケ
ンスから得られる合成音声の波形が比較される。知覚エ
ラー基準を最小限にするイノベーシヨン シーケンスが
そのセグメントの音声の波形を表わすものとして選択さ
れる。この論文において説明される統計的モデルは音声
波形励起信号を低ビツト速度符号化を実現するが、適切
な選択には多数のイノベーシヨン シーケンスが要求さ
れる。最良のイノベーシヨン シーケンスを選択するた
めに要求される信号処理はこのイノベーシヨン信号を符
号化するための莫大な探索手順を伴なう。問題は4.8Kbi
t/secの符号生成に対応する符号ビツト速度に対するこ
のような探索は大きな高速科学コンピユータによつて処
理したとしても非常に時間を費やすことである。 発明の概要 この問題は本発明によつて音声アラナイザのイノベー
シヨン シーケンスの統計的あるいは他の非定符号の膨
大な探索に代りにこの統計的符号を変換領域符号信号に
変換し個々の時間フレーム期間に対する変換符号からセ
ツトの変換領域パターンを生成する装置を使用すること
によつて解決される。変換領域の符号パターンが入力音
声から得られた時間期間の音声パターンと比較され、最
も一致する統計的符号が選択され、この最も一致する統
計的符号に対応するインデツクス信号がその時間フレー
ム期間の音声を表わすものとして出力される。変換領域
での処理は符号選択のために必要とされる繁雑さ及び所
要時間を削減する。 インデツクス信号が音声復号器に加えられる。復号器
はこれを使用してそこに格納された統計的符号の1つを
選択する。予測音声シンセサイザ内において、この統計
的符号は時間フレーム期間音声パターン励起信号を表わ
し、これによつて符号ビツト速度が時間フレームのイン
デツクス信号及び予測パラメータに要求されるビツト速
度に落される。この統計的符号は記憶要件を減少するた
めの統計的数のストリングの所定の重複セグメントであ
つてもよい。 本発明は音声メツセージを処理するための装置に関す
るが、この装置内でセツトの非定値符号信号、例えば、
乱数並びにこの非定値符号信号を同定するインデツクス
信号及び非定値符号の変換されたものを表わす信号が生
成される。音声メツセージが時間フレーム期間の音声パ
ターンに分割され、個々の連続の時間フレーム期間の音
声パターンを表わす第1の信号がこの分割された音声に
応答して生成される。変換領域の符号信号から生成され
た時間フレーム期間のパターンを表わす複数の第2の信
号が生成される。この時間フレーム期間の第1の信号及
び第2の信号の両方に応答して個々の時間フレーム期間
に対して非定値符号信号の1つが選択され、この選択さ
れた変換領域信号に対応するインデツクス信号が出力さ
れる。 本発明の一面によると、第1の信号の生成には現在の
時間フレーム期間の音声パターンに対応する変換領域の
信号である第3の信号の生成が含まれ、個々の第2の信
号の生成にはこの変換領域の符号信号に応答して1つの
時間フレーム期間のパターンに対応する変換領域の信号
である第4の信号の生成が含まれる。非定符号の選択に
はこの第3の信号と第4の信号の間の一致度を表わす信
号の生成及び最大の一致度を持つ第4の信号に対応する
インデツクス信号の決定が含まれる。 本発明のもう一面によると、この変換領域符号信号は
非定符号から得られる周波数領域変換符号である。 本発明のさらにもう一面によると、変換領域符号信号
は非定符号のフーリエ変換符号である。 本発明のさらにもう一面によると、音声メツセージが
出力されたインデツクス信号のシーケンスを受信するこ
とによつて生成されるが、このインデツクス信号は各々
が所定の非定符号を同定する。個々のインデツクス信号
は1つの時間フレーム期間の音声パターンに対応する。
この非定符号が受信されるインデツクス信号のシーケン
スに応答して連結され、連結された符号に応答して音声
メツセージが生成される。 本発明のさらにもう一面によると、音声メツセージが
インデツクス信号によつて同定される所定のセグメント
を持つ非定値符号信号のストリングを使用して生成され
る。このストリングの所定のセグメントを同定する信号
のシーケンスが受信される。このシーケンスの個々の信
号は連続の時間フレーム期間の音声パターンに対応す
る。この非定符号ストリングの所定のセグメントが受信
された同定信号のシーケンスに応答して選択され、選択
された非定符号が連結されて、音声メツセージのリプリ
カが生成される。 本発明のさらにもう一面によると、このストリングの
非定値信号シーケンスは重複するシーケンスである。 概括説明 第1図は励起信号のために統計的符号を使用するよう
に構成された先行技術によるデジタル音声符号器を示
す。第1図に示されるように、マイクロホン101に加え
られた音声パターンは、当技術において周知のように、
この中で音声信号に変換され、フィルタ/サンプラ105
内でバンド バス フイルタリング及びサンプリングさ
れる。結果としてのサンプルはA/Dコンバータによつて
デジタル符号化音声信号s(n)を得るためにデジタル
符号に変換される。信号s(n)はLPC/ピツチ予測アナ
ライザ115内で処理される。この処理には符号化された
サンプルの連続の音声フレーム期間への分割及び個々の
連続フレーム内の信号s(n)に対応するセツトのパラ
メータ信号の生成が含まれる。パラメータ信号a
(1)、a(2)、…、a(p)は短時間遅延相関、つ
まり、この期間の音声パターンのスペクトルと関連る特
性を表わし、パラメータ信号β(1)、β(2)、β
(3)、及びmは長時間遅延相関、つまり、この音声パ
ターンのピツチと関連する特性を表わす。このタイプの
符号器内においては、音声信号はフレームあるいはブロ
ツク、例えば、5ミリ秒の期間あるいは40個のサンプル
に分割される。このブロツクに対して、統計的符号蓄積
器120は1024のランダムのホワイト ガウス符号語シー
ケンスを含むが、個々のシーケンスは一連の40個の乱数
から構成される。個々の符号語には、フィルタリングの
前に、スケーラ125内でこの5ミリ秒のブロツクに対し
て一定の因子γが掛けられる。音声適応が遅延予測フイ
ルタ135及び145内で遂行されるが、これは反復的に行な
われる。 フイルタ135は長時間の蓄積(2から15ミリ秒)の予
測子を使用して合成音声信号内に音声の反復性を導入
し、フイルタ145は短時間の蓄積(2ミリ秒以下)の予
測子を使用して合成音声信号内にスペクトル包絡線を導
入する。このフイルタは、IEEE トランザクシヨンズ
オン コミユニケーシヨンズ(IEEE Transactions on C
ommunications)、Vol.COM−30、1982年4月、ページ60
0−514にB.S.アトール(B.S.Atal)らによつて紹介の論
文〔定ビツト速度での音声の予測符号化(Predicitive
coding of speechat low bit rates)〕において説明さ
れている。引き算器150に加えられる元の音声信号s
(n)とフイルタ145から加えられる合成音声信号s
()との間の差を表わすエラーがさらに知覚重み付け
フイルタ155内で処理され、このエラーが知覚的にあま
り重要でない周波数成分が減衰され、このエラーが知覚
的に重要である周波数成分が増幅される。最小平均2乗
主観エラー信号E(k)及び対応する最適スケール因子
γを生成する蓄積器120からの統計的符号シーケンスは
蓄積器120内の1024個の符号語シーケンスの全てが処理
された後にはじめてピーク摘出器170によつて選択され
る。 第1図の回路の符号語処理を分析する目的で、フイル
タ135及び145並びに知覚重み付けフイルタ155は1つの
線形フイルタに結合することもできる。その等価のフイ
ルタのインパルス応答はシーケンスf(n)によつて表
わすことができる。現在の5ミリ秒期間においては、当
技術において周知のごとく、フイルタ出力の一部が先行
フレームに由来する信号と対応するため、この等価のフ
イルタ出力の一部のみがその入力と比較される。先行フ
レームからのフイルタ蓄積は現在のフレームの最適イノ
ベーシヨン シーケンスを捜す役割は果さない。従つ
て、現在のフレームのフイルタ出力への先行蓄積の寄与
が統計的蓄積器120からの最適符号語の決定のために音
声信号から除去される。先行フレームに由来するフイル
タ蓄積の寄与を除去した後の残留値は信号x(n)によ
つて表わされる。現在のフレーム内の蓄積器120からの
k番目の符号語によつて寄与されるフイルタ出力は以下
によつて表わされる。 ここで、c(k)(i)はk番目の符号語の1番目のサン
プルである。式(1)は行列式にて以下のように書くこ
とができる。 (k)=ν(k)Fc(k), (2) ここで、FはNxNの行列であり、n番目の行及びi番
目の列内の項はf(n−i)によつて与えられる。x
(n)とx (n)の間の差を表わす2乗されたエラー
の総和E(k)は、以下によつて与えられる。 E(k)=‖x−ν(k)Fc(k)‖2, (3) ここで、スペクトルxはベクトル表記法による信号x
(n)の表わし、そして| |2は2乗されたベクトル成
分の総和を表わす。エラーE(k)を最小にする最適ス
ケール因子γ(k)はδE(k)/δγ(k)=0とセ
ツトすることによつて簡単に決定できるが、これから以
下が導かれる。 最適符号語はE(k)の最小を発見すること、つまり
式(5)の右側の第2の項の最大を発見することによつ
て得られる。 第1図との関連で説明された信号処理は比較的に単純
であるが、式(5)の1024個のエラー信号E(k)の生
成は時間のかかる動作であり、現在知られている高速大
規模コンピユータ内でリアル タイムにて達成すること
は不可能である。第1図の探索処理の複雑さはエラーE
(k)内の行列Fによつて表わされるたたきこみ演算の
存在に起因する。この複雑さは行列Fを直交行列によつ
て置換することによつて減少される。これは、G.W.スチ
ユワート(G.W.Stewart)による参考書〔行列計算の初
歩(Introduction to Matrix Computations)〕、アカ
デミツク プレス、1973年、ページ 317−320において
説明されているごとく、特異値分解を使用して行列Fを
直交形式によつて表わすことによつて達成できる。 F=UDVt, (6) であると仮定する。ここで、U及びVは直交行列であ
り、Dは正の要素を持つ直交行列であり、VtはVの移項
を示す。すると、Uの直交性より、式(3)は以下のよ
うに書くことができる。 E(k)=‖Ut(x−ν(k)Fc(k)‖2. (7) ここで、Fを式(6)によつて表わされる直交形式に
て置換すると以下が得られる。 E(k)=‖Utx−ν(k)DVtc(k)‖2. (8) または式(8)に z=Utx 及び b(k)=Vtc(k), (9) を代入すると、以下が得られる。 上に同様に、E(k)を最小にする最適γ(k)はδ
E(k)/δγ(k)=0にセツトすることによつて決
定でき、式(10)は以下のように簡素化することができ
る。 式(11)によつて表されるエラー信号は式(5)の数
式よりもかなり速く処理することができる。Fc(k)が
オーダー(p)(典型的には20)の反復フイルタ内で処
理されると、式(11)に従がう処理は統計的符号化に要
求される処理時間要件を大きく減少する。 別の方法として、式(5)の演算を時間領域から変換
領域、例えば、周波数領域に拡張することによつても処
理時間を短縮することができる。長時間遅延予測が排除
された合成フイルタと知覚重み付けされたフイルタの結
合インパルス応答がシーケンスh(n)によつて表わさ
れるものとすると、現在のフレーム内のk番目の符号語
によつて寄与されるフイルタ出力は入力γ(k)c
(k)(n)とインパルス応答h(n)との間のたたきこ
みとして表わすことができる。フイルタの出力は以下に
よつて与えられる。 (k)(n)=ν(k)h(n)*c(k)(n) (12) このフィルタ出力は周波数領域にて以下のように表わ
すことができる。 (k)(i)=ν(k)H(i)C(k)(i) (13) ここで、(k)(i)、H(i)及びC(k)(i)はそ
れぞれx(k)(n)、h(n)及びc(k)(n)の離散フー
リエ変換(DFT)である。実施においては、フイルタ出
力の期間は10ミリ秒の期間に限定され外側は0であると
みなすことができる。従つて、80ポイントを持つDFTは
式(13)を表わすのに十分に正確である。2乗されたエ
ラーの総和は周波数領域表現では以下のように表わされ
る。 ここで、X(i)はx(n)のDFTである。ここで、 及び とすると、式(14)は以下のように変換できる。 ここでも、スケール因子γ(k)を式(17)から除去
することができ、総エラーは以下によつて表わすことが
できる。 ここでζ(i)*はζ(i)の複素共役である。周波
数領域探索は行列Fの特異値分解が離散高速フーリエ変
換値によつて置換され、全体的な処理の繁雑さが大きく
減少されるという長所を持つ。特異値分解あるいは離散
フーリエ変換処理を使用する変換領域においては、この
探索をd(i)(あるいはb(i))の大きな値に対応
する周波数(あるいは固有ベクトル)のサブセツトに制
限することによつて計算負荷の節約がさらに達成され
る。本発明によると、処理が大きく削減され、マイクロ
プロセツサ集積回路によるリアル タイム動作が実現可
能となる。これはイノベーシヨン符号に応答して生成さ
れる合成音声信号と第1図の入力音声信号との間のエラ
ーの生成に関与する時間領域処理を前述の変換領域処理
と置換することによつて達成される。 細部説明 本発明の一例としての励起信号を励起するための非定
の符号を使用する変換領域デジタル音声符号器が第2図
及び第3図に示される。この非定の符号は乱数シーケン
スの形式をとることも、あるいは、例えば、非定の順番
の+1と−1の変化するシーケンスでもありうる。シー
ケンス全体の平均が小さくなるという緩い制約が満たさ
れれば、変化するシーケンスの非定の配列を使用するこ
とができる。第2図に示されるように、音声パターン、
例えば、会話メツセージがマイクロホン トランジユー
サ201によつて受信され、フイルタ/サンプラ203内でバ
ンド制限されパルス サンプルのシーケンスに変換さ
れ、A/D変換器205を介して線形予測係数(LPC)アナラ
イザ209に供給される。このフイルタリングは当技術に
おいて周知のように4.0KHz以上の音声信号の周波数成分
を除去するように構成され、サンプリングは8.0KHzの速
度にて行なわれる。回路203からの個々のサンプルはA/D
変換器内の振幅を表わすデジタル符号に変換される。こ
のデジタル符号音声サンプルのシーケンスはLPCアナラ
イザ209に供給される。アナライザ208は、当技術におい
て周知のごとく、この音声信号を5から20msの時間フレ
ーム期間に分割し、個々のフレームの音声サンプルの予
測短時間スペクトルを表わすセツトの線形予測係数信号
a(k)、k=1、2…p、を生成する。アナライザは
また以下の式によつて表わされる知覚重み付けされた線
形予測係数信号を生成する。 b(k)=ka(k),k=1,2,…,p, (19) ここで、pは予測係数の数を表わす。 A/D変換器205からの音声サンプルは遅延回路207内で
音声パラメータ信号a(k)を形成するための時間の調
節のために遅延された後予測残留信号発生器211の入力
に供給される。予測残留信号発生器は、当技術において
周知のごとく、遅延された音声サンプルs(n)及び予
測パラメータa(k)に応答して音声サンプルとこれら
の予測値の間の差に対応する信号δ(n)を生成する。
予測アナライザ209内での個々のフレームに対する予測
パラメータ及び予測残留信号の生成は合衆国特許第3,74
0,476号において開示される装置、あるいは当技術にお
いて周知の他の装置によつて遂行される。 予測残留信号発生器211は、以下の式に従つて、サン
プル信号s(n)からフレーム信号の予測部分を引くこ
とによつて信号δ(n)を生成する。 ここで、pは予測係数の数、例えば、12であり、Nは
音声フレーム内のサンプルの数、例えば、40であり、そ
してa(k)はフレームの予測係数である。予測残留信
号δ(n)はそのフレームの音声信号から短期間冗長を
除去したものに相当する。数個の音声フレームのオーダ
ーの長期間冗長がこの予測残留信号内にとどまり、合衆
国特許第4,354,057号において説明されるように、予測
パラメータβ(1)、β(2)、β(3)及びこれら長
期間冗長に対応するmが予測ピツチ アナライザ220内
で生成される。ここでmは以下を最大化する整数であり そして、β(1)、β(2)、β(3)は以下を最小化
する整数である。 周知のごとく、デジタル音声エンコーダは個々の連続
のフレーム、及び予測フレーム残留を復号器に伝送する
ためあるいは後の探索のために格納するために符号化す
ることによつて生成される。予測パラメータを符号化す
るためのビツト速度は比較的遅が、残留の非冗長特性か
ら非常に高ビツト速度が要求される。本発明において
は、最適非定符号ck*(n)がフレーム励起を表わす
ように選択され、選択された非定励起符号の指数を示す
信号K*が送信される。この方法によつて、了解度に悪
影響を与えることなく、音声符号ビツト速度が最小限に
される。非定符号が選択プロセスを軽減しマイクロプロ
セツサによつてリアルタイマにて遂行できるように変換
領域内で選択される。 励起に対する非定符号の選択は、予測残留をフレーム
の知覚重み付けされた線形予測パラメータと結合して信
号y(n)を生成することからなる。この知覚重み付け
された音声信号に対応する音声パラメータ信号y(n)
は前のフレームに由来する成分(n)を含む。この前
のフレーム成分(n)は選択プロセスの前に蓄積され
た非定符号が現在のフレーム励起に対してのみ比較され
るように除去される。信号y(n)は予測フイルタ217
内でフレームの知覚重み付けされた予測パラメータ及び
予測残留信号に応答して、以下の式に従つて生成されy
(n)蓄積器227内に蓄積される。 先行フレーム音声寄与信号y(n)は先行フレーム寄
与信号発生器222内で現在のフレームの知覚重み付けさ
れた予測パラメータ信号b(k)、ピツチ予測パラメー
タβ(1)、β(2)、β(3)及び蓄積器230から得
られるmから生成され、以下に従つて選択される。 a(n)=β(1) a(n−m−1)+ β(2) a(n−m)+β(3) a(n−m+1)
(24a) 及び ここで、 ≦0及び( )、≦0は過去のフレーム成分を表わ
す。発生器222は式24の信号を生成するための周知のプ
ロセツサから構成される。蓄積器240の過去のフレーム
音声寄与信号(n)が引き算回路247内で蓄積器227の
知覚重み付けされた信号から引かれ、過去のフレーム成
分が除去された現在のフレーム音声パターン信号が生成
される。 x(n)=y(n)−(n) n=1,2,…,N (25) 引き算回路247からの差信号x(n)が次に離散フー
リエ変換(DFT)発生器250内で以下のように周波数領域
信号に変換される。 ここで、NfはDFTポイントの数、例えば、80である。D
FT変換発生器は合衆国特許第3,588,460号に開示される
ように動作する。あるいは非定の周知の離散フーリエ回
路から構成することもできる。 現在の音声フレームに対して複数の非定励起符号の1
つを選択するためには、知覚重み付けされたLPCフイル
タが励起符号に与える影響を考慮することが必要であ
る。これはフイルタのインパルス応答を表わす信号を以
下の式、つまり に従つて生成し、このインパルス応答を以下のように離
散フーリエ変換によつて周波数領域信号に変換すること
によつて行なわれる。 知覚重み付けされたインパルス応答信号h(n)はイ
ンパルス応答発生器225内で生成され、周波数領域信号
H(i)への変換はDFT発生器245内で遂行される。 この周波数領域インパルス応答信号H(i)及び前の
フレーム寄与を除去された周波数領域知覚重み付け音声
信号X(i)は第3図内の変換パラメータ信号コンバー
タ301に加えられ、ここで、信号d(i)及びζ(i)
が以下に式に従つて生成される。 d(i)及びζ(i)によつて表わされる現在の音声
フレーム励起信号と比較される非定符号は統計的符号蓄
積器330内に蓄積される。個々の符号はN個、例えば、4
0個のシーケンスのデジタル符号信号c(k)(1)、c(k)
(2)、…、c(k)(40)を含む。これら信号は総平均が
比較的に小さいという緩い制約内で任意に選択された数
のセツトであつても、あるいはランダムに選択されたデ
ジタル符号信号であつてもよい。さらに、この制約を満
足すれば、当技術において周知の他の符号の形式をとる
こともできる。このセツトの信号c(k)(n)は第2図の
符号器装置に悪影響を与えることなく記憶要件を最小限
をするために重複された個別の符号から構成することも
できる。変換領域符号蓄積器305は蓄積器330内の以下の
式に従つて生成されるフーリエ変換周波数領域の符号の
形式を持つ。 ここでは、変換符号信号が蓄積されるが、蓄積された
非定符号から変換信号を生成する当技術において周知の
他の装置を使用することもできる。周波数領域符号は実
及び虚数成分の信号を含むため、周波数領域符号C
(k)(i)には対応する時間領域符号c(k)(n)の2倍
の要素が含まれる。 変換領域符号蓄積器305からの個々の符号出力C
(k)(i)はK個の誤り/スケール因子発生器315−1か
ら315−Kの1つに加えられ、変換された非定符号がパ
ラメータ信号コンバータ301から得られる時間フレーム
に対する信号d(i)及びζ(i)によつて表わされる
時間フレーム音声信号と比較される。第5図は誤り/ス
ケール因子発生器315−Kに対する誤り及びスケール因
子を生成するのに使用される装置をブロツク図にて示
す。第5図に示されるように、非定符号シーケンスC(k)
(1)、C(k)(2)、…、C(k)(N)が音声パターン相
互相関器501及び音声パターン エネルギー係数発生器5
05に供給される。変換パラメータ信号コンバータ301か
らの信号d(i)は相互相関器501及び正規化器505に供
給され、一方、コンバータ301からのζ(i)は相互相
関器501に供給される。相互相関器501は以下の式によつ
て表わされる信号を生成する。 これは過去のフレーム成分が除去された音声フレーム
信号ζ(i)と変換された非定符号から派生されるフレ
ーム音声信号d(i) Ck(i)との相関を表わす。一
方、2乗化回路510は以下によつて表わされる信号を生
成する。 符号シーケンスc(n)を使用してのエラーが割り算
器回路515内で相互相関器501及び正規化器505の出力に
応答して以下の式に従つて現在の音声時間フレームにつ
いて生成される。 そして、スケール因子が割り算器520内で相互相関器
回路501及び正規化器505の出力に応答して以下の式に従
つて生成される。 第5図の相互相関器、正規化器及び割り算器回路は周
知の論理回路要素から構成され、後に説明されるように
1つのデジタル信号プロセツサに組立てられる。現在の
フレームの音声パターンの特性と最も合致する非定符号
が第3図の符号選択器320内で選択され、選択された符
号のインデツクスK*並びにその符号に対するスケール
因子λ(K*)がマルチプレクサ325に供給される。こ
のマルチプレクサは励起符号信号K*及びλ(K*)を
現在の音声時間フレームLPCパラメータ信号a(K)及
びピツチ パラメータ信号β(1)、β(2)、β
(3)及びmとを伝送あるいは蓄積するのに適する形式
に結合する。インデツクス信号K*も選択器325に供給
され、そのインデツクスに対する時間領域符号が蓄積器
330から選択される。こうして選択された時間領域符号C
k *(n)は第2図内の先行フレーム寄与発生器222に供
給され、ここでこれは、以下の式に従つて、次の音声時
間フレーム処理のための信号y(n)を生成するのに使
用される。 第4図は本発明による音声符号器装置を示す。第2図
及び第3図との関連で説明された演算はプロセツサ435
の制御下において一連のデジタル信号プロセツサ405、4
10、415、及び4201から420−Kによつて遂行される。プ
ロセツサ405は第2図のLPCアナライザ209、LPC及び重み
付けされたLPC信号蓄積器213及び215、予測残留信号発
生器211、及びヒツチ予測アナライザ220と関連する予測
係数信号処理を遂行するのに使用される。予測残留信号
プロセツサ410は予測フイルタ217、先行フレーム寄与信
号発生器222、引き算器247及びインパルス応答発生器22
5との関連で説明の機能を遂行する。変換信号プロセツ
サ415は第2図のDFT発生器245及び250、及び第3図の変
換パラメータ信号コンバータ301の演算を遂行する。プ
ロセツサ420−1から420−Kは第3図の誤り/スケール
係数発生器315−1から315−Kから得られるエラー及び
スケール因子信号を生成する。 個々のこれらデジタル信号プロセツサにはIEEEジヤー
ナル オブ ソリツド ステート サーキツツ(IEEE J
ournal of Solid State Circuits)、Vol.SC20、NO.5、
1985年10月号、ページ998にP.ハイズ(P.Hays)らによ
って発表の論文〔32ビツトVLSIデジタル信号プロセツサ
(A 32 Bit VLSI Digital Processor)〕に説明のWEO D
Sデジタル信号プロセツサを使用することができる。ま
た、制御プロセツサには、参考書〔MC68000 16ビツト
マイクロプロセツサ、ユーザーズマニユアル(MC68000
16 Bit microprocessor User's Manual)〕、第2版、
モトローラ社(Motorola Inc.)、1980年出版に説明の
モトローラ タイプの68000マイクロプロセツサ及び関
連する回路を使用することができる。個々のデジタル信
号プロセツサは、それと関連する演算のためにデータを
格納するためのメモリ、例えば、予測係数信号プロセツ
サ405に接続されたデータ メモリ408を持つ。共通デー
タ メモリ450は他のデジタル プロセツサの動作に必
要なあるデジタル信号プロセツサからの信号を格納す
る。共通プログラム蓄積器430は制御プロセツサ435及び
デジタル信号プロセツサによつてタイミングの目的及び
第4図の符号化機能を遂行するために使用される一連の
永久的に内蔵された命令信号を持つ。統計的符号信号蓄
積器440は読出し専用メモリであり、第3図との関連で
説明の乱数符号▲(k n▼)を含む。変換符号信号蓄積器
445はもう1つの読出し専用メモリであり、蓄積器440内
の符号と対応するフーリエ変換された周波数領域符号信
号を保持する。 第4図の符号器は通信システムの一部を構成すること
も考えられる。この場合は、ここでマイクロホン401に
加えられた会話が低ビツト速度デジタル信号、例えば、
4.8kb/sに符号化され、通信リンクを介してこの非定符
号インデツクス及びフレーム パラメータ信号を復号す
る受信機に送信される。一方、第4図の符号器の出力は
後に復号するために格納及び前送りシステム内に格納さ
れる場合も、あるいは後に説明のタイプの音声シンセサ
イザ内で使用するために読出し専用メモリ内に格納され
る場合もある。第6図の流れ図に示されるように、制御
プロセツサ435はスイツチあるいは他のデバイス(図示
なし)からの手操作信号STによつて符号器の動作を起動
される。第4図のデジタル信号プロセツサの1つの時間
フレーム期間に対する予測パラメータ信号及び励起符号
信号K*及びγ*を生成する全ての動作はその時間フレ
ーム期間内に起こる。オフ スイツチがセツトされると
(ステツプ601)、信号TSが予測係数プロセツサ405を起
動するために生成され、プロセツサ405の動作を制御す
るために共通プログラム蓄積器430内の命令がアクセス
される。マイクロホン401に加えられる音声がフイルタ
/サンプラ406内でろ波及びサンプリングされ、A/Dコン
バータ404内でデジタル信号のシーケンスに変換され
る。プロセツサ405はコンバータ404からデジタル的に符
号化されたサンプル信号を受信し、このサンプルを受信
される順に時間フレーム セグメントに分割し、この一
連のフレーム サンプルを第7図のステツプ705によつ
て示されるようにデータ メモリ408内に格納する。ス
テツプ710に示されるように、現在の時間フレームに対
する短時間遅延係数信号a(k)及び知覚重み付けされ
た短時間遅延信号b(k)が前述の特許第4,133,476号
及び式(19)に従つて生成される。ステツプ715におい
て、現在のフレームの予測残留信号δ(n)が式20に従
つて現在のフレーム音声サンプルs(n)及びLPC係数
信号a(k)から生成される。ステツプ715の動作が完
了すると、制御プロセツサ435に短時間遅延分析終了(S
TELPC)信号が送くられる(ステツプ720)。このTELPC
信号は第6図のステツプ615に示されるようにプロセツ
サ410の動作を開始するのに使用される。次に、ステツ
プ725に示されるように、式21及び22に従つて長時間遅
延係数信号β(1)、β(2)、β(3)及びmが生成
され、予測係数分析終了信号STEPCAが生成される(ステ
ツプ730)。プロセツサ405は前述の特許第4,133,976号
に説明されるように予測係数信号を生成するのに使用さ
れる。現在の音声フレームの信号a(k)、b(k)、
δ(n)、及びβ(n)並びにmは残留信号処理に使用
するために共通データ メモリ450に送くられる。 プロセツサ405内で現在のフレームのLPC係数信号が生
成されると、制御プロセツサ435はSTELPC信号に応答し
て第8図のステツプ801に示されるように予測残留信号
プロセツサを起動する。プロセツサ410の動作は第8図
の流れ図に示されるように共通プログラム蓄積器430の
制御下で遂行される。第8図に示されるように、現在の
フレームの知覚重み付けされた信号y(n)がステツプ
805において式(23)に従つて生成及び格納される。ス
テツプ810において、式(24)に従つて、長時間遅延予
測寄与信号δ(n)が生成される。ステツプ815におい
て、短時間遅延予測寄与信号(n)が生成される。ス
テツプ820において信号y(n)から信号(n)を引
くことによつて先行フレームの成分が除去された現在の
フレームの音声パターン信号(x(n))が生成され、
前述の特許第4,133,476号に説明されるようにLPC係数信
号a(k)からインパルス応答信号h(n)が生成され
る(ステツプ825)。信号x(n)及びh(n)は変換
信号プロセツサ415に使用するために共通データ メモ
リ450に送くられ格納される。 現在の時間フレームに対する信号x(n)、h(n)
の生成が完了すると、制御プロセツサ435はプロセツサ4
10から信号STEPSPを受信する。制御プロセツサ435によ
つて信号STEPSP及びSTEPCAの両方が受信されると(第6
図のステツプ621)、変換信号プロセツサ415の動作が第
6図のステツプ625に示されるようにプロセツサ415にST
EPSP信号を送くることによつて開始される。プロセツサ
415は信号x(n)及びh(n)に関して離散フーリエ
変換演算を遂行することによつて周波数領域音声フレー
ムを表わす信号x(i)及びH(i)を生成する。第9
図に示されるように、信号STEPSPが検出されると(ステ
ツプ901)、x(n)及びh(n)信号が共通データ
メモリ450から読み出される(ステツプ905)。当分野に
おいて周知のフーリエ変換によつて信号X(i)が信号
x(n)から生成され(ステツプ910)、信号H(i)
がh(n)信号から生成される(ステツプ915)。DFTは
前述の特許第3,588,460号に開示の原理に従つて実現で
きる。次にステツプ920において式(29)に従つて信号
X(i)及びH(i)の音声フレームを表わす信号d
(i)及びζ(i)への変換がプロセツサ415によつて
遂行され、信号d(i)及びζ(i)が共通データ メ
モリ450に格納される。現在のフレームの変換予測処理
が終了すると、信号STETPSが制御プロセツサ435に送く
られる(ステツプ925)。ステツプ630において、信号ST
ETPSに応答して、制御プロセツサは誤り/スケール因子
信号プロセツサ420−1から420−Rを起動する(ステツ
プ635)。 現在のフレームに対する変換領域時間フレーム音声信
号がプロセツサ415内で生成され、共通データ メモリ4
50内に格納されると、誤り/スケール因子信号プロセツ
サ420−1から420−K内で現在のフレームの音声パター
ンも最も一致する統計的符号ck*(n)の探索動作が
遂行される。個々のプロセツサは蓄積器455内の1つあ
るいは複数(例えば100個)の変換領域符号に対応する
エラー及びスケール因子信号を生成する。このエラー及
びスケール因子信号の生成が第10図の流れ図に図解され
る。第10図に示されるように、制御信号STETPSの存在に
よつて(ステツプ1001)、処理される統計的符号を同定
するパラメータk、現在のフレームに対して選択された
統計的符号を同定するパラメータK*、現在のフレーム
に対して選択された符号の相互相関係数信号を同定する
パラメータP(r)*、及び現在のフレームに対して選
択された符号のエネルギー係数信号を同定するパラメー
タQ(r)*がセツトされる。 現在対象とされる変換領域非定符号C(k)(i)が変換
符号信号蓄積器445から読み出され(ステツプ1010)、
変換領域非定符号Ck(i)から得られる現在のフレーム
の変換領域音声パターン信号が信号d(i)及びC
k(i)から生成される(ステツプ1015)。信号d
(i)C(k)(i)は非定符号c(n)によつて生成され
たフレームの音声パターンを表わす。符号信号C
(k)(i)はフレーム励起に対応し、信号d(i)は人
間の音声器官を表わす予測フイルタに対応する。共通デ
ータ メモリ450内に格納される信号ζ(i)はマイク
ロホン401から得られる現在のフレームの音声パターン
を表わす。 信号d(i)C(k)(i)及びζ(i)を表わす2つの
変換領域音声パターンがステツプ1020において信号P
(k)を生成するために相互相関され、ステツプ1022に
おいて正規化の目的でエネルギー係数信号Q(k)が生
成される。そのフレームの実際の音声パターンからの統
計的符号フレーム音声パターンの現在の偏差がステツプ
1025において計算される。符号パターンと実際のパター
ンとの間のエラーが先行符号に対して計算された最良の
ものより小さい場合は、インデツクス信号K(r)*、
相互相関信号P(r)*及びエネルギー係数信号Q
(r)*がステツプ1030において、k、P(k)、及び
Q(k)にセツトされる。次にステツプ1035において、
全ての符号が比較されたか調べられる。終了してない場
合は、信号K(r)*、P(r)*、及びQ(r)*は
変更されないままとされ、ステツプ1025から直線にステ
ツプ1035に進む。ステツプ1035において、k>Kmaxとな
るまでインデツクス信号kが増分され(ステツプ104
0)、ステツプ1010に再び進む。k>K maxとなると、信
号K(r)*が格納され、ステツプ1045において、スケ
ール因子係数信号γ*が生成される。誤り/スケール因
子信号プロセツサ内で処理された符号に対するインデツ
クス信号K(r)*及びスケール因子信号γ(r)*は
共通データ メモリ450内に格納される。次にステツプ1
050に入いり、STEER制御信号が制御プロセツサ435に送
くられ、誤り/スケール因子信号プロセツサ内での変換
符号の選択が完了したことが通知される(第6図のステ
ツプ640)。 プロセツサ420−1から420−R内での比較の結果とし
て得られる信号P(r)*、Q(r)*、及びK(r)
*は共通データ メモリ450に格納され、最小誤り/多
重処理装置455に送くられる。プロセツサ455は第11図の
流れ図に従つて動作し、蓄積器440内のインデツクスK
*を持つ最も一致する統計的符号を選択する。このイン
デツクスはプロセツサ420−1から420−Rに対する信号
K*(1)からK*(R)によつて示される最良の非定
符号から選択される。このインデツクスK*は最小エラ
ーの信号を与える統計的符号に対応する。第11図のステ
ツプ1101に示されるように、プロセツサ455は制御プロ
セツサ435からプロセツサ420−1から420−1がSTEER信
号を送つたことを示す信号を受信することによつて起動
される。信号r、K*、P*、及びQ*がそれぞれ初期
の値である1にセツトされ、信号P(r)*、Q(r)
*、K(r)*及びγ(r)*が共通データ メモリ45
0から読み出される(ステツプ1110)。ステツプ1115に
よつて現在の信号P(r)*及びQ(r)*がよく一致
する統計的符号信号を与えることが決定されると、これ
ら値は現在のフレームに対するK*、P*、Q*、及び
γ*として格納され、次に判定1125に進む。R番目のセ
ツトの信号K(R)*、P(R)*、Q(R)*が処理
されるまで、ステツプ1110がステツプ1130を増分するこ
とによつて反復して遂行され、これが最良であると考え
られる全ての候補が評価されるまで行なわれる。R番目
のセツトの信号の処理が終わると、現在のフレームに対
して選択されたインデツクスK*、及び対応するスケー
ル因子信号γ*が共通データ メモリ450内に格納され
る。 この時点において、共通データ メモリ内に現在の時
間フレーム音声符号を生成するための全ての信号が揃
う。信号プロセツサ内で次の時間フレーム期間において
前述したごとく現在の時間フレームの先行フレーム成分
を除去するのに使用される現在のフレーム励起符号の寄
与ck*(n)を生成することが必要である。これはス
テツプ1135において行なわれるが、ここで、信号δ
(n)及びy(n)が更新される。 現在のフレームに対する予測パラメータ信号及び信号
K*及びγ*が次にメモリ450から読み出され(ステツ
プ1140)、次にこれら信号が当技術において周知のよう
にフレーム伝送符号セツトに変換される(ステツプ114
5)。次に現在のフレーム終了伝送信号FETが生成され、
制御プロセツサ435に送くられ、プロセツサ435に次のフ
レーム信号の開始が通知される(第6図のステツプ65
0)。 通信システム内で使用される場合は、この時間フレー
ムの符号化音声信号はセツトのLPC係数a(k)、セツ
トのピツチ予測係数β(1)、β(2)、β(3)、及
びm、並びに統計的符号インデツクス信号K*及びスケ
ール因子信号γ*から構成される。当技術において周知
のごとく、予測復号器回路は個々の音声の時間フレーム
の励起信号を人間の音声器官のモデルである1つあるい
は複数のフイルタに送くる。本発明の一面によると、こ
の励起信号は第2図及び第3図あるいは第4図の回路の
音声符号器との関連において説明されたごとく、格納さ
れた非定符号の1つである。この統計的符号は個々がレ
ジスタ内に格納された1024個の乱数g(1)、g
(2)、…、g(1063)のシーケンスから得られる40個
のセツトの乱数を含む1024個の符号のセツトから構成さ
れる。この統計的符号はテーブル1に示されるように重
複して配列された40個の要素を含む。 第1図に示されるように、個々の符号は40個の乱数の
シーケンスを持ち、これら乱数は個々の連続の符号が先
行符号の第2の数の位置から始まるように重複される。
テーブル1内の第1の項目はインデツクスk=1並びに
最初の40個の乱数のストリング、つまり、g(1)、g
(2)、…、g(40)を含む。従つて、後続の39個の位
置の符号は重複し、これら乱数特性に影響を与えること
なく蓄積要件を最小限にすることができる。この重複の
度合いは回路の動作に影響を与えることなく変更するこ
とができる。このストリングの信号g(1)からg(10
63)までの全体の平均は比較的に小さなことが要求され
る。この非定符号は必ずしも乱数である必要はなく、ま
た、これらの符号は必ずしも重複して配列する必要はな
い。従つて、セツトの一意の符号を定義する+1、−1
の非定シーケンスを使用することも可能である。 第12図の復号器あるいはシンセサイザ回路のデマルチ
プレクサ1201内のLPC係数信号a(k)、ピツチ予測係
数信号β(1)、β(2)、β(3)、及びm、並びに
統計的符号インデツクス信号K及びスケール因数信号γ
が分離される。ビツチ予測パラメータ信号β(k)及び
mはピツチ予測フイルタ1220に加えられ、LPC係数信号
はLPC予測フイルタ1225に加えられる。フイルタ1220及
び1225は当技術において周知であり前述の合衆国特許第
4,133,976号において説明されるように動作し、音声器
官の特性に従つてスケーラ1215からの励起信号を修正す
る。インデツクス信号K*は選択器1205に加えられる
が、これは統計的ストリング レジスタ1210にアドレス
する。インデツクス信号K*に応答して、その音声の時
間フレーム励起を最も良く表わす統計的符号がスケーラ
1215に加えられる。この統計的符号は実際の音声の強度
と無関係に時間フレーム音声パターンに対応する。スケ
ーラはこの統計的符号を音声フレームの励起の強度に従
つて修正する。この方法による励起信号の生成は伝送に
必要とされる励起ビツト速度を最小限に押さえ、また符
号が重複して蓄積されることから復号器の回路要件が軽
減され、広範囲の暗号技術を使用することが可能とな
る。スケーラ1215からの統計的符号信号が予測フイルタ
1210及び1225内で修正された結果として得られるデジタ
ル符号化信号はD/Aコンバータ1230に加えられ、ここ
で、一連のアナログ サンプルが生成される。これらサ
ンプルがロード パス フイルタ1235内でフイルタさ
れ、第2図及び第3図あるいは第4図の回路の符号器に
加えられた時間フレーム信号s(n)のリプリカが生成
される。 本発明鋭は音声合成にも使用できるが、この場合は、
音声パターンが第2図及び第3図あるいは第4図の回路
によつて示される統計的符号方法を使用して符号化され
る。音声シンセサイザは第12図の回路を含む。周知のデ
ータ処理装置からインデツクス信号K*が予測パラメー
タ信号とともに、次々と、生成される音声パターンに従
つて統計的ストリングレジスタ1210に加えられる。重複
する符号配列のために記憶要件が最小限にされ、従つて
広範囲の音声が生成でき、また統計的符号をインデツク
ス信号にて非常に効率的にアクセスすることが可能であ
る。同様に、本発明による後に再生するための音声メツ
セージの記憶は連続フレームの予測パラメータ及び励起
インデツクス信号の記憶のみが必要であり、再生された
メツセージの了解度を低下させることなく音声圧縮を向
上できる。 ここでは、本発明は本発明の特定の実施態様との関連
で説明されたが、本発明の精神及び範囲から逸脱するこ
となく各種の変更及び修正を加えることができることは
勿論である。
【図面の簡単な説明】
第1図は先行技術による統計的符号化装置を使用する音
声符号化装置を示す図; 第2図及び第3図は本発明による非定符号及び変換領域
処理を使用するデジタル音声符号化装置の全般ブロツク
図; 第4図は第2図及び第3図の示される回路の機能を遂行
するデジタル音声符号化信号処理装置の詳細なブロツク
図; 第5図は第3図の装置内に使用される誤り/スケール因
子発生器回路のブロツク図; 第6図から第11図は第4図の回路の動作を図解する流れ
図;そして 第12図は本発明による乱数符号のストリングが統計的符
号の重複シーケンスを形成する符号器回路のブロツク図
を示す。 <主要部分の符号の説明> インデツクス信号格納装置……120 音声パターン分割装置……110 第1の信号生成装置……115 変換領域符号信号生成装置……305 選択装置……315−1
声符号化装置を示す図; 第2図及び第3図は本発明による非定符号及び変換領域
処理を使用するデジタル音声符号化装置の全般ブロツク
図; 第4図は第2図及び第3図の示される回路の機能を遂行
するデジタル音声符号化信号処理装置の詳細なブロツク
図; 第5図は第3図の装置内に使用される誤り/スケール因
子発生器回路のブロツク図; 第6図から第11図は第4図の回路の動作を図解する流れ
図;そして 第12図は本発明による乱数符号のストリングが統計的符
号の重複シーケンスを形成する符号器回路のブロツク図
を示す。 <主要部分の符号の説明> インデツクス信号格納装置……120 音声パターン分割装置……110 第1の信号生成装置……115 変換領域符号信号生成装置……305 選択装置……315−1
フロントページの続き
(72)発明者 イサベル マリア マーチンズ トラン
コソ
ポルトガル国 2780 オエイラス,オウ
テイロ デ エス.ジュリアオ,4デ
ー,ローテ 4ビー,ブロコ ジー
(56)参考文献 特開 昭58−16297(JP,A)
ICASSP 1985年3月 937〜940
頁
M.R.Schroeder and
B.S.Atal「CODE−EXC
ITED LINEAR PREDIC
TION(CELP):HIGH−QU
ALLITY SPEECH AT V
ERY LOW BIT RATES」
Claims (1)
- (57)【特許請求の範囲】 1.音声を符号化するための装置であって、 各々がランダム符号を表す一組の信号(ck(i))およ
び各々が該ランダム符号の1つを識別する一組のインッ
デクス信号(K)を格納するための手段(330)と、 該音声を引き続く時間フレーム期間部分に分割し、およ
び各引き続く時間フレーム期間における音声の部分を表
す時間領域信号(x(n)、h(n))を形成するため
の手段(203ないし247、ただし245を除く)と、各その
ような時間領域信号から変換領域信号(X(i)、H
(i))を発生する手段(245、250)と、 各ランダム符号信号に応動してそれに対応する変換領域
符号信号(C(k)(i))を、変換領域信号を発生するた
めの前述の手段におけるのと同一のタイプの変換を介し
て発生するための手段(305)と、 各時間フレーム期間についての変換領域信号(H(i)
又はd(i)、X(i))又は(ζ(i))と該変換領
域符号信号(C(k)(i))の各々との相互相関をとり該
時間フレーム期間における音声部分の表示として最小の
誤差もしくは最大の類似度を与えるような該変換領域符
号信号の1つを選択し、該選択された変換領域符号信号
に対応するランダム符号信号に対応するインデックス信
号を出力するための手段(315および320、325又は501な
いし520および320)とを含むものである音声を符号化す
るための装置。 2.特許請求の範囲第1項に記載の音声を符号化するた
めの装置において、 該変換領域は周波数領域である音声を符号化するための
装置。 3.特許請求の範囲第1項または第2項に記載の音声を
符号化するための装置において、 該出力する手段は、該選択されたランダム符号信号に対
応するスケール因子(γ*(k))を該インデックス信
号(K*)と共に出力している音声を符号化するための
装置。 4.特許請求の範囲第1項、第2項又は第3項に記載の
音声を符号化するための装置において、 変換領域信号を発生するための該手段が該音声の部分に
ついての予測特性を表す変換領域信号(H(i))を発
生する手段(245)を含む音声を符号化するための装
置。 5.特許請求の範囲第4項に記載の音声を符号化するた
めの装置において、 該相互相関をとる手段が、 該予測パラメータを表す変換領域信号(X(i)又はζ
(i))、該予測特性を表す変換領域信号(H(i)又
はd(i))、および該変換領域符号信号(C
(k)(i))の3つすべての相互相関をとる手段(501)
とを含むものである音声を符号化するための装置。 6.特許請求の範囲第1項に記載の音声を符号化するた
めの装置において、 各引き続く時間フレーム期間における音声の部分を表す
ものとして時間領域信号を形成するための該手段が、 各引き続く時間フレーム期間における音声の予測パラメ
ータを表す1組の信号(a(k)、b(k))を発生す
る手段(209、213、215)と、 各引き続く時間フレーム期間における音声についての予
測残留を表す信号(δ(n))を形成するための手段
(207、211)と、 該予測残留発生信号および該予測パラメータ信号に応動
して前の時間フレームから現在の時間フレームの音声へ
の寄与を取り除く(y(n)−(n))ための手段
(217、227、222、235、240、247)とを含むものである
音声を符号化するための装置。 7.特許請求の範囲第6項に記載の音声を符号化するた
めの装置において、 分割し時間領域信号を形成するための該手段が、さらに 該予測残留発生手段に応動して前のフレームの寄与を含
むピッチ予測パラメータ(β(k)、m)を生成するた
めの手段(220、230)と、 該ピッチ予測パラメータを生成するための手段を該出力
する手段に結合する手段を含むものである音声を符号化
するための装置。 8.特許請求の範囲第1項に記載の音声を符号化するた
めの装置において、 前記時間領域信号はLPCパラメータ音声信号(x
(n))とLPCフィルタインパルス応答(h(n))で
あることを特徴とする音声を符号化するための装置。 9.特許請求の範囲第8項に記載の音声を符号化するた
めの装置において、 前記LPCパラメータ音声信号(χ(n))は、過去のフ
レーム成分が除去された現在のフレームの音声パラメー
タ信号であることを特徴とする音声を符号化するための
装置。 10.特許請求の範囲第9項に記載の音声を符号化する
ための装置において、前記時間領域信号生成手段は、 フレーム毎の音声部分の予測短時間スペクトルを表す第
1のLPC信号(a(k))を発生する手段(209)、 該第1のLPC信号に応答し、知覚重み付けされた第2のL
PC信号(b(k))を発生する手段(215)、 該音声部分(s(n))と該第1のLPC信号(a
(k))に応答して短期間冗長の除去された予測残留信
号(δ(n))を発生する手段(211)、 該第2のLPC信号(b(k))および予測残留信号(δ
(n1))に応答して知覚重み付けされた音声信号に対応
する音声パラメータ信号(y(n))を生成する手段
(217)、 該第2のLPC信号(b(k))、ピッチ予測パラメータ
(β(k)、m)に応答して先行フレーム音声寄与信号
((n))を生成する手段(222)、および 該知覚重み付けされた音声信号に対応する音声パラメー
タ信号(y(n))から該先行フレーム音声寄与信号を
差し引き、過去のフレーム成分が除去された現在のフレ
ームの音声パラメータ信号であるLPCパラメータ音声信
号(x(n))を生成する手段(247)とからなるもの
である音声を符号化するための装置。 11.特許請求の範囲第10項に記載の音声を符号化する
ための装置において、前記時間領域信号生成手段は、 該知覚重み付けされた第2のLPC信号(b(k))に応
答して該LPCフィルタインパルス応答(h(n)、式(2
7))を生成している手段(225)を含む音声を符号化す
るための装置。 12.特許請求の範囲第8項に記載の音声を符号化する
ための装置において、 前記時間領域信号生成手段は、フレーム毎の音声部分の
予測短時間スペクトルを表す第1のLPC信号(a
(k))、ピッチ予測パラメータ(β(k)、m)を発
生しており、該第1のLPC信号、ピッチ予測パラメータ
は該インデックス信号と共に出力されている音声を符号
化するための装置。 13.音声を通信するためのシステムにおいて、 各々がランダム符号を表す一組の信号(ck(i))およ
び各々が該ランダム符号の1つを識別する一組のインッ
デクス信号(K)を格納するための手段(330)、該音
声を引き続く時間フレーム期間部分に分割し、および各
引き続く時間フレーム期間における音声の部分を表す時
間領域信号(x(n)、h(n))を形成するための手
段(203ないし247、ただし245を除く)、各そのような
時間領域信号から変換領域信号(X(i)、H(i))
を発生する手段(245、250)、各ランダム符号信号に応
動してそれに対応する変換領域符号信号(C(k)(i))
を、変換領域信号を発生するための前述の手段における
のと同一のタイプの変換を介して発生するための手段
(305)、及び各時間フレーム期間についての変換領域
信号(H(i)又はd(i)、X(i))又は(ζ
(i))と該変換領域符号信号(C(k)(i))の各々と
の相互関係をとり該時間フレーム期間における音声部分
の表示として最小の誤差もしくは最大の類似度を与える
ような該変換領域符号信号の1つを選択し、該選択され
た変換領域符号信号に対応するランダム符号信号に対応
するインデックス信号を時間フレーム期間における音声
の部分を表す符号化信号の一部として出力するための手
段(315および320、325又は501ないし520および320)か
らなる符号器、及び 該出力するための手段からの該符号化信号(a(k)、
β(k)、m、K*、γ*)を受信する手段(1201)、該
受信した符号化信号内のインデックス信号に対応したラ
ンダム符号を発生する手段(1205)、及び該該発生した
ランダム符号と受信した符号化信号に応答し復号化した
時間フレーム期間における音声の部分を生成する手段
(1215、1220、1225、1230、1235)を含む復号器とから
なる音声を通信するためのシステム。 14.音声を復号するための装置において、 ランダム符号の既知の一組内の個々に対応したインデッ
クス信号(K*)を含む符号化信号であって、引き続く
時間フレーム期間における音声の部分を表す符号化信号
(a(k)、β(k)、m、K*、γ*)を受信する手段
(1201)、該受信したインデックス信号に対応したラン
ダム符号を発生する手段(1205)及び該発生したランダ
ム符号と受信した符号化信号から復号された時間フレー
ム期間における音声の部分を生成する手段(1215、122
0、1225、1230、1235)とからなり、 該符号化信号は、各々がランダム符号を表す一組の信号
(ck(i))および各々が該ランダム符号の1つを識別
する一組のインッデクス信号(K)を格納するための手
段(330)、該音声を引き続く時間フレーム期間部分に
分割し、および各引き続く時間フレーム期間における音
声の部分を表す時間領域信号(x(n)、h(n))を
形成するための手段(203ないし247、ただし245を除
く)、各そのような時間領域信号から変換領域信号(X
(i)、H(i))を発生する手段(245、250)、各ラ
ンダム符号信号に応動してそれに対応する変換領域符号
信号(C(k)(i))を、変換領域信号を発生するための
前述の手段におけるのと同一のタイプの変換を介して発
生するための手段(305)、及び各時間フレーム期間に
ついての変換領域信号(H(i)又はd(i)、X
(i))又は(ζ(i))と該変換領域符号信号(C(k)
(i))の各々との相互相関をとり該時間フレーム期間
における音声部分の表示として最小の誤差もしくは最大
の類似度を与えるような該変換領域符号信号の1つを選
択し、該選択された変換領域符号信号に対応するランダ
ム符号信号に対応するインデックス信号を符号化信号の
一部として出力するための手段(315および320、325又
は501ないし520および320)とからなる符号器で生成さ
れ送信されてきたものである音声を復号するための装
置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US810920 | 1985-12-26 | ||
US06/810,920 US4827517A (en) | 1985-12-26 | 1985-12-26 | Digital speech processor using arbitrary excitation coding |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62159199A JPS62159199A (ja) | 1987-07-15 |
JP2954588B2 true JP2954588B2 (ja) | 1999-09-27 |
Family
ID=25205042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61198297A Expired - Fee Related JP2954588B2 (ja) | 1985-12-26 | 1986-08-26 | 音声の符号化装置、復号装置及び符号化・復号システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US4827517A (ja) |
EP (1) | EP0232456B1 (ja) |
JP (1) | JP2954588B2 (ja) |
KR (1) | KR950013372B1 (ja) |
CA (1) | CA1318976C (ja) |
DE (1) | DE3685324D1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2584236B2 (ja) * | 1987-07-30 | 1997-02-26 | 三洋電機株式会社 | 規則音声合成装置 |
JPH02250100A (ja) * | 1989-03-24 | 1990-10-05 | Mitsubishi Electric Corp | 音声符合化装置 |
JPH0782359B2 (ja) * | 1989-04-21 | 1995-09-06 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置及び音声符号化・復号化装置 |
JPH0365822A (ja) * | 1989-08-04 | 1991-03-20 | Fujitsu Ltd | ベクトル量子化符号器及びベクトル量子化復号器 |
CA2021514C (en) * | 1989-09-01 | 1998-12-15 | Yair Shoham | Constrained-stochastic-excitation coding |
NL8902347A (nl) * | 1989-09-20 | 1991-04-16 | Nederland Ptt | Werkwijze voor het coderen van een binnen een zeker tijdsinterval voorkomend analoog signaal, waarbij dat analoge signaal wordt geconverteerd in besturingscodes die bruikbaar zijn voor het samenstellen van een met dat analoge signaal overeenkomend synthetisch signaal. |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
IT1249940B (it) * | 1991-06-28 | 1995-03-30 | Sip | Perfezionamenti ai codificatori della voce basati su tecniche di analisi per sintesi. |
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5715372A (en) * | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
JPH10124092A (ja) * | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
US5839098A (en) * | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
US6714540B1 (en) * | 1998-02-25 | 2004-03-30 | Matsushita Electric Industrial Co., Ltd. | Data communication method, communication frame generating method, and medium on which program for carrying out the methods are recorded |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
BRPI0517949B1 (pt) * | 2004-11-04 | 2019-09-03 | Koninklijke Philips Nv | dispositivo de conversão para converter um sinal dominante, método de conversão de um sinal dominante, e meio não transitório legível por computador |
US9349386B2 (en) * | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3588460A (en) * | 1968-07-01 | 1971-06-28 | Bell Telephone Labor Inc | Fast fourier transform processor |
US3624302A (en) * | 1969-10-29 | 1971-11-30 | Bell Telephone Labor Inc | Speech analysis and synthesis by the use of the linear prediction of a speech wave |
US3740476A (en) * | 1971-07-09 | 1973-06-19 | Bell Telephone Labor Inc | Speech signal pitch detector using prediction error data |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US4022974A (en) * | 1976-06-03 | 1977-05-10 | Bell Telephone Laboratories, Incorporated | Adaptive linear prediction speech synthesizer |
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
US4133976A (en) * | 1978-04-07 | 1979-01-09 | Bell Telephone Laboratories, Incorporated | Predictive speech signal coding with reduced noise effects |
US4184049A (en) * | 1978-08-25 | 1980-01-15 | Bell Telephone Laboratories, Incorporated | Transform speech signal coding with pitch controlled adaptive quantizing |
US4354057A (en) * | 1980-04-08 | 1982-10-12 | Bell Telephone Laboratories, Incorporated | Predictive signal coding with partitioned quantization |
JPS5816297A (ja) * | 1981-07-22 | 1983-01-29 | ソニー株式会社 | 音声合成方式 |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
US4701954A (en) * | 1984-03-16 | 1987-10-20 | American Telephone And Telegraph Company, At&T Bell Laboratories | Multipulse LPC speech processing arrangement |
-
1985
- 1985-12-26 US US06/810,920 patent/US4827517A/en not_active Ceased
-
1986
- 1986-08-19 EP EP86111494A patent/EP0232456B1/en not_active Expired - Lifetime
- 1986-08-19 DE DE8686111494T patent/DE3685324D1/de not_active Expired - Fee Related
- 1986-08-26 JP JP61198297A patent/JP2954588B2/ja not_active Expired - Fee Related
- 1986-08-26 KR KR1019860007063A patent/KR950013372B1/ko not_active IP Right Cessation
- 1986-08-28 CA CA000517118A patent/CA1318976C/en not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
ICASSP 1985年3月 937〜940頁 |
M.R.Schroeder and B.S.Atal「CODE−EXCITED LINEAR PREDICTION(CELP):HIGH−QUALLITY SPEECH AT VERY LOW BIT RATES」 |
Also Published As
Publication number | Publication date |
---|---|
KR950013372B1 (ko) | 1995-11-02 |
KR870006508A (ko) | 1987-07-11 |
CA1318976C (en) | 1993-06-08 |
US4827517A (en) | 1989-05-02 |
DE3685324D1 (de) | 1992-06-17 |
EP0232456A1 (en) | 1987-08-19 |
JPS62159199A (ja) | 1987-07-15 |
EP0232456B1 (en) | 1992-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2954588B2 (ja) | 音声の符号化装置、復号装置及び符号化・復号システム | |
Giacobello et al. | Sparse linear prediction and its applications to speech processing | |
JP4005359B2 (ja) | 音声符号化及び音声復号化装置 | |
JP4005154B2 (ja) | 音声復号化方法及び装置 | |
AU639394B2 (en) | Speech synthesis using perceptual linear prediction parameters | |
US6055496A (en) | Vector quantization in celp speech coder | |
USRE43099E1 (en) | Speech coder methods and systems | |
JPH10187196A (ja) | 低ビットレートピッチ遅れコーダ | |
WO2005117517A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
JPH04270398A (ja) | 音声符号化方式 | |
JPS5827200A (ja) | 音声認識装置 | |
Srivastava | Fundamentals of linear prediction | |
JPH11504733A (ja) | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 | |
JP3194930B2 (ja) | 音声符号化装置 | |
JP3252285B2 (ja) | 音声帯域信号符号化方法 | |
JP3552201B2 (ja) | 音声符号化方法および装置 | |
JP3256215B2 (ja) | 音声符号化装置 | |
JPS6162100A (ja) | マルチパルス型符号化復号化装置 | |
JPH0235994B2 (ja) | ||
KR950013374B1 (ko) | 입력 음성 처리 장치와 그 방법 | |
Kim et al. | On a Reduction of Pitch Searching Time by Preprocessing in the CELP Vocoder | |
EP0119033B1 (en) | Speech encoder | |
JPH0736119B2 (ja) | 区分的最適関数近似方法 | |
EP1212750A1 (en) | Multimode vselp speech coder | |
JPH0511799A (ja) | 音声符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |