JP2000505623A

JP2000505623A - 遠隔通信システム

Info

Publication number: JP2000505623A
Application number: JP9530688A
Authority: JP
Inventors: ホリアー、マイケル・ピーター
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-02-29
Filing date: 1997-02-14
Publication date: 2000-05-09
Also published as: CN1216189A; DE69726559T2; DE69726559D1; AU1803197A; WO1997032430A1; EP0883959A1; AU711562B2; EP0883959B1

Abstract

(57)【要約】通信リンク(2)で信号品質を向上する装置は、通信リンク(2)上で受信した信号の言語に似た特徴のみを再生する手段(11)を含んでいるので、推定した元の言語信号を再送信することができる。この手段は声道モデル(11)であり、合成器(12)に接続することができる。

Description

【発明の詳細な説明】遠隔通信システム本発明は、遠隔通信システム、とくに遠隔通信ネットワーク上を送られる言語信号の品質を向上することに関する。遠隔通信ネットワーク上を搬送される信号は、干渉、減衰、データ圧縮、パケット損失、ディジタル化処理の制限、および他の問題により品質が落ちる。伝送通路の中間点で信号を監視して、欠陥を識別し、可能であれば信号を“修復、回復”する、すなわち信号を元の状態に戻すことが望ましい。したがって“回復した”信号を再び送ることができる。信号の元の内容を最早認識できなくなるところまで信号の品質が落ちてはいないことを条件として、伝送通路の長さおよび品質低下の程度にしたがって必要な回数だけ処理を繰返すことができる。データ信号は文字数が限られているので、比較的に回復し易い。この文字には、例えば、二進数１および０；１２文字のＤＴＭＦ（デュアルトーンマルチパスフレケンシイ）システム、または種々のＱＡＭ（クオダラチャ振幅変調）星座（コンステレーション）配列がある。信号の回復は“許された”文字の何れが、実際に受信した品質の落ちた信号に最も近いかを識別して、文字を送ることによって実行することができる。例えば二進システムでは、閾値を越えた信号値を“１ ”、閾値より小さい値を“０”に変換することができる。送信の際に検査ディジットおよび他の手段を含んで、送信の完全性をさらに向上することができる。しかしながら一般的に、言語信号はこの種の限られた数の文字の組をもたないので、元の信号をどのように回復するかよりも、信号の品質が落ちたか否かを自動的に識別することがさらに困難である。公衆交換遠隔通信システムでは、共通の操作性（インターオペラビリティ）として、システムの全ての部分が両立して動作することが必要である。一般的にこれには、少なくとも１つのオペレータシステムと他のオペレータシステムとの間のインターフェイスでの複雑なコーディングプロセスを除く。ある特定の応用では、言語信号を一連の係数として線形予測コーディング（ＬＰＣ）プロセス、すなわち人間の声道の励起をモデル化するプロセスから送ることができる。この係数を声道エミュレーティングフィルタに供給すると、元の信号を再生することができる。これは、例えば米国特許第4742550号(Fette)に記載されている。このシステムは、例えば必要な帯域幅を低減するために移動電話システムのエアインターフェイスに使用される言語コーデック（コーダ／デコーダ）に使用する。しかしながらこの形態の言語送信では、特定の装置が送信および受信位置（例えば、移動電話および無線基地局）に存在しているのか、一般的に公衆交換遠隔通信ネットワークで使用するのに適していない。周知の多数の従来のシステムでは、音響および信号歪みノイズの一定の特徴を識別し、この特徴を無くすようにされている。これは、例えば米国特許第514848 8号(Chen)に開示されており、到来信号の言語に似た(speech-like)特徴を推定し、これを使用してカルマン(Kalman)フィルタを生成する。次にこのフィルタを信号に適用して、言語に似た特性をもつ受信信号のみを送る。しかしながら、このシステムは単純に言語に似ていない信号の部分を取除いてしまう。信号の一部を失ったり、または歪んで言語に似ていない形になると、システムは信号を回復できない。本発明の第１の態様にしたがって、遠隔通信システムで受信した品質の落ちた言語信号を元の形を推定したものに回復する方法であり：信号を解析して、信号の言語内容を示すパラメータを識別する段階と；このように識別されたパラメータから言語信号を再生する段階と；生成された言語信号を通信システムの入力へ供給する段階とを含む方法を提供する。本発明の第２の態様にしたがって、遠隔通信システム上で受信した品質の落ちた言語信号を元の形を推定したものに回復する装置であり：信号を解析して、信号の言語内容を示すパラメータを識別する手段と；こうして識別したパラメータから言語信号を再生する手段とを含む装置を提供する。本発明の１つの実施形態で、この方法は：遠隔通信システムの出力に、到来信号の言語要素を推定する認識プロセスを適用する段階と；前記推定された言語要素をもつ言語信号を合成する段階と；合成された信号の言語要素のマクロ特性を調整して、調整した合成信号の特性を出力信号の特性と整合させる段階とをもつ。本明細書では“マクロ特性”という用語を使用して、発話した個々のフォニームを判断する“ミクロ構造”とは別に、話者間で変化する各言語要素の特性を意味する。好ましくはこの実施形態では、推定される信号と出力信号とを個々の言語要素の継続時間、声門励起の特徴、および／またはピッチに関して整合させる。別の好ましい実施形態では、スペクトル表示モデルにしたがって信号を解析して、出力パラメータを生成し、出力パラメータから得られる信号を生成する。好ましくは、スペクトル表示モデルは声道モデルであり、言語信号は声道モデルを使用して再生される。好ましくは再生モデルは、言語に似た制約された再生信号の時間的な特徴を含む。本発明は別の態様では、別の遠隔通信システムとの１または複数のインターフェイスをもつ遠隔通信システムにさらに拡張され、各インターフェイスは、システムに入力および／または出力する信号を解析し回復する装置を提供する。ここで、本発明の実施形態を添付の図面を参照して例示的に記載することにする：図１は、本発明を適用した遠隔通信システムを示す。図２は、本発明の第１の実施形態にしたがう言語再生装置で、推定された“元の信号”を品質の落ちた入力信号から再生する方法を示す。図３は、図２の実施形態で使用したプロセスの一部を形成している整合技術を示す。図４は、本発明の第２の実施形態にしたがう言語再生装置を示す。図１および２の機能ブロックは、各プロセスの確立された例を参照して、以下で説明する。図１において、一般化された遠隔通信システム８は多数の相互接続したスイッチ9a、9b、9c、9dを含み、多数の他のシステム2a、2b、2c、2dとインターフェイスしている。図２に例示的に示されているように、これらは私設システムであってよく、私設交換機（ＰＢＸ）2aを介してシステム８に接続されているが、国際スイッチングセンタ（ＩＳＣ）2b、別のオペレータの公衆ネットワーク2c、または同じオペレータのネットワークの別の部分2dによってシステム８に接続された国際ネットワークになる。各源1a、1b、1c、1dで生成される言語信号は、システム2a、2b、2c、2dによって損なわれることがある。他のシステム2a、2b、2c、2d からシステム８へ入力または出力する言語信号は、各言語再生装置10a、10b、10 c、10dへ送られる。図示されているように、個々のオペレータはシステム８を“ リングフェンス(ring fence)（注：英語イディオムであり、システム８がリングフェンスされると、それはフェンス（塀）を横切らないと他のシステム2a,2b,2c にアクセスできないことを意味する。システム８と他のシステムとの間の全ての入口と出口ポイントには回復（修復）ユニットがある。）”を選択して、別のシステム2a、2b、2cからシステム８へ入力する信号を最初の機会に回復できるようにして、信号がシステムから出て行くときの信号の品質低下を取除くようにする。大きなネットワークで、別の言語生成装置（例えば再生装置10d）をネットワーク内に配置して、１つのオペレータのネットワークを幾つかの小さいネットワークに再分割して、2d、８をこの言語回復装置によって接続することができる。記述することになるシステムは、言語信号を処理するのみである。システムがデータ（例えば、ファクシミリ）信号も処理できるとすると、信号の形式を識別して、異なる回復プロセスを、もしあるならば、各形式に適用するために別の手段（図示されていない）が必要になるであろう。言語／データ弁別器は当業者によく知られている。例えば言語圧縮に使用するＤＣＭＥ（ディジタル回路多重化装置）は、ファクシミリ送信の音のシグネチャーを識別する手段を準備し、装置へ信号を送って、クリアな（圧縮されていない）伝送チャンネルを準備する。既に記載したように、データ回復プロセスは当業者には一般的であり、本明細書ではさらには記載しないことにする。図２は、言語再生装置10の概略的な構成を示し、図１の装置10a、10b、10C、1 0dの１つに対応する。同様に図２の信号入力１とシステム２とは、それぞれ入力 1a、1b、1c、1dの１つおよび各システム2a、2b、2c、2dの１つに対応する。信号入力は、第１の遠隔通信システム２によって受信される最初の言語材料を供給する。この材料は、ディジタル形式でシステム２の一部で送ることができるが、解析される信号はアナログ信号である。このアナログ信号は、元のアナログ言語信号の品質の落ちた形であり；品質低下は、ディジタル化処理それ自身を含む、上述で参照したファクタによる。アナログ言語信号は、システム２から言語再生装置10へ出力される。再生装置10は歪んだ言語信号を最初に言語認識器３へ送り、認識器３で歪んだ言語音を分類し、認識器３の一部を形成しているファイルのメモリからの“元の音”のファイルの選択を容易にする。本明細書では、“言語認識”という用語が使用われて、言語信号の波形からの言語イベントの認識を意味している。言語処理技術の領域では、機械を使用して言語を認識することが、エンジニアおよび科学者に長年の目標であった。種々の実際の言語認識器が次の文献に記載されている。例えば、HMM(Hidden Markov Mo dels)Cox 1990年:［Wheddon C and Linggard R:”Speech communication”,Spee ch and Language Processing,Chapman and Hall(1990年)］fixed dimension cla ssifiers（such as nearest neighbour,Gaussian mixtures,and muti-layer per ception）[Woodland & Millar 1990年:ibid],and neural arrays[Tattersal,Lin ford & Linggard 1990年:ibid]がある。大部分の認識システムは、特徴抽出器およびパターン整合プロセス（分類）を含み、話者に依存している(talker-dependent)かまたは話者とは独立している(t alker-independent)かの何れかである。話者に依存している認識器は、特定の応用に必要な各単語を使用してユーザがトレーニングする。話者とは独立している認識システムは、変更することができない規定のボキャブラリ（語彙）をもつ（ [Wheddon C & Linggard R:”Speech communication”,Speech and Language Pro cessing,Chapman and Hall(1990年)]参照）。両方のシステムは音響信号から特徴を抽出し、分類器へ送り、このボキャブラリ内の何れの単語を発話したかを判断する。変換またはディジタルのフィルタ処理技術を使用して特徴を抽出し、分類器へ送られるデータ量を減らす。次に生成されたパターンを時間的にワープして、基準パターンと最適にアラインする（[Sakoe H and Chibass:”Dynamic pro gramming algorithm optimisation for spoken word reconition”],IEEE Trans Acoust Speech Proc,26(1978年）参照）。統計モデル、例えば隠された(hid den)マルコフモデル（[Cox S J:”Hidden Markov models for automatic speech recognition:theory and application”,BT Telecom Technol J,6,No.2(1988年 )]参照）も幅広く使用されている。ここで特徴のシーケンスを１組の確率統計的に定められた単語モデルと比較する。特徴抽出およびパターン整合技術をさらに、接続された単語の処理に拡大することができる（文献[Bridle J S,Brown MD C hamberlain R M:”An algorithm for connected word recognition”,Automatic Speech Analysis and Recognition,Reidal Publishing Company(1984年)参照）が、この場合は単語数が分からず、単語間の境界が実時間で容易に判断できないので、より著しく複雑になる。したがって計算時間が増加し（文献[Atal B S an d Rabiner L R:”Speech research directions”,AT & T Technical Journal 65 ,Issue 5(1986年)]参照）、対応してハードウエアがより複雑になる。本発明の目的に適している隠れたマルコフモデル（ＨＭＭ）は、Baun L Eによる文献（”An Inequality and Associated Maximisation Technique in Statist ical Estimation for Probablilistic Functions of Markov Process”Inqualit ies III,1-8,1972年）、またはCox S Jによる文献（”Hidden Markov Models Fo r Automatic Speech Recognition:Theory and Application”,”Speech and Lan guage Processing”,Wheddon C and Linggerd R,Chapman and Hall編,ISBN 0 41 2 37800 0,1990年）に記載されている。ＨＭＭは１組の特徴ベクトルとして既知の単語を表し、所定の到来する単語に対して、モデルが観察した組の特徴ベクトルを生成する後の(posteriori)確率を計算する。次に一般的な“元の音”のファイルは、認識された単語用のメモリから選択することができる。こうして識別された“元の音”ファイルを使用して、言語生成器７を制御して、生成されることになる音に対応する音響信号を生成する。こうして言語認識器は、何れの言語要素が元の信号に存在していた確率が高いかを識別し、言語生成器は、この言語要素のメモリから、言語要素の歪んでいない形式を生成する。したがって出力は言語に似た要素のみから構成されている。言語認識器３が正しい言語要素を識別できないほど遠隔通信システムから受信した信号は損なわれていないことを条件に、言語生成器７からの出力は完全に元の信号の言語内容であることになる。ここで生成器７が生成した合成信号のマクロ特性を、アダプタ４で実際の言語イベントのマクロ特性に適応させる。アダプタ４は元の話者の特徴、とくに基本周波数（個人の声道の寸法を反映している）、音声の音品質を決定する声門励起の特徴および時間ワーピング(temporal warping)を再生して、個々の言語要素の送り出し速度の一般的なテンプレートに適合させる。これにより、−般的な“元の音”のファイルを実際の言語の発話に適合させ、この技術を実際に丈夫で、しかも話者が独立したものにする。これらの特徴は文献[”Mechanisms of Speech recognition”,W.A.Ainsworth,Pergamon Press,1976年]に記載されている。各出力要素の基本周波数、または他の識別可能な周波数を元の音声信号の周波数に適合させて、元の話者の音声の抑揚に適合させることによって、信号のピッチ（基本周波数）を記憶した“元の音”のピッチに適合させることができる。上述で引用したAinsworthの文献の図４．３（３６頁）を参照して記載したように、元の信号の特徴の解析からアルゴリズムで声門励起の特徴を生成することができる。時間ワーピングに使用される数学的方法は、例えばHolmes J Nによる文献（” Speech Synthesis and Recognition”,Van Nostrand Reinhold(UK)Co.Ltd.,ISBN 0 278 00013 4,1988年）およびBridle J S,Brown M D,Chamberlain R Mによる文献（”Continuous Connected Word Recognition Using Whole Word Templates ”,Radio and Electronics Engineer 53,167乃至177頁,1983年）に記載されている。２つの単語間の時間アラインメントパス（整列経路）（“元の(orignal)” と記載され、認識されている）は記憶した“元の音”を検出された単語の音に適合させるのに必要な時間ワーピングを記載している（図３参照）。図３は、垂直方向の座標軸で認識された単語の“パターン”要素を、また水平方向の座標軸で発声した単語の対応する要素を示している。話者の発話は一定の要素内のメモリから呼出した単語と異なり、したがって元の発話を一定の要素に適合させ、とくに“ｐ”および“ｒ”を長くして、その他、とくに“ｔ”を短くすることが分かるであろう。次に再生信号を遠隔通信システム８へ出力する。言語認識器３、言語生成器７、およびアダプタ４は個別のハードウエアであると記載したが、実際にはこれらは適切にプログラム作成されたディジタルプロセッサによって実現することができる。上述のシステムには認識可能な言語の単語または単語要素の大きなメモリが必要であり、システムが記憶したサンプルから言語要素を認識するときのみ、言語要素を再生する。したがって遠隔通信システム２の出力で生成された音が、メモリ内に記憶した音と適合しないときは、言語でないとして拒絶され、送られないことになる。このやり方では、言語として認識される信号内容中のイベントのみを取除く。好ましい実施形態では、図４に示されているように、言語再生装置は声道解析装置11からつくられ、声道解析装置11からの出力は声道シミュレータ12に供給されて、言語に似た信号を生成する。このシステムは、各イベントが完全に受領されるかまたは拒絶される代りに、言語に似ていないパラメータを他の全ての点で言語に似たイベントから取除くという長所をもつ。声道解析システムは、このシステムによって生成可能な音の“ライブラリ”ではなく、一般化された本来のシステム（人間の声道）の特徴を記憶する。したがって図４の好ましい実施形態は、図２の実施形態の長所、すなわち声道解析システムが人間の声道によって生成可能な音を再生できるという長所をもつ。可能な音用の大型メモリが必要ないだけでなく、可能な音を検索するときに必要な結果の処理時間ｓも必要ないという長所をもつ。さらに、システムは記憶されている音に制限されない。ここで声道解析システムの特徴を簡単に記載することが適切である。声道は非均一な音響管であり、声門から唇部へ延在し、時間関数にしたがって形状が変化する（文献[Fant G C M,”Acoustic Theory of Speech Production”,Mouton an d Co,’s-Gravehage,the Netherlands,1960年]参照）。時間にしたがって変化する主要な解剖学上の要素には、唇部、顎部、舌部、および軟口蓋部がある。計算を簡単にするために、このシステムのモデルは線形で、しかも時間により変化しないモデルであることが望ましい。都合悪く、人間の言語機構はこれらの特性の何れも正確に満たしていない。言語は連続的に時間により変化するプロセスである。さらに、声門は声道と分離されないので、非線形の特徴をもつ（文献[Fla nagan J L”Source-System Interactions in the Vocal Tract”,Ann.New York Acad．Sci 155，9-15，1968]参照）。しかしながら、合理的な仮定をたてることによって、言語イベントを記載する短い時間間隔において線形で時間にしたがって変化しないモデルをつくることができる（文献[Markel J D,Gray A H,”Linea r Prediction of Speech”,Springer-Verlag Berlin Heidelberg New York,1976 ]参照）。線形予測コーデックは、言語イベントを短い時間間隔、すなわちフレームに分割し、過去の言語フレームを使用して、独特の組の予測パラメータを生成し、現在のフレームの言語を表す（文献[Atal B S,Hanauer S L”Speech Anal ysis and Synthesis by Linear Prediction of Speech Wave”,J.Acoust.Soc.Am er.,vol.50,637-655頁,1971年]参照）。線形予測解析方法は、言語パラメータ、例えばピッチ、フォルマント、およびスペクトルを推定するのに幅広く使用されている。可聴モデル（時間／周波数／振幅スペクトログラム）は、監視される音の可聴の特徴に依存し、可聴モデルがどのように生成されるかを考慮せずに、声道モデルが、信号が言語に似ているか否か、すなわち真の声道モデルがそれを生成できるか否かを識別することができる。したがって聞き取れない差は可聴モデルによって認識されないが、それにも関わらず声道モデルによって認識されることになる。解析で使用するのに適した声道モデルは線形予測コーディングモデルであり、文献[Digital Processing of Speech Signals:Rabiner L.R.;Schafer R.W;(Pren tice Hall,1978年),396頁]に記載されている。声道モデルを向上することには許容可能な時間の特徴、例えば長期間のピッチ予測を含んでいて、長期間のピッチ予測は、所定の言語構造から失われているか、または悪い具合に歪んでしまっているために解析プロセスによって認識されないような言語要素の再生をすることができる。この時間特徴を含むことは、言語成分がめったにない突然開始、妨害、および終了といった、例えば信号の短い消失または損失を生じさせることになるものを平滑化して無くすことになる。声道モデル11によって生成されるパラメータは、元の信号の言語に似た特徴を識別する。言語に似ていない特徴は、声道モデルによってモデル化することはできず、したがってパラメータで表示されない。声道モデルによって生成されるパラメータは、言語生成モデル12を制御するのに使用される。パラメータは、解析器11によって生成される声道パラメータにしたがって、合成器によって生成される励起信号を変更して、システム２から受信される信号の言語に似た特徴を含む言語に似た信号を生成するが、歪みを含まない。合成で使用する適切な声道モデルは、上述の線形予測コーディングモデル、すなわち一層精巧なモデル、例えば縦続／並列フォルマント（カスケード／パラレル）合成器を含み、これは文献（Journal of the Acoustic Society of America (Vol 67,No3,1980年3月:D.H.Klatt;”Software for a Cascade/Parallel Forman t Synthesiser”）に記載されている。他の適切なシステムは、Quatieri、他による文献（”Phase Coherence in Spe ech Reconstruction for Enhancement and Coding Applications”:Internation al Conference on Acoustics,Speech,and Signal Processing,Vol 1 23-26,1986 年5月,Glasgow(Scotland):207-210頁）、およびKamata、他による文献（”Recon struction of Human Voice using Parallel Structure Transfer Function and its Estimation Error”:IEEE Pacific Rim Conference on Communications,Com puters and Signal Processing;1995年5月17-19日,British Columbia,Canada）に記載されている。 “言語(speech)”という用語は、本明細書で使用されているように、歌を含む人間の音声によって生成可能な発話を意味するのに使用されているが、発話が理解できる内容を含むことを示唆する必要はないことを理解すべきである。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｍ 7/00 Ｚ (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ

Claims

【特許請求の範囲】１．遠隔通信システムで受信した品質の落ちた言語信号を元の形を推定したものに回復する方法であり：信号を解析して、信号の言語内容を示すパラメータを識別する段階と；このように識別されたパラメータから言語信号を再生する段階と；生成された言語信号を通信システムの入力へ供給する段階とを含む方法。２．通信システムの出力に認識プロセスを供給して、到来する信号の言語要素を推定する段階と；前記推定された言語要素をもつ言語信号を合成する段階と；合成信号内を調整して言語要素においてマクロ特性を出力信号に適合させる段階とを含む請求項１記載の方法。３．推定された信号を調整して、個々の言語要素の継続時間またはピッチ、あるいはその両方において出力信号に適合させる請求項２記載の方法。４．信号をスペクトル表示モデルにしたがって解析して出力パラメータを生成し、出力パラメータから再生された信号を得る請求項１記載の方法。５．スペクトル表示が声道モデルである請求項４記載の方法。６．声道モデルを使用して言語信号を再生する請求項４または５記載の方法。７．再生された信号の時間の特徴は言語に似たものに限る請求項１乃至６の何れか１項記載の方法。８．遠隔通信システムで受信した品質の落ちた信号を元の形を推定したものに回復する装置(10)であり：信号を解析して、信号の言語内容をしめすパラメータを識別する手段(3,11) と；こうして識別されたパラメータから言語信号を再生する手段(7,4;12)とを含む装置。９．第１の品質の落ちた信号に認識プロセスを適用して、到来信号の要素を推定する言語認識手段(3)と；前記推定された言語要素をもつ言語信号を合成する言語合成手段(7)と；合成された信号を調整して、言語要素のマクロ特性において第１の信号に適合させ；品質を落とすことなく第１の信号に対応する信号を生成する言語調整手段(4)を含む請求項８記載の装置。１０．言語調整手段(4)が、推定された信号を変更して、個々の言語要素の継続時間またはピッチ、あるいはその両方において第１の信号に適合させる手段を含む請求項９記載の装置。１１．スペクトル表示を使用して信号を解析して、出力パラメータを生成する解析手段(11)、および出力パラメータから得られた出力信号を生成する手段(12)を含む請求項８記載の装置。１２．スペクトル表示が声道モデルである請求項１１記載の装置。１３．言語信号を再生する手段(12)が声道モデルである請求項１０または１１記載の装置。１４．信号を再生する手段が、再生された信号の時間の特徴を言語に似たものに限る手段を含む請求項８乃至１３の何れか１項記載の方法。１５．別の遠隔通信システム(2a,2b,2c,2d)との１または複数のインターフェイスをもつ遠隔通信システム(8)であり、各インターフェイスが該システムへ入力される信号を解析して回復する請求項１乃至１２の何れか１項記載の装置(10)または該システムから出力される信号を解析して回復する請求項８乃至１２の何れか１項記載の装置(10)、或いはその両方が与えられている遠隔通信システム。１６．添付の図面を引用して実質的に記載した方法。１７．添付の図面を引用して実質的に記載した装置。