【発明の詳細な説明】
遠隔通信システム
本発明は、遠隔通信システム、とくに遠隔通信ネットワーク上を送られる言語
信号の品質を向上することに関する。
遠隔通信ネットワーク上を搬送される信号は、干渉、減衰、データ圧縮、パケ
ット損失、ディジタル化処理の制限、および他の問題により品質が落ちる。伝送
通路の中間点で信号を監視して、欠陥を識別し、可能であれば信号を“修復、回
復”する、すなわち信号を元の状態に戻すことが望ましい。したがって“回復し
た”信号を再び送ることができる。信号の元の内容を最早認識できなくなるとこ
ろまで信号の品質が落ちてはいないことを条件として、伝送通路の長さおよび品
質低下の程度にしたがって必要な回数だけ処理を繰返すことができる。
データ信号は文字数が限られているので、比較的に回復し易い。この文字には
、例えば、二進数1および0;12文字のDTMF(デュアルトーンマルチパス
フレケンシイ)システム、または種々のQAM(クオダラチャ振幅変調)星座(
コンステレーション)配列がある。信号の回復は“許された”文字の何れが、実
際に受信した品質の落ちた信号に最も近いかを識別して、文字を送ることによっ
て実行することができる。例えば二進システムでは、閾値を越えた信号値を“1
”、閾値より小さい値を“0”に変換することができる。送信の際に検査ディジ
ットおよび他の手段を含んで、送信の完全性をさらに向上することができる。
しかしながら一般的に、言語信号はこの種の限られた数の文字の組をもたない
ので、元の信号をどのように回復するかよりも、信号の品質が落ちたか否かを自
動的に識別することがさらに困難である。
公衆交換遠隔通信システムでは、共通の操作性(インターオペラビリティ)と
して、システムの全ての部分が両立して動作することが必要である。一般的にこ
れには、少なくとも1つのオペレータシステムと他のオペレータシステムとの間
のインターフェイスでの複雑なコーディングプロセスを除く。
ある特定の応用では、言語信号を一連の係数として線形予測コーディング(L
PC)プロセス、すなわち人間の声道の励起をモデル化するプロセスから送るこ
とができる。この係数を声道エミュレーティングフィルタに供給すると、元の信
号を再生することができる。これは、例えば米国特許第4742550号(Fette)に記載
されている。このシステムは、例えば必要な帯域幅を低減するために移動電話シ
ステムのエアインターフェイスに使用される言語コーデック(コーダ/デコーダ
)に使用する。しかしながらこの形態の言語送信では、特定の装置が送信および
受信位置(例えば、移動電話および無線基地局)に存在しているのか、一般的に
公衆交換遠隔通信ネットワークで使用するのに適していない。
周知の多数の従来のシステムでは、音響および信号歪みノイズの一定の特徴を
識別し、この特徴を無くすようにされている。これは、例えば米国特許第514848
8号(Chen)に開示されており、到来信号の言語に似た(speech-like)特徴を推定し
、これを使用してカルマン(Kalman)フィルタを生成する。次にこのフィルタを信
号に適用して、言語に似た特性をもつ受信信号のみを送る。しかしながら、この
システムは単純に言語に似ていない信号の部分を取除いてしまう。信号の一部を
失ったり、または歪んで言語に似ていない形になると、システムは信号を回復で
きない。
本発明の第1の態様にしたがって、遠隔通信システムで受信した品質の落ちた
言語信号を元の形を推定したものに回復する方法であり:
信号を解析して、信号の言語内容を示すパラメータを識別する段階と;
このように識別されたパラメータから言語信号を再生する段階と;
生成された言語信号を通信システムの入力へ供給する段階とを含む方法を提
供する。
本発明の第2の態様にしたがって、遠隔通信システム上で受信した品質の落ち
た言語信号を元の形を推定したものに回復する装置であり:
信号を解析して、信号の言語内容を示すパラメータを識別する手段と;
こうして識別したパラメータから言語信号を再生する手段とを含む装置を提
供する。
本発明の1つの実施形態で、この方法は:
遠隔通信システムの出力に、到来信号の言語要素を推定する認識プロセスを
適用する段階と;
前記推定された言語要素をもつ言語信号を合成する段階と;
合成された信号の言語要素のマクロ特性を調整して、調整した合成信号の特
性を出力信号の特性と整合させる段階とをもつ。
本明細書では“マクロ特性”という用語を使用して、発話した個々のフォニー
ムを判断する“ミクロ構造”とは別に、話者間で変化する各言語要素の特性を意
味する。
好ましくはこの実施形態では、推定される信号と出力信号とを個々の言語要素
の継続時間、声門励起の特徴、および/またはピッチに関して整合させる。
別の好ましい実施形態では、スペクトル表示モデルにしたがって信号を解析し
て、出力パラメータを生成し、出力パラメータから得られる信号を生成する。好
ましくは、スペクトル表示モデルは声道モデルであり、言語信号は声道モデルを
使用して再生される。好ましくは再生モデルは、言語に似た制約された再生信号
の時間的な特徴を含む。
本発明は別の態様では、別の遠隔通信システムとの1または複数のインターフ
ェイスをもつ遠隔通信システムにさらに拡張され、各インターフェイスは、シス
テムに入力および/または出力する信号を解析し回復する装置を提供する。
ここで、本発明の実施形態を添付の図面を参照して例示的に記載することにす
る:
図1は、本発明を適用した遠隔通信システムを示す。
図2は、本発明の第1の実施形態にしたがう言語再生装置で、推定された“元
の信号”を品質の落ちた入力信号から再生する方法を示す。
図3は、図2の実施形態で使用したプロセスの一部を形成している整合技術を
示す。
図4は、本発明の第2の実施形態にしたがう言語再生装置を示す。
図1および2の機能ブロックは、各プロセスの確立された例を参照して、以下
で説明する。
図1において、一般化された遠隔通信システム8は多数の相互接続したスイッ
チ9a、9b、9c、9dを含み、多数の他のシステム2a、2b、2c、2dとインターフェイ
スしている。図2に例示的に示されているように、これらは私設システムであっ
てよく、私設交換機(PBX)2aを介してシステム8に接続されているが、国際
スイッチングセンタ(ISC)2b、別のオペレータの公衆ネットワーク2c、また
は同じオペレータのネットワークの別の部分2dによってシステム8に接続された
国際ネットワークになる。各源1a、1b、1c、1dで生成される言語信号は、システ
ム2a、2b、2c、2dによって損なわれることがある。他のシステム2a、2b、2c、2d
からシステム8へ入力または出力する言語信号は、各言語再生装置10a、10b、10
c、10dへ送られる。図示されているように、個々のオペレータはシステム8を“
リングフェンス(ring fence)(注:英語イディオムであり、システム8がリング
フェンスされると、それはフェンス(塀)を横切らないと他のシステム2a,2b,2c
にアクセスできないことを意味する。システム8と他のシステムとの間の全ての
入口と出口ポイントには回復(修復)ユニットがある。)”を選択して、別のシ
ステム2a、2b、2cからシステム8へ入力する信号を最初の機会に回復できるよう
にして、信号がシステムから出て行くときの信号の品質低下を取除くようにする
。大きなネットワークで、別の言語生成装置(例えば再生装置10d)をネットワ
ーク内に配置して、1つのオペレータのネットワークを幾つかの小さいネットワ
ークに再分割して、2d、8をこの言語回復装置によって接続することができる。
記述することになるシステムは、言語信号を処理するのみである。システムが
データ(例えば、ファクシミリ)信号も処理できるとすると、信号の形式を識別
して、異なる回復プロセスを、もしあるならば、各形式に適用するために別の手
段(図示されていない)が必要になるであろう。言語/データ弁別器は当業者に
よく知られている。例えば言語圧縮に使用するDCME(ディジタル回路多重化
装置)は、ファクシミリ送信の音のシグネチャーを識別する手段を準備し、装置
へ信号を送って、クリアな(圧縮されていない)伝送チャンネルを準備する。既
に記載したように、データ回復プロセスは当業者には一般的であり、本明細書で
はさらには記載しないことにする。
図2は、言語再生装置10の概略的な構成を示し、図1の装置10a、10b、10C、1
0dの1つに対応する。同様に図2の信号入力1とシステム2とは、それぞれ入力
1a、1b、1c、1dの1つおよび各システム2a、2b、2c、2dの1つに対応する。
信号入力は、第1の遠隔通信システム2によって受信される最初の言語材料を
供給する。この材料は、ディジタル形式でシステム2の一部で送ることができる
が、解析される信号はアナログ信号である。このアナログ信号は、元のアナログ
言語信号の品質の落ちた形であり;品質低下は、ディジタル化処理それ自身を含
む、上述で参照したファクタによる。アナログ言語信号は、システム2から言語
再生装置10へ出力される。再生装置10は歪んだ言語信号を最初に言語認識器3へ
送り、認識器3で歪んだ言語音を分類し、認識器3の一部を形成しているファイ
ルのメモリからの“元の音”のファイルの選択を容易にする。
本明細書では、“言語認識”という用語が使用われて、言語信号の波形からの
言語イベントの認識を意味している。言語処理技術の領域では、機械を使用して
言語を認識することが、エンジニアおよび科学者に長年の目標であった。種々の
実際の言語認識器が次の文献に記載されている。例えば、HMM(Hidden Markov Mo
dels)Cox 1990年:[Wheddon C and Linggard R:”Speech communication”,Spee
ch and Language Processing,Chapman and Hall(1990年)]fixed dimension cla
ssifiers(such as nearest neighbour,Gaussian mixtures,and muti-layer per
ception)[Woodland & Millar 1990年:ibid],and neural arrays[Tattersal,Lin
ford & Linggard 1990年:ibid]がある。
大部分の認識システムは、特徴抽出器およびパターン整合プロセス(分類)を
含み、話者に依存している(talker-dependent)かまたは話者とは独立している(t
alker-independent)かの何れかである。話者に依存している認識器は、特定の応
用に必要な各単語を使用してユーザがトレーニングする。話者とは独立している
認識システムは、変更することができない規定のボキャブラリ(語彙)をもつ(
[Wheddon C & Linggard R:”Speech communication”,Speech and Language Pro
cessing,Chapman and Hall(1990年)]参照)。両方のシステムは音響信号から特
徴を抽出し、分類器へ送り、このボキャブラリ内の何れの単語を発話したかを判
断する。変換またはディジタルのフィルタ処理技術を使用して特徴を抽出し、分
類器へ送られるデータ量を減らす。次に生成されたパターンを時間的にワープし
て、基準パターンと最適にアラインする([Sakoe H and Chibass:”Dynamic pro
gramming algorithm optimisation for spoken word reconition”],IEEE Trans
Acoust Speech Proc,26(1978年)参照)。統計モデル、例えば隠された(hid
den)マルコフモデル([Cox S J:”Hidden Markov models for automatic speech
recognition:theory and application”,BT Telecom Technol J,6,No.2(1988年
)]参照)も幅広く使用されている。ここで特徴のシーケンスを1組の確率統計的
に定められた単語モデルと比較する。特徴抽出およびパターン整合技術をさらに
、接続された単語の処理に拡大することができる(文献[Bridle J S,Brown MD C
hamberlain R M:”An algorithm for connected word recognition”,Automatic
Speech Analysis and Recognition,Reidal Publishing Company(1984年)参照)
が、この場合は単語数が分からず、単語間の境界が実時間で容易に判断できない
ので、より著しく複雑になる。したがって計算時間が増加し(文献[Atal B S an
d Rabiner L R:”Speech research directions”,AT & T Technical Journal 65
,Issue 5(1986年)]参照)、対応してハードウエアがより複雑になる。
本発明の目的に適している隠れたマルコフモデル(HMM)は、Baun L Eによ
る文献(”An Inequality and Associated Maximisation Technique in Statist
ical Estimation for Probablilistic Functions of Markov Process”Inqualit
ies III,1-8,1972年)、またはCox S Jによる文献(”Hidden Markov Models Fo
r Automatic Speech Recognition:Theory and Application”,”Speech and Lan
guage Processing”,Wheddon C and Linggerd R,Chapman and Hall編,ISBN 0 41
2 37800 0,1990年)に記載されている。HMMは1組の特徴ベクトルとして既知
の単語を表し、所定の到来する単語に対して、モデルが観察した組の特徴ベクト
ルを生成する後の(posteriori)確率を計算する。次に一般的な“元の音”のファ
イルは、認識された単語用のメモリから選択することができる。
こうして識別された“元の音”ファイルを使用して、言語生成器7を制御して
、生成されることになる音に対応する音響信号を生成する。こうして言語認識器
は、何れの言語要素が元の信号に存在していた確率が高いかを識別し、言語生成
器は、この言語要素のメモリから、言語要素の歪んでいない形式を生成する。し
たがって出力は言語に似た要素のみから構成されている。言語認識器3が正しい
言語要素を識別できないほど遠隔通信システムから受信した信号は損なわれてい
ないことを条件に、言語生成器7からの出力は完全に元の信号の言語内容である
ことになる。
ここで生成器7が生成した合成信号のマクロ特性を、アダプタ4で実際の言語
イベントのマクロ特性に適応させる。アダプタ4は元の話者の特徴、とくに基本
周波数(個人の声道の寸法を反映している)、音声の音品質を決定する声門励起
の特徴および時間ワーピング(temporal warping)を再生して、個々の言語要素の
送り出し速度の一般的なテンプレートに適合させる。これにより、−般的な“元
の音”のファイルを実際の言語の発話に適合させ、この技術を実際に丈夫で、し
かも話者が独立したものにする。これらの特徴は文献[”Mechanisms of Speech
recognition”,W.A.Ainsworth,Pergamon Press,1976年]に記載されている。
各出力要素の基本周波数、または他の識別可能な周波数を元の音声信号の周波
数に適合させて、元の話者の音声の抑揚に適合させることによって、信号のピッ
チ(基本周波数)を記憶した“元の音”のピッチに適合させることができる。
上述で引用したAinsworthの文献の図4.3(36頁)を参照して記載したよ
うに、元の信号の特徴の解析からアルゴリズムで声門励起の特徴を生成すること
ができる。
時間ワーピングに使用される数学的方法は、例えばHolmes J Nによる文献(”
Speech Synthesis and Recognition”,Van Nostrand Reinhold(UK)Co.Ltd.,ISBN
0 278 00013 4,1988年)およびBridle J S,Brown M D,Chamberlain R Mによる
文献(”Continuous Connected Word Recognition Using Whole Word Templates
”,Radio and Electronics Engineer 53,167乃至177頁,1983年)に記載されてい
る。2つの単語間の時間アラインメントパス(整列経路)(“元の(orignal)”
と記載され、認識されている)は記憶した“元の音”を検出された単語の音に適
合させるのに必要な時間ワーピングを記載している(図3参照)。図3は、垂直
方向の座標軸で認識された単語の“パターン”要素を、また水平方向の座標軸で
発声した単語の対応する要素を示している。話者の発話は一定の要素内のメモリ
から呼出した単語と異なり、したがって元の発話を一定の要素に適合させ、とく
に“p”および“r”を長くして、その他、とくに“t”を短くすることが分か
るであろう。
次に再生信号を遠隔通信システム8へ出力する。
言語認識器3、言語生成器7、およびアダプタ4は個別のハードウエアである
と記載したが、実際にはこれらは適切にプログラム作成されたディジタルプロセ
ッサによって実現することができる。
上述のシステムには認識可能な言語の単語または単語要素の大きなメモリが必
要であり、システムが記憶したサンプルから言語要素を認識するときのみ、言語
要素を再生する。したがって遠隔通信システム2の出力で生成された音が、メモ
リ内に記憶した音と適合しないときは、言語でないとして拒絶され、送られない
ことになる。このやり方では、言語として認識される信号内容中のイベントのみ
を取除く。
好ましい実施形態では、図4に示されているように、言語再生装置は声道解析
装置11からつくられ、声道解析装置11からの出力は声道シミュレータ12に供給さ
れて、言語に似た信号を生成する。このシステムは、各イベントが完全に受領さ
れるかまたは拒絶される代りに、言語に似ていないパラメータを他の全ての点で
言語に似たイベントから取除くという長所をもつ。
声道解析システムは、このシステムによって生成可能な音の“ライブラリ”で
はなく、一般化された本来のシステム(人間の声道)の特徴を記憶する。したが
って図4の好ましい実施形態は、図2の実施形態の長所、すなわち声道解析シス
テムが人間の声道によって生成可能な音を再生できるという長所をもつ。可能な
音用の大型メモリが必要ないだけでなく、可能な音を検索するときに必要な結果
の処理時間sも必要ないという長所をもつ。さらに、システムは記憶されている
音に制限されない。
ここで声道解析システムの特徴を簡単に記載することが適切である。声道は非
均一な音響管であり、声門から唇部へ延在し、時間関数にしたがって形状が変化
する(文献[Fant G C M,”Acoustic Theory of Speech Production”,Mouton an
d Co,’s-Gravehage,the Netherlands,1960年]参照)。時間にしたがって変化す
る主要な解剖学上の要素には、唇部、顎部、舌部、および軟口蓋部がある。計算
を簡単にするために、このシステムのモデルは線形で、しかも時間により変化し
ないモデルであることが望ましい。都合悪く、人間の言語機構はこれらの特性の
何れも正確に満たしていない。言語は連続的に時間により変化するプロセスであ
る。さらに、声門は声道と分離されないので、非線形の特徴をもつ(文献[Fla
nagan J L”Source-System Interactions in the Vocal Tract”,Ann.New York
Acad.Sci 155,9-15,1968]参照)。しかしながら、合理的な仮定をたてること
によって、言語イベントを記載する短い時間間隔において線形で時間にしたがっ
て変化しないモデルをつくることができる(文献[Markel J D,Gray A H,”Linea
r Prediction of Speech”,Springer-Verlag Berlin Heidelberg New York,1976
]参照)。線形予測コーデックは、言語イベントを短い時間間隔、すなわちフレ
ームに分割し、過去の言語フレームを使用して、独特の組の予測パラメータを生
成し、現在のフレームの言語を表す(文献[Atal B S,Hanauer S L”Speech Anal
ysis and Synthesis by Linear Prediction of Speech Wave”,J.Acoust.Soc.Am
er.,vol.50,637-655頁,1971年]参照)。線形予測解析方法は、言語パラメータ、
例えばピッチ、フォルマント、およびスペクトルを推定するのに幅広く使用され
ている。可聴モデル(時間/周波数/振幅スペクトログラム)は、監視される音
の可聴の特徴に依存し、可聴モデルがどのように生成されるかを考慮せずに、声
道モデルが、信号が言語に似ているか否か、すなわち真の声道モデルがそれを生
成できるか否かを識別することができる。したがって聞き取れない差は可聴モデ
ルによって認識されないが、それにも関わらず声道モデルによって認識されるこ
とになる。
解析で使用するのに適した声道モデルは線形予測コーディングモデルであり、
文献[Digital Processing of Speech Signals:Rabiner L.R.;Schafer R.W;(Pren
tice Hall,1978年),396頁]に記載されている。
声道モデルを向上することには許容可能な時間の特徴、例えば長期間のピッチ
予測を含んでいて、長期間のピッチ予測は、所定の言語構造から失われているか
、または悪い具合に歪んでしまっているために解析プロセスによって認識されな
いような言語要素の再生をすることができる。この時間特徴を含むことは、言語
成分がめったにない突然開始、妨害、および終了といった、例えば信号の短い消
失または損失を生じさせることになるものを平滑化して無くすことになる。
声道モデル11によって生成されるパラメータは、元の信号の言語に似た特徴を
識別する。言語に似ていない特徴は、声道モデルによってモデル化することはで
きず、したがってパラメータで表示されない。
声道モデルによって生成されるパラメータは、言語生成モデル12を制御するの
に使用される。パラメータは、解析器11によって生成される声道パラメータにし
たがって、合成器によって生成される励起信号を変更して、システム2から受信
される信号の言語に似た特徴を含む言語に似た信号を生成するが、歪みを含まな
い。
合成で使用する適切な声道モデルは、上述の線形予測コーディングモデル、す
なわち一層精巧なモデル、例えば縦続/並列フォルマント(カスケード/パラレ
ル)合成器を含み、これは文献(Journal of the Acoustic Society of America
(Vol 67,No3,1980年3月:D.H.Klatt;”Software for a Cascade/Parallel Forman
t Synthesiser”)に記載されている。
他の適切なシステムは、Quatieri、他による文献(”Phase Coherence in Spe
ech Reconstruction for Enhancement and Coding Applications”:Internation
al Conference on Acoustics,Speech,and Signal Processing,Vol 1 23-26,1986
年5月,Glasgow(Scotland):207-210頁)、およびKamata、他による文献(”Recon
struction of Human Voice using Parallel Structure Transfer Function and
its Estimation Error”:IEEE Pacific Rim Conference on Communications,Com
puters and Signal Processing;1995年5月17-19日,British Columbia,Canada)
に記載されている。
“言語(speech)”という用語は、本明細書で使用されているように、歌を含む
人間の音声によって生成可能な発話を意味するのに使用されているが、発話が理
解できる内容を含むことを示唆する必要はないことを理解すべきである。
─────────────────────────────────────────────────────
フロントページの続き
(51)Int.Cl.7 識別記号 FI テーマコート゛(参考)
H04M 7/00 Z
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),OA(BF,BJ,CF
,CG,CI,CM,GA,GN,ML,MR,NE,
SN,TD,TG),AP(KE,LS,MW,SD,S
Z,UG),UA(AM,AZ,BY,KG,KZ,MD
,RU,TJ,TM),AL,AM,AT,AU,AZ
,BA,BB,BG,BR,BY,CA,CH,CN,
CU,CZ,DE,DK,EE,ES,FI,GB,G
E,HU,IL,IS,JP,KE,KG,KP,KR
,KZ,LC,LK,LR,LS,LT,LU,LV,
MD,MG,MK,MN,MW,MX,NO,NZ,P
L,PT,RO,RU,SD,SE,SG,SI,SK
,TJ,TM,TR,TT,UA,UG,US,UZ,
VN,YU