JP2000505623A - 遠隔通信システム - Google Patents

遠隔通信システム

Info

Publication number
JP2000505623A
JP2000505623A JP9530688A JP53068897A JP2000505623A JP 2000505623 A JP2000505623 A JP 2000505623A JP 9530688 A JP9530688 A JP 9530688A JP 53068897 A JP53068897 A JP 53068897A JP 2000505623 A JP2000505623 A JP 2000505623A
Authority
JP
Japan
Prior art keywords
signal
language
output
parameters
vocal tract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9530688A
Other languages
English (en)
Inventor
ホリアー、マイケル・ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9604339.3A external-priority patent/GB9604339D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000505623A publication Critical patent/JP2000505623A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/40Applications of speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 通信リンク(2)で信号品質を向上する装置は、通信リンク(2)上で受信した信号の言語に似た特徴のみを再生する手段(11)を含んでいるので、推定した元の言語信号を再送信することができる。この手段は声道モデル(11)であり、合成器(12)に接続することができる。

Description

【発明の詳細な説明】 遠隔通信システム 本発明は、遠隔通信システム、とくに遠隔通信ネットワーク上を送られる言語 信号の品質を向上することに関する。 遠隔通信ネットワーク上を搬送される信号は、干渉、減衰、データ圧縮、パケ ット損失、ディジタル化処理の制限、および他の問題により品質が落ちる。伝送 通路の中間点で信号を監視して、欠陥を識別し、可能であれば信号を“修復、回 復”する、すなわち信号を元の状態に戻すことが望ましい。したがって“回復し た”信号を再び送ることができる。信号の元の内容を最早認識できなくなるとこ ろまで信号の品質が落ちてはいないことを条件として、伝送通路の長さおよび品 質低下の程度にしたがって必要な回数だけ処理を繰返すことができる。 データ信号は文字数が限られているので、比較的に回復し易い。この文字には 、例えば、二進数1および0;12文字のDTMF(デュアルトーンマルチパス フレケンシイ)システム、または種々のQAM(クオダラチャ振幅変調)星座( コンステレーション)配列がある。信号の回復は“許された”文字の何れが、実 際に受信した品質の落ちた信号に最も近いかを識別して、文字を送ることによっ て実行することができる。例えば二進システムでは、閾値を越えた信号値を“1 ”、閾値より小さい値を“0”に変換することができる。送信の際に検査ディジ ットおよび他の手段を含んで、送信の完全性をさらに向上することができる。 しかしながら一般的に、言語信号はこの種の限られた数の文字の組をもたない ので、元の信号をどのように回復するかよりも、信号の品質が落ちたか否かを自 動的に識別することがさらに困難である。 公衆交換遠隔通信システムでは、共通の操作性(インターオペラビリティ)と して、システムの全ての部分が両立して動作することが必要である。一般的にこ れには、少なくとも1つのオペレータシステムと他のオペレータシステムとの間 のインターフェイスでの複雑なコーディングプロセスを除く。 ある特定の応用では、言語信号を一連の係数として線形予測コーディング(L PC)プロセス、すなわち人間の声道の励起をモデル化するプロセスから送るこ とができる。この係数を声道エミュレーティングフィルタに供給すると、元の信 号を再生することができる。これは、例えば米国特許第4742550号(Fette)に記載 されている。このシステムは、例えば必要な帯域幅を低減するために移動電話シ ステムのエアインターフェイスに使用される言語コーデック(コーダ/デコーダ )に使用する。しかしながらこの形態の言語送信では、特定の装置が送信および 受信位置(例えば、移動電話および無線基地局)に存在しているのか、一般的に 公衆交換遠隔通信ネットワークで使用するのに適していない。 周知の多数の従来のシステムでは、音響および信号歪みノイズの一定の特徴を 識別し、この特徴を無くすようにされている。これは、例えば米国特許第514848 8号(Chen)に開示されており、到来信号の言語に似た(speech-like)特徴を推定し 、これを使用してカルマン(Kalman)フィルタを生成する。次にこのフィルタを信 号に適用して、言語に似た特性をもつ受信信号のみを送る。しかしながら、この システムは単純に言語に似ていない信号の部分を取除いてしまう。信号の一部を 失ったり、または歪んで言語に似ていない形になると、システムは信号を回復で きない。 本発明の第1の態様にしたがって、遠隔通信システムで受信した品質の落ちた 言語信号を元の形を推定したものに回復する方法であり: 信号を解析して、信号の言語内容を示すパラメータを識別する段階と; このように識別されたパラメータから言語信号を再生する段階と; 生成された言語信号を通信システムの入力へ供給する段階とを含む方法を提 供する。 本発明の第2の態様にしたがって、遠隔通信システム上で受信した品質の落ち た言語信号を元の形を推定したものに回復する装置であり: 信号を解析して、信号の言語内容を示すパラメータを識別する手段と; こうして識別したパラメータから言語信号を再生する手段とを含む装置を提 供する。 本発明の1つの実施形態で、この方法は: 遠隔通信システムの出力に、到来信号の言語要素を推定する認識プロセスを 適用する段階と; 前記推定された言語要素をもつ言語信号を合成する段階と; 合成された信号の言語要素のマクロ特性を調整して、調整した合成信号の特 性を出力信号の特性と整合させる段階とをもつ。 本明細書では“マクロ特性”という用語を使用して、発話した個々のフォニー ムを判断する“ミクロ構造”とは別に、話者間で変化する各言語要素の特性を意 味する。 好ましくはこの実施形態では、推定される信号と出力信号とを個々の言語要素 の継続時間、声門励起の特徴、および/またはピッチに関して整合させる。 別の好ましい実施形態では、スペクトル表示モデルにしたがって信号を解析し て、出力パラメータを生成し、出力パラメータから得られる信号を生成する。好 ましくは、スペクトル表示モデルは声道モデルであり、言語信号は声道モデルを 使用して再生される。好ましくは再生モデルは、言語に似た制約された再生信号 の時間的な特徴を含む。 本発明は別の態様では、別の遠隔通信システムとの1または複数のインターフ ェイスをもつ遠隔通信システムにさらに拡張され、各インターフェイスは、シス テムに入力および/または出力する信号を解析し回復する装置を提供する。 ここで、本発明の実施形態を添付の図面を参照して例示的に記載することにす る: 図1は、本発明を適用した遠隔通信システムを示す。 図2は、本発明の第1の実施形態にしたがう言語再生装置で、推定された“元 の信号”を品質の落ちた入力信号から再生する方法を示す。 図3は、図2の実施形態で使用したプロセスの一部を形成している整合技術を 示す。 図4は、本発明の第2の実施形態にしたがう言語再生装置を示す。 図1および2の機能ブロックは、各プロセスの確立された例を参照して、以下 で説明する。 図1において、一般化された遠隔通信システム8は多数の相互接続したスイッ チ9a、9b、9c、9dを含み、多数の他のシステム2a、2b、2c、2dとインターフェイ スしている。図2に例示的に示されているように、これらは私設システムであっ てよく、私設交換機(PBX)2aを介してシステム8に接続されているが、国際 スイッチングセンタ(ISC)2b、別のオペレータの公衆ネットワーク2c、また は同じオペレータのネットワークの別の部分2dによってシステム8に接続された 国際ネットワークになる。各源1a、1b、1c、1dで生成される言語信号は、システ ム2a、2b、2c、2dによって損なわれることがある。他のシステム2a、2b、2c、2d からシステム8へ入力または出力する言語信号は、各言語再生装置10a、10b、10 c、10dへ送られる。図示されているように、個々のオペレータはシステム8を“ リングフェンス(ring fence)(注:英語イディオムであり、システム8がリング フェンスされると、それはフェンス(塀)を横切らないと他のシステム2a,2b,2c にアクセスできないことを意味する。システム8と他のシステムとの間の全ての 入口と出口ポイントには回復(修復)ユニットがある。)”を選択して、別のシ ステム2a、2b、2cからシステム8へ入力する信号を最初の機会に回復できるよう にして、信号がシステムから出て行くときの信号の品質低下を取除くようにする 。大きなネットワークで、別の言語生成装置(例えば再生装置10d)をネットワ ーク内に配置して、1つのオペレータのネットワークを幾つかの小さいネットワ ークに再分割して、2d、8をこの言語回復装置によって接続することができる。 記述することになるシステムは、言語信号を処理するのみである。システムが データ(例えば、ファクシミリ)信号も処理できるとすると、信号の形式を識別 して、異なる回復プロセスを、もしあるならば、各形式に適用するために別の手 段(図示されていない)が必要になるであろう。言語/データ弁別器は当業者に よく知られている。例えば言語圧縮に使用するDCME(ディジタル回路多重化 装置)は、ファクシミリ送信の音のシグネチャーを識別する手段を準備し、装置 へ信号を送って、クリアな(圧縮されていない)伝送チャンネルを準備する。既 に記載したように、データ回復プロセスは当業者には一般的であり、本明細書で はさらには記載しないことにする。 図2は、言語再生装置10の概略的な構成を示し、図1の装置10a、10b、10C、1 0dの1つに対応する。同様に図2の信号入力1とシステム2とは、それぞれ入力 1a、1b、1c、1dの1つおよび各システム2a、2b、2c、2dの1つに対応する。 信号入力は、第1の遠隔通信システム2によって受信される最初の言語材料を 供給する。この材料は、ディジタル形式でシステム2の一部で送ることができる が、解析される信号はアナログ信号である。このアナログ信号は、元のアナログ 言語信号の品質の落ちた形であり;品質低下は、ディジタル化処理それ自身を含 む、上述で参照したファクタによる。アナログ言語信号は、システム2から言語 再生装置10へ出力される。再生装置10は歪んだ言語信号を最初に言語認識器3へ 送り、認識器3で歪んだ言語音を分類し、認識器3の一部を形成しているファイ ルのメモリからの“元の音”のファイルの選択を容易にする。 本明細書では、“言語認識”という用語が使用われて、言語信号の波形からの 言語イベントの認識を意味している。言語処理技術の領域では、機械を使用して 言語を認識することが、エンジニアおよび科学者に長年の目標であった。種々の 実際の言語認識器が次の文献に記載されている。例えば、HMM(Hidden Markov Mo dels)Cox 1990年:[Wheddon C and Linggard R:”Speech communication”,Spee ch and Language Processing,Chapman and Hall(1990年)]fixed dimension cla ssifiers(such as nearest neighbour,Gaussian mixtures,and muti-layer per ception)[Woodland & Millar 1990年:ibid],and neural arrays[Tattersal,Lin ford & Linggard 1990年:ibid]がある。 大部分の認識システムは、特徴抽出器およびパターン整合プロセス(分類)を 含み、話者に依存している(talker-dependent)かまたは話者とは独立している(t alker-independent)かの何れかである。話者に依存している認識器は、特定の応 用に必要な各単語を使用してユーザがトレーニングする。話者とは独立している 認識システムは、変更することができない規定のボキャブラリ(語彙)をもつ( [Wheddon C & Linggard R:”Speech communication”,Speech and Language Pro cessing,Chapman and Hall(1990年)]参照)。両方のシステムは音響信号から特 徴を抽出し、分類器へ送り、このボキャブラリ内の何れの単語を発話したかを判 断する。変換またはディジタルのフィルタ処理技術を使用して特徴を抽出し、分 類器へ送られるデータ量を減らす。次に生成されたパターンを時間的にワープし て、基準パターンと最適にアラインする([Sakoe H and Chibass:”Dynamic pro gramming algorithm optimisation for spoken word reconition”],IEEE Trans Acoust Speech Proc,26(1978年)参照)。統計モデル、例えば隠された(hid den)マルコフモデル([Cox S J:”Hidden Markov models for automatic speech recognition:theory and application”,BT Telecom Technol J,6,No.2(1988年 )]参照)も幅広く使用されている。ここで特徴のシーケンスを1組の確率統計的 に定められた単語モデルと比較する。特徴抽出およびパターン整合技術をさらに 、接続された単語の処理に拡大することができる(文献[Bridle J S,Brown MD C hamberlain R M:”An algorithm for connected word recognition”,Automatic Speech Analysis and Recognition,Reidal Publishing Company(1984年)参照) が、この場合は単語数が分からず、単語間の境界が実時間で容易に判断できない ので、より著しく複雑になる。したがって計算時間が増加し(文献[Atal B S an d Rabiner L R:”Speech research directions”,AT & T Technical Journal 65 ,Issue 5(1986年)]参照)、対応してハードウエアがより複雑になる。 本発明の目的に適している隠れたマルコフモデル(HMM)は、Baun L Eによ る文献(”An Inequality and Associated Maximisation Technique in Statist ical Estimation for Probablilistic Functions of Markov Process”Inqualit ies III,1-8,1972年)、またはCox S Jによる文献(”Hidden Markov Models Fo r Automatic Speech Recognition:Theory and Application”,”Speech and Lan guage Processing”,Wheddon C and Linggerd R,Chapman and Hall編,ISBN 0 41 2 37800 0,1990年)に記載されている。HMMは1組の特徴ベクトルとして既知 の単語を表し、所定の到来する単語に対して、モデルが観察した組の特徴ベクト ルを生成する後の(posteriori)確率を計算する。次に一般的な“元の音”のファ イルは、認識された単語用のメモリから選択することができる。 こうして識別された“元の音”ファイルを使用して、言語生成器7を制御して 、生成されることになる音に対応する音響信号を生成する。こうして言語認識器 は、何れの言語要素が元の信号に存在していた確率が高いかを識別し、言語生成 器は、この言語要素のメモリから、言語要素の歪んでいない形式を生成する。し たがって出力は言語に似た要素のみから構成されている。言語認識器3が正しい 言語要素を識別できないほど遠隔通信システムから受信した信号は損なわれてい ないことを条件に、言語生成器7からの出力は完全に元の信号の言語内容である ことになる。 ここで生成器7が生成した合成信号のマクロ特性を、アダプタ4で実際の言語 イベントのマクロ特性に適応させる。アダプタ4は元の話者の特徴、とくに基本 周波数(個人の声道の寸法を反映している)、音声の音品質を決定する声門励起 の特徴および時間ワーピング(temporal warping)を再生して、個々の言語要素の 送り出し速度の一般的なテンプレートに適合させる。これにより、−般的な“元 の音”のファイルを実際の言語の発話に適合させ、この技術を実際に丈夫で、し かも話者が独立したものにする。これらの特徴は文献[”Mechanisms of Speech recognition”,W.A.Ainsworth,Pergamon Press,1976年]に記載されている。 各出力要素の基本周波数、または他の識別可能な周波数を元の音声信号の周波 数に適合させて、元の話者の音声の抑揚に適合させることによって、信号のピッ チ(基本周波数)を記憶した“元の音”のピッチに適合させることができる。 上述で引用したAinsworthの文献の図4.3(36頁)を参照して記載したよ うに、元の信号の特徴の解析からアルゴリズムで声門励起の特徴を生成すること ができる。 時間ワーピングに使用される数学的方法は、例えばHolmes J Nによる文献(” Speech Synthesis and Recognition”,Van Nostrand Reinhold(UK)Co.Ltd.,ISBN 0 278 00013 4,1988年)およびBridle J S,Brown M D,Chamberlain R Mによる 文献(”Continuous Connected Word Recognition Using Whole Word Templates ”,Radio and Electronics Engineer 53,167乃至177頁,1983年)に記載されてい る。2つの単語間の時間アラインメントパス(整列経路)(“元の(orignal)” と記載され、認識されている)は記憶した“元の音”を検出された単語の音に適 合させるのに必要な時間ワーピングを記載している(図3参照)。図3は、垂直 方向の座標軸で認識された単語の“パターン”要素を、また水平方向の座標軸で 発声した単語の対応する要素を示している。話者の発話は一定の要素内のメモリ から呼出した単語と異なり、したがって元の発話を一定の要素に適合させ、とく に“p”および“r”を長くして、その他、とくに“t”を短くすることが分か るであろう。 次に再生信号を遠隔通信システム8へ出力する。 言語認識器3、言語生成器7、およびアダプタ4は個別のハードウエアである と記載したが、実際にはこれらは適切にプログラム作成されたディジタルプロセ ッサによって実現することができる。 上述のシステムには認識可能な言語の単語または単語要素の大きなメモリが必 要であり、システムが記憶したサンプルから言語要素を認識するときのみ、言語 要素を再生する。したがって遠隔通信システム2の出力で生成された音が、メモ リ内に記憶した音と適合しないときは、言語でないとして拒絶され、送られない ことになる。このやり方では、言語として認識される信号内容中のイベントのみ を取除く。 好ましい実施形態では、図4に示されているように、言語再生装置は声道解析 装置11からつくられ、声道解析装置11からの出力は声道シミュレータ12に供給さ れて、言語に似た信号を生成する。このシステムは、各イベントが完全に受領さ れるかまたは拒絶される代りに、言語に似ていないパラメータを他の全ての点で 言語に似たイベントから取除くという長所をもつ。 声道解析システムは、このシステムによって生成可能な音の“ライブラリ”で はなく、一般化された本来のシステム(人間の声道)の特徴を記憶する。したが って図4の好ましい実施形態は、図2の実施形態の長所、すなわち声道解析シス テムが人間の声道によって生成可能な音を再生できるという長所をもつ。可能な 音用の大型メモリが必要ないだけでなく、可能な音を検索するときに必要な結果 の処理時間sも必要ないという長所をもつ。さらに、システムは記憶されている 音に制限されない。 ここで声道解析システムの特徴を簡単に記載することが適切である。声道は非 均一な音響管であり、声門から唇部へ延在し、時間関数にしたがって形状が変化 する(文献[Fant G C M,”Acoustic Theory of Speech Production”,Mouton an d Co,’s-Gravehage,the Netherlands,1960年]参照)。時間にしたがって変化す る主要な解剖学上の要素には、唇部、顎部、舌部、および軟口蓋部がある。計算 を簡単にするために、このシステムのモデルは線形で、しかも時間により変化し ないモデルであることが望ましい。都合悪く、人間の言語機構はこれらの特性の 何れも正確に満たしていない。言語は連続的に時間により変化するプロセスであ る。さらに、声門は声道と分離されないので、非線形の特徴をもつ(文献[Fla nagan J L”Source-System Interactions in the Vocal Tract”,Ann.New York Acad.Sci 155,9-15,1968]参照)。しかしながら、合理的な仮定をたてること によって、言語イベントを記載する短い時間間隔において線形で時間にしたがっ て変化しないモデルをつくることができる(文献[Markel J D,Gray A H,”Linea r Prediction of Speech”,Springer-Verlag Berlin Heidelberg New York,1976 ]参照)。線形予測コーデックは、言語イベントを短い時間間隔、すなわちフレ ームに分割し、過去の言語フレームを使用して、独特の組の予測パラメータを生 成し、現在のフレームの言語を表す(文献[Atal B S,Hanauer S L”Speech Anal ysis and Synthesis by Linear Prediction of Speech Wave”,J.Acoust.Soc.Am er.,vol.50,637-655頁,1971年]参照)。線形予測解析方法は、言語パラメータ、 例えばピッチ、フォルマント、およびスペクトルを推定するのに幅広く使用され ている。可聴モデル(時間/周波数/振幅スペクトログラム)は、監視される音 の可聴の特徴に依存し、可聴モデルがどのように生成されるかを考慮せずに、声 道モデルが、信号が言語に似ているか否か、すなわち真の声道モデルがそれを生 成できるか否かを識別することができる。したがって聞き取れない差は可聴モデ ルによって認識されないが、それにも関わらず声道モデルによって認識されるこ とになる。 解析で使用するのに適した声道モデルは線形予測コーディングモデルであり、 文献[Digital Processing of Speech Signals:Rabiner L.R.;Schafer R.W;(Pren tice Hall,1978年),396頁]に記載されている。 声道モデルを向上することには許容可能な時間の特徴、例えば長期間のピッチ 予測を含んでいて、長期間のピッチ予測は、所定の言語構造から失われているか 、または悪い具合に歪んでしまっているために解析プロセスによって認識されな いような言語要素の再生をすることができる。この時間特徴を含むことは、言語 成分がめったにない突然開始、妨害、および終了といった、例えば信号の短い消 失または損失を生じさせることになるものを平滑化して無くすことになる。 声道モデル11によって生成されるパラメータは、元の信号の言語に似た特徴を 識別する。言語に似ていない特徴は、声道モデルによってモデル化することはで きず、したがってパラメータで表示されない。 声道モデルによって生成されるパラメータは、言語生成モデル12を制御するの に使用される。パラメータは、解析器11によって生成される声道パラメータにし たがって、合成器によって生成される励起信号を変更して、システム2から受信 される信号の言語に似た特徴を含む言語に似た信号を生成するが、歪みを含まな い。 合成で使用する適切な声道モデルは、上述の線形予測コーディングモデル、す なわち一層精巧なモデル、例えば縦続/並列フォルマント(カスケード/パラレ ル)合成器を含み、これは文献(Journal of the Acoustic Society of America (Vol 67,No3,1980年3月:D.H.Klatt;”Software for a Cascade/Parallel Forman t Synthesiser”)に記載されている。 他の適切なシステムは、Quatieri、他による文献(”Phase Coherence in Spe ech Reconstruction for Enhancement and Coding Applications”:Internation al Conference on Acoustics,Speech,and Signal Processing,Vol 1 23-26,1986 年5月,Glasgow(Scotland):207-210頁)、およびKamata、他による文献(”Recon struction of Human Voice using Parallel Structure Transfer Function and its Estimation Error”:IEEE Pacific Rim Conference on Communications,Com puters and Signal Processing;1995年5月17-19日,British Columbia,Canada) に記載されている。 “言語(speech)”という用語は、本明細書で使用されているように、歌を含む 人間の音声によって生成可能な発話を意味するのに使用されているが、発話が理 解できる内容を含むことを示唆する必要はないことを理解すべきである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 7/00 Z (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BA,BB,BG,BR,BY,CA,CH,CN, CU,CZ,DE,DK,EE,ES,FI,GB,G E,HU,IL,IS,JP,KE,KG,KP,KR ,KZ,LC,LK,LR,LS,LT,LU,LV, MD,MG,MK,MN,MW,MX,NO,NZ,P L,PT,RO,RU,SD,SE,SG,SI,SK ,TJ,TM,TR,TT,UA,UG,US,UZ, VN,YU

Claims (1)

  1. 【特許請求の範囲】 1.遠隔通信システムで受信した品質の落ちた言語信号を元の形を推定したもの に回復する方法であり: 信号を解析して、信号の言語内容を示すパラメータを識別する段階と; このように識別されたパラメータから言語信号を再生する段階と; 生成された言語信号を通信システムの入力へ供給する段階とを含む方法。 2.通信システムの出力に認識プロセスを供給して、到来する信号の言語要素を 推定する段階と; 前記推定された言語要素をもつ言語信号を合成する段階と; 合成信号内を調整して言語要素においてマクロ特性を出力信号に適合させる 段階とを含む請求項1記載の方法。 3.推定された信号を調整して、個々の言語要素の継続時間またはピッチ、ある いはその両方において出力信号に適合させる請求項2記載の方法。 4.信号をスペクトル表示モデルにしたがって解析して出力パラメータを生成し 、出力パラメータから再生された信号を得る請求項1記載の方法。 5.スペクトル表示が声道モデルである請求項4記載の方法。 6.声道モデルを使用して言語信号を再生する請求項4または5記載の方法。 7.再生された信号の時間の特徴は言語に似たものに限る請求項1乃至6の何れ か1項記載の方法。 8.遠隔通信システムで受信した品質の落ちた信号を元の形を推定したものに回 復する装置(10)であり: 信号を解析して、信号の言語内容をしめすパラメータを識別する手段(3,11) と; こうして識別されたパラメータから言語信号を再生する手段(7,4;12)とを含 む装置。 9.第1の品質の落ちた信号に認識プロセスを適用して、到来信号の要素を推定 する言語認識手段(3)と; 前記推定された言語要素をもつ言語信号を合成する言語合成手段(7)と; 合成された信号を調整して、言語要素のマクロ特性において第1の信号に適 合させ;品質を落とすことなく第1の信号に対応する信号を生成する言語調整手 段(4)を含む請求項8記載の装置。 10.言語調整手段(4)が、推定された信号を変更して、個々の言語要素の継続 時間またはピッチ、あるいはその両方において第1の信号に適合させる手段を含 む請求項9記載の装置。 11.スペクトル表示を使用して信号を解析して、出力パラメータを生成する解 析手段(11)、および出力パラメータから得られた出力信号を生成する手段(12)を 含む請求項8記載の装置。 12.スペクトル表示が声道モデルである請求項11記載の装置。 13.言語信号を再生する手段(12)が声道モデルである請求項10または11記 載の装置。 14.信号を再生する手段が、再生された信号の時間の特徴を言語に似たものに 限る手段を含む請求項8乃至13の何れか1項記載の方法。 15.別の遠隔通信システム(2a,2b,2c,2d)との1または複数のインターフェイ スをもつ遠隔通信システム(8)であり、各インターフェイスが該システムへ入力 される信号を解析して回復する請求項1乃至12の何れか1項記載の装置(10)ま たは該システムから出力される信号を解析して回復する請求項8乃至12の何れ か1項記載の装置(10)、或いはその両方が与えられている遠隔通信システム。 16.添付の図面を引用して実質的に記載した方法。 17.添付の図面を引用して実質的に記載した装置。
JP9530688A 1996-02-29 1997-02-14 遠隔通信システム Pending JP2000505623A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB96301392.5 1996-02-29
GB9604339.3 1996-02-29
GBGB9604339.3A GB9604339D0 (en) 1996-02-29 1996-02-29 Telecommunications system
EP96301392 1996-02-29
PCT/GB1997/000432 WO1997032430A1 (en) 1996-02-29 1997-02-14 Telecommunications system

Publications (1)

Publication Number Publication Date
JP2000505623A true JP2000505623A (ja) 2000-05-09

Family

ID=26143580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9530688A Pending JP2000505623A (ja) 1996-02-29 1997-02-14 遠隔通信システム

Country Status (6)

Country Link
EP (1) EP0883959B1 (ja)
JP (1) JP2000505623A (ja)
CN (1) CN1216189A (ja)
AU (1) AU711562B2 (ja)
DE (1) DE69726559T2 (ja)
WO (1) WO1997032430A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002071731A1 (de) * 2001-03-07 2002-09-12 T-Mobile Deutschland Gmbh Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1211194B (it) * 1987-07-10 1989-10-12 Olivetti & Co Spa Sistema di misura e compensazione automatica delle distorsioni di un collegamento tra un apparecchio telefonico e un unita centrale di trattamento voce
JP2793213B2 (ja) * 1988-12-29 1998-09-03 株式会社東芝 音声認識装置及びこれを用いた電話機
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
US5195132B1 (en) * 1990-12-03 1996-03-19 At & T Bell Lab Telephone network speech signal enhancement
JPH05297899A (ja) * 1992-04-16 1993-11-12 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成方法
US5848384A (en) * 1994-08-18 1998-12-08 British Telecommunications Public Limited Company Analysis of audio quality using speech recognition and synthesis

Also Published As

Publication number Publication date
CN1216189A (zh) 1999-05-05
DE69726559T2 (de) 2004-11-25
DE69726559D1 (de) 2004-01-15
AU1803197A (en) 1997-09-16
WO1997032430A1 (en) 1997-09-04
EP0883959A1 (en) 1998-12-16
AU711562B2 (en) 1999-10-14
EP0883959B1 (en) 2003-12-03

Similar Documents

Publication Publication Date Title
Wang et al. Voicefilter: Targeted voice separation by speaker-conditioned spectrogram masking
CN111247585B (zh) 语音转换方法、装置、设备及存储介质
CA2202656C (en) Speech recognition
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
KR19990043998A (ko) 패턴인식시스템
JPH075892A (ja) 音声認識方法
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
JPH04158397A (ja) 声質変換方式
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JPH07509077A (ja) スピーチを変換する方法
Mandel et al. Audio super-resolution using concatenative resynthesis
Salonidis et al. Robust speech recognition for multiple topological scenarios of the GSM mobile phone system
Besacier et al. Overview of compression and packet loss effects in speech biometrics
US6044147A (en) Telecommunications system
US5765124A (en) Time-varying feature space preprocessing procedure for telephone based speech recognition
JP2000505623A (ja) 遠隔通信システム
JP3250604B2 (ja) 音声認識方法および装置
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
Unnibhavi et al. A survey of speech recognition on south Indian Languages
Strods et al. Enhancing Gappy Speech Audio Signals with Generative Adversarial Networks
CA2242248C (en) Telecommunications system
Raghavan Speaker and environment adaptation in continuous speech recognition
Rajan et al. Comparative Study on Neural Vocoders for Multispeaker Text-To-Speech Synthesis
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
Ibrahim Distributed Speech Recognition over IP Recognition over IP Networks using Java