JP2011504624A

JP2011504624A - 自動同時通訳システム

Info

Publication number: JP2011504624A
Application number: JP2010533647A
Authority: JP
Inventors: グレニエール，ジャン
Original assignee: ボネトン，ウィリアム
Priority date: 2007-11-19
Filing date: 2008-11-18
Publication date: 2011-02-10
Also published as: FR2923928A1; WO2009071795A1; EP2215626A1; FR2923928B1; CN101861621A; US8606560B2; US20100256972A1

Abstract

本通訳システムは、起点言語で書かれ、または発音された文の視覚的または聴覚的取得手段および音声の変換手段、取得手段で取得した入力信号から、起点言語への文の転写である起点言語文を生成するための認識手段（３０）、起点言語文から、目標言語への起点言語文の翻訳である目標言語文を生成するための翻訳手段（３２）および目標言語文から、音響変換手段によって再生されることのできる出力音響信号を生成するための音声合成手段（３４）を含む通訳システムである。本発明では、本通訳システムは、リアルタイムで、起点言語での文を目標言語に生成するために、認識手段（３０）、翻訳手段（３２）および音声合成手段（３５）を呼び出すための平滑化手段（４０）を含んでいる。
【選択図】図３。

Description

本発明は、自動同時通訳システムに関する。言語学では、同時通訳システムとは、起点言語で発音された内容を言っているそばから目標言語に変換することを指す。通訳という用語は、翻訳という用語よりも好ましいのは、後者が、厳密な意味で、もっぱら記述に関するからである。

技術の現状では、音声認識装置が知られている。例えば、ＳＣＡＮＳＯＦＴ社が「ＤｒａｇｏｎＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ」の名称で市販しているソフトウエアは、口述者が口述する文書をデイスプレー上に書き換えることができる。口述者は、声を出して読むに連れて、あいまいな語尾の書き方や句読点などに関する情報で文書を充実させる。

そのほかに、起点言語の文書を目標言語の文書に翻訳することのできる翻訳ソフトウエアが存在している。例えば、Ｓｙｓｔｒａｎソフトウエアは、同名の企業が市場に出しているが、文法上の法則、文体上の法則および改定されることのある辞書に則って自動翻訳ができる。

なお、やはりそのほかに、例えばコンピュータのデイスプレーに記されている文書を音響変換できる音声合成ソフトウエアが存在している。ＦｒａｎｃｅＴＥＬＥＣＯＭ社の技術に基づく、「ＳｐｅａｋＢａｃｋ」の商標で市販されているソフトウエアは、この種の音声合成ソフトウエアの一例である。

ＷＯ−２００３−０５２６２４号文書は、起点言語で発音された文の少なくとも１の取得手段と少なくとも１の音響変換手段、音響取得手段で取得した入力信号から、起点言語で発音された文の転写である起点言語を生成するための音声認識手段、目標言語への起点文の翻訳である目標言語文を生成するための翻訳手段、ならびに目標言語文から、同音響変換手段で変換できた出力音響信号を生成するための音声合成手段を含むタイプの通訳システムを叙述している。

しかし、叙述された通訳システムは、音声認識手段、翻訳手段および音声合成手段の単なる積み重ねの様相を呈しているに過ぎない。とりわけ、叙述された通訳システムは、文の処理プロセスが、取得から変換まで、効果的に実施されるための手段を含んでいない。

ＷＯ−２００３−０５２６２４

したがって、本発明は、文の処理プロセスがリアルタイム、すなわち処理のデッドタイムを最小限にすることを可能にする、改良された通訳システムを提案することによって、この問題の欠陥を排除することにある。

そのために、本発明は、リアルタイムで、起点言語文を目標言語に通訳するための同認識手段、翻訳手段および音声合成手段を逐次呼び出すことのできる平滑化手段を含むことを特徴とする、前記タイプの通訳システムを目的としている。

独自の実施態様によれば、本システムは、単独に、または可能な技術上の組み合わせにしたがって、採用した１または複数の下記特性を含んでいる。すなわち、
− 目標言語への起点言語の辞書を含む同翻訳手段、
− 同音声合成手段は、出力音響信号を生成すべく、単語の綴りと、目標言語の一連の音素と一連の発音の法則とを関連付ける音声辞書を含んでいる。
− 同平滑化手段は、一方では、同認識手段、翻訳手段および音声合成手段、他方では、平滑化手段との間のメッセージの交換を可能にする伝達手段を含んでいる。
− 伝達手段は、認識手段、翻訳手段、音声合成手段および平滑化手段のそれぞれの入力に関連付けられてある待機列を含んでいる。
− メッセージは、要望と論証を含んでいる。
− 同取得手段は、視覚的取得手段であり、同認識手段は、同視覚的取得手段で取得した、起点言語で書かれた文から起点言語文を生成することのできる視覚的認識手段である。
− 同取得手段は、音響取得手段であり、同認識手段は、同音響取得手段で取得する、起点言語で発音された文から起点言語を生成することのできる音声認識手段である。
− 同音声認識手段に含まれるのは、
入力音響信号を一連の音素に分解することのできる音素認識手段、
一連の音素から一連の音素群を生成するために、音素相互を集合し得る再結集手段、および
一連の音素群から起点言語文を生成するように、単語の綴りを音素群に関連付けることのできる転写手段、同転写手段は、単語の綴り群を音素群に関連付けさせる起点言語のディレクトリーおよび単語の綴り群の中から独自の綴りを選定できる一連の法則を含んでいる。
− 本システムが第１のチャンネルで第１のスピーチを第２の目標言語に通訳し、第２のチャンネルで、第２の起点言語スピーチを第２の目標言語に解釈する双方向の通訳が可能であり、一方では、第１の起点言語と第２の目標言語、他方では、第２の起点言語と第１の目標言語が同一であり、同システムは、更に、第１の音響取得手段と第１の音響変換手段、ならびに第２の音響取得手段と第２の音響変換手段を含んでいる。
− 第１の起点言語に独自の第１の音声認識手段、ならびに第２の起点言語に独自の第２の音声認識手段を含んでおり、翻訳手段と音声合成手段は、第１と第２のチャンネルのどちらでも機能する。
− 第１のチャンネルに、第１の音声認識手段、第１の翻訳手段および第１の独特な音声合成手段、ならびに第２のチャンネルに、第２の音声認識手段、第２の翻訳手段および第２の独特な音声合成手段を含んでいる。

本発明は、添付図に照らして、作成し、例としてのみ示した記述を読むことによって、よりよく理解されるだろう、すなわち、
携帯用実施態様における通訳システムの芸術的表現図である。図１の本システムの器材部の図式的表現である。図１の本システムのソフトウエア部の各種モジュール群の図である。および図３の認識モジュールの機能組織図である。

図１を参照すると、本発明による同時通訳システムの携帯型実施態様が示してある。ユーザーが紐類で頸に掛けて持てる小型ケース１のことを指す。

本システムは、ユーザーにとって通訳システムのそれぞれ第１の音響変換手段および第１の音響取得手段になるイヤホーン３および第１のマイクロ４を具えている。

本システムは、凹部７の底に格納してある小型のスピーカー５と第２
のマイクロ６を具えており、それは対話者にとって、それぞれ第２の音響変換手段および第２の音響取得手段になる。この第２の手段５と６は、ケース１の同じ前面に配置してある。

対話者とは、ここでは、一般的に、ユーザーが話し合いたい者を指す。この対話者は、各種出所から発生される環境の音響を捕捉するために本システムを利用する場合、不特定であり得ることに留意すべきだろう。

本システムは、言語Ｌ２で表現する対話者のスピーチを、ユーザーが理解している言語Ｌ１に通訳すること、ならびに言語Ｌ１で表現するユーザーのスピーチを対話者の言語Ｌ２に通訳することを同時に可能にしているので、双方向的である。したがって、第１の機能チャンネルは、第１のマイクロで捕捉した入力音響信号の処理に対応し、そのとき、言語Ｌ１が、第２のスピーカー６から発生する出力音響信号を発生するために起点言語に対応しており、言語Ｌ２がそのとき、この第１のチャンネルの目標言語として表われる。

逆に、第２の機能チャンネルは、第２のマイクロ６で捕捉した音響信号の処理に対応し、第１のラウドスピーカー３で発生する信号を生ずるために、ここでは、起点言語に相当するが、言語Ｌ１は、このとき、この第２のチャンネルの目標言語として表われる。

ユーザーは、ケース１の上部の中に、情報を視覚化するためのデイスプレー８およびシステムと相互作用するためのボタン９を使用できる。ボタン９は、例えば、デイスプレーに提示される、くり広がるコースの中から要素を選定するために「クリックできる」回転式のホイールであり得る。

図２を参照すると、本システムは、器材部の中に、読み出し専用メモリ１１と随時書き込み読み出しメモリ１２のようなメモリ手段、プロセッサー１３のような演算手段、および第１と第２のマイクロ４と６との計数信号の交換を保証する入力・出力インターフェース１０、イヤホーン３とラウドスピーカー５、ならびに例えばデイスプレー８と選択用ホイール９を含んでいる。

図３では、本発明によるシステムのソフトウエア部は、ＭＩＣＲＯＳＯＦＴ社が開発したＷｉｎｄｏｗｓＸＰソフトウエアのような、器材部の開発システム２０と機能するアプリケーション２５である。同時通訳ソフトウエアアプリケーション２５は、読み出し専用メモリ１１にストックされていて、プロセッサ１３で実施待機中の一連の命令を含んでいる。

もっと明瞭にするために、第１のチャンネルによるデータの処理に限定すると、アプリケーション２５は、図３に図式的に表したソフトウエアモジュール一揃いを含んでいる。

音声認識（英語で「ＡｕｔｏｍａｔｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」）と呼ばれている第１のモジュール３０は、入力時に、第１の音響取得手段で生ずる音響信号を取り、リアルタイムで、起点言語文に転写する。起点言語文とは、実際に発音された文の評価に相当する文型の対象である。この第１のモジュール３０は、起点言語独特の音素表、起点言語の一群の音素と一群の単語の綴りを関連付けるレパートリー、ならびに例えば文脈に応じて、対象単語に先行し、または後に続く単語などに特有な綴りを選定するための一連の法則を含んでいる。

翻訳（英語で「Ｔｒａｎｓｌａｔｉｏｎ」）と呼ばれている第２のモジュール３２は、入力時に、起点言語文を取り、起点言語から目標言語に翻訳する。翻訳モジュール３２は、目標言語文を生成する。目標言語文は、起点言語文の翻訳の評価に相当する文型の対象である。この第２のモジュール３２は、起点言語の単語を目標言語の単語群に関連付ける辞書、ならびに例えば対象単語が使用されている文脈をベースにして、この語群の中から独自の単語を選定できる一連の翻訳法則とを関連付ける辞書を含んでいる。

発音または音声合成（英語で「ＴｅｘｔｔｏＳｐｅｅｃｈ」）と呼ばれている第３のモジュール３４は、入力時に、目標言語を取り、出力の音響信号を合成する。第２の音響変換手段に伝達されるこの信号は、目標言語文を音響的に再生する目標言語の音素の要素連続に相当する。この第３のモジュール３４は、目標言語の単語を一連の音素に関連付ける音声辞書、ならびに発音の基本的音響信号を音素に関連付ける発音表を含んでいる。

人・機械インターフェースモジュール３６は、デイスプレー８上にデータを表示でき、ユーザーは、ホイール９でデータを把握できる。変形態様では、モジュール３６は、次の基本的オペレーションのために有効にする前に、ユーザーがこの表示された文章をフィルターに掛け、充実できるために、認識モジュール３０から出力される言語Ｌ１および／または翻訳モジュール３２から提示装置８に出力される言語Ｌ２の文書を表示する。

なお、アプリケーション２５は、平滑化モジュール４０を含んでいる。平滑化モジュール４０は、状態関連装置からなる。

設定状態では、モジュール４０は、ユーザーの好みに応じて、本システムの設定を引き受ける。変更できる設定の要因は、例えば言語Ｌ１、言語Ｌ２であり、音声認識手段３０が音声とか合成音声の描写などの認識法を「習得」する、ユーザーにとっての識別材である。この諸設定要因は、本システムでメモリーされたプロフィール内に再集合される。

処理状態では、平滑化モジュール４０は、各種モジュール３０、３２、３４、３６間の低レベルのインターフェースの役割を果たす。同モジュールは、発音された文の通訳プロセスの基本的諸オペレーションの要素連続化を保証する。同モジュールは、リアルタイムで、文の通訳を生成するために、すなわち、異なる２のモジュール３０、３２または３４によって実行された２の基本的オペレーション間の待機時間を無くして通訳するために、モジュール３０、３２次いで３４を秩序正しく活性化することができる。

そのために、平滑化モジュール４０は、独立の４のモジュール３０−３６間の伝達業務を実行する。モジュール間の伝達は、メッセージの交換に基づいている。メッセージは、要望、例えば翻訳の要求を含むか、または例えばある出来事、完成した翻訳を知らせる。場合によって、このメッセージは、ほかに、要望が対象としている１または複数の論拠を含んでいる。

平滑化モジュール４０は、モジュール３０、３２および３４からモジュール４０に向けてのメッセージの交換メカニズムを含んでいる。モジュール３０、３２および３４から平滑化モジュール４０に向けてのメッセージは、それぞれ、モジュール３０から、論証としての起点言語文に当る文章付き「認識された文」、モジュール３２から、論証としての目標言語文に当る文章付き「完成した翻訳」、ならびにモジュール３４から、出力音声信号が完全に発せられたことを示す「合成された音声」である。

平滑化モジュール４０は、同平滑化モジュール４０からモジュール３０、３２および３４に向かうメッセージの交換メカニズムを含んでいる。この諸メッセージは、それぞれ、論証として、標本抽出された音声信号を表すデイジタル化したデータブロックを有する、モジュール３０に向かう「音響信号の指示」、論証として、起点言語文に当る文章付きのモジュール３２に向かう「翻訳要求」、ならびに論証として、目標言語文に当る文章の「音声合成要求」である。

なお、平滑化モジュール４０は、待機列のメカニズムを含んでいる。待機列は、それぞれのモジュール３０、３２、３４、３６および４０の入力に関連付けされている。この待機列のメカニズムは、処理の連続の次のモジュールが同結果の処理を開始できるのを待ちながら、処理の基本的オペレーションの結果の一時的記憶を可能にしている。あるモジュールが別のモジュールにメッセージを送信するとき、送信されたメッセージは、入力時に、受信側のモジュールの待機列内に配置される。受信側のモジュールが休止状態にあるとき、その待機列の状態の変更の待機中になり、すなわちメッセージの受信の待機中になる。この種のメッセージが受信されると、受信側のモジュールは、活性状態に転換する。受信側のモジュールは、待機受信列から、受信したメッセージを取り出し、このメッセージの内容から求められている処理を行い、１または複数のモジュールに、１または複数のメッセージを出力して送り出し、それから再び不活性状態に転換する。モジュールが活性状態にあるのに、新たなメッセージが受信側モジュールの待機列に置かれると、このメッセージは、モジュールが不活性状態に変わり、待機列を走査する機会が来るまで、待機列に残る。複数のメッセージが待機列に配置されれば、メッセージは、受信された順序で蓄積され、受信側モジュールが到着順にその処理をする。

本システムが活性状態に置かれると、平滑化目標言語文４０は活性状態になり、本システムが活性状態外になるまで、すべてのオペレーションを実行する。

目標言語文４０は、２の主要状態である「設定」または「処理」のいずれか１の状態になるのであり、この２の状態は、それぞれ副状態を含んでいる。

設定状態では、本システムは、ユーザーがインターフェースモジュール３６を経て、プロフィールを作り出し、または選定する設定ステップにある。例えば、インターフェースモジュール３６は、デイスプレー８で、くり広がるメニューの中から起点言語と目標言語を選択できる。関連付けしてある辞書は、初期ステップのとき、翻訳モジュール３２と共に機能するために、そのとき、データ媒体が随時書き込み読み出しメモリーとして掛かる。他方では、インターフェースモジュール３６の音響ステップの選択手段は、特定の話し手の言葉を翻訳し（高い閾値）、または環境内で捕捉した音響全体を翻訳する（低いまたは限られた閾値）ように外界に向けられた第２のマイクロ６の音響ステップの閾値の選択をすることができる。

ユーザーの要望に基づいて、平滑化モジュール４０が設定状態から処理状態に転換するとき、同モジュールは、３のモジュール３０、３２および３４を、選択した要因と共に初期化する。次に、この３のモジュールは実行される。

発音された文の処理の連鎖は、ここで詳細に述べることにする。

実施のとき、認識モジュール３０は、音声の最初の取得手段の監視を開始する。認識モジュール３０は、起点言語で発音された文を検出するために、入力信号を分析する。このメカニズムは詳細に後述する。認識モジュール３０がこの種の文を検出すると、合成起点言語文対象は、認識モジュール３０によって、「認識済み文」のメッセージの論拠として、平滑化モジュール４０の待機列内に置かれる。

平滑化モジュール４０がその待機列中から「認識済み文」を抽出すると、同モジュールは、「翻訳要求」メッセージの論拠として、このメッセージの論拠起点言語文を「翻訳要求」メッセージの論拠として、翻訳モジュール３２の入力待機列中に置く。

変形態様として、処理プロセスは、モジュール３２から翻訳を要求される前に、ユーザーによって有効と認められるように、モジュール３６を介して、デイスプレー８に起点言語文を表示することからなる補足ステップを含んでいる。

翻訳モジュール３２は、その実施中、自己の入力列の監視の不活性状態になる。「翻訳要求」メッセージを見つけると、このメッセージの論拠として渡ってきた起点言語文を翻訳する。この基本的オペレーションは、時間がかかることがあり得る。起点言語文の翻訳が終わると、翻訳モジュール３２は、論拠として、目標言語文と共に、「翻訳完成」メッセージを平滑化モジュール４０に送る。

平滑化モジュール４０が使用中でなければ、自己のメッセージの待機列を調べる。「翻訳完成」メッセージが見つかったら、目標言語文を取って、メッセージの論拠として、同目標言語文と共に「音声合成要求」メッセージを音声合成モジュール３４に送る。

変形態様として、処理プロセスは、モジュール３４から合成を要求する前に、ユーザーから有効と認められるために、モジュール３６を介して、目標言語文をデイスプレー８に表示することからなる補足ステップを含む。

開始のとき、音声合成モジュール３４は、目標言語文の音声合成要求の待機状態になる。その間、音声合成モジュール３４は、チャンネルの音響変換手段宛に、典型的に空白である恒常的な信号を送る。

音声合成モジュール３４が前回の目標言語文を合成することに専念していないとき、入力メッセージ列を調べる。「音声合成要求」メッセージを見出すとき、同モジュールは、通された目標言語文を、このメッセージの論拠に合成して、対応する信号を音響変換手段の方向に発信する。そこでもまた、この基本的オペレーションに数秒間掛かることがあり得る。音響信号が完全に送信されると、音声合成モジュール３４は、「合成完了」メッセージを平滑化モジュール４０に送り、典型的に沈黙に当る音響信号を送る。

インターフェースモジュール３６がデイスプレー８上に、そのときの文の処理プロセスの進行状態の象徴的な視覚上の記述を表示できることに留意すべきである。

音声認識モジュール３０は、口述者によって表現されている考えに最もよく当る表現の一体性が、翻訳の綴り上で丸や点で終わることから来る困難を克服する必要がある。ところが、口述では、一体的表現の終了要素は存在しない。したがって、文の終了を推定する必要がある。図４の流れ図は、本発明による音声認識モジュール３０にしたがって実施される基本的処理オペレーションを図式的に表している。

チャンネルの入力時に捕捉されたスピーチ内の２のブランクを引き離す期間に相当する、長さが一定でない間隔ｄｔの間、入力音声信号１０１は、音素を認識するために分析される。この認識ステップ１０２の結果は、間隔ｄｔ間の一連の音素１０３である。

次に、この一連の音素１０３は、再結集ステップ１０４中に相互に再結集される。このオペレーションの結果は、一連の音素群１０５の生成である。次に、この音素群のそれぞれに、独自の綴りが関連付けされる。このことは、音素群に単語の綴り群を関連付けて、次に、単語の綴り群の中から独自の綴りを選定できる法則が適用される。最後に、テキストタイプの変項である間隔ｄｔ間の一連の単語１０７が生成される。記述してきた基本的処理は、発音されたスピーチと同時にリアルタイムでなされる。時間の間隔から次の時間の間隔までの一連の単語は、メモリーにストックされる。

実際には、一連の単語１０７は、転写オペレーションが、発音された文の塊を実際に再生しているかどうかの適切さを量化する確率に関連付けてあるテキストである。

音声認識モジュール３０は、起点言語文の作成を試みるための複数の一連の単語を関連付ける文の終了の推定手段を含んでいる。この推定手段は、図４の流れ図の下部に表してある。そのために、音声認識モジュール３０は、最後の一連の単語１０７を抽出し、ｄｔでの要素連続変数に付与する。ステップ１１０において、瞬間ｔにおける要素連続変数の値は、瞬間ｔ−ｄｔにおける要素連続変数とｄｔにおける要素連続変数のそのときの値の連鎖で得られる。

ステップ１１１では、ｔにおける要素連続の対象の確率の値は、ｔ−ｄｔにおける要素連続の対象の確率の値と比較される。

瞬間ｔにおける要素連続の対象に関連付けてある確率が瞬間ｔ−ｄｔにおける要素連続の対象に関連付けられた確率よりも大きければ、そのとき、瞬間ｔにおける要素連続の対象は、前記瞬間ｔ−ｄｔにおける要素連続の対象よりも、意味の一体性にもっと近い。処理は、関連性１１２にしたがって継続され、そして、瞬間ｔにおける要素連続の対象（ステップ１１３）は、時と共に、一連の単語１０７の処理を目指して、前記の瞬間ｔ−ｄｔ（ステップ１１３）における要素連続として記憶される。要素連続３０の実行は、関連性１１４によって、ステップ１１０で締めくくられる。

それに反して、瞬間ｔにおける要素連続の対象が瞬間ｔ−ｄｔにおける要素連続の対象に関連付けてある確率以下であれば、そのことは、瞬間ｔ−ｄｔにおける要素連続の対象に比較して、意味の一体性から離れることを意味する。要素連続３０の実行は、そのとき、関連性１２０に従って継続される。前記瞬間の要素連続の値は、この要素連続が意味の一体性をなしていると推定されているので、瞬間ｔ−ｄｔにおける要素連続の対象の値が意味の一体性を形成していると評価されるので、ステップ１２１における起点言語文の対象に当てられる。次の間隔ｄｔにおける一連の単語の処理では、瞬間ｔ−ｄｔにおける要素連続の対象は、この要素連続が別の起点言語文の始まりになっていると評価されるので、起点言語文として留められなかった、そのときの間隔ｄｔにおいて、一連の単語１０７と共に初期化される（ステップ１２２）。したがって、音声認識モジュール３０は、起点言語文１３０を生ずる。このときモジュール３０の実行は、関連性１１４によって、ステップ１１０で締めくくられる。

第１と第２のチャンネルによる同時通訳を実施するのに適している双方向システムの実行には、幾つもの実施態様が考慮される。

２のバーチャルマシーンを有する実施態様では、本システムは、同一の２の器材部を含んでおり、各器材部は、それぞれ、２の翻訳チャンネルに当てられる。第１の実際の機器は、例えば、第１の音声取得手段と第２の音声復元手段に接続されており、それに対して、第２の実際の機器は、第２の音声取得手段と第１の音声復元手段に接続されている。各器材部分は、開発システム２０とアプリケーション２５を実行する。したがって、第１のチャンネルによる処理は、第２のチャンネルによる処理から完全に外される。実際の機器は、それぞれ、固有のデイスプレーと固有のインターフェースモジュール３６を含んでいるか、共通のインターフェースモジュール３６で同一のデイスプレーを共有することができる。

２のバーチャルマシーンを有する第２の実施態様では、本システムは、２の開発システム２０が平行して実行される単一の器材部を含んでいる。各開発システム２０は、通訳アプリケーション２５を実行するバーチャルマシーンを規定している。各バーチャルマシーンは、個別的チャンネルに当てられている。

なお、第３の実施態様では、本システムは、１の器材部と唯一の開発システムを含んでいる。すなわち、本システムは、アプリケーション２５の２の審理を平行して実施し、そのおのおのは、それぞれのチャンネルに当てられているために多元化される。そのときアプリケーション２５は、通訳システムが第１のチャンネルにおける固有データの処理に当てられる第１のアプリケーションおよび第２のチャンネルにおける固有データの処理に当てられる第２のアプリケーションを含んでいる。したがって、第１のアプリケーションの認識モジュール３０は、言語Ｌ１のディレクトリーを含んでいるのに対して、第２のアプリケーションの認識モジュールは、言語Ｌ２のディレクトリーを含んでいる。同様に、第１のアプリケーションの翻訳モジュール３２は、言語Ｌ２訳の言語Ｌ１の辞書を含むのに対して、第２のアプリケーションの翻訳モジュールは、言語Ｌ１訳の言語Ｌ２の辞書を含んでいる。なお、第１のアプリケーションの音声合成モジュール３４は、言語Ｌ１の発音の図式を含んでいるのに対して、第２のアプリケーションの音声合成モジュール３４は、言語Ｌ２の発音の図式を含んでいる。この実施態様では、２のモジュールは、プロセッサー時間を分け合いながら、「同時に」実施されることができる。

すなわち、同一の翻訳モジュール３２と同一の音声合成モジュール３４が２のチャンネルに利用されている。したがって、１のこのモジュールは、起点言語と目標言語に関する補完的設定で、平滑化モジュール４０に呼び出される。この諸モジュールの逐次呼び出しをコントロールするのは平滑化モジュール４０であり、モジュールの実行は、同じまたはもう一つのチャンネルに関連するオペレーションのために再び呼び出される前に終了していなければならない。

その代わりに、この実施態様では、通訳ソフトウエアの適用は、リアルタイムで、それぞれ、関連付けてあるチャンネルの入力部に配置してあるマイクロによって伝達される音響信号の認識に当てられている２の音声認識モジュール３０を有利に含んでいる。変形態様では、本システムは、第２のチャンネルに従い、処理チャンネル内で、場合によって対話者が言語Ｌ１から言語Ｌ２への訳に介入できる別のデイスプレーを含むことができる。

本システムは、スキャナによって読まれる文字の視覚的認識から起点言語文を作成することのできる視覚的認識モジュールの入力時に接続してあるスキャナを含むことができる。

また別の変形態様では、第２の音声取得手段と第２の音声変換手段として、電話機による通訳システムの接続と機能ができるために適合する入力／出力インターフェースを含んでいる。当業者は、音響の取得手段または各取得手段および音響変換手段または各音響変換手段が本システムから離れたところで利用できるように、無線接続で、取得手段の器材部と連絡できることを理解するだろう。

１．小型ケース
３．イヤホーン
４．第１のマイクロ
５．ラウドスピーカー
６．第２のマイクロ
７．凹部
８．デイスプレー
９．ボタン
１０．入力・出力インターフェース
１１．読み出し専用メモリ
１２．随時書き込み読み出しメモリ
１３．プロセッサ
２０．開発システム
２５．アプリケーション
３０．音声認識モジュール
３２．翻訳モジュール
３４．音声合成モジュール
３６．人・機械インターフェースモジュール
４０．平滑化モジュール
１０１．入力音声信号
１０２．認識ステップ
１０３．一連の音素
１０４．再結集ステップ
１０５．一連の音素群
１０７．一連の単語
１１０．ステップ
１１２．関連性
１１３．ステップ
１１４．関連性
ｄｔ．間隔
ｔ．間隔

Claims

下記手段である、
― 起点言語での文の少なくとも１の取得手段（４、６）および少なくとも１の音響変換手段（３、５）、
― 取得手段で取得した入力信号起点言語へ転写である起点言語文を生成するための認識手段（３０）、
― 目標言語への起点言語文の翻訳である目標言語文を生成するための翻訳手段（３２）、および
― 目標言語文から、同音響変換手段（３、５）によって変換されることのできる出力音響信号を生成するための音声合成手段（３４）を含んでおり、
― 起点言語の文を目標言語に通訳するために、同認識手段（３０）、同翻訳手段（３２）および同音声合成手段（３４）を逐次呼び出すのに適した平滑手段（４０）を含むことを特徴とするタイプの通訳システム。
同平滑化手段（４０）が、一方では、同認識手段（３０）、同翻訳手段（３２）および同音声合成手段（３４）と、他方では、同平滑化手段（４０）との間のメッセージの交換を含むことを特徴とする、請求項１によるシステム。
伝達手段が、認識手段（３０）、翻訳手段（３２）、音声合成手段（３４）および平滑化手段（４０）のそれぞれと入力で関連付けてある待機列を含むことを特徴とする、請求項２によるシステム。
メッセージが要望と論証を含むことを特徴とする、請求項２または請求項３によるシステム。
同翻訳手段（３２）が起点言語から目標言語への辞書を含むことを特徴とする、請求項１〜４のいずれか一項に記載のシステム。
同音声合成手段（３４）が、同出力音響信号を生成するために、単語の綴りを一連の音素および目標言語の音素の発音の法則に関連付けてある辞書を含むことを特徴とする、請求項１〜５のいずれか一項に記載のシステム。
同取得手段が視覚的取得手段であり、同認識手段が、同視覚的取得手段で取得した、起点言語で書かれた文から、起点言語文を生成することのできる視覚的認識手段であることを特徴とする、請求項１〜６のいずれか一項に記載のシステム。
同取得手段が音響取得手段（４、６）であり、同認識手段が、同音響取得手段によって取得された起点言語で発音された文から、起点言語文を生成することのできる音声認識手段（３０）であることを特徴とする、請求項１〜６のいずれか一項に記載のシステム。
同音声認識手段（３０）が、
− 入力音響信号を一連の音素に分解できる音素識別手段、
− 一連の音素から一連の音素群を形成するために音素を相互に集合させることのできる再結集手段、および
− 一連の音素群から起点言語文を生成するように音素群に単語の綴りを関連付けることのできる転写手段であって、同転写手段は、単語の綴り群を音素群に関連付けるレパートリーおよび単語群の中から独自の綴りを選出することを可能にする一連の法則を含むことを特徴とする、請求項８によるシステム。
本システムが第１のチャンネルにより、第１の起点言語でのスピーチを第２の目標言語に通訳し、第２のチャンネルにより第２の起点言語でのスピーチを第２の目標言語に通訳し、一方では、第１の起点言語と第２の目標言語、他方では、第２の起点言語と第１の目標言語は同一であり、同システムは更に、第１の音響取得手段（４）と第１の音響変換手段（３）および第２の音響取得手段（６）と第２の音響変換手段（５）を含むことを特徴とする、請求項８または請求項９によるシステム。
本システムが第１の起点言語に独自の第１の音声認識手段および第２の起点言語に独自の第２の音声認識手段を含んでおり、翻訳手段と音声合成手段が、第１のチャンネルと第２のチャンネルの一方か他方のために機能することを特徴とする、請求項１０によるシステム。
同第１のチャンネルに独自の第１の音声認識手段、第１の音声翻訳手段および第１の音声合成手段、ならびに同第２の通訳チャンネルに独自の第２の音声認識手段、第２の音声翻訳手段および第２の音声合成手段を含むことを特徴とする、請求項１０によるシステム。