JP5628749B2

JP5628749B2 - 通訳端末及び通訳端末間の相互通信を用いた通訳方法

Info

Publication number: JP5628749B2
Application number: JP2011125040A
Authority: JP
Inventors: ユン、スン; キム、サンフン
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2010-06-03
Filing date: 2011-06-03
Publication date: 2014-11-19
Anticipated expiration: 2031-06-03
Also published as: US8798985B2; JP2011253543A; US20110301936A1

Description

本発明は通訳端末に関し、特に、通訳端末及び通訳端末間の相互通信を用いた通訳方法に関する。

通常、自動通訳は主にサーバ及びワークステーション又はＰＣで行われてきた。これは自動通訳技術が音声認識、機械翻訳、音声合成の３つの細部技術からなるが、これらの技術がいずれも多くの計算量と格納装置を必要としたためである。近年、スマートフォン、ＰＤＡなどの携帯用モバイル機器の性能が向上し、これらが自動通訳を行うのに十分なメモリを有することができるようになり、自動通訳技術を携帯型モバイル機器に搭載しようとする多様な試みが行われている。携帯型モバイル機器に自動通訳機能を備えた自動通訳機が搭載される場合、ユーザがいつでもどこでも自動通訳機能を使用できるようになり、ユーザの利便性が非常に高まるという長所がある。

ところで、従来の携帯型モバイル機器に搭載された自動通訳機は、自動通訳の結果を音声合成又は画面ディスプレイを通じて通訳の相手にのみ伝達するだけで、相手が所持している携帯型モバイル機器とはいかなる情報も交換しない。そのため、自動通訳性能の向上に役立つ多様でかつ有用な情報を活用できなくなるという問題を有している。例えば、相手がどの言語を使用するかに関する情報がない場合、ユーザがどの言語を対象に自動通訳を行うべきか分からないという問題がある。

また、自動通訳機の性能によっては、通訳する対象を全分野を対象にするのではなく、通訳する対象の適用場所や適用分野、例えば、レストラン、買い物、医療、交通などのような通訳の範囲を予め設定し、それに応じて範囲を制限して通訳することが有利になり場合もある。しかし、自動通訳機のユーザと相手との間でこのような情報が一致しない状況では相手がユーザに合せてこれを一々修正しなければならないという不便さがある。

自動通訳は人と人との対話であるので、自動通訳過程で音声言語の理解過程を通じて対話を理解し、これと関連した情報を提供すれば、音声認識及び翻訳過程に非常に役立つ。例えば、ユーザが名前を尋ねているならば、次の発話では相手が名前を答えることを予想することもできる。そのため、次の音声認識過程で名前に該当する情報に重きをおくか、別途の人名辞書を検索するなどの処理を行うならば、このような処理が行われなかった場合と比べて、効率のよい対処ができる。また、翻訳過程でも名前のような情報は翻字（ｔｒａｎｓｌｉｔｅｒａｔｉｏｎ）する際に、又は重義性（ｄｉｓａｍｂｉｇｕａｔｉｏｎ）がある場合にこれを効率的に解消するのに活用できる補助情報となる。ところが、従来技術では関連する情報を交換しないため、このような情報を活用することができないという問題がある。

そして、従来の音声認識技術は雑音に非常に脆弱である。そのため、雑音が音声信号と共に入力される場合、音声認識性能が非常に低くなるという問題がある。例えば、携帯型モバイル機器において自動通訳が行われるようになると、地下鉄駅、ショッピングセンター、人で込み合うレストランなど多様な騷音源に露出した所で自動通訳機が使用されることが予想される。この場合、雑音による音声認識性能の低下の問題に必然的に露出されることが予想されるが、従来技術ではこれを解消し難い。

また、静かな場合と、それと反対に騷音がひどい場合のように、状況に応じて合成音の大きさを異なるように調節する必要もあり得る。しかし、従来技術ではユーザが手作業で操作しなくては、これに対処できないという問題がある。

そこで、本発明は上記事情に鑑みてなされたものであって、その目的は、２台以上の携帯型自動通訳端末間の通信を通じて自動通訳に活用できる情報を交換することによって、自動通訳の性能を向上させる自動通訳端末及び自動通訳端末間の通信を通じて通訳する方法を提供することにある。

前記目的を達成するための本発明の一態様による通訳端末は、相手の通訳端末と通信を行うネットワークインターフェースと、当事者の発話された音声を認識する音声認識器と、前記音声認識器を通じて認識された音声を設定された言語に翻訳する翻訳モジュールと、前記ネットワークインターフェースを通じて相手と通訳する言語を設定し、前記翻訳モジュールにより翻訳された文章を相手の通訳端末に提供する制御部とを含む。

前記目的を達成するための本発明の他の態様による通訳方法は、少なくとも当事者と相手の通訳端末間の対話を通訳する方法であって、通訳要請に応じて当事者及び相手の通訳端末間通信チャネルを設定する段階と、前記通信チャネルを通じて前記当事者の通訳端末で用いる当事者言語と前記相手の通訳端末で用いる相手言語に関する情報を交換して、それぞれの前記相手及び前記当事者の通訳端末に前記当事者言語及び前記相手言語を設定する段階と、前記当事者の通訳端末で発話した音声を認識する段階と、前記当事者の通訳端末で認識された音声を前記相手言語に翻訳する段階と、前記相手言語に翻訳された文章を前記相手端末に伝達する段階とを含む。

本発明によれば、通訳を行う際に、相互間で通訳言語及び通訳可能な言語に関する情報を交換して両者間の通訳言語と通訳可能な言語を一致させて自動通訳を円滑に行えるようになり、さらに通訳対象の範囲を統一化して通訳の性能を向上させることができるという効果を奏する。

また、相手の雑音信号を用いて音声信号のみ効果的に抽出することによって、音声認識の性能を向上させることができ、雑音信号を用いて周辺状況に合わせて合成音の大きさを自動調節し、便宜性を一層向上させることができるという利点がある。さらに、通訳結果の文章の提供を受けてこれを分析し理解する過程を経て、予測した対話の内容を音声認識及び翻訳に活用することで、通訳の性能を向上させることができるという利点がある。

本発明の実施形態による両当事者間の対話の内容を通訳する２台の通訳端末のダイヤグラムである。図１に示すいずれか１つの通訳端末の詳細ブロック構成図である。本発明の実施形態による通訳端末間の通信を通じて通訳するプロセスを説明するフローチャートである。本発明の実施形態による通訳端末間の通信を通じて通訳するプロセスを説明するフローチャートである。

以下、添付する図面を参照して本発明の動作原理を詳細に説明する。下記に本発明を説明するにおいて公知の機能又は構成に関する具体的な説明が本発明の要旨を不要に曖昧にするおそれがあると判断される場合にはその詳細な説明を省略する。そして、後述する用語は本発明での機能を考慮して定義された用語であって、これはユーザ、運用者の意図又は慣例などによって変わることも可能である。従って、その定義は本明細書全般の内容に基づいて下されるべきである。

図１は、本発明の実施形態による両当事者間の対話の内容を通訳する少なくとも２台の通訳端末のダイヤグラムを示す。第１通訳端末１００と第２通訳端末１０２は両方とも全体的に同一の構成を有し、それぞれ互いに異なる言語を使用する相手間で交わされる対話の内容を通訳するために用いられる。第１及び第２通訳端末１００、１０２は自動通訳専用端末であってもよく、自動通訳プログラムの実行可能なスマートフォン、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）などのような個人用情報端末であってもよく、又は自動通訳プログラムの実行可能なＭＩＤ（ＭｏｂｉｌｅＩｎｔｅｒｎｅｔＤｅｖｉｃｅ）、ネットブック、ノートブックなどのようなモバイル端末であってもよい。ただし、これらの端末は容易に携帯でき、相手通訳端末と通信が可能な装置を備えた端末でなければならない。

説明の便宜上、以下において第１通訳端末１００は当事者の通訳端末と称し、第２通訳端末１０２は相手の通訳端末と称する。

当事者通訳端末１００と相手通訳端末１０２との間で通訳が行われるとき、当事者通訳端末１００と相手通訳端末１０２は、まず互いに通信をして通訳を行う言語を設定する。例えば、当事者と相手がそれぞれ韓国人と日本人である場合、当事者の立場から見れば、当事者通訳端末１００は韓国語を日本語に通訳するように通訳言語を日本語に設定し、相手通訳端末１０２は日本語を韓国語に通訳するように通訳言語を韓国語に設定する。同様に、相手の立場から見れば、相手通訳端末１００は日本語を韓国語に通訳するように通訳言語を韓国語に設定し、当事者の通訳端末１０２は韓国語を日本語に通訳するように通訳言語を日本語に設定する。本発明の実施形態は、当事者と相手間の対話を通訳することに関するものであるので、当事者と相手の通訳端末１００、１０２はいずれも日本語と韓国語の両方を通訳するように設定される。

当事者と相手の通訳端末１００、１０２は、それぞれ当事者と相手から発話された対話音声を認識し、認識された対話音声を設定された通訳言語に翻訳し、翻訳された結果を当事者と相手の通訳端末１００、１０２に提供する。

図２は、図１に示す通訳端末のいずれか１つ、例えば、通訳端末１００のブロック構成図である。ネットワークインターフェース２００は、ブルートゥース（ｂｌｕｅｔｏｏｔｈ）などの近距離通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮＦＣ））又は無線ＬＡＮ（ｗｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）のようなＷｉ-Ｆｉ（Ｗｉｒｅｌｅｓｓ-Ｆｉｄｅｌｉｔｙ）又はＣＤＭＡのような移動通信網を通じて通訳を望む相手の通訳端末１０２と通信を行う。

音声認識器２０２は当事者から発話される通訳対象の対話音声を認識する。通訳対象の対話音声には雑音が混じっていることもあり得る。従って、音声認識器２０２は、通訳端末１００の雑音が混じっている通訳対象の対話音声と相手の通訳端末１０２から伝達を受けた雑音信号とを比較して雑音が混じった通訳対象の音声信号と雑音信号間で一致する部分を雑音として検出する。検出された雑音は雑音が混じっている通話対象音声から除去され、雑音が除去された音声信号のみが音声認識に用いられる。従って、通訳品質を向上させるのに一助となり得る。

翻訳モジュール２１４は、音声認識器２０２から提供される認識された音声を相手との通訳のために指定された言語に機械翻訳を行って、翻訳された結果をテキストの文章として生成する。翻訳された結果は、相手通訳端末１０２に伝達される。

音声合成器２０４は、本技術分野において広く知られているＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）技術を用いて相手通訳端末から伝達された、翻訳された文章のテキストを音声合成して出力する。また、音声合成器２０４は、通訳端末１００で行われた翻訳結果を音声合成して出力することもできる。このとき、音声合成器２０４から出力される音声合成信号の大きさは音声認識器２０２から提供された周辺雑音信号の強度を参考にして決定される。

キー入力部２０８は通訳端末１００で用いられる多数の数字キーを備えており、当事者が所定のキーを押すと該当するキーデータを発生して制御部２０６に出力する。

表示部２１２は制御部２０６の制御によって通訳端末１００で発生する各種情報を表示し、キー入力部２０８で発生するキーデータ及び制御部２０６の各種情報信号の入力を受けてディスプレイする。

制御部２０６は、メモリ部２１０に格納された複数の動作プログラムによって通訳端末１００の全般的な動作を制御する。前記のような動作プログラムは、通訳端末１００の動作に必要な基本的なオペレーティングシステム（ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）及び自動通訳プログラムだけでなく、表示部２１２とキー入力部２０８を連結し、データの入／出力を管理したり、通訳端末１００の内部アプリケーション（ａｐｐｌｉｃａｔｉｏｎ）などを動作させるように製造時に予めプログラミングされるソフトウェアを通称する。

また、制御部２０６は通訳実行時にネットワークインターフェース２００を用いた相手通訳端末と通信を通じて通訳言語、通訳対象の範囲を設定し、当事者から入力される音声を認識して設定された通訳言語に翻訳した後、これを音声合成して出力させることで、言語の異なる当事者と相手間で通訳が行われるように制御する。

図３の（ａ）と（ｂ）は、本発明による２台以上の携帯型自動通訳端末間の相互通信を通じて自動通訳方法を説明するフローチャートを示す。以下、図１及び図２を共に参照して本実施形態の方法を詳細に説明する。

まず、当事者が相手と自動通訳が必要な時、自動通訳を所望する当事者通訳端末１００及び相手通訳端末１０２に搭載された自動通訳プログラムを実行する（Ｓ３００）。自動通訳プログラムを実行すると、当事者通訳端末１００と相手通訳端末１０２は互いに相手と通信チャネルを開くことを試みる。このとき、通信はのために当事者通釈端末１００はブルートゥースなどの近距離通信（ＮＦＣ）やＷｉＦｉ、場合によっては移動通信網などを通じて相手に連結を要請する（Ｓ３０２）。

段階（Ｓ３０４）で、相手が連結要請を受諾する場合、当事者の通訳端末１００と相手の通訳端末１０２間で通信チャネルが設定される。場合によって、相手が通信連結を常に許容する環境設定をした場合、受諾過程なしに自動で通信チャネルが設定されることもできる。

しかし、段階（Ｓ３０４）で相手が連結要請を拒絶する場合、段階（Ｓ３０６）に進み、当事者の通訳端末１００には相手が自動通訳を拒絶するというメッセージを表示する。この後、通信を解除し、自動通訳プログラムを終了する（Ｓ３４６）。

一旦、当時者及び相手の通訳端末（１００及び１０２）間で通信チャネルが設定されれば、段階（Ｓ３０８）で、当事者及び相手通訳端末（１００、１０２）はまず通訳に使用する当事者及び相手の言語及び通訳に使用する言語のうち通訳可能な言語に関する情報を互いに交換する。

次に、当事者及び相手通訳端末（１００、１０２）は、交換された相手の言語が通訳可能な言語であるかを検査する（Ｓ３１０）。もし相手の言語が自動通訳できない場合には段階（Ｓ３１２）に進み、当事者の通訳端末１００は相手の言語を自動通訳できないというメッセージを相手の通訳端末１０２に伝達する。その後、通信を解除し、自動通訳プログラムを終了する（Ｓ３４６）。

しかし、段階（Ｓ３１０）の判断結果、当事者と相手の言語が通訳プログラムにより通訳可能な言語であれば、段階（Ｓ３１４）に進み、当事者及び相手の通訳端末１００、１０２にそれぞれ通訳言語を設定する。

その後、通訳する対象の適用場所や適用分野、例えば、レストラン、買い物、医療、交通などを示す通訳の範囲を設定するために、当事者の通訳端末１００は通訳の範囲に関する情報を相手の通訳端末１０２に伝送して（段階Ｓ３１６）、相手の通訳端末１０２と通訳範囲を自動で同期化する（段階Ｓ３１８）。

次に、当事者の通訳端末１００で当事者から発話された音声を音声認識器を通じて通訳を始める。このとき、相手の通訳端末１０２に通訳を始めるという情報が伝達され、当事者通訳端末１００と相手通訳端末１０２間の通訳のための時間的同期を合せる（段階Ｓ３２０）。両者間の同期化後、当事者通訳端末１００は相手通訳端末１０２から周辺雑音信号の入力を受けるようになる（段階Ｓ３２２）。すると、当事者通訳端末１００は、音声認識過程中に雑音が混じっている音声信号と相手通訳端末１０２から伝達された周辺雑音信号とを比較し、両信号間で一致する部分を雑音として認識して雑音が混じっている音声信号から雑音信号を除去した音声信号のみを分離し、分離された音声信号を対象に音声認識を行う（段階Ｓ３２４）。

前述した雑音除去方法は、本技術分野で公知の２チャネル信号処理を通じた雑音除去技術を適用することもできる。このように分離された音声信号の音声認識が終了すると、翻訳モジュール２１４に伝達し、音声認識された音声を翻訳する（Ｓ３２８）。次に、翻訳された結果は、相手通訳端末１０２に伝送され、相手通訳端末１０２で翻訳された結果は翻訳された文章が表示部２１２にディスプレイされると同時に、音声合成を通じて音声としても出力される（Ｓ３３０）。一方、音声合成器を通じて出力される音声合成音の強度は以前に相手通訳端末１０２から伝達を受けた雑音信号と当事者の音声信号とのＳＮＲ（Ｓｉｇｎａｌ-ｔｏ-ｎｏｉｓｅｒａｔｉｏ）を計算して適切なレベルで出力されるように設定される（Ｓ３２６）。このような音声合成音の強度を設定する段階は、前述した段階（Ｓ３２６）の次に実行されてもよく、又は段階（Ｓ３２８）の次に実行されてもよい。

一方、相手通訳端末１０２から前述した音声認識過程を経て回答、即ち、翻訳された文章が当事者通訳端末１００に伝達される。すると、当事者の通訳端末１００で、音声言語の理解のための対話モデルを通じて翻訳された文章を分析し、この過程で当事者の意図を抽出し、これに基づいて次に発生する対話を予測し、予測された発話情報を音声認識する際に活用する（Ｓ３３２）。発話情報は多様に予測され得る。例えば、「予約された方の名前を教えて下さい」のような文章が伝達されたとすれば、この文章において発話行為（ＳｐｅｅｃｈＡｃｔ）が「要請」であり、要請対象は「名前」であり、その「名前」が属性として「予約者」を有するということが分析できる。これに基づいて既に構築された対話モデルを通じて次の発話は名前が出るはずであるということが予測できる。

対話情報を活用した音声認識において、言語モデルの探索空間を名前が含まれている発話に制約したり、人名の場合、一般に音声認識器の辞書の容量に制約があり、人名全体を認識単語に含むことができないが、分析された「名前」に該当する部分のみを別途に大容量の人名辞書を活用して音声認識の性能を向上させることもできる。

次に、相手通訳端末１０２は、当事者の通訳端末１００から伝達された対話の内容に応答するために音声認識を行う（Ｓ３３４）。

相手の通訳端末１０２で音声認識を行う場合、時間的同期を合わせる段階（Ｓ３２０）でのように、相手の通訳端末１０２から当事者の通訳端末１０２に通訳を試みるという情報が伝達され、それにより、当事者の通訳端末１００と相手通訳端末１０２は時間的に同期が合わせられ、相手の通訳端末１０２から当事者の通訳端末１００に雑音信号が伝達される（Ｓ３３６）。その次の段階（Ｓ３３８）で、相手通訳端末１０２から伝達を受けた雑音信号と当事者の音声信号とのＳＮＲを計算して音声合成器を通じて出力される音声合成音の強度が設定される。前述したように、このような音声合成音の強度を設定する段階は、前述した段階（Ｓ３３６）の次に実行されてもよく、又は後述される段階（Ｓ３４０）の次に実行されてもよい。

その次の段階（Ｓ３４０）で、当事者通訳端末１００は音声認識過程中に雑音が混じっている音声信号と相手通訳端末１０２から伝達された周辺雑音信号とを比較し、両信号間で一致する部分を雑音として認識して雑音が混じっている音声信号から雑音信号を除去した音声信号のみを分離し、分離された音声信号を対象に音声認識を行い、音声認識された結果は翻訳モジュール２１４に伝達される。

この過程で、前述したように、対話情報を用いた音声認識を行うようになる。対話情報を用いた音声認識は雑音の除去と同時に、リアルタイムで動作することもできる。又は、対話情報を用いた音声認識は雑音が除去された後に雑音が除去された信号を対象に実行されることもできる。そして、発話情報は翻訳モジュールにも伝達されて対話情報を活用した翻訳を行うことができる。例えば、もし当事者の端末１００から発話された対話の内容「予約された方の名前を教えて下さい」に対する応答として、相手端末１０２から「私の名前はホン・ギルドンです」と発話された場合、該当文章が言語理解モジュールを経ると、発話行為が「情報提供」であり、情報提供の対象は本人の「名前」であり、名前は属性として「ホン・ギルドン」であるということが分析できる。

翻訳モジュールでは分析された情報を用いて、もし「ホン・ギルドン」という単語に重義性があると判断すれば、翻訳辞書に登載されていても、これを利用して翻訳せず、翻字をする。このように翻訳された文章は、相手端末１０２に伝送されて次回の音声認識及び翻訳過程で再び活用される（Ｓ３４２）。また、翻訳された文章は、当事者の端末１００の表示部２１２にディスプレイされ、これと共に音声合成器を通じて音声としても出力される。

このような過程を通じて音声認識及び翻訳性能を向上させて自動通訳の性能を向上させることができる。ここでは韓国語で発声された例についてのみ記述したが、実際にはいかなる言語で発話がなされても該当言語の音声言語理解モジュールが搭載されている場合、音声言語の理解を通じた自動通訳の性能向上が可能である。

次に、段階（Ｓ３４４）で、相手と自動通訳を進行し続ける場合、段階（Ｓ３３２）に進み、前述した過程を繰り返す。しかし、段階（Ｓ３４４）で自動通訳が終了した場合、段階（Ｓ３４６）に進み、自動通訳プログラムを終了するか、相手との連結を解除する命令を下すことで、連結を中断し、自動通訳過程を終了する。

前述した実施形態では２台の自動通訳端末間の相互通信を用いた自動通訳の性能向上方法及び装置について記述したが、本発明は２台に限定されて適用されず、同じ空間にある複数台の自動通訳端末間にも同じ方法で適用され得る。

また、本発明の詳細な説明では具体的な実施形態について説明したが、具体的な実施形態の他にも通信を通じて自動通訳の性能向上に役立つ多様な種類の情報を交換して自動通訳の性能を向上させることができることは自明な事実である。従って、本発明の範囲は説明された実施形態に限定されず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なもの等により定まるべきである。

Claims

通訳端末であって、
相手の通訳端末と通信を行うネットワークインターフェースと、
当事者の発話された音声を認識する音声認識器と、
前記音声認識器を通じて認識された音声を設定された言語に翻訳する翻訳モジュールと、
前記ネットワークインターフェースを通じて相手と通訳する言語を設定し、前記翻訳モジュールにより翻訳された文章を相手の通訳端末に提供する制御部と、
を含み、
前記制御部は、
前記ネットワークインターフェースを通じて前記相手の通訳端末と通信して両者間で通訳の範囲を限定する情報を一致させ、
前記通訳の範囲を限定する情報は、
前記通訳が行われる場所及び状況を規定する情報であり、
前記音声認識器は、前記当事者の雑音が混じっている音声信号と前記相手の通訳端末から伝達された雑音信号とを比較し、前記音声信号のうち前記雑音信号と一致する信号を雑音として検出し、前記音声信号から前記検出された雑音が分離された音声信号に対して音声認識を行うことを特徴とする通訳端末。
前記ネットワークインターフェースは、
無線ＬＡＮ（ｗｉｒｅｌｅｓｓＬＡＮ）、移動通信網（ｍｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｎｅｔｗｏｒｋ）、又は近距離通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮＦＣ））を通じて相手通訳端末と通信を行うことを特徴とする請求項１に記載の通訳端末。
前記無線ＬＡＮは、
Ｗｉ-Ｆｉ（ｗｉｒｅｌｅｓｓ-ｆｉｄｅｌｉｔｙ）であることを特徴とする請求項２に記載の通訳端末。
前記ネットワークインターフェースは、
前記相手との通訳が要請される時、前記相手通訳端末と通信チャネルを設定して前記チャネルの設定に必要な情報を相手通訳端末と交換することを特徴とする請求項１に記載の通訳端末。
前記翻訳モジュールを通じて翻訳された文章を音声として合成して出力させる音声合成部を更に含むことを特徴とする請求項１に記載の通訳端末。
前記音声合成部から出力される合成音声は、以前に相手の通訳端末から伝達を受けた雑音信号と当事者の音声信号間のＳＮＲ（Ｓｉｇｎａｌ-ｔｏ-ｎｏｉｓｅｒａｔｉｏ）に比例する強度となるように設定されることを特徴とする請求項５に記載の通訳端末。
前記音声認識器は、
対話モデルを用いて前記翻訳された文章を分析し、分析結果から次に発生する対話を予測し、前記予測された対話情報に基づいて次回に発話される音声の認識に活用することを特徴とする請求項１に記載の通訳端末。
当事者と相手の通訳端末間の対話を通訳する方法であって、
通訳要請に応じて当事者及び相手の通訳端末間通信チャネルを設定する段階と、
前記通信チャネルを通じて前記当事者の通訳端末で使用する当事者言語と前記相手の通訳端末で使用する相手言語に関する情報を交換してそれぞれの前記相手及び前記当事者の通訳端末に前記当事者言語及び前記相手言語を設定する段階と、
前記当事者の通訳端末で発話した音声を認識する段階と、
前記当事者の通訳端末で認識された音声を前記相手言語に翻訳する段階と、
前記相手言語に翻訳された文章を前記相手端末に伝達する段階
とを含み、
前記相手の通訳端末と通信して両者間で通訳の範囲を限定する情報を一致させ、
前記通訳の範囲を限定する情報は、前記通訳が行われる場所及び状況を規定する情報であり、
前記音声を認識する段階は、
前記音声認識のために、前記当事者及び前記相手の通訳端末間の同期化を行う段階と、前記当事者の音声信号から雑音を検出する段階と、
前記音声信号から雑音が分離された音声信号に対して音声認識を行う段階と、を含み、
前記雑音を検出する段階は、
前記当事者の雑音が混じっている音声信号と前記相手の通訳端末から伝達された雑音信号とを比較する段階と、
前記音声信号のうち、前記雑音信号と一致する信号を雑音として検出する段階と、を含むことを特徴とする記載の通訳方法。
前記通信チャネルは、
無線ＬＡＮ（ｗｉｒｅｌｅｓｓＬＡＮ）、移動通信網（ｍｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｎｅｔｗｏｒｋ）又は近距離通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮＦＣ））を通じて設定されることを特徴とする請求項８に記載の通訳方法。
前記近距離通信は、
Ｗｉ−Ｆｉ（ｗｉｒｅｌｅｓｓ−ｆｉｄｅｌｉｔｙ）であることを特徴とする請求項９に記載の通訳方法。
前記翻訳された文章を音声として合成して出力する段階を更に含むことを特徴とする請求項８に記載の通訳方法。