JP2006510095A

JP2006510095A - 多モードの音声言語翻訳及び表示

Info

Publication number: JP2006510095A
Application number: JP2004559022A
Authority: JP
Inventors: ガオ、ユーキン; グ、リャン; フウファリュウ、; ソレンセン、ジェフリー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-12-10
Filing date: 2003-04-23
Publication date: 2006-03-23
Anticipated expiration: 2023-04-23
Also published as: JP4448450B2; WO2004053725A1; AU2003223701A1; TWI313418B; KR20050086478A; TW200416567A; US20040111272A1; CN1742273A; EP1604300A1

Abstract

【課題】ソース言語がシステムに入力され、ターゲット言語に翻訳され、種々の様式で出力される、多モードの音声言語翻訳システム及び方法を提供すること。
【解決手段】ソース言語の自然言語文を記号表示及び／又はターゲット言語に翻訳するための、多モードの音声言語翻訳システム及び方法が提供される。システムは、ソース言語の自然言語文を該システムに入力するための入力装置と、該自然言語文を機械読み取り可能な形態で受信し、該自然言語文を記号表示及び／又はターゲット言語に翻訳するためのトランスレータと、該自然言語文の記号表示を表示するための画像ディスプレイとを含む。さらに、画像ディスプレイが、ターゲット言語のテキスト、記号表示、及びソース言語のテキストの間の相関関係を示す。

Description

本発明は、一般に、言語翻訳システムに関し、より具体的には、ソース言語がシステムに入力され、ターゲット言語に翻訳され、例えばディスプレイ、音声合成装置などのような種々の様式で出力される、多モードの音声言語翻訳システム及び方法に関する。

人間のコミュニケーションのために視覚画像を用いることは、非常に古くからの、基本的なことである。洞窟絵画から現代の子供の絵に至るまで、絵、記号、及びアイコン表示は、人間の表現において基本的な役割を担ってきた。画像及び空間的形状は、場面及び物理的物体だけではなく、プロセス及びより抽象的な観念を表すためにも用いられる。やがて、絵文字システム即ち視覚言語は、表現力についての相似よりも規則に依存する度合いが強いアルファベット及び記号システムに進化した。

視覚言語は、広範囲ではあるが、限られた領域で使用されている。例えば、交通標識、及び、電話、トイレ、レストラン、非常口などといった公共の場所における施設の国際的なアイコンは、一般に受け入れられており、世界のほとんどの地域で理解される。

過去２０〜３０年にわたって、例えば、グラフィカル・インターフェース、グラフィック・プログラミング言語のような、人間／コンピュータの対話のための視覚言語に強い関心が寄せられてきた。例えば、マイクロソフト社のＷｉｎｄｏｗｓ（登録商標）インターフェースは、フォルダ、ファイル・キャビネット、ごみ箱、描画用具、その他の馴染みのあるものについての比喩的デスクトップ用シンボルを使用しており、これらは、コンピュータを使いやすくし、学びやすくするので、パーソナル・コンピュータには標準になっている。しかしながら、移動のしやすさ、インターネットのような通信媒体の速度の改善、及び市場の国際化のために国際社会が小さくなるに従って、視覚言語が、異なる言語の人の間のコミュニケーションにおいて果たす役割が増えている。さらに、視覚言語は、例えば、聴覚障害者又は非識字者のような全く話せない人の間のコミュニケーションを助けることもできる。

Ｔａｎｉｍｏｔｏ、ＳｔｅｖｅｎＬ．著、「ＲｅｐｒｅｓｅｎｔａｔｉｏｎａｎｄＬｅａｒｎａｂｉｌｉｔｙｉｎＶｉｓｕａｌＬａｎｇｕａｇｅｓｆｏｒＷｅｂ−ｂａｓｅｄＩｎｔｅｒｐｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎ」、ＩＥＥＥＰｒｏｃｅｅｄｉｎｇｓｏｆＶＬ１９９７年９月２３日−２６日、１９９７年

視覚言語は、以下の特徴、すなわち（１）国際性−視覚言語が特定の話し言葉又は書き言葉に依存しないこと、（２）視覚表示の使用の結果得られる学習可能性、（３）書く能力が損なわれている人が用いるのを助けるコンピュータを使った著述及び表示、（４）自動適合（例えば、視覚障害者のための大きなディスプレイ、色覚障害者のための色の付け直し、初心者に対してより明確なメッセージを与えるといった）、及び（５）例えば、動画のような高度の視覚化技術の使用（非特許文献１を参照されたい）のために、人と人との間のコミュニケーションに対する大きな可能性を有する。

ソース言語の自然文を記号表示及び／又はターゲット言語に翻訳するための多モードの音声言語翻訳システム及び方法が提供される。本発明は、自然言語理解技術を用いて、話される文における概念及び意味を分類し、その文をターゲット言語に翻訳し、視覚表示（例えば、写真、画像、アイコン、又は何らかのビデオ・セグメント）を用いて、その文における主要な概念及び意味を、例えば話し手と聞き手のような両方のパーティに示し、ユーザが互いを理解するのを助け、該ソース言語のユーザが翻訳の正確さを確認するのを助ける。

旅行者は、手荷物及びタクシーについて空港の標示に用いられるもののような視覚描写の有用性をよく知っている。本発明は、話し言葉の出力と共に、これらの及び他のこうした画像を表示される記号表示に組み込むことによって、同じ機能を対話式会話モデルにもたらす。記号表示は、動画を組み込み、静的表示ではできない方法で主語／目的語及び動作の関係を示すことさえできる。

本発明の１つの側面によると、言語翻訳システムは、ソース言語の自然言語文をシステムに入力するための入力装置と、該自然言語文を機械読み取り可能な形態で受信し、該自然言語文を記号表示に翻訳するためのトランスレータと、該自然言語文の該記号表示を表示するための画像ディスプレイとを含む。このシステムは、自然言語文をターゲット言語で音声生成するためのテキスト音声合成装置をさらに含む。

トランスレータは、自然言語文の要素を分類し、カテゴリーによって該要素にタグ付けするための自然言語理解統計的分類装置と、分類された文からの構造情報を構文解析し、該分類された文の意味構文解析ツリーの表示を出力するための自然言語を理解構文解析プログラムとを含む。トランスレータは、自然言語文の言語独立表示を抽出するためのインテルリングア情報抽出装置と、該言語独立表示の要素を視覚描写に関連付けることによって、該自然言語文の記号表示を生成するための記号画像生成装置とをさらに含む。

本発明の別の側面によると、トランスレータは自然言語文をターゲット言語のテキストに翻訳し、画像ディスプレイは該ターゲット言語のテキスト、記号表示、及びソース言語のテキストを表示し、この場合、該画像ディスプレイが、該ターゲット言語のテキストと、該記号表示と、該ソース言語のテキストとの間の相関関係を表示する。

本発明のさらに別の側面によると、言語を翻訳する方法が提供される。この方法は、ソース言語の自然言語文を受信するステップと、該自然言語文を記号表示に翻訳するステップと、該自然言語文の該記号表示を表示するステップとを含む。

受信するステップは、話される自然言語文を音響信号として受信するステップと、該話される自然言語文を機械認識可能なテキストに変換するステップとを含む。

本発明の別の側面によると、この方法は、自然言語文の要素を分類し、カテゴリーによって要素にタグ付けするステップと、分類された文からの構造情報を構文解析し、該分類された文の意味構文解析ツリー表示を出力するステップと、該意味構文解析ツリーから該自然言語文の言語独立表示を抽出するステップとをさらに含む。

さらに、この方法は、言語独立表示の要素を視覚描写に関連付けることによって、該自然言語文の記号表示を生成するステップをさらに含む。

さらに別の側面においては、この方法は、ターゲット言語のテキスト、記号表示、及びソース言語のテキストを互いに関連付けるステップと、該ターゲット言語のテキスト、該記号表示、及び該ソース言語のテキストの間の相関関係を表示するステップとをさらに含む。

本発明の別の側面によると、言語を翻訳するための方法ステップを実行させるためのコンピュータにより実行可能な命令のプログラムを明白に具体化する、機械読み取り可能なプログラム記憶装置において、該方法ステップが、ソース言語の自然言語文を受信するステップと、該自然言語文を記号表示に翻訳するステップと、該自然言語文の該記号表示を表示するステップとを含む。

本発明の上記及び他の態様、特徴、並びに利点は、添付の図面と併せて以下の詳細な説明を解釈するときに、以下の詳細な説明に照らしてより明らかになるであろう。

本発明の好ましい実施形態が、添付の図面に関連して以下に説明される。以下の説明においては、本発明を不必要に分かりにくくしないように、公知の機能又は構成は詳細に説明されていない。

ソース言語の自然言語文を記号表示及び／又はターゲット言語に翻訳するための、多モードの音声言語翻訳システム及び方法が提供される。本発明は、装置によって表示される入力文のグラフ表示又は記号表示の付加的な翻訳を加えることによって、音声認識の技術、自然言語理解、意味翻訳、自然言語生成、及び音声合成に適用される。視覚描写（例えば、写真、画像、アイコン、或いはビデオ・セグメント）を含めることにより、翻訳システムは、（ソース言語の）話し手に、音声が認識され、適切に理解されたことを示す。さらに、視覚表示は、両方のパーティに、翻訳の不明瞭さのために不正確なものになり得る意味表示の側面を示す。

任意の言語の視覚描写は、特に抽象的なダイアログの場合は、それ自体が難題である。しかしながら、翻訳プロセス中に「インテルリングア（ｉｎｔｅｒｌｉｎｇｕａ）」表示、即ち言語独立表示を作成する際の自然言語理解処理のために、適切な画像を適合させる付加的な機会が利用可能である。この意味で、視覚言語は、ターゲットにする言語生成システムの別のターゲット言語と考えることができる。

本発明は、ハードウェア、ソフトウェア、ファームウェア、特殊用途プロセッサ、又はそれらの組み合わせの種々の形態で実施することができることを理解すべきである。１つの実施形態において、本発明は、プログラム記憶装置上で明白に具体化されるアプリケーション・プログラムのようなソフトウェアで実施することができる。アプリケーション・プログラムは、いずれかの適切なアーキテクチャからなる機械にアップロードすることができ、該機械によって実行することができる。機械は、１つ又はそれ以上の中央演算処理装置（ＣＰＵ）、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、並びにキーボード、カーソル制御装置（例えば、マウス）、及びディスプレイ装置のような入力／出力（Ｉ／Ｏ）インターフェースのような、ハードウェアを有するコンピュータ・プラットフォーム上で実施されることが好ましい。コンピュータ・プラットフォームは、オペレーティング・システム及びマイクロ命令コードも含む。ここに説明される種々のプロセス及び機能は、マイクロ命令コードの一部又はアプリケーション・プログラムの一部のいずれか（又はそれらの組み合わせ）とすることができ、オペレーティング・システムを介して実行される。さらに、種々の他の周辺装置を、付加的なデータ記憶装置及び印刷装置のようなコンピュータ・プラットフォームに接続することができる。

添付の図面に示される構成システム・コンポーネントの一部及び方法ステップはソフトウェアで実施することができるので、システム・コンポーネント（又は方法ステップ）間の実際の接続は、本発明をプログラムする方法によって異なり得ることをさらに理解すべきである。本発明の教示が与えられた場合、当業者であれば、本発明のこれらの及び類似した実施又は構成を考えることができるであろう。

図１は、本発明の一実施形態による多モードの音声言語翻訳システム１００のブロック図であり、図２は、ソース言語の自然言語文を記号表示に翻訳する方法を示すフローチャートである。システム及び方法の詳細な説明が、図１及び図２に関連して与えられる。

図１及び図２を参照すると、言語翻訳システム１００は、自然言語文を該システム１００に入力するための入力装置１０２と、該自然言語文を機械読み取り可能な形態で受信し（ステップ２０２）、該自然言語文を記号表示に翻訳するためのトランスレータ１０４と、該自然言語文の記号表示を表示するための画像ディスプレイ１０６とを含む。任意に、システム１００は、自然言語文をターゲット言語で音声生成するためのテキスト音声合成装置１０８を含む。

入力装置１０２は、話し言葉をコンピュータ又は機械認識可能なテキスト語に変換する（ステップ２０４）ための自動音声認識装置（ＡＳＲ）に結合されたマイクであることが好ましい。ＡＳＲは、音響音声信号を受信し、該信号を、入力されたソース言語の音響モデル１１０及び言語モデル１１２と比較し、話し言葉をテキストに書き換える。

任意に、入力装置は、テキスト語、デジタル・タブレットを直接入力するためのキーボード、又は手書きのテキストをコンピュータ認識可能なテキスト語に変換するためのスキャナである（ステップ２０４）。

自然言語文がコンピュータ／機械認識可能な形態になると、テキストは、トランスレータ１０４によって処理される。トランスレータ１０４は、自然言語理解（ＮＬＵ）統計的分類装置１１４、ＮＬＵ総計的構文解析プログラム１１６、インテルリングア情報抽出装置１２０、翻訳及び統計的自然言語生成装置１２４、並びに記号画像生成装置１３０を含む。

ＮＬＵ統計的分類装置１１４は、ＡＳＲ１０２からコンピュータ認識可能なテキストを受信し、文において一般的なカテゴリーを見つけ出し、特定の要素にタグ付けする（ステップ２０６）。例えば、ＡＳＲ１０２は、「私は、明日の朝のテキサス州ヒューストンまでの片道切符を予約したい」という文を出力することができる。ＮＬＵ分類装置１１４が、テキサス州ヒューストンを場所「ＬＯＣ」として分類し、これを入力文に置き換える。さらに、片道は、例えば、往復又は片道（ＲＴ−ＯＷ）のような切符のタイプと解釈され、明日は、「日付」と置き換えられ、朝は、「時間」と置き換えられ、その結果、「私は日付・時間のＬＯＣまでのＲＴ−ＯＷの切符を予約したい」という文が得られる。

次に、分類された文は、ＮＬＵ統計的構文解析プログラム１１６に送られ、そこで、例えば、主語／動詞のような構造的情報が抽出される（ステップ２０８）。構文解析プログラム１１６は、構文解析プログラム・モデル１１８と対話し、入力文の統語構造を判断し、意味構文解析ツリーを出力する。構文解析プログラム・モデル１１８は、例えば、交通、医療などの特定の領域のために構築することができる。

次に、意味構文解析ツリーは、インテルリングア情報抽出装置１２０によって処理され、ツリー構造化インテルリングアとしても周知の、入力ソース文についての言語独立意味を判断する（ステップ２１０）。インテルリングア情報抽出装置１２０は、テキストによって表される数を、周囲のテキストによって定められるような適切にフォーマットされた数表示に書き換えるための標準化装置１２２に連結される。例えば、「便名ｔｗｏｅｉｇｈｔｅｅｎ」というテキストが入力された場合、数表示「２１８」が出力される。さらに、「時間ｔｗｏｅｉｇｈｔｅｅｎ」が入力された場合、時刻形式の「２：１８」が出力される。

ツリー構造化されたインテルリングアが求められると、元の入力ソース自然言語文を、例えば、異なる話し言葉のような何らかのターゲット言語又は記号表示に翻訳することができる。話し言葉の場合、インテルリングアは、翻訳及び統計的自然言語生成装置１２４に送られ、該インテルリングアをターゲット言語に変換する（ステップ２１２）。生成装置１２４は、インテルリングアをターゲット言語のテキストに翻訳するために、多国語辞書１２６にアクセスする。次に、ターゲット言語のテキストは、意味依存辞書１２８を用いて処理され、出力されるテキストの適切な意味を公式化する。最後に、テキストは、自然言語生成モデル１２９を用いて処理され、ターゲット言語に従った理解可能な文でテキストを構築する。次いで、ターゲット言語文は、自然言語文をターゲット言語で音声生成するために、テキスト音声合成装置１０８に送られる。

インテルリングアはまた、画像・ディスプレイ１０６上に表示される視覚描写の記号表示を生成するための記号画像生成装置１３０にも送られる（ステップ２１４）。記号画像生成装置１３０は、例えば、Ｂｌｉｓｓｙｍｂｏｌｉｃｓ又はＭｉｎｓｐｅａｋのような画像記号モデルにアクセスして、記号表示を生成することができる。ここで、生成装置１３０は、適切な記号を抽出して、元のソース文の異なる要素を表す「語」を作成し、その元のソース文の意図された意味を伝えるようにその「語」をグループ化する。代替的に、生成装置１３０は、画像カタログ１３４にアクセスし、そこで、インテルリングアの要素を表すために合成画像が選択される。記号表示が構築されると、該記号表示は、画像表示装置１０６上に表示される。図３は、ソース言語の、入力された元の自然言語文の記号表示を示す（ステップ２１６）。

本発明の翻訳システムの機能的利点に加えて、共有のグラフィカル表示の存在によって、話し手及び聞き手の両方のユーザ・エクスペリエンスが大きく向上する。如何なる言語も共有しない人の間のコミュニケーションは、困難であり、ストレスが多い。視覚描写により、共有体験の感覚が育ち、適切な画像を有する共通域が与えられ、身振りを通して又は継続した一連の対話を通して、コミュニケーションが促進される。

本発明の翻訳システムの別の実施形態において、表示された記号表示が、話されたダイアログのどの部分が表示された画像に対応するかを示す。この実施形態の例示的な画面が、図４に示される。

図４は、話し手によって話されるようなソース言語の自然言語文４０２、ソース文の記号表示４０４、及びここでは中国語であるターゲット言語への該ソース文の翻訳４０６を示す。流暢な言語翻訳には、多くの場合語順の変更を必要とするので、線４０８は、画像が各言語において対応する話し言葉の部分を表している。単語と句の視覚描写を結び付け、それらが、各言語において話される句のどこにあたるかを示すことによって、聞き手は、通常、現在の音声認識システムでは登録されていない、話し手がもたらす韻律的な手がかりをうまく利用することができる。

任意に、対応する語又は概念がテキスト音声合成装置によって音声生成されるとき、画像ディスプレイ上に示された各画像が強調表示される。

別の実施形態においては、システムは、話し手の感情を検知し、「：−）」のような「感情」をターゲット言語のテキストに組み込む。話し手の感情は、音の高さと音質について受信した音響信号を分析することによって検知することができる。代替的に、当該分野において周知のように、神経回路網を通して話し手の捕捉画像を分析することにより、カメラが該話し手の感情を捕捉する。その後、後の翻訳のために、話し手の感情が機械認識可能なテキストと関連付けられる。

本発明は、特定の好ましい実施形態に関連して示され、説明されているが、当業者であれば、添付の特許請求の範囲に定められるような本発明の精神及び範囲から逸脱することなく、形態及び詳細の種々の変更をなし得ることを理解するであろう。

本発明の一実施形態による、多モードの音声言語翻訳システムのブロック図である。本発明の一実施形態による、ソース言語の自然言語文を記号表示に翻訳する方法を示すフローチャートである。ソース言語の自然言語文の記号表示を示す、多モードの音声言語翻訳システムの例示的な表示である。ソース言語及びターゲット言語がどのように記号表示に関連付けられているかを示す形で、ソース言語での自然言語文と、該文の記号表示と、ターゲット言語に翻訳された文とを示す、多モードの音声言語翻訳システムの例示的な表示である。

Claims

言語翻訳システムであって、
ソース言語の自然言語文を前記システムに入力するための入力装置と、
前記自然言語文を機械読み取り可能な形態で受信し、該自然言語文を記号表示に翻訳するためのトランスレータと、
前記自然言語文の前記記号表示を表示するための画像ディスプレイと、
を備えることを特徴とするシステム。
前記自然言語文をターゲット言語で音声生成するためのテキスト音声合成装置をさらに含む、請求項１に記載のシステム。
前記入力装置が、話し言葉を機械認識可能なテキストに変換するための自動音声認識装置である、請求項１に記載のシステム。
前記トランスレータが、
前記自然言語文からの構造情報を構文解析し、該自然言語文の意味構文解析ツリー表示を出力するための自然言語理解構文解析プログラム、
をさらに備える、請求項１に記載のシステム。
前記トランスレータが、
前記自然言語文の要素を分類し、カテゴリーによって前記要素にタグ付けするための自然言語理解統計的分類装置と、
前記分類された文からの構造情報を構文解析し、該分類された文の意味構文解析ツリー表示を出力するための自然言語理解構文解析プログラムと、
をさらに備える、請求項１に記載のシステム。
前記トランスレータが、前記自然言語文の言語独立表示を抽出するためのインテルリングア（ｉｎｔｅｒｌｉｎｇｕａ）情報抽出装置をさらに備える、請求項５に記載のシステム。
前記トランスレータが、前記言語独立表示の要素を視覚描写に関連付けることによって、前記自然言語文の前記記号表示を生成するための記号画像生成装置をさらに備える、請求項６に記載のシステム。
前記トランスレータが、前記言語独立表示をターゲット言語に変換するための自然言語生成装置をさらに備える、請求項６に記載のシステム。
前記トランスレータが、前記自然言語文をターゲット言語のテキストに翻訳し、前記画像ディスプレイが、前記記号表示と共に前記ターゲット言語のテキストを表示する、請求項１に記載のシステム。
前記トランスレータが、前記自然言語文をターゲット言語のテキストに翻訳し、前記画像ディスプレイが前記ターゲット言語のテキスト、前記記号表示、及び前記ソース言語のテキストを表示する、請求項３に記載のシステム。
前記画像ディスプレイが、前記ターゲット言語のテキスト、前記記号表示、及び前記ソース言語のテキストの間の相関関係を示す、請求項１０に記載のシステム。
言語を翻訳する方法であって、前記方法が、
ソース言語の自然言語文を受信するステップと、
前記自然言語文を記号表示に翻訳するステップと、
前記自然言語文の前記記号表示を表示するステップと、
を含むことを特徴とする方法。
前記受信するステップが、
話される自然言語文を音響信号として受信するステップと、
前記話される自然言語文を機械認識可能なテキストに変換するステップと、
を含む、請求項１２に記載の方法。
前記自然言語文からの構造情報を構文解析し、該自然言語文の意味構文解析ツリー表示を出力するステップをさらに含む、請求項１３に記載の方法。
前記意味構文解析ツリーから前記自然言語文の言語独立表示を抽出するステップをさらに含む、請求項１４に記載の方法。
前記自然言語文の要素を分類し、カテゴリーによって前記要素にタグ付けするステップと、
前記分類された文からの構造情報を構文解析し、該分類された文の意味構文解析ツリー表示を出力するステップと、
を含む、請求項１３に記載の方法。
前記意味構文解析ツリーから前記自然言語文の言語独立表示を抽出するステップをさらに含む、請求項１６に記載の方法。
前記言語独立表示の要素を視覚描写に関連付けることによって、該自然言語文の前記記号表示を生成するステップをさらに含む、請求項１７に記載の方法。
前記言語独立表示をターゲット言語のテキストに変換するステップと、前記記号表示と共に前記ターゲット言語のテキストを表示するステップとをさらに含む、請求項１８に記載の方法。
前記ターゲット言語のテキストを音声生成するステップをさらに含む、請求項１９に記載の方法。
前記ターゲット言語の前記テキストに対応する前記表示された記号表示の要素を強調表示するステップをさらに含む、請求項２０に記載の方法。
前記ターゲット言語のテキスト、前記記号表示、及び前記ソース言語のテキストを互いに関連付けるステップと、該ターゲット言語のテキスト、該記号表示、及び該ソース言語のテキストとの相関関係を表示するステップとをさらに含む、請求項１９に記載の方法。
言語を翻訳する方法ステップを実行させるための機械により実行可能な命令のプログラムを明白に具体化する、機械読み取り可能なプログラム記憶装置において、前記方法ステップが、
ソース言語の自然言語文を受信するステップと、
前記自然言語文を記号表示に翻訳するステップと、
前記自然言語文の前記記号表示を表示するステップと、
を含むことを特徴とするプログラム記憶装置。