JP2009205579A

JP2009205579A - 音声翻訳装置およびプログラム

Info

Publication number: JP2009205579A
Application number: JP2008049211A
Authority: JP
Inventors: Kazuo Sumita; 一男住田; Tetsuro Chino; 哲朗知野; Satoshi Kamaya; 聡史釜谷; Akitsugu Ueno; 晃嗣上野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-02-29
Filing date: 2008-02-29
Publication date: 2009-09-10
Also published as: CN101520780A; US20090222257A1

Abstract

【課題】円滑なコミュニケーションを実現することができる音声翻訳装置およびプログラムを提供する。
【解決手段】音声認識により得られた翻訳対象言語の文字列を表示部３のエリア２０５に表示し、翻訳言語の文字列をエリア２０６に表示する。また、翻訳対象言語の文字列または翻訳言語の文字列から文書検索のためのキーワードを抽出し、検索されたキーワード用いて検索された文書の言語が翻訳対象言語の場合、翻訳言語に翻訳し、検索された文書の言語が翻訳言語の場合、翻訳対象言語に翻訳し、検索された文書をエリア２０７に表示するとともに当該文書を翻訳した文書をエリア２０８に表示する。これにより、提示された文書によって情報の共有を支援することができる。また、翻訳切替ボタン２０３の押下により二つの言語の翻訳対象言語／翻訳言語の指定を変更することにより、双方向の対話を支援することができるようになる。
【選択図】図４

Description

本発明は、異なる言語を母語とする人同士が音声によりコミュニケーションを行うことを支援する音声翻訳装置およびプログラムに関する。

近年、異なる言語を母語（人間が幼少期から自然に習得する言語：第一言語）とする人同士のコミュニケーションを支援する音声翻訳装置の実用化に対する期待が高まっている。このような音声翻訳装置は、基本的には、
・音声を認識する手段
・音声認識の結果として得られた文字列を翻訳する手段
・翻訳の結果として得られた文字列を音声で合成する手段
を用い、音声認識処理、翻訳処理、音声合成処理を順次実行する。

利用者が発話した音声を認識して文字情報を出力する音声認識システムは、すでにパッケージソフトなどの形態で実用化されている。また、書き言葉（テキスト）を入力とした機械翻訳システムについても、同様にパッケージソフトなどの形態で実用化されている。音声合成システムについても、すでに実用に供せられており、これらソフトウェアを適宜利用することで、音声翻訳装置を実現することは可能である。

ところで、同じ母語の人同士の対面的なコミュニケーションを想定した場合、音声だけはなく互いに見ることのできる物や文書、図面などを用いて意思疎通を行うことがある。具体的には、一方の対話者が地図を参照しながら道を聞いた場合、他方の対話者は地図上に表示されている建物や道路などを指示しながら道を教えるといったことがある。

しかしながら、異なる母語の人同士の対面的なコミュニケーションを考えた場合、１つの地図に基づいて情報共有することには、困難が伴う。なぜなら、地図上に記述されている地名は単一の言語で記載されている場合が多く、その言語を理解できない側の対話者には、その地図の内容理解が困難なものとなる。したがって、異なる母語の対話者が共に理解できるように、地図上の記載されている一方の言語の地名をもう一方の言語に翻訳し提示できるようにすることが好ましい。

そこで、特許文献１に開示されている会話支援装置によれば、一方の利用者の音声入力に対して、音声認識結果を翻訳するとともに、音声認識結果に対応する回答のための図を相手側に提示するようにしている。これにより、相手側は、会話支援装置に提示された図を使って回答することができるようになっている。

特開２００５−２２２３１６号公報

しかしながら、特許文献１に開示されている会話支援装置によれば、一方向の対話しか支援できないという課題がある。

また、音声によるコミュニケーションを行っている際に、関連のある文書や図面を探し出したり、あるいは探し出した文書や図面の翻訳を行うことを装置に指示したり、といった複数の操作が必要となるのは好ましくなく、音声によるコミュニケーションを妨げずに対話内容に関連のある文書や図面が適切かつ自動的に検索され、異なる母語の対話者に対して検索された文書や図面の翻訳結果を提示し、提示された文書や図面によって情報の共有を支援することが望ましい。

本発明は、上記に鑑みてなされたものであって、円滑なコミュニケーションを実現することができる音声翻訳装置およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の音声翻訳装置は、二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、前記翻訳言語の文字列を表示部に表示する文字列表示手段と、前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、前記キーワードを用いて文書検索を行う文書検索手段と、前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、を備えることを特徴とする。

また、本発明のプログラムは、コンピュータを、二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、前記翻訳言語の文字列を表示部に表示する文字列表示手段と、前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、前記キーワードを用いて文書検索を行う文書検索手段と、前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、として機能させることを特徴とする。

本発明によれば、音声認識により得られた翻訳対象言語の文字列を翻訳言語の文字列に翻訳し、翻訳言語の文字列を表示部に表示する。また、翻訳対象言語の文字列または翻訳言語の文字列から文書検索のためのキーワードを抽出し、検索されたキーワード用いて検索された文書の言語が翻訳対象言語の場合、翻訳言語に翻訳し、検索された文書の言語が翻訳言語の場合、翻訳対象言語に翻訳し、検索された文書と当該文書を翻訳した文書とを、表示部に表示する。これにより、異なる母語の利用者同士の音声によるコミュニケーションにおいて、対話内容に関連する文書を適切に検索するとともにその翻訳結果を表示することにより、提示された文書によって情報の共有を支援することができるとともに、二つの言語の翻訳対象言語／翻訳言語の指定を変更することにより、双方向の対話を支援することができるようになるので、円滑なコミュニケーションを実現することができる、という効果を奏する。

以下に添付図面を参照して、この発明にかかる音声翻訳装置およびプログラムの最良な実施の形態を詳細に説明する。本実施の形態においては、英語と日本語との間の音声翻訳を想定した音声翻訳装置について説明する。つまり、第一の言語を英語（英語の音声が入力されるということ）、第二の言語を日本語（翻訳結果として日本語が出力されるということ）あるいは、第一の言語を日本語（日本語の音声が入力されるということ）、第二の言語を英語（翻訳結果として英語が出力されるということ）になる。なお、本発明の内容は言語の種類によらないものであり、日本語と中国語との間の音声翻訳や英語とフランス語との間の音声翻訳など任意の言語間で実施できることは言うまでもない。

［第１の実施の形態］
本発明の第１の実施の形態を図１ないし図１８に基づいて説明する。図１は、本発明の第１の実施の形態にかかる音声翻訳装置１の構成を示す概略的に示す外観斜視図である。図１に示すように、音声翻訳装置１は、薄型扁平形状の筐体である本体ケース２を有している。このように本体ケース２が薄型扁平形状であることにより、音声翻訳装置１は携帯可能とされている。また、本体ケース２を携帯可能な薄型扁平形状に形成したことにより、音声翻訳装置１は、設置場所を選ばず、使い勝手が良くなっている。

本体ケース２には、所定の情報をカラー画像で表示可能なＬＣＤ（Liquid Crystal Display：液晶ディスプレイ）や有機ＥＬディスプレイなどで構成された表示部３が表示面を外部に露出させて内蔵されている。また、この表示部３の表示面上には、例えば抵抗膜式のタッチパネル４が積層されており、表示部３に表示されるキー等とタッチパネル４の座標との位置関係の同期をとることによって、表示部３及びタッチパネル４によりキーボードのキーと同様の機能が発揮されることになる。つまり、表示装置３及びタッチパネル４によって情報入力部が構成されている。これにより、装置の小型化が図られている。また、図１に示すように、音声翻訳装置１の本体ケース２の側面部には、第一の利用者が発話する第一の言語を取り込み音声信号に置き換える内蔵マイク１３やスピーカ１４が設けられている。また、音声翻訳装置１の本体ケース２の側面部には、半導体メモリである記憶媒体９（図２参照）を挿入するスロット１７が設けられている。

このような音声翻訳装置１のハードウェア構成について図２を参照して説明する。図２に示すように、音声翻訳装置１は、情報処理を行うＣＰＵ（Central Processing Unit）５、ＢＩＯＳなどを記憶した読出し専用メモリであるＲＯＭ（Read Only Memory）６、各種データを書換え可能に記憶するＲＡＭ（Random Access Memory）７、各種データベースとして機能するとともに各種のプログラムを格納するＨＤＤ（Hard Disk Drive）８、スロット１７から挿入された記憶媒体９を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するための媒体駆動装置１０、インターネットなどのネットワーク１１を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置１２、表示部３、操作者がＣＰＵ５に命令や情報等を入力するためのタッチパネル４、音声入出力用ＣＯＤＥＣ１５等から構成されており、これらの各部間で送受信されるデータをバスコントローラ１６が調停して動作する。音声入出力用ＣＯＤＥＣ１５は、内蔵マイク１３から入力された音声アナログデータを音声デジタルデータに変換してＣＰＵ５に出力するとともに、ＣＰＵ５からの音声デジタルデータを音声アナログデータに変換してスピーカ１４に出力する。

このような音声翻訳装置１では、ユーザが電源を投入するとＣＰＵ５がＲＯＭ６内のローダーというプログラムを起動させ、ＨＤＤ８よりＯＳ（Operating System）というコンピュータのハードウェアとソフトウェアとを管理するプログラムをＲＡＭ７に読み込み、このＯＳを起動させる。このようなＯＳは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。ＯＳのうち代表的なものとしては、Ｗｉｎｄｏｗｓ（登録商標）等が知られている。これらのＯＳ上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のＯＳ上で動作するものに限らず、後述の各種処理の一部の実行をＯＳに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやＯＳなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。

ここで、音声翻訳装置１は、アプリケーションプログラムとして、音声翻訳処理プログラムをＨＤＤ８に記憶している。この意味で、ＨＤＤ８は、音声翻訳処理プログラムを記憶する記憶媒体として機能する。

また、一般的には、音声翻訳装置１のＨＤＤ８にインストールされるアプリケーションプログラムは、記憶媒体９に記録され、この記憶媒体９に記録された動作プログラムがＨＤＤ８にインストールされる。このため、記憶媒体９も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置１２を介して外部のネットワーク１１から取り込まれ、ＨＤＤ８にインストールされても良い。

音声翻訳装置１は、ＯＳ上で動作する音声翻訳処理プログラムが起動すると、この音声翻訳処理プログラムに従い、ＣＰＵ５が各種の演算処理を実行して各部を集中的に制御する。なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路（図示せず）を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。

音声翻訳装置１のＣＰＵ５が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。図３は、音声翻訳装置１の概略構成を示す機能ブロック図である。図３に示すように、音声翻訳装置１は、音声翻訳処理プログラムに従うことにより、音声認識手段として機能する音声認識部１０１と、第一翻訳手段として機能する第一翻訳部１０２と、音声合成部１０３と、キーワード抽出手段として機能するキーワード抽出部１０４と、文書検索手段として機能する文書検索部１０５と、第二翻訳手段として機能する第二翻訳部１０６と、文字列表示手段および検索文書表示手段として機能する表示制御部１０７と、入力制御手段として機能する入力制御部１０８と、話題変更検出手段として機能する話題変更検出部１０９と、検索選択手段として機能する検索対象選択部１１０と、制御部１１１と、を備えている。

音声認識部１０１は、内蔵マイク１３および音声入出力用ＣＯＤＥＣ１５を介して入力された音声信号を入力として、音声と対応する文字や単語列の認識結果を生成する。

音声翻訳における音声認識では、大語彙連続音声認識と呼ばれる技術が必要となる。大規模連続語彙音声認識では、未知の音声入力Ｘを単語系列Ｗに解読する問題を確率過程として、ｐ（Ｗ｜Ｘ）を最大化するＷを探索するという探索問題として定式化することが一般に行われている。この定式化では、ベイズの定理に基づいて、ｐ（Ｗ｜Ｘ）の最大にするＷの探索問題を、ｐ（Ｘ｜Ｗ）ｐ（Ｗ）を最大にするＷの探索問題として再定義する方式である。この確率的音声認識による定式化では、ｐ（Ｘ｜Ｗ）は音響モデル、ｐ（Ｗ）は言語モデルと呼んでおり、ｐ（Ｘ｜Ｗ）は、単語系列Ｗに対してどのような音響信号が対応するかをモデル化した確率である。また、ｐ（Ｗ）は単語系列Ｗの出現のしやすさを表す確率であって、ユニグラム（ある単語が生起する確率）、バイグラム（ある二単語が連続して生起する確率）、トライグラム（ある三単語が連続して生起する確率）、一般にはＮグラム（あるＮ個の単語が連続して生起する確率）が用いられる。上記に示した方式に基づいて、大規模連続語彙音声認識は、ディクテーションソフトとして市販されているものがある。

第一翻訳部１０２は、音声認識部１０１が出力する認識結果を入力として、第二の言語への翻訳処理を行う。なお、第一翻訳部１０２は、利用者が発話した音声を認識した結果の発話文を対象とした機械翻訳となるため、口語文の処理に強い機械翻訳であることが望ましい。

機械翻訳は、原言語（例えば日本語）の文を目的言語（例えば英語）へ変換するものであるが、この変換方式によって、ルールベース機械翻訳、統計ベース機械翻訳、用例ベース機械翻訳に大別することができる。

ルールベース機械翻訳は、形態素解析手段や構文解析手段を有し、原言語文から文の構造を解析し、その構造に基づいて目的言語の構文構造への変換（トランスファー）を行う方式である。構文解析やトランスファーのための処理知識は、あらかじめルールの形式で登録しておき、翻訳装置はそのルールを解釈しながら翻訳処理を行う。パッケージソフト等で商品化されている機械翻訳ソフトウェアは、この方式に基づくシステムが大半である。このようなルールベース機械翻訳では、実用に値する精度のよい機械翻訳を実現するために膨大なルールを用意する必要があるが、このようなルールを人手で作成するには多大なコストがかかる。これを解決するため、統計ベース機械翻訳のアイデアが提唱され、それ以降、活発に研究開発が進められている。

統計ベース機械翻訳では、原言語文から目的言語への確率モデルとして定式化し、その確率を最大にする目的言語文を探索する処理として問題を定式化している。対訳文を大規模に準備し（対訳コーパスと呼ぶ）、このコーパスから翻訳を行う変換ルールとその確率値を求め、確率値の最も高い変換ルールを適用されるような翻訳結果を探索するものである。現在、統計ベース機械翻訳を用いた音声翻訳のプロトタイプシステムが構築されている。

用例ベース機械翻訳は、統計ベース機械翻訳と同様に原言語と目的言語との対訳コーパスを用いる。入力文と類似する原文を対訳コーパスから検索し、検索された原文と対応する目的言語文を翻訳結果とする方式である。ルールベース機械翻訳や統計ベース機械翻訳では、構文解析や訳語対の断片の統計的な組合せによって翻訳結果を生成するため、原言語のユーザにとっては良い翻訳結果が得られるかどうかがわからない。しかし、用例ベース機械翻訳では、対訳の情報はあらかじめ用意しておくものなので、ユーザが原文を選択することにより、正しい翻訳結果が得られることになる。しかしその一方で、すべての文を用例として準備しておくことはできないこと、用例の数を増やせば増やすほど、入力文に対して検索される文が多数になるため、その中からユーザが適切な文を選択するという手間が発生すること、などの問題も存在する。

音声合成部１０３は、第一翻訳部１０２が出力する翻訳結果を音声信号に変換して、音声入出力用ＣＯＤＥＣ１５に出力する。音声合成の技術は、すでに確立しておりそのソフトウェアも市販されている。音声合成部１０３の音声合成処理は、これらすでに実現されている技術を用いることができるので、その説明は省略する。

キーワード抽出部１０４は、音声認識部１０１が出力する音声認識結果あるいは第一翻訳部１０２が出力する翻訳結果から文書検索のためのキーワードを抽出する。

文書検索部１０５は、キーワード抽出部１０４が出力するキーワードを含む文書を、格納部であるＨＤＤ８やネットワーク１１上のコンピュータなどに予め格納されている文書群から検索する文書検索を行う。文書検索部１０５で検索対象となる文書は、ＨＴＭＬやＸＭＬのようなタグのないフラットな文書である場合と、ＨＴＭＬやＸＭＬで記述された文書であった場合とがある。これらの文書は、例えば、ＨＤＤ８やネットワーク１１上のコンピュータなどに格納されている文書データベースやＷｅｂ上に格納されている。

第二翻訳部１０６は、文書検索部１０５で得られた複数の文書の内、検索結果の上位の少なくとも一つの文書の翻訳を行う。第二翻訳部１０６は、文書を対象とした機械翻訳であり、翻訳の対象となる文書の言語（詳細は後述するが、検索対象選択部１１０によって検索対象設定がなされるので、検索対象となっている言語に対応する）に対応して、日本語から英語への翻訳あるいは、英語から日本語への翻訳のいずれかが行われることになる。

文書検索部１０５で検索対象となっている文書が、ＨＴＭＬやＸＭＬのようなタグのないフラットな文書である場合は、翻訳対象となっている文書の各文を順次、翻訳し、元の文と置き換えて、翻訳文書を生成することになる。一文ごとに順次翻訳するので、元文書と翻訳文書との対応関係は明らかであるといえる。また、元の文の各単語が翻訳文中のどの単語に訳されたかということも、機械翻訳の処理過程から取り出せるので、元文書と翻訳文書間での単語単位での対応付けも行うことができる。

一方、ＨＴＭＬやＸＭＬで記述された文書であった場合、文書中のタグ以外の地の文のみを対象にして機械翻訳を行い、その結果として得られる翻訳結果を元の地の文の対応する部分と置き換えて、翻訳文書を生成することになる。したがって、元のどの地の文がどの翻訳結果と置き換えられたかは明らかであるといえる。また、元の文の各単語が翻訳文中のどの単語に訳されたかということも、機械翻訳の処理過程から取り出せるので、元文書と翻訳文書間での単語単位での対応付けも行うことができる。

表示制御部１０７は、音声認識部１０１が出力する認識結果、第一翻訳部１０２が出力する翻訳結果、第二翻訳部１０６で得られた翻訳文書およびその翻訳対象となった元文書を、表示部３に表示させる。

入力制御部１０８は、表示部３に表示された翻訳文書ならびにその翻訳対象となった元文書上の任意の箇所を指示させ、描画あるいはハイライト表示を行うための情報などを入力するタッチパネル４を制御する。

話題変更検出部１０９は、音声認識部１０１が出力する音声認識結果、あるいは表示部３の表示内容に基づいて対話の話題が変更されたことを検出する。

検索対象選択部１１０は、キーワード抽出部１０４の抽出の対象を設定する。より詳細には、キーワード抽出部１０４の抽出の対象を、音声認識部１０１が出力する音声認識結果にするか、第一翻訳部１０２が出力する翻訳結果にするかを設定する。

制御部１１１は、上述した各部の処理手順をコントロールする。

ここで、理解を容易にするために、表示制御部１０７による表示部３への表示例を、図４および図５を参照して説明する。図４ならびに図５は、異なる時点での表示部３における表示例を表している。

なお、図４および図５において、Speak-inボタン２０１は、内蔵マイク１３および音声入出力用ＣＯＤＥＣ１５を介した音声入力処理の開始／終了を指示するボタンであり、Speak-inボタン２０１を押すと音声取り込みが始まり、再度、Speak-inボタン２０１を押すと音声取り込みを終える機能を持つ。

表示エリアＡ２０５は、音声認識部１０１が出力する音声認識結果を表示する表示エリアであり、表示エリアＢ２０６は、第一翻訳部１０２が出力する翻訳結果を表示する表示エリアである。表示エリアＣ２０７は、文書検索部１０５が出力する一つの文書を表示する表示エリアであり、表示エリアＤ２０８は、表示エリアＣ２０７に表示されている文書に対して、第二翻訳部１０６によって機械翻訳された結果が表示される表示エリアである。

また、Speak-outボタン２０２は、表示エリアＢ２０６に表示されている翻訳結果を、音声合成部１０３で音声信号に変換して、音声入出力用ＣＯＤＥＣ１５への出力を指示する機能を持つボタンである。

翻訳切替ボタン２０３は、翻訳方向指定手段として機能するものであり、第一翻訳部１０２についての翻訳方向を切り替える（英語から日本語への翻訳なのか、日本語か英語への翻訳なのかを切り替える）機能を持つボタンである。また、翻訳切替ボタン２０３は、音声認識部１０１の認識言語を切り替える機能も持つボタンである。

検索切替ボタン２０４は、検索対象選択部１１０を起動し、日本語文を対象にしてキーワード抽出を行うのか、英語を対象にしてキーワード抽出を行うのかを切り替える機能を持つ。これは、例えば日本において音声翻訳装置１を用いるならば、キーワード抽出は日本文を対象として実施し、日本語の文書を検索したほうが、より充実した情報を検索できる可能性が高く、逆に米国において使用することを仮定すれば、キーワード抽出は英文を対象として実施し、英文の文書を検索した方が、より充実した情報が検索できるという想定に基づいている。利用者は、検索切替ボタン２０４によって、検索対象の言語を選択することができるようになっている。

なお、検索対象選択部１１０に対する設定を実行するものとして、本実施の形態においては検索切替ボタン２０４を挙げたが、これに限るものではない。例えば、検索切替ボタン２０４以外の変形例としては、ＧＰＳ(Global Positioning System：全地球測位システム)を挙げられる。すなわち、ＧＰＳにより地球上の現在位置を取得し、現在位置が日本であると判定した場合に、日本語文を対象にしてキーワード抽出を行うように切り換えればよい。

図４に示す表示例は、第一の利用者が発話する言語が英語である場合の動作イメージを示しており、第一の利用者がSpeak-inボタン２０１を押下して“Where should I go for sightseeing in Tokyo ?”を発話した後、Speak-inボタン２０１を再度押下した直後における音声翻訳装置１の動作結果を示している。つまり、表示エリアＡ２０５には、音声認識部１０１が出力する音声認識結果“Where should I go for sightseeing in Tokyo ?”が表示され、表示エリアＢ２０６には、表示エリアＡ２０５に表示されている音声認識結果に対する第一翻訳部１０２が出力する翻訳結果“東京では観光はどこに行けばいいですか？”が表示されている。この場合、翻訳切替ボタン２０３によって、翻訳方向が「英語から日本語への翻訳」に切り替えられている。さらに、表示エリアＣ２０７には、音声認識部１０１が出力する音声認識結果あるいは第一翻訳部１０２が出力する翻訳結果からキーワード抽出部１０４によって抽出された文書検索のためのキーワードに基づく文書検索部１０５による文書検索結果の文書が表示され、表示エリアＤ２０８には、表示エリアＣ２０７に表示されている文書に対する第二翻訳部１０６が出力する翻訳結果が表示されている。この場合、検索切替ボタン２０４によって、検索対象の言語が「日本語」に切り替えられている。

図５に示す表示例は、図４の表示状態で表示エリアＣ２０７に表示された検索文書に対して、第二の利用者がペン２１０によって指示してポイント２１１を描画した様子を示している。本実施の形態の音声翻訳装置１においては、図５に示すように、表示エリアＣ２０７に表示された検索文書に対してペン２１０によって指示して強調画像であるポイント２１１を描画した場合、対応する表示エリアＤ２０８に表示された翻訳結果にも同様の強調画像であるポイント２１２が描画される。

加えて、図５に示す表示例は、第二の利用者が発話する言語が日本語である場合の動作イメージを示しており、第二の利用者が翻訳切替ボタン２０３を押下して翻訳方向を「日本語から英語への翻訳」に切り替え、Speak-inボタン２０１を押下して“浅草の浅草寺をお勧めします。”を発話した後、Speak-inボタン２０１を再度押下した直後における音声翻訳装置１の動作結果を示している。つまり、表示エリアＡ２０５には、音声認識部１０１が出力する音声認識結果“浅草の浅草寺をお勧めします。”が表示され、表示エリアＢ２０６には、表示エリアＡ２０５に表示されている音声認識結果に対する第一翻訳部１０２が出力する翻訳結果“I recommend Sensoji temple in Asakusa.”が表示されている。

次に、上述したような制御部１１１による各種処理の流れについてフローチャートを参照しつつ説明する。

まず、翻訳切替ボタン２０３の押下時の処理について図６のフローチャートを参照して説明する。図６に示すように、翻訳切替ボタン２０３が押下された場合、翻訳切替ボタン押下イベントが発行され、本プロセスが実行される。具体的には、図６に示すように、音声認識部１０１で認識する言語が英語であるか、日本語であるかを切り替えるとともに、第一翻訳部１０２の翻訳方向を切り替える（ステップＳ１）。例えば、ステップＳ１が実行された時点で、音声認識部１０１の認識言語が英語であり、第一翻訳部１０２のモードが「英語から日本語への翻訳」モードであれば、日本語の音声が入力され日本語から英語に翻訳するというモードに切り替える。また逆に、第一翻訳部１０２のモードが「日本語から英語への翻訳」モードであれば、英語の音声が入力され英語から日本語に翻訳するモードに切り替えるということを意味している。また、キーワード抽出部１０４や第二翻訳部１０６についての初期設定も、入力とする言語が英語とするか日本語とするかを、このステップＳ１によって切り替える。

次に、Speak-inボタン２０１の押下時の処理について図７のフローチャートを参照して説明する。図７に示すように、Speak-inボタン２０１が押下された場合、Speak-inボタン押下イベントが発行され、本プロセスが実行される。具体的には、図７に示すように、内蔵マイク１３および音声入出力用ＣＯＤＥＣ１５から音声信号を取り込んでいる状態にあるか否かをチェックし（ステップＳ１１）、音声信号を取り込んでいる状態であれば発話が終了したものであるとして、音声入力停止イベントを発行する（ステップＳ１２）。一方、音声信号を取り込んでいる状態でなければ、新規に発話するものとして、音声入力起動イベントを発行する（ステップＳ１３）。

次に、音声入力起動イベントに対する処理について図８のフローチャートを参照して説明する。図８に示すように、音声入力起動イベント（図７のステップＳ１３を参照）が発行され、本プロセスが実行される。具体的には、図８に示すように、ＲＡＭ７に形成される音声入力バッファを初期化した後（ステップＳ２１）、音声入力停止イベントを受付けるまで（ステップＳ２３のＹｅｓ）、内蔵マイク１３から入力されるアナログ形式の音声信号を音声入出力用ＣＯＤＥＣ１５でデジタル形式の音声信号に変換し、音声入力バッファに出力する（ステップＳ２２）。音声入力が終わると（ステップＳ２３のＹｅｓ）、音声認識部１０１を実行し、音声入力バッファを入力として音声認識処理を行い（ステップＳ２４）、ステップＳ２４で得られた音声認識結果を表示エリアＡ２０５に表示し（ステップＳ２５）、音声認識結果出力イベントを発行する（ステップＳ２６）。

次に、音声認識結果出力イベントに対する処理について図９のフローチャートを参照して説明する。図９に示すように、音声認識結果出力イベント（図８のステップＳ２６を参照）が発行され、本プロセスが実行される。具体的には、図９に示すように、表示エリアＡ２０５に表示された文字列を入力として第一翻訳部１０２を実行する（ステップＳ３１）。表示エリアＡ２０５に表示されている文字列が英語であれば、英語から日本語への翻訳が、また、日本語であれば、日本語から英語への翻訳が行われる。次いで、ステップＳ３１で得られた翻訳結果を表示エリアＢ２０６に表示し（ステップＳ３２）、音声出力起動イベントを発行する（ステップＳ３３）。続いて、ステップＳ３４〜Ｓ３６において、検索対象の言語が日本語であるか英語であるかによって、表示エリアＡ２０５に表示されている文字列あるいは表示エリアＢ２０６に表示されている文字列のいずれかを入力としてキーワード抽出部１０４を実行する。

ここで、図１０は英語文を対象としたキーワード抽出部１０４の処理の流れを示すフローチャート、図１１は日本語文を対照としたキーワード抽出部１０４の処理の流れを示すフローチャートである。図１０および図１１に示すように、キーワード抽出部１０４は、英語文または日本語文にかかわらず、入力文字列に対して形態素解析を行う。これによって、入力文字列を構成する各単語の品詞を取り出す。その後、品詞テーブルに登録されている単語をキーワードとして取り出す。すなわち、図１０のステップＳ５１と図１１のステップＳ６１に関して、英語形態素解析を行うか日本語形態素解析を行うかの違いである。形態素解析によって入力文を構成する各単語の品詞情報が得られるので、図１０のステップＳ５２と図１１のステップＳ６２のそれぞれにおいて、その品詞情報に基づき、品詞テーブルを参照しキーワードを抽出する。図１２にキーワード抽出部１０４の処理で参照する品詞テーブルの一例を示す。キーワード抽出部１０４では、この品詞テーブルに登録されている品詞の単語をキーワードとして抽出する。例えば、図１０に示すように、“Where should I go for sightseeing in Tokyo ?”を入力とした場合には、キーワードとして、「sightseeing」「Tokyo」が抽出される。また、図１１に示すように、“浅草の浅草寺をお勧めします。”を入力とした場合には、キーワードとして、「浅草」「浅草寺」が抽出される。

続くステップＳ３７においては、キーワード抽出部１０４で抽出したキーワードに基づいて、対話上での話題が変更されたかどうかを、話題変更検出部１０９で検出する。

図１３は、話題変更検出部１０９の処理の流れを示すフローチャートである。図１３に示すように、話題変更検出部１０９は、キーワード抽出部１０４で抽出したキーワードが表示エリアＣ２０７あるいは表示エリアＤ２０８に表示されていると判断した場合には（ステップＳ７１のＮｏ）、話題が変更していないと判断する（ステップＳ７２）。一方、話題変更検出部１０９は、キーワード抽出部１０４で抽出した全てのキーワードが表示エリアＣ２０７あるいは表示エリアＤ２０８に表示されていないと判断した場合には（ステップＳ７１のＹｅｓ）、話題が変更したと判断する（ステップＳ７３）。

なお、本実施の形態においては、キーワード抽出部１０４で抽出したキーワードによって話題変更を検出するものとしたが、キーワードによらずに話題変更を検出するようにして実施することも可能である。例えば、図４や図５には図示していないが、表示エリアＣ２０７ならびに表示エリアＤ２０８へのポイントに伴う描画を消すためのクリアボタンを設けておき、そのクリアボタンを押されたことを検知して、表示エリアＣ２０７ならびに表示エリアＤ２０８に対するポインティングによる描画を初期化するようにすることは容易である。そして、話題変更検出部１０９を、描画が初期化された状態を、話題が変更されたと判断し、描画が行われている状態を話題が変更されていないと判断するようにする。これによって、表示エリアＣ２０７あるいは表示エリアＤ２０８の任意の箇所をポイントし、描画した場合、それ以降クリアボタンが押されるまで、利用者が音声入力を行ったとしても文書検索は実行されず、表示エリアＣ２０７ならびに表示エリアＤ２０８上に表示されている文書と翻訳文書、さらには描画情報が保持されることになり、それら表示された情報に基づいた音声コミュニケーションが可能になる。

上述のようにして話題が変更されていないと話題変更検出部１０９が判断した場合は（ステップＳ３７のＮｏ）、表示エリアＣ２０７ならびに表示エリアＤ２０８の内容を変更せずに処理を終了する。

一方、話題が変更されていると判断した場合は（ステップＳ３７のＹｅｓ）、キーワード抽出部１０４の出力を入力として文書検索部１０５を実行し（ステップＳ３８）、その結果得られる文書を表示エリアＣ２０７に表示するとともに（ステップＳ３９）、表示エリアＣ２０７に表示した文書を第二翻訳部１０６によって翻訳し（ステップＳ４０）、その翻訳結果を表示エリアＤ２０８に表示する（ステップＳ４１）。

次に、Speak-outボタン２０２の押下時（または、音声出力起動イベントが発行された時）の処理について図１４のフローチャートを参照して説明する。図１４に示すように、Speak-outボタン２０２が押下された場合、Speak-outボタン押下イベントが発行され、本プロセスが実行される。具体的には、図１４に示すように、表示エリアＢ２０６に表示されている文字列（音声認識部１０１の認識結果に対する翻訳結果）を入力として、音声合成部１０３を実行してデジタル形式の音声信号を生成する（ステップＳ８１）。このようにして生成されたデジタル形式の音声信号は、音声入出力用ＣＯＤＥＣ１５に出力される（ステップＳ８２）。音声入出力用ＣＯＤＥＣ１５は、デジタル形式の音声信号をアナログ形式に変換し、スピーカ１４から音声として出力する。

次に、利用者がペン２１０によってタッチパネル４上を指示した際に実行する処理について図１５のフローチャートを参照して説明する。図１５に示すように、入力制御部１０８からポインティングイベントが発行され、本プロセスが実行される。具体的には、図１５に示すように、利用者がペン２１０によってタッチパネル４上を指示した場合、タッチパネル４における表示エリアＤ２０８あるいは表示エリアＣ２０７の何れかの箇所がペン２１０によって指示されたか否かを判断し（ステップＳ９１、ステップＳ９２）、表示エリアＤ２０８あるいは表示エリアＣ２０７以外の箇所で指示された場合は（ステップＳ９１のＮｏ、ステップＳ９２のＮｏ）、何もせずに処理を終了する。

表示エリアＤ２０８中のある箇所がポイントされた場合は（ステップＳ９１のＹｅｓ）、表示エリアＤ２０８中でポイントされた箇所に描画するとともに（ステップＳ９３）、表示エリアＣ２０７中の対応する箇所についても同様に描画する（ステップＳ９４）。

一方、表示エリアＣ２０７中のある箇所がポイントされた場合は（ステップＳ９２のＹｅｓ）、表示エリアＣ２０７中でポイントされた箇所に描画するとともに（ステップＳ９５）、表示エリアＤ２０８中の対応する箇所についても同様に描画する（ステップＳ９６）。

以上の処理により、タッチパネル４における表示エリアＤ２０８あるいは表示エリアＣ２０７の何れかの箇所がペン２１０によって指示された場合には、表示エリアＣ２０７に表示された文書検索の結果得られた元文書と、表示エリアＤ２０８に表示されたその翻訳結果とには、それぞれ同様の強調画像であるポイント２１２（図５参照）が描画される。

なお、表示エリアＣ２０７と表示エリアＤ２０８との間で対応する箇所に強調画像を描画するためには、それぞれの表示エリアでの各位置の対応を取る必要がある。元文書と翻訳文書間における単語単位での対応は、第二翻訳部１０６の処理過程で取ることができるので、この単語の対応情報を用いればよい。つまり、一方の表示エリア側で、単語あるいは文の周りをポイントし、強調画像を描画させた場合、もう一方の表示エリア側での対応する単語あるいは文はわかるので、その周りに強調画像を描画すればよい。また、表示エリアＣ２０７ならびに表示エリアＤ２０８に表示される文書がＷｅｂ文書である場合、それぞれ地の文は元の文と翻訳文という違いがあるが、Ｗｅｂ文書中に含まれているタグや画像等は、出現順序を含めて同じである。したがって、元文書中の任意の画像と翻訳文書中の画像とは、その画像までに存在するタグの数、種類、順序、ならびに画像のファイル名によって一意に対応付けることが可能である。この対応関係を用いて、一方の表示エリア側で画像の周辺をポイント、描画された場合について、もう一方の表示エリア側で対応する画像の周辺に描画できる。

ところで、検索対象となる文書がＷｅｂ文書である場合、検索される文書はＨＴＭＬで表現されたハイパーテキストとなる。ＨＴＭＬ文書では、文書中には他文書へのリンク情報が埋め込まれており、利用者は順次このリンクをたどり対応付けられた文書を表示するために用いられる。ここで、図１６はＨＴＭＬ文書を対象とした場合における処理の流れを示すフローチャートである。図１６に示すように、利用者がペン２１０によってタッチパネル４上を指示した場合、ポイントされた箇所がリンク（ハイパーテキスト）である場合には（ステップＳ１０１のＹｅｓ）、リンク先の文書を表示エリアＣ２０７に表示するとともに、第二翻訳部１０６を実行し、その翻訳結果を表示エリアＤ２０８に表示する（ステップＳ１０２）。

最後に、検索切替ボタン２０４の押下時の処理について図１７のフローチャートを参照して説明する。図１７に示すように、検索切替ボタン２０４が押下された場合、検索切替ボタン押下イベントが発行され、本プロセスが実行される。具体的には、図１７に示すように、検索対象選択部１１０を実行して、キーワード抽出部１０４の抽出の対象を設定する（ステップＳ１１１）。より詳細には、キーワード抽出部１０４の抽出の対象を、音声認識部１０１が出力する音声認識結果にするか、第一翻訳部１０２が出力する翻訳結果にするかを設定する。

このように本実施の形態によれば、音声認識により得られた翻訳対象言語の文字列を翻訳言語の文字列に翻訳し、翻訳言語の文字列を表示部に表示する。また、翻訳対象言語の文字列または翻訳言語の文字列から文書検索のためのキーワードを抽出し、検索されたキーワード用いて検索された文書の言語が翻訳対象言語の場合、翻訳言語に翻訳し、検索された文書の言語が翻訳言語の場合、翻訳対象言語に翻訳し、検索された文書と当該文書を翻訳した文書とを、表示部に表示する。これにより、異なる母語の利用者同士の音声によるコミュニケーションにおいて、対話内容に関連する文書を適切に検索するとともにその翻訳結果を表示することにより、提示された文書によって情報の共有を支援することができるとともに、二つの言語の翻訳対象言語／翻訳言語の指定を変更することにより、双方向の対話を支援することができるようになるので、円滑なコミュニケーションを実現することができる、という効果を奏する。

なお、本実施の形態においては、文書検索部１０５で検索した文書を表示エリアＣ２０７に、その翻訳文書を表示エリアＤ２０８にと分けて表示するようにしたが、これに限るものではない。例えば、図１８の動作イメージの表示エリア３０１に示すように、翻訳情報を元文書中の文や単語と対応付け、文書中に埋め込む形式で表示するようにして実施すること可能である。

［第２の実施の形態］
次に、本発明の第２の実施の形態を図１９ないし図２４に基づいて説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。

本実施の形態は、「この料理はどんな材料を使っていますか？」というように、その場に存在する物に関する対話の場合、あるいは、「近くの地下鉄の駅はどこですか？」というように、場所に関する対話ではあるが、その場所が文から抽出されるキーワードのみでは特定できない場合に対処することを可能にするものである。

図１９は、本発明の第２の実施の形態にかかる音声翻訳装置５０のハードウェア構成を示すブロック図である。図１９に示すように、音声翻訳装置５０は、第１の実施の形態で説明した音声翻訳装置１の構成に加えて、無線タグ読取部であるＲＦＩＤ読取部５１と、位置検出部５２とを備えており、バスコントローラ１６を介してＣＰＵ５に接続されている。

ＲＦＩＤ読取部５１は、レストランで給仕する皿や小売店において販売している商品などに付けられている無線タグであるＲＦＩＤタグを読み取るものである。

位置検出部５２は、一般にはＧＰＳ（Global Positioning System）と呼ばれているものであって、地球上の現在位置を検出するものである。

また、図２０は、音声翻訳装置５０の概略構成を示す機能ブロック図である。図２０に示すように、音声翻訳装置５０は、音声翻訳処理プログラムに従うことにより、音声認識部１０１と、第一翻訳部１０２と、音声合成部１０３と、キーワード抽出部１０４と、文書検索部１０５と、第二翻訳部１０６と、表示制御部１０７と、入力制御部１０８と、話題変更検出部１０９と、検索対象選択部１１０と、制御部１１１とに加えて、ＲＦＩＤ読取制御部１１２と、位置検出制御部１１３とを備えている。

ＲＦＩＤ読取制御部１１２は、ＲＦＩＤ読取部５１で読み取られたＲＦＩＤタグに格納されている情報を、制御部１１１に出力する。

位置検出制御部１１３は、位置検出部５２で検出された位置情報を、制御部１１１に出力する。

また、音声翻訳装置５０においては、第１の実施の形態の音声翻訳装置１とは、キーワード抽出処理が異なるので、その処理について説明する。図２１は、日本語文を対象としたキーワード抽出処理の流れを示すフローチャートである。なお、ここでは日本語文を対象としたキーワード抽出処理について説明するが、英語文などを対象とすることもできることは言うまでもない。図２１に示すように、キーワード抽出部１０４は、まず、入力文字列に対して日本語形態素解析を行う（ステップＳ１２１）。これによって、入力文字列を構成する各単語の品詞を取り出す。次に、取り出された単語の中に、「これ」または「この」、すなわち発話者の近くにあるものを示す指示語（近接指示語）を含むか否かを判定する（ステップＳ１２２）。

「これ」または「この」を含むと判定した場合（ステップＳ１２２のＹｅｓ）、ＲＦＩＤ読取制御部１１２はＲＦＩＤ読取部５１を制御してＲＦＩＤタグを読み取り（ステップＳ１２３）、ＲＦＩＤ対応テーブルを参照して読み込んだＲＦＩＤタグに格納されている情報に対応する商品名が見つかれば、その商品名を出力するキーワードとして追加する（ステップＳ１２４）。例えば、ＲＦＩＤ対応テーブルは、図２２に示すように、ＲＦＩＤタグに格納されている情報（ここでは、商品ＩＤ）と商品名とを対応付けて記憶している。

その後、キーワード抽出部１０４は、品詞テーブル（図１２参照）に登録されている単語をキーワードとして取り出す（ステップＳ１２５）。

一方、「これ」または「この」を含まないと判定した場合（ステップＳ１２２のＮｏ）、ＲＦＩＤタグの情報を読み取ることはせずにステップＳ１２５を実行し、キーワード抽出を行う。

続くステップＳ１２６〜Ｓ１３０までの処理は、ステップＳ１２５で取り出された全てのキーワードについて処理を行う繰り返しプロセスである。具体的には、キーワードが固有名詞かどうかを判定し（ステップＳ１２６）、固有名詞でなければ（ステップＳ１２６のＮｏ）、意味カテゴリテーブルを参照し、キーワードに意味カテゴリを付与する（ステップＳ１２７）。例えば、意味カテゴリテーブルは、図２３に示すように、単語とその単語の意味やカテゴリを表す意味カテゴリとを対応付けて記憶している。

ここで、意味カテゴリが「場所」であった場合、すなわち場所を示す普通名詞であった場合には（ステップＳ１２８のＹｅｓ）、位置検出制御部１１３は位置検出部５２を制御して、緯度、経度を取得し（ステップＳ１２９）、位置地名対応テーブルを参照して最も位置の近い地名を求める（ステップＳ１３０）。例えば、位置地名対応テーブルは、図２４に示すように、地名とその緯度及び経度とを対応付けて記憶している。

このキーワード抽出処理によって、「この料理はどんな材料を使っていますか？」というように「この」という近接指示語が用いられている発話に対して、レストランで給仕する皿などにＲＦＩＤタグを付けておいたり、小売店において販売している商品にＲＦＩＤタグをつけておいたりすることで、その料理や商品についての対話が行われた時に、関連する文書の検索がＲＦＩＤタグに格納されている情報に基づくキーワードを用いて、より望ましい文書検索を行えるようになる。また、「近くの地下鉄の駅はどこですか？」というように、場所に関する対話ではあるが、「地下鉄」「駅」というキーワードだけでは望ましい文書は検索できないが、利用者がいる位置検出を行い、その位置の近傍の地名を利用することで、より望ましい文書が検索できるようになる。

以上のように、本発明にかかる音声翻訳装置は、異なる言語を母語とする人同士の対話において、適切な関連文書がそれぞれの母語で提示され、音声による対話とともに補助情報として利用できるので、意思疎通を円滑に行う上で好適である。

本発明の第１の実施の形態にかかる音声翻訳装置の構成を示す概略的に示す外観斜視図である。音声翻訳装置のハードウェア構成を示すブロック図である。音声翻訳装置の概略構成を示す機能ブロック図である。表示例を示す正面図である。表示例を示す正面図である。翻訳切替ボタンの押下時の処理の流れを示すフローチャートである。 Speak-inボタンの押下時の処理の流れを示すフローチャートである。音声入力起動イベントに対する処理の流れを示すフローチャートである。音声認識結果出力イベントに対する処理の流れを示すフローチャートである。英語文を対象としたキーワード抽出処理の流れを示すフローチャートである。日本語文を対象としたキーワード抽出処理の流れを示すフローチャートである。品詞テーブルの一例を示す模式図である。話題変更抽出処理の流れを示すフローチャートである。 Speak-outボタンの押下時の処理の流れを示すフローチャートである。ポインティングイベントに対する処理の流れを示すフローチャートである。ポインティングイベントに対する処理の流れを示すフローチャートである。検索切替ボタンの押下時の処理の流れを示すフローチャートである。表示例を示す正面図である。本発明の第２の実施の形態にかかる音声翻訳装置のハードウェア構成を示すブロック図である。音声翻訳装置の概略構成を示す機能ブロック図である。日本語文を対象としたキーワード抽出処理の流れを示すフローチャートである。ＲＦＩＤ対応テーブルの一例を示す模式図である。意味カテゴリテーブルの一例を示す模式図である。位置地名対応テーブルの一例を示す模式図である。

符号の説明

１，５０音声翻訳装置
５１無線タグ読取部
５２位置検出部
１０１音声認識手段
１０２第一翻訳手段
１０４キーワード抽出手段
１０５文書検索手段
１０６第二翻訳手段
１０７文字列表示手段、検索文書表示手段
１０８入力制御手段
１０９話題変更検出手段
１１０検索選択手段
２０３翻訳方向指定手段

Claims

二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、
前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、
前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、
前記翻訳言語の文字列を表示部に表示する文字列表示手段と、
前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、
前記キーワードを用いて文書検索を行う文書検索手段と、
前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、
前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、
を備えることを特徴とする音声翻訳装置。
前記翻訳対象言語の文字列と前記翻訳言語の文字列との何れを、前記文書検索手段における文書検索の対象とするかを選択する検索選択手段を更に備え、
前記キーワード抽出手段は、前記検索選択手段で文書検索対象とされた前記翻訳対象言語の文字列または前記翻訳言語の文字列からキーワードを抽出する、
ことを特徴とする請求項１記載の音声翻訳装置。
前記キーワード抽出手段は、文字列を構成する各単語のうち所定の品詞の単語を前記キーワードとして抽出する、
ことを特徴とする請求項１または２記載の音声翻訳装置。
前記検索文書表示手段は、前記文書検索手段で得られた文書中に、前記第二翻訳手段で翻訳された文書を埋め込んで表示する、
ことを特徴とする請求項１ないし３のいずれか一記載の音声翻訳装置。
前記表示部に表示されている前記文書検索手段で得られた文書上または前記第二翻訳手段で得られた文書上のいずれかの位置に対する入力を受け付ける入力制御手段を更に備え、
前記検索文書表示手段は、前記入力制御手段で入力を受け付けた位置に対応する前記文書検索手段で得られた文書および前記第二翻訳手段で得られた文書の両方に、強調画像を表示する、
ことを特徴とする請求項１記載の音声翻訳装置。
前記表示部に表示されている前記文書検索手段で得られた文書上または前記第二翻訳手段で得られた文書上のいずれかの位置に対する入力を受け付ける入力制御手段を更に備え、
前記検索文書表示手段は、前記入力制御手段で入力を受け付けた位置にリンクが埋め込まれている場合には、リンク先の文書を表示する、
ことを特徴とする請求項１記載の音声翻訳装置。
対話の話題が変更されたことを検出する話題変更検出手段を更に備え、
前記話題変更検出手段により話題が変更されたことを検出した場合にのみ、前記文書検索手段により、前記キーワード抽出手段で得られたキーワードを含む文書の検索を実行する、
ことを特徴とする請求項１ないし６のいずれか一記載の音声翻訳装置。
前記話題変更検出手段は、前記キーワード抽出手段で得られたキーワードが表示されていないと判断した場合に、話題が変更されたものと判断する、
ことを特徴とする請求項７記載の音声翻訳装置。
前記話題変更検出手段は、前記強調画像が初期化された状態を話題が変更されたものとする、
ことを特徴とする請求項７記載の音声翻訳装置。
現在位置を検出する位置検出部を更に備え、
前記キーワード抽出手段は、得られたキーワードが場所を示す普通名詞である場合には、前記位置検出部から現在位置を取得し、取得した現在位置の地名をキーワードとして抽出する、
ことを特徴とする請求項１ないし９のいずれか一記載の音声翻訳装置。
無線タグを読み取る無線タグ読取部を更に備え、
前記キーワード抽出手段は、得られたキーワードが発話者の近くにあるものを示す指示語である場合には、前記無線タグ読取部から前記無線タグに格納されている情報を取得し、取得した情報に対応する名詞をキーワードとして抽出する、
ことを特徴とする請求項１ないし９のいずれか一記載の音声翻訳装置。
コンピュータを、
二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、
前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、
前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、
前記翻訳言語の文字列を表示部に表示する文字列表示手段と、
前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、
前記キーワードを用いて文書検索を行う文書検索手段と、
前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、
前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、
として機能させることを特徴とするプログラム。