JP2009205579A - 音声翻訳装置およびプログラム - Google Patents

音声翻訳装置およびプログラム Download PDF

Info

Publication number
JP2009205579A
JP2009205579A JP2008049211A JP2008049211A JP2009205579A JP 2009205579 A JP2009205579 A JP 2009205579A JP 2008049211 A JP2008049211 A JP 2008049211A JP 2008049211 A JP2008049211 A JP 2008049211A JP 2009205579 A JP2009205579 A JP 2009205579A
Authority
JP
Japan
Prior art keywords
translation
document
language
speech
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008049211A
Other languages
English (en)
Inventor
Kazuo Sumita
一男 住田
Tetsuro Chino
哲朗 知野
Satoshi Kamaya
聡史 釜谷
Akitsugu Ueno
晃嗣 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008049211A priority Critical patent/JP2009205579A/ja
Priority to US12/388,380 priority patent/US20090222257A1/en
Priority to CN200910126615A priority patent/CN101520780A/zh
Publication of JP2009205579A publication Critical patent/JP2009205579A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】円滑なコミュニケーションを実現することができる音声翻訳装置およびプログラムを提供する。
【解決手段】音声認識により得られた翻訳対象言語の文字列を表示部3のエリア205に表示し、翻訳言語の文字列をエリア206に表示する。また、翻訳対象言語の文字列または翻訳言語の文字列から文書検索のためのキーワードを抽出し、検索されたキーワード用いて検索された文書の言語が翻訳対象言語の場合、翻訳言語に翻訳し、検索された文書の言語が翻訳言語の場合、翻訳対象言語に翻訳し、検索された文書をエリア207に表示するとともに当該文書を翻訳した文書をエリア208に表示する。これにより、提示された文書によって情報の共有を支援することができる。また、翻訳切替ボタン203の押下により二つの言語の翻訳対象言語/翻訳言語の指定を変更することにより、双方向の対話を支援することができるようになる。
【選択図】 図4

Description

本発明は、異なる言語を母語とする人同士が音声によりコミュニケーションを行うことを支援する音声翻訳装置およびプログラムに関する。
近年、異なる言語を母語(人間が幼少期から自然に習得する言語:第一言語)とする人同士のコミュニケーションを支援する音声翻訳装置の実用化に対する期待が高まっている。このような音声翻訳装置は、基本的には、
・音声を認識する手段
・音声認識の結果として得られた文字列を翻訳する手段
・翻訳の結果として得られた文字列を音声で合成する手段
を用い、音声認識処理、翻訳処理、音声合成処理を順次実行する。
利用者が発話した音声を認識して文字情報を出力する音声認識システムは、すでにパッケージソフトなどの形態で実用化されている。また、書き言葉(テキスト)を入力とした機械翻訳システムについても、同様にパッケージソフトなどの形態で実用化されている。音声合成システムについても、すでに実用に供せられており、これらソフトウェアを適宜利用することで、音声翻訳装置を実現することは可能である。
ところで、同じ母語の人同士の対面的なコミュニケーションを想定した場合、音声だけはなく互いに見ることのできる物や文書、図面などを用いて意思疎通を行うことがある。具体的には、一方の対話者が地図を参照しながら道を聞いた場合、他方の対話者は地図上に表示されている建物や道路などを指示しながら道を教えるといったことがある。
しかしながら、異なる母語の人同士の対面的なコミュニケーションを考えた場合、1つの地図に基づいて情報共有することには、困難が伴う。なぜなら、地図上に記述されている地名は単一の言語で記載されている場合が多く、その言語を理解できない側の対話者には、その地図の内容理解が困難なものとなる。したがって、異なる母語の対話者が共に理解できるように、地図上の記載されている一方の言語の地名をもう一方の言語に翻訳し提示できるようにすることが好ましい。
そこで、特許文献1に開示されている会話支援装置によれば、一方の利用者の音声入力に対して、音声認識結果を翻訳するとともに、音声認識結果に対応する回答のための図を相手側に提示するようにしている。これにより、相手側は、会話支援装置に提示された図を使って回答することができるようになっている。
特開2005−222316号公報
しかしながら、特許文献1に開示されている会話支援装置によれば、一方向の対話しか支援できないという課題がある。
また、音声によるコミュニケーションを行っている際に、関連のある文書や図面を探し出したり、あるいは探し出した文書や図面の翻訳を行うことを装置に指示したり、といった複数の操作が必要となるのは好ましくなく、音声によるコミュニケーションを妨げずに対話内容に関連のある文書や図面が適切かつ自動的に検索され、異なる母語の対話者に対して検索された文書や図面の翻訳結果を提示し、提示された文書や図面によって情報の共有を支援することが望ましい。
本発明は、上記に鑑みてなされたものであって、円滑なコミュニケーションを実現することができる音声翻訳装置およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の音声翻訳装置は、二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、前記翻訳言語の文字列を表示部に表示する文字列表示手段と、前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、前記キーワードを用いて文書検索を行う文書検索手段と、前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、を備えることを特徴とする。
また、本発明のプログラムは、コンピュータを、二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、前記翻訳言語の文字列を表示部に表示する文字列表示手段と、前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、前記キーワードを用いて文書検索を行う文書検索手段と、前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、として機能させることを特徴とする。
本発明によれば、音声認識により得られた翻訳対象言語の文字列を翻訳言語の文字列に翻訳し、翻訳言語の文字列を表示部に表示する。また、翻訳対象言語の文字列または翻訳言語の文字列から文書検索のためのキーワードを抽出し、検索されたキーワード用いて検索された文書の言語が翻訳対象言語の場合、翻訳言語に翻訳し、検索された文書の言語が翻訳言語の場合、翻訳対象言語に翻訳し、検索された文書と当該文書を翻訳した文書とを、表示部に表示する。これにより、異なる母語の利用者同士の音声によるコミュニケーションにおいて、対話内容に関連する文書を適切に検索するとともにその翻訳結果を表示することにより、提示された文書によって情報の共有を支援することができるとともに、二つの言語の翻訳対象言語/翻訳言語の指定を変更することにより、双方向の対話を支援することができるようになるので、円滑なコミュニケーションを実現することができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかる音声翻訳装置およびプログラムの最良な実施の形態を詳細に説明する。本実施の形態においては、英語と日本語との間の音声翻訳を想定した音声翻訳装置について説明する。つまり、第一の言語を英語(英語の音声が入力されるということ)、第二の言語を日本語(翻訳結果として日本語が出力されるということ)あるいは、第一の言語を日本語(日本語の音声が入力されるということ)、第二の言語を英語(翻訳結果として英語が出力されるということ)になる。なお、本発明の内容は言語の種類によらないものであり、日本語と中国語との間の音声翻訳や英語とフランス語との間の音声翻訳など任意の言語間で実施できることは言うまでもない。
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図18に基づいて説明する。図1は、本発明の第1の実施の形態にかかる音声翻訳装置1の構成を示す概略的に示す外観斜視図である。図1に示すように、音声翻訳装置1は、薄型扁平形状の筐体である本体ケース2を有している。このように本体ケース2が薄型扁平形状であることにより、音声翻訳装置1は携帯可能とされている。また、本体ケース2を携帯可能な薄型扁平形状に形成したことにより、音声翻訳装置1は、設置場所を選ばず、使い勝手が良くなっている。
本体ケース2には、所定の情報をカラー画像で表示可能なLCD(Liquid Crystal Display:液晶ディスプレイ)や有機ELディスプレイなどで構成された表示部3が表示面を外部に露出させて内蔵されている。また、この表示部3の表示面上には、例えば抵抗膜式のタッチパネル4が積層されており、表示部3に表示されるキー等とタッチパネル4の座標との位置関係の同期をとることによって、表示部3及びタッチパネル4によりキーボードのキーと同様の機能が発揮されることになる。つまり、表示装置3及びタッチパネル4によって情報入力部が構成されている。これにより、装置の小型化が図られている。また、図1に示すように、音声翻訳装置1の本体ケース2の側面部には、第一の利用者が発話する第一の言語を取り込み音声信号に置き換える内蔵マイク13やスピーカ14が設けられている。また、音声翻訳装置1の本体ケース2の側面部には、半導体メモリである記憶媒体9(図2参照)を挿入するスロット17が設けられている。
このような音声翻訳装置1のハードウェア構成について図2を参照して説明する。図2に示すように、音声翻訳装置1は、情報処理を行うCPU(Central Processing Unit)5、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)6、各種データを書換え可能に記憶するRAM(Random Access Memory)7、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)8、スロット17から挿入された記憶媒体9を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するための媒体駆動装置10、インターネットなどのネットワーク11を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置12、表示部3、操作者がCPU5に命令や情報等を入力するためのタッチパネル4、音声入出力用CODEC15等から構成されており、これらの各部間で送受信されるデータをバスコントローラ16が調停して動作する。音声入出力用CODEC15は、内蔵マイク13から入力された音声アナログデータを音声デジタルデータに変換してCPU5に出力するとともに、CPU5からの音声デジタルデータを音声アナログデータに変換してスピーカ14に出力する。
このような音声翻訳装置1では、ユーザが電源を投入するとCPU5がROM6内のローダーというプログラムを起動させ、HDD8よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM7に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、音声翻訳装置1は、アプリケーションプログラムとして、音声翻訳処理プログラムをHDD8に記憶している。この意味で、HDD8は、音声翻訳処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、音声翻訳装置1のHDD8にインストールされるアプリケーションプログラムは、記憶媒体9に記録され、この記憶媒体9に記録された動作プログラムがHDD8にインストールされる。このため、記憶媒体9も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置12を介して外部のネットワーク11から取り込まれ、HDD8にインストールされても良い。
音声翻訳装置1は、OS上で動作する音声翻訳処理プログラムが起動すると、この音声翻訳処理プログラムに従い、CPU5が各種の演算処理を実行して各部を集中的に制御する。なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
音声翻訳装置1のCPU5が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。図3は、音声翻訳装置1の概略構成を示す機能ブロック図である。図3に示すように、音声翻訳装置1は、音声翻訳処理プログラムに従うことにより、音声認識手段として機能する音声認識部101と、第一翻訳手段として機能する第一翻訳部102と、音声合成部103と、キーワード抽出手段として機能するキーワード抽出部104と、文書検索手段として機能する文書検索部105と、第二翻訳手段として機能する第二翻訳部106と、文字列表示手段および検索文書表示手段として機能する表示制御部107と、入力制御手段として機能する入力制御部108と、話題変更検出手段として機能する話題変更検出部109と、検索選択手段として機能する検索対象選択部110と、制御部111と、を備えている。
音声認識部101は、内蔵マイク13および音声入出力用CODEC15を介して入力された音声信号を入力として、音声と対応する文字や単語列の認識結果を生成する。
音声翻訳における音声認識では、大語彙連続音声認識と呼ばれる技術が必要となる。大規模連続語彙音声認識では、未知の音声入力Xを単語系列Wに解読する問題を確率過程として、p(W|X)を最大化するWを探索するという探索問題として定式化することが一般に行われている。この定式化では、ベイズの定理に基づいて、p(W|X)の最大にするWの探索問題を、p(X|W)p(W)を最大にするWの探索問題として再定義する方式である。この確率的音声認識による定式化では、p(X|W)は音響モデル、p(W)は言語モデルと呼んでおり、p(X|W)は、単語系列Wに対してどのような音響信号が対応するかをモデル化した確率である。また、p(W)は単語系列Wの出現のしやすさを表す確率であって、ユニグラム(ある単語が生起する確率)、バイグラム(ある二単語が連続して生起する確率)、トライグラム(ある三単語が連続して生起する確率)、一般にはNグラム(あるN個の単語が連続して生起する確率)が用いられる。上記に示した方式に基づいて、大規模連続語彙音声認識は、ディクテーションソフトとして市販されているものがある。
第一翻訳部102は、音声認識部101が出力する認識結果を入力として、第二の言語への翻訳処理を行う。なお、第一翻訳部102は、利用者が発話した音声を認識した結果の発話文を対象とした機械翻訳となるため、口語文の処理に強い機械翻訳であることが望ましい。
機械翻訳は、原言語(例えば日本語)の文を目的言語(例えば英語)へ変換するものであるが、この変換方式によって、ルールベース機械翻訳、統計ベース機械翻訳、用例ベース機械翻訳に大別することができる。
ルールベース機械翻訳は、形態素解析手段や構文解析手段を有し、原言語文から文の構造を解析し、その構造に基づいて目的言語の構文構造への変換(トランスファー)を行う方式である。構文解析やトランスファーのための処理知識は、あらかじめルールの形式で登録しておき、翻訳装置はそのルールを解釈しながら翻訳処理を行う。パッケージソフト等で商品化されている機械翻訳ソフトウェアは、この方式に基づくシステムが大半である。このようなルールベース機械翻訳では、実用に値する精度のよい機械翻訳を実現するために膨大なルールを用意する必要があるが、このようなルールを人手で作成するには多大なコストがかかる。これを解決するため、統計ベース機械翻訳のアイデアが提唱され、それ以降、活発に研究開発が進められている。
統計ベース機械翻訳では、原言語文から目的言語への確率モデルとして定式化し、その確率を最大にする目的言語文を探索する処理として問題を定式化している。対訳文を大規模に準備し(対訳コーパスと呼ぶ)、このコーパスから翻訳を行う変換ルールとその確率値を求め、確率値の最も高い変換ルールを適用されるような翻訳結果を探索するものである。現在、統計ベース機械翻訳を用いた音声翻訳のプロトタイプシステムが構築されている。
用例ベース機械翻訳は、統計ベース機械翻訳と同様に原言語と目的言語との対訳コーパスを用いる。入力文と類似する原文を対訳コーパスから検索し、検索された原文と対応する目的言語文を翻訳結果とする方式である。ルールベース機械翻訳や統計ベース機械翻訳では、構文解析や訳語対の断片の統計的な組合せによって翻訳結果を生成するため、原言語のユーザにとっては良い翻訳結果が得られるかどうかがわからない。しかし、用例ベース機械翻訳では、対訳の情報はあらかじめ用意しておくものなので、ユーザが原文を選択することにより、正しい翻訳結果が得られることになる。しかしその一方で、すべての文を用例として準備しておくことはできないこと、用例の数を増やせば増やすほど、入力文に対して検索される文が多数になるため、その中からユーザが適切な文を選択するという手間が発生すること、などの問題も存在する。
音声合成部103は、第一翻訳部102が出力する翻訳結果を音声信号に変換して、音声入出力用CODEC15に出力する。音声合成の技術は、すでに確立しておりそのソフトウェアも市販されている。音声合成部103の音声合成処理は、これらすでに実現されている技術を用いることができるので、その説明は省略する。
キーワード抽出部104は、音声認識部101が出力する音声認識結果あるいは第一翻訳部102が出力する翻訳結果から文書検索のためのキーワードを抽出する。
文書検索部105は、キーワード抽出部104が出力するキーワードを含む文書を、格納部であるHDD8やネットワーク11上のコンピュータなどに予め格納されている文書群から検索する文書検索を行う。文書検索部105で検索対象となる文書は、HTMLやXMLのようなタグのないフラットな文書である場合と、HTMLやXMLで記述された文書であった場合とがある。これらの文書は、例えば、HDD8やネットワーク11上のコンピュータなどに格納されている文書データベースやWeb上に格納されている。
第二翻訳部106は、文書検索部105で得られた複数の文書の内、検索結果の上位の少なくとも一つの文書の翻訳を行う。第二翻訳部106は、文書を対象とした機械翻訳であり、翻訳の対象となる文書の言語(詳細は後述するが、検索対象選択部110によって検索対象設定がなされるので、検索対象となっている言語に対応する)に対応して、日本語から英語への翻訳あるいは、英語から日本語への翻訳のいずれかが行われることになる。
文書検索部105で検索対象となっている文書が、HTMLやXMLのようなタグのないフラットな文書である場合は、翻訳対象となっている文書の各文を順次、翻訳し、元の文と置き換えて、翻訳文書を生成することになる。一文ごとに順次翻訳するので、元文書と翻訳文書との対応関係は明らかであるといえる。また、元の文の各単語が翻訳文中のどの単語に訳されたかということも、機械翻訳の処理過程から取り出せるので、元文書と翻訳文書間での単語単位での対応付けも行うことができる。
一方、HTMLやXMLで記述された文書であった場合、文書中のタグ以外の地の文のみを対象にして機械翻訳を行い、その結果として得られる翻訳結果を元の地の文の対応する部分と置き換えて、翻訳文書を生成することになる。したがって、元のどの地の文がどの翻訳結果と置き換えられたかは明らかであるといえる。また、元の文の各単語が翻訳文中のどの単語に訳されたかということも、機械翻訳の処理過程から取り出せるので、元文書と翻訳文書間での単語単位での対応付けも行うことができる。
表示制御部107は、音声認識部101が出力する認識結果、第一翻訳部102が出力する翻訳結果、第二翻訳部106で得られた翻訳文書およびその翻訳対象となった元文書を、表示部3に表示させる。
入力制御部108は、表示部3に表示された翻訳文書ならびにその翻訳対象となった元文書上の任意の箇所を指示させ、描画あるいはハイライト表示を行うための情報などを入力するタッチパネル4を制御する。
話題変更検出部109は、音声認識部101が出力する音声認識結果、あるいは表示部3の表示内容に基づいて対話の話題が変更されたことを検出する。
検索対象選択部110は、キーワード抽出部104の抽出の対象を設定する。より詳細には、キーワード抽出部104の抽出の対象を、音声認識部101が出力する音声認識結果にするか、第一翻訳部102が出力する翻訳結果にするかを設定する。
制御部111は、上述した各部の処理手順をコントロールする。
ここで、理解を容易にするために、表示制御部107による表示部3への表示例を、図4および図5を参照して説明する。図4ならびに図5は、異なる時点での表示部3における表示例を表している。
なお、図4および図5において、Speak-inボタン201は、内蔵マイク13および音声入出力用CODEC15を介した音声入力処理の開始/終了を指示するボタンであり、Speak-inボタン201を押すと音声取り込みが始まり、再度、Speak-inボタン201を押すと音声取り込みを終える機能を持つ。
表示エリアA205は、音声認識部101が出力する音声認識結果を表示する表示エリアであり、表示エリアB206は、第一翻訳部102が出力する翻訳結果を表示する表示エリアである。表示エリアC207は、文書検索部105が出力する一つの文書を表示する表示エリアであり、表示エリアD208は、表示エリアC207に表示されている文書に対して、第二翻訳部106によって機械翻訳された結果が表示される表示エリアである。
また、Speak-outボタン202は、表示エリアB206に表示されている翻訳結果を、音声合成部103で音声信号に変換して、音声入出力用CODEC15への出力を指示する機能を持つボタンである。
翻訳切替ボタン203は、翻訳方向指定手段として機能するものであり、第一翻訳部102についての翻訳方向を切り替える(英語から日本語への翻訳なのか、日本語か英語への翻訳なのかを切り替える)機能を持つボタンである。また、翻訳切替ボタン203は、音声認識部101の認識言語を切り替える機能も持つボタンである。
検索切替ボタン204は、検索対象選択部110を起動し、日本語文を対象にしてキーワード抽出を行うのか、英語を対象にしてキーワード抽出を行うのかを切り替える機能を持つ。これは、例えば日本において音声翻訳装置1を用いるならば、キーワード抽出は日本文を対象として実施し、日本語の文書を検索したほうが、より充実した情報を検索できる可能性が高く、逆に米国において使用することを仮定すれば、キーワード抽出は英文を対象として実施し、英文の文書を検索した方が、より充実した情報が検索できるという想定に基づいている。利用者は、検索切替ボタン204によって、検索対象の言語を選択することができるようになっている。
なお、検索対象選択部110に対する設定を実行するものとして、本実施の形態においては検索切替ボタン204を挙げたが、これに限るものではない。例えば、検索切替ボタン204以外の変形例としては、GPS(Global Positioning System:全地球測位システム)を挙げられる。すなわち、GPSにより地球上の現在位置を取得し、現在位置が日本であると判定した場合に、日本語文を対象にしてキーワード抽出を行うように切り換えればよい。
図4に示す表示例は、第一の利用者が発話する言語が英語である場合の動作イメージを示しており、第一の利用者がSpeak-inボタン201を押下して“Where should I go for sightseeing in Tokyo ?”を発話した後、Speak-inボタン201を再度押下した直後における音声翻訳装置1の動作結果を示している。つまり、表示エリアA205には、音声認識部101が出力する音声認識結果“Where should I go for sightseeing in Tokyo ?”が表示され、表示エリアB206には、表示エリアA205に表示されている音声認識結果に対する第一翻訳部102が出力する翻訳結果“東京では観光はどこに行けばいいですか?”が表示されている。この場合、翻訳切替ボタン203によって、翻訳方向が「英語から日本語への翻訳」に切り替えられている。さらに、表示エリアC207には、音声認識部101が出力する音声認識結果あるいは第一翻訳部102が出力する翻訳結果からキーワード抽出部104によって抽出された文書検索のためのキーワードに基づく文書検索部105による文書検索結果の文書が表示され、表示エリアD208には、表示エリアC207に表示されている文書に対する第二翻訳部106が出力する翻訳結果が表示されている。この場合、検索切替ボタン204によって、検索対象の言語が「日本語」に切り替えられている。
図5に示す表示例は、図4の表示状態で表示エリアC207に表示された検索文書に対して、第二の利用者がペン210によって指示してポイント211を描画した様子を示している。本実施の形態の音声翻訳装置1においては、図5に示すように、表示エリアC207に表示された検索文書に対してペン210によって指示して強調画像であるポイント211を描画した場合、対応する表示エリアD208に表示された翻訳結果にも同様の強調画像であるポイント212が描画される。
加えて、図5に示す表示例は、第二の利用者が発話する言語が日本語である場合の動作イメージを示しており、第二の利用者が翻訳切替ボタン203を押下して翻訳方向を「日本語から英語への翻訳」に切り替え、Speak-inボタン201を押下して“浅草の浅草寺をお勧めします。”を発話した後、Speak-inボタン201を再度押下した直後における音声翻訳装置1の動作結果を示している。つまり、表示エリアA205には、音声認識部101が出力する音声認識結果“浅草の浅草寺をお勧めします。”が表示され、表示エリアB206には、表示エリアA205に表示されている音声認識結果に対する第一翻訳部102が出力する翻訳結果“I recommend Sensoji temple in Asakusa.”が表示されている。
次に、上述したような制御部111による各種処理の流れについてフローチャートを参照しつつ説明する。
まず、翻訳切替ボタン203の押下時の処理について図6のフローチャートを参照して説明する。図6に示すように、翻訳切替ボタン203が押下された場合、翻訳切替ボタン押下イベントが発行され、本プロセスが実行される。具体的には、図6に示すように、音声認識部101で認識する言語が英語であるか、日本語であるかを切り替えるとともに、第一翻訳部102の翻訳方向を切り替える(ステップS1)。例えば、ステップS1が実行された時点で、音声認識部101の認識言語が英語であり、第一翻訳部102のモードが「英語から日本語への翻訳」モードであれば、日本語の音声が入力され日本語から英語に翻訳するというモードに切り替える。また逆に、第一翻訳部102のモードが「日本語から英語への翻訳」モードであれば、英語の音声が入力され英語から日本語に翻訳するモードに切り替えるということを意味している。また、キーワード抽出部104や第二翻訳部106についての初期設定も、入力とする言語が英語とするか日本語とするかを、このステップS1によって切り替える。
次に、Speak-inボタン201の押下時の処理について図7のフローチャートを参照して説明する。図7に示すように、Speak-inボタン201が押下された場合、Speak-inボタン押下イベントが発行され、本プロセスが実行される。具体的には、図7に示すように、内蔵マイク13および音声入出力用CODEC15から音声信号を取り込んでいる状態にあるか否かをチェックし(ステップS11)、音声信号を取り込んでいる状態であれば発話が終了したものであるとして、音声入力停止イベントを発行する(ステップS12)。一方、音声信号を取り込んでいる状態でなければ、新規に発話するものとして、音声入力起動イベントを発行する(ステップS13)。
次に、音声入力起動イベントに対する処理について図8のフローチャートを参照して説明する。図8に示すように、音声入力起動イベント(図7のステップS13を参照)が発行され、本プロセスが実行される。具体的には、図8に示すように、RAM7に形成される音声入力バッファを初期化した後(ステップS21)、音声入力停止イベントを受付けるまで(ステップS23のYes)、内蔵マイク13から入力されるアナログ形式の音声信号を音声入出力用CODEC15でデジタル形式の音声信号に変換し、音声入力バッファに出力する(ステップS22)。音声入力が終わると(ステップS23のYes)、音声認識部101を実行し、音声入力バッファを入力として音声認識処理を行い(ステップS24)、ステップS24で得られた音声認識結果を表示エリアA205に表示し(ステップS25)、音声認識結果出力イベントを発行する(ステップS26)。
次に、音声認識結果出力イベントに対する処理について図9のフローチャートを参照して説明する。図9に示すように、音声認識結果出力イベント(図8のステップS26を参照)が発行され、本プロセスが実行される。具体的には、図9に示すように、表示エリアA205に表示された文字列を入力として第一翻訳部102を実行する(ステップS31)。表示エリアA205に表示されている文字列が英語であれば、英語から日本語への翻訳が、また、日本語であれば、日本語から英語への翻訳が行われる。次いで、ステップS31で得られた翻訳結果を表示エリアB206に表示し(ステップS32)、音声出力起動イベントを発行する(ステップS33)。続いて、ステップS34〜S36において、検索対象の言語が日本語であるか英語であるかによって、表示エリアA205に表示されている文字列あるいは表示エリアB206に表示されている文字列のいずれかを入力としてキーワード抽出部104を実行する。
ここで、図10は英語文を対象としたキーワード抽出部104の処理の流れを示すフローチャート、図11は日本語文を対照としたキーワード抽出部104の処理の流れを示すフローチャートである。図10および図11に示すように、キーワード抽出部104は、英語文または日本語文にかかわらず、入力文字列に対して形態素解析を行う。これによって、入力文字列を構成する各単語の品詞を取り出す。その後、品詞テーブルに登録されている単語をキーワードとして取り出す。すなわち、図10のステップS51と図11のステップS61に関して、英語形態素解析を行うか日本語形態素解析を行うかの違いである。形態素解析によって入力文を構成する各単語の品詞情報が得られるので、図10のステップS52と図11のステップS62のそれぞれにおいて、その品詞情報に基づき、品詞テーブルを参照しキーワードを抽出する。図12にキーワード抽出部104の処理で参照する品詞テーブルの一例を示す。キーワード抽出部104では、この品詞テーブルに登録されている品詞の単語をキーワードとして抽出する。例えば、図10に示すように、“Where should I go for sightseeing in Tokyo ?”を入力とした場合には、キーワードとして、「sightseeing」「Tokyo」が抽出される。また、図11に示すように、“浅草の浅草寺をお勧めします。”を入力とした場合には、キーワードとして、「浅草」「浅草寺」が抽出される。
続くステップS37においては、キーワード抽出部104で抽出したキーワードに基づいて、対話上での話題が変更されたかどうかを、話題変更検出部109で検出する。
図13は、話題変更検出部109の処理の流れを示すフローチャートである。図13に示すように、話題変更検出部109は、キーワード抽出部104で抽出したキーワードが表示エリアC207あるいは表示エリアD208に表示されていると判断した場合には(ステップS71のNo)、話題が変更していないと判断する(ステップS72)。一方、話題変更検出部109は、キーワード抽出部104で抽出した全てのキーワードが表示エリアC207あるいは表示エリアD208に表示されていないと判断した場合には(ステップS71のYes)、話題が変更したと判断する(ステップS73)。
なお、本実施の形態においては、キーワード抽出部104で抽出したキーワードによって話題変更を検出するものとしたが、キーワードによらずに話題変更を検出するようにして実施することも可能である。例えば、図4や図5には図示していないが、表示エリアC207ならびに表示エリアD208へのポイントに伴う描画を消すためのクリアボタンを設けておき、そのクリアボタンを押されたことを検知して、表示エリアC207ならびに表示エリアD208に対するポインティングによる描画を初期化するようにすることは容易である。そして、話題変更検出部109を、描画が初期化された状態を、話題が変更されたと判断し、描画が行われている状態を話題が変更されていないと判断するようにする。これによって、表示エリアC207あるいは表示エリアD208の任意の箇所をポイントし、描画した場合、それ以降クリアボタンが押されるまで、利用者が音声入力を行ったとしても文書検索は実行されず、表示エリアC207ならびに表示エリアD208上に表示されている文書と翻訳文書、さらには描画情報が保持されることになり、それら表示された情報に基づいた音声コミュニケーションが可能になる。
上述のようにして話題が変更されていないと話題変更検出部109が判断した場合は(ステップS37のNo)、表示エリアC207ならびに表示エリアD208の内容を変更せずに処理を終了する。
一方、話題が変更されていると判断した場合は(ステップS37のYes)、キーワード抽出部104の出力を入力として文書検索部105を実行し(ステップS38)、その結果得られる文書を表示エリアC207に表示するとともに(ステップS39)、表示エリアC207に表示した文書を第二翻訳部106によって翻訳し(ステップS40)、その翻訳結果を表示エリアD208に表示する(ステップS41)。
次に、Speak-outボタン202の押下時(または、音声出力起動イベントが発行された時)の処理について図14のフローチャートを参照して説明する。図14に示すように、Speak-outボタン202が押下された場合、Speak-outボタン押下イベントが発行され、本プロセスが実行される。具体的には、図14に示すように、表示エリアB206に表示されている文字列(音声認識部101の認識結果に対する翻訳結果)を入力として、音声合成部103を実行してデジタル形式の音声信号を生成する(ステップS81)。このようにして生成されたデジタル形式の音声信号は、音声入出力用CODEC15に出力される(ステップS82)。音声入出力用CODEC15は、デジタル形式の音声信号をアナログ形式に変換し、スピーカ14から音声として出力する。
次に、利用者がペン210によってタッチパネル4上を指示した際に実行する処理について図15のフローチャートを参照して説明する。図15に示すように、入力制御部108からポインティングイベントが発行され、本プロセスが実行される。具体的には、図15に示すように、利用者がペン210によってタッチパネル4上を指示した場合、タッチパネル4における表示エリアD208あるいは表示エリアC207の何れかの箇所がペン210によって指示されたか否かを判断し(ステップS91、ステップS92)、表示エリアD208あるいは表示エリアC207以外の箇所で指示された場合は(ステップS91のNo、ステップS92のNo)、何もせずに処理を終了する。
表示エリアD208中のある箇所がポイントされた場合は(ステップS91のYes)、表示エリアD208中でポイントされた箇所に描画するとともに(ステップS93)、表示エリアC207中の対応する箇所についても同様に描画する(ステップS94)。
一方、表示エリアC207中のある箇所がポイントされた場合は(ステップS92のYes)、表示エリアC207中でポイントされた箇所に描画するとともに(ステップS95)、表示エリアD208中の対応する箇所についても同様に描画する(ステップS96)。
以上の処理により、タッチパネル4における表示エリアD208あるいは表示エリアC207の何れかの箇所がペン210によって指示された場合には、表示エリアC207に表示された文書検索の結果得られた元文書と、表示エリアD208に表示されたその翻訳結果とには、それぞれ同様の強調画像であるポイント212(図5参照)が描画される。
なお、表示エリアC207と表示エリアD208との間で対応する箇所に強調画像を描画するためには、それぞれの表示エリアでの各位置の対応を取る必要がある。元文書と翻訳文書間における単語単位での対応は、第二翻訳部106の処理過程で取ることができるので、この単語の対応情報を用いればよい。つまり、一方の表示エリア側で、単語あるいは文の周りをポイントし、強調画像を描画させた場合、もう一方の表示エリア側での対応する単語あるいは文はわかるので、その周りに強調画像を描画すればよい。また、表示エリアC207ならびに表示エリアD208に表示される文書がWeb文書である場合、それぞれ地の文は元の文と翻訳文という違いがあるが、Web文書中に含まれているタグや画像等は、出現順序を含めて同じである。したがって、元文書中の任意の画像と翻訳文書中の画像とは、その画像までに存在するタグの数、種類、順序、ならびに画像のファイル名によって一意に対応付けることが可能である。この対応関係を用いて、一方の表示エリア側で画像の周辺をポイント、描画された場合について、もう一方の表示エリア側で対応する画像の周辺に描画できる。
ところで、検索対象となる文書がWeb文書である場合、検索される文書はHTMLで表現されたハイパーテキストとなる。HTML文書では、文書中には他文書へのリンク情報が埋め込まれており、利用者は順次このリンクをたどり対応付けられた文書を表示するために用いられる。ここで、図16はHTML文書を対象とした場合における処理の流れを示すフローチャートである。図16に示すように、利用者がペン210によってタッチパネル4上を指示した場合、ポイントされた箇所がリンク(ハイパーテキスト)である場合には(ステップS101のYes)、リンク先の文書を表示エリアC207に表示するとともに、第二翻訳部106を実行し、その翻訳結果を表示エリアD208に表示する(ステップS102)。
最後に、検索切替ボタン204の押下時の処理について図17のフローチャートを参照して説明する。図17に示すように、検索切替ボタン204が押下された場合、検索切替ボタン押下イベントが発行され、本プロセスが実行される。具体的には、図17に示すように、検索対象選択部110を実行して、キーワード抽出部104の抽出の対象を設定する(ステップS111)。より詳細には、キーワード抽出部104の抽出の対象を、音声認識部101が出力する音声認識結果にするか、第一翻訳部102が出力する翻訳結果にするかを設定する。
このように本実施の形態によれば、音声認識により得られた翻訳対象言語の文字列を翻訳言語の文字列に翻訳し、翻訳言語の文字列を表示部に表示する。また、翻訳対象言語の文字列または翻訳言語の文字列から文書検索のためのキーワードを抽出し、検索されたキーワード用いて検索された文書の言語が翻訳対象言語の場合、翻訳言語に翻訳し、検索された文書の言語が翻訳言語の場合、翻訳対象言語に翻訳し、検索された文書と当該文書を翻訳した文書とを、表示部に表示する。これにより、異なる母語の利用者同士の音声によるコミュニケーションにおいて、対話内容に関連する文書を適切に検索するとともにその翻訳結果を表示することにより、提示された文書によって情報の共有を支援することができるとともに、二つの言語の翻訳対象言語/翻訳言語の指定を変更することにより、双方向の対話を支援することができるようになるので、円滑なコミュニケーションを実現することができる、という効果を奏する。
なお、本実施の形態においては、文書検索部105で検索した文書を表示エリアC207に、その翻訳文書を表示エリアD208にと分けて表示するようにしたが、これに限るものではない。例えば、図18の動作イメージの表示エリア301に示すように、翻訳情報を元文書中の文や単語と対応付け、文書中に埋め込む形式で表示するようにして実施すること可能である。
[第2の実施の形態]
次に、本発明の第2の実施の形態を図19ないし図24に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態は、「この料理はどんな材料を使っていますか?」というように、その場に存在する物に関する対話の場合、あるいは、「近くの地下鉄の駅はどこですか?」というように、場所に関する対話ではあるが、その場所が文から抽出されるキーワードのみでは特定できない場合に対処することを可能にするものである。
図19は、本発明の第2の実施の形態にかかる音声翻訳装置50のハードウェア構成を示すブロック図である。図19に示すように、音声翻訳装置50は、第1の実施の形態で説明した音声翻訳装置1の構成に加えて、無線タグ読取部であるRFID読取部51と、位置検出部52とを備えており、バスコントローラ16を介してCPU5に接続されている。
RFID読取部51は、レストランで給仕する皿や小売店において販売している商品などに付けられている無線タグであるRFIDタグを読み取るものである。
位置検出部52は、一般にはGPS(Global Positioning System)と呼ばれているものであって、地球上の現在位置を検出するものである。
また、図20は、音声翻訳装置50の概略構成を示す機能ブロック図である。図20に示すように、音声翻訳装置50は、音声翻訳処理プログラムに従うことにより、音声認識部101と、第一翻訳部102と、音声合成部103と、キーワード抽出部104と、文書検索部105と、第二翻訳部106と、表示制御部107と、入力制御部108と、話題変更検出部109と、検索対象選択部110と、制御部111とに加えて、RFID読取制御部112と、位置検出制御部113とを備えている。
RFID読取制御部112は、RFID読取部51で読み取られたRFIDタグに格納されている情報を、制御部111に出力する。
位置検出制御部113は、位置検出部52で検出された位置情報を、制御部111に出力する。
また、音声翻訳装置50においては、第1の実施の形態の音声翻訳装置1とは、キーワード抽出処理が異なるので、その処理について説明する。図21は、日本語文を対象としたキーワード抽出処理の流れを示すフローチャートである。なお、ここでは日本語文を対象としたキーワード抽出処理について説明するが、英語文などを対象とすることもできることは言うまでもない。図21に示すように、キーワード抽出部104は、まず、入力文字列に対して日本語形態素解析を行う(ステップS121)。これによって、入力文字列を構成する各単語の品詞を取り出す。次に、取り出された単語の中に、「これ」または「この」、すなわち発話者の近くにあるものを示す指示語(近接指示語)を含むか否かを判定する(ステップS122)。
「これ」または「この」を含むと判定した場合(ステップS122のYes)、RFID読取制御部112はRFID読取部51を制御してRFIDタグを読み取り(ステップS123)、RFID対応テーブルを参照して読み込んだRFIDタグに格納されている情報に対応する商品名が見つかれば、その商品名を出力するキーワードとして追加する(ステップS124)。例えば、RFID対応テーブルは、図22に示すように、RFIDタグに格納されている情報(ここでは、商品ID)と商品名とを対応付けて記憶している。
その後、キーワード抽出部104は、品詞テーブル(図12参照)に登録されている単語をキーワードとして取り出す(ステップS125)。
一方、「これ」または「この」を含まないと判定した場合(ステップS122のNo)、RFIDタグの情報を読み取ることはせずにステップS125を実行し、キーワード抽出を行う。
続くステップS126〜S130までの処理は、ステップS125で取り出された全てのキーワードについて処理を行う繰り返しプロセスである。具体的には、キーワードが固有名詞かどうかを判定し(ステップS126)、固有名詞でなければ(ステップS126のNo)、意味カテゴリテーブルを参照し、キーワードに意味カテゴリを付与する(ステップS127)。例えば、意味カテゴリテーブルは、図23に示すように、単語とその単語の意味やカテゴリを表す意味カテゴリとを対応付けて記憶している。
ここで、意味カテゴリが「場所」であった場合、すなわち場所を示す普通名詞であった場合には(ステップS128のYes)、位置検出制御部113は位置検出部52を制御して、緯度、経度を取得し(ステップS129)、位置地名対応テーブルを参照して最も位置の近い地名を求める(ステップS130)。例えば、位置地名対応テーブルは、図24に示すように、地名とその緯度及び経度とを対応付けて記憶している。
このキーワード抽出処理によって、「この料理はどんな材料を使っていますか?」というように「この」という近接指示語が用いられている発話に対して、レストランで給仕する皿などにRFIDタグを付けておいたり、小売店において販売している商品にRFIDタグをつけておいたりすることで、その料理や商品についての対話が行われた時に、関連する文書の検索がRFIDタグに格納されている情報に基づくキーワードを用いて、より望ましい文書検索を行えるようになる。また、「近くの地下鉄の駅はどこですか?」というように、場所に関する対話ではあるが、「地下鉄」「駅」というキーワードだけでは望ましい文書は検索できないが、利用者がいる位置検出を行い、その位置の近傍の地名を利用することで、より望ましい文書が検索できるようになる。
以上のように、本発明にかかる音声翻訳装置は、異なる言語を母語とする人同士の対話において、適切な関連文書がそれぞれの母語で提示され、音声による対話とともに補助情報として利用できるので、意思疎通を円滑に行う上で好適である。
本発明の第1の実施の形態にかかる音声翻訳装置の構成を示す概略的に示す外観斜視図である。 音声翻訳装置のハードウェア構成を示すブロック図である。 音声翻訳装置の概略構成を示す機能ブロック図である。 表示例を示す正面図である。 表示例を示す正面図である。 翻訳切替ボタンの押下時の処理の流れを示すフローチャートである。 Speak-inボタンの押下時の処理の流れを示すフローチャートである。 音声入力起動イベントに対する処理の流れを示すフローチャートである。 音声認識結果出力イベントに対する処理の流れを示すフローチャートである。 英語文を対象としたキーワード抽出処理の流れを示すフローチャートである。 日本語文を対象としたキーワード抽出処理の流れを示すフローチャートである。 品詞テーブルの一例を示す模式図である。 話題変更抽出処理の流れを示すフローチャートである。 Speak-outボタンの押下時の処理の流れを示すフローチャートである。 ポインティングイベントに対する処理の流れを示すフローチャートである。 ポインティングイベントに対する処理の流れを示すフローチャートである。 検索切替ボタンの押下時の処理の流れを示すフローチャートである。 表示例を示す正面図である。 本発明の第2の実施の形態にかかる音声翻訳装置のハードウェア構成を示すブロック図である。 音声翻訳装置の概略構成を示す機能ブロック図である。 日本語文を対象としたキーワード抽出処理の流れを示すフローチャートである。 RFID対応テーブルの一例を示す模式図である。 意味カテゴリテーブルの一例を示す模式図である。 位置地名対応テーブルの一例を示す模式図である。
符号の説明
1,50 音声翻訳装置
51 無線タグ読取部
52 位置検出部
101 音声認識手段
102 第一翻訳手段
104 キーワード抽出手段
105 文書検索手段
106 第二翻訳手段
107 文字列表示手段、検索文書表示手段
108 入力制御手段
109 話題変更検出手段
110 検索選択手段
203 翻訳方向指定手段

Claims (12)

  1. 二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、
    前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、
    前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、
    前記翻訳言語の文字列を表示部に表示する文字列表示手段と、
    前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、
    前記キーワードを用いて文書検索を行う文書検索手段と、
    前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、
    前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、
    を備えることを特徴とする音声翻訳装置。
  2. 前記翻訳対象言語の文字列と前記翻訳言語の文字列との何れを、前記文書検索手段における文書検索の対象とするかを選択する検索選択手段を更に備え、
    前記キーワード抽出手段は、前記検索選択手段で文書検索対象とされた前記翻訳対象言語の文字列または前記翻訳言語の文字列からキーワードを抽出する、
    ことを特徴とする請求項1記載の音声翻訳装置。
  3. 前記キーワード抽出手段は、文字列を構成する各単語のうち所定の品詞の単語を前記キーワードとして抽出する、
    ことを特徴とする請求項1または2記載の音声翻訳装置。
  4. 前記検索文書表示手段は、前記文書検索手段で得られた文書中に、前記第二翻訳手段で翻訳された文書を埋め込んで表示する、
    ことを特徴とする請求項1ないし3のいずれか一記載の音声翻訳装置。
  5. 前記表示部に表示されている前記文書検索手段で得られた文書上または前記第二翻訳手段で得られた文書上のいずれかの位置に対する入力を受け付ける入力制御手段を更に備え、
    前記検索文書表示手段は、前記入力制御手段で入力を受け付けた位置に対応する前記文書検索手段で得られた文書および前記第二翻訳手段で得られた文書の両方に、強調画像を表示する、
    ことを特徴とする請求項1記載の音声翻訳装置。
  6. 前記表示部に表示されている前記文書検索手段で得られた文書上または前記第二翻訳手段で得られた文書上のいずれかの位置に対する入力を受け付ける入力制御手段を更に備え、
    前記検索文書表示手段は、前記入力制御手段で入力を受け付けた位置にリンクが埋め込まれている場合には、リンク先の文書を表示する、
    ことを特徴とする請求項1記載の音声翻訳装置。
  7. 対話の話題が変更されたことを検出する話題変更検出手段を更に備え、
    前記話題変更検出手段により話題が変更されたことを検出した場合にのみ、前記文書検索手段により、前記キーワード抽出手段で得られたキーワードを含む文書の検索を実行する、
    ことを特徴とする請求項1ないし6のいずれか一記載の音声翻訳装置。
  8. 前記話題変更検出手段は、前記キーワード抽出手段で得られたキーワードが表示されていないと判断した場合に、話題が変更されたものと判断する、
    ことを特徴とする請求項7記載の音声翻訳装置。
  9. 前記話題変更検出手段は、前記強調画像が初期化された状態を話題が変更されたものとする、
    ことを特徴とする請求項7記載の音声翻訳装置。
  10. 現在位置を検出する位置検出部を更に備え、
    前記キーワード抽出手段は、得られたキーワードが場所を示す普通名詞である場合には、前記位置検出部から現在位置を取得し、取得した現在位置の地名をキーワードとして抽出する、
    ことを特徴とする請求項1ないし9のいずれか一記載の音声翻訳装置。
  11. 無線タグを読み取る無線タグ読取部を更に備え、
    前記キーワード抽出手段は、得られたキーワードが発話者の近くにあるものを示す指示語である場合には、前記無線タグ読取部から前記無線タグに格納されている情報を取得し、取得した情報に対応する名詞をキーワードとして抽出する、
    ことを特徴とする請求項1ないし9のいずれか一記載の音声翻訳装置。
  12. コンピュータを、
    二つの言語のうち一方を翻訳対象言語に、他方を翻訳言語に指定する翻訳方向指定手段と、
    前記翻訳対象言語の音声信号を音声認識し、前記翻訳対象言語の文字列として出力する音声認識手段と、
    前記翻訳対象言語の文字列を、前記翻訳言語の文字列に翻訳する第一翻訳手段と、
    前記翻訳言語の文字列を表示部に表示する文字列表示手段と、
    前記翻訳対象言語の文字列または前記翻訳言語の文字列から文書検索のためのキーワードを抽出するキーワード抽出手段と、
    前記キーワードを用いて文書検索を行う文書検索手段と、
    前記文書検索手段で検索された文書の言語が前記翻訳対象言語の場合、前記翻訳言語に翻訳し、前記検索された文書の言語が前記翻訳言語の場合、前記翻訳対象言語に翻訳する第二翻訳手段と、
    前記文書検索手段で検索された文書と前記第二翻訳手段で翻訳された文書とを、前記表示部に表示する検索文書表示手段と、
    として機能させることを特徴とするプログラム。
JP2008049211A 2008-02-29 2008-02-29 音声翻訳装置およびプログラム Pending JP2009205579A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008049211A JP2009205579A (ja) 2008-02-29 2008-02-29 音声翻訳装置およびプログラム
US12/388,380 US20090222257A1 (en) 2008-02-29 2009-02-18 Speech translation apparatus and computer program product
CN200910126615A CN101520780A (zh) 2008-02-29 2009-02-27 语音翻译设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008049211A JP2009205579A (ja) 2008-02-29 2008-02-29 音声翻訳装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2009205579A true JP2009205579A (ja) 2009-09-10

Family

ID=41013828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008049211A Pending JP2009205579A (ja) 2008-02-29 2008-02-29 音声翻訳装置およびプログラム

Country Status (3)

Country Link
US (1) US20090222257A1 (ja)
JP (1) JP2009205579A (ja)
CN (1) CN101520780A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140061134A (ko) * 2012-11-13 2014-05-21 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
GB2511626A (en) * 2011-06-21 2014-09-10 Ha-Chul Jung Apparatus for capturing image of anterior part of iris and medical monitoring system using smart phone
JP2016095727A (ja) * 2014-11-14 2016-05-26 シャープ株式会社 表示装置、サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及び制御プログラム
US9484034B2 (en) 2014-02-13 2016-11-01 Kabushiki Kaisha Toshiba Voice conversation support apparatus, voice conversation support method, and computer readable medium
US9507774B2 (en) 2013-09-30 2016-11-29 Kabushiki Kaisha Toshiba Systems, method and program product for speech translation
JP2020034897A (ja) * 2018-08-02 2020-03-05 サウンドハウンド,インコーポレイテッド 自然言語会話に関連する情報の視覚的提示

Families Citing this family (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP2010176543A (ja) * 2009-01-30 2010-08-12 Toshiba Corp 翻訳装置、方法、及びプログラム
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP2325838A1 (en) * 2009-10-27 2011-05-25 verbavoice GmbH A method and system for transcription of spoken language
US20110112822A1 (en) * 2009-11-10 2011-05-12 Charles Caraher Talking Pen and Paper Translator
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
TW201214155A (en) * 2010-09-21 2012-04-01 Inventec Corp Article based paragraphic online translating system and method thereof
TWI477989B (zh) * 2010-10-07 2015-03-21 Inventec Corp 提供二個使用者同時進行翻譯會話的裝置及其方法
US20120221319A1 (en) * 2011-02-28 2012-08-30 Andrew Trese Systems, Methods and Media for Translating Informational Content
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9015030B2 (en) * 2011-04-15 2015-04-21 International Business Machines Corporation Translating prompt and user input
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
JP5653392B2 (ja) * 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9195654B2 (en) 2013-03-15 2015-11-24 Google Inc. Automatic invocation of a dialog user interface for translation applications
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
KR102214178B1 (ko) * 2013-12-13 2021-02-10 한국전자통신연구원 자동 통역 장치 및 방법
US20150193432A1 (en) * 2014-01-03 2015-07-09 Daniel Beckett System for language translation
KR20150105075A (ko) * 2014-03-07 2015-09-16 한국전자통신연구원 자동 통역 장치 및 방법
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US20160110349A1 (en) * 2014-10-20 2016-04-21 Kimberly Norman-Rosedam Language Translating Device
JP6073540B2 (ja) * 2014-11-25 2017-02-01 三菱電機株式会社 情報提供システム
CN104580779B (zh) * 2015-01-19 2018-03-02 刘建芳 一种远程语音翻译终端
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US20170060850A1 (en) * 2015-08-24 2017-03-02 Microsoft Technology Licensing, Llc Personal translator
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10460038B2 (en) 2016-06-24 2019-10-29 Facebook, Inc. Target phrase classifier
US10268686B2 (en) * 2016-06-24 2019-04-23 Facebook, Inc. Machine translation system employing classifier
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN107231289A (zh) * 2017-04-19 2017-10-03 王宏飞 信息交流装置、信息交流系统和方法
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
WO2018231106A1 (en) * 2017-06-13 2018-12-20 Telefonaktiebolaget Lm Ericsson (Publ) First node, second node, third node, and methods performed thereby, for handling audio information
CN107729325A (zh) * 2017-08-29 2018-02-23 捷开通讯(深圳)有限公司 一种智能翻译方法、存储设备及智能终端
CN107797787A (zh) * 2017-09-15 2018-03-13 周连惠 一种可切换语种的语音输入装置
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10984784B2 (en) 2018-03-07 2021-04-20 Google Llc Facilitating end-to-end communications with automated assistants in multiple languages
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111401323A (zh) * 2020-04-20 2020-07-10 Oppo广东移动通信有限公司 文字翻译方法、装置、存储介质及电子设备
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339754B1 (en) * 1995-02-14 2002-01-15 America Online, Inc. System for automated translation of speech
JP3908437B2 (ja) * 2000-04-14 2007-04-25 アルパイン株式会社 ナビゲーションシステム
US7050979B2 (en) * 2001-01-24 2006-05-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for converting a spoken language to a second language
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
WO2005101235A1 (ja) * 2004-04-12 2005-10-27 Matsushita Electric Industrial Co., Ltd. 対話支援装置
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US20070005363A1 (en) * 2005-06-29 2007-01-04 Microsoft Corporation Location aware multi-modal multi-lingual device
US20080177528A1 (en) * 2007-01-18 2008-07-24 William Drewes Method of enabling any-directional translation of selected languages
US8032384B2 (en) * 2008-03-14 2011-10-04 Jay S Rylander Hand held language translation and learning device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2511626A (en) * 2011-06-21 2014-09-10 Ha-Chul Jung Apparatus for capturing image of anterior part of iris and medical monitoring system using smart phone
KR20140061134A (ko) * 2012-11-13 2014-05-21 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
KR101984094B1 (ko) * 2012-11-13 2019-05-30 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US9507774B2 (en) 2013-09-30 2016-11-29 Kabushiki Kaisha Toshiba Systems, method and program product for speech translation
US9484034B2 (en) 2014-02-13 2016-11-01 Kabushiki Kaisha Toshiba Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP2016095727A (ja) * 2014-11-14 2016-05-26 シャープ株式会社 表示装置、サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及び制御プログラム
JP2020034897A (ja) * 2018-08-02 2020-03-05 サウンドハウンド,インコーポレイテッド 自然言語会話に関連する情報の視覚的提示

Also Published As

Publication number Publication date
CN101520780A (zh) 2009-09-02
US20090222257A1 (en) 2009-09-03

Similar Documents

Publication Publication Date Title
JP2009205579A (ja) 音声翻訳装置およびプログラム
US9514130B2 (en) Device for extracting information from a dialog
US9805718B2 (en) Clarifying natural language input using targeted questions
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
JP4050755B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US9053098B2 (en) Insertion of translation in displayed text consisting of grammatical variations pertaining to gender, number and tense
EP2339576B1 (en) Multi-modal input on an electronic device
TW200424951A (en) Presentation of data based on user input
JP2003162527A (ja) コミュニケーション支援装置及びコミュニケーション支援方法
JP2000200275A (ja) 翻訳装置、記録媒体
CN101266600A (zh) 多媒体多语言互动同步翻译方法
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
KR20090090613A (ko) 멀티모달 대화형 이미지 관리 시스템 및 방법
TW201510774A (zh) 以語音辨識來選擇控制客體的裝置及方法
KR101626109B1 (ko) 통역 장치 및 방법
House et al. Spoken-Language Access to Multimedia (SLAM)
US6760408B2 (en) Systems and methods for providing a user-friendly computing environment for the hearing impaired
JP2020101822A (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
CN1965349A (zh) 多形式的非歧意性语音识别
JP5008248B2 (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP6110539B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
Vergo A statistical approach to multimodal natural language interaction
JP2020201322A (ja) 案内ロボットシステム及び会話作成方法
JP2015069099A (ja) 情報処理装置、制御方法、及びプログラム
JP2004118720A (ja) 翻訳装置、翻訳方法及び翻訳プログラム