JP2005222136A

JP2005222136A - 会話型翻訳装置

Info

Publication number: JP2005222136A
Application number: JP2004026720A
Authority: JP
Inventors: Hoki Taniguchi; 方紀谷口
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2004-02-03
Filing date: 2004-02-03
Publication date: 2005-08-18

Abstract

【課題】めんどうな操作を伴わずに、利用者の意思を相手に容易に伝えることができるとともに利用者が相手の話を容易に理解することのできる新規の会話型翻訳装置を提供する。
【解決手段】本発明の会話型翻訳装置は、音声を入力する音声入力手段１１３，１１４と、音声データを認識して第１の言語データを生成する第１の音声認識手段及び音声データを認識して第２の言語データを生成する第２の音声認識手段１１０Ｃと、第１の言語データを第２の言語データに翻訳する第１の翻訳処理手段及び第２の言語データを第１の言語データに翻訳する第２の翻訳処理手段１１０Ｄと、第１の言語データを第１の音声データに変換する第１の音声変換手段及び第２の言語データを第２の音声データに変換する第２の音声変換手段１１０Ｆと、音声データを音声に変換して出力する音声出力手段１１５，１１６とを有することを特徴とする。
【選択図】図２

Description

本発明は会話型翻訳装置に係り、特に、携帯型電子機器として構成する場合に好適な翻訳装置の構成に関する。

一般に、小型電子機器の形態を有し、入力された単語などの意味を調べることのできる電子辞書や、簡単な文章を翻訳することのできる携帯型翻訳機などが市販されている。しかしながら、電子辞書では、個々の単語を参照することができるだけであり、実際の会話には利用しにくい場合が多く、一方、携帯型翻訳機においては、利用者が文章を入力しなければならないため使い勝手が悪く、必ずしも普及していない。

一方、時計本体の内部に翻訳用ＩＣを内蔵することにより、腕時計型機器に翻訳機能を付加してなるものが知られている（例えば、以下の特許文献１参照）。また、腕時計の内部に音声認識機能及び翻訳処理機能を実現する手段を設け、翻訳モードにおいて、マイクロフォンで入力された音声を音声認識部によって認識し、翻訳を行うことを可能としたものが知られている（例えば、以下の特許文献２参照）。
特開平６−１０２３７４号公報特開平１１−１５３６７９号公報

しかしながら、前述の如く、従来の翻訳機能を有する機器においては、翻訳機能を備えていても、それを利用して会話を行うのはあくまでも利用者であり、その使い勝手は、よく使われる文章を記載した旅行ガイドブックなどの冊子とほとんど変わらないという問題点がある。

特に、利用者が相手に伝えたいと考える文章が翻訳によって得られても、実際に文章を話したときに発音の問題により相手に伝わらない場合があり、また、ヒアリング力の問題により相手が話した文章を聞き取ることができない場合があり、実際のコミュニケーションにおける利便性に欠けると言う問題点がある。

そこで、本発明は上記問題点を解決するものであり、その課題は、めんどうな操作を行うことなく、利用者の意思を相手に容易に伝えることができるとともに、利用者が相手の話を容易に理解することのできる新規の会話型翻訳装置を提供することにある。

斯かる実情に鑑み、本発明の会話型翻訳装置は、音声を入力して音声データとする音声入力手段と、該音声入力手段により入力された前記音声データを認識して第１の言語体系における第１の言語データを生成する第１の音声認識手段と、前記音声データを認識して第２の言語体系における第２の言語データを生成する第２の音声認識手段と、前記第１の言語データを第２の言語体系における第２の言語データに翻訳する第１の翻訳処理手段と、前記第２の言語データを第１の言語体系における第１の言語データに翻訳する第２の翻訳処理手段と、前記第１の言語データを第１の音声データに変換する第１の音声変換手段と、前記第２の言語データを第２の音声データに変換する第２の音声変換手段と、前記第１の音声変換手段及び前記第２の音声変換手段により変換された音声データを音声に変換して出力する音声出力手段と、を有することを特徴とする。

この発明によれば、第１の言語体系に基づく音声は音声入力手段によって入力されて音声データとなり、この音声データが第１の音声認識手段によって第１の言語データとなり、この第１の言語データが第１の翻訳処理手段によって第２の言語体系における第２の言語データに変換され、これが第２の音声変換手段によって音声データに変換され、音声出力手段によって出力される。また、第２の言語体系に基づく音声は、音声入力手段によって入力された音声データが第２の音声認識手段によって第２の言語データとなり、この第２の言語データが第２の翻訳処理手段によって第１の言語体系における第１の言語データに変換され、これが第１の音声変換手段によって音声データに変換され、音声出力手段によって出力される。したがって、第１の言語体系に基づく音声を第２の言語体系に基づく音声に翻訳して出力することが可能であり、かつ、第２の言語体系に基づく音声を第１の言語体系に基づく音声に翻訳して出力することができるので、第１の言語体系を用いる人と、第２の言語体系を用いる人との間の会話を円滑に行わせることができる。

したがって、本発明では、第２の言語体系を用いる利用者は複雑な操作を行わなくても、当該装置に話をするだけで、これを自動的に認識して翻訳された第１の言語体系に基づく音声が相手に向けて出力される。また、相手に直接音声を聞かせなくても、翻訳された音声を聞いた上で、利用者がこれを真似て相手に伝えることによって、発音などの問題で相手に真意が伝わらないなどの事態が発生しにくくなる。また、第１の言語体系を用いる相手の話が自動的に認識され、翻訳されて音声として出力されるので、ヒアリング力などの問題で相手の真意が理解できないなどの事態も回避できる。

また、本発明の別の会話型翻訳装置は、音声を入力して音声データとする音声入力手段と、該音声入力手段により入力された前記音声データを認識して第１の言語体系における第１の言語データを生成する第１の音声認識手段と、前記音声データを認識して第２の言語体系における第２の言語データを生成する第２の音声認識手段と、前記第１の言語データを第２の言語体系における第２の言語データに翻訳する第１の翻訳処理手段と、前記第２の言語データを第１の言語体系における第１の言語データに翻訳する第２の翻訳処理手段と、前記第１の言語データを第１の音声データに変換する第１の音声変換手段と、前記第２の言語データを表示する言語データ表示手段と、前記第１の音声変換手段により変換された音声データを音声に変換して出力する音声出力手段と、を有することを特徴とする。

この発明によれば、第１の言語体系に基づく音声は音声入力手段によって入力されて音声データとなり、この音声データが第１の音声認識手段によって第１の言語データとなり、この第１の言語データが第１の翻訳処理手段によって第２の言語体系における第２の言語データに変換され、これが言語データ表示手段によって表示される。また、第２の言語体系に基づく音声は、音声入力手段によって入力された音声データが第２の音声認識手段によって第２の言語データとなり、この第２の言語データが第２の翻訳処理手段によって第１の言語体系における第１の言語データに変換され、これが第１の音声変換手段によって音声データに変換され、音声出力手段によって出力される。したがって、第１の言語体系に基づく音声を第２の言語体系に基づく言語に翻訳して表示することが可能であり、かつ、第２の言語体系に基づく音声を第１の言語体系に基づく音声に翻訳して出力することができるので、第１の言語体系を用いる人と、第２の言語体系を用いる人との間の会話を円滑に行わせることができる。

したがって、本発明では、第２の言語体系を用いる利用者は複雑な操作を行わなくても、当該装置に話をするだけで、これを自動的に認識して第１の言語体系に翻訳された音声が相手に向けて出力される。また、相手に直接音声を聞かせなくても、翻訳された音声を聞いた上で、利用者がこれを真似て相手に伝えることによって、発音などの問題で相手に真意が伝わらないなどの事態が発生しにくくなる。また、第１の言語体系を用いる相手の話が自動的に認識され、翻訳されて表示されるので、ヒアリング力などの問題で相手の真意が理解できないなどの事態も回避できる。

なお、上記各発明における言語体系とは、日本語、英語、フランス語、ドイツ語、中国語などのような通常の言語体系に限らず、幼児語、ペットとのコミュニケーションに用いる指示語、身障者などが用いる省略語など、特殊な言語体系、或いは、独自に構成された言語体系であっても構わない。

本発明において、前記音声入力手段として、前記第１の言語データに対応する音声を入力する第１の音声入力手段と、前記第２の言語データに対応する音声を入力する第２の音声入力手段とを有し、前記第１の音声入力手段と前記第２の音声入力手段とが相互に離間して設けられていることが好ましい。これによれば、第１の音声入力手段と第２の音声入力手段とが相互に離間して設けられていることにより、会話を行う二人の音声をそれぞれ効率的に入力することができるとともに、二人の音声が相互に紛れて混乱するといったことを低減することができる。

特に、第１の音声入力手段と前記第２の音声入力手段とが相互に異なる方向を指向していることが望ましい。これによって、音声が相互に紛れることをより確実に防止できる。ここで、異なる方向を指向しているとは、必ずしも指向性の設定方位が異なることだけを指すのではなく、指向性のないもの、或いは、弱いものであっても、音声入力部分（受音部）が異なる方向に向いていることも含む。ただし、これらの音声入力手段としては、指向性の強いマイクロフォンを用い、かつ、その指向性の設定方位が相互に異なるものであることが好ましい。

本発明において、利用者への情報提供を行うための情報表示手段をさらに有し、前記第１の音声入力手段と前記第２の音声入力手段とが前記情報表示手段の表示画面を挟んでその両側に配置されていることが好ましい。これによれば、情報表示手段の表示画面を挟んでその両側に第１の音声入力手段と第２の音声入力手段とが配置されていることにより、装置の形状寸法を利用して両手段を相互に離間させることができる。ここで、情報表示手段は、上記の言語データ表示手段であってもよく、また、言語データ表示手段と表示体を共通とするものであってもよく、さらに、言語データ表示手段とは全く別個に設けられたものであっても構わない。

本発明において、前記音声出力手段として、前記第１の言語データに対応する音声を出力する第１の音声出力手段と、前記第２の言語データに対応する音声を出力する第２の音声出力手段とを有し、前記第１の音声出力手段と前記第２の音声出力手段とが相互に離間して設けられていることが好ましい。これによれば、第１の言語体系の音声と、第２の言語体系の音声とを別々に離間した位置から出力できるので、会話を行う二人がそれぞれの音声をより聞き取りやすくなる。

本発明において、前記第１の音声入力手段と前記第２の音声入力手段とが相互に異なる方向を指向していることが望ましい。これによれば、それぞれの音声をさらに聞き取りやすくすることができる。ここで、異なる方向を指向しているとは、必ずしも指向性の設定方位が異なることだけを指すのではなく、指向性のないもの、或いは、弱いものであっても、音声出力部分が異なる方向に向いていることも含む。ただし、これらの音声出力手段としては、指向性の強いスピーカを用い、かつ、その指向性の設定方位が相互に異なるものであることが好ましい。

本発明において、利用者への情報提供を行うための情報表示手段をさらに有し、前記第１の音声出力手段と前記第２の音声出力手段とが前記情報表示手段の表示画面を挟んでその両側に配置されていることが望ましい。これによれば、情報表示手段の表示画面を挟んでその両側に第１の音声出力手段と第２の音声出力手段とが配置されていることにより、装置の形状寸法を利用して両手段を相互に離間させることができる。ここで、情報表示手段は、上記の言語データ表示手段であってもよく、また、言語データ表示手段と表示体を共通とするものであってもよく、さらに、言語データ表示手段とは全く別個に設けられたものであっても構わない。

本発明において、前記第１の翻訳処理手段若しくは前記第２の翻訳処理手段の翻訳対象及び翻訳結果を表示する翻訳表示手段をさらに有することが好ましい。これによれば、翻訳対象となる原文と、翻訳文とを対比して視認することができるため、翻訳状態を確認できる。また、複数の翻訳文の候補を挙げ、これらを利用者に選択させるといったことも可能である。

本発明において、前記翻訳表示手段は、前記第１の言語データを表示する第１の表示画面と、前記第２の言語データを表示する第２の表示画面とを有することが好ましい。また、表示画面を大きく確保しつつコンパクトに構成可能とするためには、第１の表示画面を備えた部分と第２の表示画面を備えた部分とが折り畳み自在に構成されていることが望ましい。

本発明において、利用者への情報提供を行うための情報表示手段をさらに有し、前記音声出力手段は、前記情報表示手段の表示画面を振動させる手段を有することが好ましい。これによれば、表示画面以外の場所に別途音声出力手段の出力部分（放音部）を設ける必要がないので、装置をコンパクトに構成できる。

なお、上記各発明において、上記の各手段を内蔵する本体部と、この本体部を人体（例えば腕）に装着するためのバンドとを有することが好ましい。特に、腕装着型構造とすることにより、利用者と相手との間に腕を出すことで、腕に装着された本発明の会話型翻訳装置が両人の間に配置されるので、無理のない姿勢で容易に会話を続けることができる。

本発明の会話型翻訳装置によれば、発音の問題やヒアリングの問題に起因する会話障害を回避することができるため、異なる言語体系を用いる相手とスムーズに会話を行うことができると言う優れた効果を奏し得る。

次に、添付図面を参照して本発明の実施形態について詳細に説明する。図１は、本発明に係る第１実施形態の会話型翻訳装置１００の使用状態を模式的に示す概略斜視図である。この実施形態の会話型翻訳装置１００は携帯型電子機器であり、具体的には、利用者Ｘの腕に装着して用いる腕装着型電子機器となっている。すなわち、この装置１００は、本体１１０と、この本体１１０に連結された装着バンド１２０とを有し、この装着バンド１２０によって腕に装着できるように構成されている。

図１に示すように、本体１１０には、基体部１１１と、この基体部１１１に対して開閉可能に取り付けられた蓋体部１１２とを有し、通常は、蓋体部１１２を基体部１１１に重ねるように閉じた状態とすることにより、通常の腕時計と同様の形状となるように構成されている。そして、蓋体部１１２の外面（すなわち閉じたときに表になる面）には表示画面１１０Ｇが設けられ、この表示画面１１０Ｇに時刻情報などが表示されるようになっている。また、基体部１１１の表面と、蓋体部１１２の内面には、それぞれ表示画面１１１Ｇ及び１１２Ｇが設けられている。これらの表示画面１１０Ｇ，１１１Ｇ，１１２Ｇは、液晶表示体や有機エレクトロルミネッセンス表示体などによって構成することができる。これらの表示画面１１０Ｇ，１１１Ｇ，１１２Ｇは、上述の情報表示手段、言語データ表示手段、翻訳表示手段などの各表示手段の一部を構成する。

基体部１１１には、各種操作を行うためのボタンやスイッチなどで構成される操作部１１０Ｂが設けられている。この操作部１１０Ｂは、蓋体部１１２の内面や外面上に設けられていても構わない。すなわち、操作部１１０Ｂは本体１１０のいずれかに設けられていればよい。

基体部１１１の前後両側（バンド１２０に接続される両端部）には、音声入力手段の一部を構成する音声入力部（マイクロフォン）１１３，１１４と、音声出力手段の一部を構成する音声出力部（スピーカ）１１５，１１６とが設けられている。ここで、音声入力部１１３と音声出力部１１５は本体１１０の一端側に相互に隣接して配置され、音声入力部１１４と音声出力部１１６は本体１１０の他端側に相互に隣接して配置されている。また、音声入力部１１３と１１４は本体部１１０（表示画面１１１Ｇ）を挟んでその両側に相互に離間して配置されている。さらに、音声出力部１１５と１１６も本体部１１０（表示画面１１１Ｇ）を挟んでその両側に相互に離間して配置されている。さらに、本体１１０には、アンテナ１１７が伸縮自在に設けられている。なお、アンテナ１１７は本体１１０に内蔵されていても構わない。

図２は、本実施形態の内部構成を模式的に示す概略構成図である。本体１１０内に設けられた制御部１１０Ａは各部を制御するものであり、例えば、ＭＰＵ（マイクロプロセッサユニット）などで構成される。ＭＰＵは、例えば、ＣＰＵ（中央演算ユニット）、メモリ、バス、入出力回路などで構成され、所定の動作プログラムに基づいて演算処理を実行したり、データのやり取りを行ったり、各部に制御信号を送出したりするように構成されている。メモリには上記動作プログラムが格納されるとともに、動作に必要な各種の設定値が保存されている。

操作部１１０Ｂは、上記のように本体１１０に設けられた外部操作部材（操作ボタンなど）を有し、利用者Ｘの操作に応じた操作信号を上記の制御部１１０Ａに送出する。このとき、制御部１１０Ａは上記の操作信号に応じた動作を実行するように構成されている。

音声認識部１１０Ｃは、上記の音声入力部１１３，１１５で入力された音声データに基づいて音声認識処理を実行し、所定の言語データを生成する。なお、このように音声認識部１１０Ｃを制御部１１０Ａとは別に設けるのではなく、音声認識処理を制御部１１０Ａにより実行される動作プログラムにて行ってもよい。音声認識処理は、言語体系毎に異なる手順や内容で実施される。すなわち、音声認識処理を実施するためのハード構成は上記音声認識部１１０Ｃや制御部１１０Ａであるが、音声認識手段としては、或る言語体系の音声を当該言語体系の言語データに変換する必要があるため、言語体系毎に異なる音声認識手段が仮想的に構成されていることになる。このような音声認識手段は、メモリ１１０Ｅ内の音声認識データや音声認識プログラムなどに基づいて実施される。メモリ１１０Ｅに記録された音声認識データは、音声認識処理に用いる発音パターンなどで構成される音声情報や音声認識時の推定処理などに用いる語彙などで構成される言語情報などである。また、音声認識プログラムは、言語体系毎に音声認識の手法に応じた処理手順を規定している。

翻訳処理部１１０Ｄは、上記の言語データを、その言語体系とは異なる別の言語体系の言語データに翻訳する。なお、このように翻訳処理部１１０Ｄを制御部１１０Ａとは別途設けるのではなく、翻訳処理を制御部１１０Ａにより実行される動作プログラムにて行ってもよい。翻訳処理は、言語体系毎に異なる手順や内容で実施される。すなわち、音声認識処理を実施するためのハード構成は上記翻訳処理部１１０Ｄや制御部１１０Ａであるが、翻訳処理手段としては、或る言語体系の言語データを他の言語体系の言語データに変換する必要があるため、翻訳前の原文の言語体系及び翻訳文の言語体系の組み合わせ毎に異なる翻訳処理手段が仮想的に構成されていることになる。このような翻訳処理手段は、メモリ１１０Ｅ内の翻訳言語データや翻訳処理プログラムなどに基づいて実施される。メモリ１１０Ｅに記録された翻訳言語データは、翻訳処理に用いる辞書データや構文データなどである。また、翻訳処理プログラムは、言語体系毎に翻訳処理の手法に応じた処理手順を規定している。

音声変換部１１０Ｆは、上記の言語データを音声に変換し、音声出力部１１４，１１６で出力可能な音声信号として出力するものである。なお、このように音声変換部１１０Ｆを制御部１１０Ａとは別に設けるのではなく、音声変換処理を制御部１１０Ａにより実行される動作プログラムにて行ってもよい。音声変換処理は、言語体系毎に異なる手順や内容で実施される。すなわち、音声変換処理を実施するためのハード構成は上記音声変換部１１０Ｆや制御部１１０Ａであるが、音声変換手段としては、或る言語体系の言語データを当該言語体系の音声データに変換する必要があるため、言語体系毎に異なる音声変換手段が仮想的に構成されていることになる。このような音声変換手段は、メモリ１１０Ｅ内の音声変換データや音声変換プログラムなどに基づいて実施される。メモリ１１０Ｅに記録された音声変換データは、音声変換処理に用いる発音パターンなどで構成される音声情報や音声変換時の推定処理などに用いる語彙などで構成される言語情報などである。また、音声変換プログラムは、言語体系毎に音声変換の手法に応じた処理手順を規定している。

通信部１１０Ｓは、アンテナ１１７に接続された受信回路を有し、例えば、ＧＰＳ（グローバル・ポジショニング・システム）のＧＰＳ衛星からの電波を受信することができるように構成されている。そして、受信データを制御部１１０Ａにて処理することによって、装置の場所を算出し、その場所に応じた言語体系を選択して、上記の処理を行うように構成できる。例えば、利用者が日本人で、その所在地が中国であれば、日本語と中国語に対応する上記の音声入力手段、翻訳処理手段、音声変換手段を動作させるようにする。また、上記通信部１１０Ｓによって、時刻情報を送信する送信局からの電波を受信し、後述する計時回路１１０Ｔによる計時データを修正するといったことも可能である。

計時部１１０Ｔは、クロック信号を生成するクロック発振回路、分周回路、カウンタ回路などを内蔵し、所定の時刻信号を出力する。この時刻信号は制御部１１０Ａを介して後述する表示手段によって表示画面１１０Ｇに表示される。制御部１１０Ａは、操作部１１０Ｂの操作態様に応じて計時部１１０Ｔの修正などを行うことができるように構成されている。

表示制御部１１０Ｉは、制御部１１０Ａの制御信号に応じて表示画像を生成し、この表示画像に対応した態様で、表示駆動部１１０Ｊを制御する。表示駆動部１１０Ｊは、表示体１１０Ｋ、１１１Ｋ，１１２Ｋを表示駆動し、それらの表示画面１１０Ｇ，１１１Ｇ，１１２Ｇ上に所定の表示を実現する。

図３は、上記実施形態の動作手順の一例を示す概略フローチャートである。本実施形態の動作プログラムが開始されると、ステップＳ００において上記の操作部１１０Ｂの操作を待って、ステップＳ１０に入り、音声入力を開始する。ここで、例えば、第１言語体系を英語、第２言語体系を日本語としたとき、音声が英語であるか日本語であるかを判定し、その判定結果に応じて処理を開始する。また、操作部１１０Ｂの操作によって英語と日本語の処理を手動で切り換えるようにしてもよい。

最初に、音声入力部１１３，１１４にて入力した音声データをステップＳ０１，Ｓ１１にて音声認識部１１０Ｃにて認識し、言語データに変換する。ここで、ステップＳ０２、Ｓ１２において変換された言語データを表示画面１１１Ｇ，１１２Ｇなどに表示し、ステップＳ０３，Ｓ１３において操作部１１０Ｂの操作によって取り消し若しくは確定を行うようにしてもよい。例えば、表示された認識結果を取り消すと再度認識処理を再実行するように構成したり、或いは、複数の認識結果を表示し、その中から利用者が翻訳対象となるものを選択できるように構成したりすることができる。

次に、ステップＳ０４、Ｓ１４において、確定（選択）された言語データに翻訳処理を施し、他の言語体系に基づく言語データに変換する。この場合についても、上記と同様に、ステップＳ０５、Ｓ１５において翻訳結果が表示され、ステップＳ０６、Ｓ１６において利用者の操作部１１０Ｂに対する操作に応じて翻訳結果が確定（選択）される。確定（選択）された言語データは、ステップＳ０７、Ｓ１７において音声変換部１１０Ｆにより変換され、さらにステップＳ０８，Ｓ１８において音声出力部１１５，１１６により出力される。

本実施形態では、音声が入力される度に上記の処理手順が繰り返し行われ、これによって図４（Ａ）〜（Ｄ）に示すように、２つの言語体系を用いる者の間で会話を行うことができる。ここで、上記の処理手順では、ステップＳ００において操作部１１０Ｂの操作が一定時間なされないと、内部タイマによって動作プログラムは終了する。また、上記のステップＳ１０において、音声入力が一定時間ない場合（例えば、会話が終了した場合など）にも内部タイマによって動作プログラムは終了する。ただし、動作プログラムは、上記のように待機時間の満了によって終了するのではなく、ステップＳ００などにおいて操作部１１０Ｂの特定の操作（例えば停止ボタンの操作）を待って終了するようにしてもよい。なお、利用者が用いる言語体系の言語が音声出力部１１５から出力されることが煩わしい場合には、音声出力を行う代わりに、表示画面１１１Ｇ，１１２Ｇに表示するだけとしてもよい。もちろん、会話型翻訳装置１００に音声出力部１１５を設けずに、利用者の用いる言語については表示のみがなされるように構成しても構わない。

図５は、上記実施形態とは異なる会話型翻訳装置２００の外観を模式的に示す概略平面図（ａ）及び概略側面図（ｂ）である。この装置２００は、本体２１０と装着バンド２２０とを有する。本体２１０は、中央に表示体の表示画面２１０Ｇが配置されている。また、本体２１０の両端部（装着バンド２２０が連結されている部分）には、音声入力部２１３，２１４及び音声出力部２１５，２１６が配置されている。音声入力部２１３と２１４は、本体２１０（の表示画面２１０Ｇ）を挟んでその両側に配置されている。また、これらは相互に異なる方位を向いた受音面を備えている。また、音声出力部２１５と２１６は、本体２１０（の表示画面２１０Ｇ）を挟んでその両側に配置されている。また、これらは相互に異なる方位を向いた放音面を備えている。

なお、図示例では、音声入力部２１３と２１４及び音声出力部２１５，２１６のそれぞれが互い違いに（対角線上に）対向配置されるように構成されているが、図１に示す実施形態と同様に音声入力部同士、音声出力部同士がそれぞれ対向配置されるように構成しても構わない。

音声入力部及び音声出力部は、それぞれ本体２１０の表面（表示画面２１０Ｇ）に対して外側に傾斜した受音面若しくは放音面を有する。当該表面に対する傾斜角は、４０〜６０度の範囲内であることが好ましく、約４５度であることが最も望ましい。これによって、図１に示すように、利用者Ｘと相手Ｙとが装置を挟んで対峙したとき、利用者Ｘ及び相手Ｙの口に受音面及び放音面が向くことになり、音声に対する感度を向上させることができ、或いは、出力される音声の聞き取りを容易にすることができる。

また、本実施形態では、音声入力部の受音面及び音声出力部の放音面は凹状に湾曲している。図示例では、図５（ａ）に示すように、平面図上においてそれぞれの受音面若しくは放音面が外側に向けて湾曲した円弧状に構成されている。これによって、集音特性や報音特性の指向性を高めることができる。

特に、音声入力部として指向性（狭指向性）マイクロフォンを用いることが好ましい。指向性マイクロフォンとしては、複数のマイクロフォンの入力信号を合成することによって出力を得る音圧傾度型マイクロフォンなどを用いることができる。また、音声出力部としても指向性（狭指向性）スピーカを用いることが好ましい。指向性スピーカとしては、複数のスピーカを配列させた構造のものや、音源の背後に音波を反射する特殊形状の反射板を設けたものなどが挙げられる。

図６は、さらに異なる構造を有する会話型翻訳装置３００の構造を示す概略平面図（ａ）及び概略側面図（ｂ）である。この装置３００には、本体３１０と、装着バンド３２０とが設けられている。本体３１０には、時刻などを表示するための表示画面３１０Ｇが設けられている。また、装着バンド３２０には、本体３１０の端部近傍の表側において、それぞれ音声入力部３１３，３１４及び音声出力部３１５，３１６が設けられている。上記の各部は、先に説明した実施形態と同様の機能を有するものである。

この例では、装着バンド３２０に音声入力部及び音声出力部が設けられている点で、先に説明した各実施形態とは異なるが、本体３１０を挟んでその両側に音声入力部３１３と３１４がさらに離間して設けられているため、利用者Ｘ及び相手Ｙに対する効率的で干渉のない音声入力が可能になる。また、本体３１０を挟んでその両側に音声出力部３１５，３１６がさらに離間して設けられることによって、出力される音声を利用者Ｘ及び相手Ｙがより聞き取りやすくなる。

図７は、さらに別の会話型翻訳装置４００の外観を、折り畳み状態（ａ）と開放状態（ｂ）とに分けて示す概略正面図である。この装置４００は、装着バンドを備えておらず、ヒンジ部４００Ｈにより相互に開閉自在に構成された本体４１０と４２０によって構成されている。各本体４１０，４２０にはそれぞれ表示画面４１０Ｇ、４２０Ｇが設けられている。本体４１０の上下両端部には音声入力部４１３，４１４が設けられ、本体４２０の上下両端部には音声出力部４１５，４１６が設けられている。また、本体４１０，４２０には、それぞれ操作部４１０Ｂ、４２０Ｂが設けられている。

なお、上記装置４００では、一対の本体４１０，４２０が左右に開閉自在となっているが、上下に開閉自在に構成されたものであっても構わない。この場合、音声入力部及び音声出力部は一対の本体の下端部と上端部にそれぞれ設けられることが望ましい。

図８は、上記と異なる会話型翻訳装置５００の構造を示す正面図である。この装置５００では、一体の本体の表面に一対の左右に並んだ表示画面５１０Ｇ，５２０Ｇと、操作部５１０Ｂ，５２０Ｂとが設けられている。また、音声入力部５１３，５１４と、音声出力部５１５，５１６は、上下両端部にそれぞれ設けられている。

図９は、さらに異なる会話型翻訳装置６００の構造を示す正面図である。この装置６００では、カード型に構成された一体の本体の表面に一対の上下に並んだ表示画面６１０Ｇ，６２０Ｇと、操作部６１０Ｂとが設けられている。また、音声入力部６１３，６１４及び音声出力部６１５，６１６は、本体の外縁部の角部及びその近傍にそれぞれ形成されている。

図１０は、さらに別の会話型翻訳装置７００の構造を示す正面図（ａ）、並びに、内部に収容された表示体の側面図（ｂ）及び表示体の正面図（ｃ）である。この装置７００では、表示画面７００Ｇ、操作部７００Ｂ、音声入力部７１３，７１４が設けられている。音声入力部７１３，７１４が本体（表示画面７００Ｇ）を挟んでその両側に離間して設けられている点は先の各実施形態と同様である。その内部には、上記表示画面７００Ｇを構成する表示体７００Ｋが収容されている。

この装置７００においては、本体の内部に収容された表示体７００Ｋの一方の基板上に圧電素子などで構成される基板振動手段７００Ｌが搭載され、上記と同様の音声変換部７００Ｆからの音声信号が基板振動手段７００Ｌに与えられるように構成されている。また、表示体７００Ｋには、表示画面に画像を表示させるための半導体チップなどで構成される駆動回路７００Ｊも実装されている。

この実施形態では、音声変化部７００Ｆから出力される音声信号が基板振動手段７００Ｌに供給されると、基板振動手段７００Ｌは音声信号を機械的振動に変換して表示体７００Ｋの基板を振動させ、図７（ｂ）に示すように表示体７００Ｋの基板から音を放出させる。これによって、表示体７００Ｋ以外に音声出力部を別途設ける必要がなくなるので、装置のコンパクト化を図ることができる。また、音声出力手段の放音面積を充分に確保することができる。

なお、上記各実施形態において、音声入力手段は、利用者Ｘや相手Ｙの音声の周波数域を学習して、当該音声と、周囲の雑音とを弁別する音声フィルタ機能を有することが好ましい。これによって、音声認識の精度を向上させることも可能になる。また、上記各実施形態において、音声認識手段は、一方の対話者の言葉を参考にして他方の対話者の言葉を推定する機能を有することが好ましい。これによって音声認識の精度を向上させることができる。同様に、翻訳処理手段は、一方の対話者の言葉を参考にして他方の対話者の言葉の翻訳時において翻訳文の構成を推定する機能を有することが好ましい。これによって翻訳処理の精度を向上させることができる。

尚、本発明の会話型翻訳装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、上記実施形態では、一対の音声入力部と、一対の音声出力部を備えているが、音声入力部と音声出力部を異なる言語体系について兼用し、それぞれ一つだけで構成してもよい。また、利用者Ｘに対する伝達作用は音声出力ではなく、画像表示で行うようにしても構わない。

実施形態の会話型翻訳装置１００の構造及び使用態様を示す概略斜視図。装置１００の内部構成を模式的に示す概略構成図。実施形態の動作手順を示す概略フローチャート。装置１００を用いた会話の態様を示す説明図（Ａ）〜（Ｄ）。実施形態の装置２００の概略平面図（ａ）及び概略側面図（ｂ）。実施形態の装置３００の概略平面図（ａ）及び概略側面図（ｂ）。実施形態の装置４００の閉鎖状態を示す正面図（ａ）及び開放状態を示す正面図（ｂ）。実施形態の装置５００の正面図。実施形態の装置６００の正面図。実施形態の装置７００の正面図（ａ）並びに表示体の側面図（ｂ）及び正面図（ｃ）。

符号の説明

１００…会話型翻訳装置、１１０…本体、１１０Ａ…制御部、１１０Ｂ…操作部、１１０Ｃ…音声認識部、１１０Ｄ…翻訳処理部、１１０Ｅ…メモリ、１１０Ｆ…音声変換部、１１０Ｓ…通信部、１１０Ｔ…計時部、Ｉ１１０Ｉ…表示制御部、Ｊ１１０…表示駆動部、１１０Ｋ…表示体、１１１…基体部、１１２…蓋体部、１１０Ｇ，１１１Ｇ，１１２Ｇ…表示画面、１１３，１１４…音声入力部、１１５，１１６…音声出力部、１１７…アンテナ、１２０…バンド

Claims

音声を入力して音声データとする音声入力手段と、該音声入力手段により入力された前記音声データを認識して第１の言語体系における第１の言語データを生成する第１の音声認識手段と、前記音声データを認識して第２の言語体系における第２の言語データを生成する第２の音声認識手段と、前記第１の言語データを第２の言語体系における第２の言語データに翻訳する第１の翻訳処理手段と、前記第２の言語データを第１の言語体系における第１の言語データに翻訳する第２の翻訳処理手段と、前記第１の言語データを第１の音声データに変換する第１の音声変換手段と、前記第２の言語データを第２の音声データに変換する第２の音声変換手段と、前記第１の音声変換手段及び前記第２の音声変換手段により変換された音声データを音声に変換して出力する音声出力手段と、を有することを特徴とする会話型翻訳装置。
音声を入力して音声データとする音声入力手段と、該音声入力手段により入力された前記音声データを認識して第１の言語体系における第１の言語データを生成する第１の音声認識手段と、前記音声データを認識して第２の言語体系における第２の言語データを生成する第２の音声認識手段と、前記第１の言語データを第２の言語体系における第２の言語データに翻訳する第１の翻訳処理手段と、前記第２の言語データを第１の言語体系における第１の言語データに翻訳する第２の翻訳処理手段と、前記第１の言語データを第１の音声データに変換する第１の音声変換手段と、前記第２の言語データを表示する言語データ表示手段と、前記第１の音声変換手段により変換された音声データを音声に変換して出力する音声出力手段と、を有することを特徴とする会話型翻訳装置。
前記音声入力手段として、前記第１の言語データに対応する音声を入力する第１の音声入力手段と、前記第２の言語データに対応する音声を入力する第２の音声入力手段とを有し、前記第１の音声入力手段と前記第２の音声入力手段とが相互に離間して設けられていることを特徴とする請求項１又は２に記載の会話型翻訳装置。
前記第１の音声入力手段と前記第２の音声入力手段とが相互に異なる方向を指向していることを特徴とする請求項３に記載の会話型翻訳装置。
利用者への情報提供を行うための情報表示手段をさらに有し、前記第１の音声入力手段と前記第２の音声入力手段とが前記情報表示手段の表示画面を挟んでその両側に配置されていることを特徴とする請求項３又は４に記載の会話型翻訳装置。
前記音声出力手段として、前記第１の言語データに対応する音声を出力する第１の音声出力手段と、前記第２の言語データに対応する音声を出力する第２の音声出力手段とを有し、前記第１の音声出力手段と前記第２の音声出力手段とが相互に離間して設けられていることを特徴とする請求項１乃至５のいずれか一項に記載の会話型翻訳装置。
前記第１の音声入力手段と前記第２の音声入力手段とが相互に異なる方向を指向していることを特徴とする請求項６に記載の会話型翻訳装置。
利用者への情報提供を行うための情報表示手段をさらに有し、前記第１の音声出力手段と前記第２の音声出力手段とが前記情報表示手段の表示画面を挟んでその両側に配置されていることを特徴とする請求項６又は７に記載の会話型翻訳装置。
前記第１の翻訳処理手段若しくは前記第２の翻訳処理手段の翻訳対象及び翻訳結果を表示する翻訳表示手段をさらに有することを特徴とする請求項１乃至８に記載の会話型翻訳装置。
前記翻訳表示手段は、前記第１の言語データを表示する第１の表示画面と、前記第２の言語データを表示する第２の表示画面とを有することを特徴とする請求項９に記載の会話型翻訳装置。
利用者への情報提供を行うための情報表示手段をさらに有し、前記音声出力手段は、前記情報表示手段の表示画面を振動させる手段を有することを特徴とする請求項１乃至３のいずれか一項に記載の会話型翻訳装置。