JP6178198B2

JP6178198B2 - 音声翻訳システム、方法およびプログラム

Info

Publication number: JP6178198B2
Application number: JP2013205869A
Authority: JP
Inventors: 建太郎降幡; 住田　一男; 一男住田; 聡史釜谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2017-08-09
Anticipated expiration: 2033-09-30
Also published as: US20150095011A1; US9507774B2; CN104516876A; JP2015069600A

Description

本発明の実施形態は、音声翻訳システム、方法およびプログラムに関する。

近年、文化や経済のグローバル化に伴い、異なる言語を母語とする人同士のコミュニケーションを支援する翻訳装置への期待が高まっている。例えば、スマートフォン等の携帯端末で動作する音声翻訳アプリケーションソフトが商用化されている。また、音声翻訳機能を提供するサービスも運用されている。

このような音声翻訳システムは、ユーザのコミュニケーションのスタイルによって、次の２種類に分類できる。第１のシステムは、原言語のユーザが発話すると、目的言語のユーザが翻訳結果の音声を聴くという音声交換型のシステムである。第２のシステムは、ユーザが自身の発話が正しく処理されたか否かを認識結果のテキストを読んだり、相手の発話の翻訳テキストを読んだりして、画面を確認しながら対話を進める画面併用型のシステムである。

前者の音声交換型システムは、ユーザが画面を見なくてよいという点で、同一言語話者同士の対話に近いといえる。しかし、音声認識や機械翻訳を誤りなく行うことは現在の技術レベルでは不可能である。そこで、ユーザが言い直したり、発話の意図を推測したり、問い直したりするために、必ずしも正確とは限らない認識結果や翻訳結果をユーザに提示するためのフィードバック機能が必要である。

この際、音声認識結果や翻訳結果を逐一音声で出力することは即時性に欠ける上に、一覧性に乏しく、効率的とは言えない。したがって、ユーザが画面を見ることが可能な状況においては、後者の画面併用型音声翻訳システムが有利であって、現存のシステムも大半がこちらに分類される。

画面併用型音声翻訳システムは、ユーザがそれぞれどのような画面を、どのように見るのか、という閲覧のスタイルによって、次の２種類にさらに大別できる。

第1のシステムは、ユーザ同士が一台の端末の画面を一緒に見ながら対話する画面共有型のシステムであり、第２のシステムは、話者がそれぞれ別の端末で画面を見て対話する個別画面型のシステムである。

２種類のシステムのうち、いずれが好適であるかは、音声翻訳端末の画面およびユーザが対話する状況に依存する。

第１のシステムは、端末の共有画面が、ユーザ同士が表示内容を容易に目視するのに十分な大きさを備えていて、ユーザ同士が端末の画面を一緒に見ることができる位置関係にあって、さらにそれを可能にする周囲の状況が存在する場合において、有利である。

一方、第２のシステムは、ユーザ同士が遠隔地に居るなど、物理的に離れている場合はもちろんのこと、近距離であっても第１のシステムよりも有利な場合がある。

たとえば、壁など障害物で隔てられている場合や、ユーザ同士で一緒に見るには端末の画面が小さい場合や、振動の激しい乗り物に乗っていて画面を相手に見せたり、手渡したりが難しい場合などである。

さらには物理的なユーザ同士の位置関係や周囲の状況のみならず、画面の共有が難しい場合もある。

たとえば、お互い初対面でよく知らない相手の場合は、端末を手渡すと盗難の恐れがある。あるいは、あまり顔を近づけて話したくないといった心理的な理由で、画面の共有が難しい場合がある。

そのようなユーザの対話における諸々のシチュエーションを鑑みて、単にユーザ間の距離が離れている場合以外においても、２つ以上の表示端末を用いた連携システムや連携方法が必要とされている。

特許文献１では、ユーザが用例を選択する翻訳装置において、原言語のユーザと目的言語のユーザとで異なる表示領域を用意し、原言語のユーザが選択した対訳用例の原言語テキストは原言語のユーザ用の表示領域に表示し、該原言語テキストに対応する目的言語テキストは目的言語のユーザ用の表示領域に表示することを特徴とした技術が開示されている。

特許文献２では、ユーザ同士が向かい合って対話するための携帯用の音声入力翻訳装置において、原言語のユーザ用の表示部と目的言語のユーザ用の表示部を設け、原言語テキストは原言語の表示部に原言語のユーザの向きで表示し、目的言語のテキストは目的言語の表示部に相反する方向で表示する。加えて、スピーカ、マイクまたはカーソルキーなどの音声入力操作部についても相反する方向に備える。

特許文献３では、３人以上の複数の人々の間で会話を行うに際して、自分の発話の翻訳データと自分の端末の識別データを送信する。翻訳データが自分の言語でないときは改めて自言語に翻訳して、相手識別データと関連付けて表示することで、自端末には自言語での表示を発話者が識別できるように表示することを特徴とした技術が開示されている。

特開平８−７７１７６号公報特開平８−２７８９７２号公報特開２００５−１０７５９５号公報

特許文献１、２及び３は原言語のユーザには原言語を表示する一方、目的言語のユーザには目的言語を表示し、２画面および２端末がほぼ対称性を有する構成である。特許文献１及び２は、ユーザ同士が対面している使用場面を想定し、表示部は２つであるが端末は１台であることから、前記の画面共有型システムに分類される。

特許文献３は特許文献１および特許文献２よりもユーザ同士が離れている場面を想定した前記個別画面型システムに分類される。

まず、画面共有型システムの問題として、あるユーザの端末を共有しようとしたときに、端末の所有者以外のユーザにとって操作が難しい場合も生じることがある。

たとえば、店舗のスタッフと来店した外国人客とが店舗のカウンターに設置されたタブレット端末の画面共有型同時通訳システムを使って対話する場合を考える。この場合、スタッフはタブレットの操作にある程度習熟しているが、初めて来店した客はタブレットの操作方法に慣れていないため、操作は容易ではない。操作ガイドを表示させたり、スタッフが指示することで緩和できたとしても十分ではない。また、そもそも、言語が通じない客に対してスタッフが操作のアドバイスを適切に行うことは相当に困難である。

画面の操作だけではなく、マイクロフォンへの音声入力についても同様の問題が存在する。現在の音声認識技術では完全に誤りをなくすことは難しく、特に店舗など実使用環境において認識精度を高めるためには、発話の仕方の工夫が必要である。たとえば、発話の音量やマイクロフォンへの口の近づけ方、マイクロフォンへの持ち方によって認識精度が左右されてしまう。したがって、端末に備えられたマイクロフォンへの入力に対して、ユーザ側の一定の慣れ、言い換えれば適応がないと認識精度が悪化してしまう可能性が高い。そのため、異なる形状の端末で持ち方が異なるうえに、異なるスペックのマイクロフォンを搭載した端末に対して、ユーザが初めて音声入力をする場合は、認識誤りが生じやすく、正しく入力することが難しい。

この例では、店舗のスタッフはタブレットに音声入力できたとしても、来店客には難しい。したがって、来店客がもし、音声入力や画面操作に慣れているスマートフォン端末を所持していた場合、そちらを使って音声入力させることによって認識精度の向上を期待できる。

このような課題について、前記の画面共有型システムでは考慮されてこなかった。一方、前記の個別画面型システムの場合、さきほどの例では、スタッフはタブレット画面を見て、来店客は所持していたスマートフォンの画面をそれぞれ見ながら対話をすることになる。それぞれの端末への音声入力については、お互いに一定の適応があると考えられる。しかし一方、表示画面については問題が残る。

表示可能な発話履歴の量が、大画面タブレットと小型のスマートフォンでは大きく異なってしまう。たとえば、「トイレを使ってもいいですか」「はい」のように少ない発話数で済ませられる対話であれば問題はない。しかし、とくに発話数が増えるに従い、来店客がスマートフォンで発話履歴を追うことは一層困難になる。

このように、画面の非対称性があって、なおかつ、ユーザ同士の画面の共有が可能な場合について、どのように各端末の画面を構成するべきかという課題は、従来の個別画面型システムでは十分に解決できない。

上記の例の場合、タブレットの画面をスタッフと客が一緒に見ることができ、さらにスマートフォンには客の使用言語で客にとって必要な情報のみを表示できれば、対話が円滑に進められると考えられる。

他にも、たとえば画面共有型システムには次のような課題もある。音声入力に関して、共有画面の端末がカウンターに設置されている場合などを考えると、マイクロフォンが必ずしも客の発話に適した位置にあるとは限らず、また移動させることができるとは限らない。

さらに、画面に関して、画面をスマートフォンの画面を共有できたとしても、必ずしも信用できない相手に自分の端末を手渡すことで、端末が盗難される恐れもある。加えて、触らせて操作させることや、そのために必要以上にお互いが接近することに対して心理的抵抗がある場合もある。

このような場合に、スタッフと客とが一緒に見る端末とは別に、確認はユーザの自端末で行うようにすれば、必要以上に相手に近づかなくて済むという利点もある。

もう一つ講演の例を挙げる。外国人の聴衆に向かって、大画面のプロジェクターを使って講演する。外国人の聴衆と講演者の質疑応答において、講演者と聴衆は距離が離れているため、聴衆と講演者はそれぞれ手元のマイクを使って発話すると、それぞれの発話の翻訳テキストを大画面に映し出す画面共有型音声翻訳システムが考えられる。しかし、聴衆は、端末がないためプロジェクター画面を操作できない。もしプロジェクター画面を操作できる端末があったとしても、一人の聴衆のためにプロジェクター画面を切り替えることは他の聴衆に迷惑になるため難しい。加えて、聴衆の使用言語が複数である場合、さらに困難を極める。したがって、聴衆の端末は、マイク機能と、聴衆の使用言語で聴衆にとって必要な情報のみを表示でき、個別に確認できれば、質疑応答の対話が円滑に進められると考えられる。

以上の考察から、従来の画面共有型システム、個別画面型システムのいずれであっても上記の課題を十分に解決できない。

上記の課題を解決するためには、画面のサイズの非対称性、ユーザ同士が同じ画面を見ることができるか否かという画面の共有可能性、および端末の音声入力部へのユーザの適応性をも考慮した音声翻訳システムが必要である。

特に近年、スマートフォンやタブレットに代表されるさまざまな形状を持った情報携帯端末が急速に普及してきている現状があり、さまざまの端末をどのように組み合わせるか、という観点からも上記の課題の解決が強く望まれる。

本開示は、上述の課題を解決するためになされたものであり、音声翻訳システム、方法およびプログラムを提供することを目的とする。

第１の発明は、第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、制御装置と、を有する音声翻訳システムであって、該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、表示する第１表示部を具備し、該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する第２表示部を具備することを特徴とする音声翻訳システムである。

第１の発明によれば、ユーザ同士が大きい画面を備えた共有端末の画面を見ながら対話でき、音声入力はユーザ個別の端末を使用することで、音声入力を容易にし、さらにユーザ個別端末にはユーザ言語の情報のみを表示することによって、ユーザの発話の処理結果の確認や対話履歴の確認は共有端末を使わずに個別の端末で行うことができるため、異なる言語のユーザ間の対話を円滑に進めることができる。

第２の発明は、前記機械翻訳装置は、該機械翻訳装置が出力した第１言語の前記第２翻訳テキストを直接又は間接に受け取り、対応する第２言語の第２逆翻訳テキストに変換する逆翻訳部をさらに具備し、前記第２表示部は、前記第２テキスト組のテキスト及び該第２逆翻訳テキストからなる第２言語の第３テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示することを特徴とする第１の発明記載の音声翻訳システムである。

第２の発明によれば、逆翻訳結果を確認することで、正しく第１のユーザに発話が伝わったかどうかを確認できる。

第３の発明は、前記音声翻訳システムは、第３のユーザによる第３言語の音声を取り込み第３音声信号に変換する第３音声入力部を有する第３端末装置をさらに有し、前記音声認識装置は、該第３入力部が出力した該第３音声信号を直接又は間接に受け取り、対応する音声認識結果である第３認識テキストに変換する第３言語認識部をさらに具備し、前記機械翻訳装置は、該音声認識装置が出力した該第３認識テキスト及び前記第１認識テキストを直接又は間接に受け取り、対応する第１言語の第３翻訳テキスト及び第３言語の第４翻訳テキストに変換する第３機械翻訳部をさらに具備し、前記第１表示部は、前記第２テキスト組並びに該音声認識装置が出力した該第３認識テキスト及び該機械翻訳装置が出力した該第４翻訳テキストからなる第３言語の第３テキスト組のうち少なくとも一つのテキスト組、並びに前記第１テキスト組のテキスト及び該第３翻訳テキストからなる第1言語の第４テキスト組を、直接又は間接に受け取り、表示し、該第３端末装置は、該第３テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する表示部３を具備することを特徴とする第１の発明記載の音声翻訳システムである。

第３の発明によれば、多数のユーザが、ユーザそれぞれの言語によるテキストを表示した共有端末の画面を見ながら対話する状況において、共有端末は、ますます増大する表示情報を、すべてのユーザにとって十分な視認性を確保して表示できるサイズの画面を備える必要がある。一方、ユーザは自端末で容易に音声入力でき、かつ自端末には自言語の情報のみを表示することによって、ユーザの発話の処理結果の確認や対話履歴の確認は共有端末を使わずに個別の端末で行うことができるため、ますます多数の言語、多数のユーザ間の対話を円滑に進めることができる。

第４の発明は、前記第１端末装置は、前記第１表示部に表示される前記第１テキスト組及び前記第２テキスト組に含まれるテキストの選択を受け付ける第１表示選択部をさらに具備し、前記制御装置は、該選択第１表示選択部が該選択テキストを受け付けた場合に、該選択テキストに対応する該第２テキスト組に含まれる少なくとも一つのテキストを前記第２表示部に表示するよう制御する第1表示制御部を具備することを特徴とする第１の発明記載の音声翻訳システムである。

第４の発明によれば、相手に見せる情報をコントロールできる。つまり、不適切と思った対話の履歴を、相手の端末に残すことを防ぎ、第１ユーザが重要だとみなす対話のみ第２ユーザ端末に残すことができる。第２ユーザは、対話の終了後、そのログを確認できる。

第５の発明は、前記第２表示部は、前記第1テキスト組に含まれる少なくとも一つのテキストをさらに直接または間接に受け取り、表示する第２表示部であり、前記第１端末装置は、該第２テキスト組を前記第1表示部に表示するか否かの選択を受けつける第２表示選択部をさらに具備し、前記制御装置は、該第２表示選択部が該第２テキスト組を表示する選択を受け付けた場合に、該第２表示部には該第１テキスト組のテキストを非表示にするよう制御する表示制御部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第５の発明によれば、ユーザの距離や状況に応じて、画面を共有する場合については、相手の端末の表示を相手言語のみにコントロールできる。

第６の発明は、前記制御装置は、前記第２表示部に前記第２テキストを表示する際に、前記第１表示部に第２言語で通知メッセージを表示する第１確認指示部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第６の発明によれば、第２ユーザが第１表示部を見ていても、気付かせることができる。

第７の発明は、前記制御装置は、前記第２表示部に前記第２テキストを表示する際に、第２端末装置を振動させたり、確認音を出力させたりする第２確認指示部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第７の発明によれば、第２ユーザが第１表示部を見ていても、気付かせることができる。

第８の発明は、前記音声認識装置は、音声認識処理の尤もらしさを示す認識尤度を前記認識テキストとともに出力する音声認識装置であり、前記制御装置は、該認識尤度に基づいて、前記第２認識テキストを前記第２表示部に表示するか否かを判断する第２認識表示判断部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第８の発明によれば、第２ユーザは自分が発話したことについては、理解している、記憶していることが多い。尤度に基づいて、確認させる必要がなければ、表示させないほうが、画面が混雑しなくてよい。そして、第１表示部を集中して見ることができる。

第９の発明は、前記制御装置は、前記第２認識テキストと前記第２逆翻訳テキストとの一致度に基づいて、前記第２表示部に表示するか否かを判断する第２逆翻訳表示判断部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第９の発明によれば、逆翻訳結果を出すかどうかを自動で決めて、あっているのにいちいち確認させずに済むことができ、第１表示部を集中して見ることができる。

第１０の発明は、前記制御装置は、前記第１表示部に前記第２テキスト組を表示するか否かを第１端末装置と第２端末装置との距離に基づいて判断する第１表示判断部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第１０の発明によれば、距離が離れていて、第１表示部を第２のユーザが良く見れないなら、第１表示部に出さずに済み、第１のユーザによって自動で見やすくなる。

第１１の発明によれば、前記制御装置は、前記第１表示部に前記第２テキスト組を表示するか否かを第１表示部に対する第２ユーザの可読性に基づいて判断する第１表示判断部をさらに具備することを特徴とする第１の発明記載の音声翻訳システムである。

第１１の発明によれば、第１０の発明に似ているが、第２のユーザの画面の可読性によって決めることができ、画面共有モードかそうでないかを自動で切り替える。

第１２の発明は、前記第２端末装置は可搬型端末装置であることを特徴とする第１の発明記載の音声翻訳システムである。

第１２の発明によれば、第２ユーザは普段使っている端末を持ち運べることができ、対話後、必要な対話情報ログを持った端末を持ち運べる。

第１３の発明は、前記第１表示部の表示領域の第1面積は、前記第２表示部の表示領域の第２面積よりも大であることを特徴とする第１の発明記載の音声翻訳システムである。

第１３の発明によれば、画面が大きい方の端末を共有することができる。

第１の実施形態に係る音声翻訳システムを構成する要素ブロック図。第１の実施形態に係る音声翻訳システムを構成する装置の外観を示す図。第１端末装置２００の第１表示部２２０に表示する画面構成の例を示す図。第２端末装置３００の第２表示部３２０に表示する画面構成の例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係る動作例を示す図。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。第１の実施形態に係るフローチャート。記憶装置の端末及びユーザに関するテーブルの例を示す図。記憶装置の発話履歴テーブルの例を示す図。

以下、添付図面を参照しながら、本発明の音声翻訳システム、及びプログラムの実施形態を詳細に説明する。なお、以下の各実施形態では、第１言語を日本語と仮定し、第２言語を英語と仮定して説明するが、翻訳方向はこれに限定されるものではなく、あらゆる言語間での翻訳に適用することができる。

（第１実施形態）
図１は、第１の実施形態に係る音声翻訳システムを構成する要素ブロック図である。

音声翻訳システムは、第１言語の第1音声信号及び第２言語の第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置１１０と、音声認識装置１１０が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換し、さらに該第２翻訳テキストを第２言語の第２逆翻訳テキストに変換する逆翻訳部１２１を有する機械翻訳装置１２０と、記憶装置１３０と、第１端末装置２００と、第２端末装置３００と、制御装置４００から構成される。

記憶装置１３０には、後述する端末情報テーブル、ユーザ情報テーブル、言語情報テーブル、発話履歴テーブル、端末使用テーブル、音声入力言語テーブル、表示言語テーブル、および対話履歴テーブルが記憶されている（詳細については図２２で説明する）。

第１端末装置２００は、第1のユーザ（日本語話者）による第1言語の音声を取り込み第1音声信号に変換する第１音声入力部２１０と、第１認識テキスト及び第２翻訳テキストからなる第１言語の第1テキスト組を表示する第１表示領域２２１並びに、第２認識テキスト及び第１翻訳テキストからなる第２言語の第２テキスト組を表示する第２表示領域２２２を備えた第１表示部２２０と、第１表示部２２０に表示される前記第１テキスト組及び前記第２テキスト組に含まれるテキストの選択を受け付ける第１表示選択部２３０と、前記第２テキスト組を表示する第２表示領域を第１表示部に表示するか否かの選択を受けつける第２表示選択部２４０から構成される。

第２端末装置３００は、第２のユーザ（英語話者）による第２言語の音声を取り込み第２音声信号に変換する第２音声入力部３１０と、第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する第３表示領域３２１、直近の発話に対する第２認識テキストおよび対応する第２逆翻訳テキストを表示する第４表示領域３２２並びに、該第３表示領域に表示される第１言語のテキストに対応する第２言語のテキストを表示する第５表示領域３２３を備えた第２表示部３２０から構成される。

制御装置４００は、第１表示制御部４１０と、第２表示制御部４２０と、第１表示判断部４３０と、第２表示判断部４４０と、第１確認指示部４５０と、第２確認指示部４６０から構成される。ここで、直接とは、装置間が直接接続されている、又は、１つのハードウェアに２つ以上のソフトウェアが実装されているという意味である。また、間接とは、有線または無線のネットワークを経由して、という意味である。

第１の実施形態を、第１端末装置２００をタブレット形状のハードウェア、第２端末装置３００を第１端末装置２００よりも小さい可搬型のスマートフォン形状のハードウェアで実施した場合の外観を図２に示す。

音声認識装置１１０、音声翻訳装置１２０、記憶装置及び制御装置４００は一つのサーバで構成され、第１端末装置２００及び第２端末装置３００はこのサーバと有線または無線の通信手段を用いて通信する。記憶装置１３０は制御装置４００に内蔵されていてもよい。

第１端末装置２００の筺体は、タッチパネルディスプレイならびにマイクロフォンを配した構成となっている。例えば、タッチパネルディスプレイが静電容量式のものであれば、指で触れるとその場所がポインティングされたことを検知することができるポイティング機能と文字や画像などを表示することのできる表示機能を合わせもったデバイスということになる。

第２端末装置３００の筺体も、タッチパネルディスプレイならびにマイクロフォンを配した構成となっている。ただし、タッチパネルディスプレイの画面サイズは第１端末装置２００よりも小さいため、第１端末装置２００と比べて表示できる情報量は少ない。

たとえば、第１のユーザ（以下、Hanakoという）は日本語話者であり、第1端末装置２００であるタブレットに接続されたマイクロフォンに音声入力する。第２のユーザ（以下、Jackという）は英語話者であり、第２端末装置３００であるスマートフォンに内蔵されたマイクロフォンに音声入力する。HanakoとJackは第１端末装置２００であるタブレットの大きな表示画面をお互い見ながら対話する。音声入力はお互いが普段使っている端末のマイクロフォンを使う。

図３は、第１端末装置２００のタッチディスプレイ上の画面構成を示す。

第１端末装置２００の第１表示部２２０は、第１ユーザの発話に対する日本語の認識テキストおよび第２ユーザの発話に対して英語から日本語に翻訳した翻訳テキストを表示する第１表示領域２２１と、第２ユーザの発話に対する英語の認識テキストおよび第１ユーザの発話に対して日本語から英語に翻訳した翻訳テキストを表示する第２表示領域２２２と、第２表示領域の表示／非表示を切り替える英語表示ボタン２２３からなる。

図４は、第２端末装置３００のタッチディスプレイ上の画面構成を示す。

第２端末装置３００の第２表示部３２０は、第２ユーザの発話に対する英語の認識テキストおよび第１ユーザの発話に対して日本語から英語に翻訳した翻訳テキストを表示する第３表示領域３２１と、第２ユーザの直近の１つの発話に対する認識テキストおよび対応する第２逆翻訳テキスト並びに、認識テキストを受理するか、棄却するかを確認するＯＫボタンおよびＣａｎｃｅｌボタンを表示する第４表示領域３２２と、該第３表示領域に表示される第１言語のテキストに対応する第２言語のテキストを表示する第５表示領域３２３と、第５表示領域の表示／非表示を切り替える日本語表示ボタン３２４からなる。

第３、第４及び第５表示領域をすべて表示するための、十分な画面サイズがない場合、たとえば、図４（ｂ）のように第５表示領域３２３を表示する場合は、第４表示領域３２２を非表示とする構成でもよい。

あるいは、図４（ｃ）のように、第２表示部３２０において、第３表示領域３２１をなくし、第５表示領域には第４表示領域の認識テキストに対応する第１言語の翻訳テキストを表示することとし、第４表示領域３２２と、第５表示領域３２３と、および日本語表示ボタン３２４からなる構成としてもよい。

図５から図１２を用いて第１の実施形態の動作例を説明する。ここでは、第１ユーザが店員（日本語話者）、第２話者が顧客（英語話者）という対面接客の場面での動作例を説明する。

図５は、第１ユーザが音声「いらっしゃいませ！」を発話した場合の第１端末装置２００および第２端末装置３００の表示内容である。認識テキスト「いらっしゃいませ！」および対応する翻訳テキスト”Welcome!”が第１表示部２２０にそれぞれ表示され、第２表示部３２０には翻訳テキスト”Welcome!”のみが表示されている状態を示している。

以下、図６から図１２の図面にて、双方の利用者が発話する動作例を説明する。

図６は、英語のユーザが発話した場合の表示例である。音声”I want to buy a mirror-less camera.”は第２音声入力部３１０で取り込まれ、音声認識装置１１０で音声認識処理が行われ、音声認識テキスト”I want bye there come here.”および認識尤度（この場合は０．１とする）が出力される。第１表示判断部４３０は、前記認識尤度と、あらかじめ設定された閾値（この場合は０．８とする）と比較して、認識尤度の方が値が小さいため、該認識テキスト”I want bye there come here.”が誤りであると判断し、翻訳処理を行わずに、第１表示部２２０に認識テキストを表示するとともに、第２表示部３２０の第４表示領域３２２に認識テキスト”I want bye there come here.”を表示する。

このとき、英語ユーザが第１表示部２２０を見ていたり、よそ見をしていて第２表示部３２２を見ていない場合に確認を促すために、第1表示部２２０の第２領域２２２に“Please check your smartphone.”と確認メッセージを表示するよう第1確認指示部４５０が制御するとともに、スマートフォン３００を振動させる、またはスマートフォン３００から警告音を出力するように第２確認指示部が制御する。さらに、日本語ユーザに対しても、確認させる状態であることを示すメッセージ「ただいま確認中です・・・」が第１表示領域２２１に表示される。

さらに、第３表示領域３２１には、認識テキストの代わりに、認識テキストがユーザによる未確定状態であることを表す“Checking now...”と表示される。

英語ユーザが”Cancel”ボタンをタップすると、第２表示領域２２２および第４表示領域３２２の認識テキストはクリアされ、確認メッセージもクリアされる。また、第1領域２２１および第３領域３２１の確認状態テキストもクリアされる。

もし、“OK”ボタンをタップした場合は、第４表示領域３２２の認識テキストはクリアされ、翻訳処理が続行され、翻訳テキストが第１表示領域２２１に表示されることになる。

続いて、英語ユーザが言い直した場合の表示例を図７に示す。

この場合は、発話音声に対して、音声認識装置１１０で認識処理され、認識テキストおよび認識尤度（１．０）が出力された。第１表示判断部４３０は、同様に認識尤度が閾値（０．８）より大であるため、正しく認識されていると判断し、機械翻訳装置１２０で該認識テキストを処理して翻訳テキストおよび逆翻訳部１２１によって処理された逆翻訳テキストが出力される。

第２表示判断部４４０は、認識テキストと逆翻訳テキストとを比較して一致度（この場合は０．８６）を算出する。該一致度とあらかじめ設定された閾値（この場合は０．８とする）と比較して、一致度が閾値よりも大であるため、認識テキストを正しく翻訳されたと判断し、翻訳テキスト「ミラーレスデジカメを買いたいのですが。」を第１表示領域２２１に表示されている。このとき、第４表示領域３２２には認識テキストおよび逆翻訳テキストは表示されない。

さらに対話が進み、日本語ユーザが発話し、さらに英語ユーザが発話した場合の表示例を図８に示す。

この場合は、英語ユーザの発話音声”Someday, when my daughter grow up, I want to show her the photos.”が入力され、音声認識装置１１０によって処理され、認識テキストおよび認識尤度１．０が出力された。図７の場合と同様に、第1表示判断部４３０は認識尤度１．０であり、閾値より大であることを判断し、第２表示領域２２２に認識テキストが表示されている。続いて、機械翻訳装置１２０で該認識テキストを処理して翻訳テキストおよび逆翻訳部１２１によって処理された逆翻訳テキストが出力される。

第２表示判断部４４０は、認識テキストと逆翻訳テキストとを比較して一致度（この場合は０．６９）を算出する。該一致度とあらかじめ設定された閾値（この場合は０．８とする）と比較して、一致度が閾値よりも小であるため、認識テキストが誤って翻訳されたと判断し、英語ユーザに確認をうながすために、確認メッセージ“Please check your smartphone.”を第２表示領域２２２に表示するとともに、第４表示領域３２２に認識テキストおよび逆翻訳テキスト”Someday, my daughter become large, I want to show the photos of that time.”を表示する。さらに、スマートフォンを振動させたり、警告音を出力する。

日本語ユーザには、英語ユーザの確認待ちであることを伝えるために、第１表示領域２２１にメッセージ「ただいま確認中です・・・」が表示される。対応する第３表示領域３２１にはメッセージ“Checking now...”を表示する。

図７の場合と同様にユーザが“Cancel”ボタンをタップすると、第１表示領域２２１、第２表示領域２２２、第３表示領域３２１および第４表示領域３２２の表示がクリアされる。一方、“ＯＫ”ボタンをタップした場合には、各表示がクリアされて、第１表示領域２２２に翻訳結果が表示される。

続いて、図９にさらに対話が進んだ場合の表示例を示す。日本語ユーザの既発話のうちスマートフォン３００に残したくない発話がある場合に、自端末２００から選択表示／削除することができる。ここでは、英語ユーザが「ちょっと値は張りますが」をスマートフォンから削除したい場合の操作例を説明する。タブレット２００の日本語テキスト「ちょっと値は張りますが」あるいは対応する英語テキスト“It’s a bit expensive.”の上でタップすると、両テキストがハイライト表示される（図９では「網掛け」表示）。第３表示領域３２１の“It’s a bit expensive.”が削除され、図１０のように表示される。もし、日本語ユーザが再度タップすると、ハイライト表示が通常表示に代わり、スマートフォン端末の同じ個所に再び“It’s a bit expensive.”が表示される。

このように、不用意な発言や誤解を招くような発言を店員側の端末２００で選択することで、お客側の端末３００に残さずに済む。逆に重要な発言のみをお客側の端末３００に残すことも可能である。

第１端末装置２００の「英語表示」ボタン２２３のチェックを外した場合の表示例を図１１に示す。ここでは、第２表示領域２２２が非表示になり、第１表示領域２２１が横に長くなり、各発話が一行で表示されている。したがって、より多くの発話履歴を画面に表示できるようになる。

第２端末装置３００の“display in Japanese”ボタン３２４をチェックした場合の表示例を図１２（ａ）及び（ｂ）に示す。これは、第１端末装置２００の「英語表示」ボタン２２３のチェックを外されている場合のみチェック可能である。すなわち、第１端末装置２００に英語テキスト表示のための第２表示領域２２２が表示されている場合は、チェックできない。

図１２（ａ）は、画面を左へ９０度回転させて、画面左側に第１言語の第３表示領域３２１、画面右側に第２言語の第５表示領域３２３を表示している。

図１２（ｂ）は、第２言語の認識テキストおよび逆翻訳テキストが表示されている第４表示領域表示３２２に、さらに第１言語の翻訳テキストが表示されている。

第１の実施形態における処理フローを図１３乃至図２１の図面を用いて説明する。図５乃至図１２で示した動作例を実現するものである。

図１３は、第１端末装置２００および第２端末装置３００を接続した場合に最初に実行される処理フローである。図２２に示す各テーブルを作成し、その値を初期値にセットする。

Ｓ１０２において、第１端末装置２００および第２端末装置３００に端末ＩＤとして１および２をそれぞれ付与する。第１端末装置２００および第２端末装置３００のユーザ名および使用言語情報を取得し、第１ユーザ（Ｈａｎａｋｏ）にはユーザＩＤとして１を、第２ユーザ（Ｊａｃｋ）にはユーザＩＤとして２を付与する。言語名（日本語、英語）と言語ＩＤ（ＪＰ，ＥＮ）との対応テーブルはあらかじめ記憶装置１３０に記憶されている。作成されたテーブルを図２２（ａ）に示している。

Ｓ１０３でユーザと端末との位置関係を推定し、Ｓ１０４で端末サイズ（より詳しくは端末の画面サイズ）の違いを比較し、各ユーザがいずれの端末を使って音声入力し、いずれの端末画面に出力するのかを決定する。ここでは、日本語ユーザと英語ユーザの両方が日本語ユーザ側にあるタブレットの大きい画面を見るが、スマートフォンは英語ユーザが手に持っており、英語ユーザのみがスマートフォンの小さい画面を見ることができる位置関係にあると想定している。そして、日本語ユーザはタブレットのマイクを使って入力し、英語ユーザは手持ちのスマートフォンのマイクに音声入力することとしている。その場合にセットされた端末使用表を図２２（ｂ）に示している。

この状況では、音声入力の言語について、タブレット端末は英語のみで、スマートフォン端末は日本語のみであるから、図２２（ｃ）のように音声入力言語表をセットする。

一方、表示言語について、タブレット端末には英語および日本語を表示し、スマートフォン端末には日本語のみ表示するので、表示言語表は図２２（ｄ）のようにセットする。

Ｓ１０５で、タブレット端末およびスマートフォン端末の音声入力部および表示部（タップ検出）が入力受け付け状態に移行する。

図１４に音声入力イベントの処理フローを示す。

Ｓ２０１で、第１音声入力部２１０が音声入力を検出したら、Ｓ２０２に移り、音声入力部から音声情報を受け取り、音声認識装置１１０に入力する。

なお、音声情報を認識テキストに変換する音声認識装置１１０の本体の処理は、すでに公知の技術が存在しており、それらを流用すればよいので、説明は省略する。

Ｓ２０３において、制御装置４００は、音声認識装置１１０の処理が終了すると、制御装置４００は認識テキストおよび認識尤度を受け取ると、発話ＩＤを付与し、話者ＩＤおよび認識言語ＩＤとともに記憶装置１３０の発話履歴テーブルに書き込む。（図２３の１行目を参照）
Ｓ２０４において、もし端末ＩＤが１である場合は、Ｓ２０６に進み、端末ＩＤが２であるならＳ２０５に進む。

Ｓ２０５では、制御装置４００の第１表示判断部４３０での処理フロー（図１５に示す）を呼び出す。

Ｓ２０６では、認識テキストを第１端末装置２００に送信し、第１表示部２２０に表示する。

Ｓ２０７では、認識テキストを機械翻訳装置１２０に入力し、Ｓ２０８で翻訳テキストおよび逆翻訳テキストを受け取り、図２３の発話履歴テーブルに書き込む。

なお、第１言語のテキストを第２言語のテキストに変換する機械翻訳装置の本体の処理は、すでに公知の技術が存在しており、それらを流用すればよいので、説明は省略する。

Ｓ２０９で端末ＩＤによって処理を分岐する。端末ＩＤが１であればＳ２１１に進み、端末ＩＤが２であれば、Ｓ２１０に進む。

Ｓ２１０では、制御装置４００の第２表示判断部４４０での処理フロー（図１６に示す）を呼び出す。

Ｓ２１１では、翻訳テキストを第１端末装置２００に送信し、第１表示部２２０に表示する。

Ｓ２１２では、発話履歴テーブルの言語ＩＤが２である認識テキストまたは翻訳テキスト（つまり、第２言語のテキスト）を第２端末装置３００に送信し、第２表示部３２０の第３表示領域３２１に表示する。

Ｓ２１２の表示処理が終了すると、再び、Ｓ２０１の音声入力のイベント待ち状態に移行する。

図１５に、第１表示判断部４３０の処理フローを示す。

Ｓ３０２で認識テキストおよび認識尤度を受け取る。

Ｓ３０３で認識尤度と閾値（ここでは０．８）とを比較する。

認識尤度が閾値より小ならば、Ｓ３０４に進む。

一方、認識尤度が閾値以上ならばＳ３０６に進み、呼び出し元のフローに戻る（図１４のＳ２０５）。

Ｓ３０４では、認識テキストを第２端末装置３００に送信して、認識テキストおよび確認ボタンを第２表示部３２０の第４表示領域３２２に表示するように制御する。

Ｓ３０５で、第２端末装置３００の第２表示部３２０は確認ボタンの入力イベント待ち状態へと移行する。

なお、もしも第２端末装置に音声入力が行われた場合、確認表示はクリアされるように設定してもよい。

図１６に、第２表示判断部４４０の処理フローを示す。

制御装置４００において、認識テキストおよび逆翻訳テキストを受け取る（Ｓ４０２）。

認識テキストと逆翻訳テキストの一致度を計算する（Ｓ４０３）。

一致度の指標は公知の技術がさまざまある。ここでは、認識テキストに含まれる単語のうち逆翻訳テキストにも含まれる単語数を認識テキストの総単語数で割った値を用いた。一致度が閾値（ここでは０．８とする）より小さければ、Ｓ４０５に進む。（Ｓ４０４）
閾値以上ならばＳ４０７に進み、呼び出し元フロー（図１４のＳ２１０）に戻る。

認識テキスト、逆翻訳テキストおよび確認ボタンを第２表示部３２０の第４表示領域３２２に表示する。（Ｓ４０５）
第２端末装置３００の第２表示部３２０は確認ボタンの入力イベント待ち状態へと移行する。（Ｓ４０６）
図１７に、第１表示部２２０にユーザがタップしたときの制御フローを示す。

タップ待ち受け状態（Ｓ５０１）からＳ５０２に移行して、発話テキスト（第１表示領域２２１および第２表示領域２２２のテキスト）へのタップであれば、Ｓ５０３に進む。そうでなければ、Ｓ５０４に進む。

Ｓ５０３では、制御装置４００の第１表示制御部４１０の処理フロー（図１８）を呼び出す。

Ｓ５０４では、該タップが第２言語表示ボタンへのタップであれば、Ｓ５０５に進み、それ以外のエリアへのタップであれば、Ｓ５０１に戻る。

Ｓ５０５では、制御装置４００の第２表示制御部４２０の処理フロー（図２０）を呼び出す。

図１８は、制御装置４００の第１表示制御部４１０の処理フローである。

Ｓ６０２で、該タップテキストが発話履歴表（図２３）におけるいずれの認識テキスト／翻訳テキストであるか、を特定する。特定した発話ＩＤ行における第２表示フラグを参照する。第２表示フラグがＯＦＦであれば、Ｓ６０３に進む。ＯＮであればＳ６０６に進む。

Ｓ６０３では、発話履歴表の該第２表示フラグをＯＮに書き換える。

第１表示部２２０の該発話ＩＤに対応する第１表示領域および第２表示領域のテキストをハイライト表示する。（Ｓ６０４）
第２表示部３２０の該発話ＩＤに対応する第２言語のテキスト（すなわち、言語ＩＤが２である認識テキストまたは翻訳テキスト）を、第２端末装置３００に送信して、第２表示部３２０の第３表示領域３２１に、発話ＩＤの順序に沿って表示するように制御する。

Ｓ６０６では、発話履歴表の該発話ＩＤ行の第２表示フラグをＯＦＦに書き換える。

Ｓ６０７では、該発話ＩＤに対応するテキストをハイライト表示から通常表示に戻す。

Ｓ６０８では、第２表示部３２０における該発話ＩＤに対応するテキストの表示を消去する。

Ｓ６０９では、呼び出し元フローに戻る。

図１９は、制御装置４００の第２表示制御部４２０の処理フローである。

第２言語表示ボタンがタップされると、Ｓ７０２では、表示言語表の第１端末装置２００（端末ＩＤ１）の第２言語（英語、言語ＩＤ＝ＥＮ）のカラム（ＥＮ，１）の値を参照し、“Ｎｏ”であれば、Ｓ７０３に進む。“ＹＥＳ”であれば、Ｓ７０９に進む。

Ｓ７０３では、カラム（ＥＮ，１）の値を“ＹＥＳ”に書き換える。

Ｓ７０４では、第１表示部２２０に第２表示領域２２２および第２言語（英語）のテキストを表示するように制御する。

さらに、Ｓ７０５で、第２端末装置３００（端末ＩＤ＝２）の第１言語（日本語、言語ＩＤ＝ＪＰ）の表示設定であるカラム（ＪＰ，２）の値を参照し、“ＹＥＳ”であれば、Ｓ７０６に進む。“ＮＯ”であれば、Ｓ７０８に進む。

Ｓ７０６では、カラム（ＪＰ，２）の値を“ＮＯ”に書き換える。

Ｓ７０７では、第２表示部３２０で、第１言語テキストを表示するための第５表示領域３２３を非表示にする。

Ｓ７０８では、第１言語表示ボタン（日本語表示ボタン）を選択できないようにし、Ｓ７１１に進む。

Ｓ７０９では、カラム（ＥＮ，１）の値を“ＮＯ”に書き換える。

Ｓ７１０では、第１表示部２２０で、第２表示領域２２２を非表示にし、Ｓ７１１に進む。

Ｓ７１１では、第２表示部３２０の第１言語表示ボタン３２４（”display in Japanese”）を選択可能にする。

Ｓ７１２では、呼び出し元フローに戻る。

図２０に、第２端末装置３００の第２表示部３２０にユーザがタップしたときの制御フローを示す。

Ｓ８０１での第２表示部３２０へのタップイベント待ち状態から、Ｓ８０２に進む。

現在、第２表示部３２０が確認ボタンの入力イベント待ち状態でなければ、Ｓ８０３に進み、そうでなければＳ８１０に進む。

Ｓ８０３では、第１言語表示ボタン３２４へのタップかどうかを判定する。該ボタンへのタップであれば、Ｓ８０４に進み、そうでなければＳ８０１に戻る。

Ｓ８０４では、第１言語表示ボタン３２４が選択可能であるかどうかを判定する。これは、制御装置４００の第２表示制御部４２０の処理フローのＳ７０８に進むと、第１言語表示ボタン３２４は選択不能にされるからである。

該ボタンが選択可能であればＳ８０５に進み、そうでなければ、Ｓ８０１に戻る。

Ｓ８０５では、第２端末装置３００の第１言語（日本語）の表示設定を確認するために、表示言語表のカラム（ＪＰ，２）の値を参照する。（ＪＰ，２）の値が“ＹＥＳ”であれば、Ｓ８０８に進む。“ＮＯ”であれば、Ｓ８０６に進む。

Ｓ８０６で、カラム（ＪＰ，２）の値を“ＹＥＳ”に書き換える。

Ｓ８０７で、第５表示領域３２３および第１言語テキストを表示させたのち、Ｓ８０１に戻る。

Ｓ８０８では、カラム（ＪＰ，２）の値を“ＮＯ”に書き換える。

Ｓ８０９で、第５表示領域３２３を非表示にしたのち、Ｓ８０１に戻る。

Ｓ８１０では、確認ボタンへの入力イベント待ち状態であるときに、該確認ボタンへのタップであればＳ８１１に進み、そうでなければＳ８０１に戻る。

Ｓ８１１では、確認ボタンの処理フロー（図２１に示す）を呼び出す。

図２１に、ユーザが第２表示部３２０の確認ボタンをタップしたときの処理フローを示す。

Ｓ９０２で確認ボタンが“ＯＫ”であれば、Ｓ９０５に進み、“ＣＡＮＣＥＬ”であれば、Ｓ９０３に進む。

Ｓ９０３では、第４表示領域３２２をクリアする。

Ｓ９０４では、当該第４表示領域３２２に表示されていたテキストの発話ＩＤに対応するテキストを第１表示部２２０から消去する。

Ｓ９０５で、呼び出し元フローに戻る。

なお、本実施形態は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

例えば、講演の場合を考える。そして、第１の端末装置２００がプロジェクターであって、第２の端末装置は、外国人の聴衆がそれぞれ持っている端末の場合、上記実施形態と同様の音声翻訳システムを適用することができる。

１１０音声認識装置
１２０機械翻訳装置
１２１逆翻訳部
１３０記憶装置
２００第１端末装置
２１０第１音声入力部
２２０第１表示部
２２１第１表示領域
２２２第２表示領域
２３０第１表示選択部
２４０第２表示選択部
３００第２端末装置
３１０第２音声入力部
３２０第２表示部
３２１第３表示領域
３２２第４表示領域
３２３第５表示領域
４００制御装置
４１０第１表示制御部
４２０第２表示制御部
４３０第１表示判断部
４４０第２表示判断部
４５０第１確認指示部
４６０第２確認指示部

Claims

第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を有する音声翻訳システムであって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、表示する第１表示部を具備し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する第２表示部を具備し、
前記制御装置は、前記第１表示部に前記第２テキスト組を表示するか否かを、前記第１端末装置と前記第２端末装置との距離に基づいて、又は前記第１表示部に対する前記第２のユーザの可読性に基づいて、判断する第１表示判断部を具備することを特徴とする音声翻訳システム。
前記制御装置は、前記第２表示部に前記第２認識テキストを表示する際に、前記第１表示部に第２言語で通知メッセージを表示する第１確認指示部をさらに具備することを特徴とする請求項１記載の音声翻訳システム。
前記制御装置は、前記第２表示部に前記第２認識テキストを表示する際に、前記第２端末装置を振動させたり、確認音を出力させたりする第２確認指示部をさらに具備することを特徴とする請求項１又は請求項２記載の音声翻訳システム。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を有する音声翻訳システムであって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、表示する第１表示部を具備し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する第２表示部を具備し、
前記第１端末装置は、前記第１表示部に表示される前記第１テキスト組及び前記第２テキスト組に含まれるテキストの選択を受け付ける第１表示選択部をさらに具備し、
前記制御装置は、該選択第１表示選択部が該選択テキストを受け付けた場合に、該選択テキストに対応する該第２テキスト組に含まれる少なくとも一つのテキストを前記第２表示部に表示するよう制御する第1表示制御部を具備する音声翻訳システム。
前記第２表示部は、さらに、前記第1テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示し、
前記第１端末装置は、前記第２テキスト組を前記第1表示部に表示するか否かの選択を受けつける第２表示選択部をさらに具備し、
前記制御装置は、該第２表示選択部が該第２テキスト組を表示する選択を受け付けた場合に、該第２表示部には該第１テキスト組のテキストを非表示にするよう制御する第２表示制御部をさらに具備することを特徴とする請求項４記載の音声翻訳システム。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を有する音声翻訳システムであって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、表示する第１表示部を具備し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示し、前記第1テキスト組に含まれる少なくとも一つのテキストをさらに直接または間接に受け取り、表示する第２表示部を具備し、
前記第１端末装置は、該第２テキスト組を前記第1表示部に表示するか否かの選択を受けつける第２表示選択部をさらに具備し、
前記制御装置は、該第２表示選択部が該第２テキスト組を表示する選択を受け付けた場合に、該第２表示部には該第１テキスト組のテキストを非表示にするよう制御する表示制御部をさらに具備することを特徴とする音声翻訳システム。
前記音声認識装置は、音声認識処理の尤もらしさを示す認識尤度を前記認識テキストとともに出力する音声認識装置であり、
前記制御装置は、該認識尤度に基づいて、前記第２認識テキストを前記第２表示部に表示するか否かを判断する第２認識表示判断部をさらに具備することを特徴とする請求項４乃至請求項６のいずれか一項に記載の音声翻訳システム。
前記機械翻訳装置は、該機械翻訳装置が出力した第１言語の前記第２翻訳テキストを直接又は間接に受け取り、対応する第２言語の第２逆翻訳テキストに変換する逆翻訳部をさらに具備し、
前記第２表示部は、前記第２テキスト組のテキスト及び該第２逆翻訳テキストからなる第２言語の第３テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示し、
前記制御装置は、前記第２認識テキストと前記第２逆翻訳テキストとの一致度に基づいて、前記第２表示部に表示するか否かを判断する第２逆翻訳表示判断部をさらに具備することを特徴とする請求項４乃至請求項７のいずれか一項に記載の音声翻訳システム。
前記制御装置は、
前記第１表示部に前記第２テキスト組を表示するか否かを、前記第１端末装置と前記第２端末装置との距離に基づいて、又は前記第１表示部に対する前記第２のユーザの可読性に基づいて、判断する第１表示判断部をさらに具備することを特徴とする請求項４乃至請求項８のいずれか一項に記載の音声翻訳システム。
前記制御装置は、
前記第２表示部に前記第２認識テキストを表示する際に、前記第１表示部に第２言語で通知メッセージを表示する第１確認指示部をさらに具備することを特徴とする請求項４乃至請求項８のいずれか一項に記載の音声翻訳システム。
前記制御装置は、
前記第２表示部に前記第２認識テキストを表示する際に、前記第２端末装置を振動させたり、確認音を出力させたりする第２確認指示部をさらに具備することを特徴とする請求項４乃至請求項８のいずれか一項に記載の音声翻訳システム。
前記音声翻訳システムは、第３のユーザによる第３言語の音声を取り込み第３音声信号に変換する第３音声入力部を有する第３端末装置をさらに有し、
前記音声認識装置は、該第３入力部が出力した該第３音声信号を直接又は間接に受け取り、対応する音声認識結果である第３認識テキストに変換する第３言語認識部をさらに具備し、
前記機械翻訳装置は、該音声認識装置が出力した該第３認識テキスト及び前記第１認識テキストを直接又は間接に受け取り、対応する第１言語の第３翻訳テキスト及び第３言語の第４翻訳テキストに変換する第３機械翻訳部をさらに具備し、
前記第１表示部は、前記第２テキスト組並びに該音声認識装置が出力した該第３認識テキスト及び該機械翻訳装置が出力した該第４翻訳テキストからなる第３言語の第３テキスト組のうち少なくとも一つのテキスト組、並びに前記第１テキスト組のテキスト及び該第３翻訳テキストからなる第1言語の第４テキスト組を、直接又は間接に受け取り、表示し、
該第３端末装置は、該第３テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する表示部３を具備することを特徴とする請求項１乃至請求項１１のいずれか一項に記載の音声翻訳システム。
前記第２端末装置は可搬型端末装置であることを特徴とする請求項１乃至請求項１２のいずれか一項に記載の音声翻訳システム。
前記第１表示部の表示領域の第1面積は、前記第２表示部の表示領域の第２面積よりも大であることを特徴とする請求項１乃至請求項１３のいずれか一項に記載の音声翻訳システム。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を用いる音声翻訳方法であって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、前記第１端末装置に設けられる第１表示部に表示し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、前記第２端末装置に設けられる第２表示部に表示し、
前記制御装置は、前記第１表示部に前記第２テキスト組を表示するか否かを、前記第１端末装置と前記第２端末装置との距離に基づいて、又は前記第１表示部に対する前記第２のユーザの可読性に基づいて、判断することを特徴とする音声翻訳方法。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を用いる音声翻訳方法であって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、前記第１端末装置に設けられた第１表示部に表示し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、前記第２端末装置に設けられた第２表示部に表示し、
前記第１端末装置は、さらに、前記第１表示部に表示される前記第１テキスト組及び前記第２テキスト組に含まれるテキストの選択を受け付け、
前記制御装置は、該選択テキストが受け付けられた場合に、該選択テキストに対応する該第２テキスト組に含まれる少なくとも一つのテキストを前記第２表示部に表示するよう制御することを特徴とする音声翻訳方法。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を用いる音声翻訳方法であって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、前記第１端末装置に設けられた第１表示部に表示し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、前記第２端末装置に設けられた第２表示部に表示し、前記第1テキスト組に含まれる少なくとも一つのテキストをさらに直接または間接に受け取り、前記第２表示部に表示し、
前記第１端末装置は、さらに、該第２テキスト組を前記第1表示部に表示するか否かの選択を受けつけ、
前記制御装置は、該第２テキスト組を表示する選択が受け付けられた場合に、該第２表示部には該第１テキスト組のテキストを非表示にするよう制御することを特徴とする音声翻訳方法。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を実行させるための音声翻訳プログラムであって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、前記第１端末装置に設けられた第１表示部に表示し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、前記第２端末装置に設けられた第２表示部に表示し、
前記制御装置は、前記第１表示部に前記第２テキスト組を表示するか否かを、前記第１端末装置と前記第２端末装置との距離に基づいて、又は前記第１表示部に対する前記第２のユーザの可読性に基づいて、判断することを特徴とする音声翻訳プログラム。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を実行させるための音声翻訳プログラムであって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、前記第１端末装置に設けられた第１表示部に表示し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、前記第２端末装置に設けられた第２表示部に表示し、
前記第１端末装置は、さらに、前記第１表示部に表示される前記第１テキスト組及び前記第２テキスト組に含まれるテキストの選択を受け付け、
前記制御装置は、該選択テキストが受け付けられた場合に、該選択テキストに対応する該第２テキスト組に含まれる少なくとも一つのテキストを前記第２表示部に表示するよう制御することを特徴とする音声翻訳プログラム。
第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第１音声入力部を有する第１端末装置と、
第２のユーザによる第２言語の音声を取り込み第２音声信号に変換する第２音声入力部を有する第２端末装置と、
該第１入力部及び該第２入力部が出力する該第1音声信号及び該第２音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第２認識テキストに変換する音声認識装置と、
該音声認識装置が出力した該第１認識テキスト及び該第２認識テキストを直接又は間接に受け取り、対応する第２言語の第１翻訳テキスト及び第１言語の第２翻訳テキストに変換する機械翻訳装置と、
制御装置と、を実行させるための音声翻訳プログラムであって、
該第１端末装置は、該音声認識装置が出力した該第１認識テキスト及び該機械翻訳装置が出力した該第２翻訳テキストからなる第１言語の第1テキスト組並びに、該音声認識装置が出力した該第２認識テキスト及び該機械翻訳装置が出力した該第１翻訳テキストからなる第２言語の第２テキスト組を直接又は間接に受け取り、前記第１端末装置に設けられた第１表示部に表示し、
該第２端末装置は、該第２テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、前記第２端末装置に設けられた第２表示部に表示し、前記第1テキスト組に含まれる少なくとも一つのテキストをさらに直接または間接に受け取り、前記第２表示部に表示し、
前記第１端末装置は、さらに、該第２テキスト組を前記第1表示部に表示するか否かの選択を受けつけ、
前記制御装置は、該第２テキスト組を表示する選択が受け付けられた場合に、該第２表示部には該第１テキスト組のテキストを非表示にするよう制御することを特徴とする音声翻訳プログラム。