JP2015069600A - 音声翻訳システム、方法およびプログラム - Google Patents

音声翻訳システム、方法およびプログラム Download PDF

Info

Publication number
JP2015069600A
JP2015069600A JP2013205869A JP2013205869A JP2015069600A JP 2015069600 A JP2015069600 A JP 2015069600A JP 2013205869 A JP2013205869 A JP 2013205869A JP 2013205869 A JP2013205869 A JP 2013205869A JP 2015069600 A JP2015069600 A JP 2015069600A
Authority
JP
Japan
Prior art keywords
text
language
display
translation
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013205869A
Other languages
English (en)
Other versions
JP6178198B2 (ja
Inventor
建太郎 降幡
Kentaro Kohata
建太郎 降幡
住田 一男
Kazuo Sumita
一男 住田
聡史 釜谷
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013205869A priority Critical patent/JP6178198B2/ja
Priority to CN201410471689.6A priority patent/CN104516876A/zh
Priority to US14/493,533 priority patent/US9507774B2/en
Publication of JP2015069600A publication Critical patent/JP2015069600A/ja
Application granted granted Critical
Publication of JP6178198B2 publication Critical patent/JP6178198B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)

Abstract

【課題】店舗にあるタブレット端末と、来店客のスマートフォン端末を利用した音声翻訳システムを提供する。
【解決手段】第1ユーザによる第1言語の音声を第1音声信号に変換する第1端末200と、第2ユーザによる第2言語の音声を第2音声信号に変換する第2端末300と、第1及び第2音声信号を受け取り、対応する音声認識結果である第1及び第2認識テキストに変換する音声認識装置110と、第1及び第2認識テキストを受け取り、対応する第2言語の第1翻訳テキスト及び第1言語の第2翻訳テキストに変換する機械翻訳装置120と、を有し、第1端末200は、第1認識テキスト及び第2翻訳テキストからなる第1言語の第1テキスト組並びに、第2認識テキスト及び第1翻訳テキストからなる第2言語の第2テキスト組を表示し、第2端末300は、第2テキスト組に含まれる少なくとも一つのテキストを表示する。
【選択図】図1

Description

本発明の実施形態は、音声翻訳システム、方法およびプログラムに関する。
近年、文化や経済のグローバル化に伴い、異なる言語を母語とする人同士のコミュニケーションを支援する翻訳装置への期待が高まっている。例えば、スマートフォン等の携帯端末で動作する音声翻訳アプリケーションソフトが商用化されている。また、音声翻訳機能を提供するサービスも運用されている。
このような音声翻訳システムは、ユーザのコミュニケーションのスタイルによって、次の2種類に分類できる。第1のシステムは、原言語のユーザが発話すると、目的言語のユーザが翻訳結果の音声を聴くという音声交換型のシステムである。第2のシステムは、ユーザが自身の発話が正しく処理されたか否かを認識結果のテキストを読んだり、相手の発話の翻訳テキストを読んだりして、画面を確認しながら対話を進める画面併用型のシステムである。
前者の音声交換型システムは、ユーザが画面を見なくてよいという点で、同一言語話者同士の対話に近いといえる。しかし、音声認識や機械翻訳を誤りなく行うことは現在の技術レベルでは不可能である。そこで、ユーザが言い直したり、発話の意図を推測したり、問い直したりするために、必ずしも正確とは限らない認識結果や翻訳結果をユーザに提示するためのフィードバック機能が必要である。
この際、音声認識結果や翻訳結果を逐一音声で出力することは即時性に欠ける上に、一覧性に乏しく、効率的とは言えない。したがって、ユーザが画面を見ることが可能な状況においては、後者の画面併用型音声翻訳システムが有利であって、現存のシステムも大半がこちらに分類される。
画面併用型音声翻訳システムは、ユーザがそれぞれどのような画面を、どのように見るのか、という閲覧のスタイルによって、次の2種類にさらに大別できる。
第1のシステムは、ユーザ同士が一台の端末の画面を一緒に見ながら対話する画面共有型のシステムであり、第2のシステムは、話者がそれぞれ別の端末で画面を見て対話する個別画面型のシステムである。
2種類のシステムのうち、いずれが好適であるかは、音声翻訳端末の画面およびユーザが対話する状況に依存する。
第1のシステムは、端末の共有画面が、ユーザ同士が表示内容を容易に目視するのに十分な大きさを備えていて、ユーザ同士が端末の画面を一緒に見ることができる位置関係にあって、さらにそれを可能にする周囲の状況が存在する場合において、有利である。
一方、第2のシステムは、ユーザ同士が遠隔地に居るなど、物理的に離れている場合はもちろんのこと、近距離であっても第1のシステムよりも有利な場合がある。
たとえば、壁など障害物で隔てられている場合や、ユーザ同士で一緒に見るには端末の画面が小さい場合や、振動の激しい乗り物に乗っていて画面を相手に見せたり、手渡したりが難しい場合などである。
さらには物理的なユーザ同士の位置関係や周囲の状況のみならず、画面の共有が難しい場合もある。
たとえば、お互い初対面でよく知らない相手の場合は、端末を手渡すと盗難の恐れがある。あるいは、あまり顔を近づけて話したくないといった心理的な理由で、画面の共有が難しい場合がある。
そのようなユーザの対話における諸々のシチュエーションを鑑みて、単にユーザ間の距離が離れている場合以外においても、2つ以上の表示端末を用いた連携システムや連携方法が必要とされている。
特許文献1では、ユーザが用例を選択する翻訳装置において、原言語のユーザと目的言語のユーザとで異なる表示領域を用意し、原言語のユーザが選択した対訳用例の原言語テキストは原言語のユーザ用の表示領域に表示し、該原言語テキストに対応する目的言語テキストは目的言語のユーザ用の表示領域に表示することを特徴とした技術が開示されている。
特許文献2では、ユーザ同士が向かい合って対話するための携帯用の音声入力翻訳装置において、原言語のユーザ用の表示部と目的言語のユーザ用の表示部を設け、原言語テキストは原言語の表示部に原言語のユーザの向きで表示し、目的言語のテキストは目的言語の表示部に相反する方向で表示する。加えて、スピーカ、マイクまたはカーソルキーなどの音声入力操作部についても相反する方向に備える。
特許文献3では、3人以上の複数の人々の間で会話を行うに際して、自分の発話の翻訳データと自分の端末の識別データを送信する。翻訳データが自分の言語でないときは改めて自言語に翻訳して、相手識別データと関連付けて表示することで、自端末には自言語での表示を発話者が識別できるように表示することを特徴とした技術が開示されている。
特開平8−77176号公報 特開平8−278972号公報 特開2005−107595号公報
特許文献1、2及び3は原言語のユーザには原言語を表示する一方、目的言語のユーザには目的言語を表示し、2画面および2端末がほぼ対称性を有する構成である。特許文献1及び2は、ユーザ同士が対面している使用場面を想定し、表示部は2つであるが端末は1台であることから、前記の画面共有型システムに分類される。
特許文献3は特許文献1および特許文献2よりもユーザ同士が離れている場面を想定した前記個別画面型システムに分類される。
まず、画面共有型システムの問題として、あるユーザの端末を共有しようとしたときに、端末の所有者以外のユーザにとって操作が難しい場合も生じることがある。
たとえば、店舗のスタッフと来店した外国人客とが店舗のカウンターに設置されたタブレット端末の画面共有型同時通訳システムを使って対話する場合を考える。この場合、スタッフはタブレットの操作にある程度習熟しているが、初めて来店した客はタブレットの操作方法に慣れていないため、操作は容易ではない。操作ガイドを表示させたり、スタッフが指示することで緩和できたとしても十分ではない。また、そもそも、言語が通じない客に対してスタッフが操作のアドバイスを適切に行うことは相当に困難である。
画面の操作だけではなく、マイクロフォンへの音声入力についても同様の問題が存在する。現在の音声認識技術では完全に誤りをなくすことは難しく、特に店舗など実使用環境において認識精度を高めるためには、発話の仕方の工夫が必要である。たとえば、発話の音量やマイクロフォンへの口の近づけ方、マイクロフォンへの持ち方によって認識精度が左右されてしまう。したがって、端末に備えられたマイクロフォンへの入力に対して、ユーザ側の一定の慣れ、言い換えれば適応がないと認識精度が悪化してしまう可能性が高い。そのため、異なる形状の端末で持ち方が異なるうえに、異なるスペックのマイクロフォンを搭載した端末に対して、ユーザが初めて音声入力をする場合は、認識誤りが生じやすく、正しく入力することが難しい。
この例では、店舗のスタッフはタブレットに音声入力できたとしても、来店客には難しい。したがって、来店客がもし、音声入力や画面操作に慣れているスマートフォン端末を所持していた場合、そちらを使って音声入力させることによって認識精度の向上を期待できる。
このような課題について、前記の画面共有型システムでは考慮されてこなかった。一方、前記の個別画面型システムの場合、さきほどの例では、スタッフはタブレット画面を見て、来店客は所持していたスマートフォンの画面をそれぞれ見ながら対話をすることになる。それぞれの端末への音声入力については、お互いに一定の適応があると考えられる。しかし一方、表示画面については問題が残る。
表示可能な発話履歴の量が、大画面タブレットと小型のスマートフォンでは大きく異なってしまう。たとえば、「トイレを使ってもいいですか」「はい」のように少ない発話数で済ませられる対話であれば問題はない。しかし、とくに発話数が増えるに従い、来店客がスマートフォンで発話履歴を追うことは一層困難になる。
このように、画面の非対称性があって、なおかつ、ユーザ同士の画面の共有が可能な場合について、どのように各端末の画面を構成するべきかという課題は、従来の個別画面型システムでは十分に解決できない。
上記の例の場合、タブレットの画面をスタッフと客が一緒に見ることができ、さらにスマートフォンには客の使用言語で客にとって必要な情報のみを表示できれば、対話が円滑に進められると考えられる。
他にも、たとえば画面共有型システムには次のような課題もある。音声入力に関して、共有画面の端末がカウンターに設置されている場合などを考えると、マイクロフォンが必ずしも客の発話に適した位置にあるとは限らず、また移動させることができるとは限らない。
さらに、画面に関して、画面をスマートフォンの画面を共有できたとしても、必ずしも信用できない相手に自分の端末を手渡すことで、端末が盗難される恐れもある。加えて、触らせて操作させることや、そのために必要以上にお互いが接近することに対して心理的抵抗がある場合もある。
このような場合に、スタッフと客とが一緒に見る端末とは別に、確認はユーザの自端末で行うようにすれば、必要以上に相手に近づかなくて済むという利点もある。
もう一つ講演の例を挙げる。外国人の聴衆に向かって、大画面のプロジェクターを使って講演する。外国人の聴衆と講演者の質疑応答において、講演者と聴衆は距離が離れているため、聴衆と講演者はそれぞれ手元のマイクを使って発話すると、それぞれの発話の翻訳テキストを大画面に映し出す画面共有型音声翻訳システムが考えられる。しかし、聴衆は、端末がないためプロジェクター画面を操作できない。もしプロジェクター画面を操作できる端末があったとしても、一人の聴衆のためにプロジェクター画面を切り替えることは他の聴衆に迷惑になるため難しい。加えて、聴衆の使用言語が複数である場合、さらに困難を極める。したがって、聴衆の端末は、マイク機能と、聴衆の使用言語で聴衆にとって必要な情報のみを表示でき、個別に確認できれば、質疑応答の対話が円滑に進められると考えられる。
以上の考察から、従来の画面共有型システム、個別画面型システムのいずれであっても上記の課題を十分に解決できない。
上記の課題を解決するためには、画面のサイズの非対称性、ユーザ同士が同じ画面を見ることができるか否かという画面の共有可能性、および端末の音声入力部へのユーザの適応性をも考慮した音声翻訳システムが必要である。
特に近年、スマートフォンやタブレットに代表されるさまざまな形状を持った情報携帯端末が急速に普及してきている現状があり、さまざまの端末をどのように組み合わせるか、という観点からも上記の課題の解決が強く望まれる。
本開示は、上述の課題を解決するためになされたものであり、音声翻訳システム、方法およびプログラムを提供することを目的とする。
第1の発明は、第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第1音声入力部を有する第1端末装置と、第2のユーザによる第2言語の音声を取り込み第2音声信号に変換する第2音声入力部を有する第2端末装置と、該第1入力部及び該第2入力部が出力する該第1音声信号及び該第2音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第2認識テキストに変換する音声認識装置と、該音声認識装置が出力した該第1認識テキスト及び該第2認識テキストを直接又は間接に受け取り、対応する第2言語の第1翻訳テキスト及び第1言語の第2翻訳テキストに変換する機械翻訳装置と、制御装置と、を有する音声翻訳システムであって、該第1端末装置は、該音声認識装置が出力した該第1認識テキスト及び該機械翻訳装置が出力した該第2翻訳テキストからなる第1言語の第1テキスト組並びに、該音声認識装置が出力した該第2認識テキスト及び該機械翻訳装置が出力した該第1翻訳テキストからなる第2言語の第2テキスト組を直接又は間接に受け取り、表示する第1表示部を具備し、該第2端末装置は、該第2テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する第2表示部を具備することを特徴とする音声翻訳システムである。
第1の発明によれば、ユーザ同士が大きい画面を備えた共有端末の画面を見ながら対話でき、音声入力はユーザ個別の端末を使用することで、音声入力を容易にし、さらにユーザ個別端末にはユーザ言語の情報のみを表示することによって、ユーザの発話の処理結果の確認や対話履歴の確認は共有端末を使わずに個別の端末で行うことができるため、異なる言語のユーザ間の対話を円滑に進めることができる。
第2の発明は、前記機械翻訳装置は、該機械翻訳装置が出力した第1言語の前記第2翻訳テキストを直接又は間接に受け取り、対応する第2言語の第2逆翻訳テキストに変換する逆翻訳部をさらに具備し、前記第2表示部は、前記第2テキスト組のテキスト及び該第2逆翻訳テキストからなる第2言語の第3テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示することを特徴とする第1の発明記載の音声翻訳システムである。
第2の発明によれば、逆翻訳結果を確認することで、正しく第1のユーザに発話が伝わったかどうかを確認できる。
第3の発明は、前記音声翻訳システムは、第3のユーザによる第3言語の音声を取り込み第3音声信号に変換する第3音声入力部を有する第3端末装置をさらに有し、前記音声認識装置は、該第3入力部が出力した該第3音声信号を直接又は間接に受け取り、対応する音声認識結果である第3認識テキストに変換する第3言語認識部をさらに具備し、前記機械翻訳装置は、該音声認識装置が出力した該第3認識テキスト及び前記第1認識テキストを直接又は間接に受け取り、対応する第1言語の第3翻訳テキスト及び第3言語の第4翻訳テキストに変換する第3機械翻訳部をさらに具備し、前記第1表示部は、前記第2テキスト組並びに該音声認識装置が出力した該第3認識テキスト及び該機械翻訳装置が出力した該第4翻訳テキストからなる第3言語の第3テキスト組のうち少なくとも一つのテキスト組、並びに前記第1テキスト組のテキスト及び該第3翻訳テキストからなる第1言語の第4テキスト組を、直接又は間接に受け取り、表示し、該第3端末装置は、該第3テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する表示部3を具備することを特徴とする第1の発明記載の音声翻訳システムである。
第3の発明によれば、多数のユーザが、ユーザそれぞれの言語によるテキストを表示した共有端末の画面を見ながら対話する状況において、共有端末は、ますます増大する表示情報を、すべてのユーザにとって十分な視認性を確保して表示できるサイズの画面を備える必要がある。一方、ユーザは自端末で容易に音声入力でき、かつ自端末には自言語の情報のみを表示することによって、ユーザの発話の処理結果の確認や対話履歴の確認は共有端末を使わずに個別の端末で行うことができるため、ますます多数の言語、多数のユーザ間の対話を円滑に進めることができる。
第4の発明は、前記第1端末装置は、前記第1表示部に表示される前記第1テキスト組及び前記第2テキスト組に含まれるテキストの選択を受け付ける第1表示選択部をさらに具備し、前記制御装置は、該選択第1表示選択部が該選択テキストを受け付けた場合に、該選択テキストに対応する該第2テキスト組に含まれる少なくとも一つのテキストを前記第2表示部に表示するよう制御する第1表示制御部を具備することを特徴とする第1の発明記載の音声翻訳システムである。
第4の発明によれば、相手に見せる情報をコントロールできる。つまり、不適切と思った対話の履歴を、相手の端末に残すことを防ぎ、第1ユーザが重要だとみなす対話のみ第2ユーザ端末に残すことができる。第2ユーザは、対話の終了後、そのログを確認できる。
第5の発明は、前記第2表示部は、前記第1テキスト組に含まれる少なくとも一つのテキストをさらに直接または間接に受け取り、表示する第2表示部であり、前記第1端末装置は、該第2テキスト組を前記第1表示部に表示するか否かの選択を受けつける第2表示選択部をさらに具備し、前記制御装置は、該第2表示選択部が該第2テキスト組を表示する選択を受け付けた場合に、該第2表示部には該第1テキスト組のテキストを非表示にするよう制御する表示制御部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第5の発明によれば、ユーザの距離や状況に応じて、画面を共有する場合については、相手の端末の表示を相手言語のみにコントロールできる。
第6の発明は、前記制御装置は、前記第2表示部に前記第2テキストを表示する際に、前記第1表示部に第2言語で通知メッセージを表示する第1確認指示部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第6の発明によれば、第2ユーザが第1表示部を見ていても、気付かせることができる。
第7の発明は、前記制御装置は、前記第2表示部に前記第2テキストを表示する際に、第2端末装置を振動させたり、確認音を出力させたりする第2確認指示部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第7の発明によれば、第2ユーザが第1表示部を見ていても、気付かせることができる。
第8の発明は、前記音声認識装置は、音声認識処理の尤もらしさを示す認識尤度を前記認識テキストとともに出力する音声認識装置であり、前記制御装置は、該認識尤度に基づいて、前記第2認識テキストを前記第2表示部に表示するか否かを判断する第2認識表示判断部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第8の発明によれば、第2ユーザは自分が発話したことについては、理解している、記憶していることが多い。尤度に基づいて、確認させる必要がなければ、表示させないほうが、画面が混雑しなくてよい。そして、第1表示部を集中して見ることができる。
第9の発明は、前記制御装置は、前記第2認識テキストと前記第2逆翻訳テキストとの一致度に基づいて、前記第2表示部に表示するか否かを判断する第2逆翻訳表示判断部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第9の発明によれば、逆翻訳結果を出すかどうかを自動で決めて、あっているのにいちいち確認させずに済むことができ、第1表示部を集中して見ることができる。
第10の発明は、前記制御装置は、前記第1表示部に前記第2テキスト組を表示するか否かを第1端末装置と第2端末装置との距離に基づいて判断する第1表示判断部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第10の発明によれば、距離が離れていて、第1表示部を第2のユーザが良く見れないなら、第1表示部に出さずに済み、第1のユーザによって自動で見やすくなる。
第11の発明によれば、前記制御装置は、前記第1表示部に前記第2テキスト組を表示するか否かを第1表示部に対する第2ユーザの可読性に基づいて判断する第1表示判断部をさらに具備することを特徴とする第1の発明記載の音声翻訳システムである。
第11の発明によれば、第10の発明に似ているが、第2のユーザの画面の可読性によって決めることができ、画面共有モードかそうでないかを自動で切り替える。
第12の発明は、前記第2端末装置は可搬型端末装置であることを特徴とする第1の発明記載の音声翻訳システムである。
第12の発明によれば、第2ユーザは普段使っている端末を持ち運べることができ、対話後、必要な対話情報ログを持った端末を持ち運べる。
第13の発明は、前記第1表示部の表示領域の第1面積は、前記第2表示部の表示領域の第2面積よりも大であることを特徴とする第1の発明記載の音声翻訳システムである。
第13の発明によれば、画面が大きい方の端末を共有することができる。
第1の実施形態に係る音声翻訳システムを構成する要素ブロック図。 第1の実施形態に係る音声翻訳システムを構成する装置の外観を示す図。 第1端末装置200の第1表示部220に表示する画面構成の例を示す図。 第2端末装置300の第2表示部320に表示する画面構成の例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係る動作例を示す図。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 第1の実施形態に係るフローチャート。 記憶装置の端末及びユーザに関するテーブルの例を示す図。 記憶装置の発話履歴テーブルの例を示す図。
以下、添付図面を参照しながら、本発明の音声翻訳システム、及びプログラムの実施形態を詳細に説明する。なお、以下の各実施形態では、第1言語を日本語と仮定し、第2言語を英語と仮定して説明するが、翻訳方向はこれに限定されるものではなく、あらゆる言語間での翻訳に適用することができる。
(第1実施形態)
図1は、第1の実施形態に係る音声翻訳システムを構成する要素ブロック図である。
音声翻訳システムは、第1言語の第1音声信号及び第2言語の第2音声信号を直接又は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第2認識テキストに変換する音声認識装置110と、音声認識装置110が出力した該第1認識テキスト及び該第2認識テキストを直接又は間接に受け取り、対応する第2言語の第1翻訳テキスト及び第1言語の第2翻訳テキストに変換し、さらに該第2翻訳テキストを第2言語の第2逆翻訳テキストに変換する逆翻訳部121を有する機械翻訳装置120と、記憶装置130と、第1端末装置200と、第2端末装置300と、制御装置400から構成される。
記憶装置130には、後述する端末情報テーブル、ユーザ情報テーブル、言語情報テーブル、発話履歴テーブル、端末使用テーブル、音声入力言語テーブル、表示言語テーブル、および対話履歴テーブルが記憶されている(詳細については図22で説明する)。
第1端末装置200は、第1のユーザ(日本語話者)による第1言語の音声を取り込み第1音声信号に変換する第1音声入力部210と、第1認識テキスト及び第2翻訳テキストからなる第1言語の第1テキスト組を表示する第1表示領域221並びに、第2認識テキスト及び第1翻訳テキストからなる第2言語の第2テキスト組を表示する第2表示領域222を備えた第1表示部220と、第1表示部220に表示される前記第1テキスト組及び前記第2テキスト組に含まれるテキストの選択を受け付ける第1表示選択部230と、前記第2テキスト組を表示する第2表示領域を第1表示部に表示するか否かの選択を受けつける第2表示選択部240から構成される。
第2端末装置300は、第2のユーザ(英語話者)による第2言語の音声を取り込み第2音声信号に変換する第2音声入力部310と、第2テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け取り、表示する第3表示領域321、直近の発話に対する第2認識テキストおよび対応する第2逆翻訳テキストを表示する第4表示領域322並びに、該第3表示領域に表示される第1言語のテキストに対応する第2言語のテキストを表示する第5表示領域323を備えた第2表示部320から構成される。
制御装置400は、第1表示制御部410と、第2表示制御部420と、第1表示判断部430と、第2表示判断部440と、第1確認指示部450と、第2確認指示部460から構成される。ここで、直接とは、装置間が直接接続されている、又は、1つのハードウェアに2つ以上のソフトウェアが実装されているという意味である。また、間接とは、有線または無線のネットワークを経由して、という意味である。
第1の実施形態を、第1端末装置200をタブレット形状のハードウェア、第2端末装置300を第1端末装置200よりも小さい可搬型のスマートフォン形状のハードウェアで実施した場合の外観を図2に示す。
音声認識装置110、音声翻訳装置120、記憶装置及び制御装置400は一つのサーバで構成され、第1端末装置200及び第2端末装置300はこのサーバと有線または無線の通信手段を用いて通信する。記憶装置130は制御装置400に内蔵されていてもよい。
第1端末装置200の筺体は、タッチパネルディスプレイならびにマイクロフォンを配した構成となっている。例えば、タッチパネルディスプレイが静電容量式のものであれば、指で触れるとその場所がポインティングされたことを検知することができるポイティング機能と文字や画像などを表示することのできる表示機能を合わせもったデバイスということになる。
第2端末装置300の筺体も、タッチパネルディスプレイならびにマイクロフォンを配した構成となっている。ただし、タッチパネルディスプレイの画面サイズは第1端末装置200よりも小さいため、第1端末装置200と比べて表示できる情報量は少ない。
たとえば、第1のユーザ(以下、Hanakoという)は日本語話者であり、第1端末装置200であるタブレットに接続されたマイクロフォンに音声入力する。第2のユーザ(以下、Jackという)は英語話者であり、第2端末装置300であるスマートフォンに内蔵されたマイクロフォンに音声入力する。HanakoとJackは第1端末装置200であるタブレットの大きな表示画面をお互い見ながら対話する。音声入力はお互いが普段使っている端末のマイクロフォンを使う。
図3は、第1端末装置200のタッチディスプレイ上の画面構成を示す。
第1端末装置200の第1表示部220は、第1ユーザの発話に対する日本語の認識テキストおよび第2ユーザの発話に対して英語から日本語に翻訳した翻訳テキストを表示する第1表示領域221と、第2ユーザの発話に対する英語の認識テキストおよび第1ユーザの発話に対して日本語から英語に翻訳した翻訳テキストを表示する第2表示領域222と、第2表示領域の表示/非表示を切り替える英語表示ボタン223からなる。
図4は、第2端末装置300のタッチディスプレイ上の画面構成を示す。
第2端末装置300の第2表示部320は、第2ユーザの発話に対する英語の認識テキストおよび第1ユーザの発話に対して日本語から英語に翻訳した翻訳テキストを表示する第3表示領域321と、第2ユーザの直近の1つの発話に対する認識テキストおよび対応する第2逆翻訳テキスト並びに、認識テキストを受理するか、棄却するかを確認するOKボタンおよびCancelボタンを表示する第4表示領域322と、該第3表示領域に表示される第1言語のテキストに対応する第2言語のテキストを表示する第5表示領域323と、第5表示領域の表示/非表示を切り替える日本語表示ボタン324からなる。
第3、第4及び第5表示領域をすべて表示するための、十分な画面サイズがない場合、たとえば、図4(b)のように第5表示領域323を表示する場合は、第4表示領域322を非表示とする構成でもよい。
あるいは、図4(c)のように、第2表示部320において、第3表示領域321をなくし、第5表示領域には第4表示領域の認識テキストに対応する第1言語の翻訳テキストを表示することとし、第4表示領域322と、第5表示領域323と、および日本語表示ボタン324からなる構成としてもよい。
図5から図12を用いて第1の実施形態の動作例を説明する。ここでは、第1ユーザが店員(日本語話者)、第2話者が顧客(英語話者)という対面接客の場面での動作例を説明する。
図5は、第1ユーザが音声「いらっしゃいませ!」を発話した場合の第1端末装置200および第2端末装置300の表示内容である。認識テキスト「いらっしゃいませ!」および対応する翻訳テキスト”Welcome!”が第1表示部220にそれぞれ表示され、第2表示部320には翻訳テキスト”Welcome!”のみが表示されている状態を示している。
以下、図6から図12の図面にて、双方の利用者が発話する動作例を説明する。
図6は、英語のユーザが発話した場合の表示例である。音声”I want to buy a mirror-less camera.”は第2音声入力部310で取り込まれ、音声認識装置110で音声認識処理が行われ、音声認識テキスト”I want bye there come here.”および認識尤度(この場合は0.1とする)が出力される。第1表示判断部430は、前記認識尤度と、あらかじめ設定された閾値(この場合は0.8とする)と比較して、認識尤度の方が値が小さいため、該認識テキスト”I want bye there come here.”が誤りであると判断し、翻訳処理を行わずに、第1表示部220に認識テキストを表示するとともに、第2表示部320の第4表示領域322に認識テキスト”I want bye there come here.”を表示する。
このとき、英語ユーザが第1表示部220を見ていたり、よそ見をしていて第2表示部322を見ていない場合に確認を促すために、第1表示部220の第2領域222に“Please check your smartphone.”と確認メッセージを表示するよう第1確認指示部450が制御するとともに、スマートフォン300を振動させる、またはスマートフォン300から警告音を出力するように第2確認指示部が制御する。さらに、日本語ユーザに対しても、確認させる状態であることを示すメッセージ「ただいま確認中です・・・」が第1表示領域221に表示される。
さらに、第3表示領域321には、認識テキストの代わりに、認識テキストがユーザによる未確定状態であることを表す“Checking now...”と表示される。
英語ユーザが”Cancel”ボタンをタップすると、第2表示領域222および第4表示領域322の認識テキストはクリアされ、確認メッセージもクリアされる。また、第1領域221および第3領域321の確認状態テキストもクリアされる。
もし、“OK”ボタンをタップした場合は、第4表示領域322の認識テキストはクリアされ、翻訳処理が続行され、翻訳テキストが第1表示領域221に表示されることになる。
続いて、英語ユーザが言い直した場合の表示例を図7に示す。
この場合は、発話音声に対して、音声認識装置110で認識処理され、認識テキストおよび認識尤度(1.0)が出力された。第1表示判断部430は、同様に認識尤度が閾値(0.8)より大であるため、正しく認識されていると判断し、機械翻訳装置120で該認識テキストを処理して翻訳テキストおよび逆翻訳部121によって処理された逆翻訳テキストが出力される。
第2表示判断部440は、認識テキストと逆翻訳テキストとを比較して一致度(この場合は0.86)を算出する。該一致度とあらかじめ設定された閾値(この場合は0.8とする)と比較して、一致度が閾値よりも大であるため、認識テキストを正しく翻訳されたと判断し、翻訳テキスト「ミラーレスデジカメを買いたいのですが。」を第1表示領域221に表示されている。このとき、第4表示領域322には認識テキストおよび逆翻訳テキストは表示されない。
さらに対話が進み、日本語ユーザが発話し、さらに英語ユーザが発話した場合の表示例を図8に示す。
この場合は、英語ユーザの発話音声”Someday, when my daughter grow up, I want to show her the photos.”が入力され、音声認識装置110によって処理され、認識テキストおよび認識尤度1.0が出力された。図7の場合と同様に、第1表示判断部430は認識尤度1.0であり、閾値より大であることを判断し、第2表示領域222に認識テキストが表示されている。続いて、機械翻訳装置120で該認識テキストを処理して翻訳テキストおよび逆翻訳部121によって処理された逆翻訳テキストが出力される。
第2表示判断部440は、認識テキストと逆翻訳テキストとを比較して一致度(この場合は0.69)を算出する。該一致度とあらかじめ設定された閾値(この場合は0.8とする)と比較して、一致度が閾値よりも小であるため、認識テキストが誤って翻訳されたと判断し、英語ユーザに確認をうながすために、確認メッセージ“Please check your smartphone.”を第2表示領域222に表示するとともに、第4表示領域322に認識テキストおよび逆翻訳テキスト”Someday, my daughter become large, I want to show the photos of that time.”を表示する。さらに、スマートフォンを振動させたり、警告音を出力する。
日本語ユーザには、英語ユーザの確認待ちであることを伝えるために、第1表示領域221にメッセージ「ただいま確認中です・・・」が表示される。対応する第3表示領域321にはメッセージ“Checking now...”を表示する。
図7の場合と同様にユーザが“Cancel”ボタンをタップすると、第1表示領域221、第2表示領域222、第3表示領域321および第4表示領域322の表示がクリアされる。一方、“OK”ボタンをタップした場合には、各表示がクリアされて、第1表示領域222に翻訳結果が表示される。
続いて、図9にさらに対話が進んだ場合の表示例を示す。日本語ユーザの既発話のうちスマートフォン300に残したくない発話がある場合に、自端末200から選択表示/削除することができる。ここでは、英語ユーザが「ちょっと値は張りますが」をスマートフォンから削除したい場合の操作例を説明する。タブレット200の日本語テキスト「ちょっと値は張りますが」あるいは対応する英語テキスト“It’s a bit expensive.”の上でタップすると、両テキストがハイライト表示される(図9では「網掛け」表示)。第3表示領域321の“It’s a bit expensive.”が削除され、図10のように表示される。もし、日本語ユーザが再度タップすると、ハイライト表示が通常表示に代わり、スマートフォン端末の同じ個所に再び“It’s a bit expensive.”が表示される。
このように、不用意な発言や誤解を招くような発言を店員側の端末200で選択することで、お客側の端末300に残さずに済む。逆に重要な発言のみをお客側の端末300に残すことも可能である。
第1端末装置200の「英語表示」ボタン223のチェックを外した場合の表示例を図11に示す。ここでは、第2表示領域222が非表示になり、第1表示領域221が横に長くなり、各発話が一行で表示されている。したがって、より多くの発話履歴を画面に表示できるようになる。
第2端末装置300の“display in Japanese”ボタン324をチェックした場合の表示例を図12(a)及び(b)に示す。これは、第1端末装置200の「英語表示」ボタン223のチェックを外されている場合のみチェック可能である。すなわち、第1端末装置200に英語テキスト表示のための第2表示領域222が表示されている場合は、チェックできない。
図12(a)は、画面を左へ90度回転させて、画面左側に第1言語の第3表示領域321、画面右側に第2言語の第5表示領域323を表示している。
図12(b)は、第2言語の認識テキストおよび逆翻訳テキストが表示されている第4表示領域表示322に、さらに第1言語の翻訳テキストが表示されている。
第1の実施形態における処理フローを図13乃至図21の図面を用いて説明する。図5乃至図12で示した動作例を実現するものである。
図13は、第1端末装置200および第2端末装置300を接続した場合に最初に実行される処理フローである。図22に示す各テーブルを作成し、その値を初期値にセットする。
S102において、第1端末装置200および第2端末装置300に端末IDとして1および2をそれぞれ付与する。第1端末装置200および第2端末装置300のユーザ名および使用言語情報を取得し、第1ユーザ(Hanako)にはユーザIDとして1を、第2ユーザ(Jack)にはユーザIDとして2を付与する。言語名(日本語、英語)と言語ID(JP,EN)との対応テーブルはあらかじめ記憶装置130に記憶されている。作成されたテーブルを図22(a)に示している。
S103でユーザと端末との位置関係を推定し、S104で端末サイズ(より詳しくは端末の画面サイズ)の違いを比較し、各ユーザがいずれの端末を使って音声入力し、いずれの端末画面に出力するのかを決定する。ここでは、日本語ユーザと英語ユーザの両方が日本語ユーザ側にあるタブレットの大きい画面を見るが、スマートフォンは英語ユーザが手に持っており、英語ユーザのみがスマートフォンの小さい画面を見ることができる位置関係にあると想定している。そして、日本語ユーザはタブレットのマイクを使って入力し、英語ユーザは手持ちのスマートフォンのマイクに音声入力することとしている。その場合にセットされた端末使用表を図22(b)に示している。
この状況では、音声入力の言語について、タブレット端末は英語のみで、スマートフォン端末は日本語のみであるから、図22(c)のように音声入力言語表をセットする。
一方、表示言語について、タブレット端末には英語および日本語を表示し、スマートフォン端末には日本語のみ表示するので、表示言語表は図22(d)のようにセットする。
S105で、タブレット端末およびスマートフォン端末の音声入力部および表示部(タップ検出)が入力受け付け状態に移行する。
図14に音声入力イベントの処理フローを示す。
S201で、第1音声入力部210が音声入力を検出したら、S202に移り、音声入力部から音声情報を受け取り、音声認識装置110に入力する。
なお、音声情報を認識テキストに変換する音声認識装置110の本体の処理は、すでに公知の技術が存在しており、それらを流用すればよいので、説明は省略する。
S203において、制御装置400は、音声認識装置110の処理が終了すると、制御装置400は認識テキストおよび認識尤度を受け取ると、発話IDを付与し、話者IDおよび認識言語IDとともに記憶装置130の発話履歴テーブルに書き込む。(図23の1行目を参照)
S204において、もし端末IDが1である場合は、S206に進み、端末IDが2であるならS205に進む。
S205では、制御装置400の第1表示判断部430での処理フロー(図15に示す)を呼び出す。
S206では、認識テキストを第1端末装置200に送信し、第1表示部220に表示する。
S207では、認識テキストを機械翻訳装置120に入力し、S208で翻訳テキストおよび逆翻訳テキストを受け取り、図23の発話履歴テーブルに書き込む。
なお、第1言語のテキストを第2言語のテキストに変換する機械翻訳装置の本体の処理は、すでに公知の技術が存在しており、それらを流用すればよいので、説明は省略する。
S209で端末IDによって処理を分岐する。端末IDが1であればS211に進み、端末IDが2であれば、S210に進む。
S210では、制御装置400の第2表示判断部440での処理フロー(図16に示す)を呼び出す。
S211では、翻訳テキストを第1端末装置200に送信し、第1表示部220に表示する。
S212では、発話履歴テーブルの言語IDが2である認識テキストまたは翻訳テキスト(つまり、第2言語のテキスト)を第2端末装置300に送信し、第2表示部320の第3表示領域321に表示する。
S212の表示処理が終了すると、再び、S201の音声入力のイベント待ち状態に移行する。
図15に、第1表示判断部430の処理フローを示す。
S302で認識テキストおよび認識尤度を受け取る。
S303で認識尤度と閾値(ここでは0.8)とを比較する。
認識尤度が閾値より小ならば、S304に進む。
一方、認識尤度が閾値以上ならばS306に進み、呼び出し元のフローに戻る(図14のS205)。
S 304では、認識テキストを第2端末装置300に送信して、認識テキストおよび確認ボタンを第2表示部320の第4表示領域322に表示するように制御する。
S305で、第2端末装置300の第2表示部320は確認ボタンの入力イベント待ち状態へと移行する。
なお、もしも第2端末装置に音声入力が行われた場合、確認表示はクリアされるように設定してもよい。
図16に、第2表示判断部440の処理フローを示す。
制御装置400において、認識テキストおよび逆翻訳テキストを受け取る(S402)。
認識テキストと逆翻訳テキストの一致度を計算する(S403)。
一致度の指標は公知の技術がさまざまある。ここでは、認識テキストに含まれる単語のうち逆翻訳テキストにも含まれる単語数を認識テキストの総単語数で割った値を用いた。一致度が閾値(ここでは0.8とする)より小さければ、S405に進む。(S404)
閾値以上ならばS407に進み、呼び出し元フロー(図14のS210)に戻る。
認識テキスト、逆翻訳テキストおよび確認ボタンを第2表示部320の第4表示領域322に表示する。(S405)
第2端末装置300の第2表示部320は確認ボタンの入力イベント待ち状態へと移行する。(S406)
図17に、第1表示部220にユーザがタップしたときの制御フローを示す。
タップ待ち受け状態(S501)からS502に移行して、発話テキスト(第1表示領域221および第2表示領域222のテキスト)へのタップであれば、S503に進む。そうでなければ、S504に進む。
S503では、制御装置400の第1表示制御部410の処理フロー(図18)を呼び出す。
S504では、該タップが第2言語表示ボタンへのタップであれば、S505に進み、それ以外のエリアへのタップであれば、S501に戻る。
S505では、制御装置400の第2表示制御部420の処理フロー(図20)を呼び出す。
図18は、制御装置400の第1表示制御部410の処理フローである。
S602で、該タップテキストが発話履歴表(図23)におけるいずれの認識テキスト/翻訳テキストであるか、を特定する。特定した発話ID行における第2表示フラグを参照する。第2表示フラグがOFFであれば、S603に進む。ONであればS606に進む。
S603では、発話履歴表の該第2表示フラグをONに書き換える。
第1表示部220の該発話IDに対応する第1表示領域および第2表示領域のテキストをハイライト表示する。(S604)
第2表示部320の該発話IDに対応する第2言語のテキスト(すなわち、言語IDが2である認識テキストまたは翻訳テキスト)を、第2端末装置300に送信して、第2表示部320の第3表示領域321に、発話IDの順序に沿って表示するように制御する。
S606では、発話履歴表の該発話ID行の第2表示フラグをOFFに書き換える。
S607では、該発話IDに対応するテキストをハイライト表示から通常表示に戻す。
S608では、第2表示部320における該発話IDに対応するテキストの表示を消去する。
S609では、呼び出し元フローに戻る。
図19は、制御装置400の第2表示制御部420の処理フローである。
第2言語表示ボタンがタップされると、S702では、表示言語表の第1端末装置200(端末ID1)の第2言語(英語、言語ID=EN)のカラム(EN,1)の値を参照し、“No”であれば、S703に進む。“YES”であれば、S709に進む。
S703では、カラム(EN,1)の値を“YES”に書き換える。
S704では、第1表示部220に第2表示領域222および第2言語(英語)のテキストを表示するように制御する。
さらに、S705で、第2端末装置300(端末ID=2)の第1言語(日本語、言語ID=JP)の表示設定であるカラム(JP,2)の値を参照し、“YES”であれば、S706に進む。“NO”であれば、S708に進む。
S706では、カラム(JP,2)の値を“NO”に書き換える。
S707では、第2表示部320で、第1言語テキストを表示するための第5表示領域323を非表示にする。
S708では、第1言語表示ボタン(日本語表示ボタン)を選択できないようにし、S711に進む。
S709では、カラム(EN,1)の値を“NO”に書き換える。
S710では、第1表示部220で、第2表示領域222を非表示にし、S711に進む。
S711では、第2表示部320の第1言語表示ボタン324(”display in Japanese”)を選択可能にする。
S712では、呼び出し元フローに戻る。
図20に、第2端末装置300の第2表示部320にユーザがタップしたときの制御フローを示す。
S801での第2表示部320へのタップイベント待ち状態から、S802に進む。
現在、第2表示部320が確認ボタンの入力イベント待ち状態でなければ、S803に進み、そうでなければS810に進む。
S803では、第1言語表示ボタン324へのタップかどうかを判定する。該ボタンへのタップであれば、S804に進み、そうでなければS801に戻る。
S804では、第1言語表示ボタン324が選択可能であるかどうかを判定する。これは、制御装置400の第2表示制御部420の処理フローのS708に進むと、第1言語表示ボタン324は選択不能にされるからである。
該ボタンが選択可能であればS805に進み、そうでなければ、S801に戻る。
S805では、第2端末装置300の第1言語(日本語)の表示設定を確認するために、表示言語表のカラム(JP,2)の値を参照する。(JP,2)の値が“YES”であれば、S808に進む。“NO”であれば、S806に進む。
S806で、カラム(JP,2)の値を“YES”に書き換える。
S807で、第5表示領域323および第1言語テキストを表示させたのち、S801に戻る。
S808では、カラム(JP,2)の値を“NO”に書き換える。
S809で、第5表示領域323を非表示にしたのち、S801に戻る。
S810では、確認ボタンへの入力イベント待ち状態であるときに、該確認ボタンへのタップであればS811に進み、そうでなければS801に戻る。
S811では、確認ボタンの処理フロー(図21に示す)を呼び出す。
図21に、ユーザが第2表示部320の確認ボタンをタップしたときの処理フローを示す。
S902で確認ボタンが“OK”であれば、S905に進み、“CANCEL”であれば、S903に進む。
S903では、第4表示領域322をクリアする。
S904では、当該第4表示領域322に表示されていたテキストの発話IDに対応するテキストを第1表示部220から消去する。
S905で、呼び出し元フローに戻る。
なお、本実施形態は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
例えば、講演の場合を考える。そして、第1の端末装置200がプロジェクターであって、第2の端末装置は、外国人の聴衆がそれぞれ持っている端末の場合、上記実施形態と同様の音声翻訳システムを適用することができる。
110 音声認識装置
120 機械翻訳装置
121 逆翻訳部
130 記憶装置
200 第1端末装置
210 第1音声入力部
220 第1表示部
221 第1表示領域
222 第2表示領域
230 第1表示選択部
240 第2表示選択部
300 第2端末装置
310 第2音声入力部
320 第2表示部
321 第3表示領域
322 第4表示領域
323 第5表示領域
400 制御装置
410 第1表示制御部
420 第2表示制御部
430 第1表示判断部
440 第2表示判断部
450 第1確認指示部
460 第2確認指示部

Claims (15)

  1. 第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第1音声入力部を
    有する第1端末装置と、
    第2のユーザによる第2言語の音声を取り込み第2音声信号に変換する第2音声入力部
    を有する第2端末装置と、
    該第1入力部及び該第2入力部が出力する該第1音声信号及び該第2音声信号を直接又
    は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第2認識テキスト
    に変換する音声認識装置と、
    該音声認識装置が出力した該第1認識テキスト及び該第2認識テキストを直接又は間接
    に受け取り、対応する第2言語の第1翻訳テキスト及び第1言語の第2翻訳テキストに変
    換する機械翻訳装置と、
    制御装置と、を有する音声翻訳システムであって、
    該第1端末装置は、該音声認識装置が出力した該第1認識テキスト及び該機械翻訳装置
    が出力した該第2翻訳テキストからなる第1言語の第1テキスト組並びに、該音声認識装
    置が出力した該第2認識テキスト及び該機械翻訳装置が出力した該第1翻訳テキストから
    なる第2言語の第2テキスト組を直接又は間接に受け取り、表示する第1表示部を具備し

    該第2端末装置は、該第2テキスト組に含まれる少なくとも一つのテキストを直接また
    は間接に受け取り、表示する第2表示部を具備することを特徴とする音声翻訳システム。
  2. 前記機械翻訳装置は、該機械翻訳装置が出力した第1言語の前記第2翻訳テキストを直
    接又は間接に受け取り、対応する第2言語の第2逆翻訳テキストに変換する逆翻訳部をさ
    らに具備し、
    前記第2表示部は、前記第2テキスト組のテキスト及び該第2逆翻訳テキストからなる
    第2言語の第3テキスト組に含まれる少なくとも一つのテキストを直接または間接に受け
    取り、表示することを特徴とする請求項1記載の音声翻訳システム。
  3. 前記音声翻訳システムは、第3のユーザによる第3言語の音声を取り込み第3音声信号
    に変換する第3音声入力部を有する第3端末装置をさらに有し、
    前記音声認識装置は、該第3入力部が出力した該第3音声信号を直接又は間接に受け取
    り、対応する音声認識結果である第3認識テキストに変換する第3言語認識部をさらに具
    備し、
    前記機械翻訳装置は、該音声認識装置が出力した該第3認識テキスト及び前記第1認識
    テキストを直接又は間接に受け取り、対応する第1言語の第3翻訳テキスト及び第3言語
    の第4翻訳テキストに変換する第3機械翻訳部をさらに具備し、
    前記第1表示部は、前記第2テキスト組並びに該音声認識装置が出力した該第3認識テ
    キスト及び該機械翻訳装置が出力した該第4翻訳テキストからなる第3言語の第3テキス
    ト組のうち少なくとも一つのテキスト組、並びに前記第1テキスト組のテキスト及び該第
    3翻訳テキストからなる第1言語の第4テキスト組を、直接又は間接に受け取り、表示し

    該第3端末装置は、該第3テキスト組に含まれる少なくとも一つのテキストを直接また
    は間接に受け取り、表示する表示部3を具備することを特徴とする請求項1記載の音声翻
    訳システム。
  4. 前記第1端末装置は、前記第1表示部に表示される前記第1テキスト組及び前記第2テ
    キスト組に含まれるテキストの選択を受け付ける第1表示選択部をさらに具備し、
    前記制御装置は、該選択第1表示選択部が該選択テキストを受け付けた場合に、該選択
    テキストに対応する該第2テキスト組に含まれる少なくとも一つのテキストを前記第2表
    示部に表示するよう制御する第1表示制御部を具備することを特徴とする請求項1記載の
    音声翻訳システム。
  5. 前記第2表示部は、前記第1テキスト組に含まれる少なくとも一つのテキストをさらに
    直接または間接に受け取り、表示する第2表示部であり、
    前記第1端末装置は、該第2テキスト組を前記第1表示部に表示するか否かの選択を受
    けつける第2表示選択部をさらに具備し、
    前記制御装置は、該第2表示選択部が該第2テキスト組を表示する選択を受け付けた場
    合に、該第2表示部には該第1テキスト組のテキストを非表示にするよう制御する表示制
    御部をさらに具備することを特徴とする請求項1記載の音声翻訳システム。
  6. 前記制御装置は、前記第2表示部に前記第2テキストを表示する際に、前記第1表示部
    に第2言語で通知メッセージを表示する第1確認指示部をさらに具備することを特徴とす
    る請求項1記載の音声翻訳システム。
  7. 前記制御装置は、前記第2表示部に前記第2テキストを表示する際に、第2端末装置を
    振動させたり、確認音を出力させたりする第2確認指示部をさらに具備することを特徴と
    する請求項1記載の音声翻訳システム。
  8. 前記音声認識装置は、音声認識処理の尤もらしさを示す認識尤度を前記認識テキストと
    ともに出力する音声認識装置であり、
    前記制御装置は、該認識尤度に基づいて、前記第2認識テキストを前記第2表示部に表
    示するか否かを判断する第2認識表示判断部をさらに具備することを特徴とする請求項1
    記載の音声翻訳システム。
  9. 前記制御装置は、前記第2認識テキストと前記第2逆翻訳テキストとの一致度に基づい
    て、前記第2表示部に表示するか否かを判断する第2逆翻訳表示判断部をさらに具備する
    ことを特徴とする請求項1記載の音声翻訳システム。
  10. 前記制御装置は、前記第1表示部に前記第2テキスト組を表示するか否かを第1端末装
    置と第2端末装置との距離に基づいて判断する第1表示判断部をさらに具備することを特
    徴とする請求項1記載の音声翻訳システム。
  11. 前記制御装置は、前記第1表示部に前記第2テキスト組を表示するか否かを第1表示部
    に対する第2ユーザの可読性に基づいて判断する第1表示判断部をさらに具備することを
    特徴とする請求項1記載の音声翻訳システム。
  12. 前記第2端末装置は可搬型端末装置であることを特徴とする請求項1記載の音声翻訳シ
    ステム。
  13. 前記第1表示部の表示領域の第1面積は、前記第2表示部の表示領域の第2面積よりも
    大であることを特徴とする請求項1記載の音声翻訳システム。
  14. 第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第1音声入力部を
    有する第1端末装置と、
    第2のユーザによる第2言語の音声を取り込み第2音声信号に変換する第2音声入力部
    を有する第2端末装置と、
    該第1入力部及び該第2入力部が出力する該第1音声信号及び該第2音声信号を直接又
    は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第2認識テキスト
    に変換する音声認識装置と、
    該音声認識装置が出力した該第1認識テキスト及び該第2認識テキストを直接又は間接
    に受け取り、対応する第2言語の第1翻訳テキスト及び第1言語の第2翻訳テキストに変
    換する機械翻訳装置と、
    制御装置と、を用いる音声翻訳方法であって、
    該第1端末装置は、該音声認識装置が出力した該第1認識テキスト及び該機械翻訳装置
    が出力した該第2翻訳テキストからなる第1言語の第1テキスト組並びに、該音声認識装
    置が出力した該第2認識テキスト及び該機械翻訳装置が出力した該第1翻訳テキストから
    なる第2言語の第2テキスト組を直接又は間接に受け取り、表示し、
    該第2端末装置は、該第2テキスト組に含まれる少なくとも一つのテキストを直接また
    は間接に受け取り、表示することを特徴とする音声翻訳方法。
  15. 第1のユーザによる第1言語の音声を取り込み第1音声信号に変換する第1音声入力部を
    有する第1端末装置と、
    第2のユーザによる第2言語の音声を取り込み第2音声信号に変換する第2音声入力部
    を有する第2端末装置と、
    該第1入力部及び該第2入力部が出力する該第1音声信号及び該第2音声信号を直接又
    は間接に受け取り、対応する音声認識結果である第1認識テキスト及び第2認識テキスト
    に変換する音声認識装置と、
    該音声認識装置が出力した該第1認識テキスト及び該第2認識テキストを直接又は間接
    に受け取り、対応する第2言語の第1翻訳テキスト及び第1言語の第2翻訳テキストに変
    換する機械翻訳装置と、
    制御装置と、を実行させるための音声翻訳プログラムであって、
    該第1端末装置は、該音声認識装置が出力した該第1認識テキスト及び該機械翻訳装置
    が出力した該第2翻訳テキストからなる第1言語の第1テキスト組並びに、該音声認識装
    置が出力した該第2認識テキスト及び該機械翻訳装置が出力した該第1翻訳テキストから
    なる第2言語の第2テキスト組を直接又は間接に受け取り、表示し、
    該第2端末装置は、該第2テキスト組に含まれる少なくとも一つのテキストを直接また
    は間接に受け取り、表示することを特徴とする音声翻訳プログラム。
JP2013205869A 2013-09-30 2013-09-30 音声翻訳システム、方法およびプログラム Active JP6178198B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013205869A JP6178198B2 (ja) 2013-09-30 2013-09-30 音声翻訳システム、方法およびプログラム
CN201410471689.6A CN104516876A (zh) 2013-09-30 2014-09-16 语音翻译系统和语音翻译方法
US14/493,533 US9507774B2 (en) 2013-09-30 2014-09-23 Systems, method and program product for speech translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013205869A JP6178198B2 (ja) 2013-09-30 2013-09-30 音声翻訳システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015069600A true JP2015069600A (ja) 2015-04-13
JP6178198B2 JP6178198B2 (ja) 2017-08-09

Family

ID=52740975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013205869A Active JP6178198B2 (ja) 2013-09-30 2013-09-30 音声翻訳システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US9507774B2 (ja)
JP (1) JP6178198B2 (ja)
CN (1) CN104516876A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126042A (ja) * 2016-01-15 2017-07-20 シャープ株式会社 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
WO2018105373A1 (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム
JPWO2018105373A1 (ja) * 2016-12-05 2019-10-24 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム
JP2020149035A (ja) * 2019-07-25 2020-09-17 優 坂西 音声認識装置
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP2020154281A (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3131093B1 (en) * 2014-04-08 2021-05-12 Sony Corporation Information processing device, information processing method, and program
KR20150128303A (ko) * 2014-05-09 2015-11-18 삼성전자주식회사 복수의 디스플레이들을 제어하는 방법 및 장치
JP2016091266A (ja) * 2014-11-04 2016-05-23 富士通株式会社 翻訳装置、翻訳方法、及び翻訳プログラム
CN107329959A (zh) * 2017-06-23 2017-11-07 维沃移动通信有限公司 一种信息处理方法、第一终端及第二终端
CN111684410A (zh) * 2018-01-30 2020-09-18 松下知识产权经营株式会社 语言呈现装置、语音呈现方法和语言呈现程序
US11238852B2 (en) * 2018-03-29 2022-02-01 Panasonic Corporation Speech translation device, speech translation method, and recording medium therefor
CN109286725B (zh) 2018-10-15 2021-10-19 华为技术有限公司 翻译方法及终端
CN111046680B (zh) 2018-10-15 2022-05-24 华为技术有限公司 一种翻译方法及电子设备
CN109088995B (zh) * 2018-10-17 2020-11-13 永德利硅橡胶科技(深圳)有限公司 支持全球语言翻译的方法及手机
US11017771B2 (en) * 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
CN110047488B (zh) * 2019-03-01 2022-04-12 北京彩云环太平洋科技有限公司 语音翻译方法、装置、设备及控制设备
CN110162252A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 同声传译系统、方法、移动终端及服务器
CN115113787B (zh) * 2022-07-05 2024-04-19 北京字跳网络技术有限公司 一种消息处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001350749A (ja) * 2000-06-06 2001-12-21 Nec Corp インターネットにおける議事録の作成記録方法及び記録媒体
JP2009122989A (ja) * 2007-11-15 2009-06-04 Junichi Shibuya 翻訳装置
JP2011154341A (ja) * 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
WO2013014877A1 (ja) * 2011-07-28 2013-01-31 日本電気株式会社 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4035760A1 (de) 1990-11-08 1992-05-14 Schering Ag Mono-n-substituierte 1,4,7,10-tetraazacyclododecan-derivate, verfahren zu ihrer herstellung und diese enthaltende pharmazeutische mittel
JPH0877176A (ja) 1994-09-07 1996-03-22 Hitachi Ltd 外国語翻訳装置
JPH08278972A (ja) 1995-04-06 1996-10-22 Sony Corp 音声入力翻訳装置
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US6175819B1 (en) * 1998-09-11 2001-01-16 William Van Alstine Translating telephone
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
JP3951186B2 (ja) 2003-09-26 2007-08-01 日本電気株式会社 自動翻訳装置
JP2005222316A (ja) 2004-02-05 2005-08-18 Toshiba Corp 会話支援装置、会議支援システム、受付業務支援システム及びプログラム
JP4049155B2 (ja) 2005-01-13 2008-02-20 ブラザー工業株式会社 機械翻訳装置
US7460884B2 (en) * 2005-06-29 2008-12-02 Microsoft Corporation Data buddy
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
JP2007220045A (ja) * 2006-02-20 2007-08-30 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4398966B2 (ja) * 2006-09-26 2010-01-13 株式会社東芝 機械翻訳を行う装置、システム、方法およびプログラム
JP2009205579A (ja) * 2008-02-29 2009-09-10 Toshiba Corp 音声翻訳装置およびプログラム
JP2008243222A (ja) 2008-05-01 2008-10-09 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
CN201233597Y (zh) * 2008-06-23 2009-05-06 赵林松 双向翻译机结构
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
JP2011118690A (ja) 2009-12-03 2011-06-16 Fujitsu Toshiba Mobile Communications Ltd 翻訳装置
CN103176965A (zh) * 2011-12-21 2013-06-26 上海博路信息技术有限公司 一种基于语音识别的翻译辅助系统
JP5653392B2 (ja) 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
KR102108500B1 (ko) * 2013-02-22 2020-05-08 삼성전자 주식회사 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
CN103309854A (zh) * 2013-06-08 2013-09-18 开平市中铝实业有限公司 一种出租车翻译机系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001350749A (ja) * 2000-06-06 2001-12-21 Nec Corp インターネットにおける議事録の作成記録方法及び記録媒体
JP2009122989A (ja) * 2007-11-15 2009-06-04 Junichi Shibuya 翻訳装置
JP2011154341A (ja) * 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
WO2013014877A1 (ja) * 2011-07-28 2013-01-31 日本電気株式会社 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126042A (ja) * 2016-01-15 2017-07-20 シャープ株式会社 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
WO2018105373A1 (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム
JPWO2018105373A1 (ja) * 2016-12-05 2019-10-24 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム
US20200075015A1 (en) 2016-12-05 2020-03-05 Sony Corporation Information processing device, information processing method, and information processing system
US11189289B2 (en) 2016-12-05 2021-11-30 Sony Corporation Information processing device, information processing method, and information processing system
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP2020154281A (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP7432177B2 (ja) 2019-03-15 2024-02-16 優 坂西 音声認識装置
JP2020149035A (ja) * 2019-07-25 2020-09-17 優 坂西 音声認識装置

Also Published As

Publication number Publication date
JP6178198B2 (ja) 2017-08-09
CN104516876A (zh) 2015-04-15
US9507774B2 (en) 2016-11-29
US20150095011A1 (en) 2015-04-02

Similar Documents

Publication Publication Date Title
JP6178198B2 (ja) 音声翻訳システム、方法およびプログラム
KR102619621B1 (ko) 챗봇과 대화하기 위한 전자 장치 및 그의 동작 방법
JP6534926B2 (ja) 話者識別方法、話者識別装置及び話者識別システム
US9456074B2 (en) System and method of providing voice-message call service
AU2014281049B9 (en) Environmentally aware dialog policies and response generation
JP5837627B2 (ja) 電子機器及び電子機器の制御方法
CN108337380B (zh) 自动调整用户界面以用于免提交互
JP6966979B2 (ja) 対話システムの制御方法、対話システム及びプログラム
US10403272B1 (en) Facilitating participation in a virtual meeting using an intelligent assistant
KR102141116B1 (ko) 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
EP3869504A1 (en) Voice user interface display method and conference terminal
CN102591455A (zh) 语音数据的选择性传输
CN106687908A (zh) 用于调用话音输入的手势快捷方式
CN103035240A (zh) 用于使用上下文信息的语音识别修复的方法和系统
CN105489220A (zh) 语音识别方法及装置
CN104067603A (zh) 可视化跨电话会议的对话
EP3125238B1 (en) Insertion of characters in speech recognition
CN109144458B (zh) 用于执行与语音输入相对应的操作的电子设备
US9258406B2 (en) Apparatus and method for controlling mobile device by conversation recognition, and apparatus for providing information by conversation recognition during meeting
US9953630B1 (en) Language recognition for device settings
JP2019175453A (ja) ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置
WO2024160041A1 (zh) 多模态对话方法、装置、设备及存储介质
KR20190068024A (ko) 통화 중 인공지능 서비스를 제공하기 위한 방법 및 그 전자 장치
KR20200048701A (ko) 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
KR101579292B1 (ko) 범용 음성인식 제어 장치 및 제어 방법

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160325

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170713

R151 Written notification of patent or utility model registration

Ref document number: 6178198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350