JP4041158B2 - 対話支援装置 - Google Patents

対話支援装置 Download PDF

Info

Publication number
JP4041158B2
JP4041158B2 JP2007504790A JP2007504790A JP4041158B2 JP 4041158 B2 JP4041158 B2 JP 4041158B2 JP 2007504790 A JP2007504790 A JP 2007504790A JP 2007504790 A JP2007504790 A JP 2007504790A JP 4041158 B2 JP4041158 B2 JP 4041158B2
Authority
JP
Japan
Prior art keywords
utterance
translation
information
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007504790A
Other languages
English (en)
Other versions
JPWO2007055181A1 (ja
Inventor
研治 水谷
純幸 沖本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4041158B2 publication Critical patent/JP4041158B2/ja
Publication of JPWO2007055181A1 publication Critical patent/JPWO2007055181A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は人と人との対話を支援する対話支援システムに関するものである。
一般の人々が海外旅行などで現地の人々と対話をする際に、その異言語対話を支援することを目的として自動翻訳技術が開発されてきた。自動翻訳技術では、統計機械翻訳方式や構文トランスファ方式などがよく知られている。構文トランスファ方式は、自動翻訳装置の内部に辞書及び文法などをデータベースとして持っておき、入力される文章を、辞書や文法を使って解析する。そしてその意味を理解した上で別の言語に変換するという方式である。
これに対し、統計機械翻訳方式は、あらかじめ、ある言語と変換対象となる言語のペア(「対訳コーパス」と呼ばれる)を大量に保持しておく。これをユーザが利用するうちに、ある単語がどの単語に変換されやすいとか、あるフレーズが別の言語のフレーズに対応しやすいといった変換傾向、あるいは統計的性質が顕著に現れるようになる。統計機械翻訳方式は、このように、文法とは関係なく、単語やフレーズの変換傾向や統計的性質に基づいて言語の変換を行なう方式である。
このような自動翻訳技術のうち、構文トランスファ方式は、辞書及び文法などのメンテナンスが面倒であるというデメリットがある。例えば、未知の文が出てきたときに、その文及び単語を人が解析して辞書に追加していかないと新しい文に対応することができない。これに対し、統計機械翻訳方式は、単にその文に対応する対訳コーパスを増やすだけでよいというメリットがある。すなわち、統計機械翻訳方式は構文トランスファ方式や中間言語方式などの自動翻訳技術と異なり、人手で言語データを解析して追加情報を付加する必要がほとんどなく、対訳コーパスを追加するだけで翻訳性能の向上が期待できる。一方、統計機械翻訳方式では、ある確率の式に従って、その確率の値が最大になるような系列を対訳コーパスの中から探していくことにより、最適な変換を行なう。この処理は、非常に処理負荷が高く、対訳を見つけるまでに時間がかかってしまうというデメリットもある。最近ではCPUの高速化と主記憶の大容量化により、大量の対訳コーパスに基づく統計機械翻訳方式の開発が盛んに行われている。現在のところ言語モデルや翻訳モデルの最適化、デコーディング(翻訳処理)の高精度化、翻訳品質の自動評価に研究開発の重点が置かれている(例えば特許文献1、非特許文献1参照)。
特開2004−102946号公報 Y. Akiba, M. Federico, N.Kando, H.Nakaiwa, M.Paul, J.Tsuiji:"Overview of the IWSLT04 Evaluation Campaign", International Workshop on Spoken Language Translation(INTERSPEECH2004-ICSLPSatellite Workshop), 2004
このような自動翻訳技術を利用して対話を行う場合、言語の異なる2人のユーザは交互に対話支援装置の自動翻訳機能を利用して対話を行う。図1は、従来の統計翻訳方式の対話支援装置において、文を構成する単語数に応じてデコーディングに要する平均処理時間の一例を示す表である。図1は特許文献1からの抜粋であるが、日常会話によく出現する172,481文の対訳コーパスを用いた統計翻訳方式のデコーディングの平均処理時間を示している。この例ではデコーディングの平均処理時間は、最新の計算機を使った場合でも日英で47秒以上、英日で52秒以上必要である。すなわち、相手に一言話しかけてから一言の返事を相手から獲得するまでに1分39秒以上必要ということになる。一般にデコーディング処理は対訳コーパスの量と入力文の単語数に比例するので、それ以上の時間が必要になることも多い。したがって、特に、統計翻訳方式では、ユーザがデコーディング処理を待つ時間が長いために、対話支援装置が実用に耐えないという問題がある。
また、特に、統計翻訳方式では、非特許文献1の3.3節に示されているように、翻訳品質の自動評価結果と人による主観評価の結果を比較した実験では、同じ訳文に対して評価値間に相関が見られない場合があり、逆に負の相関となる場合もあった。すなわち、デコーディング処理に一定の時間を費やすことは必要であるが、過剰な時間を費やすことは相手を待たせるだけで、より良い翻訳品質に結びつくとは限らないという問題がある。
本発明では、翻訳処理を開始する前に相手を待たせる時間すなわち訳文の出力時刻を決定し、対話を継続するのに必要十分な品質の訳文を相手に速やかに伝達することで、異言語の対話を速やかに完了させる対話支援装置を提供することを目的とする。
従来の課題を解決するために、本発明の対話支援装置は、異なる言語の対話を支援する対話支援装置であって、ユーザの発話を入力として受け付ける入力部と、受け付けられた前記発話を所定の言語に翻訳し、翻訳して得られる翻訳発話情報を出力する翻訳処理部と、出力された前記翻訳発話情報をユーザに伝達出力する出力部と、前記ユーザの発話に含まれる特徴を解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定する出力時刻決定部とを備えることを特徴とする。
なお、本発明は、このような対話支援装置として実現することができるだけでなく、このような対話支援装置が備える特徴的な構成部をステップとする対話支援方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
翻訳処理部が翻訳処理を開始する前に、出力時刻決定部によって、相互理解を得るために必要十分な訳文を得るための処理時間が設定されるため、自動翻訳機能によって支援される異言語の対話が速やかに完了する。また、場合によっては、翻訳処理のために従来よりも長い処理時間が設定されることも起こりうるが、この場合には、より尤度の高い訳文を得ることによって、相手の理解度を高めることができ、その結果として相互理解に達するまでの時間が短縮されるという効果がある。
本発明の対話支援装置は、異なる言語の対話を支援する対話支援装置であって、ユーザの発話を入力として受け付ける入力部と、受け付けられた前記発話を所定の言語に翻訳し、翻訳して得られる翻訳発話情報を出力する翻訳処理部と、出力された前記翻訳発話情報をユーザに伝達出力する出力部と、前記ユーザの発話に含まれる特徴を解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定する出力時刻決定部とを備えることを特徴とする。これにより、対話支援装置は、ユーザの発話に含まれる特徴を解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定することができる。すなわち、ある発話に含まれる特徴が、次の発話に対する翻訳があまり流暢でなくても意味が通じることを示している場合には、次の発話に対する翻訳時間を短くすることができる。また、ある発話に含まれる特徴が、次の発話に対する翻訳が流暢でなくては意味が通じないことを示している場合には、次の発話に対する翻訳時間を長くすることができる。
また、本発明の前記入力部は、第1の言語による第1ユーザの発話を入力として受け付ける第1入力部と、第2の言語による第2ユーザの発話を入力として受け付ける第2入力部とを備え、前記翻訳処理部は、前記第1ユーザの発話を第2の言語に翻訳し、翻訳して得られる第1翻訳発話情報を出力する第1翻訳処理部と、前記第2ユーザの発話を前記第1の言語に翻訳し、翻訳して得られる第2翻訳発話情報を出力する第2翻訳処理部とを備え、前記出力部は、出力された前記第1翻訳発話情報を第2ユーザへ伝達出力する第1出力部と、出力された前記第2翻訳発話情報を第1ユーザへ伝達出力する第2出力部とを備え、前記出力時刻決定部は、前記第1ユーザの発話又は前記第2ユーザの発話に含まれる特徴を解析して、前記第1ユーザの発話又は前記第2ユーザの発話の次に受け付けられる発話を前記第1翻訳処理部又は前記第2翻訳処理部が翻訳する翻訳時間の上限を示す出力時刻を決定し、前記第1翻訳処理部又は前記第2翻訳処理部は、前記出力時刻までに得られた翻訳結果である前記第1翻訳発話情報又は前記第2翻訳発話情報を出力するとしてもよい。これにより、対話支援装置は、第1ユーザの発話又は前記第2ユーザの発話の内容に応じて、次の発話に対する翻訳時間の上限を示す出力時刻を決定し、その出力時刻までに得られた翻訳結果を出力することができる。
ここで、前記翻訳処理部は統計機械翻訳方式によって翻訳処理を行なうとしてもよい。統計機械翻訳方式は、特に、一定以上の翻訳時間をかけなければ、あまり適切な対訳を得ることができないが、ある程度以上の翻訳時間をかけても翻訳時間に比例してよい対訳を得られるとは限らないという性質がある。従って、本発明の対話支援装置によれば、前記第1翻訳処理部又は前記第2翻訳処理部が、前記出力時刻までに得られた翻訳結果を出力する場合であっても、出力時刻決定部が一定範囲内の出力時刻を決定するようにしておけば、一定レベル以上の翻訳結果を得ることができるという効果がある。
さらに、本発明の前記出力時刻決定部は、前記第1ユーザの発話を文字列とした第1発話情報と、前記第2ユーザの発話を文字列とした第2発話情報との履歴を、発話の順に保持し、前記履歴に含まれる先の第1発話情報又は第2発話情報の特徴を参照して、次に保持される第1発話情報又は第2発話情報の前記出力時刻を決定するとしてもよい。従って、本発明の対話支援装置によれば、第1発話情報又は第2発話情報を、発話の順に保持した履歴に基づいて前記出力時刻を決定することができる。
また、本発明の前記出力時刻決定部が前記出力時刻を決定する根拠となる前記特徴の種類は、相互理解であり、前記解析の結果、受け付けられた前記発話に相互理解の特徴が含まれている場合、前記翻訳時間がより短くなるよう、前記出力時刻を決定するとしてもよい。ここで、前記発話に相互理解の特徴が含まれている場合には、対話内容に対するユーザ間の理解が深まっていることが示される。従って、翻訳結果がそれほど流暢でなくても、意思の疎通を得ることができると考えられる。このため、本発明の対話支援装置によれば、前記発話に相互理解の特徴が含まれている場合には、より短い時間で翻訳結果を出力することができ、対話をスムーズに進めることができる。
さらに、本発明の前記出力時刻決定部が前記出力時刻を決定する根拠となる前記特徴の種類は、表層表現の連続性であり、前記解析の結果、受け付けられた前記発話に表層表現の連続性を示す特徴が含まれている場合、前記翻訳時間がより短くなるよう前記出力時刻を決定し、前記発話に表層表現の不連続性を示す特徴が含まれている場合、前記翻訳時間がより長くなるよう前記出力時刻を決定するとしてもよい。ここで、前記発話に表層表現の連続性を示す特徴が含まれている場合には、次の発話の中に連続して、前記発話で使われた表層表現の一部が含まれる可能性が高く、その表層表現が得られれば、次の発話全体に対する翻訳結果がそれほど流暢でなくても、意思の疎通を得ることができると考えられる。このため、本発明の対話支援装置によれば、前記発話に表層表現の連続性を示す特徴が含まれている場合には、より短い時間で翻訳結果を出力することができ、対話をスムーズに進めることができる。また、逆に、前記発話に表層表現の不連続性を示す特徴が含まれている場合、次の発話の中に、前記発話で使われた表層表現の一部が含まれる可能性が低く、その表層表現が重要であることが多い。このため、本発明の対話支援装置によれば、前記発話に表層表現の不連続性を示す特徴が含まれている場合、より尤もらしい流暢な翻訳結果を出力し、意思の疎通を図ることができる。
また、本発明の前記出力時刻決定部が前記出力時刻を決定する根拠となる前記特徴の種類は、話題転換であり、前記解析の結果、受け付けられた前記発話に話題転換の特徴が含まれている場合、前記翻訳時間が標準的な長さになるよう、前記出力時刻を初期値に決定するとしてもよい。ここで、前記発話に話題転換の特徴が含まれている場合、その発話の前後で、対話の内容に関連性がなくなると考えられる。このため、本発明の対話支援装置によれば、前記発話に話題転換の特徴が含まれている場合、標準的な翻訳時間で得られる翻訳結果を出力することができる。
本発明の前記対話支援装置は、さらに、前記対話支援装置の計算資源に関する情報を提供する計算資源情報部を備え、前記出力時刻決定部は、計算資源に関する前記情報を参照して、前記第1翻訳発話情報又は前記第2翻訳発話情報の出力時刻を決定するとしてもよい。これにより、本発明の対話支援装置は、対話支援装置の計算資源の状態を考慮した出力時刻を決定することができる。
また、本発明の前記第1出力部及び前記第2出力部の少なくとも一方は、第1翻訳発話情報及び/又は第2翻訳発話情報を合成音声で再生する音声合成部と、第1翻訳発話情報及び/又は第2翻訳発話情報を表示出力する文字画像表示部とを備えるとしてもよい。これにより、本発明の対話支援装置は、第1翻訳発話情報及び/又は第2翻訳発話情報を、合成音声と文字画像表示とで第1ユーザ及び/又は第2ユーザに知らせることができる。従って、第1ユーザ及び/又は第2ユーザは、第1翻訳発話情報及び/又は第2翻訳発話情報を、合成音声だけでは聞き取りにくい場合であっても、文字画像表示部の表示出力を確認することにより、より正確に理解することができる。
また、本発明の前記音声合成部は、前記第1翻訳発話情報及び/又は前記第2翻訳発話情報の尤度が一定の閾値よりも低い場合は動作しないとしてもよい。これにより、本発明の対話支援装置は、尤度が一定の閾値よりも低い前記第1翻訳発話情報及び/又は前記第2翻訳発話情報を合成音声で聞き取ることによる、聞き取り間違いや発話内容の誤解を未然に防止することができる。
さらに、本発明の前記文字画像表示部は、前記第1翻訳発話情報及び/又は前記第2翻訳発話情報の尤度が一定の閾値よりも低い場合は、前記第1翻訳発話情報及び/又は前記第2翻訳発話情報に含まれる自立語だけを強調表示するとしてもよい。従って、本発明の対話支援装置によれば、尤度が一定の閾値よりも低い場合は、自立語だけを強調表示することにより、自立語以外の尤度の低い部分から翻訳内容の誤解を招くことを防止することができる。
また、本発明の対話支援システムは、通信網を介して互いに通信を行なうユーザごとの対話支援装置により、異なる言語の対話を支援する対話支援システムであって、第1の対話支援装置は、第1の言語による第1ユーザの発話を入力として受け付ける第1入力部と、受け付けられた前記第1ユーザの発話を所定の言語に翻訳し、翻訳して得られる第1翻訳発話情報を出力する第1翻訳処理部と、出力された前記第1翻訳発話情報を、第2の対話支援装置へ送信する第1送信部と、前記第1ユーザの発話に含まれる特徴を解析して、前記第1ユーザの発話の次に受け付けられる発話を翻訳する翻訳時間の上限を示す出力時刻を決定する第1出力時刻決定部と、決定された前記出力時刻を前記第2の対話支援装置へ送信する第1出力時刻送信部とを備え、前記第2の対話支援装置は、前記第1の対話支援装置から前記第1翻訳発話情報を受信し、第2ユーザに伝達する第2受信部と、前記第1の対話支援装置で決定された前記出力時刻を前記第1の対話支援装置から受信する第2出力時刻受信部と、前記所定の言語による第2ユーザの発話を入力として受け付ける第2入力部と、受け付けられた前記第2ユーザの発話を前記第1の言語に翻訳し、翻訳して得られる第2翻訳発話情報を出力する第2翻訳処理部と、出力された前記第2翻訳発話情報を、前記第1の対話支援装置へ送信する第2送信部と、前記第2翻訳処理部は、受信された前記出力時刻までに得られた翻訳結果である前記第2翻訳発話情報を出力することを特徴とする。これにより、本発明の対話支援システムは、通信網を介して、互いに離れた場所にいるユーザ同士の異なる言語による対話を支援することができる。さらに、これに加えて、第1の対話支援装置では、第1ユーザの発話に含まれる特徴に基づいて次の発話に対する翻訳時間の上限である出力時刻を決定し、第2の対話支援装置では、第1の対話支援装置から受信した前記出力時刻までに第2ユーザの発話を前記第1の言語に翻訳して得られる第2翻訳発話情報を出力することができる。すなわち、第2の対話支援装置では、第1ユーザの発話に含まれる特徴に応じた翻訳時間の上限まで翻訳処理を行い、第2翻訳発話情報を出力することができる。
また、本発明の対話支援システムは、通信網を介してサーバに接続される第1の対話支援装置および第2の対話支援装置を用いて、対話を支援する対話支援システムであって、前記第1の対話支援装置は、第1の言語で話された第1ユーザの発話を入力として受け付ける第1入力部と、受け付けられた前記第1ユーザの発話を、前記サーバへ送信する第1送信部と、前記第1ユーザの発話に対する第2ユーザの発話を前記第1の言語に翻訳した翻訳結果である第2翻訳発話情報を、前記サーバから受信する第2受信部と、受信された前記第2翻訳発話情報を、前記第1ユーザに伝達する第1出力部とを備え、前記第2の対話支援装置は、第2の言語で話された第2ユーザの発話を入力として受け付ける第2入力部と、受け付けられた前記第2ユーザの発話を、前記サーバへ送信する第2送信部と、前記第2ユーザの発話に対する前記第1ユーザの発話を前記第2の言語に翻訳した翻訳結果である第1翻訳発話情報を、前記サーバから受信する第1受信部と、受信された前記第1翻訳発話情報を、前記第2ユーザに伝達する第2出力部とを備え、前記サーバは、前記第1の対話支援装置から前記第1ユーザの発話を受信する第1発話受信部と、受信された前記第1ユーザの発話を前記第2の言語に翻訳し、翻訳して得られる第1翻訳発話情報を出力する第1翻訳処理部と、出力された第1翻訳発話情報を、前記第2の対話支援装置へ送信する第1送信部と、前記第2の対話支援装置から前記第2ユーザの発話を受信する第2発話受信部と、受信された前記第2ユーザの発話を前記第1の言語に翻訳し、翻訳して得られる第2翻訳発話情報を出力する第2翻訳処理部と、出力された第2翻訳発話情報を、前記第1の対話支援装置へ送信する第2送信部と、受信された前記第1ユーザの発話又は前記第2ユーザの発話に含まれる特徴を解析して、前記発話の次に受信される発話を翻訳する前記第1翻訳処理部又は前記第2翻訳処理部の翻訳時間の上限を示す出力時刻を決定する出力時刻決定部とを備え、前記第1翻訳処理部又は前記第2翻訳処理部は、決定された前記出力時刻までに得られた翻訳結果である前記第1翻訳発話情報又は前記第2翻訳発話情報を出力することを特徴とする。従って、本発明の対話支援システムによれば、発話に含まれる特徴の解析、それに基づく出力時刻の決定及び決定された出力時刻までの翻訳処理をすべてサーバが行なうので、各ユーザの所有する第1の対話支援装置および第2の対話支援装置では構成を簡素化することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図2は、本発明の一実施の形態の対話支援装置の構成を示すブロック図である。本実施の形態の対話支援装置は、言語の異なる2人のユーザの対話を支援する装置であって、ある発話に含まれる特徴に基づいて、次の発話に対して対訳言語データベースを探索する時間を変更する機能を有する。図2に示すように、このような対話支援装置は、第1入力部101、第1翻訳処理部102、第1出力部103、第2入力部104、第2翻訳処理部105、第2出力部106及び出力時刻決定部107を備える。第1入力部101は第1の言語(例えば、日本語)によるユーザ1(第1ユーザ)の発話を入力して、ユーザ1の発話を文字列とした第1発話情報を出力する。第1翻訳処理部102は第1発話情報をユーザ2(第2ユーザ)の第2の言語(所定の言語、例えば、英語)に翻訳して第1翻訳発話情報と第1翻訳発話情報の尤度を出力する。尤度とは、発話情報に対する翻訳発話情報の流暢さや意味の確かさを表す指標である。第1出力部103は第1翻訳発話情報をユーザ2に合成音声による発話として出力する。第2入力部104はユーザ2の第2発話を入力して、ユーザ2の発話を文字列とした第2発話情報を出力する。第2翻訳処理部105は第2発話情報をユーザ1の第1の言語に翻訳して第2翻訳発話情報と第2翻訳発話情報の尤度を出力する。第2出力部106は第2翻訳発話情報をユーザ1に合成音声による発話として出力する。出力時刻決定部107は第1発話情報又は第2発話情報を入力として、次に入力される第1発話情報又は第2発話情報に対する第1翻訳処理部102又は第2翻訳処理部105の処理時間(すなわち、発話情報に対する翻訳時間を意味し、対訳言語データベースの探索時間やある特定の処理のループ回数なども含む)の上限である出力時刻を決定する。
図3は、図2に示した出力時刻決定部107の構成の一例を示すブロック図である。出力時刻決定部107は、ある発話情報の特徴に基づいて、次に入力される発話情報に対する対訳言語データベースの探索時間を決定する処理部であって、対話履歴格納部201、対話履歴解析部202、計算資源情報部203、時刻計算部204及び特徴テーブル205を備える。対話履歴格納部201は、第1発話情報と第2発話情報を発生時刻の順に格納する。特徴テーブル205は、出力時刻の変動係数を決定する手がかりとなる発話の特徴が記述されたテーブルである。対話履歴解析部202は、対話履歴格納部201の内容と特徴テーブル205の内容を比較して、対話履歴格納部201に格納されている発話情報に、特徴テーブル205に記述された特徴が含まれているか否かを判断し、特徴が含まれていればその特徴に対応する出力時刻の変動係数を出力する。特徴が含まれていない場合には係数α=0を出力する。計算資源情報部203は本装置が動作する計算資源に関する情報を格納する。計算資源情報部203は、対話支援装置内での他のアプリケーションの作動などの影響による対話支援装置の稼働状況を検出して、対話支援装置のハードウェア性能を求め、図9に示したテーブルのリファレンス値と比較して、出力時刻の変動幅などを調整する。時刻計算部204は出力時刻の変動係数と計算資源情報部203を参照して第1翻訳処理部102と第2翻訳処理部105の出力時刻tを決定する。
第1入力部101はユーザ1が音声またはタイピングで入力する発話を連続音声認識処理またはキーボードで文字情報として取得し、第1発話情報として出力する。ユーザ1からの第1発話情報はユーザ1の発話に相当する文字列である。図4は、音声認識処理を行なう機能を備えた場合の第1入力部101の構成の一例を示す図である。第1入力部101は、音声認識部1901及び発話情報記憶部1902を備える。音声認識部1901はユーザ1の発話に相当する音声を文字情報に変換する。発話情報記憶部1902は音声認識部1901が出力する文字情報を一時的に記憶する。また、発話情報記憶部1902はユーザ1の発話に伴う指示によって一時的に記憶している第1発話情報を出力する。同様に、第2入力部104はユーザ2が音声またはタイピングで入力する第2発話を連続音声認識処理またはキーボードによって文字情報として取得し、第2発話情報として出力する。第2発話情報はユーザ2の第2発話に相当する文字列である。
第1翻訳処理部102は、ユーザ1の言語からユーザ2の言語へ変換する統計翻訳処理で構成する。統計翻訳処理は、ユーザ1の言語をS、ユーザ2の言語をTとした場合、第1発話情報S1の訳文T2を得ることは、SとTの対訳言語データベースにおいてP(T|S1)が最大にするT=T2を計算することである。ベイズの定理によれば、P(S1|T)P(T)を最大にするT=T2を探索することと等価である。P(S|T)は翻訳モデル、P(T)は言語モデルである。そして最大値P(T2|S1)を訳文T2の尤度とする。同様に、第2翻訳処理部105は、ユーザ2の言語からユーザ1の言語へ変換する統計翻訳処理で構成する。統計翻訳処理は、ユーザ2の言語をS、ユーザ1の言語をTとした場合、第2発話情報S2の訳文T1を得ることは、SとTの対訳言語データベースにおいてP(T|S2)が最大となるT=T1を計算することである。ベイズの定理によれば、P(S2|T)P(T)を最大にするT=T1を探索することと等価である。P(S|T)は翻訳モデル、P(T)は言語モデルである。そして最大値P(T1|S2)を訳文T1の尤度とする。ただし、いずれの統計翻訳処理も出力時刻決定部107が決定した出力時刻tを越えて処理を継続することはできない。処理の時間が出力時刻tに到達した時点で中断し、その時点で最適な訳文と訳文の尤度を出力する。
第1出力部103は、音声合成処理と画像表示処理で構成し、第1翻訳発話情報をユーザ2へ音声または文字画像として出力する。また、第1出力部103は閾値U1を持つ。閾値U1は第1翻訳処理部102が流暢さと意味の明確さの評価値が所定値80%の訳文を生成する際の尤度の平均値で決定する。第1翻訳処理部102から出力される尤度が閾値U1よりも小さい場合は音声合成処理をせず、第1翻訳発話情報を構成する単語の中で自立語だけを強調表示する。また、第2出力部106は、音声合成処理と画像表示処理で構成し、第2翻訳発話情報をユーザ1へ音声または文字画像として出力する。また、第2出力部106は閾値U2を持つ。閾値U2は第2翻訳処理部105が流暢さと意味の明確さの評価値が所定値80%の訳文を生成する際の尤度の平均値で決定する。第2翻訳処理部105から出力される尤度が閾値U2よりも小さい場合は音声合成処理をせず、第2翻訳発話情報を構成する単語の中で自立語だけを強調表示する。
図5は、本発明の対話支援装置の一実施の形態のユーザインタフェースを示す図である。図5に本発明を実装したハードウェアのユーザインタフェースを示す。左側のユーザインタフェースをユーザ1が、右側のユーザインタフェースをユーザ2が使用する。マイク301と入力発話情報302と入力開始ボタン303は第1入力部101に相当し、スピーカ304と翻訳発話情報311は第2出力部106に相当する。翻訳開始ボタン306は第1翻訳処理部102の翻訳処理を開始するボタンである。同様に、マイク307と入力発話情報308と入力開始ボタン309は第2入力部104に相当し、スピーカ310と翻訳発話情報305は第1出力部103に相当する。翻訳開始ボタン312は第2翻訳処理部105の翻訳処理を開始するボタンである。
図6は本発明の全体の動作を示すフローチャートである。ステップS401では出力時刻決定部107が本装置を使い始める前に出力時刻tを初期値Tに設定する。ステップS402ではユーザ1またはユーザ2の発話入力を待つ。発話入力が完了した段階、すなわち、翻訳開始ボタン306または翻訳開始ボタン312が押された時点でステップS403へ移る。ステップS403では、最大t秒の時間をかけて第1翻訳処理部102または第2翻訳処理部105が翻訳処理を行って訳文を相手に出力する。同時に出力時刻決定部107では対話履歴格納部201の内容を更新し、次の翻訳処理のための出力時刻tを計算する。そしてステップS402へ戻る。
ステップS403において、出力時刻tの計算は具体的に以下のように計算される。
まず、図7は、図6に示したステップS403での対話支援装置のより詳細な動作を示すフローチャートである。第1翻訳処理部102又は第2翻訳処理部105は、内部にタイマを備え、ユーザ1又はユーザ2によって翻訳開始ボタン306または翻訳開始ボタン312が押されると、内部のタイマを始動し、出力時刻決定部107によって設定された出力時刻t(初期値T)の計測を開始する(S601)。第1入力部101又は第2入力部104は、入力された第1発話情報又は第2発話情報で対話履歴格納部201を更新する(S602)。第1翻訳処理部102又は第2翻訳処理部105は、対訳言語データベース内で、入力された第1発話情報又は第2発話情報に対して最も尤度が高くなるような対訳コーパスを探索する(S603)。第1翻訳処理部102又は第2翻訳処理部105は、タイマを調べて、出力時刻決定部107によって設定された出力時刻t秒を経過したか否かを判断し(S604)、経過していなければステップS603に戻って、対訳言語データベースの探索を継続する。ステップS604において、出力時刻t秒を経過した場合、その時点で対訳コーパスの探索を中止し、その時点で求められている翻訳発話情報を出力する(S605)。
次いで、対話履歴解析部202は、特徴テーブル205を参照して(S606)、対話履歴格納部201に格納されている発話情報の中に、特徴テーブル205に記述されている特徴が含まれているか否かを解析する(S607)。発話情報の中に、特徴テーブル205に記述されている特徴が含まれている場合、対話履歴解析部202はその特徴に対応する係数αを特徴テーブル205から取得して時刻計算部204に出力する。また、時刻計算部204は、計算資源情報部203のテーブルを参照して変動幅ΔTを算出する(S608)。さらに、時刻計算部204は、取得した係数αと変動幅ΔTとから、次の発話情報に対する対訳言語データベースの探索時間の上限に相当する出力時刻t=(t+α・ΔT)を算出し、次の翻訳処理のための新たな出力時刻tを設定して処理を終了する(S609)。また、ステップS607において、発話情報の中に、特徴テーブル205に記述されている特徴が含まれていなかった場合、時刻計算部204は何もしないで処理を終了する。または、時刻計算部204は、これに相当する処理として、係数α=0とし、次の翻訳処理のための新たな出力時刻tを設定して処理を終了するとしてもよい。これにより、次に、ステップS403の処理が開始されるときには、第1翻訳処理部102又は第2翻訳処理部105の内部のタイマは、このステップS609で出力時刻決定部107によって設定された新たな出力時刻tを計測し、第1翻訳処理部102又は第2翻訳処理部105は、新たな出力時刻tが経過するまで対訳言語データベースを探索する。
なお、以上では、第1翻訳処理部102又は第2翻訳処理部105による対訳言語データベースの探索終了後、出力時刻決定部107が次の発話に対する探索時間を算出すると説明したが、本発明はこれに限定されない。例えば、第1入力部101又は第2入力部104と、第1翻訳処理部102又は第2翻訳処理部105と、出力時刻決定部107とは並行して処理を行なうとしてもよい。すなわち、対話履歴格納部201の更新、対訳言語データベースの探索及び次の発話に対する翻訳発話情報の出力時刻の決定が並行処理されるとしてもよい。
図8は、図6に示したステップS403で並行処理を行なう場合での対話支援装置のより詳細な動作の一例を示すフローチャートである。まず、第1入力部101又は第2入力部104からユーザ1又はユーザ2による発話が入力され、翻訳開始ボタン306または翻訳開始ボタン312が押されると、第1翻訳処理部102又は第2翻訳処理部105は、内部のタイマを始動し、出力時刻決定部107によって設定された出力時刻tの計測を開始する(S601)。そして、第1翻訳処理部102又は第2翻訳処理部105は、出力時刻決定部107によって設定された出力時刻tが経過するまで、対訳言語データベースを探索する(S603〜S604)。出力時刻tが経過すると、第1翻訳処理部102又は第2翻訳処理部105は、対訳言語データベースの探索を中止し、その時点で求められている翻訳発話情報を出力する(S605)。
以上のステップS601、S603、S604、S605の処理と並行して、第1入力部101又は第2入力部104、対話履歴解析部202、計算資源情報部203及び時刻計算部204は以下の処理を行なう。すなわち、第1入力部101又は第2入力部104は、入力された発話に対応する第1発話情報又は第2発話情報を生成し、生成された第1発話情報又は第2発話情報で対話履歴格納部201を更新する(S602)。すなわち、入力開始ボタン303又は入力開始ボタン309が押されて発話が入力されると、第1入力部101又は第2入力部104は、第1翻訳処理部102又は第2翻訳処理部105の動作とは関係なく、第1発話情報又は第2発話情報を生成して、生成された第1発話情報又は第2発話情報で対話履歴格納部201を更新する。次いで、対話履歴解析部202は、特徴テーブル205を参照して(S606)、更新された対話履歴格納部201に格納されている発話情報の中に、特徴テーブル205に記述されている特徴があるか否かを解析する(S607)。発話情報の中に、特徴テーブル205に記述されている特徴がある場合、対話履歴解析部202はその特徴に対応する係数αを特徴テーブル205から取得して時刻計算部204に出力する。また、時刻計算部204は、計算資源情報部203のテーブルを参照して変動幅ΔTを算出する(S608)。さらに、時刻計算部204は、取得した係数αと変動幅ΔTとから、次の発話情報に対する対訳言語データベースの探索時間の上限に相当する出力時刻t=(t+α・ΔT)を算出し、次の翻訳処理のための新たな出力時刻tを設定して処理を終了する(S609)。また、ステップS607において、発話情報の中に、特徴テーブル205に記述されている特徴が含まれていなかった場合、時刻計算部204は何もしないで処理を終了する。または、時刻計算部204は、これに相当する処理として、係数α=0とし、次の翻訳処理のための新たな出力時刻tを設定して処理を終了するとしてもよい。このように、並行処理を行なうことにより、時刻計算部204によって計算された出力時刻tを、タイマ計測の開始から出力時刻tが経過するまで、無駄なく、対訳言語データベースの探索に使用することができる。また、並行処理を行なうことによって、対訳言語データベースの探索を行っている間に、次の発話に対する出力時刻tの計算を済ませておくことができるので、ユーザ1とユーザ2とが間断なく発話した場合などにも、速やかに翻訳処理を開始することができる。
図9に計算資源情報部203の構成を示す。図9は図3に示した計算資源情報部203が保持するテーブルのデータ構成の一例を示す図である。図9における各パラメータは、Tは出力時刻tの初期値、ΔTは出力時刻tの変動幅、minTは出力時刻tの最小値である。リファレンス値の行は、本装置がCPU性能600MIPS(million instructions per second)の計算機に実装されるときの値であり、実際に実装される計算機の性能(装置のハードウェア性能)に応じて計算する必要がある。図9の例ではCPU性能が現時点で1200MIPSであるためにすべてのパラメータは600/1200倍、すなわち0.5倍に設定される。なお、CPU性能は現在処理中のプロセスの数や優先度の関係、利用可能な主記憶の量などによって一般に時々刻々変化するので現在のCPUの平均的な負荷(0〜100の値)に反比例するように計算することで、翻訳処理に必要な時間を正確に設定することが可能になる。例えば本来のCPU性能に(1−負荷/100)の値を乗じることで、本装置のCPU性能が1200MIPSでも、負荷が50%であればCPU性能を600MIPSとして適切にTおよびΔTの値が設定される。
図10は、図3に示した対話履歴解析部が保持する特徴テーブルのデータ構成の一例を示す図である。次に、図10に対話履歴解析部202が参照する特徴テーブル205のデータ構成を示す。ここでは、特徴の種類として、相互理解、表層表現の連続性、及び話題転換の3つについて分類している。
(1)話者の発話に含まれる特徴が相互理解である場合、対話相手との相互理解が生じているため、次に発話される対話相手の翻訳発話情報が多少不明瞭でも、話者には理解できると考えられる。
(2)次に、表層表現の連続性とは、ある表層表現の発話があったときに、その表層表現の一部が次の発話の中に含まれ易い傾向があるか否かを示す性質をいう。しかも、この場合、その表層表現の一部が、次の発話の中で重要な意味を持つ場合を特に特徴テーブルに抽出している。話者にとって、自分が使った表層表現の一部が、重要な意味を持って対話相手の発話の中に含まれる場合には、翻訳発話情報があまり流暢でなくても、話者には理解できると考えられる。逆に、表層表現の一部が次の発話の中に含まれない可能性が高く、その表層表現が重要な意味を持つ場合には、対話相手の発話に対して、より適切で流暢な翻訳発話情報が望まれる。
(3)さらに、話者の発話に含まれる特徴が話題転換である場合、それまでの対話とは関連のない別の発話がなされる可能性が高いので、はじめて会話を始めるときと同程度の流暢さを持った翻訳発話情報が必要と考えられる。なお、ここでは、特徴の種類として、相互理解、表層表現の連続性及び話題転換の3種類について例を挙げたが、これとは異なる特徴の種類、又は、もっと多くの特徴の種類について特徴テーブル205を作成しておいてもよいものとする。このような特徴の種類に対して、特徴テーブル205は主に言語1の特徴、言語2の特徴、係数αの3つの項目の組で構成される。係数αは翻訳処理を介して実験的に行った対話を分析することによって決定する。すなわち、発話Aに続く次の発話Bが粗い訳であっても相手に意図が通じる場合は発話Aの特徴の係数αは負の値、正確な訳でないと相手に意図が伝わらない場合は発話Aの特徴の係数αは正の値が算出される。翻訳処理の粗さや正確さに応じて係数αの絶対値を変化させることで、より適切な出力時刻が決定できるが、ここでは説明を簡単にするために±1の値を使って説明する。対話履歴解析部202は対話履歴格納部201に格納された対話の履歴の中から特徴テーブル205の中の特徴を検出し、その特徴に応じた係数αを出力する。ただし係数αがresetの場合は、時刻計算部204は出力時刻tを初期値Tに戻すことを意味する。また、特徴が見当たらない場合はα=0として出力する。
時刻計算部204は計算資源情報部203から各パラメータの値を獲得し、対話履歴解析部202が出力する係数αを獲得して、出力時刻tを計算する。tの計算は現在のtの値を係数αの方向にΔtに比例した値で増減することによって行う。例えば最も簡単な計算としてはt←t+αΔTとして計算する。ただし、出力時刻tがt<minTとなった場合はt←minTとする。
以下、本発明で異言語の対話を支援する場合の具体的な動作について詳細に説明する。ユーザ1の母国語は日本語、ユーザ2の母国語は英語とする。
図11は、図3に示した対話履歴格納部の内容とそれに応じて時刻計算部204によって算出される探索時間の上限の初期値の一例を示すテーブルである。図11に本発明の動作を把握しやすいように、ユーザの発話(第1発話情報または第2発話情報)に従って更新される対話履歴格納部201の内容を701に、同発話が第1翻訳処理部102または第2翻訳処理部105によって処理されて出力された訳文(第1翻訳発話情報または第2翻訳発話情報)と尤度を702に、時刻計算部204による出力時刻tの計算結果を703に記す。本装置の使用開始直後は、ステップS401において時刻計算部204は出力時刻tを計算資源情報部203の内容を参照してTにセットする。本装置の状態はステップS402に移る。
図12は、最初にユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。図12に示す対話支援装置に、ユーザ1が入力開始ボタン303を押して「こんにちは」を発話したとする。マイク301を通じて第1入力部101が第1発話情報として「こんにちは」を出力する。ユーザ1が翻訳開始ボタン306を押すとステップS403に移り、第1翻訳処理部102が最大tの時間をかけて翻訳処理を開始する。図13は、図12に示したユーザ1の発話に対して更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。図13の902に示すように第1翻訳処理部102は、“hello”と尤度1.0を第1翻訳発話情報として出力する。第1出力部103の閾値U1=0.6である場合、この尤度がU1よりも大きいので、第1翻訳発話情報“hello”は翻訳発話情報305にそのまま表示され、音声合成処理によってスピーカ310から“hello”が再生される。翻訳処理の開始と同時に対話履歴格納部201は図13に示す901のように更新され、対話履歴解析部202は対話履歴の内容901の特徴を解析するが、何も特徴がないので、係数α=0を出力する。時刻計算部204が計算する出力時刻tは変化しないので、903に示すようにt=Tのままである。処理はステップS402に移る。
図14は、ユーザ1の発話に対して、ユーザ2が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。図14に示した、ユーザ1の翻訳発話を聞いたユーザ2が入力開始ボタン309を押して“Which do you like, tea or coffee?”を発話したとする。マイク313を通じて第2入力部104が第2発話情報として“which do you like tea or coffee”を出力する。ユーザ2が翻訳開始ボタン312を押すとステップS403に移り、第2翻訳処理部105が最大tの時間をかけて翻訳処理を開始する。1102に示すように第2翻訳処理部105は、「お茶とコーヒーどちらが好きですか」と尤度0.9を第2翻訳発話情報として出力する。第2出力部106の閾値U2=0.6である場合、この尤度がU2よりも大きいので、第2翻訳発話情報「お茶とコーヒーどちらが好きですか」は翻訳発話情報311にそのまま表示され、音声合成処理によってスピーカ304から「お茶とコーヒーどちらが好きですか」が再生される。図15は、図14に示したユーザ2の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。同時に対話履歴格納部201は図15に示す1101のように更新され、対話履歴解析部202は対話履歴1101の特徴を解析する。ユーザ2の発話情報“which do you like tea or coffee”には図10の特徴の中で(表層表現の連続性,1)が適合する。したがって、その係数α=−1を出力する。時刻計算部204は出力時刻tをt+αΔT=T−ΔTに設定する。処理はステップS402に移る。
図16は、図14に示したユーザ2の発話に対して、ユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。図17は、図16に示したユーザ1の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。図16に、ユーザ2の翻訳発話を聞いたユーザ1が入力開始ボタン303を押して「コーヒーがいいです」を発話した場合の例を示す。マイク301を通じて第1入力部101が第1発話情報として「コーヒーがいいです」を出力する。ユーザ1が翻訳開始ボタン306を押すとステップS403に移り、第1翻訳処理部102が最大t=T−ΔTの時間をかけて翻訳処理を開始する。902に示すように第1翻訳処理部102は、“coffee good would”と尤度0.5を第1翻訳発話情報として出力する。第1出力部103の閾値U1=0.6であるので、この尤度がU1よりも小さい。第1翻訳発話情報“coffee good would”は、自立語である“coffee”と“good”とが翻訳発話情報305に強調表示される。ただし、音声合成処理は行わないので、スピーカ310からは何も再生されない。翻訳処理の開始と同時に対話履歴格納部201は図17に示す1301のように更新され、対話履歴解析部202は対話履歴の内容1301の特徴を解析するが、何も特徴がないので、係数α=0を出力する。時刻計算部204が計算する出力時刻tは変化しないので、1303に示すようにt=T−ΔTのままである。処理はステップS402に移る。
本発明の効果は次のように現れている。すなわち、図9の各パラメータの具体的な数値で説明すれば、ユーザ1の最初の発話とユーザ2の2番目の発話は25秒で処理されたが、ユーザ1の3番目の発話は15秒で処理されている。したがって、25秒を費やしても正しい訳が得られるかどうかは不明であるが、15秒を費やして対話を続行するのに必要十分な訳文が得られているので、ユーザ1とユーザ2は速やかに対話を完了することが可能である。また、対話を続行するのに必要十分な訳文でも、流暢さや意味の明確さが不十分であるために、音声合成で読み上げると相手を混乱させることがある。本発明では、訳文の尤度によって流暢さや意味の明確さが不十分である場合は音声合成処理を停止し、訳文の表示において自立語を強調表示することで相手の混乱を回避しながら、速やかに対話を続行することが可能になる。
図18は、本発明の対話支援装置による効果を、従来方式の対話支援装置と、対話履歴及び探索時間の上限で対比した図である。ここで、本発明の効果をさらに定量的に検証する。図18に自動翻訳機能をそのまま対話支援に利用した従来の方式の対話1401と、本発明によって支援された対話1402を示す。従来の方式の対話では、各翻訳処理にかかる時間の上限は一定であるので、8発話に対して8Tの時間を要する。図9の各パラメータの値であれば、この8発話の対話の翻訳処理に3分20秒が必要とされ、なおユーザ1はユーザ2へ自分の意図を伝達できていない。しかしながら、本発明によって支援される対話では、対話の文脈に応じて翻訳処理の上限時間を変化させるため、同様な8発話に対して(8T−2ΔT)の時間を要するだけである。すなわち、3分でユーザ1とユーザ2は相互に意思を通じ合っている。したがって、現実世界において速やかに対話を完了しなければならない状況では、本発明の効果は有効である。なお、図18(a)に示した例では、(b)に示した従来の例と比べて、対話時間が2ΔT短縮されているが、本発明の対話支援装置では、必ずしも対話時間が短縮されるとは限らず、従来の対話支援装置と同程度の対話時間になることも起こり得る。しかし、本発明の対話支援装置では、従来のように、いつも同じ時間で対訳言語データベースを探索するのではなく、より正確さや流暢さを要求される発話の特徴を発見した場合に限って探索に時間をかける。これにより、より対話の流れに即した翻訳結果を得ることができ、その結果、対話に同じ時間がかかっても、対話相手との意思の疎通を得る確率が高くなるという効果がある。
本発明の効果をさらに別の観点から検証する。図19は、本発明の対話支援装置による平均翻訳処理時間と従来方式による平均翻訳処理時間との対比を示すグラフである。図18で従来方式と本発明とを対話履歴及び探索時間の上限で対比したが、これを平均翻訳処理時間の観点で対話開始から対話完了までプロットした図を図19に示している。ある時刻tにおける平均翻訳処理時間は、時刻tまでに費やされた翻訳処理時間の合計を時刻tまでの発話数で割った翻訳処理時間の平均値である。従来方式では翻訳処理時間は一定であるため、平均翻訳処理時間も一定の値となる。しかしながら、本発明においては、対話が進行して対話の履歴の蓄積量が増えると共に、翻訳処理時間の平均値は減少する。したがって、意思疎通のレベルが同じレベルで対話が完了するとき、本発明の方が従来方式よりも対話に要する時間は少なくなるという効果がある。
図20は、本発明の対話支援装置の変形例の構成を示すブロック図である。図21は、本発明の対話支援装置の変形例のユーザインタフェースを示す図である。なお、本発明のユーザインタフェースの一例を図5に示したが、図20に示すように図2の構成に通信部1503〜1510を加えることにより、図2の構成を端末1501と端末1502に分け、図21に示すようなユーザインタフェースで実装してもよい。このような構成とすることにより、ユーザ1の端末1501では、出力時刻を決定する処理を省略することができる。すなわち、ユーザ1の端末1501では、ユーザ2の端末1502から受信した出力時刻に従って第1翻訳処理部102の翻訳処理を行なえばよい。具体的には、図21に示すように、ユーザ1の端末1501では、あらかじめユーザ2の端末1502から出力時刻を受信する。そして、ユーザ1が入力開始ボタン303を押して「こんにちは」を入力し、続けて翻訳開始ボタン306を押すと、第1翻訳処理部102は、端末1502から受信した出力時刻までに、ユーザ1の発話情報「こんにちは」を英語に翻訳する。端末1501では、第1翻訳処理部102の翻訳結果である翻訳発話情報と尤度とを、通信部1503から端末1502の通信部1504に送信し、端末1502では受信した翻訳発話情報「Hello.」をスピーカ310で再生出力する。端末1502では、端末1501で入力された発話「こんにちは」の発話情報を通信部1507と通信部1508とを介して受信し、受信した発話情報「こんにちは」を解析して、次の発話に対する翻訳発話情報の出力時刻を算出する。なお、ここでは端末1501には出力時刻決定部を備えない構成としたが、本発明はこれに限定されず、端末1501も出力時刻決定部を備える端末1502と同じ構成としてもよい。
図22は、本発明の対話支援装置の第2の変形例の構成を示すブロック図である。また、図22に示すように、図2の構成に通信部1704〜1711を加えることにより、第1翻訳処理部102と第2翻訳処理部105と出力時刻決定部107をサーバ1703に実装し、端末1701と端末1702を、それぞれ通信回線を経由してサーバ1703に接続するように実装してもよい。このようにすることにより、端末1701及び端末1702の構成を簡単にすることができ、端末1701及び端末1702の小型化、軽量化及び省電力化などを実現することができる。
なお、対話履歴解析部202が対話履歴格納部201の内容の中から特徴を見出す際に、参照する発話情報の範囲を直前のn発話に拡張することで、さらに精密な翻訳処理時間の制御が可能になる。例えば図10の特徴テーブル205の中の相互理解の特徴を直前の6発話の中に見出した分だけ係数αを累積することで、ユーザ1とユーザ2の相互理解の度合いがより正確に算出され、それに応じて出力時刻tの値を計算することで、より必要十分な翻訳処理時間の上限が決定される。
なお、計算資源情報部203が保持する各パラメータの値を、入力された発話情報の単語数で正規化することで、さらに精密な翻訳処理時間の制御が可能になる。例えば、上記の例ではTと△Tの値を発話情報の平均的な単語数Wに応じて計算するが、入力された発話情報の単語数がW/2であれば、すでに計算されたtの値を1/2に正規化したt/2を翻訳処理時間の上限として翻訳処理の開始直前に設定することでより必要十分な翻訳処理時間の上限が決定される。あるいは、入力された発話情報の単語数が2Wであれば、すでに計算されたtを2倍に正規化した2tを翻訳処理時間の上限として翻訳処理の開始直前に設定することでより必要十分な翻訳処理時間の上限が決定される。なお、このような場合、本発明の効果を示す図19のグラフは、tの値を正規化前の時間に戻してからプロットして解釈すべきである。
なお、上記の実施の形態では翻訳処理時間の上限を時間tで制限しているが、時間tに比例する他のパラメータを用いて間接的に翻訳処理時間の上限を制限しても同様の効果となる。例えば、統計翻訳処理における訳文の探索の深さdと翻訳処理時間は比例関係であるので、平均的な探索の深さDと△Tに相当する探索の深さの変動幅△Dを設定しておいて、上記の処理をそのままTとDを記号的に置換して実施することで同様の効果となる。探索の深さ以外にも、探索ステップ数や探索範囲の広さなどの翻訳処理量を規定するパラメータで代用しても同様の効果となることは言うまでもない。
なお、一例として日本語と英語を取り上げたが、フランス語、ドイツ語、韓国語または中国語など他の言語についても同様に実施可能であり、本発明は言語に依存しない。
(実施の形態2)
上記実施の形態1ではユーザ1の母国語は日本語、ユーザ2の母国語は英語として、本発明で異言語の対話を支援する場合の具体的な動作について詳細に説明したが、以下の実施の形態2では、ユーザ1の母国語を中国語、ユーザ2の母国語を英語として両者の対話を支援する対話支援装置の例について説明する。実施の形態2の対話支援装置の構成は、各処理部の処理対象となる言語が異なるだけで、各処理部での処理内容は図2に示した内容と同様であるので、図示を省略する。実施の形態2の対話支援装置が実施の形態1の対話支援装置と異なる点は、以下の通りである。
第1入力部101は第1の言語(中国語)によるユーザ1(第1ユーザ)の発話を入力して、ユーザ1の発話を文字列とした第1発話情報を出力する。第1翻訳処理部102は第1発話情報をユーザ2(第2ユーザ)の第2の言語(英語)に翻訳して第1翻訳発話情報と第1翻訳発話情報の尤度を出力する。
図23は、実施の形態2の対話支援装置のユーザインタフェースを示す図である。図23に本発明を実装したハードウェアのユーザインタフェースを示す。左側のユーザインタフェースを中国語を話すユーザ1が、右側のユーザインタフェースを英語を話すユーザ2が使用する。マイク301と入力発話情報302と入力開始ボタン303は第1入力部101に相当し、スピーカ304と翻訳発話情報311は第2出力部106に相当する。翻訳開始ボタン306は第1翻訳処理部102の翻訳処理を開始するボタンである。同様に、マイク307と入力発話情報308と入力開始ボタン309は第2入力部104に相当し、スピーカ310と翻訳発話情報305は第1出力部103に相当する。翻訳開始ボタン312は第2翻訳処理部105の翻訳処理を開始するボタンである。
図24は、言語1が中国語で、言語2が英語である場合の特徴テーブルのデータ構成の一例を示す図である。図10ではユーザ1の母国語が言語1(日本語)であり、ユーザ2の母国語が言語2(英語)である場合の特徴テーブルのデータ構成について説明した。しかし、図24では、ユーザ1の母国語が言語1(中国語)である点が図10の特徴テーブルと異なる。
図25は、最初にユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。図25に示す対話支援装置に、ユーザ1が入力開始ボタン303を押して
Figure 0004041158
を発話したとする。マイク301を通じて第1入力部101が第1発話情報として
Figure 0004041158
を出力する。ユーザ1が翻訳開始ボタン306を押すと、第1翻訳処理部102が最大tの時間をかけて翻訳処理を開始する。図26は、図25に示したユーザ1の発話に対して更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。図26の902に示すように第1翻訳処理部102は、“hello”と尤度1.0を第1翻訳発話情報として出力する。第1出力部103の閾値U1=0.6である場合、この尤度がU1よりも大きいので、第1翻訳発話情報“hello”は翻訳発話情報305にそのまま表示され、音声合成処理によってスピーカ310から“hello”が再生される。翻訳処理の開始と同時に対話履歴格納部201は図26に示す901のように更新され、対話履歴解析部202は対話履歴の内容901の特徴を解析するが、何も特徴がないので、係数α=0を出力する。時刻計算部204が計算する出力時刻tは変化しないので、903に示すようにt=Tのままである。
図27は、ユーザ1の発話に対して、ユーザ2が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。図27に示したユーザ1の翻訳発話を聞いたユーザ2が入力開始ボタン309を押して“Which do you like, tea or coffee?”を発話したとする。マイク313を通じて第2入力部104が第2発話情報として“which do you like tea or coffee”を出力する。ユーザ2が翻訳開始ボタン312を押すと、第2翻訳処理部105が最大tの時間をかけて翻訳処理を開始する。1102に示すように第2翻訳処理部105は、
Figure 0004041158
と尤度0.9を第2翻訳発話情報として出力する。第2出力部106の閾値U2=0.6である場合、この尤度がU2よりも大きいので、第2翻訳発話情報
Figure 0004041158
は翻訳発話情報311にそのまま表示される。さらに、音声合成処理によってスピーカ304から
Figure 0004041158
が再生される。図28は、図27に示したユーザ2の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。同時に対話履歴格納部201は図28に示す1101のように更新され、対話履歴解析部202は対話履歴1101の特徴を解析する。ユーザ2の発話情報“which do you like tea or coffee”には図24の特徴の中で(表層表現の連続性,1)が適合する。したがって、その係数α=−1を出力する。時刻計算部204は出力時刻tをt+αΔT=T−ΔTに設定する。
図29は、図27に示したユーザ2の発話に対して、ユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。また、図30は、図29に示したユーザ1の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。図29に、ユーザ2の翻訳発話を聞いたユーザ1が入力開始ボタン303を押して
Figure 0004041158
を発話した場合の例を示す。マイク301を通じて第1入力部101が第1発話情報として
Figure 0004041158
を出力する。ユーザ1が翻訳開始ボタン306を押すと、第1翻訳処理部102が最大t=T−ΔTの時間をかけて翻訳処理を開始する。902に示すように第1翻訳処理部102は、“coffee good would”と尤度0.5を第1翻訳発話情報として出力する。第1出力部103の閾値U1=0.6であるので、この尤度がU1よりも小さい。従って、第1翻訳発話情報“coffee good would”のうち、自立語である“coffee”と“good”とが翻訳発話情報305に強調表示される。ただし、音声合成処理は行わないので、スピーカ310からは何も再生されない。翻訳処理の開始と同時に対話履歴格納部201は図30に示す1301のように更新され、対話履歴解析部202は対話履歴の内容1301の特徴を解析するが、何も特徴がないので、係数α=0を出力する。時刻計算部204が計算する出力時刻tは変化しないので、1303に示すようにt=T−ΔTのままとなる。
本発明の効果は次のように現れている。すなわち、実施の形態1と同様に、図9の各パラメータの具体的な数値で説明すれば、ユーザ1の最初の発話とユーザ2の2番目の発話は25秒で翻訳処理されたが、ユーザ1の3番目の発話は15秒で処理されている。したがって、ユーザ1の3番目の発話の翻訳処理に25秒を費やしても正しい訳が得られるかどうかは不明であるが、15秒を費やして対話を続行するのに必要十分な訳文が得られているので、ユーザ1とユーザ2は速やかに対話を完了することが可能である。また、対話を続行するのに必要十分な訳文でも、流暢さや意味の明確さが不十分であるために、音声合成で読み上げると相手を混乱させることがある。本発明では、訳文の尤度によって流暢さや意味の明確さが不十分である場合は音声合成処理を停止し、訳文の表示において自立語を強調表示することにより、相手の混乱を回避しながら、速やかに対話を続行することが可能になる。
ここで、本発明の効果をさらに定量的に検証する。図31は、本発明の対話支援装置による効果と、従来方式の対話支援装置による効果とを、対話履歴及び探索時間の上限で対比した図である。図31に自動翻訳機能をそのまま対話支援に利用した従来の方式の対話1401と、本発明によって支援された対話1402を示す。従来の方式の対話では、各翻訳処理にかかる時間の上限は一定であるので、8発話に対して8Tの時間を要する。図9の各パラメータの値であれば、この8発話の対話の翻訳処理に3分20秒が必要とされ、なおかつ、ユーザ1はユーザ2へ自分の意図を伝達できていない。しかしながら、本発明によって支援される対話では、対話の文脈に応じて翻訳処理の上限時間を変化させるため、同様な8発話に対して(8T−2ΔT)の時間を要するだけである。すなわち、3分でユーザ1とユーザ2は相互に意思を通じ合っている。したがって、現実世界において速やかに対話を完了しなければならない状況では、本発明の効果は有効である。なお、図31(a)に示した例では、(b)に示した従来の例と比べて、対話時間が2ΔT短縮されているが、本発明の対話支援装置では、必ずしも対話時間が短縮されるとは限らず、従来の対話支援装置と同程度の対話時間になることも起こり得る。しかし、本発明の対話支援装置では、従来のように、いつも同じ時間で対訳言語データベースを探索するのではなく、より正確さや流暢さを要求される発話の特徴を発見した場合に限って探索に時間をかける。これにより、より対話の流れに即した翻訳結果を得ることができ、その結果、対話に同じ時間がかかっても、対話相手との意思の疎通を得る確率が高くなるという効果がある。
本発明の効果をさらに別の観点から検証する。図31で従来方式と本発明とを対話履歴及び探索時間の上限で対比したが、これを平均翻訳処理時間の観点で対話開始から対話完了までプロットした図を図19に示している。ある時刻tにおける平均翻訳処理時間は、時刻tまでに費やされた翻訳処理時間の合計を時刻tまでの発話数で割った翻訳処理時間の平均値である。従来方式では翻訳処理時間は一定であるため、平均翻訳処理時間も一定の値となる。しかしながら、本発明においては、対話が進行して対話の履歴の蓄積量が増えると共に、翻訳処理時間の平均値は減少する。したがって、意思疎通のレベルが同じレベルで対話が完了するとき、本発明の方が従来方式よりも対話に要する時間は少なくなるという効果がある。
図32は、本発明の対話支援装置の変形例の構成を示すブロック図である。なお、本実施の形態2においても、図2の構成に通信部1503〜1510を加えることにより、図2の構成を端末1501と端末1502に分け、図32に示すようなユーザインタフェースで実現してもよい。このユーザインタフェースの具体的な内部構成は図21に示した構成と同じである。
図33は、本発明の対話支援装置のハードウェア構成の一例を示すブロック図である。同図に示すように、本発明の対話支援装置3200は、スピーカ3201、マイク3202、外部メモリ3203、表示部3204、ROM3205、CPU(プロセッサ)3206、RAM3207、通信部3208、入力部3209及びバス3210を備える。
スピーカ3201は、第1出力部103及び第2出力部106を実現し、翻訳された発話を、合成音声で出力する。マイク3202は、第1入力部101及び第2入力部104の一部を実現し、ユーザ1及びユーザ2の音声の入力を受け付ける。外部メモリ3203は、ハードディスク、DVD及びICカードなどの大容量メモリであり、文法及び対訳コーパスなどを格納して対訳言語データベースを実現する。また、外部メモリ3203は、対話支援装置3200の起動後、RAM3207にロードされて実行されるプログラムなどを格納する。表示部3204は、液晶ディスプレイなどであり、第1発話情報及び第2発話情報などを表示する。ROM3205は、不揮発性の読出し専用半導体メモリであり、対話支援装置3200の起動用プログラムなどを格納する。CPU3206は、ROM3205及びRAM3207に格納されているプログラムを実行することにより、図2、図3、図4、図20及び図22のブロック図に示した対話支援装置内の各処理部を実現する。RAM3207は、揮発性の読み書き可能な半導体メモリであり、対話支援装置3200の起動後、ロードされたプログラムをCPU3206に供給するとともに、CPU3206の処理途中のデータを保持することによって作業領域を提供する。通信部3208は、図20及び図22に示した通信部1503〜1510及び通信部1704〜1711を実現し、赤外線通信及び近距離無線通信などによりデータの送受信を行う。入力部3209は、入力開始ボタン303、309及び翻訳開始ボタン306、312などの操作ボタンであり、ユーザの操作入力を受け付ける。バス3210は、対話支援装置3200内のパラレルデータ転送路であり、各処理部間のデータ転送を行う。
なお、ブロック図(図2−図4、図20及び図22など)の各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
例えばメモリ以外の機能ブロックが1チップ化されていても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
また、各機能ブロックのうち、符号化または復号化の対象となるデータを格納する手段だけ1チップ化せずに別構成としても良い。
本発明にかかる対話支援装置は、対話参加者の発話を速やかに完了させる機能を有し、携帯電話や携帯端末等の翻訳アプリケーションソフトウェア等として有用である。また公共の街頭端末や案内端末等の用途にも応用できる。
図1は、従来の対話支援装置において、文を構成する単語数に応じてデコーディングに要する平均処理時間の一例を示す表である。(従来技術) 図2は、本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。(実施の形態1) 図3は、図2に示した出力時刻決定部の構成の一例を示すブロック図である。(実施の形態1) 図4は、図2に示した第1入力部のより詳細な構成の一例を示すブロック図である。(実施の形態1) 図5は、本発明の対話支援装置の一実施の形態のユーザインタフェースを示す図である。(実施の形態1) 図6は、本発明の対話支援装置の動作を示すフローチャートである。(実施の形態1) 図7は、図6に示したステップS403での対話支援装置のより詳細な動作を示すフローチャートである。(実施の形態1) 図8は、図6に示したステップS403で並行処理を行なう場合の対話支援装置のより詳細な動作の一例を示すフローチャートである。(実施の形態1) 図9は、図3に示した計算資源情報部が保持するテーブルのデータ構成の一例を示す図である。(実施の形態1) 図10は、図3に示した対話履歴解析部が保持する特徴テーブルのデータ構成の一例を示す図である。(実施の形態1) 図11は、図3に示した対話履歴格納部の内容とそれに応じて時刻計算部204によって算出される探索時間の上限の初期値の一例を示すテーブルである。(実施の形態1) 図12は、最初にユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。(実施の形態1) 図13は、図12に示したユーザ1の発話に対して更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。(実施の形態1) 図14は、ユーザ1の発話に対して、ユーザ2が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。(実施の形態1) 図15は、図14に示したユーザ2の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。(実施の形態1) 図16は、図14に示したユーザ2の発話に対して、ユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。(実施の形態1) 図17は、図16に示したユーザ1の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。(実施の形態1) 図18は、本発明の対話支援装置による効果を、従来方式の対話支援装置と、対話履歴及び探索時間の上限で対比した図である。(実施の形態1) 図19は、本発明の対話支援装置による平均翻訳処理時間と従来方式による平均翻訳処理時間との対比を示すグラフである。(実施の形態1) 図20は、本発明の対話支援装置の変形例の構成を示すブロック図である。(実施の形態1) 図21は、本発明の対話支援装置の変形例のユーザインタフェースを示す図である。(実施の形態1) 図22は、本発明の対話支援装置の第2の変形例の構成を示すブロック図である。(実施の形態1) 図23は、実施の形態2の対話支援装置のユーザインタフェースを示す図である。(実施の形態2) 図24は、言語1が中国語で、言語2が英語である場合の特徴テーブルのデータ構成の一例を示す図である。(実施の形態2) 図25は、最初にユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。(実施の形態2) 図26は、図25に示したユーザ1の発話に対して更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。(実施の形態2) 図27は、ユーザ1の発話に対して、ユーザ2が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。(実施の形態2) 図28は、図27に示したユーザ2の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。(実施の形態2) 図29は、図27に示したユーザ2の発話に対して、ユーザ1が発話した際の対話支援装置の翻訳発話情報の出力例および表示例を示す図である。(実施の形態2) 図30は、図29に示したユーザ1の発話に対して、さらに更新された対話履歴格納部の内容とそれに応じて時刻計算部によって算出される次の探索時間の上限tの例を示す図である。(実施の形態2) 図31は、本発明の対話支援装置による効果と、従来方式の対話支援装置による効果とを、対話履歴及び探索時間の上限で対比した図である。(実施の形態2) 図32は、本発明の対話支援装置の変形例の構成を示すブロック図である。(実施の形態2) 図33は、本発明の対話支援装置のハードウェア構成の一例を示すブロック図である。(実施の形態1)(実施の形態2)
符号の説明
101 第1入力部
102 第1翻訳処理部
103 第1出力部
104 第2入力部
105 第2翻訳出力部
106 第2出力部
107 出力時刻決定部
201 対話履歴格納部
202 対話履歴解析部
203 計算資源情報部
204 時刻計算部
301 マイク
302 発話情報
303 入力開始ボタン
304 スピーカ
305 翻訳発話情報
306 翻訳処理開始ボタン
307 マイク
308 発話情報
309 入力開始ボタン
310 スピーカ
311 翻訳発話情報
312 翻訳処理開始ボタン
S401 出力時刻初期化ステップ
S402 発話入力待ちステップ
S403 出力時刻計算ステップ
701 対話履歴格納部201の内容
702 第1翻訳処理部または第2翻訳処理部の出力内容
703 時刻計算部204の動作
901 対話履歴格納部201の内容
902 第1翻訳処理部または第2翻訳処理部の出力内容
903 時刻計算部204の動作
1101 対話履歴格納部201の内容
1102 第1翻訳処理部または第2翻訳処理部の出力内容
1103 時刻計算部204の動作
1301 対話履歴格納部201の内容
1302 第1翻訳処理部または第2翻訳処理部の出力内容
1303 時刻計算部204の動作
1401 従来の方式で支援された対話
1402 本発明で支援された対話
1501、1502 端末
1503〜1510 通信部
1701、1702 端末
1703 サーバ
1704〜1711 通信部
1901 音声認識部
1902 発話情報記憶部
3200 対話支援装置
3201 スピーカ
3202 マイク
3203 外部メモリ
3204 表示部
3205 ROM
3206 CPU(プロセッサ)
3207 RAM
3208 通信部
3209 入力部
3210 バス

Claims (16)

  1. 異なる言語の対話を支援する対話支援装置であって、
    ユーザの発話を入力として受け付ける入力部と、
    受け付けられた前記発話を所定の言語に翻訳し、翻訳して得られる翻訳発話情報を出力する翻訳処理部と、
    出力された前記翻訳発話情報をユーザに伝達出力する出力部と、
    あらかじめ定められた発話の特徴を表す情報と、前記情報を含んだ発話への応答である発話の翻訳時間を前記発話の特徴に応じて調整するための情報とを対応付けて示した特徴テーブルを保持し、前記特徴テーブルを参照して、前記ユーザの発話に前記特徴を表す情報が含まれるか否かを解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定する出力時刻決定部と
    を備えることを特徴とする対話支援装置。
  2. 前記入力部は、第1の言語による第1ユーザの発話を入力として受け付ける第1入力部と、第2の言語による第2ユーザの発話を入力として受け付ける第2入力部とを備え、
    前記翻訳処理部は、前記第1ユーザの発話を第2の言語に翻訳し、翻訳して得られる第1翻訳発話情報を出力する第1翻訳処理部と、前記第2ユーザの発話を前記第1の言語に翻訳し、翻訳して得られる第2翻訳発話情報を出力する第2翻訳処理部とを備え、
    前記出力部は、出力された前記第1翻訳発話情報を第2ユーザへ伝達出力する第1出力部と、出力された前記第2翻訳発話情報を第1ユーザへ伝達出力する第2出力部とを備え、
    前記出力時刻決定部は、前記第1ユーザの発話又は前記第2ユーザの発話に含まれる前記特徴を表す情報が含まれるか否かを解析して、前記第1ユーザの発話又は前記第2ユーザの発話の次に受け付けられる発話を前記第1翻訳処理部又は前記第2翻訳処理部が翻訳する翻訳時間の上限を示す出力時刻を決定し、
    前記第1翻訳処理部又は前記第2翻訳処理部は、前記出力時刻までに得られた翻訳結果である前記第1翻訳発話情報又は前記第2翻訳発話情報を出力する
    ことを特徴とする請求項1記載の対話支援装置。
  3. 前記翻訳処理部は統計機械翻訳方式によって翻訳処理を行なう
    ことを特徴とする請求項2記載の対話支援装置。
  4. 前記出力時刻決定部は、前記第1ユーザの発話を文字列とした第1発話情報と、前記第2ユーザの発話を文字列とした第2発話情報との履歴を、発話の順に保持し、前記履歴に含まれる先の第1発話情報又は第2発話情報の特徴を参照して、次に保持される第1発話情報又は第2発話情報の前記出力時刻を決定する
    ことを特徴とする請求項2記載の対話支援装置。
  5. 前記出力時刻決定部が前記出力時刻を決定する根拠となる前記特徴の種類は、相互理解であり、前記解析の結果、受け付けられた前記発話に相互理解の特徴が含まれている場合、前記翻訳時間がより短くなるよう、前記出力時刻を決定する
    ことを特徴とする請求項2記載の対話支援装置。
  6. 前記出力時刻決定部が前記出力時刻を決定する根拠となる前記特徴の種類は、表層表現の連続性であり、前記解析の結果、受け付けられた前記発話に表層表現の連続性を示す特徴が含まれている場合、前記翻訳時間がより短くなるよう前記出力時刻を決定し、前記発話に表層表現の不連続性を示す特徴が含まれている場合、前記翻訳時間がより長くなるよう前記出力時刻を決定する
    ことを特徴とする請求項2記載の対話支援装置。
  7. 前記出力時刻決定部が前記出力時刻を決定する根拠となる前記特徴の種類は、話題転換であり、前記解析の結果、受け付けられた前記発話に話題転換の特徴が含まれている場合、前記翻訳時間が標準的な長さになるよう、前記出力時刻を初期値に決定する
    ことを特徴とする請求項2記載の対話支援装置。
  8. 前記対話支援装置は、さらに、前記対話支援装置の計算資源に関する情報を提供する計算資源情報部を備え、
    前記出力時刻決定部は、計算資源に関する前記情報を参照して、前記第1翻訳発話情報又は前記第2翻訳発話情報の出力時刻を決定する
    ことを特徴とする請求項2記載の対話支援装置。
  9. 前記第1出力部及び前記第2出力部の少なくとも一方は、
    第1翻訳発話情報及び/又は第2翻訳発話情報を合成音声で再生する音声合成部と、
    第1翻訳発話情報及び/又は第2翻訳発話情報を表示出力する文字画像表示部と
    を備えることを特徴とする請求項2記載の対話支援装置。
  10. 前記音声合成部は、前記第1翻訳発話情報及び/又は前記第2翻訳発話情報の尤度が一定の閾値よりも低い場合は動作しない
    ことを特徴とする請求項9記載の対話支援装置。
  11. 前記文字画像表示部は、前記第1翻訳発話情報及び/又は前記第2翻訳発話情報の尤度が一定の閾値よりも低い場合は、前記第1翻訳発話情報及び/又は前記第2翻訳発話情報に含まれる自立語だけを強調表示する
    ことを特徴とする請求項9記載の対話支援装置。
  12. 通信網を介して互いに通信を行なうユーザごとの対話支援装置により、異なる言語の対話を支援する対話支援システムであって、
    第1の対話支援装置は、
    第1の言語による第1ユーザの発話を入力として受け付ける第1入力部と、
    受け付けられた前記第1ユーザの発話を所定の言語に翻訳し、翻訳して得られる第1翻訳発話情報を出力する第1翻訳処理部と、
    出力された前記第1翻訳発話情報を、第2の対話支援装置へ送信する第1送信部と、
    あらかじめ定められた発話の特徴を表す情報と、前記情報を含んだ発話への応答である発話の翻訳時間を前記発話の特徴に応じて調整するための情報とを対応付けて示した特徴テーブルを保持し、前記特徴テーブルを参照して、前記第1ユーザの発話に前記特徴を表す情報が含まれるか否かを解析して、前記第1ユーザの発話の次に受け付けられる発話を翻訳する翻訳時間の上限を示す出力時刻を決定する第1出力時刻決定部と、
    決定された前記出力時刻を前記第2の対話支援装置へ送信する第1出力時刻送信部とを備え、
    前記第2の対話支援装置は、
    前記第1の対話支援装置から前記第1翻訳発話情報を受信し、第2ユーザに伝達する第2受信部と、
    前記第1の対話支援装置で決定された前記出力時刻を前記第1の対話支援装置から受信する第2出力時刻受信部と、
    前記所定の言語による第2ユーザの発話を入力として受け付ける第2入力部と、
    受け付けられた前記第2ユーザの発話を前記第1の言語に翻訳し、翻訳して得られる第2翻訳発話情報を出力する第2翻訳処理部と、
    出力された前記第2翻訳発話情報を、前記第1の対話支援装置へ送信する第2送信部とを備え、
    前記第2翻訳処理部は、受信された前記出力時刻までに得られた翻訳結果である前記第2翻訳発話情報を出力する
    ことを特徴とする対話支援システム。
  13. 通信網を介してサーバに接続される第1の対話支援装置および第2の対話支援装置を用いて、対話を支援する対話支援システムであって、
    前記第1の対話支援装置は、
    第1の言語で話された第1ユーザの発話を入力として受け付ける第1入力部と、
    受け付けられた前記第1ユーザの発話を、前記サーバへ送信する第1送信部と、
    前記第1ユーザの発話に対する第2ユーザの発話を前記第1の言語に翻訳した翻訳結果である第2翻訳発話情報を、前記サーバから受信する第2受信部と、
    受信された前記第2翻訳発話情報を、前記第1ユーザに伝達する第1出力部とを備え、
    前記第2の対話支援装置は、
    第2の言語で話された第2ユーザの発話を入力として受け付ける第2入力部と、
    受け付けられた前記第2ユーザの発話を、前記サーバへ送信する第2送信部と、
    前記第2ユーザの発話に対する前記第1ユーザの発話を前記第2の言語に翻訳した翻訳結果である第1翻訳発話情報を、前記サーバから受信する第1受信部と、
    受信された前記第1翻訳発話情報を、前記第2ユーザに伝達する第2出力部とを備え、
    前記サーバは、
    前記第1の対話支援装置から前記第1ユーザの発話を受信する第1発話受信部と、
    受信された前記第1ユーザの発話を前記第2の言語に翻訳し、翻訳して得られる第1翻訳発話情報を出力する第1翻訳処理部と、
    出力された第1翻訳発話情報を、前記第2の対話支援装置へ送信する第1送信部と、
    前記第2の対話支援装置から前記第2ユーザの発話を受信する第2発話受信部と、
    受信された前記第2ユーザの発話を前記第1の言語に翻訳し、翻訳して得られる第2翻訳発話情報を出力する第2翻訳処理部と、
    出力された第2翻訳発話情報を、前記第1の対話支援装置へ送信する第2送信部と、
    あらかじめ定められた発話の特徴を表す情報と、前記情報を含んだ発話への応答である発話の翻訳時間を前記発話の特徴に応じて調整するための情報とを対応付けて示した特徴テーブルを保持し、前記特徴テーブルを参照して、受信された前記第1ユーザの発話又は前記第2ユーザの発話に前記特徴を表す情報が含まれるか否かを解析して、前記発話の次に受信される発話を翻訳する前記第1翻訳処理部又は前記第2翻訳処理部の翻訳時間の上限を示す出力時刻を決定する出力時刻決定部とを備え、
    前記第1翻訳処理部又は前記第2翻訳処理部は、決定された前記出力時刻までに、得られた翻訳結果である前記第1翻訳発話情報又は前記第2翻訳発話情報を出力する
    ことを特徴とする対話支援システム。
  14. 異なる言語の対話を支援する対話支援方法であって、
    ユーザの発話を入力部が入力として受け付ける入力ステップと、
    受け付けられた前記発話を翻訳処理部が所定の言語に翻訳し、翻訳して得られる翻訳発話情報を出力する翻訳処理ステップと、
    出力された前記翻訳発話情報を出力部がユーザに伝達出力する出力ステップと、
    出力時刻決定部が、あらかじめ定められた発話の特徴を表す情報と、前記情報を含んだ発話への応答である発話の翻訳時間を前記発話の特徴に応じて調整するための情報とを対応付けて示した特徴テーブルを保持し、前記特徴テーブルを参照して、前記ユーザの発話に前記特徴を表す情報が含まれるか否かを解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定する出力時刻決定ステップと
    を含むことを特徴とする対話支援方法。
  15. 異なる言語の対話を支援する対話支援装置のためのプログラムであって、コンピュータに
    ユーザの発話を入力部が入力として受け付ける入力ステップと、受け付けられた前記発話を翻訳処理部が所定の言語に翻訳し、翻訳して得られる翻訳発話情報を出力する翻訳処理ステップと、出力された前記翻訳発話情報を出力部がユーザに伝達出力する出力ステップと、出力時刻決定部が、あらかじめ定められた発話の特徴を表す情報と、前記情報を含んだ発話への応答である発話の翻訳時間を前記発話の特徴に応じて調整するための情報とを対応付けて示した特徴テーブルを保持し、前記特徴テーブルを参照して、前記ユーザの発話に前記特徴を表す情報が含まれるか否かを解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定する出力時刻決定ステップとを実行させるプログラム。
  16. 異なる言語の対話を支援する対話支援装置であって、
    ユーザの発話を入力として受け付ける入力部と、
    あらかじめ定められた発話の特徴を表す情報と、前記情報を含んだ発話への応答である発話の翻訳時間を前記発話の特徴に応じて調整するための情報とを対応付けて示した特徴 テーブルを保持し、受け付けられた前記発話を所定の言語に翻訳し、翻訳して得られる翻訳発話情報を出力する翻訳処理ステップと、前記特徴テーブルを参照して、前記ユーザの発話に前記特徴を表す情報が含まれるか否かを解析して、次に受け付けられる発話を翻訳するための翻訳時間を決定する出力時刻決定ステップとを含むプログラムが格納されている記憶と、
    前記記憶手段に記憶されたプログラムを実行するプロセッサと、
    前記プロセッサにより出力された前記翻訳発話情報をユーザに伝達出力する出力部と
    を備えることを特徴とする対話支援装置。
JP2007504790A 2005-11-11 2006-11-07 対話支援装置 Expired - Fee Related JP4041158B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005328096 2005-11-11
JP2005328096 2005-11-11
PCT/JP2006/322129 WO2007055181A1 (ja) 2005-11-11 2006-11-07 対話支援装置

Publications (2)

Publication Number Publication Date
JP4041158B2 true JP4041158B2 (ja) 2008-01-30
JPWO2007055181A1 JPWO2007055181A1 (ja) 2009-04-30

Family

ID=38023184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007504790A Expired - Fee Related JP4041158B2 (ja) 2005-11-11 2006-11-07 対話支援装置

Country Status (4)

Country Link
US (1) US7505893B2 (ja)
JP (1) JP4041158B2 (ja)
CN (1) CN101099147B (ja)
WO (1) WO2007055181A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057320A2 (en) * 1999-03-19 2000-09-28 Trados Gmbh Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
WO2006040969A1 (ja) * 2004-10-08 2006-04-20 Matsushita Electric Industrial Co., Ltd. 対話支援装置
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US20090326913A1 (en) * 2007-01-10 2009-12-31 Michel Simard Means and method for automatic post-editing of translations
US8019591B2 (en) * 2007-10-02 2011-09-13 International Business Machines Corporation Rapid automatic user training with simulated bilingual user actions and responses in speech-to-speech translation
US7984034B1 (en) 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US20120239377A1 (en) * 2008-12-31 2012-09-20 Scott Charles C Interpretor phone service
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
KR20100113749A (ko) * 2009-04-14 2010-10-22 한국전자통신연구원 클라이언트 단말기, 게임 서비스 장치 및 게임 서비스 시스템 및 그 방법
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8766666B2 (en) 2010-06-10 2014-07-01 Micron Technology, Inc. Programmable device, hierarchical parallel machines, and methods for providing state information
US8601013B2 (en) * 2010-06-10 2013-12-03 Micron Technology, Inc. Analyzing data using a hierarchical structure
US9128929B2 (en) * 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8843911B2 (en) 2011-01-25 2014-09-23 Micron Technology, Inc. Utilizing special purpose elements to implement a FSM
EP2668577B1 (en) 2011-01-25 2019-08-14 Micron Technology, INC. Unrolling quantifications to control in-degree and/or out degree of automaton
JP5763784B2 (ja) 2011-01-25 2015-08-12 マイクロン テクノロジー, インク. 要素利用のための状態のグループ化
US8726253B2 (en) 2011-01-25 2014-05-13 Micron Technology, Inc. Method and apparatus for compiling regular expressions
JP2012181571A (ja) * 2011-02-28 2012-09-20 Ricoh Co Ltd 翻訳支援装置、翻訳納期設定方法及びプログラム
US9418060B1 (en) * 2012-03-19 2016-08-16 Amazon Technologies, Inc. Sample translation reviews
US9336774B1 (en) * 2012-04-20 2016-05-10 Google Inc. Pattern recognizing engine
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
US9940324B2 (en) * 2015-03-10 2018-04-10 International Business Machines Corporation Performance detection and enhancement of machine translation
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
US20160283469A1 (en) * 2015-03-25 2016-09-29 Babelman LLC Wearable translation device
US9807045B2 (en) 2015-06-10 2017-10-31 Google Inc. Contextually driven messaging system
JP6471074B2 (ja) * 2015-09-30 2019-02-13 株式会社東芝 機械翻訳装置、方法及びプログラム
US20170097930A1 (en) * 2015-10-06 2017-04-06 Ruby Thomas Voice language communication device and system
CN106445490A (zh) * 2016-07-27 2017-02-22 吴克 一种基于移动设备互联的多语言实时对话的方法与装置
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN107957995A (zh) * 2017-12-07 2018-04-24 赵华杰 一种可方便翻译语音的翻译系统
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
JP7093547B2 (ja) * 2018-07-06 2022-06-30 国立研究開発法人産業技術総合研究所 制御プログラム、制御方法及びシステム
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
JP7194900B2 (ja) * 2018-11-30 2022-12-23 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
US10839801B2 (en) * 2018-12-13 2020-11-17 Language Line Services, Inc. Configuration for remote multi-channel language interpretation performed via imagery and corresponding audio at a display-based device
JP2023514158A (ja) * 2020-02-06 2023-04-05 グーグル エルエルシー オーディオストリームの安定したリアルタイム翻訳
EP4315323A1 (en) * 2021-04-01 2024-02-07 Communaute Woopen Inc. System and method for translation of streaming encrypted content

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63109574A (ja) * 1986-10-27 1988-05-14 Sharp Corp 機械翻訳装置
US5289375A (en) * 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
JPH11272671A (ja) * 1998-03-20 1999-10-08 Toshiba Corp 機械翻訳装置及び機械翻訳方法
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム
WO2003085550A1 (en) * 2002-04-11 2003-10-16 P To Pa, Inc. Conversation control system and conversation control method
JP2004102946A (ja) 2002-09-13 2004-04-02 Advanced Telecommunication Research Institute International 統計的機械翻訳におけるデコーディング方法
US8676785B2 (en) * 2006-04-06 2014-03-18 Teradata Us, Inc. Translator of statistical language programs into SQL

Also Published As

Publication number Publication date
JPWO2007055181A1 (ja) 2009-04-30
CN101099147A (zh) 2008-01-02
US20070192110A1 (en) 2007-08-16
CN101099147B (zh) 2010-05-19
US7505893B2 (en) 2009-03-17
WO2007055181A1 (ja) 2007-05-18

Similar Documents

Publication Publication Date Title
JP4041158B2 (ja) 対話支援装置
CN107016994B (zh) 语音识别的方法及装置
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
EP2801091B1 (en) Method, apparatus and computer program product for joint use of speech and text-based features for sentiment detection
AU2011209760B2 (en) Integration of embedded and network speech recognizers
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US20080154600A1 (en) System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
WO2013102697A1 (en) Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
KR20120086287A (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
JP2003308087A (ja) 文法更新システム及び方法
US10957322B2 (en) Speech processing apparatus, information processing apparatus, speech processing method, and information processing method
US10152298B1 (en) Confidence estimation based on frequency
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP2010085536A (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
WO2013014877A1 (ja) 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム
CN110910903A (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
US11532301B1 (en) Natural language processing
WO2020156342A1 (zh) 语音识别方法、装置、电子设备及存储介质
JP2010048953A (ja) 対話文生成装置
CN110998719A (zh) 信息处理设备和信息处理方法
WO2022267405A1 (zh) 语音交互方法、系统、电子设备及存储介质
JP2012018201A (ja) テキスト補正方法及び認識方法
JP2012063537A (ja) 通信端末、音声認識方法、および音声認識プログラム
US11626107B1 (en) Natural language processing
JP4992925B2 (ja) 音声対話装置及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4041158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees