JP2015187738A

JP2015187738A - 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Info

Publication number: JP2015187738A
Application number: JP2015100379A
Authority: JP
Inventors: 明子坂本; Akiko Sakamoto; 住田　一男; Kazuo Sumita; 一男住田; 聡史釜谷; Satoshi Kamaya
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-10-29

Abstract

【課題】話者間の円滑なコミュニケーションを実現する音声翻訳装置を開発する。【解決手段】実施形態の音声翻訳装置は、第１話者音声を認識して第１原言語文を生成し、第１話者とは異なる第２話者音声を認識して第２原言語文を生成する音声認識手段と、第１原言語文を第１目的言語文に翻訳し、第２原言語文を第２目的言語文に翻訳する機械翻訳手段と、第１話者音声から第１発話区間を検出し、第２話者音声から第２発話区間を検出する発話検出手段と、発話検出手段で検出された発話区間のタイミングに基づいて、第１および第２目的言語文の出力を制御する出力手段と、第１および第２発話区間が重複する場合、第１および第２原言語文のパターンに基づいて、第１および第２話者の何れかを選択する話者選択手段を備え、出力手段が、第１話者が選択された場合は第１目的言語文を出力し、第２話者が選択された場合は第２目的言語文を出力する。【選択図】図１

Description

本発明の実施形態は、音声翻訳装置、音声翻訳方法および音声翻訳プログラムに関する。

近年、音声処理、自然言語処理技術の発展に伴い、異言語間のコミュニケーションにおいて、一方の話者が発話した原言語文の音声を所望する目的言語文に翻訳し、この目的言語文を合成音声に変換してもう一方の話者に向けて再生する音声翻訳装置が開発されつつある。

音声翻訳装置は、話者が発話中か否かに関わらず合成音声を再生していた。そのため、音声翻訳装置が合成音声を再生するタイミングが合わずに、合成音声の再生と話者の発話とが重複してしまい、コミュニケーションミスが発生するという問題があった。特に、音声翻訳を利用した電話応答など非対面でのコミュニケーションでは、話者自身が発話のタイミングを調整することが難しく、この問題が顕著化していた。

特開２００９−４２２９１号公報米国特許出願公開第２００８／００７７３８７号明細書

発明が解決しようとする課題は、合成音声を再生するタイミングを調整することで、話者間の円滑なコミュニケーションを実現する音声翻訳装置を開発することである。

実施形態の音声翻訳装置は、第１話者の音声を認識して第１の原言語文を生成し、前記第１話者とは異なる第２話者の音声を認識して第２の原言語文を生成する音声認識手段と、前記第１の原言語文を第１の目的言語文に翻訳し、前記第２の原言語文を第２の目的言語文に翻訳する機械翻訳手段と、前記第１話者の音声から第１の発話区間を検出し、前記第２話者の音声から第２の発話区間を検出する発話検出手段と、前記発話検出手段で検出された発話区間のタイミングに基づいて、前記第１および第２の目的言語文の出力を制御する出力手段と、前記第１および第２の発話区間が重複する場合、前記第１および第２の原言語文のパターンに基づいて、前記第１および第２話者の何れかを選択する話者選択手段とを備え、前記出力手段が、前記話者選択手段で前記第１話者が選択された場合は前記第１の目的言語文を出力し、前記話者選択手段で前記第２話者が選択された場合は前記第２の目的言語文を出力する。

第１の実施形態の音声翻訳装置を示すブロック図。実施形態の音声翻訳装置のハードウェア構成を示す図。実施形態の翻訳部の内部構成を示すブロック図。実施形態の意図検出規則を示す図。実施形態の話者選択規則を示す図。実施形態の音声翻訳装置のフローチャート。実施形態のコミュニケーションの流れを示す図。変形例１の音声翻訳装置を示すブロック図。変形例２の音声翻訳装置を示すブロック図。変形例２の話者選択規則を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態では、第１および第２話者が、１つの音声翻訳装置を介して異言語間のコミュニケーションを実施することを想定している。本実施形態では、第１話者は英語を第２話者は日本語をそれぞれ母国語とするが、音声翻訳装置の対象言語はこれら２言語間に限られない。また、話者が３名以上であってもよい。

図１は、第１の実施形態にかかる音声翻訳装置１００を示すブロック図である。本実施形態の音声翻訳装置は、第１話者が発話した英語の音声を取得する第１の音声入力部１０１と、第２話者が発話した日本語の音声を取得する第２の音声入力部１０２と、英語の音声を音声翻訳して日本語の合成音声を生成する第１の翻訳部１０３と、日本語の音声を音声翻訳して英語の合成音声を生成する第２の翻訳部１０４と、第１話者の音声から第１の発話区間を検出し、第２話者の音声から第２の発話区間を検出する発話検出部１０５と、英語あるいは日本語の合成音声が再生される区間が第１あるいは第２の発話区間と重複しないように合成音声を再生するタイミングを調整する出力タイミング調整部１０６と、出力タイミング調整部１０６からの指示に応じて、英語の合成音声を第１話者に向けて再生する第１の音声出力部１０７と、出力タイミング調整部１０６からの指示に応じて、日本語の合成音声を第２話者に向けて再生する第２の音声出力部１０８と、上述した各ブロックの処理手順、ブロック間での情報伝達を制御する全体制御部１１２とを備える。

本実施形態の音声翻訳装置は、音声翻訳によって生成された合成音声を、話者の発話区間と重複しないようにタイミングを調整して再生する。これにより、話者の発話中に合成音声が再生されることを防止でき、コミュニケーションを円滑に進行させることができる。

図１の音声翻訳装置１００は更に、第１話者の音声を認識して生成した英語の原言語文から第１の意図を検出し、第２話者の音声を認識して生成した日本語の原言語文から第２の意図を検出する意図検出部１０９と、第１および第２の発話区間が重複する場合、第１および第２の意図に基づいて、第１および第２話者の何れかを選択する話者選択部１１０と、話者選択部１１０での選択結果に応じた所定のメッセージを出力するメッセージ出力部１１１とを備える。

ここで、意図とは、話者が発話を通じて実現したい行為を上位概念化したものであり、各発話区間から抽出される。例えば、話者が「How many people will be there?」という発話をした場合、話者はこの発話を通じて相手側へ質問をしたいと考えていることから、この原言語文の意図は「質問」になる。意図の抽出方法は後述する。

話者選択部１１０で第１話者が選択された場合、音声翻訳装置１００は、第１話者の音声を音声翻訳して生成した日本語の合成音声を第２の音声出力部１０８から再生する。話者選択部１１０で第２話者が選択された場合、音声翻訳装置１００は、第２話者の音声を音声翻訳して生成した英語の合成音声を第１の音声出力部１０７から再生する。

例えば、第１および第２話者の発話が重複し、第１の意図が「質問」、第２の意図が「叙述」である場合、話者選択部１１０は、所定の規則に基づいて「叙述」を発話した第２話者を選択する。そして、音声翻訳装置１００は、第２話者の合成音声を第１の音声出力部１０７から優先的に再生する。このように、何れか一方の話者の合成音声を優先的に再生することにより、発話が重複する混乱した状態でコミュニケーションが進行することを防止することができる。話者選択に利用する所定の規則は後述する。

この例では、話者選択部１１０は、相手からの返答を必要としない「叙述」を発話した話者を選択している。これにより、音声翻訳装置１００は、話者間のコミュニケーションを簡潔かつ確実に進行させることができる。

（ハードウェア構成）
本実施形態の音声翻訳装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、話者の指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、話者が発話した音声を取得するマイク２０６と、合成音声を再生するスピーカ２０７と、映像を表示するディスプレイ２０８と、これらを接続するバス２０９とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（各ブロックの機能）
第１の音声入力部１０１は、第１話者が発話した英語の音声を取得する。第１の音声入力部１０１は、マイク２０６で構成することができる。取得した音声はＡＤ変換し、外部記憶部２０３に記憶しておく。

第２の音声入力部１０２は、第２話者が発話した日本語の音声を取得する。その他機能は第１の音声入力部１０１と同様である。

第１の翻訳部１０３は、第１の音声入力部１０１で取得した英語の音声を音声翻訳して日本語の合成音声を生成する。

第２の翻訳部１０４は、第２の音声入力部１０２で取得した日本語の音声を音声翻訳して英語の合成音声を生成する。

図３は、第１の翻訳部１０３および第２の翻訳部１０４の内部構成を示すブロック図である。音声認識部３０１は、音声を認識して原言語文を生成する。音声認識には隠れマルコフモデルに基づく手法を用いる。機械翻訳部３０２は、原言語文を目的言語文に翻訳する。機械翻訳にはトランスファ方式やインターリンガ方式などを用いる。音声合成部３０３は、目的言語文を合成音声に変換する。音声合成にはフォルマント合成や隠れマルコフモデルに基づく手法を用いる。各ブロックでの処理結果は、記憶部２０２あるいは外部記憶部２０３に記憶する。

発話検出部１０５は、第１話者の音声から第１の発話区間を検出し、第２話者の音声から第２の発話区間を検出する。発話区間は、取得した音声の短時間パワーを観測することで検出きる。例えば、短時間パワーが閾値を超える区間が１００ｍｓ連続して継続した場合はこの区間の始端を発話の開始位置とする。そして、発話の開始位置を検出した後、短時間パワーが閾値以下となる区間が５００ｍ連続して継続した場合はこの区間の始端を発話の終了位置とする。

出力タイミング調整部１０６は、合成音声が再生される区間が発話区間と重複しないように、合成音声を再生するタイミングを調整する。例えば、発話検出部１０５が第１話者の発話が継続していると判別した場合（発話の開始位置のみが検出されている場合）、出力タイミング調整部１０６は、英語の合成音声の再生を指示する信号を第１の音声出力部１０７に送信せずに待機する。そして、第１話者の発話が終了後（発話検出部１０５が終了位置を検出後）、出力タイミング調整部１０６は、第１の音声出力部１０７に対して英語の合成音声の再生を指示する信号を送信する。

つまり、出力タイミング調整部１０６は、英語の合成音声の出力を開始する時刻（出力開始時刻）が第１話者の発話区間の終了位置に対応する時刻（終了時刻）より遅くなるように、第１の音声出力部１０７に対して英語の合成音声の再生を指示する信号を送信する。

なお、発話検出部１０５が発話を検出していない場合は、待機することなく合成音声の再生を指示する信号を音声出力部に送信する。

第１の音声出力部１０７は、出力タイミング調整部１０６からの指示に応じて、英語の合成音声を第１話者に向けて再生する。出力タイミング調整部１０６から合成音声の再生を指示する信号を受信するまでは、ディジタル信号である合成音声を記憶部２０２あるいは外部記憶部２０３にバッファリングしておく。そして、出力タイミング調整部１０６から再生指示を受信した後、第１の音声出力部１０７は、合成音声をＤＡ変換し、スピーカ２０７から再生する。

第２の音声出力部１０８は、出力タイミング調整部１０６からの指示に応じて、日本語の合成音声を第２話者に向けて再生する。その他機能は第１の音声出力部１０７と同様である。

意図検出部１０９は、英語の原言語文から第１の意図を検出し、日本語の原言語文から第２の意図を検出する。英語および日本語の原言語文は各翻訳部の音声認識部３０１にて生成される。

本実施形態では、図４に示すような意図検出規則に従って原言語文の意図を検出する。４０１は検出対象となる原言語を区別する。４０２は原言語文のパターンを示しており、４０３はこのパターンにマッチした場合に検出される意図を表している。例えば、第１話者の音声を認識した結果である英語の原言語文が「How many people will be there?」である場合、４０４のパターン「How many 〜 ?」にマッチすることから、この原言語文の意図として４０５の「質問」が検出される。原言語文とパターンとのマッチは文字列マッチで実現できる。なお、原言語文にマッチするパターンが４０２の列にない場合は、その文の意図を「叙述」とする。

図４の意図検出規則は、記憶部２０２や外部記憶部２０３に記憶することができる。この他にも、通信部２０５を介して意図検出規則を取得するようにしてもよい。また、意図検出部１０９は、「叙述」「質問」以外に「確認」「依頼」などを意図として利用してもよい。また、原言語文と意図の対応関係を機械学習した統計モデルを利用して意図を検出することもできる。

話者選択部１１０は、第１および第２の発話区間が重複するか否かを、発話検出部１０５の検出結果に基づいて判別する。そして、第１および第２の発話区間が重複すると判別した場合、話者選択部１１０は、意図検出部１０９で検出された意図に基づいて、第１および第２話者の何れかを選択する。音声翻訳装置１００は、選択された話者の合成音声を優先的に音声出力部から再生する。

本実施形態では、図５に示すような話者選択規則に従って話者を選択する。５０１は第１の意図のタイプ、５０２は第２の意図のタイプをそれぞれ示している。５０３は、第１の意図と第２の意図の組み合わせに応じて選択される話者を表している。５０４は後述するメッセージ出力部１１１で出力されるメッセージを、５０５はこのメッセージの出力先を表している。

例えば、第１の意図が「叙述」で第２の意図が「質問」の場合、図５の５０７の行より第１話者が選択される。このとき、選択されなかった第２話者には、メッセージ出力部１１１によって「少々お待ち下さい」というメッセージが出力される。その後、音声翻訳装置１００は、第１話者の音声を音声翻訳して生成した日本語の合成音声を第２の音声出力部１０８から再生する。

この例では、話者選択部１１０は、相手からの返答を必要としない「叙述」を発話した話者を選択している。これにより、音声翻訳装置１００は、話者間のコミュニケーションを簡潔に進行させることができる。

図５の話者選択規則は、記憶部２０２や外部記憶部２０３に記憶することができる。この他にも、通信部２０５を介して話者選択規則を取得するようにしてもよい。

メッセージ出力部１１１は、話者選択部１１０での選択結果に応じた所定のメッセージを出力する。所定のメッセージは、文字列としてディスプレイ２０８に表示してもよいし、合成音声に変換して各音声出力部から再生してもよい。合成音声で再生する場合は、翻訳部で生成した合成音声とは異なる声質でメッセージを合成音声に変換する。これにより、第１および第２話者は、再生中の合成音声が音声翻訳装置１００からのメッセージなのか相手側の発話なのかを区別することができる。

全体制御部１１２は、上述した各ブロックの処理手順やブロック間での情報伝達を制御する。

（フローチャート）
図６のフローチャートを利用して、本実施形態にかかる音声翻訳装置の処理を説明する。

まず、ステップＳ１では、第１の音声入力部１０１は第１話者の音声を取得し、第２の音声入力部１０２は第２話者の音声を取得する。

ステップＳ２では、発話検出部１０５は第１話者の音声から第１の発話区間を検出し、第２話者の音声から第２の発話区間を検出する。

ステップＳ３では、第１の翻訳部１０３は第１話者の音声を音声翻訳して日本語の合成音声を生成する。また、第２の翻訳部１０４は、第２話者の音声を音声翻訳して英語の合成音声を生成する。

ステップＳ４では、発話検出部１０５は、第１および第２の発話区間が重複するか否かを判別する。重複しない場合はステップＳ５へ、重複する場合はステップＳ７へ移行する。ステップＳ２において第１および第２の発話区間のうち何れかの発話区間が検出されていない場合は、発話区間は重複しないと判別する。

まず、発話区間が重複しない場合の処理について説明する。ステップＳ５では、出力タイミング調整部１０６は、合成音声の再生が発話区間と重複しないように、合成音声を再生するタイミングを調整する。例えば、ステップＳ５の時点で第１話者の発話が継続している場合（発話検出部１０５にて発話の開始位置のみが検出されている場合）、出力タイミング調整部１０６は、第１話者の発話が終了するまで（終了位置が検出されるまで）第２話者の合成音声の再生を指示する信号は送信せずに待機する。そして、第１話者の発話終了後（終了位置検出後）、出力タイミング調整部１０６は、第１の音声出力部１０７に対して、第２話者の音声を音声翻訳した英語の合成音声の再生を指示する信号を送信する。

ステップＳ６では、第１あるいは第２の音声出力部は、ステップＳ５での出力タイミング調整部１０６から指示に応じて、音声翻訳によって生成された合成音声を再生する。

次に、発話区間が重複する場合の処理について説明する。ステップＳ７では、意図検出部１０９は、音声翻訳の過程で音声認識部３０１によって生成された英語および日本語の原言語文から、それぞれ第１および第２の意図を検出する。

ステップＳ８では、話者選択部１１０は、第１および第２の意図に基づいて、第１および第２話者の何れかを選択する。

ステップＳ９では、メッセージ出力部１１１は、ステップＳ８での選択結果に応じた所定のメッセージを出力する。

ステップＳ１０では、出力タイミング調整部１０６は、ステップＳ８で選択された話者の合成音声を再生するタイミングを調整する。ステップＳ８で第１話者が選択された場合は日本語の合成音声を再生するタイミングを調整し、ステップＳ８で第２話者が選択された場合は英語の合成音声を再生するタイミングを調整する。タイミング調整に関する具体的な処理はステップＳ５と同様である。

ステップＳ１１では、音声出力部は、出力タイミング調整部１０６から指示に応じて、ステップＳ８で選択された話者の合成音声を再生する。ステップＳ８で第１話者が選択された場合は日本語の合成音声を再生し、ステップＳ８で第２話者が選択された場合は英語の合成音声を再生する。

（具体例）
対話の具体例を用いて本実施形態の音声翻訳装置の動作フローを説明する。図７は、第１話者（英語話者）と第２話者（日本語話者）のコミュニケーションの流れを示す図である。

中央上部から中央下部に走る２本の矢印は、第１話者と第２話者が発話したり、合成音声の再生を聞いたりするタイミングを表すタイムラインである。このタイムライン上にある白い四角は、第１話者が発話している、もしくは、第１の翻訳部１０３よって生成された日本語の合成音声が再生されている区間を示す。タイムライン上にある斜線で示す四角は、第２話者が発話している、もしくは、第２の翻訳部１０４よって生成された英語の合成音声が再生されている区間を示す。タイムライン上にある黒い四角は、メッセージ出力部１１１からのメッセージが再生されている区間を示す。左右に伸びる実線の矢印は翻訳方向を示しており、例えば、７０１の「Welcome to our restaurant」が第１の翻訳部１０３によって７０４の「レストランへようこそ。」に音声翻訳されたことを表している。

まず、第１話者の発話７０１「Welcome to our restaurant」について説明する。ステップＳ１では、第１の音声入力部１０１は、第１話者の発話７０１を取得する。ステップＳ２では、発話検出部１０５は、発話７０１の発話区間（第１の発話区間）を検出する。この時点で第２話者は発話をしていないことから、第２の発話区間は検出されていない。

ステップＳ３では、第１の翻訳部１０３は、発話７０１を音声翻訳して「レストランへようこそ。」という日本語の合成音声を生成する。第２の発話区間は検出されておらず第１および第２話者の発話区間に重複はない。したがって、ステップＳ４ではステップＳ５へ移行する。

ステップＳ５では、出力タイミング調整部１０６は、日本語の合成音声を再生するタイミングを調整する。図７より、第１話者の発話７０１の直後に第２話者の発話７０２が開始していることから、ステップＳ３で日本語の合成音声の生成が完了した時点で、発話検出部１０５は、発話７０２の開始位置を検出している。したがって、出力タイミング調整部１０６は、発話検出部１０５によって発話７０２の終了位置が検出された後に、日本語の合成音声７０４の再生を指示する信号を第２の音声出力部１０８に送信する。これにより、日本語の合成音声７０４の出力開始時刻が、第１話者の発話７０２の終了時刻より遅くなる。

このように、本実施形態の音声翻訳装置は、音声翻訳によって生成された合成音声を、話者の発話区間と重複しないように再生する。これにより、話者の発話中に合成音声が再生されることを防止でき、話者間のコミュニケーションを円滑に進行させることができる。

次に、第１話者の発話７０５「How many people will be there?」および第２話者の発話７０６「窓際の席は予約できますか？」について説明する。ステップＳ１〜Ｓ３の処理によって、各音声を音声翻訳し合成音声が生成される。ステップＳ４では、発話検出部１０５は、第１および第２の発話区間が重複するか否かを判別する。この例では、発話７０５と発話７０６の発話区間が重複していることから、ステップＳ７に移行する。

ステップＳ７では、意図検出部１０９は、意図検出規則を用いて各発話の原言語文から意図を検出する。発話７０５の原言語文は「How many people will be there?」であり、図４のパターン４０４とマッチすることから、発話７０５の意図として「質問」が検出される。発話７０６の原言語文は「窓際の席は予約できますか？」であり、図４のパターン４０６とマッチすることから、発話７０６の意図として「質問」が検出される。

ステップＳ８では、話者選択部１１０は、ステップＳ７で検出された意図に基づいて話者を選択する。この例では、第１および第２の意図ともに「質問」であることから、図５の話者選択規則の５０６行より、第２話者が選択される。

ステップＳ９では、メッセージ出力部１１１は、図５の５０６行にある「Please wait」というメッセージを第１話者に向けて再生する。この例では、メッセージを合成音声に変換し、第１の音声出力部１０７から再生する（発話７０７）。

ステップＳ１０では、出力タイミング調整部１０６は、選択された第２話者の合成音声が第１の発話区間と重複しないように合成音声を再生するタイミングを調整する。ステップＳ１１では、第２話者の合成音声（発話７０８）を第１の音声出力部１０７から再生する。

このように、本実施形態の音声翻訳装置は、話者の発話が重複した場合、いずれか一方の話者を選択して合成音声を再生する。これにより、発話が重複する混乱した状態でコミュニケーションが進行することを防止することができる。

第１話者の発話７１４および第２話者の発話７０６でも同様に、ステップＳ７では、意図検出部１０９は、図４の意図検出規則を用いて各発話の原言語文から意図を検出する。この例では、発話７１４の意図として「叙述」が、発話７０６の意図として「質問」が検出される。ステップＳ８では、話者選択部１１０は、図５の話者選択規則より「叙述」を発話した第１話者を選択する。このように、相手からの返答を必要としない「叙述」を発話した話者を選択することにより、話者間のコミュニケーションを簡潔かつ確実に進行させることができる。

なお、本実施形態では対面でのコミュニケーションを想定しているが非対面であっても同様な処理を適用できる。

（変形例１）
図８に示すように、複数の端末を用いて音声翻訳装置を実現することもできる。この図では、第１端末１２０は、第１の音声入力部１０１と、第１の音声出力部１０７とを備える。第２端末１２１は、第２の音声入力部１０２と第２の音声出力部１０８とを備える。サーバ１２２は、第１の翻訳部１０３と、第２の翻訳部１０４と、発話検出部１０５と、出力タイミング調整部１０６と、意図検出部１０９と、話者選択部１１０と、メッセージ出力部１１１とを備える。第１端末１２０および第２端末１２１は、それぞれ図２に示すハードウェア構成で実現することができ、通信部２０５を介してサーバ１２２にある全体制御部１１２と情報を交換する。このように、演算コストが高い翻訳部などをサーバ１２２で動作させることにより、端末側の構成をコンパクトにすることができる。

この他にも、上述した各部が、第１端末１２０、第２端末１２１、およびサーバの何れかに含まれるよう構成を変更してもよい。

また、第１の実施形態にかかる音声翻訳装置１００は、第１および第２の音声入力部を有していたが、１つの音声入力部を用いて話者の発話を全て取得するようにしてもよい。第１および第２の音声出力部についても、１つの音声出力部を用いて、合成音声を全て再生するようにしてもよい。

また、発話検出部１０５を、音声認識部３０１に含まれる発話検出の機能を用いて実現してもよいし、第１および第２の翻訳部１０４を１つの翻訳部にまとめて実現してもよい。

（変形例２）
図９に示すように、音声翻訳装置１５０が、第１および第２話者の属性を取得する属性取得部１３０を備えるようにしてもよい。ここで、「属性」とは、例えば「店員」や「顧客」のように、話者の属性を表すものである。

属性取得部１３０は、例えば、音声翻訳装置１５０で取り扱うことができる属性をディスプレイ２０８で話者に提示し、操作部２０４を介して選択された属性をその話者の属性として取得することができる。

図７の具体例は、店頭でのコミュニケーションを想定していることから、属性取得部１３０は、第１および第２話者に対して「店員」および「顧客」の属性を提示する。操作部２０４を介して第１話者が「店員」、第２話者が「顧客」を選択する。

この他にも、事前に登録された話者のプロフィールから取得したり、ＧＰＳで取得した場所や話者の口調などから属性を推定したりすることもできる。

話者選択部１１０は、属性取得部１３０で取得された属性を利用して話者を選択する。具体的には、図１０に示す話者選択規則を利用して優先話者を選択する。ここで、１００１は、優先的に選択する話者の属性を表している。

属性取得部１３０で、第１話者の属性が「店員」、第２話者の属性が「顧客」と取得された場合を想定する。図７の発話７０５および７０６の意図は、ともに「質問」である。この場合、話者選択規則の１００１が「顧客」であることから、話者選択部１１０は、「顧客」を属性に持つ第２話者を優先的に選択する。これにより、属性に応じた適切な話者の選択をすることができる。

この他にも、属性取得部１３０は、話者の年齢、立場、話者間の親密さ、性別などを属性として抽出することができる。また、図７の例において、話者選択部１１０は、属性が「顧客」である第２話者を常に優先的に選択するようにしてもよい。

（変形例３）
話者選択部１０１は、発話区間が重複した場合、各発話の重要度を測定し、重要度が高い話者を優先的に選択することもできる。ここで、発話の重要度は、原言語文と文の重要度に関する統計モデルとの照合で算出できる。統計モデルは、人手で文に重要度を付加した学習コーパスを用いて予め学習しておく。話者選択部１０１は、発話区間が重複した場合、重要度がより高い原言語文を発話した話者を優先的に選択する。

この他にも、統計モデルを用いて２発話間の相対的な重要度を比較することで話者を選択してもよい。この場合、重要度の大小判定を人手で付与した文のペアを用いて統計モデルを学習する。話者選択部１０１は、発話区間が重複した場合、重要度が相対的に高いと判別された原言語文の話者を優先的に選択する。

（効果）
本実施形態の音声翻訳装置は、音声翻訳によって生成された合成音声を、話者の発話区間と重複しないようにタイミングを調整して再生する。これにより、話者の発話中に合成音声が再生されることを防止でき、コミュニケーションを円滑に進行させることができる。

また、本実施形態の音声翻訳装置は、話者の発話が重複した場合、何れか一方の話者の合成音声を優先的に再生する。これにより、発話が重複する混乱した状態でコミュニケーションが進行することを防止することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。

１００、１５０音声翻訳装置
１０１第１の音声入力部
１０２第２の音声入力部
１０３第１の翻訳部
１０４第２の翻訳部
１０５発話検出部
１０６出力タイミング調整部
１０７第１の音声出力部
１０８第２の音声出力部
１０９意図検出部
１１０話者選択部
１１１メッセージ出力部
１１２全体制御部
１２０第１端末
１２１第２端末
１２２サーバ
１３０属性取得部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６マイク
２０７スピーカ
２０８ディスプレイ
２０９バス
３０１音声認識部
３０１機械翻訳部
３０３音声合成部
４０１原言語
４０２原言語文のパターン
４０３意図
４０４、４０６、４０７原言語文のパターンの一例
４０５意図の一例
５０１第１の意図
５０２第２の意図
５０３優先話者
５０４メッセージ
５０５メッセージ出力先
５０６〜５０８話者選択規則の一例
７０１、７０５、７０９、７１３第１話者の発話
７０２、７０６、７１１、７１４、７１７第２話者の発話
７０３、７０８、７１２、７１８英語の合成音声
７０４、７１０、７１６日本語の合成音声
７０７、７１５メッセージ
１００１優先属性

Claims

第１話者の音声を認識して第１の原言語文を生成し、前記第１話者とは異なる第２話者の音声を認識して第２の原言語文を生成する音声認識手段と、
前記第１の原言語文を第１の目的言語文に翻訳し、前記第２の原言語文を第２の目的言語文に翻訳する機械翻訳手段と、
前記第１話者の音声から第１の発話区間を検出し、前記第２話者の音声から第２の発話区間を検出する発話検出手段と、
前記発話検出手段で検出された発話区間のタイミングに基づいて、前記第１および第２の目的言語文の出力を制御する出力手段と、
前記第１および第２の発話区間が重複する場合、前記第１および第２の原言語文のパターンに基づいて、前記第１および第２話者の何れかを選択する話者選択手段とを備え、
前記出力手段が、前記話者選択手段で前記第１話者が選択された場合は前記第１の目的言語文を出力し、前記話者選択手段で前記第２話者が選択された場合は前記第２の目的言語文を出力する音声翻訳装置。
前記第１の目的言語文を第１の合成音声に変換し、前記第２の目的言語文を第２の合成音声に変換する音声合成手段と、を更に備え、前記出力手段が、前記第１の合成音声の出力開始時刻が前記第２話者の発話区間の終了時刻より遅くなるように前記第１の合成音声を出力し、前記第２の合成音声の出力開始時刻が前記第１話者の発話区間の終了時刻より遅くなるように前記第２の合成音声を出力する請求項１記載の音声翻訳装置。
前記話者選択手段が、前記第１および第２の原言語文のパターンに基づいて物事を説明する叙述である話者を優先的に選択する請求項１記載の音声翻訳装置。
前記話者選択手段での選択結果に応じた所定のメッセージを出力するメッセージ出力手段と、を更に備える請求項１記載の音声翻訳装置。
前記話者選択手段での選択結果に応じた所定のメッセージを出力するメッセージ出力手段と、を更に備え、
前記メッセージ出力手段が、前記第１および第２の合成音声とは異なる声質で前記所定のメッセージを合成音声に変換して出力する請求項２記載の音声翻訳装置。
前記第１および第２話者の属性を取得する属性取得手段と、
前記第１および第２の発話区間が重複する場合、前記属性に基づいて、前記第１および第２話者の何れかを選択する話者選択手段とを更に備え、
前記出力手段が、前記話者選択手段で前記第１話者が選択された場合は前記第１の目的言語文を出力し、前記話者選択手段で前記第２話者が選択された場合は前記第２の目的言語文を出力する請求項１記載の音声翻訳装置。
第１話者の音声を認識して第１の原言語文を生成し、前記第１話者とは異なる第２話者の音声を認識して第２の原言語文を生成するステップと、
前記第１の原言語文を第１の目的言語文に翻訳し、前記第２の原言語文を第２の目的言語文に翻訳するステップと、
前記第１話者の音声から第１の発話区間を検出し、前記第２話者の音声から第２の発話区間を検出するステップと、
検出された発話区間のタイミングに基づいて、前記第１および第２の目的言語文の出力を制御する出力ステップと、
前記第１および第２の発話区間が重複する場合、前記第１および第２の原言語文のパターンに基づいて、前記第１および第２話者の何れかを選択する話者選択ステップとを備え、
前記出力ステップが、前記話者選択ステップで前記第１話者が選択された場合は前記第１の目的言語文を出力し、前記話者選択ステップで前記第２話者が選択された場合は前記第２の目的言語文を出力する音声翻訳方法。
音声翻訳装置に、
第１話者の音声を認識して第１の原言語文を生成し、前記第１話者とは異なる第２話者の音声を認識して第２の原言語文を生成する機能と、
前記第１の原言語文を第１の目的言語文に翻訳し、前記第２の原言語文を第２の目的言語文に翻訳する機能と、
前記第１話者の音声から第１の発話区間を検出し、前記第２話者の音声から第２の発話区間を検出する機能と、
検出された発話区間のタイミングに基づいて、前記第１および第２の目的言語文の出力を制御する出力機能と、
前記第１および第２の発話区間が重複する場合、前記第１および第２の原言語文のパターンに基づいて、前記第１および第２話者の何れかを選択する話者選択機能とを実現させ、
前記出力機能が、前記話者選択機能で前記第１話者が選択された場合は前記第１の目的言語文を出力し、前記話者選択機能で前記第２話者が選択された場合は前記第２の目的言語文を出力することを実現させるための音声翻訳プログラム。