JP2015187738A - 音声翻訳装置、音声翻訳方法および音声翻訳プログラム - Google Patents

音声翻訳装置、音声翻訳方法および音声翻訳プログラム Download PDF

Info

Publication number
JP2015187738A
JP2015187738A JP2015100379A JP2015100379A JP2015187738A JP 2015187738 A JP2015187738 A JP 2015187738A JP 2015100379 A JP2015100379 A JP 2015100379A JP 2015100379 A JP2015100379 A JP 2015100379A JP 2015187738 A JP2015187738 A JP 2015187738A
Authority
JP
Japan
Prior art keywords
speaker
speech
language sentence
utterance
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2015100379A
Other languages
English (en)
Inventor
明子 坂本
Akiko Sakamoto
明子 坂本
住田 一男
Kazuo Sumita
一男 住田
聡史 釜谷
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015100379A priority Critical patent/JP2015187738A/ja
Publication of JP2015187738A publication Critical patent/JP2015187738A/ja
Abandoned legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】話者間の円滑なコミュニケーションを実現する音声翻訳装置を開発する。【解決手段】実施形態の音声翻訳装置は、第1話者音声を認識して第1原言語文を生成し、第1話者とは異なる第2話者音声を認識して第2原言語文を生成する音声認識手段と、第1原言語文を第1目的言語文に翻訳し、第2原言語文を第2目的言語文に翻訳する機械翻訳手段と、第1話者音声から第1発話区間を検出し、第2話者音声から第2発話区間を検出する発話検出手段と、発話検出手段で検出された発話区間のタイミングに基づいて、第1および第2目的言語文の出力を制御する出力手段と、第1および第2発話区間が重複する場合、第1および第2原言語文のパターンに基づいて、第1および第2話者の何れかを選択する話者選択手段を備え、出力手段が、第1話者が選択された場合は第1目的言語文を出力し、第2話者が選択された場合は第2目的言語文を出力する。【選択図】図1

Description

本発明の実施形態は、音声翻訳装置、音声翻訳方法および音声翻訳プログラムに関する。
近年、音声処理、自然言語処理技術の発展に伴い、異言語間のコミュニケーションにおいて、一方の話者が発話した原言語文の音声を所望する目的言語文に翻訳し、この目的言語文を合成音声に変換してもう一方の話者に向けて再生する音声翻訳装置が開発されつつある。
音声翻訳装置は、話者が発話中か否かに関わらず合成音声を再生していた。そのため、音声翻訳装置が合成音声を再生するタイミングが合わずに、合成音声の再生と話者の発話とが重複してしまい、コミュニケーションミスが発生するという問題があった。特に、音声翻訳を利用した電話応答など非対面でのコミュニケーションでは、話者自身が発話のタイミングを調整することが難しく、この問題が顕著化していた。
特開2009−42291号公報 米国特許出願公開第2008/0077387号明細書
発明が解決しようとする課題は、合成音声を再生するタイミングを調整することで、話者間の円滑なコミュニケーションを実現する音声翻訳装置を開発することである。
実施形態の音声翻訳装置は、第1話者の音声を認識して第1の原言語文を生成し、前記第1話者とは異なる第2話者の音声を認識して第2の原言語文を生成する音声認識手段と、前記第1の原言語文を第1の目的言語文に翻訳し、前記第2の原言語文を第2の目的言語文に翻訳する機械翻訳手段と、前記第1話者の音声から第1の発話区間を検出し、前記第2話者の音声から第2の発話区間を検出する発話検出手段と、前記発話検出手段で検出された発話区間のタイミングに基づいて、前記第1および第2の目的言語文の出力を制御する出力手段と、前記第1および第2の発話区間が重複する場合、前記第1および第2の原言語文のパターンに基づいて、前記第1および第2話者の何れかを選択する話者選択手段とを備え、前記出力手段が、前記話者選択手段で前記第1話者が選択された場合は前記第1の目的言語文を出力し、前記話者選択手段で前記第2話者が選択された場合は前記第2の目的言語文を出力する。
第1の実施形態の音声翻訳装置を示すブロック図。 実施形態の音声翻訳装置のハードウェア構成を示す図。 実施形態の翻訳部の内部構成を示すブロック図。 実施形態の意図検出規則を示す図。 実施形態の話者選択規則を示す図。 実施形態の音声翻訳装置のフローチャート。 実施形態のコミュニケーションの流れを示す図。 変形例1の音声翻訳装置を示すブロック図。 変形例2の音声翻訳装置を示すブロック図。 変形例2の話者選択規則を示す図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態では、第1および第2話者が、1つの音声翻訳装置を介して異言語間のコミュニケーションを実施することを想定している。本実施形態では、第1話者は英語を第2話者は日本語をそれぞれ母国語とするが、音声翻訳装置の対象言語はこれら2言語間に限られない。また、話者が3名以上であってもよい。
図1は、第1の実施形態にかかる音声翻訳装置100を示すブロック図である。本実施形態の音声翻訳装置は、第1話者が発話した英語の音声を取得する第1の音声入力部101と、第2話者が発話した日本語の音声を取得する第2の音声入力部102と、英語の音声を音声翻訳して日本語の合成音声を生成する第1の翻訳部103と、日本語の音声を音声翻訳して英語の合成音声を生成する第2の翻訳部104と、第1話者の音声から第1の発話区間を検出し、第2話者の音声から第2の発話区間を検出する発話検出部105と、英語あるいは日本語の合成音声が再生される区間が第1あるいは第2の発話区間と重複しないように合成音声を再生するタイミングを調整する出力タイミング調整部106と、出力タイミング調整部106からの指示に応じて、英語の合成音声を第1話者に向けて再生する第1の音声出力部107と、出力タイミング調整部106からの指示に応じて、日本語の合成音声を第2話者に向けて再生する第2の音声出力部108と、上述した各ブロックの処理手順、ブロック間での情報伝達を制御する全体制御部112とを備える。
本実施形態の音声翻訳装置は、音声翻訳によって生成された合成音声を、話者の発話区間と重複しないようにタイミングを調整して再生する。これにより、話者の発話中に合成音声が再生されることを防止でき、コミュニケーションを円滑に進行させることができる。
図1の音声翻訳装置100は更に、第1話者の音声を認識して生成した英語の原言語文から第1の意図を検出し、第2話者の音声を認識して生成した日本語の原言語文から第2の意図を検出する意図検出部109と、第1および第2の発話区間が重複する場合、第1および第2の意図に基づいて、第1および第2話者の何れかを選択する話者選択部110と、話者選択部110での選択結果に応じた所定のメッセージを出力するメッセージ出力部111とを備える。
ここで、意図とは、話者が発話を通じて実現したい行為を上位概念化したものであり、各発話区間から抽出される。例えば、話者が「How many people will be there?」という発話をした場合、話者はこの発話を通じて相手側へ質問をしたいと考えていることから、この原言語文の意図は「質問」になる。意図の抽出方法は後述する。
話者選択部110で第1話者が選択された場合、音声翻訳装置100は、第1話者の音声を音声翻訳して生成した日本語の合成音声を第2の音声出力部108から再生する。話者選択部110で第2話者が選択された場合、音声翻訳装置100は、第2話者の音声を音声翻訳して生成した英語の合成音声を第1の音声出力部107から再生する。
例えば、第1および第2話者の発話が重複し、第1の意図が「質問」、第2の意図が「叙述」である場合、話者選択部110は、所定の規則に基づいて「叙述」を発話した第2話者を選択する。そして、音声翻訳装置100は、第2話者の合成音声を第1の音声出力部107から優先的に再生する。このように、何れか一方の話者の合成音声を優先的に再生することにより、発話が重複する混乱した状態でコミュニケーションが進行することを防止することができる。話者選択に利用する所定の規則は後述する。
この例では、話者選択部110は、相手からの返答を必要としない「叙述」を発話した話者を選択している。これにより、音声翻訳装置100は、話者間のコミュニケーションを簡潔かつ確実に進行させることができる。
(ハードウェア構成)
本実施形態の音声翻訳装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、話者の指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、話者が発話した音声を取得するマイク206と、合成音声を再生するスピーカ207と、映像を表示するディスプレイ208と、これらを接続するバス209とを備えている。
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
(各ブロックの機能)
第1の音声入力部101は、第1話者が発話した英語の音声を取得する。第1の音声入力部101は、マイク206で構成することができる。取得した音声はAD変換し、外部記憶部203に記憶しておく。
第2の音声入力部102は、第2話者が発話した日本語の音声を取得する。その他機能は第1の音声入力部101と同様である。
第1の翻訳部103は、第1の音声入力部101で取得した英語の音声を音声翻訳して日本語の合成音声を生成する。
第2の翻訳部104は、第2の音声入力部102で取得した日本語の音声を音声翻訳して英語の合成音声を生成する。
図3は、第1の翻訳部103および第2の翻訳部104の内部構成を示すブロック図である。音声認識部301は、音声を認識して原言語文を生成する。音声認識には隠れマルコフモデルに基づく手法を用いる。機械翻訳部302は、原言語文を目的言語文に翻訳する。機械翻訳にはトランスファ方式やインターリンガ方式などを用いる。音声合成部303は、目的言語文を合成音声に変換する。音声合成にはフォルマント合成や隠れマルコフモデルに基づく手法を用いる。各ブロックでの処理結果は、記憶部202あるいは外部記憶部203に記憶する。
発話検出部105は、第1話者の音声から第1の発話区間を検出し、第2話者の音声から第2の発話区間を検出する。発話区間は、取得した音声の短時間パワーを観測することで検出きる。例えば、短時間パワーが閾値を超える区間が100ms連続して継続した場合はこの区間の始端を発話の開始位置とする。そして、発話の開始位置を検出した後、短時間パワーが閾値以下となる区間が500m連続して継続した場合はこの区間の始端を発話の終了位置とする。
出力タイミング調整部106は、合成音声が再生される区間が発話区間と重複しないように、合成音声を再生するタイミングを調整する。例えば、発話検出部105が第1話者の発話が継続していると判別した場合(発話の開始位置のみが検出されている場合)、出力タイミング調整部106は、英語の合成音声の再生を指示する信号を第1の音声出力部107に送信せずに待機する。そして、第1話者の発話が終了後(発話検出部105が終了位置を検出後)、出力タイミング調整部106は、第1の音声出力部107に対して英語の合成音声の再生を指示する信号を送信する。
つまり、出力タイミング調整部106は、英語の合成音声の出力を開始する時刻(出力開始時刻)が第1話者の発話区間の終了位置に対応する時刻(終了時刻)より遅くなるように、第1の音声出力部107に対して英語の合成音声の再生を指示する信号を送信する。
なお、発話検出部105が発話を検出していない場合は、待機することなく合成音声の再生を指示する信号を音声出力部に送信する。
第1の音声出力部107は、出力タイミング調整部106からの指示に応じて、英語の合成音声を第1話者に向けて再生する。出力タイミング調整部106から合成音声の再生を指示する信号を受信するまでは、ディジタル信号である合成音声を記憶部202あるいは外部記憶部203にバッファリングしておく。そして、出力タイミング調整部106から再生指示を受信した後、第1の音声出力部107は、合成音声をDA変換し、スピーカ207から再生する。
第2の音声出力部108は、出力タイミング調整部106からの指示に応じて、日本語の合成音声を第2話者に向けて再生する。その他機能は第1の音声出力部107と同様である。
意図検出部109は、英語の原言語文から第1の意図を検出し、日本語の原言語文から第2の意図を検出する。英語および日本語の原言語文は各翻訳部の音声認識部301にて生成される。
本実施形態では、図4に示すような意図検出規則に従って原言語文の意図を検出する。401は検出対象となる原言語を区別する。402は原言語文のパターンを示しており、403はこのパターンにマッチした場合に検出される意図を表している。例えば、第1話者の音声を認識した結果である英語の原言語文が「How many people will be there?」 である場合、404のパターン「How many 〜 ?」にマッチすることから、この原言語文の意図として405の「質問」が検出される。原言語文とパターンとのマッチは文字列マッチで実現できる。なお、原言語文にマッチするパターンが402の列にない場合は、その文の意図を「叙述」とする。
図4の意図検出規則は、記憶部202や外部記憶部203に記憶することができる。この他にも、通信部205を介して意図検出規則を取得するようにしてもよい。また、意図検出部109は、「叙述」「質問」以外に「確認」「依頼」などを意図として利用してもよい。また、原言語文と意図の対応関係を機械学習した統計モデルを利用して意図を検出することもできる。
話者選択部110は、第1および第2の発話区間が重複するか否かを、発話検出部105の検出結果に基づいて判別する。そして、第1および第2の発話区間が重複すると判別した場合、話者選択部110は、意図検出部109で検出された意図に基づいて、第1および第2話者の何れかを選択する。音声翻訳装置100は、選択された話者の合成音声を優先的に音声出力部から再生する。
本実施形態では、図5に示すような話者選択規則に従って話者を選択する。501は第1の意図のタイプ、502は第2の意図のタイプをそれぞれ示している。503は、第1の意図と第2の意図の組み合わせに応じて選択される話者を表している。504は後述するメッセージ出力部111で出力されるメッセージを、505はこのメッセージの出力先を表している。
例えば、第1の意図が「叙述」で第2の意図が「質問」の場合、図5の507の行より第1話者が選択される。このとき、選択されなかった第2話者には、メッセージ出力部111によって「少々お待ち下さい」というメッセージが出力される。その後、音声翻訳装置100は、第1話者の音声を音声翻訳して生成した日本語の合成音声を第2の音声出力部108から再生する。
この例では、話者選択部110は、相手からの返答を必要としない「叙述」を発話した話者を選択している。これにより、音声翻訳装置100は、話者間のコミュニケーションを簡潔に進行させることができる。
図5の話者選択規則は、記憶部202や外部記憶部203に記憶することができる。この他にも、通信部205を介して話者選択規則を取得するようにしてもよい。
メッセージ出力部111は、話者選択部110での選択結果に応じた所定のメッセージを出力する。所定のメッセージは、文字列としてディスプレイ208に表示してもよいし、合成音声に変換して各音声出力部から再生してもよい。合成音声で再生する場合は、翻訳部で生成した合成音声とは異なる声質でメッセージを合成音声に変換する。これにより、第1および第2話者は、再生中の合成音声が音声翻訳装置100からのメッセージなのか相手側の発話なのかを区別することができる。
全体制御部112は、上述した各ブロックの処理手順やブロック間での情報伝達を制御する。
(フローチャート)
図6のフローチャートを利用して、本実施形態にかかる音声翻訳装置の処理を説明する。
まず、ステップS1では、第1の音声入力部101は第1話者の音声を取得し、第2の音声入力部102は第2話者の音声を取得する。
ステップS2では、発話検出部105は第1話者の音声から第1の発話区間を検出し、第2話者の音声から第2の発話区間を検出する。
ステップS3では、第1の翻訳部103は第1話者の音声を音声翻訳して日本語の合成音声を生成する。また、第2の翻訳部104は、第2話者の音声を音声翻訳して英語の合成音声を生成する。
ステップS4では、発話検出部105は、第1および第2の発話区間が重複するか否かを判別する。重複しない場合はステップS5へ、重複する場合はステップS7へ移行する。ステップS2において第1および第2の発話区間のうち何れかの発話区間が検出されていない場合は、発話区間は重複しないと判別する。
まず、発話区間が重複しない場合の処理について説明する。ステップS5では、出力タイミング調整部106は、合成音声の再生が発話区間と重複しないように、合成音声を再生するタイミングを調整する。例えば、ステップS5の時点で第1話者の発話が継続している場合(発話検出部105にて発話の開始位置のみが検出されている場合)、出力タイミング調整部106は、第1話者の発話が終了するまで(終了位置が検出されるまで)第2話者の合成音声の再生を指示する信号は送信せずに待機する。そして、第1話者の発話終了後(終了位置検出後)、出力タイミング調整部106は、第1の音声出力部107に対して、第2話者の音声を音声翻訳した英語の合成音声の再生を指示する信号を送信する。
ステップS6では、第1あるいは第2の音声出力部は、ステップS5での出力タイミング調整部106から指示に応じて、音声翻訳によって生成された合成音声を再生する。
次に、発話区間が重複する場合の処理について説明する。ステップS7では、意図検出部109は、音声翻訳の過程で音声認識部301によって生成された英語および日本語の原言語文から、それぞれ第1および第2の意図を検出する。
ステップS8では、話者選択部110は、第1および第2の意図に基づいて、第1および第2話者の何れかを選択する。
ステップS9では、メッセージ出力部111は、ステップS8での選択結果に応じた所定のメッセージを出力する。
ステップS10では、出力タイミング調整部106は、ステップS8で選択された話者の合成音声を再生するタイミングを調整する。ステップS8で第1話者が選択された場合は日本語の合成音声を再生するタイミングを調整し、ステップS8で第2話者が選択された場合は英語の合成音声を再生するタイミングを調整する。タイミング調整に関する具体的な処理はステップS5と同様である。
ステップS11では、音声出力部は、出力タイミング調整部106から指示に応じて、ステップS8で選択された話者の合成音声を再生する。ステップS8で第1話者が選択された場合は日本語の合成音声を再生し、ステップS8で第2話者が選択された場合は英語の合成音声を再生する。
(具体例)
対話の具体例を用いて本実施形態の音声翻訳装置の動作フローを説明する。図7は、第1話者(英語話者)と第2話者(日本語話者)のコミュニケーションの流れを示す図である。
中央上部から中央下部に走る2本の矢印は、第1話者と第2話者が発話したり、合成音声の再生を聞いたりするタイミングを表すタイムラインである。このタイムライン上にある白い四角は、第1話者が発話している、もしくは、第1の翻訳部103よって生成された日本語の合成音声が再生されている区間を示す。タイムライン上にある斜線で示す四角は、第2話者が発話している、もしくは、第2の翻訳部104よって生成された英語の合成音声が再生されている区間を示す。タイムライン上にある黒い四角は、メッセージ出力部111からのメッセージが再生されている区間を示す。左右に伸びる実線の矢印は翻訳方向を示しており、例えば、701の「Welcome to our restaurant」が第1の翻訳部103によって704の「レストランへようこそ。」に音声翻訳されたことを表している。
まず、第1話者の発話701「Welcome to our restaurant」について説明する。ステップS1では、第1の音声入力部101は、第1話者の発話701を取得する。ステップS2では、発話検出部105は、発話701の発話区間(第1の発話区間)を検出する。この時点で第2話者は発話をしていないことから、第2の発話区間は検出されていない。
ステップS3では、第1の翻訳部103は、発話701を音声翻訳して「レストランへようこそ。」という日本語の合成音声を生成する。第2の発話区間は検出されておらず第1および第2話者の発話区間に重複はない。したがって、ステップS4ではステップS5へ移行する。
ステップS5では、出力タイミング調整部106は、日本語の合成音声を再生するタイミングを調整する。図7より、第1話者の発話701の直後に第2話者の発話702が開始していることから、ステップS3で日本語の合成音声の生成が完了した時点で、発話検出部105は、発話702の開始位置を検出している。したがって、出力タイミング調整部106は、発話検出部105によって発話702の終了位置が検出された後に、日本語の合成音声704の再生を指示する信号を第2の音声出力部108に送信する。これにより、日本語の合成音声704の出力開始時刻が、第1話者の発話702の終了時刻より遅くなる。
このように、本実施形態の音声翻訳装置は、音声翻訳によって生成された合成音声を、話者の発話区間と重複しないように再生する。これにより、話者の発話中に合成音声が再生されることを防止でき、話者間のコミュニケーションを円滑に進行させることができる。
次に、第1話者の発話705「How many people will be there?」および第2話者の発話706「窓際の席は予約できますか?」について説明する。ステップS1〜S3の処理によって、各音声を音声翻訳し合成音声が生成される。ステップS4では、発話検出部105は、第1および第2の発話区間が重複するか否かを判別する。この例では、発話705と発話706の発話区間が重複していることから、ステップS7に移行する。
ステップS7では、意図検出部109は、意図検出規則を用いて各発話の原言語文から意図を検出する。発話705の原言語文は「How many people will be there?」であり、図4のパターン404とマッチすることから、発話705の意図として「質問」が検出される。発話706の原言語文は「窓際の席は予約できますか?」であり、図4のパターン406とマッチすることから、発話706の意図として「質問」が検出される。
ステップS8では、話者選択部110は、ステップS7で検出された意図に基づいて話者を選択する。この例では、第1および第2の意図ともに「質問」であることから、図5の話者選択規則の506行より、第2話者が選択される。
ステップS9では、メッセージ出力部111は、図5の506行にある「Please wait」というメッセージを第1話者に向けて再生する。この例では、メッセージを合成音声に変換し、第1の音声出力部107から再生する(発話707)。
ステップS10では、出力タイミング調整部106は、選択された第2話者の合成音声が第1の発話区間と重複しないように合成音声を再生するタイミングを調整する。ステップS11では、第2話者の合成音声(発話708)を第1の音声出力部107から再生する。
このように、本実施形態の音声翻訳装置は、話者の発話が重複した場合、いずれか一方の話者を選択して合成音声を再生する。これにより、発話が重複する混乱した状態でコミュニケーションが進行することを防止することができる。
第1話者の発話714および第2話者の発話706でも同様に、ステップS7では、意図検出部109は、図4の意図検出規則を用いて各発話の原言語文から意図を検出する。この例では、発話714の意図として「叙述」が、発話706の意図として「質問」が検出される。ステップS8では、話者選択部110は、図5の話者選択規則より「叙述」を発話した第1話者を選択する。このように、相手からの返答を必要としない「叙述」を発話した話者を選択することにより、話者間のコミュニケーションを簡潔かつ確実に進行させることができる。
なお、本実施形態では対面でのコミュニケーションを想定しているが非対面であっても同様な処理を適用できる。
(変形例1)
図8に示すように、複数の端末を用いて音声翻訳装置を実現することもできる。この図では、第1端末120は、第1の音声入力部101と、第1の音声出力部107とを備える。第2端末121は、第2の音声入力部102と第2の音声出力部108とを備える。サーバ122は、第1の翻訳部103と、第2の翻訳部104と、発話検出部105と、出力タイミング調整部106と、意図検出部109と、話者選択部110と、メッセージ出力部111とを備える。第1端末120および第2端末121は、それぞれ図2に示すハードウェア構成で実現することができ、通信部205を介してサーバ122にある全体制御部112と情報を交換する。このように、演算コストが高い翻訳部などをサーバ122で動作させることにより、端末側の構成をコンパクトにすることができる。
この他にも、上述した各部が、第1端末120、第2端末121、およびサーバの何れかに含まれるよう構成を変更してもよい。
また、第1の実施形態にかかる音声翻訳装置100は、第1および第2の音声入力部を有していたが、1つの音声入力部を用いて話者の発話を全て取得するようにしてもよい。第1および第2の音声出力部についても、1つの音声出力部を用いて、合成音声を全て再生するようにしてもよい。
また、発話検出部105を、音声認識部301に含まれる発話検出の機能を用いて実現してもよいし、第1および第2の翻訳部104を1つの翻訳部にまとめて実現してもよい。
(変形例2)
図9に示すように、音声翻訳装置150が、第1および第2話者の属性を取得する属性取得部130を備えるようにしてもよい。ここで、「属性」とは、例えば「店員」や「顧客」のように、話者の属性を表すものである。
属性取得部130は、例えば、音声翻訳装置150で取り扱うことができる属性をディスプレイ208で話者に提示し、操作部204を介して選択された属性をその話者の属性として取得することができる。
図7の具体例は、店頭でのコミュニケーションを想定していることから、属性取得部130は、第1および第2話者に対して「店員」および「顧客」の属性を提示する。操作部204を介して第1話者が「店員」、第2話者が「顧客」を選択する。
この他にも、事前に登録された話者のプロフィールから取得したり、GPSで取得した場所や話者の口調などから属性を推定したりすることもできる。
話者選択部110は、属性取得部130で取得された属性を利用して話者を選択する。具体的には、図10に示す話者選択規則を利用して優先話者を選択する。ここで、1001は、優先的に選択する話者の属性を表している。
属性取得部130で、第1話者の属性が「店員」、第2話者の属性が「顧客」と取得された場合を想定する。図7の発話705および706の意図は、ともに「質問」である。この場合、話者選択規則の1001が「顧客」であることから、話者選択部110は、「顧客」を属性に持つ第2話者を優先的に選択する。これにより、属性に応じた適切な話者の選択をすることができる。
この他にも、属性取得部130は、話者の年齢、立場、話者間の親密さ、性別などを属性として抽出することができる。また、図7の例において、話者選択部110は、属性が「顧客」である第2話者を常に優先的に選択するようにしてもよい。
(変形例3)
話者選択部101は、発話区間が重複した場合、各発話の重要度を測定し、重要度が高い話者を優先的に選択することもできる。ここで、発話の重要度は、原言語文と文の重要度に関する統計モデルとの照合で算出できる。統計モデルは、人手で文に重要度を付加した学習コーパスを用いて予め学習しておく。話者選択部101は、発話区間が重複した場合、重要度がより高い原言語文を発話した話者を優先的に選択する。
この他にも、統計モデルを用いて2発話間の相対的な重要度を比較することで話者を選択してもよい。この場合、重要度の大小判定を人手で付与した文のペアを用いて統計モデルを学習する。話者選択部101は、発話区間が重複した場合、重要度が相対的に高いと判別された原言語文の話者を優先的に選択する。
(効果)
本実施形態の音声翻訳装置は、音声翻訳によって生成された合成音声を、話者の発話区間と重複しないようにタイミングを調整して再生する。これにより、話者の発話中に合成音声が再生されることを防止でき、コミュニケーションを円滑に進行させることができる。
また、本実施形態の音声翻訳装置は、話者の発話が重複した場合、何れか一方の話者の合成音声を優先的に再生する。これにより、発話が重複する混乱した状態でコミュニケーションが進行することを防止することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。
100、150 音声翻訳装置
101 第1の音声入力部
102 第2の音声入力部
103 第1の翻訳部
104 第2の翻訳部
105 発話検出部
106 出力タイミング調整部
107 第1の音声出力部
108 第2の音声出力部
109 意図検出部
110 話者選択部
111 メッセージ出力部
112 全体制御部
120 第1端末
121 第2端末
122 サーバ
130 属性取得部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 ディスプレイ
209 バス
301 音声認識部
301 機械翻訳部
303 音声合成部
401 原言語
402 原言語文のパターン
403 意図
404、406、407 原言語文のパターンの一例
405 意図の一例
501 第1の意図
502 第2の意図
503 優先話者
504 メッセージ
505 メッセージ出力先
506〜508 話者選択規則の一例
701、705、709、713 第1話者の発話
702、706、711、714、717 第2話者の発話
703、708、712、718 英語の合成音声
704、710、716 日本語の合成音声
707、715 メッセージ
1001 優先属性

Claims (8)

  1. 第1話者の音声を認識して第1の原言語文を生成し、前記第1話者とは異なる第2話者の音声を認識して第2の原言語文を生成する音声認識手段と、
    前記第1の原言語文を第1の目的言語文に翻訳し、前記第2の原言語文を第2の目的言語文に翻訳する機械翻訳手段と、
    前記第1話者の音声から第1の発話区間を検出し、前記第2話者の音声から第2の発話区間を検出する発話検出手段と、
    前記発話検出手段で検出された発話区間のタイミングに基づいて、前記第1および第2の目的言語文の出力を制御する出力手段と、
    前記第1および第2の発話区間が重複する場合、前記第1および第2の原言語文のパターンに基づいて、前記第1および第2話者の何れかを選択する話者選択手段とを備え、
    前記出力手段が、前記話者選択手段で前記第1話者が選択された場合は前記第1の目的言語文を出力し、前記話者選択手段で前記第2話者が選択された場合は前記第2の目的言語文を出力する音声翻訳装置。
  2. 前記第1の目的言語文を第1の合成音声に変換し、前記第2の目的言語文を第2の合成音声に変換する音声合成手段と、を更に備え、前記出力手段が、前記第1の合成音声の出力開始時刻が前記第2話者の発話区間の終了時刻より遅くなるように前記第1の合成音声を出力し、前記第2の合成音声の出力開始時刻が前記第1話者の発話区間の終了時刻より遅くなるように前記第2の合成音声を出力する請求項1記載の音声翻訳装置。
  3. 前記話者選択手段が、前記第1および第2の原言語文のパターンに基づいて物事を説明する叙述である話者を優先的に選択する請求項1記載の音声翻訳装置。
  4. 前記話者選択手段での選択結果に応じた所定のメッセージを出力するメッセージ出力手段と、を更に備える請求項1記載の音声翻訳装置。
  5. 前記話者選択手段での選択結果に応じた所定のメッセージを出力するメッセージ出力手段と、を更に備え、
    前記メッセージ出力手段が、前記第1および第2の合成音声とは異なる声質で前記所定のメッセージを合成音声に変換して出力する請求項2記載の音声翻訳装置。
  6. 前記第1および第2話者の属性を取得する属性取得手段と、
    前記第1および第2の発話区間が重複する場合、前記属性に基づいて、前記第1および第2話者の何れかを選択する話者選択手段とを更に備え、
    前記出力手段が、前記話者選択手段で前記第1話者が選択された場合は前記第1の目的言語文を出力し、前記話者選択手段で前記第2話者が選択された場合は前記第2の目的言語文を出力する請求項1記載の音声翻訳装置。
  7. 第1話者の音声を認識して第1の原言語文を生成し、前記第1話者とは異なる第2話者の音声を認識して第2の原言語文を生成するステップと、
    前記第1の原言語文を第1の目的言語文に翻訳し、前記第2の原言語文を第2の目的言語文に翻訳するステップと、
    前記第1話者の音声から第1の発話区間を検出し、前記第2話者の音声から第2の発話区間を検出するステップと、
    検出された発話区間のタイミングに基づいて、前記第1および第2の目的言語文の出力を制御する出力ステップと、
    前記第1および第2の発話区間が重複する場合、前記第1および第2の原言語文のパターンに基づいて、前記第1および第2話者の何れかを選択する話者選択ステップとを備え、
    前記出力ステップが、前記話者選択ステップで前記第1話者が選択された場合は前記第1の目的言語文を出力し、前記話者選択ステップで前記第2話者が選択された場合は前記第2の目的言語文を出力する音声翻訳方法。
  8. 音声翻訳装置に、
    第1話者の音声を認識して第1の原言語文を生成し、前記第1話者とは異なる第2話者の音声を認識して第2の原言語文を生成する機能と、
    前記第1の原言語文を第1の目的言語文に翻訳し、前記第2の原言語文を第2の目的言語文に翻訳する機能と、
    前記第1話者の音声から第1の発話区間を検出し、前記第2話者の音声から第2の発話区間を検出する機能と、
    検出された発話区間のタイミングに基づいて、前記第1および第2の目的言語文の出力を制御する出力機能と、
    前記第1および第2の発話区間が重複する場合、前記第1および第2の原言語文のパターンに基づいて、前記第1および第2話者の何れかを選択する話者選択機能とを実現させ、
    前記出力機能が、前記話者選択機能で前記第1話者が選択された場合は前記第1の目的言語文を出力し、前記話者選択機能で前記第2話者が選択された場合は前記第2の目的言語文を出力することを実現させるための音声翻訳プログラム。
JP2015100379A 2015-05-15 2015-05-15 音声翻訳装置、音声翻訳方法および音声翻訳プログラム Abandoned JP2015187738A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015100379A JP2015187738A (ja) 2015-05-15 2015-05-15 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015100379A JP2015187738A (ja) 2015-05-15 2015-05-15 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012027698A Division JP5750380B2 (ja) 2012-02-10 2012-02-10 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016113731A Division JP2016186646A (ja) 2016-06-07 2016-06-07 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Publications (1)

Publication Number Publication Date
JP2015187738A true JP2015187738A (ja) 2015-10-29

Family

ID=54429969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015100379A Abandoned JP2015187738A (ja) 2015-05-15 2015-05-15 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Country Status (1)

Country Link
JP (1) JP2015187738A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
WO2024071946A1 (ko) * 2022-09-26 2024-04-04 삼성전자 주식회사 음성 특성 기반 번역 방법 및 이를 위한 전자 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2008083459A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2008083459A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
WO2024071946A1 (ko) * 2022-09-26 2024-04-04 삼성전자 주식회사 음성 특성 기반 번역 방법 및 이를 위한 전자 장치

Similar Documents

Publication Publication Date Title
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JP6463825B2 (ja) 多重話者音声認識修正システム
JP6113302B2 (ja) 音声データの伝送方法及び装置
JP4271224B2 (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
US10089974B2 (en) Speech recognition and text-to-speech learning system
JPH10507536A (ja) 言語認識
TW201214413A (en) Modification of speech quality in conversations over voice channels
WO2017006766A1 (ja) 音声対話方法および音声対話装置
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
KR20200027331A (ko) 음성 합성 장치
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
US20120154514A1 (en) Conference support apparatus and conference support method
KR101959439B1 (ko) 통역방법
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP3936351B2 (ja) 音声応答サービス装置
KR102232642B1 (ko) 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
US11948550B2 (en) Real-time accent conversion model
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JPWO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160426

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20160607