JP2015060423A

JP2015060423A - 音声翻訳装置、音声翻訳方法およびプログラム

Info

Publication number: JP2015060423A
Application number: JP2013194020A
Authority: JP
Inventors: 聡典河村; Akinori Kawamura; 住田　一男; Kazuo Sumita; 一男住田; 聡史釜谷; Satoshi Kamaya
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-19
Filing date: 2013-09-19
Publication date: 2015-03-30
Also published as: US9280539B2; CN104462070A; US20150081274A1

Abstract

【課題】お互いの発話タイミングが取りやすい、スムーズなコミュニケーションが可能な音声翻訳装置を提供する。【解決手段】実施形態の音声翻訳装置は、第１言語の第１音声入力装置と第１音声出力装置とを有する第１音声装置と、第２言語の第２音声入力装置と第２音声出力装置とを有する第２音声装置と、第１音声装置と第２音声装置との間の音声翻訳を行うサーバとを有し、サーバは、第１音声入力装置からの第１言語の発話音声の音声認識を行う第１音声認識手段と、その発話終了を待たずに逐次的に音声認識結果の第１言語を前記第２言語へ翻訳する第１機械翻訳手段と、翻訳結果の第２音声を生成する第１音声合成手段と、第２音声よりも第１言語の発話音声の音量が小さくなるように音量を調整して、第１音声および第２音声を第２音声出力装置に向けて出力する出力音調整手段と、を有する。【選択図】図３

Description

本発明の実施形態は、会話を翻訳して音声で出力する音声翻訳装置、音声翻訳方法およびプログラムに関する。

音声翻訳システムの実用化が進んでいる。例えば、株式会社エヌ・ティ・ティ・ドコモが２０１２年に「はなして翻訳」という音声翻訳サービスを開始した。このサービスでは、対面音声翻訳サービスだけでなく、非対面音声翻訳サービスをサポートしている。この対面音声翻訳サービスとは、１つの音声翻訳端末を共有して使用し、２人の話者による対面した会話を音声翻訳するものを言う。また、非対面音声翻訳サービスとは、遠隔地にいる２人の話者が電話などの通話機器による対話を音声翻訳するものを言う。

対面音声翻訳サービスにおいては、共有する音声翻訳端末上に、それぞれの言語用の発話開始ボタンおよび終了ボタンが用意されている。異なる言語を話す２人の利用者は、それぞれの言語で会話する場合、まず発話開始ボタンを押してから、それぞれの言語で発話を行う。そして、発話を終了すると発話終了ボタンを操作する。なお、発話終了ボタンの代わりに、無音区間を検出して自動的に発話を終了するようにしても良い。

これにより、音声翻訳端末の画面には、音声認識結果および翻訳結果が文字列として表示される。更に、翻訳結果が音声としてスピーカーから出力される。その画面を見た他方の利用者は、今度は、上述した操作を行って発話を行えば、同様にその翻訳結果が相手端末のスピーカーから出力される。そして、同様の操作を繰り返すことにより、音声翻訳装置を介してお互いの会話を行なうことができる。

非対面音声翻訳サービスにおいては、一方の利用者Ａが、発話開始ボタンを押す→発話する→発話終了ボタンを押すという操作を行うと、通話の相手である利用者Ｂの電話には、
利用者Ａが発話開始ボタンを押した際の「ピッ」という通知音
→利用者Ａの発話音声
→利用者Ａが発話終了ボタンを押した際の「ピッ」という通知音
→翻訳結果の音声
が聞こえるようになっている。そして、お互いに、この操作を繰り返すことにより、音声翻訳による会話が可能になる。

このような音声翻訳装置では、一方の利用者による発話が終了してから、音声翻訳結果が表示出力或いは音声出力される。このため、通常の会話によるコミュニケーション比較して、相手の意図を理解するまでに時間がかかるという問題があった。

この問題を解決するために、発明者らは、利用者が発話している最中であっても、自動的に翻訳単位を検出し、話し手の発話に追随して翻訳結果を表示する対面同時翻訳システムを考案した。これにより、話し手の発話の終了を待つことなく翻訳結果が通知されるため、相手の意図を理解するまでに要する時間が短縮され、コミュニケーションをスムーズに行なうことが可能になる。

特開２００２−２７０３９号公報

「対面業務支援を想定した連続発話可能な同時通訳システムの開発と評価」、情報処理学会研究報告.HCI,ヒューマンコンピュータインタラクション研究会報告、2013-HCI-151(17)、1-8、2013-Ol-25

同時音声翻訳システムでは、対面音声翻訳サービスを想定しており、発話の最中に翻訳結果が逐次表示されても問題はない。しなしながら、非対面音声翻訳サービスへの適用を考えた場合、逐次的に翻訳される翻訳結果の音声を話し手（利用者Ａ）の原音声に重ねて出力すると、聞き手（利用者Ｂ）にとっては翻訳結果の音声が聞き取りづらくなるという問題が発生する。

これを解決するため、話し手の発話の終了を待ってから、翻訳結果の音声を出力する方式を採用すれば、聞き取りづらいという問題は解決する。しかしながら、この手法では、相手の意図を理解するまでに時間がかかり、スムーズなコミュニケーションが実現できない。

また、話し手の原音声を出力せず、翻訳結果の音声だけを出力することで、音声の重複を回避する手法も考えられる。この手法では、話し手の原音声が聞こえずに、翻訳結果の音声だけを聞くことになるので、聞き手にとっては発話タイミングが取りづらい。例えば、翻訳結果の音声が途切れた場合、２つのケースが考えられる。１つは、話し手の発話が終了して、聞き手の発話待ち状態のケース。他の１つは、話し手が一息ついただけで、話しを続けるケース。遠隔地に居る２人の利用者は、この２つのケースの発話ターンの判断が難しい。その結果、ぎくしゃくしとした会話となってしまうという問題を生ずる。

本発明が解決しようとする課題は、お互いの発話タイミングが取りやすい、スムーズなコミュニケーションが可能な音声翻訳装置、音声翻訳方法およびプログラムを提供することを目的とする。

上記目的を達成するために、実施形態の音声翻訳装置は、少なくとも第１言語による音声を取り込む第１音声入力装置と、前記音声を出力する第１音声出力装置とを有する第１音声装置と、少なくとも第２言語による音声を取り込む第２音声入力装置と、前記音声を出力する第２音声出力装置とを有する第２音声装置と、前記第１音声装置と第２音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、を有する音声翻訳装置であって、前記音声認識・翻訳サーバは、前記第１音声入力装置からの前記第１言語の発話音声を受信して、音声認識を行う第１音声認識手段と、その発話終了を待たずに逐次的に前記音声認識結果の前記第１言語を前記第２言語へ翻訳する第１機械翻訳手段と、前記翻訳結果の第２音声を生成する第１音声合成手段と、前記第１音声合成手段が生成する前記翻訳結果の第２音声、および前記第１言語の発話音声の音量を調整可能とし、前記第２音声よりも前記第１言語の発話音声の音量が小さくなるように音量を調整して、前記第１音声および前記第２音声を前記第２音声出力装置に向けて出力する第１出力音調整手段と、を有することを特徴とする。

実施形態に係る音声翻訳装置によれば、翻訳された言葉の理解に要する時間が短く、かつ、お互いの発話タイミングが取りやすい、スムーズなコミュニケーションが可能となる。

実施形態に係る音声翻訳装置の全体構成を示すブロック図である。実施形態に係る音声翻訳装置の主要部の構成を示すブロック図である。第２出力音調整装置の動作を示すフローチャートである。第１実施形態における、出力音声を時間に沿った形で表現した図である第２実施形態における、第２出力音調整装置の動作を示すフローチャートである。第２実施形態における、出力音声を時間に沿った形で表現した図である第３実施形態における、第２出力音調整装置の動作を示すフローチャートである。第３実施形態における、出力音声を時間に沿った形で表現した図である

以下、本発明の実施形態の音声翻訳装置、音声翻訳方法およびプログラムについて、図面を参照して詳細に説明する。

図１は、実施形態に係る音声翻訳装置の全体の構成を示す図である。利用者端末Ａ（１００）は、第１音声装置である。利用者端末Ａ（１００）は、携帯型筐体に、スピーカー１１１、ディスプレイ１１２、マイク１１３、および音声入力ボタン１１４を備えている。同様に、利用者の端末Ｂ（２００）は、第２音声装置である。利用者端末Ｂ（２００）は、携帯型筐体に、スピーカー２１１、ディスプレイ２１２、マイク２１３、および音声入力ボタン２１４を備えている。スピーカー１１１，２１１は、この装置で音声翻訳されたものを音声で出力する。ディスプレイ１１２，２１２は、音声認識結果および機械翻訳結果などを表示する。マイク１１３，２１３は、利用者の発話音声を取り込む。音声入力ボタン１１４，２１４は、発話音声の取り込み開始を指示する。

利用者端末Ａ（１００）と利用者端末Ｂ（２００）は、ネットワーク３００上の音声認識・翻訳サーバ４００を介して接続され、スマートフォンなどの携帯電子機器を用いた音声翻訳システムが提供される。ネットワーク３００は、無線通信、又は有線通信のどちらでも構わない。なお、実施形態の音声翻訳装置は、図１の構成に限定されることなく、例えばパーソナルコンピュータなどを使用したテレビ会議システムなどにも応用可能である。

（第１実施形態）
図２は、実施形態に係る音声翻訳装置の主要部の構成を示すブロック図である。

この音声翻訳装置は、第１言語（例えば、日本語）で話す利用者Ａと、第１言語とは異なる第２言語（例えば、英語）で話す利用者Ｂとの間で音声翻訳を実施する装置である。遠隔地に離れた利用者Ａと利用者Ｂとの双方向での会話を可能とするために、利用者端末Ａ（１００）は、第１音声入力装置１１０と第１音声出力装置１２０とを備えている。同様に、利用者端末Ｂ（２００）は、第２音声入力装置２３０と第２音声出力装置２４０とを備えている。この第１音声入力装置１１０は図１のマイク１１３に相当し、音声出力装置１２０は図１のスピーカー１１１に相当している。また、第２音声入力装置２３０は図１のマイク２１３に相当し、第２音声出力装置２４０は図１のスピーカー２１１に相当している。

両端末間のネットワーク上に設けられる音声認識・翻訳サーバ４００は、音声翻訳装置４０１，４０２、第１出力音調整装置４７０、第２出力音調整装置４８０、および制御装置４９０を有している。

音声翻訳装置４０１は、第１音声認識装置４１０、第１機械翻訳装置４３０、および第１音声合成装置４５０によって構成され、受信した第１音声を認識して、その翻訳結果の第２音声を出力する。また、音声翻訳装置４０２は、第２音声認識装置４２０、第２機械翻訳装置４４０、第２音声合成装置４６０によって構成され、受信した第２音声を認識して、その翻訳結果の第１音声を出力する。以下に、その詳細を説明する。

第１音声認識装置４１０は、利用者端末Ａ（１００）の第１音声入力装置１１０から送信された第１言語の音声を受信して取り込む。第１機械翻訳装置４３０は、図示していない翻訳辞書を参照して、第１音声認識装置４１０で認識した第１言語の音声認識結果を第２言語に翻訳し、その翻訳結果を第１音声合成装置４５０に出力する。第１音声合成装置４５０は、第１機械翻訳装置４３０から入力された翻訳結果の第２言語の音声合成信号を生成して、利用者端末Ｂ（２００）の第２音声出力装置２４０に向けて出力する。

一方、第２音声認識装置４２０は、利用者端末Ｂ（２００）の第２音声入力装置２３０から送信された第２言語の音声を受信して取り込む。第２機械翻訳装置４４０は、図示していない翻訳辞書を参照して、第２音声認識装置４２０で認識した第２言語の音声認識結果を第１言語に翻訳し、その翻訳結果を第２音声合成装置４６０に出力する。第２音声合成装置４６０は、第２機械翻訳装置４４０から入力された翻訳結果の第１言語の音声合成信号を生成して、利用者端末Ａ（１００）の第１音声出力装置１２０に向けて出力する。

なお、ここでは、第１機械翻訳装置４３０からの翻訳結果を第１音声合成装置４５０に出力したが、第２音声合成装置４６０に出力するようにしても良い。同様に、第２機械翻訳装置４４０からの翻訳結果を第２音声合成装置４６０に出力したが、第１音声合成装置４５０に出力するようにしても良い。

第１出力音調整装置４７０は、第２言語の発話音声および第２音声合成装置４６０が出力する第１言語の音声合成信号の音量を調整する。第２出力音調整装置４８０は、第１言語の発話音声および第１音声合成装置４５０が出力する第２言語の音声合成信号の音量を調整する。制御装置４４０は、これら装置全体の動作タイミングを制御する。なお、上述した音声翻訳装置の利用者端末Ａ（１００）、利用者端末Ｂ（２００）、および音声認識・翻訳サーバ４００は、ネットワーク通信を行うため、図示しない通信装置を備えている。

次に、第１実施形態に示した音声翻訳装置の動作を説明する。

まず、利用者Ａが第１言語（例えば、日本語）で発話を開始すると、利用者端末Ａ（１００）の第１音声入力装置１１０により発話音声が取得される。この第１音声入力装置１１０からの第１音声は、ネットワークの音声認識・翻訳サーバ４００を経由して、その音量を絞ってそのまま利用者端末Ｂ（２００）の第２音声出力装置２４０に送出される。

同時に、音声認識・翻訳サーバ４００の第１音声認識装置４１０は、第１音声入力装置１１０から受信した第１言語の発話音声を音声認識して、第１機械翻訳装置４３０に出力する。第１機械翻訳装置４３０は、音声認識した第１言語を第２言語（例えば、英語）に翻訳し、第１音声合成装置４５０に出力する。このとき、例えば、非特許文献１に記載している方法により、翻訳単位が自動的に検出されると、発話最中であっても翻訳結果の第２音声が逐次的に生成される。第１音声合成装置４５０は、その翻訳結果の第２音声合成信号を生成する。生成された第２音声合成信号の音量は、第２出力音調整装置４８０によって調整される。これにより、利用者Ａが発話した第１言語が音声認識・翻訳サーバ４００によって第２言語に翻訳され、第２出力音調整装置４８０によって調整された音量で、その翻訳結果の音声が利用者端末Ｂ（２００）の第２音声出力装置２４０に向けて出力され、利用者Ｂによって聞き取られる。

同様にして、利用者Ｂが第２言語（例えば、英語）で発話を開始すると、利用者端末Ｂ（２００）の第２音声入力装置２３０により発話音声が取得される。この第２音声入力装置２３０からの第１音声は、ネットワークの音声認識・翻訳サーバ４００を経由して、その音量を絞ってそのまま利用者端末Ａ（１００）の第１音声出力装置１２０に送出される。同時に、音声認識・翻訳サーバ４００の第２音声認識装置４２０は、第２音声入力装置２３０から受信した第２言語の発話音声を音声認識して、第２機械翻訳装置４４０に出力する。第２機械翻訳装置４４０は、音声認識した第２言語を第１言語（例えば、日本語）に翻訳し、第２音声合成装置４６０に出力する。この場合も、非特許文献１に記載している方法により、翻訳単位が自動的に検出されると、発話最中であっても翻訳結果の第１音声が逐次的に生成される。第２音声合成装置４６０は、その翻訳結果の第１音声合成信号を生成する。生成された第１音声合成信号の音量は、第１出力音調整装置４７０によって調整される。これにより、利用者Ｂが発話した第２言語が音声認識・翻訳サーバ４００によって第１言語に翻訳され、第２出力音調整装置４８０によって調整された音量で、その翻訳結果の音声が利用者端末Ａ（１００）の第１音声出力装置１２０に向けて出力され、利用者Ａによって聞き取られる。

図３は、利用者Ａが第１音声入力装置１１０に向けて発話した場合における、第２出力音調整装置４８０の動作を示すフローチャートである。また、第１出力音調整装置４７０でも同様な動作を実行する。

第２出力音調整装置４８０は、ネットワークを介して第１音声入力装置１１０より第１音声（例えば、日本語）の発話を受け取ると（Ｓ３００）、その音量を絞ってそのまま、ネットワークを介して利用者端末Ｂ（２００）の第２音声出力装置２４０に送出する（Ｓ３１０）。

第１音声の発話に対して第１音声認識装置４１０で音声認識し、その認識結果を受けて機械翻訳を行う第１機械翻訳装置４３０は、やや遅れて逐次的に翻訳結果を生成する。そして、第１音声合成装置４５０は、その翻訳結果の第２音声（例えば、英語）を生成する。そして、第１音声合成装置４５０に翻訳結果の第２音声があるかをチェックする（Ｓ３２０）。翻訳結果の第２音声が有れば、第２出力音調整装置４８０は、第１音声合成装置４５０が生成する翻訳結果の第２音声の音量よりも第１言語の発話音声の音量が小さくなるように音量を調整し、利用者端末Ｂ（２００）に向けて送出する。利用者端末Ｂ（２００）の第２音声出力装置２４０は、第２出力音声調整装置４８０により調整された音量の第１音声の発話音声と第２音声の翻訳結果の音声を受け取り、利用者Ｂに聞こえるようにスピーカーから出力する（Ｓ３３０）。Ｓ３３０の後、又はＳ３２０で第２音声が無ければ、元に戻り、次の音声入力を待つ。

このような動作により、利用者Ｂにとっては、小さな音量の第１言語（例えば、日本語）の発話音声にやや遅れて追随する形式で、より大きな音量の第２言語（例えば、英語）の翻訳結果の第２音声が重なって聞こえることになる。

これにより、利用者Ｂは、利用者Ａの第１言語の発話音声を聞くことができるので、利用者Ａが発話を停止して、自分からの発話待ちをしていることを自然に感知することが出来る。また、第１言語の発話音声の音量が翻訳結果の第２音声よりも小さいため、利用者Ｂは第１言語の発話音声に妨げられることなく、翻訳結果の第２音声を聞き取り、利用者Ａの話している内容を理解する事ができる。その結果、速やかに、利用者Ｂは自分のターンの発声を開始することが可能となり、スムーズな会話が行える。

同様にして、利用者Ｂが発話を開始すると、今度は、先ほどとは逆方向の処理が実行される。すなわち、第１出力音調整装置４７０は、ネットワークを経由して第２音声入力装置２３０より第２音声（例えば、英語）の発話を受け取ると（Ｓ３００に相当）、その音量を絞ってそのまま、ネットワークを経由して第１音声出力装置１２０に送出する（Ｓ３１０に相当）。

第２音声の発話に対して第２音声認識装置４２０で音声認識し、その認識結果を受けて機械翻訳を行う第２機械翻訳装置４４０は、やや遅れて逐次的に翻訳結果を生成する。そして、第２音声合成装置４６０は、翻訳結果の第１音声（例えば、日本語）を生成する。そして、第２音声合成装置４６０による翻訳結果の第１音声があるかをチェックする（Ｓ３２０に相当）。翻訳結果の第１音声が有れば、第１出力音調整装置４７０は、第２音声合成装置４６０が生成する翻訳結果の第１音声の音量よりも第２言語の発話音声の音量が小さくなるように音量を調整し、利用者端末Ａ（１００）に向けて送出する。利用者端末Ａ（１００）の第１音声出力装置１２０は、第１出力音声調整装置４７０により調整された音量の第２音声の発話音声と第１音声の翻訳結果の音声を受け取り、利用者Ａに聞こえるようにスピーカーから出力する（Ｓ３３０に相当）。

このような動作により、利用者Ａにとっては、小さな音量の第２言語（例えば、英語）の発話音声にやや遅れて追随する形式で、より大きな音量の第１言語（例えば、日本語）の翻訳結果の第１音声が重なって聞こえることになる。

これにより、利用者Ａは、利用者Ｂの第２言語の発話音声を聞くことができるので、利用者Ｂが発話を停止して、自分からの発話待ちをしていることを自然に感知することが出来る。また、第２言語の発話音声の音量が翻訳結果の第１音声よりも小さいため、利用者Ａは第２言語の発話音声に妨げられることなく、翻訳結果の第１音声を聞き取り、利用者Ｂの話している内容を理解する事ができる。その結果、速やかに、再び、利用者Ａは自分のターンの発声を開始することが可能となる。

図４は、第１実施形態の音声翻訳装置における出力音声を時間軸に沿った形式で表現したものである。利用者Ａが発話した音声（日本語１）を翻訳して利用者Ｂに音声（英語１）を提供する場合、第２出力音調整装置４８０は、第１言語の発話音声（日本語１）の音量は小さく、第１音声合成装置４５０から出力される翻訳結果の第２音声（英語１）の音量は大きくなるように調整して、第２音声出力装置２４０から出力する。

一方、利用者Ｂが発話した音声（英語２）を翻訳して利用者Ａに音声（日本語２）を提供する場合、第１出力音調整装置４７０は、第２言語の発話音声（英語２）の音量は小さく、第２音声合成装置４６０から出力される翻訳結果の第１音声（日本語２）の音量は大きくなるように調整して、第１音声出力装置１２０から出力する。

このような処理を繰り返すことにより、利用者Ａと利用者Ｂの双方にとって、お互いの発話タイミングが取り易くなり、スムーズなコミュニケーションが可能となる。

ところで、第１実施例形態のような音声翻訳装置においては、翻訳結果の第１音声又は第２音声が、実際の発話音声よりも遅れて伝わることは原理的に避けられない。特に、非対面音声翻訳サービスでは、発話者にとって、音声出力の遅れがどれくらいかを知る手段がない。よって、自分（例えば、利用者Ａ）の発話に対する相手（例えば、利用者Ｂ）からの返答発話がなかなか返ってこない場合に、翻訳処理の遅延によるものなのか、相手に自分の意図が正しく伝わらなかったために相手が沈黙しているのかを判断することができない。

また、自分からの話の意図が正しく相手に伝達して、相手から返答の発話を開始している場合であっても、相手に話の意図が正しく伝わらなかったのではないかと不安になる。このような場合、相手からの発話が遅いと、焦って言葉を継いでしまうことがある。その場合、自分の発話と相手の発話のタイミングが衝突して、会話がぎくしゃくする状況が発生し得る。

（第２実施形態）
第２実施形態は、このような事態を解決するための方法であり、第１実施形態の方法に加えて、さらに、自分の発話の翻訳結果音声を、相手側で出力されているタイミングで、自分でも聞く事を可能としている。

第２実施形態における、第２出力音調整装置４８０の動作を示すフローチャートを図５に示す。

図５において、Ｓ５００乃至Ｓ５３０は、図３に示した動作と同じである。この第２実施形態において、Ｓ５３０で、第１音声出力装置１２０から第１音声合成装置４５０からの翻訳結果の第２音声（英語１）を出力するように設定されていれば、第２音声出力装置２４０の第２音声より小さい音量で出力しても良い。

新たに追加したＳ５４０では、利用者Ｂから発話した第２言語（英語２）に応答して、第２出力音調整装置４８０は、第２機械翻訳装置４４０から翻訳結果の第１音声（日本語２）の出力があるかをチェックする。第１音声（日本語２）の出力がある場合、第２出力音調整装置４８０は、Ｓ５３０における翻訳結果の第２音声（英語１）よりも小さい音量で、翻訳結果の第２音声（日本語２）を第２音声出力装置２４０から出力する（Ｓ５５０）。Ｓ５５０の後、又はＳ５４０で第１音声が無ければ、元に戻り、次の音声入力を待つ。

このように、第２出力音調整装置４８０は、利用者Ｂの発話音声の翻訳結果（日本語２）を第２音声出力装置２４０からも出力する場合、直前の第２音声出力装置２４０から出力される翻訳結果（英語１）よりも小さい音量で出力する。

こうすることにより、各利用者は、相手に聞こえている自分の発話の翻訳結果の音声を、自分の発声の邪魔にならないような小さな音声で、自分でも同時に聞くことができる。したがって、自分の発話内容が相手に伝わった終了タイミング、すなわち、相手の返答を待つタイミングを知ることができるようになる。このため、逐次翻訳の遅れに伴う相手からの返答の遅れを不安に思うことが少なくなる。また、会話の衝突が発生しにくくなり、よりスムーズな会話が可能となる。

図６は、第２実施形態の音声翻訳装置における出力音声を時間軸に沿った形式で表現したものである。

利用者Ａが発話した第１言語の音声を認識して翻訳し、利用者Ｂに翻訳結果の音声を提供する場合、第２出力音調整装置４８０は、最初に第２音声出力装置２４０から出力する第１言語の発話音声（日本語１）の音量は小さくする。次に、第２出力音調整装置４８０は、発話音声（日本語１）に重ねて第２音声出力装置２４０から出力する第１機械翻訳装置４３０の翻訳結果である第２音声（英語１）の音量は、発話音声（日本語１）より大きくなるように調整する。

また、第１出力音調整装置４７０は、翻訳結果の第２音声（英語１）を第１音声出力装置１２０から出力する場合、第２音声出力装置２４０の第２音声（英語１）の音量より小さい音量で出力する。

次に、利用者Ｂが発話した第２音声を認識して翻訳し、利用者Ａに翻訳結果の音声を提供する場合、第１出力音調整装置４７０は、最初に第１音声出力装置１２０から出力する第２言語の発話音声（英語２）の音量は小さくする。次に、第１出力音調整装置４７０は、発話音声（英語２）に重ねて第１音声出力装置１２０から出力する第２機械翻訳装置４４０の翻訳結果である第１音声（日本語２）の音量は、第２言語の発話音声（英語２）より大きく、且つ直前の翻訳結果の第２音声（英語１）よりも大きくなるように調整する。

また、第２出力音調整装置４８０は、翻訳結果の第１音声（日本語２）を第２音声出力装置２４０から出力する場合、第１音声出力装置１２０からの第１音声（日本語２）の音量より小さく、且つ直前の翻訳結果の第２音声（英語１）と比べても小さくなるように調整する。

（第３実施形態）
第３実施形態では、第２実施形態に加えて、さらに、自分の発話に対する翻訳結果の音声の音量を細かく調整できるようにする。

第３実施形態における、第２出力音調整装置４８０の動作を示すフローチャートを図７に示す。

図７において、Ｓ７００乃至Ｓ７３０は、図３に示した動作と同じである。この第３実施形態においても、Ｓ７３０で、第１音声出力装置１２０から第１音声合成装置４５０からの翻訳結果の第２音声（英語１）を出力するように設定されていれば、第２音声出力装置２４０の第２音声より小さい音量で出力する。そして、利用者Ａの発話音声である第１言語が無くなれば、それまでの小さい音量から大きい音量に変えて第２音声（英語１）を第１音声出力装置１２０から出力するようにしても良い。

新たに追加したＳ７４０では、利用者Ｂから発話した第２言語（英語２）に応答して、第２出力音調整装置４８０は、第２機械翻訳装置４４０から翻訳結果の第１音声（日本語２）の出力があるかをチェックする。第１音声（日本語２）の出力がある場合、第２出力音調整装置４８０は、利用者Ｂが第２言語で発話中であるかをチェックする（Ｓ７５０）。発話中であれば、Ｓ７３０における翻訳結果の第２音声（英語１）よりも小さい音量で、翻訳結果の第２音声（日本語２）を第２音声出力装置２４０から出力する（Ｓ７６０）。一方、Ｓ７５０において発話中で無ければ、それまでの小さい音量から大きい音量に変えて第２音声（日本語２）を第２音声出力装置２４０から出力する（Ｓ７７０）。

このように、第２出力音調整装置４８０は、利用者Ｂの発話音声の翻訳結果（日本語２）を第２音声出力装置２４０から出力する場合、利用者Ｂが発話中であれば直前の第２音声出力装置２４０からの翻訳結果（英語１）よりも小さい音量で出力し、利用者Ｂが発話中でなければ、それまでの小さい音量から大きい音量に変えて出力する。

一方、第１出力音調整装置４７０も同様に、利用者Ａの発話音声の翻訳結果（英語１）を第１音声出力装置１２０から出力する場合、利用者Ａが発話中であれば直前の第１音声出力装置１２０からの翻訳結果よりも小さい音量で出力し、利用者Ａが発話中でなければ、それまでの小さい音量から大きい音量に変えて出力する。

図８は、第３実施形態の音声翻訳装置における出力音声を時間軸に沿った形式で表現したものである。

利用者Ａが発話した音声を認識して翻訳し、利用者Ｂに翻訳結果（英語１）の音声を提供する場合、第２出力音調整装置４８０は、最初に第２音声出力装置２４０から出力する第１言語の発話音声（日本語１）の音量は小さくする。次に、第２出力音調整装置４８０は、発話音声（日本語１）に重ねて第２音声出力装置２４０から出力する第１機械翻訳装置４３０の翻訳結果である第２音声（英語１）の音量は、発話音声（日本語１）より大きくなるように調整する。

また、第１出力音調整装置４７０は、翻訳結果の第２音声（英語１）を第１音声出力装置１２０から出力する場合、利用者Ａが発話中であれば、第２音声出力装置２４０の音量より小さい音量で出力する。利用者Ａが発話中で無ければ、それまでの小さい音量から大きい音量に変えて出力する。

次に、利用者Ｂが発話した音声を認識して翻訳し、利用者Ａに翻訳結果の音声を提供する場合、第１出力音調整装置４７０は、最初に第１音声出力装置１２０から出力される第２言語の発話音声（英語２）の音量は小さくする。次に、第１出力音調整装置４７０は、発話音声（英語２）に重ねて第１音声出力装置１２０から出力される第２機械翻訳装置４４０の翻訳結果である第１音声（日本語２）の音量は、第２言語の発話音声（英語２）より大きくなるように調整する。

また、第２出力音調整装置４８０は、翻訳結果の第１音声（日本語２）を第２音声出力装置２４０から出力する場合、利用者Ｂが発話中であれば第１音声出力装置１２０の音量より小さい音量で出力する。利用者Ｂが発話中で無ければ、それまでの小さい音量から大きい音量に変えて出力する。

こうすることにより、第２実施形態と比較して、自分の発話内容が相手に伝わった終了タイミングを、よりハツキリと知ることができるようになる。また、会話の衝突が発生しにくくなり、よりスムーズな会話が可能となる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００‥利用者端末Ａ
２００‥利用者端末Ｂ
３００‥ネットワーク
４００‥音声認識・翻訳サーバ
４０１，４０２‥音声翻訳装置
１１０，２３０‥第１、第２音声入力装置
１２０，２４０‥第１、第２音声出力装置
４１０，４２０‥第１、第２音声認識装置
４３０，４４０‥第１、第２機械翻訳装置
４５０，４６０‥第１、第２音声合成装置
４７０，４８０‥第１、第２出力音調整装置
４９０‥制御装置

Claims

少なくとも第１言語による音声を取り込む第１音声入力装置と、前記音声を出力する第１音声出力装置とを有する第１音声装置と、
少なくとも第２言語による音声を取り込む第２音声入力装置と、前記音声を出力する第２音声出力装置とを有する第２音声装置と、
前記第１音声装置と第２音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、
を有する音声翻訳装置であって、
前記音声認識・翻訳サーバは、
前記第１音声入力装置からの前記第１言語の発話音声を受信して、音声認識を行う第１音声認識手段と、
その発話終了を待たずに逐次的に前記音声認識結果の前記第１言語を前記第２言語へ翻訳する第１機械翻訳手段と、
前記翻訳結果の第２音声を生成する第１音声合成手段と、
前記第１音声合成手段が生成する前記翻訳結果の第２音声、および前記第１言語の発話音声の音量を調整可能とし、前記第２音声よりも前記第１言語の発話音声の音量が小さくなるように音量を調整して、前記第１音声および前記第２音声を前記第２音声出力装置に向けて出力する第１出力音調整手段と、
を有することを特徴とする音声翻訳装置。
前記第２音声入力装置からの前記第２言語の発話音声を受信して、音声認識を行う第２音声認識手段と、
その発話終了を待たずに逐次的に前記音声認識結果の前記第２言語を前記第１言語へ翻訳する第２機械翻訳手段と、
前記翻訳結果の第１音声を生成する第２音声合成手段と、
前記第２音声合成手段が生成する前記翻訳結果の第１音声、および前記第２言語の発話音声の音量を調整可能とし、前記第１音声よりも前記第２言語の発話音声の音量が小さくなるように音量を調整して、前記第２音声および前記第１音声を前記第１音声出力装置に向けて出力する第２出力音調整手段と、
を更に有することを特徴とする請求項１に記載の音声翻訳装置。
前記第１出力音調整手段は更に、前記第２音声出力装置に向けて出力される前記第２機械翻訳手段の翻訳結果である前記第１音声の音量を、前記第１機械翻訳手段の翻訳結果である前記第２音声の音量よりも小さくなるように調整することを特徴とする請求項２に記載の音声翻訳装置。
前記第２出力音調整手段は更に、前記第１音声出力装置に向けて出力される前記第１機械翻訳手段の翻訳結果である前記第２音声の音量を、前記第２機械翻訳手段の翻訳結果である前記第１音声の音量よりも小さくなるように調整することを特徴とする請求項２に記載の音声翻訳装置。
前記第１出力音調整手段は更に、前記第２言語の発話音声の発話終了を検知すると、前記第２音声合成手段が生成する翻訳結果の前記第１音声の音量を、前記第２言語の発話音声の出力中よりも大きくなるように音量を調整することを特徴とする請求項２に記載の音声翻訳装置。
前記第２出力音調整手段は更に、前記第１言語の発話音声の発話終了を検知すると、前記第１音声翻訳手段が生成する翻訳結果の前記第２音声の音量を、前記第１言語の発話音声の出力中よりも大きくなるように音量を調整することを特徴とする請求項２に記載の音声翻訳装置。
前記第１出力音調整手段は更に、前記第１音声出力装置に向けて出力される第１機械翻訳手段の翻訳結果である前記第２音声を、前記第２音声出力装置に向けて出力される前記第１機械翻訳手段の翻訳結果である前記第２音声の音量よりも小さくなるように音量を調整することを特徴とする請求項２に記載の音声翻訳装置。
前記第２出力音調整手段は更に、前記第２音声出力装置に向けて出力される第２機械翻訳手段の翻訳結果である前記第１音声を、前記第１音声出力装置に向けて出力される前記第２機械翻訳手段の翻訳結果である前記第１音声の音量よりも小さくなるように音量を調整することを特徴とする請求項２に記載の音声翻訳装置。
少なくとも第１言語による音声を取り込む第１音声入力装置と、前記音声を出力する第１音声出力装置とを有する第１音声装置と、
少なくとも第２言語による音声を取り込む第２音声入力装置と、前記音声を出力する第２音声出力装置とを有する第２音声装置と、
前記第１音声装置と第２音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、
による音声翻訳方法であって、
前記第１音声入力装置が出力する前記第１言語の音声を受信し、音声認識を行うステップと、
その音声認識結果を入力としてその発話終了を待たずに逐次的に前記第１言語を前記第２言語へ翻訳するステップと、
前記第２言語に翻訳された前記翻訳結果の第２音声を生成するステップと、
前記翻訳結果の第２音声よりも前記第１言語の発話音声の音量が小さくなるように音量を調整するステップと、
前記第１言語の発話音声に重ねて音量の大きい前記翻訳結果の第２音声を前記第２音声出力装置に向けて出力するステップと、
を有することを特徴とする音声翻訳方法。
前記第２音声入力装置が出力する前記第２言語の音声を受信し、音声認識を行うステップと、
その音声認識結果を入力としてその発話終了を待たずに逐次的に前記第２言語を前記第１言語へ翻訳するステップと、
前記第１言語に翻訳された前記翻訳結果の第１音声を生成するステップと、
前記翻訳結果の第１音声よりも前記第２言語の発話音声の音量が小さくなるように音量を調整するステップと、
前記第２言語の発話音声に重ねて音量の大きい前記翻訳結果の第１音声を前記第１音声出力装置に向けて出力するステップと、
更に有することを特徴とする請求項９に記載の音声翻訳方法。
少なくとも第１言語による音声を取り込む第１音声入力装置と、前記音声を出力する第１音声出力装置とを有する第１音声装置と、
少なくとも第２言語による音声を取り込む第２音声入力装置と、前記音声を出力する第２音声出力装置とを有する第２音声装置と、
前記第１音声装置と第２音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、
による音声翻訳プログラムであって、
前記第１音声出力装置が出力する前記第１言語の発話音声を前記音声認識・翻訳サーバが受信して音声認識を行う機能と、
前記音声認識・翻訳サーバによって、前記音声認識の結果を入力として前記第１言語から前記第２言語に翻訳すると共に、その翻訳結果の第１音声を生成する機能と、
前記翻訳結果の第１音声よりも前記第１言語の発話音声の音量が小さくなるように音量を調整し、前記第１言語の発話音声に重ねて音量の大きい前記翻訳結果の第１音声を前記音声認識・翻訳サーバから前記第２音声出力装置に向けて出力する機能と、
をコンピュータによって実行させるプログラム。
前記第２音声出力装置が出力する前記第２言語の発話音声を前記音声認識・翻訳サーバが受信して音声認識を行う機能と、
前記音声認識・翻訳サーバによって、前記音声認識の結果を入力として前記第２言語から前記第１言語に翻訳すると共に、その翻訳結果の第２音声を生成する機能と、
前記翻訳結果の第２音声よりも前記第２言語の発話音声の音量が小さくなるように音量を調整し、前記第２言語の発話音声に重ねて音量の大きい前記翻訳結果の第２音声を前記音声認識・翻訳サーバから前記第１音声出力装置に向けて出力する機能と、
を更にコンピュータによって実行する請求項１１に記載のプログラム。