JP2011221237A

JP2011221237A - 音声出力装置、そのコンピュータプログラムおよびデータ処理方法

Info

Publication number: JP2011221237A
Application number: JP2010089531A
Authority: JP
Inventors: Takeshi Hanazawa; 健花沢; Yasuyuki Mitsui; 康行三井; Seiya Osada; 誠也長田; Takayuki Arakawa; 隆行荒川; Koji Okabe; 浩司岡部; Daisuke Tanaka; 大介田中
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-04-08
Filing date: 2010-04-08
Publication date: 2011-11-04

Abstract

【課題】入力音声と合成音声との同時出力による競合を回避または低減することができる音声出力装置を提供する。
【解決手段】リアルタイムな入力音声を音声バッファ１２が一時保存する。入力音声に対応して合成音声の出力の要否を検知部１３が判定する。出力が必要と判定された合成音声を音声合成部１５が生成して出力する。出力される合成音声の時間長に対応して一時保存された入力音声を変換部１４が調整して出力する。このため、例えば、本来ならば入力音声と合成音声とが同時に出力されるような場合に、入力音声を合成音声が出力されてから高速に出力するようなことができる。
【選択図】図１

Description

本発明は、リアルタイムの入力音声と合成音声とを出力する音声出力装置、そのコンピュータプログラムおよびデータ処理方法、に関する。

近年、テキストなどの文字情報を音声情報に変換する、音声合成の技術の実用化が盛んである。ここで、複数の合成音声を出力する場合、時間的に競合するタイミングで出力せざるを得ないことがあり、音声が重なった場合には受聴者（リスナー）の理解に困難が生じる。

このような課題を解決するため、複数の合成音声出力のタイミングの重なりを検知した場合は、音声波形の再生速度を早くして出力することで、競合を回避／低減する提案がある(特許文献１)。また、出力すべき情報の重要度に応じて合成音声の音量を変更する提案もある(特許文献２)。

特開２００２−０２３７８７号公報特開２００２−０２３７７８号公報

特許文献１および特許文献２では、時間的に競合する複数の音声出力が、いずれもテキスト情報から合成する合成音声であることを前提としており、例えば、電話通話中の相手の通話音声などシステム側からは本来制御困難な音声が含まれる場合でも競合を回避および低減することは考慮されていなかった。

このため、例えば、競合する複数の音声出力に電話通話中の相手の通話音声が含まれる場合には、その通話音声は、そのまま出力されてしまい、他の合成音声出力と重なることで、結果として受聴者の理解に困難を生じさせることになる。

本発明の目的は、リアルタイムの入力音声に合成音声を競合させて出力する場合でも、その競合を回避または低減することができる音声出力装置、そのコンピュータプログラムおよびデータ処理方法、を提供するものである。

本発明の音声出力装置は、リアルタイムな入力音声を一時保存する音声保存手段と、入力音声に対応して合成音声の出力の要否を判定する要否判定手段と、出力が必要と判定された合成音声を生成して出力する音声合成手段と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換手段と、を有する。

本発明のコンピュータプログラムは、リアルタイムな入力音声を一時保存する音声保存処理と、入力音声に対応して合成音声の出力の要否を判定する要否判定処理と、出力が必要と判定された合成音声を生成して出力する音声合成処理と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換処理と、を音声出力装置に実行させる。

本発明のデータ処理方法は、リアルタイムな入力音声を一時保存する音声保存動作と、入力音声に対応して合成音声の出力の要否を判定する要否判定動作と、出力が必要と判定された合成音声を生成して出力する音声合成動作と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換動作と、を有する。

なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与された音声出力装置、コンピュータプログラムにより音声出力装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および動作を順番に記載してあるが、その記載の順番は複数の処理および複数の動作を実行する順番を限定するものではない。

このため、本発明のコンピュータプログラムおよびデータ処理方法を実施するときには、その複数の処理および複数の動作の順番は内容的に支障しない範囲で変更することができる。

さらに、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および複数の動作が個々に相違するタイミングで実行されることに限定されない。このため、ある処理および動作の実行中に他の処理および動作が発生すること、ある処理および動作の実行タイミングと他の処理および動作の実行タイミングとの一部ないし全部が重複していること、等でもよい。

本発明の音声出力装置では、リアルタイムな入力音声を音声保存手段が一時保存する。入力音声に対応して合成音声の出力の要否を要否判定手段が判定する。出力が必要と判定された合成音声を音声合成手段が生成して出力する。出力される合成音声の時間長に対応して一時保存された入力音声を出力変換手段が調整して出力する。このため、例えば、本来ならば入力音声と合成音声とが同時に出力されるような場合に、入力音声を合成音声が出力されてから高速に出力するようなことができる。従って、入力音声と合成音声との同時出力による競合を回避または低減することができる。

本発明の実施の形態の音声出力装置の論理構造を示す模式的なブロック図である。本発明の実施の形態の音声認識処理を示すフローチャートである。本発明の動作例を示す図である。本発明の第一の実施例の対話支援システムの全体構成を示すブロック図である。本発明の第一の実施例の対話支援処理を示すフローチャートである。本発明の実施の形態の音声出力装置の別の構成を示すブロック図である。本発明の動作例を示す図である。本発明の第二の実施例の通訳支援システムの全体構成を示すブロック図である。本発明の第二の実施例の通訳支援処理を示すフローチャートである。

本発明の実施の一形態を図１ないし図３を参照して以下に説明する。図１は、本発明の実施の形態の音声出力装置１０の全体の論理構造を示す模式的なブロック図である。本実施の形態の音声出力装置１０は、例えば、音声の入力部１１や出力部１６などのデバイスが接続された汎用的なコンピュータシステムからなる。

このため、本実施の形態の音声出力装置１０は、図示しない構成として、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read OnlyMemory）、および、フラッシュメモリ等の不揮発性記憶デバイスを備える。

音声出力装置１０は、ＣＰＵが、ＲＡＭ、ＲＯＭ、不揮発性記憶デバイス、に格納されたコンピュータプログラムであるＯＳ（OperationSystem）および音声出力プログラム、を読み込むことにより音声出力動作を実行する。

これにより、合成音声の出力要否を判定した場合に、入力音声と合成音声との競合を回避して出力する。なお、音声出力装置１０は一台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。

より詳細には、本実施の形態の音声出力装置１０は、入力音声と合成音声とを出力するものである。本発明の音声出力装置１０は、図１に示すように、リアルタイムな入力音声を一時保存する音声保存手段である音声バッファ１２と、入力音声に対応して合成音声の出力の要否を判定する要否判定手段である検知部１３と、出力が必要と判定された合成音声を生成して出力する音声合成手段である音声合成部１５と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換手段である変換部１４と、を有する。

検知部１３は、入力音声に対して合成音声の出力要否を判定した場合、例えば、入力音声を音声認識して、その中に事前に登録された特定の単語が含まれていた場合に、その単語の意味情報を音声合成部１５に通知する。入力音声を音声認識する技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

音声合成部１５は、上述の検知部１３から合成音声出力が必要との通知を受け取った場合、例えば、通知された単語の意味情報の音声合成を行って波形生成し、出力部１６へ出力する。

同時に、音声合成部１５は、合成音声すなわち上述の生成した波形の再生時間長を音声バッファ１２と変換部１４とに通知する。音声合成を行う技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

検出部１７は、入力部１１から得られる入力音声に対して音声検出を行い、音声であると検出された区間の音声のみを音声バッファ１２に渡す。音声検出を行う技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

音声バッファ１２は、音声合成部１５からの通知を受け取らない限り、検出部１７から得られる音声を逐次、変換部１４へ送る。音声合成部１５から通知を受け取った場合、その通知された波形の再生時間長分だけ変換部１４への音声送信を止めてバッファに一時保存し、その時間経過後にバッファに一時保存した入力音声を一括して変換部１４へ送る。

このとき、その時間長は時刻に対応し、バッファに一時保存された音声の時間長とは必ずしも一致しない。なぜなら、その時間経過中に音声検出が行われない可能性もあるためである。

変換部１４は、音声合成部１５からの通知を受け取らない限り、音声バッファ１２から受け取る入力音声を、そのまま出力部１６へ出力する。音声合成部１５から通知を受け取った場合、その通知された波形の再生時間長分だけ一括して音声バッファ１２から入力音声を受け取り、その一括して受け取った入力音声を、例えば、再生速度を速めるよう変換して出力部１６へ出力する。

なお、変換部１４は再生速度を速めるとしたが、これに限らず、再生出力のタイミングを上述の再生時間長分だけ遅らせるのでもよい。また、再生速度は一律で二倍等の速度にするのでもよいし、一時保存された音声の中で速度を変更してもよい。

また、再生速度を速める際には元の音声の特徴を残して速度だけ変換することが望ましい。元の音声の特徴（高さ・ピッチ）を残して再生速度を変更する技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

なお、本実施の形態では変換部１４で検出された音声の再生速度を速めるとしたが、逆に音声バッファ１２に一時保存されている音声区間長に応じて、音声合成部１５において合成音声の話速を変更してもよい。

すなわち、音声バッファ１２に一時保存されている音声区間長が一定以上である場合には、音声合成部１５において合成音声の話速を速めることで、より効率よく音声出力の競合を避けることが可能になる。

また、上述の検出された音声の再生速度または上述の合成音声の話速は、その言語や内容によって調整してもよい。例えば、再生する言語が英語の場合には、英語において、より情報量が多いとされる発声の前半部分に比べ、後半部分の速度を速めることで、全体の再生時間長を短くし、より効率的に競合を避けることも可能である。

また、本実施の形態である図１に対して、図６のように検出部１７を除いた場合でも、音声バッファ１２が入力部１１から得られる入力音声を直接受け取ることで、同様の動作が可能である。

＜最良の形態１の動作＞
つぎに、本発明の実施の形態の音声出力動作を図２に示すフローチャートにより説明する。まず、音声出力装置１０は、音声を入力する（ステップＳ２００）。具体的には、マイクから入力される音声波形を検出部１７と検知部１３に入力する。

つぎに、音声出力装置１０は、入力音声に対して音声検出を行う（ステップＳ２０１）。具体的には、音声出力装置１０の検出部１７において音声検出を行い、音声であると検出された区間の音声のみを音声バッファ１２に渡す。

つぎに、音声出力装置１０は、入力音声に対して合成音声出力の必要があるかどうかを検知する（ステップＳ２０２）。具体的には、音声出力装置１０の検知部１３において、例えば、入力音声を音声認識してその中にあらかじめ登録された特定の単語が含まれていた場合に、合成音声出力の必要があるとし、例えば、その単語の意味情報を音声合成部１５に通知する。必要がない場合、すなわち検知しなかった場合には、入力音声を、そのまま出力して次の音声入力を受け付けるためにステップＳ２００に戻る。

つぎに、音声出力装置１０は、合成音声を生成する（ステップＳ２０３）。具体的には、音声出力装置１０の音声合成部１５において、検知部１３から通知を受け取った場合に、通知された例えば単語の意味情報の合成音声を生成する。同時に、音声合成部１５は、生成した波形の再生時間長を音声バッファ１２と変換部１４とにそれぞれ通知する。

つぎに、音声出力装置１０は、音声を一時保存する（ステップＳ２０４）。具体的には、音声出力装置１０の音声バッファ１２において、音声合成部１５から上述の生成した波形の再生時間長を通知された場合に、その時点以降の入力音声について、上述の再生時間長分だけ変換部への音声送信を止めてバッファに一時保存する。

つぎに、音声出力装置１０は、合成音声を出力する（ステップＳ２０５）。具体的には、音声出力装置１０の音声合成部１５で生成した音声波形を、出力部１６であるスピーカから音声出力する。

つぎに、音声出力装置１０は、音声を変換する（ステップＳ２０６）。具体的には、音声出力装置１０の変換部１４において、音声合成部１５から上述の生成した波形の再生時間長を通知された場合に、その通知された波形の再生時間長分だけ一括して音声バッファ１２から入力音声を受け取り、その一括して受け取った入力音声を、例えば、再生速度を速めるよう変換する。

なお、ステップＳ２０４とステップＳ２０５およびステップＳ２０６は並列に行ってもよい。すなわち、合成音声出力中に音声保存しつつ音声変換も同時に行うことも可能である。

つぎに、音声出力装置１０は、変換した音声を出力する（ステップＳ２０７）。具体的には、音声出力装置１０の変換部１４で変換した音声を、出力部１６である例えばスピーカから音声出力する。変換した音声の出力が終了したら、次の音声入力を受け付けるためにステップＳ２００に戻る。なお、変換した音声の再生中に入力部１１から受け付ける入力音声についても、音声バッファ１２に一旦一時保存してから変換し、出力してもよい。

本実施の形態では、変換部１４において一括して受け取った入力音声の再生速度を速めるとしたが、この限りではない。例えば、再生出力のタイミングを遅らせるのでもよいし、再生出力の一部または全部をスキップするのでもよい。

また、本実施の形態では、検知部１３において入力音声の音声認識結果から検知を行うとしたが、この限りではない。例えば、時刻に依存した時報やアナウンスのように、あらかじめ指定されたタイミングを検知して合成音声出力してもよいし、外部からの指示を検知することで合成音声出力してもよいし、それら複数の組み合わせがあってもよい。複数の合成音声出力の競合を回避する方法は、特許文献１にも記載されており、その発明と本発明とを組み合わせて使用することも可能である。

本実施の形態の音声出力装置１０では、上述のようにリアルタイムな入力音声を音声バッファ１２が一時保存する。入力音声に対応して合成音声の出力の要否を検知部１３が判定する。

出力が必要と判定された合成音声を音声合成部１５が生成して出力する。出力される合成音声の時間長に対応して一時保存された入力音声を変換部１４が調整して出力する。このため、本来ならば入力音声と合成音声とが同時に出力されるような場合に、入力音声を合成音声が出力されてから高速に出力するようなことができる。

従って、入力音声と合成音声との同時出力による競合を回避または低減することができる。このような音声出力装置１０は、例えば、音声合成技術を用いた対話支援・通訳支援サービスといった用途などに適用することができる。

＜第一の実施例＞
本実施の形態の音声出力装置の第一の実施例として、以下に対話支援システムの例を説明する。図４は、第一の実施例の対話支援システムの全体の構成を示した図である。図４に示す対話支援システム１００は、入力部１１０と、音声出力部１０ｂと、出力部１６０とを備える。

入力部１１０は、入力となる音声を受信し、音声出力部１０ｂに出力する。例えば、音声通話を実現する電話における受信部でよい。音声出力部１０ｂは、図１の音声出力装置１０に対応するものである。

そのため、以下では、図１との違いを中心に説明し、図１と対応して同様の機能を有する構成については、説明を省略する。検知部１３ｂは、音声認識部２０を備え、入力部１１０から入力される音声を認識し、単語辞書２１に含まれる特定の単語が認識されたことをもって検知が行われたとし、その単語の意味情報を音声合成部１５に通知する。

出力部１６０は、音声合成部１５または変換部１４から得られる音声を出力する。例えば、音声通話を実現する電話におけるスピーカでよい。

＜第一の実施例の動作＞
つぎに、本発明の第一の実施例の対話支援処理の全体の流れを図５に示すフローチャートにより説明する。まず、対話支援システム１００は、音声を入力する（ステップＳ３００）。具体的には、対話支援システム１００は、入力部１１０によって連続的に入力される音声を入力音声として音声出力部１０ｂに送る。

つぎに、対話支援システム１００は、入力音声に対して音声検出を行う（ステップＳ３０１）。具体的には、音声出力部１０ｂの検出部１７において音声検出を行い、音声であると検出された区間の音声のみを音声バッファ１２に渡す。

つぎに、対話支援システム１００は、入力音声に対して合成音声出力の必要があるかどうかを検知する（ステップＳ３０２）。具体的には、音声出力部１０ｂの検知部１３ｂにおいて、入力音声を音声認識部２０にて音声認識して、その中に単語辞書２１中の単語が含まれていた場合に、合成音声出力の必要があるとし、その単語の意味情報を音声合成部１５に通知する。必要がない場合、すなわち検知しなかった場合には、入力音声を、そのまま出力して次の音声入力を受け付けるためにステップＳ３００に戻る。

ここで、単語辞書２１には、例えば、受聴者にとって不慣れな領域の専門用語を登録しておき、その意味情報を補足する、といった使い方があり得る。

つぎに、対話支援システム１００は、合成音声を生成する（ステップＳ３０３）。具体的には、音声出力部１０ｂの音声合成部１５において、検知部１３ｂから通知を受け取った場合に、通知された単語の合成音声を生成する。同時に、音声合成部１５は、生成した波形の再生時間長を音声バッファ１２と変換部１４とにそれぞれ通知する。

つぎに、対話支援システム１００は、音声を一時保存する（ステップＳ３０４）。具体的には、音声出力部１０ｂの音声バッファ１２において、音声合成部１５から上述の生成した波形の再生時間長を通知された場合に、その時点以降の入力音声についてその再生時間長分だけ変換部への音声送信を止めてバッファに一時保存する。

つぎに、対話支援システム１００は、合成音声を出力する（ステップＳ３０５）。具体的には、音声出力部１０ｂの音声合成部１５で生成した音声波形を、出力部１６０から音声出力する。

つぎに、対話支援システム１００は、音声を変換する（ステップＳ３０６）。具体的には、音声出力部１０ｂの変換部１４において、音声合成部１５から上述の生成した波形の再生時間長を通知された場合に、その通知された波形の再生時間に対応する音声区間を一括して音声バッファ１２から受け取り、その一括して受け取った入力音声を、例えば、再生速度を速めるよう変換する。

なお、ステップＳ３０４とステップＳ３０５およびステップＳ３０６は並列に行ってもよい。すなわち、合成音声出力中に音声保存しつつ音声変換も同時に行うことも可能である。

つぎに、対話支援システム１００は、変換した音声を出力する（ステップＳ３０７）。具体的には、音声出力部１０ｂの変換部１４で変換した音声を、出力部１６０から音声出力する。変換した音声の出力が終了したら、次の音声入力を受け付けるためにステップＳ３００に戻る。なお、変換した音声の再生中に入力部１１０から受け付ける入力音声についても、音声バッファ１２に一旦一時保存してから変換し、出力してもよい。

本発明の第一の実施例の動作の模式的な例を、図３に示す。図３の例では、音声１、音声２および音声３が連続して入力され、音声検出され、そのうち音声２のみが検知されるとする。音声１は検知されなかったためにそのまま出力される。その次に入力された音声２は検知されたため、音声２の出力に続いて対応する合成音声２′が出力される。合成音声２′の出力中に音声３が続いて入力されているが、これは一旦バッファに一時保存された後に二倍の速度に変換され、合成音声２′の出力終了後に出力される。このようにして、入力音声と合成音声との競合を回避することができる。

さらに具体的に説明すると、図３において合成音声２′の終了予定時刻をＴ１、音声３の終了予定時刻をＴ２、音声３の時間長をｍ秒間、音声３の次の音声検出区間（例えば音声４）の開始時刻をＴ３とすると、図７のように、変換後の音声３の時間長は最大でＴ３−Ｔ１秒間であればよく、再生速度をｍ／（Ｔ３−Ｔ１）倍すればよい。

このとき、例えば、Ｔ３＜Ｔ１、すなわち合成音声２′の終了前に音声４が開始してしまうような場合には、最大二倍速にするといった閾値を設けることで、再生速度が速くなりすぎてユーザが聞き取れなくなることを防ぐことも可能である。

なお、本実施例では一時保存された音声の再生速度を速めるとしたが、合成音声の速度を速めることももちろん可能である。例えば図７において音声３についても合成音声出力の検知が行われた場合、音声３の再生速度を速くしても最大二倍速といった制限から音声４の再生開始時刻はさらに遅延することが考えられるため、音声３に対応する合成音声３′の再生速度を速めることで音声４の遅延を抑えることができる。このように、一時保存する音声の再生速度と合成音声の再生速度にバランスを持たせることで、より聞き取りやすい音声出力を目指すことができる。

＜第二の実施例＞
本発明の実施の形態の音声出力装置の第二の実施例として、以下に音声翻訳支援システムの例を説明する。図８は、第二の実施例の音声翻訳支援システムの全体の構成を示した図である。図８における音声翻訳支援システム２００は、入力部２１０と、音声出力部１０ｄと、出力部２６０とを備える。

入力部２１０は、入力となる音声を受信し、音声出力部１０ｄに出力する。例えば、音声通話を実現する電話における受信部でよい。音声出力部１０ｄは、図１の音声出力装置１０に対応するものである。

そのため、以下では、図１との違いを中心に説明し、図１と対応し同様の機能を有する構成については、説明を省略する。検知部１３ｄは、音声翻訳部４０を備え、入力部２１０から入力される音声を音声翻訳し、異なる言語への翻訳結果の中にあらかじめ登録された特定の表現が含まれていた場合に、検知が行われたとしてその翻訳結果を音声合成部１５に通知する。

出力部２６０は、音声合成部１５または変換部１４から得られる音声を出力する。例えば、音声通話を実現する電話におけるスピーカでよい。なお、本実施例では検知部１３ｄにおいてあらかじめ登録された特定の表現が含まれる場合に検知が行われたとしたが、あらかじめ登録された特定の表現ではなかった場合に検知が行われたとしてもよい。

＜第二の実施例の動作＞
つぎに、本発明の第二の実施例の音声翻訳支援処理の全体の流れを図９に示すフローチャートにより説明する。まず、音声翻訳支援システム２００は、音声を入力する（ステップＳ４００）。具体的には、音声翻訳支援システム２００は、入力部２１０によって連続的に入力される音声を入力音声として音声出力部１０ｄに送る。

つぎに、音声翻訳支援システム２００は、入力音声に対して音声検出を行う（ステップＳ４０１）。具体的には、音声出力部１０ｄの検出部１７において音声検出を行い、音声であると検出された区間の音声のみを音声バッファ１２に渡す。

つぎに、音声翻訳支援システム２００は、入力音声に対して合成音声出力の必要があるかどうかを検知する（ステップＳ４０２）。具体的には、音声出力部１０ｄの検知部１３において、入力音声を音声翻訳してその中にあらかじめ表現リスト４１に登録された特定の表現が含まれていない場合に、合成音声出力の必要があるとし、その表現の翻訳結果を音声合成部１５に通知する。必要がない場合、すなわち検知しなかった場合には、検出された入力音声を、そのまま出力して次の音声入力を受け付けるためにステップＳ４００に戻る。

ここで、表現リスト４１には、例えば、受聴者にとって当たり前の表現・語句を登録しておき、そのリストに含まれない表現が得られたとき、すなわち受聴者の理解が困難になる恐れがある場合にその翻訳結果を補足する、といった使い方があり得る。

つぎに、音声翻訳支援システム２００は、合成音声を生成する（ステップＳ４０３）。具体的には、音声出力部１０ｄの音声合成部１５において、検知部１３ｂから通知を受け取った場合に、通知された翻訳結果の合成音声を生成する。同時に、音声合成部１５は、生成した波形の再生時間長を音声バッファ１２と変換部１４とにそれぞれ通知する。

つぎに、音声翻訳支援システム２００は、音声を一時保存する（ステップＳ４０４）。具体的には、音声出力部１０ｄの音声バッファ１２において、音声合成部１５から上述の生成した波形の再生時間長を通知された場合に、その時点以降の入力音声についてその再生時間長分だけ変換部への音声送信を止めてバッファに一時保存する。

つぎに、音声翻訳支援システム２００は、合成音声を出力する（ステップＳ４０５）。具体的には、音声出力部１０ｄの音声合成部１５で生成した音声波形を、出力部２６０から音声出力する。

つぎに、音声翻訳支援システム２００は、音声を変換する（ステップＳ４０６）。具体的には、音声出力部１０ｄの変換部１４において、音声合成部１５から上述の生成した波形の再生時間長を通知された場合に、その通知された波形の再生時間に対応する音声区間を一括して音声バッファ１２から受け取り、その一括して受け取った音声を、例えば、再生速度を速めるよう変換する。

なお、ステップＳ４０４とステップＳ４０５およびステップＳ４０６は並列に行ってもよい。すなわち、合成音声出力中に音声保存しつつ音声変換も同時に行うことも可能である。

つぎに、音声翻訳支援システム２００は、変換した音声を出力する（ステップＳ４０７）。具体的には、音声出力部１０ｄの変換部１４で変換した音声を、出力部２６０から音声出力する。変換した音声の出力が終了したら、次の音声入力を受け付けるためにステップＳ４００に戻る。

このように、本発明の第二の実施例では、入力音声を音声検出しながら音声翻訳を行い、受聴者にとって必要な場合のみ合成音声出力し、かつ、その際に非音声区間を有効利用することで例えば速める割合を低く抑えることが可能となる。

結果として音声出力の競合を効率よく回避することができる。音声翻訳をリアルタイムに行う場合には、翻訳結果を合成音声出力する際の競合を避けることが、理解の支援に大きな役割を果たすと云える。

なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態では検知部１３が入力音声を音声処理して所定の処理結果が検出されると合成音声の出力の必要を判定することを例示した。

しかし、検知部１３が入力音声を音声処理して所定の処理結果が検出されないと合成音声の出力の必要を判定してもよい。なお、ここで云う音声処理とは、入力音声に対する所定の処理動作を意味しており、例えば、音声認識や音声翻訳である。

さらに、本実施の形態では音声出力装置の各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。

なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。

１０音声出力装置
１０ｂ音声出力部
１０ｄ音声出力部
１１入力部
１２音声バッファ
１３検知部
１３ｂ検知部
１３ｄ検知部
１４変換部
１５音声合成部
１６出力部
１７検出部
２０音声認識部
２１単語辞書
４０音声翻訳部
４１表現リスト
１００対話支援システム
１１０入力部
１６０出力部
２００音声翻訳支援システム
２１０入力部
２６０出力部

Claims

リアルタイムな入力音声を一時保存する音声保存手段と、
前記入力音声に対応して合成音声の出力の要否を判定する要否判定手段と、
出力が必要と判定された前記合成音声を生成して出力する音声合成手段と、
出力される前記合成音声の時間長に対応して一時保存された前記入力音声を調整して出力する出力変換手段と、
を有する音声出力装置。
前記出力変換手段は、前記合成音声の出力後に前記入力音声を出力する請求項１に記載の音声出力装置。
前記出力変換手段は、前記合成音声の出力後の前記入力音声の出力速度を上昇させる請求項２に記載の音声出力装置。
前記音声合成手段は、一時保存されている前記入力音声の時間に対応して前記合成音声の出力速度を変更する請求項１ないし３に記載の音声出力装置。
前記要否判定手段は、前記入力音声を音声処理して所定の処理結果が検出されると前記合成音声の出力の必要を判定する請求項１ないし４に記載の音声出力装置。
前記要否判定手段は、事前に登録されている特定音声を前記入力音声から検出すると前記合成音声の出力の必要を判定する請求項５に記載の音声出力装置。
前記要否判定手段は、前記入力音声を音声処理して所定の処理結果が検出されないと前記合成音声の出力の必要を判定する請求項１ないし４に記載の音声出力装置。
前記要否判定手段は、事前に登録されている特定音声が前記入力音声から検出されないと前記合成音声の出力の必要を判定する請求項７に記載の音声出力装置。
リアルタイムな入力音声を一時保存する音声保存処理と、
前記入力音声に対応して合成音声の出力の要否を判定する要否判定処理と、
出力が必要と判定された前記合成音声を生成して出力する音声合成処理と、
出力される前記合成音声の時間長に対応して一時保存された前記入力音声を調整して出力する出力変換処理と、
を音声出力装置に実行させるコンピュータプログラム。
リアルタイムな入力音声を一時保存する音声保存動作と、
前記入力音声に対応して合成音声の出力の要否を判定する要否判定動作と、
出力が必要と判定された前記合成音声を生成して出力する音声合成動作と、
出力される前記合成音声の時間長に対応して一時保存された前記入力音声を調整して出力する出力変換動作と、
を有する音声出力装置のデータ処理方法。