JP2011221237A - 音声出力装置、そのコンピュータプログラムおよびデータ処理方法 - Google Patents

音声出力装置、そのコンピュータプログラムおよびデータ処理方法 Download PDF

Info

Publication number
JP2011221237A
JP2011221237A JP2010089531A JP2010089531A JP2011221237A JP 2011221237 A JP2011221237 A JP 2011221237A JP 2010089531 A JP2010089531 A JP 2010089531A JP 2010089531 A JP2010089531 A JP 2010089531A JP 2011221237 A JP2011221237 A JP 2011221237A
Authority
JP
Japan
Prior art keywords
voice
output
input
speech
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010089531A
Other languages
English (en)
Inventor
Takeshi Hanazawa
健 花沢
Yasuyuki Mitsui
康行 三井
Seiya Osada
誠也 長田
Takayuki Arakawa
隆行 荒川
Koji Okabe
浩司 岡部
Daisuke Tanaka
大介 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010089531A priority Critical patent/JP2011221237A/ja
Publication of JP2011221237A publication Critical patent/JP2011221237A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】入力音声と合成音声との同時出力による競合を回避または低減することができる音声出力装置を提供する。
【解決手段】リアルタイムな入力音声を音声バッファ12が一時保存する。入力音声に対応して合成音声の出力の要否を検知部13が判定する。出力が必要と判定された合成音声を音声合成部15が生成して出力する。出力される合成音声の時間長に対応して一時保存された入力音声を変換部14が調整して出力する。このため、例えば、本来ならば入力音声と合成音声とが同時に出力されるような場合に、入力音声を合成音声が出力されてから高速に出力するようなことができる。
【選択図】図1

Description

本発明は、リアルタイムの入力音声と合成音声とを出力する音声出力装置、そのコンピュータプログラムおよびデータ処理方法、に関する。
近年、テキストなどの文字情報を音声情報に変換する、音声合成の技術の実用化が盛んである。ここで、複数の合成音声を出力する場合、時間的に競合するタイミングで出力せざるを得ないことがあり、音声が重なった場合には受聴者(リスナー)の理解に困難が生じる。
このような課題を解決するため、複数の合成音声出力のタイミングの重なりを検知した場合は、音声波形の再生速度を早くして出力することで、競合を回避/低減する提案がある(特許文献1)。また、出力すべき情報の重要度に応じて合成音声の音量を変更する提案もある(特許文献2)。
特開2002−023787号公報 特開2002−023778号公報
特許文献1および特許文献2では、時間的に競合する複数の音声出力が、いずれもテキスト情報から合成する合成音声であることを前提としており、例えば、電話通話中の相手の通話音声などシステム側からは本来制御困難な音声が含まれる場合でも競合を回避および低減することは考慮されていなかった。
このため、例えば、競合する複数の音声出力に電話通話中の相手の通話音声が含まれる場合には、その通話音声は、そのまま出力されてしまい、他の合成音声出力と重なることで、結果として受聴者の理解に困難を生じさせることになる。
本発明の目的は、リアルタイムの入力音声に合成音声を競合させて出力する場合でも、その競合を回避または低減することができる音声出力装置、そのコンピュータプログラムおよびデータ処理方法、を提供するものである。
本発明の音声出力装置は、リアルタイムな入力音声を一時保存する音声保存手段と、入力音声に対応して合成音声の出力の要否を判定する要否判定手段と、出力が必要と判定された合成音声を生成して出力する音声合成手段と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換手段と、を有する。
本発明のコンピュータプログラムは、リアルタイムな入力音声を一時保存する音声保存処理と、入力音声に対応して合成音声の出力の要否を判定する要否判定処理と、出力が必要と判定された合成音声を生成して出力する音声合成処理と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換処理と、を音声出力装置に実行させる。
本発明のデータ処理方法は、リアルタイムな入力音声を一時保存する音声保存動作と、入力音声に対応して合成音声の出力の要否を判定する要否判定動作と、出力が必要と判定された合成音声を生成して出力する音声合成動作と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換動作と、を有する。
なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与された音声出力装置、コンピュータプログラムにより音声出力装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および動作を順番に記載してあるが、その記載の順番は複数の処理および複数の動作を実行する順番を限定するものではない。
このため、本発明のコンピュータプログラムおよびデータ処理方法を実施するときには、その複数の処理および複数の動作の順番は内容的に支障しない範囲で変更することができる。
さらに、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および複数の動作が個々に相違するタイミングで実行されることに限定されない。このため、ある処理および動作の実行中に他の処理および動作が発生すること、ある処理および動作の実行タイミングと他の処理および動作の実行タイミングとの一部ないし全部が重複していること、等でもよい。
本発明の音声出力装置では、リアルタイムな入力音声を音声保存手段が一時保存する。入力音声に対応して合成音声の出力の要否を要否判定手段が判定する。出力が必要と判定された合成音声を音声合成手段が生成して出力する。出力される合成音声の時間長に対応して一時保存された入力音声を出力変換手段が調整して出力する。このため、例えば、本来ならば入力音声と合成音声とが同時に出力されるような場合に、入力音声を合成音声が出力されてから高速に出力するようなことができる。従って、入力音声と合成音声との同時出力による競合を回避または低減することができる。
本発明の実施の形態の音声出力装置の論理構造を示す模式的なブロック図である。 本発明の実施の形態の音声認識処理を示すフローチャートである。 本発明の動作例を示す図である。 本発明の第一の実施例の対話支援システムの全体構成を示すブロック図である。 本発明の第一の実施例の対話支援処理を示すフローチャートである。 本発明の実施の形態の音声出力装置の別の構成を示すブロック図である。 本発明の動作例を示す図である。 本発明の第二の実施例の通訳支援システムの全体構成を示すブロック図である。 本発明の第二の実施例の通訳支援処理を示すフローチャートである。
本発明の実施の一形態を図1ないし図3を参照して以下に説明する。図1は、本発明の実施の形態の音声出力装置10の全体の論理構造を示す模式的なブロック図である。本実施の形態の音声出力装置10は、例えば、音声の入力部11や出力部16などのデバイスが接続された汎用的なコンピュータシステムからなる。
このため、本実施の形態の音声出力装置10は、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read OnlyMemory)、および、フラッシュメモリ等の不揮発性記憶デバイスを備える。
音声出力装置10は、CPUが、RAM、ROM、不揮発性記憶デバイス、に格納されたコンピュータプログラムであるOS(OperationSystem)および音声出力プログラム、を読み込むことにより音声出力動作を実行する。
これにより、合成音声の出力要否を判定した場合に、入力音声と合成音声との競合を回避して出力する。なお、音声出力装置10は一台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。
より詳細には、本実施の形態の音声出力装置10は、入力音声と合成音声とを出力するものである。本発明の音声出力装置10は、図1に示すように、リアルタイムな入力音声を一時保存する音声保存手段である音声バッファ12と、入力音声に対応して合成音声の出力の要否を判定する要否判定手段である検知部13と、出力が必要と判定された合成音声を生成して出力する音声合成手段である音声合成部15と、出力される合成音声の時間長に対応して一時保存された入力音声を調整して出力する出力変換手段である変換部14と、を有する。
検知部13は、入力音声に対して合成音声の出力要否を判定した場合、例えば、入力音声を音声認識して、その中に事前に登録された特定の単語が含まれていた場合に、その単語の意味情報を音声合成部15に通知する。入力音声を音声認識する技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
音声合成部15は、上述の検知部13から合成音声出力が必要との通知を受け取った場合、例えば、通知された単語の意味情報の音声合成を行って波形生成し、出力部16へ出力する。
同時に、音声合成部15は、合成音声すなわち上述の生成した波形の再生時間長を音声バッファ12と変換部14とに通知する。音声合成を行う技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
検出部17は、入力部11から得られる入力音声に対して音声検出を行い、音声であると検出された区間の音声のみを音声バッファ12に渡す。音声検出を行う技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
音声バッファ12は、音声合成部15からの通知を受け取らない限り、検出部17から得られる音声を逐次、変換部14へ送る。音声合成部15から通知を受け取った場合、その通知された波形の再生時間長分だけ変換部14への音声送信を止めてバッファに一時保存し、その時間経過後にバッファに一時保存した入力音声を一括して変換部14へ送る。
このとき、その時間長は時刻に対応し、バッファに一時保存された音声の時間長とは必ずしも一致しない。なぜなら、その時間経過中に音声検出が行われない可能性もあるためである。
変換部14は、音声合成部15からの通知を受け取らない限り、音声バッファ12から受け取る入力音声を、そのまま出力部16へ出力する。音声合成部15から通知を受け取った場合、その通知された波形の再生時間長分だけ一括して音声バッファ12から入力音声を受け取り、その一括して受け取った入力音声を、例えば、再生速度を速めるよう変換して出力部16へ出力する。
なお、変換部14は再生速度を速めるとしたが、これに限らず、再生出力のタイミングを上述の再生時間長分だけ遅らせるのでもよい。また、再生速度は一律で二倍等の速度にするのでもよいし、一時保存された音声の中で速度を変更してもよい。
また、再生速度を速める際には元の音声の特徴を残して速度だけ変換することが望ましい。元の音声の特徴(高さ・ピッチ)を残して再生速度を変更する技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
なお、本実施の形態では変換部14で検出された音声の再生速度を速めるとしたが、逆に音声バッファ12に一時保存されている音声区間長に応じて、音声合成部15において合成音声の話速を変更してもよい。
すなわち、音声バッファ12に一時保存されている音声区間長が一定以上である場合には、音声合成部15において合成音声の話速を速めることで、より効率よく音声出力の競合を避けることが可能になる。
また、上述の検出された音声の再生速度または上述の合成音声の話速は、その言語や内容によって調整してもよい。例えば、再生する言語が英語の場合には、英語において、より情報量が多いとされる発声の前半部分に比べ、後半部分の速度を速めることで、全体の再生時間長を短くし、より効率的に競合を避けることも可能である。
また、本実施の形態である図1に対して、図6のように検出部17を除いた場合でも、音声バッファ12が入力部11から得られる入力音声を直接受け取ることで、同様の動作が可能である。
<最良の形態1の動作>
つぎに、本発明の実施の形態の音声出力動作を図2に示すフローチャートにより説明する。まず、音声出力装置10は、音声を入力する(ステップS200)。具体的には、マイクから入力される音声波形を検出部17と検知部13に入力する。
つぎに、音声出力装置10は、入力音声に対して音声検出を行う(ステップS201)。具体的には、音声出力装置10の検出部17において音声検出を行い、音声であると検出された区間の音声のみを音声バッファ12に渡す。
つぎに、音声出力装置10は、入力音声に対して合成音声出力の必要があるかどうかを検知する(ステップS202)。具体的には、音声出力装置10の検知部13において、例えば、入力音声を音声認識してその中にあらかじめ登録された特定の単語が含まれていた場合に、合成音声出力の必要があるとし、例えば、その単語の意味情報を音声合成部15に通知する。必要がない場合、すなわち検知しなかった場合には、入力音声を、そのまま出力して次の音声入力を受け付けるためにステップS200に戻る。
つぎに、音声出力装置10は、合成音声を生成する(ステップS203)。具体的には、音声出力装置10の音声合成部15において、検知部13から通知を受け取った場合に、通知された例えば単語の意味情報の合成音声を生成する。同時に、音声合成部15は、生成した波形の再生時間長を音声バッファ12と変換部14とにそれぞれ通知する。
つぎに、音声出力装置10は、音声を一時保存する(ステップS204)。具体的には、音声出力装置10の音声バッファ12において、音声合成部15から上述の生成した波形の再生時間長を通知された場合に、その時点以降の入力音声について、上述の再生時間長分だけ変換部への音声送信を止めてバッファに一時保存する。
つぎに、音声出力装置10は、合成音声を出力する(ステップS205)。具体的には、音声出力装置10の音声合成部15で生成した音声波形を、出力部16であるスピーカから音声出力する。
つぎに、音声出力装置10は、音声を変換する(ステップS206)。具体的には、音声出力装置10の変換部14において、音声合成部15から上述の生成した波形の再生時間長を通知された場合に、その通知された波形の再生時間長分だけ一括して音声バッファ12から入力音声を受け取り、その一括して受け取った入力音声を、例えば、再生速度を速めるよう変換する。
なお、ステップS204とステップS205およびステップS206は並列に行ってもよい。すなわち、合成音声出力中に音声保存しつつ音声変換も同時に行うことも可能である。
つぎに、音声出力装置10は、変換した音声を出力する(ステップS207)。具体的には、音声出力装置10の変換部14で変換した音声を、出力部16である例えばスピーカから音声出力する。変換した音声の出力が終了したら、次の音声入力を受け付けるためにステップS200に戻る。なお、変換した音声の再生中に入力部11から受け付ける入力音声についても、音声バッファ12に一旦一時保存してから変換し、出力してもよい。
本実施の形態では、変換部14において一括して受け取った入力音声の再生速度を速めるとしたが、この限りではない。例えば、再生出力のタイミングを遅らせるのでもよいし、再生出力の一部または全部をスキップするのでもよい。
また、本実施の形態では、検知部13において入力音声の音声認識結果から検知を行うとしたが、この限りではない。例えば、時刻に依存した時報やアナウンスのように、あらかじめ指定されたタイミングを検知して合成音声出力してもよいし、外部からの指示を検知することで合成音声出力してもよいし、それら複数の組み合わせがあってもよい。複数の合成音声出力の競合を回避する方法は、特許文献1にも記載されており、その発明と本発明とを組み合わせて使用することも可能である。
本実施の形態の音声出力装置10では、上述のようにリアルタイムな入力音声を音声バッファ12が一時保存する。入力音声に対応して合成音声の出力の要否を検知部13が判定する。
出力が必要と判定された合成音声を音声合成部15が生成して出力する。出力される合成音声の時間長に対応して一時保存された入力音声を変換部14が調整して出力する。このため、本来ならば入力音声と合成音声とが同時に出力されるような場合に、入力音声を合成音声が出力されてから高速に出力するようなことができる。
従って、入力音声と合成音声との同時出力による競合を回避または低減することができる。このような音声出力装置10は、例えば、音声合成技術を用いた対話支援・通訳支援サービスといった用途などに適用することができる。
<第一の実施例>
本実施の形態の音声出力装置の第一の実施例として、以下に対話支援システムの例を説明する。図4は、第一の実施例の対話支援システムの全体の構成を示した図である。図4に示す対話支援システム100は、入力部110と、音声出力部10bと、出力部160とを備える。
入力部110は、入力となる音声を受信し、音声出力部10bに出力する。例えば、音声通話を実現する電話における受信部でよい。音声出力部10bは、図1の音声出力装置10に対応するものである。
そのため、以下では、図1との違いを中心に説明し、図1と対応して同様の機能を有する構成については、説明を省略する。検知部13bは、音声認識部20を備え、入力部110から入力される音声を認識し、単語辞書21に含まれる特定の単語が認識されたことをもって検知が行われたとし、その単語の意味情報を音声合成部15に通知する。
出力部160は、音声合成部15または変換部14から得られる音声を出力する。例えば、音声通話を実現する電話におけるスピーカでよい。
<第一の実施例の動作>
つぎに、本発明の第一の実施例の対話支援処理の全体の流れを図5に示すフローチャートにより説明する。まず、対話支援システム100は、音声を入力する(ステップS300)。具体的には、対話支援システム100は、入力部110によって連続的に入力される音声を入力音声として音声出力部10bに送る。
つぎに、対話支援システム100は、入力音声に対して音声検出を行う(ステップS301)。具体的には、音声出力部10bの検出部17において音声検出を行い、音声であると検出された区間の音声のみを音声バッファ12に渡す。
つぎに、対話支援システム100は、入力音声に対して合成音声出力の必要があるかどうかを検知する(ステップS302)。具体的には、音声出力部10bの検知部13bにおいて、入力音声を音声認識部20にて音声認識して、その中に単語辞書21中の単語が含まれていた場合に、合成音声出力の必要があるとし、その単語の意味情報を音声合成部15に通知する。必要がない場合、すなわち検知しなかった場合には、入力音声を、そのまま出力して次の音声入力を受け付けるためにステップS300に戻る。
ここで、単語辞書21には、例えば、受聴者にとって不慣れな領域の専門用語を登録しておき、その意味情報を補足する、といった使い方があり得る。
つぎに、対話支援システム100は、合成音声を生成する(ステップS303)。具体的には、音声出力部10bの音声合成部15において、検知部13bから通知を受け取った場合に、通知された単語の合成音声を生成する。同時に、音声合成部15は、生成した波形の再生時間長を音声バッファ12と変換部14とにそれぞれ通知する。
つぎに、対話支援システム100は、音声を一時保存する(ステップS304)。具体的には、音声出力部10bの音声バッファ12において、音声合成部15から上述の生成した波形の再生時間長を通知された場合に、その時点以降の入力音声についてその再生時間長分だけ変換部への音声送信を止めてバッファに一時保存する。
つぎに、対話支援システム100は、合成音声を出力する(ステップS305)。具体的には、音声出力部10bの音声合成部15で生成した音声波形を、出力部160から音声出力する。
つぎに、対話支援システム100は、音声を変換する(ステップS306)。具体的には、音声出力部10bの変換部14において、音声合成部15から上述の生成した波形の再生時間長を通知された場合に、その通知された波形の再生時間に対応する音声区間を一括して音声バッファ12から受け取り、その一括して受け取った入力音声を、例えば、再生速度を速めるよう変換する。
なお、ステップS304とステップS305およびステップS306は並列に行ってもよい。すなわち、合成音声出力中に音声保存しつつ音声変換も同時に行うことも可能である。
つぎに、対話支援システム100は、変換した音声を出力する(ステップS307)。具体的には、音声出力部10bの変換部14で変換した音声を、出力部160から音声出力する。変換した音声の出力が終了したら、次の音声入力を受け付けるためにステップS300に戻る。なお、変換した音声の再生中に入力部110から受け付ける入力音声についても、音声バッファ12に一旦一時保存してから変換し、出力してもよい。
本発明の第一の実施例の動作の模式的な例を、図3に示す。図3の例では、音声1、音声2および音声3が連続して入力され、音声検出され、そのうち音声2のみが検知されるとする。音声1は検知されなかったためにそのまま出力される。その次に入力された音声2は検知されたため、音声2の出力に続いて対応する合成音声2′が出力される。合成音声2′の出力中に音声3が続いて入力されているが、これは一旦バッファに一時保存された後に二倍の速度に変換され、合成音声2′の出力終了後に出力される。このようにして、入力音声と合成音声との競合を回避することができる。
さらに具体的に説明すると、図3において合成音声2′の終了予定時刻をT1、音声3の終了予定時刻をT2、音声3の時間長をm秒間、音声3の次の音声検出区間(例えば音声4)の開始時刻をT3とすると、図7のように、変換後の音声3の時間長は最大でT3−T1秒間であればよく、再生速度をm/(T3−T1)倍すればよい。
このとき、例えば、T3<T1、すなわち合成音声2′の終了前に音声4が開始してしまうような場合には、最大二倍速にするといった閾値を設けることで、再生速度が速くなりすぎてユーザが聞き取れなくなることを防ぐことも可能である。
なお、本実施例では一時保存された音声の再生速度を速めるとしたが、合成音声の速度を速めることももちろん可能である。例えば図7において音声3についても合成音声出力の検知が行われた場合、音声3の再生速度を速くしても最大二倍速といった制限から音声4の再生開始時刻はさらに遅延することが考えられるため、音声3に対応する合成音声3′の再生速度を速めることで音声4の遅延を抑えることができる。このように、一時保存する音声の再生速度と合成音声の再生速度にバランスを持たせることで、より聞き取りやすい音声出力を目指すことができる。
<第二の実施例>
本発明の実施の形態の音声出力装置の第二の実施例として、以下に音声翻訳支援システムの例を説明する。図8は、第二の実施例の音声翻訳支援システムの全体の構成を示した図である。図8における音声翻訳支援システム200は、入力部210と、音声出力部10dと、出力部260とを備える。
入力部210は、入力となる音声を受信し、音声出力部10dに出力する。例えば、音声通話を実現する電話における受信部でよい。音声出力部10dは、図1の音声出力装置10に対応するものである。
そのため、以下では、図1との違いを中心に説明し、図1と対応し同様の機能を有する構成については、説明を省略する。検知部13dは、音声翻訳部40を備え、入力部210から入力される音声を音声翻訳し、異なる言語への翻訳結果の中にあらかじめ登録された特定の表現が含まれていた場合に、検知が行われたとしてその翻訳結果を音声合成部15に通知する。
出力部260は、音声合成部15または変換部14から得られる音声を出力する。例えば、音声通話を実現する電話におけるスピーカでよい。なお、本実施例では検知部13dにおいてあらかじめ登録された特定の表現が含まれる場合に検知が行われたとしたが、あらかじめ登録された特定の表現ではなかった場合に検知が行われたとしてもよい。
<第二の実施例の動作>
つぎに、本発明の第二の実施例の音声翻訳支援処理の全体の流れを図9に示すフローチャートにより説明する。まず、音声翻訳支援システム200は、音声を入力する(ステップS400)。具体的には、音声翻訳支援システム200は、入力部210によって連続的に入力される音声を入力音声として音声出力部10dに送る。
つぎに、音声翻訳支援システム200は、入力音声に対して音声検出を行う(ステップS401)。具体的には、音声出力部10dの検出部17において音声検出を行い、音声であると検出された区間の音声のみを音声バッファ12に渡す。
つぎに、音声翻訳支援システム200は、入力音声に対して合成音声出力の必要があるかどうかを検知する(ステップS402)。具体的には、音声出力部10dの検知部13において、入力音声を音声翻訳してその中にあらかじめ表現リスト41に登録された特定の表現が含まれていない場合に、合成音声出力の必要があるとし、その表現の翻訳結果を音声合成部15に通知する。必要がない場合、すなわち検知しなかった場合には、検出された入力音声を、そのまま出力して次の音声入力を受け付けるためにステップS400に戻る。
ここで、表現リスト41には、例えば、受聴者にとって当たり前の表現・語句を登録しておき、そのリストに含まれない表現が得られたとき、すなわち受聴者の理解が困難になる恐れがある場合にその翻訳結果を補足する、といった使い方があり得る。
つぎに、音声翻訳支援システム200は、合成音声を生成する(ステップS403)。具体的には、音声出力部10dの音声合成部15において、検知部13bから通知を受け取った場合に、通知された翻訳結果の合成音声を生成する。同時に、音声合成部15は、生成した波形の再生時間長を音声バッファ12と変換部14とにそれぞれ通知する。
つぎに、音声翻訳支援システム200は、音声を一時保存する(ステップS404)。具体的には、音声出力部10dの音声バッファ12において、音声合成部15から上述の生成した波形の再生時間長を通知された場合に、その時点以降の入力音声についてその再生時間長分だけ変換部への音声送信を止めてバッファに一時保存する。
つぎに、音声翻訳支援システム200は、合成音声を出力する(ステップS405)。具体的には、音声出力部10dの音声合成部15で生成した音声波形を、出力部260から音声出力する。
つぎに、音声翻訳支援システム200は、音声を変換する(ステップS406)。具体的には、音声出力部10dの変換部14において、音声合成部15から上述の生成した波形の再生時間長を通知された場合に、その通知された波形の再生時間に対応する音声区間を一括して音声バッファ12から受け取り、その一括して受け取った音声を、例えば、再生速度を速めるよう変換する。
なお、ステップS404とステップS405およびステップS406は並列に行ってもよい。すなわち、合成音声出力中に音声保存しつつ音声変換も同時に行うことも可能である。
つぎに、音声翻訳支援システム200は、変換した音声を出力する(ステップS407)。具体的には、音声出力部10dの変換部14で変換した音声を、出力部260から音声出力する。変換した音声の出力が終了したら、次の音声入力を受け付けるためにステップS400に戻る。
このように、本発明の第二の実施例では、入力音声を音声検出しながら音声翻訳を行い、受聴者にとって必要な場合のみ合成音声出力し、かつ、その際に非音声区間を有効利用することで例えば速める割合を低く抑えることが可能となる。
結果として音声出力の競合を効率よく回避することができる。音声翻訳をリアルタイムに行う場合には、翻訳結果を合成音声出力する際の競合を避けることが、理解の支援に大きな役割を果たすと云える。
なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態では検知部13が入力音声を音声処理して所定の処理結果が検出されると合成音声の出力の必要を判定することを例示した。
しかし、検知部13が入力音声を音声処理して所定の処理結果が検出されないと合成音声の出力の必要を判定してもよい。なお、ここで云う音声処理とは、入力音声に対する所定の処理動作を意味しており、例えば、音声認識や音声翻訳である。
さらに、本実施の形態では音声出力装置の各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。
なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。
10 音声出力装置
10b 音声出力部
10d 音声出力部
11 入力部
12 音声バッファ
13 検知部
13b 検知部
13d 検知部
14 変換部
15 音声合成部
16 出力部
17 検出部
20 音声認識部
21 単語辞書
40 音声翻訳部
41 表現リスト
100 対話支援システム
110 入力部
160 出力部
200 音声翻訳支援システム
210 入力部
260 出力部

Claims (10)

  1. リアルタイムな入力音声を一時保存する音声保存手段と、
    前記入力音声に対応して合成音声の出力の要否を判定する要否判定手段と、
    出力が必要と判定された前記合成音声を生成して出力する音声合成手段と、
    出力される前記合成音声の時間長に対応して一時保存された前記入力音声を調整して出力する出力変換手段と、
    を有する音声出力装置。
  2. 前記出力変換手段は、前記合成音声の出力後に前記入力音声を出力する請求項1に記載の音声出力装置。
  3. 前記出力変換手段は、前記合成音声の出力後の前記入力音声の出力速度を上昇させる請求項2に記載の音声出力装置。
  4. 前記音声合成手段は、一時保存されている前記入力音声の時間に対応して前記合成音声の出力速度を変更する請求項1ないし3に記載の音声出力装置。
  5. 前記要否判定手段は、前記入力音声を音声処理して所定の処理結果が検出されると前記合成音声の出力の必要を判定する請求項1ないし4に記載の音声出力装置。
  6. 前記要否判定手段は、事前に登録されている特定音声を前記入力音声から検出すると前記合成音声の出力の必要を判定する請求項5に記載の音声出力装置。
  7. 前記要否判定手段は、前記入力音声を音声処理して所定の処理結果が検出されないと前記合成音声の出力の必要を判定する請求項1ないし4に記載の音声出力装置。
  8. 前記要否判定手段は、事前に登録されている特定音声が前記入力音声から検出されないと前記合成音声の出力の必要を判定する請求項7に記載の音声出力装置。
  9. リアルタイムな入力音声を一時保存する音声保存処理と、
    前記入力音声に対応して合成音声の出力の要否を判定する要否判定処理と、
    出力が必要と判定された前記合成音声を生成して出力する音声合成処理と、
    出力される前記合成音声の時間長に対応して一時保存された前記入力音声を調整して出力する出力変換処理と、
    を音声出力装置に実行させるコンピュータプログラム。
  10. リアルタイムな入力音声を一時保存する音声保存動作と、
    前記入力音声に対応して合成音声の出力の要否を判定する要否判定動作と、
    出力が必要と判定された前記合成音声を生成して出力する音声合成動作と、
    出力される前記合成音声の時間長に対応して一時保存された前記入力音声を調整して出力する出力変換動作と、
    を有する音声出力装置のデータ処理方法。
JP2010089531A 2010-04-08 2010-04-08 音声出力装置、そのコンピュータプログラムおよびデータ処理方法 Pending JP2011221237A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010089531A JP2011221237A (ja) 2010-04-08 2010-04-08 音声出力装置、そのコンピュータプログラムおよびデータ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010089531A JP2011221237A (ja) 2010-04-08 2010-04-08 音声出力装置、そのコンピュータプログラムおよびデータ処理方法

Publications (1)

Publication Number Publication Date
JP2011221237A true JP2011221237A (ja) 2011-11-04

Family

ID=45038299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010089531A Pending JP2011221237A (ja) 2010-04-08 2010-04-08 音声出力装置、そのコンピュータプログラムおよびデータ処理方法

Country Status (1)

Country Link
JP (1) JP2011221237A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280539B2 (en) 2013-09-19 2016-03-08 Kabushiki Kaisha Toshiba System and method for translating speech, and non-transitory computer readable medium thereof
WO2016157678A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2018011262A (ja) * 2016-07-15 2018-01-18 レノボ・シンガポール・プライベート・リミテッド 個人情報の保護方法、電子機器、およびコンピュータ・プログラム
JP2018028626A (ja) * 2016-08-19 2018-02-22 日本放送協会 対話型解説付き音声提示装置およびそのプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6218600A (ja) * 1985-07-18 1987-01-27 日本電気株式会社 音声自動通訳装置
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2002023787A (ja) * 2000-07-06 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2002027039A (ja) * 2000-07-06 2002-01-25 Hitachi Ltd 通信通訳システム
JP2002259373A (ja) * 2001-02-27 2002-09-13 Sony Corp 辞書装置
JP2005004100A (ja) * 2003-06-13 2005-01-06 Canon Inc 聴取システムおよび音声合成装置
JP2005141089A (ja) * 2003-11-07 2005-06-02 Canon Inc 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP2006262245A (ja) * 2005-03-18 2006-09-28 Canon Inc 放送コンテンツ処理装置、用語説明検索方法、及び用語説明検索コンピュータプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6218600A (ja) * 1985-07-18 1987-01-27 日本電気株式会社 音声自動通訳装置
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2002023787A (ja) * 2000-07-06 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2002027039A (ja) * 2000-07-06 2002-01-25 Hitachi Ltd 通信通訳システム
JP2002259373A (ja) * 2001-02-27 2002-09-13 Sony Corp 辞書装置
JP2005004100A (ja) * 2003-06-13 2005-01-06 Canon Inc 聴取システムおよび音声合成装置
JP2005141089A (ja) * 2003-11-07 2005-06-02 Canon Inc 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP2006262245A (ja) * 2005-03-18 2006-09-28 Canon Inc 放送コンテンツ処理装置、用語説明検索方法、及び用語説明検索コンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280539B2 (en) 2013-09-19 2016-03-08 Kabushiki Kaisha Toshiba System and method for translating speech, and non-transitory computer readable medium thereof
WO2016157678A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US10129442B2 (en) 2015-03-31 2018-11-13 Sony Corporation Information processing apparatus and information processing method
JP2018011262A (ja) * 2016-07-15 2018-01-18 レノボ・シンガポール・プライベート・リミテッド 個人情報の保護方法、電子機器、およびコンピュータ・プログラム
JP2018028626A (ja) * 2016-08-19 2018-02-22 日本放送協会 対話型解説付き音声提示装置およびそのプログラム

Similar Documents

Publication Publication Date Title
US10546573B1 (en) Text-to-speech task scheduling
US10943606B2 (en) Context-based detection of end-point of utterance
US9015048B2 (en) Incremental speech recognition for dialog systems
JP7244665B2 (ja) エンドツーエンドの音声変換
US9378738B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
JP5195405B2 (ja) 応答生成装置及びプログラム
EP3002754B1 (en) System and method for processing an audio signal captured from a microphone
EP3389044A1 (en) Management layer for multiple intelligent personal assistant services
US9431005B2 (en) System and method for supplemental speech recognition by identified idle resources
JP6078964B2 (ja) 音声対話システム及びプログラム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
US20130066632A1 (en) System and method for enriching text-to-speech synthesis with automatic dialog act tags
WO2018034169A1 (ja) 対話制御装置および方法
JP2011221237A (ja) 音声出力装置、そのコンピュータプログラムおよびデータ処理方法
US8126703B2 (en) Method, spoken dialog system, and telecommunications terminal device for multilingual speech output
CN110659361B (zh) 一种对话方法、装置、设备及介质
JP2013003559A (ja) 音声合成装置、ナビゲーション装置および音声合成方法
US20170140751A1 (en) Method and device of speech recognition
US20230410791A1 (en) Text-to-speech synthesis method, electronic device, and computer-readable storage medium
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
JP2008157987A (ja) 対話制御装置、対話制御方法及び対話制御プログラム
CN111369972A (zh) 引导声音输出控制系统及引导声音输出控制方法
KR102632806B1 (ko) Stt결과 조기 확정을 위한 음성 인식 방법 및 장치
JP2015007683A (ja) 音声処理器具、音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150303