JP3962733B2

JP3962733B2 - 音声合成方法および装置

Info

Publication number: JP3962733B2
Application number: JP2004246813A
Authority: JP
Inventors: 雅章山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-08-26
Filing date: 2004-08-26
Publication date: 2007-08-22
Anticipated expiration: 2024-08-26
Also published as: US7610201B2; JP2006064959A; US20060047514A1

Description

本発明は、音声を合成しユーザに提示する音声合成方法および装置に関わるものである。

従来より、各種機器において、音声を合成してユーザに提示する音声合成の機能が実装されている。音声合成には、あらかじめ録音された音声を再生する録音再生音声合成や、発声内容をテキストデータとして表現し、規則によって音声を合成する音声規則合成がある。

ところで、上述のような音声合成を搭載した機器において、複数の内容を同時に発声する必要が生ずることがある。例えば、ＦＡＸおよびコピー機能を搭載した複合機でＦＡＸ送信とコピーを同時に行なうケースを考えると、送信終了と紙詰りが同時に起こり得る。この場合、「送信が終了しました」と「紙詰りが起こりました」という音声出力を同時に行なう必要が生ずる場合がある。

上記のような複数の音声を同時に合成・出力すると、発声内容の了解性が損なわれ、ユーザの使用感を損ねる。そこで従来、特許文献１に開示されているように優先度に基づいた音声合成が行なわれている。これは、発声内容に対して優先度を付与し、優先度の高いものを優先して音声合成、出力するものである。具体的には、「優先度の高い内容を先に音声合成する」といったことが行なわれる。
特開平５−３００１０６号公報

上記従来技術において、より優先度の高い発声を緊急に実行するべく、現在出力中の優先度の低い発声を中断して、優先度の高い内容を割り込ませて発声するというような制御を実現して、ユーザの細かいニーズに応えるように構成することが考えられる。一般に音声合成による発声は一時停止することが可能であることから、優先度の低い発声を一時停止して、優先度の高い発生を実行し、その後優先度の低い発生を再開することにより、上記構成を実現することが考えられる。しかしながら、このような構成では、発声内容によっては、中断した個所から再生することによってかえってユーザに混乱をきたす可能性もある。よって、割り込まれた発声（＝他の発声内容によって中断させられた発声）の復帰についてもより細かい制御を可能にすることが望まれる。

本発明は上記の課題に鑑みてなされたものであり、発声内容と共に割り込まれた際の復帰方法を指定することを可能とし、割り込まれた発声の復帰方法を適切に制御可能にすることを目的とする。

上記の目的を達成するための本発明による音声合成方法は、発声内容を取得する取得工程と、前記取得工程で取得した発声内容に従って音声を合成し出力している際に、発声内容の音声出力が中断された場合に、発声内容毎に音声出力の再開時における復帰方法を表す復帰情報を対応付けて登録している登録情報から、該中断された発声内容に対応付けて登録されている復帰情報を取得し、取得した復帰情報に従って、前記中断された発声内容の音声出力を再開する再開工程とを備える。

また、上記の目的を達成するための本発明による音声合成装置は以下の構成を備える。すなわち、発声内容を取得する取得手段と、前記取得手段で取得した発声内容に従って音声を合成し出力している際に、発声内容の音声出力が中断された場合に、発声内容毎に音声出力の再開時における復帰方法を表す復帰情報を対応付けて登録している登録情報から、該中断された発声内容に対応付けて登録されている復帰情報を取得し、取得した復帰情報に従って、前記中断された発声内容の音声出力を再開する再開手段とを備える。

本発明によれば、発声内容と共に割り込まれた際の復帰方法を指定することができ、割り込まれた発声の復帰方法を適切に制御することが可能になる。

以下、添付の図面を参照しながら本発明の好適な実施形態を説明する。

＜第１実施形態＞
図１は第１実施形態による情報処理装置のハードウェア構成例を示すブロック図である。図１において、中央処理装置１は、数値演算・制御等の処理を行なう。特に、本実施形態の手順に従って各種制御を実現する。音声出力装置２は、ユーザに対して音声を提示する。出力装置３は、ユーザに対して情報を提示する。出力装置３の典型例としては、液晶ディスプレイのような画像出力装置が考えられるが、音声出力装置２と兼用するような形態であっても良い。さらに、ランプの点滅だけといった簡便なものであっても良い。入力装置４はタッチパネルやキーボード、マウス、ボタン等を具備し、ユーザが本情報処理装置に対して動作の指示を与えるのに用いられる。器機制御装置５は、スキャナやプリンタ等の本情報処理装置に付随する機器を制御する。

外部記憶装置６は、ディスク装置や不揮発メモリ等で構成されて、音声合成に使用される言語解析辞書６０１や音声データ６０２等を保持する。さらに、外部記憶装置６には、ＲＡＭ８に保持される各種情報のうち、恒久的に使用されるべき情報も保持される。また、外部記憶装置６は、ＣＤ−ＲＯＭやメモリカードといった可搬性のある記憶装置であっても良く、これによって利便性を高めることもできる。

ＲＯＭ７は読み取り専用のメモリであり、本実施形態による音声合成処理等を実現するためのプログラムコード７０１や、図示しない固定的データ等が格納される。なお、外部記憶装置６とROM７の使用には任意性がある。例えば、プログラムコード７０１は、ＲＯＭ７ではなく外部記憶装置６にインストールされるものであっても良い。ＲＡＭ８は一時的に情報を保持するメモリであり、発声内容キュー８０１や現発声内容バッファ８０２およびその他の一時的なデータや各種フラグ等が保持される。以上の各構成はバスで接続されている。

また、本実施形態では、図２に示すように複数の機能をマルチタスクで実現する例について説明する。例えば、プリントアウトはプリントタスク９０１によって、スキャンはスキャンタスク９０２によって実現される。各タスクはタスク間通信（メッセージ）によって協調動作し、例えば、コピーのような複合的な機能は、コピータスク９０３、プリントタスク９０１、スキャンタスク９０２の連携によって実現される。

図２において、音声合成タスク９０６は、他のタスクから音声合成出力の要求メッセージを受け取り、音声合成出力する役割を担う。音声合成には、あらかじめ録音された内容を再生する録音再生方式と、任意の内容を出力できる規則合成方式がある。本実施形態の情報処理装置にはこれらのいずれも適用可能であるが、本実施形態では規則合成方式を例に説明する。また、規則合成方式の場合、自然言語で記述されたテキストを入力する場合と、音声合成用の記述言語で記述されたテキストを入力とする場合がある。本実施形態にはこれらのいずれも適用可能である。

音声合成タスク９０６では、出力すべき発声内容を発声内容キュー８０１によって管理する。発声内容キュー８０１には、発声内容およびその他の情報が発声順に順位づけされて管理されている。発声内容キュー８０１の例を図３に示す。図３において、優先度は、発声内容の優先度を示し、優先度の高い発声内容ほど発声内容キュー８０１の上位に位置する。復帰方法は、発声が他の発声によって中断された場合の復帰方法を示している。発声開始位置は、発声内容中のどこから発声を開始するかを示す情報である。通常は、発声内容の先頭、すなわち０に設定されているが、発声が他の発声によって中断された場合には他の値が設定される場合がある。例えば、復帰方法が「中断個所から」に設定されている場合、その発声が他の発声によって中断された場合には、「発声開始位置」に当該中断した位置が設定される。

さらに、音声合成タスク９０６では、発声中の内容を現発声内容バッファ８０２によって管理する。現発声内容バッファ８０２の内容は、発声内容キュー８０１の１エントリとほぼ同等の内容である。現発声内容バッファ８０２の例を図４に示す。図４において、発声終了位置は、音声出力装置２に出力されたデータの終端を示す情報である。

以下、本実施形態の情報処理装置による音声合成タスク９０６の処理を図６のフローチャートを参照して説明する。

まず、ステップＳ１において、他のタスクからのメッセージを取得する。音声合成タスク９０６に送られるメッセージとしては、音声合成を要求する音声合成要求メッセージと、音声出力装置２が所定の分量の音声データを出力し終えた際に送られる音声出力終了メッセージとがある。音声合成要求メッセージには、発声内容等、音声合成タスク９０６が音声合成を行なうのに必要な情報が含まれている。音声合成要求メッセージに含まれている情報の例を図５に示す。

図５において、優先度および復帰方法は、発声内容キュー８０１のエントリと対応した内容である。割り込みは、割り込み発声をするかどうかを示す情報である。割り込みをするに設定されていた場合は、当該メッセージの受信時に他のメッセージを発声中であれば、他のメッセージの発声を中断して当該メッセージ要求による発声内容を発声することになる。タイムアウトは当該メッセージが指定された期間内に発声されなかった場合に、発声をキャンセルするための情報である。優先度の高い発声が大量に要求された場合、優先度の低い発声は発声内容キュー８０１に登録されたまま長時間経過してしまい、情報としての価値が無くなってしまう場合がある。このため、タイムアウトが有用になる。なお、図５ではタイムアウト時刻を記述しているが、タイムアウトまでの時間（例えば、１０分後等）を記述するようにしてもよい。フィードバック方法は、発声終了後に、発声要求元にフィードバックする方法を示す情報である。フィードバック方法としては、メッセージ・共有変数・なし（フィードバックしない）等が考えられる。

ステップＳ２では、ステップＳ１で取得されたメッセージのメッセージタイプ（音声合成要求メッセージか音声出力終了メッセージか）を判定する。音声合成要求メッセージであればステップＳ３に処理を移し、音声出力終了メッセージであればステップＳ１３に処理を移す。

ステップＳ３では、ステップＳ１で取得したメッセージに含まれた情報に基づいて、当該音声合成要求による発声内容の発声内容キュー８０１への挿入位置を決定する。例えば、割り込み発声を行なわない場合、発声内容の挿入位置は、同一優先度を持つ発声内容の最後尾となる。また、例えば、優先度が現在発声中の発声内容と同等以上で、割り込み発声を行なう場合、発声内容の挿入位置は発声内容キュー８０１の最上部となる。ステップＳ４では、ステップＳ３で決定された発声内容キュー８０１の挿入位置に、当該発声内容およびそれに付随する情報（復帰方法等）を挿入する。そして、ステップＳ５において、発声開始位置を発声内容の先頭に初期化する。発声開始位置は、発声内容のうち、どの部分から音声合成するかを指示する情報であり、後述するステップ１８等における合成音声の取得処理に用いられる。

次に、ステップＳ６において、現在、他の発声内容を発声中であるか判定する。他の発声内容を発声中の場合は発声の割り込みを行うか否かを判定するためにステップＳ７に進み、他の発声内容を発声中でない場合は発声内容キューに従って発声処理を進めるべくステップＳ１６に進む。

ステップＳ７では、ステップＳ１で取得したメッセージに含まれた情報に基づいて、当該音声合成要求が割り込み発声を行なうか否かを判定する。優先度が現在発声中の発声内容と同等以上で、割り込み発声を行なうと設定されている場合には割り込み発声を実行すると判定する。割り込み発声を行なう場合には、現在発声中の音声出力を中断するべくステップＳ８に処理を進める。一方、割り込み発声を行わない設定になっておれば、ステップＳ１に処理を戻し、キューの管理下で音声合成が実行されることになる。

ステップＳ７で割り込み発声を実行すると判定された場合、まず、ステップＳ８において現在発声中の音声の出力を中断する。そして、ステップＳ９において、ステップＳ８で中断された発声の復帰方法を発声内容キュー８０１より読み込む。ステップＳ１０において、ステップＳ９で読み込まれた内容が再発声を行なうものであるか判定する。なお、再発声をしない場合、図５の復帰方法において「しない」と記述されるものとし、ステップＳ９の判断はこの記述を参照してなされるものとする。再発声を行なう場合はステップＳ１１に進み再発生のためのキューへの登録処理を行うことになる。再発声を行なわない場合はそのままステップＳ１６以降へ進み割り込み発声を行うことにより、現在発声していた音声内容が破棄される（そのまま発声中止となる）。

ステップＳ１１では、現発声内容バッファ８０２の内容を発声内容キュー８０１に挿入する。挿入位置は、割り込み発声を行なう発声内容の直後になる。そして、ステップＳ１２において、ステップＳ１１で挿入された再発声内容の発声開始位置を設定する。ステップＳ９において読み込まれた復帰方法が「先頭から」であれば、発声開始位置は発声内容の先頭となる。よって、現発声内容の発声開始位置には「０」がセットされる。一方、ステップＳ９において読み込まれた復帰方法が「中断箇所から」であれは、発声開始位置は現発声内容バッファ中に示されている発声開始位置がそのまま発声開始位置となる。以上のようにして割り込まれた（中断された）発声の再発声のための設定を終えると、処理はステップＳ１６に進み、割り込み発声を行なう発声内容の音声合成出力を行なうことになる。ステップＳ１６以降の処理については後述する。

次に、ステップＳ２においてメッセージタイプが音声出力終了であり、ステップＳ１３に処理が進んだ場合について説明する。

ステップＳ１３では、現発声内容バッファ８０２に含まれる発声内容を全て発声し終わったか判定する。現発声内容バッファ８０２に含まれる発声内容を全て発声し終わった場合はステップＳ１４に処理を移し、現発声内容バッファ８０２に含まれる発声内容を全て発声し終わっていない場合はステップＳ１８に処理を移す。

ステップＳ１４では、現発声内容バッファ８０２の内容を消去する。次に、ステップＳ１５において、発声内容キュー８０１が空であるか判定する。発声内容キュー８０１が空でなければステップＳ１６に処理を移し、発声内容キュー８０１が空であればステップＳ１に処理を戻す。

ステップＳ１６では、発声内容キュー８０１から先頭にあるエントリを取り出し、現発声内容バッファ８０２に設定する。なお、取り出されたエントリにタイムアウト時刻（図５）が設定されており、現時刻がタイムアウト時刻を過ぎている場合は、当該エントリをそのまま破棄し、次のエントリを取得する（次のエントリがなければ、すなわち発声内容キューが空になった場合はステップＳ１へ戻る）ことになる。次に、ステップＳ１７において、現発声内容バッファ８０２の発声開始点を発声終了点で更新する。但し、発声内容キュー８０１から取り出した最初の１回目では、発生終了点が存在しないのでステップＳ１７による発声位置の更新は実行しない。すなわち、発声内容キュー８０１に登録された開始位置がそのまま用いられることになる。次に、ステップＳ１８において、現発声内容バッファ８０２の発声開始点から始まる合成音声を所定の分量だけ取得し、ステップＳ１９において、ステップＳ１８で取得した合成音声を音声出力装置２に出力する。ステップＳ１８における合成音声取得処理の詳細は図７のフローチャートにより後述する。出力された音声の終端の位置は、現発声内容バッファ８０２の発声終了点に記録される。よって、次からステップＳ１７の処理を実行した場合、発声位置の更新が行われ、出力された合成音声の続きの合成音声が取得されることになる。ステップＳ１９の処理の後、処理はステップＳ１に戻る。

ここで、音声規則合成の処理について説明する。図７は、本実施形態による音声規則合成処理の一例を示すフローチャートである。まず、ステップＳ１０１において、発声内容が言語解析される。言語解析には、形態素解析・構文解析などの処理が含まれる。次に、ステップＳ１０２において、上記発声内容に読みが付与（読み付け）される。読みの付与には、ステップＳ１０１の結果が用いられる。次に、ステップＳ１０３において、発声内容にアクセントが付与される。アクセント付与には、ステップＳ１０１による言語解析の結果が用いられる。次に、ステップＳ１０４において、上記ステップＳ１０２、Ｓ１０３で付与された読み・アクセントをもとに合成音声の韻律情報が生成される。次に、ステップＳ１０５において、上記各ステップの情報をもとに音声波形が生成される。以上の処理により、音声規則合成が実現される。

ところで、図６の説明で述べたように、ステップＳ１８による合成音声の取得、ステップＳ１９による合成音声の出力は、発声内容の全てを一気に合成・出力するわけではない。すなわち、図７に示した処理は、実際には細分化されて実行される。この細分化をどのように行なうかに関しては任意性がある。

例えば、ステップＳ１０１からステップＳ１０３までを最初に行なっておき、ステップＳ１０４、ステップＳ１０５を逐次行なうことも可能である。あるいは、全ての波形（音声データ）を一気に作成し、作成された音声データと適宜切り分けることも可能である。

＜第２実施形態＞
上記第１実施形態において、復帰方法が「先頭から」、「中断箇所から」という例を示したが、「直前の単語境界から」、「直前の句境界から」という復帰方法も考えられる。これは、図７の説明で述べたように、規則合成の際に言語解析が行なわれ、単語境界・句境界といった情報を取得することができるためである。

また、上記のように復帰方法を単語境界・句境界とした場合、アクセント付けをやり直すことにより、復帰後の音声のアクセントを、修正することも可能である。

また、図５により上述したタイムアウトの情報を利用して、「設定時刻を経過していたら復帰しない」という実装も可能である。

さらに、復帰方法として、「指示無し」という指定をすることも可能である。この場合、任意のタイミングで、ユーザの指示やその他の方法によって復帰方法を選択することになる。

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

第１実施形態における情報処理装置のハードウェア構成例を示したブロック図である。第１実施形態におけるタスク構成を示したブロック図である。第１実施形態における発声内容キューのデータ構成例を示した図である。第１実施形態における現発声内容バッファのデータ構成例を示した図である。第１実施形態1における音声合成要求メッセージに含まれる情報の例を示した図である。実施形態による音声合成タスクの処理を示すフローチャートである。実施形態による音声規則合成処理の例を示すフローチャートである。

Claims

発声内容を取得する取得工程と、
前記取得工程で取得した発声内容に従って音声を合成し出力している際に、発声内容の音声出力が中断された場合に、発声内容毎に音声出力の再開時における復帰方法を表す復帰情報を対応付けて登録している登録情報から、該中断された発声内容に対応付けて登録されている復帰情報を取得し、取得した復帰情報に従って、前記中断された発声内容の音声出力を再開する再開工程とを備えることを特徴とする音声合成方法。
前記再開工程は、前記取得工程で取得された発声内容に従って音声を合成し出力している際に、発声内容の音声出力が他の発声内容の音声出力によって中断された場合に、該中断された発声内容に対応する該発声内容に対応する復帰情報を前記登録情報より取得し、取得した復帰情報に従って、前記中断された発声内容の音声出力を再開することを特徴とする請求項１記載の音声合成方法。
前記発声内容と前記復帰情報を対応付けて、前記登録情報として前記メモリに登録する登録工程を更に備えることを特徴とする請求項１記載の音声合成方法。
前記復帰情報は、発声内容の音声出力の再開時における発声の開始位置の種別を指定するものであり、
前記再開工程は、前記復帰情報に従って前記中断された発声内容の発声開始位置の種別を指定して該発声内容の音声出力を再開することを特徴とする請求項１記載の音声合成方法。
前記復帰情報によって示される発声開始位置の種別は、発声内容の先頭、発声内容の中断位置、発声内容の中断位置の直前の単語境界、発声内容の中断位置の直前の句境界のいずれかであることを特徴とする請求項１記載の音声合成方法。
発声内容を取得する取得手段と、
前記取得手段で取得した発声内容に従って音声を合成し出力している際に、発声内容の音声出力が中断された場合に、発声内容毎に音声出力の再開時における復帰方法を表す復帰情報を対応付けて登録している登録情報から、該中断された発声内容に対応付けて登録されている復帰情報を取得し、取得した復帰情報に従って、前記中断された発声内容の音声出力を再開する再開手段とを備えることを特徴とする音声合成装置。
前記再開手段は、前記取得工程で取得された発声内容に従って音声を合成し出力している際に、発声内容の音声出力が他の発声内容の音声出力によって中断された場合に、該中断された発声内容に対応する該発声内容に対応する復帰情報を前記登録情報より取得し、取得した復帰情報に従って、前記中断された発声内容の音声出力を再開することを特徴とする請求項６記載の音声合成装置。
前記発声内容と前記復帰情報を対応付けて、前記登録情報として前記メモリに登録する登録手段を更に備えることを特徴とする請求項６記載の音声合成装置。
前記復帰情報は、発声内容の音声出力の再開時における発声の開始位置の種別を指定するものであり、
前記再開手段は、前記復帰情報に従って前記中断された発声内容の発声開始位置の種別を指定して該発声内容の音声出力を再開することを特徴とする請求項６記載の音声合成装置。
前記復帰情報によって示される発声開始位置の種別は、発声内容の先頭、発声内容の中断位置、発声内容の中断位置の直前の単語境界、発声内容の中断位置の直前の句境界のいずれかであることを特徴とする請求項６記載の音声合成装置。
請求項１乃至５の何れかに記載の音声合成方法をコンピュータに実行させるための制御プログラム。
請求項１１に記載の制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体。