JP2010066422A

JP2010066422A - 音声合成装置、音声合成方法、及びプログラム

Info

Publication number: JP2010066422A
Application number: JP2008231612A
Authority: JP
Inventors: Minoru Tsuzaki; 実津崎; Shinsuke Sakai; 信輔坂井
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2008-09-10
Filing date: 2008-09-10
Publication date: 2010-03-25
Anticipated expiration: 2028-09-10
Also published as: JP5164041B2

Abstract

【課題】部分的に発話速度を変更することができる音声合成装置を提供する。
【解決手段】コーパスベースの音声合成装置１であって、テキスト情報と当該テキスト情報の一部に対する速度に関する情報である速度情報とが記憶されるテキスト情報記憶部１１と、前記テキスト情報に対応する音素列と、当該音素列の各音素の持続時間に関する情報である持続時間情報を少なくとも含む情報である韻律情報とが記憶される韻律情報記憶部１３と、前記速度情報に応じて前記韻律情報を変更する韻律情報変更部１４と、前記音素列と、韻律情報変更部１４による変更後の韻律情報とを用いて音声信号を生成する音声信号生成部１５と、音声信号生成部１５が生成した音声信号を出力する音声信号出力部１６とを備える。
【選択図】図１

Description

本発明は、コーパスベースの音声合成装置等に関する。

従来の音声合成装置において、発話速度を変換する技術が確立されてきている（例えば、特許文献１参照）。したがって、状況の切迫度などに応じて、発話速度の速い音声を出力することもできる。
特開２００７−２７９９７５号公報

しかしながら、従来の音声合成装置においては、音声の全体について一様に発話速度を変更することしかできなかった。その結果、例えば、発話速度を速くしてしまうことによって、人名や地名、数詞、キーワードなどの正確に聞き取る必要のある部分の聞き取りが阻害されてしまうことがあった。これは人間の聴覚的な特性上避けられないことである。したがって、基本的には発話速度増加の要請と明瞭度の維持は一様な発話速度変換によっては両立し得ない。

一般的に言えば、従来の音声合成装置では、部分的に発話速度を変更することができず、そのため、聞き手にとって聞きやすい発話速度となる音声を出力することが困難であった。

本発明は、上記問題点を解決するためになされたものであり、部分的に発話速度を変更することが可能な音声合成装置等を提供することを目的とする。

上記目的を達成するため、本発明による音声合成装置は、コーパスベースの音声合成装置であって、テキスト情報と、当該テキスト情報の一部に対する速度に関する情報である速度情報とが記憶されるテキスト情報記憶部と、前記テキスト情報に対応する音素列と、当該音素列の各音素の持続時間に関する情報である持続時間情報を少なくとも含む情報である韻律情報とが記憶される韻律情報記憶部と、前記速度情報に応じて前記韻律情報を変更する韻律情報変更部と、前記音素列と、前記韻律情報変更部による変更後の韻律情報とを用いて音声信号を生成する音声信号生成部と、前記音声信号生成部が生成した音声信号を出力する音声信号出力部と、を備えたものである。

このような構成により、速度情報を設定することによって、テキスト情報の一部の速度を他の部分に比べて速くしたり、遅くしたりすることができる。その結果、例えば、テキスト情報の重要な部分は遅いスピードで読み上げられ、重要でない部分は速いスピードで読み上げられるように設定することも可能となる。

また、本発明による音声合成装置では、前記音声信号生成部は、素片接続合成法により音声信号を生成してもよく、ＨＭＭ合成法により音声信号を生成してもよい。
このような構成により、素片接続合成法やＨＭＭ合成法での音声合成を行うことができる。

また、本発明による音声合成装置では、前記テキスト情報から音素列、及び当該音素列に対応する韻律情報を生成し、前記韻律情報記憶部に蓄積する音素列・韻律情報生成部をさらに備えてもよい。

このような構成により、テキスト情報からの音素列、韻律情報の生成、速度情報に応じた韻律情報の変更、音素列、韻律情報を用いた音声信号の生成の一連の処理を音声合成装置において行うことができるようになる。

また、本発明による音声合成装置では、前記韻律情報は、前記音素列の各音素の基本周波数情報を含んでもよく、前記音素列の各音素のパワースペクトル情報を含んでもよい。
このような構成により、基本周波数情報や、パワースペクトル情報を含む韻律情報を用いて、音声合成を行うことができる。

本発明による音声合成装置等によれば、部分的に発話速度を変更することができ、その結果、例えば、聞き手にとって聞きやすい発話速度の音声信号を出力することが可能となりうる。

以下、本発明による音声合成装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による音声合成装置について、図面を参照しながら説明する。本実施の形態による音声合成装置は、部分的に発話速度を変更することができるものである。

図１は、本実施の形態による音声合成装置１の構成を示すブロック図である。本実施の形態による音声合成装置１は、テキスト情報記憶部１１と、音素列・韻律情報生成部１２と、韻律情報記憶部１３と、韻律情報変更部１４と、音声信号生成部１５と、音声信号出力部１６とを備える。

テキスト情報記憶部１１では、テキスト情報と、そのテキスト情報の一部に対する速度に関する情報である速度情報とが記憶される。このテキスト情報は、本実施の形態による音声合成装置１での音声合成の対象となるテキスト情報である。また、速度情報は、速度に関する情報であれば、例えば、「速い」「遅い」等の情報であってもよく、「２倍」「０．５倍」等の情報であってもよく、あるテキストの読み上げ時間を示す情報（例えば、「１０時３０分」を５秒で読み上げる旨の情報）であってもよく、キーワードの読み上げスピードを他のキーワードでないテキストよりも遅くするというルールがある場合には、どのテキストがキーワードであるのかを示す情報であってもよい。また、速度情報は、テキスト情報全体に対する速度に関する情報を含んでいてもよい。速度情報は、テキスト情報のどの部分に対する速度に関する情報であるのかが明らかになるように記述されることが好適である。速度情報は、例えば、ＸＭＬ等のマークアップ言語を用いて記述されてもよく、あるいは、その他の方法によって記述されてもよい。

テキスト情報記憶部１１にテキスト情報や速度情報が記憶される過程は問わない。例えば、記録媒体を介してテキスト情報や速度情報がテキスト情報記憶部１１で記憶されるようになってもよく、通信回線等を介して送信されたテキスト情報や速度情報がテキスト情報記憶部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたテキスト情報や速度情報がテキスト情報記憶部１１で記憶されるようになってもよい。テキスト情報記憶部１１での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。テキスト情報記憶部１１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

音素列・韻律情報生成部１２は、テキスト情報記憶部１１で記憶されているテキスト情報から音素列、及びその音素列に対応する韻律情報を生成し、韻律情報記憶部１３に蓄積する。音素列・韻律情報生成部１２は、例えば、テキスト情報に対して形態素解析や漢字カナ変換、アクセント処理等を行い、さらに、それらを元にして韻律情報を生成する。韻律情報は、テキスト情報に対応する音素列の各音素の持続時間に関する情報である持続時間情報を少なくもと含んでいる。持続時間情報は、結果として各音素の持続時間が分かるのであれば、どのような情報であってもよい。持続時間情報は、例えば、持続時間そのものを示す情報であってもよく、各音素の開始時刻を示すものであってもよく（この場合には、ある音素の開始時刻と、その音素に後続する次の音素の開始時刻とを用いることによって持続時間を算出することができる）、あるいは、各音素の開始時刻と終了時刻とを示すものであってもよい（この場合には、ある音素の開始時刻と終了時刻とを用いることによって持続時間を算出することができる）。また、韻律情報には、音素列の各音素の基本周波数情報が含まれてもよく、音素列の各音素のパワースペクトル情報が含まれてもよい。パワースペクトル情報は、例えば、音韻性を示す情報である２５次元のケプストラム情報であってもよい。ケプストラム情報は、メルケプストラム情報であってもよい。韻律情報に含まれる全部の情報、あるいは、一部の情報は、フレーム単位の情報であってもよい。例えば、韻律情報に含まれる基本周波数情報と、パワースペクトル情報は、５ｍｓごとのフレーム単位の情報であってもよい。この場合であっても、先頭からのフレーム数をカウントすることによって、各フレームがどの音素に対応しているのかを知ることができうる。音素列・韻律情報生成部１２は、韻律モデルを用いて音素列や、韻律情報を生成してもよい。その韻律モデルを学習するために用いられる音声コーパスは、例えば、後述する音声信号生成部１５が素片接続合成法により音声信号を生成する際に用いる音声コーパスや、音声信号生成部１５がＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，隠れマルコフモデル）合成法により音声信号を生成する際に用いるモデルの学習で用いられた音声コーパスと同じものであってもよく、あるいは、異なっていてもよい。なお、テキスト情報から音素列と、韻律情報とを生成する方法はすでに公知であり、その詳細な説明を省略する。

韻律情報記憶部１３では、音素列・韻律情報生成部１２が生成した、テキスト情報に対応する音素列と、その音素列の各音素に対応する韻律情報とが記憶される。韻律情報記憶部１３での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。韻律情報記憶部１３は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

韻律情報変更部１４は、テキスト情報記憶部１１で記憶されている速度情報に応じて、韻律情報記憶部１３で記憶されている韻律情報を変更する。この変更によって、速度情報で示される速度となるように韻律情報が変更されることになる。なお、例えば、テキスト情報記憶部１１に記憶されているテキスト情報及び速度情報が、ＸＭＬ等のタグ付きテキストで記述されている場合には、韻律情報変更部１４は、タグ解釈を行い、速度を変更しない部分と、速度を変更する部分とを特定し、また、速度を変更する箇所についてはどれぐらい速度を変更するのかを特定してもよい。韻律情報に含まれる持続時間情報が、各音素の開始時刻を示す場合であって、速度情報によって一部のテキストに対応する速度を速くすることが示される場合には、韻律情報変更部１４は、その一部のテキストの読み上げ速度が速くなるように、その一部のテキストに対応する各音素の開始時刻を変更する処理を行う。なお、その開始時刻の変更に伴って、速度が変更されない音素の開始時刻がずらされることもある。

また、韻律情報に含まれる基本周波数情報等がフレーム単位の情報である場合には、各フレームの基本周波数情報等について補間処理を行い、その補間後の波形における速度の変更対象となる区間について速度の変更に応じた伸縮を行った後に、元のフレームレートで再サンプリングを行うことによって、速度情報に応じた変更を行うことができる。この処理は、速度の変更対象となる区間についてのみ行ってもよく、あるいは、全体について行ってもよい。後者の場合には、速度の変更対象となる区間と、そうでない区間との間で生じうる誤差をなくすことができうる。なお、結果として同様のことを行うのであれば、異なる方法によって行ってもよい。例えば、補間処理を行った後に、速度の変更対象となる区間については、変更後の速度に合わせて変更したレートでサンプリングを行うようにしてもよい。なお、このようなサンプリングレートを変換する処理は、例えば、ＭＡＴＬＡＢ（登録商標）などのソフトウェアを用いて容易に行うことができる。

また、音素列には、ポーズが含まれており、韻律情報にポーズに対応する持続時間情報も含まれている場合に、韻律情報変更部１４は、ポーズに対応する持続時間情報を変更してもよく、しなくてもよい。後者の場合には、ポーズの持続時間については、あらかじめ音素列・韻律情報生成部１２が生成した長さのままにすることができる。

音声信号生成部１５は、音素列と、韻律情報変更部１４による変更後の韻律情報とを用いて音声信号を生成する。なお、音声信号生成部１５は、コーパスベースの音声合成を行うものである。音声信号生成部１５は、素片接続合成法により音声信号を生成してもよく、あるいは、ＨＭＭ合成法により音声信号を生成してもよい。なお、素片接続合成法による音声合成では、音声コーパスから抽出された音声素片であって、韻律情報に適合した音声素片をつなげることによって音声合成が行われる。音声合成の方法が素片接続合成法である場合には、韻律情報に含まれる持続時間情報がマークファイルと呼ばれ、基本周波数情報がＦ０ファイルと呼ばれ、パワースペクトル情報がケプストラムファイルと呼ばれることがある。また、ＨＭＭ合成法による音声合成では、音声コーパスからモデルが学習され、その学習されたモデルを用いて音声合成が行われる。音声合成の方法がＨＭＭ合成法である場合には、韻律情報に含まれる持続時間情報がフルコンテキストラベルファイルと呼ばれることがある。なお、音素列と韻律情報を用いて音声合成を行う方法はすでに公知であり、その詳細な説明を省略する。例えば、素片接続合成法を用いた音声合成システムとしては、ＡＴＲが開発したＸＩＭＥＲＡが知られている。また、ＨＭＭ合成法を用いた音声合成システムとしては、ＨＴＳ（ｈｔｔｐ：／／ｈｔｓ．ｓｐ．ｎｉｔｅｃｈ．ａｃ．ｊｐ／）が知られている。

音声信号出力部１６は、音声信号生成部１５が生成した音声信号を出力する。ここで、この出力は、例えば、所定の機器への通信回線を介した送信でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、音声信号出力部１６は、出力を行うデバイス（例えば、通信デバイスやスピーカなど）を含んでもよく、あるいは含まなくてもよい。また、音声信号出力部１６は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、テキスト情報記憶部１１と、韻律情報記憶部１３とは、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、テキスト情報等を記憶している領域がテキスト情報記憶部１１となり、韻律情報等を記憶している領域が韻律情報記憶部１３となる。

また、テキスト情報記憶部１１において、テキスト情報と、速度情報とは、同一の記録媒体に記憶されてもよく、あるいは、別々の記録媒体に記憶されてもよい。また、韻律情報記憶部１３において、音素列と、韻律情報とは、同一の記録媒体に記憶されてもよく、あるいは、別々の記録媒体に記憶されてもよい。

次に、本実施の形態による音声合成装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）音素列・韻律情報生成部１２は、音声合成の一連の処理を開始するかどうか判断する。そして、音声合成の一連の処理を開始する場合には、ステップＳ１０２に進み、そうでない場合には、処理を開始すると判断するまでステップＳ１０１の処理を繰り返して実行する。音素列・韻律情報生成部１２は、例えば、音声合成の一連の処理を開始する旨の指示を受け付けた場合に、その処理を開始すると判断してもよく、あるいは、テキスト情報記憶部１１に新たなテキスト情報と速度情報とが蓄積されたタイミングで、音声合成の一連の処理を開始すると判断してもよく、その他のタイミングで、音声合成の一連の処理を開始すると判断してもよい。

（ステップＳ１０２）音素列・韻律情報生成部１２は、テキスト情報記憶部１１で記憶されているテキスト情報を読み出し、そのテキスト情報に対して形態素解析等を行うことによって音素列を生成し、また、その音素列の各音素に対応する韻律情報を生成する。そして、音素列・韻律情報生成部１２は、生成した音素列と、韻律情報とを韻律情報記憶部１３に蓄積する。

（ステップＳ１０３）韻律情報変更部１４は、テキスト情報記憶部１１で記憶されている速度情報を用いて、韻律情報記憶部１３で記憶されている韻律情報を変更する。この処理によって、韻律情報で示される各音素の長さが、速度情報に対応したものとなる。この処理の詳細については図３のフローチャートを用いて後述する。

（ステップＳ１０４）音声信号生成部１５は、韻律情報記憶部１３で記憶されている音素列と韻律情報とを用いて音声信号を生成する。

（ステップＳ１０５）音声信号出力部１６は、音声信号生成部１５が生成した音声信号を出力する。そして、ステップＳ１０１に戻る。
なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

図３は、図２のフローチャートにおける韻律情報の変更（ステップＳ１０３）の処理の詳細を示すフローチャートである。

（ステップＳ２０１）韻律情報変更部１４は、テキスト情報記憶部１１で記憶されている速度情報を参照し、韻律情報記憶部１３で記憶されている音素列のうち、速度を変更する音素を特定する。韻律情報変更部１４は、例えば、速度情報を用いて速度を変更する対象となるテキストの部分を特定し、そのテキストの部分に対応する音素列の部分を特定することによって、速度を変更する音素の特定を行ってもよい。また、音素を特定するとは、例えば、特定対象となる音素にフラグを設定することであってもよく、特定対象となる音素を識別する情報を記録媒体に蓄積することであってもよい。ここで、例えば、テキスト情報記憶部１１に記憶されているテキスト情報及び速度情報が、ＸＭＬ等のタグ付きテキストで記述されている場合には、韻律情報変更部１４は、タグ解釈を行うことによって、速度を変更する対象となるテキストの部分を特定してもよい。

（ステップＳ２０２）韻律情報変更部１４は、カウンタｉを１に設定する。

（ステップＳ２０３）韻律情報変更部１４は、ｉ番目の音素が、速度を変更する音素であるかどうか判断する。すなわち、韻律情報変更部１４は、ｉ番目の音素がステップＳ２０１で特定された音素であるかどうか判断する。そして、速度を変更する音素である場合、すなわち、ステップＳ２０１で特定された音素である場合には、ステップＳ２０４に進み、そうでない場合には、ステップＳ２０５に進む。

（ステップＳ２０４）韻律情報変更部１４は、ｉ番目の音素に対応する韻律情報を、その音素の速度が速度情報に対応するものとなるように変更する。例えば、韻律情報に含まれる持続時間情報が持続時間そのものを示す場合には、韻律情報変更部１４は、ｉ番目の音素に対応する持続時間情報を変更する。速度情報によって速度をＡ倍にすることが示されている場合には、韻律情報変更部１４は、その持続時間情報を１／Ａ倍にする。また、例えば、韻律情報に含まれる持続時間情報が開始時刻を示す場合には、韻律情報変更部１４は、（ｉ＋１）番目の音素に対応する持続時間情報（開始時刻）を変更する。速度情報によって速度をＡ倍にすることが示されている場合には、韻律情報変更部１４は、ｉ番目の音素の開始時刻と、（ｉ＋１）番目の音素の開始時刻との差が１／Ａ倍となるように、（ｉ＋１）番目の音素の開始時刻を変更する。なお、この場合には、（ｉ＋１）番目の開始時刻の変更に伴って、後続する（ｉ＋２）番目以降の音素の開始時刻もずれることになる（これらは単なる平行移動である）。したがって、韻律情報変更部１４は、後続する（ｉ＋２）番目以降の音素の開始時刻も、順次変更する。持続時間情報に終了時刻が含まれる場合にも、同様にして終了時刻の変更を行うことができる。また、速度情報が読み上げ時間を示す情報である場合には、韻律情報変更部１４は、例えば、韻律情報に含まれる持続時間情報を用いて、速度の変更対象となるテキストの領域の読み上げ時間を算出し、その算出した読み上げ時間が速度情報の示す読み上げ時間となるために、持続時間を何倍にしなければならないかを算出し、その算出した倍率を用いて、上述のようにして韻律情報を変更する処理を行ってもよい。

（ステップＳ２０５）韻律情報変更部１４は、カウンタｉを１だけインクリメントする。

（ステップＳ２０６）韻律情報変更部１４は、韻律情報記憶部１３でｉ番目の音素が記憶されているかどうか判断する。そして、記憶されている場合には、ステップＳ２０３に戻り、そうでない場合には、図２のフローチャートに戻る。

なお、図３のフローチャートでは、持続時間情報の変更についてのみ説明したが、前述のように、韻律情報に所定のフレームレートでサンプリングされた基本周波数情報等が含まれる場合には、それらの情報についても順次変更する必要がある。したがって、図４を用いて、その方法について簡単に説明する。

図４は、所定のフレームレートでサンプリングされた情報（以下の説明では、「変更対象情報」とする。変更対象情報は、例えば、基本周波数情報やパワースペクトル情報である）に対する速度情報に応じた変更処理を示すフローチャートである。

（ステップＳ３０１）韻律情報変更部１４は、テキスト情報記憶部１１で記憶されている速度情報を参照し、韻律情報記憶部１３で記憶されている変更対象情報のうち、速度を変更するフレームを特定する。韻律情報変更部１４は、例えば、ステップＳ２０１と同様にして速度を変更する音素を特定し、その音素に対応するフレームを特定することによって、変更対象となるフレームを特定してもよい。

（ステップＳ３０２）韻律情報変更部１４は、変更対象情報の補間を行う。この補間については、線形補間やスプライン補間など各種の方法が知られており、それらの各種の補間方法を用いることができうる。

（ステップＳ３０３）韻律情報変更部１４は、ステップＳ３０１で特定したフレームに対応する補間後の変更対象情報の領域を、速度情報に応じて伸縮する。その結果、変更対象情報の長さが、速度情報に対応したものとなる。

（ステップＳ３０４）韻律情報変更部１４は、伸縮後の変更対象情報をあらかじめ決められているフレームレートで再サンプリングする。そして、この再サンプリング後の情報を、変更後の変更対象情報とする。

なお、変更対象情報のうち、全体の先頭のフレームと、速度を変更する対象となる先頭のフレームとの間は、ステップＳ３０２〜Ｓ３０４の処理を行っても変更されないため、それらのフレームについては、ステップＳ３０２〜Ｓ３０４の処理を行わなくてもよい。

また、前述のように、ステップＳ３０３，Ｓ３０４の処理は、速度を変更するフレームについてのみ変更後の速度に対応したフレームレートで再サンプリングする処理と同じになる。したがって、ステップＳ３０３，Ｓ３０４の処理に代えて、そのような処理を行うようにしてもよい。このように、結果としてステップＳ３０２〜Ｓ３０４と同様の処理、すなわち、フレームレートを変更する処理を行うことができるのであれば、ステップＳ３０２〜Ｓ３０４の処理に代えて、その処理を行うようにしてもよい。

韻律情報に所定のフレームレートでサンプリングされた基本周波数情報等が含まれる場合には、韻律情報変更部１４は、図３で示される一連の処理と共に、図４で示される一連の処理を行うことによって、その基本周波数等の情報についても速度情報に応じた変更の処理を行ってもよい。なお、図３で示される一連の処理と、図４で示される一連の処理とを実行する順序は問わない。一方、韻律情報に所定のフレームレートでサンプリングされた基本周波数情報等が含まれない場合には、韻律情報変更部１４は、図３で示される一連の処理のみを行えばよいことになる。

次に、本実施の形態による音声合成装置１の動作について、具体例を用いて説明する。
この具体例では、素片接続合成法により音声合成を行う場合について説明する。この具体例において、テキスト情報記憶部１１では、図５で示されるテキスト情報と、速度情報とが記憶されているものとする。図５中のタグが速度情報である。「ｆａｓｔ」タグによって、「次の東京行きのぞみ１００号は１０時３０分に８番線から発車の予定です」の全体の話速を速くすることが示されている。また、「ｋｅｙｗｏｒｄ」タグによって、「１０時３０分に」の部分がキーワードであることが示されている。この具体例では、話速を速くする場合には話速を２倍にする、と決まっているものとする。また、この具体例では、キーワードの部分の話速を変化させないと決まっているものとする。

まず、ユーザがキーボードやマウス等の入力デバイスを操作することによって、音声合成の処理を開始する指示を入力したとする。すると、音素列・韻律情報生成部１２は、音声合成を開始すると判断し（ステップＳ１０１）、音素列と、その音素列に対応した韻律情報を生成し、それらを韻律情報記憶部１３に蓄積する（ステップＳ１０２）。図６は、韻律情報記憶部１３に蓄積された音素列と、韻律情報に含まれる持続時間情報である開始時間との対応を示す図である。図６で示されるように、各音素に、持続時間情報である開始時間が対応付けられている。例えば、音素「ｔｓ」は、０．１０５秒から開始されることが分かる。保護フラグについては後述する。なお、音素「ｓｉｌ」は、空白に対応する音素であり、音素「ｐａｕ」は、ポーズに対応する音素である。また、基本周波数情報や、パワースペクトル情報であるケプストラム情報も韻律情報記憶部１３で記憶されているものとする。

次に、韻律情報変更部１４は、テキスト情報記憶部１１で記憶されている速度情報を用いて、韻律情報を変更する（ステップＳ１０３）。具体的には、韻律情報変更部１４は、図５のテキスト情報と速度情報とを参照し、タグ解釈を行うことによって、文の全体を２倍の速度にするが、「１０時３０分に」の部分は速度を変更しない旨を解釈する。そして、その速度を変更しない「１０時３０分に」に対応する音素列「ｊｕｕｊｉｓａＮｊｕＱｐｕＮｎｉ」の各音素に対応付けて図７で示されるように保護フラグ「＊」を設定する（ステップＳ２０１）。この保護フラグは、速度を変更しないことを示すフラグである。したがって、保護フラグの設定されていない各音素が、速度を変更する音素となる。

その後、韻律情報変更部１４は、１番目の音素「ｓｉｌ」が変更対象であると判断し（ステップＳ２０２，Ｓ２０３）、その音素「ｓｉｌ」の開始時刻「０」と、２番目の音素「ｔｓ」の開始時刻「０．１０５」との差「０．１０５」が１／２の「０．０５２５」となるように、２番目の音素「ｔｓ」の開始時刻を「０．０５２５」に変更する。また、それに応じて、後続する３番目の音素「ｕ」以降の各音素の開始時刻を、「０．０５２５」だけ減少させる（ステップＳ２０４）。

韻律情報変更部１４は、次に２番目の音素「ｔｓ」が変更対象であると判断し（ステップＳ２０５，Ｓ２０６，Ｓ２０３）、その音素「ｔｓ」の開始時刻「０．０５２５」と、３番目の音素「ｕ」の開始時刻「０．１２７５」との差「０．０７５」が１／２の「０．０３７５」となるように、３番目の音素「ｕ」の開始時刻を「０．０９」に変更する。また、それに応じて、後続する４番目の音素「ｇ」以降の各音素の開始時刻を、「０．０３７５」だけ減少させる（ステップＳ２０４）。

このような処理を順次繰り返すことによって、各音素に対応する開始時刻を変更する。ただし、「１０時３０分に」に対応する音素列「ｊｕｕｊｉｓａＮｊｕＱｐｕＮｎｉ」の各音素、すなわち、保護フラグ「＊」の設定されている各音素については、その変更の処理を行わない（ステップＳ２０３）。図８は、その処理の後の開始時刻と音素との対応を示す図である。図８において、開始時刻は、小数点以下３桁までを示している（４桁目を落としている）。

韻律情報変更部１４は、また、基本周波数情報についても速度情報に応じた変更を行う。具体的には、韻律情報変更部１４は、「１０時３０分に」の音素列「ｊｕｕｊｉｓａＮｊｕＱｐｕＮｎｉ」に対応する基本周波数情報のフレームを特定する（ステップＳ３０１）。その特定は、図７と同様に、保護フラグを各フレームに設定することによって行ってもよい。そして、韻律情報変更部１４は、基本周波数情報の先頭から後端までの補間を行う（ステップＳ３０２）。その後、韻律情報変更部１４は、「１０時３０分に」の音素列「ｊｕｕｊｉｓａＮｊｕＱｐｕＮｎｉ」に対応するフレームでないフレームに対応する領域の基本周波数情報を、時間軸方向に１／２に圧縮し（ステップＳ３０３）、元のフレームレートで再サンプリングする（ステップＳ３０４）。その結果、例えば、図９で示されるように、変更後の基本周波数情報（図９の右側）は、変更前の基本周波数情報（図９の左側）の各フレームを１個おきに間引いたものとなる。

なお、韻律情報変更部１４は、ケプストラム情報についても、基本周波数情報と同様にして速度情報に応じた変更を行うものとする（ステップＳ３０１〜Ｓ３０４）。

次に、音声信号生成部１５は、音素列と、変更後の韻律情報とを用いて音声合成を行い（ステップＳ１０４）、音声信号出力部１６は、その音声合成された音声信号を音声出力する（ステップＳ１０５）。その結果、図１０で示されるように、ユーザは、「１０時３０分に」は、通常の長さであるが、「次の東京行きのぞみ１００号は」と、「８番線から発車の予定です」は、通常の半分の長さに圧縮された音声を聞くことになる。したがって、全体の音声の長さを短くすることができると共に、重要であると考えられる「１０時３０分に」は、より正確に聞くことができるようにすることができうる。

図１１は、「次の東京行きのぞみ１００号は１０時３０分に８番線から発車の予定です」に対応する、速度情報に応じた変更を行っていない通常の音声信号と、速度情報に応じた変更を行った変更後の音声信号とを比較するための波形図である。図１１において、実線が通常の音声信号を示しており、破線が変更後の音声信号を示している。なお、真ん中のあたりでは、両音声信号が重なっているが、その領域が「１０時３０分に」に対応する領域である。

この具体例では、素片接続合成法により音声合成を行う場合について説明したが、ＨＭＭ合成法により音声合成を行う場合にも、同様にして速度情報に応じた変更を行うことができる。図１２は、ＨＭＭ合成法の場合における韻律情報の一例を示すものである。図１２で示される韻律情報は、フルコンテキストラベルファイルと呼ばれるものの一部であり、各音素の開始時刻と、終了時刻、音素、品詞情報等が対応付けられている。音素のフィールドでは、音素が次のようにして示されている。

（２個前の音素）＾（１個前の音素）−（注目している音素）＋（１個後の音素）＝（２個後の音素）

したがって、例えば、３番目のレコードの音素のフィールドでは、２個前の音素が「ｓｉｌ」であり、１個前の音素が「ｔｓ」であり、３番目のレコードに対応する音素が「ｕ」であり、１個後の音素が「ｇ」であり、２個後の音素が「ｉ」であることが示されている。

また、品詞情報等のフィールドでは、品詞情報、フレーズ内での位置、単語内での位置、単語の音節数などの情報が含まれている。このように、韻律情報には、持続時間情報や、基本周波数情報、パワースペクトル情報以外に、品詞や活用形、活用型に関する情報、先行する音素や後続する音素、音素のアクセント句内でのモーラ位置等の情報が含まれていてもよい。

韻律情報変更部１４が図１２で示される情報を変更する場合にも、図３のフローチャートを用いて説明した処理を実行することによって、開始時刻や終了時刻を変更することができ、速度情報に応じた変更を実現することができる。

以上のように、本実施の形態による音声合成装置１によれば、韻律情報変更部１４が速度情報に応じて韻律情報を変更するため、テキスト情報の一部を、ユーザ等が指定した速度情報に対応する速度で読み上げることができるようになる。その結果、例えば、通常と同じ内容のテキストについては速いスピードで読み上げ、通常と異なる内容のテキストについては遅いスピードで読み上げるようにすることができる。そのため、通常と異なる内容について聞き逃すことを防止することができうる。具体的には、音声による自動観光案内や、博物館、美術館、展示会場などにおける出展物の解説、駅や公共機関における放送などの際に、地名や人名、時刻などの情報については遅いスピードで読み上げるように設定することで、それらの情報の聞き逃しを回避することが期待できる。また、家庭用ゲーム機や家庭電化製品の使用法を音声で説明する場合に、利用の回数に応じていつもと同じ内容については速いスピードで読み上げ、そうでない内容、すなわち、新規な内容については遅いスピードで読み上げるようにしてもよい。この場合には、例えば、出力された音声信号に対応するテキスト情報の履歴を保持しておき、あらかじめ決められた回数以上出力されている音声信号に対応するテキスト情報の部分については、他の部分に比べて速いスピードで読み上げられるように速度情報を変更する速度情報変更部（図示せず）を備えてもよい。なお、結果として、あらかじめ決められた回数以上出力されている音声信号に対応するテキスト情報の部分が、他の部分に比べて速いスピードで読み上げられるのであれば、速度情報の設定は問わない。例えば、速く読み上げるテキスト情報の部分について、速く読み上げる旨の速度情報を設定してもよく、あるいは、遅く読み上げるテキスト情報の部分について、遅く読み上げる旨の速度情報を設定してもよい。

なお、本実施の形態では、音声合成装置１において、テキスト情報から音素列と、韻律情報とを生成する場合について説明したが、そうでなくてもよい。例えば、音声合成装置１以外の装置において音素列と韻律情報とが生成され、その音素列等の情報が韻律情報記憶部１３で記憶されるようになってもよい。その場合には、音声合成装置１は、音素列・韻律情報生成部１２を備えていなくてもよい。また、その場合には、韻律情報記憶部１３に音素列等が記憶される過程は問わない。例えば、記録媒体を介して音素列等が韻律情報記憶部１３で記憶されるようになってもよく、あるいは、通信回線等を介して送信された音素列等が韻律情報記憶部１３で記憶されるようになってもよい。

また、上記実施の形態では、音声合成装置１がスタンドアロンである場合について説明したが、音声合成装置１は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部は、通信回線を介して情報を出力してもよい。

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記実施の形態において、音声合成装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音声合成装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コーパスベースの音声合成装置としてコンピュータを機能させるためのプログラムであって、コンピュータを、テキスト情報と当該テキスト情報の一部に対する速度に関する情報である速度情報とが記憶されるテキスト情報記憶部で記憶される前記速度情報に応じて、前記テキスト情報に対応する音素列と当該音素列の各音素の持続時間に関する情報である持続時間情報を少なくとも含む情報である韻律情報とが記憶される韻律情報記憶部で記憶される前記韻律情報を変更する韻律情報変更部、前記音素列と、前記韻律情報変更部による変更後の韻律情報とを用いて音声信号を生成する音声信号生成部、前記音声信号生成部が生成した音声信号を出力する音声信号出力部、として機能させるためのものである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１３は、上記プログラムを実行して、上記実施の形態による音声合成装置１を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図１３において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）ドライブ９０６を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図１４は、コンピュータシステム９００の内部構成を示す図である。図１４において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５、ＦＤドライブ９０６に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記実施の形態による音声合成装置１の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１、またはＦＤ９２２に記憶されて、ＣＤ−ＲＯＭドライブ９０５、またはＦＤドライブ９０６に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１やＦＤ９２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記実施の形態による音声合成装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による音声合成装置等によれば、部分的に発話速度を変更することができるという効果が得られ、例えば、自動観光案内や、博物館、美術館、展示会場などにおける出展物の解説、駅や公共機関における放送などの音声合成システム等において有用である。

本発明の実施の形態１による音声合成装置の構成を示すブロック図同実施の形態による音声合成装置の動作を示すフローチャート同実施の形態による音声合成装置の動作を示すフローチャート同実施の形態による音声合成装置の動作を示すフローチャート同実施の形態におけるテキスト情報と速度情報との一例を示す図同実施の形態における音素列と韻律情報の一例を示す図同実施の形態における音素列と韻律情報の一例を示す図同実施の形態における音素列と韻律情報の一例を示す図同実施の形態における韻律情報の一例を示す図同実施の形態における韻律情報の変更について説明するための図同実施の形態における韻律情報の変更の前後の音声信号の一例を示す図同実施の形態における音素列と韻律情報の一例を示す図同実施の形態におけるコンピュータシステムの外観の一例を示す模式図同実施の形態におけるコンピュータシステムの構成の一例を示す図

符号の説明

１音声合成装置
１１テキスト情報記憶部
１２韻律情報生成部
１３韻律情報記憶部
１４韻律情報変更部
１５音声信号生成部
１６音声信号出力部

Claims

コーパスベースの音声合成装置であって、
テキスト情報と、当該テキスト情報の一部に対する速度に関する情報である速度情報とが記憶されるテキスト情報記憶部と、
前記テキスト情報に対応する音素列と、当該音素列の各音素の持続時間に関する情報である持続時間情報を少なくとも含む情報である韻律情報とが記憶される韻律情報記憶部と、
前記速度情報に応じて前記韻律情報を変更する韻律情報変更部と、
前記音素列と、前記韻律情報変更部による変更後の韻律情報とを用いて音声信号を生成する音声信号生成部と、
前記音声信号生成部が生成した音声信号を出力する音声信号出力部と、を備えた音声合成装置。
前記音声信号生成部は、素片接続合成法により音声信号を生成する、請求項１記載の音声合成装置。
前記音声信号生成部は、ＨＭＭ合成法により音声信号を生成する、請求項１記載の音声合成装置。
前記音素列には、ポーズが含まれており、
前記韻律情報には、前記ポーズに対応する持続時間情報も含まれており、
前記韻律情報変更部は、ポーズに対応する持続時間情報を変更しない、請求項１から請求項３のいずれか記載の音声合成装置。
前記テキスト情報から音素列、及び当該音素列に対応する韻律情報を生成し、前記韻律情報記憶部に蓄積する音素列・韻律情報生成部をさらに備えた、請求項１から請求項４のいずれか記載の音声合成装置。
前記韻律情報は、前記音素列の各音素の基本周波数情報を含む、請求項１から請求項５のいずれか記載の音声合成装置。
前記韻律情報は、前記音素列の各音素のパワースペクトル情報を含む、請求項１から請求項６のいずれか記載の音声合成装置。
コーパスベースの音声合成方法であって、
テキスト情報と当該テキスト情報の一部に対する速度に関する情報である速度情報とが記憶されるテキスト情報記憶部で記憶されている前記速度情報に応じて、前記テキスト情報に対応する音素列と当該音素列の各音素の持続時間に関する情報である持続時間情報を少なくとも含む情報である韻律情報とが記憶される韻律情報記憶部で記憶されている前記韻律情報を変更する韻律情報変更ステップと、
前記音素列と、前記韻律情報変更ステップでの変更後の韻律情報とを用いて音声信号を生成する音声信号生成ステップと、
前記音声信号生成ステップで生成した音声信号を出力する音声信号出力ステップと、を備えた音声合成方法。
コーパスベースの音声合成装置としてコンピュータを機能させるためのプログラムであって、
コンピュータを、
テキスト情報と当該テキスト情報の一部に対する速度に関する情報である速度情報とが記憶されるテキスト情報記憶部で記憶される前記速度情報に応じて、前記テキスト情報に対応する音素列と当該音素列の各音素の持続時間に関する情報である持続時間情報を少なくとも含む情報である韻律情報とが記憶される韻律情報記憶部で記憶される前記韻律情報を変更する韻律情報変更部、
前記音素列と、前記韻律情報変更部による変更後の韻律情報とを用いて音声信号を生成する音声信号生成部、
前記音声信号生成部が生成した音声信号を出力する音声信号出力部、として機能させるためのプログラム。