JP3728172B2

JP3728172B2 - 音声合成方法および装置

Info

Publication number: JP3728172B2
Application number: JP2000099422A
Authority: JP
Inventors: 雅章山田; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2005-12-21
Anticipated expiration: 2020-03-31
Also published as: JP2001282275A; US20010047259A1; US6980955B2; US7054815B2; US20010037202A1

Description

【０００１】
【発明の属する技術分野】
本発明は、高品質な合成音声を得るための音声合成方法および装置に関するものである。
【０００２】
【従来の技術】
所望の合成音声を得るための音声合成方法には、音素やＣＶ・ＶＣあるいはＶＣＶ等の音韻を単位とした音声素片を編集、接続して合成音声を生成する方法が知られている。なお、ＣＶ・ＶＣは音素内に素片境界を置いた単位、ＶＣＶは母音内に素片境界を置いた単位である。
【０００３】
【発明が解決しようとする課題】
図９は、１音声素片の継続時間長や基本周波数を変更する方法の一例を模式的に示した図である。図９の上段に示す１音声素片の音声波形は、中段に示す複数個の窓関数によって複数個の微細素片に分割される。このとき、有声音部（音声波形の後半部にある有声音の領域）では、原音声のピッチ間隔に同期した時間幅を有する窓関数を用いる。一方、無声音部（音声波形の前半部にある無声音の領域）では、適当な時間幅（一般には、有声音部の窓関数よりも長い時間幅を有する）の窓関数を用いる。
【０００４】
このようにして得た複数個の微細素片を繰り返したり、間引いたり、間隔を変更したりすることによって、合成音声の継続時間長や基本周波数を変更することができる。例えば、合成音声の継続時間長を短縮する場合には、微細素片を間引けばよく、合成音声の継続時間長を伸長する場合には、微細素片を繰り返せばよい。また、合成音声の基本周波数を上げる場合には、有声音部の微細素片の間隔を詰めればよく、合成音声の基本周波数を下げる場合には、有声音部の微細素片の間隔を広げればよい。このような繰り返し、間引き、間隔変更を施して得た複数個の微細素片を重畳することにより、所望の継続時間長、基本周波数を有する合成音声を得ることができる。
【０００５】
しかしながら、音声には定常的な部分と非定常的な部分とがあり、非定常的な部分（特に、波形形状が急激に変化する有声音部と無声音部の境界付近）に対して上述のような波形編集操作（即ち、微細素片の繰り返し、間引き、間隔変更）を行うと、合成音声のなまけや異音の原因となり、合成音声を劣化させてしまうという問題がある。
【０００６】
本発明は上記の問題に鑑みてなされたものであり、波形編集操作によって生じる合成音声の劣化を防止することを目的とする。
【０００７】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による音声合成方法は例えば以下の構成を備える。即ち、
音声波形から複数の微細素片を取得する工程と、
間隔変更処理を禁止するべき微細素片を示す間隔変更禁止情報を保持した記憶手段から間隔変更禁止情報を取得する工程と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する工程とを備える。そして、前記韻律を制御する工程において、前記間隔変更禁止情報によって示された微細素片に対しては前記間隔変更処理が禁止される。
【０００８】
また、上記の目的を達成するための本発明の他の態様による音声合成装置は例えば以下の構成を備える。即ち、
音声波形から複数の微細素片を取得する手段と、
間隔変更処理を禁止するべき微細素片を示す間隔変更禁止情報を保持した記憶手段から間隔変更禁止情報を取得する手段と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する手段とを備える。そして、前記韻律を制御する手段は、前記間隔変更禁止情報によって示された微細素片に対しては前記間隔変更処理を禁止する。
【０００９】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【００１０】
図１は本実施形態による音声合成装置のハードウェア構成を示すブロック図である。図１において、１１は数値演算・制御等の処理を行なう中央処理装置であり、図２のフローチャートで後述する制御を実現する。１２はＲＡＭ、ＲＯＭ等の記憶装置であり、図２のフローチャートで後述する制御を中央処理装置１１に実現させるために必要な制御プログラムや一時的データが格納される。１３はディスク装置等の外部記憶装置であり、本実施形態の音声合成処理を制御する制御プログラムやユーザの操作を受けるためのグラフィカルユーザインタフェースを制御する制御プログラムを保持する。
【００１１】
１４は表示器、スピーカ等からなる出力装置であり、合成された音声はスピーカから出力される。また、表示器には、ユーザの操作を受け付けるグラフィカルユーザインタフェースを表示する。このグラフィカルユーザインタフェースは、中央処理装置１１によって制御される。ただし、本発明は他の装置やプログラムに対して合成音声を出力するべく組み込むことも可能であり、この場合の出力は他の装置或いはプログラムの入力となる。１５はキーボード等の入力装置であり、ユーザの操作を所定の制御コマンドに変換して中央処理装置１１に供給する。中央処理装置１１は、この制御コマンドの内容に応じて、音声合成の対象となるテキスト（日本語や他の言語からなる）を指定し、そのテキストを音声合成ユニット１７に供給する。ただし、本発明は他の装置やプログラムの一部として組み込まれることも可能であり、この場合の入力は他の装置やプログラムを通じて間接的に行われることになる。１６は内部バスであり、図１で示された上述の各構成を接続する。１７は音声合成ユニットである。音声合成ユニット１７は、素片辞書１８を用いて、入力したテキストから音声を合成する。但し、素片辞書１８は、外部記憶装置１３が保持するように構成してもよい。
【００１２】
以上のハードウェア構成を踏まえて本発明の一実施形態を説明する。図２は音声合成ユニット１７の処理手順を示すフローチャートである。以下、本フローチャートを参照して、本実施形態の音声合成方法を説明する。
【００１３】
まず、ステップＳ１において、入力したテキストに対して言語解析と音響処理を施し、そのテキストを表す音韻系列とその音韻系列の韻律情報とを生成する。ここで、韻律情報は、継続時間長や基本周波数等を含む。また、音韻の単位は、ダイフォン、音素、音節等である。次に、ステップＳ２において、生成した音韻系列に基づいて、１音韻単位の音声素片を表す音声波形データを素片辞書１８から読み出す。図３は、ステップＳ２で読み出した音声波形データの一例を示す図である。次に、ステップＳ３において、ステップＳ２において取得した音声波形データのピッチ同期位置とそれに対応する窓関数とを、素片辞書１８から読み出す。図４において、（ａ）は音声波形を示し、（ｂ）は（ａ）の音声波形のピッチ同期位置に対応する複数個の窓関数を示す図である。次に、ステップＳ４に進み、ステップＳ２で読み込まれた音声波形データを、ステップＳ３で読み込まれた複数個の窓関数を用いて切り出し、複数個の微細素片を得る。図５において、（ａ）は音声波形を示し、（ｂ）は（ａ）の音声波形のピッチ同期位置に対応する複数個の窓関数を示し、（ｃ）は（ａ）の音声波形に（ｂ）の窓関数を適用して得られた複数個の微細素片を示す。
【００１４】
以下、ステップＳ５〜Ｓ１０では、素片辞書１８を用いて、各微細素片に対する波形編集操作の制限を確認する処理である。ここで、本実施形態の素片辞書１８は、削除、繰り返し、間隔変更等の波形編集操作を制限する微細素片に対応する窓関数に、編集制限情報（波形編集操作を制限する情報）を付与した素片辞書である。従って、音声合成ユニット１７は、何番目の窓関数から切り出された微細素片であるかを判別することによって、その微細素片に対する編集制限情報を確認する。本実施形態では、編集制限情報として、削除してはいけない微細素片を示す削除不可情報、繰り返してはいけない微細素片を示す繰り返し不可情報、間隔変更してはいけない微細素片を示す間隔変更不可情報を付与した素片辞書を使用する例について説明する。
【００１５】
ステップＳ５において、各窓関数に付与された編集制限情報を調べ、削除不可情報の付与された窓関数を得る。そして、ステップＳ６において、ステップＳ５で得られた窓関数に対応する微細素片に対して削除不可である旨のマーキングを行う。図６は、微細素片に対して「削除不可」のマーキングを行った様子を示す図である。本実施形態の素片辞書１８は、音声素片の非定常的な部分（特に、波形形状が急激に変化する有声音部と無声音部の境界付近）に対応する窓関数に対して削除不可情報が付与されている。従って図６では、３番目（有声音部と無声音部の境界に相当する）の窓関数によって得られた微細素片に対して「削除不可」のマーキングを施す。
【００１６】
同様に、ステップＳ７においては、各窓関数に付与された編集制限情報を調べ、繰り返し不可情報の付与された窓関数を得る。そして、ステップＳ８において、ステップＳ７で得られた窓関数に対応する微細素片に対して繰り返し不可である旨のマーキングを行う。図７は、所定の微細素片に対して「繰り返し不可」のマーキングを行った様子を示す図である。本実施形態の素片辞書１８は、音声素片の非定常的な部分（特に、波形形状が急激に変化する有声音部と無声音部の境界付近）に対応する窓関数に対して繰り返し不可情報が付与されている。従って図７では、４番目の窓関数（有声音部の先頭部分に相当する）によって得られた微細素片に対して「繰り返し不可」のマーキングを施す。なお、図７における「削除不可」のマーキングはステップＳ６で付されたマーキングを示している（図６参照）。
【００１７】
更に、ステップＳ９においては、各窓関数に付与された編集制限情報を調べ、間隔変更不可情報の付与された窓関数を得る。そして、ステップＳ１０において、ステップＳ９で得られた窓関数に対応する微細素片に対して間隔変更不可である旨のマーキングを行う。図８は、所定の微細素片に対して「間隔変更不可」のマーキングを行った様子を示す図である。本実施形態の素片辞書１８は、音声素片の非定常的な部分（特に、波形形状が急激に変化する有声音部と無声音部の境界付近）に対応する窓関数に対して間隔変更情報が付与されている。従って図８では、３番目の窓関数（有声音部と無声音部の境界に相当する）によって得られた微細素片に対して「間隔変更不可」のマーキングを施す。なお、図８における「削除不可」と「繰り返し不可」のマーキングは、それぞれステップＳ６、Ｓ８で付されたマーキングを示している（図６、図７参照）。
【００１８】
次に、ステップＳ１１において、ステップＳ１で得られた韻律情報に合致するように、ステップＳ４で切り出された微細素片を並べ、再び重ね合わせることによって、１音声素片の編集を終了する。このとき、継続時間長を縮める場合、「削除不可」のマーキングがなされた微細素片は、削除の対象とはならない。また、継続時間長を伸ばす場合、「繰り返し不可」のマーキングがなされた微細素片は、繰り返しの対象とはならない。また、基本周波数を変更する場合、「間隔変更不可」のマーキングがなされた微細素片は、間隔変更の対象とはならない。そして、ステップＳ１で得た音韻系列を構成する全ての音声素片に対して上述の波形編集操作を行い、さらに各音声素片を接続することにより入力したテキストに対応した合成音を得る。この合成音は、出力装置１４のスピーカから出力される。ステップＳ１１では、PSOLA（Pitch-Synchronous Overlap Add method「ピッチ同期波形重畳法」）を用いて、各音声素片の波形編集を行う。
【００１９】
以上のように、上記実施形態によれば、１音韻単位の音声素片から得た微細素片毎に、削除、繰り返し、間隔変更等の波形編集操作の可否を設定することにより、音声素片の非定常的な部分（特に、波形形状が急激に変化する有声音部と無声音部の境界付近）に対する波形編集操作を制限することができる。これにより、継続時間長や基本周波数の変更によって生じるなまけや異音の発生を抑制することができ、より自然な合成音声を得ることができる。
【００２０】
なお、上記実施形態において、削除不可情報、繰り返し不可情報、間隔変更不可情報は、窓関数の位置を用いたが、間接的な情報として取得されても良い。すなわち、音素境界や有声／無声境界といった境界情報を取得し、前記境界にある微細素片に、削除不可あるいは繰り返し不可あるいは間隔変更不可のマーキングを行うようにしても良い。
【００２１】
さらに、上記実施形態において、削除不可情報・繰り返し不可情報・間隔変更不可情報は、微細素片を指し示す情報ではなく、特定の区間を示す情報であっても良い。すなわち、破裂音において破裂時点の情報を取得し、その前後一定区間にある微細素片に対して削除不可あるいは繰り返し不可あるいは間隔変更不可のマーキングを行うようにしても良い。
【００２２】
なお、本発明は、複数の機器（例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。
【００２３】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００２４】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００２５】
【発明の効果】
以上説明したように、本発明によれば、音声素片中の微細素片に対して選択的に韻律制御のための処理を制限することが可能となり、波形編集操作によって生じる合成音声の劣化を防止することができる。
【図面の簡単な説明】
【図１】本実施形態による音声合成装置のハードウェア構成を示すブロック図である。
【図２】本実施形態による音声合成の手順を示すフローチャートである。
【図３】ステップＳ２で読み込まれる音声波形データの一例を示す図である。
【図４】（ａ）は音声波形を示す図であり、（ｂ）は（ａ）の音声波形に関して取得した同期位置に基づいて生成された窓関数を示す図である。
【図５】（ａ）は音声波形を示す図であり、（ｂ）は（ａ）の音声波形に関して取得した同期位置に基づいて生成された窓関数を示す図であり、（ｃ）は（ａ）の音声波形に（ｂ）の窓関数を適用して得られた微細素片を示す図である。
【図６】（ａ）は音声波形を示す図であり、（ｂ）は（ａ）の音声波形に関して取得した同期位置に基づいて生成された窓関数を示す図であり、（ｃ）は（ａ）の音声波形に（ｂ）の窓関数を適用して得られた微細素片に対して「削除不可」のマーキングを行った様子を示す図である。
【図７】（ａ）は音声波形を示す図であり、（ｂ）は（ａ）の音声波形に関して取得した同期位置に基づいて生成された窓関数を示す図であり、（ｃ）は（ａ）の音声波形に（ｂ）の窓関数を適用して得られた微細素片に対して「繰り返し不可」のマーキングを行った様子を示す図である。
【図８】（ａ）は音声波形を示す図であり、（ｂ）は（ａ）の音声波形に関して取得した同期位置に基づいて生成された窓関数を示す図であり、（ｃ）は（ａ）の音声波形に（ｂ）の窓関数を適用して得られた微細素片に対して「間隔変更不可」のマーキングを行った様子を示す図である。
【図９】音声波形（音声素片）を微細素片に分割して、合成音声の時間伸縮や基本周波数を変更する方法を模式的に示した図である。

Claims

音声波形から複数の微細素片を取得する工程と、
間隔変更処理を禁止するべき微細素片を示す間隔変更禁止情報を保持した記憶手段から間隔変更禁止情報を取得する工程と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記間隔変更禁止情報によって示された微細素片に対しては前記間隔変更処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
削除処理を禁止するべき微細素片を示す削除禁止情報を保持した記憶手段から削除禁止情報を取得する工程と、
前記微細素片の削除処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記削除禁止情報によって示された微細素片に対しては前記削除処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
繰り返し処理を禁止するべき微細素片を示す繰り返し禁止情報を保持した記憶手段から繰り返し禁止情報を取得する工程と、
前記微細素片の繰り返し処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記繰り返し禁止情報によって示された微細素片に対しては前記繰り返し処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
音声波形の境界情報に基づいて音声波形の境界にある微細素片を選択する工程と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記選択する工程で選択された微細素片に対しては前記間隔変更処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
音声波形の境界情報に基づいて音声波形の境界にある微細素片を選択する工程と、
前記微細素片の削除処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記選択する工程で選択された微細素片に対しては前記削除処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する取得工程と、
音声波形の境界情報に基づいて音声波形の境界にある微細素片を選択する工程と、
前記微細素片の繰り返し処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記選択する工程で選択された微細素片に対しては前記繰り返し処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
前記音声波形上の破裂位置の情報に基づいて破裂位置の前後所定区間にある微細素片を選択する工程と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記選択する工程で選択された微細素片に対しては前記間隔変更処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
前記音声波形上の破裂位置の情報に基づいて破裂位置の前後所定区間にある微細素片を選択する工程と、
前記微細素片の削除処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記選択する工程で選択された微細素片に対しては前記削除処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する工程と、
音声波形上の破裂位置の情報に基づいて破裂位置の前後所定区間にある微細素片を選択する工程と、
前記微細素片の繰り返し処理を用いて前記音声波形の韻律を制御する工程とを備え、前記韻律を制御する工程において、前記選択工程で選択された微細素片に対しては前記繰り返し処理が禁止されることを特徴とする音声合成方法。
音声波形から複数の微細素片を取得する手段と、
間隔変更処理を禁止するべき微細素片を示す間隔変更禁止情報を保持した記憶手段から間隔変更禁止情報を取得する手段と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記間隔変更禁止情報によって示された微細素片に対しては前記間隔変更処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
削除処理を禁止するべき微細素片を示す削除禁止情報を保持した記憶手段から削除禁止情報を取得する手段と、
前記微細素片の削除処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記削除禁止情報によって示された微細素片に対しては前記削除処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
繰り返し処理を禁止するべき微細素片を示す繰り返し禁止情報を保持した記憶手段から繰り返し禁止情報を取得する手段と、
前記微細素片の繰り返し処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記繰り返し禁止情報によって示された微細素片に対しては前記繰り返し処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
音声波形の境界情報に基づいて音声波形の境界にある微細素片を選択する手段と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記選択する手段で選択された微細素片に対しては前記間隔変更処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
音声波形の境界情報に基づいて音声波形の境界にある微細素片を選択する手段と、
前記微細素片の削除処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記選択する手段で選択された微細素片に対しては前記削除処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する取得手段と、
音声波形の境界情報に基づいて音声波形の境界にある微細素片を選択する手段と、
前記微細素片の繰り返し処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記選択する手段で選択された微細素片に対しては前記繰り返し処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
前記音声波形上の破裂位置の情報に基づいて破裂位置の前後所定区間にある微細素片を選択する手段と、
前記微細素片の間隔変更処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記選択する手段で選択された微細素片に対しては前記間隔変更処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
前記音声波形上の破裂位置の情報に基づいて破裂位置の前後所定区間にある微細素片を選択する手段と、
前記微細素片の削除処理を用いて前記音声波形の韻律を制御する手段とを備え、前期韻律を制御する手段は、前記選択する手段で選択された微細素片に対しては前記削除処理を禁止することを特徴とする音声合成装置。
音声波形から複数の微細素片を取得する手段と、
音声波形上の破裂位置の情報に基づいて破裂位置の前後所定区間にある微細素片を選択する手段と、
前記微細素片の繰り返し処理を用いて前記音声波形の韻律を制御する手段とを備え、前記韻律を制御する手段は、前記選択手段で選択された微細素片に対しては前記繰り返し処理を禁止することを特徴とする音声合成装置。
請求項１乃至９記載の音声合成方法をコンピュータによって実現するための制御プログラムを格納したことを特徴とする記憶媒体。