JP2007286511A

JP2007286511A - 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Info

Publication number: JP2007286511A
Application number: JP2006115992A
Authority: JP
Inventors: Katsuhiko Sato; 勝彦佐藤
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-04-19
Filing date: 2006-04-19
Publication date: 2007-11-01
Anticipated expiration: 2026-04-19
Also published as: JP5228283B2

Abstract

【課題】音声データベースからＨＭＭに基づく学習により構築された音声合成辞書を参照して音声を合成すると、学習前又は学習中に生じたスペクトルの乱れのために、当該音声の音質は劣化する。そこで、合成音声の音質を高めるために、より適切な音声合成辞書の構築がなされるようにすることを課題とする。
【解決手段】音声合成辞書を構築するにあたり、音声データベースから取り出した音声データをスペクトル分析した後、生成されたスペクトルの乱れを補正した後に、ＨＭＭに基づく学習をさせる。また、当該学習が多段階に渡る場合には、各段階において生成されたスペクトルの乱れを補正した後に、次の段階の学習に移るようにする。このように学習前又は学習中のスペクトル補正操作がなされるために、音声合成装置が参照する音声合成辞書としてより適切な音声合成辞書が構築される。
【選択図】図１

Description

本発明は、与えられた音声データベースを参照することにより、音声合成に用いるデータベースを構築する、音声合成辞書構築装置及び音声合成辞書構築方法に関する。

隠れマルコフモデル（以下、ＨＭＭと称する。）に基づいた音声認識技術及び音声合成技術は、広く利用されている。

ＨＭＭに基づいた音声認識技術及び音声合成技術に係る文献例としては、特許文献１乃至３に記載されるものがあった。

特開２００２−６２８９０号公報特開２００２−２４４６８９号公報特開２００２−２６８６６０号公報

ＨＭＭに基づいた音声認識及び音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。

音声合成辞書は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース（以下、音声データベースと称呼する。）に記録されているデータについて、スペクトル分析とピッチ抽出を行い、ＨＭＭに基づく学習過程を経ることにより、構築される。

従来は、音声合成辞書を構築する際、音声データから算出された音声スペクトルパラメータデータ列を、特に加工等を施すことなく、そのままＨＭＭに基づく学習に用いて、音声合成辞書を構築していた。

また、ＨＭＭに基づく学習過程は、しばしば、尤度を向上させるための、単数回または複数回の再学習過程を含む。

ＨＭＭに基づく学習過程が、このように、複数段階の学習過程を含む場合、段階毎に音素ラベルに対する音素ＨＭＭが決定され、当該対応関係が次の学習段階に伝達され、学習が進んでいくことになる。

従来、段階毎に生成される音素ＨＭＭは、特に加工等をなされることなく、次の段階に送られていた。

このようにして構築された音声合成辞書は、音声合成装置に用いられる。

音声データに対してＬＳＰ分析を施して生成したＬＳＰ係数群時系列データや、音素ＨＭＭ学習の結果ＬＳＰ係数に関する音素ＨＭＭを定義するパラメータ、例えば平均値に乱れが生じることがある。

従来の音声合成辞書構築法では、ＬＳＰ係数群時系列データの乱れを無視して音素ＨＭＭ学習過程に進んだり、ＬＳＰ係数に関する音素ＨＭＭを定義するパラメータの乱れを無視して学習を進行させたりしている。このために、従来の音声合成辞書構築方法では、品質の不十分な音声合成辞書が構築されてしまう場合があった。

本発明は、上記実情に鑑みてなされたもので、高品質のテキスト音声の合成を可能とする音声合成辞書構築装置及び方法を提供することを目的とする。

上記目的を達成するために、この発明の第１の観点に係る音声合成辞書構築装置は、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成するＬＳＰ係数群時系列データ生成部と、
前記ＬＳＰ係数群時系列データ生成部により生成された前記ＬＳＰ係数群時系列データに、所定の安定条件を満たすように、補正操作を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させる音素ＨＭＭ学習部と、
前記音素ＨＭＭ学習部によって対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。

前記音素ＨＭＭ学習部は、例えば、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、前記所定の安定条件を満たすように補正操作を施す。

上記目的を達成するために、この発明の第２の観点に係る音声合成辞書構築装置は、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成するＬＳＰ係数群時系列データ生成部と、
音素ラベル列と前記ＬＳＰ係数群時系列データ生成部から出力されたＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、所定の安定条件を満たすように所定の補正操作を施す音素ＨＭＭ学習部と、
前記音素ＨＭＭ学習部によって対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。

前記ＬＳＰ係数群時系列データ生成部により生成されたＬＳＰ係数群時系列データに、前記所定の安定条件を満たすように、補正操作を施し、前記音素ＨＭＭ学習部に供給する学習前スペクトルパラメータ補正部、をさらに備えてもよい。

前記補正操作は、例えば、ＬＳＰ係数群について、前記所定の安定条件を満たすか否かを判別し、満たしていない場合に、前記所定の安定条件を満たすようなＬＳＰ係数群に置換する操作から構成される。

前記補正操作は、例えば、ＬＳＰ係数群について、前記所定の安定条件を満たすようなＬＳＰ係数群に置換する処理から構成される。ここで前記所定の安定条件とは、例えば、ＬＳＰ係数が、全て０より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである。

前記音素ＨＭＭ学習部は、例えば、第１乃至第Ｎ（Ｎは２以上の自然数）音素ＨＭＭ学習部と、学習中スペクトルパラメータ補正部と、から構成される。ここで、第１音素ＨＭＭ学習部は音素ラベル列と前記ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させて、前記学習中スペクトルパラメータ補正部に供給し、前記第２乃至第Ｎ−１音素ＨＭＭ学習部は、それぞれ、第１乃至第Ｎ−２音素ＨＭＭ学習部から出力された後に学習中スペクトルパラメータ補正部による補正を受けた音素ＨＭＭを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素ＨＭＭを対応させて、前記学習中スペクトルパラメータ補正部に供給し、第Ｎ音素ＨＭＭ学習部は、第Ｎ−１音素ＨＭＭ学習部を経た後に前記学習中スペクトルパラメータ補正部による補正を受けた音素ＨＭＭを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素ＨＭＭを対応させて出力し、前記学習中スペクトルパラメータ補正部は、前記第１乃至第Ｎ−１音素ＨＭＭ学習部から出力された音素ＨＭＭを前記所定の条件を満たすように補正して前記第２乃至第Ｎ音素ＨＭＭ学習部に供給する。

上記目的を達成するために、この発明の第３の観点に係る音声合成辞書構築方法は、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
生成されたＬＳＰ係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させ、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
ことを特徴とする。

上記目的を達成するために、この発明の第４の観点に係る音声合成辞書構築方法は、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
音素ラベル列と前記ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
ことを特徴とする。

上記目的を達成するために、この発明の第５の観点に係るコンピュータプログラムは、
コンピュータに、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
生成された前記ＬＳＰ係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させ、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
処理を実行させる、ことを特徴とする。

上記目的を達成するために、この発明の第６の観点に係るコンピュータプログラムは、
コンピュータに、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
音素ラベル列と前記ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
処理を実行させる、ことを特徴とする。

本発明によれば、ＬＳＰ係数群時系列データ、ＬＳＰ係数に関する音素ＨＭＭを定義するパラメータに補正が行われるため、適切なデータを有する音声合成辞書が構築される。その結果、当該音声合成辞書を参照することにより音声を合成する音声合成装置は、高品質の合成音声を発することができる。

以下、本発明の実施形態に係る音声合成辞書構築装置及び方法について説明する。

（実施形態１）
図１は、実施形態１に係るスペクトルパラメータ補正機能を備えた音声合成辞書構築装置１１の概要構成図である。

音声合成辞書構築装置１１は、データ取り出し部１３と、スペクトル分析部１５と、学習前スペクトルパラメータ補正部１７と、音素ＨＭＭ学習部１９と、データ書き出し部２９と、を備える。

音素ＨＭＭ学習部１９は、第１音素ＨＭＭ学習部２１と、学習中スペクトルパラメータ補正部２３と、第２音素ＨＭＭ学習部２５〜第Ｎ音素ＨＭＭ学習部２７と、を備える。

音声合成辞書構築装置１１は、音声データベース３１と音声合成辞書３３に接続されている。

音声データベース３１は、音素ラベル列とそれに対応する音声データとの組から構成されているデータベースであり、例えばハードディスク装置に記憶されている。

音声合成辞書３３は、音声合成辞書構築装置１１によって生成された音素ラベル毎の音素ＨＭＭを格納するデータベースであり、例えばハードディスクに記憶されている。この音声合成辞書３３は、音声の合成に使用される。

データ取り出し部１３は、音声データベース３１から音声ラベル列と音声データの組を読み込み、音素ラベル列と音声データとに分離する。データ取り出し部１３は、音素ラベル列を第１音素ＨＭＭ学習部２１に引き渡し、音声データをスペクトル分析部１５に引き渡す。

スペクトル分析部１５は、データ取り出し部１３から引き渡された音声データを解析して、音声データのスペクトル包絡を表す音声スペクトルパラメータデータ列を生成し、学習前スペクトルパラメータ補正部１７に引き渡す。本実施形態においては、音声スペクトルパラメータデータ列は、ＬＳＰ係数列である。

学習前スペクトルパラメータ補正部１７は、スペクトル分析部１５から引き渡された音声スペクトルパラメータデータ列に対し、所定の安定条件を満たすよう、補正操作を施し、補正済音声スペクトルパラメータデータ列を第１音素ＨＭＭ学習部２１に供給する。

所定の安定条件とは、同一フレーム内のＬＳＰ係数が、全て０より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである。すなわち、原則としては、隣接するフレームのＬＳＰ係数群同士で、同次元のＬＳＰ係数を時間軸に沿って線でつないだとき、それぞれの線が交差することはなく、かつ、これらの線がＬＳＰ係数についての０とπの間の領域をはみ出すことはない。

ここで、フレームとは、音声データをＬＳＰ分析する周期のことである。

第１音素ＨＭＭ学習部２１は、データ取り出し部１３から供給された音素ラベル列と学習前スペクトルパラメータ補正部１７から供給される補正済音声スペクトルパラメータデータ列の対の群を用いて、音素ＨＭＭに基づく学習により、音素ラベル毎に音素ＨＭＭを構築し、これらを学習中スペクトルパラメータ補正部２３に供給する。

第２音素ＨＭＭ学習部２５〜第Ｎ音素ＨＭＭ学習部２７は、学習中スペクトルパラメータ補正部２３から供給される補正済音素ＨＭＭを、音素ＨＭＭに基づき再学習し、これらを学習中スペクトルパラメータ補正部２３に供給する。

学習中スペクトルパラメータ補正部２３は、第１音素ＨＭＭ学習部２１〜第Ｎ音素ＨＭＭ学習部２７から供給される、音素ＨＭＭを定義するパラメータのうち、平均値について、所定の安定条件をみたすような補正を行う。その後、学習中スペクトルパラメータ補正部２３は、音素ＨＭＭを次段の音素ＨＭＭ学習部に供給する。即ち、学習中スペクトルパラメータ補正部２３は、第１〜第（Ｎ−１）音素ＨＭＭ学習部から供給された、音素ＨＭＭを定義するパラメータのうち、平均値を、第２〜第Ｎ音素ＨＭＭ学習部に供給する。また、学習中スペクトルパラメータ補正部２３は、第Ｎ音素ＨＭＭ学習部２７から供給された補正済音素ＨＭＭを、データ書き出し部２９に供給する。

データ書き出し部２９は、音素ＨＭＭを、音声合成辞書３３に記録する。

図１に示す音声合成辞書構築装置１１は、物理的には、図２に示すような一般的なコンピュータ装置４１により、構成される。ＣＰＵ４３、ＲＯＭ４５、記憶部４７、データ入出力Ｉ／Ｆ５１、ユーザＩ／Ｆ４９は、バス７１で相互に接続されている。

ＲＯＭ４５は、ＨＭＭに基づいた学習のための動作プログラム、特に、この実施の形態においては、スペクトルパラメータを補正する動作を含む動作プログラムを記憶する。

記憶部４７は、ＲＡＭ６５やハードディスク６７から構成されて、学習のための定数、音素ラベル列、音声データ、スペクトルパラメータデータ、音素ラベルとスペクトルパラメータデータ列の対応関係、を記憶する。

データ入出力Ｉ／Ｆ５１は、元データ入りハードディスク５５等及び処理済データ記録用ハードディスク５７等に接続するためのインタフェースである。

データ入出力Ｉ／Ｆ５１は、図１に示す音声データベース３１に接続され、図２に示すＣＰＵ４３の制御下に、学習対象の音素ラベル列と音声データの対を読み出してきて、記憶部３７に格納する。

データ入出力Ｉ／Ｆ５１は、図１に示す音声合成辞書３３に接続され、図２に示すＣＰＵ４３による処理の結果である、音素ＨＭＭを、図１に示す音声合成辞書３３に出力する。

図２に示すユーザＩ／Ｆ４９は、キーボード６１と、モニタ６３と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。

ＣＰＵ４３は、ＲＯＭ４５に格納された動作プログラムを実行することにより、音声合成辞書生成動作を実行する。

図１に示すように、本実施形態に係る音声合成辞書構築装置１１の特徴は、１又は２以上のスペクトルパラメータ補正部を設けて、スペクトルパラメータデータが所定の安定条件を満たすよう所定の補正処理を行うことである。

学習前スペクトルパラメータ補正部１７及び学習中スペクトルパラメータ補正部２３が実行する補正処理は、所定の安定条件を満たす操作であれば、いかなる操作でもよい。以下では、理解を容易にするため、特定の補正処理を参照しつつこの音声合成装置の具体的動作について説明する。

まず、データ取り出し部１３は、音声データベース３１に記憶されている音素ラベルと音声データとの対を順次取り出し、音素ラベルと音声データとに分離し、音素ラベル列を第１学習部２１に、音声データをスペクトル分析部１５に供給する。

スペクトル分析部１５は、供給された音声データを既知の手法で分析して、ＬＳＰ係数を順次生成し、学習前スペクトルパラメータ補正部１７に供給する。

図３に示すフローチャートを参照しつつ、学習前スペクトルパラメータ補正部１７が行う補正操作について説明する。

まず、Ｎ_Ｓｐ個の音声データを取り出して記憶し（ステップＳ３０１）、その中から、ｍ番目の音声データＳｐ_ｍを特定する（ステップＳ３０３）。次に、ｍ番目の音声データＳｐ_ｍのＮ_ｆｍ個のフレームのＬＳＰ係数群のうちから、第ｆｍフレーム（ステップＳ３０５）のＬＳＰ係数群ω_ｍ、ｋ［ｆｍ］を取り出す（なお、１≦ｋ≦Ｎ_ｄ、Ｎ_ｄはＬＳＰ係数の次数である。）（ステップＳ３０７）。次に、取り出したＬＳＰ係数ω_ｍ、ｋ［ｆｍ］（但し、１≦ｋ≦Ｎ_ｄ、０≦ｆｍ≦Ｎ_ｆｍ［ｍ］、Ｎ_ｄはＬＳＰ係数の次数、Ｎ_ｆｍ［ｍ］は音声データＳｐ_ｍに対するフレーム数）において、ＬＳＰ係数の所定の安定条件が満たされているか判別する（ステップＳ３０９）。

ここで、ＬＳＰ係数の所定の安定条件とは、
０＜ω_ｍ、１［ｆｍ］＜ω_ｍ、２［ｆｍ］＜……＜ω_ｍ、Ｎｄ［ｆｍ］＜π
である。

なお、ＬＳＰ係数ω_ｍ、ｋは、フレームｆｍ毎に、即ち、ＬＳＰ係数ω_ｍ、ｋ［ｆｍ］毎に前記の安定条件を満たしているか判別する。つまり、０≦ｆｍ≦Ｎ_ｆｍ［ｍ］の範囲でｆｍが走査されるようなループが設定されている（ステップＳ３１５；未完了ならｆｍ←ｆｍ＋１）。

前記所定の安定条件を満たしている場合（ステップＳ３０９；満たす）、ＬＳＰ係数確認フラグｃｆ［ｆｍ］を１にセットし（ｃｆ［ｆｍ］＝１）（ステップＳ３１１）、満たしていない場合には（ステップＳ３０９；満たさない）、ＬＳＰ係数確認フラグｃｆ［ｆｍ］を０にセット（ｃｆ［ｆｍ］＝０）する（ステップＳ３１３）。

ｆｍをＮ_ｆｍ［ｍ］まで走査し終えたら（ステップＳ３１５；完了）、続いて、ｃｆ［ｆｍ_ＮＧ］＝０となるＬＳＰ係数確認フラグが存在するか判別する（ステップＳ３１７）。

ｃｆ［ｆｍ_ＮＧ］＝０となるＬＳＰ係数確認フラグが存在しない場合には（ステップＳ３１７；存在しない）、ｍ番目の音声データＳｐ_ｍについての補正操作を終了する。

ｃｆ［ｆｍ_ＮＧ］＝０となるＬＳＰ係数確認フラグが存在する場合には（ステップＳ３１７；存在する）、ｃｆ［ｆｍ＝ｆｍ_ＮＧ］＝０となるフレームｆｍ_ＮＧに対するＬＳＰ係数ω_ｍ、ｋ［ｆｍ_ＮＧ］を、補正し（ステップＳ３２１、Ｓ３２３、Ｓ３２５）、ｍ番目の音声データＳｐ_ｍについての補正操作を終了する。

補正の内容について説明する。まず、ｆｍ_ＮＧが０であるか、０＜ｆｍ_ＮＧ＜Ｎ_ｆｍ［ｍ］であるか、Ｎ_ｆｍ［ｍ］であるか判別する（ステップＳ３１９）。

ステップＳ３１９で、ｆｍ_ＮＧ＝０であると判別されたときは、２番目以降のフレームのＬＳＰ係数を参照して補正を行う（ステップＳ３２１）。例えば、ω_ｍ、ｋ［ｆｍ_ＮＧ］＝ω_ｍ、ｋ［ｆｍ_ＯＫ、Ｈ］（但し、１≦ｋ≦Ｎ_ｄであり、ｆｍ_ＯＫ、Ｈは、ｆｍ_ＮＧより大きくｃｆ［ｆｍ_ＯＫ、Ｈ］＝１を満たす最小値である。）とする。

ステップＳ３１９で、０＜ｆｍ_ＮＧ＜Ｎ_ｆｍ［ｍ］であると判別されたときは、０≦ｆｍ≦Ｎ_ｆｍ［ｍ］であるような、ｆｍ_ＮＧに隣接等するフレームのＬＳＰ係数を参照して補正を行う（ステップＳ３２３）。例えば、ω_ｍ、ｋ［ｆｍ_ＮＧ］＝ω_ｍ、ｋ［ｆｍ_ＯＫ、Ｌ］×α＋ω_ｍ、ｋ［ｆｍ_ＯＫ、Ｈ］×β（但し、１≦ｋ≦Ｎ_ｄであり、ｆｍ_ＯＫ、Ｌは、ｆｍ_ＮＧより小さくｃｆ［ｆｍ_ＯＫ、Ｌ］＝１を満たす最大値、ｆｍ_ＯＫ、Ｈは、ｆｍ_ＮＧより大きくｃｆ［ｆｍ_ＯＫ、Ｈ］＝１を満たす最小値、α及びβは重み係数である。）とする。

ステップＳ２１で、ｆｍ_ＮＧ＝Ｎ_ｆｍ［ｍ］であると判別されたときは、最後尾から２番目以前のフレームを参照して補正を行う（ステップＳ３２５）。例えば、ω_ｍ、ｋ［ｆｍ_ＮＧ］＝ω_ｍ、ｋ［ｆｍ_ＯＫ、Ｌ］（但し、１≦ｋ≦Ｎ_ｄであり、ｆｍ_ＯＫ、Ｌは、ｆｍ_ＮＧより小さくｃｆ［ｆｍ_ＯＫ、Ｌ］＝１を満たす最大値である。）とする。

学習前スペクトルパラメータ補正部１７は、音声データとフレームとを順次更新しつつ上述の補正処理を繰り返す（ステップＳ３１５；未完了ならｆｍ←ｆｍ＋１、ステップＳ３２７；未完了ならｍ←ｍ＋１）。一方、更新の継続の結果、全ての音声データの全てのフレームについての処理が終わったら、ループを抜ける（ステップＳ３１５；完了、ステップＳ３２７；完了）

学習前スペクトルパラメータ補正部１７は、補正済音声スペクトルパラメータデータ列（補正済みＬＳＰ係数群の列）を第１音素ＨＭＭ学習部２１に供給する。

第１音素ＨＭＭ学習部２１は、音素ラベルと補正済みの音声スペクトルパラメータデータ列（補正済ＬＳＰ係数群の列）とを対応付けて、音素ＨＭＭに基づく学習を行う。学習手法自体は、既知の任意手法を採用できる。

学習中スペクトルパラメータ補正部２３は、第１音素ＨＭＭ学習部２１から供給された音素ＨＭＭについて、後述の具体例に示す補正処理を行って、次段の音素ＨＭＭ学習部に供給する。

以後、同様の処理が繰り返されて、最終的な音素ＨＭＭがデータ書き出し部２９に供給され、音声合成辞書３３に書き込まれる。

本実施の形態の音声合成辞書構築装置では、学習前スペクトルパラメータ補正部１７及び学習中スペクトルパラメータ補正部２３において、スペクトルパラメータが生成されるたびに、所定の安定条件を満たすように補正がなされるので、より音質の高い合成音声を出力するのに資する音声合成辞書の構築が達成できる。

ここまでは、ｃｆ［ｆｍ_ＮＧ］＝０のとき、１≦ｋ≦Ｎ_ｄなる全ての次数ｋに対して、ω_ｍ、ｋ［ｆｍ_ＮＧ］の補正を行うことを想定してきたが、安定条件を満たさない原因となった次数ｋについてのみω_ｍ、ｋ［ｆｍ_ＮＧ］の補正を行ってもよい。

そのようにすれば、必要な次数ｋについてのＬＳＰ係数の補正は行われ安定条件が満たされる一方、フレームｆｍ_ＮＧに属している全てのＬＳＰ係数が補正の対象となる場合と異なり、元来安定条件を満たしていた次数ｋについてのＬＳＰ係数は余計な補正を受けずに済むから、より適切な補正が実現される。

（学習中補正の具体例１）
第１実施形態に係る音声合成辞書構築装置１１における、音素ＨＭＭ学習部１９の内部の具体例を、図４に示すフローチャートを参照して説明する。

本具体例に係る音声合成辞書構築装置は、音素ＨＭＭ学習部は、第１〜第５音素ＨＭＭ学習部と、学習中スペクトルパラメータ補正部と、を備えることを特徴とする。

第１〜第５音素ＨＭＭ学習部は、それぞれ、モノフォンＨＭＭの初期化学習、モノフォンＨＭＭの再学習、トライフォンＨＭＭの初期化学習、トライフォンＨＭＭの再学習、及び、決定木を用いたクラスタリング処理を担う。

モノフォンＨＭＭとして状態数５のＨＭＭを採用する。状態Ｓ_０は初期状態、状態Ｓ_４は終了状態であり、いずれの状態もＬＳＰ係数を出力しない。ＬＳＰ係数は、状態Ｓ_１、Ｓ_２、Ｓ_３から出力される。

第１音素ＨＭＭ学習部では、音素ラベル列と音声スペクトルパラメータデータ列ω_ｍ、ｋ［ｆｍ］を学習データとして、音素ラベル毎に、ＬＳＰ係数に関するモノフォンＨＭＭを初期化学習する（ステップＳ４０１）。

学習結果は、図１に示す学習中スペクトルパラメータ補正部２３に引き渡される。

学習中スペクトルパラメータ補正部では、各音素ラベルのＬＳＰ係数に関するモノフォンＨＭＭに対して、各状態のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_ｉ］（但し、ｉは１乃至３であり、１≦ｋ≦Ｎ_ｄであり、Ｎ_ｄはＬＳＰ係数の次数である。）が安定条件０＜ω_{１、Ａｖｅ}［Ｓ_ｉ］＜ω_{２、Ａｖｅ}［Ｓ_ｉ］＜……＜ω_{Ｎｄ、Ａｖｅ}［Ｓ_ｉ］＜πを満たしているか判別する（ステップＳ４２５）。判別は、Ｓ_１、Ｓ_２、Ｓ_３の全てについて行う必要があるので、カウンタｉを用いて順次処理する（ステップＳ４２３、ステップＳ４２９）。

安定条件が満たされている場合（ステップＳ４２５；満たす）には、状態Ｓ_１、Ｓ_２、Ｓ_３の全てについての処理が終わっていれば（ステップＳ４２９；ＹＥＳ）、補正操作を終了する。

安定条件が満たされていない場合には（ステップＳ４２５；満たさない）、満たすように補正する操作を施す（ステップＳ４２７）。

補正操作の結果は、第２音素ＨＭＭ学習部に引き渡される。

第２音素ＨＭＭ学習部では、音素ラベル毎に、ＬＳＰ係数に関するモノフォンＨＭＭを再学習する。

学習結果は、学習中スペクトルパラメータ補正部２３に引き渡される。

学習中スペクトルパラメータ補正部２３は、前記の操作と同様な補正操作を行い、その結果を、第３音素ＨＭＭ学習部に引き渡す。

第３音素ＨＭＭ学習部では、トライフォンＨＭＭの初期化学習を行う。すなわち、ＬＳＰ係数に関するモノフォンＨＭＭを、前後の音素ラベルを考慮したＬＳＰ係数に関するトライフォンＨＭＭにコピーし、初期化学習する。

トライフォンＨＭＭも、モノフォンＨＭＭと同様に、状態数５のＨＭＭとし、ＨＭＭ内の各状態におけるＬＳＰ係数の平均値をω_{ｋ、Ａｖｅ}［Ｓ_ｉ］で表すものとする。

学習中スペクトルパラメータ補正部２３は、前記の操作と同様な補正操作を行い、その結果を、第４音素ＨＭＭ学習部に引き渡す。

第４音素ＨＭＭ学習部では、トライフォンＨＭＭの再学習を行う。

学習中スペクトルパラメータ補正部２３は、前記の操作と同様な補正操作を行い、その結果を、第５音素ＨＭＭ学習部に引き渡す。

第５音素学習部では、ＬＳＰ係数に関するトライフォンＨＭＭに対して、決定木を用いたクラスタリングを行い、学習データ中に存在しない音素ラベルの組み合わせにも対応できるモデルを生成して、再度、ＬＳＰ係数に関するトライフォンＨＭＭを再学習する。

学習中スペクトルパラメータ補正部は、前記の操作と同様な補正操作を行い、その結果を、図１に示すデータ書き出し部２９に引き渡す。

このように、音素ＨＭＭ学習部の内部では、各段階の学習が済む毎に、学習中スペクトルパラメータ補正部により、ＬＳＰ係数の補正操作が施される。以下では、図５に示すフローチャートを参照して、当該補正操作の具体的な内容を説明する。

モノフォンＨＭＭ又はトライフォンＨＭＭの各状態のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_ｉ］を読み出し（ステップＳ５０１）、これらに対して、安定条件０＜ω_{１、Ａｖｅ}［Ｓ_ｉ］＜ω_{２、Ａｖｅ}［Ｓ_ｉ］＜……＜ω_{Ｎｄ、Ａｖｅ}［Ｓ_ｉ］＜πが満たされているか判別する。

状態Ｓ_１乃至Ｓ_３の全てについて前記安定条件が満たされている場合（ステップＳ５０３；ＹＥＳ、ステップＳ５０５；ＹＥＳ、ステップＳ５０９；ＹＥＳ）は、補正をせずに、補正操作を終了する。

状態Ｓ_１については前記安定条件が満たされていないが（ステップＳ５０３；ＮＯ）、Ｓ_２及びＳ_３については満たさされている場合（ステップＳ５０７；ＹＥＳ、ステップＳ５１３；ＹＥＳ）は、状態Ｓ_１のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_１］に対しては、
ω_{ｋ、Ａｖｅ}［Ｓ_１］＝ω_{ｋ、Ａｖｅ}［Ｓ_２］（但し、１≦ｋ≦Ｎ_ｄとする。）
のように補正し（ステップＳ５２１）、状態Ｓ_２及びＳ_３に関するＬＳＰ係数は補正せずに、補正操作を終了する。

状態Ｓ_２については前記安定条件が満たされていないが、Ｓ_１及びＳ_３については満たさされている場合（ステップＳ５０３；ＹＥＳ、ステップＳ５０５；ＮＯ、ステップＳ５１１；ＹＥＳ）は、状態Ｓ_２のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_２］に対しては、
ω_{ｋ、Ａｖｅ}［Ｓ_２］＝（ω_{ｋ、Ａｖｅ}［Ｓ_１］＋ω_{ｋ、Ａｖｅ}［Ｓ_３］）／２（但し、１≦ｋ≦Ｎ_ｄ）のように補正し（ステップＳ５１９）、状態Ｓ_１及びＳ_３に関するＬＳＰ係数は補正せずに、補正操作を終了する。

状態Ｓ_３については前記安定条件が満たされていないが、Ｓ_１及びＳ_２については満たさされている場合（ステップＳ５０３；ＹＥＳ、ステップＳ５０５；ＹＥＳ、ステップＳ５０９；ＮＯ）は、状態Ｓ_３のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_３］に対しては、
ω_{ｋ、Ａｖｅ}［Ｓ_３］＝ω_{ｋ、Ａｖｅ}［Ｓ_２］（但し、１≦ｋ≦Ｎ_ｄとする。）
のように補正し（ステップＳ５１７）、状態Ｓ_１及びＳ_２に関するＬＳＰ係数は補正せずに、補正操作を終了する。

状態Ｓ_１及び状態Ｓ_２については前記安定条件が満たされていないが、Ｓ_３については満たさされている場合（ステップＳ５０３；ＮＯ、ステップＳ５０７；ＮＯ、ステップＳ５１５；ＹＥＳ）は、状態Ｓ_１及び状態Ｓ_２のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_１］及びω_{ｋ、Ａｖｅ}［Ｓ_２］に対しては、
ω_{ｋ、Ａｖｅ}［Ｓ_１］＝ω_{ｋ、Ａｖｅ}［Ｓ_３］、ω_{ｋ、Ａｖｅ}［Ｓ_２］＝ω_{ｋ、Ａｖｅ}［Ｓ_３］（但し、１≦ｋ≦Ｎ_ｄとする。）
のように補正し（ステップＳ５２７）、状態Ｓ_３に関するＬＳＰ係数は補正せずに、補正操作を終了する。

状態Ｓ_１及び状態Ｓ_３については前記安定条件が満たされていないが、Ｓ_２については満たさされている場合（ステップＳ５０３；ＮＯ、ステップＳ５０７；ＹＥＳ、ステップＳ５１３；ＮＯ）は、状態Ｓ_１及び状態Ｓ_３のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_１］及びω_{ｋ、Ａｖｅ}［Ｓ_３］に対しては、
ω_{ｋ、Ａｖｅ}［Ｓ_１］＝ω_{ｋ、Ａｖｅ}［Ｓ_２］、ω_{ｋ、Ａｖｅ}［Ｓ_３］＝ω_{ｋ、Ａｖｅ}［Ｓ_２］（但し、１≦ｋ≦Ｎ_ｄとする。）
のように補正し（ステップＳ５２５）、状態Ｓ_２に関するＬＳＰ係数は補正せずに、補正操作を終了する。

状態Ｓ_２及び状態Ｓ_３については前記安定条件が満たされていないが、Ｓ_１については満たされている場合（ステップＳ５０３；ＹＥＳ、ステップＳ５０５；ＮＯ、ステップＳ５１１；ＮＯ）は、状態Ｓ_２及び状態Ｓ_３のＬＳＰ係数の平均値ω_{ｋ、Ａｖｅ}［Ｓ_２］及びω_{ｋ、Ａｖｅ}［Ｓ_３］に対しては、
ω_{ｋ、Ａｖｅ}［Ｓ_２］＝ω_{ｋ、Ａｖｅ}［Ｓ_１］、ω_{ｋ、Ａｖｅ}［Ｓ_３］＝ω_{ｋ、Ａｖｅ}［Ｓ_１］（但し、１≦ｋ≦Ｎ_ｄとする。）
のように補正し（ステップＳ５２３）、状態Ｓ_１に関するＬＳＰ係数は補正せずに、補正操作を終了する。

状態Ｓ_１乃至Ｓ_３について前記安定条件が満たされていない場合（ステップＳ５０３；ＮＯ、ステップＳ５０７；ＮＯ、ステップＳ５１５；ＮＯ）は、学習前の状態に戻して（ステップＳ５２９）、補正操作を終了する。

（学習中補正の具体例２）
前記具体例においては、安定条件が満たされていない場合に行われる補正操作は、ＬＳＰ係数の全ての次数ｋ、すなわち１≦ｋ≦Ｎ_ｄなる全てのｋについて行われる。これに対し、本実施例においては、安定条件を満たさない原因となった次数ｋについてのみ行う。

このように補正対象を限定することにより、本来補正の必要のなかった次数ｋに関してまで補正が行われてしまうことを防ぐことができ、結果として、第４実施例に係る音声合成辞書構築装置により構築される音声合成辞書よりも、高音質な合成音声の出力に資する音声合成辞書の構築が達成される。

（学習中補正の具体例３）
本実施例では、具体例１におけるＬＳＰ係数の補正に加えて、ＨＭＭ内の各状態におけるＬＳＰ係数の分散値ω_{ｋ、Ｖａｒ}［Ｓ_ｉ］に対して、所定の適切性判別基準を課し、不適切な値を有する次数ｋの分散値に対しては、適切な値に補正する操作を加える。

（実施形態２）
本実施例に係る音声合成辞書構築装置は、第１実施例に係る音声合成辞書構築装置において、学習前スペクトルパラメータ補正部を省略することを特徴とする、音声合成辞書構築装置である。

音素ＨＭＭ学習部１９の内部で学習中スペクトルパラメータ補正部２３により補正が繰り返されるため、本実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合、従来の音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合に比べて、高音質の合成音声の出力が達成される。

学習前スペクトルパラメータ補正部が省略されているため、本実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合、第１実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合に比べて、出力される合成音声の品質は劣る。

しかし、学習前スペクトルパラメータ補正部を省略することにより、本実施例に係る音声合成辞書構築装置は、第１実施例に係る音声合成辞書構築装置に比べて、構造が単純になるというメリットがある。

なお、この発明は、条規実施形態に限定されず、種々の変形及び応用が可能である。例えば、上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行させるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。

本発明による音声合成辞書構築装置及び方法の概要構成図である。実施形態１に係る音声合成辞書構築装置の物理的な構成を示す図である。学習前補正における動作の流れを示すフローチャートである。第１音素ＨＭＭ学習部における学習の流れを示すフローチャートである。学習中補正における動作の流れを示すフローチャートである。

符号の説明

１１・・・音声合成辞書構築装置、１３・・・データ取り出し部、１５・・・スペクトル分析部、１７・・・学習前スペクトルパラメータ補正部、１９・・・音素ＨＭＭ学習部、２１・・・第１音素ＨＭＭ学習部、２３・・・学習中スペクトルパラメータ補正部、２５・・・第２音素ＨＭＭ学習部、２７・・・第Ｎ音素ＨＭＭ学習部、２９・・・データ書き出し部、３１・・・音声データベース、３３・・・音声合成辞書、４１・・・コンピュータ装置、４３・・・ＣＰＵ、４５・・・ＲＯＭ、４７・・・記憶部、４９・・・ユーザＩ／Ｆ、５１・・・データ入出力Ｉ／Ｆ、５５・・・元データ入りハードディスク、５７・・・処理済データ記録用ハードディスク、６１・・・キーボード、６３・・・モニタ、６５・・・ＲＡＭ、６７・・・ハードディスク、７１・・・バス

Claims

音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成するＬＳＰ係数群時系列データ生成部と、
前記ＬＳＰ係数群時系列データ生成部により生成された前記ＬＳＰ係数群時系列データに、所定の安定条件を満たすように、補正操作を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させる音素ＨＭＭ学習部と、
前記音素ＨＭＭ学習部によって対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。
前記音素ＨＭＭ学習部は、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、前記所定の安定条件を満たすように補正操作を施す、
ことを特徴とする請求項１に記載の音声合成辞書構築装置。
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成するＬＳＰ係数群時系列データ生成部と、
音素ラベル列と前記ＬＳＰ係数群時系列データ生成部から出力されたＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、所定の安定条件を満たすように所定の補正操作を施す音素ＨＭＭ学習部と、
前記音素ＨＭＭ学習部によって対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。
前記ＬＳＰ係数群時系列データ生成部により生成されたＬＳＰ係数群時系列データに、前記所定の安定条件を満たすように、補正操作を施し、前記音素ＨＭＭ学習部に供給する学習前スペクトルパラメータ補正部、をさらに備えることを特徴とする請求項３に記載の音声合成辞書構築装置。
前記補正操作は、ＬＳＰ係数群について、前記所定の安定条件を満たすか否かを判別し、満たしていない場合に、前記所定の安定条件を満たすようなＬＳＰ係数群に置換する操作から構成される、
ことを特徴とする請求項１乃至４の何れか１項に記載の音声合成辞書構築装置。
前記補正操作は、ＬＳＰ係数群について、前記所定の安定条件を満たすような係数群に置換する処理から構成され、
前記所定の安定条件とは、ＬＳＰ係数が、全て０より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである、
ことを特徴とする請求項１乃至５の何れか１項に記載の音声合成辞書構築装置。
前記音素ＨＭＭ学習部は、第１乃至第Ｎ（Ｎは２以上の自然数）音素ＨＭＭ学習部と、学習中スペクトルパラメータ補正部と、から構成され、
第１音素ＨＭＭ学習部は音素ラベル列と前記ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させて、前記学習中スペクトルパラメータ補正部に供給し、
前記第２乃至第Ｎ−１音素ＨＭＭ学習部は、それぞれ、第１乃至第Ｎ−２音素ＨＭＭ学習部から出力された後に学習中スペクトルパラメータ補正部による補正を受けた音素ＨＭＭを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素ＨＭＭを対応させて、前記学習中スペクトルパラメータ補正部に供給し、
第Ｎ音素ＨＭＭ学習部は、第Ｎ−１音素ＨＭＭ学習部を経た後に前記学習中スペクトルパラメータ補正部による補正を受けた音素ＨＭＭを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素ＨＭＭを対応させて出力し、
前記学習中スペクトルパラメータ補正部は、前記第１乃至第Ｎ−１音素ＨＭＭ学習部から出力された音素ＨＭＭを前記所定の条件を満たすように補正して前記第２乃至第Ｎ音素ＨＭＭ学習部に供給する、
ことを特徴とする請求項１乃至６の何れか１項に記載の音声合成辞書構築装置。
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
生成されたＬＳＰ係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させ、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
ことを特徴とする音声合成辞書構築方法。
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
音素ラベル列と前記ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
ことを特徴とする音声合成辞書構築方法。
コンピュータに、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
生成された前記ＬＳＰ係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させ、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
処理を実行させるためのコンピュータプログラム。
コンピュータに、
音声データに対してＬＳＰ分析を施して多次元のＬＳＰ（Line Spectrum Pair）係数を含むＬＳＰ係数群時系列データを生成し、
音素ラベル列と前記ＬＳＰ係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素ＨＭＭを対応させると共に、前記音素ＨＭＭを定義するＬＳＰ係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素ＨＭＭとを音声合成辞書に記録する、
処理を実行させるためのコンピュータプログラム。