JP2013539558A

JP2013539558A - パラメータ音声の合成方法及びシステム

Info

Publication number: JP2013539558A
Application number: JP2013527464A
Authority: JP
Inventors: ウー，フォンリャン; ジー，ツェンファ
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2011-08-10
Filing date: 2011-10-27
Publication date: 2013-10-24
Anticipated expiration: 2031-10-27
Also published as: US8977551B2; KR101420557B1; EP2579249B1; JP5685649B2; CN102385859A; CN102270449A; EP2579249A1; EP2579249A4; CN102385859B; KR20130042492A; WO2013020329A1; DK2579249T3; US20130066631A1

Abstract

本発明は、パラメータ音声合成方法及びシステムを提供し、当該方法は、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して下記処理を行い、即ち、現在音素に対して、統計モジュールベースから対応する統計モジュールを引き出し、かつ当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、略値と現在時刻前の予定数の音声フレームの情報を用いて、現在予測される音声パラメータの平滑値を取得し、統計により得られた音声パラメータの全局平均値と全局標準偏差の比値に基づいて、音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した１フレームの音声を取得する。本発明によれば、音声合成に必要なＲＡＭは、合成する音声の長さが増加するに伴って増加せず、合成する音声の時間長はＲＡＭの制限を受けなくなる。
【選択図】図１０

Description

本発明は、パラメータ音声の合成技術分野に関わり、より具体的には、任意時間長の音声を継続的に合成するパラメータ合成方法及びシステムに関するものである。

音声合成は、機械的、電子的な方法によって、人工的な音声を作り出し、人と機器とのインタラクションがより自然になる重要な技術である。現在よく見られる音声合成技術として２種類があって、１種類は、ユニット選択と波形接続に基づく音声合成方法であり、もう１種類は、音響統計モジュールに基づくパラメータ音声合成方法である。パラメータ音声合成方法の蓄積空間への要求が比較的低いため、さらに小型電子設備により好適に適用する。

パラメータ音声合成方法は、訓練と合成の二つの段階に分かれる。訓練段階において、図１に示すように、まず、コーパスにおける、静態パラメータ、例えば、スペクトル包絡パラメータ、基本音声周波パラメータ、及び動態パラメータ、例えば、スペクトル包絡パラメータと基本音声周波数パラメータの1次と2次の差分パラメータを含むすべての音声の音響パラメータを引出し、次に、音素毎に、そのコンテキストに付けられた情報により対応する音響統計モジュールを訓練すると同時に、全体のコーパスに対する母分散モジュールを訓練し、最後に、すべての音素の音響統計モジュールと母分散モジュールによってモジュールベースを形成する。

合成段階において、階層化されたオフライン処理方法を用いて音声の合成を行う。図1に示すように、全体の入力テキストを分析し、すべてのコンテキスト情報を持つ音素を取得して、音素序列を構成する第一層と、訓練したモジュールベースの中から音素序列中の音素毎に対応されるモジュールを引き出して、モジュール序列を構成する第二層と、最尤法を用いて、モジュール序列中からフレーム毎の音声が対応する音響パラメータを予測して、音声パラメータ序列を構成する第三層と、母分散モジュールを用いて、音声パラメータ序列に対して全局最適化を行う第四層と、すべての最適化後の音声パラメータ序列を、パラメータ音声合成器に入力させることで、最終的なパラメータ音声を生成する第五層を含む。

発明者は本発明を実現させる過程において、従来技術に少なくとも下記欠陥があることを見出した。
従来のパラメータ音声合成方法は、合成段階における階層化作業において、以下のような横方向の処理方法を取る。即ち、すべての統計モジュールのパラメータを引出して、最尤法によってすべてのフレームを生成する平滑化したパラメータを予測し、母分散モジュールによってすべてのフレームの最適化パラメータを取得し、最後にパラメータ合成器からすべてのフレームの音声を出力する。即ち、階層毎において、すべてのフレームに関連するパラメータを保存する必要があり、音声合成の際に必要なランダムアクセスメモリ（Random Access Memory，RAM）の容量は合成する音声の時間長の増加に正比例して増加することを引き起こした。ただし、チップ上のRAMの大きさは固定的であり、数多くの応用中チップのRAMは100Kバイト未満ほど小さいであり、従来のパラメータ音声合成方法が、小さいRAMを備えるチップ上に任意時間長の音声を継続的に合成することはできない。

次に、前記合成段階における第三層と第四層の作業とを結びつけ、さらに詳しく前記問題を引き起こした原因を説明する。
図4を参照するように、前記合成段階における第三層作業において、最尤法を用いて、モジュール序列中から音声パラメータ序列の実施過程を予測するには、必ずフレームずつ前向き再帰と後ろ向き再帰との二つのステップによって実現しなければならない。第一ステップの前向き再帰作業が完了後、フレーム毎の音声のために対応する一時的なパラメータを生成する。すべてのフレームの一時的なパラメータを第二ステップの後ろ向き再帰ステップに入力してはじめて、必要なパラメータ序列を予測することができる。合成する音声の時間長が長ければ長いほど、対応する音声フレームの数が多く、フレーム毎の音声パラメータを予測する際に、対応する１フレームの一時的なパラメータを生成する。すべてのフレームの一時的なパラメータは、必ずRAM中に保存してはじめて、第二ステップの再帰予測作業が完了し、それで小さいRAMを備えるチップ上に任意時間長の音声を継続的に合成できなくなってしまう。

また、第四層の作業において、第三層から出力したすべてのフレームの音声パラメータから平均値と分散を算出し、さらに母分散モジュールを用いて、音声パラメータの平滑値に対して全局最適化を行って、最終的な音声パラメータを生成する必要がある。そのため、第三層が出力するすべてのフレームの音声パラメータを、対応するフレーム数のRAMで保存することも必要となり、また小さめのRAMのチップ上に任意時間長の音声を継続的に合成できなくなってしまう。

前記問題に鑑みて、本発明は、従来の音声合成過程において必要とされるRAMの大きさが、合成する音声の長さと正比例して増加する課題を解決し、さらに小さめのRAMのチップ上に任意時間長の音声を継続的に合成できない課題を解決することを目的とする。

本発明の一方面によれば、訓練段階と合成段階を含むパラメータ音声合成方法を提供し、その内、前記合成段階は、具体的に、
入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、以下のような処理を行い、即ち、
入力テキストの音素序列中の現在音素に対して、統計モジュールベース中から対応する統計モジュールを引出すとともに、当該統計モジュールが、現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した１フレームの音声を取得することを含む。

その中、好ましい方法は、前記略値と前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、当該前一時刻の音声フレームの情報は前一時刻に予測された音声パラメータの平滑値である。

なお、好ましい方法は、下記公式を用いて、統計により得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、

ただし、
はt時刻の音声パラメータが最適化する前の平滑値であり、
は初歩的な最適化後の値で、wは重み値で、
は全局最適化後に取得した必要な音声パラメータで、rは統計により取得したその予測される音声パラメータの全局標準偏差値であり、mは統計により取得したその予測される音声パラメータの平均値で、rとmの値は定数である。

さらに、本発明は、濁音度サブバンドパラメータを用いて、サブバンド濁音度フィルタと清音サブバンドフィルタを構成し、基本音声周波パラメータによって構造された準周期性パルス序列が、前記濁音度サブバンドパラメータを介して、音声信号の濁音成分を取得し、ホワイトノイズから構造されるランダム序列が、前記清音サブバンドフィルタを介して、音声信号の清音成分を取得し、前記濁音成分と清音成分を加算して、混合励振信号を取得し、前記混合励振信号が、スペクトル包絡パラメータから構造されるフィルタを介してから、１フレームの合成した音声波形を出力することを含む。

さらに、本発明は、前記合成段階の前に、前記手段は訓練段階も含み、
訓練段階において、コーパス中から引出した音響パラメータが静態パラメータのみを含み、或いは、コーパス中から引出した音響パラメータが静態パラメータと動態パラメータを含み、訓練後に取得された統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留する。

合成段階において、前記現在音素に基づいて、訓練段階において取得された前記統計モジュールが、現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とする。

本発明の他の一方面によれば、
合成段階において、入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、順次に音声合成を行うための循環合成装置を含み、
前記循環合成装置は、
入力テキストの音素序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引出し、かつ当該統計モジュールが、現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とするための粗捜索手段と、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するための平滑化フィルタ手段と、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して、全局最適化を行うための全局最適化手段と、
生成された前記音声パラメータを合成させ、現在音素の現在フレームに対して合成した１フレームの音声を取得するためのパラメータ音声合成手段と
を含む音声パラメータの合成システムが提供される。

さらに、前記平滑化フィルタ手段は、前記略値と前一時刻に予測された音声パラメータの平滑値である前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するためのローパスフィルタ組を含む。

さらに、前記全局最適化手段は、下記公式を用いて、統計により得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して、全局最適化を行って、必要な音声パラメータを生成するための全局パラメータ最適化器を含む。
その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、ｗは重みの値で、
は全局最適化後に取得した必要な音声パラメータで、ｒは統計により取得したその予測される音声パラメータの全局標準偏差値で、ｍは統計により取得したその予測される音声パラメータの全局平均値であり、ｒとｍの値は定数である。

前記パラメータ音声合成単元は、
濁音度サブバンドパラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成するためのフィルタ構成モジュールと、
基本音声周波パラメータにより構成された準周期性パルス序列に対して濾過を行って、音声信号の濁音成分を取得するための前記濁音サブバンドフィルタと、
ホワイトノイズにより構成されたランダム序列に対して濾過を行って、音声信号の清音成分を取得するための前記清音サブバンドフィルタと、
前記濁音成分と清音成分を加算して、混合励振信号を取得するための加算器と、
前記混合励振信号が、スペクトル包絡パラメータにより構成されたフィルタを介してから、合成した１フレームの音声波形を出力する合成フィルタとを含む。

さらに、前記システムは、また、訓練段階において、コーパス中から引出した音声パラメータに静態パラメータのみを含ませ、またはコーパス中から引出した音声パラメータに静態パラメータと動態パラメータを含ませ、及び訓練後に取得された統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留するための訓練装置を含み、
前記粗検索手段は、具体的に、合成段階において、前記現在の音素に基づいて、訓練段階において取得された前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とするためである。

前記述べたように、本発明の実施例の発明は、現在フレーム前の音声フレームの情報と予め統計により得られた音声パラメータの全局平均値と全局標準偏差値などの手段を用いることで、新型のパラメータ音声合成方法を提供した。

本発明が提供するパラメータ音声合成方法及びシステムは、縦方向処理の合成方法を用いており、即ち、フレーム毎の音声の合成が皆、統計モジュールの略値を引出し、濾過することによって平滑値を取得し、全局最適化によって最適化値を取得し、パラメータ音声合成によって音声を取得する四つのステップを行って、後のフレーム毎の音声の合成が皆、再びこの四つのステップを繰り返すことで、パラメータ音声合成の処理過程において、現在フレームに必要な固定蓄積容量のパラメータのみを保存することで済み、音声合成に必要なRAMが合成する音声の長さの増加に伴い増加せず、合成音声の時間長がRAMの制限を受けなくなる。

また、本発明が用いられる音声パラメータは静態パラメータであり、モジュールベース中にも、各モジュールの静態平均値パラメータのみを保存することで、統計モジュールベースの大きさを効果的に減少させることができる。

また、本発明は、音声合成の過程において、マルチサブバンド清濁混合励振を用いて、サブバンド毎における清音と濁音を、濁音度によって混合させることで、時間上、清音と濁音の明確な硬い境界がなくなり、音声合成後の音声の明らかな歪みが避ける。

本発明は、連続性、一致性と自然体の高い音声を合成することができ、音声合成方法が小さい蓄積スペースのチップへの普及と応用に寄与する。
前記手段と関連目的を実現するために、本発明の１つ又は複数の方面が、下記詳しく説明するとともに請求項に指摘された特徴を含む。下記説明及び図では、本発明のある例示方面が詳しく紹介されている。但し、例示方面は本発明の原理が応用される様々な方法の一部にすぎない。また、本発明は、すべての方面及びその同等なものを含むことを旨とする。

下記図に基づく説明と請求範囲の内容を参考にし、かつ本発明をさらに全面的な理解することで、本発明のその他の目的と結果がさらに明白で、わかりやすくなる。
従来技術において、動態パラメータと最尤法によるパラメータ音声合成方法段階分け模式図である。本発明の１つの実施例を示すパラメータ音声合成方法のプロセス図である。本発明の１つの実施例を示すパラメータ音声合成方法の段階分け模式図である。従来技術において、動態パラメータによる最尤法パラメータ予測模式図である。本発明の１つの実施例の静態パラメータによる平滑化フィルタパラメータ予測模式図である。本発明の１つの実施例に基づく混合励振による合成フィルタ模式図である。従来技術において、清・濁判定による合成フィルタ模式図である。本発明のもう１つの実施例のパラメータ音声合成システムのブロック図である。本発明のもう１つの実施例のパラメータ音声合成手段のロジック構成図である。本発明のその他の実施例のパラメータ音声合成方法のプロセス図である。本発明のその他の実施例のパラメータ音声合成システムの構成図である。

すべての図において同じ記号は近似または相応する特徴または機能を指す。

以下、図面と合わせて本発明の具体的な実施例について詳しく説明する。
図2は、本発明の１つの実施例に基づくパラメータ音声合成方法のプロセス図を示す。
図2に示すように、本発明が提供する任意時間長の音声を継続的に合成できるパラメータ音声合成方法の実現には、下記ステップを含む。

S210：入力テキストを分析して、入力テキストへの分析に基づいて、コンテキスト情報を含む音素序列を取得する。
S220：順次に前記音素序列中の一つの音素を引出して、統計モジュールベース中で前記音素の各音響パラメータが対応する統計モジュールを捜索して、フレームに応じて前記音素の各統計モジュールを引出して、合成待ち音声パラメータの略値とする。

S230：フィルタ組を用いて、前記合成待ちの音声パラメータの略値に対してパラメータ平滑化を行って、平滑後の音声パラメータを取得する。
S240：全局パラメータ最適化器を用いて、前記平滑後の音声パラメータに対して全局パラメータ最適化を行って、最適化後の音声パラメータを取得する。

S250：パラメータ音声合成器を用いて、前記最適化後の音声パラメータに対して合成を行って、合成された１フレームの音声を出力する。
S260：前記音素のすべてのフレームが処理完了かどうかを判断し、処理完了でなければ、前記音素の次のフレームに対してS220〜250の音声合成処理を繰り返し、前記音素序列中のすべての音素のすべてのクレームが処理完了まで行う。

本発明のパラメータ音声合成技術について、さらに明確に説明し、本発明の技術的特徴を際立たせるために、以下のように段階分け、ステップ分けと、従来技術におけるパラメータ音声合成方法をひとつひとつ比較し、説明をする。

図3は、本発明実施例のパラメータ音声合成方法の段階分け模式図である。図3に示すように、従来技術において、動態パラメータと最尤法によるパラメータ音声合成方法は類似しており、本発明のパラメータ音声合成の実現も、訓練と合成段階を含む。その内、訓練段階は、コーパス中の音声情報により、音声の音声パラメータを引出すとともに、その引出した音響パラメータに基づいて、音声毎のコンテキスト情報毎時に対応する統計モジュールを訓練して、合成段階に必要な音素の統計モジュールベースを構成する。ステップS210〜S260は合成段階に属し、合成段階は、テキストの分析、パラメータの予測と音声合成の三つの部分が含まれる。その内、パラメータの予測部分は目標モジュール捜索、パラメータ生成とパラメータ最適化と三つに細かく分けられる。

まず、訓練段階におけるコーパス中から音響パラメータを引出す過程において、本発明が従来のパラメータ音声合成技術との主な相違点は、従来技術で引き出す音声パラメータに動態パラメータを含むことに対し、本発明で引き出す音声パラメータがすべて静態パラメータであってもよい、モジュール訓練後の精度を上げるように1次或いは２次差分パラメータのような前後フレームのパラメータ変化を表す動態パラメータを含んでもよい。

具体的に言うと、本発明のコーパス中から引出した音声パラメータは、少なくともスペクトル包絡パラメータ、基本音声周波パラメータ、サブバンド濁音度パラメータとの三種類の静態パラメータを含み、また他のフォルマント周波数等のようなパラメータを選択的に含むことができる。

その内、スペクトル包絡パラメータは線形予測係数（LPC）或いはその派生パラメータ、例えば線スペクトル対周波数（LSP）、ケプストラムパラメータであってもよいし、または前に幾つかのフォルマント周波数（周波数、帯域幅、振幅）或いは離散フーリエ変換係数であって良い。その他、合成音声の音質を改善するために、これらスペクトル包絡パラメータがメル域における変種を用いても良い。基本音声周波は対数基本音声周波を用いており、サブバンド濁音度はサブバンドにおける濁音の占める比重である。

前記静態パラメータの他、コーパス中から引出した音声パラメータは、前後幾つかのフレームの基本音声周波間の1次或いは２次パラメータのような前後フレームの音声パラメータを表す動態パラメータを含んでも良い。訓練時に、各音素を自動的にコーパス中の大量の音声フラグメントに自動的に位置合わせてから、これらの音声フラグメントから当該音素が対応する音響パラメータモジュールを統計する。静態パラメータと動態パラメータを併用して、自動的に位置合わせを行う精度は、静態パラメータのみを用いることよりちょっと高くなり、モジュールのパラメータをより正確なものにした。但し、本発明は、合成段階においてモジュールの動態パラメータが必要ではないため、本発明が最終的に訓練するモジュールベース中に静態パラメータのみを保留する。

引き出した音響パラメータに基づいて、異なるコンテキスト情報時に音声毎が各音響パラメータの対応する統計モジュールを訓練する過程において、隠れマルコフモデル（HMM，Hidden Markov Model）を用いて、各音響パラメータに対してモデリングをする。具体的には、スペクトル包絡パラメータとサブバンド濁音度パラメータに対して、連続確率分布によるHMMモデリングを用いるが、基本音声周波に対して、多空間確率分布によるHMMモデリングを用いる。このモデリング技術は、従来技術における既存のモデリング技術であるため、下記内容において、当該モデリング技術に対して、簡単な説明を行う。

HMMは、一種の典型的な統計信号処理方法であり、そのランダム性、長さ未知の文字列の入力処理可能性、分割問題を有効的に避ける可能性、及び大量、快速、有効的な訓練と識別法等の特徴を備えているため、広く信号処理の各分野に応用されている。HMMの構造は、5つの形態左右型であり、それぞれの形態において、観察する確率の分布は、単ガウス密度関数である。当該関数は、パラメータの平均値と分散によって唯一に確定される。前記平均値は、静態パラメータの平均値、動態パラメータ（1次と２次差分）の平均値からなる。前記分散は、静態パラメータの分散、動態パラメータ（1次と２次差分）の分散からなる。

訓練時に、コンテキスト情報に基づいて、各音素の各音響パラメータに一つのモジュールを訓練する。モジュール訓練の堅固性を高めるために、音素のコンテキスト情報に基づいて、関連する音素に対してクラスタを行って、決定木に基づくクラスタ方法を用いることが考えられる。前記音響パラメータが対応するモジュールの訓練を完了した後、これらのモジュールを用いて、訓練コーパス中の音声に対してフレームから形態までの強制的な位置合わせを行ってから、位置合わせ過程において生じる時間長情報（即ち、各形態が対応するフレーム数）を用いて、異なるコンテキスト情報時に、音素が決定木によるクラスタ後の状態時間長モジュールを訓練し、最後に、音素毎が異なるコンテキスト情報時の各音声パラメータの対応する統計モジュールによって、統計モジュールベースを構成する。

訓練完了の後、本発明は、モジュールベース中に、各モジュールの静態平均値パラメータのみを保存する。これに対して、従来のパラメータ音声合成方法は、静態平均値パラメータ、1次差分パラメータ、２次差分の平均値パラメータ、及びこれらのパラメータが対応する分散パラメータを保留しなければならず、統計モジュールベースがわりと大きい。実践により、本発明における、各モジュールの静態平均値パラメータのみを保存する統計モジュールベースの大きさは、従来技術において構成する音響統計モジュールベースの約1/6で、極大に統計モジュールベースの蓄積空間を減少させたことを裏付けた。その内、減少したデータは、従来のパラメータ音声合成技術において必需なものであるが、本発明が提供するパラメータ音声合成技術において必需なものではない。そのため、データ量の減少は、本発明のパラメータ音声合成の実現に影響を及ばない。

合成段階において、まず、入力したテキストからコンテキスト情報を含む音素序列（ステップＳ２１0）を引き出し、パラメータ合成の基礎とするように、入力したテキストに対して分析を行う必要がある。

ここで、音素のコンテキスト情報とは、現在音素と前後隣接する音素の情報のことであるか、これらのコンテキスト情報は、その前後一つ又は幾つか音素の名称であってもよいか、その他言語層と音韻層の情報を含んでもよい。例えば、一つ音素のコンテキスト情報は、現在音素名、前後二つの音素名、その音節の音調またはアクセント、また選択的にその単語の属性などを含むことができる。

入力テキストにおけるコンテキスト情報を含む音素序列を確定した後、順次に序列中の一つの音素を引き出して、統計モジュールベース中から当該音素の各音響パラメータが対応する音響統計モジュールを捜索してから、フレームによって、当該音素の各統計モジュールを引き出して、合成待ち音声パラメータの略値とする（ステップS220）。

目標統計モジュールの捜索過程において、音素のコンテキストに付けられた情報をクラスタ決定木中に入力すれば、スペクトル包絡パラメータ、基本音声周波パラメータ、サブバンド濁音度パラメータ、状態時間長パラメータが対応する統計モジュールを捜索できる。その中の状態時間長パラメータは、初期のコーパス中から引き出した静態パラメータではなく、訓練段階において、状態とフレームが位置合わせする際に生成された新しいパラメータである。モジュールの各状態から順次に引き出して保存された静態パラメータの平均値は、即ち各パラメータが対応する静態平均値パラメータである。その内、状態時間長平均値パラメータが、直接に合成待ちの某音素中の各状態の持続すべきフレーム数を確定するためであるが、スペクトル包絡、基本音声周波、サブバンド濁音度等の静態平均値パラメータは合成待ち音声パラメータの略値である。

合成待ちの音声パラメータの略値を確定した後、フィルタ組により、その確定された音声パラメータの略値に対して濾過を行うことで、音声パラメータを予測する（ステップS230）。このステップにおいて、より優れた効果の音声パラメータ値を予測するために、一組専門のフィルタを用いて、それぞれスペクトル包絡、基本音声周波と、サブバンド濁音度に対して濾過を行う。

本発明はステップS230において用いられたフィルタ方法は、静態パラメータによる平滑化フィルタ法である。図5は、本発明における静態パラメータによる平滑化フィルタパラメータの予測模式図であり、図5に示すように、本発明では、この組のパラメータ予測フィルタで、従来のパラメータ音声合成技術における最尤法によるパラメータ予測器を取替え、一組のローパスフィルタで、それぞれ合成待ちの音声パラメータのスペクトル包絡パラメータ、基本音声周波パラメータ、サブバンド濁音度パラメータを予測する。処理する過程は、下記に示す公式（１）である。
その内、tは、時間が第tフレームを示し、x_tは、モジュールから取得したある音声パラメータの第tフレーム時の略値で、y_tは平滑化フィルタした後の値で、演算記号*は畳み込みを示し、h_tは予め設計したフィルタのインパルス応答である。異なる類型の音声パラメータに対して、パラメータの特徴が異なるため、h_tは異なる表示に設計されても良い。

スペクトル包絡パラメータ、サブバンド濁音度パラメータに対して、公式（2）が表すフィルタでパラメータの予測を行っても良い。
その内、
は予め設計した固定のフィルタパラメータであり、
の選択は、実際の音声における、スペクトル包絡パラメータとサブバンド濁音度が時間に伴って変化する速さの程度に基づいて、実験で確定されても良い。
基本音声周波パラメータに対して、公式（3）が示すフィルタでパラメータの予測を行っても良い。
その内、
は予め設計した固定のフィルタパラメータであり、
の選択は、実際の音声において、基本音声周波パラメータが時間に伴って変化する速さの程度に基づいて、実験で確定されても良い。

前記によると、本発明に用いるフィルタ組が合成待ち音声パラメータを予測する過程において関わるパラメータは将来のパラメータまで及ばず、ある時刻の出力フレームは、ただ当該時刻とその前の入力フレーム或いは当該時刻の前一時刻の出力フレームだけに頼っており、将来の入力または出力フレームと関係がないため、フィルタ組に必要なRAMの大きさを事前に固定することができる。即ち、本発明において、公式（2）と（3）を用いて、音声の音声パラメータを予測する際に、現在フレームの出力パラメータは、ただ現在フレームの入力と、直前１フレームの出力パラメータだけに頼る。

これで、全体のパラメータ予測過程において、大きさが固定されたRAMバッファを用いることが実現され、合成待ち音声の時間長の増加に伴って増加しなくなり、任意時間長の音声パラメータを継続的に予測することで、従来技術の最尤法によるパラメータ予測過程において必要なRAMが、合成する音声の時間長の増加に正比例して増加する課題を解決する。

前記公式（2）と（3）からわかるように、当該技術案は、フィルタ組を用いて、現在時刻の合成待ち音声パラメータの略値に対してパラメータの平滑化をする際に、当該時刻の略値と前一時刻の音声フレームの情報に基づいて、当該略値に対して濾過を行って、平滑後の音声パラメータを取得する可能である。ここで、前一時刻の音声フレームの情報は、前一時刻の予測される音声パラメータの平滑値である。

音声パラメータの平滑値を予測した後、全局パラメータ最適化器を用いて、平滑化後の各音声パラメータに対して最適化を行って、さらに最適化後の音声パラメータを確定することができる（ステップS240）。

合成音声パラメータの分散と、訓練コーパス中の音声パラメータの分散を一致させ、音合成する音声の音質を改善させるために、本発明が音声パラメータを最適化する過程において、下記公式（4）で合成音声パラメータの変化する範囲に対して調整を行う。
その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、
は最終最適化後の値で、
は合成する音声の平均値で、
は訓練する音声と合成する音声の標準偏差の比値で、
は調節効果を制御する一つの固定の重み値である。

但し、従来のパラメータ音声合成方法は、
と
を確定するとき、某音声パラメータがすべてのフレームにおける対応する値を用いて、平均値と分散を計算してから、母分散モジュールによりすべてのフレームのパラメータを調整し、調整後の合成音声パラメータの分散を母分散モジュールと一致させするように、音質を高める目的が達する。公式（5）に示す通りである。
その内、Tは合成待ち音声の総時間長がTフレームであることを示し、
は、某音声パラメータが、訓練コーパス中のすべての音声上統計して得た標準偏差（母分散モジュールによって提供する）で、
は、現在合成待ちの音声パラメータの標準偏差で、一段落のテキストを合成する度に、
が再び計算する必要がある。
と
の計算は、調整前の合成音声のすべてのフレームの音声パラメータ値を用いる必要があるため、RAMが、すべてのフレームの未最適化時のパラメータを保存する必要がある。したがって、必要なRAMは、合成待ち音声の時間長の増加に伴って増加するため、大きさが固定されたRAMは、任意時間長の音声を継続的に合成する要求が満たされない。

従来技術におけるこのような欠陥について、本発明がパラメータ音声に対して最適化を行うとき、再び全局パラメータ最適化器を設計した。下記公式（6）でパラメータ音声に対して最適化を行う。
その内、MとRは、いずれも定数で、その値は、大量の合成パラメータ中から統計出された某パラメータの平均値及び標準偏差比である。好ましい確定方法は、全局パラメータ最適化を加えないとき、わりと長い、例えば１時間ほどの合成音声を合成し、公式（5）で、各音声パラメータが対応する平均値と標準偏差値の比率を計算するとともに、それを固定値として各音声パラメータが対応するMとRに与える。

前記から分かるように、本発明が設計した全局パラメータ最適化器は、全局平均値と母分散比率を含み、全局平均値で合成音声の各音響パラメータの平均値を表し、母分散比率で合成音声と訓練音声のパラメータが分散上における比率を表す。本発明における全局パラメータ最適化器を用いて、合成する度に、入力した１フレームの音声パラメータに対して直接に最適化を行って、すべての合成音声フレーム中から再び音声パラメータの平均値と標準偏差値の比率を計算しなくて済むため、合成待ちの音声パラメータのすべてのフレームの値を保存しなくて済む。固定的なRAMで、従来のパラメータ音声合成方法における、RAMが合成する音声の時間長の増加に正比例して増加する課題を解決した。その他、本発明では、音声を合成する度に、同じｍとｒによって調節を行うことに対して、原の方法では、合成する度に新しく計算したｍとｒによって調節する。したがって、本発明が異なるテキストを合成するとき、合成する音声の間の一致性は原の方法より優れている。さらに、本発明の計算する複雑度は原の方法より低い。

最適化後の音声パラメータを確定したら、パラメータ音声合成器を用いて、前記最適化後の音声パラメータに対して合成を行って、一フレームの音声波形を合成する（ステップS250）。

図6は、本発明の実施例に基づく混合励振信号による合成フィルタの模式図である。図7は、従来技術における清・濁判定による合成フィルタの模式図である。図6と7に示すように、本発明の混合励振信号による合成フィルタはソース‐フィルタ型を用いるが、従来技術におけるフィルタ励振は、簡単な二元励振である。

従来のパラメータ音声合成技術において、パラメータ合成器で、音声を合成する時に用いる技術は、清・濁判定によるパラメータ音声合成であり、予め設定したひとつの門限で清・濁音の確実な判定を行う必要があり、某フレームの合成音声を濁音に判定するか、または清音に判定する。これは、合成したいくつかの濁音の間に突如清音フレームが現れ、聞き取る際、明らかな歪んだ音質を感じる。図7に示した合成フィルタ模式図において、音声を合成する前に、まず清・濁音の予測をしてから、それぞれ励振を行って、清音のとき、ホワイトノイズを励振とし、濁音のとき、準周期性パルスを励振とし、最後に、その励振が合成フィルタを介して、合成音声の波形を取得する。この励振合成方法は、合成した清音と濁音の時間上明確な硬い限界があることを引き起こすことで、合成音声において音が明らかに歪んでしまうことが免れない。

図6に示すように、本発明が提供する混合励振の合成フィルタ模式図において、清・濁の予測をするのではなく、マルチサブバンド清濁混合励振で、サブバンド毎における清音と濁音を、濁音度によって混合を行うため、清音と濁音は、時間上明確な硬い限界を持たなくなり、原方法におけるいくつかの濁音の間に突如清音が現れ、明らかに音のゆがみを引き起こす問題を解決した。下記公式（7）で、初期コーパスにおける音声から某サブバンドの現在フレームの濁音度を引き出す。
その内、S_tは某サブバンドの現在フレームの第t目の音声サンプルの値で、
は、tより
時隔たった音声サンプルの値で、Ｔは１フレームのサンプル数であり、
が基本音声周期を取る際、
は、現在サブバンドの現在フレームの濁音度である。

図6に示すように、具体的に、全局最適化後に生成する音声パラメータがパラメータ音声合成器に入力され、まず、音声パラメータ中の基本音声周波パラメータに基づいて、準周期性パルス序列を構成し、ホワイトワイズによってランダム序列を構成する。その後、濁音度によっ構成された濁音サブバンドフィルタ製品を介して、その構成された準周期性パルス序列から信号の濁音成分を取得し、濁音度によっ構成された清音サブバンドフィルタを介してランダム序列から信号の清音成分を取得し、濁音成分と清音成分を加算して混合励振信号を取得する。最後に、混合励振信号が、スペクトル包絡パラメータによって構成された合成フィルタを介した後、１フレームの合成音声波形を出力する。

勿論、最適化後の音声パラメータを確定した後でも、依然として先に清・濁音の判定を行え、濁音の場合に混合励振を用い、清音の場合にホワイトワイズを用いる。但し、この方法は、同様に、硬い限界による音の歪みを引き起こす問題がある。そのため、本発明は、前記清・濁の予測を行わずに、マルチサブバンド清濁混合励振の実施形態が好ましい。

本発明は、任意時間長音声の継続合成の優勢があるため、１フレームの音声波形の出力が完了した後でも、継続的に次のフレームの音声を循環処理することができる。次のフレームの最適化後の音声パラメータが、予め生成かつＲＡＭ中に蓄積されていないため、現在フレームの処理が完了後、ステップS220に戻り、モジュールから当該音素の次のフレームの音声パラメータの略値を取り出し、ステップS220〜250を繰り返して、当該音素の次のフレームに対して音声合成処理を行ってからはじめて、最終的に次のフレームの音声波形を出力することができる。このように、すべての音素モジュールのすべてのフレームのパラメータが処理完成したまで循環処理し、すべての音声を合成する。
本発明の前記パラメータ音声合成方法は、ソフトウェアで実現するか、またハードウェアで実現か、或はソフトウェアとハードウェアの組み合わせ方法で実現できる。

図8は本発明のもう一つの実施例に基づくパラメータ音声合成システム800のブロック図を示す。図8に示すように、パラメータ音声合成システム800は、入力テキスト分析手段830と、粗検索手段840と、平滑化フィルタ手段850と、全局最適化手段860と、パラメータ音声合成手段870と循環判断手段880とを含む。そのうち、またコーパス訓練に用いられる音声パラメータ引出手段と統計モジュール訓練手段を含むことができる（図には示していない）。

その内、音声パラメータ引出手段は、訓練コーパス中の音声の音声パラメータを引き出すためであり、統計モジュール訓練手段は、音声パラメータ引出手段の引き出した音声パラメータに基づいて、異なるコンテキスト情報時、音素毎が各音声パラメータの対応する統計モジュールを訓練するとともに、当該統計モジュールを統計モジュールベース中に保存する。

入力テキスト分析手段830は、入力したテキストを分析するとともに、前記入力したテキストへの分析に基づいて、コンテキスト情報を含む音素序列を取得するためであり、粗捜索手段840は、順次に音素序列中の一つ音素を引き出し、かつ統計モジュール中に入力テキスト分析手段830が取得した前記音素の各音声パラメータの対応する統計モジュールを捜索し、フレームによって当該音素の各統計モジュールを引き出して、合成待ち音声パラメータの略値とするためであり、平滑化フィルタ手段850は、フィルタ組を用いて、合成待ち音声パラメータの略値に対して濾過を行って、平滑後の音声パラメータを取得するためであり、全局最適化860は、全局パラメータ最適化器を用いて、平滑化フィルタ手段850が平滑した後の各音声パラメータに対して全局パラメータ最適化を行って、最適化後の音声パラメータを取得するためであり、パラメータ音声合成手段870は、パラメータ音声合成器を用いて、全局最適化手段860が最適化した後の音声パラメータに対して合成を行って、合成音声を出力するためである。

循環判断手段880が、パラメータ音声合成手段870と粗捜索手段840の間に接続され、１フレームの音声波形の輸出が完了後に、音素中に未処理のフレームが存在するかどうかを判断するためであり、もし存在すれば、当該音素の次のフレームに対して、前記粗捜索手段、平滑化フィルタ手段、全局最適化手段、パラメータ音声合成手段を繰り返し用いて引き続き捜索し、音声パラメータが対応する統計モジュール略値、濾過した平滑値、全局最適化、パラメータ音声合成の循環処理を、前記音素序列中のすべての音素のすべてのフレームの処理が完了するまで行う。

次のフレームが最適化後の音声パラメータが予め生成かつＲＡＭ中に蓄積されていないため、現在フレームの処理が完了した後、粗捜索手段840に戻り、モジュール中から当該音素の次のフレームを取得し、粗捜索手段840、平滑化フィルタ手段850、全局最適化手段860とパラメータ音声合成手段870を繰り返し用いて音声合成処理を行ってはじめて、最終的に次のフレームの音声波形を出力する。このように、すべての音素序列のすべての音素のすべてのフレームのパラメータの処理が完了し、すべての音声が合成されるまで循環処理を行う。

その内、前記方法に対応する本発明の好ましい実施方法において、統計モジュール訓練手段は、さらに音響パラメータモジュール訓練手段、クラスタ手段、強制位置合わせ手段、状態時間長モジュール訓練手段及びモジュール統計手段（図には示されていない）、具体的には、
音素毎のコンテキスト情報に基づいて、音素毎の各音響パラメータのために一つのモジュールを訓練するための音声パラメータモジュール訓練手段と、
前記音素のコンテキスト情報に基づいて、関連する音素に対してクラスタを行うためのクラスタ手段と、
前記モジュールを用いて訓練コーパス中の音声に対してフレームから形態までの強制的な位置合わせを行うための強制位置合わせ手段と、
前記強制位置合わせ手段の強制位置合わせ過程において成された時間長情報を用いて、音素が異なるコンテキスト情報時にクラスタした後の形態モジュールを訓練するための状態時間長モジュール訓練手段と、
異なるコンテキスト情報時に音素毎が各音声パラメータが対応する統計モジュールを、統計モジュールベースに構成するためのモジュール統計手段とを含む。

図9は、本発明の一つの好ましい実施例のパラメータ音声合成手段のロジック的な構成模式図である。図9に示すように、パラメータ音声合成手段870は、さらに準周期パルス発生器871と、ホワイトノイズ発生器872、濁音サブバンドフィルタ873と、清音サブバンドフィルタ874と、加算器875と、合成フィルタ876とを含む。その内、準周期パルス発生器871は、音声パラメータ中の基本音声周波パラメータに基づいて、準周期性パルス序列を構成するためであり、ホワイトノイズ872は、ホワイトノイズによりランダム序列を構成するためであり、濁音サブバンドフィルタ873は、サブバンド濁音度に基づいて、その構成された準周期パルス序列から信号の濁音成分を確定するためであり、清音サブバンドフィルタ874は、濁音度サブバンドに基づいて、ランダム序列から清音成分を確定するためであり、その後、濁音成分と清音成分を加算器875で加算して、混合励振信号が得られる。最後に、混合励振信号が、スペクトル包絡パラメータから構成された合成フィルタ876により合成され、濾過を行ってから対応する１フレームの合成音声波形を出力する。

前記からわかるように、本発明が用いる合成方法は縦方向処理であり、即ち、フレーム毎の音声合成が皆、統計モジュールの略値を引き出し、濾過によって平滑値を取得し、全局最適化によって最適化値を取得し、パラメータ音声合成によって音声を取得する四つの処理ステップを行ってから、フレーム毎の音声の合成が皆、この四つの処理ステップを再び繰り返す。但し、従来のパラメータ音声合成方法は横方向のオフライン処理を用いており、即ちすべてモジュールの略パラメータを引き出し、最尤法によってすべてのフレームの平滑パラメータを生成し、母分散モジュールによってすべてのフレームの最適化パラメータを取得し、最後に、パラメータ合成器からすべてのフレームの音声を出力する。従来のパラメータ音声合成方法において階層毎にすべてのフレームのパラメータを保存する必要であるのに比べて、本発明の縦方向処理方法は、現在フレームに必要な固定の蓄積量のパラメータを保存するだけで良い。したがって、本発明の縦方向処理方法は、従来の方法が用いる横方向処理方法の引き起こす合成音声時間長が限定される問題を解決した。

また、本発明は、合成段階において、静態パラメータのみを用い、動態と分散情報を用いらないことで、モジュールベースの大きさを従来方法の約1/6に減少させる。特別に設計したフィルタ組を用いることで、最尤法パラメータ方法によってパラメータの平滑生成を行うことを取り替えて、かつ新しい全局パメータ最適化器を用いることで、従来方法の母分散モジュールによって音声パラメータの最適化を行うことを取り替えて、縦方向処理構成を組み合わせることで、固定する大きさのＲＡＭで任意時間長の音声パラメータを継続的に予測する機能を実現し、従来方法の小さいＲＡＭチップ上に任意時間長の音声パラメータを継続的に予測できない課題を解決したと同時に、音声合成方法が小さい蓄積空間チップ上の応用を拡大するに役立つ。時刻毎において、いずれも清濁音混合励振信号を用いることで、従来方法の音声波形を合成する前に、先に清/濁音の確実な判断を行うことを取り替え、従来方法のいくつの濁音を合成する間に突如清音が現れることにより音の歪みを引き起こす問題を解決し、生成された音声がさらに連続的で、一致性が高い。

図10を参考するように、本発明のもう一つの実施例が提供するパラメータ音声合成方法であって、当該方法には、
合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して以下の処理を行い、即ち、
101：入力テキストの音素序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引き出すとともに、当該統計モジュールが、現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、
102：前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、
103：統計によって得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
104：生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した一つのフレームの音声を取得する。

さらに、本発明の合成待ち音声パラメータを予測する過程において、予測する時に関わるパラメータが将来のパラメータまで及ばず、某時刻の出力フレームは、ただ当該時刻とその前の出力フレーム或いは当該時刻前の時刻の出力フレームに頼っており、将来に入力または出力フレームと関係ない。具体的には、ステップ102において、前記略値と前一時刻の音声フレームの情報を用いて、当該略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、その内、当該前一時刻の音声フレームの情報は、前一時刻に予測された音声パラメータの平滑値である。

さらに、その予測される音声パラメータがスペクトル包絡パラメータ、サブバンド濁音度パラメータである際は、前記公式（2）を参考し、本発明は下記公式に基づいて、前記略値と前一時刻に予測された音声パラメータの平滑値を用いて、前記略値に対して濾過を行って、現在予測する音声パラメータの平滑値を取得する。
その予測される音声パラメータが基本音声周波パラメータである際は、前記公式（3）を参考にし、本発明は下記公式に基づいて、前記略値と前一時刻に予測した音声パラメータの平滑値を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得する。
その内、前記公式における、
は、時刻が第
フレームであることを示し、
は、その予測する音声パラメータが第
フレーム時の略値を示し、
は、
が濾過、平滑を行った後の値を示し、
、
はそれぞれフィルタのパラメータで、
と
の値は異なる。

さらに、本発明はステップ104において、具体的に下記ステップを含み、即ち、
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成し、
基本音声周波パラメータによって構成された準周期性パルス序列が、前記濁音サブバンドフィルタを介して、音声信号の濁音成分を取得し、ホワイトノイズによって構成されたランダム序列が、前記清音サブバンドフィルタを介して音声信号の清音成分を取得し、
前記濁音成分と清音成分を加算して混合励振信号を取得し、前記混合励振信号が、スペクトル包絡パラメータによって構成されたフィルタを介してから、１フレームの合成音声波形を出力する。

さらに、本発明は前記合成段階の前に、訓練段階も含む。訓練段階において、コーパス中から引き出した音声パラメータは静態パラメータのみを含み、或いは静態パラメータと動態パラメータを含み、訓練後取得した統計モジュールのモジュールパラメータは、静態モジュールパラメータのみを保留する。

合成段階におけるステップ101が具体的には、現在フレームに基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とすることを含む。

本発明のもう一つの実施例は音声パラメータの合成システムを提供した。図11を参考するように、当該システムには、
合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、音声合成を行うための循環合成装置110を含み、
前記循環合成装置110が、
入力テキストの音声序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引出し、かつ当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とするための粗捜索手段111と、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するための平滑化フィルタ手段112と、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差値の比率に基づいて、前記現在予測される音声パラメータの平滑値に対して、全局最適化を行うための全局最適化手段113と、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した１フレームの音声を取得するためのパラメータ音声合成手段114とを含む。

さらに、前記平滑化フィルタ手段112は、前記略値と前一時刻に予測した音声パラメータの平滑値である前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得することためであるローパスフィルタ組を含む。

さらに、その予測される音声パラメータはスペクトル包絡パラメータ、サブバンド濁音度パラメータである時、前記ローパスフィルタ組は、下記公式に基づいて、前記略値と前一時刻に予測された音声パラメータの平滑値を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得する。
その予測される音声パラメータは基本音声周波パラメータである時、前記ローパスフィルタ組は、下記公式に基づき、前記略値と前一時刻に予測された音声パラメータの平滑値を用いて、前記略値に対して濾過を行って、現在予測する音声パラメータの平滑値を取得する。
その内、前記公式における、
は、時刻が第
フレームであることを示し、
は、予測する音声パラメータが第
フレーム時の略値を示し、
は、
が濾過、平滑を行った後の値を示し、
、
はそれぞれフィルタのパラメータで、
と
の値が異なる。

さらに、前記全局最適化手段113は、下記公式を用いて、統計により前記音声パラメータの全局平均値と全局標準偏差値を取得して、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成するための全局パラメータ最適化器を含み、

その内、
は時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、ｗは重み値で、
は全局最適化後に取得した必要な音声パラメータで、ｒは統計により取得した予測される音声パラメータの全局標準偏差値で、ｍは統計により取得した予測される音声パラメータの全局平均値であり、ｒとｍの値は定数である。

さらに、前記パラメータ音声合成手段114は、
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成するためのフィルタ構成モジュールと、
基本音声周波パラメータによって構成された準周期性パルス序列に対して濾過を行って、音声信号の濁音成分を取得する前記濁音サブバンドフィルタと、
ホワイトノイズによって構成されたランダム序列に対して濾過を行って、音声信号の清音成分を取得するための前記清音サブバンドフィルタと、
前記濁音成分と清音成分を加算して混合励振信号を取得するための加算器と、
前記混合励振信号が、スペクトル包絡から構成されたフィルタを介してから１フレームの合成された音声波形を出力するための合成フィルタとを含む。

さらに、前記システムは、また、訓練段階において、コーパス中から引出した音声パラメータに、静態パラメータのみを含ませ、或いは静態パラメータと動態パラメータを含ませ、及び訓練後に取得された統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留するための訓練装置を含み、
前記粗捜索手段111は、具体的に合成段階において、前記現在の音素に基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とするためである。

本発明の実施例における粗捜索手段111、平滑化フィルタ手段112、全局最適化手段113、及びパラメータ音声合成手段114に関わる操作は、それぞれ前記実施例における粗捜索手段840、平滑化フィルタ手段850、全局最適化手段860及びパラメータ音声合成手段870の関連記載を参照すればよい。

前記に述べたように、本発明の実施例の技術案は、現在フレーム前の音声フレームの情報と予め統計により得られた音声パラメータの全局平均値と全局標準偏差値の比率などを利用する手段により、新型のパラメータ音声合成方法を提供した。

当該技術案は、合成段階において、縦方向の処理方法を用いて、フレーム毎の音声に対して順次に、それぞれ合成を行うことで、合成過程において、現在フレームに必要な固定容量のパラメータのみを保存すればよい。本発明における新型の縦方向の処理のストラクチャは、固定容量の大きさのＲＡＭを用いることで、任意時間長の音声の合成を実現でき、音声合成の際にＲＡＭ容量への要求が明らかに低下し、わりと小さいＲＡＭチップに任意時間長の音声を継続的に合成できるようになる。

当該技術案は、連続性、一致性と自然体の高い音声を合成することができ、音声合成方法が小さい蓄積空間チップへの普及と応用に寄与する。
以上のように、模式図を参考しながら例示で本発明のパラメータ音声方法及びシステムを記述した。但し、当業者は、前記本発明に言及したパラメータ音声方法及びシステムについて、さらに、本発明の内容を脱しないことを基に、様々な改良を行えることが分かる。そのため、本発明の保護範囲は附する請求の範囲の内容によって確定されるべきである。

Claims

合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、
入力テキストの音素序列中の現在音素に対して、統計モジュールベース中から対応する統計モジュールを引き出すとともに、当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成された１フレームの音声を取得する
処理を行うことを含むパラメータ音声合成方法。
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得することが、具体的に、
前記略値と前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得することを含み、
その内、前記前一時刻の音声フレームの情報が前一時刻に予測された音声パラメータの平滑値である
ことを特徴とする請求項１記載のパラメータ音声合成方法。
下記公式を用いて、統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、

その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、ｗは重み値で、
は全局最適化後に取得された必要な音声パラメータで、ｒは統計により取得した予測される音声パラメータの全局標準偏差値で、ｍは統計により取得した予測される音声パラメータの全局平均値であり、ｒとｍの値は定数である
ことを特徴とする請求項１記載のパラメータ音声合成方法。
前記生成された音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した１フレームの音声を取得することは、
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成することと、
基本音声周波パラメータによって構成された準周期性パルスを、前記濁音サブバンドフィルタに通し、音声信号の濁音成分を取得することと、
ホワイトノイズによって構成されたランダム序列を、前記清音サブバンドフィルタに通し、音声信号の清音成分を取得し、
前記濁音成分と清音成分とを加算して混合励振信号を取得し、
前記混合励振信号を、スペクトル包絡パラメータによって構成されたフィルタに通してから、１フレームの合成した音声波形を出力することを含む、
ことを特徴とする請求項１記載のパラメータ音声合成方法。
前記合成段階の前に、前記方法がまた訓練段階を含み、
訓練段階において、コーパスから引き出した音声パラメータが静態パラメータのみを含み、或いは静態パラメータと動態パラメータを含み、
訓練後取得した統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留し、
合成段階において、前記の当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とすることは、具体的に、
前記現在音素に基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とする
ことを特徴とする請求項１記載のパラメータ音声合成方法。
合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して音声合成を行うための循環合成装置を含み、
前記循環装置は、
入力テキストの音声序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引出し、かつ当該統計モジュールの現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とするための粗捜索手段と、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するための平滑化フィルタ手段と、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化して、必要な音声パラメータを生成するための全局最適化手段と、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した１フレームの音声を取得するためのパラメータ音声合成手段と
を含むパラメータ音声合成システム。
前記平滑化フィルタ手段は、ローパスフィルタ組を含み、
前記ローパスフィルタ組は、前記略値と前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するためであり、
その内、前記前一時刻の音声フレームの情報が前一時刻に予測された音声パラメータの平滑値である請求項６記載のパラメータ音声合成システム。
前記全局最適化手段は、全局パラメータ最適化器を含み、
前記全局パラメータ最適化器が、下記公式を用いて、統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成するためであり、

その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、ｗは重み値で、
は全局最適化後に取得した必要な音声パラメータで、ｒは統計により取得した予測される音声パラメータの全局標準偏差の比値で、ｍは統計により取得した予測される音声パラメータの全局平均値で、ｒとｍの値は定数である
請求項６記載のパラメータ音声合成システム。
前記パラメータ音声合成手段は、
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成するためのフィルタ構成モジュールと、
基本音声周波パラメータによって構成された準周期性パルスに対して濾過を行って、音声信号の濁音成分を取得する前記濁音サブバンドフィルタと、
ホワイトノイズによって構成されたランダム序列に対して濾過を行って、音声信号の清音成分を取得するための前記清音サブバンドフィルタと、
前記濁音成分と清音成分とを加算して混合励振信号を取得するための加算器と、
前記混合励振信号をスペクトル包絡パラメータによって構成されたフィルタに通してから、１フレームの合成した音声波形を出力するための合成フィルタと
を含む請求項６記載のパラメータ音声合成システム。
前記システムは、訓練装置を含み、
前記訓練装置は、訓練段階において、コーパスから引出された音声パラメータに、静態パラメータのみを含ませ、或いは静態パラメータと動態パラメータを含ませ、及び訓練後に取得された統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留するためであり、
前記粗捜索手段は、具体的に、合成段階において、前記現在音素に基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とするためである
ことを特徴とする請求項６のパラメータ音声合成システム。