JP4387822B2

JP4387822B2 - 韻律正規化システム

Info

Publication number: JP4387822B2
Application number: JP2004029853A
Authority: JP
Inventors: 健太郎村瀬; 伸之片江; 一宏渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-02-05
Filing date: 2004-02-05
Publication date: 2009-12-24
Anticipated expiration: 2024-02-05
Also published as: JP2005221785A

Description

本発明は、音声データや合成音声を作成するために用いる音声または韻律データの正規化システムに関し、特に、銀行のＡＴＭや音声ポータルなどの自動音声応答システムにおいて一群のメッセージに用いる音声データや合成音声の作成に有効な、音声または韻律データの正規化システムに関する。

近年、省力化・機械化によるコスト削減の要請が強まり、銀行の現金預け払い業務や、電話による各種問い合わせの一次受付、チケット予約業務などに対して、既に自動音声応答システムを利用したサービスが普及している。

従来、これらの応答メッセージには録音再生音が使われており、予めプロナレーターがサービスの全メッセージを読み上げて録音しておき、必要なメッセージのみ再生するものであった。

また最近では、合成音声を利用する場合もある。従来、合成音声は音質面で肉声に及ばなかったが、特許文献１、特許文献２には、固定メッセージに対して予め人間が発声した音声から抽出した韻律データを利用して、質のよい合成音声を生成する方法が示されている。

例えば、特許文献１には、定型文音声を合成するための音声合成装置に関し、聞き取りやすく、自然な韻律をもつ音声を合成することを目的として、合成すべき一群のメッセージのすべてに共通する固定情報である定型部と該一群のメッセージ毎に異なる可変の情報である非定型部からなる文を、音節、音素等の合成単位を滑らかにつなぎ合わせて合成する音声合成装置が開示されている。この装置は、有声音の音声が包含する最低周波数である基本周波数の時間変化パターンであるＦ０パターンの生成にあたって、定型部のＦ０パターンを生成する第１のＦ０パターン生成手段と、非定型部のＦ０パターンを生成する第２のＦ０パターン生成手段と、当該各生成手段により生成したＦ０パターンを順次接続して文のＦ０パターンを生成する手段と、該Ｆ０パターンを用いて音声信号を合成する手段とを備えている。
特開平８−６３１８７号公報特開平１１−３３８４８８号公報

対話サービスに使われる一群のメッセージは、全メッセージを通して話す速さ、声の高さ、声の大きさといった韻律的特徴が統一していることが重要である。収録したメッセージの韻律にムラがあると、前後のメッセージで話す速さが急に変化するなど不自然な印象を与える。

しかし、実際のナレーター収録では、収録の後半ほど喋る速さが速くなるなどの傾向がり、韻律的特徴を厳密に統一するのは難しい。また、収録後、追加や修正のために後日再収録を行なう場合にも、前回の音声を聞きなおして、それにあわせるように発声する必要があり、手間がかかる。このように、一群の多数のメッセージに対して、韻律的に質のそろったメッセージを用意するのは非常に困難で時間とコストのかかるものであった。

また、合成音声を利用する場合、特許文献２には、１文章内の部分的な箇所に対してピッチパタンを調整して自然性を高める方法が開示されているが、他の合成音声との韻律的整合性に関しては記述がない。特許文献２に記載された技術のように、肉声の韻律データを抽出して合成音声を作成する場合には、様々な人から抽出した韻律データを組み合わせて一つのサービスのメッセージ群を作成する場合もあり、その場合、それぞれのデータの話す速さ、声の高さ、抑揚の大きさを一致させないと、不自然な印象を与えてしまう。

また、声の高さや抑揚、話す速さといった韻律的特徴は、同一人物でも文章毎に、また、１文章内でもダイナミックに変化しており、特許文献２に記載された技術のように部分的な特徴だけで整合性を調整しても、一群のメッセージ全体としてバランスのとれた自然な音声メッセージを作成することはできない。

本発明は、上記問題点を解決するべく、韻律的特徴のそろった一群の音声メッセージを自動的に低コストで生成することを目的とする。

上記の目的を達成するために、本発明にかかる韻律正規化システムは、音声データから抽出された変換前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、その韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
入力された韻律の時系列データの種類に応じて、変換目標となる韻律を決める目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
前記韻律変換手段により正規化された後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする。

上記の構成にかかる本発明の韻律正規化システムにおいて、前記韻律時系列データ入力手段から入力された韻律の時系列データが、（１）ピッチの時系列データ、（２）音声パワーの時系列データ、（３）各発声音素の音素種別と音素長のデータの少なくとも一つを含み、前記韻律の時系列データがピッチの時系列データを含む場合、前記代表パラメータ計算手段が、（ａ）ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、（ｂ）ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、の少なくとも一つを含み、前記韻律変換手段が、前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、前記韻律の時系列データが音声パワーの時系列データを含む場合、前記代表パラメータ計算手段が、音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、前記韻律変換手段が、前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、前記代表パラメータ計算手段が、各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、前記韻律変換手段が、前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む構成とすることが好ましい。かかる構成により、それぞれ、入力された韻律時系列データの声の高さと抑揚の度合い、話す速さ、声の大きさを目標の値に変換することができるからである。

本発明の韻律正規化システムにおいて、目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、前記目標パラメータ計算手段が、（１）ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算部、（２）ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、（３）各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、（４）音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、のうち少なくとも一つを備えることが好ましい。

かかる構成により、目標となる音声の韻律の時系列データを予め抽出しておけば、入力された韻律の時系列データを韻律的質のそろった韻律に変換できるからである。

本発明の韻律正規化システムにおいて、前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、有声音のピッチの平均値に基づいて、または、有声音のピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算することが好ましい。ピッチ抽出の乱れがあったり、長短の文章が入り混じり、ピッチの分布が部分的に大きく異なる場合においても、安定した声の高さパラメータの抽出と正規化ができるからである。

本発明の韻律正規化システムにおいて、前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間とポーズ区間に対してそれぞれ話速を求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有することが好ましい。ポーズの多い音声とポーズの少ない音声では、発声部分の物理的な音素長が同じでも、ポーズを含めた全体の話速は、ポーズが多いほうがゆっくり聞こえるため、ポーズを考慮した補正手段を有することで、ポーズの異なる他人の韻律データや、規則合成による韻律データが混在する場合でも、感覚的な話速の速さをそろえることができるからである。

本発明によれば、韻律の時系列データから、韻律的特徴を表す代表パラメータを求めることが可能になり、求められた代表パラメータと目標とする韻律を決める目標パラメータとを対比させることにより、もとの韻律を目標とする韻律へ変換し、韻律的特徴をそろえることができる。これにより、韻律的特徴のそろった一群の音声メッセージを自動的に低コストで生成することが可能となる。

以下、本発明のより具体的な実施形態について、図面を参照しながら説明する。

最初に、本発明の原理を、図１に示す。本発明の韻律正規化システム１００には、変換元の韻律データである入力韻律時系列データと、正規化で目標とする韻律を指定する目標パラメータが入力される。韻律正規化システム１００は、入力韻律時系列データが目標パラメータの韻律となるように正規化し、正規化した韻律時系列データを出力する。

ここで、入力される韻律時系列データは、声の高さを表すピッチの時系列データ（ピッチパタン）、音声パワーの時系列変化を表すパワーパタン、声のダイナミックレンジを表す抑揚パターン、あるいは、発声音素の種別とその時間長を表す音素長データのように、時系列にダイナミックに変化するデータであり、予め音声から抽出されたものである。

一方、正規化後の韻律を指定する目標パラメータは、声の高さ“４”、話速８モーラ／秒、抑揚２００Ｈｚ、音量“７”といった、時系列データではない抽象的なパラメータで与えられる。従って、入力された韻律時系列データを直接変換することができない。

そこで、本発明の一実施形態にかかる韻律正規化システム１００は、入力の韻律時系列データから、韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段２を備えることによって、時系列データをパラメータ化し、韻律変換手段４で、目標パラメータと入力データの代表パラメータから韻律の変化率を計算し、該変化率に基づき、入力韻律時系列データの正規化を行い、入力された韻律時系列データを目標パラメータで表される韻律に正規化された韻律時系列データを出力する。

なお、本発明にかかる韻律正規化システムにおいて、変換元となる入力データ、変換目標を決める目標パラメータ、そして韻律の変換処理のそれぞれについて、以下の態様が考えられる。

例えば、変換元となる入力データとしては、（１）韻律の時系列データを入力する方法、（２）生の音声データを与え、そこから韻律の時系列データを抽出する方法、がある。

目標パラメータの与え方としては、（１）目標パラメータを直接指定する方法、（２）生の音声データから抽出された時系列の韻律データを与える方法、または、（３）目標の韻律で発声された音声データを与えて、そこから目標となるパラメータを抽出する方法、がある。

韻律の変換処理としては、（１）韻律の時系列データを変換し、後に続く音声合成や合成用の韻律データベースの作成処理に備える場合、（２）目的の韻律になるように生の音声データを直接信号処理により韻律変換する場合、の２つの方法がある。

本発明の実施形態としては、上記のそれぞれの組み合わせが考えられ、これらを以下に述べる。

（第１の実施形態）
本発明の第１の実施形態の構成図を図２〜４に示す。本実施形態は、韻律の時系列データを入力とし、目標パラメータを直接与え、韻律時系列データを直接変換して正規化する場合の構成例である。

図２において、１００は本実施形態の韻律正規化システム、１は韻律時系列データ入力手段、２は入力された韻律時系列データの代表パラメータを計算する代表パラメータ計算手段、３は目標とする韻律を表すパラメータ（目標パラメータ）を入力する目標パラメータ入力手段、４は韻律変換手段、５は変換データ出力手段を示す。

さらに、入力データの代表パラメータ計算手段２は、図３に示すように、声の高さ計算部２１、抑揚計算部２２、話速計算部２３、音量計算部２４から成り、また、韻律変換手段４は、同じく図３に示すように、ピッチパタン変換部４１、音素長変換部４２、パワーパタン変換部４３から成る。

韻律時系列データ入力手段１には、正規化前の韻律時系列データが入力される。入力された韻律時系列データは、代表パラメータ計算手段２と韻律変換手段４へ出力される。韻律時系列データ入力手段１は、図２に示すように直接韻律時系列データを入力する場合の他に、図４に示すように韻律時系列データＤＢ（データベース）１２とデータ選択部１１で構成してもよい。この場合、正規化を行いたい韻律時系列データを示すデータＩＤをデータ選択部１１に入力し、データ選択部１１では、複数の音声の韻律時系列データが登録された韻律時系列データＤＢ１２から指定されたデータＩＤに対応する韻律時系列データを選択し、出力する構成にする。

本実施形態における韻律時系列データとしては、（１）声の高さと抑揚の度合いを表すピッチパタン（ピッチの時系列データ）、（２）発声した各音素の音素種別とその音素長を表す音素長データ、（３）音声のパワーの時系列変化を表すパワーパタンの３種類である。

入力データの代表パラメータ計算手段２には、韻律時系列データ入力手段１から、上記３種類の韻律時系列データの少なくとも１種類が入力され、対応する代表パラメータを計算する。

図３の声の高さ計算部２１には、韻律の時系列データのうち、ピッチパタンが入力され、入力された韻律データの声の高さを表す声の高さパラメータを計算する。本パラメータを計算する際は、ピッチの揺らぎやピッチ抽出誤りの影響を軽減するために、ピッチパタンの統計値を用いるのが好ましく、ピッチの平均値や、ピッチの分布の中で最低ピッチまたは最高ピッチの値、あるいは、その付近の分布の平均値を、声の高さを規定するパラメータとして用いればよい。

以下に、平均値を用いて声の高さを計算する場合の１例を示す。まず、入力データをポーズ箇所で区切り、ポーズに挟まれた複数の連続発声区間に分割する。それぞれの連続発声区間をS_k（k=1,2,…,M）とする。次に各区間S_k毎に、その区間に含まれるピッチデータ数N_Skとその平均ピッチP_Ave(Sk)を求める。最終的な声の高さパラメータは、各連続発声区間のピッチ平均値P_Ave(Sk)を各区間のデータ数の２乗で重み付けをした平均値として次式で求める。

このように、各連続発声区間に区切って重み付け平均をとることによって、一連の文章の中でも、発声区間の長い主要な発声部分の声の高さに近いパラメータ値を計算することができる。

抑揚計算部２２にもピッチパタン（必要な場合は音素長データも）が入力され、入力の韻律データの声のダイナミックレンジを表す抑揚パラメータを計算する。本パラメータを計算する際は、ピッチの揺らぎやピッチ抽出誤りの影響を軽減するためにピッチパタンの統計値を用いるのが好ましく、例えば、ピッチの分散値や、ピッチデータの分布の分布幅を用いて声のダイナミックレンジを表す抑揚パラメータを計算すればよい。

以下に、ピッチデータの分布を用いて声の抑揚パラメータを計算する場合の１例を示す。まず、入力のピッチの全時系列データに対して、そのピッチデータの分布を求める。次に、ピッチデータの分布のうち最低ピッチからの分布の一定割合（例えば全データの１０％）に属するピッチデータを抽出し、それらの平均値を声の高さの最低値を表すベースピッチとする。同様に、ピッチデータの分布のうち、最高ピッチからの分布の一定割合（例えば全データの１０％）に属するピッチデータを抽出し、それらの平均値を声の高さの最高値を表すトップピッチとする。最後に、ベースピッチとトップピッチの差分値を求め、これを入力韻律データの声のダイナミックレンジを表す抑揚パラメータとして用いる。

話速計算部２３には、韻律の時系列データのうち、音素長種別と音素長データが入力され、入力の韻律データの話す速さを表す話速パラメータを計算する。話速の計算は、例えば、入力のデータの総音素長をモーラ数で割った値の逆数を、１秒間に発声されるモーラ数として求め、話速パラメータとして用いればよい。以下に、その計算例を示す。

まず、入力データをポーズ箇所で区切り、ポーズに挟まれた複数の連続発声区間に分割する。それぞれの連続発声区間をS_k（k=1,2,…,M）とする。次に各区間S_k毎に、その区間に含まれるモーラ数N_Skと、その区間の総音素長をモーラ数N_Skで割った平均音素長L_Ave(Sk)を求める。最終的な話速パラメータSP_Ave［モーラ／sec］は、各連続発声区間の平均音素長L_Ave(Sk)を各区間のモーラ数の２乗で重み付けをした全平均音素長の逆数として次式で求める。

このように、各連続発声区間に区切って重み付け平均をとることによって、一連の文章の中でも、発声区間の長い主要な発声部分の話速に近いパラメータ値を計算することができる。

さらに、話速パラメータ計算の際には、発声区間とポーズ区間の話速を別々に計算し、ポーズ区間の話速を使って発声区間の話速を補正することが望ましい。人は、発声区間の話速が同じでも、ポーズ区間の長さが長いほうが、話速が遅いと感じるため、例えば、ポーズ区間が長い場合には、求めた発声区間の話速をポーズ区間の長さに反比例して遅めに補正すればよい。

音量計算部２４には、韻律の時系列データのうち、音声のパワーパタンが入力され、声の大きさを規定する音量パラメータを計算する。例えば、パワーパタンとしては、各時刻における音声データの振幅の絶対値や２乗値を用いればよく、音量パラメータはその平均値として求めればよい。

一方、目標パラメータ入力手段３には、正規化の目標となる韻律を決める目標パラメータが入力され、韻律変換手段４に出力される。本実施例で扱う目標パラメータとしては、入力データの代表パラメータ計算手段２で計算したパラメータに対応して、（１）声の高さパラメータ、（２）抑揚パラメータ、（３）話速パラメータ、（４）音量パラメータの４種類である。

韻律変換手段４には、入力データの代表パラメータ計算手段２で計算した４つの入力代表パラメータと、目標パラメータ入力手段３から出力される４つの目標パラメータと、さらに、韻律時系列データ入力部１から変換対象となる正規化前の韻律時系列データが与えられる。韻律変換手段４は、入力と目標の代表パラメータから韻律の変換率を計算し、入力韻律時系列データを変換率に基づいて正規化し、正規化した正規化韻律時系列データを変換データ出力手段５へ出力する。

図３に示すピッチパタン変換部４１には、入力データの代表パラメータ計算手段２と目標パラメータ入力手段３から、それぞれ入力と目標の声の高さ／抑揚パラメータが入力され、目標のパラメータに正規化したピッチパタンを出力する。例えば、声の高さを入力のＡ［Ｈｚ］から目標のＢ［Ｈｚ］に変換する場合は、ピッチパタンを一律にＢ／Ａ倍すればよい。

音素長変換部４２には、入力データの代表パラメータ計算手段２と目標パラメータ入力手段３から、それぞれ入力と目標の話速パラメータが入力され、目標のパラメータに合うよう正規化した音素長データを出力する。

パワーパタン変換部４３には、入力データの代表パラメータ計算手段２と目標パラメータ入力手段３から、それぞれ入力と目標のパワーパタンが入力され、目標のパラメータに変換したパワーパタンを出力する。

これらの変換時には、音素長、パワーパタンもピッチパタンと同様に、目標と入力のパラメータの比率で、それぞれ音素長、パワーを定数倍すればよい。

（第２の実施形態）
本発明の第２の実施形態を図５および図６に示す。本実施形態は、入力として、韻律の時系列データと目標パラメータを直接入力するのではなく、それぞれ生の音声データを入力する場合である。

本実施形態の韻律正規化システム１０１は、第１の実施形態で図２に示した構成の他に、入力音声データの韻律時系列データ抽出手段６（入力韻律時系列データ抽出手段）、目標音声データの韻律時系列データ抽出手段６０（目標韻律時系列データ抽出手段）、目標データの代表パラメータ計算手段２０（目標パラメータ計算手段）を備える。韻律時系列データ入力手段１、入力データの代表パラメータ計算手段２、目標パラメータ入力手段３、韻律変換手段４、変換データ出力手段５については、その構成と動作が第１の実施形態（図２）と同様であるため、説明を省略する。

入力音声データの韻律時系列データ抽出手段６は、さらに図６に示すように、読み情報入力部６１、音声データ入力部６２、韻律時系列データ計算部６３から成り、韻律時系列データ計算部６３はさらに、ピッチパタン計算部６３１、音素長計算部６３２、パワーパタン計算部６３３から成る。

音声データ入力部６２と読み情報入力部６１には、それぞれ正規化前の入力音声データとその読み情報が入力され、韻律時系列データ計算部６３に出力される。韻律時系列データ６３のピッチ抽出部６３１では、音声データ入力部６２から入力される音声データからピッチを抽出し、ピッチの時系列データであるピッチパタンを出力する。ピッチパタンの抽出には、自己相関関数を用いる方法を利用すればよい。

音素境界検出部６３２には、音声データとその発声内容を表す読み情報が、それぞれ音声データ入力部６２、読み情報入力部６１から入力され、各音素の境界を検出し、音素境界間の時間間隔を各音素と対応付けて、音素長データとして出力する。音素境界の検出には、音声認識で用いられているＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）による音素境界検出などを用いればよい。

パワーパタン計算部６３３は、音声データ入力部６２から入力される音声データの各時刻における瞬時パワーを計算し、その時系列データをパワーパタンとして出力する。瞬時パワーとしては、振幅の絶対値や、２乗値を用いればよい。

韻律時系列データ計算部６３で計算されたこれら３種類の韻律時系列データは、韻律時系列データ入力手段１へ出力される。

目標音声データの韻律時系列データ抽出手段６０は、入力音声データの韻律時系列データ抽出手段６と比較して、入力データが、目標音声データとその読み情報に置き換わる点、出力データが目標音声データの韻律時系列データに置き換わる点、出力先が目標データの代表パラメータ計算手段２０に置き換わる点を除けば、各部の構成と動作は入力音声データの韻律時系列データ抽出手段６と同様なので、詳細の図示、説明は省略する。

また、目標データの代表パラメータ計算手段２０も、入力データの代表パラメータ抽出手段２と比較して、目標音声データの韻律時系列データ抽出手段６０から目標韻律データが入力される点、出力データが目標パラメータで目標パラメータ入力手段３に出力する点を除けば、各部の構成と動作は入力データの代表パラメータ抽出手段２と同様なので、詳細の図示、説明は省く。

（第３の実施形態）
本発明の第３の実施形態の構成図を図７に示す。第３の実施形態は、本発明にかかる韻律正規化システムを用いた合成音声生成システムの一例である。

本実施形態の合成音声生成システム１０２は、第１の実施形態で図２に示した構成の他に、音声合成に関連する言語処理部７１、韻律生成部７２、波形辞書７３、音響処理部７４、音韻情報入力部７５と、肉声から抽出した韻律データベース８、目標データの代表パラメータ計算手段２０を備える。

韻律時系列データ入力手段１、入力データの代表パラメータ計算手段２、目標パラメータ入力手段３、韻律変換手段４、変換データ出力手段５については、その構成と動作が図２の第１の実施形態と同様であるため、説明を省略する。

本実施形態では、言語処理部７１と韻律生成部７２は音声合成の音韻情報と韻律情報を生成する部分に相当し、言語処理部７１は入力されたテキストを解析して読み情報を出力する。読み情報は音韻情報入力部７５と韻律生成部７２へ出力される。韻律生成部７２は生成された読み情報をもとに韻律情報を生成する。韻律生成部７２で生成された韻律データは、入力データの代表パラメータ計算部２と韻律変換手段４へ入力される。

代表パラメータ計算手段２は、他の実施例と同様、韻律データから代表パラメータを計算する。本実施形態では、目標となる韻律は、肉声から抽出され、既に正規化された韻律の時系列データが格納されている韻律データベース８と、データベースに登録されている全てのデータの韻律を代表するパラメータを計算する目標データの代表パラメータ計算手段２０で構成される。目標データの代表パラメータ計算手段２０の構成と動作は第２の実施形態と同じである。

音韻情報入力部７５では読み情報から音韻情報を作成し、音韻情報を音響処理部７４へ出力する。音響処理部７４では、音韻情報入力部７５から得られる音韻情報、韻律生成手段７２で生成された韻律データを韻律変換手段４で変換して正規化された韻律時系列データに従って、波形辞書に格納されている音声波形を信号処理し、接続しながら、合成音声を出力する。

（第４の実施形態）
本発明の第４の実施形態の構成図を、図８に示す。

本実施形態の韻律正規化システム（音声データ生成システム）１０３は、第１の実施形態で図２に示した構成の他に、入力音声データの韻律時系列データ抽出手段６を備え、韻律変換手段４０、変換データ出力手段５０が扱うデータが、第１の実施形態（図２）の韻律変換手段４、変換データ出力手段５と異なる。また、入力音声データの韻律時系列データ抽出手段６の構成と動作は、第２の実施形態と同様なので説明を省略する。

本実施形態の韻律変換手段４０の構成を図９に示す。韻律変換手段４０は、音声データ入力部４１０、目標ピッチパタン生成部４２１０とピッチ変換部４２２０からなる声の高さ変換部４２０、話速変換部４３０、音量変換部４４０で構成される。

本実施形態の韻律変換手段４０は、第１の実施形態の韻律変換手段４のように韻律時系列データを変換するのではなく、音声データ入力部４１０で入力される生の音声データに対する信号処理によって、韻律特徴を変換する。

声の高さ・抑揚変換部４２０では、まず、目標ピッチパタン生成部４２１０が、目標とする音声データと入力された声の高さパラメータの比率で、ピッチを一律に拡大縮小することにより、ピッチパタンを変換する。抑揚パラメータも同様に、ベースピッチ（ピッチの最低部分）からの変動幅を一律に拡大縮小することにより、ピッチパタンを変更する。

次に、ピッチ変換部４２２０で、目標のピッチパタンになるように音声データのピッチを変換する。変換には例えばＰＳＯＬＡ（ＰｉｔｃｈＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒＬａｐＡｄｄ）法を用いればよい。

話速変換部４３０では、入力の話速パラメータが目標の話速パラメータになるように音声データを信号処理する。話速変換は、例えば、音声データを小規模なフレーム単位に分割し、当該フレームの終端部分と次フレームの開始部分を重ねる（話速を早くする場合）あるいは、繰り返す（話速を遅くする場合）ことにより実現すればよい。

音量変換部４４０では、入力の音量パラメータが目標の音量パラメータと成るように一律に振幅を定数倍すればよい。

なお、声の高さ・抑揚変換部４２０、話速変換部４３０、音量変換部４４０の順番は順不同でよい。

以上、４つの実施形態を挙げたが、変換元となる入力データ、変換目標を決める目標パラメータ、そして韻律の変換処理のそれぞれについて、実施形態の冒頭で述べた組み合わせが考えられ、上記第１〜第４の実施形態の韻律時系列データを提供する部分、目標パラメータを提供する部分、韻律変換手段を組み合わせて、図示していない組み合わせの構成をとってもよい。

また、上述の４つの実施形態では、入力データの代表パラメータ計算手段が、声の高さ計算部、抑揚計算部、話速計算部、音量計算部の全てを備えた構成を例示したが、入力データの代表パラメータ計算手段は、声の高さ計算部、抑揚計算部、話速計算部、音量計算部のうち少なくとも１つを備えた構成であっても良い。また、入力データの代表パラメータ計算手段が、声の高さ計算部および抑揚計算部のいずれも備えていない場合は、韻律変化手段のピッチパタン変換部は不要である。同様に、入力データの代表パラメータ計算手段が話速計算部を備えていない場合は、韻律変化手段の音素長変換部は不要である。また、入力データの代表パラメータ計算手段が音量計算部を備えていない場合は、韻律変化手段のパワーパタン変換部は不要である。

なお、特許請求の範囲に記載した事項の他、以下の付記事項も、本発明の一側面である。

（付記１）
音声データから抽出された変換前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、その韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
入力された韻律の時系列データの種類に応じて、変換目標となる韻律を決める目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
前記韻律変換手段により正規化された後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする韻律正規化システム。

（付記２）
前記韻律時系列データ入力手段から入力された韻律の時系列データが、
（１）ピッチの時系列データ、
（２）音声パワーの時系列データ、
（３）各発声音素の音素種別と音素長のデータ、
の少なくとも一つを含み、
前記韻律の時系列データがピッチの時系列データを含む場合、
前記代表パラメータ計算手段が、
（ａ）ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、
（ｂ）ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
の少なくとも一つを含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、
前記韻律の時系列データが音声パワーの時系列データを含む場合、
前記代表パラメータ計算手段が、
音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、
前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、
前記代表パラメータ計算手段が、
各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む、付記１に記載の韻律正規化システム。

（付記３）
目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、
前記目標パラメータ計算手段が、（１）ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算部、（２）ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、（３）各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、（４）音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、のうち少なくとも一つを備える、付記１または２に記載の韻律正規化システム。

（付記４）
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、有声音のピッチの平均値に基づいて、または、有声音のピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算する、付記２または３に記載の韻律正規化システム。

（付記５）
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間とポーズ区間に対してそれぞれ話速を求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有する、付記２または３に記載の韻律正規化システム。

（付記６）
目標とする音声データを入力し、入力された目標音声データから韻律時系列データを抽出する目標韻律時系列データ抽出手段を、前記目標パラメータ計算手段の前段に備え、
前記目標韻律時系列データ抽出手段は、（１）前記目標音声データから各時刻におけるピッチの値を求める、ピッチパタン計算手段、（２）前記目標音声データから各発声音素の音素境界を検出し、音素長を求める音素長計算手段、（３）前記目標音声データから音声パワーの時系列データを求めるパワーパタン計算手段、のうち少なくとも一つを備えることを特徴とする、付記１〜５のいずれか一項に記載の韻律正規化システム。

（付記７）
音声データを入力し、入力音声データから韻律時系列データを抽出する入力韻律時系列データ抽出手段を、前記韻律時系列データ入力手段の前段に備え、
前記入力韻律時系列データ抽出手段は、（１）入力音声データから各時点におけるピッチの値を求めるピッチパタン計算手段、（２）入力音声データから各発声音素の音素境界を検出し、音素長を求める音素長計算手段、（３）入力音声データから音声パワーの時系列データを求めるパワーパタン計算手段、のうち少なくとも一つを備えることを特徴とする付記１〜６のいずれか一項に記載の韻律正規化システム。

この構成は、韻律時系列データが得られていない生の肉声音声データに対しても、それぞれ、声の高さと抑揚の度合い、話す速さ、声の大きさを目標の値に変換することができる点で好ましい。

（付記８）
テキストを入力とし、入力されたテキストの読み情報を解析する言語処理部と、
前記言語処理部から出力される読み情報に基づいて時系列韻律データを生成する韻律生成部を、前記韻律時系列データ入力手段の前段にさらに備える、付記１〜７のいずれか一項に記載の韻律正規化システム。この構成は、音声合成用の正規化された韻律データを生成することができる点で好ましい。

（付記９）
前記韻律変換手段が、
前記入力韻律時系列データ抽出手段へ入力される音声データを入力とし、
（１）入力された音声データのピッチを変換するピッチ変換手段、（２）入力された音声データの話速を変換する話速変換手段、（３）入力された音声データの音声のパワーを変換するパワー変換手段、のうち少なくとも一つを備え、
前記変換データ出力手段へ、変換後の音声データを出力する、付記７に記載の韻律正規化システム。

この構成は、入力音声データに対して直接信号処理を行なうことが可能で、品質を落とさずに、それぞれ、目的とする声の高さ、抑揚の度合い、話す速さ、声の大きさの音声データを作成することができる点で好ましい。

（付記１０）
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる上記抑揚計算部が、有声音のピッチの分散の値に基づいて、または、ピッチデータの分布幅に基づいて、抑揚パラメータを計算する、付記２または３に記載の韻律正規化システム。この構成は、ピッチ抽出の乱れがある場合や、長短の文章が入り混じった場合においても、安定した抑揚の度合いの抽出とその正規化ができる点で好ましい。

（付記１１）
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる音量計算部が、有声音のパワーの平均値により音量パラメータを計算する、付記２または３に記載の韻律正規化システム。この構成は、部分的な強調によって、音声パワーがゆらいでいる場合でも、揺らぎの影響を軽減し、安定した正規化を行なうことができる点で好ましい。

本発明にかかる韻律正規化システムの原理を示す概念図である。本発明の一実施形態にかかる韻律正規化システムの構成を示すブロック図である。図２の代表パラメータ計算手段および韻律変換手段の内部構成を示すブロック図である。図２の韻律時系列データ入力手段の内部構成を示すブロック図である。本発明の他の実施形態にかかる韻律正規化システムの構成を示すブロック図である。図５の韻律時系列データ抽出手段の内部構成を示すブロック図である。本発明の韻律正規化システムを用いた合成音声生成システムの一実施形態の構成を示すブロック図である。本発明の他の実施形態にかかる韻律正規化システム（音声メッセージ作成システム）の構成を示すブロック図である。図８に示す韻律変換手段の内部構成を示すブロック図である。

符号の説明

１００韻律正規化システム
１韻律時系列データ入力手段
２代表パラメータ計算手段
３目標パラメータ入力手段
４韻律変換手段
５変換データ出力手段
１１データ選択部
１２韻律時系列データＤＢ
２１声の高さ計算部
２２抑揚計算部
２３話速計算部
２４音量計算部
４１ピッチパタン変換部
４２音素長変換部
４３パワーパタン変換部

Claims

音声データから抽出された正規化前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、当該韻律の時系列データの種類に対応する代表パラメータであって、前記韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
正規化の目標となる韻律を決めるために、前記代表パラメータの種類に応じた目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
正規化後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする韻律正規化システム。
前記韻律時系列データ入力手段から入力される韻律の時系列データが、
（１）ピッチの時系列データ、
（２）音声パワーの時系列データ、
（３）各発声音素の音素種別と音素長のデータ、
の少なくとも一つを含み、
前記韻律の時系列データがピッチの時系列データを含む場合、
前記代表パラメータ計算手段が、
（ａ）ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、
（ｂ）ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
の少なくとも一つを含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、
前記韻律の時系列データが音声パワーの時系列データを含む場合、
前記代表パラメータ計算手段が、
音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、
前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、
前記代表パラメータ計算手段が、
各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む、
請求項１記載の韻律正規化システム。
目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、
前記目標パラメータ計算手段が、
（１）ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算
部、
（２）ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
（３）各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、
（４）音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、
のうち少なくとも一つを備える、請求項１または２に記載の韻律正規化システム。
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、連続発生区間に含まれるピッチの平均値に基づいて、または、連続発生区間に含まれるピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算する、請求項２または３に記載の韻律正規化システム。
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間の話速とポーズ区間の区間長を別々に求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有する、請求項２または３に記載の韻律正規化システム。