JP4417892B2

JP4417892B2 - 音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Info

Publication number: JP4417892B2
Application number: JP2005217137A
Authority: JP
Inventors: 伸晃水谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-07-27
Filing date: 2005-07-27
Publication date: 2010-02-17
Anticipated expiration: 2025-07-27
Also published as: JP2007033870A

Description

本発明は、例えば、テキスト音声合成のための音声合成方法及び装置に関し、特に、合成音声の自然性に大きく影響する基本周波数パターン生成に関する音声情報処理方法、その装置およびプログラムに関するものである。

近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の３つのモジュールから構成される。この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ（基本周波数）の変化パターンである基本周波数パターンは、合成音声の自然性に大きく影響する。従来のテキスト音声合成における基本周波数パターン生成方法は、比較的単純なモデルを用いて基本周波数パターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。

こうした問題を解決するために、自然音声から抽出した大量の基本周波数パターンをクラスタリングし、その基本周波数パターン集合に対して統計的な処理を行うことによって生成される代表パターンを用いた基本周波数パターン生成方法が提案されている。例えば、特許文献１では、代表パターンは、各基本周波数パターンと代表パターンに変形を行って合成される合成基本周波数パターンとの間で定義される誤差に基づいてクラスタリングされ、生成される。その後、その代表パターンを選択するための規則は、テキストを解析することにより得られる言語属性などを用いて帰納学習（決定木）などにより生成される方法である。
特開平１１−９５７８３号公報

上述したような従来の方法では、代表パターンは合成基本周波数パターンと基本周波数パターンとの誤差を評価しクラスタリングされ、生成される。
しかし、音声合成時において、代表パターンは、代表パターン生成後に生成された代表パターン選択規則から選択される。このため、実際選択される代表パターンと前述誤差尺度に基づいて用いられるべき代表パターンが必ずしも一致するとは限らない。したがって、基本周波数パターン生成方法として利用される際、代表パターンの選択ミスにより不適切な抑揚となる、又は、自然な抑揚を表現できない可能性があるという問題があった。

本発明では、上記従来技術の問題点を解決するためになされたものであって、言語属性などを用いて基本周波数パターンの仮分類を幾通りか行い、その中から前述誤差尺度に基づいて分類を決定し、その代表パターンとその分類を代表パターン選択規則とすることにより、言語属性などにより表現可能な分類の中で前述誤差尺度に基づいて代表パターンが生成されることから、代表パターン選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な基本周波数パターンの生成を可能とする音声情報処理方法、音声情報処理装置および音声情報処理プログラムを提供することを目的とする。

上記目的を達成するために、本発明の音声情報処理装置は、韻律制御単位毎の音声パラ
メータと該韻律制御単位に対応するコンテキストとを備えた音声コーパスの該音声パラメ
ータの集合に対して、該コンテキストに基づいて複数の仮分類に分類分けする音声パラメ
ータ仮分類手段と、前記コンテキストに基づいて分類分けした音声パラメータの子集合毎
に、統計的処理を行うことによって時系列点での特徴が統計量で表現されている代表パラ
メータを生成する代表パラメータ生成手段と、生成された前記代表パラメータを変形する
ことにより合成パラメータを生成する代表パラメータ変形手段と、前記コンテキストに基
づいて分類分けした仮分類毎に、前記合成パラメータと前記パラメータの子集合との間で
定義される歪み評価関数を用いて歪み値を計算する歪み値計算手段と、前記複数の仮分類
の中から前記歪み値に基づいて１つの分類を決定することにより、代表パラメータ分類（
選択）規則を生成する代表パラメータ分類（選択）規則生成手段とを具備したことを特徴
とする。

本発明によれば、言語属性などのコンテキストにより基本周波数パターンの仮分類を幾通りか行い、その中から誤差尺度に基づいて分類を決定し、その代表パラメータとその分類を代表パラメータ選択規則とすることにより、コンテキストにより表現可能な基本周波数パターンの分類の中で前述誤差尺度に基づいて代表パラメータが生成されることにより、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な基本周波数パターンの生成が可能となる。

以下、本発明の実施形態について説明する。第１〜４の実施形態は、音声情報処理装置構築に関するものである。また、第５の実施形態は、構築された装置を用いた音声情報処理装置に関するものである。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る情報処理装置を示すブロック図である。
この第１の実施形態に係る装置は、音声データベースから抽出される韻律制御単位の音声パラメータである基本周波数パターンと該基本周波数パターンに対応するコンテキストとを備えた音声コーパス１１を入力とし、前記韻律制御単位毎の基本周波数パターンの集合に対して、該韻律制御単位に対応するコンテキストによる仮分類を幾通りか行う音声パラメータ集合仮分類部１と、前記コンテキストによる仮分類で得られた基本周波数パターンの子集合毎に、統計的な処理を行うことによって時系列点での特徴が統計量で表現されている代表パラメータ１４を生成する代表パラメータ生成部２と、該韻律制御単位である基本周波数パターンを表現することを目標として、前記代表パラメータを変形することにより合成基本周波数パターンを作成する代表パラメータ変形部３と、前記コンテキストによる仮分類毎に、該合成基本周波数パターンと該韻律制御単位である基本周波数パターンの子集合との間で定義される歪み評価関数を用いて歪み値を計算する歪み値計算部４と、前記コンテキストによる仮分類と前記歪み値に基づいて分類を決定することにより、代表パラメータ分類（選択）規則１５を生成する代表パラメータ分類規則生成部５とを備えている。

次に図１および図２を用いて、本発明の第１の実施形態に係る音声情報処理装置の動作について説明する。なお、図２は、本発明の第１の実施形態に係る音声情報処理装置の動作を示すフローチャートである。

まず、入力となる音声コーパス１１の一例を図３に示す。音声コーパス１１は、音声データベースから抽出される音声パラメータであるアクセント句毎の基本周波数パターンと該アクセント句にそれぞれ対応するコンテキストとを備えたものである。基本周波数パターンの左側の番号は、実施形態説明用のパターン番号であり、以降、該パターン番号を用いることで対応するコンテキストを参照可能とする。ただし、前記パターン番号は、音声コーパス１１に必ずしも備えておく必要はない。本実施形態では、韻律制御単位をアクセント句とし、扱うコンテキストを該アクセント句のアクセント型、モーラ数、そして、アクセント句先頭ポーズの有無としている。

次に、音声パラメータ集合仮分割部１は、音声コーパス１１を入力として、前記アクセント句毎の基本周波数パターンの集合に対して、該アクセント句に対応するコンテキストによる仮分類を幾通りか行う（ステップＳ１）。図４は、本実施形態における音声パラメータ仮分類部による幾通りかの仮分類１０１の一例であり、図４中の仮分類の一例Ｒ１について図５を用いて詳しく説明する。まず、仮分類Ｒ１は、該基本周波数パターンに関するコンテキストによるサブ分類規則Ｎ１、Ｎ２、Ｎ３から成る。次に、基本周波数パターン集合Ｇａｌｌを入力とし、各基本周波数パターンに対する分類を行う。例えば、“アクセント型＝３、モーラ数＝４、先頭境界ポーズ＝無”の基本周波数パターン１は、まず、“アクセント型＝３”のサブ分類規則Ｎ１は適合することからＹＥＳの辺を進み、“先頭境界ポーズ＝有“のサブ分類規則Ｎ３は適合しないことからＮＯの辺を進む結果、基本周波数パターン子集合Ｇ３の要素となる。以上のようにして、仮分類Ｒ１は、サブ分類規則Ｎ１、Ｎ２、Ｎ３から成る仮分類規則と、該分類規則により分類された基本周波数パターン子集合Ｇ１、Ｇ２、Ｇ３、Ｇ４とからで構成されている。ここで、前記仮分類規則は、用いているコンテキストの各値が取り得る値および範囲に関するサブ分類規則の組合せから自動的に作成することが可能である。また、サブ分類規則は、例えば、“アクセント型＝１”、“アクセント型＜２”、“モーラ数＝３”、“モーラ数＜４”、“先頭境界ポーズ＝有”などとなる。さらに、前記仮分類規則は、音声学・音韻学などの知識を用いてサブ分類規則の組合せを絞ることも可能である。例えば、“アクセント句単位の基本周波数パターンであれば、

アクセント型が異なるパターンを同一の分類にはするべきではない”といった知識から、アクセント型に関するサブ分類規則を優先的に利用するといったことが考えられる。また、仮分類規則として、質問と呼ばれる前記サブ分類規則が１つの仮分類規則となるものなどを用いてもよい。また、第１の実施形態において、サブ分類規則は、２つに分類する例を挙げていたが、３つに分類するサブ分類規則、また、それ以上の個数に分類するサブ分離規則などを用いることも考えられる。

次に、代表パラメータ生成部２は、音声パラメータ仮分類部１でのコンテキストによる幾通りかの仮分類１０１で得られた基本周波数パターン子集合毎に、平均化を行うことによって時系列点での特徴が平均値で表現されている代表パラメータ１４を生成する（ステップＳ２）。本実施形態では、統計量を平均値とし、統計的な処理を一般的な平均化としている。図６は、本実施形態により生成される代表パラメータの一例である。代表パラメータを表現する特徴量の統計量として、各点における対数基本周波数の平均値を用いた例であり、１モーラを３点で表現するように正規化されている。そして、図７は、本実施形態での統計な処理による代表パラメータ作成の一例である。図７ａ）は、音声パラメータ仮分類部１でのコンテキストによる幾通りかの仮分類１０１のうちの一例としての基本周波数パターン子集合Ｇである。該子集合は、３個の基本周波数パターンを含んでおり、基本周波数パターンは、アクセント句単位であり、モーラ境界を示してある。図７ｂ）は、基本周波数軸上での伸縮をし、正規化が行われた基本周波数パターンである。基本周波数軸上での正規化方法は、基本周波数パターンの始点がある値となるよう平行移動することを挙げている。図７ｃ）は、時間軸上での正規化が行われた基本周波数パターンである。時間軸上での正規化方法は、各モーラ毎に１モーラ３点となるよう伸縮することを挙げている。図７ｄ）は、時系列点での特徴が平均値で表現されている代表パラメータである。時系列点での特徴の平均化は、正規化された基本周波数パターンの各時系列点を平均したものである。以上の代表パラメータ生成に関する手続きは、

これらの正規化（伸縮）処理を関数f (ｐi) 、基本周波数パターンをベクトルｐiで表すと、正規化により得られる正規化基本周波数パターンベクトルriは次式で表すことができる。

ここで、正規化（伸縮）の処理は、行列Ｆiをｐiに前から掛ける形で数式としては一般化可能である。行列Ｆiの各要素を決めるにあたり、基本周波数パターンと正規化基本周波数パターンとの対応関係をとるマッピング関数が必要となる。マッピング関数としては、線形関数、シグモイド関数、多次元ガウス関数、また、これらの関数の組合せなどが考えられる。図８ａ）は、マッピング関数の一例であり、横軸が元となる基本周波数パターンであり、縦軸が対応先となる正規化基本周波数パターンとなっている。マッピング関数は、線形関数の組合せとなっており、点線で示されているモーラ境界を境に、各モーラ内で線形にマッピングを行っている例である。このようにして、基本周波数パターンの各時系列点が、正規化基本周波数パターンの各時系列点にどの程度対応付けられるかといったことより、行列Ｆiの要素を決めることができる。その際、必要となる情報は、基本周波数パターンの各モーラ毎のサンプル数（継続時間長）であるが、これは一般的に音声データベースに含まれる情報であり、容易に得られる。図８ｂ）は、行列Ｆiの一例である。ｐiは、行列Ｆiを用いて、１モーラめを伸張、２モーラめを縮退、そして、３モーラめを維持・保存することにより、正規化されたriとなっている。

また、基本周波数パターンの数をＮ(= 3)で表すと、生成される代表パラメータベクトルｃは次式で表すことができる。

次に、代表パラメータ変形部３は、音声パラメータ仮分類部１でのコンテキストによる幾通りかの仮分類１０１を用いて、各基本周波数パターン毎に対応する代表パラメータを選択し、前記基本周波数パターンを目標にして代表パラメータを変形し、合成音声パラメータ１０２を作成する（ステップＳ３）。ここで、各基本周波数パターンと代表パラメータが対応するとは、基本周波数パターンが、代表パラメータの生成を行った際に用いられたパターンかどうかである。例えば、図７ａ）の基本周波数パターンと図７ｄ）の代表パラメータとは対応している。図９は、本実施形態での代表パラメータの変形の一例である。図９ａ）は、代表パラメータを表しており、目標とする基本周波数パターンに対応して選択されたものである。図９ｂ）は、代表パラメータの時間軸上で伸縮であり、目標とする基本周波数パターンの継続時間長と各モーラの長さが等しくなるよう行われる。図９ｃ）は、代表パラメータの周波数軸上で平行移動であり、目標とする基本周波数パターンとの各時系列点での２乗誤差の総和が小さくなるよう行われる。このようにして、代表パラメータを用いて、合成音声パラメータ１０３が作成される。ここで、以上の変形が必要ない場合をありえるため、代表パラメータ変形部３は必ずしも必要とは限らない。

次に、歪み値計算部４は、音声パラメータ仮分類部１でのコンテキストによる幾通りかの仮分類１０１と代表パラメータ変形部３による合成音声パラメータ１０２を用いて、合成音声パラメータと基本周波数パターン子集合との間で定義される歪み値１０３を計算する（ステップＳ４）。ある仮分類ｘにより得られた基本周波数パターン子集合の１つをＧとし、子集合Ｇ内のある基本周波数パターンベクトルをpｉとし、ｐｉを目標として代表パラメータｃを変形する（関数h (ｃ，ｐi)を計算する）ことにより作成された合成音声パラメータを＜ｐi＞と表すと、合成音声パラメータと基本周波数パターン子集合との間で定義される歪み値Σ(Ｇ，ｃ) は次式で表すことができる。

次に、代表パラメータ分類規則生成部５は、音声パラメータ仮分類部１でのコンテキストによる幾通りかの仮分類１０１と歪み値計算部４での合成音声パラメータと基本周波数パターン子集合との間で定義される歪み値１０３を用いて、分類を決定することにより、代表パラメータ分類（選択）規則を生成する（ステップＳ５）。音声コーパス１１に備えられた基本周波数パターン集合をＧ_ａｌｌとし、ある仮分類ｘ_ｋにより得られた基本周波数パターン子集合の集合をG(ｘ_ｋ) = { G⁽¹⁾,G⁽²⁾,…,G^(m),… }とし、基本周波数パターン子集合G^(m)に対応する代表パラメータをｃ ^(m)と表すと、分類を決定する基準を次式で表すことができ、得られたｘ_ＢＥＳＴを代表パラメータ分類（選択）規則１５として採用する。

以上から、本発明の第１の実施形態に係る音声情報処理装置は、得られた代表パラメータ分類（選択）規則１５と該分類規則に対応する前記代表パラメータ１４を出力する。

このように、第１の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類（選択）規則と、該分類規則に対応する代表パラメータとを出力することで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ（例えば、基本周波数パターン）を生成することが可能となる。

ここで、音声コーパス１１に備えられる基本周波数パターンは、基本周波数そのものの系列、若しくは、音の高さを知覚する際の人の聴覚特性を考慮した対数基本周波数の系列を用いることが考えられる。

また、コンテキストは、規則合成器で用いられるような情報のうち抑揚に影響を与えると考えられる情報、例えば、アクセント型、モーラ数、音韻の種類、アクセント句境界のポーズの有無、文中でのアクセント句の位置といったテキストを解析することにより得られる該韻律制御単位に関する言語情報、もしくは、所定の属性のうち少なくとも１つの値を用いることが考えられる。

また、韻律制御単位は、学習データとしての基本周波数パターンのデータ量と基本周波数パターンの組合せによる抑揚に関する表現力とのバランスを考慮して、ＨＭＭ等により１音素を複数に分割した単位、半音素、音素、音節、モーラ、形態素、単語、アクセント句、呼気段落、文、これらを組合せた単位のうち少なくとも１つを用いることが考えられる。

また、属性は、アクセントの高さなどの変化に影響を与えると考えられるプロミネンスに関する情報や、発声全体における基本周波数パターンの変化に影響を与えると考えられる抑揚・発話スタイルといった情報、更に、質問・断定・強調といった意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報のうち少なくとも１つを用いることが考えられる。

また、代表パラメータの時系列点の統計量は、基本周波数パターンの時系列点に対して統計的な処理を行うことによって得られるものであって、該時系列点の平均値、分散値、標準偏差値のうち少なくとも１つ用いることが考えられる。統計量は、分散値、標準偏差値を一定と仮定した場合や、分散値、標準偏差値そのものを扱っていない場合などであれば、平均値若しくは平均値に相当する値のみという場合も考えられる。

また、代表パラメータの変形は、目標とする基本周波数パターンに対して、横軸（継続時間長に合わせた時間軸）方向の伸縮、基本周波数の変化に合わせた縦軸（周波数軸）方向の伸縮、縦軸（周波数軸）方向のオフセットに合わせた周波数軸方向の移動、これらの組合せのうち少なくとも１つを用いることが考えられる。例えば、目標とする基本周波数パターンベクトルをｐiとし、代表パターンベクトルをｃとした時、変形を行う関数（ h （ｃ，Ｄi，ｂi，ｇi) ）は、伸縮を行う行列Ｄiと周波数軸方向の移動を行う値ｂi_ｖと、そして、周波数軸方向の伸縮を行う値ｇi

を用いて、次式で表すことができる。

ここで、ベクトル1は、要素がすべて1のベクトルとする。また、変形に用いるＤi, ｂi_,ｇiは、前記数３をそれぞれで編微分して0とおいた方程式を解くことにより求めることができる。また、時間軸方向の伸縮を行う行列Ｄiは、アクセント句単位の代表パラメータを伸縮する場合はモーラ境界を目標基本周波数パターンに合わせて線形伸縮もしくは傾き一定で伸縮するといった制約を設けることにより、行列の要素を容易に決める（求める）こともできる。

さらに、目標とする基本周波数パターンが未知の時、つまり、音声合成などで本変形を行う場合は、代表パラメータベクトルをｃとした時、変形を行う関数（＜h（ｃ，Ｄi，ｂi，ｇi) ＞）は、伸縮を行う行列＜Ｄi＞と周波数軸方向の移動を行う値と＜ｂi＞、そして、周波数軸方向の伸縮を行う値＜ｇi＞を用いて、次式で表すことができる。

ここで、変形に用いる＜Ｄi＞,＜ｂi＞,＜ｇi＞は、それぞれもしくは組合せ毎に数量化Ｉ類などの統計的手法や、なんらかの帰納学習法・多次元正規分布・ＧＭＭなどの公知の方法を用いてモデル化されたモデルから生成されたものを用いることもできる。

また、合成音声パラメータと前記基本周波数パターンの子集合との間で定義される歪み評価関数は、各時系列点での２乗誤差の総和を計算する方法が考えられる。さらに、決まり文句といった基本周波数パターン毎の重要度や、基本周波数パターン子集合に含まれる基本周波数パターン数などを用いて、各時系列点での重み付け２乗誤差の総和を計算する方法も考えられる。さらに、各時系列点の分布は一般的に均一ではないことから、各時系列点の分散（標準偏差）により重み付けが行われる各時系列点での対数尤度の総和を計算する方法も考えられる。さらに、前記２乗誤差の総和と同様にして、各時系列点での重み付け対数尤度の総和を計算する方法も考えられる。

また、代表パラメータを生成する統計的な処理は、前記１式、数２で示したような一般的な平均の計算をして代表パラメータを生成する方法が考えられる。さらに、各時系列点の分布は一般的に均一ではないことから、平均および分散（標準偏差）を計算して代表パラメータを生成する方法が考えられる。さらに、前記歪み評価関数を最適化（最大化もしくは最小化）するよう計算する方法も考えられえる。例えば、前記数３の歪み評価関数であれば、代表パラメータベクトルｃについて編微分して0とおいた次式で表される方程式を解くことによって代表パラメータを生成する方法が考えられる。

ここで、前記数３の歪み評価関数は、代表パラメータベクトルｃを用いているため、前記数５で表される方程式を1度解くだけでは良い代表パラメータは生成できない。

そのため、適当な代表パラメータベクトルｃの初期値を設定し、その都度前記歪み評価関数による方程式を解くというステップを何度か繰り返す必要がある。ここで、代表パラメータベクトルｃの初期値としては、例えば、先見的な知識に基づいて用意した適当な特性を持つものであってもよい。あるいは、ノイズ・データの系列を用いてもよい。あるいは、前記数１、２で示したようなｃを用いてもよい。また、前記ステップの繰り返し条件は、前記歪み評価関数による歪み値の変化がある値に収束したかどうかといったものや、ある指定回数繰り返したかどうかといったものが考えられる。

さらに、前記歪み評価関数が単純な形ではなく、代表パラメータベクトルｃについて編微分して0とおいた次式で表される方程式を直接解くことが困難な場合などは、勾配法などを用いて準最適と考えられる代表パラメータを生成する方法が考えられる。

なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ分類（選択）規則、そして、音声パラメータ集合仮分類部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ分類規則生成部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ分類（選択）規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。
図１０は、本発明の第２の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図１、図１０と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第２の実施形態に係る音声情報処理装置の大きな違いは、第１の実施形態と同様のブロックを備えているが、音声パラメータ集合仮分類部１と、代表パラメータ生成部２と、代表パラメータ変形部３と、歪み値計算部４と、代表パラメータ分類規則生成部５とを一つのまとまり（ブロック）とし、これを数段直列に連結した構成となっていることである。

次に図１０および図１１を用いて、本発明の第２の実施形態に係る音声情報処理装置の動作について説明する。なお、図１１は、本発明の第２の実施形態に係る音声情報処理装置の動作を示すフローチャートであり、図２と対応する部分に同一の参照符号を付して相違点を中心に説明する。

第１の実施形態との相違点は２つある。相違点１は、図１０のブロック間の接続である前ブロック出力（後ブロック入力）１０４である。相違点２は、図１０の代表パラメータ１２・代表パラメータ分類（選択）規則１３である。

まず、相違点１を図１２用いて説明する。図１２は、１段目のブロックにより決定された１つの分類規則を示しており、分類規則を決定する際用いられた基本周波数パターン子集合Ｇ１、Ｇ２、Ｇ３、Ｇ４も併記してある。ここで、各基本周波数パターン子集合Ｇｎ（ｎ＝１,２,３,４）は、数個の基本周波数パターンを含んでいる。また、各基本周波数パターンはそのＩＤから音声コーパス中のコンテキストを参照可能であった。つまり、基本周波数パターン子集合Ｇｎは、音声コーパスから一部を抽出したサブ音声コーパスと見なすことができる。そこで、第２の実施形態では、このサブ音声コーパスを次の段のブロックの入力とし、複数段のブロックを直列に連結している。ここで、ブロックを複数段連結することは、複雑な問題を小さな問題の集合と捉えることができ、問題の簡略化を行える。つまり、第１の実施形態において、音声パラメータ集合仮分類部１から得られる幾通りかの仮分類１０１は、コンテキストのとり得る値の組合せから膨大な数となっていたが、問題を細分化することにより、第２の実施形態では軽減される。

次に、相違点２について説明する。第２の実施形態では、問題を細分化することを行ったため、最終的には必要のない、代表パラメータおよび代表パラメータ分類（選択）規則が生成される。そこで、図１０では、これらを代表パラメータ１２・代表パラメータ分類（選択）規則１３とし、最終段のブロックから生成される代表パラメータ１４・代表パラメータ分類（選択）規則１５を音声情報処理装置からの出力としている。

ここで、ブロックの連結する段数としては、装置を実現する際のコストや経験的な知識などにより様々な段数を用いることが可能である。
また、ブロックが多段に連結されることから、最終段までのブロックから出力される
サブ音声コーパス１０４は、必ずしも１つの分類規則から出力される必要はない。つまり、
複数の分類規則を保持しておき、最終段のブロックによりいずれかを選択することも可能である。
このように、第２の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類（選択）規則と、該分類規則に対応する代表パラメータとを出力することを繰り返し行うことにより、大きな問題を小さな問題の集合と捉えることで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ（例えば、基本周波数パターン）を生成することが可能となる。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。
図１３は、本発明の第３の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図１０、図１３と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第３の実施形態に係る音声情報処理装置の大きな違いは、ブロック後段に代表パラメータと分類規則の生成の繰返しを判定する繰返し条件判定部６を備え、サブ音声コーパス１０４をブロック前段に入力していることである。

次に図１３および図１４を用いて、本発明の第３の実施形態に係る音声情報処理装置の動作について説明する。なお、図１４は、本発明の第３の実施形態に係る音声情報処理装置の動作を示すフローチャートであり、図１１と対応する部分に同一の参照符号を付して相違点を中心に説明する。

第２の実施形態との相違点は１つである。相違点は、図１３のブロック間に接続される
繰返し条件判定部６である。
まず、ブロックでは、前記実施形態と同様に、音声パラメータ集合の仮分類（ステップＳ１）、代表パラメータの生成（ステップＳ２）、代表パラメータの変形（ステップＳ３）、歪み値の計算（ステップＳ４）、代表パラメータ分類規則の生成（ステップＳ５）が行われる。

次に、繰返し条件判定部６では、代表パラメータ数や前記数３などを入力１０５とし、代表パラメータ・代表パラメータ分類規則の生成を繰返すかどうかを判定する（ステップＳ６）。判定結果により「終了」となれば、手続きは終了し、「繰返し」となれば、ステップＳ１へと手続きは繰返される。

ここで、繰返し条件の判定基準としては、先見的な知識などからある指定回数繰返したかどうかで終了を判定する基準が考えられる。また、様々な利用条件が挙げられるため、汎用性という観点から、記憶手段の容量や先見的な知識やＣｒｏｓｓＶａｌｉｄａｔｉｏｎ（相互検証法）などから得られた指定代表パターン数に達したかどうかという基準が考えられる。また、前記数３などから歪み値を事前に求めていることから、繰返し回数毎の歪み値に基づいて、歪み値の差（変化量）がある一定値を下回った時点で収束したと見なし、終了する基準も考えられる。また、一般的な基準の１つであるＭＤＬ基準などの情報量基準を用いて、終了を判定する基準も考えられる。

このように、第３の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類（選択）規則と、該分類規則に対応する代表パラメータとを出力することを繰り返し行うことにより、大きな問題を小さな問題の集合と捉えることで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ（例えば、基本周波数パターン）を生成することが可能となる。

なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ分類（選択）規則、そして、音声パラメータ集合仮分類部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ分類規則生成部、繰返し条件判定部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ分類（選択）規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。
図１５は、本発明の第４の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図１、図１５と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第４の実施形態に係る音声情報処理装置の大きな違いは、前記実施形態が「分類」をベースにした形態であったことに対して、本実施形態は「統合」をベースにした形態であることである。図１７は、第１の実施形態と第４の実施形態を比較した図である。第１の実施形態は、音声コーパスそのもののサブ分類（分割）を繰返すことにより適度な数の音声パラメータの子集合を探索する。これに対して、第４の実施形態は、音声パラメータのサブ統合（結合）を繰返すことにより適度な数の音声パラメータの親集合を探索する。第１の実施形態がトップダウンに探索する方法に対して、第４の実施形態はボトムアップに探索する方法といえる。ここで、概念的な構成の違いはあるものの、基本的な構成部は同じであり、図１５の音声パラメータ集合仮統合部７は、図１の音声パラメータ集合仮分類部１に対応し、図１５の代表パラメータ統合規則生成部８は、図１の代表パラメータ分類規則生成部５に対応している。

次に図１５および図１６を用いて、本発明の第４の実施形態に係る音声情報処理装置の動作について説明する。なお、図１６は、本発明の第４の実施形態に係る音声情報処理装置の動作を示すフローチャートであり、図２と対応する部分に同一の参照符号を付して相違点を中心に説明する。

第１の実施形態との相違点は２つある。相違点１は、図１５の音声パラメータ集合仮統合部７である。相違点２は、図１５の代表パラメータ統合規則生成部８である。

まず、音声パラメータ集合仮統合部７は、音声コーパス１１を入力として、前記アクセント句毎の基本周波数パターンの集合に対して、該アクセント句に対応するコンテキストによる仮統合を幾通りか行う（ステップＳ１１）。ここで、この統合の操作は、第１の実施形態図１の音声パラメータ集合仮分類部１と逆の操作となっている。つまり、音声コーパス１１は、分類（分割）を繰返すと最終的には各音声パラメータ（基本周波数パターン）となり、逆に、各音声パラメータ（基本周波数パターン）は、統合（集約）を繰返すと最終的には音声コーパス１１となるからである。但し本実施形態の場合、各仮統合は、求める親集合群を更に統合し最終的に音声コーパスと等価な集合までなっている必要がある。これは、音声合成などでこの統合（選択）規則を利用する際、代表パラメータを選択する際に必要となるからである。また、求める親集合群は、様々な集合が考えられるが、可能な限りすべての組合せを網羅することが望まれるが、実施上の問題等であらかじめ限定しておいてもよい。

次に、代表パラメータ統合規則生成部８は、音声パラメータ仮統合部７でのコンテキストによる幾通りかの仮統合１０６と歪み値計算部４での合成音声パラメータと基本周波数パターン親集合との間で定義される歪み値１０３を用いて、統合を決定することにより、代表パラメータ統合（選択）規則を生成する（ステップＳ５）。本実施形態と第１の実施形態との相違点は、決定する対象が、統合（選択）規則か分類（選択）規則かの相違であるのみである。

このように、第４の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮統合を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ統合（選択）規則と、該統合規則に対応する代表パラメータとを出力することで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ（例えば、基本周波数パターン）を生成することが可能となる。

なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ統合（選択）規則、そして、音声パラメータ集合仮統合部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ統合規則生成部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ統合（選択）規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

（第５の実施形態）
次に、本発明の第５の実施形態について説明する。
図１９は、本発明の第４の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。
この第５の実施形態に係る音声情報処理装置は、入力コンテキストから代表パラメータ１４と代表パラメータ選択規則１５を用いて、代表パラメータを選択する代表パラメータ選択部２１と、選択された該代表パラメータを変形し、合成音声パラメータを出力する代表パラメータ変形部２２とを備えている。

次に図１９および図２０を用いて、本発明の第５の実施形態に係る音声情報処理装置の動作について説明する。なお、図２０は、本発明の第５の実施形態に係る音声情報処理装置の動作を示すフローチャートである。

まず代表パラメータ選択部２１は、あるコンテキスト３１を入力として、代表パラメータ選択規則１５および代表パラメータ１４を用いて、韻律制御単位毎のコンテキストにそれぞれ対応した代表パラメータ２０１を選択する（ステップＳ２１）。図２１は、本実施形態における代表パラメータの選択に関する一例である。コンテキスト３１は、韻律制御単位毎のサブコンテキスト（１）・（２）（３）から成る。代表パラメータ選択部２１は、コンテキストの情報に基づいて、前記サブコンテキスト（１）・（２）・（３）に対して、それぞれ代表パラメータＩＶ・ＶＩ・Ｉを選択することとなる。

次に、代表パラメータ変形部２２は、選択された代表パラメータ２０１を基に、合成音声パラメータを作成するよう各代表パラメータの変形を行う（ステップＳ２２）。ここで、

前記第１の実施形態で述べたとおり、音声合成などでの利用を想定した本実施形態では、変形を行う際必要となるサブパラメータ（時間軸伸縮を行う行列＜Ｄi＞、周波数軸方向の移動を行う値＜ｂi＞、周波数軸方向の伸縮を行う値＜ｇi＞など）が必要となる。そこで、これらサブパラメータは、前記コンテキスト３１と同じく外部から適宜入力されるものとする。例えば、数量化Ｉ類などの統計的手法や、なんらかの帰納学習法・多次元正規分布・ＧＭＭなどの公知の方法を用いてモデル化されたモデルに、前記コンテキスト３１を入力として、生成する方法が考えられる。

このように、第５の実施形態に係る音声情報処理装置によれば、代表パラメータから合成された合成音声パラメータと音声パラメータの集合とで定義された誤差評価関数に基づいて生成された代表パラメータ・代表パラメータ選択規則を用いて、入力コンテキストに対する代表パラメータを選択し、変形し合成することで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ（例えば、基本周波数パターン）を生成することが可能となる。

なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、代表パラメータ、代表パラメータ選択規則、代表パラメータ選択部、代表パラメータ変形部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、代表パラメータおよび代表パラメータ選択規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組合せてもよい。

本発明の第１の実施形態に係る音声情報処理装置の構成を示すブロック図。本発明の第１の実施形態の動作を示すフローチャート。音声コーパスの一例を説明する図。音声パラメータ仮分類部による幾通りかの仮分類例を説明する図。コンテキストによる仮分類の一例を説明する図。代表パラメータの一例を説明する図。統計的な処理による代表パラメータ作成の一例を説明する図。基本周波数パターンと正規化基本周波数パターンの対応関係の一例を説明する図。代表パラメータの変形の一例を説明する図。本発明の第２の実施形態に係る音声情報処理装置の構成を示すブロック図。本発明の第２の実施形態の動作を示すフローチャート。本発明の第２の実施形態のブロック間の接続を説明する図。本発明の第３の実施形態に係る音声情報処理装置の構成を示すブロック図。本発明の第３の実施形態の動作を示すフローチャート。本発明の第４の実施形態に係る音声情報処理装置の構成を示すブロック図。本発明の第４の実施形態の動作を示すフローチャート。本発明の第１の実施形態と第４の実施形態の比較を示す図。音声パラメータ仮統合部による幾通りかの仮統合例を説明する図。本発明の第５の実施形態に係る音声情報処理装置の構成を示すブロック図。本発明の第５の実施形態の動作を示すフローチャート。本発明の第５の実施形態の代表パラメータ選択部の動作一例を説明する図。

符号の説明

１・・・音声パラメータ集合仮分類部
２・・・代表パラメータ生成部
３・・・代表パラメータ変形部
４・・・歪み値計算部
５・・・代表パラメータ分類規則生成部
６・・・繰返し条件判定部
７・・・音声パラメータ集合仮統合部
８・・・代表パラメータ統合規則生成部
１１・・・音声コーパス
１２・・・代表パラメータ
１３・・・代表パラメータ選択規則
１４・・・代表パラメータ
１５・・・代表パラメータ選択規則
２１・・・代表パラメータ選択部

Claims

韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
類に分類分けする音声パラメータ仮分類手段と、
前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成する
代表パラメータ生成手段と、
生成された前記代表パラメータを変形することにより合成パラメータを生成する代表パ
ラメータ変形手段と、
前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算する歪み値計算手
段と、
前記複数の仮分類の中から前記歪み値に基づいて１つの分類を決定することにより、代
表パラメータ分類（選択）規則を生成する代表パラメータ分類（選択）規則生成手段とを
具備したことを特徴とする音声情報処理装置。
前記代表パラメータを記憶する代表パラメータ記憶手段と、
前記代表パラメータ分類（選択）規則を記憶する代表パラメータ選択規則記憶手段と、
記憶された前記代表パラメータと前記代表パラメータ分類（選択）規則を用いて、前記
韻律制御単位毎のコンテキストに応じた代表パラメータを選択する代表パラメータ選択手
段と、
選択された前記代表パラメータを変形することにより音声パラメータを合成する代表パ
ラメータ変形手段とを具備したことを特徴とする請求項１に記載の音声情報処理装置。
前記音声パラメータとして、基本周波数パターンを用いることを特徴とした請求項１又
は請求項２に記載の音声情報処理装置。
前記コンテキストに基づいて分類分けされた基本周波数パターンの子集合に対して、
前記コンテキストによる分類分け、代表パラメータの生成、合成音声パラメータの生成
、歪み値の計算、代表パラメータ分類（選択）規則の生成の処理を繰返すことを特徴とし
た請求項３に記載の音声情報処理装置。
前記コンテキストは、テキストを解析することにより得られる前記韻律制御単位に関す
る言語情報もしくは任意の属性のうち少なくとも１つの値であることを特徴とする請求項
１乃至請求項４のいずれか１項に記載の音声情報処理装置。
前記韻律制御単位は、ＨＭＭ等により１音素を複数に分割した単位、半音素、音素、音
節、モーラ、形態素、単語、アクセント句、呼気段落、文、これらを組合せた単位のうち
少なくとも１つが用いられることを特徴とする請求項１乃至請求項４のいずれか１項に記
載の音声情報処理装置。
前記属性は、プロミネンスに関する情報、発話スタイルの情報、質問・断定・強調とい
った意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報のうち少なく
とも１つが用いられることを特徴とする請求項５に記載の音声情報処理装置。
前記統計量は、平均、分散(標準偏差)、これらを組合せたうち少なくとも１つが用い
られることを特徴とする請求項１乃至請求項４のいずれか１項に記載の音声情報処理装置
。
前記合成音声パラメータと前記音声パラメータの子集合との間で定義される歪み評価関
数は、各時系列点での２乗誤差の総和、各時系列点での重み付け２乗誤差の総和、各時系
列点での対数尤度の総和、各時系列点での重み付け対数尤度の総和のうちいずれかである
ことを特徴とする請求項１乃至請求項４のいずれか１項に記載の音声情報処理装置。
前記代表パラメータを生成する統計的な処理は、一般的な平均を計算すること、平均・
分散の計算をすること、前記歪み評価関数を最適化（最大化もしくは最小化）するように
計算すること、前記歪み評価関数を準最適化することのうちいずれかであることを特徴と
する請求項１乃至請求項４のいずれか１項に記載の音声情報処理装置。
前記代表パラメータの変形は、横軸（例えば、時間軸）方向の伸縮、縦軸（例えば、周
波数軸）方向の伸縮、縦軸方向の移動、これらの組合せのうち少なくとも１つが用いられ
ることを特徴とする請求項１乃至請求項４のいずれか１項に記載の音声情報処理装置。
韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
類に分類分けし、
前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成し、
生成された前記代表パラメータを変形することにより合成パラメータを生成し、
前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算し、
前記複数の仮分類の中から前記歪み値に基づいて１つの分類を決定することにより、代
表パラメータ分類（選択）規則を生成し、
前記代表パラメータ分類（選択）規則と、前記分類（選択）規則に対応する前記代表パ
ラメータとを出力することを特徴とする音声情報処理方法。
音声情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、
韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
類に分類分けするステップと、
前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成する
ステップと、
生成された前記代表パラメータを変形することにより合成パラメータを生成するステッ
プと、
前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算するステップと、
前記複数の仮分類の中から前記歪み値に基づいて１つの分類を決定することにより、代
表パラメータ分類（選択）規則を生成するステップとをコンピュータに実行させ、
前記代表パラメータ分類（選択）規則と、前記分類（選択）規則に対応する前記代表パ
ラメータとをコンピュータに出力させることを特徴とする音声情報処理プログラム。