JP2013003470A

JP2013003470A - 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ

Info

Publication number: JP2013003470A
Application number: JP2011136776A
Authority: JP
Inventors: Yamato Otani; 大和大谷; Masanori Tamura; 正統田村; Shinko Morita; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-06-20
Filing date: 2011-06-20
Publication date: 2013-01-07
Also published as: US20120323569A1

Abstract

【課題】
音声を強調する際のフィルタ特性を適切に制御できる音声処理装置を実現することである。
【解決手段】
実施形態の音声処理装置は、音声データから抽出された第１の音声特徴量から第１のヒストグラムを計算し、前記第１の音声特徴量とは異なる第２の音声特徴量から第２のヒストグラムを計算するヒストグラム計算手段と、前記第１のヒストグラムの度数を累積した第１の累積度数と、前記第２のヒストグラムの度数を累積した第２の累積度数とを計算する累積度数計算手段と、前記第１および第２の累積度数に基づいて、前記第２の累積度数を前記第１の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段とを備える音声処理装置である。
【選択図】図１

Description

本発明の実施形態は、音声処理装置、音声処理方法および音声処理方法により作成されたフィルタに関する。

音声合成技術により合成された音声波形は、人の実際の音声と比較してこもったような音質になるという問題があった。これを解決するために、音声波形に変換する前の音声特徴量にフィルタを適用して、音声スペクトルの凹凸を強調することが提案されている。

音声スペクトルの凹凸の強調する処理では、従来は、ユーザによって設定された２組の補間関数を用いて、入力されたＬＳＰ係数とフラットな周波数特性を持つＬＳＰ係数との間におけるフィルタの補正量を決定していた。

しかしながら、上述した方法では、音声を強調する際のフィルタ特性が、ユーザが設定した補間関数によって調整されていた。そのため、音声スペクトルの凹凸を強調する際のフィルタ特性を適切に制御することができなかった。

特開平９‐２３０８６９号公報

Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, "Speech parameter generation algorithms for HMM-based speech synthesis," Proc. of ICASSP, June 2000, p.1315-1318. Tomoki Toda, Alan W. Black, Keiichi Tokuda, "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory," IEEE Transactions on Audio, Speech and Language Processing, Nov. 2007, Vol.15, No.8, p.2222-2235.

発明が解決しようとする課題は、音声を強調する際のフィルタ特性を適切に制御できる音声処理装置を実現することである。

実施形態の音声処理装置は、音声データから抽出された第１の音声特徴量から第１のヒストグラムを計算し、前記第１の音声特徴量とは異なる第２の音声特徴量から第２のヒストグラムを計算するヒストグラム計算手段と、前記第１のヒストグラムの度数を累積した第１の累積度数と、前記第２のヒストグラムの度数を累積した第２の累積度数とを計算する累積度数計算手段と、前記第１および第２の累積度数に基づいて、前記第２の累積度数を前記第１の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段とを備える音声処理装置である。

第１の実施形態の音声処理装置を示すブロック図。実施形態の音声処理装置のフローチャート（フィルタ作成部）。実施形態の第１の正規化累積度数分布を示す図。実施形態の音声処理装置のフローチャート（音声合成部）。実施形態の第１および第２の正規化累積度数分布を示す図。実施形態の第１、第３、第４の音声特徴量の正規化累積度数分を示す図。実施形態の音声波形のスペクトルを示す図。変形例１の音声処理装置を示すブロック図。変形例３の音声処理装置を示すブロック図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の音声処理装置は、任意のテキストから音声波形を生成する音声合成を想定しており、フィルタを用いて音声スペクトルの凹凸を強調することにより、音声合成により生成された人工的な音声波形の音質を目標となる実音声データに近づけることを目的としている。ここでは、オフラインで音声スペクトルの凹凸を強調するためのフィルタを作成し、オンラインでこのフィルタを用いて任意のテキストを読み上げるための音声波形を生成する。

フィルタを作成するオフライン処理では、目標となる実音声データから抽出した第１の音声特徴量と、この実音声データのコンテキスト情報および音声合成辞書を用いて生成した第２の音声特徴量とから、それぞれ第１および第２のヒストグラムを計算する。そして、第１のヒストグラムの度数を累積して計算した第１の累積度数および第２のヒストグラムの度数を累積して計算した第２の累積度数に基づいてフィルタを作成する。ここで、本実施形態の音声処理装置は、ユーザの手動調整ではなく、第２の累積度数を目標となる実音声データから求めた第１の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。

任意のテキストの音声波形を生成するオンライン処理では、読み上げ対象となるテキストを解析し音声合成辞書を用いて生成した音声合成のための第３の音声特徴量を、オフライン処理で生成したフィルタを用いて第４の音声特徴量に変換する。最後に、第４の音声特徴量から音声スペクトルの凹凸を強調した音声波形を生成する。

本実施形態では、音声合成のための第３の音声特徴量は、フィルタ作成の際に生成された第２の音声特徴量と同様な方法で抽出された音声特徴量である。したがって、第２の累積度数を第１の累積度数に近づける基準で作成されたフィルタを用いて、第３の音声特徴量を第４の音声特徴量に変換することにより、第４の音声特徴量の累積度数自体を第１の累積度数に近づけることができる。累積度数が近づくことは、音声特徴量のスペクトル特性が近づくことを意味しており、結果として、第４の音声特徴量から生成される人工的な音声波形の音質を目標となる実音声データに近づけることができる。

（ブロック構成）
図１は、第１の実施形態にかかる音声処理装置を示すブロック図である。本実施形態の音声処理装置は、隠れマルコフモデルを利用して任意のテキストから音声波形を生成する。この音声処理装置は、オフラインでフィルタを作成するフィルタ作成部１０１と、作成されたフィルタを用いてオンラインで音声波形を合成する音声合成部１０２とを備える。

フィルタ作成部１０１は、音声データ格納部１１１に格納された実音声データからスペクトルに関する第１の音声特徴量を抽出する第１特徴量抽出部１０３と、第１の音声特徴量から第１のヒストグラムを計算する第１ヒストグラム計算部１０４と、第１のヒストグラムから第１の累積度数を計算する第１累積度数計算部１０５と、音声データ格納部１１１に記憶されたコンテキスト情報および音声合成辞書１０６に記憶された隠れマルコフモデルを用いて、スペクトルに関する第２の音声特徴量を生成する第２特徴量抽出部１０７と、第２の音声特徴量から第２のヒストグラムを計算する第２ヒストグラム計算部１０８と、第２のヒストグラムから第２の累積度数を計算する第２累積度数計算部１０９と、第１および第２の累積度数に基づいて、第３の音声特徴量を第４の音声特徴量に変換するフィルタを作成するフィルタ作成処理部１１０とを備える。

音声データ格納部１１１は、フィルタを設計する際の目標となる実音声データおよびこの実音声データのコンテキスト情報を記憶している。コンテキスト情報とは、実音声データの発話内容に関する音韻情報、文中の位置、品詞や係り先などの言語情報である。また、音声合成辞書１０６は、第２特徴量抽出部１０７および第３特徴量抽出部１１３で音声特徴量を生成する際に利用する隠れマルコフモデルを記憶している。

音声合成部１０２は、読み上げ対象となる第１のテキストを解析してコンテキスト情報を抽出するテキスト解析部１１２と、コンテキスト情報および音声合成辞書１０６の隠れマルコフモデルを用いてスペクトルに関する第３の音声特徴量を生成する第３特徴量抽出部１１３と、フィルタ作成部１０１で作成されたフィルタを用いて、第３の音声特徴量を第４の音声特徴量に変換する特徴量変換部１１４と、コンテキスト情報および音声合成辞書１０６の隠れマルコフモデルを用いて音源に関する特徴量（音源特徴量）を生成する音源特徴量抽出部１１５と、第４の音声特徴量および音源特徴量から音声波形を生成する波形生成部１１６とを備える。

（フローチャート：フィルタ作成部）
図２は、本実施形態にかかる音声処理装置において、オフラインでフィルタを作成する際のフローチャートである。まず、ステップＳ１では、第１特徴量抽出部１０３は、音声データ格納部１１１から実音声データを取得し、取得した音声波形を２０〜３０ｍｓ程度の長さのフレームに分割する。

次に、ステップＳ２では、第１特徴量抽出部１０３は、各フレームの音響分析を行い第１の音声特徴量を抽出する。ここで、第１の音声特徴量は、音声の声色や音韻情報を表すスペクトルに関する特徴量であり、例えば、音声データをフーリエ変換することにより得られる離散スペクトル、ＬＰＣ係数、ケプストラム、メルケプストラム、ＬＳＰ係数、メルＬＳＰ係数などを用いることができる。本実施形態では、第1の音声特徴量としてメルＬＳＰ係数を用いる。メルＬＳＰ係数は短時間フーリエ変換により得られたスペクトルをメルスケールに変換した後にＬＳＰ分析を行うことで抽出する。

第１の音声特徴量の次元数はＤとし、ｎ番目のフレームから抽出した第１の音声特徴量ｙ_ｎは、（１）式で表わされる。Ｔは転置を表す。

ステップＳ３では、第１ヒストグラム計算部１０４は、総数Ｎフレームの第１の音声特徴量から第１のヒストグラムを計算する。ステップＳ３の詳細を説明する。まず、第１ヒストグラム計算部１０４は、第１の音声特徴量の各次元について最大値ｙ_ｍaｘ（ｄ）および最小値ｙ_ｍｉｎ（ｄ）を計算する（ステップＳ２０１）。ｄは次元を表す。そして、この最大値および最小値の範囲内でＩ＋１個の階級を設定し（ステップＳ２０２）、各階級における第３の音声特徴量の頻度を計算することで、（２）式で表される各次元のヒストグラムを得る（ステップＳ２０３）。

ステップＳ４では、第１累積度数計算部１０５は、第１の正規化累積度数を計算する。具体的には、第１のヒストグラムから各階級の度数を累積することにより累積度数を求め（ステップＳ２０４）、求めた累積度数を総数Ｎで割ることで正規化する（ステップＳ２０５）。正規化された第１の累積度数（第１の正規化累積度数）は、（３）式で表される。

正規化後の累積度数の値域は、０〜１になる。

次に、ステップＳ５では、第２特徴量抽出部１０７は、音声データ格納部１１１に格納された音声データに関するコンテキスト情報を取得する。

ステップＳ６では、第２特徴量抽出部１０７は、ステップＳ５で取得したコンテキスト情報と音声合成辞書１０６の隠れマルコフモデルを用いてスペクトルに関する第２の音声特徴量を生成する。本実施形態では、第２の音声特徴量は第１の音声特徴量と同様にメルＬＳＰとなる。第２の音声特徴量の次元数は、第１の音声特徴量と同様にＤであり、ｍ番目のフレームから抽出した第２の音声特徴量ｘ_ｍは、（４）式で表される。

ステップＳ７では、総数Ｍフレームの第２の音声特徴量から第２のヒストグラムを計算する。ステップＳ２０６〜Ｓ２０８の処理は、それぞれステップＳ２０１〜Ｓ２０３と同様であるため説明を省略する。なお、ステップＳ２０６において、第２の音声特徴量の最大値および最小値を、第１の音声特徴量の最大値および最小値で代用することもできる。

ステップＳ８では、（５）式で表される正規化された第２の累積度数（第２の正規化累積度数）を求める。

ステップＳ２０９およびＳ２１０の処理は、それぞれステップＳ２０４およびＳ２０５と同様であるため説明を省略する。

次に、ステップＳ９では、フィルタ作成処理部１１０は、第１および第２の正規化累積度数に基づいて、後述する第３の音声特徴量を第４の音声特徴量に変換するフィルタを作成する。ここでは、第２の累積度数を実音声データから計算した第１の累積度数に近づけるという基準でフィルタを作成する。

ステップＳ９の詳細を説明する。まず、Ｋ個の正規化累積度数ｐ_ｋ（０≦ｋ＜Ｋ）を設定する（ステップＳ２１１）。例えば、Ｋを１１として、（６）式のように０．１刻みに設定する。

なお、ｐ_ｋはステップＳ９の処理ではなく、事前に設定してもよい。

次に、全てのｐ_ｋ（０≦ｋ＜Ｋ）について、第１の正規化累積度数分布において（７）式を満たす階級ｉを探索する（ステップＳ２１２）。

同様に第２の正規化累積度数分布についても、（８）式を満たす階級ｊを探索する（ステップＳ２１２）。

次に、（９）式の線形補間により、第１の正規化累積度数分布においてｐ_ｋに対応する音声特徴量の値ｙ⁻（ｐ_ｋ，ｄ）を求める（ステップＳ２１３）。

ここで、ｉ（ｋ）は、ステップＳ２１２で探索された階級である。また、第１の正規化累積分布において、ｙ（ｉ（ｋ），ｄ）は、階級ｉ（ｋ）に対応する音声特徴量の値である。図３に、第１の正規化累積分布上でのｐ_ｋとｙ⁻（ｐ_ｋ，ｄ）の関係を示す。

同様に、（１０）式の線形補間により、第２の正規化累積度数分布においてｐ_ｋに対応する値ｘ⁻（ｐ_ｋ，ｄ）を求める（ステップＳ２１３）。

ステップＳ２１４では、フィルタ作成処理部１１０は、ステップＳ２１３で計算された音声特徴量の値をフィルタとして記憶する。ｄ次元目の特徴量に対応するフィルタＴ（ｄ）は（１１）式で表される。

ここで、第１および第２の音声特徴量の最大値および最小値を用いて、フィルタＴ（ｄ）の値を（１２）式および（１３）式のように置き換えてもよい。

以上の処理により、本実施形態の音声処理装置は、音声特徴量の各次元についてフィルタＴ（ｄ）を作成する。フィルタＴ（ｄ）は、所定の正規化累積度数ｐ_ｋを用いて、第１および第２の正規化累積度数の対応関係を保存している。これにより、後述する特徴量変換部１１４は、フィルタＴ（ｄ）を用いて第２の正規化累積度数を第１の正規化累積度数に近づけるような変換を実現できる。

（フローチャート：音声合成部）
図４は、本実施形態にかかる音声処理装置において、フィルタを用いて音声スペクトルの凹凸が強調された音声波形を生成する際のフローチャートである。まず、ステップＳ４１では、テキスト解析部１１２は、読み上げ対象となる第１のテキストを解析してコンテキスト情報を抽出する。コンテキスト情報は、音素情報、アクセント句長、品詞情報などを含んでおり、構文解析により抽出できる。

次に、ステップＳ４２では、第３特徴量抽出部１１３は、抽出されたコンテキスト情報および音声合成辞書１０６の隠れマルコフモデルを用いて（１４）式で表される第３の音声特徴量を生成する。

第３の音声特徴量はスペクトルに関する特徴量であり、第１および第２の音声特徴量と同様にメルＬＳＰを用いる。また、第３の音声特徴量の抽出方法は、第２の音声特徴量の抽出方法と同様である。

次に、ステップＳ４３では、特徴量変換部１１４は、オフライン処理で作成されたフィルタＴ（ｄ）を用いて第３の音声特徴量を第４の音声特徴量に変換する。

ステップＳ４３の詳細を説明する。まず、特徴量変換部１１４は、第３の音声特徴量の各次元について、（１５）式を満たすｋ（ｄ）を探索する（ステップＳ４０１）。

次に、特徴量変換部１１４は、各次元の第３の音声特徴量ｘ_ｔ ^〜（ｄ）を第４の音声特徴量ｙ_ｔ ^〜（ｄ）に変換する（ステップＳ４０２）。変換は（１６）式で表すことができる。

図５を用いて（１６）式の動作を説明する。まず、図５(a)に示す第２の正規化累積度数分布において、変換前の第３の音声特徴量ｘ_ｔ ^〜（ｄ）の正規化累積度数ｐを、ｘ⁻（ｐ_ｋ（ｄ），_、ｄ）、ｘ⁻（ｐ_{ｋ（ｄ）＋１}，_、ｄ）、ｐ_ｋ（ｄ）およびｐ_{ｋ（ｄ）＋１}を用いた線形補間により求める。次に、図５(b)に示す第１の正規化累積度数分布において、上記正規化累積頻度ｐに対応する変換後の音声特徴量ｙ_ｔ ^〜（ｄ）を、ｙ⁻（ｐ_ｋ（ｄ），ｄ）、ｙ⁻（ｐ_{ｋ（ｄ）＋１}，ｄ）、ｐ_ｋおよびｐ_ｋ＋１を用いて線形補間により求める。これらの処理をまとめたものが（１６）式に相当する。

図６に、変換前後における第３の音声特徴量の正規化累積度数分布を示す。この図より、第４の音声特徴量ｙ_ｔ ^〜（ｄ）から計算した正規化累積度数分布の形状は、実音声データから計算した第１の正規化累積度数分布の形状に近付いていることが分かる。つまり、第４の音声特徴量がもつスペクトル特性が、音声データ格納部１１１に格納された実音声データがもつスペクトル特性に近づいたことを意味する。これは、変換前の第３の音声特徴量は第２の音声特徴量と同様な方法で抽出されており、かつ、フィルタＴ（ｄ）は、第２の正規化累積度数を第１の正規化累積度数に近づけるという基準で設計されているからである。

なお、ステップＳ４２で生成した第３の音声特徴量ｘ_ｔ ^〜（ｄ）が、第２の音声特徴量の最大値を超えたり最小値を下回ったりする場合は、変換をせずに出力したり、ｘ_ｔ ^〜（ｄ）を最大値あるいは最小値に置き換えて変換したりすることができる。

ステップＳ４４では、音源特徴量抽出部１１５は、コンテキスト情報および音声合成辞書１０６の隠れマルコフモデルを用いて音源特徴量を生成する。音源特徴量には、非周期成分や基本周波数がある。

最後に、ステップＳ４５では、波形生成部１１６は、第４の音声特徴量ｙ_ｔ ^〜（ｄ）および音源特徴量から音声波形を生成する。図７に、変換前後の音声波形のスペクトルを示す。この図からも、本実施形態のフィルタを用いた変換により、音声スペクトルの凹凸が強調されることが分かる。

（効果）
このように、本実施形態にかかる音声処理装置は、実音声データから計算した第１の累積度数と音声合成辞書を用いて計算した第２の累積度数に基づいて、第２の累積度数を第１の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。

また、本実施形態にかかる音声処理装置は、フィルタ特性をユーザの手動で調整する必要がないため、フィルタ作成に必要な時間的コストを削減することができる。

さらに、本実施形態にかかる音声処理装置は、音声合成辞書を用いて計算した第２の累積度数を実音声データから計算した第１の累積度数に近づける基準でフィルタを作成する。そして、このフィルタを用いて音声合成のための第３の音声特徴量を第４の音声特徴量に変換する。これにより、第４の音声特徴量から生成された音声波形の音質を実音声データに近づけることができる。

（変形例１）
本実施形態では、第１ヒストグラム計算部１０４および第２ヒストグラム計算部１０８の２つのヒストグラム計算部を設けたが、これらを１つにまとめることもできる。第１累積度数計算部１０５および第２累積度数計算部１０９についても同様である。

また、本実施形態では、第１〜第３の音声特徴量としてスペクトルに関するメルＬＳＰを音声特徴量として用いたが、この他にも、音声に含まれる周期・非周期性の度合いを表す非周期成分、声の高さを表す基本周波数を音声特徴量として用いることができる。また、特徴量の時間方向の変化、周波数方向の変化の度合い、特徴量の次元間の差分、対数値を用いてもよい。

また、図８に示すように、第２特徴量抽出部１０７がテキスト解析部１１２で抽出されたコンテキスト情報を利用して第２の音声特徴量を抽出してもよい。この場合、第２の音声特徴量と第３の音声特徴量が同一となり、フィルタ作成部１０１は読み上げ対象となるテキスト毎にフィルタＴ（ｄ）を作成する。これにより、各テキストに最適なフィルタが作成することができる。

また、本実施形態では、累積度数を正規化したが、正規化せずにフィルタを作成することもできる。

また、特徴量変換部１１４が、全ての次元ではなく特定の次元についてフィルタを適用するようにしてもよい。例えば、音声特徴量の総次元数が５０であれば、１から３０次元はフィルタＴ（ｄ）を用いて変換し、残りの３１〜５０次元は変換を行わないなどの処理が可能である。

（変形例２）
フィルタ作成処理部１１０では、第２の正規化累積度数分布を第１の正規化累積度数分布に近づけるｄ次元目のフィルタＴ（ｄ）として、（１７）式を満たす係数ａ_ｄ ^＾、ｂ_ｄ ^＾を用いることができる。

（１７）式を解くと（１８）式となる。

特徴量変換部１１４では、（１９）式を用いて各次元の第３の音声特徴量ｘ_ｔ ^〜（ｄ）を第４の音声特徴量ｙ_ｔ ^〜（ｄ）に変換する。

（変形例３）
本実施形態では、テキスト音声合成における音声強調について説明したが、他の用途に音声強調を用いることもできる。図９は、入力された音声データの声質を変換する機能を有した音声処理装置のブロック図を示している。この音声処理装置は、声質変換部１２１に入力された変換前の音声データの声質を、音声データ格納部１１１に格納された実音声データの声質に近づけることを目的としている。例えば、音声データ格納部１１１にユーザの実音声データを格納しておけば、声質変換部１２１に入力された任意の音声波形の声質をユーザの声質に近づくよう変換することができる。

この音声処理装置は、音声データの声質を変換する声質変換部１２１を備えている。第２の特徴量抽出部１１７および第３の特徴量抽出部１１８は、音声データからそれぞれ第２および第３の音声特徴量を抽出する。声質変換処理部１１９は、声質を変換するためのフィルタである声質変換フィルタ１２５を用いて第３の音声特徴量の声質を変換する。特徴量変換部１１４は、声質変換後の第３の音声特徴量を、フィルタＴ（ｄ）により音声スペクトルの凹凸を強調した第４の音声特徴量に変換する。

本変形例では、第２音声特徴量抽出部１１７および第３音声特徴量抽出部１１８は、互いに同じ方法で音声特徴量を抽出する。また、声質変換処理部１２４および声質変換処理部１１９も同じ方法で声質を変換することから、第２ヒストグラム計算部１０８に入力される音声特徴量と音声特徴量変換部１１４に入力される音声特徴量は同一なものになる。フィルタＴ（ｄ）は、声質変換処理部１２４により声質が変換された第２の音声特徴量の累積度数を、実音声データから計算した第１の累積度数に近づける基準で生成される。このフィルタＴ（ｄ）を用いた変換により、第４の音声特徴量から生成された音声波形の音質を実音声データの音質に近づけることができる。

このように、本実施形態で説明した音声強調処理は、音声合成だけでなく、声質変換、音声符号化等に用いられる音声特徴量に対しても適用可能である。

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１、１２２、１２３フィルタ作成部
１０２音声合成部
１０３第１特徴量抽出部
１０４第１ヒストグラム計算部
１０５第１累積度数計算部
１０６音声合成辞書
１０７、１１７第２特徴量抽出部
１０８第２ヒストグラム計算部
１０９第２累積度数計算部
１１０フィルタ作成処理部
１１１音声データ格納部
１１２テキスト解析部
１１３、１１８第３特徴量抽出部
１１４特徴量変換部
１１５、１２０音源特徴量抽出部
１１６波形生成部
１１９、１２４声質変換処理部
１２１声質変換部
１２５声質変換フィルタ

Claims

音声データから抽出された第１の音声特徴量から第１のヒストグラムを計算し、前記第１の音声特徴量とは異なる第２の音声特徴量から第２のヒストグラムを計算するヒストグラム計算手段と、
前記第１のヒストグラムの度数を累積した第１の累積度数と、前記第２のヒストグラムの度数を累積した第２の累積度数とを計算する累積度数計算手段と、
前記第１および第２の累積度数に基づいて、前記第２の累積度数を前記第１の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段と、
を備える音声処理装置。
前記フィルタ作成手段が、前記第１および第２の累積度数の値域において所定値を設定し、前記第１の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値と、前記第２の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値とを用いて前記フィルタを作成する請求項１記載の音声処理装置。
前記フィルタ作成手段で作成されたフィルタを用いて、前記第２の音声特徴量と同様な方法で抽出された第３の音声特徴量を第４の音声特徴量に変換する特徴量変換手段を更に備える請求項１乃至請求項２記載の音声処理装置。
前記累積度数計算手段で計算される前記第１および第２の累積度数が、それぞれ前記第１の音声特徴量の総数および前記第２の音声特徴量の総数で正規化されたものである請求項１から請求項３の何れか１項に記載の音声処理装置。
前記第２および第３の音声特徴量が、コンテキスト情報および音声合成のための辞書を用いて生成された音声特徴量である請求項３記載の音声処理装置。
前記第２および第３の音声特徴量が、声質を変換するフィルタにより値が変換された音声特徴量である請求項３記載の音声処理装置。
前記第２および第３の音声特徴量が、同一の音声特徴量である請求項３、請求項５、請求項６の何れか１項に記載の音声処理装置。
前記第１から第３の音声特徴量が、スペクトル包絡、スペクトル包絡を示すパラメータ、基本周波数、音声の周期性・非周期性を示すパラメータのいずれかである請求項３記載の音声処理装置。
音声データから抽出された第１の音声特徴量から第１のヒストグラムを計算し、前記第１の音声特徴量とは異なる第２の音声特徴量から第２のヒストグラムを計算するステップと、
前記第１のヒストグラムの度数を累積した第１の累積度数と、前記第２のヒストグラムの度数を累積した第２の累積度数とを計算するステップと、
前記第１および第２の累積度数に基づいて、前記第２の累積度数を前記第１の累積度数に近づける特性をもつフィルタを作成するステップと、
を備える音声処理方法。
請求項９記載の音声処理方法により作成されたフィルタ。