JP2010230704A

JP2010230704A - 音声処理装置、方法、及びプログラム

Info

Publication number: JP2010230704A
Application number: JP2009074957A
Authority: JP
Inventors: Shinko Morita; 眞弘森田; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-25
Filing date: 2009-03-25
Publication date: 2010-10-14
Anticipated expiration: 2029-03-25
Also published as: JP5075865B2

Abstract

【課題】音声波形に内在する音源および声道フィルタの特徴を壊すことなく音声素片を融合することができる音声処理装置、方法、及びプログラムを提供する。
【解決手段】音韻・韻律入力受付部４１が、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数のセグメントの各々に対応する韻律情報の入力を受け付け、取得部４３が、複数のセグメントの各々に対して、セグメント及び韻律情報に関連付けられた複数の音声素片を取得し、声道フィルタ成分融合部４５が、取得された複数の音声素片の声道フィルタ成分をセグメント毎に融合し、音源成分融合部４６が、取得された複数の音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮してセグメント毎に融合し、素片融合部４４が、声道フィルタを用いて融合音源成分をフィルタリングすることにより、取得された複数の音声素片をセグメント毎に融合する。
【選択図】図１

Description

本発明は、音声処理装置、方法、及びプログラムに関する。

近年、任意の文章から人工的に音声信号を作り出す音声合成装置では、音質の向上が求められている。

例えば、特許文献１では、適切な音声素片が存在しない場合などに、部分的に合成音の音質が劣化する問題を改善するため、合成単位当たり複数個ずつの音声素片を選択し、これらを合成単位ごとに融合することによって新たな音声素片を生成して、音声を合成する方法（複数素片選択融合方式）が開示されている。

また、非特許文献１では、複数個の音声素片を融合する際に、周期的な成分（周期成分）と非周期的な成分（非周期成分）に分けて融合し、非周期成分については、さらに音源に関する特徴量と声道フィルタに関する特徴量に分け、それぞれの特徴量で融合することが開示されている。

特開２００５−１６４７４９号公報

森田眞弘、籠嶋岳彦、"有声音中の非周期成分を考慮した複数素片選択融合方式による音声合成"、日本音響学会春季講演論文集、２９５−２９６、２００８

しかしながら、特許文献１に開示されている音声素片の融合方法は、基本的に複数個の音声波形を平均化する方法であり、音源や声道フィルタの特徴など、音声の生成過程に関わるさまざまな特徴が混ざったままのものを融合している。このため、融合による効果がどの特徴にどのように現れるかが明確でなく、結果として、音声波形に内在する各成分の特徴を融合によって壊してしまい、かえって音質が劣化する可能性がある。

なお、非特許文献１では、非周期成分を音源と声道フィルタの特徴量に分けてそれぞれで融合する方法が開示されているが、ノイズ的な音源で駆動される非周期成分では、音源のパワーの時間変化と周波数特性さえ適切に表せば良いため、音源波形の形状自体を考慮する必要はない。これに対し、周期的な声帯振動が音源となる周期成分では、音源波形の形状やタイミングが非常に重要で、良好な音質を実現するためにはこれらを正確に表す必要がある。

本発明は、上記事情に鑑みてなされたものであり、音声波形に内在する音源および声道フィルタの特徴を壊すことなく音声素片を融合することができる音声処理装置、方法、及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一態様にかかる音声処理装置は、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける音韻・韻律入力受付部と、複数の前記セグメントの各々に対して、前記セグメント及び前記セグメントに対応する前記韻律情報に関連付けられた複数の音声素片を取得する取得部と、取得された複数の前記音声素片の声道フィルタ成分を、前記セグメント毎に融合する声道フィルタ成分融合部と、取得された複数の前記音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、前記セグメント毎に融合する音源成分融合部と、前記声道フィルタ成分融合部で融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、前記音源成分融合部で融合された融合音源成分をフィルタリングすることにより、前記取得部により取得された複数の前記音声素片を前記セグメント毎に融合する素片融合部と、を備えることを特徴とする。

また、本発明の別の態様にかかる音声処理方法は、音韻・韻律入力受付部が、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける入力受付ステップと、取得部が、複数の前記セグメントの各々に対して、前記セグメント及び前記セグメントに対応する前記韻律情報に関連付けられた複数の音声素片を取得する取得ステップと、声道フィルタ成分融合部が、取得された複数の前記音声素片の声道フィルタ成分を、前記セグメント毎に融合する声道フィルタ成分融合ステップと、音源成分融合部が、取得された複数の前記音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、前記セグメント毎に融合する音源成分融合ステップと、素片融合部が、前記声道フィルタ成分融合ステップで融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、前記音源成分融合ステップで融合された融合音源成分をフィルタリングすることにより、前記取得ステップにより取得された複数の前記音声素片を前記セグメント毎に融合する素片融合ステップと、を含むことを特徴とする。

また、本発明の別の態様にかかる音声処理プログラムは、音韻・韻律入力受付部が、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける入力受付ステップと、取得部が、複数の前記セグメントの各々に対して、前記セグメント及び前記セグメントに対応する前記韻律情報に関連付けられた複数の音声素片を取得する取得ステップと、声道フィルタ成分融合部が、取得された複数の前記音声素片の声道フィルタ成分を、前記セグメント毎に融合する声道フィルタ成分融合ステップと、音源成分融合部が、取得された複数の前記音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、前記セグメント毎に融合する音源成分融合ステップと、素片融合部が、前記声道フィルタ成分融合ステップで融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、前記音源成分融合ステップで融合された融合音源成分をフィルタリングすることにより、前記取得ステップにより取得された複数の前記音声素片を前記セグメント毎に融合する素片融合ステップと、をコンピュータに実行させるためのものである。

本発明によれば、音声波形に内在する音源および声道フィルタの特徴を壊すことなく音声素片を融合することができるという効果を奏する。

本実施の形態の音声処理装置の構成の一例を示すブロック図である。本実施の形態の音声素片記憶部に記憶されている情報の一例を示す図である。本実施の形態の素片融合部の詳細な構成の一例を示すブロック図である。本実施の形態の融合単位抽出部の処理の一例を示す図である。本実施の形態の声道フィルタ成分融合部の詳細な構成の一例を示すブロック図である。本実施の形態の音源成分融合部の詳細な構成の一例を示すブロック図である。本実施の形態の音源波形変形部による音源波形の変形方法の一例を説明するための図である。本実施の形態の生成部による音声波形の生成処理の一例を説明するための図である。本実施の形態の音声処理装置で行われる音声合成の処理手順の流れの一例を示すフローチャートである。本実施の形態の音声素片取得処理の処理手順の流れの一例を示すフローチャートである。変形例２の音声処理装置で行われる融合音声素片の作成手順の流れの一例を示すフローチャートである。変形例３の音声処理装置の構成の一例を示すブロック図である。

以下、添付図面を参照しながら、本発明にかかる音声処理装置、方法、及びプログラムの最良な実施の形態を詳細に説明する。

図１は、本実施の形態の音声処理装置１の構成の一例を示すブロック図である。図１に示すように、音声処理装置１は、テキスト入力部１０と、言語処理部２０と、韻律処理部３０と、音声合成部４０とを備える。

テキスト入力部１０は音声処理の対象となるテキストを入力する。

言語処理部２０は、テキスト入力部１０から入力されるテキストの形態素解析や構文解析などの言語解析を行う。

韻律制御部３０は、言語処理部２０の言語解析結果からアクセントやイントネーションを処理し、音韻系列及び韻律情報を生成する。

音声合成部４０は、韻律制御部３０により生成された音韻系列及び韻律情報から音声波形を生成する。そして、音声合成部４０は、音韻・韻律入力受付部４１と、音声素片記憶部４２と、取得部４３と、素片融合部４４と、声道フィルタ成分融合部４５と、音源成分融合部４６と、生成部４７と、出力部４８とを含む。

音韻・韻律入力受付部４１は、韻律制御部３０から目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける。具体的には、音韻・韻律入力受付部４１は、韻律制御部３０から入力された音韻系列を合成単位であるセグメントに分割し、分割された複数のセグメントの各々に対応する韻律情報とともに受け付ける。

なお、「目標音声」は、音声を合成する際の目標となる（仮想的な）音声、即ち、入力された音韻の並びと韻律を実現し、かつ、理想的に自然な音声をいう。また、「音韻系列」は、例えば音韻記号の系列であり、「韻律情報」は、例えば基本周波数、音韻継続時間長、パワーなどである。また、「合成単位」とは、合成音声を生成するときに用いる音声の単位のことであり、音素あるいは音素を分割したもの（例えば、半音素など）の組み合わせである。例えば半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

音声素片記憶部４２は、複数の音声素片と、音声素片の各々に関連付けられた環境情報を対応付けて記憶するものであり、例えば、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの既存の記憶媒体により実現できる。なお本実施の形態では、音声処理装置１が音声素片記憶部４２を備えているが、音声素片記憶部４２を外部記憶媒体等（例えば、音声処理装置１に着脱可能な記憶媒体）により実現する場合には、音声素片記憶部４２を省略するようにしてもよい。

なお、「音声素片」は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを示すものである。また、「環境情報」は、関連付けられた音声素片の音韻・韻律環境を示す情報であり、例えば、音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などである。なお、これら以外にも、音声素片の音響特徴のうち音声素片を選択するのに有用な音声素片の始端・終端でのケプストラム係数などの情報を、「環境情報」に含めるようにしてもよい。

図２は、音声素片記憶部４２に記憶されている情報の一例を示す図である。図２に示す例では、音声素片は、合成単位が音素の場合の音声波形となっている。なお、これらの音声素片は、音素毎にラベル付けされた多数の音声データから、当該ラベルに従って音素毎に音声波形を切り出したものである。

また、図２に示す例では、環境情報は、音声素片に対応した音韻（音素名）、隣接音韻（ここでは、前後それぞれ２音素ずつ）、基本周波数、音韻継続時間長、及び音響特徴量を示す音声素片始終端のケプストラム係数となっている。なお、これらの環境情報は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。

なお、図２では、合成単位が音素の場合の例を示しているが、合成単位は、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。

図１に戻り、取得部４３は、音韻・韻律入力受付部４１により分割された複数のセグメントの各々に対して、セグメント及びセグメントに対応する韻律情報に関連付けられた複数の音声素片を取得する。具体的には、取得部４３は、セグメント及びセグメントに対応する韻律情報（環境情報）に関連付けられた複数の音声素片を音声素片記憶部４２から取得する。

この際、取得部４３は、既存の素片選択型音声合成方法や複数素片選択融合型音声合成方法と同様に、音声素片の取得の尺度に、各音声素片候補を用いて音声を合成した場合の合成音声と目標音声との歪みの大きさを間接的に表すコストを用い、このコストができるだけ小さくなるように融合する音声素片の組み合わせを取得する。

なお、音声素片の取得の尺度となるコストは、対象の音声素片を目標の音韻・韻律環境で使用することによって生じる合成音声の目標音声に対する歪みの度合いを表す目標コストと、対象の音声素片を隣接する音声素片と接続したときに生じる合成音声の目標音声に対する歪みの度合いを表す接続コストとから成る。

目標コストには、音声素片が持つ基本周波数と目標の基本周波数の違い（差）によって生じる歪み（基本周波数コスト）、音声素片の音韻継続時間長と目標の音韻継続時間長の違い（差）によって生じる歪み（継続時間長コスト）、音声素片が属していた音韻環境と目標の音韻環境の違いによって生じる歪み（音韻環境コスト）、音声素片が元々あった単語内や呼気段落内、文内での位置と合成時の位置の違いによって生じる歪み（位置的環境コスト）などがある。

接続コストには、音声素片境界でのスペクトルの違い（差）によって生じる歪み（スペクトル接続コスト）や、音声素片境界での基本周波数の違い（差）によって生じる歪み（基本周波数接続コスト）などがある。

素片融合部４４は、取得部４３により取得された複数の音声素片を融合して新たな音声素片を生成する。具体的には、素片融合部４４は、後述の声道フィルタ成分融合部４５で融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、後述の音源成分融合部４６で融合された融合音源成分をフィルタリングすることにより、取得部４３により取得された複数の音声素片をセグメント毎に融合する。

図３は、本実施の形態の素片融合部４４の詳細な構成の一例を示すブロック図である。図３に示すように、素片融合部４４は、複数素片入力受付部４４１と、融合単位抽出部４４２と、プリエンファシス部４４３と、線形予測分析部４４４と、ディエンファシス部４４５と、目標パワー算出部４４６と、線形予測フィルタ部４４７と、パワー補正部４４８と、融合音声素片出力部４４９とを含む。

複数素片入力受付部４４１は、取得部４３によりセグメント毎に複数個ずつ取得された音声素片の入力を受け付ける。

融合単位抽出部４４２は、セグメント毎に入力された複数個の音声素片の各々から、融合するのに適した融合単位の波形を抽出し、セグメント毎に各音声素片の波形数を揃える。

なお本実施の形態においては、融合単位はピッチ波形としている。「ピッチ波形」とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形である。

そして、このようなピッチ波形を抽出する方法として、例えば、基本周期同期窓を用いる方法などがある。この方法では、予め各々の音声素片の音声波形に対して基本周期間隔毎にマーク（ピッチマーク）を付しておき、このピッチマークを中心にして、窓長が基本周期の２倍のハニング窓で窓掛けすることによって、ピッチ波形を切り出す。

図４は、融合単位をピッチ波形としたときの、融合単位抽出部４４２の処理の一例を示す図である。

図４に示す例において、点線６０で囲まれた３種類の音声波形は、あるセグメントに対して取得された音声素片の音声波形を示している。また、点線６１で囲まれた３種類の音声波形は、点線６０で囲まれた３種類の音声波形から、基本周期同期窓を用いた方法により抽出されたピッチ波形系列を示している。図４に示すように、音声波形から抽出されるピッチ波形の個数は、通常、音声素片ごとに異なっている。

そこで、融合単位抽出部４４２は、セグメント毎に各音声素片のピッチ波形の波形数を、同一数に揃える。具体的には、融合単位抽出部４４２は、ピッチ波形の少ない系列に対しては、系列に含まれるいくつかのピッチ波形を複製することによってピッチ波形数を増やし、ピッチ波形の多い系列に対しては、系列中のいくつかのピッチ波形を間引くことによってピッチ波形数を減らす。

なお、本実施の形態では、揃える対象となるピッチ波形の波形数は、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数としているが、例えば、最もピッチ波形数の多いものに揃えるようにしてもよい。

そして、図４の点線６２で囲まれた３種類の音声波形のように、セグメント毎に各音声素片のピッチ波形の波形数を、同一数に揃える。なお、点線６２で囲まれた３種類の音声波形は、ピッチ波形の数を７つに揃えた例を示している。

図３に戻り、プリエンファシス部４４３は、融合する音声波形の各々に対して、音声のスペクトル包絡に一般的に見られる負の傾き（チルトと呼ばれ、周波数の低域から高域に向かってパワーが下がる）を取り除くフィルタリングを行う。具体的には、プリエンファシス部４４３は、融合単位抽出部４４２により抽出されたピッチ波形の各々に対して、スペクトル包絡全体での負の傾き（チルト）を取り除くように、高域の周波数成分を強調するフィルタリングを行なう。

ここで、有声音の音源は、声帯の周期的な開閉によって生じる呼気流（声帯体積流）の振動であるが、この音源波形の周波数特性に強いローパス特性があるため、有声音の音声波形の周波数成分には、一般的に上述のようなチルトが見られる。このため、声道フィルタでのスペクトル特性を精度良く分析するためには、予めこのようなチルトを取り除いておくことが好ましい。

そこで、本実施の形態では、プリエンファシス部４４３は、音声分析の際に一般的に用いられるプリエンファシスフィルタ、即ち伝達関数が例えば数式（１）のように表されるフィルタを用いて、フィルタリングを行なう。なお、数式（１）のａには、通常０．９８〜１．０の値が用いられる。また、ａの値は、全ピッチ波形に対して一定にしてもよいし、音声素片が元々あった文中位置などに基づいてピッチ波形ごとに変更するようにしてもよい。例えば、文末では、声帯の緊張度が緩み、チルトが強まる傾向があるため、それ以外の箇所よりａの値を大きめに設定するようにしてもよい。

線形予測分析部４４４は、プリエンファシス部４４３によりフィルタリングされた音声波形の各々に対して、線形予測分析を行い、線形予測係数と線形予測残差を算出する。ここで分析対象の音声波形をｓ（ｎ）、線形予測係数をαｋ（ｋ＝１，．．．，ｐ、ｐは分析次数）、線形予測残差をｅ（ｎ）とすると、これらの関係は以下の数式（２）のように表される。

そして、線形予測分析では、数式（２）において、線形予測残差ｅ（ｎ）の二乗平均を最小にするように線形予測係数を求める。

なお、数式（２）は全極型のフィルタであるが、音声生成モデルにおいて声道のシステム関数が全極型フィルタでうまく近似できるとされているため、本実施の形態においては、この線形予測フィルタを声道フィルタとみなす。即ち、線形予測分析によって得られる線形予測係数は声道フィルタのスペクトル特性を表し、線形予測残差は音源波形の近似であるとみなす。

また、線形予測分析の方法としては、自己相関法、共分散法などの既存の方法を用いるようにしてもよい。また、本実施形態では、例えば元の音声波形が２２ｋＨｚサンプリングの場合、分析次数ｐを２０程度の値とする。

そして、線形予測分析部４４４は、上記のように、線形予測分析によって、セグメントに対する複数個のピッチ波形の各々に対して、線形予測係数と線形予測残差を算出し、線形予測係数を声道フィルタ成分融合部４５に出力し、線形予測残差をディエンファシス部４４５に出力する。

ディエンファシス部４４５は、線形予測分析部４４４により算出された線形予測残差波形の各々に対して、プリエンファシス部４４３で適用したフィルタリングの逆フィルタリングを行い、ディエンファシスした線形予測残差を音源成分融合部４６に出力する。

即ち、ディエンファシス部４４５は、伝達関数が例えば数式（３）のように表されるフィルタを用いて、プリエンファシス部４４３による高域の強調を元に戻すフィルタリングを行なう。なお、ａの値は、プリエンファシス部４４３で用いたのと同じ値を用いる。

目標パワー算出部４４６は、融合単位抽出部４４２から入力された音声波形のパワーを基に、融合によって生成される新たな音声素片の目標となるパワーである目標パワーを算出する。具体的には、目標パワー算出部４４６は、融合単位抽出部４４２により抽出されたセグメントの複数個のピッチ波形から、融合によって生成される新たなピッチ波形の目標パワーを算出する。なお、本実施の形態では、目標パワー算出部４４６は、ピッチ波形の各々に対してパワーを算出し、これらを平均化することによって目標パワーを求める。

線形予測フィルタ部４４７は、声道フィルタ成分融合部４５で融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、音源成分融合部４６で融合された融合音源成分をフィルタリングすることにより、融合音声素片を生成する。具体的には、線形予測フィルタ部４４７は、セグメント毎に、声道フィルタ成分融合部４５で融合された融合済みの線形予測係数を用いて、音源成分融合部４６で融合された融合音源波形をフィルタリングすることにより、融合音声素片のピッチ波形を生成する。

なお、線形予測フィルタは数式（２）で表され、αkには声道フィルタ成分融合部４５で融合された融合済みの線形予測係数を用いる。また、音源成分融合部４６で融合された融合音源波形を、数式（２）のｅ（ｎ）に代入することにより、融合音源波形のピッチ波形がｓ（ｎ）として生成される。

パワー補正部４４８は、線形予測フィルタ部４４７により生成された融合音声素片の音声波形に対し、目標パワー算出部４４６で算出された目標パワーに合うようにパワーを増幅または減幅する。

融合音声素片出力部４４９は、パワー補正部４４８により目標パワーに合うように補正されたセグメント毎の融合音声素片を、生成部４７に出力する。

なお、本実施の形態では、素片融合部４４（線形予測分析部４４４）は、音声素片を声道フィルタ成分と音源成分に分離する方法に線形予測分析法を用いているが、例えば、声道フィルタが極零型フィルタで近似されるＡＲＸ(AutoRegressive with eXogenous input)音声生成モデルを用いた方法など既存の分離方法を用いてもよい。

また、音声の生成過程において有声音の周期成分は、（１）声帯の周期的な開閉によって生じる呼気流（声帯体積流）の振動が、（２）舌や唇、口蓋で形を調整(調音)された声道を通過し、（３）唇または鼻腔で放射されることによって生成される。

ところで、線形予測分析法やＡＲＸモデルを用いた方法では一般的に、（２）を声道フィルタで近似する一方、（１）に（３）の放射による効果を含めたもの、即ち（１）に（３）を畳み込んだものを音源として扱っている。

しかしながら、本実施の形態においては、音源成分には必ずしも放射の効果を含む必要はなく、（１）だけの成分を近似したものであっても良い。なお、放射特性は微分で良く近似できるため、（１）だけの成分を近似した音源成分は、線形予測分析法やＡＲＸモデルを用いた方法で求めた音源成分を積分することにより求めることができる。

図１に戻り、声道フィルタ成分融合部４５は、取得部４３により取得された複数の音声素片の声道フィルタの特徴を表す声道フィルタ成分をセグメント毎に融合する。

図５は、本実施の形態の声道フィルタ成分融合部４５の詳細な構成の一例を示すブロック図である。図５に示すように、声道フィルタ成分融合部４５は、複数線形予測係数入力受付部４５１と、ＬＳＰ変換部４５２と、ＬＳＰ平均化部４５３と、ＬＰＣ変換部４５４と、融合線形予測係数出力部４５５とを含む。

複数線形予測係数入力受付部４５１は、線形予測分析部４４４（図３参照）から、セグメントに対する複数個のピッチ波形の各々に対して算出された線形予測係数の入力を受け付ける。

ＬＳＰ変換部４５２は、複数線形予測係数入力受付部４５１に受け付けられた複数個の線形予測係数（ＬＰＣ：Linear Prediction Coefficient）の各々を、線スペクトル対（ＬＳＰ：Line Spectrum Pair）に変換する。なお、「線スペクトル対」は、線形予測係数と相互に変換が可能な周波数領域のパラメータであり、既存の方法によって、線形予測係数からの変換が可能である。

ＬＳＰ平均化部４５３は、ＬＳＰ変換部４５２により変換された複数個の線スペクトル対を、ｉ番目の係数毎（例えば、２０次の線形予測係数に対する線スペクトル対は、０より大かつπ未満の２０個の角周波数を表す係数で構成）に平均化する。

ＬＰＣ変換部４５４は、ＬＳＰ平均化部４５３により平均化された線スペクトル対を、線形予測係数に変換する。

融合線形予測係数出力部４５５は、ＬＰＣ変換部４５４により変換された線形予測係数を、融合線形予測係数として線形予測フィルタ部４４７（図３参照）に出力する。

なお、本実施の形態では、線スペクトル対が一般的にホルマント周波数との対応に優れており、線スペクトル対領域での平均化によって複数の線形予測係数に共通する平均的なスペクトル特徴を比較的良好に得ることができることから、声道フィルタ成分融合部４５は、以上のような融合方法を用いたが、線形予測係数の融合方法はこの方法に限定されるものではない。

例えば、声道フィルタ成分融合部４５は、線形予測係数から線形予測極を算出した後、複数の線形予測極を補間して平均的な線形予測極を得る方法や、線形予測係数をＬＰＣメルケプストラムに変換してからメルケプストラム領域で平均化を行い線形予測係数に戻す方法などを用いるようにしてもよい。

また、声道フィルタ成分融合部４５は、複数個の線形予測係数の代わりに元のピッチ波形（複数個）の入力を受け付け、これらのピッチ波形を時間方向に接続したものを線形予測分析することによって、複数個のピッチ波形の特徴を平均的に表す線形予測係数を求めることにより、声道フィルタ成分を融合するようにしてもよい。

なお、本実施形態では、声道フィルタ成分融合部４５で融合する声道フィルタ成分が線形予測係数の場合を例にとり説明したが、声道フィルタ成分融合部４５で融合する声道フィルタ成分は線形予測係数に限定されるものではなく、声道フィルタの特性を表すものであれば、いかなるパラメータを融合するようにしてもよい。例えば、声道フィルタにＡＲＸモデルを用いる場合、声道フィルタ成分融合部４５は、ＡＲＸモデルの各フィルタ係数を融合する。

図１に戻り、音源成分融合部４６は、取得部４３により取得された複数の音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、セグメント毎に融合する。なお、音声素片の周期成分と非周期成分への分離には、例えば、ＰＳＨＦ（Pitch-scaled harmonic filter）などの方法を用いることができる。

図６は、本実施の形態の音源成分融合部４６の詳細な構成の一例を示すブロック図である。図６に示すように、複数音源波形入力受付部４６１と、不良音源波形除去部４６２と、音源波形アラインメント部４６３と、音源波形変形部４６４と、音源波形平均化部４６５と、融合音源波形出力部４６６とを含む。

複数音源波形入力受付部４６１は、ディエンファシス部４４５（図３参照）から、セグメントに対する複数個のピッチ波形の各々に対応した線形予測残差の入力を音源波形の入力として受け付ける。

不良音源波形除去部４６２は、複数音源波形入力受付部４６１に入力された複数個の音源波形の各々をチェックし、所定の除去条件に該当する音源成分を除去する。

なお、「所定の除去条件」には、例えば、声門閉鎖点と考えられるパルス的な成分が複数個見られる場合（文末以外）が該当する（ガラガラ声など発声に問題がある箇所に相当するため）。また例えば、線形予測残差波形中のパルス的な成分の位置が線形予測残差波形の中心位置から大きくずれている場合が該当する（元のピッチ波形の切り出し位置に問題があるため）。また例えば、線形予測残差波形の形状が他の波形の形状と大きく異なる場合が該当する（発声のスタイルなどが大きく異なる場合に相当するため）。

音源波形アラインメント部４６３は、不良音源波形除去部４６２により所定の除去条件に該当する音源成分が除去された複数個の音源波形の各々を、当該音源成分の特徴点の位置の誤差が閾値以下になるように時間方向にアラインメントする。具体的には、音源波形アラインメント部４６３は、不良音源波形除去部４６２から入力された複数個の線形予測残差波形の各々を、音源波形中の最も重要な位置が線形予測残差波形間で一致するように、時間方向にアラインメントする。

本実施の形態では、音源波形中の最も重要な位置を声門閉鎖点であると考え、この声門閉鎖点に対応する位置を、複数個の線形予測残差波形の間で時間方向に揃える。なお、「声門閉鎖点」は、声帯振動のサイクルの中で開いていた声門が急激に閉じるタイミングを表し、線形予測残差波形においては、１基本周期内でのローカルピークがそのタイミングに対応する。

そこで、音源波形アラインメント部４６３は、複数個の線形予測残差波形の各々について振幅最大の位置を求め、これらの位置が複数個の線形予測残差波形間で一致するように時間方向にアラインメントする。

但し、線形予測残差波形の中には、声門閉鎖点が明確でない、即ち顕著なピークが存在しないものも存在し、これらに対して求めた振幅最大の位置が声門閉鎖点に対応していない場合もあり得る。

このため、他の線形予測残差波形との間の相互相関など、他の指標も一緒に考慮すると、よりロバストなアラインメントが可能である。例えば、線形予測残差波形間での振幅最大の位置のずれの二乗を、線形予測残差波形間の相互相関で割った値のようなものをコスト関数として、コスト関数が最小になるようにアラインメントするようにすればよい。

なお本実施形態においては、声門閉鎖点の求め方として線形予測残差波形の振幅最大の位置を求める方法を説明したが、ウェーブレット変換を用いる方法など、声門閉鎖点が適切に抽出できる方法であれば、いかなる方法を用いても良い。また、線形予測残差波形間での時間方向のアラインメントの方法についても、上記の方法に限定する必要はなく、線形予測残差波形間での声門閉鎖点のずれが、所望の範囲内に収まる方法であれば、いかなる方法を用いても良い。

音源波形変形部４６４は、音源波形アラインメント部４６３によりアライメントされた
複数個の線形予測残差波形の各々に対して、時間方向の伸縮などの変形を加える。

図７は、音源波形変形部４６４による音源波形の変形方法の一例を説明するための図であり、音源波形変形部４６４に入力される線形予測残差波形の一例を示している。

図７に示す線形予測残差波形では、全区間(Ｄall)の長さは、融合単位であるピッチ波形一つ分に対応し、当該ピッチ波形が元々あった位置での音声波形の基本周期の約２倍となっている。

また、Ｄ１〜Ｄ４は、線形予測残差波形の中での特徴点を基に４区間に区切ったときの各区間を表している。具体的には、振幅最大の位置すなわち声門閉鎖点に対応する位置とその周辺を含む区間がＤ３、Ｄ３の直前でかつ負の振幅を持つ区間をＤ２、Ｄ２の前方の区間をＤ１、Ｄ３の後方の区間をＤ４となっている。

本実施の形態では、音源波形変形部４６４による音源波形の変形は、目標音声の基本周波数に基づいて時間方向に伸縮することで行なう。

音源波形は、理想的には目標音声の基本周波数に合った長さになっていることが好ましいが、音声素片が元々属していた音声の基本周波数と目標音声の基本周波数が異なる場合、音源波形の長さが目標音声にとって不適切な可能性が高い。

そこで、音源波形変形部４６４は、音源波形の全区間Ｄallの長さが目標音声の基本周期(１秒を基本周波数で割った長さ)の２倍の長さになるよう、時間方向に伸縮する。

但し、音源波形においては、声門閉鎖点周辺の区間Ｄ３の形状は非常に重要で、この区間を変形すると音質に大きな悪影響が出る可能性が高い。

そこで、本実施の形態では、音源波形変形部４６４は、区間Ｄ３は変形せず、元の形状を保持する。即ち、全区間Ｄallの長さが目標音声の基本周期の２倍になるように、区間Ｄ１、Ｄ２、およびＤ４を伸縮する。

また、音源波形において、区間Ｄ２の形状も比較的重要であるが、複数個の音源波形間で区間Ｄ２の位置が異なったまま音源波形平均化部４６４で音源波形を平均化してしまうと、区間Ｄ２の形状が壊れ、合成音の音質が劣化する要因になりうる。

そこで、音源波形変形部４６４による区間Ｄ２の伸縮においては、区間Ｄ２の開始点が複数の音源波形間で揃うように伸縮率を決めても良い。

なお、上述した伸縮方法は一例であり、いかなる伸縮方法も適用することができる。

音源波形平均化部４６５は、音源波形変形部４６４により伸縮された複数の音源波形を平均化して、融合音源波形を生成する。

なお、本実施の形態では、単純に線形予測残差波形を平均化することにするが、不良音源波形除去部４６２などから出力される音源波形の不良度合いなどの情報を用いて、融合する線形予測残差波形間で何らかの重み付けをして平均化しても良い。また、音源波形を複数の周波数帯域に分割した後、各周波数帯域下でさらなる時間方向のアラインメントを行なった後で音源波形の平均化を行い、平均化した各帯域の音源波形を帯域間で足し合わせることによって融合する方法などでも良い。

融合音源波形出力部４６６は、音源波形平均化部４６５で生成された融合音源波形を、線形予測フィルタ部４４７（図３参照）に出力する。

なお、本実施の形態では、音源成分融合部４６は、音源波形の融合を波形自体の平均化によって行なっているが、音源波形をまず声帯音源波モデルで近似して、モデルのパラメータの領域で平均化し、平均化したパラメータを用いて声帯音源波モデルで音源波形を合成することによって音源波形を融合するようにしてもよい。

声帯音源波モデルとしては、例えば、ＬＦ（Liljencrants and Fant）モデルがあり、ＬＦモデルにおいては、５つのパラメータを用いて、音源波形の特徴を、高い自由度かつ良好に表すことができる。各音源波形をＬＦモデルで近似し、これらの５つのパラメータのそれぞれを平均化することによって、音源波形の特徴を壊すことなく融合することができる。

このような、声帯音源波モデルのパラメータ領域で音源波形を融合する場合、ＬＦモデルに限らず、Rosenbergモデルなど他の声帯音源波モデルを用いるようにしてもよい。また、前述したように、音源成分融合部４６で融合する音源成分は、放射による効果を含むものであっても良いし、含まないものであっても良い。

図１に戻り、生成部４７は、素片融合部４４により融合された融合音声素片を変形および接続して、合成音声の音声波形を生成する。具体的には、生成部４７は、素片融合部４４で生成されたセグメント毎の融合音声素片を、音韻・韻律入力受付部４１に入力された韻律情報に従って韻律変形しながら、セグメント間で接続することによって、音声波形を生成する。

図８は、生成部４７による音声波形の生成処理の一例を説明するための図である。図８では、素片融合部４４で生成された、音素「ａ」「Ｎ」「ｓ」「a」「a」の各セグメントに対する音声素片を、変形・接続して、「ａＮｓａａ」という音声波形を生成する例を示している。

なお図８に示す例では、有声音の音声素片はピッチ波形の系列で表現されている。一方、無声音の音声素片は、フレーム毎の波形として表現されている。また、図８の点線は、目標の音韻継続時間長に従って分割した音素毎のセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置（ピッチマーク）を示している。

生成部４７は、図８に示すように、有声音については音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については各フレームの波形をセグメント中の各フレームに対応する部分に貼り付けることによって、所望の韻律（ここでは、基本周波数、音韻継続時間長）を持った音声波形を生成する。

出力部４８は、生成部４７で生成した音声波形を出力する。

次に、本実施の形態の音声処理装置１の動作について説明する。図９は、本実施の形態の音声処理装置１で行われる音声合成の処理手順の流れの一例を示すフローチャートである。

ステップＳ１０では、テキスト入力部１０は、音声処理の対象となるテキストを入力する。

ステップＳ１１では、言語処理部２０は、テキスト入力部１０から入力されるテキストの形態素解析や構文解析などの言語解析を行う。

ステップＳ１２では、韻律制御部３０は、言語処理部２０の言語解析結果からアクセントやイントネーションを処理し、音韻系列及び韻律情報を生成する。

ステップＳ１３では、音韻・韻律入力受付部４１は、韻律制御部３０から目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける。

ステップＳ１４では、取得部４３は、音韻・韻律入力受付部４１により分割された複数のセグメントの各々に対して、セグメント及びセグメントに対応する韻律情報に関連付けられた複数の音声素片を音声素片記憶部４２から取得する音声素片取得処理を行う。なお、音声素片取得処理の詳細については、後述する。

ステップＳ１５では、声道フィルタ成分融合部４５は、取得部４３により取得された複数の音声素片の声道フィルタ成分をセグメント毎に融合する。

ステップＳ１６では、音源成分融合部４６は、取得部４３により取得された複数の音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、セグメント毎に融合する。

ステップＳ１７では、素片融合部４４は、声道フィルタ成分融合部４５で融合された融合声道フィルタを用いて、音源成分融合部４６で融合された融合音源成分をフィルタリングすることにより、取得部４３により取得された複数の音声素片をセグメント毎に融合する。

ステップＳ１８では、生成部４７は、素片融合部４４により融合された融合音声素片を変形および接続して、合成音声の音声波形を生成する。

ステップＳ１９では、出力部４８は、生成部４７で生成した音声波形を出力する。

次に、図１０を参照しながら、図９のステップＳ１４の音声素片取得処理について説明する。図１０は、図９のステップＳ１４の音声素片取得処理の処理手順の流れの一例を示すフローチャートである。なお図１０では、Ｎ（Ｎ≧２）個のセグメント各々に対してＭ（Ｍ≧２）個ずつの音声素片を選ぶ例について説明する。

ステップＳ１０１では、取得部４３は、音声素片記憶部４２に記憶されている音声素片群の中から、各セグメント１つずつ音声素片の系列を選択する。具体的には、取得部４３は、目標の音韻系列・韻律情報と、音声素片記憶部４２に記憶された環境情報を基に、系列としてのコストの総和（トータルコスト）が最小となる音声素片の系列である最適素片系列を求め、選択する。なお、最適素片系列の探索には、動的計画法（ＤＰ：dynamic programming）を用いることで効率的に行うことができる。

ステップＳ１０２では、取得部４３は、セグメント番号を表すカウンターｉに初期値「１」を代入する。

ステップＳ１０３では、取得部４３は、セグメントｉに対する各音声素片候補に対してコストを算出する。この際に用いるコストは、音声素片候補の目標コストと、前後のセグメントの最適音声素片（最適素片系列に含まれる音声素片）及び音声素片候補の接続コストと、の和である。

ステップＳ１０４では、取得部４３は、算出したコストを用いて、コストの小さい上位Ｍ個の音声素片を選択する。

ステップＳ１０５では、取得部４３は、カウンターｉがセグメント数Ｎ以下であるか否かを判定する。

セグメント数Ｎ以下である場合には（ステップＳ１０５でＹｅｓ）、ステップＳ１０６へ進み、セグメント数Ｎ以下でない場合には（ステップＳ１０５でＮｏ）、取得部４３は、音声素片取得処理を終了する。

ステップＳ１０６では、取得部４３は、カウンターｉをインクリメントして、セグメントｉに対する各音声素片候補に対してコストを算出する。

このように本実施の形態では、音声素片の特徴を音源と声道フィルタの特徴に分離して融合することによって、音源やスペクトルの構造を壊すことなく融合することが可能であり、従来の複数素片選択融合方式以上に高い音質の合成音声が生成できる。

特に本実施の形態では、目標音声の基本周波数や音源波形の形状に基づいて音源波形を変形することによって、音源波形間の形状の違いのうち、制御可能な違いをできるだけ取り除いたうえで音源波形の平均化を行なえるので、音源波形の形状における特徴をよく保った融合が可能となり、より高い音質が実現できる。

また、本実施の形態では、不適切な形状を持つ音源波形を検出し、これらの音源波形を融合の対象から除去しているため、元の発声に問題があったり、途中の分析で何らかの失敗をした音声素片が含まれていても、音質の劣化が起こりにくい。

（変形例）
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

（変形例１）
上記実施の形態では、取得部４３が、声道フィルタ成分と音源成分で共通の音声素片を取得する例について説明したが、それぞれの成分に適した音声素片を別々に取得するようにしてもよい。

この場合、音声素片の取得の尺度となるコストの計算におけるサブコスト間の重み付けの仕方を、声道フィルタ成分と音源成分の各々で変えることにより、取得部４３は、各成分に適した音声素片（両成分間で異なる音声素片）を取得する。

具体的には、声道フィルタ成分については、前後の音素などの音韻環境による影響を特に大きく受けやすく、また前後の音声素片とスペクトルを滑らかに接続することが合成音の音質にとって重要であることから、音韻環境コストやスペクトル接続コストの重みを重めに設定する。

一方、音源成分については、呼気段落内や文内での位置による影響や（例えば、文頭と文末では声帯の緊張度が変わるなど）基本周波数による影響（例えば、声の高いところの方が声帯の緊張度が高いなど）を特に強く受けやすいため、位置的環境コストや基本周波数コストの重みを重めに設定する。

このようにすると、声道フィルタ成分と音源成分の各々の融合に用いる音声素片を、各成分に合った方法で取得するので、上記実施の形態よりも高い音質が実現できる。特に、音声素片のバリエーションが限られている場合に、有効性が高い。この場合には、声道フィルタ成分と音源成分で音声素片の取得数が異なる場合がある。

なお、音声素片の取得方法は、声道フィルタ成分と音源成分のそれぞれで全く異なる方法を用いるようにしてもよい。

（変形例２）
上記実施の形態では、音声処理装置１が、融合音声素片から音声波形を生成して出力する例について説明したが、音声処理装置１は、融合音声素片を作成する装置としてもよい。この場合、音声処理装置１の音声合成部４０は、生成部４７及び出力部４８を含まなくてもよい。

変形例２の音声処理装置の動作について説明する。図１１は、変形例２の音声処理装置で行われる融合音声素片の作成手順の流れの一例を示すフローチャートである。

まず、テキストの入力から音声素片の融合までは（ステップＳ２０１〜ステップＳ２０８）、図９のフローチャートのステップＳ１０〜ステップＳ１７までの処理と同様であるため、説明を省略する。なお、ステップＳ２０１では、テキスト入力部により数千、数万文といった大量のテキストが入力される。このため、ステップＳ２０８では、素片融合部により大量の融合音声素片が生成される。

ステップＳ２０９では、素片融合部４４は、生成した大量の融合音声素片の中から、融合音声素片の素片種別毎に融合音声素片をいくつずつ抽出するかを決定する。

ここで、素片種別とは、素片の音韻環境などで分類された種別を指す。例えば、素片種別／ａ／は、音素／ａ／に対応する素片のこととする。各素片種別に何個ずつ素片を配分するかは、各素片種別の素片の出現頻度などに応じて決める。例えば、素片種別／ａ／の素片が素片種別／ｕ／の素片よりも出現頻度が高い場合は、素片種別／ａ／に多めの素片を配分することとする。素片種別ｉに配分する素片の個数をＮ_ｉ（Ｎ_ｉ≧１）とする。

ステップＳ２１０では、素片融合部４４は、素片種別を表すカウンターｉに初期値「１」を代入する。

ステップＳ２１１では、素片融合部４４は、素片種別ｉの融合済み周期成分素片及び融合済み非周期成分素片を、素片融合部４４により融合された素片種別ｉの融合音声素片の中から、出現頻度が上位のものをＮ_ｉずつ抽出する。

ステップＳ２１２では、素片融合部４４は、カウンターｉが素片種別数Ｎ（Ｎ≧１）以下であるか否かを判定する。

素片種別数Ｎ以下である場合には（ステップＳ２１２でＹｅｓ）、ステップＳ２１３へ進み、素片種別数Ｎ以下でない場合には（ステップＳ２１２でＮｏ）、素片融合部４４は、融合音声素片の作成を終了する。

ステップＳ２１３では、素片融合部４４は、カウンターｉをインクリメントして、素片融合部４４により融合された素片種別ｉの融合音声素片の中から、出現頻度が上位のものをＮ_ｉずつ抽出する。

このようにすると、後述する変形例３のように、音声素片の融合機能を有していない音声処理装置であっても、変形例２の音声処理装置により作成された融合音声素片を格納することで、音声波形に内在する音源および声道フィルタの特徴を壊すことなく融合された音声素片を用いた音声合成を行うことができる。従って、従来の複数素片選択融合方式以上に高い音質の合成音声を生成できる。

（変形例３）
上記実施の形態では、音声処理装置１が、融合音声素片を生成する例について説明したが、変形例３では、例えば変形例２の音声処理装置などにより作成された融合音声素片を予め格納している音声処理装置について説明する。

なお、以下では、上記実施の形態との相違点の説明を主に行い、上記実施の形態と同様の機能を有する構成要素については、上記実施の形態と同様の名称・符号を付し、その説明を省略する。

図１２は、変形例３の音声処理装置１００１の構成の一例を示すブロック図である。音声処理装置１００１の合成部１０４０は、素片融合部４４、声道フィルタ成分融合部４５、及び音源成分融合部４６を備えていない点で、上記実施の形態の音声処理装置１と相違する。また合成部１０４０は、融合音声素を記憶する融合音声素片記憶部１０４２を備えている点で上記実施の形態の音声処理装置１と相違する。また取得部１０４３は、融合音声素片記憶部１０４２から融合音声素を取得する点で上記実施の形態の音声処理装置１と相違する。

融合音声素片記憶部１０４２は、前述の変形例２の音声処理装置により生成された融合済音声素片の中から、出現頻度の高い音声素片を抽出したものを記憶する。

なお、融合音声素片記憶部１０４２に記憶するために選択する音声素片の個数は、融合音声素片記憶部１０４２のサイズと合成音声の音質とのトレードオフで、任意に決めることができる。例えば、より多くの音声素片を選択して記憶すれば、融合音声素片記憶部１０４２のサイズは大きくなるが、合成音声の音質を高くすることができる。また例えば、音声素片の数を減らせば、合成音声の音質は犠牲になるが、融合音声素片記憶部１０４２のサイズを小さくすることができる。

このように変形例３の音声処理装置１００１によれば、音声素片の融合処理が不要となるため、ＣＰＵスペックが非常に低いローエンドのミドルウェア向けにも対応することができる。

（変形例４）
なお、上記実施の形態では、出現頻度の高い素片を抽出する方法を説明したが、素片の両端で算出したメルケプストラムなどの素片の特徴量を用いて抽出しても良い。

この場合、各素片種別に対して出力された融合済み周期成分素片及び融合済み非周期成分素片をそれぞれ、素片の特徴量を用いてクラスタリングし、分割された各クラスタの中心（セントロイド）に最も近い素片を抽出する。クラスタリングにおけるクラスタ数は、各素片種別に配分する素片数に応じて決める。

出現頻度に基づいて素片を抽出する場合は、出現頻度が低いコンテキストに対して適切な素片が抽出されない可能性があり、入力テキストによっては音質が大きく劣化してしまう可能性があるが、本方法によって素片を抽出した場合、特徴量空間をできるだけ広く覆うような素片のセットが抽出できるため、出現頻度に基づいて抽出した場合より安定した合成音が生成できる。

なお、上記実施の形態の音声処理装置１、１００１は、ＣＰＵ（Central Processing Unit）などの制御装置、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＨＤＤ、光ディスク、メモリカードなどの記憶装置、タッチパネルや操作ボタンなどの入力装置、スピーカなどの音声出力装置等を備えたハードウェア構成となっている。

また、上記実施の形態の音声処理装置１、１００１で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（FD）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、上記実施の形態の音声処理装置１、１００１で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施の形態の音声処理装置１、１００１で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、上記実施の形態の音声処理装置１、１００１で実行される音声処理プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

また、上記実施の形態の音声処理装置１、１００１で実行される音声処理プログラムは、上述した各部（音韻・韻律入力受付部、取得部、素片融合部、声道フィルタ成分融合部、音源成分融合部等）を含むモジュール構成となっている。そして、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音韻・韻律入力受付部、取得部、素片融合部、声道フィルタ成分融合部、音源成分融合部等が主記憶装置上に生成されるようになっている。

１、１００１音声処理装置
４１音韻・韻律入力受付部
４３、１０４３取得部
４４素片融合部
４５声道フィルタ成分融合部
４６音源成分融合部

Claims

目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける音韻・韻律入力受付部と、
複数の前記セグメントの各々に対して、前記セグメント及び前記セグメントに対応する前記韻律情報に関連付けられた複数の音声素片を取得する取得部と、
取得された複数の前記音声素片の声道フィルタ成分を、前記セグメント毎に融合する声道フィルタ成分融合部と、
取得された複数の前記音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、前記セグメント毎に融合する音源成分融合部と、
前記声道フィルタ成分融合部で融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、前記音源成分融合部で融合された融合音源成分をフィルタリングすることにより、前記取得部により取得された複数の前記音声素片を前記セグメント毎に融合する素片融合部と、を備えることを特徴とする音声処理装置。
前記音源成分融合部は、前記取得部により取得された複数の前記音声素片の前記音源成分を、当該音源成分の特徴点の位置の誤差が閾値以下になるように時間方向にアラインメントして、前記セグメント毎に融合することを特徴とする請求項１に記載の音声処理装置。
前記音源成分融合部は、前記取得部により取得された複数の前記音声素片の前記音源成分のうち、所定の除去条件に該当する前記音源成分を除去して、前記セグメント毎に融合することを特徴とする請求項１又は２に記載の音声処理装置。
前記音源成分融合部は、前記取得部により取得された複数の前記音声素片の前記音源成分を声帯音源波モデルで近似することにより得られたパラメータを平均化し、平均化したパラメータを用いて前記音源成分を前記セグメント毎に融合することを特徴とする請求項１〜３のいずれか１つに記載の音声処理装置。
前記取得部は、複数の前記音声素片として、前記音源成分の融合に用いる複数の音源成分融合用音声素片と、複数の前記音源成分融合用音声素片とは異なる前記声道フィルタ成分の融合に用いる複数の声道フィルタ成分融合用音声素片と、を取得することを特徴とする請求項１〜４のいずれか１つに記載の音声処理装置。
前記音源成分融合用音声素片と前記声道フィルタ成分融合用音声素片との取得数が異なることを特徴とする請求項５に記載の音声処理装置。
前記素片融合部により融合された融合音声素片を、前記セグメント毎に接続して音声波形を生成する生成部と、
前記音声波形を出力する出力部と、を更に備えることを特徴とする請求項１〜６のいずれか１つに記載の音声処理装置。
音韻・韻律入力受付部が、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける入力受付ステップと、
取得部が、複数の前記セグメントの各々に対して、前記セグメント及び前記セグメントに対応する前記韻律情報に関連付けられた複数の音声素片を取得する取得ステップと、
声道フィルタ成分融合部が、取得された複数の前記音声素片の声道フィルタ成分を、前記セグメント毎に融合する声道フィルタ成分融合ステップと、
音源成分融合部が、取得された複数の前記音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、前記セグメント毎に融合する音源成分融合ステップと、
素片融合部が、前記声道フィルタ成分融合ステップで融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、前記音源成分融合ステップで融合された融合音源成分をフィルタリングすることにより、前記取得ステップにより取得された複数の前記音声素片を前記セグメント毎に融合する素片融合ステップと、を含むことを特徴とする音声処理方法。
音韻・韻律入力受付部が、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数の前記セグメントの各々に対応する韻律情報の入力を受け付ける入力受付ステップと、
取得部が、複数の前記セグメントの各々に対して、前記セグメント及び前記セグメントに対応する前記韻律情報に関連付けられた複数の音声素片を取得する取得ステップと、
声道フィルタ成分融合部が、取得された複数の前記音声素片の声道フィルタ成分を、前記セグメント毎に融合する声道フィルタ成分融合ステップと、
音源成分融合部が、取得された複数の前記音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮して、前記セグメント毎に融合する音源成分融合ステップと、
素片融合部が、前記声道フィルタ成分融合ステップで融合された融合声道フィルタ成分を特性とする声道フィルタを用いて、前記音源成分融合ステップで融合された融合音源成分をフィルタリングすることにより、前記取得ステップにより取得された複数の前記音声素片を前記セグメント毎に融合する素片融合ステップと、をコンピュータに実行させるための音声処理プログラム。