JP2014002338A

JP2014002338A - 音声処理装置

Info

Publication number: JP2014002338A
Application number: JP2012139455A
Authority: JP
Inventors: Bonada Jordi; ボナダジョルディ; Brau Melrain; ブラアウメルレイン; Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-06-21
Filing date: 2012-06-21
Publication date: 2014-01-09
Anticipated expiration: 2032-06-21
Also published as: US20140006018A1; JP5772739B2; US9286906B2

Abstract

【課題】声質変換で自然な音声を生成する。
【解決手段】調整処理部３４は、目標声質の音声を示す目標音声信号ＱBの基本周波数ＰSを、目標声質とは相違する初期声質の音声を示す音声信号ＶXの基本周波数ＰVに時間領域で調整する。声質変換部３８は、調整処理部３４による調整後の目標音声信号ＱCのスペクトルＳ[k]を調波成分毎に区分した各調波帯域成分Ｈ[i]を音声信号ＶXの基本周波数ＰVに対応する各調波周波数ｆiに配置するとともに各調波帯域成分Ｈ[i]の包絡線および位相を音声信号ＶXのスペクトルＸ[k]の包絡線および位相に応じて調整したスペクトルＹ[k]を順次に生成する。
【選択図】図１

Description

本発明は、音声信号を処理する技術に関する。

音声信号が示す音声の声質を変換する技術が従来から提案されている。例えば非特許文献１には、音声信号のスペクトルを調波成分（基音成分または各倍音成分）毎に区分した各帯域成分を周波数領域にて適宜に移動させることで基本周波数（ピッチ）および声質を変換する技術が開示されている。

Jean Laroche, "Frequency-Domain Techniques for High-Quality Voice Modification", Proc. of the 6th Int. Conference on Digital Audio Effects. 2003

しかし、非特許文献１の技術では、音声信号のスペクトルの各帯域成分を周波数領域にて移動させることで基本周波数が変換されるから、各帯域成分内に調波成分と他の音響成分（以下「周辺成分」という）とが存在する場合に、周波数と位相との関係を調波成分および周辺成分の双方について適切に維持した自然な音声を生成することは困難である。調波成分と周辺成分との各々について相異なる方法で個別に位相を調整すれば自然な音声を生成することも可能であるが、例えば濁声や嗄声等の特徴的な音声では周辺成分の時間的な変動が速くて大きいという傾向があるから、周辺成分について調波成分とは個別に位相を適切な数値に調整することは実際には困難である。以上の事情を考慮して、本発明は、声質変換で自然な音声を生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声処理装置は、目標声質の音声を示す第１音声信号（例えば目標音声信号ＱB）の基本周波数（例えば基本周波数ＰS）を、目標声質とは相違する初期声質の音声を示す第２音声信号（例えば音声信号ＶX）の基本周波数（例えば基本周波数ＰV）に時間領域で調整する調整処理手段と、調整処理手段による調整後の第１音声信号のスペクトル（例えばスペクトルＳ[k]）を調波成分毎に区分した各調波帯域成分（例えば調波帯域成分Ｈ[i]）を第２音声信号の基本周波数に対応する各調波周波数（例えば調波周波数ｆi）に配置するとともに各調波帯域成分の包絡線および位相を第２音声信号のスペクトルの包絡線および位相に応じて調整したスペクトル（例えばスペクトルＹ[k]）を順次に生成する声質変換手段とを具備する。以上の構成では、声質変換手段による声質変換前に第１音声信号の基本周波数が第２音声信号の基本周波数に時間領域で調整されるから、各調波帯域成分内に調波成分と他の周辺成分とが存在する場合でも、周波数と位相との関係が調波成分および周辺成分の双方について適切に維持され、聴感的に自然な音声を生成できるという利点がある。

本発明の好適な態様において、声質変換手段は、調整処理手段による調整後の第１音声信号のスペクトルの第ｉ番目の調波帯域成分を、調整処理手段による調整前の第１音声信号のスペクトルの第ｉ次の調波成分の近傍の各調波周波数に配置する。以上の構成によれば、第１音声信号の声質を充分に反映した音声を生成できるという利点がある。また、調整処理手段は、例えば、第１音声信号の基本周波数と第２音声信号の基本周波数とに応じた比率で第１音声信号を標本化することで基本周波数を調整する。

本発明の好適な態様に係る音声処理装置は、特定の音素を目標声質で定常的に発声した音声を示す目標音声信号（例えば目標音声信号ＱA）の各区間を時間軸上で相互に連結することで第１音声信号を生成する継続処理手段を具備する。以上の構成によれば、目標音声信号の各区間の反復で第１音声信号が生成されるから、長時間にわたる第１音声信号を事前に記憶する構成と比較して、目標声質の音声信号の記憶に必要な記憶容量が削減されるという利点がある。

本発明の好適な態様に係る音声処理装置は、第２音声信号のスペクトルと声質変換手段による処理後のスペクトルとを加重加算する混合処理手段を具備する。以上の構成によれば、加重値を適宜に選定することで声質を目標声質に近似させる度合を可変に制御できるという利点がある。

本発明の好適な態様に係る音声処理装置は、利用者から指示された音高および音韻の音声を示す第２音声信号を目標声質の各音声素片を接続することで生成する音声合成手段を具備する。以上の態様では、音声合成手段が生成した第２音声信号の声質が変換されるから、特定の初期声質のみを利用可能な環境でも多様な声質の音声信号を生成できるという利点がある。

前述の各態様に係る音声処理装置は、音声信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラム（ソフトウェア）との協働によっても実現される。本発明のプログラムは、目標声質の音声を示す第１音声信号の基本周波数を、目標声質とは相違する初期声質の音声を示す第２音声信号の基本周波数に時間領域で調整する調整処理と、調整処理後の第１音声信号のスペクトルを調波成分毎に区分した各調波帯域成分を第２音声信号の基本周波数に対応する各調波周波数に配置するとともに各調波帯域成分の包絡線および位相を第２音声信号のスペクトルの包絡線および位相に応じて調整したスペクトルを順次に生成する声質変換処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声処理装置と同様の作用および効果が実現される。本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。

第１実施形態に係る音声処理装置のブロック図である。変換処理部のブロック図である。継続処理部の動作の説明図である。声質変換部の動作の説明図である。

図１は、本発明の好適な実施形態に係る音声処理装置１００のブロック図である。以下に例示する実施形態の音声処理装置１００は、任意の音高および音韻で発声された音声の波形を示す時間領域の音声信号ＶZを生成する信号処理装置（音声合成装置）であり、演算処理装置１２と記憶装置１４とを具備するコンピュータシステムで実現される。

演算処理装置１２は、記憶装置１４に記憶されたプログラムＰGMを実行することで、音声信号ＶZを生成するための複数の機能（音声合成部２０，解析処理部２２，変換処理部２４，混合処理部２６，波形生成部２８）を実現する。記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置１４として任意に採用され得る。

記憶装置１４は、特定の声質（以下「初期声質」という）の音声から事前に採取された複数種の音声素片ＤPを記憶する。各音声素片ＤPは、音声の言語的な最小単位に相当する１個の音素、または、複数の音素を相互に連結した音素連鎖（ダイフォンやトライフォン）であり、周波数領域のスペクトルまたは時間領域の音声波形として表現される。

また、記憶装置１４は、初期声質とは相違する特定の声質（以下「目標声質」という）の音声を示す時間領域の目標音声信号ＱAを記憶する。目標音声信号ＱAは、例えば特定の音素（典型的には母音）を略一定の音高で定常的に発声した所定長の音声のサンプル系列である。典型的には目標声質と初期声質とは別個の発声者の声質であるが、ひとりの発声者の相異なる声質を目標声質および初期声質とすることも可能である。本実施形態の目標声質は、初期声質と比較して独特（non-modal）な声質である。具体的には、発声時の声帯の挙動が通常の発音とは相違する音声の声質が目標声質として好適である。例えば濁声（ダミ声）や嗄声（ハスキーボイス）や唸り声が目標声質として例示され得る。

音声合成部２０は、利用者が任意に指定した音高および音韻を初期声質で発声した音声の波形を示す時間領域の音声信号ＶXを生成する。本実施形態の音声合成部２０は、記憶装置１４に記憶された各音声素片ＤPを利用した素片接続型の音声合成処理で音声信号ＶXを生成する。すなわち、音声合成部２０は、利用者が指定した音韻（発音文字）に対応する音声素片を順次に記憶装置１４から選択して時間軸上で相互に連結し、利用者が指定した音高に調整することで音声信号ＶXを生成する。なお、音声信号ＶXの生成には公知の技術が任意に採用され得る。

解析処理部２２は、音声合成部２０が生成した音声信号ＶXのスペクトル（複素スペクトル）Ｘ[k]を時間軸上の単位区間（フレーム）毎に順次に生成するとともに、音声信号ＶXの基本周波数（ピッチ）ＰVを単位区間毎に順次に特定する。記号ｋは、周波数軸上に離散的に設定された複数の周波数（周波数ビン）のうちの任意の１個を意味する。スペクトルＸ[k]の算定には短時間フーリエ変換等の公知の周波数分析が任意に採用され、基本周波数ＰVの特定には公知のピッチ検出技術が任意に採用される。なお、音声合成部２０による音声合成に適用される音高（利用者が時系列に指定する音高）から各単位区間の基本周波数ＰVを特定することも可能である。

変換処理部２４は、音声合成部２０が生成した音声信号ＶXの音高および音韻を維持したまま声質を初期声質から目標声質に変換する。すなわち、変換処理部２４は、音声信号ＶXの音高および音韻（音色）を目標声質で発声した音声の音声信号ＶYのスペクトル（複素スペクトル）Ｙ[k]を単位区間毎に順次に生成する。変換処理部２４が実行する具体的な処理の内容は後述する。

混合処理部２６は、音声合成部２０が生成した音声信号ＶX（スペクトルＸ[k]）と変換処理部２４が生成した音声信号ＶY（スペクトルＹ[k]）とを混合することで音声信号ＶZのスペクトルＺ[k]を単位区間毎に順次に生成する。具体的には、混合処理部２６は、以下の数式(1)で表現されるように、初期声質のスペクトルＸ[k]と目標声質のスペクトルＹ[k]とを加重加算することでスペクトルＺ[k]を算定する。

数式(1)の加重値ｗは０以上かつ１以下の範囲内で設定される。数式(1)から理解されるように、音声信号ＶZの声質を目標声質に近似させる度合は加重値ｗに応じて調整される。具体的には、加重値ｗが大きいほど音声信号ＶZの声質が目標声質に近付く。加重値ｗは、例えば利用者からの指示に応じて経時的に変動する。したがって、目標声質が音声信号ＶZの音声に反映される度合は刻々と変動する。

波形生成部２８は、混合処理部２６が単位区間毎に生成するスペクトルＺ[k]から時間領域の音声信号ＶZを生成する。具体的には、波形生成部２８は、各単位区間のスペクトルＺ[k]を短時間逆フーリエ変換で時間波形に変換し、相前後する時間波形を相互に重複させた状態で加算することで音声信号ＶZを生成する。波形生成部２８が生成した音声信号ＶZは、例えば放音装置（図示略）に供給されて音波として放射される。

変換処理部２４の具体的な構成および動作を説明する。図２は、変換処理部２４のブロック図である。図２に示すように、変換処理部２４は、継続処理部３２と調整処理部３４と解析処理部３６と声質変換部３８とを含んで構成される。

継続処理部３２は、記憶装置１４に記憶された目標声質の目標音声信号ＱAから適宜に選択された各区間を時間軸上で相互に連結することで、目標音声信号ＱAを上回る時間長にわたる目標声質の目標音声信号ＱBを生成する。具体的には、継続処理部３２は、図３に示すように、目標音声信号ＱAの始点と終点との間のランダムな位置に転回点ｐを順次に設定し、相前後する転回点ｐの間の区間の各サンプルを順方向（時間が経過する方向）または逆方向（時間が遡及する方向）に配列順に抽出すること（ランダムループ）で目標音声信号ＱBを生成する。以上のように所定長の目標音声信号ＱAを時間的に反復（ループ）することで目標音声信号ＱBが生成されるから、長時間にわたる目標音声信号ＱBを記憶装置１４に保持する構成と比較して必要な記憶容量が削減されるという利点がある。

図２の調整処理部３４は、継続処理部３２が生成した目標音声信号ＱBを音声信号ＶXの基本周波数ＰVに調整（ピッチ変換）することで時間領域の目標音声信号ＱCを生成する。具体的には、調整処理部３４は、目標音声信号ＱBを時間領域で標本化（リサンプリング）することで、基本周波数ＰVを目標声質で発声した音声の目標音声信号ＱCを生成する。目標音声信号ＱCの音素は目標音声信号ＱBと同様である。調整処理部３４による標本化の比率（サンプリングレート）Ｒは、解析処理部２２が特定した音声信号ＶXの基本周波数ＰVと目標音声信号ＱBから特定される基本周波数ＰSとの相対比に設定される（Ｒ＝ＰV／ＰS）。すなわち、基本周波数ＰVが基本周波数ＰSを上回る場合（Ｒ＞１）には目標音声信号ＱBが収録時と比較して短い周期で標本化されて基本周波数が上昇し、基本周波数ＰVが基本周波数ＰSを下回る場合（Ｒ＜１）には目標音声信号ＱBが収録時と比較して長い周期で標本化されて基本周波数が低下する。なお、基本周波数ＰSの特定には公知のピッチ検出技術が任意に採用される。また、基本周波数ＰSを目標音声信号ＱAとともに記憶装置１４に事前に記憶して比率Ｒの算定に適用することも可能である。

図２の解析処理部３６は、調整処理部３４による調整後の目標音声信号ＱCのスペクトル（複素スペクトル）Ｓ[k]を時間軸上の単位区間毎に順次に生成する。スペクトルＳ[k]の算定には短時間逆フーリエ変換等の公知の周波数分析が任意に採用される。

声質変換部３８は、解析処理部２２が音声信号ＶXから単位区間毎に算定した初期声質のスペクトルＸ[k]と解析処理部３６が単位区間毎に生成した目標声質のスペクトルＳ[k]とを利用して、音声信号ＶXの音高および音韻を目標声質で発声した音声信号ＶYのスペクトルＹ[k]を単位区間毎に順次に生成する。具体的には、声質変換部３８は、図４に示すように、目標声質のスペクトルＳ[k]を、相異なる調波成分（基音成分または各倍音成分）に対応する複数の帯域に周波数軸上で区分し、各帯域の音響成分（以下「調波帯域成分」という）Ｈ[i]を前述の比率Ｒに応じて周波数軸上に再配列するとともに調波帯域成分Ｈ[i]毎に強度（振幅）および位相を初期声質のスペクトルＸ[k]に応じて調整することで各単位区間のスペクトルＹ[k]を生成する。

図４には、調整処理部３４による調整前の目標音声信号ＱBのスペクトルＳ0[k]が便宜的に図示されている。また、図４の周波数ｆi（ｆ＝１,２,３,……）は、調整処理部３４による調整後のスペクトルＳ[k]の第ｉ次の調波成分に対応する周波数（以下「調波周波数」という）である。図４から理解される通り、目標声質のスペクトルＳ[k]のうち第ｉ番目の調波帯域成分Ｈ[i]は、調整処理部３４による調整前（ピッチ変換前）のスペクトルＳ0[k]における第ｉ次の調波成分（基音成分または倍音成分）の近傍の各調波周波数ｆiに配置（写像）される。

例えば、音声信号ＶXの基本周波数ＰVが目標音声信号ＱA（ＱB）の基本周波数ＰSの半分である場合（Ｒ＝ＰV／ＰS＝０.５）、スペクトルＳ[k]の第１番目の調波帯域成分Ｈ[1]は、調整前の基本周波数ＰSの近傍に位置する調波周波数ｆ1および調波周波数ｆ2の各々に対して反復的に写像され、第２番目の調波帯域成分Ｈ[2]は、調整前の基本周波数ＰSの２倍の周波数（倍音周波数）の近傍に位置する調波周波数ｆ3および調波周波数ｆ4の各々に対して反復的に写像される。すなわち、音声信号ＶXの基本周波数ＰVが目標音声信号ＱAの基本周波数ＰSを下回る場合（Ｒ＜１）には、図４の例示のようにスペクトルＳ[k]の各調波帯域成分Ｈ[i]が反復して周波数軸上に配列され、基本周波数ＰVが基本周波数ＰSを上回る場合（Ｒ＞１）には、スペクトルＳ[k]の複数の調波帯域成分Ｈ[i]が適宜に間引かれて周波数軸上に配列される。

具体的には、本実施形態の声質変換部３８は、以下の数式(2)の演算で調波周波数ｆi毎に帯域成分Ｙi[k]を算定する。記号ｊは虚数単位を意味する。

数式(2)の記号ｄiは、目標声質のスペクトルＳ[k]における調波帯域成分Ｈ[i]を各調波周波数ｆiに写像するときの周波数軸上の移動量を意味し、以下の数式(3)で定義される。

数式(3)の記号〈〉は床関数を意味する。すなわち、関数〈ｘ＋0.5〉は、数値ｘを四捨五入した整数を算定する演算である。数式(3)の記号Ｌは、解析処理部３６が実行する短時間フーリエ変換での単位区間の時間長（窓長）であり、記号ＦSは、目標音声信号ＱBの標本化周波数を意味する。

数式(3)の記号ｍiは、目標声質のスペクトルＳ[k]における各調波帯域成分Ｈ[i]と写像後の各調波周波数ｆiとの対応関係を規定する変数であり、以下の数式(4)で定義される。

数式(2)の記号ａiは、調波帯域成分Ｈ[i]の強度を初期声質のスペクトルＸ[k]に応じて調整するための調整値（ゲイン）であり、例えば以下の数式(5)の演算で調波周波数ｆi毎に算定される。

数式(5)の記号ＴVは、音声信号ＶXのスペクトルＸ[k]の強度（振幅またはパワー）の包絡線を意味し、記号ＴSは、目標声質のスペクトルＳ[k]の強度の包絡線を意味する。数式(2)および数式(5)から理解されるように、調波帯域成分Ｈ[i]の強度（調波成分に対応するピークの強度）は、音声信号ＶXのスペクトルＸ[k]の包絡線ＴVに沿う数値に調整される。

数式(3)の記号φiは、調波帯域成分Ｈ[i]の位相を初期声質のスペクトルＸ[k]に合致させるための調整値（調波帯域成分Ｈ[i]の位相の回転角度）であり、例えば以下の数式(6)の演算で調波周波数ｆi毎に算定される。

数式(6)の記号∠は偏角を意味する。数式(2)および数式(6)から理解されるように、調波帯域成分Ｈ[i]の位相は音声信号ＶXのスペクトルＸ[k]の位相に調整される。

声質変換部３８は、以上の演算で算定した複数の帯域成分Ｙi[k]（Ｙ1[k]，Ｙ2[k]，……）を周波数軸上に配列することで音声信号ＶYのスペクトルＹ[k]を単位区間毎に生成する。以上の説明から理解されるように、声質変換部３８が生成するスペクトルＹ[k]は、目標声質のスペクトルＳ[k]に近似する微細構造（すなわち、目標声質の発声時における声帯の挙動を反映した構造）を内包するとともに包絡線および位相が音声信号ＶXに近似する。すなわち、音声信号ＶXと同等の音高および音韻（音色）を目標声質で発声した音声のスペクトルＹ[k]が生成される。

以上に例示した形態では、声質変換部３８による声質変換前に目標音声信号ＱBの基本周波数ＰSが音声信号ＶXの基本周波数ＰVに調整されるから、各調波帯域成分Ｈ[i]内に調波成分と他の周辺成分（サブハーモニクス）とが存在する場合、周波数と位相との関係は調波成分および周辺成分の双方について適切に維持される。したがって、各調波帯域成分Ｈ[i]内に周辺成分が発生し易く各周辺成分が時間的に変動し易いという傾向がある濁声や嗄声等を目標声質とした場合でも、調波成分と周辺成分との各々について相異なる方法で個別に位相を調整する煩雑な処理を必要とすることなく、聴感的に自然な音声を生成できるという利点がある。第１実施形態では、目標音声信号ＱBの各調波帯域成分Ｈ[i]が調整処理部３４による調整前のスペクトルＳ0[k]における第ｉ次の調波成分の近傍の各調波周波数ｆiに写像されるから、目標音声信号ＱBの声質を忠実に反映した音声を生成することが可能である。

＜変形例＞
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、目標音声信号ＱA内にランダムに設定された転回点ｐを端点とする各区間の連結で目標音声信号ＱBを生成したが、目標音声信号ＱAを伸長する方法は以上の例示に限定されない。例えば、目標音声信号ＱAの全区間を反復することで目標音声信号ＱBを生成することも可能である。具体的には、目標音声信号ＱAを始点から順方向に辿って終点に到達すると始点に戻る構成や、目標音声信号ＱAを順方向または逆方向に辿って端点（始点または終点）に到達すると逆方向に転回する構成が採用され得る。なお、充分な時間長の目標音声信号ＱBが記憶装置１４に事前に記憶された構成では継続処理部３２は省略され得る。

（２）前述の形態では、初期声質のスペクトルＸ[k]と目標声質のスペクトルＹ[k]とを混合した音声信号ＶZを出力したが、目標声質のスペクトルＹ[k]から生成される音声信号ＶYを出力（例えば再生）することも可能である。すなわち、混合処理部２６は省略され得る。

（３）前述の形態では、音声合成部２０が生成した音声信号ＶXの声質を変換したが、変換処理部２４の処理対象は、音声合成で生成された音声信号ＶXに限定されない。例えば、各種の信号供給装置から供給される音声信号ＶXを処理対象とすることも可能である。信号供給装置としては、例えば、周囲の音声を収音して音声信号ＶXを生成する収音機器、可搬型または内蔵型の記録媒体から音声信号ＶXを取得する再生装置、または、通信網から音声信号ＶXを受信する通信装置が例示され得る。以上の説明から理解されるように音声合成部２０は省略され得る。

（４）変換処理部２４による各処理の順序は適宜に変更され得る。例えば、調整処理部３４が目標音声信号ＱBの基本周波数ＰSを低下させる場合（周波数領域で各調波成分の分布が密に変換される場合）に着目すると、調整処理部３４による処理後に解析処理部３６が所定の周波数分解能のもとでスペクトルＳ[k]を算定する前述の構成では、目標音声信号ＱBの微細構造がスペクトルＳ[k]に充分に反映されない（すなわち目標音声信号ＱBの周波数領域での微細構造が損なわれる）可能性がある。そこで、基本周波数ＰVが基本周波数ＰSを上回る場合（Ｒ＞１）には、前述の各形態と同様に調整処理部３４による処理後（基本周波数ＰSの上昇後）に解析処理部３６がスペクトルＳ[k]を算定する一方、基本周波数ＰVが基本周波数ＰSを下回る場合（Ｒ＜１）には、解析処理部３６によるスペクトルＳ[k]の算定後に調整処理部３４による処理（基本周波数ＰSの低下）を実行する構成が好適である。

（５）相異なる基本周波数ＰSに対応する複数の目標音声信号ＱAを選択的に利用する構成も好適である。変換処理部２４は、音声信号ＶXの複数の単位区間にわたる基本周波数ＰVの平均値Ｐaveを算定し、複数の目標音声信号ＱAのうち平均値Ｐaveに近似する基本周波数ＰSの目標音声信号ＱAを処理対象として選択する。以上の構成では、音声信号ＶXの基本周波数ＰVに近い基本周波数ＰSの目標音声信号ＱAが選択されるから、例えば１種類の目標音声信号ＱAを処理する場合と比較して聴感的に自然な音声を生成できるという利点がある。

（６）前述の各形態では、音声素片ＤPや目標音声信号ＱAが音声処理装置１００内の記憶装置１４に記憶された構成を例示したが、音声処理装置１００とは別個に設置された外部装置（例えばサーバ装置）に音声素片ＤPや目標音声信号ＱAを格納し、音声処理装置１００が通信網（例えばインターネット）を介して外部装置から音声素片ＤPや目標音声信号ＱBを取得する構成も採用され得る。すなわち、音声素片ＤPや目標音声信号ＱAを記憶する要素は音声処理装置１００に必須ではない。また、例えば端末装置から通信網を介して受信した音声信号ＶXから音声処理装置１００が音声信号ＶZを生成して端末装置に返信する構成も好適である。

１００……音声処理装置、１２……演算処理装置、１４……記憶装置、２０……音声合成部、２２……解析処理部、２４……変換処理部、２６……混合処理部、２８……波形生成部、３２……継続処理部、３４……調整処理部、３６……解析処理部、３８……声質変換部。

Claims

目標声質の音声を示す第１音声信号の基本周波数を、前記目標声質とは相違する初期声質の音声を示す第２音声信号の基本周波数に時間領域で調整する調整処理手段と、
前記調整処理手段による調整後の第１音声信号のスペクトルを調波成分毎に区分した各調波帯域成分を前記第２音声信号の基本周波数に対応する各調波周波数に配置するとともに各調波帯域成分の包絡線および位相を前記第２音声信号のスペクトルの包絡線および位相に応じて調整したスペクトルを順次に生成する声質変換手段と
を具備する音声処理装置。
前記声質変換手段は、前記調整処理手段による調整後の第１音声信号のスペクトルの第ｉ番目の調波帯域成分を、前記調整処理手段による調整前の第１音声信号のスペクトルの第ｉ次の調波成分の近傍の前記各調波周波数に配置する
請求項１の音声処理装置。
前記調整処理手段は、前記第１音声信号の基本周波数と前記第２音声信号の基本周波数とに応じた比率で前記第１音声信号を標本化することで基本周波数を調整する
請求項１または請求項２の音声処理装置。
特定の音素を前記目標声質で定常的に発声した音声を示す目標音声信号の各区間を時間軸上で相互に連結することで前記第１音声信号を生成する継続処理手段
を具備する請求項１から請求項３の何れかの音声処理装置。
前記第２音声信号のスペクトルと前記声質変換手段による処理後のスペクトルとを加重加算する混合処理手段
を具備する請求項１から請求項４の何れかの音声処理装置。