JP3706249B2

JP3706249B2 - 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体

Info

Publication number: JP3706249B2
Application number: JP16904598A
Authority: JP
Inventors: 靖雄吉岡; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-16
Filing date: 1998-06-16
Publication date: 2005-10-12
Anticipated expiration: 2018-06-16
Also published as: JP2000003197A

Description

【０００１】
【発明の属する技術分野】
この発明は、特にカラオケ装置に用いて好適な、音声のピッチや声質を変換する音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
従来より、音声信号の属性を変換することによって、音高や声質を変換する音声変換技術が提案されている。ここで、図１８はピッチ変換の一つの手法を示す図であり、図１９はピッチ変換の他の手法を示す図である。
【０００３】
図１８に示すように、第１の手法では、入力信号の波形をリサンプリングすることによって、波形を圧縮あるいは伸長してピッチ変換を行う。この手法によれば、波形を圧縮すれば基本周波数が高くなるのでピッチが上がり、波形を伸長すれば基本周波数が低くなるのでピッチが下がる。
一方、図１９に示すように、第２の手法によれば、入力信号の波形を周期的に抽出して、それを所望のピッチ間隔で再構成する。この手法によれば、入力信号の周波数特性を変化させることなくピッチ変換を行うことができる。
【発明が解決しようとする課題】
しかしながら、男声（女声）を女声（男声）に変換する場合は、上記の手法では不十分であった。
例えば、男声を女声にする場合は、女声のピッチは男声のピッチに比べて高いので、図１８に示す手法のようにサンプリングした信号を圧縮してピッチを高くする必要がある。しかしながら、入力信号の周波数特性（フォルマント）も変化してしまうので、ピッチは変換されるものの声質も変化して、女性らしい自然な声質にはならなかった。
また、図１９に示す手法ようにピッチのみを変換した場合は、声質は男性のままであるので、女性らしい自然な声質にはならなかった。
【０００４】
そこで、男女声質変換の手法として、上述した二つの手法を組み合わせた技術、すなわち、ピッチを２倍にするとともに、抽出した１周期の波形をいくぶん圧縮することによって声質も女性らしくするという技術も提案されている。しかし、やはり所望する自然な声質になるような音声変換を行うことは困難であった。
また、このような従来の技術は、すべて時間軸上の処理によって音声変換を行っていたので、入力音声信号の波形を変換することしかできず、処理の自由度が低く、自然に声質やピッチを変換することが困難であった。
【０００５】
本発明は、上述した課題を解決するためになされたものであり、自由度が高く、より自然に声質やピッチを変換できる音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体を提供することを目的とする。
【０００６】
【課題を解決するための手段】
上述した課題を解決するために、請求項１に記載の発明は、入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段と、前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段と、前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段と、生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段とを備え、前記新規スペクトラル・シェイプ生成手段は、予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、前記新規正弦波成分生成手段は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出することを特徴とする。
【０００７】
また、請求項２に記載の発明は、請求項１に記載の構成において、前記新規スペクトラル・シェイプ生成手段は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプの傾きを変更することにより新規スペクトラル・シェイプを生成することを特徴とする。
また、請求項３に記載の発明は、請求項２に記載の構成において、前記出力ピッチの周波数を周期的に変化させるように制御する出力ピッチ制御手段をさらに備えることを特徴とする。
【０００８】
また、請求項４に記載の発明は、入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成段階と、前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成段階と、前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成段階と、生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成段階とを備え、前記新規スペクトラル・シェイプ生成段階は、予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、前記新規正弦波成分生成段階は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出することを特徴とする。
また、請求項５に記載の発明は、コンピュータを、入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段、前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段、前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段、および、生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段として機能させるための音声変換プログラムを記録した記録媒体であって、前記新規スペクトラル・シェイプ生成手段は、予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、前記新規正弦波成分生成手段は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出することを特徴とする。
【００１２】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態について説明する。
【００１３】
１．実施形態の構成
１−１．実施形態の概略構成
まず、図１に示す機能ブロック図を参照して、本実施形態の概略構成について説明する。なお、本実施形態は、本発明にかかる音質変換装置（音声変換方法）を適用したカラオケ装置であり、歌唱者(me)の音声を音声変換部１００において変換した後の音声と、楽音生成部２００において生成した伴奏となる楽音とをミキサ３００において合成して、出力部４００から出力するよう構成されている。各部の詳細な構成は図１０および図１１に示すが、まず、本実施形態の基本原理について説明した後、図１０に示した詳細構成に基づいて実施形態の動作について説明する。
【００１４】
１−２．実施形態の基本原理
（１）基本原理の概略
本実施形態では、音声信号の属性としての正弦波成分を変換する処理を行うことによって、ピッチや声質を変換する。
正弦波成分とは、入力音声信号Ｓｖを構成する波形成分うちの正弦波の要素を示すデータ、すなわち、ＦＦＴ変換後の入力音声信号Ｓｖにおいて検出されたローカルピーク値により求まるデータであり、周波数（Frequency）およびアンプ（Amplitude）によって示される。なお、ローカルピーク値については後に詳述する。
すなわち、本実施形態は、最も低い周波数である基本周波数（ｆ０）および、基本周波数のほぼ整数倍の周波数（ｆ１、ｆ２、……ｆｎ：以下、周波数成分という）を有する正弦波を含んで構成されているという有声音の特徴を利用しており、各正弦波成分の周波数およびアンプを変換すれば、ピッチおよび周波数特性の変換を周波数軸上で行うことができる。
ここで、このような周波数軸上で処理を行うためには、公知のスペクトル・モデリング・合成（ＳＭＳ：Spectral Modeling Synthesis）技術を用いる。なお、ＳＭＳ技術については、米国特許５，０２９，５０９号などに詳しく示されているので、ここでは簡単に説明するものとする。
【００１５】
本実施形態では、まず歌唱者（me）の音声（入力音声信号）ＳｖをリアルタイムでＦＦＴ（Fast Fourie Transform）を含むＳＭＳ（Spectral Modeling Synthesis）分析を行い、フレーム単位で正弦波成分（Sine成分）を抽出する。ここでフレームとは、入力音声信号を時間窓と言われる一連の時間フレームによって切り出したものである。
【００１６】
ここで、図２は、あるフレームにおける入力音声信号Ｓｖの正弦波成分を示す図である。図２を参照すると、入力音声信号Ｓｖからは、正弦波成分として（ｆ０、ａ０）、（ｆ１、ａ１）、（ｆ２、ａ２）、……、（ｆｎ、ａｎ）が抽出されたことがわかる。
そして、本実施形態では、歌唱者（me）の音声信号Ｓｖの属性（Attribute）データとして、正弦波成分から算出される、音の高さを示す「ピッチ（Pitch）」、音の強さを示す「平均アンプ」（Amplitude）、及び周波数特性（声質）を示す「スペクトラル・シェイプ」（Spectral Shape）を用いる。
【００１７】
ここで、ピッチは音声の基本周波数ｆ０であり、歌唱者（me）のピッチを示すデータをＰｍｅとする。また、平均アンプは、全正弦波成分のアンプ（ａ１、ａ２、……ａｎ）の平均値であり、歌唱者（me）の平均アンプを示すデータをＡｍｅとする。また、スペクトラル・シェイプは、各正弦波成分の周波数ｆｎ及び、正規化アンプａ’ｎにより得られる成分（ｆｎ、ａ’ｎ）をブレークポイントとするエンベロープ（包絡線）であり、歌唱者（me）のスペクトラル・シェイプを示す関数をＳｍｅ（ｆ）とする。なお、正規化アンプａ’ｎは、正弦波成分のアンプａｎを平均アンプＡｍｅで割った数値である。
【００１８】
ここで、図３は、図２に示す正弦波成分に基づいて生成された、歌唱者（me）のスペクトラル・シェイプＳｍｅ（ｆ）を示す図である。本実施形態では、図に示された折れ線（Ｓｍｅ（ｆ））が歌唱者（me）の声質を示しているものとして扱う。
【００１９】
さて、本実施形態では、ピッチを変換するとともに、歌唱者(me)のスペクトラル・シェイプのブレークポイントとなる周波数あるいはアンプの少なくともいずれか一方の変換処理を行って新規スペクトラル・シェイプを生成することによって、入力音声信号の特性を変換することを特徴としている。すなわち、正弦波成分の各周波数を周波数軸方向にシフトすれば音高が変化する。また、周波数特性を示すスペクトラル・シェイプのブレークポイントとなる周波数あるいはアンプの少なくともいずれか一方の変換処理を行って新規スペクトラル・シェイプを生成し、新規スペクトラル・シェイプに基づいて正弦波成分を変換すれば声質が変化する。
具体的には、図４および図５に示すように、生成したスペクトラル・シェイプに合わせて、各正弦波成分の周波数およびアンプを変換し、シフト後のピッチに応じた正弦波成分を求めて、音声変換後の新規正弦波成分とする。
シフト後のピッチ、すなわち音声変換処理が行われて新規音声信号として出力される音声信号のピッチ（出力ピッチ）は、例えば、男声から女声に変換する場合は歌唱者(me)のピッチを２倍に、女声から男声に変換する場合は歌唱者(me)のピッチを半分（１／２倍）にすることなどによって算出される。
【００２０】
ここで、図４に示すｆ”０は出力ピッチに対応する周波数であり、ｆ”１〜ｆ”４は基本周波数ｆ”０の倍音に相当する周波数である。
また、Ｓｎｅｗ（ｆ）は、生成された新規スペクトラル・シェイプを示す関数であり、周波数（ｆ）によって正規化アンプが特定される。従って、図示するように、周波数ｆ”０とする正弦波成分の正規化アンプはＳｎｅｗ（ｆ”０）となることがわかる。同様に各正弦波成分について正規化アンプを求め、変換後の平均アンプＡｎｅｗを掛け合わせれば、図５に示すように、各正弦波成分の周波数ｆ”ｎおよびアンプａ”ｎが求められる。
【００２１】
このように、歌唱者（me）の音声信号Ｓｖから抽出された正弦波成分に基づいて生成されたスペクトラル・シェイプのブレークポイントとなる周波数あるいはアンプの少なくともいずれか一方の変換処理を行って生成された新規スペクトラル・シェイプに基づいて、歌唱者(me)の正弦波成分（周波数、アンプ）を変換する。そして、この変換処理を行うことによって、入力楽音信号Ｓｖのピッチおよび声質が変換されて出力されることとなる。
【００２２】
ところで、本実施形態におけるスペクトラル・シェイプの変換の方法としては、一つにスペクトラル・シェイプの形を維持したまま周波数軸方向にシフトする「スペクトラル・シェイプのシフト」があり、もう一つにスペクトラル・シェイプの傾き（ティルト）を制御する「スペクトラルティルトの制御」の２種類がある。
以下、スペクトラル・シェイプのシフトおよびスペクトラルティルトの制御の概念について説明した後、実施形態の動作を具体的に説明する。
【００２３】
（２）スペクトラル・シェイプのシフトについて
図６および図７は、スペクトラル・シェイプのシフトの概念を説明する図である。まず、図６は、スペクトラル・シェイプを示す図であり、図中、縦軸はゲインを示しており、横軸は周波数を示している。
また、図中Ｓｍｅ（ｆ）は、歌唱者(me)の入力音声信号Ｓｖに基づいて生成されたスペクトラル・シェイプを示しており、Ｓｎｅｗ（ｆ）は、シフト後の新規スペクトラル・シェイプを示している。なお、図６の例では、入力された男性の声質を女性の声質に変換する場合を示している。
一般的に、女声は男声と比較して基本周波数ｆ０（ピッチ）が高いという特徴がある。また、周波数軸上でみた場合にも、女声は男声と比較すると高周波領域に正弦波成分が分布しているという特徴がある。
そこで、歌唱者(me)のピッチを上げる（２倍にする）とともに、歌唱者(me)のスペクトラル・シェイプを高周波方向にシフトした新規スペクトラル・シェイプを生成して適用すれば、歌唱者(me)の音韻を維持したまま女性らしい声質に変換できる。逆に女声から男声に変換する場合は、歌唱者(me)のピッチを下げる（２分の１倍にする）とともに、スペクトラル・シェイプを低周波方向にシフトすれば、歌唱者(me)の音韻を維持したまま男性らしい声質に変換できる。
【００２４】
次に、図中ΔＳＳはスペクトラル・シェイプのシフト量を示しており、このシフト量は、図７に示す変化関数によって決定する。ここで図７は、スペクトラル・シェイプのシフト量を示す図であり、図中、横軸はピッチを示しており、縦軸はスペクトラル・シェイプのシフト量（周波数）を示している。また、図中Ｔｓｓ（Ｐ）は、出力ピッチに応じてスペクトラル・シェイプのシフト量を決定する変化関数である。
すなわち、本実施形態では、出力ピッチおよび変化関数Ｔｓｓ（Ｐ）に基づいてスペクトラル・シェイプのシフト量を決定し、新規スペクトラル・シェイプを生成する。
【００２５】
例えば、図６および図７に例示したように、出力ピッチをＰｎｅｗとした場合は、出力ピッチＰｎｅｗおよび変化関数Ｔｓｓ（Ｐ）に基づいてスペクトラル・シェイプのシフト量ΔＳＳが求められる（図７参照）。そして、歌唱者(me)の音声信号Ｓｖに基づいて生成されたスペクトラル・シェイプＳｍｅ（ｆ）を、周波数軸上のシフト量がΔＳＳとなるように変換して新規スペクトラル・シェイプＳｎｅｗ（ｆ）を生成する。
【００２６】
このように、スペクトラル・シェイプの形状を維持したまま、周波数軸上でシフトさせるという変換を行うので、ピッチをシフトした場合でも本人の音韻を維持することができる。
また、変化関数Ｔｓｓ（Ｐ）を用いてスペクトラル・シェイプのシフト量を決定するので、スペクトラル・シェイプの微妙なシフト量を出力ピッチに応じて容易に制御することができ、より自然な女性らしい（男性らしい）出力を得ることができる。
【００２７】
（３）スペクトラルティルトの制御について
次に、図８および図９は、スペクトラルティルトの制御の概念を示す図である。
まず、図８は、スペクトラル・シェイプを示す図であり、図中、縦軸はゲインを示しており、横軸は周波数を示している。
図中Ｓｍｅ（ｆ）は、歌唱者(me)の入力音声信号Ｓｖに基づいて生成されたスペクトラル・シェイプを示しており、ＳＴｍｅはＳｍｅ（ｆ）のスペクトラルティルトを示している。
ここで、スペクトラルティルトとは、正弦波成分のアンプをおおむね近似することができる傾きの直線であり、詳細には、特開平７−３２５５８３に説明されている。
【００２８】
図８を参照すると、Ｓｎｅｗ（ｆ）のティルトＳＴｎｅｗは、Ｓｍｅ（ｆ）のティルトＳＴｍｅよりも傾きが大きいことがわかる。これは、一般的に、女声は男声と比較して基本周波数に対する倍音エネルギーの減衰が速いという特徴を利用したものである。
すなわち、スペクトラル・シェイプの変換としては、男声から女声に変換する場合は、傾きが大きくなるようにスペクトラルティルトの傾きを変更する制御を行えばよい（Ｓｎｅｗ（ｆ）参照）。
【００２９】
また、スペクトラル・シェイプのシフト量を、変化関数を用いて出力ピッチに応じて決定したように（図６参照）、スペクトラルティルトの制御量も、図９に示す変化関数Ｔｓｔ（Ｐ）を用いて出力ピッチに応じて決定する。
ここで図９は、スペクトラルティルトの制御量を示す図であり、図中、縦軸はスペクトラルティルトの制御量（傾きの変化量）を示しており、横軸はピッチを示している。また、図中Ｔｓｔ（Ｐ）は、出力ピッチに応じてスペクトラルティルトの制御量を決定する変化関数である。
【００３０】
例えば、出力ピッチをＰｎｅｗとした場合は、出力ピッチＰｎｅｗおよび変化関数Ｔｓｔ（Ｐ）に基づいて傾きの変化量ΔＳＴが求められる（図９参照）。
次に、歌唱者(me)の入力音声信号Ｓｖに基づいて生成されたスペクトラル・シェイプＳｍｅ（ｆ）のスペクトラルティルトＳＴｍｅの傾きを、ΔＳＴだけ変更した新規スペクトラルティルトＳＴｎｅｗを求める。
そして、傾きが新規スペクトラルティルトＳＴｎｅｗとなるような新規スペクトラル・シェイプＳｎｅｗ（ｆ）を生成する（図８参照）。
【００３１】
このように、出力ピッチに応じてスペクトラルティルトの制御量を決定して、スペクトラル・シェイプを変換するので、より自然に音声変換を行うことができる。
【００３２】
２．実施形態の詳細構成および動作
次に、図１０および図１１を参照して、上述した実施形態の構成および動作の詳細について説明する。
【００３３】
２−１．音声変換部１００
（１）音声変換部１００の概略動作
まず、音声変換部１００について説明するが、まず理解を容易にするために、図１２に示すフローチャートを参照して音声変換部１００の概略動作を説明する。
まず、音声変換をしようとする歌唱者（me）の入力音声信号Ｓｖをフレーム単位で切り出し（Ｓ１０１）、リアルタイムでＦＦＴを行う（Ｓ１０２）。
そして、ＦＦＴの結果に基づいて入力音声信号が無声音（含む無音）か否かを判別し（Ｓ１０３）、無声音である場合には（Ｓ１０３；ＹＥＳ）、以下のステップＳ１０４〜ステップＳ１０９の処理は行わず、入力音声信号Ｓｖをそのまま出力することとなる。
【００３４】
一方、ステップＳ１０３の判別において、無声音ではないと判別した場合は（Ｓ１０３；ＮＯ）、ＦＳｖに基づいてＳＭＳ分析を行い、フレーム単位で正弦波成分を抽出し（Ｓ１０４）、次に、入力音声信号Ｓｖ及び正弦波成分からフレーム単位で残差成分を生成する（Ｓ１０５）。この場合において、ＳＭＳ分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
次に、ステップＳ１０４において抽出した正弦波成分に基づいて生成したスペクトラル・シェイプを変換し（Ｓ１０６）、変換したスペクトラル・シェイプに基づいて正弦波成分を変換する（Ｓ１０７）。
そして、変換した正弦波成分と、ステップＳ１０５において抽出した残差成分とを加算し（Ｓ１０８）、逆ＦＦＴを行って（Ｓ１０９）、変換音声信号を出力する（Ｓ１１０）。
変換音声信号を出力した後は、処理をステップＳ１０１に移行させ、次のフレームの音声信号Ｓｖを入力する。
このように、ステップＳ１０１〜ステップＳ１１０の処理を循環する過程において得られる新規音声信号によれば、歌唱者(me)の歌声があたかも別の歌唱者が歌った歌声のようになる。
【００３５】
（２）音声変換部１００の構成および動作の詳細
次に、図１０および図１１を参照して、音声変換部１００の構成および動作の詳細について説明する。
図１０において、マイク１は、音声変換をしようとする歌唱者（me）の声を収集し、入力音声信号Ｓｖとして入力音声信号切出部３に出力する。
これと並行して、分析窓生成部２は、前回のフレームで検出したピッチの周期の固定倍（例えば、３．５倍など）の周期を有する分析窓（例えば、ハミング窓）ＡＷを生成し、入力音声信号切出部３に出力する。なお、初期状態あるいは前回のフレームが無声音（含む無音）の場合には、予め設定した固定周期の分析窓を分析窓ＡＷとして入力音声信号切出部３に出力する。
【００３６】
これらにより入力音声信号切出部３は、入力された分析窓ＡＷと入力音声信号Ｓvとを掛け合わせ、入力音声信号Ｓvをフレーム単位で切り出す。そして、切り出された信号は、フレーム音声信号ＦＳvとして高速フーリエ変換部４に出力される。
より具体的には、入力音声信号Ｓｖとフレームとの関係は、図１３に示すようになっており、各フレームＦＬは、前のフレームＦＬと一部重なるように設定されている。
【００３７】
次に、図１０の高速フーリエ変換部４において、供給されたフレーム音声信号ＦＳvの解析処理が行われ、周波数スペクトルがピーク検出部５に出力される。そしてピーク検出部５は、周波数スペクトルからローカルピークを検出する。
より具体的には、図１４に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ（振幅）値の組み合わせとして表される。
すなわち、図１３に示すように、（ｆ０、ａ０）、（ｆ１、ａ１）、（ｆ２、ａ２）、……、（ｆｎ、ａｎ）というように各フレームについてローカルピークが検出され、表されることとなる。
【００３８】
そして、図１３に模式的に示すように、各フレーム毎に一組（以下、ローカルピーク組という。）のローカルピークを示すデータが、無声／有声検出部６及びピーク連携部８に出力される。出力されたローカルピーク組は、まず、無声／有声検出部６において、入力音声信号Ｓｖが無音であるか否かを検出するために用いられる。すなわち、無声／有声検出部６は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出（‘ｔ’、‘ｋ’等）し、無声／有声検出信号Ｕ／Ｖｍｅをピッチ検出部７及びクロスフェーダ部２４に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出（‘ｓ’等）し、無声／有声検出信号Ｕ／Ｖｍｅをピッチ検出部７及びクロスフェーダ部２４に出力する。さらに無声／有声検出部６は、入力されたフレームが有声である場合には、入力されたローカルピーク組をそのまま、ピッチ検出部７に出力する。
【００３９】
ピッチ検出部７は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチＰｍｅを検出する。
より具体的なフレームのピッチＰｍｅの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"（Journal of Acounstical Society of America95(4):2254-2263）に開示されているような方法で行う。
【００４０】
一方、ピーク検出部５からピーク連携部８に出力されたローカルピーク組は、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
ここで、この連携処理について、図１５を参照して説明する。
今、図１５（Ａ）に示すようなローカルピークが前回のフレームにおいて検出され、図１５（Ｂ）に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、ピーク連携部８は、前回のフレームで検出された各ローカルピーク（ｆ０、ａ０）、（ｆ１、ａ１）、（ｆ２、ａ２）、……、（ｆｎ、ａｎ）に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図１５の例では、ローカルピーク（ｆ０、ａ０）、（ｆ１、ａ１）、（ｆ２、ａ２）……については、対応するローカルピークが検出されているが、ローカルピーク（ｆｋ、ａｋ）については（図１５（Ａ）参照）、対応するローカルピーク（図１５（Ｂ）参照）は検出されていない。
ピーク連携部８は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
【００４１】
ここで、図１６は、複数のフレームにわたるローカルピークの周波数ｆ０及び周波数ｆ１の変化の一例を示している。
このような変化は、アンプ（振幅）ａ０、ａ１、ａ２、……についても同様に認められる。この場合、ピーク連携部８から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
なお、ピーク連携部８から出力されるピーク値（正弦波のパラメータである周波数及びアンプ（振幅））が、上述した正弦波成分（ｆｎ、ａｎ）となる。
【００４２】
次に、補間合成部９は、ピーク連携部８から出力されるピーク値について補間処理を行い、いわゆるオシレータ方式で波形合成を行って正弦波成分合成信号ＳSSを出力する。この場合の補間の間隔は、後述する出力部３４が出力する最終出力信号のサンプリングレート（例えば、４４．１ＫＨｚ）に対応した間隔で行われる。前述した図１６に示す実線は、ピークの周波数ｆ０、ｆ１について補間処理が行われた場合のイメージを示している。
【００４３】
次に、残差成分検出部１０は、補間合成部９から出力された正弦波成分合成信号ＳSSと入力音声信号Ｓｖとの偏差である残差成分信号ＳRD（時間波形）を生成する。この残差成分信号ＳRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号ＳSSは有声成分に対応するものである。
【００４４】
ところで、歌唱者(me)の声が他人の声のように聞こえるためには、有声音についてだけ処理を行えばよく、無声音については処理を施す必要はあまりない。そこで、本実施形態においては、有声成分に対応する正弦波成分について音声変換処理を行うようにしている。より具体的には、残差成分信号ＳRDについては、高速フーリエ変換部１１で、周波数波形に変換し、得られた残差成分信号（周波数波形）をＲｍｅ（ｆ）として残差成分保持部１２に保持しておく。
【００４５】
一方、ピーク検出部５からピーク連携部８を介して出力された正弦波成分（ｆ０、ａ０）、（ｆ１、ａ１）、（ｆ２、ａ２）、……、（ｆ(ｎ-1)、ａ(ｎ-1)）のｎ個の正弦波成分（以下、これらをまとめてｆｎ、ａｎと表記する。ｎ＝０〜（ｎ−１）。）は、正弦波成分保持部１３に保持されるとともに、アンプＡｎは平均アンプ演算部１４に入力され、各フレーム毎に次式により平均アンプＡｍｅが算出される。
Ａｍｅ＝Σ（ａｎ）／Ｎ
例えば、図２に示した例では、５個の正弦波成分値（ｎ＝５）が正弦波成分保持部１３に保持されており、平均アンプＡｍｅ＝（ａ０＋ａ１＋ａ２＋ａ３＋ａ４）／５となる。
【００４６】
次にアンプ正規化部１５において、次式により各アンプａｎを平均アンプＡｍｅで正規化し、正規化アンプａ’ｎを求める。
ａ’ｎ＝ａｎ／Ａｍｅ
そして、スペクトラル・シェイプ演算部１６において、図３に示すように、周波数ｆｎ及び正規化アンプａ’ｎにより得られる正弦波成分（ｆｎ、ａ’ｎ）をブレークポイントとするエンベロープ（包絡線）をスペクトラル・シェイプＳｍｅ(ｆ)として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【００４７】
続いてピッチ正規化部１７においては、各周波数ｆｎをピッチ検出部７において検出したピッチＰｍｅで正規化し、正規化周波数ｆ’ｎを求める。ｆ’ｎ＝ｆｎ／Ｐｍｅこれらの結果、元フレーム情報保持部１８は、入力音声信号Ｓvに含まれる正弦波成分に対応する属性データである平均アンプＡｍｅ、ピッチＰｍｅ、スペクトラル・シェイプＳｍｅ(ｆ)、正規化周波数ｆ’ｎを保持することとなる。なお、この場合において、正規化周波数ｆ’ｎは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【００４８】
ここで、説明は図１１に移行し、新規情報生成部１９は、元フレーム情報保持部１８（図１０）に保持された平均アンプＡｍｅ、ピッチＰｍｅ、スペクトラル・シェイプＳｍｅ(ｆ)、正規化周波数ｆ’ｎに基づいて、変換後の音声に対応する新規平均アンプ（Ａｎｅｗ）、変換後の新規ピッチ（Ｐｎｅｗ）、および新規スペクトラル・シェイプ（Ｓｎｅｗ（ｆ））を求める。
【００４９】
まず、新規平均アンプ（Ａｎｅｗ）について説明する。本実施形態では、平均アンプ（Ａｎｅｗ）は次式によって算出する。
Ａｎｅｗ＝Ａｍｅ
すなわち、平均アンプは、入力音声信号の平均アンプ（Ａｍｅ）とする。次に、変換後の新規ピッチ（Ｐｎｅｗ）について説明する。新規情報生成部１９には、コントローラ２９からどのような変換を行うかについて指示する変換情報が入力されており、新規情報生成部１９は、変換情報が男声から女声変換を指示している場合は、次式によってＰｎｅｗを算出する。
Ｐｎｅｗ＝Ｐｍｅ×２
すなわち、男声から女声変換を行う場合は、入力音声信号のピッチを２倍にする。
【００５０】
一方、変換情報が女声から男声変換を指示している場合は、次式によってＰｎｅｗを算出する。
Ｐｎｅｗ＝Ｐｍｅ×（１／２）
すなわち、女声から男声変換を行う場合は、入力音声信号のピッチを半分にする。
【００５１】
次に、上述のように算出した新規ピッチＰｎｅｗに基づいて、基本原理において説明したように新規のスペクトラル・シェイプＳｎｅｗ（ｆ）を生成する。ここで、図１７を参照して具体的に説明する。
まず、図７に示した変化関数Ｔｓｓ（Ｐ）およびＰｎｅｗに基づいて、スペクトラル・シェイプのシフト量ΔＳＳを算出する。図１６中のＳｎｅｗ’（ｆ）は、歌唱者のスペクトラル・シェイプＳｍｅ（ｆ）を、周波数軸方向にΔＳＳシフトしたものである。
さらに、図９に示した変化関数Ｔｓｔ（Ｐ）およびＰｎｅｗに基づいて、スペクトラルティルトの制御量Δｓｔを算出し、ΔＳＳシフト後のスペクトラル・シェイプＳｎｅｗ’（ｆ）のティルトＳＴｎｅｗ’の傾きをΔｓｔだけ変更して、ティルトＳＴｎｅｗとなる新規スペクトラルティルトＳｎｅｗ（ｆ）の生成を行う（図１７）。
【００５２】
続いて、正弦波成分生成部２０は、新規情報生成部１９から出力された新規平均アンプＡｎｅｗ、新規ピッチ成分Ｐｎｅｗ及び新規スペクトラル・シェイプＳｎｅｗ(f)に基づいて、当該フレームにおける新たな正弦波成分（ｆ”０、ａ”０）、（ｆ”１、ａ”１）、（ｆ”２、ａ”２）、……、（ｆ”（ｎ−１）、ａ”（ｎ−１））のｎ個の正弦波成分（以下、これらをまとめてｆ”ｎ、ａ”ｎと表記する。）を求める（図４および図５参照）。
より具体的には、次式により新規周波数ｆ”ｎおよび新規アンプａ”ｎを求める。
ｆ”ｎ＝ｆ’ｎ×Ｐｎｅｗ
ａ”ｎ＝Ｓｎｅｗ(ｆ”ｎ）×Ａｎｅｗ
なお、完全倍音構造のモデルとして捉えるのであれば、
ｆ”ｎ＝（ｎ＋１）×Ｐｎｅｗ
となる。
【００５３】
さらに、求めた新規周波数ｆ”ｎおよび新規アンプａ”ｎについて、必要に応じてコントローラ２９から入力される正弦波成分変換情報に基づいて、正弦波成分変換部２１によりさらなる変換を行う（変換後の正弦波成分をｆ’’’ｎ、ａ’’’ｎとする）。例えば、偶数倍音成分の新規アンプａ”ｎ（＝ａ”０、ａ”２、ａ”４、……）だけを大きく（例えば、２倍する）等の変換を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【００５４】
次に逆高速フーリエ変換部２２は、求めた新規周波数ｆ’’’ｎおよび新規アンプａ’’’ｎ（＝新規正弦波成分）並びに残差成分信号Ｒｍｅ（ｆ）をＦＦＴバッファに格納し、順次逆ＦＦＴを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。このとき、コントローラ２９から入力される正弦波成分／残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【００５５】
次にクロスフェーダ２４は、無声／有声検出部６（図１０）が出力した無声／有声検出信号Ｕ／Ｖｍｅに基づいて、入力音声信号Ｓｖが無声（Ｕ）である場合には、入力音声信号Ｓｖをそのままミキサ３００に出力する。また、入力音声信号Ｓｖが有声（Ｖ）である場合には、逆ＦＦＴ変換部２８が出力した変換音声信号をミキサ３００に出力する。この場合において、切替スイッチとしてクロスフェーダ２４を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【００５６】
２−２．楽音生成部２００の構成および動作の詳細
次に、楽音生成部２００の構成および動作の詳細について説明する。楽音生成部２００は、シーケンサ２０１および音源部２０２を備えて構成されている。
シーケンサ２０１は、カラオケの伴奏音を発生するための音源制御情報を、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）データなどとして音源部２０２に出力する。
これにより音源部２０２は、音源制御情報に基づいて楽音信号を生成して、ミキサ３００に出力する。
【００５７】
２−３．ミキサ３００および出力部４００の動作
そして、ミキサ３００は、音声変換部１００から出力された入力音声信号Ｓｖあるいは変換音声信号のいずれか一方、及び、楽音生成部２００から出力された楽音信号を混合し、混合信号を出力部４００に出力する。
出力部４００は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【００５８】
２−４．まとめ
このように、周波数軸上の値で表した入力楽音信号の属性を変換するので、正弦波成分の変換を行うことができ、音声変換処理の自由度が高くなる。
また、出力ピッチに応じて変換量を決定するので、微妙な変換量を出力ピッチに応じて容易に制御することができ、より自然な変換音声出力を得ることができる。
【００５９】
３．変換例
なお、本発明は、上述した実施形態に限定されるものではなく、以下のような各種の変換が可能である。
【００６０】
上記実施形態においては、新規情報生成部１９〜正弦波成分変換部２１において、入力音声信号Ｓｖの正弦波成分を、１組の新規正弦波成分に変換しているが、複数の正弦波成分に変換するようにしてもよい。
例えば、それぞれスペクトラル・シェイプのシフト量やスペクトラルティルトの制御量の異なる複数の新規スペクトラル・シェイプを生成し、各新規スペクトラル・シェイプ毎に、出力ピッチのそれぞれ異なる新規正弦波成分を生成すれば、一人分の入力音声を、複数人のハーモニーとすることもできる。
【００６１】
また、上記実施形態において説明した図１１中の新規情報生成部１９の後に、エフェクト的効果を付与する処理部を設けても良い。すなわち、生成された新規アンプ成分Ａｎｅｗ、新規ピッチ成分Ｐｎｅｗ及び新規スペクトラル・シェイプＳｎｅｗ（ｆ）について、必要に応じてコントローラ２９から入力される正弦波成分属性データ変換情報に基づき、さらなる変換を行うようにしてもよい。例えば、スペクトラル・シェイプを全体的に間延びさせる等の変換を行う。あるいは、出力ピッチをＬＦＯによって変調してもよい。すなわち、出力ピッチに一定の振動を与えてビブラートがかかった音声に変換するようにしてもよい。また、出力ピッチを一定にして、抑揚のないロボットのような声質にしてもよい。また、アンプに関しても同様にＬＦＯによって変調したり、ピッチを一定にしてもよい。
【００６２】
さらに、スペクトラル・シェイプに関しても、シフト量をＬＦＯによって変調してもよい。このようにすれば、周波数特性が周期的に変化するというエフェクト的効果を得ることができる。
その他、スペクトラル・シェイプを全体的に圧縮または伸長するようにしてもよい。この場合において、圧縮・伸長の量をＬＦＯやピッチ・アンプの変化量に応じて変化させるようにしてもよい。
【００６３】
また、上記実施形態においては、スペクトラル・シェイプのシフトおよびスペクトラルティルトの制御の両方の処理を行うものとしたが、どちらか一方のみを行うようにしてもよい。
なお、上記実施形態において、スペクトラルティルトの制御については、男声を女声に変換する場合の制御を例に説明したが、女声を男声に変換する場合は、スペクトラル・シェイプのシフトは低周波方向に行えばよく、スペクトラルティルトの制御は、傾きが小さくなるように行えばよい。
また、男声女声変換に限らず、例えば、男女のどちらでもない中性的な声や、子供らしい声、機械的な声といったような、種々の特徴を示すような新規スペクトラル・シェイプに変換できるようにしてもよい。
【００６４】
また、上記実施形態においては、新規平均アンプＡｎｅｗは、歌唱者の平均アンプＡｍｅとしたが（Ａｎｅｗ＝Ａｍｅ）、これに限らず、様々な要素から決定するようにしてもよい。例えば、出力ピッチに応じて適した平均アンプを算出するようにしてもよいし、ランダムに決定してもよい。
【００６５】
また、上記実施形態においては、入力音声信号を周波数軸上で処理するためにＳＭＳ分析技術を用いているが、これに限らず、入力信号を正弦波の合成で表す成分（以下、正弦波成分）と、それ以外の残差成分で表す信号処理方法であれば、他の信号処理方法であってもよい。
【００６６】
また、上記実施形態は、出力ピッチに応じてスペクトラル・シェイプを変換しているが、このように、出力ピッチに応じて声質を変化させる処理は、周波数軸上の処理に限らず時間軸上の処理を行う場合にも適用できる。
この場合は、例えば波形の圧縮・伸長といった、時間軸上における波形の変化量を、出力ピッチに対応した変化関数に基づいて決定すればよい。すなわち、出力ピッチをまず決定した後に、出力ピッチおよび変化関数に基づいて、圧縮・伸長量などを算出する。
【００６７】
さらに、上記実施形態で示したコントローラ２９においては、出力ピッチや変化関数Ｔｓｓ（ｆ）、Ｔｓｔ（ｆ）を調整可能であるように構成してもよい。例えばユーザコントロール部分としてスライダなどの操作子を設けて、ユーザが好みによって調節できるようにしてもよい。
【００６８】
なお、上記実施形態は、図示せぬＲＯＭに記憶された制御プログラムに基づいて上述の処理をおこなっているが、これに限らず、不揮発性メモリカード、ＣＤ−ＲＯＭ、フロッピーディスク、光磁気ディスク、および磁気ディスク等の可搬型の記録媒体に記録された制御プログラムをハードディスク等の記憶装置に転送できるように構成して、記憶装置に記憶された制御プログラムに基づいて上述の処理を行ってもよい。このようにすれば、制御プログラムの追加（インストール）や更新（バージョンアップ）の際に便利である。
【００６９】
【発明の効果】
以上説明したように、本発明によれば、自由度が高く、より自然に声質やピッチを変換できるようになる。
【図面の簡単な説明】
【図１】実施形態の概略構成を示す図である。
【図２】歌唱者の音声信号の正弦波成分を示す図である。
【図３】歌唱者のスペクトラル・シェイプを示す図である。
【図４】新規スペクトラル・シェイプを示す図である。
【図５】新規正弦波成分を示す図である。
【図６】スペクトラル・シェイプのシフトを示す図である。
【図７】スペクトラル・シェイプのシフト量を示す図である。
【図８】スペクトラルティルトの制御を示す図である。
【図９】スペクトラルティルトの制御量を示す図である。
【図１０】実施形態の構成を示すブロック図である（その１）。
【図１１】実施形態の構成を示すブロック図である（その２）。
【図１２】音声変換部の動作を示すフローチャートである。
【図１３】実施形態におけるフレームの状態を示す図である。
【図１４】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図１５】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図１６】実施形態における周波数値の変化状態を示す図である。
【図１７】スペクトラル・シェイプの変換を示す図である。
【図１８】従来の音声変換技術を説明する図である。
【図１９】従来の音声変換技術を説明する図である。
【符号の説明】
１００…音声変換部、１…マイク、２…分析窓生成部、３…入力音声信号切出部、４…高速フーリエ変換部、５…ピーク検出部、６…無声／有声検出部、７…ピッチ検出部、８…ピーク連携部、９…補間合成部、１０…残差成分検出部、１１…高速フーリエ変換部、１２…残差成分保持部、１３…正弦波成分保持部、１４…平均アンプ演算部、１５…アンプ正規化部、１６…スペクトラル・シェイプ演算部、１７…ピッチ正規化部、１８…元フレーム情報保持部、１９…新規情報生成部、２０…正弦波成分生成部、２１…正弦波成分変換部、２２…逆高速フーリエ変換部、２９…コントローラ、２４…クロスフェーダ部、２００…楽音生成部、２０１…シーケンサ、２０２…音源部、３００…ミキサ、４００…出力部。

Claims

入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段と、
前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段と、
前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段と、
生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段と
を備え、
前記新規スペクトラル・シェイプ生成手段は、
予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、
前記新規正弦波成分生成手段は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出する
ことを特徴とする音声変換装置。
前記新規スペクトラル・シェイプ生成手段は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプの傾きを変更することにより新規スペクトラル・シェイプを生成する
ことを特徴とする請求項１に記載の音声変換装置。
前記出力ピッチの周波数を周期的に変化させるように制御する出力ピッチ制御手段をさらに備える
ことを特徴とする請求項２に記載の音声変換装置。
入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成段階と、
前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成段階と、
前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成段階と、
生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成段階と
を備え、
前記新規スペクトラル・シェイプ生成段階は、
予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、
前記新規正弦波成分生成段階は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出する
ことを特徴とする音声変換方法。
コンピュータを、
入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段、
前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段、
前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段、および、
生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段
として機能させるための音声変換プログラムを記録した記録媒体であって、
前記新規スペクトラル・シェイプ生成手段は、
予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、
前記新規正弦波成分生成手段は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出する
音声変換プログラムを記録した記録媒体。