JP4509273B2

JP4509273B2 - 音声変換装置及び音声変換方法

Info

Publication number: JP4509273B2
Application number: JP36527199A
Authority: JP
Inventors: 隆宏川嶋; シーメンツマーク; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1999-12-22
Filing date: 1999-12-22
Publication date: 2010-07-21
Anticipated expiration: 2019-12-22
Also published as: JP2001184099A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力音声のピッチをシフトした出力音声を得る音声変換装置及び音声変換方法に係り、特にカラオケ装置に用いて好適な音声変換装置及び音声変換方法に関する。
【０００２】
【従来の技術】
従来より、入力された音声のピッチをシフトして出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声（男声）を女性の声（女声）に、あるいはその逆に変換して出力するものもある（例えば、特表平８−５０８５８１号）。
【０００３】
この種の音声変換装置が採用しているピッチシフトの方法としては、時間領域での方法と周波数領域での方法が挙げられる。前者は歌い手の歌った歌声を表す入力信号のサンプリング結果からサンプルを間引いたり所定の補間を行ったりすることでピッチをシフトする方法であり、後者は入力信号から得られた正弦波成分（倍音列）を周波数領域でシフトすることでピッチをシフトする方法である。
【０００４】
【発明が解決しようとする課題】
しかしながら、従来のいずれの方法を採用してもピッチシフト後の音声の声質が不自然な声質となるのを避けることはできなかった。
本発明は上述した事情に鑑みて為されたものであり、ピッチシフト後の音声の声質を自然な声質とすることができる音声変換装置及び音声変換方法を提供することを目的としている。
【０００５】
【課題を解決するための手段】
上述した課題を解決するために、請求項１に係る音声変換装置は、入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換装置において、前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析手段と、前記入力信号の平均ゲインを分析する平均ゲイン分析手段と、前記分析手段により分析されたピッチと与えられたピッチシフト量とに基づいて変換後ピッチを算出する変換後ピッチ算出手段と、スペクトルシェイプを生成するための特徴情報を音素に対応付けて格納した特徴情報データベースと、前記入力信号から音素を認識する音素認識手段と、前記音素認識手段により認識された音素に対応した特徴情報を前記特徴情報データベースから取得し、該特徴情報と前記変換後ピッチと前記平均ゲイン分析手段により分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析手段による周波数分析結果と前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力手段とを具備することを特徴としている。
【０００６】
また、上述した課題を解決するために、請求項２に係る音声変換装置は、入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換装置において、前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析手段と、前記入力信号の平均ゲインを分析する平均ゲイン分析手段と、前記分析手段により分析されたピッチと与えられた変換後ピッチとに基づいてピッチシフト量を算出するピッチシフト量算出手段と、スペクトルシェイプを生成するための特徴情報を音素に対応付けて格納した特徴情報データベースと、前記入力信号から音素を認識する音素認識手段と、前記音素認識手段により認識された音素に対応した特徴情報を前記特徴情報データベースから取得し、該特徴情報と前記ピッチシフト量算出手段により算出された前記ピッチシフト量と前記平均ゲイン分析手段により分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析手段による周波数分析結果と前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力手段とを具備することを特徴としている。上記各構成によれば、入力音声の音素に応じたスペクトルシェイプと入力信号の平均ゲインとに基づいた出力信号が出力される。
【０００８】
請求項１又は２に記載の音声変換装置において、前記周波数分析は、前記フレーム毎の前記入力信号を正弦波成分と残差成分とに分離することにより行われ、前記出力手段は、前記第１のスペクトルシェイプと、前記正弦波成分と前記ピッチシフト量とに基づくスペクトルシェイプとを前記所定の関数に従って補間することにより前記第２のスペクトルシェイプを生成し、当該第２のスペクトルシェイプと前記残差成分とに応じた信号を前記出力信号として出力することとしてもよい(請求項３)。この構成によれば、音素に応じたスペクトルシェイプ及び入力信号の正弦波成分に基づいた第２のスペクトルシェイプ（ピッチシフト後）と入力信号の残差成分（ピッチシフト前）とに応じた出力信号が出力される。
【００１０】
請求項１または２に記載の音声変換装置において、前記特徴情報データベースは複数のパラメータセットの各々について、スペクトルシェイプを生成するための特徴情報を音素に対応付けて格納し、前記出力手段は、指定されたパラメータセットと前記音素認識手段により認識された音素とに対応した特徴情報を前記特徴情報データベースから取得するようにしてもよい（請求項４）。
【００１１】
請求項１に記載の音声変換装置において、前記出力手段は、前記特徴情報と前記変換後ピッチに基づくスペクトルシェイプの傾きを前記平均ゲインに応じて補正するスペクトル傾き補正手段を具備し、前記スペクトル傾き補正手段により補正されたスペクトルシェイプを前記第１のスペクトルシェイプとして生成し、当該第１のスペクトルシェイプに応じた信号を前記出力信号として出力するようにしてもよい（請求項５）また、請求項２に記載の音声変換装置において、前記出力手段は、前記特徴情報と前記ピッチシフト量に基づくスペクトルシェイプの傾きを前記平均ゲインに応じて補正するスペクトル傾き補正手段を具備し、前記スペクトル傾き補正手段により補正されたスペクトルシェイプを前記第１のスペクトルシェイプとして生成し、当該第１のスペクトルシェイプに応じた信号を前記出力信号として出力するようにしてもよい（請求項６）。これらの構成によれば、入力音声の音素に応じたスペクトルシェイプの傾きを入力信号の平均ゲインに応じて補正して得られたスペクトルシェイプに応じた出力信号が出力される。
【００１２】
請求項１または２に記載の音声変換装置において、直前のスペクトルシェイプを記憶する前フレーム情報記憶手段を具備し、前記出力手段は、前記第１のスペクトルシェイプと前記前フレーム情報記憶手段に記憶された前記直前のスペクトルシェイプとに基づいて第３のスペクトルシェイプを生成し、該第３のスペクトルシェイプに応じた信号を前記出力信号として出力するとともに、該第３のスペクトルシェイプを前記直前のスペクトルシェイプとして前記前フレーム情報記憶手段に記憶させるようにしてもよい（請求項７）。この構成によれば、入力音声の音素及びピッチシフト量に応じたスペクトルシェイプと直前のスペクトルシェイプとに基づいた出力信号が出力される。
【００１３】
また、上述の課題を解決するために、請求項８に記載の音声変換方法は、入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換方法において、前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析ステップと、前記入力信号の平均ゲインを分析する平均ゲイン分析ステップと、前記分析ステップにより分析されたピッチと与えられた変換後ピッチとに基づいてピッチシフト量を算出するピッチシフト量算出ステップと、前記入力信号から音素を認識する音素認識ステップと、スペクトルシェイプを生成するための特徴情報であって、前記音素認識ステップにより認識された音素に対応した特徴情報を取得する取得ステップと、前記取得ステップにより取得された前記特徴情報と前記変換後ピッチと前記平均ゲイン分析ステップにより分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析ステップによる周波数分析結果と、前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力ステップとを有することを特徴としている。また、上述の課題を解決するために、請求項９に記載の音声変換方法は、入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換方法において、前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析ステップと、前記入力信号の平均ゲインを分析する平均ゲイン分析ステップと、前記分析ステップにより分析されたピッチと与えられた変換後ピッチとに基づいてピッチシフト量を算出するピッチシフト量算出ステップと、前記入力信号から音素を認識する音素認識ステップと、スペクトルシェイプを生成するための特徴情報であって、前記音素認識ステップにより認識された音素に対応した特徴情報を取得する取得ステップと、前記取得ステップにより取得された前記特徴情報と前記ピッチシフト量算出手段により算出された前記ピッチシフト量と前記平均ゲイン分析ステップにより分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析ステップによる周波数分析結果と前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力ステップとを有することを特徴としている。これらの方法によれば、入力音声の音素に応じたスペクトルシェイプと入力信号の平均ゲインに基づいた出力信号が出力される。
【００１４】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態に係る音声変換装置について説明する。なお、ここでは、入力信号を変換して得られる出力信号に含まれる正弦波成分のピッチを相対的に指定する第１実施形態と、絶対的に指定する第２実施形態について順に説明する。
【００１５】
［Ａ−１．第１実施形態の構成］
図１は本発明の第１実施形態に係る音声変換装置の全体構成を示すブロック図であり、この図に示すように、本音声変換装置はピッチシフト前の音声を表す入力信号からピッチシフト後の音声を表す出力信号を得るものである。
【００１６】
図１において、１１は入力信号に対して音素認識処理を行う音素認識部である。音素認識処理は入力信号に対応する音素を特定する処理であり、音素認識部１１は特定した音素を表す情報を出力する。また、音素認識部１１は、特定した音素が複数である場合には、音素を表す情報と当該音素との相関を表す相関値（例えば、０より大で１未満の実数値）とを複数の音素の各々について出力する。この音素認識部１１が採用する音素認識方法は音素を認識できる方法であればよく、例えば、帯域フィルタ群による方法であってもいし、ＦＦＴ（高速フーリエ変換）による方法、相関関数による方法、ＬＰＣ（Linear Predictive Coding）分析による方法、あるいはΔケプストラム法であってもよい。
【００１７】
１２は音素毎の特徴情報を格納した特徴情報データベースである。この特徴情報データベース１２は図２に示すような特徴情報テーブルＴＢＬを有し、音素認識部１１から出力された情報を入力し、当該情報で表された音素に対応した特徴情報を特徴情報テーブルＴＢＬから抽出し、当該特徴情報を当該音素に対応した相関値とともに出力する。
【００１８】
図２に示すように、特徴情報テーブルＴＢＬにおける各音素“a”，“i”，…にはデフォルトセットの特徴情報がピッチバンク毎に対応付けられており、特徴情報データベース１２は音素認識部１１からの情報で表された音素とピッチシフト後のピッチである変換後ピッチを包含したピッチバンクとに対応した特徴情報をデフォルトセットから抽出することができる。上記ピッチバンクは特定の音域幅を示しており、各パラメータセットに対して全音域をカバーするように複数のピッチバンクが設けられている。なお、デフォルトセットの特徴情報は変更不能に予め設定されたものであるが、特徴情報テーブルＴＢＬは、特徴情報を変更可能なパラメータセットとして、男声セット、女声セット、及び個人別セットを有する。
【００１９】
男声セット／女声セットは男声／女声の別を示す指定情報が外部から入力された場合に使用されるべき特徴情報のセットであり、特徴情報データベース１２は外部から男声／女声の別を示す指定情報が入力されると、音素及びピッチバンクに対応した特徴情報を男声セット／女声セットから抽出する。なお、男声セット／女声セットの特徴情報は予め設定されているが、使用者により任意に変更可能である。
【００２０】
図２における鈴木太郎セットは個人別セットの一例であり、個人名（例えば、鈴木太郎）を示す指定情報が入力された場合に使用されるべき特徴情報のセットである。例えば、特徴情報データベース１２は外部から鈴木太郎を示す指定情報が入力されると、音素及びピッチバンクに対応した特徴情報を鈴木太郎セットから抽出する。なお、個人別セットは予め設定されておらず、使用者により任意に追加可能である。また、個人別セットの特徴情報は使用者により任意に変更可能である。
【００２１】
特徴情報データベース１２における特徴情報の抽出の優先順位は個人別セット、男声セット／女声セット、デフォルトセットとなっており、個人名を示す指定情報が入力された場合には当該指定情報に対応した個人別セットが、個人名を示す指定情報が入力されずに男声／女声の別を示す指定情報が入力された場合には当該指定情報に対応した男声セット／女声セットが、個人名を示す指定情報及び男声／女声の別を示す指定情報のいずれも入力されなかった場合にはデフォルトセットが、特徴情報の抽出対象のパラメータセットとなる。
【００２２】
なお、特徴情報テーブルＴＢＬが音素及びパラメータセット毎に有する特徴情報はピッチシフト後の音声が不自然とならない程度のスペクトルシェイプ（第１のスペクトルシェイプ）を生成可能なパラメータを含んでいる。「スペクトルシェイプ」は波形の特徴を示しており、本実施形態では、以下のパラメータを含む特徴情報によって定義付けられている。
・フォルマント周波数
・フォルマントバンド幅
・スペクトル傾き
・スペクトルエンベロープ
【００２３】
１３は入力信号に対してフレーム単位で周波数分析を行う分析部であり、フレーム単位で入力信号を正弦波成分と残差成分とに分離し、両成分を出力する。また、分析部１３は分析対象フレームの基本周波数（ピッチ）を分析し、これを入力信号のフレームピッチとして出力する。なお、本実施形態において「フレーム」は所定の時間単位で区切られた波形信号を意味しており、本実施形態では入力信号のフレームに対応した出力信号のフレームを生成することで出力信号を生成している。
【００２４】
分析部１３における周波数分析はＳＭＳ（Spectral Modeling Synthesis）分析である。ここで、本実施形態におけるＳＭＳ分析の処理内容について図３を参照して説明する。この図に示すように、分析部１３は、まず、標本化された入力信号に窓関数を乗じてフレームを切り出し、このフレームに高速フーリエ変換（ＦＦＴ）を施して得られる周波数スペクトルから正弦波成分と残差成分を抽出する。正弦波成分とは、基本周波数及び基本周波数の倍数にあたる周波数（倍音）の成分をいう。
【００２５】
１４は分析部１３から出力された正弦波成分の平均ゲインを算出する平均ゲイン算出部であり、算出した平均ゲインを出力する。
１５は分析部１３から出力されたフレームピッチを外部から与えられたピッチシフト量だけシフトさせて得られるピッチを求める変換後ピッチ算出部であり、このピッチを変換後ピッチとして出力する。
【００２６】
１６はスペクトルシェイプ生成部、１７はスペクトル傾き補正部、１８は前フレーム情報記憶部であり、これらの各部は連携して作動し、特徴情報データベース１２から出力された情報に基づいたスペクトルシェイプを、新ピッチと入力信号の正弦波成分の平均ゲインと直前のフレームに対する音素スペクトルシェイプ（直前のスペクトルシェイプ）とに基づいて変形し、現在のフレームに対する音素スペクトルシェイプを生成する。なお、本実施形態における「音素スペクトルシェイプ」は、音素に応じて生成され、スペクトル傾き補正部１７から出力されるスペクトルシェイプを意味する。
【００２７】
ここで、図４を参照して上記各部１６，１７及び１８が行う音素スペクトルシェイプ生成処理についてより具体的に説明する。
スペクトルシェイプ生成部１６は、まず、特徴情報データベース１２から出力された特徴情報に従ってスペクトルシェイプを生成する（ステップＳ１）。ここで生成されるスペクトルシェイプが１つの場合（音素が１つの場合）には当該スペクトルシェイプを処理対象のスペクトルシェイプとし、複数の場合（音素が複数の場合）には複数のスペクトルシェイプに対してスペクトル補間（音素間補間）を行うことで１つのスペクトルシェイプを生成し、このスペクトルシェイプを処理対象のスペクトルシェイプとする（ステップＳ２，Ｓ３）。
【００２８】
次に、スペクトルシェイプ生成部１６は処理対象のスペクトルシェイプの正弦波成分を変換後ピッチ算出部１５により算出された変換後ピッチに一致するようにシフトしたスペクトルシェイプを生成し（ステップＳ４）、前フレーム情報記憶部１８に記憶された直前の音素スペクトルシェイプから当該シフト後のスペクトルシェイプへ滑らかに変化させるために必要となる中間的な補間スペクトルシェイプをスペクトル補間（フレーム間補間）により生成する（ステップＳ５）。
【００２９】
以下、図５（ａ）及び（ｂ）を参照してスペクトル補間について説明する。スペクトル補間では、まず、図５（ａ）に示すように、補間の元となる２つのスペクトルシェイプ（以後、第１スペクトルシェイプＳＳ１１及び第２スペクトルシェイプＳＳ１２とする）をそれぞれ、複数の周波数領域Ｚ１、Ｚ２、…に分割する。ここで、第１スペクトルシェイプＳＳ１１における各領域の境界の周波数（以後、アンカーポイント）をＲＢ1,1、ＲＢ2,1、…、ＲＢN,1とし、第２スペクトルシェイプＳＳ１２におけるアンカーポイントをＲＢ1,2、ＲＢ2,2、…、ＲＢM,2とする。
【００３０】
次に、図５（ｂ）に示す処理が行われる。
図５（ｂ）において、補間位置ｘは第１スペクトルシェイプＳＳ１１及び第２スペクトルシェイプＳＳ１２と補間により生成されるスペクトルシェイプとの位置関係を示すパラメータであり、０より大で１未満の実数値をとる。補間により生成されるスペクトルシェイプは、ｘ＝０の場合には第１スペクトルシェイプＳＳ１そのもの、ｘ＝１の場合には第２スペクトルシェイプそのものに一致する。この図においては、ｘ＝０．３５の例が示されている。また、図中の縦軸上の白丸（○）はスペクトルシェイプを構成する周波数及びマグニチュードの組の各々を示している。
【００３１】
図５（ｂ）において、縦軸は周波数を表しており、マグニチュードの軸は紙面垂直方向に立ち上がっているものとする。また、第１スペクトルシェイプＳＳ１１（ｘ＝０）の対象領域Ｚiに対応するアンカーポイントがＲＢ_i,1及びＲＢ_i+1,1であり、当該領域Ｚiに属する具体的な周波数及びマグニチュードの組のうちの何れかの組の周波数がｆ_i1であり、そのマグニチュードがＳ₁（ｆ_i1）であるものとする。
【００３２】
さらに、第２スペクトルシェイプＳＳ１２（ｘ＝１）の対象領域Ｚiに対応するアンカーポイントがＲＢ_i,2及びＲＢ_i+1,2であり、当該領域Ｚiに属する具体的な周波数及びマグニチュードの組のうちの何れかの組の周波数がｆi2であり、そのマグニチュードがＳ₂（ｆ_i2）であるものとする。
【００３３】
本実施形態では、第１スペクトルシェイプＳＳ１１上の実在の組に対応したスペクトル遷移関数ｆ_trans1（ｘ）と、第２スペクトルシェイプＳＳ１２上の実在の組に対応したスペクトル遷移関数ｆ_trans2（ｘ）を最も簡単な線形関数としており、これらの遷移関数は次式（１），（２）で表される。
ｆ_trans1(ｘ)=ｍ₁・ｘ+ｂ₁ …（１）
ｆ_trans2(ｘ)=ｍ₂・ｘ+ｂ₂ …（２）
ただし、
ｍ₁=ＲＢ_i,2-ＲＢ_i,1
ｂ₁=ＲＢ_i,1
ｍ₂=ＲＢ_i+1,2-ＲＢ_i+1,1
ｂ₂=ＲＢ_i+1,2
である。
【００３４】
上記前提に基づいて、まず、第１スペクトルシェイプＳＳ１１上の組に基づいて補間スペクトルシェイプ上の組を求める処理について説明する。
第１スペクトルシェイプＳＳ１１上に実在する周波数ｆ_i1及びマグニチュードＳ₁（ｆ_i1）の組に対応した第２スペクトルシェイプＳＳ１２上の周波数ｆ_i1,2は下式（３）で表される。
【数１】

ただし、
Ｗ₁=ＲＢ_i+1,1-ＲＢ_i,1
Ｗ₂=ＲＢ_i+1,2-ＲＢ_i,2
である。
【００３５】
この周波数ｆ_i1,2を挟むように最も近接して実在する第２スペクトルシェイプＳＳ１２上の２つの組を用いると、Ｓ₂(ｆ_i1,2)は下式（４）で表される。ただし、下式では、上記２つの組の低い方の周波数に“−”、高い方の周波数に“＋”のサフィックスを付している。
【数２】

【００３６】
式（３），（４）から容易に推測されるように、第１スペクトルシェイプＳＳ１１上に実在する周波数及びマグニチュードの組に対応する補間スペクトルシェイプ上の周波数ｆ_i1,x及びマグニチュードＳ_x（ｆ_i1,x）は下式（５），（６）で表される。
【数３】

Ｓ_x(ｆ_i1,x)＝Ｓ₁(ｆ_i1)+{Ｓ₂(ｆ_i1,2)-Ｓ₁(ｆ_i1)｝・ｘ …（６）
上式（５），（６）を用いることにより、第１スペクトルシェイプＳＳ１１上の実在する全ての組に対応した補間スペクトルシェイプ上の組を求めることができる。
【００３７】
次に、第２スペクトルシェイプＳＳ１２上の組に基づいて補間スペクトルシェイプ上の組を求める処理について説明する。
第２スペクトルシェイプＳＳ１２上に実在する周波数ｆi2及びマグニチュードＳ₂（ｆ_i2）の組に対応した第１スペクトルシェイプＳＳ１１上の周波数ｆ_i2,1は下式（７）で表される。
【数４】

ただし、
Ｗ₁=ＲＢ_i+1,1-ＲＢ_i,1
Ｗ₂=ＲＢ_i+1,2-ＲＢ_i,2
である。
【００３８】
この周波数ｆ_i2,1を挟むように最も近接して実在する第１スペクトルシェイプＳＳ１１上の２つの組を用いると、Ｓ1(ｆ_i2,1)は下式（８）で表される。ただし、下式では、上記２つの組の低い方の周波数に“−”、高い方の周波数に“＋”のサフィックスを付している。
【数５】

【００３９】
式（７），（８）から容易に推測されるように、第２スペクトルシェイプＳＳ１２上に実在する周波数及びマグニチュードの組に対応する補間スペクトルシェイプ上の周波数ｆ_i2,x及びマグニチュードＳ_x（ｆ_i2,x）は下式（９），（１０）で表される。
【数６】

Ｓ_x(ｆ_i2,x)=Ｓ₂(ｆ_i2)+{Ｓ₁(ｆ_i2,1)-Ｓ₂(ｆ_i2)｝・(ｘ-１) …（１０）
上式（９），（１０）を用いることにより、第２スペクトルシェイプＳＳ１２上の実在する全ての組に対応した補間スペクトルシェイプ上の組を求めることができる。
【００４０】
こうして得られた補間スペクトルシェイプ上の全ての組を周波数順に並べることにより領域Ｚiに対する補間スペクトルシェイプが得られる。本実施形態では、全ての領域Ｚ1、Ｚ2、…について上述の処理を行うことで、複数のスペクトルシェイプに対する補間スペクトルシェイプを得ている。なお、本実施形態における補間位置ｘは、音素間補間においては特徴情報データベース１２からの相関値となり、フレーム間補正においては予め設定された値となる。
【００４１】
再び図４において、スペクトル傾き補正部１７は生成された補間スペクトルシェイプに対して傾き補正等を行う（ステップＳ６）。一般に、出力音量が大の場合にはスペクトルシェイプの高域が豊か（リッチ）となり、小の場合にはスペクトルシェイプの高域が乏しくなる。この現象を再現するために、スペクトル傾き補正部１７は平均ゲイン算出部１４から出力された平均ゲインに応じて、補正スペクトルシェイプの平均ゲインや高域の形状（ここでは「傾き」）を補正し、補正後のスペクトルシェイプを音素スペクトルシェイプとして出力する。
【００４２】
そして、前フレーム情報記憶部１８はスペクトル傾き補正部１７から出力された音素スペクトルシェイプを記憶し、スペクトルシェイプ生成部１６の使用に供する（ステップＳ７）。以後、処理はステップＳ１に戻る。
【００４３】
再び図１において、１９はピッチシフトシェイプ生成部であり、分析部１３からフレーム単位で出力された入力信号の正弦波成分を外部から与えられたピッチシフト量だけピッチシフトし、ピッチシフト後の正弦波成分を表すスペクトルシェイプとスペクトル傾き補正部１７から出力された音素スペクトルシェイプとの間でスペクトル補間を行うことで新たなスペクトルシェイプを生成し、出力する。ここで行われるスペクトル補間の詳細は前述の通りである。
【００４４】
２０は合成部であり、分析部１３から出力された入力信号の残差成分とピッチシフトシェイプ生成部１９から出力されたスペクトルシェイプとに応じた出力信号を生成し、これを出力する。
【００４５】
［Ａ−２．第１実施形態の動作］
次に、上記構成の音声変換装置の動作について図１を参照して説明する。
入力信号が音声変換装置に入力されると、分析部１３において当該入力信号に対してフレーム単位の周波数分析が行われる。これにより、入力信号は正弦波成分と残差成分とに分けられ、正弦波成分が平均ゲイン算出部１４及びピッチシフトシェイプ生成部１９へ、残差成分が合成部２０へ供給される。また、分析部１３により、入力信号のフレームピッチが求められ、このフレームピッチが変換後ピッチ算出部１５へ供給される。
【００４６】
正弦波成分が供給された平均ゲイン算出部１４では平均ゲインが求められる。この平均ゲインはスペクトル傾き補正部１７へ供給される。また、フレームピッチが供給された変換後ピッチ算出部１５には外部からピッチシフト量が与えられており、変換後ピッチ算出部１５では、これらのフレームピッチ及びピッチシフト量とに基づいて変換後ピッチが算出される。この変換後ピッチは特徴情報データベース１２、スペクトルシェイプ生成部１６及びピッチシフトシェイプ生成部１９へ供給される。変換後ピッチが供給されたピッチシフトシェイプ生成部１９では、入力信号の正弦波成分に対し、外部から与えられたピッチシフト量に従ったピッチシフトが行われる。
【００４７】
一方、音素認識部１１においては入力信号から音素が認識され、当該音素を表す情報が特徴情報データベース１２へ供給される。なお、認識された音素が複数である場合には、各音素に対する相関値も特徴情報データベース１２へ供給される。特徴情報データベース１２においては、当該音素に対応した特徴情報が抽出され、当該音素を表す情報（及び当該音素との相関値）とともにスペクトルシェイプ生成部１６へ供給される。前述のように、特徴情報データベース１２がパラメータセットの抽出における優先順位は個人別セット、男声／女声セット、デフォルトセットとなっているため、特徴情報データベース１２に個人名を示す情報が入力されている場合には個人別セットが、個人名ではなく男声／女声の別を示す情報が入力されている場合には男声／女声セットが、いずれも入力されていない場合にはデフォルトセットが、抽出対象のパラメータセットとなる。特徴情報データベース１２では、このパラメータセットから、音素認識部１１により認識された音素と変換後ピッチ算出部１５により算出された変換後ピッチを包含したピッチバンクとに対応した特徴情報が抽出される。
【００４８】
スペクトルシェイプ生成部１６では、特徴情報データベース１２から供給された特徴情報に従ってスペクトルシェイプが生成される。ここで生成されたスペクトルシェイプが複数の場合には、スペクトルシェイプ生成部１６において前述の音素間補間が行われて１つのスペクトルシェイプが生成される。１つだけ生成されたスペクトルシェイプは、その正弦波成分のピッチが変換後ピッチ算出部１５から供給された変換後ピッチに一致するようにシフトされた後に、前フレーム情報記憶部１８に記憶された直前のスペクトルシェイプから滑らかにつながるように前述のフレーム間補間で利用される。この結果として得られたスペクトルシェイプはスペクトル傾き補正部１７へ供給される。
【００４９】
スペクトル傾き補正部１７ではスペクトルシェイプに対して、入力信号の正弦波成分の平均ゲインに応じた傾き補正等が施され、この結果として得られたスペクトルシェイプが音素スペクトルシェイプとしてピッチシフトシェイプ生成部１９へ供給される。この際、当該音素スペクトルシェイプはスペクトル傾き補正部１７に記憶される。音素スペクトルシェイプが供給されたピッチシフトシェイプ生成部１９では、このスペクトルシェイプと入力信号の正弦波成分に基づいたスペクトルシェイプとの間でスペクトル補間が行われ、新しいスペクトルシェイプが生成される。
【００５０】
ピッチシフトシェイプ生成部１９により生成されたスペクトルシェイプは合成部２０へ供給される。合成部２０ではこのスペクトルシェイプと入力信号の残差成分とに応じた信号が生成され、本音声変換装置の出力信号として出力される。なお、この出力信号のピッチは変換後ピッチとなっている。
【００５１】
上述した第１実施形態によれば、入力信号から、自然な声質のピッチシフト後の出力信号を得ることができる。特に、ピッチシフト後の変換後ピッチを相対的に指定することができるため、例えば、カラオケ装置において、ユーザによるキーの制御の際や、ボーカルに対してハーモニーを生成する際、男声と女声との変換の際に用いて好適である。
【００５２】
［Ｂ−１．第２実施形態の構成］
図６は本発明の第２実施形態に係る音声変換装置の全体構成を示すブロック図であり、この図において、図１と共通する部分には同一の符号を付し、その説明を省略する。
【００５３】
第２実施形態に係る音声変換装置が第１実施形態に係る音声変換装置と大きく相違する点は、外部から与えられるパラメータがピッチシフト量ではなく、変換後ピッチである点である。このため、第２実施形態に係る音声変換装置においては、外部から与えられた変換後ピッチがそのまま特徴情報データベース１２及びスペクトルシェイプ生成部１６へ供給されている。
【００５４】
また、上記相違点に起因して、図６では、変換後ピッチ算出部１５（図１参照）に代えてピッチシフト量算出部２１が設けられている。このピッチシフト量算出部２１は、分析部１３から出力されたフレームピッチと外部から与えられた変換後ピッチとの差を求め、この差をシフトすべき量（以後、ピッチシフト量）として出力する。このピッチシフト量がピッチシフトシェイプ生成部１９へ供給されるように第２実施形態に係る本音声変換装置は構成されている。
【００５５】
［Ｂ−２．第２実施形態の動作］
次に、上記構成の音声変換装置の動作について説明する。ただし、第１実施形態に係る音声変換装置の動作と同様の動作については、その説明を省略する。
入力信号が音声変換装置に入力されると、分析部１３において入力信号のフレームピッチが求められ、このフレームピッチがピッチシフト量算出部２１へ供給される。ピッチシフト量算出部２１では、外部から与えられた変換後ピッチに対するフレームピッチの差であるピッチシフト量が算出され、ピッチシフトシェイプ生成部１９へ供給される。シフト量が供給されたピッチシフトシェイプ生成部１９では、入力信号の正弦波成分に対し、シフト量に従ったピッチシフトが行われる。
【００５６】
また、特徴情報データベース１２及びスペクトルシェイプ生成部１６には、外部から与えられた変換後ピッチが供給され、最終的に、スペクトル傾き補正部１７から音素スペクトルシェイプが出力される。以降の動作は第１実施形態における動作と同一であることから、その説明を省略する。
【００５７】
上述した第２実施形態によれば、入力信号から、自然な声質のピッチシフト後の出力信号を得ることができる。特に、変換後ピッチを絶対的に指定することから、例えば、カラオケ装置において、強制的に正しいピッチの出力音声を得る際や、曲の進行に応じてボーカルとの度数差が変わる変則的なハーモニーを付加する際に用いて好適である。
【００５８】
［Ｃ．補足］
上述した各実施形態は例に過ぎず、本発明は上記構成に限定されるものではなく、以下に例示するような様々な態様を包含する。
【００５９】
本実施形態ではパラメータセット毎に複数のピッチバンクを設けるようにしたが、図７に示すように、ピッチバンクと他のパラメータセットとを独立して設けてもよい。この場合には、特徴情報データベース１２における特徴情報の抽出の優先順位は、例えば、個人別セット、男声セット／女声セット、ピッチバンク、デフォルトセットとなり、個人名を示す指定情報が入力された場合には当該指定情報に対応した個人別セットが、個人名を示す指定情報が入力されずに男声／女声の別を示す指定情報が入力された場合には当該指定情報に対応した男声セット／女声セットが、個人名を示す指定情報及び男声／女声の別を示す指定情報のいずれも入力されずにピッチを示す指定情報が入力された場合には当該ピッチを包含するピッチバンクが、上記のいずれでもない場合にはデフォルトセットが、特徴情報の抽出対象のパラメータセットとなる。
【００６０】
また、特徴情報テーブルＴＢＬに複数種のパラメータセットを格納した例を示したが、これらのパラメータセットとは異なる種類のパラメータセットを追加してもよいし、逆にパラメータセットの種類を削減してもよい。
【００６１】
また、本実施形態では、分析部１３が入力信号のフレームピッチを特徴情報データベース１２へ供給するようにしたが、特徴情報データベース１２がピッチバンク毎の特徴情報を持たない場合には、この供給を省略してもよい。
さらに、本実施形態では各種のスペクトル補間を行うようにしたが、スペクトル補間を行わない態様も実現可能である。例えば、認識される音素を必ず１つとして音素間補間を省略し、さらにフレーム間補間を省略し、加えて入力信号の正弦波成分のスペクトルシェイプを考慮せずに出力信号を生成・出力するようにしてもよい。
【００６２】
また、本実施形態では入力信号の残差成分をも考慮に入れて出力信号を生成するようにしたが、残差成分を考慮しない態様も実現可能である。この場合、分析部１３が残差成分を破棄し、合成部２０がピッチシフトシェイプ生成部１９からのスペクトルシェイプのみを用いて出力信号を得ることになる。
【００６３】
さらに、スペクトル補間において用いられるスペクトル遷移関数は線形関数に限定されない。２次関数、指数関数などの非線形関数であってもよいし、離散的な関数であってもよい。さらに言えば、変数に対応した変化をテーブルとして用意し、このテーブルを関数のように用いてもよい。
また、スペクトル補間において、アンカーポイント毎に遷移関数を変更するようにしてもよい。さらに、遷移元と遷移先の音素を比較し、音素の遷移状態に応じて遷移関数及び補間位置の少なくとも一方を変更するようにしてもよい。
【００６４】
【発明の効果】
以上説明したように、本発明によれば、音声のピッチシフトにおいて、入力音声の音素毎の特徴情報と変換後ピッチと入力音声を表す入力信号の平均ゲインとに基づいてピッチシフト後の音声を表す出力信号が出力されるため、ピッチシフト後の音声を、各音素に適合した、より自然な声質の音声とすることができる。
【００６５】
さらに、入力信号の周波数分析結果を考慮して出力信号を生成するようにすれば、入力音声に近い声質の音声を得ることができる。
また、入力信号の正弦波成分及び残差成分を分離し、両者の取り扱いを分ければ、より入力音声に近い声質の音声を得ることができる。
さらに、入力信号の平均ゲインを考慮してスペクトルシェイプの傾きを補正したり、直前のスペクトルシェイプとの滑らかなつながりを実現する処理を行ったりすることにより、ピッチシフト後の音声をより自然な声質の音声とすることもできる。
【図面の簡単な説明】
【図１】本発明の第１実施形態に係る音声変換装置の全体構成を示すブロック図である。
【図２】同音声変換装置の特徴情報データベース１２が有する特徴情報テーブルＴＢＬの構成を示す概念図である。
【図３】同音声変換装置において行われるＳＭＳ分析を説明するための図である。
【図４】同音声変換装置において行われる音素スペクトルシェイプ生成処理の流れを示すフローチャートである。
【図５】（ａ）及び（ｂ）はそれぞれ同音声変換装置において行われるスペクトル補間について説明するための図である。
【図６】本発明の第２実施形態に係る音声変換装置の全体構成を示すブロック図である。
【図７】各音声変換装置の特徴情報データベース１２が有する特徴情報テーブルＴＢＬの他の構成例を示す概念図である。
【符号の説明】
１１……音素認識部、
１２……特徴情報データベース、
１３……分析部、
１４……平均ゲイン算出部、
１５……変換後ピッチ算出部、
１６……スペクトルシェイプ生成部（出力手段）、
１７……スペクトル傾き補正部（出力手段）、
１８……前フレーム情報記憶部、
１９……ピッチシフトシェイプ生成部（出力手段）、
２０……合成部（出力手段）、
ＴＢＬ……特徴情報テーブル。

Claims

入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換装置において、
前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析手段と、
前記入力信号の平均ゲインを分析する平均ゲイン分析手段と、
前記分析手段により分析されたピッチと与えられたピッチシフト量とに基づいて変換後ピッチを算出する変換後ピッチ算出手段と、
スペクトルシェイプを生成するための特徴情報を音素に対応付けて格納した特徴情報データベースと、
前記入力信号から音素を認識する音素認識手段と、
前記音素認識手段により認識された音素に対応した特徴情報を前記特徴情報データベースから取得し、該特徴情報と前記変換後ピッチと前記平均ゲイン分析手段により分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析手段による周波数分析結果と前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力手段と
を具備することを特徴とする音声変換装置。
入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換装置において、
前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析手段と、
前記入力信号の平均ゲインを分析する平均ゲイン分析手段と、
前記分析手段により分析されたピッチと与えられた変換後ピッチとに基づいてピッチシフト量を算出するピッチシフト量算出手段と、
スペクトルシェイプを生成するための特徴情報を音素に対応付けて格納した特徴情報データベースと、
前記入力信号から音素を認識する音素認識手段と、
前記音素認識手段により認識された音素に対応した特徴情報を前記特徴情報データベースから取得し、該特徴情報と前記ピッチシフト量算出手段により算出された前記ピッチシフト量と前記平均ゲイン分析手段により分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析手段による周波数分析結果と前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力手段と
を具備することを特徴とする音声変換装置。
前記周波数分析は、前記フレーム毎の前記入力信号を正弦波成分と残差成分とに分離することにより行われ、
前記出力手段は、前記第１のスペクトルシェイプと、前記正弦波成分と前記ピッチシフト量とに基づくスペクトルシェイプとを前記所定の関数に従って補間することにより前記第２のスペクトルシェイプを生成し、当該第２のスペクトルシェイプと前記残差成分とに応じた信号を前記出力信号として出力することを特徴とする請求項1又は２に記載の音声変換装置。
前記特徴情報データベースは複数のパラメータセットの各々について、スペクトルシェイプを生成するための特徴情報を音素に対応付けて格納し、
前記出力手段は、指定されたパラメータセットと前記音素認識手段により認識された音素とに対応した特徴情報を前記特徴情報データベースから取得することを特徴とする請求項１または２に記載の音声変換装置。
前記出力手段は、前記特徴情報と前記変換後ピッチに基づくスペクトルシェイプの傾きを前記平均ゲインに応じて補正するスペクトル傾き補正手段を具備し、前記スペクトル傾き補正手段により補正されたスペクトルシェイプを前記第１のスペクトルシェイプとして生成し、当該第１のスペクトルシェイプに応じた信号を前記出力信号として出力することを特徴とする請求項１に記載の音声変換装置。
前記出力手段は、前記特徴情報と前記ピッチシフト量に基づくスペクトルシェイプの傾きを前記平均ゲインに応じて補正するスペクトル傾き補正手段を具備し、前記スペクトル傾き補正手段により補正されたスペクトルシェイプを前記第１のスペクトルシェイプとして生成し、当該第１のスペクトルシェイプに応じた信号を前記出力信号として出力することを特徴とする請求項２に記載の音声変換装置。
直前のスペクトルシェイプを記憶する前フレーム情報記憶手段を具備し、
前記出力手段は、前記第１のスペクトルシェイプと前記前フレーム情報記憶手段に記憶された前記直前のスペクトルシェイプとに基づいて第３のスペクトルシェイプを生成し、該第３のスペクトルシェイプに応じた信号を前記出力信号として出力するとともに、該第３のスペクトルシェイプを前記直前のスペクトルシェイプとして前記前フレーム情報記憶手段に記憶させることを特徴とする請求項１または２に記載の音声変換装置。
入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換方法において、
前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析ステップと、
前記入力信号の平均ゲインを分析する平均ゲイン分析ステップと、
前記分析ステップにより分析されたピッチと与えられた変換後ピッチとに基づいてピッチシフト量を算出するピッチシフト量算出ステップと、
前記入力信号から音素を認識する音素認識ステップと、
スペクトルシェイプを生成するための特徴情報であって、前記音素認識ステップにより認識された音素に対応した特徴情報を取得する取得ステップと、
前記取得ステップにより取得された前記特徴情報と前記変換後ピッチと前記平均ゲイン分析ステップにより分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析ステップによる周波数分析結果と、前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力ステップと
を有することを特徴とする音声変換方法。
入力音声を表す入力信号から入力音声と異なるピッチの音声を表す出力信号を得る音声変換方法において、
前記入力信号に基づいて前記入力音声のピッチをフレーム毎に分析して出力し、当該入力信号の周波数分析をフレーム毎に行う分析ステップと、
前記入力信号の平均ゲインを分析する平均ゲイン分析ステップと、
前記分析ステップにより分析されたピッチと与えられた変換後ピッチとに基づいてピッチシフト量を算出するピッチシフト量算出ステップと、
前記入力信号から音素を認識する音素認識ステップと、
スペクトルシェイプを生成するための特徴情報であって、前記音素認識ステップにより認識された音素に対応した特徴情報を取得する取得ステップと、
前記取得ステップにより取得された前記特徴情報と前記ピッチシフト量算出手段により算出された前記ピッチシフト量と前記平均ゲイン分析ステップにより分析された前記平均ゲインとに基づいて第１のスペクトルシェイプを生成すると共に、前記分析ステップによる周波数分析結果と前記ピッチシフト量とに基づいて得られるスペクトルシェイプと、前記第１のスペクトルシェイプとを所定の関数に従って補間することにより第２のスペクトルシェイプを生成し、前記第２のスペクトルシェイプに応じた信号を前記出力信号として出力する出力ステップと
を有することを特徴とする音声変換方法。