JP3502268B2 - 音声信号処理装置及び音声信号処理方法 - Google Patents
音声信号処理装置及び音声信号処理方法Info
- Publication number
- JP3502268B2 JP3502268B2 JP18569198A JP18569198A JP3502268B2 JP 3502268 B2 JP3502268 B2 JP 3502268B2 JP 18569198 A JP18569198 A JP 18569198A JP 18569198 A JP18569198 A JP 18569198A JP 3502268 B2 JP3502268 B2 JP 3502268B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency
- breath
- formant
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
音声に変換して出力したり、合成音声を生成する音声信
号処理装置及び音声信号処理方法に係り、特に男声→女
声変換の機能を有するカラオケ装置に用いるのに好適な
音声信号処理装置及び音声信号処理方法に関する。
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に変換させるものが
ある(例えば、特表平8−508581号)。
音声変換装置においては、単に歌声のピッチを変換して
いるだけであるため、男声→女声変換を行っても聴感上
自然な女性の音声が得られないという問題点があった。
そこで、本発明の目的は、男声→女声の音声変換を行う
に際し、聴感上自然な女性の変換音声を容易に得ること
が可能な音声信号処理装置及び音声信号処理方法を提供
することにある。
ために、請求項1記載の発明は、入力音声信号またはタ
ーゲット音声信号のスペクトラル・シェイプを周波数軸
に沿って高域側にシフトして変形スペクトラル・シェイ
プを生成する変形スペクトラル・シェイプ生成手段と、
前記変形スペクトラル・シェイプに基づいて変換音声信
号を生成する変換音声信号生成手段と、前記変換音声信
号生成手段によって生成された変換音声信号に対し、気
息性雑音成分信号を加算する気息性雑音加算手段とを備
え、前記気息性雑音加算手段は、前記変形スペクトラル
・シェイプに基づいてフォルマント周波数を検出するフ
ォルマント周波数検出手段と、前記フォルマント周波数
に対応する周波数帯域を有する前記気息性雑音成分信号
を生成する気息性雑音生成手段と、前記気息性雑音成分
信号を前記変換音声信号に重畳する重畳手段とを備えた
ことを特徴としている。
構成において、前記気息性雑音生成手段は、ホワイトノ
イズ信号を生成し出力するホワイトノイズ発生手段と、
前記フォルマント周波数検出手段の検出結果に基づい
て、前記ホワイトノイズ信号のうち、前記変換音声信号
の第3フォルマントに対応する所定の周波数帯域成分の
みを通過させ元気息性雑音成分信号として出力するバン
ドパスフィルタ手段と、前記変換音声信号に基づいて、
前記元気息性雑音成分信号の信号レベルを制御して前記
気息性雑音成分信号として出力する信号レベル制御手段
とを備えたことを特徴としている。
は変換して得られる合成音声信号を出力する際に該合成
音声信号に気息性雑音成分信号を加算して変換音声信号
として出力する気息性雑音加算手段を備えた音声信号処
理装置であって、前記気息性雑音加算手段は、前記合成
音声信号のフォルマント周波数を検出するフォルマント
周波数検出手段と、前記フォルマント周波数検出手段が
検出したフォルマント周波数に対応する周波数帯域を有
する気息性雑音成分信号を生成する気息性雑音生成手段
と、前記気息性雑音成分信号を前記合成音声信号に重畳
して前記変換音声信号として出力する重畳手段とを備え
たことを特徴としている。
構成において、前記気息性雑音生成手段は、ホワイトノ
イズ信号を生成し出力するホワイトノイズ発生手段と、
前記フォルマント周波数検出手段の検出結果に基づい
て、前記ホワイトノイズ信号のうち、前記合成音声信号
の第3フォルマントに対応する所定の周波数帯域成分の
みを通過させ元気息性雑音成分信号として出力するバン
ドパスフィルタ手段と、前記合成音声信号に基づいて、
前記元気息性雑音成分信号の信号レベルを制御して前記
気息性雑音成分信号として出力する信号レベル制御手段
とを備えたことを特徴としている。
たはターゲット音声信号のスペクトラル・シェイプを周
波数軸に沿って高域側にシフトして変形スペクトラル・
シェイプを生成する第1生成ステップと、前記変形スペ
クトラル・シェイプに基づいて変換音声信号を生成する
第2生成ステップと、生成された前記変換音声信号に対
し、気息性雑音成分信号を加算する加算ステップとを有
し、前記加算ステップにおいては、前記変形スペクトラ
ル・シェイプに基づいてフォルマント周波数を検出する
検出ステップと、前記フォルマント周波数に対応する周
波数帯域を有する前記気息性雑音成分信号を生成する第
3生成ステップと、前記気息性雑音成分信号を前記変換
音声信号に重畳する重畳ステップとが実行されることを
特徴としている。
は変換して得られる合成音声信号を出力するステップ
と、前記合成音声信号のフォルマント周波数を検出する
ステップと、検出した前記フォルマント周波数に対応す
る周波数帯域を有する気息性雑音成分信号を生成するス
テップと、前記気息性雑音成分信号を前記合成音声信号
に重畳して前記変換音声信号として出力するステップと
を有することを特徴としている。
な実施形態について説明する。 [1] 実施形態の原理構成 始めに、実施形態の原理について図15の原理説明図を
参照して説明する。[1.1] 実施形態の原理構成 音声信号処理装置100は、マイク101から入力され
た男声/女声変換して元変換音声信号として出力する男
声/女声変換部102と、元変換音声信号のフォルマン
ト周波数の検出を行うフォルマント周波数検出部103
と、検出された第3フォルマントの周波数に基づいて、
後述するバンドパスフィルタの通過帯域制御を行うバン
ドパスフィルタ特性制御部104と、ホワイトノイズを
発生しホワイトノイズ信号として出力するホワイトノイ
ズ発生部105と、バンドパスフィルタ特性制御部10
4の制御下で、第3フォルマントに対応する所定の周波
数帯域の周波数を有するホワイトノイズ信号のみを元気
息性ノイズ信号として通過させるバンドパスフィルタ部
106と、元変換音声信号の周波数−アンプ軸上におけ
るアンプの大きさを検出するアンプ・エンベロープ検出
部107と、検出したアンプの大きさに基づいて元気息
性ノイズ信号の信号レベルを制御する信号レベル制御信
号を出力する気息性雑音レベル制御部108と、信号レ
ベル制御信号に基づいて元気息性ノイズ信号の信号レベ
ルを変化させ、気息性ノイズ信号として出力するアンプ
部109と、元変換音声信号に気息性ノイズ信号を加算
して変換音声信号として出力するミキサ部110と、変
換音声信号に基づいて電気/音響変換を行い音響信号と
して出力するスピーカ部111と、を備えて構成されて
いる。
男声は、男声/女声変換部102により、男声→女声変
換がなされて元変換音声信号としてフォルマント周波数
検出部103及びアンプ・エンベロープ検出部107に
出力される。フォルマント周波数検出部103は、元変
換音声信号のフォルマント周波数(特に第3フォルマン
ト)の検出を行う。バンドパスフィルタ特性制御部10
4は、フォルマント周波数検出部103により検出され
た第3フォルマントの周波数に基づいて、バンドパスフ
ィルタの通過帯域制御を行う。
は、バンドパスフィルタ特性制御部104の制御下で、
ホワイトノイズ発生部105により出力されたホワイト
ノイズ信号のうち、第3フォルマントに対応する所定の
周波数帯域の周波数を有するホワイトノイズ信号のみを
元気息性ノイズ信号として通過させ、アンプ部109に
出力する。一方、気息性雑音レベル制御部108は、ア
ンプ・エンベロープ検出部107が検出した元変換音声
信号の周波数−アンプ軸上におけるアンプの大きさに基
づいて元気息性ノイズ信号の信号レベルを制御する信号
レベル制御信号をアンプ部109に出力する。
基づいて元気息性ノイズ信号の信号レベルを変化させ、
気息性ノイズ信号としてミキサ部110に出力し、ミキ
サ部110は、元変換音声信号に気息性ノイズ信号を加
算して変換音声信号としてスピーカ部111に出力す
る。そしてスピーカ部111は、変換音声信号に基づい
て電気/音響変換を行い音響信号として出力することと
なる。
れば、再生される音響信号(音声)は、元歌唱者の歌声
(男声)が、あたかも、女性歌唱者が歌った自然な女性
の歌声のようになる。
本実施形態は、本発明による音声変換装置(音声変換方
法)をカラオケ装置に適用し、より自然な音声変換を行
うことができるカラオケ装置として構成した場合の例で
ある。図1において、マイク1は、元歌唱者(me)の声
を収集し、入力音声信号Svとして入力音声信号切出部
3に出力する。これと並行して、分析窓生成部2は、前
回のフレームで検出したピッチの周期の固定倍(例え
ば、3.5倍など)の周期を有する分析窓(例えば、ハ
ミング窓)AWを生成し、入力音声信号切出部3に出力
する。なお、初期状態あるいは前回のフレームが無声音
(含む無音)の場合には、予め設定した固定周期の分析
窓を分析窓AWとして入力音声信号切出部3に出力す
る。
力された分析窓AWと入力音声信号Svとを掛け合わ
せ、入力音声信号Svをフレーム単位で切り出し、フレ
ーム音声信号FSvとして高速フーリエ変換部4に出力
される。より具体的には、入力音声信号Svとフレーム
との関係は、図3に示すようになっており、各フレーム
FLは、前のフレームFLと一部重なるように設定され
ている。そして、高速フーリエ変換部4においてフレー
ム音声信号FSvは、解析処理されるとともに、図4に
示すように、高速フーリエ変換部4の出力である周波数
スペクトルからピーク検出部5によりローカルピークが
検出される。
スペクトルに対して、×印を付けたローカルピークを検
出する。このローカルピークは、周波数値とアンプ(振
幅)値の組み合わせとして表される。すなわち、図4に
示すように、(F0、A0)、(F1、A1)、(F
2、A2)、……、(FN、AN)というように各フレ
ームについてローカルピークが検出され、表されること
となる。そして、図3に模式的に示すように、各フレー
ム毎に一組(以下、ローカルピーク組という。)として
無声/有声検出部6及びピーク連携部8に出力される。
無声/有声検出部6は、入力されたフレーム毎のローカ
ルピークに基づいて、高周波成分の大きさに応じて無声
であることを検出(‘t’、‘k’等)し、無声/有声
検出信号U/Vmeをピッチ検出部7、イージーシンクロ
ナイゼーション処理部22及びクロスフェーダ部30に
出力する。あるいは、時間軸上で単位時間あたりの零ク
ロス数に応じて無声であることを検出(‘s’等)し、
元無声/有声検出信号U/Vmeをピッチ検出部7、イー
ジーシンクロナイゼーション処理部22及びクロスフェ
ーダ部30に出力する。
フレームが無声であると検出されなかった場合には、入
力されたローカルピーク組をそのまま、ピッチ検出部7
に出力する。ピッチ検出部7は、入力されたローカルピ
ーク組に基づいて、当該ローカルピーク組が対応するフ
レームのピッチPmeを検出する。より具体的なフレーム
のピッチPmeの検出方法としては、例えば、Maher,R.C.
andJ.W.Beauchamp:"Fundamental Frequency Estimation
of Musical Signal using a two-way Mismatch Proced
ure"(Journal of Acounstical Society of America95
(4):2254-2263)に開示されているような方法で行う。
カルピーク組は、ピーク連携部8において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。ここ
で、この連携処理について、図5を参照して説明する。
今、図5(A)に示すようなローカルピークが前回のフ
レームにおいて検出され、図5(B)に示すようなロー
カルピークが今回のフレームにおいて検出されたとす
る。
ームで検出された各ローカルピーク(F0、A0)、
(F1、A1)、(F2、A2)、……、(FN、A
N)に対応するローカルピークが今回のフレームでも検
出されたか否かを調べる。対応するローカルピークがあ
るか否かの判断は、前回のフレームで検出されたローカ
ルピークの周波数を中心にした所定範囲内に今回のフレ
ームのローカルピークが検出されるか否かによって行わ
れる。より具体的には、図5の例では、ローカルピーク
(F0、A0)、(F1、A1)、(F2、A2)……
については、対応するローカルピークが検出されている
が、ローカルピーク(FK、AK)については(図5
(A)参照)、対応するローカルピーク(図5(B)参
照)は検出されていない。
クを検出した場合は、それらを時系列順に繋げて一組の
データ列として出力する。なお、対応するローカルピー
クが検出されない場合は、当該フレームについての対応
ローカルピークは無しということを示すデータに置き換
える。ここで、図6は、複数のフレームにわたるローカ
ルピークの周波数F0及び周波数F1の変化の一例を示
している。このような変化は、アンプ(振幅)A0、A
1、A2、……についても同様に認められる。この場
合、ピーク連携部8から出力されるデータ列は、フレー
ムの間隔おきに出力される離散的な値である。
ク値を、以後において、確定成分という。これは、元の
信号(すなわち、音声信号Sv)のうち正弦波の要素と
して確定的に置き換えられる成分という意味である。ま
た、置き換えられた各正弦波(厳密には、正弦波のパラ
メータである周波数及びアンプ(振幅))の各々につい
ては、正弦波成分と呼ぶことにする。
ら出力される確定成分について補間処理を行い、補間後
の確定成分に基づいていわゆるオシレータ方式で波形合
成を行う。この場合の補間の間隔は、後述する出力部3
4が出力する最終出力信号のサンプリングレート(例え
ば、44.1KHz)に対応した間隔で行われる。前述
した図6に示す実線は、正弦波成分の周波数F0、F1
について補間処理が行われた場合のイメージを示してい
る。
9は、複数の部分波形発生部9aを備えて構成されてお
り、各部分波形発生部9aは、指定された正弦波成分の
周波数(F0、F1、…)およびアンプ(振幅)に応じ
た正弦波を発生する。ただし、本第1実施形態における
正弦波成分(F0、A0)、(F1、A1)、(F2、
A2)、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部9aから出
力される波形は、その変化に従った波形になる。すなわ
ち、ピーク連携部8からは正弦波成分(F0、A0)、
(F1、A1)、(F2、A2)、……が順次出力さ
れ、各正弦波成分の各々について補間処理が行われるか
ら、各部分波形発生部9aは、所定の周波数領域内で周
波数と振幅が変動する波形を出力する。そして、各部分
波形発生部9aから出力された波形は、加算部9bにお
いて加算合成される。したがって、補間合成部9の出力
信号は、入力音声信号Svから確定成分を抽出した正弦
波成分合成信号SSSになる。
れた正弦波成分合成信号SSSと入力音声信号Svとの偏
差である残差成分信号SRD(時間波形)を生成する。こ
の残差成分信号SRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号SSSは有声成分
に対応するものである。ところで、目標(Target)とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声成分に対応す
る確定成分について音声変換処理を行うようにしてい
る。より具体的には、残差成分信号SRDについては、高
速フーリエ変換部11で、周波数波形に変換し、得られ
た残差成分信号(周波数波形)をRme(f)として残差成
分保持部12に保持しておく。
ーク連携部8を介して出力された正弦波成分(F0、A
0)、(F1、A1)、(F2、A2)、……、(F(N
-1)、A(N-1))のN個の正弦波成分(以下、これらをま
とめてFn、Anと表記する。n=0〜(N−1)。)
は、正弦波成分保持部13に保持されるとともに、アン
プAnは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(An)/N
Anを平均アンプAmeで正規化し、正規化アンプA’n
を求める。 A’n=An/Ame [2.5] スペクトラル・シェイプ演算部の動作 そして、スペクトラル・シェイプ演算部16において、
図8(B)に示すように、周波数Fn及び正規化アンプ
A’nにより得られる正弦波成分(Fn、A’n)をブ
レークポイントとするエンベロープ(包絡線)をスペク
トラル・シェイプSme(f)として生成する。この場合に
おいて、二つのブレークポイント間の周波数におけるア
ンプの値は、当該二つのブレークポイントを、例えば、
直線補間することにより算出する。なお、補間の方法は
直線補間に限られるものではない。
ピッチ検出部7において検出したピッチPmeで正規化
し、正規化周波数F’nを求める。 F’n=Fn/Pme これらの結果、元フレーム情報保持部18は、入力音声
信号Svに含まれる正弦波成分に対応する元属性データ
である平均アンプAme、ピッチPme、スペクトラル・シ
ェイプSme(f)、正規化周波数F’nを保持することと
なる。なお、この場合において、正規化周波数F’n
は、倍音列の周波数の相対値を表しており、もし、フレ
ームの倍音構造を完全倍音構造であるとして取り扱うな
らば、保持する必要はない。
うとしている場合には、この段階において、男声→女声
変換を行う場合には、ピッチをオクターブ上げ、女声→
男声変換を行う場合にはピッチをオクターブ下げる男声
/女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部18に保持している元
属性データのうち、平均アンプAmeおよびピッチPmeに
ついては、さらに静的変化/ビブラート的変化分離部1
9により、フィルタリング処理などを行って、静的変化
成分とビブラート変化的成分とに分離して保持する。な
お、さらにビブラート変化的成分からより高周波変化成
分であるジッタ変化的成分を分離するように構成するこ
とも可能である。
ンプ静的成分Ame-sta及び平均アンプビブラート的成分
Ame-vibとに分離して保持する。また、ピッチPmeをピ
ッチ静的成分Pme-sta及びピッチビブラート的成分Pme
-vibとに分離して保持する。これらの結果、対応するフ
レームの元フレーム情報データINFmeは、図8(C)
に示すように、入力音声信号Svの正弦波成分に対応す
る元属性データである平均アンプ静的成分Ame-sta、平
均アンプビブラート的成分Ame-vib、ピッチ静的成分P
me-sta、ピッチビブラート的成分Pme-vib、スペクトラ
ル・シェイプSme(f)、正規化周波数F’n及び残差成
分Rme(f)の形で保持されることとなる。
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データINFtarは、予め分析さ
れてターゲットフレーム情報保持部20を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データINFtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Atar-sta、平均アンプビブラート
的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビ
ブラート的成分Ptar-vib、スペクトラル・シェイプSt
ar(f)がある。また、ターゲットフレーム情報データI
NFtarのうち、残差成分に対応するターゲット属性デ
ータとしては、残差成分Rtar(f)がある。
ェンジ部の動作 次にキーコントロール/テンポチェンジ部21は、シー
ケンサ31からの同期信号SSYNCに基づいて、ターゲッ
トフレーム情報保持部20から同期信号SSYNCに対応す
るフレームのターゲットフレーム情報INFtarの読出
処理及び読み出したターゲットフレーム情報データIN
Ftarを構成するターゲット属性データの補正処理を行
うとともに、読み出したターゲットフレーム情報INF
tarおよび当該フレームが無声であるか有声であるかを
表すターゲット無声/有声検出信号U/Vtarを出力す
る。より具体的には、キーコントロール/テンポチェン
ジ部21の図示しないキーコントロールユニットは、カ
ラオケ装置のキーを基準より上げ下げした場合、ターゲ
ット属性データであるピッチ静的成分Ptar-sta及びピ
ッチビブラート的成分Ptar-vibについても、同じだけ
上げ下げする補正処理を行う。例えば、50[cent]だ
けキーを上げた場合には、ピッチ静的成分Ptar-sta及
びピッチビブラート的成分Ptar-vibについても50[c
ent]だけ上げなければならない。
部21の図示しないテンポチェンジユニットは、カラオ
ケ装置のテンポを上げ下げした場合には、変更後のテン
ポに相当するタイミングで、ターゲットフレーム情報デ
ータINFtarの読み出し処理を行う必要がある。この
場合において、必要なフレームに対応するタイミングに
相当するターゲットフレーム情報データINFtarが存
在しない場合には、当該必要なフレームのタイミングの
前後のタイミングに存在する二つのフレームのターゲッ
トフレーム情報データINFtarを読み出し、これら二
つのターゲットフレーム情報データINFtarにより補
間処理を行い、当該必要なタイミングにおけるフレーム
のターゲットフレーム情報データINFtar、ひいて
は、ターゲット属性データを生成する。この場合におい
て、ビブラート的成分(平均アンプビブラート的成分A
tar-vib及びピッチビブラート的成分Ptar-vib)に関し
ては、そのままでは、ビブラートの周期自体が変化して
しまい、不適当であるので、周期が変動しないような補
間処理を行う必要がある。又は、ターゲット属性データ
として、ビブラートの軌跡そのものを表すデータではな
く、ビブラート周期及びビブラート深さのパラメータを
保持し、実際の軌跡を演算により求めるようにすれば、
この不具合を回避することができる。
ョン処理部の動作 次にイージーシンクロナイゼーション処理部22は、も
のまねをしようとする歌唱者のフレーム(以下、元フレ
ームという。)に元フレーム情報データINFmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム(以下、ターゲットフレームという。)
にターゲットフレーム情報データINFtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データINFta
rを当該ターゲットフレームのターゲットフレーム情報
データINFtarとするイージーシンクロナイゼーショ
ン処理を行う。
処理部22は、後述する置換済ターゲットフレーム情報
データINFtar-syncに含まれるターゲット属性データ
のうち正弦波成分に関するターゲット属性データ(平均
アンプ静的成分Atar-sync-sta、平均アンプビブラート
的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-st
a、ピッチビブラート的成分Ptar-sync-vib及びスペク
トラル・シェイプStar-sync(f))を変形スペクトラル
・シェイプ生成部23に出力する。また、イージーシン
クロナイゼーション処理部22は、後述する置換済ター
ゲットフレーム情報データINFtar-syncに含まれるタ
ーゲット属性データのうち残差成分に関するターゲット
属性データ(残差成分Rtar-sync(f))を残差成分選択
部25に出力する。
2における処理においても、ビブラート的成分(平均ア
ンプビブラート的成分Atar-vib及びピッチビブラート
的成分Ptar-vib)に関しては、そのままでは、ビブラ
ートの周期自体が変化してしまい、不適当であるので、
周期が変動しないような補間処理を行う必要がある。又
は、ターゲット属性データとして、ビブラートの軌跡そ
のものを表すデータではなく、ビブラート周期及びビブ
ラート深さのパラメータを保持し、実際の軌跡を演算に
より求めるようにすれば、この不具合を回避することが
できる。
ーション処理の詳細 ここで、図9及び図10を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図9は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図10はイージーシンクロナイゼーション処
理フローチャートである。まず、イージーシンクロナイ
ゼーション部22は、シンクロナイゼーション処理の処
理方法を表すシンクロナイゼーションモード=“0”と
する(ステップS11)。このシンクロナイゼーション
モード=“0”は、元フレームに対応するターゲットフ
レームにターゲットフレーム情報データINFtarが存
在する通常処理の場合に相当する。そしてあるタイミン
グtにおける元無声/有声検出信号U/Vme(t)が無声
(U)から有声(V)に変化したか否かを判別する(ス
テップS12)。
=t1においては、元無声/有声検出信号U/Vme(t)が
無声(U)から有声(V)に変化している。ステップS
12の判別において、元無声/有声検出信号U/Vme
(t)が無声(U)から有声(V)に変化している場合に
は(ステップS12;Yes)、タイミングtの前回の
タイミングt-1における元無声/有声検出信号U/Vme
(t-1)が無声(U)かつターゲット無声/有声検出信号
U/Vtar(t-1)が無声(U)であるか否かを判別する
(ステップS18)。例えば、図9に示すように、タイ
ミングt=t0(=t1-1)においては、元無声/有声検
出信号U/Vme(t-1)が無声(U)かつターゲット無声
/有声検出信号U/Vtar(t-1)が無声(U)となってい
る。ステップS18の判別において、元無声/有声検出
信号U/Vme(t-1)が無声(U)かつターゲット無声/
有声検出信号U/Vtar(t-1)が無声(U)となっている
場合には(ステップS18;Yes)、当該ターゲット
フレームには、ターゲットフレーム情報データINFta
rが存在しないので、シンクロナイゼーションモード=
“1”とし、置換用のターゲットフレーム情報データI
NFholdを当該ターゲットフレームの後方向(Backwar
d)に存在するフレームのターゲットフレーム情報とす
る。
=t1〜t2のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“1”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの後方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データbackwardとする。そして、処理をステップ
S15に移行し、シンクロナイゼーションモード=
“0”であるか否かを判別する(ステップS15)。ス
テップS15の判別において、シンクロナイゼーション
モード=“0”である場合には、タイミングtにおける
元フレームに対応するターゲットフレームにターゲット
フレーム情報データINFtar(t)が存在する場合、すな
わち、通常処理であるので、置換済ターゲットフレーム
情報データINFtar-syncをターゲットフレーム情報デ
ータINFtar(t)とする。 INFtar-sync=INFtar(t)
t2〜t3のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在するので、 INFtar-sync=INFtar(t) とする。この場合において、以降の処理に用いられる置
換済ターゲットフレーム情報データINFtar-syncに含
まれるターゲット属性データ(平均アンプ静的成分Ata
r-sync-sta、平均アンプビブラート的成分Atar-sync-v
ib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート
的成分Ptar-sync-vib、スペクトラル・シェイプStar-
sync(f)及び残差成分Rtar-sync(f))は実質的には、以
下の内容となる(ステップS16)。 Atar-sync-sta=Atar-sta Atar-sync-vib=Atar-vib Ptar-sync-sta=Ptar-sta Ptar-sync-vib=Ptar-vib Star-sync(f)=Star(f) Rtar-sync(f)=Rtar(f)
ナイゼーションモード=“1”である場合には、タイミ
ングtにおける元フレームに対応するターゲットフレー
ムにターゲットフレーム情報データINFtar(t)が存在
しない場合であるので、置換済ターゲットフレーム情報
データINFtar-syncを置換用ターゲットフレーム情報
データINFholdとする。 INFtar-sync=INFhold 例えば、図9に示すように、タイミングt=t1〜t2の
ターゲットフレームには、ターゲットフレーム情報デー
タINFtarが存在せず、シンクロナイゼーションモー
ド=“1”となるが、タイミングt=t2〜t3のターゲ
ットフレームには、ターゲットフレーム情報データIN
Ftarが存在するので、置換済ターゲットフレーム情報
データINFtar-syncをタイミングt=t2〜t3のター
ゲットフレームのターゲットフレーム情報データである
置換用ターゲットフレーム情報データINFholdとする
処理P1を行い、以降の処理に用いられる置換済ターゲ
ットフレーム情報データINFtar-syncに含まれるター
ゲット属性データは、平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib、スペクトラル・シェイプStar-sync(f)
及び残差成分Rtar-sync(f)となる(ステップS1
6)。
t3〜t4のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在せず、シンクロナイゼー
ションモード=“2”となるが、タイミングt=t2〜
t3のターゲットフレームには、ターゲットフレーム情
報データINFtarが存在するので、置換済ターゲット
フレーム情報データINFtar-syncをタイミングt=t
2〜t3のターゲットフレームのターゲットフレーム情報
データである置換用ターゲットフレーム情報データIN
Fholdとする処理P2を行い、以降の処理に用いられる
置換済ターゲットフレーム情報データINFtar-syncに
含まれるターゲット属性データは、平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f)となる(ステッ
プS16)。ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化していない場合には(ステップS12;No)、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化しているか否かを判別する
(ステップS13)。
ト無声/有声検出信号U/Vtar(t)が有声(V)から無
声(U)に変化している場合には(ステップS13;Y
es)、タイミングtの前回のタイミングt-1における
元無声/有声検出信号U/Vme(t-1)が有声(V)かつ
ターゲット無声/有声検出信号U/Vtar(t-1)が有声
(V)であるか否かを判別する(ステップS19)。例
えば、図9に示すように、タイミングt3においてター
ゲット無声/有声検出信号U/Vtar(t)が有声(V)か
ら無声(U)に変化し、タイミングt-1=t2〜t3にお
いては、元無声/有声検出信号U/Vme(t-1)が有声
(V)かつターゲット無声/有声検出信号U/Vtar(t-
1)が有声(V)となっている。
有声検出信号U/Vme(t-1)が有声(V)かつターゲッ
ト無声/有声検出信号U/Vtar(t-1)が有声(V)とな
っている場合には(ステップS19;Yes)、当該タ
ーゲットフレームには、ターゲットフレーム情報データ
INFtarが存在しないので、シンクロナイゼーション
モード=“2”とし、置換用のターゲットフレーム情報
データINFholdを当該ターゲットフレームの前方向
(forward)に存在するフレームのターゲットフレーム
情報とする。例えば、図9に示すように、タイミングt
=t3〜t4のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“2”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの前方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データforwardとする。
シンクロナイゼーションモード=“0”であるか否かを
判別して(ステップS15)、以下、同様の処理を行
う。ステップS13の判別において、ターゲット無声/
有声検出信号U/Vtar(t)が有声(V)から無声(U)
に変化していない場合には(ステップS13;No)、
タイミングtにおける元無声/有声検出信号U/Vme
(t)が有声(V)から無声(U)に変化し、あるいは、
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化しているか否かを判別する
(ステップS14)。
グtにおける元無声/有声検出信号U/Vme(t)が有声
(V)から無声(U)に変化し、あるいは、ターゲット
無声/有声検出信号U/Vtar(t)が無声(U)から有声
(V)に変化している場合には(ステップS14;Ye
s)、シンクロナイゼーションモード=“0”とし、置
換用ターゲットフレーム情報データINFholdを初期化
(clear)し、処理をステップS15に移行して、以
下、同様の処理を行う。ステップS14の判別におい
て、タイミングtにおける元無声/有声検出信号U/V
me(t)が有声(V)から無声(U)に変化せず、かつ、
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化していない場合には(ステ
ップS14;No)、そのまま処理をステップS15に
移行し、以下同様の処理を行う。
成部の動作 続いて、変形スペクトラルシェイプ生成部23は、静的
変化/ビブラート的変化分離部19から入力された入力
音声信号Svの正弦波成分に対応する元属性データであ
る平均アンプ静的成分Ame-sta、平均アンプビブラート
的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブ
ラート的成分Pme-vib、スペクトラル・シェイプSme
(f)、正規化周波数F’n、イージーシンクロナイゼー
ション部22から入力された置換済ターゲットフレーム
情報データINFtar-syncに含まれるターゲット属性デ
ータのうち正弦波成分に関するターゲット属性データ
(平均アンプ静的成分Atar-sync-sta、平均アンプビブ
ラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sy
nc-sta、ピッチビブラート的成分Ptar-sync-vib及びス
ペクトラル・シェイプStar-sync(f))及びコントロー
ラ29から入力される変形スペクトラル・シェイプ生成
情報に基づいて、新しいスペクトラル・シェイプである
変形スペクトラル・シェイプSnew(f)を生成する。
唱者に対応するスペクトラル・シェイプ(あるいは、タ
ーゲット歌唱者に対応するターゲットスペクトラル・シ
ェイプ)を周波数軸方向に定数α(0<α≦2)でシフ
トすることにより行う。ここで、より具体的に、変形ス
ペクトラルシェイプSnew(f)の生成について説明する。
プSnew(f)の具体的生成方法 図11にターゲット歌唱者である女性のスペクトラル・
シェイプを示す。図11に示すように、ターゲット歌唱
者の正弦波成分に含まれる周波数成分は、ff0〜ffnで
表されている。図12に元歌唱者である男性のスペクト
ラル・シェイプを示す。図12に示すように、元歌唱者
の正弦波成分に含まれる周波数成分は、fm0〜fmnで表
されている。また、各周波数成分fm0〜fmnに対応する
アンプは、Afm0〜Afmnで表されている。
(fm)=Afm0、Afm1、…、Afmnは元のままで、周波
数成分fm0〜fmnのみをα倍(1≦α≦2)して、すな
わち、αの値に相当するだけスペクトラル・シェイプを
周波数軸に沿って高域側にシフトすることにより変形ス
ペクトラル・シェイプSnew(f)を生成する。すなわち、
変形スペクトラル・シェイプに対応する周波数成分をf
h0〜fhnと表すとすると、 fh0=α・fm0 fh1=α・fm1 fh2=α・fm2 …… fhn=α・fmn とし、図13及び以下に示す変形正弦波成分群(=周波
数成分及びアンプで表される正弦波成分の一群)により
特定される変形スペクトラルシェイプSnew(f)を得る。 (fh0、Afm0) (fh1、Afm1) (fh2、Afm2) …… (fh0、Afm0)
合には、高域まで伸びた抜けの良い音となり、アンプ成
分が小さい場合には、逆にこもった音になる。そこで、
新規スペクトラル・シェイプSnew(f)に関しては、この
ような状態をシミュレートすべく、図15に示すよう
に、スペクトラル・シェイプの高域成分、すなわち、高
域成分部分のスペクトラル・シェイプの傾きを新規アン
プ成分Anewの大きさに応じて補償するスペクトラルチ
ルト補償(spectral tilt correction)を行って、コン
トロールすることにより、よりリアルな音声を再生する
ことができる。続いて、生成された変形スペクトラル・
シェイプSnew(f)について、必要に応じてコントローラ
29から入力される変形スペクトラル・シェイプ加工情
報に基づいて、変形スペクトラル・シェイプ加工部24
によりさらなる波形の加工を行う。例えば、変形スペク
トラル・シェイプSnew(f)を全体的に間延びさせる等の
波形加工を行う。そして、変形スペクトラル・シェイプ
加工部24は得られた変形スペクトラル・シェイプSne
w(f)に基づいて第3フォルマントを検出する。
検出 次に、第3フォルマントFT3の検出方法を、隣り合う
二つの正弦波成分に対応する正規化アンプA’fK、
A’fK-1の差ΔA’(fK−fK-1)の変化に基づいて
行う場合について説明する。変形スペクトラル・シェイ
プの第3フォルマントFT3近傍及び第2フォルマント
FT2終端部分の状態を図16に示す。第3フォルマン
トFT3の周波数の範囲は、通常1.5[kHz]以上
4[kHz]以下であるため、 fK≒1.5[kHz] を満たすKを定め、その値をKSとする。また、 fK≒4[kHz] を満たすKを定め、その値をKEとする。
加させる。そして、ΔA’(fK−fK-1)の値を観察
し、 ΔA’(fK−fK-1)<0 の状態から ΔA’(fK−fK-1)≧0 に変化したときのKの値をpとする。これをK=KEま
で繰り返し行って、第3フォルマントFT3の平均周波
数に最も近い周波数fpを第3フォルマントFT3とする
ことで検出することができる。なお、第3フォルマント
FT3の検出は、上記方法に限られるものではなく、例
えば、線形予測法を利用して求めることも可能である。
そして、この検出した第3フォルマントFT3は、バン
ドパスフィルタ特性制御部42に出力される。また、こ
の第3フォルマントFT3の出力と並行して、第3フォ
ルマントFT3の周波数におけるアンプAFT3が検出さ
れ、レベル制御部43に出力される。
ーション部22から入力された置換済ターゲットフレー
ム情報データINFtar-syncに含まれるターゲット属性
データのうち残差成分に関するターゲット属性データ
(残差成分Rtar-sync(f))、残差成分保持部12に保
持されている残差成分信号(周波数波形)Rme(f)及び
コントローラ29から入力される残差成分属性データ選
択情報に基づいて新しい残差成分属性データである新規
残差成分Rnew(f)を生成する。すなわち、新規残差成分
Rnew(f)については、次式により生成する。 Rnew(f)=R*(f)(ただし、*は、me又はtar-sync) この場合においては、me又はtar-syncのいずれを選択す
るかは、新規スペクトラル・シェイプSnew(f)と同一の
ものを選択するのがより好ましい。
も、新規スペクトラル・シェイプと同様な状態をシミュ
レートすべく、図14に示したように、残差成分の高域
成分、すなわち、高域成分部分の残差成分の傾きを新規
アンプ成分Anewの大きさに応じて補償するスペクトラ
ルチルト補償(spectral tilt correction)を行って、
コントロールすることにより、よりリアルな音声を再生
することができる。
シェイプ加工部24から出力された波形加工を伴わな
い、あるいは、波形加工を伴う変形スペクトラル・シェ
イプSnew(f)に基づいて、当該フレームにおける新たな
正弦波成分(F”0、A”0)、(F”1、A”1)、
(F”2、A”2)、……、(F”(N-1)、A”(N-1))
のN個の正弦波成分(以下、これらをまとめてF”n、
A”nと表記する。n=0〜(N−1)。)を求める。
より具体的には、周波数成分Xにおける変形スペクトラ
ル・シェイプSnew(f)のアンプをA(X)と表すとする
と、各正弦波成分(F”0、A”0)、(F”1、A”
1)、(F”2、A”2)、……、(F”(N-1)、A”
(N-1))は以下のように表すことができる。 (F”0、A”0)=(ff0、A(ff0)) (F”1、A”1)=(ff1、A(ff1)) (F”2、A”2)=(ff2、A(ff2)) …… (F”(N-1)、A”(N-1))=(ffn、A(ffn))
nについて、必要に応じてコントローラ29から入力さ
れる正弦波成分変形情報に基づいて、正弦波成分変形部
27によりさらなる変形を行う。例えば、偶数倍音成分
の新規アンプA”n(=A”0、A”2、A”4、…
…)だけを大きく(例えば、2倍する)等の変形を行
う。これによって得られる変換音声にさらにバラエティ
ーを持たせることが可能となる。
作 次に逆高速フーリエ変換部28は、求めた新規周波数
F”nおよび新規アンプA”n(=新規正弦波成分)並
びに新規残差成分Rnew(f)をFFTバッファに格納し、
順次逆FFTを行い、さらに得られた時間軸信号を一部
重複するようにオーバーラップ処理し、それらを加算す
る加算処理を行うことにより新しい有声音の時間軸信号
である変換音声信号を生成する。このとき、コントロー
ラ29から入力される正弦波成分/残差成分バランス制
御信号に基づいて、正弦波成分及び残差成分の混合比率
を制御し、よりリアルな有声信号を得る。この場合にお
いて、一般的には、残差成分の混合比率を大きくすると
ざらついた声が得られる。
周波数F”nおよび新規アンプA”n(=新規正弦波成
分)並びに新規残差成分Rnew(f)を格納するに際し、異
なるピッチ、かつ、適当なピッチで変換された正弦波成
分をさらに加えることにより変換音声信号としてハーモ
ニーを得ることができる。さらにシーケンサ31により
伴奏音に適合したハーモニーピッチを与えることによ
り、伴奏に適合した音楽的ハーモニーを得ることができ
る。
Vme(t)に基づいて、入力音声信号Svが無声(U)であ
る場合には、入力音声信号Svをそのままミキサ33に
出力する。また、入力音声信号Svが有声(V)である
場合には、逆FFT変換部28が出力した変換音声信号
をミキサ33に出力する。この場合において、切替スイ
ッチとしてクロスフェーダ30を用いているのは、クロ
スフェード動作を行わせることによりスイッチ切替時の
クリック音の発生を防止するためである。
作 一方、シーケンサ31は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、MIDI(Musical Inst
rument Digital Interface)データなどとして音源部3
2に出力する。これにより音源部32は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ33に出力する。 [2.17] バンドパスフィルタ特性制御部、ホワイ
トノイズ発生部及びバンドパスフィルタの動作 バンドパスフィルタ特性制御部42は、変形スペクトラ
ル・シェイプ加工部24から出力された第3フォルマン
トFT3に基づいて、バンドパスフィルタ(BPF)4
1の通過帯域を第3フォルマントFT3の近傍の周波数
帯域とすべく、特性制御信号SBCをバンドパスフィルタ
41に出力する。
イトノイズ信号SWNを生成し、バンドパスフィルタ41
に出力する。バンドパスフィルタ41は、バンドパスフ
ィルタ特性制御部42の制御下で、ホワイトノイズ信号
SWNのうち、第3フォルマントFT3に対応する所定の
周波数帯域の周波数を有するホワイトノイズ信号SWNの
みを元気息性ノイズ信号SBWNとして通過させ、アンプ
部44に出力する。
の動作 一方、レベル制御部43は、変形スペクトラル・シェイ
プ加工部24から出力されたアンプAFT3に基づいて、
元気息性ノイズ信号SBWNの信号レベルを制御するため
の信号レベル制御信号SLCをアンプ部44に出力する。
アンプ部44は、信号レベル制御信号SLCに基づいて元
気息性ノイズ信号SBWNの信号レベルを変化させ、気息
性ノイズ信号SABWNとしてミキサ33に出力することと
なる。 [2.19]、ミキサ及び出力部 ミキサ33は、入力音声信号Svあるいは変換音声信号
のいずれか一方、気息性ノイズ信号SABWN及び伴奏信号
を混合し、混合信号を出力部34に出力する。出力部3
4は、図示しない増幅器を有し混合信号を増幅して音響
信号として出力することとなる。
声を女性の音声に変換する音声信号処理装置について説
明したが、女性の音声を合成することが可能な女声合成
装置についても適用が可能である。この場合において、
第1実施形態の場合には、第3フォルマントの周波数を
検出していたが、合成後に第3フォルマントの周波数を
検出する構成に限らず、予め第3フォルマントの周波数
を設定し、これらの情報を記憶しておくように構成する
ことも可能である。
ル・シェイプに基づいて生成した変形スペクトラル・シ
ェイプ及びターゲット歌唱者のターゲット音声信号の正
弦波成分に含まれる周波数成分に基づいて正弦波成分群
を算出し、変換音声を得る構成としていたが、ターゲッ
ト歌唱者のスペクトラル・シェイプに基づいて生成した
変形スペクトラル・シェイプ及び元歌唱者の入力音声信
号の正弦波成分に含まれる周波数成分に基づいて正弦波
成分群を算出し、変換音声を得る構成とすることも可能
である。
ない。要は、音声信号に含まれる正弦波成分を抽出でき
ればよい。
差成分を記憶したが、これに換えて、ターゲットの音声
そのものを記憶し、それを読み出してリアルタイム処理
によって正弦波成分と残差成分とを抽出してもよい。す
なわち、本実施形態でものまねをしようとする歌唱者の
音声に対して行った処理と同様の処理をターゲットの歌
唱者の音声に対して行ってもよい。
男性歌唱者の歌が変換されて出力されることとなるが、
得られる変換音声は、聴感上自然な女性の音声ものとな
る。
ば、男声→女声変換を行うに際し、聴感上自然な女性の
変換音声を容易に得ることが可能となる。
(その1)である。
(その2)である。
ある。
検出を説明するための説明図である。
携を示す図である。
図である。
の変化状態を示す図である。
ミングチャートである。
ーチャートである。
図である。
図である。
ルト補償について説明する図である。
る。
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ演算部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…静的変化/ビブラート的変化分離部、20…ターゲッ
トフレーム情報保持部、21…キーコントロール/テン
ポチェンジ部、22…イージーシンクロナイゼーション
処理部、23…変形スペクトラル・シェイプ生成部、2
4…変形スペクトラル・シェイプ加工部、25…残差成
分選択部、26…正弦波成分生成部、27…正弦波成分
変形部、28…逆高速フーリエ変換部、29…コントロ
ーラ、30…クロスフェーダ部、31…シーケンサ、3
2…音源部、33…ミキサ、34…出力部、40…ホワ
イトノイズ発生部、41…バンドパスフィルタ(BP
F)、42…バンドパスフィルタ特性制御部、43…レ
ベル制御部、44…アンプ部、AFT3…、第3フォルマ
ントアンプ、FT3…第3フォルマント(周波数)
Claims (6)
- 【請求項1】 入力音声信号またはターゲット音声信号
のスペクトラル・シェイプを周波数軸に沿って高域側に
シフトして変形スペクトラル・シェイプを生成する変形
スペクトラル・シェイプ生成手段と、 前記変形スペクトラル・シェイプに基づいて変換音声信
号を生成する変換音声信号生成手段と、 前記変換音声信号生成手段によって生成された変換音声
信号に対し、気息性雑音成分信号を加算する気息性雑音
加算手段とを備え、 前記気息性雑音加算手段は、前記変形スペクトラル・シ
ェイプに基づいてフォルマント周波数を検出するフォル
マント周波数検出手段と、 前記フォルマント周波数に対応する周波数帯域を有する
前記気息性雑音成分信号を生成する気息性雑音生成手段
と、 前記気息性雑音成分信号を前記変換音声信号に重畳する
重畳手段と を備えたことを特徴とする音声信号処理装
置。 - 【請求項2】 前記気息性雑音生成手段は、ホワイトノ
イズ信号を生成し出力するホワイトノイズ発生手段と、 前記フォルマント周波数検出手段の検出結果に基づい
て、前記ホワイトノイズ信号のうち、前記変換音声信号
の第3フォルマントに対応する所定の周波数帯域成分の
みを通過させ元気息性雑音成分信号として出力するバン
ドパスフィルタ手段と、 前記変換音声信号に基づいて、前記元気息性雑音成分信
号の信号レベルを制御して前記気息性雑音成分信号とし
て出力する信号レベル制御手段とを備えたことを特徴と
する請求項1記載の音声信号処理装置。 - 【請求項3】 音声を合成または変換して得られる合成
音声信号を出力する際に該合成音声信号に気息性雑音成
分信号を加算して変換音声信号として出力する気息性雑
音加算手段を備えた音声信号処理装置であって、 前記気息性雑音加算手段は、 前記合成音声信号のフォルマント周波数を検出するフォ
ルマント周波数検出手段と、 前記フォルマント周波数検出手段が検出したフォルマン
ト周波数に対応する周波数帯域を有する気息性雑音成分
信号を生成する気息性雑音生成手段と、 前記気息性雑音成分信号を前記合成音声信号に重畳して
前記変換音声信号として出力する重畳手段とを備えたこ
とを特徴とする音声信号処理装置。 - 【請求項4】 前記気息性雑音生成手段は、 ホワイトノイズ信号を生成し出力するホワイトノイズ発
生手段と、 前記フォルマント周波数検出手段の検出結果に基づい
て、前記ホワイトノイズ信号のうち、前記合成音声信号
の第3フォルマントに対応する所定の周波数帯域成分の
みを通過させ元気息性雑音成分信号として出力するバン
ドパスフィルタ手段と、 前記合成音声信号に基づいて、前記元気息性雑音成分信
号の信号レベルを制御して前記気息性雑音成分信号とし
て出力する信号レベル制御手段とを備えたことを特徴と
する請求項3記載の音声信号処理装置。 - 【請求項5】 入力音声信号またはターゲット音声信号
のスペクトラル・シェイプを周波数軸に沿って高域側に
シフトして変形スペクトラル・シェイプを生成する第1
生成ステップと、 前記変形スペクトラル・シェイプに基づいて変換音声信
号を生成する第2生成ステップと、 生成された前記変換音声信号に対し、気息性雑音成分信
号を加算する加算ステップとを有し、 前記加算ステップにおいては、 前記変形スペクトラル・シェイプに基づいてフォルマン
ト周波数を検出する検出ステップと、 前記フォルマント周波数に対応する周波数帯域を有する
前記気息性雑音成分信号を生成 する第3生成ステップ
と、 前記気息性雑音成分信号を前記変換音声信号に重畳する
重畳ステップとを実行することを特徴とする音声信号処
理方法。 - 【請求項6】 音声を合成または変換して得られる合成
音声信号を出力するステップと、 前記合成音声信号のフォルマント周波数を検出するステ
ップと、 検出した前記フォルマント周波数に対応する周波数帯域
を有する気息性雑音成分信号を生成するステップと、 前記気息性雑音成分信号を前記合成音声信号に重畳して
前記変換音声信号として出力するステップとを有するこ
とを特徴とする音声信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18569198A JP3502268B2 (ja) | 1998-06-16 | 1998-06-16 | 音声信号処理装置及び音声信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18569198A JP3502268B2 (ja) | 1998-06-16 | 1998-06-16 | 音声信号処理装置及び音声信号処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000003200A JP2000003200A (ja) | 2000-01-07 |
JP3502268B2 true JP3502268B2 (ja) | 2004-03-02 |
Family
ID=16175182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18569198A Expired - Fee Related JP3502268B2 (ja) | 1998-06-16 | 1998-06-16 | 音声信号処理装置及び音声信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3502268B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3973530B2 (ja) * | 2002-10-10 | 2007-09-12 | 裕 力丸 | 補聴器、訓練装置、ゲーム装置、および音出力装置 |
JP4433668B2 (ja) | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | 帯域拡張装置及び方法 |
JP4729859B2 (ja) * | 2004-03-23 | 2011-07-20 | ヤマハ株式会社 | 音響効果装置 |
JP4654621B2 (ja) | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US10134374B2 (en) | 2016-11-02 | 2018-11-20 | Yamaha Corporation | Signal processing method and signal processing apparatus |
-
1998
- 1998-06-16 JP JP18569198A patent/JP3502268B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000003200A (ja) | 2000-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
EP0979503B1 (en) | Targeted vocal transformation | |
JP3502247B2 (ja) | 音声変換装置 | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
US6944589B2 (en) | Voice analyzing and synthesizing apparatus and method, and program | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP3447221B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP3540160B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3934793B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 | |
JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
JPH11143460A (ja) | 音楽演奏に含まれる旋律の分離方法、分離抽出方法および分離除去方法 | |
JP3907027B2 (ja) | 音声変換装置および音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20031204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071212 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071212 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081212 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081212 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091212 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101212 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101212 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131212 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |