JP3266819B2

JP3266819B2 - 周期信号変換方法、音変換方法および信号分析方法

Info

Publication number: JP3266819B2
Application number: JP34424796A
Authority: JP
Inventors: 英紀河原; 郁代増田
Original assignee: 株式会社エイ・ティ・アール人間情報通信研究所
Priority date: 1996-07-30
Filing date: 1996-12-24
Publication date: 2002-03-18
Anticipated expiration: 2016-12-24
Also published as: EP0822538A1; EP0822538B1; CA2210826A1; US6115684A; DE69700084T2; DE69700084D1; JPH1097287A; CA2210826C

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、周期信号変換方
法、音変換方法および信号分析方法に関し、特に、音を
変換するための周期信号変換方法、音変換方法および音
を分析するための信号分析方法に関する。

【０００２】

【従来の技術】音声の分析・合成などにおいて、音声の
イントネーションを制御する場合や音声の編集合成にお
いて自然な音声の抑揚を与えるためには、元々格納され
ている音声の音色を保ちつつ音声の基本周波数を変える
ことが必要である。また、自然の音をサンプリングして
電子楽器の音源として用いる場合も、音色を一定に保ち
つつ基本周波数を変えることが必要である。また、基本
周波数の変換においては、サンプリング周期で決定され
る分解能よりも詳細に基本周波数を設定する必要があ
る。他方、放送などにおいて情報提供者のプライバシー
を守るために、個人性がわからないように音声を変換す
る場合には、音高を変えずに音色を変えたり、音色と音
高の双方を変えたりする必要がある。

【０００３】また、異なった俳優の声を合成をすること
によって、実際に声優を雇わなくても新しい声優の声を
作り出すことなど、既存の音声資源の再利用が、ますま
す強く求められるようになっている。高齢化社会を迎
え、さまざまな聴覚障害や認知能力の障害などによりそ
のままでは音声や音楽の内容を聞き取ることが困難な人
々の増加が予想されている。このような人たちの劣化し
た聴覚能力や認知能力に適合するように元の情報を失う
ことなく速度や、周波数帯域、声の高さを変換する方法
は、強く要請されている。

【０００４】このような目的を達成するための第１の従
来技術は、たとえば、今井聖，北村正，「対数振幅特性
近似フィルタを用いた音声の分析合成系」，電子通信学
会論文誌，７８／６，Ｖｏｌ．Ｊ６１−Ａ，Ｎｏ．６，
ｐｐ５２７−５３４に開示されている。この先行技術文
献では、スペクトル包絡を表わすモデルを仮定して、モ
デルのパラメタを適当な評価関数の下でスペクトルのピ
ークを重視して近似するようにパラメタを最適化するこ
とでスペクトル包絡を求める方法が示されている。

【０００５】また、第２の従来技術は、中田和男，「ピ
ッチ周波数に影響されないホルマント抽出」，日本音響
学会誌５０巻２号（１９９４），ｐｐ１１０−１１６に
開示されている。この先行技術文献は、周期信号である
ことを自己回帰モデルのパラメタ推定方式の中に組み込
んだものである。

【０００６】第３の従来技術として、ＰＳＯＬＡのよう
に時間領域での波形の伸縮と時間を移動させた重ね合わ
せにより音声を加工する方法がある。

【０００７】

【発明が解決しようとする課題】上述した第１および第
２の従来技術のいずれも、特定のモデルを仮定している
ためモデルを記述するパラメタの個数を適切に決定しな
ければ、正しいスペクトル包絡を推定することはできな
いという問題点がある。また、信号源の性質が想定した
モデルと異なっている場合には、推定されたスペクトル
包絡に周期性に基づく成分が混入してしまい逆に大きな
誤差を生じてしまうという脆弱さを有するという問題点
がある。

【０００８】さらに、第１および第２の従来技術では、
最適化の過程で収束のための繰返し演算を必要としてお
り、実時間処理のような時間的制約の大きい応用に不適
切であるという問題点がある。

【０００９】さらに、第１および第２の従来技術におい
て、周期性の制御について言及すると、音源をパルス
列、スペクトル包絡をフィルタとして分離してしまって
いるため、標本化周波数で決定される時間分解能よりも
高い精度で信号の周期を指定することができないという
問題点がある。

【００１０】第３の従来技術では、音源の周期を２０％
程度以上変化させると音声の自然さが失なわれてしま
い、自由に音声が変換できないという問題点がある。

【００１１】本発明は、以上のような問題点を解決する
ためになされたもので、スペクトルのモデルに基づか
ず、かつ、周期性の影響を小さくできる周期信号変換方
法を提供することを目的とする。

【００１２】この発明の他の目的は、音の標本化周期よ
り高い分解能で精密に音程を設定できる音変換方法を提
供することである。

【００１３】この発明のさらに他の目的は、過剰平滑化
の影響を取除いたスペクトルおよびスペクトログラムを
求めることができる信号分析方法を提供することであ
る。

【００１４】この発明のさらに他の目的は、零となる点
のないスペクトルおよびスペクトログラムを求めること
ができる信号分析方法を提供することである。

【００１５】

【課題を解決するための手段】本発明の請求項１の周期
信号変換方法は、離散的なスペクトルで与えられる周期
信号のスペクトルを区分的多項式で表わされる連続的な
スペクトルに変換するステップと、連続的なスペクトル
を用いて、周期信号を別の信号に変換するステップとを
含む。離散的なスペクトルで与えられる周期信号のスペ
クトルを区分的多項式で表わされる連続的なスペクトル
に変換するステップでは、周波数軸上の補間関数と、離
散的なスペクトルを畳み込むことにより、連続的なスペ
クトルを得る。

【００１６】本発明の請求項２の周期信号変換方法は、
周期信号のスペクトログラム上に表現される、基本周期
の間隔と基本周波数の間隔とで決まる格子点の情報を用
いて、区分的多項式で補間することで、平滑化されたス
ペクトログラムを得るステップと、平滑化されたスペク
トログラムを用いて、周期信号を別の信号に変換するス
テップとを含む。周期信号のスペクトログラム上に表現
される、基本周期の間隔と基本周波数の間隔とで決まる
格子点の情報を用いて、区分的多項式で補間すること
で、平滑化されたスペクトログラムを得るステップで
は、周波数軸上での補間関数と周期信号のスペクトログ
ラムを、周波数方向で畳み込み、さらに、時間軸上での
補間関数と畳み込みで得られたスペクトログラムを、時
間方向で畳み込むことによって、平滑化されたスペクト
ログラムを得る。

【００１７】本発明の請求項３の音変換方法は、位相調
整成分と、音のスペクトルとの積を用いてインパルス応
答を求めるステップと、インパルス応答を時間軸上で、
目的とする周期ずつ移動させながら加算していくことに
より、音を別の音に変換するステップとを含む。位相調
整成分から得られる音源信号は、インパルスと同じパワ
ースペクトルを有し、時間的にエネルギが分散してい
る。

【００１８】本発明の請求項４の音変換方法は、請求項
３に記載のものであって、位相調整成分Φ（ω）は、

【００１９】

【数３】

【００２０】であり、式中のｅｘｐ（）は指数関数を
示し、式中のωは角周波数を示し、式中のξ（ω）は連
続関数を示し、式中のΛは数字の集まりで、有限個の数
字を集めたものを示し、式中のｋはΛの中から取出した
１つの数字を示し、式中のα_kは係数を示し、式中のｍ
_kはパラメタを示し、ρ（ω）は重みを表わす関数を示
す。

【００２１】本発明の請求項５の音変換方法は、請求項
３に記載のものであって、位相調整成分は、周波数軸上
で、乱数と帯域制限関数を畳み込み、帯域制限された乱
数を求めるステップと、帯域制限された乱数と遅延時間
の変動の目標値とを掛け合わせて、群遅延特性を求める
ステップと、群遅延特性を周波数で積分することによ
り、位相特性を求めるステップと、位相特性と虚数単位
とを掛け合わせて、指数関数の指数とすることにより、
位相調整成分を得るステップとによって得られる。

【００２２】本発明の請求項６の音変換方法は、請求項
３に記載のものであって、位相調整成分は、第１の成分
と第２の成分との積である。第１の成分Φ（ω）は、

【００２３】

【数４】

【００２４】であり、式中のｅｘｐ（）は指数関数を
示し、式中のωは角周波数を示し、式中のξ（ω）は連
続関数を示し、式中のΛは数字の集まりで、有限個の数
字を集めたものを示し、式中のｋはΛの中から取出した
１つの数字を示し、式中のα_kは係数を示し、式中のｍ
_kはパラメタを示し、ρ（ω）は重みを表わす関数を示
す。

【００２５】第２の成分は、周波数軸上で、乱数と帯域
制限関数を畳み込み、帯域制限された乱数を求めるステ
ップと、帯域制限された乱数と遅延時間の変動の目標値
とを掛け合わせて、群遅延特性を求めるステップと、群
遅延特性を周波数で積分することにより、位相特性を求
めるステップと、位相特性と虚数単位とを掛け合わせ
て、指数関数の指数とすることにより、第２の成分を得
るステップとによって得られる。

【００２６】本発明の請求項７の信号分析方法は、時間
とともに特性が変化するほぼ周期的な信号を生成する機
構を表わす時間周波数曲面が、時間の区分的多項式と、
周波数の区分的多項式との積で表わされると仮定するス
テップと、ほぼ周期的な信号から所定範囲を、窓関数を
使って取出すステップと、取出された所定範囲のほぼ周
期的な信号から第１のスペクトルを求めるステップと、
窓関数の周波数領域での表現と、周波数の区分的多項式
で表わされる空間の基底とから、周波数方向の最適な補
間関数を求めるステップと、第１のスペクトルと、周波
数方向の最適な補間関数を畳み込んで、第２のスペクト
ルを求めるステップとを含む。そして、周波数方向の最
適な補間関数は、第２のスペクトルと、時間周波数曲面
の周波数軸に沿った断面との誤差を最小にする。

【００２７】本発明の請求項８の信号分析方法は、請求
項７に記載のものであって、−∞から＋∞の領域を０か
ら＋∞の領域に写像する単調で滑らかな関数を用いて、
第２のスペクトルを第３のスペクトルに変換するステッ
プをさらに含む。

【００２８】本発明の請求項９の信号分析方法は、請求
項８に記載のものであって、第１のスペクトルから、ほ
ぼ周期的な信号の基本周波数の影響を除去して第４のス
ペクトルを求めるステップと、第１のスペクトルを、第
４のスペクトルで割算して第５のスペクトルを求めるス
テップと、第３のスペクトルと、第４のスペクトルとを
掛け合わせて、第６のスペクトルを求めるステップとを
さらに含む。そして、第２のスペクトルを求めるステッ
プでは、第１のスペクトルの代わりに第５のスペクトル
を用いて第２のスペクトルを求める。

【００２９】本発明の請求項１０の信号分析方法は、請
求項７に記載のものであって、窓関数の時間領域での表
現と、時間の区分的多項式で表わされる空間の基底とか
ら、時間方向の最適な補間関数を求めるステップと、任
意の時間ごとに複数の第２のスペクトルを求めるステッ
プと、複数の第２のスペクトルを時間方向に並べて第１
のスペクトログラムを求めるステップと、第１のスペク
トログラムと、時間方向の最適な補間関数を畳み込ん
で、第２のスペクトログラムを求めるステップとをさら
に含む。そして、時間方向の最適な補間関数は、第２の
スペクトログラムと、時間周波数曲面との誤差を最小に
する。

【００３０】本発明の請求項１１の信号分析方法は、請
求項７に記載のものであって、任意の時間ごとに複数の
第２のスペクトルを求めるステップと、−∞から＋∞の
領域を０から＋∞の領域に写像する単調で滑らかな第１
の関数を用いて、複数の第２のスペクトルを複数の第３
のスペクトルに変換するステップと、複数の第３のスペ
クトルを時間方向に並べて第１のスペクトログラムを求
めるステップと、窓関数の時間領域での表現と、時間の
区分的多項式で表わされる空間の基底とから、時間方向
の最適な補間関数を求めるステップと、第１のスペクト
ログラムと、時間方向の最適な補間関数を畳み込んで、
第２のスペクトログラムを求めるステップと、−∞から
＋∞の領域を０から＋∞の領域に写像する単調で滑らか
な第２の関数を用いて、第２のスペクトログラムを第３
のスペクトログラムに変換するステップとをさらに含
む。そして、時間方向の最適な補間関数は、第２のスペ
クトログラムと、時間周波数曲面との誤差を最小にす
る。

【００３１】本発明の請求項１２の信号分析方法は、時
間とともに特性が変化するほぼ周期的な信号を生成する
機構を表わす時間周波数曲面が、時間の区分的多項式
と、周波数の区分的多項式との積で表わされると仮定す
るステップと、ほぼ周期的な信号から所定範囲を、窓関
数を使って取出すステップと、取出された所定範囲のほ
ぼ周期的な信号から第１のスペクトルを求めるステップ
と、任意の時間ごとに複数の第１のスペクトルを求める
ステップと、複数の第１のスペクトルから、ほぼ周期的
な信号の基本周波数の影響を除去して複数の第２のスペ
クトルを求めるステップと、各第１のスペクトルを、対
応する第２のスペクトルで割算して複数の第３のスペク
トルを求めるステップと、窓関数の周波数領域での表現
と、周波数の区分的多項式で表わされる空間の基底とか
ら、周波数方向の最適な補間関数を求めるステップと、
各第３のスペクトルと、周波数方向の最適な補間関数を
畳み込んで、複数の第４のスペクトルを求めるステップ
と、−∞から＋∞の領域を０から＋∞の領域に写像する
単調で滑らかな第１の関数を用いて、複数の第４のスペ
クトルを複数の第５のスペクトルに変換するステップ
と、各第５のスペクトルと、対応する第２のスペクトル
とを掛け合わせて、複数の第６のスペクトルを求めるス
テップと、複数の第６のスペクトルを時間方向に並べて
第１のスペクトログラムを求めるステップと、第１のス
ペクトログラムから、ほぼ周期的な信号の周期性に基づ
く時間的変動の影響を除去して第２のスペクトログラム
を求めるステップと、第１のスペクトログラムを、第２
のスペクトログラムで割算して第３のスペクトログラム
を求めるステップと、窓関数の時間領域の表現と、時間
の区分的多項式で表わされる空間の基底とから、時間方
向の最適な補間関数を求めるステップと、第３のスペク
トログラムと、時間方向の最適な補間関数を畳み込ん
で、第４のスペクトログラムを求めるステップと、−∞
から＋∞の領域を０から＋∞の領域に写像する単調で滑
らかな第２の関数を用いて、第４のスペクトログラムを
第５のスペクトログラムに変換するステップと、第５の
スペクトログラムと、第２のスペクトログラムとを掛け
合わせて、第６のスペクトログラムを求めるステップと
を含む。そして、周波数方向の最適な補間関数は、第４
のスペクトルと、時間周波数曲面の周波数軸に沿った断
面との誤差を最小にし、時間方向の最適な補間関数は、
第４のスペクトログラムと、時間周波数曲面との誤差を
最小にする。

【００３２】本発明の請求項１３の信号分析方法は、第
１の窓関数を用いて、時間とともに特性が変化するほぼ
周期的な信号の第１のスペクトルを求めるステップと、
所定の窓関数を用いて、第２の窓関数を求めるステップ
と、第２の窓関数を用いて、ほぼ周期的な信号の第２の
スペクトルを求めるステップと、第１のスペクトルと、
第２のスペクトルとの平均値を、自乗あるいは単調で非
負な関数による変換を介して求め、求まった自乗あるい
は単調で非負な関数による変換を介した平均値を第３の
スペクトルとするステップとを含む。そして、第２の窓
関数を求める前記ステップは、所定の窓関数を、原点の
両側に、相互の間隔を基本周期分、離して配置するステ
ップと、配置された一方の所定の窓関数の符号を反転さ
せるステップと、符号を反転させた所定の窓関数と、配
置された他方の所定の窓関数とを加え合せて第２の窓関
数を求めるステップとを含む。

【００３３】本発明の請求項１４の信号分析方法は、請
求項１３に記載のものであって、任意の時間ごとに、複
数の第３のスペクトルを求めるステップと、複数の第３
のスペクトルを時間方向に並べて、スペクトログラムを
求めるステップとをさらに含む。

【００３４】

【発明の実施の形態】以下、本発明による周期信号変換
方法および音変換方法としての音声変換方法について、
原理、処理、具体的処理の順に説明する。

【００３５】［実施の形態１］（原理）本実施の形態では、音声信号の周期性を積極的
に利用することにより、繰返しと収束の判定を含む計算
を必要としない直接的な計算でスペクトル包絡を求める
ことを可能とする。また、そうして求めたスペクトル包
絡から信号を再合成する際に位相を操作することによ
り、標本化周期よりも細かな分解能での周期の制御と音
色の制御を実現する。

【００３６】次のような周期信号（音声信号）ｆ（ｔ）
を仮定する。すなわち、ｆ（ｔ）＝ｆ（ｔ＋ｎτ）であ
る。ここで、ｔは時間であり、ｎは任意の整数であり、
τは周期である。この信号のフーリエ変換をＦ（ω）と
すると、Ｆ（ω）は、２π／τを間隔とするパルス列と
なる。これを適当な補間関数ｈ（λ）を用いて次のよう
に平滑化する。

【００３７】

【数５】

【００３８】式（１）において、Ｓ（ω）は、平滑化さ
れたスペクトルであり、ｇ（）は適当な単調増加関数で
あり、ｇ^-1（）はｇ（）の逆関数であり、ω，λは角周
波数である。積分の範囲は−∞から∞としているが補間
関数として例えば−２π／τから２π／τの範囲外では
０となるようなものを用いることにより、−２π／τか
ら２π／τとすることができる。ここで、補間関数が以
下に示す直線復元条件を満たすことを要請する。この直
線復元条件は、音色情報を表わすスペクトル包絡が「信
号の周期性の影響を受けずしかも滑らかである」という
ことを合理的に定式化したものである。

【００３９】直線復元条件について説明する。この条件
は、隣り合う複数のインパルスの高さが同一であるとき
に補間関数により平滑化された値が一定値になることを
要請する。さらに、この条件は、インパルスの高さが一
定の割合で変化していくときに補間関数により平滑化さ
れた値が直線になることを要請する。この条件を満たす
補間関数ｈ（λ）は、バートレット窓（Bartlett窓）と
して知られる４π／τを幅とする三角形の補間関数ｈ₂
（ω）と、時間窓関数を周波数変換して得られるような
エネルギが局在するような関数を畳み込むことにより作
られる関数である。具体的には、Ｓ（ω）のうち、

【００４０】

【数６】

【００４１】が区間（Δω，（Ｎ−２）Δω）において
成立する。ここでａ，ｂは任意の定数を表わし、δ（
）はデルタ関数を表わす。またΔωは信号の周期τに
対応する周波数軸上での調波の間隔を角周波数で表わし
たものである。なお、標本化関数として知られているｓ
ｉｎ（ｘ）／ｘも、パルス列が無限に一定値で続く場合
や、一定の割合で変化し続ける場合には直線復元条件を
満たす。しかし、実際の時間的に変化する信号ではその
ように無限に同じ傾向が続くことはなく、直線復元条件
は満たされない。

【００４２】時間窓との相互作用について説明する。信
号の短時間フーリエ変換を求める場合には、何らかの窓
関数ｗ（ｔ）を用いて信号の一部を切出すことが必要と
なる。周期関数をこのような窓関数を用いて切出すとそ
の短時間フーリエ変換は、周波数領域でのパルス列に窓
関数のフーリエ変換であるＷ（ω）を畳み込んだものと
なる。この場合でも、補間関数として直線復元条件を満
たすバートレット窓関数（Bartlett窓関数）を用いれ
ば、最終的なスペクトル包絡は直線復元条件を満たす。

【００４３】標本化周期より詳細な基本周期制御方式に
ついて説明する。以上のようにして、平滑化された実数
スペクトルが求まれば、直接逆フーリエ変換することに
よって要素となる時間領域での直線位相のインパルス応
答ｓ（ｔ）を求めることができる。具体的には、ｊを虚
数単位（ｊ＝√−１）とすると、次式で表わされる。

【００４４】

【数７】

【００４５】あるいは、次のようにして最小位相のパル
ス応答ｖ（ｔ）を作成することができる。

【００４６】

【数８】

【００４７】直線位相のインパルス応答ｓ（ｔ）または
最小位相のインパルス応答ｖ（ｔ）を、時間軸上の上で
目的とする周期ずつ移動させながら加算していくことに
より、変換音声を作成することができる。しかし、信号
を標本化により離散化している場合には、この方法で
は、標本化周波数により決まる標本化周期よりも細かく
周期を制御することはできない。そこで、時間遅れが周
波数領域では位相の直線的な変化として表わされること
を利用して、波形の構成の際に標本化周期よりも細かな
周期の補正分を求めて復元波形を変換することにより、
この問題を解決する。具体的には、目的とする周期τ
が、標本化周期ΔＴを用いると（ｍ＋ｒ）ΔＴと表わさ
れるものとする。ここで、ｍは整数であり、ｒは０≦ｒ
＜１の実数とする。このようにすると、具体的な位相調
整分の値（以下、「位相調整成分」という）Φ₁ （ω）
は、次のようになる。

【００４８】

【数９】

【００４９】直線位相のインパルスを用いる場合には、
位相調整成分Φ₁ （ω）によってＳ（ω）を位相調整し
てＳ_r（ω）を作成する。具体的には、Φ₁ （ω）とＳ
（ω）とを掛け合わせてＳ_r（ω）を作成する。そし
て、このＳ_r（ω）を、式（３）のＳ（ω）の代わりに
用いることによって、直線位相のインパルス応答ｓ
_r（ｔ）を求める。この直線位相のインパルス応答ｓ_r
（ｔ）を、目的とする周期の整数分ｍΔＴの位置に加算
して波形を作成する。

【００５０】最小位相のインパルス応答を用いる場合に
は、位相調整成分Φ₁ （ω）によってＶ（ω）を位相調
整してＶ_r（ω）を作成する。具体的には、Φ₁ （ω）
とＶ（ω）とを掛け合わせてＶ_r（ω）を作成する。そ
して、式（７）のＶ（ω）の代わりにＶ_r（ω）を用い
て、最小位相のインパルス応答ｖ_r（ｔ）を求める。こ
の最小位相のインパルス応答ｖ_r（ｔ）を、目的とする
周期の整数分ｍΔＴの位置に加算して波形を作成する。

【００５１】位相調整成分の他の例を示す。すなわち、
位相調整成分の他の例Φ₂ （ω）は次式で表わされる。

【００５２】

【数１０】

【００５３】ここで、ｅｘｐ（）は指数関数を示し、
ξ（ω）は−π≦ω≦πの範囲を−π≦ξ≦πの範囲に
移すような滑らかな連続な奇関数であり、範囲の両端で
ある−πとπにおいてξ（ω）＝ωとなるように拘束さ
れている。また、Λは、添字の集まりで、たとえば１，
２，３，４など、有限個の数字を集めたものである。こ
のような式（９）は、Φ₂ （ω）が、ξ（ω）によって
非線形に伸縮された角周波数ωの上の複数の異なった三
角関数を、係数α_kにより重み付けしたものの和として
表わされることを示している。なお、式（９）中のｋは
Λの中から取出した１つの数字を示し、式中のｍ_kはパ
ラメタを示している。ρ（ω）は、重みを表わす関数を
示す。連続関数ξ（ω）の具体例として、βをパラメタ
とすると、次式で表わされるものがある。ここでｓｇｎ
（）は（）内が０または正の時に１、負の場合に−
１となる符号を表わす関数である。

【００５４】

【数１１】

【００５５】周波数軸上での位相回転の周波数微分が群
遅延に相当することを利用すれば、平均値が０の乱数を
積分したものを位相成分とすることによって、群遅延の
分布を乱数により制御することができる。このような高
い周波数の成分の位相の制御は、息づかいの混じった声
を作り出すなど、合成音声の自然性の向上のために、非
常に大きく貢献する。具体的には、位相調整成分Φ₃
（ω）により位相調整して音声合成を行なう。この位相
調整成分Φ₃ （ω）は、次のようにして作成される。第
１のステップとして乱数を発生する。第２のステップと
して、周波数軸上で、第１のステップで発生した乱数
と、帯域制限関数を畳み込む。そして、帯域制限された
乱数を求める。第３のステップとして、どの周波数領域
がどれだけの群遅延の変動を許すかを設計する。つま
り、どの周波数領域がどれだけの遅延時間の変動を許す
かを設計する。具体的には、遅延時間の変動の目標値を
設計する。そして、帯域制限された乱数（第２のステッ
プで求めたもの）と遅延時間の変動の目標値とを掛け合
わせて、群遅延特性を作成する。第４のステップとし
て、群遅延特性を周波数で積分することにより、位相特
性を作成する。第５のステップとして、位相特性と虚数
単位（ｊ＝√−１）とを掛け合わせて、指数関数の指数
とすることにより、位相調整成分Φ₃ （ω）を得る。

【００５６】三角関数を用いた位相の制御（Φ₂ （ω）
を用いる位相の制御）と、乱数を用いた位相の制御（Φ
₃ （ω）を用いた位相の制御）とは、周波数領域で表現
されているので、Φ₂ （ω）とΦ₃ （ω）とを掛け算す
ることにより、両方の性質を有する位相調整成分を作成
することができる。すなわち、声門の開閉のイペントに
相当する離散的なパルスの周辺で乱流や声帯振動の変動
に起因する雑音的な変動がある音源を作成できる。ま
た、Φ₁ （ω）とΦ₂ （ω）とΦ₃ （ω）とを掛け算す
ることによっても位相調整成分を作成することができる
し、Φ₁ （ω）とΦ₂ （ω）とを掛け算することによっ
ても位相調整成分を作成することができるし、Φ₁
（ω）とΦ₃ （ω）とを掛け算することによっても位相
調整成分を作成することができる。ここで、位相調整成
分Φ₂ （ω）、Φ₃ （ω）、Φ₁ （ω）・Φ₂ （ω）・
Φ₃ （ω）、Φ₁ （ω）・Φ₂ （ω）、Φ₁ （ω）・Φ
₃ （ω）およびΦ₂ （ω）・Φ₃ （ω）による位相調整
の仕方は、Φ₁ （ω）による位相調整の仕方と同様であ
る。

【００５７】図１は、位相調整成分Φ₂ （ω）によって
得られた音源信号を示す図である。図１を参照して、横
軸は時間を示し、縦軸は音圧を示している。ここで、位
相調整成分Φ₂ （ω）を構成する連続関数ξ（ω）とし
て、式（１０）を用いている。重み関数としては、ρ
（ω）＝１という定数値を持つものを選んでいる。ま
た、Λは１個の数字からなり、ｋ＝１、ｍ₁ ＝３０、α
₁ ＝０．３、β＝１としている。図２は、位相調整成分
Φ₃ （ω）によって得られた音源信号を示す図である。
図３は、位相調整成分Φ₂ （ω）・Φ₃ （ω）によって
得られる音源信号を示す図である。図２および図３を参
照して、横軸は時間を示し、縦軸は音圧を示している。
図１〜図３を参照して、音源信号が、インパルスと異な
りエネルギが時間的に分散しているのが観測できる。こ
こで、音源信号は、位相調整成分を時間の関数にしたも
のである。具体的には、音源信号は、位相調整成分を逆
フーリエ変換して、時間の関数にしたものである。

【００５８】（処理）実施の形態１による音声変換方法
は、以下の手順によって実現される。まず、分析の対象
となる音声信号は、予め何らかの手段でデジタル化され
ているものとする。第１の処理として、音声の基本周波
数（基本周期）の抽出について説明する。実施の形態１
による音声変換方法では、分析対象とする音声信号の周
期性を積極的に利用している。これらの周期性の情報
は、式（１），（２）の中の補間関数のサイズを決定す
るために用いられる。第１の処理では、音声信号から一
部を次々と選び出しながら、その部分における基本周波
数（基本周期）を抽出する。詳しくは、デジタル化した
音声信号の標本化周期よりも精密な分解能で基本周波数
（基本周期）を抽出する。また、周期的でない信号が含
まれる部分では、その旨を何らかの形で抽出しておく。
第１の処理で基本周波数を精密に抽出しておくことが、
後述する第５の処理で重要になる。なお、このような基
本周波数（基本周期）の抽出は、既存の一般的な方法を
用いて行なう。必要があれば、音声波形を視認しながら
手作業で基本周波数を決めてもよい。

【００５９】基本周波数の情報を利用した補間関数の適
応を行なう第２の処理について説明する。第２の処理で
は、式（２）の条件を満たす１次元の補間関数を用い
て、式（１）により、周波数方向において音声信号のス
ペクトルと補間関数を畳み込むことにより、平滑化スペ
クトルを計算する。これにより、周波数方向の周期性の
影響が小さくなる。

【００６０】音声パラメタの変換を行なう第３の処理に
ついて説明する。第３の処理では、発声者の声の性質を
変えるために（たとえば、女性の声を男性の声に変換す
るために）、求められた音声パラメタ（平滑化スペクト
ルと精密な基本周波数情報）の周波数軸を圧縮したり、
声の高さを変えるために、精密な基本周波数に適当な係
数を掛けたりすることを行なう。このように、音声パラ
メタを、目的に合わせて変えることが、音声パラメタの
変換である。音声パラメタ（平滑化スペクトルと精密な
基本周波数情報）に対して操作を加えるだけであらゆる
バリエーションの音声を作ることができる。

【００６１】変換された音声パラメタを用いて音声合成
を行なう第４の処理について説明する。第４の処理で
は、平滑化スペクトルから、式（３）を用いて精密な基
本周波数から決まる周期ごとに音源波形を作成し、時間
軸をずらしながら加え合わせていくことにより、変換さ
れた音声を作成する。つまり、音声合成をする。時間軸
をずらすときには、信号がデジタル化される際の標本化
周波数で決まる標本化周期よりも細かい精度でずらすこ
とはできない。そこで、基本周期を積分して次々と得ら
れる時間を標本化周期で割算したときの余りの部分（少
数点以下の部分）については、式（８）を用いて計算し
た値Φ₁ （ω）を、式（１）のＳ（ω）に掛け算してか
ら式（３）を用いてｓ（ｔ）で表わされる音源波形を作
成することで、標本化周期により決まる分解能よりも細
かな精度で基本周波数の制御を行なうことが可能とな
る。

【００６２】また、平滑化スペクトルから、式（４），
（５），（６），（７）を用いて精密な基本周波数から
決まる周期ごとに音源波形を作成し、時間軸をずらしな
がら加え合わせていくことにより、変換された音声を作
成することもできる。その場合には、基本周期を積分し
て次々と得られる時間を標本化周期で割算したときの余
りの部分（少数点以下の部分）については、式（８）を
用いて計算した値Φ₁（ω）を、式（６）のＶ（ω）に
掛け算してから式（７）を用いてｖ（ｔ）で表わされる
音源波形を作成することで、標本化周期により決まる分
解能よりも細かな精度で基本周波数の制御を行なうこと
が可能となる。ここで、Ｓ（ω）またはＶ（ω）に掛け
算する位相調整成分としては、Φ₁ （ω）を用いたが、
位相調整成分としては、Φ₂ （ω）、Φ₃ （ω）、Φ₁
（ω）・Φ₂ （ω）・Φ₃ （ω）、Φ₁ （ω）・Φ₂
（ω）、Φ₁ （ω）・Φ₃ （ω）またはΦ₂ （ω）・Φ
₃ （ω）を用いることもできる。

【００６３】第４の処理は、この部分だけを取出しても
利用することができる。すなわち、平滑化スペクトル
は、２次元の濃淡画像であるに過ぎないし、精密な基本
周波数は、その画像の横幅と同じ幅を有する１次元の曲
線にすぎない。したがって、第４の処理を用いれば、そ
のような画像と曲線を情報を失うことなく音に変えるこ
とができる。つまり、音声信号の入力が不要で、画像と
曲線があれば、音を作ることができる。

【００６４】（具体的処理）図４は、本発明の実施の形
態１による音声変換方法を実現するための音声変換装置
を示す概略ブロック図である。図４を参照して、音声変
換装置は、パワースペクトル計算部１、基本周波数計算
部２、平滑化スペクトル計算部３、インタフェース部
４、平滑化スペクトル変換部５、音源情報変換部６、位
相調整部７および波形合成部８を備える。図４の音声変
換装置を用いて、８ｋＨｚ１６ビットで標本化された音
声を変換する例を説明する。パワースペクトル計算部１
では、３０ｍｓのHanning 窓を用いて、ＦＦＴ（高速フ
ーリエ変換）により、音声波形のパワースペクトルが計
算される。このパワースペクトルには、音声の周期性に
よる調波構造が観測される。

【００６５】図５は、図４のパワースペクトル計算部１
によって求められたパワースペクトルの一例および平滑
化スペクトル計算部３によって求められた平滑化スペク
トルの一例を示す図である。横軸は、周波数を示し、縦
軸は、強度を対数表示（デシベル表示）を用いて示して
いる。図５を参照して、矢印ａで示す曲線が、パワース
ペクトル計算部１で求めたパワースペクトルである。

【００６６】再び、図４を参照して、図５に示されるよ
うなパワースペクトルの調波構造の周期から、基本周波
数計算部２において、音声の基本周波数ｆ₀ を求める。
パワースペクトル計算部１および基本周波数計算部２
は、上述した第１の処理（音声の基本周波数の抽出）を
行なう部分である。平滑化スペクトル計算部３では、基
本周波数計算部２で求めた基本周波数ｆ₀ に基づいて、
平滑化のための補間関数として幅が２ｆ₀ であるような
三角形の形状の関数を選ぶ。この補間関数を用いて、周
波数軸上で円環畳み込みを実行することにより平滑化さ
れたスペクトルを得る。

【００６７】再び、図５を参照して、矢印ｂに示す曲線
が平滑化されたスペクトルである。ここでは、単調増加
関数ｇ（）として、平方根を求める関数を用いている。
人間の知覚に近づけるためにｇ（）としてパワーの０．
６乗を計算する関数を用いることもできる。平滑化スペ
クトル計算部３は、上述した第２の処理（基本周波数の
情報を利用した補間関数の適応）を行なう部分である。
平滑化スペクトル計算部３で求めた平滑化スペクトル
は、平滑化スペクトル変換部５に渡され、基本周波数計
算部２で得られた音源情報（精密な基本周波数情報）
は、音源情報変換部６に渡される。ここで、後からの利
用のために、平滑化スペクトルおよび音源情報を格納し
ておくこともできる。インタフェース部５は、平滑化ス
ペクトルと音源情報の計算段階と、変換・合成段階との
インタフェース部分である。

【００６８】平滑化スペクトル変換部５では、最小位相
のインパルス応答ｖ（ｔ）を作るために、平滑化スペク
トルＳ（ω）をＶ（ω）に変換しておく。また、音色を
操作したい場合には、平滑化スペクトルを目的に応じて
操作して変形し、変形した平滑化スペクトルＳｍ（ω）
を得る。あるいは、変形した平滑化スペクトルＳｍ
（ω）を、式（４）〜（６）を用いて、Ｖ（ω）に変換
しておく。つまり、式（４）のＳ（ω）の代わりに、Ｓ
ｍ（ω）を用いて、Ｖ（ω）を求める。以下の説明で
は、平滑化されたスペクトルのみならず変形した平滑化
スペクトルＳｍ（ω）も、「Ｓ（ω）」で表わす。音源
情報変換部６では、平滑化スペクトル変換部５での変換
と並行して、音源情報を目的に応じて変換する。平滑化
スペクトル変換部５および音源情報変換部６での処理
は、上述した第３の処理（音声パラメタの変換）を行な
う部分である。位相調整部７では、平滑化スペクトル変
換部５および音源情報変換部６で変換されたスペクトル
情報と音源情報を用いて、標本化周期よりも高い分解能
で周期を操作するための処理を行なう。つまり、目的と
する波形を置く時間位置を標本化周期ΔＴを単位として
計算し、整数部分と実数部分とに分け、実数部分を用い
て位相調整成分Φ₁ （ω）を求める。そして、Ｓ（ω）
あるいはＶ（ω）の位相を調整する。波形合成部８で
は、位相調整部７で位相調整された平滑化スペクトルお
よび音源情報変換部６で変換された音源情報を用いて、
波形を合成する。位相調整部７および波形合成部８は、
第４の処理（変換された音声パラメータによる音声合
成）を行なう部分である。

【００６９】図６は、Ｖ（ω）を逆フーリエ変換した最
小位相のインパルス応答ｖ（ｔ）の例を示す図である。
図６を参照して、横軸は時間を示し、縦軸は音圧を示し
ている。図７は、Ｖ（ω）を用いて、音源を変換して合
成された信号波形を示す図である。図７を参照して、横
軸は時間を示し、縦軸は音圧を示す。図７を参照して、
標本化周期よりも細かに基本周波数が制御されているた
め、繰返される波形の形状やピークの高さが微妙に異な
っている。

【００７０】以上のように、実施の形態１による音声変
換方法では、周期信号のスペクトルのピークが周波数軸
上で等間隔に並ぶ性質を利用し、等間隔のスペクトルの
ピーク値が直線状に変化する場合に直線性を保存するよ
うな補間関数と、周期信号のスペクトルを畳み込むこと
により平滑化されたスペクトルを得る。つまり、周期性
の影響が小さいスペクトルを得ることができる。このた
め、実施の形態１による音声変換方法では、これまで不
可能だった５００％にも及ぶ範囲での声の高さや速度、
周波数帯域の変換を自然性を損なうことなく行なうこと
ができる。

【００７１】また、実施の形態１による音声変換方法で
は、信号の周期性のみを用いて直線が直線として復元さ
れるという１つの合理的な基準の下で平滑化されたスペ
クトルを抽出しているため、スペクトルのモデルに基づ
くこれまでの方法とは異なり、どのような音源から発し
た音であっても高い品質を保ちながら変換することがで
きる。

【００７２】さらに、実施の形態１による音声変換方法
では、音声の解析などを行なう場合、周期的成分による
スペクトル形状に対する干渉を大きく削減することがで
きるため、平滑化されたスペクトルは、音声の診断に有
用である。

【００７３】さらに、実施の形態１による音声変換方法
では、音声の解析などを行なう場合、周期的成分による
スペクトル形状に対する干渉を大きく削減することがで
きるため、平滑化されたスペクトルは、音声認識・話者
認識における標準パターンの作成の精度を大きく向上さ
せることができる。

【００７４】さらに、実施の形態１による音声変換方法
では、電子楽器などにおいても、標本化された信号その
ものを格納するのではなく、平滑化されたスペクトル情
報と音源情報（音源の周期や強度の情報）の形に分離し
て格納しておくことによって、精密な周期の制御や位相
調整成分を用いた音色の制御によりこれまでになかった
音楽表現を生み出すことができる。

【００７５】さらに、実施の形態１による音声変換方法
では、任意の濃淡画像を音として合成することが可能と
なるため、芸術表現、視覚障害者の情報提示、コンピュ
ータのデータの音響提示による新しいユーザインタフェ
ースなどへの応用が可能である。このような応用は、音
声研究を根本的に変革するばかりではなく、コンピュー
タグラフィックスが映像の世界にもたらしたのと同様の
インパクトを音の世界にもたらすことが予想される。

【００７６】また、実施の形態１による音声変換方法を
用いることによって、以下に示すようなことが実現され
る可能性もある。たとえば、猫の発声器官の寸法が人間
の発声器官の寸法の１／４程度であることを利用して、
猫の声を実施の形態１による音声変換方法により４倍の
寸法の器官から発生されたもののように変換し、また、
人間の声を実施の形態１による音声変換方法により１／
４の寸法の器官から発生されたもののように変換するこ
とにより、これまで物理的な寸法の違いによって等身大
のコミュニケーションが不可能であった異種生物間での
コミュニケーションが可能になるという可能性もある。

【００７７】［実施の形態２］一般的なスペクトログラ
ム（スペクトルの時間・周波数表現）の性質について言
及する。まず、時間分解能が高い場合のスペクトログラ
ムの性質を述べる。周波数を一定にして、スペクトログ
ラムの時間方向の変化を観察する。この場合には、スペ
クトログラムの時間表現には、音声の基本周期による影
響が残っている。一方、時間を一定にして、スペクトロ
グラムの周波数方向の変化を観察する。この場合には、
スペクトログラムの周波数表現の変化が、本来のスペク
トログラムの周波数表現の変化に比べ、潰れてしまって
いるのが観察できる。次に、周波数分割能が高い場合の
スペクトログラムの性質について述べる。周波数を一定
にしてスペクトログラムの時間変化を観察する。この場
合には、スペクトログラムの時間表現の変化が、本来の
スペクトログラムの時間表現の変化に比べ、潰れてしま
っているのが観察できる。一方、時間を一定にして、ス
ペクトログラムの周波数方向の変化を観察する。この場
合には、スペクトログラムの周波数表現に、周期性の影
響が残ってしまう。なお、周波数分解能を高くすれば、
必然的に時間分解能は低くなり、時間分解能を高くすれ
ば、必然的に周波数分解能は低くなる。

【００７８】従来の音声変換方法では、分析するスペク
トルに周期性の影響が大きく残っていたため、音声の加
工の自由度は小さかった。そこで、実施の形態１による
音声変換方法では、分析するスペクトルの周波数方向の
周期性の影響を小さくするため、周波数方向に平滑化し
たスペクトルを得た。この場合、時間方向の周期性の影
響を小さくするため、周波数分解能を高くして（時間分
解能を低くして）、スペクトルを分析した。このよう
に、周波数分解能を高くすると、スペクトルの時間方向
の細かい変化が潰れてしまうという問題が生じる。実施
の形態２による音声変換方法は、このような問題を解決
するためになされたものである。

【００７９】（原理）実施の形態２による音声変換方法
の原理は、実施の形態１による音声変換方法の原理と同
様である。ただし、実施の形態１による音声変換方法で
は、式（１）の補間関数ｈ（λ）は、直線復元条件を満
たすことが要請されていたが、実施の形態２による音声
変換方法では、式（１１）の補間関数ｈ_t（λ，ｕ）
は、直線復元条件に加えてさらに双１次曲面復元条件を
満たすことが要請される。

【００８０】

【数１２】

【００８１】ここでλは周波数に対応する積分変数、ｕ
は時間に対応する積分変数を表わす。Ｓ₂ （ω，ｔ）は
式（１）のＳ（ω）に対応する平滑化されたスペクトロ
グラムであり、Ｆ₂ （ω，ｔ）は式（１）のＦ（ω）に
対応するスペクトログラムである。双１次曲面復元条件
について説明する。実施の形態１の直線復元条件は、周
波数軸上での話であった。信号の周期性は、時間方向に
も認められる。したがって、周期信号の場合には、周波
数方向には基本周波数ごと、時間方向には基本周期ごと
に格子点の情報が、信号の分析から得られることにな
る。ここで、実施の形態１で説明した１次元の条件を２
次元に拡張すると、補間関数ｈ_t（λ，ｕ）には、

【００８２】

【数１３】

【００８３】という双１次形式で表わされる面の保存を
要請することが合理的である。ここでＣω，Ｃ_t,Ｃ_Oは
双１次曲面を表わすパラメタであり、任意の定数値をと
り得る。このような双１次曲面復元条件は、周波数方向
では４π／τの幅を有する三角形の補間関数と、時間方
向では２τの幅を有する三角形の補間関数を、２次元で
畳み込んだものを補間関数ｈ_t（λ_,ｕ）として用いる
ことにより満たすことができる。

【００８４】（処理）実施の形態２による音声変換方法
の第１の処理、第３の処理および第４の処理は、それぞ
れ、実施の形態１による音声変換方法の第１の処理、第
３の処理および第４の処理と同様である。また、実施の
形態２による音声変換方法では、実施の形態１による音
声変換方法の第１の処理と第２の処理との間に、特有の
処理を行なう。この実施の形態２による音声変換方法の
特有の処理を、「第１．５の処理」と呼ぶことにする。
さらに、実施の形態２による音声変換方法の第２の処理
は、実施の形態１による音声変換方法の第２の処理と異
なっている。また、実施の形態２による音声変換方法の
第３の処理では、実施の形態１による音声変換方法の第
３の処理を行なうことができるとともに、他の処理も行
なうことができる。

【００８５】基本周期に適応した周波数分析を行なう第
１．５の処理について説明する。第１．５の処理では、
音声信号の基本周期の情報を用いて、時間窓の周波数分
解能と基本周波数の比と、時間窓の時間分解能と基本周
期の比とが同じになるような時間窓を設計して適応的な
スペクトル分析を行なう。また、周期性の存在しない雑
音などの部分では、聴覚的な時間分解能である数ｍｓを
分析のための時間窓の長さとする。実施の形態２による
音声変換方法の効果を最大限に生かすためには、第１．
５の処理では、上述の条件を満たす時間窓を用いて、信
号の基本周期よりも細かな周期（たとえば、基本周期の
１／４以下）でスペクトル分析を行なうことが必要であ
る。なお、固定した長さの時間窓で行なっても、その時
間窓内に数個の基本周期が含まれるのであれば、後述す
る第２の処理でかなり回復することが可能である。

【００８６】実施の形態２による音声変換方法の第２の
処理について説明する。第２の処理で、第１．５の処理
までで求められたスペクトルの時間周波数表現（たとえ
ば、横軸を時間とし、縦軸を周波数とし、その平面上に
スペクトルの強度を表わしたもの。声紋。）、すなわ
ち、スペクトログラムを用いる。また、第２の処理で
は、式（２）および式（１２）の条件を満たす補間関数
を基本周波数の情報に基づいて作成する。そして、この
補間関数とスペクトログラムを、時間・周波数の２次元
方向において畳み込みを行なう。これによって、周期性
の影響が除かれた平滑化スペクトログラムを得ることが
できる。さらに、周期信号を与えることのできる時間・
周波数平面上の格子点の情報を自然な形で最も有効に抽
出した平滑化スペクトログラムを得ることができる。実
施の形態２による音声変換方法の第３の処理は、実施の
形態１による第３の処理を包含している。実施の形態２
による音声変換方法の第３の処理では、さらに、たとえ
ば、発声速度を速くするために、求められた音声パラメ
タ（平滑化スペクトログラムと精密な基本周波数情報）
の時間軸を伸縮したりする。なお、処理は、第１の処
理、第１．５の処理、第２の処理、第３の処理、第４の
処理の順に行なう。

【００８７】（具体的処理）図８は、実施の形態２によ
る音声変換方法を実現するための音声変換装置である。
図８を参照して、この音声変換装置は、パワースペクト
ル計算部１、基本周波数計算部２、適応的周波数分析部
９、平滑化スペクトログラム計算部１０、インタフェー
ス部４、平滑化スペクトログラム変換部１１、音源情報
変換部６、位相調整部７および波形合成部８を備える。
なお、図４と同様の部分については同一の参照符号を付
しその説明は適宜省略する。

【００８８】パワースペクトル計算部１では、音声信号
をデジタル化する。そして、デジタル化された音声信号
のうち、３０ｍｓに相当する個数のデータをまとめたも
のに対して、時間窓を掛け算したものをＦＦＴ（高速フ
ーリエ変換）などの手段により短時間スペクトルに変換
し、絶対値スペクトルとして基本周波数計算部２に送
る。基本周波数計算部２では、パワースペクトル計算部
１から送られてきた絶対値スペクトルを用いて、６００
Ｈｚの幅を有する周波数領域での平滑化窓を畳み込むこ
とにより、平滑化したスペクトルを求める。このパワー
スペクトル計算部１から送られてきた絶対値スペクトル
を、この平滑化スペクトルで、対応する周波数ごとに割
算することにより、平坦化された絶対値スペクトルを求
める。つまり、（パワースペクトル計算部１から与えら
れた絶対値スペクトル）／（基本周波数計算部２で求め
た平滑化スペクトル）＝（平坦化された絶対値スペクト
ル）、である。

【００８９】次に、平坦化された絶対値スペクトルの１
０００Ｈ_z以下をガウス分布の形状を有する低域通過フ
ィルタ特性とかけ合わせたものを２乗したものを逆フー
リエ変換することにより、正規化され平滑化された自己
相関関数を求める。この相関関数を、パワースペクトル
計算部１で用いた時間窓の自己相関関数で正規化した正
規化相関関数の最大値を探索することにより、音声の基
本周期の初期推定値を求める。次いで、この正規化相関
関数の最大値の前後の点を合わせた３点の値に放物線を
当てはめることにより、音声信号のデジタル化のための
標本化周期よりも詳細に基本周波数を推定する。また、
パワースペクトル計算部１から与えられる絶対値スペク
トルのパワーが少なかったり、正規化相関関数の最大値
が小さいなどの理由で周期的な音声部分ではないと判定
される場合には、基本周波数の値を０としておくことに
より、その旨を記録する。パワースペクトル計算部１お
よび基本周波数計算部２は、第１の処理（音声の基本周
波数の抽出）を行なう部分である。このような第１の処
理を、１ｍｓごとに繰返し連続的に行なう。

【００９０】なおこの基本周波数計算部では、実施の形
態１で説明したように、既存の一般的な手法を用いて
も、音声波形の視認による手作業によっても良い。

【００９１】適応的周波数分析部９では、基本周波数計
算部２で求めた基本周波数の値に基づいて、時間窓の周
波数分解能と基本周波数の比と、時間窓の時間分解能と
基本周期の比とが同じになるような時間窓を設計する。
具体的には、時間窓の関数形を決めた後、時間分解能と
周波数分解能の積が一定の値になることを利用する。時
間窓の大きさは、スペクトルの分析を行なうごとに基本
周波数計算部２で求められた基本周波数を用いて更新す
る。このようにして設計された時間窓を使って、スペク
トルを求める。適応的周波数分析部９は、第１．５の処
理（基本周期に適応した周波数分析）を行なう部分であ
る。平滑化スペクトログラム計算部１０では、信号の基
本周波数についての情報に基づいて、信号の基本周波数
の２倍の周波数幅を有する三角形の補間関数を求める。
そして、この補間関数と、適応的周波数分析部３で求め
られたスペクトルを周波数方向で畳み込む。次いで、基
本周期の２倍の時間長を有する三角形の補間関数を用い
て、先に周波数方向で補間したスペクトルを時間方向で
補間することにより、時間・周波数平面の格子点の間を
双１次関数の曲面で埋めた平滑化スペクトログラムを求
める。平滑化スペクトログラム計算部１０は、第２の処
理（基本周波数の情報を利用した補間関数の適応）を行
なう部分である。平滑化スペクトログラム計算部１０ま
での処理によって、音声信号は、平滑化スペクトログラ
ムと、精密な基本周波数情報の２つに分解される。平滑
化スペクトログラム変換部１１および音源情報変換部６
は、第３の処理（音声パラメタの変換）を行なう部分で
ある。位相調整部７および波形合成部８は、第４の処理
（変換された音声パラメタによる音声合成）を行なう部
分である。

【００９２】図９は、平滑化前のスペクトログラムを示
す図である。図１０は、平滑化スペクトログラムを示す
図である。図９および図１０を参照して、横軸は時間
（ｍｓ）を示し、縦軸は周波数を表わす指標を示す。図
１１は、図９の一部を立体的に示した図である。図１２
は、図１０の一部を立体的に示す図である。図１１およ
び図１２を参照して、Ａ軸は時間を示し、Ｂ軸は周波数
を示し、Ｃ軸は強度を示している。

【００９３】図９および図１１を参照して、周波数成分
の相互干渉による零点が観測できる。この零点は、図９
では、「白点」になっており、図１１では、「凹み」に
なっている。図１０および図１２を参照して、零点が消
えているのが観測できる。すなわち、スペクトログラム
は平滑化されており、周期性の影響が除かれているのが
観測できる。

【００９４】以上のように、実施の形態２による音声変
換方法では、分析するスペクトルの周波数方向だけでな
く、時間方向に対しても平滑化を行なう。つまり、分析
するスペクトログラムを平滑化する。したがって、分析
するスペクトログラムの時間方向および周波数方向の周
期性の影響を小さくできる。このため、周波数分解能を
いたずらに高くする必要がなく、分析するスペクトログ
ラムの時間方向の細かい変化が潰れることはない。つま
り、バランスよく周波数分解能および時間分解能を決定
できる。

【００９５】また、実施の形態２による音声変換方法
は、実施の形態１による音声変換方法の処理をすべて含
んでいる。このため、実施の形態２による音声変換方法
は、実施の形態１による音声変換方法と同様に効果を奏
する。さらに、実施の形態２による音声変換方法では、
スペクトルを平滑化するのではなく、スペクトログラム
を平滑化している。このため、実施の形態２による音声
変換方法では、実施の形態１による音声変換方法の効果
と同様の内容の効果を奏するが、その効果は、実施の形
態１による音声変換方法に比べて顕著である。

【００９６】［実施の形態３］実施の形態１では、平滑
化スペクトル計算部３における平滑化の対象とするスペ
クトルが、基本周波数計算部２での周波数分析のときに
用いる時間窓により既に平滑化されているという問題を
無視していた。このように既にある程度平滑化されてい
るスペクトルを補間関数を用いた畳み込みによりさらに
平滑化することで、平滑化が二重に行なわれることとな
り、音声の時間周波数特性を表わす曲面（音声を生成す
る機構を表わす時間周波数曲面）の周波数軸に沿った断
面（スペクトル）の微細な構造がならされてしまうとい
う問題が生じる。微細構造がなされてしまうことの影響
は、原音声との比較試聴により、音声の個人性の微妙な
ニュアンスの劣化、声の張りの劣化および音韻の明瞭性
の劣化として認められる。

【００９７】このような過剰平滑化の問題を回避するた
めには、「中島隆之・鈴木虎三，“パワースペクトル包
絡（ＰＳＥ）音声分析・合成系”，日本音響学会誌４４
巻１１号（１９８８），pp. ８２４−８３２」（以下、
「文献１」と呼ぶ）に記載されているように、節点の値
だけを用いて、スペクトルのモデルを適合させるという
方法がある。しかし、実際の音声では信号が正確には周
期的ではなくさまざまな揺らぎや雑音を含むことから必
然的に、文献１の適用範囲が限られてくるという問題が
生じる。実施の形態３による信号分析方法としての音声
分析方法は、以上のような問題を解決するために、以下
のような処理を行なう。

【００９８】（処理）処理１について説明する。元の時
間周波数特性を表わす曲面（音声を生成する機構を表わ
す時間周波数曲面）が、スプライン信号空間として知ら
れる区分的多項式により構成される空間の直積として表
わされる空間の要素であると仮定する。そして、時間窓
の影響を受けたスペクトログラムから元の時間周波数特
性を表わす曲面を最適近似する曲面を計算する最適な補
間関数を求める。この最適な補間関数を用いて時間周波
数特性を計算する。以下、このような処理１について詳
しく説明する。

【００９９】音声の時間周波数特性を表わす曲面（音声
を生成する機構を表わす時間周波数曲面）が、時間方向
の区分的多項式により構成される空間と、周波数方向の
区分的多項式により構成される空間との積として表わさ
れる曲面であるとする。たとえば、実施の形態１では、
音声の時間周波数特性を表わす曲面が、時間方向の区分
的１次式と、周波数方向の区分的１次式との積で表わさ
れるとした。このような多項式の平行移動により、「寅
市和男・岩城護，区分的多項式からなる信号空間におけ
る周期標本化双直交基底，電子情報通信学会論文誌，９
２／６，Ｖｏｌ．Ｊ７５−Ａ，Ｎｏ．６，ｐｐ．１００
３−１０１２」（以下、「文献２」と呼ぶ）に記載され
ているように、ある有限な観測区間の上の自乗可積分な
関数が構成する空間Ｌ２の部分空間に基底を構成するこ
とができる。以下では、説明を簡単にするために時間周
波数表現の周波数軸に沿った断面である周波数スペクト
ルについて議論する。時間軸についても同様に議論を進
めればよい。

【０１００】周波数軸の最適な補間関数に要請される条
件は、空間Ｌ２の部分空間の要素である１つの基底に相
当するスペクトルが時間窓操作に対応する周波数領域で
の平滑化操作によって平滑化されたスペクトルに変換さ
れたものに対して最適な補間関数が適用されたときに、
元の基底（空間Ｌ２の部分空間の要素である１つの基
底）に相当するスペクトルが回復されることである。文
献２に記載されているように、空間Ｌ２の部分空間の要
素は、基底による展開係数からなるベクトルと等価であ
る。したがって、最適な補間関数に要請される条件は、
最適な補間関数を元の基底（空間Ｌ２の部分空間の要素
である１つの基底）に相当するスペクトルに時間窓操作
に対応する周波数領域での平滑化操作を施して求められ
る平滑化されたスペクトルに適用した結果の節点上での
値が１箇所だけ非零となるように最適な補間関数を決め
ることと等価になる。最適な補間関数は、同じ空間内に
あるため、基底の組合せとして表現されている。すなわ
ち、最適な補間関数は、時間窓操作を施して求められた
スペクトルの節点上での値からなる係数ベクトルと畳み
込んだときに最大値に対応する係数の部分だけが非負と
なり他は０となるようなベクトルの要素を係数として基
底を組合せたものとして求められる。このようにして求
められた周波数軸上の最適な補間関数を用いることで、
過剰平滑化の影響を除去できる。

【０１０１】処理２について説明する。処理２は、処理
２−１と処理２−２に分けられる。処理１で求めた周波
数軸上の最適な補間関数は、負の係数を含んでいるた
め、元のスペクトルの形状によっては補間後のスペクト
ルにも負の部分が生ずることがある。スペクトルに負の
部分が生ずると、直線位相の場合には問題はないが、最
小位相のインパルスを求める際に位相の不連続による長
時間の応答を生じ異音の原因となる。また、これを避け
るために負の部分を０で置換えると正から負に移り変わ
る部分において導関数の不連続（特異点）が生じ、比較
的長い時間の応答を生じ異音の原因となる。この問題を
解決するため、処理２−１を行なう。処理２−１では、
（−∞，∞）の領域を（０，∞）の領域に写像する単調
で滑らかな関数を用いて、周波数軸上の最適な補間関数
で補間されたスペクトルを変換する。

【０１０２】しかし、処理２−１だけでは次のような問
題が生じる。音声のスペクトルは周波数帯域によってそ
の中に含まれるエネルギが大きく異なり、その比は１０
０００倍を超える場合もある。人間の知覚では、それぞ
れの帯域における変動は、その帯域の平均的なエネルギ
との相対的な比率に比例して知覚される。このため、エ
ネルギの小さな帯域では、近似の誤差に伴う雑音もはっ
きりと知覚されることになる。したがって、補間を行な
う際にすべての帯域において同じ精度で近似を行なう
と、エネルギの小さな帯域での近似の誤差が目立つこと
になる。このような問題を解決するために、処理２−２
を行なう。処理２−２では、元のスペクトルを平滑化し
たスペクトルで正規化する。

【０１０３】以上のことをまとめる。処理２−２で正規
化したスペクトルを対象に、周波数軸上の最適な補間関
数で補間を行なう。これによって、近似の誤差は各帯域
で知覚的に一様となる。また、このような正規化により
スペクトルの平均値は１となるため、（−∞，∞）の領
域を（０，∞）の領域に写像する単調で滑らかな関数を
用いて、周波数軸上の最適な補間関数で補間されたスペ
クトルを、非負でかつスペクトル上に特異点を持たない
スペクトルに変換することができる（処理２−１）。

【０１０４】（具体的処理）図１３は、本発明の実施の
形態３による音声分析方法を実現するための音声分析装
置の全体構成を示す概略ブロック図である。図１３を参
照して、音声分析装置は、マイク１０１、アナログ／デ
ジタル変換器１０３、基本周波数分析部１０５、基本周
波数適応周波数分析部１０７、概形スペクトル計算部１
０９、正規化スペクトル計算部１１１、平滑化変換正規
化スペクトル計算部１１３および逆変換・概形スペクト
ル復元部１１５を備える。この音声分析装置は、図４の
パワースペクトル計算部１、基本周波数計算部２および
平滑化スペクトル計算部３からなる周波数分析装置と置
換えることができる。この場合、図４の平滑化スペクト
ル変換部５では、平滑化スペクトルの代わりに最適補間
平滑化スペクトル１１９を用いることになる。

【０１０５】図１３を参照して、音声は、マイク１０１
により、音波に対応する電気信号に変換される。この電
気信号は、そのまま用いても、あるいは、一旦何らかの
録音装置に収録してから再生して用いてもよい。次に、
マイク１０１からの電気信号は、アナログ／デジタル変
換器１０３によって、標本化されデジタル化されて、一
連の数値の列として表わされる音声波形となる。音声波
形の標本化周波数としては、たとえば、高品質の拡声電
話の場合には、１６kHz 、音楽や放送への利用を考える
場合には、３２kHz ，４４．１kHz ，４８kHz などを用
いる。標本化に伴う量子化は、たとえば、１６ビットと
する。

【０１０６】基本周波数分析部１０５において、アナロ
グ／デジタル変換器１０３から与えられる音声波形の基
本周波数あるいは基本周期が抽出される。基本周波数あ
るいは基本周期の抽出は、さまざまな方法を利用するこ
とができる。その一例を述べる。４０ｍｓのｃｏｓ²窓
によって切り出された音声のパワースペクトルを、周波
数方向の平滑化関数との畳み込みによって平滑化したス
ペクトルで割算する。このようにして計算された概形が
平坦なパワースペクトルを、たとえば、１kHz以下に周
波数方向のガウス窓によって帯域制限した後に、フーリ
エ逆変換して得られる変形自己相関関数の最大値の位置
を求める。この最大値の位置と前後の点からなる近傍の
３点を用いた放物線補間によって詳細な最大値の位置を
求めることで、精密に基本周期を求めることができる。
この基本周期の逆数を求めれば、それが基本周波数とな
る。変形自己相関の値は、周期性が完全であれば１とな
るので、この値の大きさを周期性の確実さの指標として
用いることができる。

【０１０７】このようにして抽出された基本周波数ある
いは基本周期の情報（音源情報１１７）を利用して、ア
ナログ／デジタル変換器１０３からの音声波形は、基本
周波数適応周波数分析部１０７において、基本周波数に
適応して窓の長さが決まる時間窓により周波数分析され
る。最適補間平滑化スペクトル１１９だけを求めるので
あれば、窓の長さを基本周波数に適応させて変化させる
必要はないが、後で最適補間平滑化スペクトログラムを
求めることが必要な場合には、基本周波数に適応した長
さを有するガウス窓を用いることが最適となる。具体的
には、次のようにして計算される窓を用いる。この要請
を満たす窓関数ｗ（ｔ）は次のようなガウス関数とな
り、そのフーリエ変換Ｗ（ω）は、次式で与えられる。

【０１０８】

【数１４】

【０１０９】ここで、ｔは時間であり、ωは角周波数で
あり、ω₀は基本角周波数である。ω₀＝２πｆ₀であ
り、τ₀＝１／ｆ₀である。ｆ₀は、基本周波数あり、
τ₀は、基本周期である。

【０１１０】基本周波数適応周波数分析部１０７におけ
る周波数分析の結果得られたパワースペクトルは、概形
スペクトル計算部１０９において、たとえば、基本周波
数の６倍の幅を持つ三角形の周波数領域の窓関数との畳
み込みにより高度の平滑化を受けて、基本周波数の影響
を除去された概形スペクトルにされる。正規化スペクト
ル計算部１１１において、基本周波数適応周波数分析部
１０７で求められたパワースペクトルを、概形スペクト
ル計算部１０９で求められた概形スペクトルで割算する
ことにより、それぞれの帯域においての近似誤差に対す
る知覚的感度が一様となるような正規化スペクトルが求
められる。こうして求められた正規化スペクトルは、大
局的には平坦な周波数特性を有するが、音声の周期性に
基づく細かな凸凹や音韻の特徴を表わすホルマントと呼
ばれるスペクトル上の局所的な山の形が認められるもの
となる。このように、正規化スペクトル計算部１１１で
は、上述した処理２−２を行なう。

【０１１１】正規化スペクトル計算部１１１で得られた
正規化スペクトルは、平滑化変換正規化スペクトル計算
部１１３において、各周波数の値に対する単調な非線形
変換を受ける。そして、非線形変換を受けた正規化スペ
クトルは、時間窓と非線形変換によって決まる下表に示
す最適な重み係数により結び付けられて構成される図１
４に示す周波数軸上での最適な平滑化関数１２１と畳み
込まれて平滑化変換正規化スペクトルの初期値とされ
る。この周波数軸上での最適な平滑化関数は、上述した
処理１によって求められる。つまり、周波数軸上での最
適な補間関数は、窓関数の周波数領域での表現と、周波
数方向の区分的多項式により構成される空間の基底とか
ら求められ、平滑化変換正規化スペクトルの初期値と、
音声の時間周波数特性を表わす曲面の周波数軸に沿った
断面との誤差を最小にする。なお、下表は、窓関数がガ
ウス窓である場合の最適値を示している。また、図１４
および下表の例は、音声のスペクトルが２次の周期スプ
ライン信号空間の信号であることを仮定した場合の最適
な平滑化関数である。同様な係数および係数によって決
められる平滑化関数は音声のスペクトルが一般にｍ次の
周期スプライン信号空間の信号であることを仮定しても
求めることができる。

【０１１２】

【表１】

【０１１３】以上のようにして求められた平滑化変換正
規化スペクトルの初期値には負の値が含まれる場合があ
る。ここで、人間の聴覚は主にスペクトルの山について
の感度が鋭いという性質を利用して、平滑化変換正規化
スペクトルの初期値を、（−∞，∞）の区間を（０，
∞）の区間に写像する単調で滑らかな関数を用いて変換
する。つまり、上述した処理２−１を行なう。具体的に
は、変換前の値をｘ、変換後の値をη（ｘ）とすると、
次の式が条件を満たす。

【０１１４】

【数１５】

【０１１５】このη（ｘ）を用いて、平滑化変換正規化
スペクトルの初期値を適当な係数を掛けて正規化した後
に常に正の値をとるように変換する。このような変換に
よって得られたスペクトルを、正規化に用いた係数で割
ることにより、平滑化変換正規化スペクトルを得る。

【０１１６】この平滑化変換正規化スペクトルは、逆変
換・概形スペクトル復元部１１５において、平滑化変換
正規化スペクトル計算部１１３で用いた非線形変換の逆
変換を受け、再度、概形スペクトルと掛け合せられるこ
とにより、最適補間平滑化スペクトル１１９にされる。
また、音源情報１１７に付随する情報として、有声音の
場合には、基本周波数あるいは基本周期の情報が記録さ
れ、無声音や声の存在しない区間においては、０が記録
される。最適化補間平滑化スペクトル１１９は、ほぼ完
全に元の音声の細かな情報まで保有し、かつ、滑らかで
ある。

【０１１７】以上のような一連の処理を行なうことは、
音声分析・音声合成の品質改善にとって非常に効果的で
ある。また、最適補間平滑化スペクトル１１９を音声合
成・音声変換に利用することで、合成音声・変換音声の
品質を自然の音声と区別ができない程度に非常に高くす
ることができる。さらに、最適補間平滑化スペクトル１
１９には、発声者の個人性や細かなニュアンスまでを保
存した正確な音韻情報が安定に滑らかな形で表現されて
いるので、音声の機械認識での情報表現、話者認識のた
めの情報表現として使用した場合に、大きく性能が向上
するという効果が期待される。また、音源の時間的微細
構造の影響をほぼ完全に分離しているため、最適補間平
滑化スペクトル１１９を逆フィルタとして用いることに
より、音源の時間的微細構造のみを高精度に抽出するこ
とができる。これは、声質の診断や状態の判定などの応
用に非常に有効である。また、実施の形態１による音声
分析方法は、駆動音源の影響をうけない高精度の音声分
析方法である。

【０１１８】［実施の形態４］実施の形態２では、音声
信号の周期性を積極的に利用して時間周波数領域でのス
ペクトログラムの適応的補間により信号の時間周波数特
性を表わす曲面を求める方法に基づく音声変換方法によ
り非常に高品質の音声変換が可能となった。しかし、注
意深くヘッドホンを用いて原音声と比較試聴すると、声
の張りや音韻性の劣化が認められた。この問題の主要な
原因は、スペクトログラムの計算で必要となる時間窓に
よる必然的な平滑化と適応的補間による平滑化が重なる
ことによる過剰平滑化にある。

【０１１９】このような過剰平滑化の問題を詳しく説明
する。実施の形態２では、音声の時間周波数特性を表わ
す曲面が、周波数方向と時間方向それぞれにおいて基本
周波数と基本周期を格子間隔とする区分的１次関数で表
わされる双１次曲面であると仮定した。そして、格子点
の情報が与えられたときに区分的１次関数を求める演算
を時間周波数領域での補間関数を用いた平滑化として実
現することにより、実際の音声で遭遇する不完全な周期
や非周期的な信号の場合でも破綻せずに安定に曲面を求
めることを可能とした。しかし、この演算では平滑化の
対象とするスペクトログラムが分析のときに用いる時間
窓により既に平滑化されているという問題を無視してい
た。なぜなら、実施の形態２でも、大局的には元の曲面
を保存するという条件が満たされていたからである。

【０１２０】実施の形態２においては、このように既に
ある程度平滑化されているものを補間関数を用いた畳み
込みによりさらに平滑化することで、平滑化が二重に行
なわれることとなり、曲面の微細な構造がならされてし
まうという問題が生じる。微細構造がならされてしまう
ことの影響は、原音声との比較試聴により、音声の個人
性の微妙なニュアンスの劣化、声の張りの劣化、および
音韻の明瞭性の劣化として認められる。

【０１２１】このような過剰平滑化の問題を回避するた
めには、文献１に記載されているように、節点の値だけ
を用いて、スペクトルのモデルを適応させるという方法
がある。しかし、文献１の方法では、時間周波数特性を
考慮せず、ある一時刻でのスペクトルのモデルを提案し
ているにすぎない。このような方法では、時間方向の分
解能が低下し、時間的な早い変化を捉えることができな
い。また、実際の音声では信号が正確には周期的ではな
くさまざまな雑音を含むことから必然的にこのような方
法の適応範囲が限られている。また、文献１に記載され
ている方法を拡大解釈して、時間周波数分解能が音声の
基本周期とマッチするような最適なガウス窓を用いて、
時間周波数領域で等方的な格子点での値を求めたとして
も、その値には相互に隣接する格子点からの影響が含ま
れており、そのまま用いたのでは、本来の時間周波数特
性を表わす曲面を正確に復元することはできない。

【０１２２】実施の形態４では、上述したような過剰平
滑化の影響を除いて、正しい時間周波数特性を表わす曲
面を計算する方法を提案し、実施の形態２による音声変
換方法の分析部分を改良する。さらに、実施の形態４で
は、音声の分析を必要とするさまざまな応用に対して、
駆動音源の影響を受けない高精度の分析方法を提供す
る。以下、実施の形態４による信号分析方法としての音
声分析方法について詳しく説明する。

【０１２３】（処理）処理３について説明する。処理３
では、処理１と同様にして時間軸上の最適な補間関数を
求める。つまり、窓関数の時間領域での表現と、時間方
向の区分的多項式により構成される空間の基底とから、
時間軸上の最適な補間関数を求める。処理４について説
明する。処理４は、処理４−１と処理４−２に分けられ
る。処理３で求めた時間軸上の最適な補間関数は、負の
係数を含んでいるため、元のスペクトログラムの形状に
よっては補間後のスペクトログラムにも負の部分が生ず
ることがある。スペクトログラムに負の部分が生ずる
と、直線位相の場合には問題がないが、最小位相のイン
パルスを求める際に位相の不連続による長時間の応答を
生じる原因となる。また、これを避けるために負の部分
を零で置換えると正から負に移り変わる部分において導
関数の不連続（特異点）が生じ、比較的長い時間の応答
を生じ異音の原因となる。この問題を解決するため、処
理４−１を行なう。処理４−１では、（−∞，∞）領域
を（０，∞）の領域に写像する単調で滑らかな関数を用
いて、時間軸上の最適な補間関数で補間されたスペクト
ログラムを変換する。しかし、処理４−１だけでは次の
ような問題が生じる。音声のスペクトルは周波数帯域に
よってその中に含まれるエネルギが大きく異なり、その
比は１万倍を超える場合もある。人間の知覚では、それ
ぞれの帯域における変動は、その帯域の平均なエネルギ
との相対的な比率に比例して知覚される。このため、エ
ネルギの小さな帯域では、近似の誤差に伴う雑音もはっ
きりと知覚されることになる。したがって、補間を行な
う際にすべての帯域において同じ精度で近似を行なう
と、エネルギの小さな帯域での近似の誤差が目立つこと
になる。このような問題を解決するために、処理４−２
を行なう。処理４−２では、元のスペクトログラムを平
滑化したスペクトログラムで正規化する。

【０１２４】以上のことをまとめる。処理４−２で正規
化したスペクトログラムを対象に、時間軸上の最適な補
間関数で補間を行なう。これによって、近似の誤差は各
帯域で知覚的に一様となる。また、このような正規化に
よりスペクトログラムの平均値は１となるため、（−
∞，∞）の領域を（０，∞）の領域に写像する単調で滑
らかな関数を用いて、時間軸上の最適な補間関数で補間
されたスペクトログラムを、非負でかつスペクトログラ
ム上に特異点を持たないスペクトログラムに変換するこ
とができる（処理４−１）。

【０１２５】（具体的処理）図１５は、本発明の実施の
形態４による音声分析方法を実現するための音声分析装
置の全体構成を示す概略ブロック図である。なお、図１
３と同様の部分については同一の参照符号を付しその説
明を適宜省略する。図１５を参照して、この音声分析装
置は、マイク１０１、アナログ／デジタル変換器１０
３、基本周波数分析部１０５、基本周波数適応周波数分
析部１０７、概形スペクトル計算部１０９、正規化スペ
クトル計算部１１１、平滑化変換正規化スペクトル計算
部１１３、逆変換・概形スペクトル復元部１１５、概形
スペクトログラム計算部１２３、正規化スペクトログラ
ム計算部１２５、平滑化変換正規化スペクトログラム計
算部１２７、逆変換・概形スペクトログラム復元部１２
９を備える。この音声分析装置は、図８のパワースペク
トル計算部１、基本周波数計算部２、適応的周波数分析
部９および平滑化スペクトログラム計算部１０からなる
音声分析装置と置換えることができる。この場合には、
平滑化スペクトログラム変換部１１では、平滑化スペク
トログラムの代わりに最適補間平滑化スペクトログラム
１３１を用いる。

【０１２６】図１５を参照して、最適補間平滑化スペク
トル１１９の計算は、分析周期ごとに行なわれる。音声
の基本周波数として５００Ｈｚまでを対象とするものと
すれば、１ｍｓごとに分析を行なえばよい。こうして、
たとえば、１ｍｓごとに計算される最適補間平滑化スペ
クトル１１９を時間の順にならべていくことにより、最
適補間平滑化スペクトルに基づいたスペクトログラムを
求めることができる。しかし、このスペクトログラム
は、時間方向での最適な補間平滑化を行なっていないの
で、最適補間平滑化スペクトログラム１３１ではない。
概形スペクトログラム計算部１２３、正規化スペクトロ
グラム計算部１２５、平滑化変換正規化スペクトログラ
ム計算部１２７および逆変換・概形スペクトログラム復
元部１２９は、最適補間平滑化スペクトル１１９に基づ
いたスペクトログラムから、最適補間平滑化スペクトロ
グラム１３１を計算するための部分である。

【０１２７】概形スペクトログラム計算部１２３におい
て、最適補間平滑化スペクトル１１９に基づいたスペク
トログラムの中から、現在の分析時点の前後３基本周期
（合計６基本周期分）の区間を選択し、現在の時点を頂
点とする三角形の加重関数を用いて加重加算を行なって
現時点での概形スペクトルの値を計算する。こうして計
算されたスペクトルを時間方向に並べることによって概
形スペクトログラムを求める。つまり、最適補間平滑化
スペクトル１１９に基づくスペクトログラムから、音声
信号の周期性に基づく時間的変動の影響を除去したもの
が概形スペクトログラムである。

【０１２８】正規化スペクトログラム計算部１２５にお
いて、最適補間平滑化スペクトル１１９に基づいたスペ
クトログラムを、概形スペクトログラム計算部１２３に
よって得られた概形スペクトログラムで割算し、正規化
スペクトログラムを得る。このようにすることで、局所
的な変動は残るが時間方向において場所ごとのレベルに
応じて正規化が行なわれ、近似誤差の知覚的な影響が一
様になる。このように、正規化スペクトログラム計算部
１２５は、処理４−２を行なっている。

【０１２９】平滑化変換正規化スペクトログラム計算部
１２７において、正規化スペクトログラム計算部１２５
で得られた正規化スペクトログラムは適当な単調な非線
形変換を受ける。この非線形変換によって得られたスペ
クトログラムは、時間窓と非線形変換によって決まる表
（実施の形態３で示した表）に示す最適な重み係数によ
り結び付けられて構成される図１６に示す時間軸上の最
適な平滑化関数１３３との加重計算により、平滑化変換
正規化スペクトログラムのスペクトル断面の初期値の集
合とされる。このような時間軸上の最適な平滑化関数１
３３は処理３によって求められ、平滑化変換正規化スペ
クトログラムのスペクトル断面の初期値と、音声の時間
周波数特性を表わす曲面のスペクトル断面との誤差を最
小にする。

【０１３０】図１６および実施の形態３で示した表の例
は、音声のスペクトログラムの時間変化が２次の周期ス
プライン信号空間の信号であることを仮定した場合の最
適な平滑化関数である。同様な係数および係数によって
決められる平滑化関数は音声のスペクトログラムの時間
変化が一般にｍ次の周期スプライン信号空間の信号であ
ることを仮定しても求めることができる。

【０１３１】以上のようにして求められた平滑化変換正
規化スペクトログラムのスペクトル断面の初期値には負
の値が含まれる場合がある。ここで、人間の聴覚は主に
音の立上がりについての感度が鋭いという性質を利用し
て、平滑化変換正規化スペクトログラムのスペクトル断
面の初期値を、（−∞，∞）の区間を（０，∞）の区間
に写像する単調で滑らかな関数を用いて変換する。つま
り、上述した処理４−１を行なう。具体的には、変換前
の値をｘ、変換後の値をη（ｘ）とすると、次の式が条
件を満たす。

【０１３２】

【数１６】

【０１３３】このη（ｘ）を用いて、平滑化変換正規化
スペクトログラムのスペクトル断面の初期値を適当な係
数を掛けて正規化した後に、常に正の値をとるように変
換し、この変換によって得られたスペクトルを正規化に
用いた係数で割る。この処理を、平滑化変換正規化スペ
クトログラムのスペクトル断面の初期値のすべてに対し
て行ない、複数のスペクトルを得る。この複数のスペク
トルを時間方向にならべたものを平滑化変換正規化スペ
クトログラムとする。

【０１３４】逆変換・概形スペクトログラム復元部１２
９において、正規化変換正規化スペクトログラムは、平
滑化変換正規化スペクトログラム計算部１２７で用いた
非線形変換の逆変換を受け、再度概形スペクトログラム
と掛け合せられることにより、最適補間平滑化スペクト
ログラム１３１にされる。

【０１３５】以上のように実施の形態４による音声分析
方法では、実施の形態３による音声分析方法の処理をす
べて含む。このため、実施の形態４による音声分析方法
は、実施の形態３による音声分析方法と同様の効果を奏
する。ただし、実施の形態４による音声分析方法では、
周波数方向のみならず時間方向をも考慮した処理を行な
っている。つまり、実施の形態３で説明した処理１およ
び処理２に加えて、処理３および処理４を行なってい
る。このため、実施の形態４による効果は、実施の形態
３による音声分析方法よりも顕著である。したがって、
実施の形態４による音声分析方法を用いることで、実施
の形態３による音声分析方法を用いる場合に比べ、音声
分析・音声合成の品質はさらに改善され、特に、子音の
開始部分や発声の開始部分の生々しさが向上する。

【０１３６】［実施の形態５］時間分解能と周波数分解
能が基本周期およびおよび基本周波数に対して同じ比率
となるような等分解能の時間窓を用いた場合、周期的信
号の調波の間の干渉により、周期的に零となる点がスペ
クトログラム上に生ずる。この零となる点は、隣り合う
調波の位相が１基本周期で一巡するために、平均的に逆
相となる部分が周期的に生ずるためである。実施の形態
２による図１２の説明で、実施の形態２による音声変換
方法を用いることで、スペクトログラムの零となる点が
消えるということを示した。なお、零となる点は、振幅
が０になる点である。

【０１３７】以上のような問題を解決するには、ちょう
ど零となる点の部分で最大の値となるようなスペクトロ
グラムを与える窓関数を設計すればよい。そのような窓
関数は無数にあるが、次のようにすれば具体的に構成で
きる。対象とする窓関数を、原点の両側に、相互の間隔
を音声信号の基本周期分、離して配置する。そして、配
置された一方の窓関数の符号を反転させる。符号を反転
させた窓関数と、配置された他方の窓関数とを加え合せ
て、新たな窓関数を作る。この新たな窓関数の振幅は元
の窓関数の半分とする。このようにして得られた新たな
窓関数を用いることにより計算されるスペクトログラム
は、元の窓関数を用いて得られたスペクトログラムの零
となる点の位置に最大値を有し、元の窓関数を用いて得
られたスペクトログラムが最大値を有する位置に零とな
る点を有するものとなる。元の窓関数を用いて計算した
パワー表示のスペクトログラムと、新しく作成した窓関
数を用いて計算したパワー表示のスペクトログラムと
を、単調で非負な関数を加えた後、加え合せ、逆変換す
ることにより、それぞれの零となる点と最大値は打消し
合い、平坦で滑らかなスペクトログラムが求められる。
以下、図面を参照しながら詳しく説明する。

【０１３８】図１７は、本発明の実施の形態５による音
声信号分析方法を実現するための音声分析装置の全体構
成を示す概略ブロック図である。図１７を参照して、こ
の音声分析装置は、パワースペクトル計算部１３７、適
応時間窓作成部１３９、相補パワースペクトル計算部１
４１、適応相補時間窓作成部１４３および非零パワース
ペクトル計算部１４５を備える。図１３および図１５の
基本周波数適応周波数分析部１０７は、図１７の音声分
析装置と置換えることができる。この場合には、図１３
の概形スペクトル計算部１０９および正規化スペクトル
計算部１１１は、基本周波数適応周波数分析部１０７で
得られたスペクトルの代わりに非零パワースペクトル１
４７を用いることになる。なお、音源情報１１７は、図
１３の音源情報１１７と同じであり、音声波形１３５
は、図１３に示したアナログ／デジタル変換器１０３か
ら与えられる。

【０１３９】音源情報１１７の基本周波数あるいは基本
周期の情報に基づいて、適応時間窓作成部１３９におい
て、基本周波数および基本周期に対する時間窓の時間分
解能と周波数分解能が等しい関係になるような窓関数を
作成する。この要請を満たす窓関数（以下、「適応時間
窓」と呼ぶ）ｗ（ｔ）は次のようなガウス関数となり、
そのフーリエ変換Ｗ（ω）は、次式で与えられる。

【０１４０】

【数１７】

【０１４１】ここで、ｔは時間、ωは角周波数、ω₀は
基本角周波数、τ₀は基本周期である。そして、ω₀＝
２πｆ₀、τ₀＝１／ｆ₀であり、ｆ₀は基本周波数で
ある。適応相補時間窓作成部１４３において、適応時間
窓作成部１３９における適応時間窓の作成と同時に、適
応時間窓に対して相補的な時間窓（以下、「適応相補時
間窓」と呼ぶ）を作成する。つまり、適応時間窓と同じ
形の窓関数を、原点の両側に相互の間隔を基本周期分だ
け離して配置する。そして、配置した一方の窓関数の符
号を反転させたものと、配置した他方の窓関数とを加え
合せたものとして、適応相補時間窓ｗ_d（ｔ）を作成す
る。振幅は元の窓関数（適応時間窓）の半分とする。適
応相補時間窓ｗ_d（ｔ）を、ガウス窓の場合について具
体的に書けば、次のようになる。

【０１４２】

【数１８】

【０１４３】図１８は、適応時間窓ｗ（ｔ）および適応
相補時間窓ｗ_d（ｔ）を示す図である。図１９は、適応
時間窓ｗ（ｔ）および適応相補時間窓ｗ_d（ｔ）に対応
する実際の音声波形を示す図である。図１８および図１
９を参照して、縦軸は振幅を示し、横軸は時間（ｍｓ）
を示す。図１８の適応時間窓ｗ（ｔ）および適応相補時
間窓ｗ_d（ｔ）は、図１９の音声波形（女性の声「オ」
の一部）１３５の基本周波数に対応する。

【０１４４】再び図１７を参照して、パワースペクトル
計算部１３７において、適応時間窓作成部１３９で作成
した適応時間窓を用いて、音声波形１３５を周波数分析
し、パワースペクトルを求める。同時に、相補パワース
ペクトル計算部１４１において、適応相補時間窓作成部
１４３によって作成した適応相補時間窓を用いて、音声
波形１３５を周波数分析し、相補パワースペクトルを求
める。

【０１４５】非零パワースペクトル計算部１４５におい
て、パワースペクトル計算部１３７で求めたパワースペ
クトルＰ²（ω）と、相補パワースペクトル計算部１４
１で求めた相補パワースペクトルＰ² _c（ω）とから次
の計算により、非零パワースペクトル１４７を求める。
ここで、非零パワースペクトル１４７を、Ｐ² _nz（ω）
とする。

【０１４６】

【数１９】

【０１４７】こうして求まった複数の非零パワースペク
トル１４７を時間的に並べることにより、非零パワース
ペクトログラムを求めることができる。

【０１４８】一定の周期のパルス列を分析した例を用い
て、実施の形態５による音声分析方法の働きを示す。図
２０は、周期的パルス列に適応時間窓を用いて求められ
るパワースペクトルＰ²（ω）から構成される３次元ス
ペクトログラムＰ（ω）を示す図である。図２１は、周
期的パルス列に適応相補時間窓を用いて求められる相補
パワースペクトルＰ² _c（ω）から構成される３次元相
補スペクトログラムＰ _c（ω）を示す図である。図２２
は、周期的パルス列の非零パワースペクトルＰ
² _nz（ω）から構成される３次元非零スペクトログラム
Ｐ_nz（ω）を示す図である。図２０〜図２２を参照し
て、ＡＡ軸は時間（尺度任意）を示し、ＢＢ軸は周波数
（尺度任意）を示し、ＣＣ軸は、強度（振幅）を示して
いる。図２０を参照して、３次元スペクトログラム１５
５は、零となる点の存在により、周期的に曲面の値が０
に落ち込んでいる。図２１を参照して、図２０の３次元
スペクトログラムにおいて零となる点の存在していた部
分が、３次元相補スペクトログラム１５７では、最大値
となっている。図２２を参照して、３次元スペクトログ
ラム１５５および３次元相補スペクトログラム１５７の
平均として得られた３次元非零スペクトログラム１５９
は、零となる点がなく平坦に近い滑らかな形状となって
いる。

【０１４９】以上のように、実施の形態５による音声分
析方法では、零となる点のないスペクトルおよび零とな
る点のないスペクトログラムを作成できる。このように
して作成された零となる点のないスペクトルを、図１３
の概形スペクトル計算部１０９および正規化スペクトル
計算部１１１で用いることにより、実施の形態３による
音声分析方法に比べて、音声の時間周波数特性を表わす
曲面の周波数軸に沿った断面の近似精度をさらに改善す
ることができる。また、零となる点のないスペクトログ
ラムを、図１５の概形スペクトル計算部１０９および正
規化スペクトル計算部１１１で用いることにより、実施
の形態４による音声分析方法に比べて、音声の時間周波
数特性を表わす曲面の近似精度をさらに改善できる。な
お、Ｐ² _c（ω）の代わりに、Ｐ² _c（ω）に（０＜Ｃ
_f≦１）なる補正量を掛けたものを用いることにより、
最終的に得られる最適補間平滑化スペクトログラムの近
似を総合的に改善することができる。ここで、Ｃ_fは、
位相の干渉を補正するための量である。

【０１５０】［実施の形態６］実施の形態３〜５では、
適応的な窓の長さの調整を行なっている（図１３および
図１５の基本周波数適応周波数分析部１０７ならびに図
１７の適応時間窓作成部１３９）。実施の形態６では、
窓関数の長さの調整のための基本周波数が安定に求めら
れない場合においても安定に動作することができるよう
に、分析位置の近傍における音声波形を駆動する事象の
位置関係を用いて適応的に窓関数の長さを調整する方法
を提案する。

【０１５１】本発明の実施の形態６による信号分析方法
としての音声分析方法について簡単に説明する。実施の
形態３および実施の形態４に示したような周波数軸上で
の最適な平滑化関数および時間軸上での最適な平滑化関
数を用いて、過剰平滑化の影響を取除く場合において、
その効果を最もよく発揮させるためには、音声波形を最
初に分析する場合の窓の長さを音声の基本周波数に対し
て一定の関係に設定することが望ましい。この要請を満
たす窓関数ｗ（ｔ）は、式（１３）や式（１７）のよう
なガウス関数となり、そのフーリエ変換Ｗ（ω）は、式
（１４）や式（１８）のようになる。式（１３）や式
（１７）の窓関数ｗ（ｔ）の中に入って実質的に分析結
果に影響を及ぼすのは、最大で２基本周期分であり、大
部分の場合は、１つの基本周期分の波形が入るだけであ
る。したがって、実施の形態６による音声分析方法で
は、有声音のように主要な励振がはっきりとしてる場合
には、現在の分析中心を挟む２つの励振の時間間隔をτ
₀として用いる。以下、詳しく説明する。

【０１５２】図２３は、本発明の実施の形態６による音
声分析方法を実現するための音声分析装置の全体構成を
示す概略ブロック図である。図２３を参照して、この音
声分析装置は、駆動点抽出部１６１、駆動点依存適応時
間窓作成部１６３および適応パワースペクトル計算部１
６５を備える。図１３および図１５の基本周波数適応周
波数分析部１０７ならびに図１７の適応時間窓作成部１
３９は、図２３に示した音声分析装置で置換えることが
できる。この場合には、図１３および図１５の概形スペ
クトル計算部１０９および正規化スペクトル計算部１１
１では、基本周波数適応周波数分析部１０７で得られた
パワースペクトルの代わりに適応パワースペクトル１６
７を用いることになる。なお、音源情報１１７は、図１
３の音源情報１１７と同様のものである。音声波形１３
５は、図１３および図１５のアナログ／デジタル変換器
１０３から与えられる音声波形と同様のものである。図
２４は、図２３の音声波形１３５の一例を示す図であ
る。図２３を参照して、縦軸は振幅を示し、横軸は時間
（ｍｓ）を示す。

【０１５３】図２３の音声分析装置は、適応時間窓の作
成において基本周波数情報ではなく、分析位置の近傍に
ある音声波形から波形の駆動時点の情報を求めて、分析
位置と駆動点の相対関係に基づいて適切な窓関数の長さ
を決める音声分析方法を実現する。駆動点抽出部１６１
において、音源情報１１７から信頼できる値に基づい
て、平均的な基本周波数を求め、その基本周波数の２
倍、４倍、８倍、１６倍に対応する適応相補窓関数（図
１８に示した適応相補窓関数ｗ_d（ｔ）と同じ方法によ
って作成された窓関数）を、振幅を√２倍しながら組合
せて、声門閉止検出用の関数を作成する。そして、声門
閉止検出用の関数と、音声波形（図２４参照）を畳み込
むことによって、声門閉止において極大値をとる信号を
得る。この信号の極大値に基づいて駆動点を求める。駆
動点は、周期的に声門が閉じる時刻である。図２５は、
声門閉止において極大値をとる信号を示す図である。縦
軸は振幅を示し、横軸は時間（ｍｓ）を示している。曲
線１６９は、声門閉止において極大値をとる信号を示
す。

【０１５４】再び図２３を参照して、駆動点依存適応時
間窓作成部１６３においては、駆動点抽出部１６１で得
られた駆動点の情報に基づいて、現在の分析時点を挟む
駆動点の間の時間間隔を基本周期τ₀とみなして、窓の
長さを適応的に決める。適応パワースペクトル計算部１
６５においては、駆動点依存適応時間窓作成部１６３で
得られた窓を用いて周波数分析を行ない、適応パワース
ペクトル１６７を求める。

【０１５５】実施の形態６による音声分析方法を、実施
の形態３〜実施の形態５による音声分析方法に適応する
ことによって、適応的な窓関数の長さの調整のための基
本周波数が安定に求められない場合においても、安定し
た効果を得ることができる。つまり、適応的な窓関数の
長さの調整のための基本周波数が安定に求められない場
合においても、実施の形態３〜実施の形態５による音声
分析方法の効果が損なわれることはない。

【０１５６】

【発明の効果】この発明の第１の発明に係る周期信号変
換方法では、連続的なスペクトル、つまり、平滑化スペ
クトルを用いて周期信号を別の信号に変換している。こ
のため、周波数方向の周期性の影響が小さくなる。

【０１５７】この発明の第２の発明に係る周期信号変換
方法では、平滑化スペクトログラムを用いて、周期信号
を別の信号に変換している。このため、周波数方向およ
び時間方向の周期性の影響が小さくなる。したがって、
時間分解能および周波数分解能をバランスよく決定でき
る。

【０１５８】この発明の第３の発明に係る音変換方法で
は、位相調整成分から得られる音源信号は、インパルス
と同じパワースペクトルを有し、時間的にエネルギが分
散している。このため、自然な音色を与えることができ
る。しかも、このような位相調整成分を利用すること
で、音の標本化周期よりも高い分解能で、精密に音程を
設定できる。

【０１５９】この発明の第４の発明に係る信号分析方法
では、最適な周波数方向の補間関数によって補間を行な
うことで、過剰平滑化の影響が取り除かれ、スペクトル
の微細な構造がならされてしまうという弊害を防止でき
る。

【０１６０】この発明の第４の発明に係る信号分析方法
では、好ましくは、最適な時間方向の補間関数を用いて
補間を行なうことで、過剰な平滑化の影響を取除くこと
ができ、スペクトログラムの微細な構造がならされてし
まうという弊害を防止できる。

【０１６１】この発明の第５の発明に係る信号分析方法
では、第１の窓関数を用いて得られた第１のスペクトル
と、第１の窓関数に対し相補的な第２の窓関数を用いて
得られた第２のスペクトルとの平均値を、自乗あるいは
単調で非負な関数による変換を介して求め、求まった自
乗あるいは単調で非負な関数による変換を介した平均値
を第３のスペクトルとする。こうして求まった第３のス
ペクトルには、零となる点が存在しない。

【図面の簡単な説明】

【図１】位相調整成分Φ₂ （ω）を用いて作成した音源
信号を示す図である。

【図２】位相調整成分Φ₃ （ω）を用いて作成した音源
信号を示す図である。

【図３】位相調整成分Φ₂ （ω）と位相調整成分Φ₃
（ω）とを掛け合わせることによって作り出した位相調
整成分を用いて作成した音源信号を示す図である。

【図４】本発明の実施の形態１による音声変換方法を実
現するための音声変換装置を示す概略ブロック図であ
る。

【図５】図４のパワースペクトル計算部で求められたパ
ワースペクトルおよび平滑化スペクトル計算部で求めら
れた平滑化スペクトルを示す図である。

【図６】最小位相のインパルス応答ｖ（ｔ）を示す図で
ある。

【図７】変換されて合成された信号を示す図である。

【図８】本発明の実施の形態２による音声変換方法を実
現するための音声変換装置を示す概略ブロック図であ
る。

【図９】平滑化前のスペクトログラムを示す図である。

【図１０】平滑化されたスペクトログラムを示す図であ
る。

【図１１】図９のスペクトログラムの一部を、立体的に
示す図である。

【図１２】図１０のスペクトログラムの一部を、立体的
に示す図である。

【図１３】本発明の実施の形態３による音声分析方法を
実現するための音声分析装置の全体構成を示す概略ブロ
ック図である。

【図１４】図１３の平滑化変換正規化スペクトル計算部
で用いる周波数軸上での最適な補間平滑化関数を示す図
である。

【図１５】本発明の実施の形態４による信号分析方法を
実現するための信号分析装置の全体構成を示す概略ブロ
ック図である。

【図１６】図１５の平滑化変換正規化スペクトログラム
計算部で用いる時間軸上での最適な補間平滑化関数を示
す図である。

【図１７】本発明の実施の形態５による音声分析方法を
実現するための音声分析装置の全体構成を示す概略ブロ
ック図である。

【図１８】図１７の適応時間窓作成部で得られる適応時
間窓ｗ（ｔ）および図１７の適応相補時間窓作成部で得
られる適応相補時間窓ｗ_d（ｔ）を示す図である

【図１９】図１７の音声波形の一例を示す図である。

【図２０】周期的パルス列に、図１８の適応時間窓ｗ
（ｔ）を用いて求められるパワースペクトルＰ²（ω）
から構成される３次元スペクトログラムＰ（ω）を示す
図である。

【図２１】周期的パルス列に、図１８の適応相補時間窓
ｗ_d（ｔ）を用いて求められる相補パワースペクトルＰ
² _c（ω）から構成される３次元相補スペクトログラム
Ｐ _c（ω）を示す図である。

【図２２】図１７の非零パワースペクトル計算部で得ら
れた周期的パルス列の非零パワースペクトルＰ
² _nz（ω）から構成される３次元非零スペクトログラム
Ｐ_nz（ω）を示す図である。

【図２３】本発明の実施の形態６による音声分析方法を
実現するための音声分析装置の全体構成を示す概略ブロ
ック図である。

【図２４】図２３の音声波形の一例を示す図である。

【図２５】図２３の駆動点抽出部で得られた声門閉止に
おいて極大値をとる信号を示す図である。

【符号の説明】

１パワースペクトル計算部２基本周波数計算部３平滑化スペクトル計算部４インタフェース部５平滑化スペクトル変換部６音源情報変換部７位相調整部８波形合成部９適応的周波数分析部１０平滑化スペクトログラム計算部１１平滑化スペクトログラム変換部１０１マイク１０３アナログ／デジタル変換器１０５基本周波数分析部１０７基本周波数適応周波数分析部１０９概形スペクトル計算部１１１正規化スペクトル計算部１１３平滑化変換正規化スペクトル計算部１１５逆変換・概形スペクトル復元部１１７音源情報１１９最適補間平滑化スペクトル１２１周波数軸上の最適な補間平滑化関数１２３概形スペクトログラム計算部１２５正規化スペクトログラム計算部１２７平滑化変換正規化スペクトログラム計算部１２９逆変換・概形スペクトログラム復元部１３１最適補間平滑化スペクトログラム１３３時間軸上の最適な補間平滑化関数１３５音声波形１３７パワースペクトル計算部１３９適応時間窓作成部１４１相補パワースペクトル計算部１４３適応相補時間窓作成部１４５非零パワースペクトル計算部１４７非零パワースペクトル１５５３次元パワースペクトログラム１５７３次元相補パワースペクトログラム１５９３次元非零パワースペクトログラム１６１駆動点抽出部１６３駆動点依存適応時間窓作成部１６５適応パワースペクトル計算部１６７適応パワースペクトル１６９声門閉止において極大値をとる信号

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平６−294830（ＪＰ，Ａ) 特開昭59−94795（ＪＰ，Ａ) 特開平３−259196（ＪＰ，Ａ) 特開平４−213500（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00,21/04 G01R 23/16

Claims

(57)【特許請求の範囲】

【請求項１】周期信号のスペクトログラム上に表現さ
れる、基本周期の間隔と基本周波数の間隔とで決まる格
子点の情報を用いて、区分的多項式で補間することで、
平滑化されたスペクトログラムを得るステップと、前記平滑化されたスペクトログラムを用いて、前記周期
信号を別の信号に変換するステップとを含み、周期信号のスペクトログラム上に表現される、基本周期
の間隔と基本周波数の間隔とで決まる格子点の情報を用
いて、区分的多項式で補間することで、平滑化されたス
ペクトログラムを得る前記ステップでは、周波数軸上での補間関数と前記周期信号のスペクトログ
ラムを、周波数方向で畳み込み、さらに、時間軸上での
補間関数と前記畳み込みで得られたスペクトログラム
を、時間方向で畳み込むことによって、前記平滑化され
たスペクトログラムを得る、周期信号変換方法。
【請求項２】位相調整成分と音のスペクトルとの積を
用いてインパルス応答を求めるステップと、前記インパルス応答を時間軸上で変換後の音の基本周波
数の逆数として決まる周期ずつ移動させながら加算して
いくことにより、前記音を別の音に変換するステップと
を含み、前記位相調整成分を時間の関数とすることにより得られ
る音源信号は、インパルスと同じパワースペクトルを有
し、時間的にエネルギが分散している、音変換方法。
【請求項３】前記位相調整成分Φ（ω）は、【数１】であり、式中のｅｘｐ（）は指数関数を示し、式中の
ωは角周波数を示し、式中のξ（ω）は連続な奇関数を
示し、式中のΛは数字の集まりで、有限個の数字を集め
たものを示し、式中のｋはΛの中から取出した１つの数
字を示し、式中のαk は係数を示し、式中のｍk はパラ
メタを示し、式中のρ（ω）は重みを表わす関数を示
す、請求項２に記載の音変換方法。
【請求項４】前記位相調整成分は、周波数軸上で、乱数と帯域制限関数を畳み込み、帯域制
限された乱数を求めるステップと、前記帯域制限された乱数と遅延時間の変動の目標値とを
掛け合わせて、群遅延特性を求めるステップと、前記群遅延特性を周波数で積分することにより、位相特
性を求めるステップと、前記位相特性と虚数単位とを掛け合わせて、指数関数の
指数とすることにより、前記位相調整成分を得るステッ
プとによって得られる、請求項２に記載の音変換方法。
【請求項５】前記位相調整成分は、第１の成分と第２
の成分との積であり、前記第１の成分Φ（ω）は、【数２】であり、式中のｅｘｐ（）は指数関数を示し、式中の
ωは角周波数を示し、式中のξ（ω）は連続な奇関数を
示し、式中のΛは数字の集まりで、有限個の数字を集め
たものを示し、式中のｋはΛの中から取出した１つの数
字を示し、式中のαk は係数を示し、式中のｍk はパラ
メタを示し、式中のρ（ω）は重みを表わす関数を示
し、前記第２の成分は、周波数軸上で、乱数と帯域制限関数を畳み込み、帯域制
限された乱数を求めるステップと、前記帯域制限された乱数と遅延時間の変動の目標値とを
掛け合わせて、群遅延特性を求めるステップと、前記群遅延特性を周波数で積分することにより、位相特
性を求めるステップと、前記位相特性と虚数単位とを掛け合わせて、指数関数の
指数とすることにより、前記第２の成分を得るステップ
とによって得られる、請求項２に記載の音変換方法。
【請求項６】時間とともに特性が変化するほぼ周期的
な信号を生成する機構を表わす時間周波数曲面が、時間
の区分的多項式と、周波数の区分的多項式との積で表わ
されると仮定するステップと、前記ほぼ周期的な信号から所定範囲を、窓関数を使って
取出すステップと、取出された前記所定範囲の前記ほぼ周期的な信号から第
１のスペクトルを求めるステップと、前記窓関数の周波数領域での表現と、前記周波数の区分
的多項式で表わされる空間の基底とから、周波数方向の
最適な補間関数を求めるステップと、前記第１のスペクトルと、前記周波数方向の最適な補間
関数を畳み込んで、第２のスペクトルを求めるステップ
とを含み、前記周波数方向の最適な補間関数は、前記第２のスペク
トルと、前記時間周波数曲面の周波数軸に沿った断面と
の誤差を最小にする、信号分析方法。
【請求項７】 −∞から＋∞の領域を０から＋∞の領域
に写像する単調で滑らかな関数を用いて、前記第２のス
ペクトルを第３のスペクトルに変換するステップをさら
に含む、請求項６に記載の信号分析方法。
【請求項８】前記第１のスペクトルから、前記ほぼ周
期的な信号の基本周波数の影響を除去して第４のスペク
トルを求めるステップと、前記第１のスペクトルを、前記第４のスペクトルで割算
して第５のスペクトルを求めるステップと、前記第３のスペクトルと、前記第４のスペクトルとを掛
け合わせて、第６のスペクトルを求めるステップとをさ
らに含み、前記第２のスペクトルを求める前記ステップでは、前記
第１のスペクトルの代わりに前記第５のスペクトルを用
いて前記第２のスペクトルを求める、請求項７に記載の
信号分析方法。
【請求項９】前記窓関数の時間領域での表現と、前記
時間の区分的多項式で表わされる空間の基底とから、時
間方向の最適な補間関数を求めるステップと、任意の時間ごとに複数の前記第２のスペクトルを求める
ステップと、前記複数の第２のスペクトルを時間方向に並べて第１の
スペクトログラムを求めるステップと、前記第１のスペクトログラムと、前記時間方向の最適な
補間関数を畳み込んで、第２のスペクトログラムを求め
るステップとをさらに含み、前記時間方向の最適な補間関数は、前記第２のスペクト
ログラムと、前記時間周波数曲面との誤差を最小にす
る、請求項６に記載の信号分析方法。
【請求項１０】任意の時間ごとに複数の前記第２のス
ペクトルを求めるステップと、 −∞から＋∞の領域を０から＋∞の領域に写像する単調
で滑らかな第１の関数を用いて、前記複数の第２のスペ
クトルを複数の第３のスペクトルに変換するステップ
と、前記複数の第３のスペクトルを時間方向に並べて第１の
スペクトログラムを求めるステップと、前記窓関数の時間領域での表現と、前記時間の区分的多
項式で表わされる空間の基底とから、時間方向の最適な
補間関数を求めるステップと、前記第１のスペクトログラムと、前記時間方向の最適な
補間関数を畳み込んで、第２のスペクトログラムを求め
るステップと、 −∞から＋∞の領域を０から＋∞の領域に写像する単調
で滑らかな第２の関数を用いて、前記第２のスペクトロ
グラムを第３のスペクトログラムに変換するステップと
をさらに含み、前記時間方向の最適な補間関数は、前記第２のスペクト
ログラムと、前記時間周波数曲面との誤差を最小にす
る、請求項６に記載の信号分析方法。
【請求項１１】時間とともに特性が変化するほぼ周期
的な信号を生成する機構を表わす時間周波数曲面が、時
間の区分的多項式と、周波数の区分的多項式との積で表
わされると仮定するステップと、前記ほぼ周期的な信号から所定範囲を、窓関数を使って
取出すステップと、取出された前記所定範囲の前記ほぼ周期的な信号から第
１のスペクトルを求めるステップと、任意の時間ごとに複数の前記第１のスペクトルを求める
ステップと、前記複数の第１のスペクトルから、前記ほぼ周期的な信
号の基本周波数の影響を除去して複数の第２のスペクト
ルを求めるステップと、前記各第１のスペクトルを、対応する前記第２のスペク
トルで割算して複数の第３のスペクトルを求めるステッ
プと、前記窓関数の周波数領域での表現と、前記周波数の区分
的多項式で表わされる空間の基底とから、周波数方向の
最適な補間関数を求めるステップと、前記各第３のスペクトルと、前記周波数方向の最適な補
間関数を畳み込んで、複数の第４のスペクトルを求める
ステップと、 −∞から＋∞の領域を０から＋∞の領域に写像する単調
で滑らかな第１の関数を用いて、前記複数の第４のスペ
クトルを複数の第５のスペクトルに変換するステップ
と、前記各第５のスペクトルと、対応する前記第２のスペク
トルとを掛け合わせて、複数の第６のスペクトルを求め
るステップと、前記複数の第６のスペクトルを時間方向に並べて第１の
スペクトログラムを求めるステップと、前記第１のスペクトログラムから、前記ほぼ周期的な信
号の周期性に基づく時間的変動の影響を除去して第２の
スペクトログラムを求めるステップと、前記第１のスペクトログラムを、前記第２のスペクトロ
グラムで割算して第３のスペクトログラムを求めるステ
ップと、前記窓関数の時間領域の表現と、前記時間の区分的多項
式で表わされる空間の基底とから、時間方向の最適な補
間関数を求めるステップと、前記第３のスペクトログラムと、前記時間方向の最適な
補間関数を畳み込んで、第４のスペクトログラムを求め
るステップと、 −∞から＋∞の領域を０から＋∞の領域に写像する単調
で滑らかな第２の関数を用いて、前記第４のスペクトロ
グラムを第５のスペクトログラムに変換するステップ
と、前記第５のスペクトログラムと、前記第２のスペクトロ
グラムとを掛け合わせて、第６のスペクトログラムを求
めるステップとを含み、前記周波数方向の最適な補間関数は、前記第４のスペク
トルと、前記時間周波数曲面の周波数軸に沿った断面と
の誤差を最小にし、前記時間方向の最適な補間関数は、前記第４のスペクト
ログラムと、前記時間周波数曲面との誤差を最小にす
る、信号分析方法。
【請求項１２】第１の窓関数を用いて、時間とともに
特性が変化するほぼ周期的な信号の第１のスペクトルを
求めるステップと、所定の窓関数を用いて、第２の窓関数を求めるステップ
と、前記第２の窓関数を用いて、前記ほぼ周期的な信号の第
２のスペクトルを求めるステップと、前記第１のスペクトルと、前記第２のスペクトルとの平
均値を、自乗あるいは単調で非負な関数による変換を介
して求め、求まった自乗あるいは単調で非負な関数によ
る変換を介した平均値を第３のスペクトルとするステッ
プとを含み、前記第２の窓関数を求める前記ステップは、前記所定の窓関数を、原点の両側に、相互の間隔を基本
周期分、離して配置するステップと、前記配置された一方の所定の窓関数の符号を反転させる
ステップと、前記符号を反転させた所定の窓関数と、前記配置された
他方の所定の窓関数とを加え合せて前記第２の窓関数を
求めるステップとを含む、信号分析方法。
【請求項１３】任意の時間ごとに複数の前記第３のス
ペクトルを求めるステップと、前記複数の第３のスペクトルを時間方向に並べて、スペ
クトログラムを求めるステップとをさらに含む、請求項
１２に記載の信号分析方法。