JP4432893B2

JP4432893B2 - 声質判定装置、声質判定方法、および声質判定プログラム

Info

Publication number: JP4432893B2
Application number: JP2005361612A
Authority: JP
Inventors: 琢哉藤島; 聡関根; 伸悟神谷; ジョルディ・ボナダ; ラルス・ファビグ; オスカー・メイヤー; アレックス・ロスコス
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-12-15
Filing date: 2005-12-15
Publication date: 2010-03-17
Anticipated expiration: 2025-12-15
Also published as: JP2006195449A

Description

この発明は、人が発声した音声信号の質（声質）を客観的に判定する声質判定装置、声質判定方法および声質判定プログラムに関する。

カラオケ装置で歌唱を採点するために歌唱技巧等を判定したり、歌唱を技巧データで変換することは、従来より提案されていた（例えば、特許文献１、特許文献２）。

特許文献１には、入力された音声信号から、音程、テンポ、声質等の各種の歌唱力判定要素を抽出し、この歌唱力判定要素を標準パターンと比較しファジィ推論を行うことによって歌唱力を判定する装置が記載されている。

また、特許文献２には、歌唱者の歌唱音声からフォルマントを抽出し、このフォルマントをリファレンスのフォルマント情報と比較することによって歌唱者の声がどの程度男性らしいかどの程度女性らしいかの性別度やどの位の年齢の声に聞こえるかの分析年齢などの情報を割り出すカラオケ装置が記載されている。
特開平０３−０８４５９９号公報特開２０００−０４７６７３号公報

しかし、上記特許文献に記載のものは、いずれも標準パターンやリファレンスと比較するものであって、その標準パターンやリファレンスとどれだけ似ているかによって、評価（点数）が決定されるものであり、歌唱者の声質そのものを客観的に判定するものはなかった。

したがって、カラオケ装置において、歌唱者が独自の歌唱法や声質で上手く歌唱しても、標準パターンやリファレンスと一致度が低い場合には、採点結果の点数が低くなってしまうという問題点があった。

この発明は、人が発声した音声信号の質（声質）を客観的に判定することのできる声質判定装置、声質判定方法、および声質判定プログラムを提供することを目的とする。

この発明は、入力した音声信号から、その音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、前記音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析部と、この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明は、上記発明において、前記声質判定部は、音声の切れ目およびサスティン部を前記音色変化度により判定した結果である音声分割情報に基づいて、前記判定値を算出するか否かを決定し、算出すると決定した区間の判定値の累積値に基づいて音声信号の音質を判定することを特徴とする。

この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の周波数スペクトルの傾斜を示すスペクトル傾斜度パラメータ、音声信号の基本波の倍音成分の減衰曲線を表すスペクトル励起度パラメータ、および、音声信号のフォルマント成分の明瞭度を表すフォルマント明瞭度パラメータを分析する物理パラメータ分析部と、前記スペクトル傾斜度パラメータ、前記スペクトル励起度パラメータおよび前記フォルマント明瞭度パラメータのうち、少なくともいずれか１つに対して重み付けを行い響き度判定値を算出し、該響き度判定値の累積値に基づいて前記音声信号の響き度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。

この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および、音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析する物理パラメータ分析部と、前記倍音安定度パラメータ、前記ピーク間減衰量パラメータ、および前記波形ピークレベル安定度パラメータのうち、少なくともいずれか１つに対して重み付けを行い透明度判定値を算出し、該透明度判定値の累積値に基づいて前記音声信号の透明度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。

この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の基本周波数を表すピッチパラメータを分析する物理パラメータ分析部と、前記ピッチパラメータに対して重み付けを行い安定度判定値を算出し、該安定度判定値の累積値に基づいて前記音声信号の安定度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。

この発明は、上記発明において、前記物理パラメータ分析部は、音声信号のパワーレベルを表すエネルギパラメータ、音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析し、前記声質判定部は、前記ピッチパラメータおよび前記エネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ／エネルギ分布パラメータを分析するとともに、前記倍音安定度パラメータ、前記ピーク間減衰量パラメータおよび前記波形ピークレベル安定度パラメータのうち、少なくともいずれか１つに対して前記重み付けを行い透明度判定値を算出し、前記ピッチパラメータ、前記ピッチ／エネルギ分布パラメータ、前記安定度判定値、および前記透明度判定値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定することを特徴とする。

この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号のパワーレベルを表すエネルギパラメータを分析する物理パラメータ分析部と、前記エネルギパラメータに対して重み付けを行い高音余裕度を算出し、該高音余裕度の乗算値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。

この発明は、上記発明において、前記物理パラメータ分析部は、音声信号の基本周波数を表すピッチパラメータ、音声信号のパワーレベルを表すエネルギパラメータを分析し、前記声質判定部は、前記ピッチパラメータおよびエネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ／エネルギ分布パラメータを分析するとともに、前記ピッチパラメータ、前記ピッチ／エネルギ分布パラメータ、および前記響き度判定値に基づいて、音声信号の低音域の余裕度を示す低音余裕度を判定することを特徴とする。

この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の基本波の倍音成分を表す倍音ピークパラメータを分析する物理パラメータ分析部と、前記倍音ピークパラメータに対して重み付けを行い低音余裕度を算出し、該低音余裕度の累積値に基づいて前記音声信号の低音域の余裕度を示す低音余裕度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。

この発明の声質判定方法は、入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、前記物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、を備えたことを特徴とする。

この発明の声質判定プログラムは、コンピュータに、入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、を実行させることを特徴とする。

この発明によれば、音声信号から物理的な特徴である物理パラメータを割り出すことによって音声信号の物理的な特徴を推定し、この物理パラメータを人声を評価する尺度に当てはめて声質を判断することにより、客観且つ正確に人の声質を判定することができる。

図面を参照してこの発明の実施形態である声質判定装置について説明する。
図１は、同声質判定装置の機能ブロック図である。
この声質判定装置は、人の歌唱または発話による音声信号（以下、単に音声信号という）を入力して分析し、物理パラメータを出力するＤＳＰ１（物理パラメータ分析部）、および、この分析結果である物理パラメータに基づいて声質を判定するＣＰＵ２（音質判定部）で構成されている。

この声質判定装置は、カラオケ装置等に組み込まれて歌唱者の声質の判定に使用されるほか、一般のコンピュータシステムにもインストールされる。

ＤＳＰ１は、入力された音声信号波形を物理的に分析して物理パラメータを割り出し、この物理パラメータをＣＰＵ２に出力する。ＤＳＰ１がＣＰＵ２に出力する物理パラメータは、スペクトル傾斜度(Spectral Tilt)、スペクトル励起度(Excitation)、フォルマント明瞭度(Formant Sharpness)、倍音安定度(HarmonicStability)、ピーク間減衰量(Valley Depth)、波形ピークレベル安定度(Voice Pulse Regularity)、音声分割情報(NoteSegment Info.)、平均エネルギー(Energy without Vibrato)、平均ピッチ(Pitch without Vibrato)である。

なお、ＤＳＰ１内部では、これ以外に中間的なパラメータとして、周波数スペクトル(Spectrum)、周波数ピーク(SpectralPeaks)、倍音ピーク(Harmonic Peaks)、(ビブラート成分を含む)エネルギ(Energy)、(ビブラート成分を含む)ピッチ(Pitch)、ＭＥＬ係数（MELCoeffs)、音色変化度(Delta Timbre)、ビブラートデータ（深さ，速度）(Vibrato Depth,Rate)を算出している。各パラメータの詳細は後述する。

ＣＰＵ２は、入力された物理パラメータに基づいて、人の声を評価判定する５つの尺度（響き度、透明度、安定度、高音余裕度、低音余裕度）についてそれぞれ判定値を出力する。各声質は、以下の評価軸上の値として算出される。

響き度：響く声←→響かない声
透明度：透明な声←→濁った声
安定度：安定した声←→不安定な声
高音余裕度：（高域に）余裕のある声←→余裕のない声
低音余裕度：（低域に）余裕のある声←→余裕のない声
なお、ＣＰＵ２内部では、声質判定値を算出するために、さらに中間的なパラメータであるエネルギ安定度(Energy Stability)、ピッチ安定度(Pitch Stability)、ピッチ／エネルギ分布(Pitch/EnergyPlot)を算出している。各パラメータおよび声質判定値の詳細については、後述する。

この声質判定装置は、単体の装置として実現されるほか、カラオケ装置やパーソナルコンピュータのソフトウェアとして実現される。判定結果は、そのまま表示等出力されるほか、歌唱の判定に用いたり、音響効果パラメータを設定変更するための情報として用いられたりする。

なお、この声質判定装置をカラオケ装置に組み込んでカラオケ歌唱者の声質を判定する場合、カラオケ曲の演奏中のみこの装置(機能)を動作させるため、カラオケ曲の演奏部(演奏プログラム)から曲開始／終了情報７０が入力される。

以下、各物理パラメータの算出方法について説明する。
なお、図１において、長円で示したブロックは、処理（処理機能部）を示しており、長方形で示したブロックは、処理によって算出・決定されたパラメータを示している。

外部から入力された音声信号１０は、ピッチ検出部１５に入力されるとともに、ダウンサンプリング部１１に入力される。ピッチ検出部１５は、この音声信号の基本周波数であるピッチデータ２０を検出する。このピッチデータ２０はビブラート成分を含んでいる。

一方、音声信号１０が入力されるダウンサンプリング部１１は、分析処理を容易にするため、４４．１ｋＨｚのサンプリング周波数で入力される音声信号を、２２．０５ｋＨｚにダウンサンプリングする。

ダウンサンプリング部１１によってダウンサンプリングされた音声信号は、エネルギ検出部１４、波形ピークレベル安定度分析部３６およびウィンドウ処理部１２に入力される。

エネルギ検出部１４は、この音声信号の音量の瞬時値であるエネルギデータ１９を検出する。このエネルギデータ１９は、ビブラート成分を含んでいる。

これらビブラート成分を含むエネルギデータ１９，ピッチデータ２０は、ビブラート検出部２５に入力される。ビブラート検出部２５は、ビブラート成分を含むエネルギデータ１９、ピッチデータ２０に基づいて音声信号のビブラート成分をビブラートデータ（速度，深さ）２８として検出する。このビブラート成分の検出は、エネルギデータ１９およびピッチデータ２０の時間変動に対してｓｉｎ波を近似することで行う。近似したｓｉｎ波の周波数を速度(Rate)，最大振幅を深さ(Depth) として出力する。そして、入力されたエネルギデータ１９，ピッチデータ２０からｓｉｎ波の成分を除去し、ビブラート成分のないエネルギデータ，ピッチデータを平均エネルギデータ２９，平均ピッチデータ３０として出力する。

図２を参照してこのｓｉｎ波の算出手法について説明する。同図に示すグラフの横軸は時間を表し、縦軸はピッチデータを表す。同図（Ａ）は、ピッチデータ２０をプロットした曲線である。まず、このピッチデータ２０をプロットした曲線を一次関数で近似し、この一次関数を０軸としてドリフト（勾配）を補正する。同図（Ｂ）は、上記一次関数を０軸としてドリフト補正した後のピッチデータ２０をプロットした図である。同図（Ｂ）において、ゼロクロスとなる点の周期を算出する。この周期に基づいて近似できそうな周期、振幅のｓｉｎ波を候補として決定する。その後、この候補ｓｉｎ波と、ドリフト補正したピッチデータ２０との差（エラー値）を求める。エラー値は、候補ｓｉｎ波と、ドリフト補正したピッチデータ２０の周期の分散、振幅の分散等複数の項目から総合して決定する。複数の候補ｓｉｎ波についてこのエラー値を求め、その中から最もエラー値が小さい候補ｓｉｎ波をビブラート成分のｓｉｎ波とする。

図１において、平均エネルギデータ２９，平均ピッチデータ３０は、物理パラメータとしてＣＰＵ２に出力される。また、平均エネルギデータ２９、平均ピッチデータ３０およびビブラートデータ（速度，深さ）２８は、音声分割判定部３７に入力される。

ダウンサンプリングされた音声信号が入力されるウィンドウ処理部１２は、ＦＦＴ（高速フーリエ変換）の前処理として、ＦＦＴをする音声信号からサンプリングデータ列を切り出して、このサンプリングデータ列に窓関数を掛ける。窓関数処理がされた音声信号（サンプリングデータ列）は、ＦＦＴ処理部１３に対して出力される。

ＦＦＴ処理部１３は、この窓関数が掛けられた音声信号を高速フーリエ変換し、時間領域の音声信号波形を周波数領域の周波数スペクトル１６に変換する。この周波数スペクトル１６は、ピーク検出部２１、ＭＥＬ分析部１７に入力される。

ピーク検出部２１は、周波数スペクトル１６から周波数ピーク２２を検出する。周波数ピーク２２は、周波数スペクトル１６のなかで、前後の周波数成分よりも大きくなっている周波数成分であり、複数が選択される。各周波数ピークデータは、その周波数およびレベルの情報を含んでいる。

この周波数ピークデータ２２は、スペクトル傾斜度分析部３１および倍音ピーク選択部２３に入力される。

スペクトル傾斜度分析部３１は、ピーク検出部２１によって検出された複数の周波数ピークデータ２２に基づいて周波数スペクトルの傾斜を分析し、その傾斜の程度をスペクトル傾斜度３８（物理パラメータ）として出力する。このスペクトルの傾斜の分析は、３ｋＨｚ〜８ｋＨｚの周波数帯で行う。この周波数帯域は、入力される音声信号の母音の変化の影響を受けにくいからである。

図３は、スペクトル傾斜度分析部３１によるスペクトル傾斜度分析方式を説明する図である。３ｋＨｚ〜８ｋＨｚの周波数帯では、周波数ピーク成分（周波数スペクトル）は、高音域へ行くほど小さくなっている。この傾斜を一次関数で近似し、その傾きをスペクトル傾斜度パラメータ３８とする。すなわち、傾きが小さいほど、音声信号の高音域の周波数スペクトルが豊かであることを示している。

また、倍音ピーク選択部２３には、周波数ピークデータ２２のほかに、ピッチデータ２０も入力される。倍音ピーク選択部２３は、ピッチ検出部１５によって検出されたピッチデータ（基本周波数）２０に基づき、その複数の周波数ピーク成分のなかから倍音成分のピークのみを選択する。そして、このデータを倍音ピークデータ２６として出力する。この倍音ピークデータ２６は、スペクトル励起度分析部３２、フォルマント明瞭度分析部３３、倍音安定度分析部３４およびピーク間減衰量分析部３５に入力される。

スペクトル励起度分析部３２は、倍音成分の豊かさを表す指標であるスペクトル励起度を分析する。倍音成分は、基本周波数から高次になるにつれて指数関数的にレベルが低下してゆくものであるが、そのレベル低下の曲線を指数関数で近似し、その指数値を曲線のたわみの程度、すなわち、倍音成分のレベルが早く低下する程度を表すスペクトル励起度３９（物理パラメータ）として出力する。

図４は、スペクトル励起度分析部３２によるスペクトル励起度パラメータ３９の分析方式を説明する図である。３ｋＨｚ〜８ｋＨｚの周波数帯の倍音ピーク値をプロットした曲線を指数関数曲線（数１）で近似し、

この式中の指数部であるＥslopeをスペクトル励起度パラメータ３９として出力する。この値Ｅslopeが小さいほど高次倍音が豊かな音声信号であることが分析される。

フォルマント明瞭度分析部３３は、音声信号のフォルマントの明瞭度を表す指標であるフォルマント明瞭度４０を分析する。

フォルマントとは、話者または歌唱者の声道の共鳴現象によって音声信号の一部の周波数成分が強調されることをいい、音声信号を周波数領域に展開した周波数スペクトル上で強調されている周波数成分のレベルが高いほどよく共鳴していることがわかる。

フォルマント明瞭度分析部３３は、倍音ピークデータ２６をプロットした曲線を一次関数で近似し（図５参照）、その近似直線とプロットした曲線との最小自乗法(root-mean-square)の残差を算出して、これをフォルマント明瞭度パラメータ４０として出力する。残差が大きいほど、倍音ピークデータ２６をプロットした曲線の「波うち」が大きいことになり、フォルマントが明瞭であると判断することができる。

スペクトル傾斜度３８、スペクトル励起度３９およびフォルマント明瞭度４０は、物理パラメータとしてＤＳＰ１からＣＰＵ２に対して出力される。

倍音安定度分析部３４は、倍音ピークデータ２６の各倍音ピーク成分について周波数，振幅，位相の時間変化を監視し、その変化を最小自乗法で近似し、その近似誤差の自乗平均平方根（ＲＭＳ：root-mean-square）を求める。そして、その値を倍音安定度パラメータ４１として出力する。この値が小さいほど倍音ピークデータ２６が安定しており、安定した音声であると判断することができる。

なお、音声のピッチが極端に変動したとき（たとえば、歌唱において音符が変わったとき）は、ピッチおよび倍音成分が不連続に変化するため、この変化の間は、倍音安定度パラメータの分析を中止する。

ピーク間減衰量分析部３５は、倍音ピークデータ２６および周波数スペクトルデータ１６を入力して、周波数スペクトルに倍音成分以外の成分がどの程度含まれているかを示すピーク間減衰量４２を分析する。ピーク間減衰量４２が大きいほど音声信号に非倍音成分（ノイズ成分）が少ないと分析される。

図６は、ピーク間減衰量分析部３５によるピーク間減衰量４２の分析方式を説明する図である。同図（Ａ）に示すように、ピーク間減衰量は、音声信号の周波数スペクトル１６において、隣接する倍音ピーク成分の間のスペクトル値の減衰（スペクトル包絡線の落ち込み）の程度で表される。

スペクトル値の減衰の程度は、隣接する倍音ピーク間をつなぐ直線と、その間の周波数スペクトル曲線で囲まれる面積、すなわち、ピーク間直線と周波数スペクトル値との差の積分（総和）として求めることができる（同図（Ｂ））。

一方、より演算量を少なくするために、隣接する倍音ピーク間をつなぐ直線の中点と、その周波数におけるスペクトル値の差「(ap1＋ap2)/2-ac1」として求めてもよい（同図（Ｃ））。

次に、図７を参照して波形ピークレベル安定度分析部３６の波形ピークレベル安定度４３の分析方式について説明する。波形ピークレベル安定度とは、音声信号の時間領域における各周期波形の規則性を示す指標である。

音声信号波形は、同図に示すように、基本周波数を単位とする周期波形であるが、各周期に基本周波数成分のピークを有している。この波形上のピークレベルの周期毎の変化を監視することによって、音声信号に含まれる基本波よりも低い周波数成分を分析する。波形ピークレベル安定度パラメータ４３は、ピークをプロットした曲線を一次関数で近似し、その一次関数に対する各周期のピークレベルの分散（標準偏差）として求められる。

分散が少なければ、各周期のピークレベルがほぼ一定であり澄んだ音声であることが分析される。一方、同図に示すようにピークレベルが周期的に変化している場合には、オクターブ下の成分を含んだ濁った音声であることが分析される。また、ピークレベルがランダムに変化している場合には、ノイズを含んだダミ声またはハスキーな声であると判断することができる。

また、ＦＦＴ処理部１３から周波数スペクトル１６が入力されるＭＥＬ分析部１７は、この周波数スペクトル１６に対してＭＥＬケプストラム分析を行ってＭＥＬ係数１８を算出する。ＭＥＬ係数１８の算出手順は以下のとおりである。

(1)周波数スペクトル１６をメルスケール上に展開し、このメルスケール上に等間隔に配置された帯域フィルタバンクの出力を抽出する。
ここで、メルスケールとは、人の聴覚の周波数分解能に基づく尺度であり、低い周波数では細かく、高い周波数では荒くなっている。対数に近い特性であるため、対数スケールで代用してもよい。
図８（Ａ）は、メルスケール上に等間隔に配置した帯域フィルタバンクをリニアスケール上に展開した例を示している。このように、高い周波数ほど周波数分
解能が荒いため、フィルタバンクの幅が広くなっている。

(2)各帯域フィルタバンクの出力を対数変換し、逆ＦＦＴによって時間軸の関数に戻したものがＭＥＬ係数１８である。

このＭＥＬ係数１８は、音色変化度分析部２４に入力される。音色変化度分析部２４は、各フィルタバンクのＭＥＬ係数を総和した値を音色変化度２７として出力する。この音色変化度２７は、図８（Ｂ）に示すように、音素が移動するとき、特に、母音→母音、母音→子音の移動時に高い値を示すことが知られている。したがって、この音色変化度パラメータ２７により、話者または歌唱者が発生する言葉の音素変化を分析することができる。

このようにこの実施形態では、ＭＥＬケプストラム分析を用いて音素変化を検出しているが、音声における音素変化を検出する技術であれば、他のどのような技術を適用してもよい。

この音色変化度２７およびビブラートデータ（速度，深さ）２８、平均エネルギデータ２９、平均ピッチデータ３０は、音声分割判定部３７に入力される。
音声分割判定部３７は、これら音色変化度２７、ビブラートデータ２８、平均エネルギ２９、平均ピッチデータ３０の各データに基づいて音声の区切り、特にサスティン部の区間を判定する。
歌唱の音声信号は、図９に示すようなエンベロープ形状をしており、各音符毎にアタック部、サスティン部およびディケイ部が形成されている。そして、アタック部と音素の子音が一致する場合が多い。以下の声質判定処理部５３〜５７では、定常波形の音声が発声されているサスティン部の波形を用いて声質を判定する。このため、音声分割判定部３７は、入力された音色変化度２７、ビブラートデータ２８、平均エネルギデータ２９、平均ピッチデータ３０の各データに基づいて、音声の切れ目およびサスティン部を判定する。

平均エネルギ２９がほぼ０であれば音声が発声されていないと推定でき、これにより、音声の切れ目を推定することができる。また、音色変化度２７、ビブラートデータ２８、平均エネルギデータ２９、平均ピッチデータ３０が大きく変化した場合には、音符（音素）の変化点であると分析できる。これらの情報に基づいて音声の切れ目やサスティン部を判定してその判定結果を音声分割情報４４としてＣＰＵ２に出力する。この音声分割情報４４には、音色変化度２７、ビブラートデータ２８、平均エネルギデータ２９、平均ピッチデータ３０の情報が含まれている。

以上の動作で分析された物理パラメータが、ＤＳＰ１からＣＰＵ２に入力される。ＣＰＵ２は、これら物理パラメータに基づいて声質の判定を行う。上述したように、ＣＰＵ２は、声質として響き度、透明度、安定度、高音余裕度、低音余裕度を判定し、それぞれの判定値を割り出す。なお、各判定部４６〜４８，５３〜５７は、音声単位（歌唱であれば音符単位）またはフレーズ単位の物理パラメータを累積し、曲の最初から所定区間（例えば曲終了）までの判定値を割り出す。このため、各判定部４６〜４８，５３〜５７には、音声分割判定部３７から出力された音声分割情報４４が１フレーム毎に入力され、音素（音符）ごとまたはフレーズごとに動作する。ここで、１音は例えば２０フレームとし、フレーズとは、３００ｍｓ以上の無音声区間で区切られる発音区間をいう。以下、各声およびその判定方法について説明する。

まず、響き度は、声の質がいかに響くか、よく通る声かの指標である。声の響きは、倍音成分の充実の度合いに相関していると考えられる。そこで、響き度分析部５３は、スペクトル傾斜度３８、スペクトル励起度３９およびフォルマント明瞭度４０のうち少なくともいずれか１つに基づいて響き度６０を判定する。すなわち、スペクトル傾斜度３８は、音声信号の高音成分の減衰の程度を表すパラメータであり、減衰の程度が少ないほど高音成分が多いと判断することができる。スペクトル励起度３９は、倍音成分の減衰曲線のたわみの大きさを表すパラメータであり、たわみが小さいほど倍音成分が多いと判断することができる。また、フォルマント明瞭度４０は、音声のフォルマントの明瞭度すなわち声道での共鳴度を表すパラメータであり、フォルマントが明瞭であるほどよく響いた通る音であると判断することができる。

これらスペクトル傾斜度３８が示す高音減衰の少なさ、スペクトル励起度３９が示す倍音成分の減衰の少なさ、フォルマント明瞭度４０が示すフォルマントの明瞭度から響き度判定値６０を算出する。
この響き度判定値６０の算出手法の１例について説明する。判定部５３は、響き度判定値６０をスペクトル傾斜度３８から算出する。この響き度判定値６０を算出する際に、スペクトル傾斜度３８に対して種々の特徴量による重み付けを行う。例えば音色変化度２７が大きくなるにつれてスペクトル傾斜度３８の値による響き度判定値６０が小さくなるようにする。図１０（Ａ）は、音色変化度の重み付けについて説明する図である。このグラフの横軸は音色変化度(DeltaTimbre)２７の値を示し、縦軸は音色変化度の重み付け(ＷDeltaTimbre=0〜1)を示す。同図（Ａ）に示すように、音色変化度２７が小さい場合は重み付けを１とし、音色変化度２７が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で重み付けを０とする。

下限値は音色変化が無く、母音定常状態であると判断できる程度の値を実験などで割り出し、設定すればよい。また、上限値は、過渡状態であると判断できる程度の値を実験などで割り出して設定すればよい。また、この下限値、および上限値は、ビブラートの発生状態に基づいて変化するように設定する。図１０（Ｂ）に示すグラフの横軸は、ビブラート発生度(Vibrato Probability)を示し、縦軸は音色変化度を示す。同図（Ｂ）に示すように、音色変化度の下限値、上限値をビブラート発生度に応じて変化させる。ビブラート発生度が大きくなると下限値、上限値ともに大きくなるように設定する。

ここで、ビブラート発生度とは、ビブラートが発生しているか否かの確率値であり、ピッチデータ２０、およびビブラートデータ２８から算出する。ビブラートデータ２８は、ピッチデータ２０に割り当てた近似ｓｉｎ波のうち最もエラー値が小さいｓｉｎ波の速度、深さを示す。ビブラート発生度は、このピッチデータ２０に対する近似ｓｉｎ波のエラー値から求める。図１１は、ビブラート発生度の算出について説明する図である。同図に示すグラフの横軸はエラー値を表し、縦軸はビブラート発生度を表す。同図に示すように、エラー値が所定の値ｎよりも小さい場合にビブラート発生度を１とし、ｎ以上でエクスポネンシャルにビブラート発生度を低下させる。つまり、エラー値が小さい場合は、ピッチデータ２０がｓｉｎ波に近く、確実にビブラートが発生していると判断する。所定の値ｎはビブラートが確実に発生していると判断できる程度の値を実験などで割り出して設定しておく。

ビブラート発生度が上昇、つまりビブラートが発生した状況となると、音色変化度も大きくなる。したがって、ビブラート発生度の上昇に応じて音色変化度２７の下限値、および上限値を上昇変化させる。

以上のように音色変化度２７の上限値、下限値を設定し、響き度判定値６０を算出するが、判定部５３は、音声分割判定部３７から出力された音声分割情報４４に基づいて、響き度判定値６０を算出するか否かを決定する。すなわち、有声でない（ピッチデータが無い）時や、音色変化度２７が大きすぎる場合は響き度判定値６０を算出しないようにする。算出条件について例えば以下のように規定する。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
上記の条件を満たす場合に、響き度判定値６０を算出する。図１０において、このように設定した音色変化度の範囲でスペクトル傾斜度３８に対して重み付けを行う。また、音色変化度による重み付けに乗算して、さらに、ビブラート発生度、および平均エネルギデータ２９による重み付けも行う。すなわち、全体の重み付けＷは、以下のような数式で表される。

ここで、エネルギ項(rawEnergy)は、平均エネルギデータ２９から検出されるｄＢ値ではなく、音声信号の振幅の自乗を計算した値とする。後述の（数４）に示すとおり、響き度判定値６０の累積値の算出時にエネルギ項を乗算、および除算するので、振幅の自乗をエネルギ項とすることで、音声信号のエネルギレベルが変化しても響き度判定値６０の累積値の算出結果に影響しない。

ビブラート発生度による重み付け項は、図１２に示すとおりである。ビブラート発生度が最小時（０の時）に重み付けを最大(Ｗvib.prob.=１)とし、ビブラート発生度の上昇に応じて重み付けを低下させ、ビブラート発生度が最大時（１の時）に重み付けを最小(Ｗvib.prob.=０)とする。

（数２）に示した全体の重み付けWeightをスペクトル傾斜度３８に乗算することで、響き度判定値６０を算出する。まず、次の数式に示すように響き度判定値６０の瞬時値を算出する。

これを次の数式に示すように、曲の最初から現時点まで累積する。

（数４）で求めた響き度判定値６０の累積値について、最後にスペクトル傾斜度３８の値に応じてスケーリングを行う。図１３は、響き度判定値６０のスケーリングを示す図である。スペクトル傾斜度３８が任意の値−ＳＴａ以下の場合響き度判定値６０をゼロにスケーリングし、任意の値−ＳＴｂ以上の場合に響き度判定値６０を１００％にスケーリングする。この−ＳＴａから−ＳＴｂまでの間は、スペクトル傾斜度３８が大きくなるにつれてスケーリングを直線的に大きくする。

なお、上記の計算を行うに際し、音色変化度２７は、その瞬時値を曲の流れ（音色変化度２７の平均値）に応じて常に改訂する処理を行う。平均値からどれだけ逸脱しているかによって音色変化度２７をより適切に指標とすることができる。音色変化度２７を改訂する条件（トリガ条件）について以下のように規定する。

(1)平均エネルギ＞x dB
(2)ピッチデータ有
(3)｜DeltaTimbre²｜＜y
平均エネルギの閾値xはどのような値であってもよいが、例えば数ｄＢ程度とする。また、音色変化度の自乗値の閾値yもどのような値であってもよいが、音色変化が無いと判断できる程度の値に任意に設定する。上記条件を満たす場合に音色変化度を次のように改訂する。

この（数５）において、エネルギ項(Energy)は、平均エネルギデータ２９から検出されるｄＢ値を用いる。この改訂した音色変化度(DeltaTimbre inst.)２７を上述した響き度判定値６０の算出に用いる。

以上のようにして、曲の最初から所定区間（例えば曲終了）までの累積判定値を割り出し、響き度判定値６０として算出する。上記のような手法で判定値を求めることで、客観且つ正確に人の声質（響き度）を判定することができる。

なお、上述の方式では、スペクトル傾斜度３８から響き度判定値６０を割り出す手法を説明したが、さらに、スペクトル励起度３９およびフォルマント明瞭度４０を計算に取り入れてもよい。

また、別の方式として、以下のような数式から響き度判定値６０を割り出してもよい。

（数６）に示すａ〜ｆは実数（定数）である。実数ｆはオフセット値を表す。以下、それぞれの項目について説明する。
Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部３５が割り出すピーク間減衰量４２に相当する。この場合、図１において、ピーク間減衰量４２を判定部５３に入力するようにする。
Delta Energy without Vib.は、平均エネルギデータ２９の１フレーム前と１フレーム後のエネルギ差である。なお、１フレームとは、判定部５３の動作する最小時間単位を示す（１音は例えば２０フレーム程度）。また、２フレーム前と２フレーム後のエネルギ差とその平均としてもよい。
同様にDelta Pitch without Vib.は平均ピッチデータ３０の１フレーム前と１フレーム後のピッチ差（絶対値）を表す。また、２フレーム前と２フレーム後のエネルギ差とその平均としてもよい。
Mel5は、ＭＥＬ係数１８の前後５フレーム（２フレーム前、１フレーム前、現フレーム、１フレーム後、および２フレーム後）の累積である。

各項目の係数ａ〜ｅ、およびオフセット値ｆは、例えば機械学習方式（教師あり）で求める。機械学習方式とは、人間の判断事例から数値を導き出す手法（ニューラルネットワーク等）であり、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。

以上のような数式から響き度判定値６０を算出することでも客観且つ正確に人の声質（響き度）を判定することができる。なお、この方式においても、以下の条件を満たす場合にのみ響き度判定値６０を算出するものである。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
なお、上述の方式以外にも、スペクトル傾斜度３８、スペクトル励起度３９およびフォルマント明瞭度４０について相加平均等により響き度判定値６０を割り出してもよい。また、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィ等の他の推論エンジンを用いてもよい。

次に、透明度６１は、音声信号波形の声の質のすきとおった感じを表す指標である。透明度判定部５４は、倍音安定度４１、ピーク間減衰量４２、および波形ピークレベル安定度４３のうちいずれか１つに基づいて透明度６１を判定する。すなわち、倍音安定度４１は、倍音成分の周波数，振幅，位相等の安定度を示す指標であり、倍音成分が安定しているほどにごりの少ない透明な音であると分析できる。また、ピーク間減衰量４２は、音声信号に基本波の倍音成分以外の成分がどの程度含まれているかを表すパラメータであり、倍音成分が含まれる程度が少ないほど澄んだ純粋な音であると判断することができる。波形ピークレベル安定度４３は、時間軸波形のピークの安定度を示すパラメータであり、ピークが安定しているほど純粋な澄んだ音であると判断される。

これら倍音安定度４１が示す倍音成分の安定性、ピーク間減衰量４２が示す倍音成分以外の成分の少なさ、波形ピークレベル安定度４３が示す時間軸波形の安定度から透明度判定値６１を算出する。

この透明度判定値６１の算出手法の１例について説明する。判定部５４は、透明度判定値６１をピーク間減衰量４２、および波形ピークレベル安定度４３から算出する。この透明度判定値６１を算出する際に、ピーク間減衰量４２、および波形ピークレベル安定度４３に対して重み付けを行う。例えば音色変化度２７が大きくなるにつれてピーク間減衰量４２、および波形ピークレベル安定度４３の値による透明度判定値６１が小さくなるようにする。

すなわち、図１０（Ａ）に示したように、音色変化度２７が小さい場合は重み付けを１とし、音色変化度２７が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で０とする。この下限値、および上限値は、図１０（Ｂ）に示すように、音色変化度の下限値、上限値はビブラート発生度に応じてその値を変化させる。ビブラート発生度が大きくなると下限値、上限値も大きく設定する。

判定部５４は、音声分割判定部３７から出力された音声分割情報４４に基づいて、透明度判定値６１を算出するか否かを決定する。すなわち、有声でない（ピッチデータが有る）時や、音色変化度２７が大きすぎる場合は算出しないようにする。算出条件については上述の響き度判定値６０と同様に、例えば以下のように規定する。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
上記の条件を満たす場合に、透明度判定値６１を算出する。図１０において、このように設定した音色変化度の範囲でピーク間減衰量４２、および波形ピークレベル安定度４３に重み付けを行う。また、平均エネルギデータ２９による重み付けも行う。全体の重み付けWeightは、以下のような数式で表される。

ここで、エネルギ項（rawEnergy）は、平均エネルギデータ２９から検出されるｄＢ値ではなく、入力音声信号の振幅の自乗を計算した値とする。振幅の自乗をエネルギ項とすることで、音声信号のエネルギレベルが変化しても透明度判定値６１の累積値の算出結果に影響しない。

（数７）に示した全体の重み付けWeightをピーク間減衰量４２、および波形ピークレベル安定度４３の瞬時値に乗算することで透明度判定値６１を算出するが、ピーク間減衰量４２、および波形ピークレベル安定度４３のそれぞれの瞬時値はビブラート発生度による補正を行う。ビブラート発生度による補正項ｅは、図１４に示すとおりである。ビブラート発生度が最小時（０の時）に補正項ｅを最大(Ｗvib.prob.=１)とし、ビブラート発生度の上昇に応じて重み付けを低下させ、ビブラート発生度が最大時（１の時）に補正項ｅを最小(Ｗvib.prob.=０．５)とする。
この補正項を次の数式に示すように、ピーク間減衰量４２、および波形ピークレベル安定度４３に乗算してそれぞれの瞬時値を算出する。

さらに、（数９）で求めたピーク間減衰量４２、および波形ピークレベル安定度４３の累積値について、それぞれの値でスケーリングを行う。図１５は、ピーク間減衰量４２と波形ピークレベル安定度４３のスケーリングを示す図である。同図（Ａ）にピーク間減衰量４２の値に応じたスケーリングを示す。同図（Ｂ）に波形ピークレベル安定度４３の値に応じたスケーリングを示す。ピーク間減衰量４２が任意の値Hsa以下の場合にゼロにスケーリングし、任意の値Hsb以上の場合に１００％にスケーリングする。このHsaからHsbまでの間は、ピーク間減衰量４２が大きくなるにつれてスケーリングを直線的に大きくする。

また、波形ピークレベル安定度４３が任意の値PRa以下の場合に１００％にスケーリングし、任意の値PRｂ以上の場合にゼロにスケーリングする。このPraからPrbまでの間は、波形ピークレベル安定度４３が大きくなるにつれてスケーリングを直線的に小さくする。

最後に、次の数式のように、上記のピーク間減衰量４２と波形ピークレベル安定度４３を加算して平均化することで、透明度判定値６１を算出する（ただし、0≦ａ≦1.0、0≦ｂ≦1.0とする）。

以上のようにして透明度判定値６１を算出する。この透明度判定値６１が大きいほど、透明ですきとおった感じの声質であると判断できる。

なお、上記の計算を行うに際し、音色変化度２７は、上述の響き度判定値６０の算出時と同様に、その瞬時値を曲の流れ（音色変化度２７の平均値）に応じて常に改訂する処理を行う。改訂条件は上述と同様であり、以下のように規定する。

(1)平均エネルギ＞x dB
(2)ピッチデータ有
(3)｜DeltaTimbre²｜＜y
上記条件を満たす場合に（数５）に示した数式で音色変化度を改訂する。

以上のようにして、曲の最初から所定区間（例えば曲終了）までの累積ピーク間減衰量４２、および波形ピークレベル安定度４３を割り出し、これを加算して平均化することで透明度判定値６１を算出する。上記のような手法で判定値を求めることで、客観且つ正確に人の声質（透明度）を判定することができる。

なお、上述の方式では、ピーク間減衰量４２、および波形ピークレベル安定度４３から透明度判定値６１を割り出す手法を説明したが、さらに、倍音安定度４１を計算に取り入れてもよい。

また、別の方式として、以下のような数式から透明度判定値６１を割り出してもよい。

（数１１）に示すａ〜ｅは実数（定数）である。なお、上述の響き度判定値６０の算出時に用いた実数ａ〜ｆとは異なる数値であるものとする。実数ｅはオフセット値を表す。以下、それぞれの項目について説明する。
Spect.Tiltは、周波数スペクトルの傾斜を示す値であり、上記スペクトル傾斜度分析部３１が割り出すスペクトル傾斜度３８を表す。この場合、図１において、スペクトル傾斜度３８を判定部５４に入力するようにする。
Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部３５が割り出すピーク間減衰量４２に相当する。

Delta Energy without Vib.は、平均エネルギデータ２９の１フレーム前と１フレーム後のエネルギ差である。また、２フレーム前と２フレーム後のエネルギ差とその平均としてもよい。
Pitch Centsは平均ピッチ３０を表す。
各項目の係数ａ〜ｄ、およびオフセット値ｅは、上述した判定値と同様に機械学習方式（教師あり）で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。

以上のような数式から透明度判定値６１を算出することでも客観且つ正確に人の声質（響き度）を判定することができる。なお、この方式においても、以下の条件を満たす場合にのみ透明度判定値６１を算出するものである。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
なお、上述の方式以外にも、倍音安定度４１、ピーク間減衰量４２および波形ピークレベル安定度４３について相加平均等により透明度判定値６１を割り出してもよい。また、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィやニューラルネットワーク等の推論エンジンを用いてもよい。

次に、安定度は、音声がどの程度安定して発音されているかを表す指標である。安定度分析部５５は、安定度６２を平均ピッチ３０から算出する。
この安定度６２の算出手法の１例について説明する。判定部５５は、安定度６２を算出する際に、平均ピッチ３０に対して重み付けを行う。例えば音色変化度２７が大きくなるにつれて平均ピッチ３０の値による安定度６２が小さくなるようにする。

判定部５５は、音声分割判定部３７から出力された音声分割情報４４に基づいて、安定度６２を算出するか否かを決定する。すなわち、サスティンが短い場合は算出しないようにする。算出条件については、例えば以下のように規定する。

(1)所定フレーム（Ｎフレーム）以上サスティン区間が続く
上記の条件を満たす場合に、安定度６２を算出する。Ｎ数は音声が安定している状態であると判断できる値を実験により求める。サスティン区間がＮフレーム未満であった場合は、フレーム累積数をリセットする。

図１０において、このように設定した音色変化度の範囲でピーク間減衰量４２、および波形ピークレベル安定度４３に重み付けを行う。また、平均エネルギデータ２９による重み付けも行う。全体の重み付けWeightは、上述した数式（数７）で表される。なお、ここではＮフレーム以上サスティン区間が続く場合のみを条件とするので、音色変化度２７の値は、図１０に示した下限値よりも小さくなる場合が多く、音色変化度２７による重み付けはほとんどの場合１．０である。

数式７において、エネルギ項（rawEnergy）は、平均エネルギデータ２９から検出されるｄＢ値ではなく、入力音声信号の振幅の自乗を計算した値とする。振幅の自乗をエネルギ項とすることで、音声信号のエネルギレベルが変化しても安定度判定値６２の累積値の算出結果に影響しない。

（数７）に示した全体の重み付けWeightを平均ピッチ３０の瞬時値に乗算することで安定度６２を算出するが、平均ピッチ３０の瞬時値はビブラート発生度による補正を行う。ビブラート発生度による補正項ｅは、図１４に示したとおりである。ビブラート発生度が最小時（０の時）に補正項ｅを最大(Ｗvib.prob.=１)とし、ビブラート発生度の上昇に応じて重み付けを低下させ、ビブラート発生度が最大時（１の時）に補正項ｅを最小(Ｗvib.prob.=０．５)とする。
この補正項を次の数式に示すように、平均ピッチ３０に乗算してその瞬時値を算出する。

この平均ピッチ３０の瞬時値に（数７）に示した全体の重み付けWeightを乗算し、次の数式に示すように安定度６２の瞬時値を算出する。

これを次の数式に示すように、各フレーム毎に累積する。（ここでは曲の最初から現時点までではなく、Ｎフレーム以上のサスティン区間において有効なフレームを累積する。）

最後に、（数１４）で求めた安定度６２の累積値について、この値に応じてスケーリングを行う。図１６は、安定度６２のスケーリングを示す図である。安定度６２が０から任意の値Ｓａまでの間で安定度６２が大きくなるにつれてスケーリングを直線的に大きくする。

なお、上記の計算を行うに際し、音色変化度２７は、上述の響き度判定値６０、透明度判定値６１の算出時と同様に、その瞬時値を曲の流れ（音色変化度２７の平均値）に応じて常に改訂する処理を行う。改訂条件は上述と同様である。

以上のようにして、所定フレーム以上サスティン区間が続く場合に、有効フレームのみ累積することで安定度６２を算出する。この安定度６２が大きいほど、安定して発音されていると判断できる。上記のような手法で判定値を求めることで、客観且つ正確に人の声質（安定度）を判定することができる。

なお、上述の方式以外にも、平均エネルギ２９、平均ピッチ３０、エネルギ安定度５０、ピッチ安定度５１の相加平均等により安定度６２を判定してもよい。

エネルギ安定度５０は、入力された音声信号のエネルギ（信号レベル）の安定度を示すパラメータである。エネルギ安定度５０は、音声信号のサスティン部で計測する。エネルギ安定度分析部４６は、ＤＳＰ１から入力された平均エネルギ２９の時間軸の分散（標準偏差）を算出し、これをエネルギ安定度５０として出力する。

ピッチ安定度５１は、入力された音声信号のピッチの安定度を示すパラメータである。ピッチ安定度は、音声信号のサスティン部で計測する。ピッチ安定度分析部４７は、ＤＳＰ１から入力された平均ピッチ３０の時間軸の分散（標準偏差）を算出し、これをピッチ安定度５１として出力する。

ピッチ／エネルギ分布５２は、図１７に示すように、ピッチ（周波数）を横軸にエネルギを縦軸にした座標平面上に、音声信号のピッチとエネルギの組み合わせを長時間プロットし、その分布範囲を台形近似したものである。ピッチエネルギ分布分析部４８では、この台形の形状により、どの周波数範囲で安定したエネルギの音声が発声されているかを分析し、ピッチ／エネルギ分布５２として出力する。

以上のエネルギ安定度５０、およびピッチ安定度５１に、平均エネルギ２９、および平均ピッチ３０を加味して安定度６２を算出する。算出の方式は、相加平均等の算術的な方式によってもよく、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィやニューラルネットワーク等の推論エンジンを用いてもよい。

また、さらに別の方式として、以下のような数式から安定度６２を割り出してもよい。

（数１５）に示すａ〜ｅは実数（定数）である。なお、上述の響き度判定値６０の算出時に用いた実数ａ〜ｆ、および透明度判定値６１に用いた実数ａ〜ｅとは異なる数値であるものとする。実数ｅはオフセット値を表す。以下、それぞれの項目について説明する。
Pitch Centsは平均ピッチデータ３０を表す。
DeltaPitch without Vib.は、平均ピッチデータ３０の１フレーム前と１フレーム後のピッチ差を表す。また、２フレーム前と２フレーム後のエネルギ差とその平均としてもよい。
Freq.Stabilityは、倍音ピークデータ２６各倍音ピーク成分について周波数成分の安定度を表す。ここでは、各倍音ピーク成分について現在のフレームと１つ前のフレームとの差の平均値をとり、これをFreq.Stabilityとする。

Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部３５が割り出すピーク間減衰量４２に相当する。

各項目の係数ａ〜ｄ、およびオフセット値ｅは、上述した判定値と同様に機械学習方式（教師あり）で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。

なお、この方式においても、以下の条件を満たす場合にのみ安定度６２を算出するものである。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
次に、高音余裕度６３は、高音の発生にどの程度余裕があるか（金切り声になっていないか）を表す指標である。高音余裕度分析部５６は、平均エネルギデータ２９に基づいて高音余裕度６３を判定する。

高音余裕度６３の算出手法の１例について説明する。判定部５６は、高音余裕度６３を算出する際に、平均エネルギデータ２９に対して種々の特徴量による重み付けを行う。例えば音色変化度２７が大きくなるにつれて平均エネルギデータ２９の値による高音余裕度６３が小さくなるようにする。

また、平均エネルギデータ２９、ビブラート発生度、および平均ピッチデータ３０による重み付けも行う。図１８は平均エネルギデータ２９による重み付けを説明する図である。平均エネルギデータ２９が任意の値Ea以下の場合は重み付けを０とし、Eb以上の場合に重み付けを１とする。このEaからEbまでの間は、平均エネルギ２９が大きくなるにつれて重み付けを直線的に大きくする。エネルギが小さすぎる場合はこの特徴量による重みを小さくする。

図１９は、ビブラート発生度による重み付けを説明する図である。ビブラート発生度が任意の値Va以下の場合は重み付けを１とし、ビブラート発生度の最大値である１．０の場合に重み付けを０とする。任意の値Vaから１．０までの間は、ビブラート発生度が大きくなるにつれて重み付けを直線的に小さくする。つまりビブラートが確実に発生していると判断できる場合はこの特徴量による重み付けを小さくする。

図２０は、平均ピッチデータ３０による重み付けを説明する図である。ここでWeightpitchは、同図に示すようにピッチ（周波数ｆ）のべき乗で表される。周波数が大きくなるにつれ重み付けを等比的に大きくする。つまり、高音の音声信号について高音余裕度６３の結果に大きく反映させる。本発明者は、実験によりべき乗（等比）による重みを付けることで、例えばキーを変えた歌唱音声であっても結果が同一となることを確認している。

以上のように各特徴量の重み付けを設定し、高音余裕度６３を算出するが、判定部５６は、音声分割判定部３７から出力された音声分割情報４４に基づいて、高音余裕度６３を算出するか否かを決定する。算出条件について例えば以下のように規定する。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
上記の条件を満たす場合に、高音余裕度６３を算出する。上述した特徴量で平均エネルギデータ２９に対して重み付けを行う。ここで、本実施形態においては、平均ピッチデータ３０による重み付けを行った値と平均ピッチデータ３０による重み付けを行わない値とを算出し、この比を算出する。全体の重み付けＷ（ピッチ無し）、およびＷpitch（ピッチ有り）は、以下のような数式で表される。

（数１６）、および（数１７）で表されるそれぞれの重み付けを平均エネルギデータ２９に乗算し、これを以下の数式に示すように曲の最初から現時点まで累積して高音余裕度６３の素点をそれぞれ算出する。

それぞれの素点の比を以下の数式に示すように算出して高音余裕度６３の素点（rawscore）とする。ピッチ無しの素点とピッチ有りの素点の比を算出することで高音でのエネルギを重点的に評価することとなる。

この素点に、さらに、半音階（Ａ＝４４０Ｈｚのピッチ）を正しく発音できているかを表す指標値（半音階逸脱度）を乗算する。図２１は、半音階逸脱度を説明する図である。同図に示すグラフの横軸は平均ピッチデータ（cent単位）を示す。１００centで半音変化とする。例えばピッチが１５０centの音声であった場合、半音と半音の間を発音していることとなるので、半音階から最も逸脱しているとしてErr値を最大（Err=1.0）とする。１００centの音声であった場合はちょうど半音階を発音していることとなり、Err値を最小（Err=0）とする。また、半音の±数十cent（例えば２０cent）についてもほぼ半音階を発音しているとしてErr値を最小とする。この±数十centを超えた場合に直線的にErr値を大きくする。

上記の半音階逸脱度（Err値)と高音余裕度６３の素点（raw score）をスケーリングしてから乗算することで高音余裕度６３を判定する。図２２は、半音階逸脱度と高音余裕度６３の素点のスケーリングを示す図である。同図（Ａ）に半音階逸脱度の値に応じたスケーリングを示す。同図（Ｂ）に高音余裕度６３の素点の値に応じたスケーリングを示す。半音階逸脱度が任意の値Era以下の場合にゼロにスケーリングし、任意の値Erb以上の場合に１００％にスケーリングする。このEraからErbまでの間は、半音階逸脱度が大きくなるにつれてスケーリングを直線的に大きくする。

また、高音余裕度６３の素点が任意の値RSa以下の場合に１００％にスケーリングし、任意の値RSb以上の場合に所定のスケール値RSCa（例えば６０％程度）にスケーリングする。このRSaからRsbまでの間は、高音余裕度６３の素点が大きくなるにつれてスケーリングを直線的に小さくする。
最後に、半音階逸脱度と高音余裕度６３の素点を乗算する。この乗算値を高音余裕度６３として判定する。

なお、高音余裕度分析部５６は、安定度判定値６２、透明度判定値６１、平均ピッチ３０、および、ピッチ／エネルギ分布５２に基づいて高音余裕度６３を判定してもよい。判定の方式は、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィやニューラルネットワーク等の推論エンジンを用いてもよい。

また、また、さらに別の方式として、以下のような数式から高音余裕度６３を割り出してもよい。

（数２１）に示すａ〜ｆは実数（定数）である。なお、上述の響き度判定値６０の算出時に用いた実数ａ〜ｆ、透明度判定値６１に用いた実数ａ〜ｅ、および安定度６２に用いた実数ａ〜ｅとは異なる数値であるものとする。実数ｆはオフセット値を表す。以下、それぞれの項目について説明する。
Spect.Tiltは、周波数スペクトルの傾斜を示す値であり、上記スペクトル傾斜度分析部３１が割り出すスペクトル傾斜度３８を表す。この場合、図１において、スペクトル傾斜度３８を判定部５６に入力するようにする。
Vob.Prob.は、ビブラート発生度を表す。
Energy at High pitchは、高音領域におけるエネルギを示す値であり、平均エネルギデータ２９についてピッチによる重み付き累積平均処理を行い、非線形処理を加味したものである。すなわち、ピッチの重み付けを平均エネルギデータ２９に乗算する。ただし、平均エネルギデータ２９をスケーリングしてから重み付けを行う。図２３は、ピッチのスケーリングを示した図である。同図に示すように、平均ピッチデータ３０が任意の値Pa以下の場合はピッチ（Pitch'）をPaとし、Pb以上の場合にピッチ（Pitch'）をPbとする。このPaからPbまでの間は、平均ピッチデータ３０が大きくなるにつれてピッチを直線的に大きくする。このスケーリングしたピッチ（Pitch'）について図２４に示すように重み付け（WPitch'）を設定する。この重み付けを、次の数式に示すように平均エネルギデータ２９に乗算する。

Spect.Tilt at High pitchは、高音領域における周波数スペクトルの傾斜を示す値であり、スペクトル傾斜度３８についてピッチによる重み付き累積平均処理を行い、非線形処理を加味したものである。すなわち、図２０に示したピッチの重み付けを平均エネルギデータ２９に乗算する。

Pitch Dew From Perfect Scaleは、上述した半音階逸脱度を表す。

各項目の係数ａ〜ｅ、およびオフセット値ｆは、上述した判定値と同様に機械学習方式（教師あり）で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。

なお、この方式においても、以下の条件を満たす場合にのみ高音余裕度６３を算出するものである。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
次に、低音余裕度６４は、低音の発生にどの程度余裕があるかを表す指標である。低音余裕度分析部５７は、例えば以下の手法で低音余裕度６４を算出する。判定部５７は、低音余裕度６４を算出する際に、倍音ピークデータ２６に対して種々の特徴量による重み付けを行う。例えば音色変化度２７が大きくなるにつれて低音余裕度６４が小さくなるようにする。

また、平均エネルギデータ２９、および平均ピッチデータ３０による重み付けも行う。すなわち、全体の重み付けＷは、以下のような数式で表される。

ここで、エネルギ項(rawEnergy)は、音声信号の振幅の自乗を計算した値とする。ピッチによる重み付け項は、図２５に示すとおりである。ここでWeightpitchLowは、同図に示すようにピッチ（周波数ｆ）の負のべき乗で表される。周波数が小さくなるにつれ重み付けを等比的に大きくする。つまり、低音の音声信号について低音余裕度６４の結果に大きく反映させる。本発明者は、実験によりべき乗（等比）による重みを付けることで、例えばキーを変えた歌唱音声であっても結果が同一となることを確認している。

（数２３）に示した全体の重み付けWeightを倍音ピークデータ２６に乗算し、曲の最初から現時点まで累積する。ただし、低音余裕度６４を算出する場合、倍音ピークデータ２６のうち、２倍音のピーク（ｄＢ）と基音のピーク（ｄＢ）との差を求め、この値について次の数式のように重み付き累積平均を算出する。

（数２４）で求めた低音余裕度６４の累積値について、最後にスケーリングを行う。図２６は、低音余裕度６４のスケーリングを示す図である。低音余裕度６４の累積値が任意の値−LTa以下の場合低音余裕度６４をゼロにスケーリングし、任意の値ＬＴｂ以上の場合に低音余裕度６４を１００％にスケーリングする。この−ＬＴａからＬＴｂまでの間は、低音余裕度６４の累積値が大きくなるにつれてスケーリングを直線的に大きくする。

なお、低音余裕度分析部５７は、響き度判定値６０、平均ピッチ３０およびピッチ／エネルギ分布５２に基づいて低音余裕度６４を判定してもよい。判定の方式は、他の声質判定値と同様に算術平均、テーブル、推論エンジンのいずれの方式でもよい。

また、さらに別の方式として、以下のような数式から低音余裕度６４を割り出してもよい。

（数２５）に示すａ〜ｄは実数（定数）である。なお、上述の響き度判定値６０の算出時に用いた実数ａ〜ｆ、透明度判定値６１に用いた実数ａ〜ｅ、安定度６２に用いた実数ａ〜ｅ、および高音余裕度６３に用いた実数ａ〜ｆとは異なる数値であるものとする。実数ｄはオフセット値を表す。以下、それぞれの項目について説明する。
HL Energy Ratioは、高周波帯域と低周波帯域のａｍｐの比を表す。図２７に示すように、ピッチ／エネルギ分布５２のうち、任意の高周波数帯域と任意の低周波帯域についてそれぞれ平均を算出する。このそれぞれの平均値について次の数式に示すように比を算出する。

Vob.Prob.は、ビブラート発生度を表す。
Pitch Dew From Perfect Scaleは、上述した半音階逸脱度を表す。

各項目の係数ａ〜ｃ、およびオフセット値ｄは、上述した判定値と同様に機械学習方式（教師あり）で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。

なお、この方式においても、以下の条件を満たす場合にのみ低音余裕度６４を算出するものである。

(1)ピッチデータが有る
(2)音色変化度＜音色変化度上限値
なお、上記実施形態は、本発明の１つの具体例に過ぎず、音声信号を評価する内容は、響き度、透明度、安定度、高音余裕度、低音余裕度に限定されない。また、途中算出する物理パラメータも、上記のものに限定されない。

例えば、本発明の声質判定装置を用いることで、鼻音（鼻にかかった声）の発生程度を表す指標である鼻音検出値を算出することもできる。以下、鼻音検出値を算出する手法について説明する。図２８は、鼻音検出を行う場合の声質判定装置の機能ブロック図である。なお、図１で示した機能ブロック図と同一の機能部については同一の符号を付し、その説明を省略する。

鼻音検出を行う場合の声質判定装置において、外部から入力された音声信号１０は、ピッチ検出部１５、ダウンサンプリング部１１に入力されるとともに鼻音検出部５８に入力される。周波数スペクトル１６は、ピーク検出部２１、ＭＥＬ分析部１７に入力されるとともに鼻音検出部５８に入力される。鼻音検出部５８は、この音声信号１０、および周波数スペクトル１６から鼻音検出値６５を算出する。

図２９に鼻音検出部５８の詳細な機能ブロック図を示す。同図に示すように、音声信号１０が入力されるウィンドウ処理部５０１は、フィルタリングの前処理として、音声信号からサンプリングデータ列を切り出して、このサンプリングデータ列に窓関数を掛ける。窓関数処理がされた音声信号（サンプリングデータ列）は、ローパスフィルタ（ＬＰＦ）５０２とバンドパスフィルタ（ＢＰＦ）５０３に対して出力される。一方で周波数スペクトル１６が入力される第一フォルマント抽出部５０４は、第一フォルマントを抽出するために所定の周波数帯域（例えば３００Ｈｚ〜１０００Ｈｚ）のスペクトルについて重心となる周波数を計算を行う。この重心周波数は第一フォルマント周波数５０５としてＢＰＦ５０３に対して出力される。

ＬＰＦ５０２は、予め定めた周波数以下の低周波数帯域の音声信号のみをTeagerOperator５０６に出力する。例えば１ｋＨｚ以下の周波数帯域を出力する。ＢＰＦ５０３は、予め定めた周波数帯域のみの音声信号をTeager Operator５０７に出力する。ＢＰＦ５０３は、音声信号を出力する周波数帯域を第一フォルマント周波数５０５に基づいて決定する。すなわち、第一フォルマント周波数５０５を中心とする所定周波数帯域の音声信号を出力する。通過帯域幅は例えば前後２５０Ｈｚとする。

Teager Operator５０６、およびTeager Operator５０７は、サンプリングデータ列に対して、以下の数式で表される計算を行う。

Teager Operator５０６の計算値はエネルギ計算部５０８に出力され、TeagerOperator５０７の計算値はエネルギ計算部５０９に出力される。エネルギ計算部５０８、およびエネルギ計算部５０９は、それぞれ、次の数式に示すようにフレーム毎のエネルギ値を算出する。

エネルギ計算部５０８、およびエネルギ計算部５０９は、上記エネルギ値を相対差計算部５１０に出力する。相対差計算部５１０は、以下の数式に示すように、ＬＰＦ５０２、ＢＰＦ５０３に対するエネルギ値の相対差を算出する。

相対差計算部５１０は、この相対差ｒを鼻音検出値６５として出力する。この鼻音検出値６５が大きいほど鼻にかかった声として判断することができる。以上のような手法で鼻音検出値６５を求めることで、客観且つ正確に人の声質（安定度）を判定することができる。

なお、この鼻音検出値６５を用いて、以下のような数式により人間が導き出す結果に近づけるようにしてもよい。

（数３０）に示すａ〜ｈは実数（定数）である。なお、上述の響き度判定値６０の算出時に用いた実数ａ〜ｆ、透明度判定値６１に用いた実数ａ〜ｅ、安定度６２に用いた実数ａ〜ｅ、高音余裕度６３に用いた実数ａ〜ｆ、および低音余裕度６４に用いた実数ａ〜ｄとは異なる数値であるものとする。実数ｈはオフセット値を表す。以下、それぞれの項目について説明する。
Spect.Tiltは、周波数スペクトルの傾斜を示す値であり、スペクトル傾斜度分析部３１が割り出すスペクトル傾斜度３８を表す。

Formant To Harm.Areaは、フォルマント明瞭度分析部３３が割り出すフォルマント明瞭度４０を表す。

Nasalは、上記鼻音検出値６５を表す。

Mel2は、ＭＥＬ係数１８の前後２フレーム（現フレーム、および１フレーム後）の累積である。

Mel3は、ＭＥＬ係数１８の前後３フレーム（１フレーム前、現フレーム、および１フレーム後）の累積である。

Mel5は、ＭＥＬ係数１８の前後５フレーム（２フレーム前、１フレーム前、現フレーム、１フレーム後、および２フレーム後）の累積である。

各項目の係数ａ〜ｇ、およびオフセット値ｈは、上述した判定値と同様に機械学習方式（教師あり）で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。

この発明の実施形態である声質判定装置の機能ブロック図ｓｉｎ波の算出手法について説明する図同声質判定装置におけるスペクトル傾斜度の分析方式を説明する図同声質判定装置におけるスペクトル励起度の分析方式を説明する図同声質判定装置におけるフォルマント明瞭度の分析方式を説明する図同声質判定装置におけるピーク間減衰量の分析方式を説明する図同声質判定装置における波形ピークレベル安定度の分析方式を説明する図同声質判定装置におけるＭＥＬ係数の分析方式を説明する図音声信号のエンベロープ形状の例を示す図音色変化度の重み付けについて説明する図ビブラート発生度を説明する図ビブラート発生度による重み付け項を説明する図響き度のスケーリングを説明する図ビブラート発生度による補正項を示す図ピーク間減衰量４２と波形ピークレベル安定度４３のスケーリングを示す図安定度のスケーリングを説明する図同声質判定装置におけるピッチ／エネルギ分布の分析方式を説明する図平均エネルギデータによる重み付けを説明する図ビブラート発生度による重み付けを説明する図（高音余裕度において）ピッチによる重み付けを説明する図半音階逸脱度を説明する図半音階逸脱度と高音余裕度６３の素点のスケーリングを示す図ピッチのスケーリングを示す図スケーリングしたピッチ（Pitch'）について重み付けを示す図（低音余裕度において）ピッチによる重み付けを示す図低音余裕度６４のスケーリングを示す図高周波帯域と低周波帯域のａｍｐの比を表す図鼻音検出を行う場合の声質判定装置の機能ブロック図鼻音検出部５８の詳細な機能ブロック図

符号の説明

１…ＤＳＰ
２…ＣＰＵ
１０…音声信号
６０…響き度
６１…透明度
６２…安定度
６３…高音余裕度
６４…低音余裕度
６５…鼻音検出値

Claims

入力した音声信号から、その音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
前記音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析部と、
この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定部と、
を備え、
前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
前記声質判定部は、音声の切れ目およびサスティン部を前記音色変化度により判定した結果である音声分割情報に基づいて、前記判定値を算出するか否かを決定し、算出すると決定した区間の判定値の累積値に基づいて音声信号の音質を判定する請求項１に記載の音質判定装置。
音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
音声信号の周波数スペクトルの傾斜を示すスペクトル傾斜度パラメータ、音声信号の基本波の倍音成分の減衰曲線を表すスペクトル励起度パラメータ、および、音声信号のフォルマント成分の明瞭度を表すフォルマント明瞭度パラメータを分析する物理パラメータ分析部と、
前記スペクトル傾斜度パラメータ、前記スペクトル励起度パラメータおよび前記フォルマント明瞭度パラメータのうち、少なくともいずれか１つに対して重み付けを行い響き度判定値を算出し、該響き度判定値の累積値に基づいて前記音声信号の響き度を判定する声質判定部と、
を備え、
前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および、音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析する物理パラメータ分析部と、
前記倍音安定度パラメータ、前記ピーク間減衰量パラメータ、および前記波形ピークレベル安定度パラメータのうち、少なくともいずれか１つに対して重み付けを行い透明度判定値を算出し、該透明度判定値の累積値に基づいて前記音声信号の透明度を判定する声質判定部と、
を備え、
前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
音声信号の基本周波数を表すピッチパラメータを分析する物理パラメータ分析部と、
前記ピッチパラメータに対して重み付けを行い安定度判定値を算出し、該安定度判定値の累積値に基づいて前記音声信号の安定度を判定する声質判定部と、
を備え、
前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
前記物理パラメータ分析部は、音声信号のパワーレベルを表すエネルギパラメータ、音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析し、
前記声質判定部は、前記ピッチパラメータおよび前記エネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ／エネルギ分布パラメータを分析するとともに、
前記倍音安定度パラメータ、前記ピーク間減衰量パラメータおよび前記波形ピークレベル安定度パラメータのうち、少なくともいずれか１つに対して前記重み付けを行い透明度判定値を算出し、
前記ピッチパラメータ、前記ピッチ／エネルギ分布パラメータ、前記安定度判定値、および前記透明度判定値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定する請求項５に記載の声質判定装置。
音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
音声信号のパワーレベルを表すエネルギパラメータを分析する物理パラメータ分析部と、
前記エネルギパラメータに対して重み付けを行い高音余裕度を算出し、該高音余裕度の乗算値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定する声質判定部と、
を備え、
前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
前記物理パラメータ分析部は、音声信号の基本周波数を表すピッチパラメータ、音声信号のパワーレベルを表すエネルギパラメータを分析し、
前記声質判定部は、前記ピッチパラメータおよびエネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ／エネルギ分布パラメータを分析するとともに、前記ピッチパラメータ、前記ピッチ／エネルギ分布パラメータ、および前記響き度判定値に基づいて、音声信号の低音域の余裕度を示す低音余裕度を判定する請求項２に記載の声質判定装置。
音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
音声信号の基本波の倍音成分を表す倍音ピークパラメータを分析する物理パラメータ分析部と、
前記倍音ピークパラメータに対して重み付けを行い低音余裕度を算出し、該低音余裕度の累積値に基づいて前記音声信号の低音域の余裕度を示す低音余裕度を判定する声質判定部と、
を備え、
前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、
前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、
前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、
前記物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、
を備えた声質判定方法。
コンピュータに、
入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、
前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、
前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、
この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、
を実行させる声質判定プログラム。