JP4432893B2 - 声質判定装置、声質判定方法、および声質判定プログラム - Google Patents

声質判定装置、声質判定方法、および声質判定プログラム Download PDF

Info

Publication number
JP4432893B2
JP4432893B2 JP2005361612A JP2005361612A JP4432893B2 JP 4432893 B2 JP4432893 B2 JP 4432893B2 JP 2005361612 A JP2005361612 A JP 2005361612A JP 2005361612 A JP2005361612 A JP 2005361612A JP 4432893 B2 JP4432893 B2 JP 4432893B2
Authority
JP
Japan
Prior art keywords
value
parameter
audio signal
voice
voice quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005361612A
Other languages
English (en)
Other versions
JP2006195449A (ja
Inventor
琢哉 藤島
聡 関根
伸悟 神谷
ジョルディ・ボナダ
ラルス・ファビグ
オスカー・メイヤー
アレックス・ロスコス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005361612A priority Critical patent/JP4432893B2/ja
Publication of JP2006195449A publication Critical patent/JP2006195449A/ja
Application granted granted Critical
Publication of JP4432893B2 publication Critical patent/JP4432893B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、人が発声した音声信号の質(声質)を客観的に判定する声質判定装置、声質判定方法および声質判定プログラムに関する。
カラオケ装置で歌唱を採点するために歌唱技巧等を判定したり、歌唱を技巧データで変換することは、従来より提案されていた(例えば、特許文献1、特許文献2)。
特許文献1には、入力された音声信号から、音程、テンポ、声質等の各種の歌唱力判定要素を抽出し、この歌唱力判定要素を標準パターンと比較しファジィ推論を行うことによって歌唱力を判定する装置が記載されている。
また、特許文献2には、歌唱者の歌唱音声からフォルマントを抽出し、このフォルマントをリファレンスのフォルマント情報と比較することによって歌唱者の声がどの程度男性らしいかどの程度女性らしいかの性別度やどの位の年齢の声に聞こえるかの分析年齢などの情報を割り出すカラオケ装置が記載されている。
特開平03−084599号公報 特開2000−047673号公報
しかし、上記特許文献に記載のものは、いずれも標準パターンやリファレンスと比較するものであって、その標準パターンやリファレンスとどれだけ似ているかによって、評価(点数)が決定されるものであり、歌唱者の声質そのものを客観的に判定するものはなかった。
したがって、カラオケ装置において、歌唱者が独自の歌唱法や声質で上手く歌唱しても、標準パターンやリファレンスと一致度が低い場合には、採点結果の点数が低くなってしまうという問題点があった。
この発明は、人が発声した音声信号の質(声質)を客観的に判定することのできる声質判定装置、声質判定方法、および声質判定プログラムを提供することを目的とする。
この発明は、入力した音声信号から、その音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、前記音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析部と、この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明は、上記発明において、前記声質判定部は、音声の切れ目およびサスティン部を前記音色変化度により判定した結果である音声分割情報に基づいて、前記判定値を算出するか否かを決定し、算出すると決定した区間の判定値の累積値に基づいて音声信号の音質を判定することを特徴とする。
この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の周波数スペクトルの傾斜を示すスペクトル傾斜度パラメータ、音声信号の基本波の倍音成分の減衰曲線を表すスペクトル励起度パラメータ、および、音声信号のフォルマント成分の明瞭度を表すフォルマント明瞭度パラメータを分析する物理パラメータ分析部と、前記スペクトル傾斜度パラメータ、前記スペクトル励起度パラメータおよび前記フォルマント明瞭度パラメータのうち、少なくともいずれか1つに対して重み付けを行い響き度判定値を算出し、該響き度判定値の累積値に基づいて前記音声信号の響き度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および、音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析する物理パラメータ分析部と、前記倍音安定度パラメータ、前記ピーク間減衰量パラメータ、および前記波形ピークレベル安定度パラメータのうち、少なくともいずれか1つに対して重み付けを行い透明度判定値を算出し、該透明度判定値の累積値に基づいて前記音声信号の透明度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の基本周波数を表すピッチパラメータを分析する物理パラメータ分析部と、記ピッチパラメータに対して重み付けを行い安定度判定値を算出し、該安定度判定値の累積値に基づいて前記音声信号の安定度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明は、上記発明において、前記物理パラメータ分析部は、音声信号のパワーレベルを表すエネルギパラメータ、音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析し、前記声質判定部は、前記ピッチパラメータおよび前記エネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ/エネルギ分布パラメータを分析するとともに、前記倍音安定度パラメータ、前記ピーク間減衰量パラメータおよび前記波形ピークレベル安定度パラメータのうち、少なくともいずれか1つに対して前記重み付けを行い透明度判定値を算出し、前記ピッチパラメータ、前記ピッチ/エネルギ分布パラメータ、前記安定度判定値、および前記透明度判定値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定することを特徴とする。
この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号のパワーレベルを表すエネルギパラメータを分析する物理パラメータ分析部と、前記エネルギパラメータに対して重み付けを行い高音余裕度を算出し、該高音余裕度の乗算値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明は、上記発明において、前記物理パラメータ分析部は、音声信号の基本周波数を表すピッチパラメータ、音声信号のパワーレベルを表すエネルギパラメータを分析し、前記声質判定部は、前記ピッチパラメータおよびエネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ/エネルギ分布パラメータを分析するとともに、前記ピッチパラメータ、前記ピッチ/エネルギ分布パラメータ、および前記響き度判定値に基づいて、音声信号の低音域の余裕度を示す低音余裕度を判定することを特徴とする。
この発明は、音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、音声信号の基本波の倍音成分を表す倍音ピークパラメータを分析する物理パラメータ分析部と、前記倍音ピークパラメータに対して重み付けを行い低音余裕度を算出し、該低音余裕度の累積値に基づいて前記音声信号の低音域の余裕度を示す低音余裕度を判定する声質判定部と、を備え、前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくすることを特徴とする。
この発明の声質判定方法は、入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、前記物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、を備えたことを特徴とする。
この発明の声質判定プログラムは、コンピュータに、入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、を実行させることを特徴とする。
この発明によれば、音声信号から物理的な特徴である物理パラメータを割り出すことによって音声信号の物理的な特徴を推定し、この物理パラメータを人声を評価する尺度に当てはめて声質を判断することにより、客観且つ正確に人の声質を判定することができる。
図面を参照してこの発明の実施形態である声質判定装置について説明する。
図1は、同声質判定装置の機能ブロック図である。
この声質判定装置は、人の歌唱または発話による音声信号(以下、単に音声信号という)を入力して分析し、物理パラメータを出力するDSP1(物理パラメータ分析部)、および、この分析結果である物理パラメータに基づいて声質を判定するCPU2(音質判定部)で構成されている。
この声質判定装置は、カラオケ装置等に組み込まれて歌唱者の声質の判定に使用されるほか、一般のコンピュータシステムにもインストールされる。
DSP1は、入力された音声信号波形を物理的に分析して物理パラメータを割り出し、この物理パラメータをCPU2に出力する。DSP1がCPU2に出力する物理パラメータは、スペクトル傾斜度(Spectral Tilt)、スペクトル励起度(Excitation)、フォルマント明瞭度(Formant Sharpness)、倍音安定度(HarmonicStability)、ピーク間減衰量(Valley Depth)、波形ピークレベル安定度(Voice Pulse Regularity)、音声分割情報(NoteSegment Info.)、平均エネルギー(Energy without Vibrato)、平均ピッチ(Pitch without Vibrato)である。
なお、DSP1内部では、これ以外に中間的なパラメータとして、周波数スペクトル(Spectrum)、周波数ピーク(SpectralPeaks)、倍音ピーク(Harmonic Peaks)、(ビブラート成分を含む)エネルギ(Energy)、(ビブラート成分を含む)ピッチ(Pitch)、MEL係数(MELCoeffs)、音色変化度(Delta Timbre)、ビブラートデータ(深さ,速度)(Vibrato Depth,Rate)を算出している。各パラメータの詳細は後述する。
CPU2は、入力された物理パラメータに基づいて、人の声を評価判定する5つの尺度(響き度、透明度、安定度、高音余裕度、低音余裕度)についてそれぞれ判定値を出力する。各声質は、以下の評価軸上の値として算出される。
響き度:響く声←→響かない声
透明度:透明な声←→濁った声
安定度:安定した声←→不安定な声
高音余裕度:(高域に)余裕のある声←→余裕のない声
低音余裕度:(低域に)余裕のある声←→余裕のない声
なお、CPU2内部では、声質判定値を算出するために、さらに中間的なパラメータであるエネルギ安定度(Energy Stability)、ピッチ安定度(Pitch Stability)、ピッチ/エネルギ分布(Pitch/EnergyPlot)を算出している。各パラメータおよび声質判定値の詳細については、後述する。
この声質判定装置は、単体の装置として実現されるほか、カラオケ装置やパーソナルコンピュータのソフトウェアとして実現される。判定結果は、そのまま表示等出力されるほか、歌唱の判定に用いたり、音響効果パラメータを設定変更するための情報として用いられたりする。
なお、この声質判定装置をカラオケ装置に組み込んでカラオケ歌唱者の声質を判定する場合、カラオケ曲の演奏中のみこの装置(機能)を動作させるため、カラオケ曲の演奏部(演奏プログラム)から曲開始/終了情報70が入力される。
以下、各物理パラメータの算出方法について説明する。
なお、図1において、長円で示したブロックは、処理(処理機能部)を示しており、長方形で示したブロックは、処理によって算出・決定されたパラメータを示している。
外部から入力された音声信号10は、ピッチ検出部15に入力されるとともに、ダウンサンプリング部11に入力される。ピッチ検出部15は、この音声信号の基本周波数であるピッチデータ20を検出する。このピッチデータ20はビブラート成分を含んでいる。
一方、音声信号10が入力されるダウンサンプリング部11は、分析処理を容易にするため、44.1kHzのサンプリング周波数で入力される音声信号を、22.05kHzにダウンサンプリングする。
ダウンサンプリング部11によってダウンサンプリングされた音声信号は、エネルギ検出部14、波形ピークレベル安定度分析部36およびウィンドウ処理部12に入力される。
エネルギ検出部14は、この音声信号の音量の瞬時値であるエネルギデータ19を検出する。このエネルギデータ19は、ビブラート成分を含んでいる。
これらビブラート成分を含むエネルギデータ19,ピッチデータ20は、ビブラート検出部25に入力される。ビブラート検出部25は、ビブラート成分を含むエネルギデータ19、ピッチデータ20に基づいて音声信号のビブラート成分をビブラートデータ(速度,深さ)28として検出する。このビブラート成分の検出は、エネルギデータ19およびピッチデータ20の時間変動に対してsin波を近似することで行う。近似したsin波の周波数を速度(Rate),最大振幅を深さ(Depth) として出力する。そして、入力されたエネルギデータ19,ピッチデータ20からsin波の成分を除去し、ビブラート成分のないエネルギデータ,ピッチデータを平均エネルギデータ29,平均ピッチデータ30として出力する。
図2を参照してこのsin波の算出手法について説明する。同図に示すグラフの横軸は時間を表し、縦軸はピッチデータを表す。同図(A)は、ピッチデータ20をプロットした曲線である。まず、このピッチデータ20をプロットした曲線を一次関数で近似し、この一次関数を0軸としてドリフト(勾配)を補正する。同図(B)は、上記一次関数を0軸としてドリフト補正した後のピッチデータ20をプロットした図である。同図(B)において、ゼロクロスとなる点の周期を算出する。この周期に基づいて近似できそうな周期、振幅のsin波を候補として決定する。その後、この候補sin波と、ドリフト補正したピッチデータ20との差(エラー値)を求める。エラー値は、候補sin波と、ドリフト補正したピッチデータ20の周期の分散、振幅の分散等複数の項目から総合して決定する。複数の候補sin波についてこのエラー値を求め、その中から最もエラー値が小さい候補sin波をビブラート成分のsin波とする。
図1において、平均エネルギデータ29,平均ピッチデータ30は、物理パラメータとしてCPU2に出力される。また、平均エネルギデータ29、平均ピッチデータ30およびビブラートデータ(速度,深さ)28は、音声分割判定部37に入力される。
ダウンサンプリングされた音声信号が入力されるウィンドウ処理部12は、FFT(高速フーリエ変換)の前処理として、FFTをする音声信号からサンプリングデータ列を切り出して、このサンプリングデータ列に窓関数を掛ける。窓関数処理がされた音声信号(サンプリングデータ列)は、FFT処理部13に対して出力される。
FFT処理部13は、この窓関数が掛けられた音声信号を高速フーリエ変換し、時間領域の音声信号波形を周波数領域の周波数スペクトル16に変換する。この周波数スペクトル16は、ピーク検出部21、MEL分析部17に入力される。
ピーク検出部21は、周波数スペクトル16から周波数ピーク22を検出する。周波数ピーク22は、周波数スペクトル16のなかで、前後の周波数成分よりも大きくなっている周波数成分であり、複数が選択される。各周波数ピークデータは、その周波数およびレベルの情報を含んでいる。
この周波数ピークデータ22は、スペクトル傾斜度分析部31および倍音ピーク選択部23に入力される。
スペクトル傾斜度分析部31は、ピーク検出部21によって検出された複数の周波数ピークデータ22に基づいて周波数スペクトルの傾斜を分析し、その傾斜の程度をスペクトル傾斜度38(物理パラメータ)として出力する。このスペクトルの傾斜の分析は、3kHz〜8kHzの周波数帯で行う。この周波数帯域は、入力される音声信号の母音の変化の影響を受けにくいからである。
図3は、スペクトル傾斜度分析部31によるスペクトル傾斜度分析方式を説明する図である。3kHz〜8kHzの周波数帯では、周波数ピーク成分(周波数スペクトル)は、高音域へ行くほど小さくなっている。この傾斜を一次関数で近似し、その傾きをスペクトル傾斜度パラメータ38とする。すなわち、傾きが小さいほど、音声信号の高音域の周波数スペクトルが豊かであることを示している。
また、倍音ピーク選択部23には、周波数ピークデータ22のほかに、ピッチデータ20も入力される。倍音ピーク選択部23は、ピッチ検出部15によって検出されたピッチデータ(基本周波数)20に基づき、その複数の周波数ピーク成分のなかから倍音成分のピークのみを選択する。そして、このデータを倍音ピークデータ26として出力する。この倍音ピークデータ26は、スペクトル励起度分析部32、フォルマント明瞭度分析部33、倍音安定度分析部34およびピーク間減衰量分析部35に入力される。
スペクトル励起度分析部32は、倍音成分の豊かさを表す指標であるスペクトル励起度を分析する。倍音成分は、基本周波数から高次になるにつれて指数関数的にレベルが低下してゆくものであるが、そのレベル低下の曲線を指数関数で近似し、その指数値を曲線のたわみの程度、すなわち、倍音成分のレベルが早く低下する程度を表すスペクトル励起度39(物理パラメータ)として出力する。
図4は、スペクトル励起度分析部32によるスペクトル励起度パラメータ39の分析方式を説明する図である。3kHz〜8kHzの周波数帯の倍音ピーク値をプロットした曲線を指数関数曲線(数1)で近似し、
Figure 0004432893
この式中の指数部であるEslopeをスペクトル励起度パラメータ39として出力する。この値Eslopeが小さいほど高次倍音が豊かな音声信号であることが分析される。
フォルマント明瞭度分析部33は、音声信号のフォルマントの明瞭度を表す指標であるフォルマント明瞭度40を分析する。
フォルマントとは、話者または歌唱者の声道の共鳴現象によって音声信号の一部の周波数成分が強調されることをいい、音声信号を周波数領域に展開した周波数スペクトル上で強調されている周波数成分のレベルが高いほどよく共鳴していることがわかる。
フォルマント明瞭度分析部33は、倍音ピークデータ26をプロットした曲線を一次関数で近似し(図5参照)、その近似直線とプロットした曲線との最小自乗法(root-mean-square)の残差を算出して、これをフォルマント明瞭度パラメータ40として出力する。残差が大きいほど、倍音ピークデータ26をプロットした曲線の「波うち」が大きいことになり、フォルマントが明瞭であると判断することができる。
スペクトル傾斜度38、スペクトル励起度39およびフォルマント明瞭度40は、物理パラメータとしてDSP1からCPU2に対して出力される。
倍音安定度分析部34は、倍音ピークデータ26の各倍音ピーク成分について周波数,振幅,位相の時間変化を監視し、その変化を最小自乗法で近似し、その近似誤差の自乗平均平方根(RMS:root-mean-square)を求める。そして、その値を倍音安定度パラメータ41として出力する。この値が小さいほど倍音ピークデータ26が安定しており、安定した音声であると判断することができる。
なお、音声のピッチが極端に変動したとき(たとえば、歌唱において音符が変わったとき)は、ピッチおよび倍音成分が不連続に変化するため、この変化の間は、倍音安定度パラメータの分析を中止する。
ピーク間減衰量分析部35は、倍音ピークデータ26および周波数スペクトルデータ16を入力して、周波数スペクトルに倍音成分以外の成分がどの程度含まれているかを示すピーク間減衰量42を分析する。ピーク間減衰量42が大きいほど音声信号に非倍音成分(ノイズ成分)が少ないと分析される。
図6は、ピーク間減衰量分析部35によるピーク間減衰量42の分析方式を説明する図である。同図(A)に示すように、ピーク間減衰量は、音声信号の周波数スペクトル16において、隣接する倍音ピーク成分の間のスペクトル値の減衰(スペクトル包絡線の落ち込み)の程度で表される。
スペクトル値の減衰の程度は、隣接する倍音ピーク間をつなぐ直線と、その間の周波数スペクトル曲線で囲まれる面積、すなわち、ピーク間直線と周波数スペクトル値との差の積分(総和)として求めることができる(同図(B))。
一方、より演算量を少なくするために、隣接する倍音ピーク間をつなぐ直線の中点と、その周波数におけるスペクトル値の差「(ap1+ap2)/2-ac1」として求めてもよい(同図(C))。
次に、図7を参照して波形ピークレベル安定度分析部36の波形ピークレベル安定度43の分析方式について説明する。波形ピークレベル安定度とは、音声信号の時間領域における各周期波形の規則性を示す指標である。
音声信号波形は、同図に示すように、基本周波数を単位とする周期波形であるが、各周期に基本周波数成分のピークを有している。この波形上のピークレベルの周期毎の変化を監視することによって、音声信号に含まれる基本波よりも低い周波数成分を分析する。波形ピークレベル安定度パラメータ43は、ピークをプロットした曲線を一次関数で近似し、その一次関数に対する各周期のピークレベルの分散(標準偏差)として求められる。
分散が少なければ、各周期のピークレベルがほぼ一定であり澄んだ音声であることが分析される。一方、同図に示すようにピークレベルが周期的に変化している場合には、オクターブ下の成分を含んだ濁った音声であることが分析される。また、ピークレベルがランダムに変化している場合には、ノイズを含んだダミ声またはハスキーな声であると判断することができる。
また、FFT処理部13から周波数スペクトル16が入力されるMEL分析部17は、この周波数スペクトル16に対してMELケプストラム分析を行ってMEL係数18を算出する。MEL係数18の算出手順は以下のとおりである。
(1)周波数スペクトル16をメルスケール上に展開し、このメルスケール上に等間隔に配置された帯域フィルタバンクの出力を抽出する。
ここで、メルスケールとは、人の聴覚の周波数分解能に基づく尺度であり、低い周波数では細かく、高い周波数では荒くなっている。対数に近い特性であるため、対数スケールで代用してもよい。
図8(A)は、メルスケール上に等間隔に配置した帯域フィルタバンクをリニアスケール上に展開した例を示している。このように、高い周波数ほど周波数分
解能が荒いため、フィルタバンクの幅が広くなっている。
(2)各帯域フィルタバンクの出力を対数変換し、逆FFTによって時間軸の関数に戻したものがMEL係数18である。
このMEL係数18は、音色変化度分析部24に入力される。音色変化度分析部24は、各フィルタバンクのMEL係数を総和した値を音色変化度27として出力する。この音色変化度27は、図8(B)に示すように、音素が移動するとき、特に、母音→母音、母音→子音の移動時に高い値を示すことが知られている。したがって、この音色変化度パラメータ27により、話者または歌唱者が発生する言葉の音素変化を分析することができる。
このようにこの実施形態では、MELケプストラム分析を用いて音素変化を検出しているが、音声における音素変化を検出する技術であれば、他のどのような技術を適用してもよい。
この音色変化度27およびビブラートデータ(速度,深さ)28、平均エネルギデータ29、平均ピッチデータ30は、音声分割判定部37に入力される。
音声分割判定部37は、これら音色変化度27、ビブラートデータ28、平均エネルギ29、平均ピッチデータ30の各データに基づいて音声の区切り、特にサスティン部の区間を判定する。
歌唱の音声信号は、図9に示すようなエンベロープ形状をしており、各音符毎にアタック部、サスティン部およびディケイ部が形成されている。そして、アタック部と音素の子音が一致する場合が多い。以下の声質判定処理部53〜57では、定常波形の音声が発声されているサスティン部の波形を用いて声質を判定する。このため、音声分割判定部37は、入力された音色変化度27、ビブラートデータ28、平均エネルギデータ29、平均ピッチデータ30の各データに基づいて、音声の切れ目およびサスティン部を判定する。
平均エネルギ29がほぼ0であれば音声が発声されていないと推定でき、これにより、音声の切れ目を推定することができる。また、音色変化度27、ビブラートデータ28、平均エネルギデータ29、平均ピッチデータ30が大きく変化した場合には、音符(音素)の変化点であると分析できる。これらの情報に基づいて音声の切れ目やサスティン部を判定してその判定結果を音声分割情報44としてCPU2に出力する。この音声分割情報44には、音色変化度27、ビブラートデータ28、平均エネルギデータ29、平均ピッチデータ30の情報が含まれている。
以上の動作で分析された物理パラメータが、DSP1からCPU2に入力される。CPU2は、これら物理パラメータに基づいて声質の判定を行う。上述したように、CPU2は、声質として響き度、透明度、安定度、高音余裕度、低音余裕度を判定し、それぞれの判定値を割り出す。なお、各判定部46〜48,53〜57は、音声単位(歌唱であれば音符単位)またはフレーズ単位の物理パラメータを累積し、曲の最初から所定区間(例えば曲終了)までの判定値を割り出す。このため、各判定部46〜48,53〜57には、音声分割判定部37から出力された音声分割情報44が1フレーム毎に入力され、音素(音符)ごとまたはフレーズごとに動作する。ここで、1音は例えば20フレームとし、フレーズとは、300ms以上の無音声区間で区切られる発音区間をいう。以下、各声およびその判定方法について説明する。
まず、響き度は、声の質がいかに響くか、よく通る声かの指標である。声の響きは、倍音成分の充実の度合いに相関していると考えられる。そこで、響き度分析部53は、スペクトル傾斜度38、スペクトル励起度39およびフォルマント明瞭度40のうち少なくともいずれか1つに基づいて響き度60を判定する。すなわち、スペクトル傾斜度38は、音声信号の高音成分の減衰の程度を表すパラメータであり、減衰の程度が少ないほど高音成分が多いと判断することができる。スペクトル励起度39は、倍音成分の減衰曲線のたわみの大きさを表すパラメータであり、たわみが小さいほど倍音成分が多いと判断することができる。また、フォルマント明瞭度40は、音声のフォルマントの明瞭度すなわち声道での共鳴度を表すパラメータであり、フォルマントが明瞭であるほどよく響いた通る音であると判断することができる。
これらスペクトル傾斜度38が示す高音減衰の少なさ、スペクトル励起度39が示す倍音成分の減衰の少なさ、フォルマント明瞭度40が示すフォルマントの明瞭度から響き度判定値60を算出する。
この響き度判定値60の算出手法の1例について説明する。判定部53は、響き度判定値60をスペクトル傾斜度38から算出する。この響き度判定値60を算出する際に、スペクトル傾斜度38に対して種々の特徴量による重み付けを行う。例えば音色変化度27が大きくなるにつれてスペクトル傾斜度38の値による響き度判定値60が小さくなるようにする。図10(A)は、音色変化度の重み付けについて説明する図である。このグラフの横軸は音色変化度(DeltaTimbre)27の値を示し、縦軸は音色変化度の重み付け(WDeltaTimbre=0〜1)を示す。同図(A)に示すように、音色変化度27が小さい場合は重み付けを1とし、音色変化度27が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で重み付けを0とする。
下限値は音色変化が無く、母音定常状態であると判断できる程度の値を実験などで割り出し、設定すればよい。また、上限値は、過渡状態であると判断できる程度の値を実験などで割り出して設定すればよい。また、この下限値、および上限値は、ビブラートの発生状態に基づいて変化するように設定する。図10(B)に示すグラフの横軸は、ビブラート発生度(Vibrato Probability)を示し、縦軸は音色変化度を示す。同図(B)に示すように、音色変化度の下限値、上限値をビブラート発生度に応じて変化させる。ビブラート発生度が大きくなると下限値、上限値ともに大きくなるように設定する。
ここで、ビブラート発生度とは、ビブラートが発生しているか否かの確率値であり、ピッチデータ20、およびビブラートデータ28から算出する。ビブラートデータ28は、ピッチデータ20に割り当てた近似sin波のうち最もエラー値が小さいsin波の速度、深さを示す。ビブラート発生度は、このピッチデータ20に対する近似sin波のエラー値から求める。図11は、ビブラート発生度の算出について説明する図である。同図に示すグラフの横軸はエラー値を表し、縦軸はビブラート発生度を表す。同図に示すように、エラー値が所定の値nよりも小さい場合にビブラート発生度を1とし、n以上でエクスポネンシャルにビブラート発生度を低下させる。つまり、エラー値が小さい場合は、ピッチデータ20がsin波に近く、確実にビブラートが発生していると判断する。所定の値nはビブラートが確実に発生していると判断できる程度の値を実験などで割り出して設定しておく。
ビブラート発生度が上昇、つまりビブラートが発生した状況となると、音色変化度も大きくなる。したがって、ビブラート発生度の上昇に応じて音色変化度27の下限値、および上限値を上昇変化させる。
以上のように音色変化度27の上限値、下限値を設定し、響き度判定値60を算出するが、判定部53は、音声分割判定部37から出力された音声分割情報44に基づいて、響き度判定値60を算出するか否かを決定する。すなわち、有声でない(ピッチデータが無い)時や、音色変化度27が大きすぎる場合は響き度判定値60を算出しないようにする。算出条件について例えば以下のように規定する。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
上記の条件を満たす場合に、響き度判定値60を算出する。図10において、このように設定した音色変化度の範囲でスペクトル傾斜度38に対して重み付けを行う。また、音色変化度による重み付けに乗算して、さらに、ビブラート発生度、および平均エネルギデータ29による重み付けも行う。すなわち、全体の重み付けWは、以下のような数式で表される。
Figure 0004432893
ここで、エネルギ項(rawEnergy)は、平均エネルギデータ29から検出されるdB値ではなく、音声信号の振幅の自乗を計算した値とする。後述の(数4)に示すとおり、響き度判定値60の累積値の算出時にエネルギ項を乗算、および除算するので、振幅の自乗をエネルギ項とすることで、音声信号のエネルギレベルが変化しても響き度判定値60の累積値の算出結果に影響しない。
ビブラート発生度による重み付け項は、図12に示すとおりである。ビブラート発生度が最小時(0の時)に重み付けを最大(Wvib.prob.=1)とし、ビブラート発生度の上昇に応じて重み付けを低下させ、ビブラート発生度が最大時(1の時)に重み付けを最小(Wvib.prob.=0)とする。
(数2)に示した全体の重み付けWeightをスペクトル傾斜度38に乗算することで、響き度判定値60を算出する。まず、次の数式に示すように響き度判定値60の瞬時値を算出する。
Figure 0004432893
これを次の数式に示すように、曲の最初から現時点まで累積する。
Figure 0004432893
(数4)で求めた響き度判定値60の累積値について、最後にスペクトル傾斜度38の値に応じてスケーリングを行う。図13は、響き度判定値60のスケーリングを示す図である。スペクトル傾斜度38が任意の値−STa以下の場合響き度判定値60をゼロにスケーリングし、任意の値−STb以上の場合に響き度判定値60を100%にスケーリングする。この−STaから−STbまでの間は、スペクトル傾斜度38が大きくなるにつれてスケーリングを直線的に大きくする。
なお、上記の計算を行うに際し、音色変化度27は、その瞬時値を曲の流れ(音色変化度27の平均値)に応じて常に改訂する処理を行う。平均値からどれだけ逸脱しているかによって音色変化度27をより適切に指標とすることができる。音色変化度27を改訂する条件(トリガ条件)について以下のように規定する。
(1)平均エネルギ>x dB
(2)ピッチデータ有
(3)|DeltaTimbre2|<y
平均エネルギの閾値xはどのような値であってもよいが、例えば数dB程度とする。また、音色変化度の自乗値の閾値yもどのような値であってもよいが、音色変化が無いと判断できる程度の値に任意に設定する。上記条件を満たす場合に音色変化度を次のように改訂する。
Figure 0004432893
この(数5)において、エネルギ項(Energy)は、平均エネルギデータ29から検出されるdB値を用いる。この改訂した音色変化度(DeltaTimbre inst.)27を上述した響き度判定値60の算出に用いる。
以上のようにして、曲の最初から所定区間(例えば曲終了)までの累積判定値を割り出し、響き度判定値60として算出する。上記のような手法で判定値を求めることで、客観且つ正確に人の声質(響き度)を判定することができる。
なお、上述の方式では、スペクトル傾斜度38から響き度判定値60を割り出す手法を説明したが、さらに、スペクトル励起度39およびフォルマント明瞭度40を計算に取り入れてもよい。
また、別の方式として、以下のような数式から響き度判定値60を割り出してもよい。
Figure 0004432893
(数6)に示すa〜fは実数(定数)である。実数fはオフセット値を表す。以下、それぞれの項目について説明する。
Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部35が割り出すピーク間減衰量42に相当する。この場合、図1において、ピーク間減衰量42を判定部53に入力するようにする。
Delta Energy without Vib.は、平均エネルギデータ29の1フレーム前と1フレーム後のエネルギ差である。なお、1フレームとは、判定部53の動作する最小時間単位を示す(1音は例えば20フレーム程度)。また、2フレーム前と2フレーム後のエネルギ差とその平均としてもよい。
同様にDelta Pitch without Vib.は平均ピッチデータ30の1フレーム前と1フレーム後のピッチ差(絶対値)を表す。また、2フレーム前と2フレーム後のエネルギ差とその平均としてもよい。
Mel5は、MEL係数18の前後5フレーム(2フレーム前、1フレーム前、現フレーム、1フレーム後、および2フレーム後)の累積である。
各項目の係数a〜e、およびオフセット値fは、例えば機械学習方式(教師あり)で求める。機械学習方式とは、人間の判断事例から数値を導き出す手法(ニューラルネットワーク等)であり、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。
以上のような数式から響き度判定値60を算出することでも客観且つ正確に人の声質(響き度)を判定することができる。なお、この方式においても、以下の条件を満たす場合にのみ響き度判定値60を算出するものである。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
なお、上述の方式以外にも、スペクトル傾斜度38、スペクトル励起度39およびフォルマント明瞭度40について相加平均等により響き度判定値60を割り出してもよい。また、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィ等の他の推論エンジンを用いてもよい。
次に、透明度61は、音声信号波形の声の質のすきとおった感じを表す指標である。透明度判定部54は、倍音安定度41、ピーク間減衰量42、および波形ピークレベル安定度43のうちいずれか1つに基づいて透明度61を判定する。すなわち、倍音安定度41は、倍音成分の周波数,振幅,位相等の安定度を示す指標であり、倍音成分が安定しているほどにごりの少ない透明な音であると分析できる。また、ピーク間減衰量42は、音声信号に基本波の倍音成分以外の成分がどの程度含まれているかを表すパラメータであり、倍音成分が含まれる程度が少ないほど澄んだ純粋な音であると判断することができる。波形ピークレベル安定度43は、時間軸波形のピークの安定度を示すパラメータであり、ピークが安定しているほど純粋な澄んだ音であると判断される。
これら倍音安定度41が示す倍音成分の安定性、ピーク間減衰量42が示す倍音成分以外の成分の少なさ、波形ピークレベル安定度43が示す時間軸波形の安定度から透明度判定値61を算出する。
この透明度判定値61の算出手法の1例について説明する。判定部54は、透明度判定値61をピーク間減衰量42、および波形ピークレベル安定度43から算出する。この透明度判定値61を算出する際に、ピーク間減衰量42、および波形ピークレベル安定度43に対して重み付けを行う。例えば音色変化度27が大きくなるにつれてピーク間減衰量42、および波形ピークレベル安定度43の値による透明度判定値61が小さくなるようにする。
すなわち、図10(A)に示したように、音色変化度27が小さい場合は重み付けを1とし、音色変化度27が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で0とする。この下限値、および上限値は、図10(B)に示すように、音色変化度の下限値、上限値はビブラート発生度に応じてその値を変化させる。ビブラート発生度が大きくなると下限値、上限値も大きく設定する。
判定部54は、音声分割判定部37から出力された音声分割情報44に基づいて、透明度判定値61を算出するか否かを決定する。すなわち、有声でない(ピッチデータが有る)時や、音色変化度27が大きすぎる場合は算出しないようにする。算出条件については上述の響き度判定値60と同様に、例えば以下のように規定する。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
上記の条件を満たす場合に、透明度判定値61を算出する。図10において、このように設定した音色変化度の範囲でピーク間減衰量42、および波形ピークレベル安定度43に重み付けを行う。また、平均エネルギデータ29による重み付けも行う。全体の重み付けWeightは、以下のような数式で表される。
Figure 0004432893
ここで、エネルギ項(rawEnergy)は、平均エネルギデータ29から検出されるdB値ではなく、入力音声信号の振幅の自乗を計算した値とする。振幅の自乗をエネルギ項とすることで、音声信号のエネルギレベルが変化しても透明度判定値61の累積値の算出結果に影響しない。
(数7)に示した全体の重み付けWeightをピーク間減衰量42、および波形ピークレベル安定度43の瞬時値に乗算することで透明度判定値61を算出するが、ピーク間減衰量42、および波形ピークレベル安定度43のそれぞれの瞬時値はビブラート発生度による補正を行う。ビブラート発生度による補正項eは、図14に示すとおりである。ビブラート発生度が最小時(0の時)に補正項eを最大(Wvib.prob.=1)とし、ビブラート発生度の上昇に応じて重み付けを低下させ、ビブラート発生度が最大時(1の時)に補正項eを最小(Wvib.prob.=0.5)とする。
この補正項を次の数式に示すように、ピーク間減衰量42、および波形ピークレベル安定度43に乗算してそれぞれの瞬時値を算出する。
Figure 0004432893
これを次の数式に示すように、曲の最初から現時点まで累積する。
Figure 0004432893
さらに、(数9)で求めたピーク間減衰量42、および波形ピークレベル安定度43の累積値について、それぞれの値でスケーリングを行う。図15は、ピーク間減衰量42と波形ピークレベル安定度43のスケーリングを示す図である。同図(A)にピーク間減衰量42の値に応じたスケーリングを示す。同図(B)に波形ピークレベル安定度43の値に応じたスケーリングを示す。ピーク間減衰量42が任意の値Hsa以下の場合にゼロにスケーリングし、任意の値Hsb以上の場合に100%にスケーリングする。このHsaからHsbまでの間は、ピーク間減衰量42が大きくなるにつれてスケーリングを直線的に大きくする。
また、波形ピークレベル安定度43が任意の値PRa以下の場合に100%にスケーリングし、任意の値PRb以上の場合にゼロにスケーリングする。このPraからPrbまでの間は、波形ピークレベル安定度43が大きくなるにつれてスケーリングを直線的に小さくする。
最後に、次の数式のように、上記のピーク間減衰量42と波形ピークレベル安定度43を加算して平均化することで、透明度判定値61を算出する(ただし、0≦a≦1.0、0≦b≦1.0とする)。
Figure 0004432893
以上のようにして透明度判定値61を算出する。この透明度判定値61が大きいほど、透明ですきとおった感じの声質であると判断できる。
なお、上記の計算を行うに際し、音色変化度27は、上述の響き度判定値60の算出時と同様に、その瞬時値を曲の流れ(音色変化度27の平均値)に応じて常に改訂する処理を行う。改訂条件は上述と同様であり、以下のように規定する。
(1)平均エネルギ>x dB
(2)ピッチデータ有
(3)|DeltaTimbre2|<y
上記条件を満たす場合に(数5)に示した数式で音色変化度を改訂する。
以上のようにして、曲の最初から所定区間(例えば曲終了)までの累積ピーク間減衰量42、および波形ピークレベル安定度43を割り出し、これを加算して平均化することで透明度判定値61を算出する。上記のような手法で判定値を求めることで、客観且つ正確に人の声質(透明度)を判定することができる。
なお、上述の方式では、ピーク間減衰量42、および波形ピークレベル安定度43から透明度判定値61を割り出す手法を説明したが、さらに、倍音安定度41を計算に取り入れてもよい。
また、別の方式として、以下のような数式から透明度判定値61を割り出してもよい。
Figure 0004432893
(数11)に示すa〜eは実数(定数)である。なお、上述の響き度判定値60の算出時に用いた実数a〜fとは異なる数値であるものとする。実数eはオフセット値を表す。以下、それぞれの項目について説明する。
Spect.Tiltは、周波数スペクトルの傾斜を示す値であり、上記スペクトル傾斜度分析部31が割り出すスペクトル傾斜度38を表す。この場合、図1において、スペクトル傾斜度38を判定部54に入力するようにする。
Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部35が割り出すピーク間減衰量42に相当する。
Delta Energy without Vib.は、平均エネルギデータ29の1フレーム前と1フレーム後のエネルギ差である。また、2フレーム前と2フレーム後のエネルギ差とその平均としてもよい。
Pitch Centsは平均ピッチ30を表す。
各項目の係数a〜d、およびオフセット値eは、上述した判定値と同様に機械学習方式(教師あり)で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。
以上のような数式から透明度判定値61を算出することでも客観且つ正確に人の声質(響き度)を判定することができる。なお、この方式においても、以下の条件を満たす場合にのみ透明度判定値61を算出するものである。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
なお、上述の方式以外にも、倍音安定度41、ピーク間減衰量42および波形ピークレベル安定度43について相加平均等により透明度判定値61を割り出してもよい。また、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィやニューラルネットワーク等の推論エンジンを用いてもよい。
次に、安定度は、音声がどの程度安定して発音されているかを表す指標である。安定度分析部55は、安定度62を平均ピッチ30から算出する。
この安定度62の算出手法の1例について説明する。判定部55は、安定度62を算出する際に、平均ピッチ30に対して重み付けを行う。例えば音色変化度27が大きくなるにつれて平均ピッチ30の値による安定度62が小さくなるようにする。
すなわち、図10(A)に示したように、音色変化度27が小さい場合は重み付けを1とし、音色変化度27が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で0とする。この下限値、および上限値は、図10(B)に示すように、音色変化度の下限値、上限値はビブラート発生度に応じてその値を変化させる。ビブラート発生度が大きくなると下限値、上限値も大きく設定する。
判定部55は、音声分割判定部37から出力された音声分割情報44に基づいて、安定度62を算出するか否かを決定する。すなわち、サスティンが短い場合は算出しないようにする。算出条件については、例えば以下のように規定する。
(1)所定フレーム(Nフレーム)以上サスティン区間が続く
上記の条件を満たす場合に、安定度62を算出する。N数は音声が安定している状態であると判断できる値を実験により求める。サスティン区間がNフレーム未満であった場合は、フレーム累積数をリセットする。
図10において、このように設定した音色変化度の範囲でピーク間減衰量42、および波形ピークレベル安定度43に重み付けを行う。また、平均エネルギデータ29による重み付けも行う。全体の重み付けWeightは、上述した数式(数7)で表される。なお、ここではNフレーム以上サスティン区間が続く場合のみを条件とするので、音色変化度27の値は、図10に示した下限値よりも小さくなる場合が多く、音色変化度27による重み付けはほとんどの場合1.0である。
数式7において、エネルギ項(rawEnergy)は、平均エネルギデータ29から検出されるdB値ではなく、入力音声信号の振幅の自乗を計算した値とする。振幅の自乗をエネルギ項とすることで、音声信号のエネルギレベルが変化しても安定度判定値62の累積値の算出結果に影響しない。
(数7)に示した全体の重み付けWeightを平均ピッチ30の瞬時値に乗算することで安定度62を算出するが、平均ピッチ30の瞬時値はビブラート発生度による補正を行う。ビブラート発生度による補正項eは、図14に示したとおりである。ビブラート発生度が最小時(0の時)に補正項eを最大(Wvib.prob.=1)とし、ビブラート発生度の上昇に応じて重み付けを低下させ、ビブラート発生度が最大時(1の時)に補正項eを最小(Wvib.prob.=0.5)とする。
この補正項を次の数式に示すように、平均ピッチ30に乗算してその瞬時値を算出する。
Figure 0004432893
この平均ピッチ30の瞬時値に(数7)に示した全体の重み付けWeightを乗算し、次の数式に示すように安定度62の瞬時値を算出する。
Figure 0004432893
これを次の数式に示すように、各フレーム毎に累積する。(ここでは曲の最初から現時点までではなく、Nフレーム以上のサスティン区間において有効なフレームを累積する。)
Figure 0004432893
最後に、(数14)で求めた安定度62の累積値について、この値に応じてスケーリングを行う。図16は、安定度62のスケーリングを示す図である。安定度62が0から任意の値Saまでの間で安定度62が大きくなるにつれてスケーリングを直線的に大きくする。
なお、上記の計算を行うに際し、音色変化度27は、上述の響き度判定値60、透明度判定値61の算出時と同様に、その瞬時値を曲の流れ(音色変化度27の平均値)に応じて常に改訂する処理を行う。改訂条件は上述と同様である。
以上のようにして、所定フレーム以上サスティン区間が続く場合に、有効フレームのみ累積することで安定度62を算出する。この安定度62が大きいほど、安定して発音されていると判断できる。上記のような手法で判定値を求めることで、客観且つ正確に人の声質(安定度)を判定することができる。
なお、上述の方式以外にも、平均エネルギ29、平均ピッチ30、エネルギ安定度50、ピッチ安定度51の相加平均等により安定度62を判定してもよい。
エネルギ安定度50は、入力された音声信号のエネルギ(信号レベル)の安定度を示すパラメータである。エネルギ安定度50は、音声信号のサスティン部で計測する。エネルギ安定度分析部46は、DSP1から入力された平均エネルギ29の時間軸の分散(標準偏差)を算出し、これをエネルギ安定度50として出力する。
ピッチ安定度51は、入力された音声信号のピッチの安定度を示すパラメータである。ピッチ安定度は、音声信号のサスティン部で計測する。ピッチ安定度分析部47は、DSP1から入力された平均ピッチ30の時間軸の分散(標準偏差)を算出し、これをピッチ安定度51として出力する。
ピッチ/エネルギ分布52は、図17に示すように、ピッチ(周波数)を横軸にエネルギを縦軸にした座標平面上に、音声信号のピッチとエネルギの組み合わせを長時間プロットし、その分布範囲を台形近似したものである。ピッチエネルギ分布分析部48では、この台形の形状により、どの周波数範囲で安定したエネルギの音声が発声されているかを分析し、ピッチ/エネルギ分布52として出力する。
以上のエネルギ安定度50、およびピッチ安定度51に、平均エネルギ29、および平均ピッチ30を加味して安定度62を算出する。算出の方式は、相加平均等の算術的な方式によってもよく、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィやニューラルネットワーク等の推論エンジンを用いてもよい。
また、さらに別の方式として、以下のような数式から安定度62を割り出してもよい。
Figure 0004432893
(数15)に示すa〜eは実数(定数)である。なお、上述の響き度判定値60の算出時に用いた実数a〜f、および透明度判定値61に用いた実数a〜eとは異なる数値であるものとする。実数eはオフセット値を表す。以下、それぞれの項目について説明する。
Pitch Centsは平均ピッチデータ30を表す。
DeltaPitch without Vib.は、平均ピッチデータ30の1フレーム前と1フレーム後のピッチ差を表す。また、2フレーム前と2フレーム後のエネルギ差とその平均としてもよい。
Freq.Stabilityは、倍音ピークデータ26各倍音ピーク成分について周波数成分の安定度を表す。ここでは、各倍音ピーク成分について現在のフレームと1つ前のフレームとの差の平均値をとり、これをFreq.Stabilityとする。
Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部35が割り出すピーク間減衰量42に相当する。
各項目の係数a〜d、およびオフセット値eは、上述した判定値と同様に機械学習方式(教師あり)で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。
なお、この方式においても、以下の条件を満たす場合にのみ安定度62を算出するものである。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
次に、高音余裕度63は、高音の発生にどの程度余裕があるか(金切り声になっていないか)を表す指標である。高音余裕度分析部56は、平均エネルギデータ29に基づいて高音余裕度63を判定する。
高音余裕度63の算出手法の1例について説明する。判定部56は、高音余裕度63を算出する際に、平均エネルギデータ29に対して種々の特徴量による重み付けを行う。例えば音色変化度27が大きくなるにつれて平均エネルギデータ29の値による高音余裕度63が小さくなるようにする。
すなわち、図10(A)に示したように、音色変化度27が小さい場合は重み付けを1とし、音色変化度27が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で0とする。この下限値、および上限値は、図10(B)に示すように、音色変化度の下限値、上限値はビブラート発生度に応じてその値を変化させる。ビブラート発生度が大きくなると下限値、上限値も大きく設定する。
また、平均エネルギデータ29、ビブラート発生度、および平均ピッチデータ30による重み付けも行う。図18は平均エネルギデータ29による重み付けを説明する図である。平均エネルギデータ29が任意の値Ea以下の場合は重み付けを0とし、Eb以上の場合に重み付けを1とする。このEaからEbまでの間は、平均エネルギ29が大きくなるにつれて重み付けを直線的に大きくする。エネルギが小さすぎる場合はこの特徴量による重みを小さくする。
図19は、ビブラート発生度による重み付けを説明する図である。ビブラート発生度が任意の値Va以下の場合は重み付けを1とし、ビブラート発生度の最大値である1.0の場合に重み付けを0とする。任意の値Vaから1.0までの間は、ビブラート発生度が大きくなるにつれて重み付けを直線的に小さくする。つまりビブラートが確実に発生していると判断できる場合はこの特徴量による重み付けを小さくする。
図20は、平均ピッチデータ30による重み付けを説明する図である。ここでWeightpitchは、同図に示すようにピッチ(周波数f)のべき乗で表される。周波数が大きくなるにつれ重み付けを等比的に大きくする。つまり、高音の音声信号について高音余裕度63の結果に大きく反映させる。本発明者は、実験によりべき乗(等比)による重みを付けることで、例えばキーを変えた歌唱音声であっても結果が同一となることを確認している。
以上のように各特徴量の重み付けを設定し、高音余裕度63を算出するが、判定部56は、音声分割判定部37から出力された音声分割情報44に基づいて、高音余裕度63を算出するか否かを決定する。算出条件について例えば以下のように規定する。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
上記の条件を満たす場合に、高音余裕度63を算出する。上述した特徴量で平均エネルギデータ29に対して重み付けを行う。ここで、本実施形態においては、平均ピッチデータ30による重み付けを行った値と平均ピッチデータ30による重み付けを行わない値とを算出し、この比を算出する。全体の重み付けW(ピッチ無し)、およびWpitch(ピッチ有り)は、以下のような数式で表される。
Figure 0004432893
Figure 0004432893
(数16)、および(数17)で表されるそれぞれの重み付けを平均エネルギデータ29に乗算し、これを以下の数式に示すように曲の最初から現時点まで累積して高音余裕度63の素点をそれぞれ算出する。
Figure 0004432893
Figure 0004432893
それぞれの素点の比を以下の数式に示すように算出して高音余裕度63の素点(rawscore)とする。ピッチ無しの素点とピッチ有りの素点の比を算出することで高音でのエネルギを重点的に評価することとなる。
Figure 0004432893
この素点に、さらに、半音階(A=440Hzのピッチ)を正しく発音できているかを表す指標値(半音階逸脱度)を乗算する。図21は、半音階逸脱度を説明する図である。同図に示すグラフの横軸は平均ピッチデータ(cent単位)を示す。100centで半音変化とする。例えばピッチが150centの音声であった場合、半音と半音の間を発音していることとなるので、半音階から最も逸脱しているとしてErr値を最大(Err=1.0)とする。100centの音声であった場合はちょうど半音階を発音していることとなり、Err値を最小(Err=0)とする。また、半音の±数十cent(例えば20cent)についてもほぼ半音階を発音しているとしてErr値を最小とする。この±数十centを超えた場合に直線的にErr値を大きくする。
上記の半音階逸脱度(Err値)と高音余裕度63の素点(raw score)をスケーリングしてから乗算することで高音余裕度63を判定する。図22は、半音階逸脱度と高音余裕度63の素点のスケーリングを示す図である。同図(A)に半音階逸脱度の値に応じたスケーリングを示す。同図(B)に高音余裕度63の素点の値に応じたスケーリングを示す。半音階逸脱度が任意の値Era以下の場合にゼロにスケーリングし、任意の値Erb以上の場合に100%にスケーリングする。このEraからErbまでの間は、半音階逸脱度が大きくなるにつれてスケーリングを直線的に大きくする。
また、高音余裕度63の素点が任意の値RSa以下の場合に100%にスケーリングし、任意の値RSb以上の場合に所定のスケール値RSCa(例えば60%程度)にスケーリングする。このRSaからRsbまでの間は、高音余裕度63の素点が大きくなるにつれてスケーリングを直線的に小さくする。
最後に、半音階逸脱度と高音余裕度63の素点を乗算する。この乗算値を高音余裕度63として判定する。
なお、高音余裕度分析部56は、安定度判定値62、透明度判定値61、平均ピッチ30、および、ピッチ/エネルギ分布52に基づいて高音余裕度63を判定してもよい。判定の方式は、各パラメータ値に応じた判定値を予めテーブル化しておいてこのテーブルにパラメータ値を当てはめて判定値を割り出してもよく、ファジィやニューラルネットワーク等の推論エンジンを用いてもよい。
また、また、さらに別の方式として、以下のような数式から高音余裕度63を割り出してもよい。
Figure 0004432893
(数21)に示すa〜fは実数(定数)である。なお、上述の響き度判定値60の算出時に用いた実数a〜f、透明度判定値61に用いた実数a〜e、および安定度62に用いた実数a〜eとは異なる数値であるものとする。実数fはオフセット値を表す。以下、それぞれの項目について説明する。
Spect.Tiltは、周波数スペクトルの傾斜を示す値であり、上記スペクトル傾斜度分析部31が割り出すスペクトル傾斜度38を表す。この場合、図1において、スペクトル傾斜度38を判定部56に入力するようにする。
Vob.Prob.は、ビブラート発生度を表す。
Energy at High pitchは、高音領域におけるエネルギを示す値であり、平均エネルギデータ29についてピッチによる重み付き累積平均処理を行い、非線形処理を加味したものである。すなわち、ピッチの重み付けを平均エネルギデータ29に乗算する。ただし、平均エネルギデータ29をスケーリングしてから重み付けを行う。図23は、ピッチのスケーリングを示した図である。同図に示すように、平均ピッチデータ30が任意の値Pa以下の場合はピッチ(Pitch')をPaとし、Pb以上の場合にピッチ(Pitch')をPbとする。このPaからPbまでの間は、平均ピッチデータ30が大きくなるにつれてピッチを直線的に大きくする。このスケーリングしたピッチ(Pitch')について図24に示すように重み付け(WPitch')を設定する。この重み付けを、次の数式に示すように平均エネルギデータ29に乗算する。
Figure 0004432893
Spect.Tilt at High pitchは、高音領域における周波数スペクトルの傾斜を示す値であり、スペクトル傾斜度38についてピッチによる重み付き累積平均処理を行い、非線形処理を加味したものである。すなわち、図20に示したピッチの重み付けを平均エネルギデータ29に乗算する。
Pitch Dew From Perfect Scaleは、上述した半音階逸脱度を表す。
各項目の係数a〜e、およびオフセット値fは、上述した判定値と同様に機械学習方式(教師あり)で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。
なお、この方式においても、以下の条件を満たす場合にのみ高音余裕度63を算出するものである。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
次に、低音余裕度64は、低音の発生にどの程度余裕があるかを表す指標である。低音余裕度分析部57は、例えば以下の手法で低音余裕度64を算出する。判定部57は、低音余裕度64を算出する際に、倍音ピークデータ26に対して種々の特徴量による重み付けを行う。例えば音色変化度27が大きくなるにつれて低音余裕度64が小さくなるようにする。
すなわち、図10(A)に示したように、音色変化度27が小さい場合は重み付けを1とし、音色変化度27が下限値(Bottom)を超えた場合に放物線状に重み付けを小さくし、上限値(Top)で0とする。この下限値、および上限値は、図10(B)に示すように、音色変化度の下限値、上限値はビブラート発生度に応じてその値を変化させる。ビブラート発生度が大きくなると下限値、上限値も大きく設定する。
また、平均エネルギデータ29、および平均ピッチデータ30による重み付けも行う。すなわち、全体の重み付けWは、以下のような数式で表される。
Figure 0004432893
ここで、エネルギ項(rawEnergy)は、音声信号の振幅の自乗を計算した値とする。ピッチによる重み付け項は、図25に示すとおりである。ここでWeightpitchLowは、同図に示すようにピッチ(周波数f)の負のべき乗で表される。周波数が小さくなるにつれ重み付けを等比的に大きくする。つまり、低音の音声信号について低音余裕度64の結果に大きく反映させる。本発明者は、実験によりべき乗(等比)による重みを付けることで、例えばキーを変えた歌唱音声であっても結果が同一となることを確認している。
(数23)に示した全体の重み付けWeightを倍音ピークデータ26に乗算し、曲の最初から現時点まで累積する。ただし、低音余裕度64を算出する場合、倍音ピークデータ26のうち、2倍音のピーク(dB)と基音のピーク(dB)との差を求め、この値について次の数式のように重み付き累積平均を算出する。
Figure 0004432893
(数24)で求めた低音余裕度64の累積値について、最後にスケーリングを行う。図26は、低音余裕度64のスケーリングを示す図である。低音余裕度64の累積値が任意の値−LTa以下の場合低音余裕度64をゼロにスケーリングし、任意の値LTb以上の場合に低音余裕度64を100%にスケーリングする。この−LTaからLTbまでの間は、低音余裕度64の累積値が大きくなるにつれてスケーリングを直線的に大きくする。
なお、低音余裕度分析部57は、響き度判定値60、平均ピッチ30およびピッチ/エネルギ分布52に基づいて低音余裕度64を判定してもよい。判定の方式は、他の声質判定値と同様に算術平均、テーブル、推論エンジンのいずれの方式でもよい。
また、さらに別の方式として、以下のような数式から低音余裕度64を割り出してもよい。
Figure 0004432893
(数25)に示すa〜dは実数(定数)である。なお、上述の響き度判定値60の算出時に用いた実数a〜f、透明度判定値61に用いた実数a〜e、安定度62に用いた実数a〜e、および高音余裕度63に用いた実数a〜fとは異なる数値であるものとする。実数dはオフセット値を表す。以下、それぞれの項目について説明する。
HL Energy Ratioは、高周波帯域と低周波帯域のampの比を表す。図27に示すように、ピッチ/エネルギ分布52のうち、任意の高周波数帯域と任意の低周波帯域についてそれぞれ平均を算出する。このそれぞれの平均値について次の数式に示すように比を算出する。
Figure 0004432893
Vob.Prob.は、ビブラート発生度を表す。
Pitch Dew From Perfect Scaleは、上述した半音階逸脱度を表す。
各項目の係数a〜c、およびオフセット値dは、上述した判定値と同様に機械学習方式(教師あり)で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。
なお、この方式においても、以下の条件を満たす場合にのみ低音余裕度64を算出するものである。
(1)ピッチデータが有る
(2)音色変化度<音色変化度上限値
なお、上記実施形態は、本発明の1つの具体例に過ぎず、音声信号を評価する内容は、響き度、透明度、安定度、高音余裕度、低音余裕度に限定されない。また、途中算出する物理パラメータも、上記のものに限定されない。
例えば、本発明の声質判定装置を用いることで、鼻音(鼻にかかった声)の発生程度を表す指標である鼻音検出値を算出することもできる。以下、鼻音検出値を算出する手法について説明する。図28は、鼻音検出を行う場合の声質判定装置の機能ブロック図である。なお、図1で示した機能ブロック図と同一の機能部については同一の符号を付し、その説明を省略する。
鼻音検出を行う場合の声質判定装置において、外部から入力された音声信号10は、ピッチ検出部15、ダウンサンプリング部11に入力されるとともに鼻音検出部58に入力される。周波数スペクトル16は、ピーク検出部21、MEL分析部17に入力されるとともに鼻音検出部58に入力される。鼻音検出部58は、この音声信号10、および周波数スペクトル16から鼻音検出値65を算出する。
図29に鼻音検出部58の詳細な機能ブロック図を示す。同図に示すように、音声信号10が入力されるウィンドウ処理部501は、フィルタリングの前処理として、音声信号からサンプリングデータ列を切り出して、このサンプリングデータ列に窓関数を掛ける。窓関数処理がされた音声信号(サンプリングデータ列)は、ローパスフィルタ(LPF)502とバンドパスフィルタ(BPF)503に対して出力される。一方で周波数スペクトル16が入力される第一フォルマント抽出部504は、第一フォルマントを抽出するために所定の周波数帯域(例えば300Hz〜1000Hz)のスペクトルについて重心となる周波数を計算を行う。この重心周波数は第一フォルマント周波数505としてBPF503に対して出力される。
LPF502は、予め定めた周波数以下の低周波数帯域の音声信号のみをTeagerOperator506に出力する。例えば1kHz以下の周波数帯域を出力する。BPF503は、予め定めた周波数帯域のみの音声信号をTeager Operator507に出力する。BPF503は、音声信号を出力する周波数帯域を第一フォルマント周波数505に基づいて決定する。すなわち、第一フォルマント周波数505を中心とする所定周波数帯域の音声信号を出力する。通過帯域幅は例えば前後250Hzとする。
Teager Operator506、およびTeager Operator507は、サンプリングデータ列に対して、以下の数式で表される計算を行う。
Figure 0004432893
Teager Operator506の計算値はエネルギ計算部508に出力され、TeagerOperator507の計算値はエネルギ計算部509に出力される。エネルギ計算部508、およびエネルギ計算部509は、それぞれ、次の数式に示すようにフレーム毎のエネルギ値を算出する。
Figure 0004432893
エネルギ計算部508、およびエネルギ計算部509は、上記エネルギ値を相対差計算部510に出力する。相対差計算部510は、以下の数式に示すように、LPF502、BPF503に対するエネルギ値の相対差を算出する。
Figure 0004432893
相対差計算部510は、この相対差rを鼻音検出値65として出力する。この鼻音検出値65が大きいほど鼻にかかった声として判断することができる。以上のような手法で鼻音検出値65を求めることで、客観且つ正確に人の声質(安定度)を判定することができる。
なお、この鼻音検出値65を用いて、以下のような数式により人間が導き出す結果に近づけるようにしてもよい。
Figure 0004432893
(数30)に示すa〜hは実数(定数)である。なお、上述の響き度判定値60の算出時に用いた実数a〜f、透明度判定値61に用いた実数a〜e、安定度62に用いた実数a〜e、高音余裕度63に用いた実数a〜f、および低音余裕度64に用いた実数a〜dとは異なる数値であるものとする。実数hはオフセット値を表す。以下、それぞれの項目について説明する。
Spect.Tiltは、周波数スペクトルの傾斜を示す値であり、スペクトル傾斜度分析部31が割り出すスペクトル傾斜度38を表す。
Harm.To Spect.Areaは、スペクトル値の減衰の程度を表すものであり、上記ピーク間減衰量分析部35が割り出すピーク間減衰量42に相当する。
Formant To Harm.Areaは、フォルマント明瞭度分析部33が割り出すフォルマント明瞭度40を表す。
Nasalは、上記鼻音検出値65を表す。
Mel2は、MEL係数18の前後2フレーム(現フレーム、および1フレーム後)の累積である。
Mel3は、MEL係数18の前後3フレーム(1フレーム前、現フレーム、および1フレーム後)の累積である。
Mel5は、MEL係数18の前後5フレーム(2フレーム前、1フレーム前、現フレーム、1フレーム後、および2フレーム後)の累積である。
各項目の係数a〜g、およびオフセット値hは、上述した判定値と同様に機械学習方式(教師あり)で求める。ニューラルネットワーク等の手法を用い、入力値に対し、人間が導き出した数値結果に近づくように各係数を決定していく。
この発明の実施形態である声質判定装置の機能ブロック図 sin波の算出手法について説明する図 同声質判定装置におけるスペクトル傾斜度の分析方式を説明する図 同声質判定装置におけるスペクトル励起度の分析方式を説明する図 同声質判定装置におけるフォルマント明瞭度の分析方式を説明する図 同声質判定装置におけるピーク間減衰量の分析方式を説明する図 同声質判定装置における波形ピークレベル安定度の分析方式を説明する図 同声質判定装置におけるMEL係数の分析方式を説明する図 音声信号のエンベロープ形状の例を示す図 音色変化度の重み付けについて説明する図 ビブラート発生度を説明する図 ビブラート発生度による重み付け項を説明する図 響き度のスケーリングを説明する図 ビブラート発生度による補正項を示す図 ピーク間減衰量42と波形ピークレベル安定度43のスケーリングを示す図 安定度のスケーリングを説明する図 同声質判定装置におけるピッチ/エネルギ分布の分析方式を説明する図 平均エネルギデータによる重み付けを説明する図 ビブラート発生度による重み付けを説明する図 (高音余裕度において)ピッチによる重み付けを説明する図 半音階逸脱度を説明する図 半音階逸脱度と高音余裕度63の素点のスケーリングを示す図 ピッチのスケーリングを示す図 スケーリングしたピッチ(Pitch')について重み付けを示す図 (低音余裕度において)ピッチによる重み付けを示す図 低音余裕度64のスケーリングを示す図 高周波帯域と低周波帯域のampの比を表す図 鼻音検出を行う場合の声質判定装置の機能ブロック図 鼻音検出部58の詳細な機能ブロック図
符号の説明
1…DSP
2…CPU
10…音声信号
60…響き度
61…透明度
62…安定度
63…高音余裕度
64…低音余裕度
65…鼻音検出値

Claims (11)

  1. 入力した音声信号から、その音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
    前記音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析部と、
    この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定部と、
    を備え
    前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
  2. 前記声質判定部は、音声の切れ目およびサスティン部を前記音色変化度により判定した結果である音声分割情報に基づいて、前記判定値を算出するか否かを決定し、算出すると決定した区間の判定値の累積値に基づいて音声信号の音質を判定する請求項1に記載の音質判定装置。
  3. 音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
    音声信号の周波数スペクトルの傾斜を示すスペクトル傾斜度パラメータ、音声信号の基本波の倍音成分の減衰曲線を表すスペクトル励起度パラメータ、および、音声信号のフォルマント成分の明瞭度を表すフォルマント明瞭度パラメータを分析する物理パラメータ分析部と、
    前記スペクトル傾斜度パラメータ、前記スペクトル励起度パラメータおよび前記フォルマント明瞭度パラメータのうち、少なくともいずれか1つに対して重み付けを行い響き度判定値を算出し、該響き度判定値の累積値に基づいて前記音声信号の響き度を判定する声質判定部と、
    を備え
    前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
  4. 音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
    声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および、音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析する物理パラメータ分析部と、
    記倍音安定度パラメータ、前記ピーク間減衰量パラメータ、および前記波形ピークレベル安定度パラメータのうち、少なくともいずれか1つに対して重み付けを行い透明度判定値を算出し、該透明度判定値の累積値に基づいて前記音声信号の透明度を判定する声質判定部と、
    を備え、
    前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
  5. 音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
    音声信号の基本周波数を表すピッチパラメータを分析する物理パラメータ分析部と、
    記ピッチパラメータに対して重み付けを行い安定度判定値を算出し、該安定度判定値の累積値に基づいて前記音声信号の安定度を判定する声質判定部と、
    を備え
    前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
  6. 前記物理パラメータ分析部は、音声信号のパワーレベルを表すエネルギパラメータ、音声信号の基本波の倍音成分の安定度を示す倍音安定度パラメータ、音声信号の周波数スペクトルにおける基本波の倍音成分以外の少なさを表すピーク間減衰量パラメータ、および音声信号の時間軸波形におけるピーク値の安定性を示す波形ピークレベル安定度パラメータを分析し、
    前記声質判定部は、前記ピッチパラメータおよび前記エネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ/エネルギ分布パラメータを分析するとともに、
    前記倍音安定度パラメータ、前記ピーク間減衰量パラメータおよび前記波形ピークレベル安定度パラメータのうち、少なくともいずれか1つに対して前記重み付けを行い透明度判定値を算出し、
    前記ピッチパラメータ、前記ピッチ/エネルギ分布パラメータ、前記安定度判定値、および前記透明度判定値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定する請求項5に記載の声質判定装置。
  7. 音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
    音声信号のパワーレベルを表すエネルギパラメータを分析する物理パラメータ分析部と、
    前記エネルギパラメータに対して重み付けを行い高音余裕度を算出し、該高音余裕度の乗算値に基づいて前記音声信号の高音域の余裕度を示す高音余裕度を判定する声質判定部と、
    を備え、
    前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
  8. 前記物理パラメータ分析部は、音声信号の基本周波数を表すピッチパラメータ、音声信号のパワーレベルを表すエネルギパラメータを分析し、
    前記声質判定部は、前記ピッチパラメータおよびエネルギパラメータに基づいて音声信号のピッチに対応するエネルギの分布を表すピッチ/エネルギ分布パラメータを分析するとともに、前記ピッチパラメータ、前記ピッチ/エネルギ分布パラメータ、および前記響き度判定値に基づいて、音声信号の低音域の余裕度を示す低音余裕度を判定する請求項2に記載の声質判定装置。
  9. 音声信号の音素変化を示す音色変化度を割り出す音色変化度分析部と、
    音声信号の基本波の倍音成分を表す倍音ピークパラメータを分析する物理パラメータ分析部と、
    前記倍音ピークパラメータに対して重み付けを行い低音余裕度を算出し、該低音余裕度の累積値に基づいて前記音声信号の低音域の余裕度を示す低音余裕度を判定する声質判定部と、
    を備え
    前記声質判定部は、前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくする声質判定装置。
  10. 入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、
    前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、
    前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、
    前記物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、
    を備えた声質判定方法。
  11. コンピュータに、
    入力した音声信号から、その音声信号の物理的な特徴である物理パラメータを割り出す物理パラメータ分析手順と、
    前記音声信号の音素変化を示す音色変化度を割り出す音色変化度分析手順と、
    前記音色変化度に基づいて、音素変化が母音定常状態に近づくほど重み付けを大きくし、過渡状態に近づくほど重み付けを小さくするように重み付けを決定する決定手順と、
    この物理パラメータに対して重み付けを行い判定値を算出し、該判定値の累積値に基づいて音声信号の声質を判定する声質判定手順と、
    を実行させる声質判定プログラム。
JP2005361612A 2004-12-15 2005-12-15 声質判定装置、声質判定方法、および声質判定プログラム Expired - Fee Related JP4432893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005361612A JP4432893B2 (ja) 2004-12-15 2005-12-15 声質判定装置、声質判定方法、および声質判定プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004363730 2004-12-15
JP2005361612A JP4432893B2 (ja) 2004-12-15 2005-12-15 声質判定装置、声質判定方法、および声質判定プログラム

Publications (2)

Publication Number Publication Date
JP2006195449A JP2006195449A (ja) 2006-07-27
JP4432893B2 true JP4432893B2 (ja) 2010-03-17

Family

ID=36801541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005361612A Expired - Fee Related JP4432893B2 (ja) 2004-12-15 2005-12-15 声質判定装置、声質判定方法、および声質判定プログラム

Country Status (1)

Country Link
JP (1) JP4432893B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4595934B2 (ja) * 2006-12-13 2010-12-08 ヤマハ株式会社 音声評価装置及び音声評価方法
JP4900017B2 (ja) * 2007-04-17 2012-03-21 ヤマハ株式会社 ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム
EP2329399A4 (en) 2008-09-19 2011-12-21 Newsouth Innovations Pty Ltd METHOD FOR ANALYZING A TONE SIGNAL
JP5463655B2 (ja) * 2008-11-21 2014-04-09 ソニー株式会社 情報処理装置、音声解析方法、及びプログラム
JP5515342B2 (ja) * 2009-03-16 2014-06-11 ヤマハ株式会社 音波形抽出装置、およびプログラム
JP5456370B2 (ja) * 2009-05-25 2014-03-26 任天堂株式会社 発音評価プログラム、発音評価装置、発音評価システムおよび発音評価方法
JP5697395B2 (ja) * 2010-10-05 2015-04-08 ヤマハ株式会社 歌唱音声評価装置およびプログラム
KR101250051B1 (ko) * 2011-09-09 2013-04-03 (주)알고코리아 발음 교정을 위한 음성 신호 분석 방법 및 장치
JP5740353B2 (ja) * 2012-06-05 2015-06-24 日本電信電話株式会社 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム
WO2016141538A1 (zh) * 2015-03-09 2016-09-15 常平 一种音高排名时的产品信息推送方法和点歌系统
CN115424636B (zh) * 2022-11-04 2023-02-03 广州声博士声学技术有限公司 一种基于语音传输指数的音质测量方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2709926B2 (ja) * 1987-10-09 1998-02-04 株式会社エイ・ティ・アール自動翻訳電話研究所 声質変換方法
JPH02109100A (ja) * 1988-10-19 1990-04-20 Fujitsu Ltd 音声入力装置
JPH09325791A (ja) * 1996-06-07 1997-12-16 Matsushita Electric Ind Co Ltd 音質診断装置
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム
JP3631657B2 (ja) * 2000-04-03 2005-03-23 シャープ株式会社 声質変換装置および声質変換方法、並びに、プログラム記録媒体
JP3754613B2 (ja) * 2000-12-15 2006-03-15 シャープ株式会社 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3945356B2 (ja) * 2002-09-17 2007-07-18 株式会社デンソー 音声対話装置及びプログラム

Also Published As

Publication number Publication date
JP2006195449A (ja) 2006-07-27

Similar Documents

Publication Publication Date Title
JP4432893B2 (ja) 声質判定装置、声質判定方法、および声質判定プログラム
Morise et al. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
EP0625774B1 (en) A method and an apparatus for speech detection
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR100929958B1 (ko) 음성 인증 장치, 음성 인증 방법 및 기계 판독가능 매체
US20020035915A1 (en) Generation of a note-based code
US8069039B2 (en) Sound signal processing apparatus and program
EP2083417A2 (en) Sound processing device and program
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JP2969862B2 (ja) 音声認識装置
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
US5809453A (en) Methods and apparatus for detecting harmonic structure in a waveform
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
CN106356076A (zh) 基于人工智能的语音活动性检测方法和装置
WO2007049879A1 (en) Apparatus for vocal-cord signal recognition and method thereof
JP4585590B2 (ja) 基本周波数変化量抽出装置、方法及びプログラム
JP2797861B2 (ja) 音声検出方法および音声検出装置
US20060150805A1 (en) Method of automatically detecting vibrato in music
KR20050003814A (ko) 음정 인식 장치
JP5151103B2 (ja) 音声認証装置、音声認証方法およびプログラム
Hassan et al. A method for voiced/unvoiced classification of Noisy speech by analyzing time-domain features of spectrogram image
JP5157474B2 (ja) 音処理装置およびプログラム
JP4807261B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091214

R150 Certificate of patent or registration of utility model

Ref document number: 4432893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140108

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees