JP2004354589A - 音響信号判別方法、音響信号判別装置、音響信号判別プログラム - Google Patents
音響信号判別方法、音響信号判別装置、音響信号判別プログラム Download PDFInfo
- Publication number
- JP2004354589A JP2004354589A JP2003150788A JP2003150788A JP2004354589A JP 2004354589 A JP2004354589 A JP 2004354589A JP 2003150788 A JP2003150788 A JP 2003150788A JP 2003150788 A JP2003150788 A JP 2003150788A JP 2004354589 A JP2004354589 A JP 2004354589A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound type
- frequency
- primary
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音響信号判別装置で判別した判定結果の信頼性を高める。
【解決手段】複数の音響特徴量から、それぞれの特徴量毎に尤度計算を施し、尤度が最も大きい値を呈する音種を入力信号の音種と決定する音響信号判別方法において、同一音種と判定した連続性の有る判定結果の信頼性をチェックし、連続性が有るにも係わらず尤度が低い判定結果に対してはこの判定結果を誤判定として排除する第1修正処理と、所定の分析窓長内で発生頻度の低い判定結果を発生頻度の高い判定結果に置換する第2修正処理を施し、音種の判定結果の信頼性を高める。
【選択図】 図16
【解決手段】複数の音響特徴量から、それぞれの特徴量毎に尤度計算を施し、尤度が最も大きい値を呈する音種を入力信号の音種と決定する音響信号判別方法において、同一音種と判定した連続性の有る判定結果の信頼性をチェックし、連続性が有るにも係わらず尤度が低い判定結果に対してはこの判定結果を誤判定として排除する第1修正処理と、所定の分析窓長内で発生頻度の低い判定結果を発生頻度の高い判定結果に置換する第2修正処理を施し、音種の判定結果の信頼性を高める。
【選択図】 図16
Description
【0001】
【発明の属する技術分野】
本発明は、例えば音声、音楽、環境雑音などの音響の種別を判別する音響信号判別方法、音響信号判別装置、音響信号判別プログラムに関する。
【0002】
【従来の技術】
従来の音響信号判別技術は、音源成分を求めるために信号の自己相関係数を求め、また、信号の定常性を求めるためにバンドパスフィルタを用いて求めるなど特徴量の抽出毎に別の信号処理を行う必要があり、そのために信号処理効率が悪いという問題があった。
その一例として、入力信号から特徴抽出部にて一定時間毎に複数の特徴量を抽出し、各音韻毎の特徴量と多数の学習用音声データから特徴量分布作成部で作成した特徴量分布との統計的距離を計算する特徴量尤度算出部を有し、各音韻毎に得られた継続時間と多数の学習用音声データから継続時間分布作成部で作成した継続時間分布との統計的距離とを算出する継続時間尤度算出部を有し、これら2つの距離を統合して音声を検出する総合判定部を備えた音声検出方法が提案されている(特許文献1、特許文献2)。
【0003】
【特許文献1】
特開平6−332492号公報
【特許文献2】
特開平8−87293号公報
【0004】
【発明が解決しようとする課題】
上記した特許文献1及び特許文献2に見られるように、従来は被判別信号の特徴量として、各音韻毎の特徴量と多数の学習用音声データから特徴量分布作成部で作成した特徴量分布との統計的距離を計算するなどの信号処理を行うため、信号処理効率が悪いという問題があった。
また、信号の定常性を計測するために、バンドパスフィルタを用いて周波数スペクトルの長時間の傾向をみる方法があるが、結果を得るために長い時間の分析窓が必要であった。また、音源成分の抽出にはスペクトル包絡の調波構造に基づく手法は存在したが、調波構造のピークが捉えにくいことや、調波構造のピーク間隔の揺らぎによって周波数スペクトル全体のもつ調波構造を捉えることはできなかった。
【0005】
更に、雑音の識別を行うには、その信号の雑音の度合を計測する方法が必要であるが、これを計測する尺度は提案されていない。また、スペクトルの高域と低域などの形状の比較を行う場合において、スペクトル包絡の複雑さを簡易な表現に変換し、比較を行う尺度も提案されていない。
このため本出願人は先に「特願2003−29943」により被判別音響信号の周波数スペクトルを求め、この周波数スペクトルから信号の定常性及び非定常性を特定することができる特徴量及び周波数スペクトル全体の持つ調波構造を捉えることができる特徴量、雑音の度合を計測する特徴量及びスペクトル包絡の簡易な表現を実現することができる特徴量を提案し、これらの特徴量を用いることにより効率よく、然も精度よく被判別音響信号の種別を判定することができる音響信号判別方法、音響信号判別装置、音響信号判別プログラムを提案した。
この発明は先に提案した音響信号判別方法、音響信号判別装置及び音響信号判別プログラムの改良に関し、特に判別結果に得られた音種の判別誤りを検出する処理と、その誤りを修正する修正処理を付加し、判別結果の信頼性を向上させようとするものである。
【0006】
【課題を解決するための手段】
この発明では、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理と、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理と、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理と、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理と、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理と、複数の特徴量抽出処理で抽出した任意の数の特徴量を用いて、被判別音響信号の種別を各特徴量毎に判別する音響信号判別方法であって、特徴量毎の判別結果として得られる複数の音響種別の中で最も長く同一の判別結果を出力している音響種別の同一判別結果を出力し続ける時間長を計測し、その時間長を一次分析窓幅とし、同一判定結果を出力し続ける音響種別を一次音響種別と決定する一次分析条件決定処理と、この一次分析条件決定処理で決定した一次分析窓幅の中で各特徴量を用いた判別結果を再計算し、一次分析窓幅の範囲内の音響種別を求める一次再判別処理と、この一次再判別処理で得られた音響種別と一次分析条件決定処理で決定した一次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する一次音響種別決定処理と、一次再判別処理の再判別結果が一次音響種別と不一致の場合に次に長い時間長の音響種別判別結果を呈する音響種別の時間長を二次分析窓幅とし、その音響種別を二次音響種別と決定する二次分析条件決定処理と、この二次分析条件決定処理で決定した二次分析窓幅の中で上記特徴量を用いた音響判別結果を再計算し、音響種別を求める二次再判別処理と、この二次再判別処理で得られた音響種別と、二次分析条件決定処理で決定して二次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する二次音響種別修正処理と、二次再判別処理の二次判別結果が上記二次分析条件決定処理で決定した二次音響種別と不一致の場合に次に長い音響種別判別結果を呈する音響種別を三次音響種別とし、その時間長を三次分析窓幅と決定し、音響種別修正処理を繰返し、音響種別の判別結果が一致するまで繰返す音響信号判別方法を提案する。
この発明では更に、音響信号判別方法により修正処理された音響種別の列を所定の窓長を持つ分析窓で分析し、その分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換処理する音響信号判別方法を提案する。
【0007】
この発明では更に、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出手段と、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出手段と、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出手段と、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出手段と、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出手段と、複数の特徴量抽出手段で抽出した任意の数の特徴量を用いて被判別音響信号の種別を各特徴量毎に判別する音響信号判別装置であって、各特徴量毎の判別結果として得られる複数の音響種別の中で最も長く同一の判別結果を出力している音響種別の同一判別結果を出力し続ける時間長を計測し、その時間長を一次分析窓幅とし、同一判定結果を出力し続ける音響種別を一次音響種別と決定する一次分析条件決定手段と、この一次分析条件決定手段で決定した一次分析窓幅の中で各特徴量を用いた判別結果を再計算し、一次分析窓幅の範囲内の音響種別を求める一次再判別手段と、この一次再判別手段で得られた音響種別と一次分析条件決定手段で決定した一次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する一次音響種別修正手段と、一次再判別手段の再判別結果が一次音響種別と不一致の場合に次に長い時間長の音響種別判別結果を呈する音響種別の時間長を二次分析窓幅とし、その音響種別を二次音響種別と決定する二次分析条件決定手段と、この二次分析条件決定手段で決定した二次分析窓幅の中で上記特徴量を用いた音響判別結果を再計算し、音響種別を求める二次再判別手段と、この二次再判別手段で得られた音響種別と、二次分析条件決定手段で決定して二次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別を決定する二次音響種別修正手段と、二次再判別手段の二次判別結果が二次分析条件決定手段で決定した二次音響種別と不一致の場合に次に長い音響種別判別結果を呈する音響種別を三次音響種別とし、その時間長を三次分析窓幅と決定し、音響種別修正処理を繰返し、音響種別の判別結果が一致するまで繰返す音響信号判別装置を提案する。
【0008】
この発明では更に、音響信号判別装置により判別された音響種別の列を所定の窓長を持つ分析窓で分析し、その分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換処理する置換処理手段を具備していることを特徴とする音響信号判別装置を提案する。
この発明では更に、コンピュータが解読可能な符号列によって記述され、コンピュータに音響信号判別方法の少なくとも一方を実行させる音響信号判別プログラムを提案する。
【0009】
作用
本発明によれば、先に提案した発明と同様に第1特徴量抽出処理乃至第5特徴量抽出処理で抽出する各特徴量は全て被判別音響信号の周波数スペクトルから抽出する。従って、全て同一系統の信号処理で音響信号の種別を判別でき信号処理の効率がよい。
また、音響信号の定常性及び非定常性を判別する特徴量、単一音源の有無を判別する特徴量、雑音の白色性を判別する特徴量、スペクトルの形状を簡素に表現し、スペクトルの形状の違いを比較することを可能とした特徴量をそれぞれ抽出するから、信頼性の高い種別判定を行うことができる。
更に、本発明によれば先に提案した発明で得られる作用効果に加えて種別判定結果から判定の誤りを検出し、その誤りを修正する修正処理及び修正手段を付加したから、判別結果の信頼性を更に高めることができる。
【0010】
【発明の実施の形態】
図1に先に提案した音響信号判別方法を用いて音響信号の種別を判定する音響信号判別装置の概要を示す。
被判別音響信号は周波数分析手段1で周波数分析され、周波数スペクトルが求められる。周波数分析手段1としては例えばFFT等と呼ばれている高速フーリエ変換手段を用いることができる。高速フーリエ変換手段によれば例えば1024サンプルの音響データを1フレームとして取扱い、1フレーム内に存在する音響データの周波数成分を分析する。
この発明ではこの周波数分析手段1で分析した周波数スペクトルを利用して第1特徴量〜第N特徴量を抽出する構成とした点を特徴とするものである。この実施例ではN=5とした場合を示す。このために、周波数分析手段1の出力側に、第1特徴量抽出手段10と、第2特徴量抽出手段20と、第3特徴量抽出手段30と、第4特徴量抽出手段40と、第5特徴量抽出手段50が接続される。
図1では時間軸方向の相関係数計算手段11と、分散値計算手段12をブロックで囲んで第1特徴量抽出手段10を構成しているように表記しているが、実質的には周波数分析手段1を含んで第1特徴量抽出手段10が構成される。
【0011】
第1特徴量抽出手段10を構成する時間軸方向の相関係数計算手段11は、周波数分析手段1から与えられる周波数分析結果を時間軸方向に隣接する周波数スペクトルの相関係数を計算する。相関係数の値が高い値(1に近い値)の発生頻度が多い状況では入力された被判定音響信号は時間軸方向に周波数スペクトルの変動が少ないと見ることができる。この状況下にある信号を以下では定常性を持つ信号、又は定常的な信号と称すことにする。
これに対し、相関係数が低い値(0に近い値)の発生頻度が多い状況ではその時点の被判別音響信号は時間軸方向に大きく変動していると見ることができる。この状況下にある信号を以下では非定常性を持つ信号又は非定常な信号と称すことにする。
【0012】
定常性を持つ信号と非定常性を持つ信号の一例を図2を用いて説明する。図2で横軸は時間を示す。図2の前半の区間X1はBGM音楽信号を被判別音響信号として入力した状況、後半の区間X2は音声信号を被判別音響信号として入力した状況を示す。上段Aに示す曲線は被判別音響信号のパワー値(RMS)を示す。パワー値は上に向う程パワー値が高く、下に向うほどパワー値が低いことを表わす。
中段Bは被判別音響信号のピッチ(基本周波数)を抽出した結果を表わす。このピッチに関しては第2特徴量抽出手段20の部分で説明するが、このピッチデータも上に向う程周波数が高く、下に向う程周波数が低いことを表わす。
下段Cは第1特徴量抽出手段10を構成する時間軸方向の相関係数計算手段11で計算した時間軸方向の相関係数を示す。この相関係数は上に向う程相関値が1に近づき、下に向う程0値に近づく。
【0013】
図2に示す時間軸方向の相関係数の軌跡から被判別音響信号が音楽の場合は相関係数は安定し、音声区間では相関係数が大きく変動する様子が解る。
尚、時間軸方向のn番目のパワースペクトルとn+1番目のパワースペクトルとの相関係数Rt,t+1は以下に示す(1)式,(2)式,(3)式で求められる。
【数1】
(2)式はパワースペクトルの相関係数、(3)式は正規化のための重み係数を示す。
【0014】
音楽が被判別音響信号の場合、スペクトルの包絡が時間軸方向に似通っているために高い相関値を保つと考えられる。これに対して音声の区間では相関係数値が大きく変動している。音声の中でも母音部分では高いと相関値を示すが、子音部分や音韻の境界ではスペクトルの変化が生じるために低い相関値を示すものと考えられる。この結果、この発明ではある時間長の相関値を計測し、その分散の度合により信号が定常的か非定常的かを判定するものとする。
このために、第1特徴量抽出手段10では時間軸方向の相関係数計算手段11の出力側に分散値計算手段12を設け、この分散値計算手段12で相関係数の単位時間あたりの分散値Vを計算する。分散値Vは以下に示す(4)式で計算される。
【数2】
(4)式において分析フレーム長をNとし、Rnは連続するN個の相関係数、R^はフレーム内の相関係数の平均を示す。
【0015】
図3に各種別の音響信号の相関係数の分散を示す。図3に示す曲線S1は被判別音響信号が音楽の場合の相関値の分散を表わす。
曲線S2は被判別音響信号が音声の場合の相関値の分散を表わす。
曲線S3はポーズ区間の相関値の分散。
曲線S4は自動車の走行音の相関値の分散。
曲線S5はプロペラ機のエンジン音の相関値の分散。
曲線S6はペーパーノイズ(紙をめくる音)の相関値の分散を示す。
音楽と音声の相関値の分散曲線S1とS2は分布の重なりが少ない形状となっている。よって、この分散を特徴量として用いることにより音声と音楽とを判別することができる。但し、その他の音響信号に関しては分布が広がっており、この特徴量では種別の判別は困難であると見られる。図3に示す例では、分散値が40〜60の範囲で音楽、分散値が60〜80の範囲で音声と判定することができる。第1特徴量抽出手段10はこの分散値を第1特徴量として判別手段60に出力する。種別の判別方法に関しては判別手段60の項で説明する。
【0016】
次に、第2特徴量抽出手段20について説明する。第2特徴量抽出手段は周波数軸方向の相関係数計算手段21と、ピッチ抽出手段22とによって構成することができる。周波数軸方向の相関係数計算手段21は周波数分析手段1で周波数分析した時点nで得られた周波数スペクトルと、時点n+1で得られた周波数スペクトルを相互に周波数軸方向に移動させながら、各移動周波数毎に相関係数を計算する。
図4にその様子を示す。図4に示すSP1は時点nで得られた周波数スペクトル、SP2は時点n+1で得られた周波数スペクトルを示す。双方の周波数スペクトルの周波数差が0Hzである状態から、何れか一方の周波数スペクトルを周波数軸方向にわずかずつ(Δf)移動させ、移動毎に相互の相関係数を求める。相関係数は(5)式、(6)式、(7)式で求められる。
【数3】
【0017】
図5にスペクトルの移動による相関係数の一例を示す。スペクトルSP1とSP2を周波数軸方向にずらしながら相互の相関係数を求めることにより、調波構造のピークに双方のスペクトルが重なる毎に強い相関を示し、ピークの重なりがずれれば0.2程度の極めて低い相関を示す。この繰り返しにより明確な相関値のピークが得られる。相関係数に周期的にピークが発生する場合、被判別音響信号に周期性を持つ信号が含まれていることが分る。ピークの間隔を抽出することで周期性を持つ信号のピッチ周波数を得ることができる。
ピッチ抽出手段22は図5に示した相関係数のピーク相互間の間隔から周期性を持つ信号のピッチ周波数を求める。具体的には図5に示すピークP1は周波数差が0Hzの場合の相関値で得られるピーク、P2は2番目のピークである。ピークP1とP2の間隔τから周期性を持つ信号の基本周波数(ピッチ周波数)を求めることができる。第2特徴量抽出手段20はこのピッチ周波数を第2特徴量として判別手段60に出力する。
【0018】
次に第3特徴量抽出手段30について説明する。第3特徴量抽出手段30は図1では平均値計算部31のみをブロックで囲んで示しているが、実質的には周波数分析手段1と、周波数軸方向の相関係数計算手段21とを含んで構成される。平均値算出手段31は周波数軸方向の相関係数計算手段21が周波数スペクトルSP1とSP2を周波数Δfずつずらす毎に算出する相関値を相関値の算出が終了するまで積算し、その平均値を求める。つまり、周波数スペクトルSP1とSP2の周波数のずれが0Hzの状態から、周波数のずれ量Δfが最大に達するまでの間に算出された相関値を積算し、その平均値を求める。この平均値により雑音性が大きいか、小さいかを判定することができる。
【0019】
その理由は以下の如くである。図6に示すA1はホワイトノイズのパワースペクトルの包絡、B1はピンクノイズの周波数スペクトルのパワーの概略、C1は例えば音楽、音声等の有色音のスペクトルのパワーの概略を示す。
図6A2は周波数軸方向の相関係数計算手段21で周波数をΔfずつずらした場合に算出される同様の相関係数、B2はピンクノイズの相関係数、C2は有色音の相関係数をそれぞれ示す。
図6A2とB2、C2において、或る周波数範囲Δfmに限定してその範囲内の相関係数の平均値SAVはホワイトノイズの場合「1」で最大となり、次にピンクノイズ、有色音の順に平均値SAVの値が求められる。従って、相関係数の平均値SAVの値が「1」に近い程ノイズ性が高いと判定することができる。特に平均値が「1」に近い程白色性に近いことが分る。
【0020】
図7と図8を用いて相関係数の平均値が意味するところを説明する。図7は音楽、ペーパーノイズ、自動車の走行音の各音響信号のパワースペクトルを示す。図7に示す曲線mfは音楽のパワースペクトル、曲線pfはプロペラ機のエンジン音のパワースペクトル、曲線sfは自動車の走行音のパワースペクトルを示す。図7に示すパワースペクトルでは音楽のパワースペクトルは他の音と区別でくるが、自動車の走行音とプロペラ機のエンジン音は全く重なり合っており、区別は難しい。
これに対し、図8にこの発明で用いる周波数軸方向の相関係数を示す。図8に示す曲線mcは音楽の周波数スペクトルを周波数軸方向にずらしながら相関係数を計算し、計算した周波数軸方向の相関係数をプロットした曲線を示す。曲線SCは自動車走行音の周波数軸方向の相関係数、曲線PCはプロペラ機のエンジン音の周波数軸方向の相関係数を示す。図8から分かるように、各曲線SC、mc、PCは重なり合う部分は少なく、或る周波数のずれ範囲に制限し、その範囲内の相関値の平均を求めることにより、その平均値を尺度とすれば音楽と、自動車の走行音と、プロペラ機のエンジン音を区別することができる。従って、第3特徴量抽出手段30は第3特徴量として周波数軸方向の相関係数の平均値を抽出し、その平均値を判別手段60に出力する。
【0021】
次に、第4特徴量抽出手段40について説明する。第4特徴量抽出手段40も図1では回帰係数計算手段41のみをブロックで囲んで示しているが、実質上は周波数分析手段1と周波数軸方向の相関係数計算手段21を含んで第4特徴量抽出手段40が構成される。
第4特徴量抽出手段40を構成する回帰係数計算手段41は相関係数の低域から高域に至る概略の傾きを求めている。図9にその様子を示す。図9に示す曲線mは或る音響信号の周波数軸方向の相関係数。この相関係数の傾きaを求めることにより低域と高域の相関値の差が大きいか小さいかを計測することができる。傾きaは一次回帰係数の演算方法により以下に示す(8)式、(9)式で求めることができる。
【数4】
(8)式で求められるDは一次直線Nから曲線mに下した距離を示す。距離Dを積分した値が最小となる傾きaを算出する。
【0022】
図10に傾きaを実例に適用した例を示す。自動車の走行音の相関係数の傾きはa1、音楽の相関係数の傾きはa2、プロペラ機のエンジン音の相関係数の傾きはa3のように求めることができる。これらの傾きa1、a2、a3から、音の種別を判定することができる。第4特徴量抽出手段40はこの相関係数の傾きaを第4特徴量として判別手段60に出力する。
第5特徴量抽出手段50では周波数分析手段1から周波数スペクトルラムを取り込み、平均パワー計算手段51により周波数スペクトラムの平均パワーを求め、この平均パワーを第5特徴量として判別手段60に出力する。
判別手段60では各特徴量抽出手段10〜50から出力される各特徴量を用いてどの種別の音響信号であるかを判定する。
この判定のために、予めデータベース70に学習データが用意される。この学習データは、例えば音声に関しては発音の正しいアナウンサなどの音声及びその他の種別の音響信号(以下カテゴリと称す)を予め、第1特徴量抽出手段10〜第5特徴量抽出手段50でそれぞれの特徴量を抽出し、各特徴量について分散μと平均σを求め、データベース70に格納する。
【0023】
図11にデータベースに格納したデータ群の様子を示す。
データベース70に学習データが用意された状態で音種の判別が行える状態となる。周波数分析手段1に被判別音響信号が入力されると、上記した第1特徴量抽出手段10、第2特徴量抽出手段20、第3特徴量抽出手段30、第4特徴量抽出手段40、第5特徴量抽出手段50は第1特徴量x1、第2特徴量x2、第3特徴量x3、第4特徴量x4、第5特徴量x5を抽出する。
その抽出結果を図12に示す。
これらの各特徴量xi(x1,x2…x5)は以下に示す(10)式に代入され、各特徴量xi(x1,x2…x5)毎にこの例では5種類のカテゴリC=5の全てに渡って尤度Pc,iを求める。
【数5】
ここでCはカテゴリを表わす添字、iは特徴量を表わす添字である。
分散μと平均σはデータベース70の各対応する欄から読み出して(10)式に代入する。
各カテゴリの各特徴量(x1,x2,x3,x4,x5)毎に尤度の積Pc,iが求められた後、(11)式で各カテゴリの尤度の積Pcを求める。
(11)式により各カテゴリの尤度の積Pcが求められた中で最も大きい尤度の積の値Pcを提示したカテゴリを被判定音響信号のカテゴリと判定する。
【0024】
図13に判定結果の一例を示す。図13の左欄のカテゴリ名は入力した音響信号のカテゴリ、上段のカテゴリ名は判定したカテゴリを示す。各欄の数値は単位時間に判定した回数を示す。つまり、音声を入力した場合に、音声と判定した回数が2392回、BGM音楽と判定した回数が48回、ノイズと判定した回数が71回、環境騒音として判定した回数が73回であったことを表わす。その結果音声の判別率は92.6%となる。その他のカテゴリの判定率も77〜88%程度に推移し、良好な判別率を提示している。尚、上述の実施例では判定手段60において第1特徴量〜第5特徴量の全てを判定の尺度として利用した場合を説明したが、必ずしも全ての特徴量を用いる必要はなく、最小限一つの特徴量だけでも判別を実行することができる。
図13に示した判定結果から明らかなように、先に提案した音響信号判別方法及び音響信号判別装置によれば各カテゴリに属する音響信号の入力に対し、各カテゴリの正解率は高いものの、誤まった判定を下す回数もかなりの数になる。
この発明では、この誤った判定結果を検出し、その誤りを修正する第1修正手段と、第2修正手段を付加したことを特徴とするものである。
【0025】
図14にその構成の概要を示す。つまり、図1乃至図13で説明した特徴量抽出手段2で抽出した各特徴量を判別手段60に入力し、判別手段60でデータベース70に格納した学習済のデータを参照し、各特徴量毎に各カテゴリのパラメータを出力する。
判別手段60から出力されたパラメータP1 ,P2 ,P3 は第1修正手段80に入力され、第1修正手段80でカテゴリの再判別を実行し、その再判別の結果、誤りが検出された場合は再判別の結果に修正される。更に第2修正手段90では所定の分析窓長を設定し、この分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換し、短時間に発生する判定誤りを修正する。
図14に示す例では特徴量抽出手段2から第1〜第3特徴量を判別手段60に入力し、判別手段60ではこれらの各特徴量毎にパラメータP1 ,P2 ,P3 を出力させる構成とした場合を示すが、現実には例えば第1〜第4特徴量を特徴量1と2とを統合して一つの特徴量とし、特徴量3と4を統合して一つの特徴量とし、それらの特徴量を用いてカテゴリの判別を行なう方法も考えられる。ここでは説明を簡素にするために、3つの特徴量のそれぞれについて音種(カテゴリ)の判別を行なうものとして説明する。
【0026】
図15に判別手段60のパラメータP1 ,P2 ,P3 の一例を示す。パラメータP1 ,P2 ,P3 はそれぞれが第1特徴量、第2特徴量及び第3特徴量のそれぞれから各音種毎の尤度を計算し、各音響種別の尤度を比較し、最も高い尤度をもつ種別を入力信号の音響種別として決定する。図15に示す添字NZが付された判別結果はノイズと判定したパラメータを表わす。また添字SPが付されたパラメータは音声(スピーチ)と判定したパラメータ、添字MUが付されたパラメータは音楽と判定したパラメータを表わす。ここでは判別手段60はノイズと、音声、音楽の3種のカテゴリを判別するものとして説明する。
これら3つのパラメータP1 〜P3 が得られ、これら3つのパラメータから最終的に一つの音響種別に絞り込む場合に、一般的な音響種別の決定方法を採るものとすると、各時点t,t+1,t+2,t+3…の各時点毎にパラメータP1 ,P2 ,P3 の各種別毎の尤度を計算し、各時点毎に最も高い尤度をもつ種別を入力信号の音響種別と決定する決定方法が考えられる。
【0027】
然し乍ら、この決定方法を採った場合には音種毎に計算した尤度がわずかでも大きい尤度を示す音種に決定されるため、連続性を持ちながらわずかな尤度の差で他の音種であるものに決定される例が多発する欠点がある。
この欠点を解消する他の方法としては比較的長い分析窓を設定し、その分析窓に含まれる各パラメータP1 ,P2 ,P3 の各音響種別の頻度を調べ、頻度の低い音響種別を頻度の高い音響種別に置き換える方法も考えられる。然し乍ら、この方法を採る場合には新たに比較的長い分析窓を設けなくてはならないことと、分析窓の長さによって信号の判定精度が大きく影響を受けるなどの問題が生じる。
【0028】
この発明ではこれらの不都合を解消するために、第1修正処理と第2修正処理とに分け、第1修正処理では同一音響種別を出力し続けるパラメータを検出し、この同一音響種別を出力し続ける時間長を分析窓長とし、この分析窓の中の全ての音響種別の尤度を再計算し、この分析窓内で最も大きい尤度を持つ音響種別をその分析窓内の音響種別として決定する方法を採る。
従って、この方法によれば長い時間連続して同一音響種別を出力しているパラメータに重みが付され、他の短時間に発生する音響種別の影響を小さくできる。この結果、短かい時間に尤度がわずかに大きいために誤まった判定結果が発生しても、その影響を低減することができる。
更に、この発明では第2修正処理において、所定の窓長を設定しその窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換する処理を施す。この置換処理により、短かい時間に発生する誤判断を除去することができる。
【0029】
図16に第1修正手段80と、第2修正手段90の実施例を示す。第1修正手段80は一次分析条件決定手段81A、二次分析条件決定手段82A、三次分析条件決定手段83Aと、一次再判別手段81B、二次再判別手段82B、三次再判別手段83Bと、一次音響種別決定手段81C、二次音響種別決定手段82C、三次音響種別決定手段83Cとによって構成することができる。
一次分析条件決定手段81Aは判別手段60から出力されるパラメータP1 ,P2 ,P3 を監視し、各時点毎に同一音響種別を出力し続けている音響判別結果を検出する。図15に示す例ではパラメータP2 が時点tからt+1,t+2の3つのスロットに渡って同一の音声SPと判定された判別結果を出力している例を示す。一次分析条件決定手段81Aはこの状況を検出し、その時間長(t〜t+2の時間長)を一次分析窓長として決定する。更に、連続している音響種別SPを一次音響種別と決定する。この決定により一次分析条件が満され、この一次分析条件が一次再判別手段81Bに入力される。
一次再判別手段81Bでは一次分析窓長内の全ての音響種別の尤度を再計算し、最も大きい尤度を示す音響種別を検出する。検出された音響種別を一次種別決定手段81Cに入力し、一次種別決定手段81Cで検出された音響種別と、一次分析条件決定手段81Aで決定した一次音響種別と比較し、一致していればその一致した音響種別をその窓内の音響種別として決定する。
【0030】
ここで検出した音響種別と一次音響種別とが不一致である場合にはその不一致の検出信号を二次分析条件決定手段82Aに入力する。二次分析条件決定手段82Aでは次に長い時間長を検出する。図15に示す例ではパラメータP1 が時点tとt+1でノイズNZと判定された判定結果を出力している状態を示す。従って、ここではノイズNZを二次音響種別とし、更に時間tとt+1の時間長を二次分析窓長として決定する。
この二次分析条件が二次再判別手段82Aに渡され、二次分析窓長内の全ての音響種別の尤度を再計算し、最も大きい尤度を持つ音響種別を検出する。検出された音響種別を二次音響種別決定手段82Cに送り込む。二次音響種別決定手段82Cでは検出された音響種別と二次音響種別とを比較し、一致していればその一致した音響種別をその分析窓内の音響種別と決定する。
不一致の場合はその不一致であることを表わす信号を三次分析条件決定手段83Aに入力し、次に長い時間長と、三次音響種別を決定し、この処理を音響種別が一致するまで繰返す。
この第1修正処理により、尤度の差が小さい誤判定が存在しても、断続時間長が充分に長ければその誤判定を除去することができ尤度の高い判別結果だけが残ることになる。
【0031】
図17に第1修正処理による結果の例を示す。上述したように第1修正処理によれば尤度の高い判別結果が残るように修正が行なわれるから、その処理結果には尤度が高く短かい時間の誤判定が含まれる不都合が生じる。図17に示す例では時点t+3で第1修正結果に音楽と判定した部分が存在する。この誤判定の原因としては突発的なノイズなどにより、音響的な特徴が瞬間的に大きく変わる部分や、母音の定常部分が音楽などに間違えられるものと考えられる。
この誤判定を除去するために、この発明では第2修正処理を施す。この第2修正処理は所定の分析窓長を設定し、この分析窓長の内で発生頻度の低い判別結果を発生頻度の高い判別結果に置換える処理を施す。図17にその第2修正処理の様子を示す。図17に示すTは第2修正処理用に設定した分析窓長を示す。この例では3スロット分の時間長を第2修正処理用分析窓長Tとして設定した場合を示す。分析窓長T内で発生頻度の低い判定結果LMU(音楽と判定した判定結果)を、発生頻度の高い判定結果LSP(音声と判定した判定結果)に置換することにより、短かい時間長の誤判定を除去することができる。図17Dに第2修正処理結果を示す。この処理結果から明らかなように、第2修正処理結果は正解に近似し、高い正解率を得ることができる。
【0032】
図18にこの発明を適用した場合と、一般的な音響種別決定方法を用いた場合との比較結果を示す。一般的な音響種別決定方法としては例えば図17に示した各パラメータP1 ,P2 ,P3 を1スロット分ずつ全ての尤度を求め、最も高い尤度を示す音種を入力信号の音種に決定する方法とした。図18から明らかなように、この発明によれば高い正解率が得られた。
図1に示した周波数分析手段1、第1特徴量抽出手段10、第2特徴量抽出手段20、第3特徴量抽出手段30、第4特徴量抽出手段40、第5特徴量抽出手段50、判別手段60と、図14及び図16に示した第1修正手段80、第2修正手段90はコンピュータと、コンピュータにインストールされた音響信号判別プログラムとによって実現される。
【0033】
コンピュータは図19に示すようにプログラムを解読し実行するCPU101と、読出専用メモリROM102と、読み、書き可能なメモリRAM103と、入力ポート104,出力ポート105、外部記憶装置106等により構成される。
一般的にはRAM103に周波数分析プログラム103Aと、第1特徴量抽出処理プログラム103B、第2特徴量抽出処理プログラム103C、第3特徴量抽出処理プログラム103D、第4特徴量抽出処理プログラム103E、第5特徴量抽出処理プログラム103G、第1修正処理プログラム103H、第2修正処理プログラム103I等が格納され、入力ポート104に入力された被判別音響信号の判別処理が実行される。判別結果は出力ポート105を通じて出力され、例えばモニタ(特に図示しない)に表示される。尚、図19に示す例では外部記憶装置106に学習データを格納したデータベースを構築した例を示すが、データベースをRAM103に構築する場合もある。
【0034】
図20にこの発明による音響信号判別プログラムの概要を表わすフローチャートを示す。
ステップSP1で音響信号が入力される。
ステップSP2でこの音響信号の周波数分析を実行する。
ステップSP3で周波数分析で得られた周波数スペクトルを用いて時間軸方向の相関係数を算出する。
ステップSP4で時間軸方向の相関係数の分散値を算出し、この分析値を第1特徴量として出力する。
ステップSP5では周波数分析結果を用いて周波数軸方向の相関係数を算出する(詳しくは図4参照)。
ステップSP6で周波数軸方向の相関係数を用いて基本周波数を算出し、この基本周波数を第2特徴量として出力する。
【0035】
ステップSP7ではステップSP5で算出した周波数軸方向の相関係数の平均値を求め、この平均値を第3特徴量として出力する。
ステップSP8では回帰係数を算出し、スペクトルの概形(詳しくは図9参照)を求め、そのスペクトルの概形を第4特徴量として出力する。
ステップSP9では周波数分析結果からスペクトルパワー又はスペクトルの中心周波数、バンド幅の何れか又は全部を算出し、第5特徴量として出力する。
ステップSP10ではこれら第1特徴量から第5特徴量の少なくとも何れか一つを用いて判別処理を実行する。判別処理に用いる特徴量の選択は主に音声を検出したいか或は音楽を検出したいか等で適宜に選択される。
ステップSP11で第1修正処理を実行し、
ステップSP12で第2修正処理を実行し、判別処理ステップSP10で発生した誤判定を除去し、信頼性の高い判別結果を出力する。
上述したように、この発明による音響信号判別プログラムはコンピュータが解読可能な符号によって記述され、コンピュータが読み取り可能な記録媒体に記録され、この記録媒体からインストールされるか、又は通信回線を通じてコンピュータにインストールされ、CPU101が解読して実行される。
【0036】
【発明の効果】
以上説明したように、この発明によれば音響信号の種別を判定するために用いる特徴量は全て周波数分析結果である周波数スペクトルを利用して抽出するため、信号処理の効率がよい。
更に、この発明では時点nで得られた周波数スペクトルと、時点n+1で得られた周波数スペクトルを時間軸方向にずらしながら相関係数を求め、この相関係数を利用して第2特徴量乃至第4特徴量を求め、これらの特徴量により、第2特徴量としてピッチ成分の抽出と、第3特徴量として相関係数の平均値、第4特徴量としてスペクトルの概形を定めることができる傾斜を求めたから、従来では判別が困難であった音声と音楽、或はノイズと環境騒音を判別することができるようになった。更に、第1修正処理と第2修正処理を追加したので判定の信頼性をより一層高めることができた。
【図面の簡単な説明】
【図1】この発明の先行技術となる音響信号判別装置の一実施例を説明するためのブロック図。
【図2】図1に示した実施例で用いる時間軸方向の相関係数を説明するためのグラフ。
【図3】図2で説明した時間軸方向の相関係数から求めた第1特徴量となる相関値の分散を説明するためのグラフ。
【図4】図1に示した実施例で用いる複数の周波数スペクトルを周波数軸方向にずらしながら、各周波数のずれ毎に相関係数を求める方法を説明するためのグラフ。
【図5】図4で説明した方法で求めた第2特徴量を説明するためのグラフ。
【図6】図1に示した実施例で用いる第3特徴量を説明するためのグラフ。
【図7】被判別音響信号の音種別のパワースペクトルの一例を説明するためのグラフ。
【図8】図7に示したパワースペクトルを図1に示した実施例で用いる周波数軸方向にスペクトルを移動させて算出した相関係数に置換した例を示すグラフ。
【図9】図1に示した実施例で用いる第4特徴量を説明するためのグラフ。
【図10】図1に示した実施例で用いる第4特徴量の実例を説明するためのグラフ。
【図11】図1に示した実施例の判別手段で用いるデータベースの内部の様子を説明するための図。
【図12】被判別音響信号から抽出した第1特徴量乃至第5特徴量の抽出状態を説明するための図。
【図13】図1に示した実施例の運用結果の一例を説明するための図。
【図14】この発明の概要を説明するためのブロック図。
【図15】この発明の第1修正処理を説明するための図。
【図16】この発明の要部の具体的な実施例を説明するためのブロック図。
【図17】この発明の第2修正処理を説明するための図。
【図18】この発明を適用した場合の判別結果と従来技術との判別結果を説明するための図。
【図19】この発明による音響信号判別装置プログラムをコンピュータで実行させる状態を説明するための構成概念図。
【図20】この発明による音響信号判別プログラムの概要を説明するためのフローチャート。
【符号の説明】
1 周波数分析手段 81A 一次分析条件決定手段
10 第1特徴量抽出手段 81B 一次再判別手段
20 第2特徴量抽出手段 81C 一次音響種別決定手段
30 第3特徴量抽出手段 82A 二次分析条件決定手段
40 第4特徴量抽出手段 82B 二次再判別手段
50 第5特徴量抽出手段 82C 二次音響種別決定手段
60 判別手段 83A 三次分析条件決定手段
70 データベース 83B 三次再判別手段
80 第1修正手段 83C 三次音響種別決定手段
x1〜x5 第1特徴量〜第5特徴量
【発明の属する技術分野】
本発明は、例えば音声、音楽、環境雑音などの音響の種別を判別する音響信号判別方法、音響信号判別装置、音響信号判別プログラムに関する。
【0002】
【従来の技術】
従来の音響信号判別技術は、音源成分を求めるために信号の自己相関係数を求め、また、信号の定常性を求めるためにバンドパスフィルタを用いて求めるなど特徴量の抽出毎に別の信号処理を行う必要があり、そのために信号処理効率が悪いという問題があった。
その一例として、入力信号から特徴抽出部にて一定時間毎に複数の特徴量を抽出し、各音韻毎の特徴量と多数の学習用音声データから特徴量分布作成部で作成した特徴量分布との統計的距離を計算する特徴量尤度算出部を有し、各音韻毎に得られた継続時間と多数の学習用音声データから継続時間分布作成部で作成した継続時間分布との統計的距離とを算出する継続時間尤度算出部を有し、これら2つの距離を統合して音声を検出する総合判定部を備えた音声検出方法が提案されている(特許文献1、特許文献2)。
【0003】
【特許文献1】
特開平6−332492号公報
【特許文献2】
特開平8−87293号公報
【0004】
【発明が解決しようとする課題】
上記した特許文献1及び特許文献2に見られるように、従来は被判別信号の特徴量として、各音韻毎の特徴量と多数の学習用音声データから特徴量分布作成部で作成した特徴量分布との統計的距離を計算するなどの信号処理を行うため、信号処理効率が悪いという問題があった。
また、信号の定常性を計測するために、バンドパスフィルタを用いて周波数スペクトルの長時間の傾向をみる方法があるが、結果を得るために長い時間の分析窓が必要であった。また、音源成分の抽出にはスペクトル包絡の調波構造に基づく手法は存在したが、調波構造のピークが捉えにくいことや、調波構造のピーク間隔の揺らぎによって周波数スペクトル全体のもつ調波構造を捉えることはできなかった。
【0005】
更に、雑音の識別を行うには、その信号の雑音の度合を計測する方法が必要であるが、これを計測する尺度は提案されていない。また、スペクトルの高域と低域などの形状の比較を行う場合において、スペクトル包絡の複雑さを簡易な表現に変換し、比較を行う尺度も提案されていない。
このため本出願人は先に「特願2003−29943」により被判別音響信号の周波数スペクトルを求め、この周波数スペクトルから信号の定常性及び非定常性を特定することができる特徴量及び周波数スペクトル全体の持つ調波構造を捉えることができる特徴量、雑音の度合を計測する特徴量及びスペクトル包絡の簡易な表現を実現することができる特徴量を提案し、これらの特徴量を用いることにより効率よく、然も精度よく被判別音響信号の種別を判定することができる音響信号判別方法、音響信号判別装置、音響信号判別プログラムを提案した。
この発明は先に提案した音響信号判別方法、音響信号判別装置及び音響信号判別プログラムの改良に関し、特に判別結果に得られた音種の判別誤りを検出する処理と、その誤りを修正する修正処理を付加し、判別結果の信頼性を向上させようとするものである。
【0006】
【課題を解決するための手段】
この発明では、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理と、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理と、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理と、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理と、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理と、複数の特徴量抽出処理で抽出した任意の数の特徴量を用いて、被判別音響信号の種別を各特徴量毎に判別する音響信号判別方法であって、特徴量毎の判別結果として得られる複数の音響種別の中で最も長く同一の判別結果を出力している音響種別の同一判別結果を出力し続ける時間長を計測し、その時間長を一次分析窓幅とし、同一判定結果を出力し続ける音響種別を一次音響種別と決定する一次分析条件決定処理と、この一次分析条件決定処理で決定した一次分析窓幅の中で各特徴量を用いた判別結果を再計算し、一次分析窓幅の範囲内の音響種別を求める一次再判別処理と、この一次再判別処理で得られた音響種別と一次分析条件決定処理で決定した一次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する一次音響種別決定処理と、一次再判別処理の再判別結果が一次音響種別と不一致の場合に次に長い時間長の音響種別判別結果を呈する音響種別の時間長を二次分析窓幅とし、その音響種別を二次音響種別と決定する二次分析条件決定処理と、この二次分析条件決定処理で決定した二次分析窓幅の中で上記特徴量を用いた音響判別結果を再計算し、音響種別を求める二次再判別処理と、この二次再判別処理で得られた音響種別と、二次分析条件決定処理で決定して二次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する二次音響種別修正処理と、二次再判別処理の二次判別結果が上記二次分析条件決定処理で決定した二次音響種別と不一致の場合に次に長い音響種別判別結果を呈する音響種別を三次音響種別とし、その時間長を三次分析窓幅と決定し、音響種別修正処理を繰返し、音響種別の判別結果が一致するまで繰返す音響信号判別方法を提案する。
この発明では更に、音響信号判別方法により修正処理された音響種別の列を所定の窓長を持つ分析窓で分析し、その分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換処理する音響信号判別方法を提案する。
【0007】
この発明では更に、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出手段と、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出手段と、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出手段と、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出手段と、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出手段と、複数の特徴量抽出手段で抽出した任意の数の特徴量を用いて被判別音響信号の種別を各特徴量毎に判別する音響信号判別装置であって、各特徴量毎の判別結果として得られる複数の音響種別の中で最も長く同一の判別結果を出力している音響種別の同一判別結果を出力し続ける時間長を計測し、その時間長を一次分析窓幅とし、同一判定結果を出力し続ける音響種別を一次音響種別と決定する一次分析条件決定手段と、この一次分析条件決定手段で決定した一次分析窓幅の中で各特徴量を用いた判別結果を再計算し、一次分析窓幅の範囲内の音響種別を求める一次再判別手段と、この一次再判別手段で得られた音響種別と一次分析条件決定手段で決定した一次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する一次音響種別修正手段と、一次再判別手段の再判別結果が一次音響種別と不一致の場合に次に長い時間長の音響種別判別結果を呈する音響種別の時間長を二次分析窓幅とし、その音響種別を二次音響種別と決定する二次分析条件決定手段と、この二次分析条件決定手段で決定した二次分析窓幅の中で上記特徴量を用いた音響判別結果を再計算し、音響種別を求める二次再判別手段と、この二次再判別手段で得られた音響種別と、二次分析条件決定手段で決定して二次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別を決定する二次音響種別修正手段と、二次再判別手段の二次判別結果が二次分析条件決定手段で決定した二次音響種別と不一致の場合に次に長い音響種別判別結果を呈する音響種別を三次音響種別とし、その時間長を三次分析窓幅と決定し、音響種別修正処理を繰返し、音響種別の判別結果が一致するまで繰返す音響信号判別装置を提案する。
【0008】
この発明では更に、音響信号判別装置により判別された音響種別の列を所定の窓長を持つ分析窓で分析し、その分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換処理する置換処理手段を具備していることを特徴とする音響信号判別装置を提案する。
この発明では更に、コンピュータが解読可能な符号列によって記述され、コンピュータに音響信号判別方法の少なくとも一方を実行させる音響信号判別プログラムを提案する。
【0009】
作用
本発明によれば、先に提案した発明と同様に第1特徴量抽出処理乃至第5特徴量抽出処理で抽出する各特徴量は全て被判別音響信号の周波数スペクトルから抽出する。従って、全て同一系統の信号処理で音響信号の種別を判別でき信号処理の効率がよい。
また、音響信号の定常性及び非定常性を判別する特徴量、単一音源の有無を判別する特徴量、雑音の白色性を判別する特徴量、スペクトルの形状を簡素に表現し、スペクトルの形状の違いを比較することを可能とした特徴量をそれぞれ抽出するから、信頼性の高い種別判定を行うことができる。
更に、本発明によれば先に提案した発明で得られる作用効果に加えて種別判定結果から判定の誤りを検出し、その誤りを修正する修正処理及び修正手段を付加したから、判別結果の信頼性を更に高めることができる。
【0010】
【発明の実施の形態】
図1に先に提案した音響信号判別方法を用いて音響信号の種別を判定する音響信号判別装置の概要を示す。
被判別音響信号は周波数分析手段1で周波数分析され、周波数スペクトルが求められる。周波数分析手段1としては例えばFFT等と呼ばれている高速フーリエ変換手段を用いることができる。高速フーリエ変換手段によれば例えば1024サンプルの音響データを1フレームとして取扱い、1フレーム内に存在する音響データの周波数成分を分析する。
この発明ではこの周波数分析手段1で分析した周波数スペクトルを利用して第1特徴量〜第N特徴量を抽出する構成とした点を特徴とするものである。この実施例ではN=5とした場合を示す。このために、周波数分析手段1の出力側に、第1特徴量抽出手段10と、第2特徴量抽出手段20と、第3特徴量抽出手段30と、第4特徴量抽出手段40と、第5特徴量抽出手段50が接続される。
図1では時間軸方向の相関係数計算手段11と、分散値計算手段12をブロックで囲んで第1特徴量抽出手段10を構成しているように表記しているが、実質的には周波数分析手段1を含んで第1特徴量抽出手段10が構成される。
【0011】
第1特徴量抽出手段10を構成する時間軸方向の相関係数計算手段11は、周波数分析手段1から与えられる周波数分析結果を時間軸方向に隣接する周波数スペクトルの相関係数を計算する。相関係数の値が高い値(1に近い値)の発生頻度が多い状況では入力された被判定音響信号は時間軸方向に周波数スペクトルの変動が少ないと見ることができる。この状況下にある信号を以下では定常性を持つ信号、又は定常的な信号と称すことにする。
これに対し、相関係数が低い値(0に近い値)の発生頻度が多い状況ではその時点の被判別音響信号は時間軸方向に大きく変動していると見ることができる。この状況下にある信号を以下では非定常性を持つ信号又は非定常な信号と称すことにする。
【0012】
定常性を持つ信号と非定常性を持つ信号の一例を図2を用いて説明する。図2で横軸は時間を示す。図2の前半の区間X1はBGM音楽信号を被判別音響信号として入力した状況、後半の区間X2は音声信号を被判別音響信号として入力した状況を示す。上段Aに示す曲線は被判別音響信号のパワー値(RMS)を示す。パワー値は上に向う程パワー値が高く、下に向うほどパワー値が低いことを表わす。
中段Bは被判別音響信号のピッチ(基本周波数)を抽出した結果を表わす。このピッチに関しては第2特徴量抽出手段20の部分で説明するが、このピッチデータも上に向う程周波数が高く、下に向う程周波数が低いことを表わす。
下段Cは第1特徴量抽出手段10を構成する時間軸方向の相関係数計算手段11で計算した時間軸方向の相関係数を示す。この相関係数は上に向う程相関値が1に近づき、下に向う程0値に近づく。
【0013】
図2に示す時間軸方向の相関係数の軌跡から被判別音響信号が音楽の場合は相関係数は安定し、音声区間では相関係数が大きく変動する様子が解る。
尚、時間軸方向のn番目のパワースペクトルとn+1番目のパワースペクトルとの相関係数Rt,t+1は以下に示す(1)式,(2)式,(3)式で求められる。
【数1】
(2)式はパワースペクトルの相関係数、(3)式は正規化のための重み係数を示す。
【0014】
音楽が被判別音響信号の場合、スペクトルの包絡が時間軸方向に似通っているために高い相関値を保つと考えられる。これに対して音声の区間では相関係数値が大きく変動している。音声の中でも母音部分では高いと相関値を示すが、子音部分や音韻の境界ではスペクトルの変化が生じるために低い相関値を示すものと考えられる。この結果、この発明ではある時間長の相関値を計測し、その分散の度合により信号が定常的か非定常的かを判定するものとする。
このために、第1特徴量抽出手段10では時間軸方向の相関係数計算手段11の出力側に分散値計算手段12を設け、この分散値計算手段12で相関係数の単位時間あたりの分散値Vを計算する。分散値Vは以下に示す(4)式で計算される。
【数2】
(4)式において分析フレーム長をNとし、Rnは連続するN個の相関係数、R^はフレーム内の相関係数の平均を示す。
【0015】
図3に各種別の音響信号の相関係数の分散を示す。図3に示す曲線S1は被判別音響信号が音楽の場合の相関値の分散を表わす。
曲線S2は被判別音響信号が音声の場合の相関値の分散を表わす。
曲線S3はポーズ区間の相関値の分散。
曲線S4は自動車の走行音の相関値の分散。
曲線S5はプロペラ機のエンジン音の相関値の分散。
曲線S6はペーパーノイズ(紙をめくる音)の相関値の分散を示す。
音楽と音声の相関値の分散曲線S1とS2は分布の重なりが少ない形状となっている。よって、この分散を特徴量として用いることにより音声と音楽とを判別することができる。但し、その他の音響信号に関しては分布が広がっており、この特徴量では種別の判別は困難であると見られる。図3に示す例では、分散値が40〜60の範囲で音楽、分散値が60〜80の範囲で音声と判定することができる。第1特徴量抽出手段10はこの分散値を第1特徴量として判別手段60に出力する。種別の判別方法に関しては判別手段60の項で説明する。
【0016】
次に、第2特徴量抽出手段20について説明する。第2特徴量抽出手段は周波数軸方向の相関係数計算手段21と、ピッチ抽出手段22とによって構成することができる。周波数軸方向の相関係数計算手段21は周波数分析手段1で周波数分析した時点nで得られた周波数スペクトルと、時点n+1で得られた周波数スペクトルを相互に周波数軸方向に移動させながら、各移動周波数毎に相関係数を計算する。
図4にその様子を示す。図4に示すSP1は時点nで得られた周波数スペクトル、SP2は時点n+1で得られた周波数スペクトルを示す。双方の周波数スペクトルの周波数差が0Hzである状態から、何れか一方の周波数スペクトルを周波数軸方向にわずかずつ(Δf)移動させ、移動毎に相互の相関係数を求める。相関係数は(5)式、(6)式、(7)式で求められる。
【数3】
【0017】
図5にスペクトルの移動による相関係数の一例を示す。スペクトルSP1とSP2を周波数軸方向にずらしながら相互の相関係数を求めることにより、調波構造のピークに双方のスペクトルが重なる毎に強い相関を示し、ピークの重なりがずれれば0.2程度の極めて低い相関を示す。この繰り返しにより明確な相関値のピークが得られる。相関係数に周期的にピークが発生する場合、被判別音響信号に周期性を持つ信号が含まれていることが分る。ピークの間隔を抽出することで周期性を持つ信号のピッチ周波数を得ることができる。
ピッチ抽出手段22は図5に示した相関係数のピーク相互間の間隔から周期性を持つ信号のピッチ周波数を求める。具体的には図5に示すピークP1は周波数差が0Hzの場合の相関値で得られるピーク、P2は2番目のピークである。ピークP1とP2の間隔τから周期性を持つ信号の基本周波数(ピッチ周波数)を求めることができる。第2特徴量抽出手段20はこのピッチ周波数を第2特徴量として判別手段60に出力する。
【0018】
次に第3特徴量抽出手段30について説明する。第3特徴量抽出手段30は図1では平均値計算部31のみをブロックで囲んで示しているが、実質的には周波数分析手段1と、周波数軸方向の相関係数計算手段21とを含んで構成される。平均値算出手段31は周波数軸方向の相関係数計算手段21が周波数スペクトルSP1とSP2を周波数Δfずつずらす毎に算出する相関値を相関値の算出が終了するまで積算し、その平均値を求める。つまり、周波数スペクトルSP1とSP2の周波数のずれが0Hzの状態から、周波数のずれ量Δfが最大に達するまでの間に算出された相関値を積算し、その平均値を求める。この平均値により雑音性が大きいか、小さいかを判定することができる。
【0019】
その理由は以下の如くである。図6に示すA1はホワイトノイズのパワースペクトルの包絡、B1はピンクノイズの周波数スペクトルのパワーの概略、C1は例えば音楽、音声等の有色音のスペクトルのパワーの概略を示す。
図6A2は周波数軸方向の相関係数計算手段21で周波数をΔfずつずらした場合に算出される同様の相関係数、B2はピンクノイズの相関係数、C2は有色音の相関係数をそれぞれ示す。
図6A2とB2、C2において、或る周波数範囲Δfmに限定してその範囲内の相関係数の平均値SAVはホワイトノイズの場合「1」で最大となり、次にピンクノイズ、有色音の順に平均値SAVの値が求められる。従って、相関係数の平均値SAVの値が「1」に近い程ノイズ性が高いと判定することができる。特に平均値が「1」に近い程白色性に近いことが分る。
【0020】
図7と図8を用いて相関係数の平均値が意味するところを説明する。図7は音楽、ペーパーノイズ、自動車の走行音の各音響信号のパワースペクトルを示す。図7に示す曲線mfは音楽のパワースペクトル、曲線pfはプロペラ機のエンジン音のパワースペクトル、曲線sfは自動車の走行音のパワースペクトルを示す。図7に示すパワースペクトルでは音楽のパワースペクトルは他の音と区別でくるが、自動車の走行音とプロペラ機のエンジン音は全く重なり合っており、区別は難しい。
これに対し、図8にこの発明で用いる周波数軸方向の相関係数を示す。図8に示す曲線mcは音楽の周波数スペクトルを周波数軸方向にずらしながら相関係数を計算し、計算した周波数軸方向の相関係数をプロットした曲線を示す。曲線SCは自動車走行音の周波数軸方向の相関係数、曲線PCはプロペラ機のエンジン音の周波数軸方向の相関係数を示す。図8から分かるように、各曲線SC、mc、PCは重なり合う部分は少なく、或る周波数のずれ範囲に制限し、その範囲内の相関値の平均を求めることにより、その平均値を尺度とすれば音楽と、自動車の走行音と、プロペラ機のエンジン音を区別することができる。従って、第3特徴量抽出手段30は第3特徴量として周波数軸方向の相関係数の平均値を抽出し、その平均値を判別手段60に出力する。
【0021】
次に、第4特徴量抽出手段40について説明する。第4特徴量抽出手段40も図1では回帰係数計算手段41のみをブロックで囲んで示しているが、実質上は周波数分析手段1と周波数軸方向の相関係数計算手段21を含んで第4特徴量抽出手段40が構成される。
第4特徴量抽出手段40を構成する回帰係数計算手段41は相関係数の低域から高域に至る概略の傾きを求めている。図9にその様子を示す。図9に示す曲線mは或る音響信号の周波数軸方向の相関係数。この相関係数の傾きaを求めることにより低域と高域の相関値の差が大きいか小さいかを計測することができる。傾きaは一次回帰係数の演算方法により以下に示す(8)式、(9)式で求めることができる。
【数4】
(8)式で求められるDは一次直線Nから曲線mに下した距離を示す。距離Dを積分した値が最小となる傾きaを算出する。
【0022】
図10に傾きaを実例に適用した例を示す。自動車の走行音の相関係数の傾きはa1、音楽の相関係数の傾きはa2、プロペラ機のエンジン音の相関係数の傾きはa3のように求めることができる。これらの傾きa1、a2、a3から、音の種別を判定することができる。第4特徴量抽出手段40はこの相関係数の傾きaを第4特徴量として判別手段60に出力する。
第5特徴量抽出手段50では周波数分析手段1から周波数スペクトルラムを取り込み、平均パワー計算手段51により周波数スペクトラムの平均パワーを求め、この平均パワーを第5特徴量として判別手段60に出力する。
判別手段60では各特徴量抽出手段10〜50から出力される各特徴量を用いてどの種別の音響信号であるかを判定する。
この判定のために、予めデータベース70に学習データが用意される。この学習データは、例えば音声に関しては発音の正しいアナウンサなどの音声及びその他の種別の音響信号(以下カテゴリと称す)を予め、第1特徴量抽出手段10〜第5特徴量抽出手段50でそれぞれの特徴量を抽出し、各特徴量について分散μと平均σを求め、データベース70に格納する。
【0023】
図11にデータベースに格納したデータ群の様子を示す。
データベース70に学習データが用意された状態で音種の判別が行える状態となる。周波数分析手段1に被判別音響信号が入力されると、上記した第1特徴量抽出手段10、第2特徴量抽出手段20、第3特徴量抽出手段30、第4特徴量抽出手段40、第5特徴量抽出手段50は第1特徴量x1、第2特徴量x2、第3特徴量x3、第4特徴量x4、第5特徴量x5を抽出する。
その抽出結果を図12に示す。
これらの各特徴量xi(x1,x2…x5)は以下に示す(10)式に代入され、各特徴量xi(x1,x2…x5)毎にこの例では5種類のカテゴリC=5の全てに渡って尤度Pc,iを求める。
【数5】
ここでCはカテゴリを表わす添字、iは特徴量を表わす添字である。
分散μと平均σはデータベース70の各対応する欄から読み出して(10)式に代入する。
各カテゴリの各特徴量(x1,x2,x3,x4,x5)毎に尤度の積Pc,iが求められた後、(11)式で各カテゴリの尤度の積Pcを求める。
(11)式により各カテゴリの尤度の積Pcが求められた中で最も大きい尤度の積の値Pcを提示したカテゴリを被判定音響信号のカテゴリと判定する。
【0024】
図13に判定結果の一例を示す。図13の左欄のカテゴリ名は入力した音響信号のカテゴリ、上段のカテゴリ名は判定したカテゴリを示す。各欄の数値は単位時間に判定した回数を示す。つまり、音声を入力した場合に、音声と判定した回数が2392回、BGM音楽と判定した回数が48回、ノイズと判定した回数が71回、環境騒音として判定した回数が73回であったことを表わす。その結果音声の判別率は92.6%となる。その他のカテゴリの判定率も77〜88%程度に推移し、良好な判別率を提示している。尚、上述の実施例では判定手段60において第1特徴量〜第5特徴量の全てを判定の尺度として利用した場合を説明したが、必ずしも全ての特徴量を用いる必要はなく、最小限一つの特徴量だけでも判別を実行することができる。
図13に示した判定結果から明らかなように、先に提案した音響信号判別方法及び音響信号判別装置によれば各カテゴリに属する音響信号の入力に対し、各カテゴリの正解率は高いものの、誤まった判定を下す回数もかなりの数になる。
この発明では、この誤った判定結果を検出し、その誤りを修正する第1修正手段と、第2修正手段を付加したことを特徴とするものである。
【0025】
図14にその構成の概要を示す。つまり、図1乃至図13で説明した特徴量抽出手段2で抽出した各特徴量を判別手段60に入力し、判別手段60でデータベース70に格納した学習済のデータを参照し、各特徴量毎に各カテゴリのパラメータを出力する。
判別手段60から出力されたパラメータP1 ,P2 ,P3 は第1修正手段80に入力され、第1修正手段80でカテゴリの再判別を実行し、その再判別の結果、誤りが検出された場合は再判別の結果に修正される。更に第2修正手段90では所定の分析窓長を設定し、この分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換し、短時間に発生する判定誤りを修正する。
図14に示す例では特徴量抽出手段2から第1〜第3特徴量を判別手段60に入力し、判別手段60ではこれらの各特徴量毎にパラメータP1 ,P2 ,P3 を出力させる構成とした場合を示すが、現実には例えば第1〜第4特徴量を特徴量1と2とを統合して一つの特徴量とし、特徴量3と4を統合して一つの特徴量とし、それらの特徴量を用いてカテゴリの判別を行なう方法も考えられる。ここでは説明を簡素にするために、3つの特徴量のそれぞれについて音種(カテゴリ)の判別を行なうものとして説明する。
【0026】
図15に判別手段60のパラメータP1 ,P2 ,P3 の一例を示す。パラメータP1 ,P2 ,P3 はそれぞれが第1特徴量、第2特徴量及び第3特徴量のそれぞれから各音種毎の尤度を計算し、各音響種別の尤度を比較し、最も高い尤度をもつ種別を入力信号の音響種別として決定する。図15に示す添字NZが付された判別結果はノイズと判定したパラメータを表わす。また添字SPが付されたパラメータは音声(スピーチ)と判定したパラメータ、添字MUが付されたパラメータは音楽と判定したパラメータを表わす。ここでは判別手段60はノイズと、音声、音楽の3種のカテゴリを判別するものとして説明する。
これら3つのパラメータP1 〜P3 が得られ、これら3つのパラメータから最終的に一つの音響種別に絞り込む場合に、一般的な音響種別の決定方法を採るものとすると、各時点t,t+1,t+2,t+3…の各時点毎にパラメータP1 ,P2 ,P3 の各種別毎の尤度を計算し、各時点毎に最も高い尤度をもつ種別を入力信号の音響種別と決定する決定方法が考えられる。
【0027】
然し乍ら、この決定方法を採った場合には音種毎に計算した尤度がわずかでも大きい尤度を示す音種に決定されるため、連続性を持ちながらわずかな尤度の差で他の音種であるものに決定される例が多発する欠点がある。
この欠点を解消する他の方法としては比較的長い分析窓を設定し、その分析窓に含まれる各パラメータP1 ,P2 ,P3 の各音響種別の頻度を調べ、頻度の低い音響種別を頻度の高い音響種別に置き換える方法も考えられる。然し乍ら、この方法を採る場合には新たに比較的長い分析窓を設けなくてはならないことと、分析窓の長さによって信号の判定精度が大きく影響を受けるなどの問題が生じる。
【0028】
この発明ではこれらの不都合を解消するために、第1修正処理と第2修正処理とに分け、第1修正処理では同一音響種別を出力し続けるパラメータを検出し、この同一音響種別を出力し続ける時間長を分析窓長とし、この分析窓の中の全ての音響種別の尤度を再計算し、この分析窓内で最も大きい尤度を持つ音響種別をその分析窓内の音響種別として決定する方法を採る。
従って、この方法によれば長い時間連続して同一音響種別を出力しているパラメータに重みが付され、他の短時間に発生する音響種別の影響を小さくできる。この結果、短かい時間に尤度がわずかに大きいために誤まった判定結果が発生しても、その影響を低減することができる。
更に、この発明では第2修正処理において、所定の窓長を設定しその窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換する処理を施す。この置換処理により、短かい時間に発生する誤判断を除去することができる。
【0029】
図16に第1修正手段80と、第2修正手段90の実施例を示す。第1修正手段80は一次分析条件決定手段81A、二次分析条件決定手段82A、三次分析条件決定手段83Aと、一次再判別手段81B、二次再判別手段82B、三次再判別手段83Bと、一次音響種別決定手段81C、二次音響種別決定手段82C、三次音響種別決定手段83Cとによって構成することができる。
一次分析条件決定手段81Aは判別手段60から出力されるパラメータP1 ,P2 ,P3 を監視し、各時点毎に同一音響種別を出力し続けている音響判別結果を検出する。図15に示す例ではパラメータP2 が時点tからt+1,t+2の3つのスロットに渡って同一の音声SPと判定された判別結果を出力している例を示す。一次分析条件決定手段81Aはこの状況を検出し、その時間長(t〜t+2の時間長)を一次分析窓長として決定する。更に、連続している音響種別SPを一次音響種別と決定する。この決定により一次分析条件が満され、この一次分析条件が一次再判別手段81Bに入力される。
一次再判別手段81Bでは一次分析窓長内の全ての音響種別の尤度を再計算し、最も大きい尤度を示す音響種別を検出する。検出された音響種別を一次種別決定手段81Cに入力し、一次種別決定手段81Cで検出された音響種別と、一次分析条件決定手段81Aで決定した一次音響種別と比較し、一致していればその一致した音響種別をその窓内の音響種別として決定する。
【0030】
ここで検出した音響種別と一次音響種別とが不一致である場合にはその不一致の検出信号を二次分析条件決定手段82Aに入力する。二次分析条件決定手段82Aでは次に長い時間長を検出する。図15に示す例ではパラメータP1 が時点tとt+1でノイズNZと判定された判定結果を出力している状態を示す。従って、ここではノイズNZを二次音響種別とし、更に時間tとt+1の時間長を二次分析窓長として決定する。
この二次分析条件が二次再判別手段82Aに渡され、二次分析窓長内の全ての音響種別の尤度を再計算し、最も大きい尤度を持つ音響種別を検出する。検出された音響種別を二次音響種別決定手段82Cに送り込む。二次音響種別決定手段82Cでは検出された音響種別と二次音響種別とを比較し、一致していればその一致した音響種別をその分析窓内の音響種別と決定する。
不一致の場合はその不一致であることを表わす信号を三次分析条件決定手段83Aに入力し、次に長い時間長と、三次音響種別を決定し、この処理を音響種別が一致するまで繰返す。
この第1修正処理により、尤度の差が小さい誤判定が存在しても、断続時間長が充分に長ければその誤判定を除去することができ尤度の高い判別結果だけが残ることになる。
【0031】
図17に第1修正処理による結果の例を示す。上述したように第1修正処理によれば尤度の高い判別結果が残るように修正が行なわれるから、その処理結果には尤度が高く短かい時間の誤判定が含まれる不都合が生じる。図17に示す例では時点t+3で第1修正結果に音楽と判定した部分が存在する。この誤判定の原因としては突発的なノイズなどにより、音響的な特徴が瞬間的に大きく変わる部分や、母音の定常部分が音楽などに間違えられるものと考えられる。
この誤判定を除去するために、この発明では第2修正処理を施す。この第2修正処理は所定の分析窓長を設定し、この分析窓長の内で発生頻度の低い判別結果を発生頻度の高い判別結果に置換える処理を施す。図17にその第2修正処理の様子を示す。図17に示すTは第2修正処理用に設定した分析窓長を示す。この例では3スロット分の時間長を第2修正処理用分析窓長Tとして設定した場合を示す。分析窓長T内で発生頻度の低い判定結果LMU(音楽と判定した判定結果)を、発生頻度の高い判定結果LSP(音声と判定した判定結果)に置換することにより、短かい時間長の誤判定を除去することができる。図17Dに第2修正処理結果を示す。この処理結果から明らかなように、第2修正処理結果は正解に近似し、高い正解率を得ることができる。
【0032】
図18にこの発明を適用した場合と、一般的な音響種別決定方法を用いた場合との比較結果を示す。一般的な音響種別決定方法としては例えば図17に示した各パラメータP1 ,P2 ,P3 を1スロット分ずつ全ての尤度を求め、最も高い尤度を示す音種を入力信号の音種に決定する方法とした。図18から明らかなように、この発明によれば高い正解率が得られた。
図1に示した周波数分析手段1、第1特徴量抽出手段10、第2特徴量抽出手段20、第3特徴量抽出手段30、第4特徴量抽出手段40、第5特徴量抽出手段50、判別手段60と、図14及び図16に示した第1修正手段80、第2修正手段90はコンピュータと、コンピュータにインストールされた音響信号判別プログラムとによって実現される。
【0033】
コンピュータは図19に示すようにプログラムを解読し実行するCPU101と、読出専用メモリROM102と、読み、書き可能なメモリRAM103と、入力ポート104,出力ポート105、外部記憶装置106等により構成される。
一般的にはRAM103に周波数分析プログラム103Aと、第1特徴量抽出処理プログラム103B、第2特徴量抽出処理プログラム103C、第3特徴量抽出処理プログラム103D、第4特徴量抽出処理プログラム103E、第5特徴量抽出処理プログラム103G、第1修正処理プログラム103H、第2修正処理プログラム103I等が格納され、入力ポート104に入力された被判別音響信号の判別処理が実行される。判別結果は出力ポート105を通じて出力され、例えばモニタ(特に図示しない)に表示される。尚、図19に示す例では外部記憶装置106に学習データを格納したデータベースを構築した例を示すが、データベースをRAM103に構築する場合もある。
【0034】
図20にこの発明による音響信号判別プログラムの概要を表わすフローチャートを示す。
ステップSP1で音響信号が入力される。
ステップSP2でこの音響信号の周波数分析を実行する。
ステップSP3で周波数分析で得られた周波数スペクトルを用いて時間軸方向の相関係数を算出する。
ステップSP4で時間軸方向の相関係数の分散値を算出し、この分析値を第1特徴量として出力する。
ステップSP5では周波数分析結果を用いて周波数軸方向の相関係数を算出する(詳しくは図4参照)。
ステップSP6で周波数軸方向の相関係数を用いて基本周波数を算出し、この基本周波数を第2特徴量として出力する。
【0035】
ステップSP7ではステップSP5で算出した周波数軸方向の相関係数の平均値を求め、この平均値を第3特徴量として出力する。
ステップSP8では回帰係数を算出し、スペクトルの概形(詳しくは図9参照)を求め、そのスペクトルの概形を第4特徴量として出力する。
ステップSP9では周波数分析結果からスペクトルパワー又はスペクトルの中心周波数、バンド幅の何れか又は全部を算出し、第5特徴量として出力する。
ステップSP10ではこれら第1特徴量から第5特徴量の少なくとも何れか一つを用いて判別処理を実行する。判別処理に用いる特徴量の選択は主に音声を検出したいか或は音楽を検出したいか等で適宜に選択される。
ステップSP11で第1修正処理を実行し、
ステップSP12で第2修正処理を実行し、判別処理ステップSP10で発生した誤判定を除去し、信頼性の高い判別結果を出力する。
上述したように、この発明による音響信号判別プログラムはコンピュータが解読可能な符号によって記述され、コンピュータが読み取り可能な記録媒体に記録され、この記録媒体からインストールされるか、又は通信回線を通じてコンピュータにインストールされ、CPU101が解読して実行される。
【0036】
【発明の効果】
以上説明したように、この発明によれば音響信号の種別を判定するために用いる特徴量は全て周波数分析結果である周波数スペクトルを利用して抽出するため、信号処理の効率がよい。
更に、この発明では時点nで得られた周波数スペクトルと、時点n+1で得られた周波数スペクトルを時間軸方向にずらしながら相関係数を求め、この相関係数を利用して第2特徴量乃至第4特徴量を求め、これらの特徴量により、第2特徴量としてピッチ成分の抽出と、第3特徴量として相関係数の平均値、第4特徴量としてスペクトルの概形を定めることができる傾斜を求めたから、従来では判別が困難であった音声と音楽、或はノイズと環境騒音を判別することができるようになった。更に、第1修正処理と第2修正処理を追加したので判定の信頼性をより一層高めることができた。
【図面の簡単な説明】
【図1】この発明の先行技術となる音響信号判別装置の一実施例を説明するためのブロック図。
【図2】図1に示した実施例で用いる時間軸方向の相関係数を説明するためのグラフ。
【図3】図2で説明した時間軸方向の相関係数から求めた第1特徴量となる相関値の分散を説明するためのグラフ。
【図4】図1に示した実施例で用いる複数の周波数スペクトルを周波数軸方向にずらしながら、各周波数のずれ毎に相関係数を求める方法を説明するためのグラフ。
【図5】図4で説明した方法で求めた第2特徴量を説明するためのグラフ。
【図6】図1に示した実施例で用いる第3特徴量を説明するためのグラフ。
【図7】被判別音響信号の音種別のパワースペクトルの一例を説明するためのグラフ。
【図8】図7に示したパワースペクトルを図1に示した実施例で用いる周波数軸方向にスペクトルを移動させて算出した相関係数に置換した例を示すグラフ。
【図9】図1に示した実施例で用いる第4特徴量を説明するためのグラフ。
【図10】図1に示した実施例で用いる第4特徴量の実例を説明するためのグラフ。
【図11】図1に示した実施例の判別手段で用いるデータベースの内部の様子を説明するための図。
【図12】被判別音響信号から抽出した第1特徴量乃至第5特徴量の抽出状態を説明するための図。
【図13】図1に示した実施例の運用結果の一例を説明するための図。
【図14】この発明の概要を説明するためのブロック図。
【図15】この発明の第1修正処理を説明するための図。
【図16】この発明の要部の具体的な実施例を説明するためのブロック図。
【図17】この発明の第2修正処理を説明するための図。
【図18】この発明を適用した場合の判別結果と従来技術との判別結果を説明するための図。
【図19】この発明による音響信号判別装置プログラムをコンピュータで実行させる状態を説明するための構成概念図。
【図20】この発明による音響信号判別プログラムの概要を説明するためのフローチャート。
【符号の説明】
1 周波数分析手段 81A 一次分析条件決定手段
10 第1特徴量抽出手段 81B 一次再判別手段
20 第2特徴量抽出手段 81C 一次音響種別決定手段
30 第3特徴量抽出手段 82A 二次分析条件決定手段
40 第4特徴量抽出手段 82B 二次再判別手段
50 第5特徴量抽出手段 82C 二次音響種別決定手段
60 判別手段 83A 三次分析条件決定手段
70 データベース 83B 三次再判別手段
80 第1修正手段 83C 三次音響種別決定手段
x1〜x5 第1特徴量〜第5特徴量
Claims (5)
- 被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理と、
互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理と、
上記周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理と、
上記周波数軸方向の相関係数の開始点から回帰係数を求めることにより、上記周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、上記被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理と、
上記被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理と、
上記複数の特徴量抽出処理で抽出した任意の数の特徴量を用いて、被判別音響信号の種別を各特徴量毎に判別する音響信号判別方法であって、
上記特徴量毎の判別結果として得られる複数の音響種別の中で最も長く同一の判別結果を出力している音響種別の同一判別結果を出力し続ける時間長を計測し、その時間長を一次分析窓幅とし、同一判定結果を出力し続ける音響種別を一次音響種別と決定する一次分析条件決定処理と、
この一次分析条件決定処理で決定した一次分析窓幅の中で上記各特徴量を用いた判別結果を再計算し、上記一次分析窓幅の範囲内の音響種別を求める一次再判別処理と、
この一次再判別処理で得られた音響種別と上記一次分析条件決定処理で決定した一次音響種別を比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する一次音響種別決定処理と、
上記一次再判別処理の再判別結果が上記一次音響種別と不一致の場合に、次に長い時間長の音響種別判別結果を呈する音響種別の時間長を二次分析窓幅とし、その音響種別を二次音響種別と決定する二次分析条件決定処理と、
この二次分析条件決定処理で決定した二次分析窓幅の中で上記特徴量を用いた音響判別結果を再計算し、音響種別を求める二次再判別処理と、
この二次再判別処理で得られた音響種別と、上記二次分析条件決定処理で決定した二次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する二次音響種別修正処理と、
上記二次再判別処理の二次判別結果が上記二次分析条件決定処理で決定した二次音響種別と不一致の場合に次に長い音響種別判別結果を呈する音響種別を三次音響種別とし、その時間長を三次分析窓幅と決定し、上記音響種別修正処理を繰返し、音響種別の判別結果が一致するまで繰返すことを特徴とする音響信号判別方法。 - 請求項1記載の音響信号判別方法により修正処理された音響種別の列を所定の窓長を持つ分析窓で分析し、その分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換処理することを特徴とする音響信号判別方法。
- 被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出手段と、
互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出手段と、
上記周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出手段と、
上記周波数軸方向の相関係数の開始点から回帰係数を求めることにより、上記周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、上記被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出手段と、
上記被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出手段と、
上記複数の特徴量抽出手段で抽出した任意の数の特徴量を用いて被判別音響信号の種別を各特徴量毎に判別する音響信号判別装置であって、
上記各特徴量毎の判別結果として得られる複数の音響種別の中で最も長く同一の判別結果を出力している音響種別の同一判別結果を出力し続ける時間長を計測し、その時間長を一次分析窓幅とし、同一判定結果を出力し続ける音響種別を一次音響種別と決定する一次分析条件決定手段と、
この一次分析条件決定手段で決定した一次分析窓幅の中で上記各特徴量を用いた判別結果を再計算し、上記一次分析窓幅の範囲内の音響種別を求める一次再判別手段と、
この一次再判別手段で得られた音響種別と上記一次分析条件決定手段で決定した一次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する一次音響種別修正手段と、
上記一次再判別手段の再判別結果が上記一次音響種別と不一致の場合に、次に長い時間長の音響種別判別結果を呈する音響種別の時間長を二次分析窓幅とし、その音響種別を二次音響種別と決定する二次分析条件決定手段と、
この二次分析条件決定手段で決定した二次分析窓幅の中で上記特徴量を用いた音響判別結果を再計算し、音響種別を求める二次再判別手段と、
この二次再判別手段で得られた音響種別と、上記二次分析条件決定手段で決定して二次音響種別とを比較し、一致すればその窓幅の音響種別をその窓幅の範囲で一致した音響種別と決定する二次音響種別修正手段と、
上記二次再判別手段の二次判別結果が上記二次分析条件決定手段で決定した二次音響種別と不一致の場合に次に長い音響種別判別結果を呈する音響種別を三次音響種別とし、その時間長を三次分析窓幅と決定し、上記音響種別修正処理を繰返し、音響種別の判別結果が一致するまで繰返すことを特徴とする音響信号判別装置。 - 請求項3記載の音響信号判別装置により判別された音響種別の列を所定の窓長を持つ分析窓で分析し、その分析窓内で発生頻度の低い音響種別を発生頻度の高い音響種別に置換処理する置換処理手段を具備していることを特徴とする音響信号判別装置。
- コンピュータが解読可能な符号列によって記述され、コンピュータに請求項1又は2記載の音響信号判別方法の少なくとも一方を実行させることを特徴とする音響信号判別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003150788A JP2004354589A (ja) | 2003-05-28 | 2003-05-28 | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003150788A JP2004354589A (ja) | 2003-05-28 | 2003-05-28 | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004354589A true JP2004354589A (ja) | 2004-12-16 |
Family
ID=34046501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003150788A Pending JP2004354589A (ja) | 2003-05-28 | 2003-05-28 | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004354589A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072273A (ja) * | 2005-09-08 | 2007-03-22 | Sharp Corp | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 |
JP2009210593A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | 特徴量抽出装置、方法及びプログラム |
WO2010146711A1 (ja) | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
JP2011527445A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 信号の異なるセグメントを分類するための方法および識別器 |
JP2014502478A (ja) * | 2010-12-10 | 2014-01-30 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 予め計算された参照曲線を用いて入力信号を分解する装置および方法 |
WO2017168660A1 (ja) * | 2016-03-30 | 2017-10-05 | 富士通株式会社 | 楽音検出装置および楽音検出プログラム |
-
2003
- 2003-05-28 JP JP2003150788A patent/JP2004354589A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4587916B2 (ja) * | 2005-09-08 | 2010-11-24 | シャープ株式会社 | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 |
JP2007072273A (ja) * | 2005-09-08 | 2007-03-22 | Sharp Corp | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 |
US8073686B2 (en) | 2008-02-29 | 2011-12-06 | Kabushiki Kaisha Toshiba | Apparatus, method and computer program product for feature extraction |
JP4599420B2 (ja) * | 2008-02-29 | 2010-12-15 | 株式会社東芝 | 特徴量抽出装置 |
JP2009210593A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | 特徴量抽出装置、方法及びプログラム |
JP2011527445A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 信号の異なるセグメントを分類するための方法および識別器 |
WO2010146711A1 (ja) | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
US8676571B2 (en) | 2009-06-19 | 2014-03-18 | Fujitsu Limited | Audio signal processing system and audio signal processing method |
JP2014502478A (ja) * | 2010-12-10 | 2014-01-30 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 予め計算された参照曲線を用いて入力信号を分解する装置および方法 |
JP2014502479A (ja) * | 2010-12-10 | 2014-01-30 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | ダウンミキサーを用いて入力信号を分解する装置および方法 |
US9241218B2 (en) | 2010-12-10 | 2016-01-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
US10187725B2 (en) | 2010-12-10 | 2019-01-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decomposing an input signal using a downmixer |
US10531198B2 (en) | 2010-12-10 | 2020-01-07 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decomposing an input signal using a downmixer |
WO2017168660A1 (ja) * | 2016-03-30 | 2017-10-05 | 富士通株式会社 | 楽音検出装置および楽音検出プログラム |
JPWO2017168660A1 (ja) * | 2016-03-30 | 2018-09-27 | 富士通株式会社 | 楽音検出装置および楽音検出プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103886871B (zh) | 语音端点的检测方法和装置 | |
EP1309964B1 (en) | Fast frequency-domain pitch estimation | |
US7601907B2 (en) | Signal processing apparatus and method, program, and recording medium | |
US7649137B2 (en) | Signal processing apparatus and method, program, and recording medium | |
US8175868B2 (en) | Voice judging system, voice judging method and program for voice judgment | |
WO2012176199A1 (en) | Method and system for identification of speech segments | |
JP2004240214A (ja) | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム | |
US8762147B2 (en) | Consonant-segment detection apparatus and consonant-segment detection method | |
CN103165127B (zh) | 声音分段设备和方法以及声音检测系统 | |
JP2004538525A (ja) | 周波数分析によるピッチ判断方法および装置 | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
US7835905B2 (en) | Apparatus and method for detecting degree of voicing of speech signal | |
US8438014B2 (en) | Separating speech waveforms into periodic and aperiodic components, using artificial waveform generated from pitch marks | |
US8532986B2 (en) | Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method | |
US8849662B2 (en) | Method and system for segmenting phonemes from voice signals | |
Yarra et al. | A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
JP2004354589A (ja) | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム | |
CN114694640A (zh) | 基于音频频谱图的异常声音提取识别方法及装置 | |
JP2625998B2 (ja) | 特徴抽出方式 | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
Fitria et al. | Music transcription of javanese gamelan using short time fourier transform (stft) | |
CN112908343B (zh) | 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统 | |
KR100283604B1 (ko) | 평탄화된 스펙트럼에서 유성-무성구간 분류방법 |