JP2004240214A - 音響信号判別方法、音響信号判別装置、音響信号判別プログラム - Google Patents
音響信号判別方法、音響信号判別装置、音響信号判別プログラム Download PDFInfo
- Publication number
- JP2004240214A JP2004240214A JP2003029943A JP2003029943A JP2004240214A JP 2004240214 A JP2004240214 A JP 2004240214A JP 2003029943 A JP2003029943 A JP 2003029943A JP 2003029943 A JP2003029943 A JP 2003029943A JP 2004240214 A JP2004240214 A JP 2004240214A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- correlation coefficient
- extracting
- feature
- axis direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】被判別信号の周波数スペクトルを求め、この周波数スペクトルの時間軸方向に隣接するスペクトルの相関係数を求め、その相関値により定常性と非定常性を判別する第1特徴量を抽出し、異なる時点で求めた周波数スペクトルを周波数軸方向にずらしながら相関係数を求め、その相関係数から第2特徴量としてピッチ成分を抽出し、更にその相関係数の或る周波数範囲内の平均値を抽出してノイズ性の尺度となる第3特徴量を抽出し、更に、その相関係数の概形を規定する減衰の傾斜を第4特徴量として抽出し、その他に第5特徴量としてスペクトルのパワーを抽出し、これらの特徴量と予め収録してある学習データとによって、音種毎の尤度を求め、尤度の最大を提示する音種を被判別音響信号の音種と決定する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、例えば音声、音楽、環境雑音などの音響の種別を判別する音響信号判別方法、音響信号判別装置、音響信号判別プログラムに関する。
【0002】
【従来の技術】
従来の音響信号判別技術は、音源成分を求めるために信号の自己相関係数を求め、また、信号の定常性を求めるためにバンドパスフィルタを用いて求めるなど特徴量の抽出毎に別の信号処理を行う必要があり、そのために信号処理効率が悪いという問題があった。
その一例として、入力信号から特徴抽出部にて一定時間毎に複数の特徴量を抽出し、各音韻毎の特徴量と多数の学習用音声データから特徴量分布作成部で作成した特徴量分布との統計的距離を計算する特徴量尤度算出部を有し、各音韻毎に得られた継続時間と多数の学習用音声データから継続時間分布作成部で作成した継続時間分布との統計的距離とを算出する継続時間尤度算出部を有し、これら2つの距離を統合して音声を検出する総合判定部を備えた音声検出方法が提案されている(特許文献1、特許文献2)。
【0003】
【特許文献1】
特開平6−332492号公報
【特許文献2】
特開平8−87293号公報
【0004】
【発明が解決しようとする課題】
上記した特許文献1及び特許文献2に見られるように、従来は被判別信号の特徴量として、各音韻毎の特徴量と多数の学習用音声データから特徴量分布作成部で作成した特徴量分布との統計的距離を計算するなどの信号処理を行うため、信号処理効率が悪いという問題があった。
また、信号の定常性を計測するために、バンドパスフィルタを用いて周波数スペクトルの長時間の傾向をみる方法があるが、結果を得るために長い時間の分析窓が必要であった。また、音源成分の抽出にはスペクトル包絡の調波構造に基づく手法は存在したが、調波構造のピークが捉えにくいことや、調波構造のピーク間隔の揺らぎによって周波数スペクトル全体のもつ調波構造を捉えることはできなかった。
【0005】
更に、雑音の識別を行うには、その信号の雑音の度合を計測する方法が必要であるが、これを計測する尺度は提案されていない。また、スペクトルの高域と低域などの形状の比較を行う場合において、スペクトル包絡の複雑さを簡易な表現に変換し、比較を行う尺度も提案されていない。
この発明の目的は被判別音響信号の周波数スペクトルを求め、この周波数スペクトルから信号の定常性及び非定常性を特定することができる特徴量及び周波数スペクトル全体の持つ調波構造を捉えることができる特徴量、雑音の度合を計測する特徴量及びスペクトル包絡の簡易な表現を実現することができる特徴量を提案し、これらの特徴量を用いることにより効率よく、然も精度よく被判別音響信号の種別を判定することができる音響信号判別方法、音響信号判別装置、音響信号判別プログラムを提供しようとするものである。
【0006】
【課題を解決するための手段】
この発明では、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理と、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理と、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理と、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理と、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理と、の少なくとも一つの特徴量抽出処理で抽出した特徴量を用いて被判別音響信号の種別を判別する音響信号判別方法を提案する。
【0007】
この発明では更に、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出手段と、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出手段と、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出手段と、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出手段と、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出手段と、の少なくとも一つの特徴量抽出手段で抽出した特徴量を用いて被判別音響信号の種別を判別する音響信号判別装置を提案する。
【0008】
この発明では更に、コンピュータが解読可能な符号によって記述されコンピュータに、被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理ステップと、互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理ステップと、周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理ステップと、周波数軸方向の相関係数の開始点から回帰係数を求めることにより、周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理ステップと、被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理ステップと、の少なくとも一つの特徴量抽出処理ステップを実行させ、実行した特徴量抽出ステップで抽出した特徴量を用いて被判別音響信号の種別を判別する音響信号判別方法を実行させる音響信号判別プログラムを提案する。
【0009】
作用
本発明によれば、第1特徴量抽出処理乃至第5特徴量抽出処理で抽出する各特徴量は全て被判別音響信号の周波数スペクトルから抽出する。従って、全て同一系統の信号処理で音響信号の種別を判別でき信号処理の効率がよい。
更に、本発明によれば音響信号の定常性及び非定常性を判別する特徴量、単一音源の有無を判別する特徴量、雑音の白色性を判別する特徴量、スペクトルの形状を簡素に表現し、スペクトルの形状の違いを比較することを可能とした特徴量をそれぞれ抽出するから、信頼性の高い種別判定を行うことができる。
【0010】
【発明の実施の形態】
図1にこの発明による音響信号判別方法を用いて音響信号の種別を判定する音響信号判別装置の概要を示す。
被判別音響信号は周波数分析手段1で周波数分析され、周波数スペクトルが求められる。周波数分析手段1としては例えばFFT等と呼ばれている高速フーリエ変換手段を用いることができる。高速フーリエ変換手段によれば例えば1024サンプルの音響データを1フレームとして取扱い、1フレーム内に存在する音響データの周波数成分を分析する。
この発明ではこの周波数分析手段1で分析した周波数スペクトルを利用して第1特徴量〜第N特徴量を抽出する構成とした点を特徴とするものである。この実施例ではN=5とした場合を示す。このために、周波数分析手段1の出力側に、第1特徴量抽出手段10と、第2特徴量抽出手段20と、第3特徴量抽出手段30と、第4特徴量抽出手段40と、第5特徴量抽出手段50が接続される。
図1では時間軸方向の相関係数計算手段11と、分散値計算手段12をブロックで囲んで第1特徴量抽出手段10を構成しているように表記しているが、実質的には周波数分析手段1を含んで第1特徴量抽出手段10が構成される。
【0011】
第1特徴量抽出手段10を構成する時間軸方向の相関係数計算手段11は、周波数分析手段1から与えられる周波数分析結果を時間軸方向に隣接する周波数スペクトルの相関係数を計算する。相関係数の値が高い値(1に近い値)の発生頻度が多い状況では入力された被判定音響信号は時間軸方向に周波数スペクトルの変動が少ないと見ることができる。この状況下にある信号を以下では定常性を持つ信号、又は定常的な信号と称すことにする。
これに対し、相関係数が低い値(0に近い値)の発生頻度が多い状況ではその時点の被判別音響信号は時間軸方向に大きく変動していると見ることができる。この状況下にある信号を以下では非定常性を持つ信号又は非定常な信号と称すことにする。
定常性を持つ信号と非定常性を持つ信号の一例を図2を用いて説明する。図2で横軸は時間を示す。図2の前半の区間X1はBGM音楽信号を被判別音響信号として入力した状況、後半の区間X2は音声信号を被判別音響信号として入力した状況を示す。上段Aに示す曲線は被判別音響信号のパワー値(RMS)を示す。パワー値は上に向う程パワー値が高く、下に向うほどパワー値が低いことを表わす。
中段Bは被判別音響信号のピッチ(基本周波数)を抽出した結果を表わす。このピッチに関しては第2特徴量抽出手段20の部分で説明するが、このピッチデータも上に向う程周波数が高く、下に向う程周波数が低いことを表わす。
【0012】
下段Cは第1特徴量抽出手段10を構成する時間軸方向の相関係数計算手段11で計算した時間軸方向の相関係数を示す。この相関係数は上に向う程相関値が1に近づき、下に向う程0値に近づく。
図2に示す時間軸方向の相関係数の軌跡から被判別音響信号が音楽の場合は相関係数は安定し、音声区間では相関係数が大きく変動する様子が解る。
尚、時間軸方向のn番目のパワースペクトルとn+1番目のパワースペクトルとの相関係数Rt,t+1は以下に示す(1)式,(2)式,(3)式で求められる。
【数1】
(2)式はパワースペクトルの相関係数、(3)式は正規化のための重み係数を示す。
音楽が被判別音響信号の場合、スペクトルの包絡が時間軸方向に似通っているために高い相関値を保つと考えられる。これに対して音声の区間では相関係数値が大きく変動している。音声の中でも母音部分では高いと相関値を示すが、子音部分や音韻の境界ではスペクトルの変化が生じるために低い相関値を示すものと考えられる。この結果、この発明ではある時間長の相関値を計測し、その分散の度合により信号が定常的か非定常的かを判定するものとする。
このために、第1特徴量抽出手段10では時間軸方向の相関係数計算手段11の出力側に分散値計算手段12を設け、この分散値計算手段12で相関係数の単位時間あたりの分散値Vを計算する。分散値Vは以下に示す(4)式で計算される。
【数2】
(4)式において分析フレーム長をNとし、Rnは連続するN個の相関係数、R^はフレーム内の相関係数の平均を示す。
【0013】
図3に各種別の音響信号の相関係数の分散を示す。図3に示す曲線S1は被判別音響信号が音楽の場合の相関値の分散を表わす。
曲線S2は被判別音響信号が音声の場合の相関値の分散を表わす。
曲線S3はポーズ区間の相関値の分散。
曲線S4は自動車の走行音の相関値の分散。
曲線S5はプロペラ機のエンジン音の相関値の分散。
曲線S6はペーパーノイズ(紙をめくる音)の相関値の分散を示す。
音楽と音声の相関値の分散曲線S1とS2は分布の重なりが少ない形状となっている。よって、この分散を特徴量として用いることにより音声と音楽とを判別することができる。但し、その他の音響信号に関しては分布が広がっており、この特徴量では種別の判別は困難であると見られる。図3に示す例では、分散値が40〜60の範囲で音楽、分散値が60〜80の範囲で音声と判定することができる。第1特徴量抽出手段10はこの分散値を第1特徴量として判別手段60に出力する。種別の判別方法に関しては判別手段60の項で説明する。
【0014】
次に、第2特徴量抽出手段20について説明する。第2特徴量抽出手段は周波数軸方向の相関係数計算手段21と、ピッチ抽出手段22とによって構成することができる。周波数軸方向の相関係数計算手段21は周波数分析手段1で周波数分析した時点nで得られた周波数スペクトルと、時点n+1で得られた周波数スペクトルを相互に周波数軸方向に移動させながら、各移動周波数毎に相関係数を計算する。
図4にその様子を示す。図4に示すSP1は時点nで得られた周波数スペクトル、SP2は時点n+1で得られた周波数スペクトルを示す。双方の周波数スペクトルの周波数差が0Hzである状態から、何れか一方の周波数スペクトルを周波数軸方向にわずかずつ(Δf)移動させ、移動毎に相互の相関係数を求める。相関係数は(5)式、(6)式、(7)式で求められる。
【数3】
【0015】
図5にスペクトルの移動による相関係数の一例を示す。スペクトルSP1とSP2を周波数軸方向にずらしながら相互の相関係数を求めることにより、調波構造のピークに双方のスペクトルが重なる毎に強い相関を示し、ピークの重なりがずれれば0.2程度の極めて低い相関を示す。この繰り返しにより明確な相関値のピークが得られる。相関係数に周期的にピークが発生する場合、被判別音響信号に周期性を持つ信号が含まれていることが分る。ピークの間隔を抽出することで周期性を持つ信号のピッチ周波数を得ることができる。
ピッチ抽出手段22は図5に示した相関係数のピーク相互間の間隔から周期性を持つ信号のピッチ周波数を求める。具体的には図5に示すピークP1は周波数差が0Hzの場合の相関値で得られるピーク、P2は2番目のピークである。ピークP1とP2の間隔τから周期性を持つ信号の基本周波数(ピッチ周波数)を求めることができる。第2特徴量抽出手段20はこのピッチ周波数を第2特徴量として判別手段60に出力する。
【0016】
次に第3特徴量抽出手段30について説明する。第3特徴量抽出手段30は図1では平均値計算部31のみをブロックで囲んで示しているが、実質的には周波数分析手段1と、周波数軸方向の相関係数計算手段21とを含んで構成される。平均値算出手段31は周波数軸方向の相関係数計算手段21が周波数スペクトルSP1とSP2を周波数Δfずつずらす毎に算出する相関値を相関値の算出が終了するまで積算し、その平均値を求める。つまり、周波数スペクトルSP1とSP2の周波数のずれが0Hzの状態から、周波数のずれ量Δfが最大に達するまでの間に算出された相関値を積算し、その平均値を求める。この平均値により雑音性が大きいか、小さいかを判定することができる。
その理由は以下の如くである。図6に示すA1はホワイトノイズのパワースペクトルの包絡、B1はピンクノイズの周波数スペクトルのパワーの概略、C1は例えば音楽、音声等の有色音のスペクトルのパワーの概略を示す。
【0017】
図6A2は周波数軸方向の相関係数計算手段21で周波数をΔfずつずらした場合に算出される同様の相関係数、B2はピンクノイズの相関係数、C2は有色音の相関係数をそれぞれ示す。
図6A2とB2、C2において、或る周波数範囲Δfmに限定してその範囲内の相関係数の平均値SAVはホワイトノイズの場合「1」で最大となり、次にピンクノイズ、有色音の順に平均値SAVの値が求められる。従って、相関係数の平均値SAVの値が「1」に近い程ノイズ性が高いと判定することができる。特に平均値が「1」に近い程白色性に近いことが分る。
【0018】
図7と図8を用いて相関係数の平均値が意味するところを説明する。図7は音楽、ペーパーノイズ、自動車の走行音の各音響信号のパワースペクトルを示す。図7に示す曲線mfは音楽のパワースペクトル、曲線pfはプロペラ機のエンジン音のパワースペクトル、曲線sfは自動車の走行音のパワースペクトルを示す。図7に示すパワースペクトルでは音楽のパワースペクトルは他の音と区別でくるが、自動車の走行音とプロペラ機のエンジン音は全く重なり合っており、区別は難しい。
これに対し、図8にこの発明で用いる周波数軸方向の相関係数を示す。図8に示す曲線mcは音楽の周波数スペクトルを周波数軸方向にずらしながら相関係数を計算し、計算した周波数軸方向の相関係数をプロットした曲線を示す。曲線SCは自動車走行音の周波数軸方向の相関係数、曲線PCはプロペラ機のエンジン音の周波数軸方向の相関係数を示す。図8から分かるように、各曲線SC、mc、PCは重なり合う部分は少なく、或る周波数のずれ範囲に制限し、その範囲内の相関値の平均を求めることにより、その平均値を尺度とすれば音楽と、自動車の走行音と、プロペラ機のエンジン音を区別することができる。従って、第3特徴量抽出手段30は第3特徴量として周波数軸方向の相関係数の平均値を抽出し、その平均値を判別手段60に出力する。
【0019】
次に、第4特徴量抽出手段40について説明する。第4特徴量抽出手段40も図1では回帰係数計算手段41のみをブロックで囲んで示しているが、実質上は周波数分析手段1と周波数軸方向の相関係数計算手段21を含んで第4特徴量抽出手段40が構成される。
第4特徴量抽出手段40を構成する回帰係数計算手段41は相関係数の低域から高域に至る概略の傾きを求めている。図9にその様子を示す。図9に示す曲線mは或る音響信号の周波数軸方向の相関係数。この相関係数の傾きaを求めることにより低域と高域の相関値の差が大きいか小さいかを計測することができる。傾きaは一次回帰係数の演算方法により以下に示す(8)式、(9)式で求めることができる。
【数4】
(8)式で求められるDは一次直線Nから曲線mに下した距離を示す。距離Dを積分した値が最小となる傾きaを算出する。
【0020】
図10に傾きaを実例に適用した例を示す。自動車の走行音の相関係数の傾きはa1、音楽の相関係数の傾きはa2、プロペラ機のエンジン音の相関係数の傾きはa3のように求めることができる。これらの傾きa1、a2、a3から、音の種別を判定することができる。第4特徴量抽出手段40はこの相関係数の傾きaを第4特徴量として判別手段60に出力する。
第5特徴量抽出手段50では周波数分析手段1から周波数スペクトルラムを取り込み、平均パワー計算手段51により周波数スペクトラムの平均パワーを求め、この平均パワーを第5特徴量として判別手段60に出力する。
判別手段60では各特徴量抽出手段10〜50から出力される各特徴量を用いてどの種別の音響信号であるかを判定する。
この判定のために、予めデータベース70に学習データが用意される。この学習データは、例えば音声に関しては発音の正しいアナウンサなどの音声及びその他の種別の音響信号(以下カテゴリと称す)を予め、第1特徴量抽出手段10〜第5特徴量抽出手段50でそれぞれの特徴量を抽出し、各特徴量について分散μと平均σを求め、データベース70に格納する。
【0021】
図11にデータベースに格納したデータ群の様子を示す。
データベース70に学習データが用意された状態で音種の判別が行える状態となる。周波数分析手段1に被判別音響信号が入力されると、上記した第1特徴量抽出手段10、第2特徴量抽出手段20、第3特徴量抽出手段30、第4特徴量抽出手段40、第5特徴量抽出手段50は第1特徴量x1、第2特徴量x2、第3特徴量x3、第4特徴量x4、第5特徴量x5を抽出する。
その抽出結果を図12に示す。
これらの各特徴量xi(x1,x2…x5)は以下に示す(10)式に代入され、各特徴量xi(x1,x2…x5)毎にこの例では5種類のカテゴリC=5の全てに渡って尤度Pc,iを求める。
【数5】
ここでCはカテゴリを表わす添字、iは特徴量を表わす添字である。
分散μと平均σはデータベース70の各対応する欄から読み出して(10)式に代入する。
各カテゴリの各特徴量(x1,x2,x3,x4,x5)毎に尤度の積Pc,iが求められた後、(11)式で各カテゴリの尤度の積Pcを求める。
(11)式により各カテゴリの尤度の積Pcが求められた中で最も大きい尤度の積の値Pcを提示したカテゴリを被判定音響信号のカテゴリと判定する。
【0022】
図13に判定結果の一例を示す。図13の左欄のカテゴリ名は入力した音響信号のカテゴリ、上段のカテゴリ名は判定したカテゴリを示す。各欄の数値は単位時間に判定した回数を示す。つまり、音声を入力した場合に、音声と判定した回数が2392回、BGM音楽と判定した回数が48回、ノイズと判定した回数が71回、環境騒音として判定した回数が73回であったことを表わす。その結果音声の判別率は92.6%となる。その他のカテゴリの判定率も77〜88%程度に推移し、良好な判別率を提示している。尚、上述の実施例では判定手段60において第1特徴量〜第5特徴量の全てを判定の尺度として利用した場合を説明したが、必ずしも全ての特徴量を用いる必要はなく、最小限一つの特徴量だけでも判別を実行することができる。
図1に示した周波数分析手段1、第1特徴量抽出手段10、第2特徴量抽出手段20、第3特徴量抽出手段30、第4特徴量抽出手段40、第5特徴量抽出手段、判別手段60はコンピュータとコンピュータにインストールされた音響信号判別プログラムとによって実現される。
【0023】
コンピュータは図14に示すようにプログラムを解読し実行するCPU101と、読出専用メモリROM102と、読み、書き可能なメモリRAM103と、入力ポート104,出力ポート105、外部記憶装置106等により構成される。
一般的にはRAM103に周波数分析プログラム103Aと、第1特徴量抽出処理プログラム103B、第2特徴量抽出処理プログラム103C、第3特徴量抽出処理プログラム103D、第4特徴量抽出処理プログラム103E、第5特徴量抽出処理プログラム103G等が格納され、入力ポート104に入力された被判別音響信号の判別処理が実行される。判別結果は出力ポート105を通じて出力され、例えばモニタ(特に図示しない)に表示される。尚、図14に示す例では外部記憶装置106に学習データを格納したデータベースを構築した例を示すが、データベースをRAM103に構築する場合もある。
【0024】
図15にこの発明による音響信号判別プログラムの概要を表わすフローチャートを示す。
ステップSP1で音響信号が入力される。
ステップSP2でこの音響信号の周波数分析を実行する。
ステップSP3で周波数分析で得られた周波数スペクトルを用いて時間軸方向の相関係数を算出する。
ステップSP4で時間軸方向の相関係数の分散値を算出し、この分析値を第1特徴量として出力する。
ステップSP5では周波数分析結果を用いて周波数軸方向の相関係数を算出する(詳しくは図4参照)。
ステップSP6で周波数軸方向の相関係数を用いて基本周波数を算出し、この基本周波数を第2特徴量として出力する。
ステップSP7ではステップSP5で算出した周波数軸方向の相関係数の平均値を求め、この平均値を第3特徴量として出力する。
ステップSP8では回帰係数を算出し、スペクトルの概形(詳しくは図9参照)を求め、そのスペクトルの概形を第4特徴量として出力する。
ステップSP9では周波数分析結果からスペクトルパワー又はスペクトルの中心周波数、バンド幅の何れか又は全部を算出し、第5特徴量として出力する。
ステップSP10ではこれら第1特徴量から第5特徴量の少なくとも何れか一つを用いて判別処理を実行する。判別処理に用いる特徴量の選択は主に音声を検出したいか或は音楽を検出したいか等で適宜に選択される。
上述したように、この発明による音響信号判別プログラムはコンピュータが解読可能な符号によって記述され、コンピュータが読み取り可能な記録媒体に記録され、この記録媒体からインストールされるか、又は通信回線を通じてコンピュータにインストールされ、CPU101が解読して実行される。
【0025】
【発明の効果】
以上説明したように、この発明によれば音響信号の種別を判定するために用いる特徴量は全て周波数分析結果である周波数スペクトルを利用して抽出するため、信号処理の効率がよい。
更に、この発明では時点nで得られた周波数スペクトルと、時点n+1で得られた周波数スペクトルを時間軸方向にずらしながら相関係数を求め、この相関係数を利用して第2特徴量乃至第4特徴量を求め、これらの特徴量により、第2特徴量としてピッチ成分の抽出と、第3特徴量として相関係数の平均値、第4特徴量としてスペクトルの概形を定めることができる傾斜を求めたから、従来では判別が困難であった音声と音楽、或はノイズと環境騒音を判別することができるようになった。
【図面の簡単な説明】
【図1】この発明による音響信号判別装置の一実施例を説明するためのブロック図。
【図2】図1に示した実施例で用いる時間軸方向の相関係数を説明するためのグラフ。
【図3】図2で説明した時間軸方向の相関係数から求めた第1特徴量となる相関値の分散を説明するためのグラフ。
【図4】この発明で用いる複数の周波数スペクトルを周波数軸方向にずらしながら、各周波数のずれ毎に相関係数を求める方法を説明するためのグラフ。
【図5】図4で説明した方法で求めた第2特徴量を説明するためのグラフ。
【図6】この発明で用いる第3特徴量を説明するためのグラフ。
【図7】被判別音響信号の音種別のパワースペクトルの一例を説明するためのグラフ。
【図8】図7に示したパワースペクトルをこの発明で用いる周波数軸方向にスペクトルを移動させて算出した相関係数に置換した例を示すグラフ。
【図9】この発明で用いる第4特徴量を説明するためのグラフ。
【図10】この発明で用いる第4特徴量の実例を説明するためのグラフ。
【図11】この発明の判別手段で用いるデータベースの内部の様子を説明するための図。
【図12】被判別音響信号から抽出した第1特徴量乃至第5特徴量の抽出状態を説明するための図。
【図13】この発明の運用結果の一例を説明するための図。
【図14】この発明の音響信号判別装置をコンピュータで実現した場合の実施例を示すブロック図。
【図15】この発明の音響信号判別プログラムの概要を説明するためのフローチャート。
【符号の説明】
1 周波数分析手段 50 第5特徴量抽出手段
10 第1特徴量抽出手段 60 判別手段
20 第2特徴量抽出手段 70 データベース
30 第3特徴量抽出手段 x1〜x5 第1特徴量〜第5特徴量
40 第4特徴量抽出手段
Claims (3)
- 被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理と、
互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理と、
上記周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理と、
上記周波数軸方向の相関係数の開始点から回帰係数を求めることにより、上記周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、上記被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理と、
上記被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理と、
の少なくとも一つの特徴量抽出処理で抽出した特徴量を用いて被判別音響信号の種別を判別する音響信号判別方法。 - 被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出手段と、
互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出手段と、
上記周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出手段と、
上記周波数軸方向の相関係数の開始点から回帰係数を求めることにより、上記周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、上記被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出手段と、
上記被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出手段と、
の少なくとも一つの特徴量抽出手段で抽出した特徴量を用いて被判別音響信号の種別を判別する音響信号判別装置。 - コンピュータが解読可能な符号によって記述されコンピュータに、
被判別音響信号の周波数スペクトルと、この周波数スペクトルの時間軸上で隣接する周波数スペクトルの相関係数を時間軸方向の相関係数として求め、この時間軸方向の相関係数の時系列の分散値を特徴量として抽出する第1特徴量抽出処理ステップと、
互いに異なる複数の時点でそれぞれ被判別音響信号の周波数スペクトルを求め、この複数の周波数スペクトルを周波数軸方向にずらし、周波数のずれ毎に複数の周波数スペクトルの相関係数を周波数軸方向の相関係数として計算し、周波数軸方向の相関係数のピークが所定周波数間隔で存在する場合、そのピークの間隔から周期性を持つ信号の基本周波数を算出し、この基本周波数を特徴量として抽出する第2特徴量抽出処理ステップと、
上記周波数軸方向の相関係数の所定周波数範囲内の平均値を特徴量として抽出する第3特徴量抽出処理ステップと、
上記周波数軸方向の相関係数の開始点から回帰係数を求めることにより、上記周波数スペクトルの高域成分と低域成分の大局的な形状の違いを計測し、上記被判別音響信号の周波数スペクトルの概形を特徴量として抽出する第4特徴量抽出処理ステップと、
上記被判別音響信号の周波数スペクトルから、この周波数スペクトルのスペクトルパワー又は中心周波数、バンド幅の何れかを抽出する第5特徴量抽出処理ステップと、
の少なくとも一つの特徴量抽出処理ステップを実行させ、実行した特徴量抽出ステップで抽出した特徴量を用いて被判別音響信号の種別を判別する音響信号判別方法を実行させる音響信号判別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003029943A JP2004240214A (ja) | 2003-02-06 | 2003-02-06 | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003029943A JP2004240214A (ja) | 2003-02-06 | 2003-02-06 | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240214A true JP2004240214A (ja) | 2004-08-26 |
Family
ID=32956978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003029943A Pending JP2004240214A (ja) | 2003-02-06 | 2003-02-06 | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240214A (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1813921A1 (en) * | 2006-01-30 | 2007-08-01 | Omron Corporation | Method of extracting, device for extracting and device for inspecting abnormal sound |
JP2009069425A (ja) * | 2007-09-12 | 2009-04-02 | Sharp Corp | 音楽検出装置、音声検出装置、および音場制御装置 |
JP2009075536A (ja) * | 2007-08-28 | 2009-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 |
WO2010146711A1 (ja) | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
JP4851447B2 (ja) * | 2005-06-09 | 2012-01-11 | 株式会社エイ・ジー・アイ | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
JP2013142870A (ja) * | 2012-01-12 | 2013-07-22 | Nippon Telegr & Teleph Corp <Ntt> | 特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラム |
JP2013242465A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
JP2013242463A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
JP2013242462A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
US8682664B2 (en) | 2009-03-27 | 2014-03-25 | Huawei Technologies Co., Ltd. | Method and device for audio signal classification using tonal characteristic parameters and spectral tilt characteristic parameters |
JP2015079273A (ja) * | 2014-12-19 | 2015-04-23 | 日本電信電話株式会社 | 発呼適否通知装置とその方法と、プログラム |
JP2015125238A (ja) * | 2013-12-26 | 2015-07-06 | Pioneer DJ株式会社 | 音声信号処理装置、音声信号処理装置の制御方法、プログラム |
US9460731B2 (en) | 2010-08-04 | 2016-10-04 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
KR101877127B1 (ko) * | 2016-10-06 | 2018-07-10 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
WO2020253694A1 (zh) * | 2019-06-17 | 2020-12-24 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN113673864A (zh) * | 2021-08-19 | 2021-11-19 | 中国石油化工股份有限公司 | 一种能源自动分输方法 |
-
2003
- 2003-02-06 JP JP2003029943A patent/JP2004240214A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4851447B2 (ja) * | 2005-06-09 | 2012-01-11 | 株式会社エイ・ジー・アイ | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
US8738370B2 (en) | 2005-06-09 | 2014-05-27 | Agi Inc. | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program |
EP1813921A1 (en) * | 2006-01-30 | 2007-08-01 | Omron Corporation | Method of extracting, device for extracting and device for inspecting abnormal sound |
JP2009075536A (ja) * | 2007-08-28 | 2009-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 |
JP2009069425A (ja) * | 2007-09-12 | 2009-04-02 | Sharp Corp | 音楽検出装置、音声検出装置、および音場制御装置 |
US8682664B2 (en) | 2009-03-27 | 2014-03-25 | Huawei Technologies Co., Ltd. | Method and device for audio signal classification using tonal characteristic parameters and spectral tilt characteristic parameters |
WO2010146711A1 (ja) | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
US8676571B2 (en) | 2009-06-19 | 2014-03-18 | Fujitsu Limited | Audio signal processing system and audio signal processing method |
US9460731B2 (en) | 2010-08-04 | 2016-10-04 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
JP2013142870A (ja) * | 2012-01-12 | 2013-07-22 | Nippon Telegr & Teleph Corp <Ntt> | 特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラム |
JP2013242462A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
JP2013242463A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
JP2013242465A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
JP2015125238A (ja) * | 2013-12-26 | 2015-07-06 | Pioneer DJ株式会社 | 音声信号処理装置、音声信号処理装置の制御方法、プログラム |
JP2015079273A (ja) * | 2014-12-19 | 2015-04-23 | 日本電信電話株式会社 | 発呼適否通知装置とその方法と、プログラム |
KR101877127B1 (ko) * | 2016-10-06 | 2018-07-10 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
WO2020253694A1 (zh) * | 2019-06-17 | 2020-12-24 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN113673864A (zh) * | 2021-08-19 | 2021-11-19 | 中国石油化工股份有限公司 | 一种能源自动分输方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004240214A (ja) | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム | |
US9093056B2 (en) | Audio separation system and method | |
CN103886871B (zh) | 语音端点的检测方法和装置 | |
WO2012176199A1 (en) | Method and system for identification of speech segments | |
US7473838B2 (en) | Sound identification apparatus | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
D’ALESSANDRO et al. | Glottal closure instant and voice source analysis using time-scale lines of maximum amplitude | |
KR100827153B1 (ko) | 음성 신호의 유성음화 비율 검출 장치 및 방법 | |
CN103165127A (zh) | 声音分段设备和方法以及声音检测系统 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
Sigmund | Statistical analysis of fundamental frequency based features in speech under stress | |
JPWO2004075074A1 (ja) | カオス論的指標値計算システム | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
CN116230018A (zh) | 一种用于语音合成系统的合成语音质量评估方法 | |
US5809453A (en) | Methods and apparatus for detecting harmonic structure in a waveform | |
Yarra et al. | A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection | |
CN101030374B (zh) | 基音周期提取方法及装置 | |
US8849662B2 (en) | Method and system for segmenting phonemes from voice signals | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
JP2004354589A (ja) | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム | |
Zhao et al. | A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
CN112908343B (zh) | 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20050124 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
RD03 | Notification of appointment of power of attorney |
Effective date: 20061018 Free format text: JAPANESE INTERMEDIATE CODE: A7423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070313 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
A02 | Decision of refusal |
Effective date: 20080902 Free format text: JAPANESE INTERMEDIATE CODE: A02 |