JP2004125944A - 情報識別装置及び方法、並びにプログラム及び記録媒体 - Google Patents

情報識別装置及び方法、並びにプログラム及び記録媒体 Download PDF

Info

Publication number
JP2004125944A
JP2004125944A JP2002286836A JP2002286836A JP2004125944A JP 2004125944 A JP2004125944 A JP 2004125944A JP 2002286836 A JP2002286836 A JP 2002286836A JP 2002286836 A JP2002286836 A JP 2002286836A JP 2004125944 A JP2004125944 A JP 2004125944A
Authority
JP
Japan
Prior art keywords
spectrogram
power ratio
horizontal
component
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002286836A
Other languages
English (en)
Other versions
JP4099576B2 (ja
Inventor
Yasuhiro Tokuri
戸栗 康裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002286836A priority Critical patent/JP4099576B2/ja
Publication of JP2004125944A publication Critical patent/JP2004125944A/ja
Application granted granted Critical
Publication of JP4099576B2 publication Critical patent/JP4099576B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】音声信号を含む情報源から、所定の時間区間毎に高精度に音声・音楽を識別して検出する。
【解決手段】スペクトログラム計算部11は、入力音声信号のスペクトルを所定のブロック単位に周波数分析し、所定の識別区間毎にスペクトログラムを求める。水平直線周波数成分抽出部13は、小ブロック毎のスペクトログラムを画像と見なして、2次元周波数領域の所定の部分領域内にある水平直線成分を抽出する。水平直線パワー比計算部14は、抽出された水平直線成分のパワーが2次元周波数領域の全領域のパワーに占める割合を求め、総合パワー比計算部15は、小ブロック毎に求めた水平直線成分パワー比を評価して、総合水平直線成分パワー比を特徴量として求める。そして、音声・音楽識別部16は、この総合水平直線成分パワー比を用いて音声か音楽かを識別する。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
本発明は、音声、音楽、音響を含む音声信号、又はその音声信号を含む情報源から特徴量を抽出することにより、音声や音楽を識別して検出又は検索する情報識別装置及びその方法、並びにプログラム及び記録媒体に関する。
【0002】
【従来の技術】
放送システムやマルチメディアシステム等において、映像や音声の大量のコンテンツを効率よく管理、分類し、容易に検索可能とすることは重要であるが、これにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不可欠である。
【0003】
ここで、多くのマルチメディアコンテンツ、放送コンテンツは、映像信号と共に音声信号を含んでおり、これはコンテンツの分類やシーンの検出において、非常に有用な情報である。特に、情報に含まれる音声信号の音声部分と音楽部分とを識別して検出することで、効率的な情報検索や情報管理が行える。
【0004】
ところで、音声と音楽とを識別するための技術は、従来から数多く研究されており、零交差数、パワーの変動、スペクトルの変動などを特徴量として用いて識別する手法が提案されている。
【0005】
例えば、下記の非特許文献1では、零交差数を用いて音声・音楽の識別を行っている。
【0006】
また、下記の非特許文献2では、4Hz変調エネルギー、低エネルギーフレーム率、スペクトルロールオフ点、スペクトルセントロイド、スペクトル変動(Flux)、零交差率などを含めた13個の特徴量を用いて音声・音楽を識別し、それぞれの性能を比較評価している。
【0007】
さらに、下記の非特許文献3では、ケプストラム係数、デルタケプストラム係数、振幅、デルタ振幅、ピッチ、デルタピッチ、零交差数、デルタゼロ交差数を特徴量とし、それぞれの特徴量に混合正規分布モデルを用いることで、音声・音楽を識別している。
【0008】
この他、音楽のスペクトルピークが特定周波数に安定したまま時間方向に持続するという特徴に基づいた検出手法も研究されている。ここで、スペクトルピークの安定性は、スペクトログラムにおける時間方向の直線成分の有無としても表現される。スペクトログラムとは、縦軸を周波数、横軸を時間とし、スペクトルを時間方向に並べて画像情報として表現したものである。この特徴を用いた発明としては、例えば下記の非特許文献4及び特許文献1が挙げられる。
【0009】
ここで、特許文献1では、全帯域のエッジ強度を求め、これを閾値と比較することで音楽成分が存在するか否かを判定している。さらに、音楽成分を除去したスペクトルにくし型フィルタを適用し、音声の調波構造(ハーモニック構造)を検出することで音声成分も検出している。
【0010】
すなわち、先ず周波数帯域jにおける時間方向のエッジ強度ed(j)を以下の式(1)に従って求める。ここで、式(1)においてf(i,j)は、スペクトログラム上の画素(i,j)における輝度を示す。
【0011】
【数1】
Figure 2004125944
【0012】
次に、全帯域のエッジ強度EDを以下の式(2)に従って求める。
【0013】
【数2】
Figure 2004125944
【0014】
そして、このエッジ強度EDの値が閾値TH以上である場合には、検出範囲に音楽が存在すると判定している。
【0015】
【非特許文献1】
J.サウンダース(J.Saunders),「放送された音声/音楽のリアルタイム識別(Real−time discrimination of broadcast speech/music)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1996年,p.993−996
【非特許文献2】
E.シェイアー(E.Scheire)及びM.スラニー(M.Slaney),「ロバストな多特性音声/音楽識別器の作製及び評価(Construction and evaluation of a robust multifeature speech/music discriminator)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. onAcoustics, Speech, Signal Processing),1997年,p.1331−1334
【非特許文献3】
M.J.ケア(M.J.Care)、E.S.パリス(E.S.Parris)及びH.ロイド・トーマス(H.Lloyd−Thomas),「音声,音楽を識別するための特徴比較(A comparison of features for speech,music discrimination)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics,  Speech, Signal Processing),1999年3月,p.149−152
【非特許文献4】
南、阿久津、浜田及び外村,「音情報を用いた映像インデクシングとその応用」,電子情報通信学会論文誌D−II,1998年,第J81−D−II巻,第3号,p.529−537
【特許文献1】
特開平10−187182号公報
【0016】
【発明が解決しようとする課題】
しかしながら、上述した従来の技術において、零交差数、パワー変動、スペクトルセントロイドなどを特徴量として用いた識別手法は、どれも単独では識別に十分な特徴量ではなかった。
【0017】
また、スペクトルのピークの安定性に着目した識別手法は、打撃音などを除き効果的な特徴量であるものの、エッジ強度の時間方向及び周波数方向における単純な総和を識別に用いていたため、特定周波数における時間方向のピーク安定性を十分に表現できない場合があった。つまり、単に全時刻・全帯域での総和をとると、スペクトルピークが周波数方向に揺らいでいる場合やピークが断続している場合であっても、スペクトルが特定周波数に安定して持続している場合、すなわちスペクトログラムにおける時間方向の直線成分が存在する場合との区別がつかないことがあり、これにより識別誤りを起こす可能性があった。
【0018】
本発明は、このような従来の実情に鑑みて提案されたものであり、上述した従来技術の問題点を解決し、より高精度に音声・音楽を識別して検出する情報識別装置及びその方法、並びに情報識別処理をコンピュータに実行させるプログラム及びそのプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0019】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係る情報識別装置は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別装置において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算手段と、上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出手段と、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算手段と、上記パワー比計算手段によって求められたパワー比に基づいて、音声か音楽かを識別する識別手段とを備える。
【0020】
ここで、本情報識別装置は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割手段を備えていてもよく、この場合、上記水平直流成分抽出手段は、上記小ブロック毎に上記水平直流成分を抽出し、上記パワー比計算手段は、上記小ブロック毎に上記パワー比を求める。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算手段を備えることもでき、この場合、上記識別手段は、上記総合パワー比計算手段によって求められた総合パワー比に基づいて、音声か音楽かを識別する。
【0021】
このような情報識別装置は、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いる。
【0022】
また、上述した目的を達成するために、本発明に係る情報識別方法は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別方法において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出工程と、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程とを有する。
【0023】
ここで、本情報識別方法は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割工程を有していてもよく、この場合、上記成分抽出工程では、上記小ブロック毎に上記水平直流成分が抽出され、上記パワー比計算工程では、上記小ブロック毎に上記パワー比が求められる。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算工程を有してもよく、この場合、上記識別工程では、上記総合パワー比計算工程にて求められた総合パワー比に基づいて、音声か音楽かが識別される。
【0024】
このような情報識別方法は、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いる。
【0025】
また、本発明に係るプログラムは、上述した情報識別処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、そのようなプログラムが記録されたコンピュータ読み取り可能なものである。
【0026】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて、音声信号の所定時間区間毎に音声と音楽とを識別して検出する情報識別装置に適用したものである。
【0027】
以下では、本実施の形態における情報識別装置の構成及び動作を説明する前に、この情報識別装置における音声・音楽の識別手法の原理について説明する。
【0028】
先ず音楽の典型的なスペクトログラムの様子を図1(A)に示す。この図は抽象化して示しているが、実際のスペクトログラムは、スペクトルの大きさによって画素の輝度が異なる濃淡画像として得られる。打楽器のみの場合などに例外はあるが、多くの一般的な音楽では、図1(A)に示すように、スペクトログラムに水平方向、すなわち時間方向の直線成分が観察される。これは、音楽ではある周波数帯域のスペクトルピークが時間方向に安定して持続するためである。
【0029】
一方、音声の典型的なスペクトログラムの様子を図1(B)に示す。音楽の場合と異なり、音声ではスペクトログラムに水平直線成分が見られず、周波数方向に揺らいで波打っているのが観察される。これは、音声には調波構造(ハーモニクス構造)が見られるものの、周波数ピークが時間とともに揺らいで変動することを示している。また、音声では有声音と無声音とが交互に繰り返されるために、曲線の明確に現れる部分とそうでない部分とが存在する。
【0030】
したがって、スペクトログラムを画像と見なし、そのスペクトログラム画像における水平直線成分の有無、或いはその程度によって音声と音楽とを識別することができる。
【0031】
ここで、スペクトログラムを画像と見なした場合の2次元周波数領域を図2に示す。スペクトログラム画像を2次元スペクトルに変換した2次元周波数領域において、スペクトログラム画像における水平直線成分は、図2に斜線で示す領域LU付近、すなわち水平周波数uが0近傍である水平直流成分に集中する。
【0032】
なお、垂直直流成分(v=0)付近にも水平直線のスペクトル成分は存在するが、垂直方向に殆ど変化がない成分、すなわち直線とはいえない成分も含まれるため、v=0付近は領域LUから除いている。
【0033】
この領域LU内のスペクトルパワーがスペクトログラムにおける水平直線成分であることから、全領域のスペクトルパワーに対する領域LU内のスペクトルパワーの比が、スペクトログラムの水平直線成分の程度、すなわちスペクトルの時間方向のピーク持続性を表すことになり、これを特徴量として音声と音楽とを識別することができる。
【0034】
実際には、図3に示すように、スペクトログラム全体のうち、音声・音楽の識別に大きく寄与する領域ARを複数の小ブロック(小領域)SBに分割し、小ブロックSB毎に上述したパワー比を求めてから、全ての小ブロックSBにおける総合的なパワー比を求めるのが好ましい。このように小ブロックSBに分割して処理を行うことで、水平直線成分の検出精度が向上する。また、スペクトログラム全体のうち、音声・音楽の識別に大きく寄与する領域ARのみを処理の対象とすることで、識別の精度も向上する。
【0035】
以上説明した識別手法により音声・音楽を識別する本実施の形態における情報識別装置の概略構成を図4に示す。図4に示すように、情報識別装置1は、音声信号入力部10と、入力された音声信号のスペクトログラムを求めるスペクトログラム計算部11と、スペクトログラムを複数の小ブロックSBに分割するスペクトログラム分割部12と、分割されたスペクトログラムの小ブロックSBにおける水平直線周波数成分を抽出する水平直線周波数成分抽出部13と、小ブロックSBの水平直線成分の全成分に対するパワー比を求める水平直線パワー比計算部14と、全小ブロックSBの水平直線パワー比から総合水平直線成分パワー比を求める総合パワー比計算部15と、求めた総合水平直線成分パワー比を特徴量とし、入力音声信号の所定時間区間毎に音声か音楽かを識別する音声・音楽識別部16と、その識別結果を出力する識別結果出力部17とを備える。
【0036】
この情報識別装置1において、音声信号入力部10は、音声信号を入力し、これをスペクトログラム計算部11に供給する。スペクトログラム計算部11は、入力音声信号を所定のブロック毎に周波数分析して周波数スペクトルを計算し、さらに所定の識別時間毎に入力音声信号のスペクトログラムを求めて、スペクトログラムをスペクトログラム分割部12に供給する。そして、スペクトログラム分割部12は、スペクトログラム計算部11から供給されたスペクトログラムを後述するように複数の小ブロックSBに分割し、小ブロックSB毎のスペクトログラムを水平直線周波数成分抽出部13に供給する。
【0037】
水平直線周波数成分抽出部13は、スペクトログラムの小ブロックSB毎に、その小ブロックSBの水平直線成分に相当する周波数成分を取り出して、水平直線パワー比計算部14に供給する。そして、水平直線パワー比計算部14は、全周波数帯域成分に対する水平直線成分のパワー比を計算し、総合パワー比計算部15は、全ての小ブロックSBでの水平直線成分パワー比を評価して、総合水平直線成分パワー比を計算する。
【0038】
音声・音楽識別部16は、求められた総合水平直線成分パワー比を特徴量として用いて、閾値判定法やその他の統計的判別手法により入力音声信号の識別区間が音声であるか音楽であるかを識別し、識別結果を識別結果出力部17に供給する。そして、識別結果出力部17は、音声・音楽識別部16から供給された識別結果を出力する。
【0039】
この情報識別装置1の処理を図5のフローチャートを用いてさらに詳細に説明する。先ずステップS1において、入力音声信号の所定の識別時間内におけるスペクトログラムを求める。ここで、識別時間とは、入力音声信号において音声と音楽とを識別するための識別ブロック長であり、数秒程度以上が望ましい。具体的には、音声信号x(t)を入力し、所定の時間毎(例えば64ミリ秒)にブロック化して周波数分析を行い、スペクトルを求める。
【0040】
なお、周波数分析ブロックは、隣接ブロックと重複していてもよい。例えば、20ミリ秒ずつ重複させることができる。また、周波数スケールは、対数スケールやメルスケールなどであってもよい。
【0041】
そして、i番目の周波数分析ブロックにおける周波数帯域kのスペクトルをf(i,k)とする。横軸にi(時間方向)、縦軸にk(周波数方向)をとり、求めたスペクトルf(i,k)を2次元画像の輝度として表現したものがスペクトログラムである。
【0042】
次にステップS2において、スペクトログラムを図3に示したようにM個の小ブロックSBに分割する。この際、識別に寄与すると思われる部分のみを小ブロック化すればよい。本実施の形態では、時間方向にはスペクトログラム全体の時間幅(すなわち識別時間長)に亘って小ブロック化されているが、周波数方向には識別に重要な帯域(例えば、50Hz〜4kHz)のみが小ブロック化されており、それ以外の帯域を用いない。このように、識別に寄与すると思われる部分のみを小ブロック化することで、識別精度が向上する。ここで、小ブロックSBの大きさは、周波数方向にも時間方向にも適当な分解能となるように、例えば32×32とする。
【0043】
なお、小ブロックSBは、隣接ブロックと重複していてもよい。本実施の形態では、小ブロックSBは半分ずつ重複しているとする。
【0044】
このように分割した小ブロックSB毎に、後段で水平直線成分のパワー比が求められる。
【0045】
続いてステップS3において、ある小ブロックSBについて、2次元画像スペクトル上の領域LUの水平直線成分パワー比R(m)を求める。すなわち、上述のよう分割された小ブロックSB毎に、その小ブロックSB内のスペクトログラムを画像と見なし、2次元フーリエ変換や2次元フィルタなどによりスペクトログラム画像の2次元周波数における領域LUの成分を取り出し、全領域に対するパワー比を求める。
【0046】
ここで、領域LUの水平直線成分パワー比R(m)を求める方法には、2次元フーリエ変換によって該当領域のスペクトルから求める方法と、2次元デジタルフィルタを用いて領域LUの帯域成分のみを取り出す方法がある。フーリエ変換による方法では、先ず小ブロックSBにおけるスペクトログラム画像を2次元フーリエ変換し、得られた2次元パワースペクトルをF(u,v)とする。そして、領域LU内のスペクトルパワーの全帯域に対するパワー比を求める。すなわち、小ブロックSBにおける水平直線成分パワー比R(m)は、以下の式(3)により求められる。
【0047】
【数3】
Figure 2004125944
【0048】
一方、2次元フィルタを用いた場合は、小ブロックSBにおけるスペクトログラム画像に、領域LUのみ通過させるような2次元帯域通過フィルタを適用する。そして、フィルタ処理された信号のパワーと、フィルタ処理しない原信号のパワーとの比を求めれば水平直線成分パワー比R(m)が得られる。
【0049】
ステップS4では、全ての小ブロックSBの処理が終了したか否かが判別される。全ての小ブロックSBについて水平直線成分パワー比R(m)を求めた場合(Yes)にはステップS5に進み、そうでない場合(No)には、次の小ブロックSBについて同様にして水平直線成分パワー比R(m)を求める。
【0050】
ステップS5では、全ての小ブロックSBについての総合水平直線パワー比Rを求める。例えば、以下の式(4)に示すように、各小ブロックSBの水平直線成分パワー比R(m)の平均を総合水平直線パワー比Rとすることができる。ここで、式(4)において、mは小ブロックの番号を示し、Mは小ブロック数を示す。
【0051】
【数4】
Figure 2004125944
【0052】
なお、各小ブロックSBの水平直線成分パワー比R(m)の平均に限定されるものではなく、以下の式(5)に示すように、単純に各小ブロックSBの水平直線成分パワー比R(m)の総和を総合水平直線パワー比Rとしてもよい。
【0053】
【数5】
Figure 2004125944
【0054】
そしてステップS6では、総合水平直線成分パワー比Rを特徴量として用いて、音声・音楽の識別を行う。一般に、典型的な音楽ではスペクトルピークが持続するため、この総合水平直線成分パワー比Rは大きな値となり、音声では小さい値になる。識別の手法は本発明では限定しないが、最も単純な方法としては、総合水平直線成分パワー比Rを閾値Thと比較し、総合水平直線成分パワー比Rが閾値Th以上であれば音楽と判別し、閾値Th未満であれば音声と判別することが挙げられる。
【0055】
また、音声、音楽それぞれに対して総合水平直線成分パワー比Rの分布を正規分布モデルによって表現し、事後確率の大きい方に判別するといったベイズ決定則などの統計的判別法を用いてもよい。また、この総合水平直線成分パワー比Rを他の特徴量と組み合わせて総合的に判別してもよい。
【0056】
以上説明したように、本実施の形態における情報識別装置1によれば、入力音声信号のスペクトログラムにおける水平直線成分に相当する周波数成分を取り出し、その全体に対するパワー比を特徴量として用いているため、スペクトルにおける特定帯域のピーク持続性を効果的に表現することができ、音声・音楽を高精度に識別することができる。
【0057】
また、スペクトログラムを予め小ブロックSBに分割し、小ブロックSB毎に上述の水平直線成分パワー比R(m)を求めてから、全小ブロックSBにおける総合水平直線成分パワー比Rを求めているため、ピーク持続性の分析性能が向上する。
【0058】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【0059】
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
【0060】
【発明の効果】
以上詳細に説明したように本発明に係る情報識別装置は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別装置において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算手段と、上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出手段と、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算手段と、上記パワー比計算手段によって求められたパワー比に基づいて、音声か音楽かを識別する識別手段とを備える。
【0061】
ここで、本情報識別装置は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割手段を備えていてもよく、この場合、上記水平直流成分抽出手段は、上記小ブロック毎に上記水平直流成分を抽出し、上記パワー比計算手段は、上記小ブロック毎に上記パワー比を求める。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算手段を備えることもでき、この場合、上記識別手段は、上記総合パワー比計算手段によって求められた総合パワー比に基づいて、音声か音楽かを識別する。
【0062】
このような情報識別装置によれば、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いることで、スペクトルにおける特定帯域のピーク持続性を効果的に表現することができ、音声・音楽を高精度に識別することができる。
【0063】
また、本発明に係る情報識別方法は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別方法において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出工程と、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程とを有する。
【0064】
ここで、本情報識別方法は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割工程を有していてもよく、この場合、上記成分抽出工程では、上記小ブロック毎に上記水平直流成分が抽出され、上記パワー比計算工程では、上記小ブロック毎に上記パワー比が求められる。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算工程を有してもよく、この場合、上記識別工程では、上記総合パワー比計算工程にて求められた総合パワー比に基づいて、音声か音楽かが識別される。
【0065】
このような情報識別方法によれば、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いることで、スペクトルにおける特定帯域のピーク持続性を効果的に表現することができ、音声・音楽を高精度に識別することができる。
【0066】
また、本発明に係るプログラムは、上述した情報識別処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、そのようなプログラムが記録されたコンピュータ読み取り可能なものである。
【0067】
このようなプログラム及び記録媒体によれば、上述した情報識別処理をソフトウェアにより実現することができる。
【図面の簡単な説明】
【図1】スペクトログラムの典型例を概念的に説明する図であり、同図(A)は、音楽のスペクトログラムを示し、同図(B)は、音声のスペクトログラムを示す。
【図2】スペクトログラム画像を2次元スペクトルに変換した2次元周波数領域を示す図である。
【図3】スペクトログラム画像を複数の小ブロックに分割した様子を示す図である。
【図4】本実施の形態における情報識別装置の概略構成を説明する図である。
【図5】同情報識別装置の動作を説明するフローチャートである。
【符号の説明】
1 情報識別装置、10 音声信号入力部、11 スペクトログラム計算部、12 スペクトログラム分割部、13 水平直線周波数成分抽出部、14 水平直線パワー比計算部、15 総合パワー比計算部、16 音声・音楽識別部、17 識別結果出力部

Claims (10)

  1. 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別装置において、
    入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算手段と、
    上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出手段と、
    上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算手段と、
    上記パワー比計算手段によって求められたパワー比に基づいて、音声か音楽かを識別する識別手段と
    を備えることを特徴とする情報識別装置。
  2. 上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割手段を備え、
    上記水平直流成分抽出手段は、上記小ブロック毎に上記水平直流成分を抽出し、
    上記パワー比計算手段は、上記小ブロック毎に上記パワー比を求めること
    を特徴とする請求項1記載の情報識別装置。
  3. 上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算手段を備え、
    上記識別手段は、上記総合パワー比計算手段によって求められた総合パワー比に基づいて、音声か音楽かを識別すること
    を特徴とする請求項2記載の情報識別装置。
  4. 上記成分抽出手段は、上記スペクトログラムを2次元フーリエ変換して2次元スペクトルを求め、そのスペクトル領域において上記水平直流成分を抽出し、
    上記パワー比計算手段は、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めることで、上記パワー比を計算すること
    を特徴とする請求項1記載の情報識別装置。
  5. 上記成分抽出手段は、上記スペクトログラムに所定の2次元フィルタを適用して上記水平直流成分を抽出し、
    上記パワー比計算手段は、上記水平直流成分のパワーがフィルタ処理を施さない原信号の時間領域におけるパワーに占める割合を求めることで、上記パワー比を計算すること
    を特徴とする請求項1記載の情報識別装置。
  6. 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別方法において、
    入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、
    上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出工程と、
    上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、
    上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程と
    を有することを特徴とする情報識別方法。
  7. 上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割工程を有し、
    上記成分抽出工程では、上記小ブロック毎に上記水平直流成分が抽出され、
    上記パワー比計算工程では、上記小ブロック毎に上記パワー比が求められること
    を特徴とする請求項6記載の情報識別方法。
  8. 上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算工程を有し、
    上記識別工程では、上記総合パワー比計算工程にて求められた総合パワー比に基づいて、音声か音楽かが識別されること
    を特徴とする請求項7記載の情報識別方法。
  9. 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別処理をコンピュータに実行させるプログラムにおいて、
    入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、
    上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出工程と、
    上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、
    上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程と
    を有することを特徴とするプログラム。
  10. 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別処理をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体において、
    入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、
    上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出工程と、
    上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、
    上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程と
    を有することを特徴とするプログラムが記録された記録媒体。
JP2002286836A 2002-09-30 2002-09-30 情報識別装置及び方法、並びにプログラム及び記録媒体 Expired - Fee Related JP4099576B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002286836A JP4099576B2 (ja) 2002-09-30 2002-09-30 情報識別装置及び方法、並びにプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002286836A JP4099576B2 (ja) 2002-09-30 2002-09-30 情報識別装置及び方法、並びにプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2004125944A true JP2004125944A (ja) 2004-04-22
JP4099576B2 JP4099576B2 (ja) 2008-06-11

Family

ID=32279805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002286836A Expired - Fee Related JP4099576B2 (ja) 2002-09-30 2002-09-30 情報識別装置及び方法、並びにプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4099576B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006017940A (ja) * 2004-06-30 2006-01-19 Sony Corp 音響信号処理装置及び音声度合算出方法
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008310138A (ja) * 2007-06-15 2008-12-25 Toshiba Corp シーン分類装置
JP2009058970A (ja) * 2006-10-20 2009-03-19 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program
US7910820B2 (en) 2006-10-20 2011-03-22 Sony Corporation Information processing apparatus and method, program, and record medium
JP2012083746A (ja) * 2010-09-17 2012-04-26 Kinki Univ 音処理装置
WO2013030862A1 (ja) * 2011-08-26 2013-03-07 パイオニア株式会社 表示装置、表示方法、およびプログラム
JP2013068975A (ja) * 2013-01-21 2013-04-18 Yamaha Corp 楽曲処理装置、およびプログラム
JP2018206427A (ja) * 2013-09-06 2018-12-27 イマージョン コーポレーションImmersion Corporation スペクトログラムの視覚処理をして触覚効果を生成するためのシステム及び方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4552533B2 (ja) * 2004-06-30 2010-09-29 ソニー株式会社 音響信号処理装置及び音声度合算出方法
JP2006017940A (ja) * 2004-06-30 2006-01-19 Sony Corp 音響信号処理装置及び音声度合算出方法
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP4690973B2 (ja) * 2006-09-05 2011-06-01 日本電信電話株式会社 信号区間推定装置、方法、プログラム及びその記録媒体
JP2009058970A (ja) * 2006-10-20 2009-03-19 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7910820B2 (en) 2006-10-20 2011-03-22 Sony Corporation Information processing apparatus and method, program, and record medium
JP2008310138A (ja) * 2007-06-15 2008-12-25 Toshiba Corp シーン分類装置
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
US7864967B2 (en) 2008-12-24 2011-01-04 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and program for sound quality correction
JP2010152015A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 音質補正装置、音質補正方法及び音質補正用プログラム
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP2012083746A (ja) * 2010-09-17 2012-04-26 Kinki Univ 音処理装置
WO2013030862A1 (ja) * 2011-08-26 2013-03-07 パイオニア株式会社 表示装置、表示方法、およびプログラム
JPWO2013030862A1 (ja) * 2011-08-26 2015-03-23 パイオニア株式会社 表示装置、表示方法、およびプログラム
JP2013068975A (ja) * 2013-01-21 2013-04-18 Yamaha Corp 楽曲処理装置、およびプログラム
JP2018206427A (ja) * 2013-09-06 2018-12-27 イマージョン コーポレーションImmersion Corporation スペクトログラムの視覚処理をして触覚効果を生成するためのシステム及び方法

Also Published As

Publication number Publication date
JP4099576B2 (ja) 2008-06-11

Similar Documents

Publication Publication Date Title
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
US9830896B2 (en) Audio processing method and audio processing apparatus, and training method
Zhang et al. Heuristic approach for generic audio data segmentation and annotation
EP2560167B1 (en) Method and apparatus for performing song detection in audio signal
US20060140413A1 (en) Method and apparatus for classifying signals, method and apparatus for generating descriptors and method and apparatus for retrieving signals
US6881889B2 (en) Generating a music snippet
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP4348970B2 (ja) 情報検出装置及び方法、並びにプログラム
JP4099576B2 (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
Ghosal et al. Song/instrumental classification using spectrogram based contextual features
JP4201204B2 (ja) オーディオ情報分類装置
JP3607450B2 (ja) オーディオ情報分類装置
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
JPH10187182A (ja) 映像分類方法および装置
JP2008186033A (ja) オーディオ情報分類装置
Sengupta et al. Classification of male and female speech using perceptual features
Lee et al. Detecting music in ambient audio by long-window autocorrelation
JP2004102023A (ja) 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体
JP2002062892A (ja) 音響分類装置
Peiris et al. Musical genre classification of recorded songs based on music structure similarity
Peiris et al. Supervised learning approach for classification of Sri Lankan music based on music structure similarity
Zhang et al. A two phase method for general audio segmentation
Kos et al. On-line speech/music segmentation for broadcast news domain
Joshi et al. Extraction of feature vectors for analysis of musical instruments
Lin et al. A new approach for classification of generic audio data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080303

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees