JP4201204B2 - オーディオ情報分類装置 - Google Patents

オーディオ情報分類装置 Download PDF

Info

Publication number
JP4201204B2
JP4201204B2 JP2005153911A JP2005153911A JP4201204B2 JP 4201204 B2 JP4201204 B2 JP 4201204B2 JP 2005153911 A JP2005153911 A JP 2005153911A JP 2005153911 A JP2005153911 A JP 2005153911A JP 4201204 B2 JP4201204 B2 JP 4201204B2
Authority
JP
Japan
Prior art keywords
audio information
energy
music
noise
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2005153911A
Other languages
English (en)
Other versions
JP2005284308A (ja
Inventor
康之 中島
勝 菅野
暁夫 米山
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2005153911A priority Critical patent/JP4201204B2/ja
Publication of JP2005284308A publication Critical patent/JP2005284308A/ja
Application granted granted Critical
Publication of JP4201204B2 publication Critical patent/JP4201204B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明はオーディオ情報の分類装置に関し、特に符号化されていない元のままのオーディオ情報あるいは符号化されたオーディオ情報のいずれからも、簡単かつ高速に、音声区間と音楽区間、あるいは音声区間と音楽区間と雑音区間を分類できるオーディオ情報の分類装置に関する。
インターネットに代表されるように、分散したデータベースに、テキストのみならず音声や映像情報が蓄積される技術分野においては、マルチメディア情報を効果的にインデックスする方法が必要とされている。このうちオーディオ信号を分類する手法については、オーディオ信号を音楽や音声区間に分類することで、おおまかなインデックスが可能になる。例えば、E.ScheirerとM.Slaneyの"Construction and evaluation of a robust multifeature speech/music discriminator, Proceedings of IEEE ICASSP, pp.1331-1334, 1997ではオーディオ信号について4Hz 成分、フレーム間スペクトル差分、パルス検出の3つの特徴パラメータを利用してBayes 決定法などの識別関数により音声と音楽の判別を行っている。
図13は前記分類を行う手法の説明図である。オーディオ信号Aは4Hz帯域フィルタ21、周波数変換部22、およびサブバンド分割部23に入力する。4Hz帯域フィルタ21はオーディオ信号Aの4Hz成分を抽出し、4Hz帯域エネルギ演算部24に出力する。周波数変換部22はオーディオ信号Aをスペクトル分析し、フレーム間スペクトル差分演算部25に出力する。また、サブバンド分割部23でサブバンド分割されたオーディオ信号Aは、包絡線ピーク検出部26に出力される。
一般に、4Hz成分については、音声信号ではこの周波数成分が特に強く出現する特徴がある。フレーム間のスペクトル差分については、音楽のように変化の激しい場合に大きくなる特徴がある。さらに,パルス検出は入力信号を各周波数帯域(サブバンド)に分け包絡線のピークを検出する。音楽のようにリズムのあるオーディオ信号では全ての帯域において周期的にこのピークが現れる。
オーディオ情報識別部27は、前記の4Hz 成分、フレーム間スペクトル差分、パルス検出の3つの特徴パラメータを利用して、Bayes 決定法などの識別関数により音声と音楽の判別を行う。なお、入力してくるオーディオ信号が圧縮符号化されたオーディオ信号である場合には、図示されていない復号処理部で復号して、前記4Hz帯域フィルタ21、周波数変換部22およびサブバンド分割部23に送出する。
E.ScheirerとM.Slaneyの"Construction and evaluation of a robust multifeature speech/music discriminator, Proceedings of IEEE ICASSP, pp.1331-1334, 1997
しかしながら、前記の従来技術は、圧縮符号化されたオーディオ信号から音楽区間、音声区間を検出する場合には、一旦圧縮されたデータを復号してアナログのオーディオ信号Aに戻してから検出処理を行うことになり、処理時間も大幅に増加するという問題点がある。
また、雑音成分の除去についてはなんら触れておらず、雑音成分を除いた音声や音楽区間の判別ができないという問題がある。換言すれば、雑音成分も音声や音楽区間に含められてしまうという問題がある。
本発明の目的は、前記した従来技術の問題点に鑑み、符号化されていない元のままのオーディオ情報あるいは圧縮符号化されたオーディオ情報のいずれからも、簡単かつ高速に、無音/有音区間の判別、音楽区間と音声区間、あるいは音楽区間と音声区間と雑音区間に分類することを可能とするオーディオ情報分類装置を提供することにある。他の目的は、雑音区間を除去して、音楽区間、音声区間を検出することが可能なオーディオ情報分類装置を提供することにある。
前記した目的を達成するために、本発明は、オーディオ情報分類装置において、入力されたオーディオ情報から有音部のみを抽出する有音抽出手段と、前記オーディオ情報の有音区間において、該オーディオ情報のエネルギーを閾値を用いて2値化された数列の単位時間内の分散(以下、疎密度という)を求める2値化数列分散演算手段と前記オーディオ情報に対して、該疎密度が予め定められた値より大きい場合には音声、小さい場合には音楽である判定する音声/音楽区間判定手段とを具備した点に第1の特徴がある。
また、オーディオ情報の有音区間において、該オーディオ情報の単位時間におけるエネルギー重心の平均と分散とを求めるエネルギー重心平均、分散演算手段と、オーディオ情報の周波数成分の単位時間における疎密度と単位時間における周波数軸上のエネルギー重心の平均と該エネルギー重心の分散とを特徴ベクトルとしたBayes 決定則を用いて、テストデータに対して音声と音楽と雑音の共分散行列を求めておき、前記2値化数列分散演算手段およびエネルギー重心平均、分散演算手段によって求められた前記入力されたオーディオ情報の疎密度、エネルギー重心の平均および該エネルギー重心の分散に対して、前記Bayes 決定識別関数を用いて音声、音楽、雑音区間の判別を行う音声/音楽/雑音区間判別手段とを具備した点に第3の特徴がある。
さらに、オーディオ情報の周波数成分の単位時間における周波数軸上のエネルギー重心の平均と該エネルギー重心の分散とを特徴ベクトルとしたBayes 決定則を用いて、テストデータに対して雑音と雑音以外の共分散行列を求めておき、前記入力されたオーディオ情報のエネルギー重心の平均と該エネルギー重心の分散に対してBayes 決定識別関数を用いて雑音と雑音以外の区間の判別を行う雑音区間判別手段と、前記オーディオ情報の周波数成分の単位時間における疎密度を特徴ベクトルとしたBayes 決定則を用いて、テストデータに対して音声と音楽の共分散行列を求めておき、前記雑音区間判別手段で雑音以外と判別された区間において、前記入力されたオーディオ情報の疎密度に対してBayes 決定識別関数を用いて音声、音楽区間の判別を行う音声/音楽区間判別手段を具備した点に第4の特徴がある。
本発明によれば、符号化されていないもとのままのオーディオ情報、あるいは符号化されたオーディオ情報のいずれからも、簡単かつ高速に、音声区間、音楽区間、雑音区間を分類することが可能になる。
本発明によれば、圧縮符号化されたあるいは圧縮符号化されていないオーディオデータから、符号化データ上で、オーディオ情報を音楽/音声/雑音区間に分類することが可能である。
本発明を実際に動作させ、MPEG1 レイヤIIで符号化された15分間のテレビ番組を用いて1秒毎の分類を行ったところ、無音の判定は92%、音声区間の検出は99%、音楽区間は75%、雑音区間は74%程度検出することが可能になった。
以下に、図面を参照して、本発明を詳細に説明する。この実施形態は動画像および音声符号化の国際標準であるMPEG1(ISO/IEC 11172 )およびMPEG2(ISO/IEC 13818)により圧縮されたオーディオ符号化データを用いて音声、音楽、雑音区間を分類するものであるが、本発明はこれに限定されるものではない。
図1は本発明のオーディオ情報分類装置の一実施形態のブロック図を示す。また、図2は本実施形態の動作を説明するフローチャートである。
図1に示されているように、圧縮符号化されたオーディオ符号化データaは可変長復号部1に入力される。
ここで、圧縮符号化されたオーディオの符号化データ構造について、MPEG1 レイヤーIIを例にして図4を参照して説明する。MPEG1 では図示されているように、元のオーディオ信号pからサンプリングした512個のPCMサンプルをサブバンド符号化して、32個のサブバンドデータPi(n) (n=0,1,...,31) を作り、それを時間的にサンプルをずらしながら36回(i=0,1,...,35)繰り返して合計1152個のサブバンドデータを作り、この1152個のサブバンドデータを1フレームの符号化データQとしている。
前記した構造の符号化データQが前記可変長復号部1に連続して入力してくると、該可変長復号部1にはこれを各フレームのサブバンドデータに復号し、サブバンドデータサンプリング部2に出力する。いま、ある単位時間を1秒とすると、この1秒は図5のaのように38フレームから構成されているので、可変長復号部1は1秒分の符号化データに対し、同図のbのように38個の32サブバンド×36サンプルを出力する。
サブバンドデータサンプリング部2では、図5のcに示されているように、単位時間(例えば1秒)分のサブバンドデータのうち、各フレームiのj番目(j=0,1,...,35 は1フレーム内のサンプル数) にあるサブバンドデータSij(n)(i=0,1,...,37は単位時間内のフレーム数) を抽出し、図1のエネルギー分散演算部3およびメモリ5に入力する。該サブバンドデータサンプリング部2は、入力されたオーディオ情報から単位時間ごとの周波数データを抽出するオーディオ周波数データ抽出手段と呼ぶことができる。
以上の動作は、図2では、ステップS1〜S9で行われる。ステップS1では、フレーム番号を表すiが0と置かれ、ステップS2ではサブバンド番号を表すnが0と置かれる。ステップS3では、可変長復号部1にて符号化データが可変長復号され、ステップS4ではiフレーム目のjサンプル目のサブバンドデータSi,j(n)が抽出される。次に、ステップS5にてn=32が成立するか否かの判断がなされ、この判断が否定のときはステップS6に進んでnに1が加算される。そしてステップS3に戻って前記と同様の処理が行われる。以上のステップS3〜S6の処理が繰り返して行われて、ステップS5の判定が肯定となると、サブバンドデータサンプリング部2から、フレームi、サンプルjのサブバンドデータSi,j(n)が抽出されたことになる。
ステップS5の判断が肯定になるとステップS7に進み、iに1が加算される。次にステップ8に進み、i=Nf が成立するか否かの判断がなされる。ここで、Nf は単位時間内のフレーム数である。この判断が否定の場合はステップS2に戻り、再びn=0とされて、再度前記した処理が行われる。以上の処理が繰り返し行われ、ステップS8の判断が肯定になると、i=0〜(Nf −1)フレームの各j番目のサンプルのサブバンドデータSi,j(n)が抽出されたことになり、ステップS9にてこれらのサブバンドデータSi,j(n)は図1の各フレームのエネルギー分散演算部3およびメモリ5へ転送される。
エネルギー分散演算部3では、図6の(1)および(2)式に従って、単位時間当たりのエネルギー分散σ を計算し、有音判定部4に入力する。なお、(1)式で、Nf は単位時間内のフレーム数、Nj は1フレーム中のサンプル数で、例えばNj を1とした場合、フレーム中の先頭のサンプルのみを用いて計算することになり、処理の高速化を図ることが可能である。また、サブサンプルデータSi,j(n)でn=0とすると、低周波成分のみを用いてエネルギー分散σ を計算することになり、この場合、高周波成分までを含んだ場合と同等な結果が得られ、処理時間も高速化することが可能である。
有音判定部4では、入力された単位時間における音声情報が無音であるか有音であるかを下記の(3)式にしたがって判定し、条件に合う場合は有音であると判定する( ステップS11)。有音である場合は、無音である場合に比べて、単位時間のエネルギー分散が大きいから下記の(3)式が成立することになる。
σ >α (3)
ここに、αは予め定められた第1の閾値である。
該有音判定部4において、入力された単位時間のオーディオ情報が有音であると判断された場合には、メモリ5から該単位時間内の周波数データすなわちサブバンドデータSi,j(n)を読み出して、全サブバンドエネルギー和演算部7(図3のステップS12)とサブバンドエネルギー重心演算部11(ステップS16)に入力する。この機能は、オーディオ周波数データ抽出手段と呼ぶことができる。一方、無音であると判定された場合には、以降のオーディオ情報判定処理を終了し、ステップS1に戻る。
全サブバンドエネルギー和演算部7では、図6の(4)式に従って、全サブバンドのエネルギー和SE(i,j) を計算し、2値化演算部8(ステップ13)に入力する。SE(i,j) は32バンド分のSi,j(n)のエネルギーの累積和である。2値化演算部8では、図6の(5)式に従って、Th1を基にSE(i,j) を2値化して、数列NS(i,j) を計算する。Th1はあらかじめ定められた2値化のための閾値である。
音声と音楽の波形は図8のように、音声では断続した波形を持つのに対して、音楽では連続的な波形となる。これらの波形を2値化(正規化)すると、図8の右側の図から明らかなように、音の断続性がより明確になる。すなわち、有音区間における音の疎密度により音声であるか音楽であるかを判定できる。
2値化演算部8で得られた2値化数列NS(i,j) は2値化数列分散演算部9(図3のステップS14)に入力する。2値化数列分散演算部9では、2値化数列の単位時間内の分散σ を、図6の(6)式に従って計算し、オーディオ情報識別部10に入力する(ステップS15)。σ はNS(i,j) が0となるサンプル数の分散で、音声区間では断続性が強いため、該分散値は音楽区間に比べて大きくなる。この分散は、音の疎密度を表している。
図6の(6)式で、MはNS(i,j) が単位時間内に1から0に変化する数で、単位時間内の0連続区間の個数を表す。また、Nns(k) はNS(i,j) が0の場合の連続数で、音楽のようにリズムがある場合は時間的な変化は小さい。
サブバンドエネルギー重心演算部11(ステップS16)では、図7の(7)式に従って、フレームiにおけるサブバンド重心G(i) が計算され、エネルギー重心平均、分散演算部12(ステップS17)に入力する。(7)式で、サブバンドの重心はすべてのサブバンドnについて、各フレーム内のサンプルjについて計算されるが、エネルギー分散σ の場合と同様に、Nj =1としても重心値に大きな変化がなく、すべてのサンプルについて計算する場合よりも処理時間を削減することが可能である。
エネルギー重心平均、分散演算部12では、図7の(8)式および(9)式に従って単位時間内の分散σ とエネルギー重心の平均Eg が計算され、オーディオ情報識別部10(ステップS18)に入力する。図9は単位時間を1秒としたときのサブバンドエネルギー重心の平均と分散の分布例であるが、歓声などの雑音は、音楽や音声などの他の音源と異なって、ある一定の領域aに集中している。
オーディオ情報識別部10では、入力された2値化数列分散σ 、サブバンドエネルギー重心平均Eg および分散σ に対して、既知のBayes 決定ルールに基づいた正規分布の場合の識別関数(図7の(10)式)を用いて、雑音、音楽、音声の判別が行われる。ここで、クラスは雑音、音楽、音声の3つのクラスに分類する。また、入力ベクトルxは(σ 2,,Eg, σ )の要素で構成される。なお、(10)式におけるmk,ck,p( ωk)は、トレーニングデータを用いて、あらかじめ求めておくことができる。判定は、入力ベクトルに対して、最も大きなfk(x)を与えるクラスkが求める判別クラスとなり、結果を出力する。すなわち、トレーニングにより予め求められた各クラス(雑音、音楽、音声)のデータmk,ck,p( ωk)を(10)式に代入し、これに前記(6)(9)(8)式で求められた入力ベクトルx(σ 2,,Eg, σ )を入れて、各クラスの識別値fk(x)を求める。そして、該識別値fk(x)の一番大きいクラスが雑音であれば雑音、音声であれば音声、音楽であれば音楽と判定する。なお、オーディオ情報識別部10は、K近傍決定則,ゆう度検定,K−平均法,K−決定木法などのような前記(10)式以外の他の式を用いてクラスの判別をするようにしても良い。
次に、本発明の第2の実施形態について、図10を参照して説明する。図10において、図1と同一または同等物には同じ符号が付されている。図10の可変長復号部1〜有音判定部4の動作(図2のステップS1〜S11)は前記第1実施形態と同じであるので、説明を省略し、サブバンドエネルギー重心演算部11以降の動作を、図11を参照して説明する。
有音判定部4において、入力された単位時間のオーディオ情報が有音であると判断された場合には、メモリ5から単位時間内のサブバンドデータSi,j(n)を読み出してサブバンドエネルギー重心演算部11に入力する。一方、無音であると判定された場合には、以降のオーディオ情報判定処理を終了し、ステップS1に戻る。
サブバンドエネルギー重心演算部11(ステップS16)では、図7の(7)式に従って、フレームiにおけるサブバンド重心G(i) が計算され、エネルギー重心平均、分散演算部12(ステップS17)に入力する。(7)式で、サブバンドの重心は全てのサブバンドnについて、各フレーム内のサンプルjについて計算されるが、エネルギー分散σ の場合と同様に、Nj =1としても重心値に大きく変化がなく、すべてのサンプルについて計算する場合よりも処理時間を削減することが可能である。
エネルギー重心平均、分散演算部12では(8)式および(9)式に従って単位時間内の分散σ とエネルギー重心の平均Eg が計算され、雑音識別部13(ステップS18)に入力する。
雑音識別部13では、入力されたサブバンドエネルギー重心平均Egおよび分散σ に対してBayes 決定ルールに基づいた正規分布の場合の識別関数(10)式を用いて、雑音か否かの判別が行われる。ここで、クラスは雑音と雑音外の2つに分類する。また、入力ベクトルxは(Eg, σ )の要素で構成される。(10)式におけるmk,ck,p( ωk)は、トレーニングデータを用いて予め求めておくことができる。判定は、入力ベクトルに対して、最も大きなfk(x)を与えるクラスkが求める判別クラスとなり、結果を出力する。
ここで、雑音と判定された場合(ステップS30が肯定)は、雑音である旨の結果を出力後、最終データでない限り(ステップS23が否定)、次のデータ入力を行う。また、雑音外と判定された場合(ステップS30が否定)は、次の処理(ステップ12)へ進み、音楽か音声の判定を行う。
音楽か音声の判定処理に進むと、メモリ5から全サブバンドエネルギー和演算部7にSi,j(n)が入力され、全サブバンドエネルギー和演算部7では、図6の(4)式に従って、全サブバンドのエネルギー和SE(i,j) を計算し、2値化演算部8(ステップ13)に入力する。SE(i,j) は32バンド分のSi,j(n)のエネルギーの累積和である。2値化演算部8では、図6の(5)式に従って、SE(i,j) を2値化して、数列NS(i,j) を計算する。Th1は予め定められた2値化のための閾値である。
2値化演算部8で得られた2値化数列NS(i,j) は2値化数列分散演算部9(ステップ14)に入力する。2値化数列分散演算部9では、2値化数列の単位時間内の分散σ を図6の(6)式にしたがって計算し、音楽音声識別部14に入力する(ステップ15)。σ はNS(i,j) が0となるサンプル数の分散で、音声区間では断続性が強いため、該分散値は音楽区間に比べて大きくなる。
音楽音声識別部14では、入力された2値化数列分散σ に対してBayes 決定ルールに基づいた正規分布の場合の識別関数(10)式を用いて、音楽、音声の判別が行われる。ここで、クラスは音楽、音声の2つのクラスに分類する。また、入力ベクトルxは(σ )の要素で構成される。さらに、(10)式におけるmk,ck,p( ωk)は、トレーニングデータを用いて、予め求めておくことができる。判定は、入力ベクトルに対して、最も大きなfk(x)を与えるクラスkが求める判別クラスとなり、結果を出力する。
以上のように、前記第1、第2実施形態によれば、圧縮符号化されたオーディオの符号化データから無音/有音を判別し、有音の場合、音楽区間、音声区間、雑音区間を区別し、それぞれのタイムコードを図示されていない音声区間保持部、音楽区間保持部、雑音区間保持部のそれぞれに記録させることができる。
さらに、本発明は圧縮されていないオーディオ情報の分類に関しても適用できる。その場合の実施形態を以下に説明する。
圧縮符号化されていないオーディオ情報を扱う場合は、図1の可変長復号部1およびサブバンドデータサブサンプリング部2は高速フーリエ変換部(以下FFT変換部)に置き換えられる。元のオーディオ情報からこのFFT変換部において、図12にあるようなFFT変換を行い、単位時間分の周波数データを抽出する。今、該単位時間を1秒とすると、元のオーディオ信号pからサンプリングした2048個のサンプルをFFT変換し、それを時間的にサンプルをずらしながら38回繰り返して合計2048×38個のFFTデータを単位時間分の周波数データとしている。
その後、各フレームのエネルギー分散、エネルギー重心演算の平均および分散、エネルギー和の2値化後の数列分散を計算して、無音/有音、音楽、音声、雑音の判定を行う。
以上の説明から明らかなように、本発明によれば、圧縮符号化されたあるいは圧縮符号化されていないオーディオデータから、符号化データ上で、オーディオ情報を有音/無音、音楽/音声/雑音区間に分類することが可能である。
本発明を実際に動作させ、MPEG1 レイヤIIで符号化された15分間のテレビ番組を用いて1秒毎の分類を行ったところ、無音の判定は92%、音声区間の検出は99%、音楽区間は75%、雑音区間は74%程度検出することが可能になった。
本発明の一実施形態の構成を示すブロック図である。 本実施形態の動作を示すフローチャートである。 図2の続きのフローチャートである。 MPEGオーディオ符号化データの構造を説明するための図である。 図1のザブバンドデータサブサンプリング部の動作を説明するための図である。 本実施形態で使用される数式を表す図である。 本実施形態で使用される数式を表す図である。 音声および音楽の正規化前および正規化後の波形図である。 雑音のサブバンド重心の平均を表す図である。 本発明の第2実施形態の構成を示すブロック図である。 第2実施形態の要部の動作を示すフローチャートである。 符号化されていないオーディオ情報の周波数データの抽出方法を説明するための図である。 従来のオーディオ情報分類装置の構成を示すブロック図である。
符号の説明
1…可変長復号部、2…ザブバンドデータサブサンプリング部、3…エネルギー分散演算部、4…有音判定部、5…メモリ、6…制御部、7…全サブバンドエネルギー和演算部、8…2値化演算部、9…2値化数列分散演算部、10…オーディオ情報識別部、11…サブバンドエネルギー重心演算部、12…エネルギー重心平均・分散演算部、13…雑音識別部、14…音楽音声識別部。

Claims (3)

  1. オーディオ情報分類装置において、
    入力されたオーディオ情報から有音部のみを抽出する有音抽出手段と、
    前記オーディオ情報の有音区間において、該オーディオ情報のエネルギーを閾値を用いて2値化された数列の単位時間内の分散(以下、疎密度という)を求める2値化数列分散演算手段と、
    前記オーディオ情報に対して、該疎密度が予め定められた値より大きい場合には音声、小さい場合には音楽であると判定する音声/音楽区間判定手段とを具備することを特徴とするオーディオ情報分類装置。
  2. オーディオ情報分類装置において、
    入力されたオーディオ情報から有音部のみを抽出する有音抽出手段と、
    前記オーディオ情報の有音区間において、該オーディオ情報のエネルギーを閾値を用いて2値化された数列の単位時間内の分散(以下、疎密度という)を求める2値化数列分散演算手段と、
    前記オーディオ情報の有音区間において、該オーディオ情報の単位時間におけるエネルギー重心の平均と分散とを求めるエネルギー重心平均、分散演算手段と、
    オーディオ情報の周波数成分の単位時間における疎密度と単位時間における周波数軸上のエネルギー重心の平均と該エネルギー重心の分散とを特徴ベクトルとしたBayes 決定則を用いて、テストデータに対して音声と音楽と雑音の共分散行列を求めておき、前記2値化数列分散演算手段およびエネルギー重心平均、分散演算手段によって求められた前記入力されたオーディオ情報の疎密度、エネルギー重心の平均および該エネルギー重心の分散に対して、前記Bayes 決定識別関数を用いて音声、音楽、雑音区間の判別を行う音声/音楽/雑音区間判別手段とを具備することを特徴とするオーディオ情報分類装置。
  3. オーディオ情報分類装置において、
    入力されたオーディオ情報から有音部のみを抽出する有音抽出手段と、
    前記オーディオ情報の有音区間において、該オーディオ情報のエネルギーを閾値を用いて2値化された数列の単位時間内の分散(以下、疎密度という)を求める2値化数列分散演算手段と、
    前記オーディオ情報の有音区間において、該オーディオ情報の単位時間におけるエネルギー重心の平均と分散とを求めるエネルギー重心平均、分散演算手段と、
    オーディオ情報の周波数成分の単位時間における周波数軸上のエネルギー重心の平均と該エネルギー重心の分散とを特徴ベクトルとしたBayes 決定則を用いて、テストデータに対して雑音と雑音以外の共分散行列を求めておき、前記入力されたオーディオ情報のエネルギー重心の平均と該エネルギー重心の分散に対してBayes 決定識別関数を用いて雑音と雑音以外の区間の判別を行う雑音区間判別手段と、
    前記オーディオ情報の周波数成分の単位時間における疎密度を特徴ベクトルとしたBayes 決定則を用いて、テストデータに対して音声と音楽の共分散行列を求めておき、前記雑音区間判別手段で雑音以外と判別された区間において、前記入力されたオーディオ情報の疎密度に対してBayes 決定識別関数を用いて音声、音楽区間の判別を行う音声/音楽区間判別手段を具備することを特徴とするオーディオ情報分類装置。
JP2005153911A 2005-05-26 2005-05-26 オーディオ情報分類装置 Expired - Lifetime JP4201204B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005153911A JP4201204B2 (ja) 2005-05-26 2005-05-26 オーディオ情報分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005153911A JP4201204B2 (ja) 2005-05-26 2005-05-26 オーディオ情報分類装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10235543A Division JP2000066691A (ja) 1998-08-21 1998-08-21 オーディオ情報分類装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008117035A Division JP4392805B2 (ja) 2008-04-28 2008-04-28 オーディオ情報分類装置

Publications (2)

Publication Number Publication Date
JP2005284308A JP2005284308A (ja) 2005-10-13
JP4201204B2 true JP4201204B2 (ja) 2008-12-24

Family

ID=35182673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005153911A Expired - Lifetime JP4201204B2 (ja) 2005-05-26 2005-05-26 オーディオ情報分類装置

Country Status (1)

Country Link
JP (1) JP4201204B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4442585B2 (ja) 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP2008076776A (ja) * 2006-09-21 2008-04-03 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
JP4864847B2 (ja) * 2007-09-27 2012-02-01 株式会社東芝 音楽検出装置および音楽検出方法
KR101448633B1 (ko) * 2008-01-31 2014-10-08 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
JP2005284308A (ja) 2005-10-13

Similar Documents

Publication Publication Date Title
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
JP2000066691A (ja) オーディオ情報分類装置
KR100763899B1 (ko) 앵커 샷 검출 방법 및 장치
US20140067388A1 (en) Robust voice activity detection in adverse environments
CN100530354C (zh) 信息检测装置、方法和程序
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
JP4201204B2 (ja) オーディオ情報分類装置
CN102714034B (zh) 信号处理的方法、装置和系统
WO2007023660A1 (ja) 音識別装置
Jiang et al. Video segmentation with the support of audio segmentation and classification
US7747435B2 (en) Information retrieving method and apparatus
JP4392805B2 (ja) オーディオ情報分類装置
Kumar et al. Intelligent Audio Signal Processing for Detecting Rainforest Species Using Deep Learning.
Alimi et al. Voice activity detection: Fusion of time and frequency domain features with a svm classifier
JP3607450B2 (ja) オーディオ情報分類装置
Chandra et al. Usable speech detection using the modified spectral autocorrelation peak to valley ratio using the LPC residual
JP2004125944A (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
JP2003524218A (ja) Tesparパラメータでトレーニングされたhmmを用いる発話処理
Velayatipour et al. A review on speech-music discrimination methods
JP4497485B2 (ja) オーディオ情報分類装置
Gubka et al. A comparison of audio features for elementary sound based audio classification
Pasad et al. Voice activity detection for children's read speech recognition in noisy conditions
AU2005252714B2 (en) Effective audio segmentation and classification
CN118197357A (zh) 角色判定模型的构建方法、角色判定方法及电子设备
Punnoose A Novel Method for Microphone Independent Speech Activity Detection

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081001

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081002

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141017

Year of fee payment: 6

EXPY Cancellation because of completion of term