JP2000066691A - オーディオ情報分類装置 - Google Patents
オーディオ情報分類装置Info
- Publication number
- JP2000066691A JP2000066691A JP10235543A JP23554398A JP2000066691A JP 2000066691 A JP2000066691 A JP 2000066691A JP 10235543 A JP10235543 A JP 10235543A JP 23554398 A JP23554398 A JP 23554398A JP 2000066691 A JP2000066691 A JP 2000066691A
- Authority
- JP
- Japan
- Prior art keywords
- audio information
- music
- section
- noise
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
楽区間と音声区間、あるいは音楽区間と音声区間と雑音
区間に分類することを可能とするオーディオ情報分類装
置を提供することにある。 【解決手段】 有音判定部4はエネルギー分散演算部3
で求められた値σe 2 が閾値より大きい時有音と判定
する。有音と判定されると、メモリ5に格納されていた
オーディオ情報が読み出されて、全サブバンドエネルギ
ー和演算部7とサブバンドエネルギー重心演算部11に
入力される。前記演算部7の出力は2値化演算部8で2
値化され、2値化数列分散演算部9で2値化数列の単位
時間内の分散σs 2 が求められる。一方、エネルギ
ー重心平均・分散演算部12はエネルギー重心平均Eg
と分散σg 2 を求める。オーディオ情報識別部10
は、前記分散σs 2 、エネルギー重心平均Eg 、お
よび分散σg 2 に対して識別関数を用いて、雑音、
音楽、音声の判別を行う。
Description
類装置に関し、特に符号化されていない元のままのオー
ディオ情報あるいは符号化されたオーディオ情報のいず
れからも、簡単かつ高速に、音声区間と音楽区間、ある
いは音声区間と音楽区間と雑音区間を分類できるオーデ
ィオ情報の分類装置に関する。
散したデータベースに、テキストのみならず音声や映像
情報が蓄積される技術分野においては、マルチメディア
情報を効果的にインデックスする方法が必要とされてい
る。このうちオーディオ信号を分類する手法について
は、オーディオ信号を音楽や音声区間に分類すること
で、おおまかなインデックスが可能になる。例えば、E.
ScheirerとM.Slaneyの"Construction and evaluation o
f a robust multifeature speech/music discriminato
r, Proceedings of IEEE ICASSP, pp.1331-1334, 1997
ではオーディオ信号について4Hz 成分、フレーム間ス
ペクトル差分、パルス検出の3つの特徴パラメータを利
用してBayes 決定法などの識別関数により音声と音楽の
判別を行っている。
る。オーディオ信号Aは4Hz帯域フィルタ21、周波
数変換部22、およびサブバンド分割部23に入力す
る。4Hz帯域フィルタ21はオーディオ信号Aの4H
z成分を抽出し、4Hz帯域エネルギ演算部24に出力
する。周波数変換部22はオーディオ信号Aをスペクト
ル分析し、フレーム間スペクトル差分演算部25に出力
する。また、サブバンド分割部23でサブバンド分割さ
れたオーディオ信号Aは、包絡線ピーク検出部26に出
力される。
ではこの周波数成分が特に強く出現する特徴がある。フ
レーム間のスペクトル差分については、音楽のように変
化の激しい場合に大きくなる特徴がある。さらに,パル
ス検出は入力信号を各周波数帯域(サブバンド)に分け
包絡線のピークを検出する。音楽のようにリズムのある
オーディオ信号では全ての帯域において周期的にこのピ
ークが現れる。
z 成分、フレーム間スペクトル差分、パルス検出の3つ
の特徴パラメータを利用して、Bayes 決定法などの識別
関数により音声と音楽の判別を行う。なお、入力してく
るオーディオ信号が圧縮符号化されたオーディオ信号で
ある場合には、図示されていない復号処理部で復号し
て、前記4Hz帯域フィルタ21、周波数変換部22お
よびサブバンド分割部23に送出する。
従来技術は、圧縮符号化されたオーディオ信号から音楽
区間、音声区間を検出する場合には、一旦圧縮されたデ
ータを復号してアナログのオーディオ信号Aに戻してか
ら検出処理を行うことになり、処理時間も大幅に増加す
るという問題点がある。
れておらず、雑音成分を除いた音声や音楽区間の判別が
できないという問題がある。換言すれば、雑音成分も音
声や音楽区間に含められてしまうという問題がある。
点に鑑み、符号化されていない元のままのオーディオ情
報あるいは圧縮符号化されたオーディオ情報のいずれか
らも、簡単かつ高速に、無音/有音区間の判別、音楽区
間と音声区間、あるいは音楽区間と音声区間と雑音区間
に分類することを可能とするオーディオ情報分類装置を
提供することにある。他の目的は、雑音区間を除去し
て、音楽区間、音声区間を検出することが可能なオーデ
ィオ情報分類装置を提供することにある。
ために、本発明は、入力されたオーディオ情報から単位
時間ごとの周波数データを抽出するオーディオ周波数デ
ータ抽出手段と、抽出した単位時間ごとの周波数データ
のエネルギーの分散を求め、分散値の大きさにより無音
/有音区間を判定する無音/有音判定手段とを具備した
点に第1の特徴がある。
部のみを抽出する有音抽出手段と、有音区間における音
の疎密度により音声であるか音楽であるかを判定する音
声/音楽区間判定手段とを具備した点に第2の特徴があ
る。
部のみを抽出する有音抽出手段と、入力されたオーディ
オ情報から単位時間ごとの周波数データを抽出するオー
ディオ周波数データ抽出手段と、オーディオ周波数デー
タから単位時間における周波数の重心の平均と重心の標
準偏差を求め、周波数の重心の分布により雑音区間か否
かを判別する雑音区間抽出手段を具備した点に第3の特
徴がある。
間における疎密度および単位時間における周波数の重心
の平均と重心の標準偏差を特徴ベクトルとしたBayes 決
定則を用いて、テストデータに対して音声と音楽と雑音
の共分散行列を求めておき、入力データに対して正規分
布パターンにおけるBayes 決定識別関数を用いて音声、
音楽、雑音区間の判別を行う音声/音楽/雑音区間判別
手段を具備した点に第4の特徴がある。
間における周波数の重心の平均と重心の標準偏差を特徴
ベクトルとしたBayes 決定則を用いて、テストデータに
対して雑音と雑音以外の共分散行列を求めておき、入力
データに対して正規分布パターンにおけるBayes 決定識
別関数を用いて雑音と雑音以外の区間の判別を行うこと
を特徴とする雑音区間判別手段と、オーディオ周波数デ
ータの単位時間における疎密度を特徴ベクトルとしたBa
yes 決定則を用いて、テストデータに対して音声と音楽
の共分散行列を求めておき、前記、雑音区間判別手段で
雑音以外と判別された区間に対して、正規分布パターン
におけるBayes 決定識別関数を用いて音声、音楽、雑音
区間の判別を行うことを特徴とする音声/音楽区間判別
手段を具備した点に第5の特徴がある。
のままのオーディオ情報、あるいは符号化されたオーデ
ィオ情報のいずれからも、簡単かつ高速に、無音/有音
区間の判別、あるいは音声区間、音楽区間、雑音区間を
分類することが可能になる。
を詳細に説明する。この実施形態は動画像および音声符
号化の国際標準であるMPEG1(ISO/IEC 11172 )および
MPEG2(ISO/IEC 13818)により圧縮されたオーディオ符号
化データを用いて音声、音楽、雑音区間を分類するもの
であるが、本発明はこれに限定されるものではない。図
1は本発明のオーディオ情報分類装置の一実施形態のブ
ロック図を示す。また、図2は本実施形態の動作を説明
するフローチャートである。
れたオーディオ符号化データaは可変長復号部1に入力
される。ここで、圧縮符号化されたオーディオの符号化
データ構造について、MPEG1 レイヤーIIを例にして図4
を参照して説明する。MPEG1 では図示されているよう
に、元のオーディオ信号pからサンプリングした512
個のPCMサンプルをサブバンド符号化して、32個の
サブバンドデータPi(n) (n=0,1,...,31) を作り、それ
を時間的にサンプルをずらしながら36回(i=0,1,...,3
5)繰り返して合計1152個のサブバンドデータを作
り、この1152個のサブバンドデータを1フレームの
符号化データQとしている。
長復号部1に連続して入力してくると、該可変長復号部
1にはこれを各フレームのサブバンドデータに復号し、
サブバンドデータサンプリング部2に出力する。いま、
ある単位時間を1秒とすると、この1秒は図5のaのよ
うに38フレームから構成されているので、可変長復号
部1は1秒分の符号化データに対し、同図のbのように
38個の32サブバンド×36サンプルを出力する。
図5のcに示されているように、単位時間(例えば1
秒)分のサブバンドデータのうち、各フレームiのj番
目(j=0,1,...,35 は1フレーム内のサンプル数) にある
サブバンドデータSij(n)(i=0,1,...,37は単位時間内の
フレーム数) を抽出し、図1のエネルギー分散演算部3
およびメモリ5に入力する。該サブバンドデータサンプ
リング部2は、入力されたオーディオ情報から単位時間
ごとの周波数データを抽出するオーディオ周波数データ
抽出手段と呼ぶことができる。
S9で行われる。ステップS1では、フレーム番号を表
すiが0と置かれ、ステップS2ではサブバンド番号を
表すnが0と置かれる。ステップS3では、可変長復号
部1にて符号化データが可変長復号され、ステップS4
ではiフレーム目のjサンプル目のサブバンドデータS
i,j(n)が抽出される。次に、ステップS5にてn=32
が成立するか否かの判断がなされ、この判断が否定のと
きはステップS6に進んでnに1が加算される。そして
ステップS3に戻って前記と同様の処理が行われる。以
上のステップS3〜S6の処理が繰り返して行われて、
ステップS5の判定が肯定となると、サブバンドデータ
サンプリング部2から、フレームi、サンプルjのサブ
バンドデータSi,j(n)が抽出されたことになる。
プS7に進み、iに1が加算される。次にステップ8に
進み、i=Nf が成立するか否かの判断がなされる。こ
こで、Nf は単位時間内のフレーム数である。この判断
が否定の場合はステップS2に戻り、再びn=0とされ
て、再度前記した処理が行われる。以上の処理が繰り返
し行われ、ステップS8の判断が肯定になると、i=0
〜(Nf −1)フレームの各j番目のサンプルのサブバ
ンドデータSi,j(n)が抽出されたことになり、ステップ
S9にてこれらのサブバンドデータSi,j(n)は図1の各
フレームのエネルギー分散演算部3およびメモリ5へ転
送される。
(1)および(2)式に従って、単位時間当たりのエネ
ルギー分散σe 2 を計算し、有音判定部4に入力す
る。なお、(1)式で、Nf は単位時間内のフレーム
数、Nj は1フレーム中のサンプル数で、例えばNj を
1とした場合、フレーム中の先頭のサンプルのみを用い
て計算することになり、処理の高速化を図ることが可能
である。また、サブサンプルデータSi,j(n)でn=0と
すると、低周波成分のみを用いてエネルギー分散σe
2 を計算することになり、この場合、高周波成分まで
を含んだ場合と同等な結果が得られ、処理時間も高速化
することが可能である。
おける音声情報が無音であるか有音であるかを下記の
(3)式にしたがって判定し、条件に合う場合は有音で
あると判定する( ステップS11)。有音である場合
は、無音である場合に比べて、単位時間のエネルギー分
散が大きいから下記の(3)式が成立することになる。 σe 2 >α (3) ここに、αは予め定められた第1の閾値である。
時間のオーディオ情報が有音であると判断された場合に
は、メモリ5から該単位時間内の周波数データすなわち
サブバンドデータSi,j(n)を読み出して、全サブバンド
エネルギー和演算部7(図3のステップS12)とサブ
バンドエネルギー重心演算部11(ステップS16)に
入力する。この機能は、オーディオ周波数データ抽出手
段と呼ぶことができる。一方、無音であると判定された
場合には、以降のオーディオ情報判定処理を終了し、ス
テップS1に戻る。
図6の(4)式に従って、全サブバンドのエネルギー和
SE(i,j) を計算し、2値化演算部8(ステップ13)
に入力する。SE(i,j) は32バンド分のSi,j(n)のエ
ネルギーの累積和である。2値化演算部8では、図6の
(5)式に従って、Th1を基にSE(i,j) を2値化し
て、数列NS(i,j) を計算する。Th1はあらかじめ定め
られた2値化のための閾値である。
は断続した波形を持つのに対して、音楽では連続的な波
形となる。これらの波形を2値化(正規化)すると、図
8の右側の図から明らかなように、音の断続性がより明
確になる。すなわち、有音区間における音の疎密度によ
り音声であるか音楽であるかを判定できる。
(i,j) は2値化数列分散演算部9(図3のステップS1
4)に入力する。2値化数列分散演算部9では、2値化
数列の単位時間内の分散σs 2 を、図6の(6)式
に従って計算し、オーディオ情報識別部10に入力する
(ステップS15)。σs 2 はNS(i,j) が0とな
るサンプル数の分散で、音声区間では断続性が強いた
め、該分散値は音楽区間に比べて大きくなる。この分散
は、音の疎密度を表している。
時間内に1から0に変化する数で、単位時間内の0連続
区間の個数を表す。また、Nns(k) はNS(i,j) が0の
場合の連続数で、音楽のようにリズムがある場合は時間
的な変化は小さい。
テップS16)では、図7の(7)式に従って、フレー
ムiにおけるサブバンド重心G(i) が計算され、エネル
ギー重心平均、分散演算部12(ステップS17)に入
力する。(7)式で、サブバンドの重心はすべてのサブ
バンドnについて、各フレーム内のサンプルjについて
計算されるが、エネルギー分散σe 2 の場合と同様
に、Nj =1としても重心値に大きな変化がなく、すべ
てのサンプルについて計算する場合よりも処理時間を削
減することが可能である。
は、図7の(8)式および(9)式に従って単位時間内
の分散σg 2 とエネルギー重心の平均Eg が計算さ
れ、オーディオ情報識別部10(ステップS18)に入
力する。図9は単位時間を1秒としたときのサブバンド
エネルギー重心の平均と分散の分布例であるが、歓声な
どの雑音は、音楽や音声などの他の音源と異なって、あ
る一定の領域aに集中している。
た2値化数列分散σs 2 、サブバンドエネルギー重
心平均Eg および分散σg 2 に対して、既知のBaye
s 決定ルールに基づいた正規分布の場合の識別関数(図
7の(10)式)を用いて、雑音、音楽、音声の判別が
行われる。ここで、クラスは雑音、音楽、音声の3つの
クラスに分類する。また、入力ベクトルxは(σs
2,,Eg, σg 2 )の要素で構成される。なお、
(10)式におけるmk,ck,p( ωk)は、トレーニング
データを用いて、あらかじめ求めておくことができる。
判定は、入力ベクトルに対して、最も大きなfk(x)を与
えるクラスkが求める判別クラスとなり、結果を出力す
る。すなわち、トレーニングにより予め求められた各ク
ラス(雑音、音楽、音声)のデータmk,ck,p( ωk)を
(10)式に代入し、これに前記(6)(9)(8)式
で求められた入力ベクトルx(σs 2,,Eg, σg
2 )を入れて、各クラスの識別値fk(x)を求める。そ
して、該識別値fk(x)の一番大きいクラスが雑音であれ
ば雑音、音声であれば音声、音楽であれば音楽と判定す
る。なお、オーディオ情報識別部10は、K近傍決定
則,ゆう度検定,K−平均法,K−決定木法などのよう
な前記(10)式以外の他の式を用いてクラスの判別を
するようにしても良い。
図10を参照して説明する。図10において、図1と同
一または同等物には同じ符号が付されている。図10の
可変長復号部1〜有音判定部4の動作(図2のステップ
S1〜S11)は前記第1実施形態と同じであるので、
説明を省略し、サブバンドエネルギー重心演算部11以
降の動作を、図11を参照して説明する。
間のオーディオ情報が有音であると判断された場合に
は、メモリ5から単位時間内のサブバンドデータSi,j
(n)を読み出してサブバンドエネルギー重心演算部11
に入力する。一方、無音であると判定された場合には、
以降のオーディオ情報判定処理を終了し、ステップS1
に戻る。
テップS16)では、図7の(7)式に従って、フレー
ムiにおけるサブバンド重心G(i) が計算され、エネル
ギー重心平均、分散演算部12(ステップS17)に入
力する。(7)式で、サブバンドの重心は全てのサブバ
ンドnについて、各フレーム内のサンプルjについて計
算されるが、エネルギー分散σe 2 の場合と同様
に、Nj =1としても重心値に大きく変化がなく、すべ
てのサンプルについて計算する場合よりも処理時間を削
減することが可能である。
(8)式および(9)式に従って単位時間内の分散σ
g 2 とエネルギー重心の平均Eg が計算され、雑音
識別部13(ステップS18)に入力する。
ドエネルギー重心平均Egおよび分散σg 2 に対して
Bayes 決定ルールに基づいた正規分布の場合の識別関数
(10)式を用いて、雑音か否かの判別が行われる。こ
こで、クラスは雑音と雑音外の2つに分類する。また、
入力ベクトルxは(Eg, σg 2 )の要素で構成さ
れる。(10)式におけるmk,ck,p( ωk)は、トレー
ニングデータを用いて予め求めておくことができる。判
定は、入力ベクトルに対して、最も大きなfk(x)を与え
るクラスkが求める判別クラスとなり、結果を出力す
る。
S30が肯定)は、雑音である旨の結果を出力後、最終
データでない限り(ステップS23が否定)、次のデー
タ入力を行う。また、雑音外と判定された場合(ステッ
プS30が否定)は、次の処理(ステップ12)へ進
み、音楽か音声の判定を行う。
から全サブバンドエネルギー和演算部7にSi,j(n)が入
力され、全サブバンドエネルギー和演算部7では、図6
の(4)式に従って、全サブバンドのエネルギー和SE
(i,j) を計算し、2値化演算部8(ステップ13)に入
力する。SE(i,j) は32バンド分のSi,j(n)のエネル
ギーの累積和である。2値化演算部8では、図6の
(5)式に従って、SE(i,j) を2値化して、数列NS
(i,j) を計算する。Th1は予め定められた2値化のため
の閾値である。
(i,j) は2値化数列分散演算部9(ステップ14)に入
力する。2値化数列分散演算部9では、2値化数列の単
位時間内の分散σs 2 を図6の(6)式にしたがっ
て計算し、音楽音声識別部14に入力する(ステップ1
5)。σs 2 はNS(i,j) が0となるサンプル数の
分散で、音声区間では断続性が強いため、該分散値は音
楽区間に比べて大きくなる。
化数列分散σs 2 に対してBayes 決定ルールに基づ
いた正規分布の場合の識別関数(10)式を用いて、音
楽、音声の判別が行われる。ここで、クラスは音楽、音
声の2つのクラスに分類する。また、入力ベクトルxは
(σs 2 )の要素で構成される。さらに、(10)
式におけるmk,ck,p( ωk)は、トレーニングデータを
用いて、予め求めておくことができる。判定は、入力ベ
クトルに対して、最も大きなfk(x)を与えるクラスkが
求める判別クラスとなり、結果を出力する。
よれば、圧縮符号化されたオーディオの符号化データか
ら無音/有音を判別し、有音の場合、音楽区間、音声区
間、雑音区間を区別し、それぞれのタイムコードを図示
されていない音声区間保持部、音楽区間保持部、雑音区
間保持部のそれぞれに記録させることができる。
ィオ情報の分類に関しても適用できる。その場合の実施
形態を以下に説明する。
扱う場合は、図1の可変長復号部1およびサブバンドデ
ータサブサンプリング部2は高速フーリエ変換部(以下
FFT変換部)に置き換えられる。元のオーディオ情報
からこのFFT変換部において、図12にあるようなF
FT変換を行い、単位時間分の周波数データを抽出す
る。今、該単位時間を1秒とすると、元のオーディオ信
号pからサンプリングした2048個のサンプルをFF
T変換し、それを時間的にサンプルをずらしながら38
回繰り返して合計2048×38個のFFTデータを単
位時間分の周波数データとしている。
ネルギー重心演算の平均および分散、エネルギー和の2
値化後の数列分散を計算して、無音/有音、音楽、音
声、雑音の判定を行う。
によれば、圧縮符号化されたあるいは圧縮符号化されて
いないオーディオデータから、符号化データ上で、オー
ディオ情報を有音/無音、音楽/音声/雑音区間に分類
することが可能である。
で符号化された15分間のテレビ番組を用いて1秒毎の
分類を行ったところ、無音の判定は92%、音声区間の
検出は99%、音楽区間は75%、雑音区間は74%程
度検出することが可能になった。
である。
る。
るための図である。
の動作を説明するための図である。
る。
る。
波形図である。
る。
ク図である。
ャートである。
数データの抽出方法を説明するための図である。
すブロック図である。
ング部、3…エネルギー分散演算部、4…有音判定部、
5…メモリ、6…制御部、7…全サブバンドエネルギー
和演算部、8…2値化演算部、9…2値化数列分散演算
部、10…オーディオ情報識別部、11…サブバンドエ
ネルギー重心演算部、12…エネルギー重心平均・分散
演算部、13…雑音識別部、14…音楽音声識別部。
Claims (12)
- 【請求項1】 オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から単位時間ごとの周波数デ
ータを抽出するオーディオ周波数データ抽出手段と、 抽出した単位時間ごとの周波数データのエネルギーの分
散を求め、分散値の大きさにより無音/有音区間を判定
する無音/有音判定手段とを具備することを特徴とする
オーディオ情報分類装置。 - 【請求項2】 請求項1に記載のオーディオ情報分類装
置において、 前記オーディオ周波数データ抽出手段によって抽出され
る単位時間ごとの周波数データは、入力されたオーディ
オ情報がMPEGデータである場合、単位時間分のMPEG符号
化データにおける最低周波数成分のエネルギーの分散を
利用することを特徴とするオーディオ情報分類装置。 - 【請求項3】 オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と有音区間における音の疎密度により音声で
あるか音楽であるかを判定する音声/音楽区間判定手段
とを具備することを特徴とするオーディオ情報分類装
置。 - 【請求項4】 請求項3に記載のオーディオ情報分類装
置において、 疎密度はオーディオ信号のエネルギーの大きさによって
2値化された数列の分散を用いて疎密度を判定すること
を特徴とするオーディオ情報分類装置。 - 【請求項5】 請求項4に記載のオーディオ情報分類装
置において、 前記オーディオ信号のエネルギーは、入力されたオーデ
ィオ情報がMPEGデータである場合、単位時間分のMPEG符
号化データにおける全周波数成分のエネルギー和を利用
することを特徴とするオーディオ情報分類装置。 - 【請求項6】 請求項3ないし請求項5のいずれかに記
載のオーディオ情報分類装置において、 前記音声/音楽区間判定手段は疎密度を特徴ベクトルと
したBayes 決定則を用いて、テストデータに対して音楽
と音声区間の共分散行列を求めておき、入力データに対
して正規分布パターンにおけるBayes 決定識別関数を用
いて各音楽区間と音声区間の判別を行うことを特徴とす
るオーディオ情報分類装置。 - 【請求項7】 オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と入力されたオーディオ情報から有音時の単
位時間ごとの周波数データを抽出するオーディオ周波数
データ抽出手段と、 オーディオ周波数データから単位時間における周波数の
重心の平均と重心の標準偏差を求め、周波数の重心の分
布により雑音区間か否かを判別する雑音区間抽出手段を
具備することを特徴とするオーディオ情報分類装置。 - 【請求項8】 請求項7に記載のオーディオ情報分類装
置において、 前記オーディオ周波数データ抽出手段によって抽出され
る単位時間ごとの周波数データは、入力されたオーディ
オ情報がMPEGデータである場合、単位時間分のMPEG符号
化データにおける周波数成分のエネルギーの重心を利用
することを特徴とするオーディオ情報分類装置。 - 【請求項9】 請求項7又は8に記載のオーディオ情報
分類装置において、 前記雑音抽出手段は、周波数成分の重心の平均と分散を
特徴ベクトルとしたBayes 決定則を用いて、テストデー
タに対して雑音と雑音以外の共分散行列を求めておき、
入力データに対して正規分布パターンにおけるBayes 決
定識別関数を用いて各雑音区間と非雑音区間の判別を行
うことを特徴とするオーディオ情報分類装置。 - 【請求項10】 オーディオ情報から音声区間と音楽区
間を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と、 入力されたオーディオ情報から有音時の単位時間ごとの
周波数データを抽出するオーディオ周波数データ抽出手
段と、 オーディオ周波数データの単位時間における疎密度およ
び単位時間における周波数の重心の平均と重心の標準偏
差を特徴ベクトルとしたBayes 決定則を用いて、テスト
データに対して音声と音楽と雑音の共分散行列を求めて
おき、入力データに対して正規分布パターンにおけるBa
yes 決定識別関数を用いて音声、音楽、雑音区間の判別
を行うことを特徴とする音声/音楽/雑音区間判別手段
を具備することを特徴とするオーディオ情報分類装置。 - 【請求項11】 オーディオ情報から音声区間と音楽区
間を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と、 入力されたオーディオ情報から有音時の単位時間ごとの
周波数データを抽出するオーディオ周波数データ抽出手
段と、 オーディオ周波数データの単位時間における周波数の重
心の平均と重心の標準偏差を特徴ベクトルとしたBayes
決定則を用いて、テストデータに対して雑音と雑音以外
の共分散行列を求めておき、入力データに対して正規分
布パターンにおけるBayes 決定識別関数を用いて雑音と
雑音以外の区間の判別を行うことを特徴とする雑音区間
判別手段と、 オーディオ周波数データの単位時間における疎密度を特
徴ベクトルとしたBayes 決定則を用いて、テストデータ
に対して音声と音楽の共分散行列を求めておき、前記、
雑音区間判別手段で雑音以外と判別された区間に対し
て、正規分布パターンにおけるBayes 決定識別関数を用
いて音声、音楽、雑音区間の判別を行うことを特徴とす
る音声/音楽区間判別手段を具備するオーディオ情報分
類装置。 - 【請求項12】 請求項3ないし請求項11のいずれか
に記載のオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段は、請求項1または2に示された有音判定手
段を用いることを特徴とするオーディオ情報分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10235543A JP2000066691A (ja) | 1998-08-21 | 1998-08-21 | オーディオ情報分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10235543A JP2000066691A (ja) | 1998-08-21 | 1998-08-21 | オーディオ情報分類装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005153911A Division JP4201204B2 (ja) | 2005-05-26 | 2005-05-26 | オーディオ情報分類装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000066691A true JP2000066691A (ja) | 2000-03-03 |
Family
ID=16987547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10235543A Pending JP2000066691A (ja) | 1998-08-21 | 1998-08-21 | オーディオ情報分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000066691A (ja) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2006194959A (ja) * | 2005-01-11 | 2006-07-27 | Sony Corp | 音声検出装置、自動撮像装置、および音声検出方法 |
JP2006524359A (ja) * | 2003-04-24 | 2006-10-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメータで表示された時間特性の分析 |
JP2007079127A (ja) * | 2005-09-14 | 2007-03-29 | Nippon Telegr & Teleph Corp <Ntt> | データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体 |
JP2007122047A (ja) * | 2005-10-28 | 2007-05-17 | Samsung Electronics Co Ltd | 音声信号検出システム及び方法 |
JP2007322598A (ja) * | 2006-05-31 | 2007-12-13 | Victor Co Of Japan Ltd | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
WO2008106852A1 (fr) * | 2007-03-02 | 2008-09-12 | Huawei Technologies Co., Ltd. | Méthode et dispositif de classification d'un signal audio sans bruit |
WO2008126347A1 (ja) | 2007-03-16 | 2008-10-23 | Panasonic Corporation | 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路 |
JP2008544328A (ja) * | 2005-06-20 | 2008-12-04 | マイクロソフト コーポレーション | クリーン音声の事前分布を使用した多感覚応用の音声強調 |
JP2009008836A (ja) * | 2007-06-27 | 2009-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
JP2009058970A (ja) * | 2006-10-20 | 2009-03-19 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
US7567900B2 (en) | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
EP2150046A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
EP2150040A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
US7756704B2 (en) | 2008-07-03 | 2010-07-13 | Kabushiki Kaisha Toshiba | Voice/music determining apparatus and method |
JP2010191337A (ja) * | 2009-02-20 | 2010-09-02 | Yamaha Corp | 楽曲処理装置、およびプログラム |
WO2010113220A1 (ja) * | 2009-04-02 | 2010-10-07 | 三菱電機株式会社 | 雑音抑圧装置 |
US7910820B2 (en) | 2006-10-20 | 2011-03-22 | Sony Corporation | Information processing apparatus and method, program, and record medium |
JP2013068975A (ja) * | 2013-01-21 | 2013-04-18 | Yamaha Corp | 楽曲処理装置、およびプログラム |
JP2016033677A (ja) * | 2012-01-10 | 2016-03-10 | 株式会社東芝 | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
US9754603B2 (en) | 2012-01-10 | 2017-09-05 | Kabushiki Kaisha Toshiba | Speech feature extraction apparatus and speech feature extraction method |
US10679645B2 (en) | 2015-11-18 | 2020-06-09 | Fujitsu Limited | Confused state determination device, confused state determination method, and storage medium |
RU2723301C1 (ru) * | 2019-11-20 | 2020-06-09 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58208796A (ja) * | 1982-05-28 | 1983-12-05 | 岡村 史良 | 音声音楽識別方式 |
JPH04284499A (ja) * | 1991-03-13 | 1992-10-09 | Sanyo Electric Co Ltd | 音声切出し方式 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH10508389A (ja) * | 1994-07-18 | 1998-08-18 | 松下電器産業株式会社 | 音声検出装置 |
-
1998
- 1998-08-21 JP JP10235543A patent/JP2000066691A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58208796A (ja) * | 1982-05-28 | 1983-12-05 | 岡村 史良 | 音声音楽識別方式 |
JPH04284499A (ja) * | 1991-03-13 | 1992-10-09 | Sanyo Electric Co Ltd | 音声切出し方式 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH10508389A (ja) * | 1994-07-18 | 1998-08-18 | 松下電器産業株式会社 | 音声検出装置 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP4595098B2 (ja) * | 2001-02-15 | 2010-12-08 | 独立行政法人情報通信研究機構 | 字幕送出タイミング検出装置 |
JP2006524359A (ja) * | 2003-04-24 | 2006-10-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメータで表示された時間特性の分析 |
JP4795934B2 (ja) * | 2003-04-24 | 2011-10-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメータで表示された時間特性の分析 |
US7567900B2 (en) | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
JP2006194959A (ja) * | 2005-01-11 | 2006-07-27 | Sony Corp | 音声検出装置、自動撮像装置、および音声検出方法 |
JP2008544328A (ja) * | 2005-06-20 | 2008-12-04 | マイクロソフト コーポレーション | クリーン音声の事前分布を使用した多感覚応用の音声強調 |
JP2007079127A (ja) * | 2005-09-14 | 2007-03-29 | Nippon Telegr & Teleph Corp <Ntt> | データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体 |
JP4520922B2 (ja) * | 2005-09-14 | 2010-08-11 | 日本電信電話株式会社 | データ形式判別方法、装置、プログラム、および記録媒体 |
JP4545729B2 (ja) * | 2005-10-28 | 2010-09-15 | 三星電子株式会社 | 音声信号検出システム及び方法 |
US7739107B2 (en) | 2005-10-28 | 2010-06-15 | Samsung Electronics Co., Ltd. | Voice signal detection system and method |
JP2007122047A (ja) * | 2005-10-28 | 2007-05-17 | Samsung Electronics Co Ltd | 音声信号検出システム及び方法 |
JP2007322598A (ja) * | 2006-05-31 | 2007-12-13 | Victor Co Of Japan Ltd | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
JP4665836B2 (ja) * | 2006-05-31 | 2011-04-06 | 日本ビクター株式会社 | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
JP2009058970A (ja) * | 2006-10-20 | 2009-03-19 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
US7910820B2 (en) | 2006-10-20 | 2011-03-22 | Sony Corporation | Information processing apparatus and method, program, and record medium |
WO2008106852A1 (fr) * | 2007-03-02 | 2008-09-12 | Huawei Technologies Co., Ltd. | Méthode et dispositif de classification d'un signal audio sans bruit |
WO2008126347A1 (ja) | 2007-03-16 | 2008-10-23 | Panasonic Corporation | 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路 |
US8478587B2 (en) | 2007-03-16 | 2013-07-02 | Panasonic Corporation | Voice analysis device, voice analysis method, voice analysis program, and system integration circuit |
JP4572218B2 (ja) * | 2007-06-27 | 2010-11-04 | 日本電信電話株式会社 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
JP2009008836A (ja) * | 2007-06-27 | 2009-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
US7756704B2 (en) | 2008-07-03 | 2010-07-13 | Kabushiki Kaisha Toshiba | Voice/music determining apparatus and method |
EP2150040A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
EP2150046A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
JP2010191337A (ja) * | 2009-02-20 | 2010-09-02 | Yamaha Corp | 楽曲処理装置、およびプログラム |
WO2010113220A1 (ja) * | 2009-04-02 | 2010-10-07 | 三菱電機株式会社 | 雑音抑圧装置 |
CN102356427A (zh) * | 2009-04-02 | 2012-02-15 | 三菱电机株式会社 | 噪声抑制装置 |
CN102356427B (zh) * | 2009-04-02 | 2013-10-30 | 三菱电机株式会社 | 噪声抑制装置 |
JP5535198B2 (ja) * | 2009-04-02 | 2014-07-02 | 三菱電機株式会社 | 雑音抑圧装置 |
JP2016033677A (ja) * | 2012-01-10 | 2016-03-10 | 株式会社東芝 | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
US9754603B2 (en) | 2012-01-10 | 2017-09-05 | Kabushiki Kaisha Toshiba | Speech feature extraction apparatus and speech feature extraction method |
JP2013068975A (ja) * | 2013-01-21 | 2013-04-18 | Yamaha Corp | 楽曲処理装置、およびプログラム |
US10679645B2 (en) | 2015-11-18 | 2020-06-09 | Fujitsu Limited | Confused state determination device, confused state determination method, and storage medium |
RU2723301C1 (ru) * | 2019-11-20 | 2020-06-09 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000066691A (ja) | オーディオ情報分類装置 | |
Chou et al. | Robust singing detection in speech/music discriminator design | |
US11386916B2 (en) | Segmentation-based feature extraction for acoustic scene classification | |
Lu et al. | A robust audio classification and segmentation method | |
US7460994B2 (en) | Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal | |
US20090076814A1 (en) | Apparatus and method for determining speech signal | |
KR100661040B1 (ko) | 정보 처리 장치 및 방법, 정보 기록 장치 및 방법, 기록 매체 및 제공 매체 | |
Herre et al. | Robust matching of audio signals using spectral flatness features | |
US8838452B2 (en) | Effective audio segmentation and classification | |
JP2004530153A (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
CA2625378A1 (en) | Neural network classifier for separating audio sources from a monophonic audio signal | |
GB2403881A (en) | Automatic classification/identification of similarly compressed audio files | |
KR100763899B1 (ko) | 앵커 샷 검출 방법 및 장치 | |
JP4201204B2 (ja) | オーディオ情報分類装置 | |
US7747435B2 (en) | Information retrieving method and apparatus | |
Kwon et al. | Speaker change detection using a new weighted distance measure. | |
JP4392805B2 (ja) | オーディオ情報分類装置 | |
JP3607450B2 (ja) | オーディオ情報分類装置 | |
KR20080097684A (ko) | 음성 및 음악을 실시간으로 분류하는 방법 | |
Jarina et al. | Rhythm detection for speech-music discrimination in mpeg compressed domain | |
Prabavathy et al. | An enhanced musical instrument classification using deep convolutional neural network | |
Velayatipour et al. | A review on speech-music discrimination methods | |
JP4497485B2 (ja) | オーディオ情報分類装置 | |
RU2047912C1 (ru) | Способ распознавания изолированных слов речи с адаптацией к диктору | |
US20020095297A1 (en) | Device and method for processing audio information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050401 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050623 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050701 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |