JP2000066691A

JP2000066691A - オーディオ情報分類装置

Info

Publication number: JP2000066691A
Application number: JP10235543A
Authority: JP
Inventors: Yasuyuki Nakajima; 康之中島; Masaru Sugano; 勝菅野; Akio Yoneyama; 暁夫米山; Hiromasa Yanagihara; 広昌柳原
Original assignee: KDD Corp
Current assignee: KDDI Corp
Priority date: 1998-08-21
Filing date: 1998-08-21
Publication date: 2000-03-03

Abstract

(57)【要約】【課題】簡単かつ高速に、無音／有音区間の判別、音
楽区間と音声区間、あるいは音楽区間と音声区間と雑音
区間に分類することを可能とするオーディオ情報分類装
置を提供することにある。【解決手段】有音判定部４はエネルギー分散演算部３
で求められた値σ_ｅ ^２が閾値より大きい時有音と判定
する。有音と判定されると、メモリ５に格納されていた
オーディオ情報が読み出されて、全サブバンドエネルギ
ー和演算部７とサブバンドエネルギー重心演算部１１に
入力される。前記演算部７の出力は２値化演算部８で２
値化され、２値化数列分散演算部９で２値化数列の単位
時間内の分散σ_ｓ ^２が求められる。一方、エネルギ
ー重心平均・分散演算部１２はエネルギー重心平均Ｅg
と分散σ_ｇ ^２を求める。オーディオ情報識別部１０
は、前記分散σ_ｓ ^２、エネルギー重心平均Ｅg 、お
よび分散σ_ｇ ^２に対して識別関数を用いて、雑音、
音楽、音声の判別を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はオーディオ情報の分
類装置に関し、特に符号化されていない元のままのオー
ディオ情報あるいは符号化されたオーディオ情報のいず
れからも、簡単かつ高速に、音声区間と音楽区間、ある
いは音声区間と音楽区間と雑音区間を分類できるオーデ
ィオ情報の分類装置に関する。

【０００２】

【従来の技術】インターネットに代表されるように、分
散したデータベースに、テキストのみならず音声や映像
情報が蓄積される技術分野においては、マルチメディア
情報を効果的にインデックスする方法が必要とされてい
る。このうちオーディオ信号を分類する手法について
は、オーディオ信号を音楽や音声区間に分類すること
で、おおまかなインデックスが可能になる。例えば、E.
ScheirerとM.Slaneyの"Construction and evaluation o
f a robust multifeature speech/music discriminato
r, Proceedings of IEEE ICASSP, pp.1331-1334, 1997
ではオーディオ信号について４Ｈz 成分、フレーム間ス
ペクトル差分、パルス検出の３つの特徴パラメータを利
用してBayes 決定法などの識別関数により音声と音楽の
判別を行っている。

【０００３】図１３は前記分類を行う手法の説明図であ
る。オーディオ信号Ａは４Ｈｚ帯域フィルタ２１、周波
数変換部２２、およびサブバンド分割部２３に入力す
る。４Ｈｚ帯域フィルタ２１はオーディオ信号Ａの４Ｈ
ｚ成分を抽出し、４Ｈｚ帯域エネルギ演算部２４に出力
する。周波数変換部２２はオーディオ信号Ａをスペクト
ル分析し、フレーム間スペクトル差分演算部２５に出力
する。また、サブバンド分割部２３でサブバンド分割さ
れたオーディオ信号Ａは、包絡線ピーク検出部２６に出
力される。

【０００４】一般に、４Ｈｚ成分については、音声信号
ではこの周波数成分が特に強く出現する特徴がある。フ
レーム間のスペクトル差分については、音楽のように変
化の激しい場合に大きくなる特徴がある。さらに，パル
ス検出は入力信号を各周波数帯域（サブバンド）に分け
包絡線のピークを検出する。音楽のようにリズムのある
オーディオ信号では全ての帯域において周期的にこのピ
ークが現れる。

【０００５】オーディオ情報識別部２７は、前記の４Ｈ
z 成分、フレーム間スペクトル差分、パルス検出の３つ
の特徴パラメータを利用して、Bayes 決定法などの識別
関数により音声と音楽の判別を行う。なお、入力してく
るオーディオ信号が圧縮符号化されたオーディオ信号で
ある場合には、図示されていない復号処理部で復号し
て、前記４Ｈｚ帯域フィルタ２１、周波数変換部２２お
よびサブバンド分割部２３に送出する。

【０００６】

【発明が解決しようとする課題】しかしながら、前記の
従来技術は、圧縮符号化されたオーディオ信号から音楽
区間、音声区間を検出する場合には、一旦圧縮されたデ
ータを復号してアナログのオーディオ信号Ａに戻してか
ら検出処理を行うことになり、処理時間も大幅に増加す
るという問題点がある。

【０００７】また、雑音成分の除去についてはなんら触
れておらず、雑音成分を除いた音声や音楽区間の判別が
できないという問題がある。換言すれば、雑音成分も音
声や音楽区間に含められてしまうという問題がある。

【０００８】本発明の目的は、前記した従来技術の問題
点に鑑み、符号化されていない元のままのオーディオ情
報あるいは圧縮符号化されたオーディオ情報のいずれか
らも、簡単かつ高速に、無音／有音区間の判別、音楽区
間と音声区間、あるいは音楽区間と音声区間と雑音区間
に分類することを可能とするオーディオ情報分類装置を
提供することにある。他の目的は、雑音区間を除去し
て、音楽区間、音声区間を検出することが可能なオーデ
ィオ情報分類装置を提供することにある。

【０００９】

【課題を解決するための手段】前記した目的を達成する
ために、本発明は、入力されたオーディオ情報から単位
時間ごとの周波数データを抽出するオーディオ周波数デ
ータ抽出手段と、抽出した単位時間ごとの周波数データ
のエネルギーの分散を求め、分散値の大きさにより無音
／有音区間を判定する無音／有音判定手段とを具備した
点に第１の特徴がある。

【００１０】また、入力されたオーディオ情報から有音
部のみを抽出する有音抽出手段と、有音区間における音
の疎密度により音声であるか音楽であるかを判定する音
声／音楽区間判定手段とを具備した点に第２の特徴があ
る。

【００１１】また、入力されたオーディオ情報から有音
部のみを抽出する有音抽出手段と、入力されたオーディ
オ情報から単位時間ごとの周波数データを抽出するオー
ディオ周波数データ抽出手段と、オーディオ周波数デー
タから単位時間における周波数の重心の平均と重心の標
準偏差を求め、周波数の重心の分布により雑音区間か否
かを判別する雑音区間抽出手段を具備した点に第３の特
徴がある。

【００１２】さらに、オーディオ周波数データの単位時
間における疎密度および単位時間における周波数の重心
の平均と重心の標準偏差を特徴ベクトルとしたBayes 決
定則を用いて、テストデータに対して音声と音楽と雑音
の共分散行列を求めておき、入力データに対して正規分
布パターンにおけるBayes 決定識別関数を用いて音声、
音楽、雑音区間の判別を行う音声／音楽／雑音区間判別
手段を具備した点に第４の特徴がある。

【００１３】さらに、オーディオ周波数データの単位時
間における周波数の重心の平均と重心の標準偏差を特徴
ベクトルとしたBayes 決定則を用いて、テストデータに
対して雑音と雑音以外の共分散行列を求めておき、入力
データに対して正規分布パターンにおけるBayes 決定識
別関数を用いて雑音と雑音以外の区間の判別を行うこと
を特徴とする雑音区間判別手段と、オーディオ周波数デ
ータの単位時間における疎密度を特徴ベクトルとしたBa
yes 決定則を用いて、テストデータに対して音声と音楽
の共分散行列を求めておき、前記、雑音区間判別手段で
雑音以外と判別された区間に対して、正規分布パターン
におけるBayes 決定識別関数を用いて音声、音楽、雑音
区間の判別を行うことを特徴とする音声／音楽区間判別
手段を具備した点に第５の特徴がある。

【００１４】本発明によれば、符号化されていないもと
のままのオーディオ情報、あるいは符号化されたオーデ
ィオ情報のいずれからも、簡単かつ高速に、無音／有音
区間の判別、あるいは音声区間、音楽区間、雑音区間を
分類することが可能になる。

【００１５】

【発明の実施の形態】以下に、図面を参照して、本発明
を詳細に説明する。この実施形態は動画像および音声符
号化の国際標準であるMPEG１（ISO/IEC 11172 ）および
MPEG2(ISO/IEC 13818)により圧縮されたオーディオ符号
化データを用いて音声、音楽、雑音区間を分類するもの
であるが、本発明はこれに限定されるものではない。図
１は本発明のオーディオ情報分類装置の一実施形態のブ
ロック図を示す。また、図２は本実施形態の動作を説明
するフローチャートである。

【００１６】図１に示されているように、圧縮符号化さ
れたオーディオ符号化データａは可変長復号部１に入力
される。ここで、圧縮符号化されたオーディオの符号化
データ構造について、MPEG1 レイヤーIIを例にして図４
を参照して説明する。MPEG1 では図示されているよう
に、元のオーディオ信号ｐからサンプリングした５１２
個のＰＣＭサンプルをサブバンド符号化して、３２個の
サブバンドデータＰi(n) (n=0,1,...,31) を作り、それ
を時間的にサンプルをずらしながら３６回(i=0,1,...,3
5)繰り返して合計１１５２個のサブバンドデータを作
り、この１１５２個のサブバンドデータを１フレームの
符号化データＱとしている。

【００１７】前記した構造の符号化データＱが前記可変
長復号部１に連続して入力してくると、該可変長復号部
１にはこれを各フレームのサブバンドデータに復号し、
サブバンドデータサンプリング部２に出力する。いま、
ある単位時間を１秒とすると、この１秒は図５のａのよ
うに３８フレームから構成されているので、可変長復号
部１は１秒分の符号化データに対し、同図のｂのように
３８個の３２サブバンド×３６サンプルを出力する。

【００１８】サブバンドデータサンプリング部２では、
図５のｃに示されているように、単位時間（例えば１
秒）分のサブバンドデータのうち、各フレームｉのｊ番
目(j=0,1,...,35 は１フレーム内のサンプル数) にある
サブバンドデータＳij(n)(i=0,1,...,37は単位時間内の
フレーム数) を抽出し、図１のエネルギー分散演算部３
およびメモリ５に入力する。該サブバンドデータサンプ
リング部２は、入力されたオーディオ情報から単位時間
ごとの周波数データを抽出するオーディオ周波数データ
抽出手段と呼ぶことができる。

【００１９】以上の動作は、図２では、ステップＳ１〜
Ｓ９で行われる。ステップＳ１では、フレーム番号を表
すｉが０と置かれ、ステップＳ２ではサブバンド番号を
表すｎが０と置かれる。ステップＳ３では、可変長復号
部１にて符号化データが可変長復号され、ステップＳ４
ではｉフレーム目のｊサンプル目のサブバンドデータＳ
i,j(n)が抽出される。次に、ステップＳ５にてｎ＝３２
が成立するか否かの判断がなされ、この判断が否定のと
きはステップＳ６に進んでｎに１が加算される。そして
ステップＳ３に戻って前記と同様の処理が行われる。以
上のステップＳ３〜Ｓ６の処理が繰り返して行われて、
ステップＳ５の判定が肯定となると、サブバンドデータ
サンプリング部２から、フレームｉ、サンプルｊのサブ
バンドデータＳi,j(n)が抽出されたことになる。

【００２０】ステップＳ５の判断が肯定になるとステッ
プＳ７に進み、ｉに１が加算される。次にステップ８に
進み、ｉ＝Ｎf が成立するか否かの判断がなされる。こ
こで、Ｎf は単位時間内のフレーム数である。この判断
が否定の場合はステップＳ２に戻り、再びｎ＝０とされ
て、再度前記した処理が行われる。以上の処理が繰り返
し行われ、ステップＳ８の判断が肯定になると、ｉ＝０
〜（Ｎf −１）フレームの各ｊ番目のサンプルのサブバ
ンドデータＳi,j(n)が抽出されたことになり、ステップ
Ｓ９にてこれらのサブバンドデータＳi,j(n)は図１の各
フレームのエネルギー分散演算部３およびメモリ５へ転
送される。

【００２１】エネルギー分散演算部３では、図６の
（１）および（２）式に従って、単位時間当たりのエネ
ルギー分散σ_ｅ ^２を計算し、有音判定部４に入力す
る。なお、（１）式で、Ｎf は単位時間内のフレーム
数、Ｎj は１フレーム中のサンプル数で、例えばＮj を
１とした場合、フレーム中の先頭のサンプルのみを用い
て計算することになり、処理の高速化を図ることが可能
である。また、サブサンプルデータＳi,j(n)でｎ＝０と
すると、低周波成分のみを用いてエネルギー分散σ_ｅ
^２を計算することになり、この場合、高周波成分まで
を含んだ場合と同等な結果が得られ、処理時間も高速化
することが可能である。

【００２２】有音判定部４では、入力された単位時間に
おける音声情報が無音であるか有音であるかを下記の
（３）式にしたがって判定し、条件に合う場合は有音で
あると判定する( ステップＳ１１）。有音である場合
は、無音である場合に比べて、単位時間のエネルギー分
散が大きいから下記の（３）式が成立することになる。 σ_ｅ ^２＞α （３）ここに、αは予め定められた第１の閾値である。

【００２３】該有音判定部４において、入力された単位
時間のオーディオ情報が有音であると判断された場合に
は、メモリ５から該単位時間内の周波数データすなわち
サブバンドデータＳi,j(n)を読み出して、全サブバンド
エネルギー和演算部７（図３のステップＳ１２）とサブ
バンドエネルギー重心演算部１１（ステップＳ１６）に
入力する。この機能は、オーディオ周波数データ抽出手
段と呼ぶことができる。一方、無音であると判定された
場合には、以降のオーディオ情報判定処理を終了し、ス
テップＳ１に戻る。

【００２４】全サブバンドエネルギー和演算部７では、
図６の（４）式に従って、全サブバンドのエネルギー和
ＳＥ(i,j) を計算し、２値化演算部８（ステップ１３）
に入力する。ＳＥ(i,j) は３２バンド分のＳi,j(n)のエ
ネルギーの累積和である。２値化演算部８では、図６の
（５）式に従って、Ｔh1を基にＳＥ(i,j) を２値化し
て、数列ＮＳ(i,j) を計算する。Ｔh1はあらかじめ定め
られた２値化のための閾値である。

【００２５】音声と音楽の波形は図８のように、音声で
は断続した波形を持つのに対して、音楽では連続的な波
形となる。これらの波形を２値化（正規化）すると、図
８の右側の図から明らかなように、音の断続性がより明
確になる。すなわち、有音区間における音の疎密度によ
り音声であるか音楽であるかを判定できる。

【００２６】２値化演算部８で得られた２値化数列ＮＳ
(i,j) は２値化数列分散演算部９（図３のステップＳ１
４）に入力する。２値化数列分散演算部９では、２値化
数列の単位時間内の分散σ_ｓ ^２を、図６の（６）式
に従って計算し、オーディオ情報識別部１０に入力する
（ステップＳ１５）。σ_ｓ ^２はＮＳ(i,j) が０とな
るサンプル数の分散で、音声区間では断続性が強いた
め、該分散値は音楽区間に比べて大きくなる。この分散
は、音の疎密度を表している。

【００２７】図６の（６）式で、ＭはＮＳ(i,j) が単位
時間内に１から０に変化する数で、単位時間内の０連続
区間の個数を表す。また、Ｎns(k) はＮＳ(i,j) が０の
場合の連続数で、音楽のようにリズムがある場合は時間
的な変化は小さい。

【００２８】サブバンドエネルギー重心演算部１１（ス
テップＳ１６）では、図７の（７）式に従って、フレー
ムｉにおけるサブバンド重心Ｇ(i) が計算され、エネル
ギー重心平均、分散演算部１２（ステップＳ１７）に入
力する。（７）式で、サブバンドの重心はすべてのサブ
バンドｎについて、各フレーム内のサンプルｊについて
計算されるが、エネルギー分散σ_ｅ ^２の場合と同様
に、Ｎj ＝１としても重心値に大きな変化がなく、すべ
てのサンプルについて計算する場合よりも処理時間を削
減することが可能である。

【００２９】エネルギー重心平均、分散演算部１２で
は、図７の（８）式および（９）式に従って単位時間内
の分散σ_ｇ ^２とエネルギー重心の平均Ｅg が計算さ
れ、オーディオ情報識別部１０（ステップＳ１８）に入
力する。図９は単位時間を１秒としたときのサブバンド
エネルギー重心の平均と分散の分布例であるが、歓声な
どの雑音は、音楽や音声などの他の音源と異なって、あ
る一定の領域ａに集中している。

【００３０】オーディオ情報識別部１０では、入力され
た２値化数列分散σ_ｓ ^２、サブバンドエネルギー重
心平均Ｅg および分散σ_ｇ ^２に対して、既知のBaye
s 決定ルールに基づいた正規分布の場合の識別関数（図
７の（１０）式）を用いて、雑音、音楽、音声の判別が
行われる。ここで、クラスは雑音、音楽、音声の３つの
クラスに分類する。また、入力ベクトルｘは（σ_ｓ
^２，,Eg, σ_ｇ ^２）の要素で構成される。なお、
（１０）式におけるｍk,ｃk,ｐ( ωk)は、トレーニング
データを用いて、あらかじめ求めておくことができる。
判定は、入力ベクトルに対して、最も大きなｆk(x)を与
えるクラスｋが求める判別クラスとなり、結果を出力す
る。すなわち、トレーニングにより予め求められた各ク
ラス（雑音、音楽、音声）のデータｍk,ｃk,ｐ( ωk)を
（１０）式に代入し、これに前記（６）（９）（８）式
で求められた入力ベクトルｘ（σ_ｓ ^２，,Eg, σ_ｇ
^２）を入れて、各クラスの識別値ｆk(x)を求める。そ
して、該識別値ｆk(x)の一番大きいクラスが雑音であれ
ば雑音、音声であれば音声、音楽であれば音楽と判定す
る。なお、オーディオ情報識別部１０は、Ｋ近傍決定
則，ゆう度検定，Ｋ−平均法，Ｋ−決定木法などのよう
な前記（１０）式以外の他の式を用いてクラスの判別を
するようにしても良い。

【００３１】次に、本発明の第２の実施形態について、
図１０を参照して説明する。図１０において、図１と同
一または同等物には同じ符号が付されている。図１０の
可変長復号部１〜有音判定部４の動作（図２のステップ
Ｓ１〜Ｓ１１）は前記第１実施形態と同じであるので、
説明を省略し、サブバンドエネルギー重心演算部１１以
降の動作を、図１１を参照して説明する。

【００３２】有音判定部４において、入力された単位時
間のオーディオ情報が有音であると判断された場合に
は、メモリ５から単位時間内のサブバンドデータＳi,j
(n)を読み出してサブバンドエネルギー重心演算部１１
に入力する。一方、無音であると判定された場合には、
以降のオーディオ情報判定処理を終了し、ステップＳ１
に戻る。

【００３３】サブバンドエネルギー重心演算部１１（ス
テップＳ１６）では、図７の（７）式に従って、フレー
ムｉにおけるサブバンド重心Ｇ(i) が計算され、エネル
ギー重心平均、分散演算部１２（ステップＳ１７）に入
力する。（７）式で、サブバンドの重心は全てのサブバ
ンドｎについて、各フレーム内のサンプルｊについて計
算されるが、エネルギー分散σ_ｅ ^２の場合と同様
に、Ｎj ＝１としても重心値に大きく変化がなく、すべ
てのサンプルについて計算する場合よりも処理時間を削
減することが可能である。

【００３４】エネルギー重心平均、分散演算部１２では
（８）式および（９）式に従って単位時間内の分散σ
_ｇ ^２とエネルギー重心の平均Ｅg が計算され、雑音
識別部１３（ステップＳ１８）に入力する。

【００３５】雑音識別部１３では、入力されたサブバン
ドエネルギー重心平均Egおよび分散σ_ｇ ^２に対して
Bayes 決定ルールに基づいた正規分布の場合の識別関数
（１０）式を用いて、雑音か否かの判別が行われる。こ
こで、クラスは雑音と雑音外の２つに分類する。また、
入力ベクトルｘは（Ｅg, σ_ｇ ^２）の要素で構成さ
れる。（１０）式におけるｍk,ｃk,ｐ( ωk)は、トレー
ニングデータを用いて予め求めておくことができる。判
定は、入力ベクトルに対して、最も大きなｆk(x)を与え
るクラスｋが求める判別クラスとなり、結果を出力す
る。

【００３６】ここで、雑音と判定された場合（ステップ
Ｓ３０が肯定）は、雑音である旨の結果を出力後、最終
データでない限り（ステップＳ２３が否定）、次のデー
タ入力を行う。また、雑音外と判定された場合（ステッ
プＳ３０が否定）は、次の処理（ステップ１２）へ進
み、音楽か音声の判定を行う。

【００３７】音楽か音声の判定処理に進むと、メモリ５
から全サブバンドエネルギー和演算部７にＳi,j(n)が入
力され、全サブバンドエネルギー和演算部７では、図６
の（４）式に従って、全サブバンドのエネルギー和ＳＥ
(i,j) を計算し、２値化演算部８（ステップ１３）に入
力する。ＳＥ(i,j) は３２バンド分のＳi,j(n)のエネル
ギーの累積和である。２値化演算部８では、図６の
（５）式に従って、ＳＥ(i,j) を２値化して、数列ＮＳ
(i,j) を計算する。Ｔh1は予め定められた２値化のため
の閾値である。

【００３８】２値化演算部８で得られた２値化数列ＮＳ
(i,j) は２値化数列分散演算部９（ステップ１４）に入
力する。２値化数列分散演算部９では、２値化数列の単
位時間内の分散σ_ｓ ^２を図６の（６）式にしたがっ
て計算し、音楽音声識別部１４に入力する（ステップ１
５）。σ_ｓ ^２はＮＳ(i,j) が０となるサンプル数の
分散で、音声区間では断続性が強いため、該分散値は音
楽区間に比べて大きくなる。

【００３９】音楽音声識別部１４では、入力された２値
化数列分散σ_ｓ ^２に対してBayes 決定ルールに基づ
いた正規分布の場合の識別関数（１０）式を用いて、音
楽、音声の判別が行われる。ここで、クラスは音楽、音
声の２つのクラスに分類する。また、入力ベクトルｘは
（σ_ｓ ^２）の要素で構成される。さらに、（１０）
式におけるｍk,ｃk,ｐ( ωk)は、トレーニングデータを
用いて、予め求めておくことができる。判定は、入力ベ
クトルに対して、最も大きなｆk(x)を与えるクラスｋが
求める判別クラスとなり、結果を出力する。

【００４０】以上のように、前記第１、第２実施形態に
よれば、圧縮符号化されたオーディオの符号化データか
ら無音／有音を判別し、有音の場合、音楽区間、音声区
間、雑音区間を区別し、それぞれのタイムコードを図示
されていない音声区間保持部、音楽区間保持部、雑音区
間保持部のそれぞれに記録させることができる。

【００４１】さらに、本発明は圧縮されていないオーデ
ィオ情報の分類に関しても適用できる。その場合の実施
形態を以下に説明する。

【００４２】圧縮符号化されていないオーディオ情報を
扱う場合は、図１の可変長復号部１およびサブバンドデ
ータサブサンプリング部２は高速フーリエ変換部（以下
ＦＦＴ変換部）に置き換えられる。元のオーディオ情報
からこのＦＦＴ変換部において、図１２にあるようなＦ
ＦＴ変換を行い、単位時間分の周波数データを抽出す
る。今、該単位時間を１秒とすると、元のオーディオ信
号ｐからサンプリングした２０４８個のサンプルをＦＦ
Ｔ変換し、それを時間的にサンプルをずらしながら３８
回繰り返して合計２０４８×３８個のＦＦＴデータを単
位時間分の周波数データとしている。

【００４３】その後、各フレームのエネルギー分散、エ
ネルギー重心演算の平均および分散、エネルギー和の２
値化後の数列分散を計算して、無音／有音、音楽、音
声、雑音の判定を行う。

【００４４】

【発明の効果】以上の説明から明らかなように、本発明
によれば、圧縮符号化されたあるいは圧縮符号化されて
いないオーディオデータから、符号化データ上で、オー
ディオ情報を有音／無音、音楽／音声／雑音区間に分類
することが可能である。

【００４５】本発明を実際に動作させ、MPEG1 レイヤII
で符号化された１５分間のテレビ番組を用いて１秒毎の
分類を行ったところ、無音の判定は９２％、音声区間の
検出は９９％、音楽区間は７５％、雑音区間は７４％程
度検出することが可能になった。

【図面の簡単な説明】

【図１】本発明の一実施形態の構成を示すブロック図
である。

【図２】本実施形態の動作を示すフローチャートであ
る。

【図３】図２の続きのフローチャートである。

【図４】 MPEGオーディオ符号化データの構造を説明す
るための図である。

【図５】図１のザブバンドデータサブサンプリング部
の動作を説明するための図である。

【図６】本実施形態で使用される数式を表す図であ
る。

【図７】本実施形態で使用される数式を表す図であ
る。

【図８】音声および音楽の正規化前および正規化後の
波形図である。

【図９】雑音のサブバンド重心の平均を表す図であ
る。

【図１０】本発明の第２実施形態の構成を示すブロッ
ク図である。

【図１１】第２実施形態の要部の動作を示すフローチ
ャートである。

【図１２】符号化されていないオーディオ情報の周波
数データの抽出方法を説明するための図である。

【図１３】従来のオーディオ情報分類装置の構成を示
すブロック図である。

【符号の説明】

１…可変長復号部、２…ザブバンドデータサブサンプリ
ング部、３…エネルギー分散演算部、４…有音判定部、
５…メモリ、６…制御部、７…全サブバンドエネルギー
和演算部、８…２値化演算部、９…２値化数列分散演算
部、１０…オーディオ情報識別部、１１…サブバンドエ
ネルギー重心演算部、１２…エネルギー重心平均・分散
演算部、１３…雑音識別部、１４…音楽音声識別部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者米山暁夫東京都新宿区西新宿２丁目３番２号国際電信電話株式会社内 (72)発明者柳原広昌東京都新宿区西新宿２丁目３番２号国際電信電話株式会社内

Claims

【特許請求の範囲】

【請求項１】オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、入力されたオーディオ情報から単位時間ごとの周波数デ
ータを抽出するオーディオ周波数データ抽出手段と、抽出した単位時間ごとの周波数データのエネルギーの分
散を求め、分散値の大きさにより無音／有音区間を判定
する無音／有音判定手段とを具備することを特徴とする
オーディオ情報分類装置。
【請求項２】請求項１に記載のオーディオ情報分類装
置において、前記オーディオ周波数データ抽出手段によって抽出され
る単位時間ごとの周波数データは、入力されたオーディ
オ情報がMPEGデータである場合、単位時間分のMPEG符号
化データにおける最低周波数成分のエネルギーの分散を
利用することを特徴とするオーディオ情報分類装置。
【請求項３】オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と有音区間における音の疎密度により音声で
あるか音楽であるかを判定する音声／音楽区間判定手段
とを具備することを特徴とするオーディオ情報分類装
置。
【請求項４】請求項３に記載のオーディオ情報分類装
置において、疎密度はオーディオ信号のエネルギーの大きさによって
２値化された数列の分散を用いて疎密度を判定すること
を特徴とするオーディオ情報分類装置。
【請求項５】請求項４に記載のオーディオ情報分類装
置において、前記オーディオ信号のエネルギーは、入力されたオーデ
ィオ情報がMPEGデータである場合、単位時間分のMPEG符
号化データにおける全周波数成分のエネルギー和を利用
することを特徴とするオーディオ情報分類装置。
【請求項６】請求項３ないし請求項５のいずれかに記
載のオーディオ情報分類装置において、前記音声／音楽区間判定手段は疎密度を特徴ベクトルと
したBayes 決定則を用いて、テストデータに対して音楽
と音声区間の共分散行列を求めておき、入力データに対
して正規分布パターンにおけるBayes 決定識別関数を用
いて各音楽区間と音声区間の判別を行うことを特徴とす
るオーディオ情報分類装置。
【請求項７】オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と入力されたオーディオ情報から有音時の単
位時間ごとの周波数データを抽出するオーディオ周波数
データ抽出手段と、オーディオ周波数データから単位時間における周波数の
重心の平均と重心の標準偏差を求め、周波数の重心の分
布により雑音区間か否かを判別する雑音区間抽出手段を
具備することを特徴とするオーディオ情報分類装置。
【請求項８】請求項７に記載のオーディオ情報分類装
置において、前記オーディオ周波数データ抽出手段によって抽出され
る単位時間ごとの周波数データは、入力されたオーディ
オ情報がMPEGデータである場合、単位時間分のMPEG符号
化データにおける周波数成分のエネルギーの重心を利用
することを特徴とするオーディオ情報分類装置。
【請求項９】請求項７又は８に記載のオーディオ情報
分類装置において、前記雑音抽出手段は、周波数成分の重心の平均と分散を
特徴ベクトルとしたBayes 決定則を用いて、テストデー
タに対して雑音と雑音以外の共分散行列を求めておき、
入力データに対して正規分布パターンにおけるBayes 決
定識別関数を用いて各雑音区間と非雑音区間の判別を行
うことを特徴とするオーディオ情報分類装置。
【請求項１０】オーディオ情報から音声区間と音楽区
間を分類するオーディオ情報分類装置において、入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と、入力されたオーディオ情報から有音時の単位時間ごとの
周波数データを抽出するオーディオ周波数データ抽出手
段と、オーディオ周波数データの単位時間における疎密度およ
び単位時間における周波数の重心の平均と重心の標準偏
差を特徴ベクトルとしたBayes 決定則を用いて、テスト
データに対して音声と音楽と雑音の共分散行列を求めて
おき、入力データに対して正規分布パターンにおけるBa
yes 決定識別関数を用いて音声、音楽、雑音区間の判別
を行うことを特徴とする音声／音楽／雑音区間判別手段
を具備することを特徴とするオーディオ情報分類装置。
【請求項１１】オーディオ情報から音声区間と音楽区
間を分類するオーディオ情報分類装置において、入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段と、入力されたオーディオ情報から有音時の単位時間ごとの
周波数データを抽出するオーディオ周波数データ抽出手
段と、オーディオ周波数データの単位時間における周波数の重
心の平均と重心の標準偏差を特徴ベクトルとしたBayes
決定則を用いて、テストデータに対して雑音と雑音以外
の共分散行列を求めておき、入力データに対して正規分
布パターンにおけるBayes 決定識別関数を用いて雑音と
雑音以外の区間の判別を行うことを特徴とする雑音区間
判別手段と、オーディオ周波数データの単位時間における疎密度を特
徴ベクトルとしたBayes 決定則を用いて、テストデータ
に対して音声と音楽の共分散行列を求めておき、前記、
雑音区間判別手段で雑音以外と判別された区間に対し
て、正規分布パターンにおけるBayes 決定識別関数を用
いて音声、音楽、雑音区間の判別を行うことを特徴とす
る音声／音楽区間判別手段を具備するオーディオ情報分
類装置。
【請求項１２】請求項３ないし請求項１１のいずれか
に記載のオーディオ情報分類装置において、入力されたオーディオ情報から有音部のみを抽出する有
音抽出手段は、請求項１または２に示された有音判定手
段を用いることを特徴とするオーディオ情報分類装置。