JP2000066691A - オーディオ情報分類装置 - Google Patents

オーディオ情報分類装置

Info

Publication number
JP2000066691A
JP2000066691A JP10235543A JP23554398A JP2000066691A JP 2000066691 A JP2000066691 A JP 2000066691A JP 10235543 A JP10235543 A JP 10235543A JP 23554398 A JP23554398 A JP 23554398A JP 2000066691 A JP2000066691 A JP 2000066691A
Authority
JP
Japan
Prior art keywords
audio information
music
section
noise
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10235543A
Other languages
English (en)
Inventor
Yasuyuki Nakajima
康之 中島
Masaru Sugano
勝 菅野
Akio Yoneyama
暁夫 米山
Hiromasa Yanagihara
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDD Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDD Corp filed Critical KDD Corp
Priority to JP10235543A priority Critical patent/JP2000066691A/ja
Publication of JP2000066691A publication Critical patent/JP2000066691A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 簡単かつ高速に、無音/有音区間の判別、音
楽区間と音声区間、あるいは音楽区間と音声区間と雑音
区間に分類することを可能とするオーディオ情報分類装
置を提供することにある。 【解決手段】 有音判定部4はエネルギー分散演算部3
で求められた値σ が閾値より大きい時有音と判定
する。有音と判定されると、メモリ5に格納されていた
オーディオ情報が読み出されて、全サブバンドエネルギ
ー和演算部7とサブバンドエネルギー重心演算部11に
入力される。前記演算部7の出力は2値化演算部8で2
値化され、2値化数列分散演算部9で2値化数列の単位
時間内の分散σ が求められる。一方、エネルギ
ー重心平均・分散演算部12はエネルギー重心平均Eg
と分散σ を求める。オーディオ情報識別部10
は、前記分散σ 、エネルギー重心平均Eg 、お
よび分散σ に対して識別関数を用いて、雑音、
音楽、音声の判別を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はオーディオ情報の分
類装置に関し、特に符号化されていない元のままのオー
ディオ情報あるいは符号化されたオーディオ情報のいず
れからも、簡単かつ高速に、音声区間と音楽区間、ある
いは音声区間と音楽区間と雑音区間を分類できるオーデ
ィオ情報の分類装置に関する。
【0002】
【従来の技術】インターネットに代表されるように、分
散したデータベースに、テキストのみならず音声や映像
情報が蓄積される技術分野においては、マルチメディア
情報を効果的にインデックスする方法が必要とされてい
る。このうちオーディオ信号を分類する手法について
は、オーディオ信号を音楽や音声区間に分類すること
で、おおまかなインデックスが可能になる。例えば、E.
ScheirerとM.Slaneyの"Construction and evaluation o
f a robust multifeature speech/music discriminato
r, Proceedings of IEEE ICASSP, pp.1331-1334, 1997
ではオーディオ信号について4Hz 成分、フレーム間ス
ペクトル差分、パルス検出の3つの特徴パラメータを利
用してBayes 決定法などの識別関数により音声と音楽の
判別を行っている。
【0003】図13は前記分類を行う手法の説明図であ
る。オーディオ信号Aは4Hz帯域フィルタ21、周波
数変換部22、およびサブバンド分割部23に入力す
る。4Hz帯域フィルタ21はオーディオ信号Aの4H
z成分を抽出し、4Hz帯域エネルギ演算部24に出力
する。周波数変換部22はオーディオ信号Aをスペクト
ル分析し、フレーム間スペクトル差分演算部25に出力
する。また、サブバンド分割部23でサブバンド分割さ
れたオーディオ信号Aは、包絡線ピーク検出部26に出
力される。
【0004】一般に、4Hz成分については、音声信号
ではこの周波数成分が特に強く出現する特徴がある。フ
レーム間のスペクトル差分については、音楽のように変
化の激しい場合に大きくなる特徴がある。さらに,パル
ス検出は入力信号を各周波数帯域(サブバンド)に分け
包絡線のピークを検出する。音楽のようにリズムのある
オーディオ信号では全ての帯域において周期的にこのピ
ークが現れる。
【0005】オーディオ情報識別部27は、前記の4H
z 成分、フレーム間スペクトル差分、パルス検出の3つ
の特徴パラメータを利用して、Bayes 決定法などの識別
関数により音声と音楽の判別を行う。なお、入力してく
るオーディオ信号が圧縮符号化されたオーディオ信号で
ある場合には、図示されていない復号処理部で復号し
て、前記4Hz帯域フィルタ21、周波数変換部22お
よびサブバンド分割部23に送出する。
【0006】
【発明が解決しようとする課題】しかしながら、前記の
従来技術は、圧縮符号化されたオーディオ信号から音楽
区間、音声区間を検出する場合には、一旦圧縮されたデ
ータを復号してアナログのオーディオ信号Aに戻してか
ら検出処理を行うことになり、処理時間も大幅に増加す
るという問題点がある。
【0007】また、雑音成分の除去についてはなんら触
れておらず、雑音成分を除いた音声や音楽区間の判別が
できないという問題がある。換言すれば、雑音成分も音
声や音楽区間に含められてしまうという問題がある。
【0008】本発明の目的は、前記した従来技術の問題
点に鑑み、符号化されていない元のままのオーディオ情
報あるいは圧縮符号化されたオーディオ情報のいずれか
らも、簡単かつ高速に、無音/有音区間の判別、音楽区
間と音声区間、あるいは音楽区間と音声区間と雑音区間
に分類することを可能とするオーディオ情報分類装置を
提供することにある。他の目的は、雑音区間を除去し
て、音楽区間、音声区間を検出することが可能なオーデ
ィオ情報分類装置を提供することにある。
【0009】
【課題を解決するための手段】前記した目的を達成する
ために、本発明は、入力されたオーディオ情報から単位
時間ごとの周波数データを抽出するオーディオ周波数デ
ータ抽出手段と、抽出した単位時間ごとの周波数データ
のエネルギーの分散を求め、分散値の大きさにより無音
/有音区間を判定する無音/有音判定手段とを具備した
点に第1の特徴がある。
【0010】また、入力されたオーディオ情報から有音
部のみを抽出する有音抽出手段と、有音区間における音
の疎密度により音声であるか音楽であるかを判定する音
声/音楽区間判定手段とを具備した点に第2の特徴があ
る。
【0011】また、入力されたオーディオ情報から有音
部のみを抽出する有音抽出手段と、入力されたオーディ
オ情報から単位時間ごとの周波数データを抽出するオー
ディオ周波数データ抽出手段と、オーディオ周波数デー
タから単位時間における周波数の重心の平均と重心の標
準偏差を求め、周波数の重心の分布により雑音区間か否
かを判別する雑音区間抽出手段を具備した点に第3の特
徴がある。
【0012】さらに、オーディオ周波数データの単位時
間における疎密度および単位時間における周波数の重心
の平均と重心の標準偏差を特徴ベクトルとしたBayes 決
定則を用いて、テストデータに対して音声と音楽と雑音
の共分散行列を求めておき、入力データに対して正規分
布パターンにおけるBayes 決定識別関数を用いて音声、
音楽、雑音区間の判別を行う音声/音楽/雑音区間判別
手段を具備した点に第4の特徴がある。
【0013】さらに、オーディオ周波数データの単位時
間における周波数の重心の平均と重心の標準偏差を特徴
ベクトルとしたBayes 決定則を用いて、テストデータに
対して雑音と雑音以外の共分散行列を求めておき、入力
データに対して正規分布パターンにおけるBayes 決定識
別関数を用いて雑音と雑音以外の区間の判別を行うこと
を特徴とする雑音区間判別手段と、オーディオ周波数デ
ータの単位時間における疎密度を特徴ベクトルとしたBa
yes 決定則を用いて、テストデータに対して音声と音楽
の共分散行列を求めておき、前記、雑音区間判別手段で
雑音以外と判別された区間に対して、正規分布パターン
におけるBayes 決定識別関数を用いて音声、音楽、雑音
区間の判別を行うことを特徴とする音声/音楽区間判別
手段を具備した点に第5の特徴がある。
【0014】本発明によれば、符号化されていないもと
のままのオーディオ情報、あるいは符号化されたオーデ
ィオ情報のいずれからも、簡単かつ高速に、無音/有音
区間の判別、あるいは音声区間、音楽区間、雑音区間を
分類することが可能になる。
【0015】
【発明の実施の形態】以下に、図面を参照して、本発明
を詳細に説明する。この実施形態は動画像および音声符
号化の国際標準であるMPEG1(ISO/IEC 11172 )および
MPEG2(ISO/IEC 13818)により圧縮されたオーディオ符号
化データを用いて音声、音楽、雑音区間を分類するもの
であるが、本発明はこれに限定されるものではない。図
1は本発明のオーディオ情報分類装置の一実施形態のブ
ロック図を示す。また、図2は本実施形態の動作を説明
するフローチャートである。
【0016】図1に示されているように、圧縮符号化さ
れたオーディオ符号化データaは可変長復号部1に入力
される。ここで、圧縮符号化されたオーディオの符号化
データ構造について、MPEG1 レイヤーIIを例にして図4
を参照して説明する。MPEG1 では図示されているよう
に、元のオーディオ信号pからサンプリングした512
個のPCMサンプルをサブバンド符号化して、32個の
サブバンドデータPi(n) (n=0,1,...,31) を作り、それ
を時間的にサンプルをずらしながら36回(i=0,1,...,3
5)繰り返して合計1152個のサブバンドデータを作
り、この1152個のサブバンドデータを1フレームの
符号化データQとしている。
【0017】前記した構造の符号化データQが前記可変
長復号部1に連続して入力してくると、該可変長復号部
1にはこれを各フレームのサブバンドデータに復号し、
サブバンドデータサンプリング部2に出力する。いま、
ある単位時間を1秒とすると、この1秒は図5のaのよ
うに38フレームから構成されているので、可変長復号
部1は1秒分の符号化データに対し、同図のbのように
38個の32サブバンド×36サンプルを出力する。
【0018】サブバンドデータサンプリング部2では、
図5のcに示されているように、単位時間(例えば1
秒)分のサブバンドデータのうち、各フレームiのj番
目(j=0,1,...,35 は1フレーム内のサンプル数) にある
サブバンドデータSij(n)(i=0,1,...,37は単位時間内の
フレーム数) を抽出し、図1のエネルギー分散演算部3
およびメモリ5に入力する。該サブバンドデータサンプ
リング部2は、入力されたオーディオ情報から単位時間
ごとの周波数データを抽出するオーディオ周波数データ
抽出手段と呼ぶことができる。
【0019】以上の動作は、図2では、ステップS1〜
S9で行われる。ステップS1では、フレーム番号を表
すiが0と置かれ、ステップS2ではサブバンド番号を
表すnが0と置かれる。ステップS3では、可変長復号
部1にて符号化データが可変長復号され、ステップS4
ではiフレーム目のjサンプル目のサブバンドデータS
i,j(n)が抽出される。次に、ステップS5にてn=32
が成立するか否かの判断がなされ、この判断が否定のと
きはステップS6に進んでnに1が加算される。そして
ステップS3に戻って前記と同様の処理が行われる。以
上のステップS3〜S6の処理が繰り返して行われて、
ステップS5の判定が肯定となると、サブバンドデータ
サンプリング部2から、フレームi、サンプルjのサブ
バンドデータSi,j(n)が抽出されたことになる。
【0020】ステップS5の判断が肯定になるとステッ
プS7に進み、iに1が加算される。次にステップ8に
進み、i=Nf が成立するか否かの判断がなされる。こ
こで、Nf は単位時間内のフレーム数である。この判断
が否定の場合はステップS2に戻り、再びn=0とされ
て、再度前記した処理が行われる。以上の処理が繰り返
し行われ、ステップS8の判断が肯定になると、i=0
〜(Nf −1)フレームの各j番目のサンプルのサブバ
ンドデータSi,j(n)が抽出されたことになり、ステップ
S9にてこれらのサブバンドデータSi,j(n)は図1の各
フレームのエネルギー分散演算部3およびメモリ5へ転
送される。
【0021】エネルギー分散演算部3では、図6の
(1)および(2)式に従って、単位時間当たりのエネ
ルギー分散σ を計算し、有音判定部4に入力す
る。なお、(1)式で、Nf は単位時間内のフレーム
数、Nj は1フレーム中のサンプル数で、例えばNj を
1とした場合、フレーム中の先頭のサンプルのみを用い
て計算することになり、処理の高速化を図ることが可能
である。また、サブサンプルデータSi,j(n)でn=0と
すると、低周波成分のみを用いてエネルギー分散σ
を計算することになり、この場合、高周波成分まで
を含んだ場合と同等な結果が得られ、処理時間も高速化
することが可能である。
【0022】有音判定部4では、入力された単位時間に
おける音声情報が無音であるか有音であるかを下記の
(3)式にしたがって判定し、条件に合う場合は有音で
あると判定する( ステップS11)。有音である場合
は、無音である場合に比べて、単位時間のエネルギー分
散が大きいから下記の(3)式が成立することになる。 σ >α (3) ここに、αは予め定められた第1の閾値である。
【0023】該有音判定部4において、入力された単位
時間のオーディオ情報が有音であると判断された場合に
は、メモリ5から該単位時間内の周波数データすなわち
サブバンドデータSi,j(n)を読み出して、全サブバンド
エネルギー和演算部7(図3のステップS12)とサブ
バンドエネルギー重心演算部11(ステップS16)に
入力する。この機能は、オーディオ周波数データ抽出手
段と呼ぶことができる。一方、無音であると判定された
場合には、以降のオーディオ情報判定処理を終了し、ス
テップS1に戻る。
【0024】全サブバンドエネルギー和演算部7では、
図6の(4)式に従って、全サブバンドのエネルギー和
SE(i,j) を計算し、2値化演算部8(ステップ13)
に入力する。SE(i,j) は32バンド分のSi,j(n)のエ
ネルギーの累積和である。2値化演算部8では、図6の
(5)式に従って、Th1を基にSE(i,j) を2値化し
て、数列NS(i,j) を計算する。Th1はあらかじめ定め
られた2値化のための閾値である。
【0025】音声と音楽の波形は図8のように、音声で
は断続した波形を持つのに対して、音楽では連続的な波
形となる。これらの波形を2値化(正規化)すると、図
8の右側の図から明らかなように、音の断続性がより明
確になる。すなわち、有音区間における音の疎密度によ
り音声であるか音楽であるかを判定できる。
【0026】2値化演算部8で得られた2値化数列NS
(i,j) は2値化数列分散演算部9(図3のステップS1
4)に入力する。2値化数列分散演算部9では、2値化
数列の単位時間内の分散σ を、図6の(6)式
に従って計算し、オーディオ情報識別部10に入力する
(ステップS15)。σ はNS(i,j) が0とな
るサンプル数の分散で、音声区間では断続性が強いた
め、該分散値は音楽区間に比べて大きくなる。この分散
は、音の疎密度を表している。
【0027】図6の(6)式で、MはNS(i,j) が単位
時間内に1から0に変化する数で、単位時間内の0連続
区間の個数を表す。また、Nns(k) はNS(i,j) が0の
場合の連続数で、音楽のようにリズムがある場合は時間
的な変化は小さい。
【0028】サブバンドエネルギー重心演算部11(ス
テップS16)では、図7の(7)式に従って、フレー
ムiにおけるサブバンド重心G(i) が計算され、エネル
ギー重心平均、分散演算部12(ステップS17)に入
力する。(7)式で、サブバンドの重心はすべてのサブ
バンドnについて、各フレーム内のサンプルjについて
計算されるが、エネルギー分散σ の場合と同様
に、Nj =1としても重心値に大きな変化がなく、すべ
てのサンプルについて計算する場合よりも処理時間を削
減することが可能である。
【0029】エネルギー重心平均、分散演算部12で
は、図7の(8)式および(9)式に従って単位時間内
の分散σ とエネルギー重心の平均Eg が計算さ
れ、オーディオ情報識別部10(ステップS18)に入
力する。図9は単位時間を1秒としたときのサブバンド
エネルギー重心の平均と分散の分布例であるが、歓声な
どの雑音は、音楽や音声などの他の音源と異なって、あ
る一定の領域aに集中している。
【0030】オーディオ情報識別部10では、入力され
た2値化数列分散σ 、サブバンドエネルギー重
心平均Eg および分散σ に対して、既知のBaye
s 決定ルールに基づいた正規分布の場合の識別関数(図
7の(10)式)を用いて、雑音、音楽、音声の判別が
行われる。ここで、クラスは雑音、音楽、音声の3つの
クラスに分類する。また、入力ベクトルxは(σ
2,,Eg, σ )の要素で構成される。なお、
(10)式におけるmk,ck,p( ωk)は、トレーニング
データを用いて、あらかじめ求めておくことができる。
判定は、入力ベクトルに対して、最も大きなfk(x)を与
えるクラスkが求める判別クラスとなり、結果を出力す
る。すなわち、トレーニングにより予め求められた各ク
ラス(雑音、音楽、音声)のデータmk,ck,p( ωk)を
(10)式に代入し、これに前記(6)(9)(8)式
で求められた入力ベクトルx(σ 2,,Eg, σ
)を入れて、各クラスの識別値fk(x)を求める。そ
して、該識別値fk(x)の一番大きいクラスが雑音であれ
ば雑音、音声であれば音声、音楽であれば音楽と判定す
る。なお、オーディオ情報識別部10は、K近傍決定
則,ゆう度検定,K−平均法,K−決定木法などのよう
な前記(10)式以外の他の式を用いてクラスの判別を
するようにしても良い。
【0031】次に、本発明の第2の実施形態について、
図10を参照して説明する。図10において、図1と同
一または同等物には同じ符号が付されている。図10の
可変長復号部1〜有音判定部4の動作(図2のステップ
S1〜S11)は前記第1実施形態と同じであるので、
説明を省略し、サブバンドエネルギー重心演算部11以
降の動作を、図11を参照して説明する。
【0032】有音判定部4において、入力された単位時
間のオーディオ情報が有音であると判断された場合に
は、メモリ5から単位時間内のサブバンドデータSi,j
(n)を読み出してサブバンドエネルギー重心演算部11
に入力する。一方、無音であると判定された場合には、
以降のオーディオ情報判定処理を終了し、ステップS1
に戻る。
【0033】サブバンドエネルギー重心演算部11(ス
テップS16)では、図7の(7)式に従って、フレー
ムiにおけるサブバンド重心G(i) が計算され、エネル
ギー重心平均、分散演算部12(ステップS17)に入
力する。(7)式で、サブバンドの重心は全てのサブバ
ンドnについて、各フレーム内のサンプルjについて計
算されるが、エネルギー分散σ の場合と同様
に、Nj =1としても重心値に大きく変化がなく、すべ
てのサンプルについて計算する場合よりも処理時間を削
減することが可能である。
【0034】エネルギー重心平均、分散演算部12では
(8)式および(9)式に従って単位時間内の分散σ
とエネルギー重心の平均Eg が計算され、雑音
識別部13(ステップS18)に入力する。
【0035】雑音識別部13では、入力されたサブバン
ドエネルギー重心平均Egおよび分散σ に対して
Bayes 決定ルールに基づいた正規分布の場合の識別関数
(10)式を用いて、雑音か否かの判別が行われる。こ
こで、クラスは雑音と雑音外の2つに分類する。また、
入力ベクトルxは(Eg, σ )の要素で構成さ
れる。(10)式におけるmk,ck,p( ωk)は、トレー
ニングデータを用いて予め求めておくことができる。判
定は、入力ベクトルに対して、最も大きなfk(x)を与え
るクラスkが求める判別クラスとなり、結果を出力す
る。
【0036】ここで、雑音と判定された場合(ステップ
S30が肯定)は、雑音である旨の結果を出力後、最終
データでない限り(ステップS23が否定)、次のデー
タ入力を行う。また、雑音外と判定された場合(ステッ
プS30が否定)は、次の処理(ステップ12)へ進
み、音楽か音声の判定を行う。
【0037】音楽か音声の判定処理に進むと、メモリ5
から全サブバンドエネルギー和演算部7にSi,j(n)が入
力され、全サブバンドエネルギー和演算部7では、図6
の(4)式に従って、全サブバンドのエネルギー和SE
(i,j) を計算し、2値化演算部8(ステップ13)に入
力する。SE(i,j) は32バンド分のSi,j(n)のエネル
ギーの累積和である。2値化演算部8では、図6の
(5)式に従って、SE(i,j) を2値化して、数列NS
(i,j) を計算する。Th1は予め定められた2値化のため
の閾値である。
【0038】2値化演算部8で得られた2値化数列NS
(i,j) は2値化数列分散演算部9(ステップ14)に入
力する。2値化数列分散演算部9では、2値化数列の単
位時間内の分散σ を図6の(6)式にしたがっ
て計算し、音楽音声識別部14に入力する(ステップ1
5)。σ はNS(i,j) が0となるサンプル数の
分散で、音声区間では断続性が強いため、該分散値は音
楽区間に比べて大きくなる。
【0039】音楽音声識別部14では、入力された2値
化数列分散σ に対してBayes 決定ルールに基づ
いた正規分布の場合の識別関数(10)式を用いて、音
楽、音声の判別が行われる。ここで、クラスは音楽、音
声の2つのクラスに分類する。また、入力ベクトルxは
(σ )の要素で構成される。さらに、(10)
式におけるmk,ck,p( ωk)は、トレーニングデータを
用いて、予め求めておくことができる。判定は、入力ベ
クトルに対して、最も大きなfk(x)を与えるクラスkが
求める判別クラスとなり、結果を出力する。
【0040】以上のように、前記第1、第2実施形態に
よれば、圧縮符号化されたオーディオの符号化データか
ら無音/有音を判別し、有音の場合、音楽区間、音声区
間、雑音区間を区別し、それぞれのタイムコードを図示
されていない音声区間保持部、音楽区間保持部、雑音区
間保持部のそれぞれに記録させることができる。
【0041】さらに、本発明は圧縮されていないオーデ
ィオ情報の分類に関しても適用できる。その場合の実施
形態を以下に説明する。
【0042】圧縮符号化されていないオーディオ情報を
扱う場合は、図1の可変長復号部1およびサブバンドデ
ータサブサンプリング部2は高速フーリエ変換部(以下
FFT変換部)に置き換えられる。元のオーディオ情報
からこのFFT変換部において、図12にあるようなF
FT変換を行い、単位時間分の周波数データを抽出す
る。今、該単位時間を1秒とすると、元のオーディオ信
号pからサンプリングした2048個のサンプルをFF
T変換し、それを時間的にサンプルをずらしながら38
回繰り返して合計2048×38個のFFTデータを単
位時間分の周波数データとしている。
【0043】その後、各フレームのエネルギー分散、エ
ネルギー重心演算の平均および分散、エネルギー和の2
値化後の数列分散を計算して、無音/有音、音楽、音
声、雑音の判定を行う。
【0044】
【発明の効果】以上の説明から明らかなように、本発明
によれば、圧縮符号化されたあるいは圧縮符号化されて
いないオーディオデータから、符号化データ上で、オー
ディオ情報を有音/無音、音楽/音声/雑音区間に分類
することが可能である。
【0045】本発明を実際に動作させ、MPEG1 レイヤII
で符号化された15分間のテレビ番組を用いて1秒毎の
分類を行ったところ、無音の判定は92%、音声区間の
検出は99%、音楽区間は75%、雑音区間は74%程
度検出することが可能になった。
【図面の簡単な説明】
【図1】 本発明の一実施形態の構成を示すブロック図
である。
【図2】 本実施形態の動作を示すフローチャートであ
る。
【図3】 図2の続きのフローチャートである。
【図4】 MPEGオーディオ符号化データの構造を説明す
るための図である。
【図5】 図1のザブバンドデータサブサンプリング部
の動作を説明するための図である。
【図6】 本実施形態で使用される数式を表す図であ
る。
【図7】 本実施形態で使用される数式を表す図であ
る。
【図8】 音声および音楽の正規化前および正規化後の
波形図である。
【図9】 雑音のサブバンド重心の平均を表す図であ
る。
【図10】 本発明の第2実施形態の構成を示すブロッ
ク図である。
【図11】 第2実施形態の要部の動作を示すフローチ
ャートである。
【図12】 符号化されていないオーディオ情報の周波
数データの抽出方法を説明するための図である。
【図13】 従来のオーディオ情報分類装置の構成を示
すブロック図である。
【符号の説明】
1…可変長復号部、2…ザブバンドデータサブサンプリ
ング部、3…エネルギー分散演算部、4…有音判定部、
5…メモリ、6…制御部、7…全サブバンドエネルギー
和演算部、8…2値化演算部、9…2値化数列分散演算
部、10…オーディオ情報識別部、11…サブバンドエ
ネルギー重心演算部、12…エネルギー重心平均・分散
演算部、13…雑音識別部、14…音楽音声識別部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 米山 暁夫 東京都新宿区西新宿2丁目3番2号 国際 電信電話株式会社内 (72)発明者 柳原 広昌 東京都新宿区西新宿2丁目3番2号 国際 電信電話株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 オーディオ情報から音声区間と音楽区間
    を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から単位時間ごとの周波数デ
    ータを抽出するオーディオ周波数データ抽出手段と、 抽出した単位時間ごとの周波数データのエネルギーの分
    散を求め、分散値の大きさにより無音/有音区間を判定
    する無音/有音判定手段とを具備することを特徴とする
    オーディオ情報分類装置。
  2. 【請求項2】 請求項1に記載のオーディオ情報分類装
    置において、 前記オーディオ周波数データ抽出手段によって抽出され
    る単位時間ごとの周波数データは、入力されたオーディ
    オ情報がMPEGデータである場合、単位時間分のMPEG符号
    化データにおける最低周波数成分のエネルギーの分散を
    利用することを特徴とするオーディオ情報分類装置。
  3. 【請求項3】 オーディオ情報から音声区間と音楽区間
    を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
    音抽出手段と有音区間における音の疎密度により音声で
    あるか音楽であるかを判定する音声/音楽区間判定手段
    とを具備することを特徴とするオーディオ情報分類装
    置。
  4. 【請求項4】 請求項3に記載のオーディオ情報分類装
    置において、 疎密度はオーディオ信号のエネルギーの大きさによって
    2値化された数列の分散を用いて疎密度を判定すること
    を特徴とするオーディオ情報分類装置。
  5. 【請求項5】 請求項4に記載のオーディオ情報分類装
    置において、 前記オーディオ信号のエネルギーは、入力されたオーデ
    ィオ情報がMPEGデータである場合、単位時間分のMPEG符
    号化データにおける全周波数成分のエネルギー和を利用
    することを特徴とするオーディオ情報分類装置。
  6. 【請求項6】 請求項3ないし請求項5のいずれかに記
    載のオーディオ情報分類装置において、 前記音声/音楽区間判定手段は疎密度を特徴ベクトルと
    したBayes 決定則を用いて、テストデータに対して音楽
    と音声区間の共分散行列を求めておき、入力データに対
    して正規分布パターンにおけるBayes 決定識別関数を用
    いて各音楽区間と音声区間の判別を行うことを特徴とす
    るオーディオ情報分類装置。
  7. 【請求項7】 オーディオ情報から音声区間と音楽区間
    を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
    音抽出手段と入力されたオーディオ情報から有音時の単
    位時間ごとの周波数データを抽出するオーディオ周波数
    データ抽出手段と、 オーディオ周波数データから単位時間における周波数の
    重心の平均と重心の標準偏差を求め、周波数の重心の分
    布により雑音区間か否かを判別する雑音区間抽出手段を
    具備することを特徴とするオーディオ情報分類装置。
  8. 【請求項8】 請求項7に記載のオーディオ情報分類装
    置において、 前記オーディオ周波数データ抽出手段によって抽出され
    る単位時間ごとの周波数データは、入力されたオーディ
    オ情報がMPEGデータである場合、単位時間分のMPEG符号
    化データにおける周波数成分のエネルギーの重心を利用
    することを特徴とするオーディオ情報分類装置。
  9. 【請求項9】 請求項7又は8に記載のオーディオ情報
    分類装置において、 前記雑音抽出手段は、周波数成分の重心の平均と分散を
    特徴ベクトルとしたBayes 決定則を用いて、テストデー
    タに対して雑音と雑音以外の共分散行列を求めておき、
    入力データに対して正規分布パターンにおけるBayes 決
    定識別関数を用いて各雑音区間と非雑音区間の判別を行
    うことを特徴とするオーディオ情報分類装置。
  10. 【請求項10】 オーディオ情報から音声区間と音楽区
    間を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
    音抽出手段と、 入力されたオーディオ情報から有音時の単位時間ごとの
    周波数データを抽出するオーディオ周波数データ抽出手
    段と、 オーディオ周波数データの単位時間における疎密度およ
    び単位時間における周波数の重心の平均と重心の標準偏
    差を特徴ベクトルとしたBayes 決定則を用いて、テスト
    データに対して音声と音楽と雑音の共分散行列を求めて
    おき、入力データに対して正規分布パターンにおけるBa
    yes 決定識別関数を用いて音声、音楽、雑音区間の判別
    を行うことを特徴とする音声/音楽/雑音区間判別手段
    を具備することを特徴とするオーディオ情報分類装置。
  11. 【請求項11】 オーディオ情報から音声区間と音楽区
    間を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
    音抽出手段と、 入力されたオーディオ情報から有音時の単位時間ごとの
    周波数データを抽出するオーディオ周波数データ抽出手
    段と、 オーディオ周波数データの単位時間における周波数の重
    心の平均と重心の標準偏差を特徴ベクトルとしたBayes
    決定則を用いて、テストデータに対して雑音と雑音以外
    の共分散行列を求めておき、入力データに対して正規分
    布パターンにおけるBayes 決定識別関数を用いて雑音と
    雑音以外の区間の判別を行うことを特徴とする雑音区間
    判別手段と、 オーディオ周波数データの単位時間における疎密度を特
    徴ベクトルとしたBayes 決定則を用いて、テストデータ
    に対して音声と音楽の共分散行列を求めておき、前記、
    雑音区間判別手段で雑音以外と判別された区間に対し
    て、正規分布パターンにおけるBayes 決定識別関数を用
    いて音声、音楽、雑音区間の判別を行うことを特徴とす
    る音声/音楽区間判別手段を具備するオーディオ情報分
    類装置。
  12. 【請求項12】 請求項3ないし請求項11のいずれか
    に記載のオーディオ情報分類装置において、 入力されたオーディオ情報から有音部のみを抽出する有
    音抽出手段は、請求項1または2に示された有音判定手
    段を用いることを特徴とするオーディオ情報分類装置。
JP10235543A 1998-08-21 1998-08-21 オーディオ情報分類装置 Pending JP2000066691A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10235543A JP2000066691A (ja) 1998-08-21 1998-08-21 オーディオ情報分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10235543A JP2000066691A (ja) 1998-08-21 1998-08-21 オーディオ情報分類装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005153911A Division JP4201204B2 (ja) 2005-05-26 2005-05-26 オーディオ情報分類装置

Publications (1)

Publication Number Publication Date
JP2000066691A true JP2000066691A (ja) 2000-03-03

Family

ID=16987547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10235543A Pending JP2000066691A (ja) 1998-08-21 1998-08-21 オーディオ情報分類装置

Country Status (1)

Country Link
JP (1) JP2000066691A (ja)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244694A (ja) * 2001-02-15 2002-08-30 Telecommunication Advancement Organization Of Japan 字幕送出タイミング検出装置
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006524359A (ja) * 2003-04-24 2006-10-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
JP2007079127A (ja) * 2005-09-14 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体
JP2007122047A (ja) * 2005-10-28 2007-05-17 Samsung Electronics Co Ltd 音声信号検出システム及び方法
JP2007322598A (ja) * 2006-05-31 2007-12-13 Victor Co Of Japan Ltd 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
WO2008106852A1 (fr) * 2007-03-02 2008-09-12 Huawei Technologies Co., Ltd. Méthode et dispositif de classification d'un signal audio sans bruit
WO2008126347A1 (ja) 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
JP2008544328A (ja) * 2005-06-20 2008-12-04 マイクロソフト コーポレーション クリーン音声の事前分布を使用した多感覚応用の音声強調
JP2009008836A (ja) * 2007-06-27 2009-01-15 Nippon Telegr & Teleph Corp <Ntt> 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009058970A (ja) * 2006-10-20 2009-03-19 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
EP2150046A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
EP2150040A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
JP2010191337A (ja) * 2009-02-20 2010-09-02 Yamaha Corp 楽曲処理装置、およびプログラム
WO2010113220A1 (ja) * 2009-04-02 2010-10-07 三菱電機株式会社 雑音抑圧装置
US7910820B2 (en) 2006-10-20 2011-03-22 Sony Corporation Information processing apparatus and method, program, and record medium
JP2013068975A (ja) * 2013-01-21 2013-04-18 Yamaha Corp 楽曲処理装置、およびプログラム
JP2016033677A (ja) * 2012-01-10 2016-03-10 株式会社東芝 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US9754603B2 (en) 2012-01-10 2017-09-05 Kabushiki Kaisha Toshiba Speech feature extraction apparatus and speech feature extraction method
US10679645B2 (en) 2015-11-18 2020-06-09 Fujitsu Limited Confused state determination device, confused state determination method, and storage medium
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58208796A (ja) * 1982-05-28 1983-12-05 岡村 史良 音声音楽識別方式
JPH04284499A (ja) * 1991-03-13 1992-10-09 Sanyo Electric Co Ltd 音声切出し方式
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH10508389A (ja) * 1994-07-18 1998-08-18 松下電器産業株式会社 音声検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58208796A (ja) * 1982-05-28 1983-12-05 岡村 史良 音声音楽識別方式
JPH04284499A (ja) * 1991-03-13 1992-10-09 Sanyo Electric Co Ltd 音声切出し方式
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH10508389A (ja) * 1994-07-18 1998-08-18 松下電器産業株式会社 音声検出装置

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244694A (ja) * 2001-02-15 2002-08-30 Telecommunication Advancement Organization Of Japan 字幕送出タイミング検出装置
JP4595098B2 (ja) * 2001-02-15 2010-12-08 独立行政法人情報通信研究機構 字幕送出タイミング検出装置
JP2006524359A (ja) * 2003-04-24 2006-10-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
JP4795934B2 (ja) * 2003-04-24 2011-10-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2008544328A (ja) * 2005-06-20 2008-12-04 マイクロソフト コーポレーション クリーン音声の事前分布を使用した多感覚応用の音声強調
JP2007079127A (ja) * 2005-09-14 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体
JP4520922B2 (ja) * 2005-09-14 2010-08-11 日本電信電話株式会社 データ形式判別方法、装置、プログラム、および記録媒体
JP4545729B2 (ja) * 2005-10-28 2010-09-15 三星電子株式会社 音声信号検出システム及び方法
US7739107B2 (en) 2005-10-28 2010-06-15 Samsung Electronics Co., Ltd. Voice signal detection system and method
JP2007122047A (ja) * 2005-10-28 2007-05-17 Samsung Electronics Co Ltd 音声信号検出システム及び方法
JP2007322598A (ja) * 2006-05-31 2007-12-13 Victor Co Of Japan Ltd 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
JP2009058970A (ja) * 2006-10-20 2009-03-19 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7910820B2 (en) 2006-10-20 2011-03-22 Sony Corporation Information processing apparatus and method, program, and record medium
WO2008106852A1 (fr) * 2007-03-02 2008-09-12 Huawei Technologies Co., Ltd. Méthode et dispositif de classification d'un signal audio sans bruit
WO2008126347A1 (ja) 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
JP4572218B2 (ja) * 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009008836A (ja) * 2007-06-27 2009-01-15 Nippon Telegr & Teleph Corp <Ntt> 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
EP2150040A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
EP2150046A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
JP2010191337A (ja) * 2009-02-20 2010-09-02 Yamaha Corp 楽曲処理装置、およびプログラム
WO2010113220A1 (ja) * 2009-04-02 2010-10-07 三菱電機株式会社 雑音抑圧装置
CN102356427A (zh) * 2009-04-02 2012-02-15 三菱电机株式会社 噪声抑制装置
CN102356427B (zh) * 2009-04-02 2013-10-30 三菱电机株式会社 噪声抑制装置
JP5535198B2 (ja) * 2009-04-02 2014-07-02 三菱電機株式会社 雑音抑圧装置
JP2016033677A (ja) * 2012-01-10 2016-03-10 株式会社東芝 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US9754603B2 (en) 2012-01-10 2017-09-05 Kabushiki Kaisha Toshiba Speech feature extraction apparatus and speech feature extraction method
JP2013068975A (ja) * 2013-01-21 2013-04-18 Yamaha Corp 楽曲処理装置、およびプログラム
US10679645B2 (en) 2015-11-18 2020-06-09 Fujitsu Limited Confused state determination device, confused state determination method, and storage medium
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих

Similar Documents

Publication Publication Date Title
JP2000066691A (ja) オーディオ情報分類装置
Chou et al. Robust singing detection in speech/music discriminator design
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
Lu et al. A robust audio classification and segmentation method
US7460994B2 (en) Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal
US20090076814A1 (en) Apparatus and method for determining speech signal
KR100661040B1 (ko) 정보 처리 장치 및 방법, 정보 기록 장치 및 방법, 기록 매체 및 제공 매체
Herre et al. Robust matching of audio signals using spectral flatness features
US8838452B2 (en) Effective audio segmentation and classification
JP2004530153A (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
CA2625378A1 (en) Neural network classifier for separating audio sources from a monophonic audio signal
GB2403881A (en) Automatic classification/identification of similarly compressed audio files
KR100763899B1 (ko) 앵커 샷 검출 방법 및 장치
JP4201204B2 (ja) オーディオ情報分類装置
US7747435B2 (en) Information retrieving method and apparatus
Kwon et al. Speaker change detection using a new weighted distance measure.
JP4392805B2 (ja) オーディオ情報分類装置
JP3607450B2 (ja) オーディオ情報分類装置
KR20080097684A (ko) 음성 및 음악을 실시간으로 분류하는 방법
Jarina et al. Rhythm detection for speech-music discrimination in mpeg compressed domain
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Velayatipour et al. A review on speech-music discrimination methods
JP4497485B2 (ja) オーディオ情報分類装置
RU2047912C1 (ru) Способ распознавания изолированных слов речи с адаптацией к диктору
US20020095297A1 (en) Device and method for processing audio information

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050623

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050701

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113