JPH10247093A - オーディオ情報分類装置 - Google Patents

オーディオ情報分類装置

Info

Publication number
JPH10247093A
JPH10247093A JP6559597A JP6559597A JPH10247093A JP H10247093 A JPH10247093 A JP H10247093A JP 6559597 A JP6559597 A JP 6559597A JP 6559597 A JP6559597 A JP 6559597A JP H10247093 A JPH10247093 A JP H10247093A
Authority
JP
Japan
Prior art keywords
audio information
section
data
unit time
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6559597A
Other languages
English (en)
Other versions
JP3607450B2 (ja
Inventor
Kiyono Ujihara
清乃 氏原
Yasuyuki Nakajima
康之 中島
Akio Yoneyama
暁夫 米山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP06559597A priority Critical patent/JP3607450B2/ja
Publication of JPH10247093A publication Critical patent/JPH10247093A/ja
Application granted granted Critical
Publication of JP3607450B2 publication Critical patent/JP3607450B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】 【課題】 音楽区間のみならず音声区間の検出もできる
オーディオ情報分類装置を提供することにある。 【解決手段】 第1に、入力されたオーディオ情報から
1秒毎の周波数データを抽出する。第2に、平均エネル
ギ演算部5は1秒間の平均エネルギを求め、1秒単位で
無音区間と有音区間の判定を行う。第3に有音区間であ
ると判定された区間に対して、エネルギ変化率演算部8
にて1秒毎のエネルギ変化率を求め、音声区間を抽出
し、音声区間保持部10にそのタイムコードを入力す
る。第4に、音声区間と判定されなかった区間に対し
て、平均バンドエネルギ比演算部11にて1秒毎の平均
バンドエネルギ比を求め、音楽区間を抽出し、音楽区間
保持部13にそのタイムコードを入力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はオーディオ情報の分
類装置に関し、特に、符号化されていない元のままのオ
ーディオ情報あるいは符号化されたオーディオ情報から
音声区間と音楽区間を分類できるオーディオ情報の分類
装置に関する。
【0002】
【従来の技術】オーディオに関する研究は、今までは、
周波数解析等を用いて計算機上に取り込まれた音声が何
であるかを認識する音声認識や、調音パラメータ等によ
って機械的に音声を合成する音声合成の分野に関する研
究が主流であり、オーディオをタイトルや内容によって
分類するインデクシングに関する研究はまだ少ない。イ
ンデクシングに関する研究報告としては、例えば、南、
阿久津らの“大量映像に対する効率的アクセスインター
フェース”、ITE Technical Report Vol.19,No.7,pp.1
ー6のように音楽区間を検出し、その情報を用いて音楽
が流れている動画像をインデクシングするものがある。
【0003】
【発明が解決しようとする課題】しかしながら、この研
究報告は、音声区間の検出に関しては何ら触れておら
ず、音声区間を検出することができないという問題があ
る。また、該研究報告は、音楽区間の検出に関しても、
周波数スペクトルのピークをLPCケプストラムによっ
て検出し、その平均持続時間を用いて音楽区間を検出し
ているため、圧縮符号化されたオーディオ情報からの検
出は不可能であるという問題がある。
【0004】本発明の目的は、前記した従来技術の問題
点に鑑み、音楽区間のみならず音声区間の検出もできる
オーディオ情報分類装置を提供することにある。他の目
的は、符号化されていないオーディオ情報および圧縮符
号化されたオーディオ符号化データの両方でオーディオ
情報を音楽区間と音声区間に分類することを可能にする
オーディオ情報分類装置を提供することを目的とする。
【0005】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、オーディオ情報から音声区間と音楽区間
を分類するオーディオ情報分類装置において、入力され
たオーディオ情報から単位時間ごとの周波数データを抽
出するオーディオ周波数データ抽出手段と、抽出した単
位時間ごとの周波数データを用いて、その区間が無音区
間か有音区間かを判定し有音区間のみを抽出する無音/
有音判定手段と、有音区間と判定された区間が音声であ
るか否かを判定する音声区間抽出手段と、有音と判定さ
れた区間が音楽であるか否かを判定する音楽区間抽出手
段とを具備した点に第1の特徴がある。また、本発明
は、入力されたオーディオ情報がMPEG符号化データ
であっても、符号化データ上でオーディオ情報を音声区
間と音楽区間に分類できるようにした点に第2の特徴が
ある。
【0006】本発明によれば、符号化されていない元の
ままのオーディオ情報、あるいは符号化されたオーディ
オ情報のいずれからも、簡単かつ高速で、音声区間と音
楽区間を分類することができるようになる。
【0007】
【発明の実施の形態】以下に、図面を参照して、本発明
を詳細に説明する。図1は本発明の一実施形態の構成を
示すブロック図、図2、図3は、図1のシステムの動
作、特に制御部20の動作の概要を表わすフローチャー
トである。この実施形態は、動画像および音声符号化の
国際標準方式であるMPEG1(ISO/IEC 11
172)により圧縮された音声符号化データを用いて音
声、音楽を分類するものであるが、本発明はこれに限定
されるものではない。
【0008】以下に、図1および図2、図3を参照し
て、本実施形態の構成と動作を説明する。図1に示され
ているように、圧縮符号化されたオーディオの符号化デ
ータaは、可変長復号部1に入力される。ここで、該圧
縮符号化されたオーディオの符号化データの構造につい
て、MPEG1を例にして図4を参照して説明する。M
PEG1では、図示されているように、元のオーディオ
信号pからサンプリングした512個のPCMサンプル
Pをサブバンド符号化して32個のサブバンドデータP
i(n)(n=0,1,…,31)を作り、それを時間的に
サンプルをずらしながら36回繰り返して、合計115
2個のサブバンドデータを1フレームの符号化データQ
としている。
【0009】前記した構造の符号化データQが前記可変
長復号部1に連続して入力してくると、該可変長復号部
1はこれを各フレームのサブバンドデータに復号し、サ
ブバンドデータサブサンプリング部2に出力する。い
ま、ある単位時間を1秒とすると、該1秒は図5のaの
ように38フレームから構成されているので、可変長復
号部1は1秒分の符号化データに対し、同図のbのよう
に、38個の32×36サンプルを出力する。
【0010】サブバンドデータサブサンプリング部2で
は、図5のcに示されているように、単位時間(例え
ば、1秒)分のサブバンドデータのうち各フレームiの
先頭にあるサブバンドデータSi (n) ( i=0,1,
…,j-1)を抽出し、図1の各フレームのエネルギ演算部
3および第1のメモリ4に入力する。
【0011】以上の動作は、図2では、ステップS1〜
S9で行われる。ステップS1では、フレーム番号を表
すiが0と置かれ、ステップS2ではサブバンド番号を
表すnが0と置かれる。ステップS3では、可変長復号
部1にて符号化データが可変長復号され、ステップS4
ではiフレーム目の先頭のサブバンドデータSi (n)が
抽出される。次に、ステップS5にて、n=32が成立
するか否かの判断がなされ、この判断が否定の時にはス
テップS6に進んでnに1が加算される。そして、ステ
ップS3に戻って前記と同様の処理が行われる。以上の
ステップS3〜S6の処理が繰り返し行われて、ステッ
プS5の判断が肯定になると、iフレーム目の先頭のサ
ブバンドデータSi (n) が抽出されたことになる。
【0012】ステップS5の判断が肯定になると、ステ
ップS7に進み、iに1が加算される。次にステップS
8に進み、i=jが成立するか否かの判断がなされる。
この判断が否定の時にはステップS2に戻り、再びn=
0とされて、再度前記した処理が続行される。以上の処
理が繰り返し行われ、ステップS8の判断が肯定になる
と、i=0〜(j−1)フレームの先頭のサブバンドデ
ータSi (n) が抽出されたことになり、ステップS9に
て、これらのサブバンドデータSi (n) は図1の各フレ
ームのエネルギ演算部3および第1のメモリ4に転送さ
れることになる。
【0013】各フレームのエネルギ演算部3では、下記
の(1) 式に従って各フレームのエネルギEi を計算し、
平均エネルギ演算部5および第2のメモリ6に入力す
る。
【0014】
【数1】 各フレームのエネルギEi が計算されると、該エネルギ
Ei はステップS10にて平均エネルギ演算部5および
第2のメモリ6に転送される。平均エネルギ演算部5で
は、下記の(2) 式に従って入力された各フレームのエネ
ルギから単位時間間の平均エネルギAEを計算し第1の
判定部7に入力する(ステップS11)。
【0015】
【数2】 第1の判定部7では、入力された単位時間間の音声情報
が無音であるのか有音であるのかを、下記の(3) 式に従
って判定し条件に合う場合には有音であると判定する
(ステップS12)。有音である場合には無音である場
合に比べて単位時間間の平均エネルギAEは大きいか
ら、下記の(3) 式が成立することになる。
【0016】AE>α …(3) ここに、αは予め定められた第1の閾値である。
【0017】該第1の判定部7において、入力された単
位時間間の音声情報が有音であると判断された場合に
は、第2のメモリ6より各フレームのエネルギ単位時間
分を読み出してエネルギ変化率演算部8に入力し(図3
のステップS13)、下記の(4) 式に従ってエネルギ変
化率Cを計算し、第2の判定部9に入力する。一方、無
音であると判定された時には、以降の音声、音楽判定処
理を終了し、ステップS1に戻る。下式のCは、MPE
G符号化データのサブバンドデータから求めた隣り合う
フレームの2つのエネルギの比の単位時間における総和
を表している。
【0018】
【数3】 音声の時間波形を見ると、単語や音節ごとに波形も変化
し、その間は数10m秒にわたって無音となるため、そ
のスペクトル変化率は、連続波形となる音楽に比べて非
常に大きくなる。そこで、第2の判定部9では入力され
た単位時間の音声情報が音声区間であるか否かを下記の
(5) 式に従って判定し、条件に合う場合には音声区間と
判定し、その区間のタイムコードdを音声区間保持部1
0に出力する(ステップS14の判断が肯定、ステップ
S15)。
【0019】C>β …(5) ここに、βは第2の閾値である。
【0020】一方、音声区間でないと判断された場合に
は(ステップS14の判断が否定)、第1のメモリ4よ
り各フレームの先頭のサブバンドデータを読み出して平
均エネルギ比演算部11に入力する(ステップS1
6)。
【0021】平均バンドエネルギ比演算部11では、下
記の(6) 式に従って平均バンドエネルギ比Bmiを計算し
て第3の判定部12に入力する。
【0022】
【数4】 音声の周波数は、図7(a) に示されているように、一般
的に低周波帯域に集中し、一方音楽の周波数は、同図
(b) に示されているように、全帯域に分散する傾向があ
る。換言すれば、音声のサブバンドデータが低周波帯域
に集中するのに対して、音楽のサブバンドデータは全帯
域にわたって分散する傾向がある。そこで、第3の判定
部12では、入力された単位時間間の音声情報が音楽区
間であるか否かを下記の(7) 式に従って判定し(ステッ
プS17)、条件に合う場合には音楽区間と判定し、そ
の区間のタイムコードeを音楽区間保持部13に出力す
る(ステップS18)。 Bmi<γ …(7) ここに、γは第3の閾値である。
【0023】以上のように、本実施形態によれば、圧縮
符号化されたオーディオの符号化データから、音声区間
と音楽区間を区別し、それぞれの区間のタイムコードを
音声区間保持部10および音楽区間保持部13のそれぞ
れに記憶させることができるようになる。
【0024】本発明は、さらに圧縮符号化されていない
オーディオ情報の分類に関しても適応できる。その場合
の実施形態を以下に示す。
【0025】圧縮符号化されていないオーディオ情報を
扱う場合は、図1の可変長復号部1およびサブバンドデ
ータサブサンプリング部2は高速フーリェ変換部(以
下、FFT変換部と呼ぶ)に置き換えられる。元のオー
ディオ情報からこのFFT変換部において、図6にある
ようにFFT変換を行い、単位時間分の周波数データを
抽出する。今、該単位時間を1秒とすると、元のオーデ
ィオ信号pからサンプリングした2048個のサンプル
をFFT変換し、それを時間的にサンプルをずらしなが
ら38回繰り返して、合計2048×38個のFFTデ
ータを単位時間分の周波数データとしている。
【0026】その後、各フレームのエネルギ演算部、平
均エネルギ演算部、エネルギ変化率演算部、および平均
バンドエネルギ比演算部で、それぞれ下記の(8) 式、前
記(2) 式、(4) 式、および下記の(9) 式に従ってそれぞ
れ各フレームのエネルギEi、平均エネルギAE、エネ
ルギ変化率C、平均バンドエネルギ比Bmiを計算し、第
1の判定部7、第2の判定部9、第3の判定部12にて
それぞれ無音/有音の判定、音声の判定、音楽の判定を
行う。
【0027】
【数5】
【0028】
【発明の効果】以上説明したように、本発明によれば、
圧縮符号化された音声データから符号化データ上でオー
ディオ情報を音声区間と音楽区間に分類することが可能
になるという効果がある。
【0029】なお、本発明を実際に動作させたところ、
次のような結果が得られた。すなわち、MPEG1レイ
ヤ2で符号化された合計90分のニュース番組と音楽番
組のオーディオビットストリームを用いて、1秒毎の音
声区間と音楽区間の分類を行った。音声区間は背景に音
楽などがなく音声のみが含まれる区間を対象とし、音楽
区間は音声の有無にかかわらず楽器演奏がある区間を対
象とした。音声区間の検出に関しては、89.4%、音
楽区間に関しては79.3%の検出率を得ることがで
き、音声区間の検出に関しては実用レベルの検出率を得
ることができた。また、本発明によれば、圧縮符号化さ
れていないオーディオ情報の分類に関しても、簡単に、
音声区間と音楽区間に分類することが可能になるという
効果がある。
【図面の簡単な説明】
【図1】 本発明の一実施形態のオーディオ情報分類装
置の構成を示すブロック図である。
【図2】 図1の制御装置の動作を説明するためのフロ
ーチャートである。
【図3】 図2の続きの動作を説明するためのフローチ
ャートである。
【図4】 MPEGオーディオ符号化データの構造を説
明するための図である。
【図5】 図1のサブバンドデータサブサンプリング部
の動作を説明するための図である。
【図6】 符号化されていないオーディオ情報の周波数
データの抽出方法を説明するための図である。
【図7】 音声と音楽の周波数分布の傾向を示す図であ
る。
【符号の説明】
1…可変長復号部、2…サブバンドデータサブサンプリ
ング部、3…各フレームのエネルギ演算部、4…第1の
メモリ、5…平均エネルギ演算部、6…第2のメモリ、
7…第1の判定部、8…エネルギ変化率演算部、9…第
2の判定部、10…音声区間保持部、11…平均バンド
エネルギ比演算部、12…第3の判定部、13…音楽区
間保持部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 オーディオ情報から音声区間と音楽区間
    を分類するオーディオ情報分類装置において、 入力されたオーディオ情報から単位時間ごとの周波数デ
    ータを抽出するオーディオ周波数データ抽出手段と、 抽出した単位時間ごとの周波数データを用いて、その区
    間が無音区間か有音区間かを判定し有音区間のみを抽出
    する無音/有音判定手段と、 有音区間と判定された区間が音声であるか否かを判定す
    る音声区間抽出手段と、 有音と判定された区間が音楽
    であるか否かを判定する音楽区間抽出手段とを具備した
    ことを特徴とするオーディオ情報分類装置。
  2. 【請求項2】 請求項1のオーディオ情報分類装置にお
    いて、 前記オーディオ周波数データ抽出手段によって抽出され
    る単位時間ごとの周波数データは、入力されたオーディ
    オ情報がMPEG符号化データである場合、単位時間分
    のMPEG符号化データの各フレームの先頭にあるサブ
    バンドデータであることを特徴とするオーディオ情報分
    類装置。
  3. 【請求項3】 請求項1のオーディオ情報分類装置にお
    いて、 前記無音/有音判定手段は、前記オーディオ周波数デー
    タ抽出手段により抽出された単位時間分の周波数データ
    を用いて単位時間の平均エネルギを求め、該平均エネル
    ギの大きさにより無音/有音区間を判定することを特徴
    とするオーディオ情報分類装置。
  4. 【請求項4】 請求項3のオーディオ情報分類装置にお
    いて、 前記無音/有音判定手段は、入力されたオーディオ情報
    がMPEG符号化データである場合、単位時間の平均エ
    ネルギは、MPEG符号化データの各フレームのサブバ
    ンドデータから求めたエネルギの単位時間における総和
    であることを特徴とするオーディオ情報分類装置。
  5. 【請求項5】 請求項1のオーディオ情報分類装置にお
    いて、 前記音声区間抽出手段は、前記オーディオ周波数データ
    抽出手段により抽出した単位時間ごとの周波数データか
    らエネルギ変化率を求め、該エネルギ変化率の大きさに
    より、音声区間を抽出することを特徴とするオーディオ
    情報分類装置。
  6. 【請求項6】 請求項5のオーディオ情報分類装置にお
    いて、 前記音声区間抽出手段は、入力されたオーディオ情報が
    MPEG符号化データである場合、エネルギ変化率は、
    MPEG符号化データのサブバンドデータから求めた隣
    り合うフレームの2つのエネルギの比の単位時間におけ
    る総和であることを特徴とするオーディオ情報分類装
    置。
  7. 【請求項7】 請求項1のオーディオ情報分類装置にお
    いて、 前記音楽区間抽出手段は、前記オーディオ周波数データ
    抽出手段により抽出した単位時間ごとの周波数データか
    ら平均バンドエネルギ比を求め、該平均バンドエネルギ
    比から音楽区間を抽出することを特徴とするオーディオ
    情報分類装置。
  8. 【請求項8】 請求項7のオーディオ情報分類装置にお
    いて、 前記音楽区間抽出手段は、入力されたオーディオ情報が
    MPEG符号化データである場合、平均バンドエネルギ
    比は、MPEG符号化データのサブバンドデータの全デ
    ータに対する低周波帯域のサブバンドデータの割合であ
    ることを特徴とするオーディオ情報分類装置。
JP06559597A 1997-03-05 1997-03-05 オーディオ情報分類装置 Expired - Fee Related JP3607450B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06559597A JP3607450B2 (ja) 1997-03-05 1997-03-05 オーディオ情報分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06559597A JP3607450B2 (ja) 1997-03-05 1997-03-05 オーディオ情報分類装置

Publications (2)

Publication Number Publication Date
JPH10247093A true JPH10247093A (ja) 1998-09-14
JP3607450B2 JP3607450B2 (ja) 2005-01-05

Family

ID=13291541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06559597A Expired - Fee Related JP3607450B2 (ja) 1997-03-05 1997-03-05 オーディオ情報分類装置

Country Status (1)

Country Link
JP (1) JP3607450B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002531882A (ja) * 1998-11-30 2002-09-24 マイクロソフト コーポレイション バレーパーセンテージを使用した純粋音声の検出
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
EP2150046A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
EP2150040A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
US8275473B2 (en) 2005-09-30 2012-09-25 Sony Corporation Data recording and reproducing apparatus, method of recording and reproducing data, and program therefor
WO2013080449A1 (ja) * 2011-12-02 2013-06-06 パナソニック株式会社 音声処理装置、方法、プログラムおよび集積回路
CN113192531A (zh) * 2021-05-28 2021-07-30 腾讯音乐娱乐科技(深圳)有限公司 检测音频是否是纯音乐音频方法、终端及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636783B (zh) 2007-03-16 2011-12-14 松下电器产业株式会社 声音分析装置、声音分析方法及系统集成电路
JP4915860B2 (ja) * 2007-03-28 2012-04-11 Kddi株式会社 動画像分類装置
CN102446506B (zh) * 2010-10-11 2013-06-05 华为技术有限公司 音频信号的分类识别方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002531882A (ja) * 1998-11-30 2002-09-24 マイクロソフト コーポレイション バレーパーセンテージを使用した純粋音声の検出
US8275473B2 (en) 2005-09-30 2012-09-25 Sony Corporation Data recording and reproducing apparatus, method of recording and reproducing data, and program therefor
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
EP2150046A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
EP2150040A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
WO2013080449A1 (ja) * 2011-12-02 2013-06-06 パナソニック株式会社 音声処理装置、方法、プログラムおよび集積回路
CN103380457A (zh) * 2011-12-02 2013-10-30 松下电器产业株式会社 声音处理装置、方法、程序及集成电路
JPWO2013080449A1 (ja) * 2011-12-02 2015-04-27 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声処理装置、方法、プログラムおよび集積回路
US9113269B2 (en) 2011-12-02 2015-08-18 Panasonic Intellectual Property Corporation Of America Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
CN113192531A (zh) * 2021-05-28 2021-07-30 腾讯音乐娱乐科技(深圳)有限公司 检测音频是否是纯音乐音频方法、终端及存储介质
CN113192531B (zh) * 2021-05-28 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 检测音频是否是纯音乐音频方法、终端及存储介质

Also Published As

Publication number Publication date
JP3607450B2 (ja) 2005-01-05

Similar Documents

Publication Publication Date Title
JP6185457B2 (ja) 効率的なコンテンツ分類及びラウドネス推定
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
KR101116363B1 (ko) 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
JP2006048043A (ja) オーディオデータの高周波数の復元方法及びその装置
JP2000066691A (ja) オーディオ情報分類装置
GB2403881A (en) Automatic classification/identification of similarly compressed audio files
CN102483922A (zh) 使用加权线性预测变换对音频信号进行编码和解码的设备和方法
US9928852B2 (en) Method of detecting a predetermined frequency band in an audio data signal, detection device and computer program corresponding thereto
US7747435B2 (en) Information retrieving method and apparatus
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
JP3607450B2 (ja) オーディオ情報分類装置
JP4201204B2 (ja) オーディオ情報分類装置
JP2003036097A (ja) 情報検出装置及び方法、並びに情報検索装置及び方法
Jarina et al. Rhythm detection for speech-music discrimination in mpeg compressed domain
US6772113B1 (en) Data processing apparatus for processing sound data, a data processing method for processing sound data, a program providing medium for processing sound data, and a recording medium for processing sound data
JP4696418B2 (ja) 情報検出装置及び方法
JP4392805B2 (ja) オーディオ情報分類装置
WO2010037251A1 (zh) 一种人声判别的方法和装置
Jarina et al. Speech-music discrimination from MPEG-1 bitstream
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Venugopal et al. Audio scene analysis and scene change detection in the MPEG compressed domain

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041007

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees