JPH10187182A - 映像分類方法および装置 - Google Patents

映像分類方法および装置

Info

Publication number
JPH10187182A
JPH10187182A JP8340293A JP34029396A JPH10187182A JP H10187182 A JPH10187182 A JP H10187182A JP 8340293 A JP8340293 A JP 8340293A JP 34029396 A JP34029396 A JP 34029396A JP H10187182 A JPH10187182 A JP H10187182A
Authority
JP
Japan
Prior art keywords
video
sound
information
section
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8340293A
Other languages
English (en)
Other versions
JP3475317B2 (ja
Inventor
Kenichi Minami
憲一 南
Akito Akutsu
明人 阿久津
Yoshinobu Tonomura
佳伸 外村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP34029396A priority Critical patent/JP3475317B2/ja
Publication of JPH10187182A publication Critical patent/JPH10187182A/ja
Application granted granted Critical
Publication of JP3475317B2 publication Critical patent/JP3475317B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 映像情報に含まれる音情報を解析し、映像を
既存のジャンルにとらわれないカテゴリーに分類する映
像分類方法および装置を提供する。 【解決手段】 音楽検出部103は、入力された映像情
報の音情報を周波数解析し、スペクトルの安定性を検出
して音楽を検出する。音声検出部104は、スペクトル
のハーモニック構造を検出し、音声を検出する。他方
で、入力された映像情報の音情報を、符号帳生成部10
5にて学習データとして生成された符号帳の特徴ベクト
ルと音響検出部106において比較し、両者の距離の近
さにより音響の種類を検出する。以上で検出された音情
報の区間の位置を属性情報蓄積部107で記録し、検出
された音情報の種類、各々の区間の長さ、種類毎の全体
の長さ、各々の区間の位置のパターンを抽出して、映像
情報の種類を映像判別部108にて判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】映像を効率良く扱うために
は、映像の属性情報を自動的に付与する技術が必要であ
る。属性情報は、映像制作の関連分野において、映像の
編集、加工、分類等に利用される。本発明は、映像に含
まれる特徴量を抽出し、特徴量に応じて映像を分類する
技術に関する。
【0002】
【従来の技術】映像の内容がどのようなものであるかを
大別することは、ビデオ・オン・デマンドのようなシス
テムで用いられる大量の映像を効率良く扱う上で不可欠
である。現在、映像は主にニュース、スポーツ、ドラ
マ、映画、音楽、ドキュメンタリー、教育、バラエテ
ィ、アニメ等に分類されているが、これらのうち幾つか
を自動的に識別しようとする方法が提案されている。
「S.Fischer et.al:Automati
c Recognition of Film Gen
res,ACM Multimedia’95,pp.
295−301」では、画像の色情報から場面の変わり
目やカメラの動きを検出し、音情報の振幅の変化と併せ
て、ニュース、スポーツ(テニスおよび自動車レー
ス)、アニメ、コマーシャルの分類を行っている。カメ
ラの動きが少なければニュース、周期的な音の繰り返し
(テニスのボールを打つ音)があればスポーツ、言葉が
途切れた所にノイズが少なければアニメ(アフレコのた
め背景音が少ない)、場面の変わり目に全体が黒になれ
ばコマーシャルといったようにジャンル毎にみられる典
型的な特徴を利用している。
【0003】
【発明が解決しようとする課題】上記従来の技術では、
主に画像情報に基づいて映像の分類を行っており、音情
報についての詳しい解析は行われていない。また、画像
情報から検出できる、ジャンル毎に固有の特徴が限られ
ているため、分類できる範囲は狭い。さらに、上記のよ
うに従来から定められているジャンル毎の特徴を見つけ
出すようなトップダウン的な方法では、分類できないジ
ャンルが存在する。
【0004】一方、映像に含まれる音情報は映像の内容
を良く反映しており、内容の種類に固有の特徴を検出し
易い。音情報を解析して映像一般に見られる特徴的な音
を検出し、その発生パターンから映像を分類すること
で、ボトムアップ的な要素を取り入れた分類方法を実現
することが可能である。
【0005】本発明の目的は、映像情報に含まれる音情
報を解析し、映像を既存のジャンルにとらわれないカテ
ゴリーに分類する映像分類方法および装置を提供するこ
とにある。
【0006】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の映像分類方法は、映像情報がアナログの場
合にはA/D変換してディジタルの映像情報を入力する
映像入力段階と、該映像情報に含まれる音情報を周波数
解析し、スペクトルの安定性を検出し、音楽を検出する
音楽検出段階と、該スペクトルのハーモニック構造を検
出し、音声を検出する音声検出段階と、音響の特徴ベク
トルを学習データとしてベクトル量子化し、符号帳を生
成する符号帳生成段階と、生成された符号帳と該映像情
報に含まれる音情報の特徴ベクトルを比較し、距離の近
い音響を検出する音響検出段階と、該検出された音情報
の種類別の区間の位置を記録する属性情報蓄積段階と、
該検出された音情報の種類、各々の区間の長さ、種類毎
の全体の長さ、各々の区間の位置のパターンを一以上抽
出し、該映像情報の種類を判別する映像判別段階と、を
有することで、入力された映像情報に含まれる音情報か
ら音楽、音声、音響のうち少なくとも1つが存在する区
間を検出し、該検出された区間の発生パターンによって
映像の種類を判別して広範囲なカテゴリに分類すること
が可能となる。
【0007】また、本発明の映像分類装置は、映像情報
がアナログの場合にはA/D変換してディジタルの映像
情報を入力する映像入力部と、該映像情報に含まれる音
情報を周波数解析し、スペクトルの安定性を検出し、音
楽を検出する音楽検出部と、該スペクトルのハーモニッ
ク構造を検出し、音声を検出する音声検出部と、音響の
特徴ベクトルを学習データとしてベクトル量子化し、符
号帳を生成する符号帳生成部と、生成された符号帳と該
映像情報に含まれる音情報の特徴ベクトルを比較し、距
離の近い音響を検出する音響検出部と、該検出された音
情報の種類別の区間の位置を記録する属性情報蓄積部
と、該検出された音情報の種類、各々の区間の長さ、種
類毎の全体の長さ、各々の区間の位置のパターンを一以
上抽出し、該映像情報の種類を判別する映像判別部と、
を具備することで、入力された映像情報に含まれる音情
報から音楽、音声、音響のうち少なくとも1つが存在す
る区間を検出し、該検出された区間の発生パターンによ
って映像の種類を判別して広範囲なカテゴリに分類する
ことが可能となる。
【0008】上記の映像分類方法および装置では、スペ
クトログラムの一定周波数における時間方向のエッジの
強さを検出することで、音楽を容易に検出することが可
能となる。
【0009】また、該スペクトログラムのエッジの強い
部分を除去した後に、くし形フィルタを用いてハーモニ
ック構造を検出することで、音楽が重なっている場合で
も音声を容易に検出することが可能となる。
【0010】また、参照音として一種類の音響のみを含
む音情報の特徴ベクトルと、該符号帳の重心との距離を
算出し、距離が最も近くなる頻度の高い該符号帳の重心
と、該映像情報に含まれる音情報の特徴ベクトルとの距
離を検出の判定基準として用いることで、学習した音響
を容易に検出することが可能となる。
【0011】さらに、検出された音情報の種類、各々の
区間の長さ、種類毎の全体の長さ、各々の区間の位置を
分類ベクトルとして符号帳を作成し、該符号帳の重心
と、該映像情報に含まれる音情報の分類ベクトルとの距
離を判別基準に用いることで、映像を容易に分類するこ
とが可能となる。
【0012】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0013】図1は、本発明の一実施形態例の映像分類
装置の概略構成を示すブロック図である。
【0014】本実施形態例の映像分類装置は、映像情報
がアナログの場合にはA/D変換して入力する映像入力
部101と、音情報を周波数解析して、サウンドスペク
トログラムのエッジを検出し、必要に応じて除去するエ
ッジ検出部102と、音情報から音楽を検出する音楽検
出部103と、音声を検出する音声検出部104と、音
響の学習データから符号帳を生成する符号帳生成部10
5と、学習した音響と同一種類の音を検出する音響検出
部106と、検出された音の区間の位置を記録する属性
情報蓄積部107と、検出された音情報の種類、各々の
区間の長さ、種類毎の全体の長さ、各々の区間の位置に
よって、映像情報の種類を判別する映像判別部108か
ら構成されている。
【0015】映像入力部101から入力された映像の音
データは、一方でエッジ検出部102に入力され、エッ
ジ検出部102でFFT(高速フーリエ変換)処理され
て、数秒程度の長さのサウンドスペクトログラムが生成
される。ここで、FFTの代わりにLPC(線形予測分
析)を用いることも可能である。また、映像入力部10
1から入力された映像の音データは、他方で音響検出部
106に入力される。
【0016】図2は、本発明の一実施形態例のエッジ検
出部102、音楽検出部103、音声検出部104の処
理を示したフローチャートである。以下、図1及び図2
を参照してそれらの動作例を説明する。
【0017】エッジ検出部102のFFT処理201に
よってスペクトログラムが生成される。その際のフレー
ム長は、数十〜百ミリ秒で、検出区間は、数秒である。
【0018】図3に、生成されたスペクトログラムの様
子を簡略化して示す。スペクトログラムは、実際には、
濃淡画像として得られる。301は、音楽成分のスペク
トルの軌跡であり、302は、音声成分のスペクトルの
軌跡である。音楽成分は、周波数方向に安定した軌跡を
描くので、この性質を利用して検出する。まず、周波数
iにおける時間方向のエッジEDiをエッジ検出処理2
02で微分オペレータを用いて検出する。得られたエッ
ジEDiの値をエッジの閾値処理203で閾値TH1と
比較し、エッジEDiの値が閾値TH1よりも大きい場
合には、音声検出の前処理として周波数iのスペクトル
をエッジ消去、補間処理204において0にし、エッジ
を消去する。また、近傍のスペクトルの値を用いて消去
されたスペクトルは、線形補間される。この処理を全て
の帯域について繰り返す。繰り返し判定処理205にお
いて、iがn−1と等しくなれば繰り返しを終える。こ
こでnはFFTのフレーム長のポイント数である。
【0019】次に、エッジの強さの総和をエッジ強度算
出処理206で算出し、エッジ強度の閾値処理207に
おいて、算出されたエッジの強さが閾値TH2よりも大
きい場合に音楽が存在すると判断する。
【0020】図3の302に示すように、音声成分は時
間的に変動する等間隔の縞模様として現れるので、エッ
ジ強度算出処理206と平行してスペクトログラムにく
し形フィルタ処理208を施し、フィルタ出力の閾値処
理209において、フィルタ処理の出力が閾値TH3よ
りも大きければ音声が存在すると判断する。
【0021】図4は、本発明の一実施形態例の図1の音
響検出部106の処理を示したフローチャートである。
音響の種類の例としては、笑声、歓声、拍手、雑踏、機
械の音等が考えられる。ここでは、笑声、歓声、拍手を
例に取って説明する。
【0022】笑声、歓声、拍手のような音響は、明確な
構造がスペクトルに現れないため、ベクトル量子化を利
用して検出する。まず、各々の音響データのサンプルを
用意し、符号帳生成部105で符号帳を作成する。使用
するベクトルの特徴量としては、数十〜百ミリ秒のフレ
ーム長で、16次元程度の線形予測係数を用いる。LP
Cケプストラム、FFTケプストラム、フィルタバンク
出力等を用いることも可能である。サンプルデータは、
多いほど良好な結果を得ることができる。笑声、歓声、
拍手の3つのカテゴリーに分類するため、各サンプルデ
ータの係数から3つ以上ののクラスタを生成する。以下
では、クラスタの数が3つの場合を例に取り説明する。
まず、クラスタの重心ベクトルをC1,C2,C3とす
る。C1,C2,C3が、笑声、歓声、拍手のどの重心
ベクトルに対応するかは、カテゴリーが既知のサンプル
データが最も近い重心ベクトルを調べることで、容易に
分かる。
【0023】入力された映像の音データの線形予測係数
は線形予測係数算出処理401で算出され、各々の重心
ベクトルとの距離Liがベクトル距離算出処理402で
算出される。次に、最小距離ベクトルの閾値処理403
において重心ベクトルとの距離Liの大きさを調べ、閾
値TH4よりも大きい場合には、3つのカテゴリーには
属さないと判断し、非音響と判断される。閾値TH4よ
りも小さい場合には、最小距離ベクトル判別処理40
4、最小距離ベクトル判別処理405により重心ベクト
ルとの距離Liの中で最も距離の短いものを選択し、対
応するカテゴリーに属すると判断する。図4では、C
1,C2,C3が各々、笑声、歓声、拍手に対応してい
る場合を示している。
【0024】特徴音検出部102で検出された音の始点
と終点の位置は、属性情報の一部として属性情報蓄積部
107にタイムコードや、先頭からのバイト数等のフォ
ーマットで記録される。
【0025】映像判別部106では、属性情報蓄積部1
07から情報を読み出し、映像シーケンス全体における
各々の音の含有率を算出し、分類ベクトルV(v1,v
2,v3,v4,v5,v6)を求める。ここで、v
1,v2,v3,v4,v5,v6は、各々、音楽、音
声、笑声、歓声、拍手、音楽と音声が重なっている区
間、の含有率である。
【0026】分類ベクトルを用いて映像を分類する際に
は、音響検出と同様にベクトル量子化が用いられる。様
々な映像サンプルを用いて分類ベクトルを求め、必要な
ジャンルの数だけクラスタリングを行い、重心ベクトル
を求める。入力された映像の分類ベクトルと重心ベクト
ルの距離を算出し、最も近いクラスタに割り当てる。形
成されるクラスタは、一般的に用いられるジャンルと必
ずしも一致しないが、音声が多く、音楽が少なければニ
ュースや教育、逆の場合は音楽、笑声が多い場合はコメ
ディ等といった分類が可能である。
【0027】図5は、本実施形態例の映像分類装置をソ
フトウェアで実現した場合の処理を示すフローチャート
である。映像は、まず、符号帳生成段階500で、音響
の学習データから符号帳が生成され、映像入力段階50
1から入力され、エッジ検出段階502で周波数解析、
エッジ検出が行われる。また、必要に応じてエッジの削
除、補間が行われる。音楽検出段階503および音声検
出段階504では、各々、エッジの強さ、くし形フィル
タを用いて音楽および音声が検出される。音響検出段階
505では、ベクトル量子化を用いて、笑声、歓声、拍
手が検出される。検出された音の始点と終点の情報は、
属性情報検出段階506で蓄積され、映像シーケンスの
最後に到達した時点で映像判別段階507において映像
が分類される。
【0028】
【発明の効果】以上説明したように、本発明は以下のよ
うな効果を奏する。
【0029】(1)映像情報に含まれる音情報から音
楽、音声、笑声、歓声、拍手を検出し、検出された音情
報の種類、各々の区間の長さ、種類毎の全体の長さ、各
々の区間の位置のパターンを比較するようにしたので、
映像を広範囲なカテゴリに分類することができる。
【0030】(2)スペクトログラムの一定周波数にお
ける時間方向のエッジの強さを検出するようにした場合
には、特に音楽を容易に検出することができる。
【0031】(3)スペクトログラムのエッジの強い部
分を除去した後に、くし形フィルタを用いてハーモニッ
ク構造を検出するようにした場合には、特に言葉などの
音声を容易に検出することができる。
【0032】(4)参照音として一種類の音響のみを含
む音情報の特徴ベクトルと、該符号帳の重心との距離を
算出し、距離が最も近くなる頻度の高い該符号帳の重心
と、該映像情報に含まれる音情報の特徴ベクトルとの距
離を検出の判定基準として用いるようにした場合には、
特に学習した音響を容易に検出することができる。
【0033】(5)検出された音情報の種類、各々の区
間の長さ、種類毎の全体の長さ、各々の区間の位置を分
類ベクトルとして符号帳を作成し、判別の判定基準に、
該符号帳の重心と、該映像情報に含まれる音情報の分類
ベクトルとの距離を用いるようにした場合には、特に映
像を容易に広範囲なカテゴリに分類することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態例の映像分類装置の概略構
成を示すブロック図である。
【図2】上記実施形態例の特徴音検出部分における音楽
と音声の検出処理を示すフローチャートである。
【図3】上記実施形態例のエッジ検出部において得られ
たサウンドスペクトログラムの様子を示す概念図であ
る。
【図4】上記実施形態例の特徴音検出部分における笑
声、歓声および拍手の検出処理を示すフローチャートで
ある。
【図5】上記実施形態例の映像分類装置を計算機を用い
てソフトウェア的に実現した場合の処理の流れを示すフ
ローチャートである。
【符号の説明】
101…映像入力部 102…エッジ検出部 103…音楽検出部 104…音声検出部 105…符号帳生成部 106…音響検出部 107…映像判別部 108…属性情報蓄積部 201…FFT(高速フーリエ変換)処理 202…エッジ検出処理 203…エッジの閾値処理 204…エッジ消去、補間処理 205…繰り返し判定処理 206…エッジ強度算出処理 207…エッジ強度の閾値処理 208…くし形フィルタ処理 209…フィルタ出力の閾値処理 301…音楽スペクトルピーク 302…音声スペクトルピーク 401…線形予測係数算出処理 402…ベクトル距離算出処理 403…最小距離ベクトルの閾値処理 404…最小距離ベクトル判別処理 405…最小距離ベクトル判別処理 500…符号帳生成段階 501…映像入力段階 502…エッジ検出段階 503…音楽検出段階 504…音声検出段階 505…音響検出段階 506…属性情報蓄積段階 507…映像判別段階

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 映像情報を入力し、該入力された映像情
    報に含まれる音情報から音楽、音声、音響のうち少なく
    とも1つが存在する区間を検出し、該検出された区間の
    発生パターンによって映像の種類を判別する映像分類方
    法であって、 映像情報がアナログの場合にはA/D変換してディジタ
    ルの映像情報を入力する映像入力段階と、 該映像情報に含まれる音情報を周波数解析し、スペクト
    ルの安定性を検出するエッジ検出段階と、 該スペクトルの安定性から音楽を検出する音楽検出段階
    と、 該スペクトルのハーモニック構造を検出し、音声を検出
    する音声検出段階と、 音響の特徴ベクトルを学習データとしてベクトル量子化
    し、符号帳を生成する符号帳生成段階と、 該生成された符号帳と該映像情報に含まれる音情報の特
    徴ベクトルとを比較し、距離の近い音響を検出する音響
    検出段階と、 該検出された音情報の種類別の区間の位置を記録する属
    性情報蓄積段階と、 該検出された音情報の種類、各々の区間の長さ、種類毎
    の全体の長さ、各々の区間の位置のパターンの一以上を
    抽出し、該映像情報の種類を判別する映像判別段階と、 を有することを特徴とする映像分類方法。
  2. 【請求項2】 前記エッジ検出段階では、前記スペクト
    ルを時間方向に並べたスペクトログラムから、周波数方
    向の微分オペレータによってエッジを検出する、 ことを特徴とする請求項1に記載の映像分類方法。
  3. 【請求項3】 前記音楽検出段階では、前記スペクトロ
    グラムの一定周波数における時間方向のエッジの強さか
    ら音楽を検出する、 ことを特徴とする請求項2に記載の映像分類方法。
  4. 【請求項4】 前記音声検出段階では、前記スペクトロ
    グラムのエッジの強い部分を除去した後に、くし形フィ
    ルタを用いてハーモニック構造を検出し、音声を検出す
    る、 ことを特徴とする請求項2または3に記載の映像分類方
    法。
  5. 【請求項5】 前記音響検出段階では、参照音として一
    種類の音響のみを含む音情報の特徴ベクトルと、前記符
    号帳の重心との距離を算出し、距離が最も近くなる頻度
    の高い該符号帳の重心と、前記映像情報に含まれる音情
    報の特徴ベクトルとの距離を検出の判定基準として用い
    る、 ことを特徴とする請求項1、2、3、4のいずれかに記
    載の映像分類方法。
  6. 【請求項6】 前記映像判別段階は、検出された音情報
    の種類、各々の区間の長さ、種類毎の全体の長さ、各々
    の区間の位置を分類ベクトルとして符号帳を作成し、該
    符号帳の重心と、前記映像情報に含まれる音情報の分類
    ベクトルとの距離を判別基準に用いる、 ことを特徴とする請求項1、2、3、4、5のいずれか
    に記載の映像分類方法。
  7. 【請求項7】 映像情報を入力し、該入力された映像情
    報に含まれる音情報から音楽、音声、音響のうち少なく
    とも1つが存在する区間を検出し、該検出された区間の
    発生パターンによって映像の種類を判別する映像分類装
    置であって、 映像情報がアナログの場合にはA/D変換してディジタ
    ルの映像情報を入力する映像入力部と、 該映像情報に含まれる音情報を周波数解析し、スペクト
    ルの安定性を検出するエッジ検出部と、 該スペクトルの安定性から音楽を検出する音楽検出部
    と、 該スペクトルのハーモニック構造を検出し、音声を検出
    する音声検出部と、 音響の特徴ベクトルを学習データとしてベクトル量子化
    し、符号帳を生成する符号帳生成部と、 該生成された符号帳と該映像情報に含まれる音情報の特
    徴ベクトルとを比較し、距離の近い音響を検出する音響
    検出部と、 該検出された音情報別の区間の位置を記録する属性情報
    蓄積部と、 該検出された音情報の種類、各々の区間の長さ、種類毎
    の全体の長さ、各々の区間の位置のパターンを一以上抽
    出し、該映像情報の種類を判別する映像判別部と、 を備えることを特徴とする映像分類装置。
  8. 【請求項8】 前記エッジ検出部は、前記スペクトルを
    時間方向に並べたスペクトログラムから、周波数方向の
    微分オペレータによってエッジを検出するものである、 ことを特徴とする請求項7に記載の映像分類装置。
  9. 【請求項9】 前記音楽検出部は、前記スペクトログラ
    ムの一定周波数における時間方向のエッジの強さから音
    楽を検出するものである、 ことを特徴とする請求項8に記載の映像分類装置。
  10. 【請求項10】 前記音声検出部は、前記スペクトログ
    ラムのエッジの強い部分を除去した後に、くし形フィル
    タを用いてハーモニック構造を検出し、音声を検出する
    ものである、 ことを特徴とする請求項8または9に記載の映像分類装
    置。
  11. 【請求項11】 前記音響検出部は、参照音として一種
    類の音響のみを含む音情報の特徴ベクトルと、前記符号
    帳の重心との距離を算出し、距離が最も近くなる頻度の
    高い該符号帳の重心と、前記映像情報に含まれる音情報
    の特徴ベクトルとの距離を検出の判定基準として用いる
    ものである、 ことを特徴とする請求項7、8、9、10のいずれかに
    記載の映像分類装置。
  12. 【請求項12】 前記映像判別部は、検出された音情報
    の種類、各々の区間の長さ、種類毎の全体の長さ、各々
    の区間の位置を分類ベクトルとして符号帳を作成し、該
    符号帳の重心と、前記映像情報に含まれる音情報の分類
    ベクトルとの距離を判別基準に用いるものである、 ことを特徴とする請求項7、8、9、10、11のいず
    れかに記載の映像分類装置。
JP34029396A 1996-12-20 1996-12-20 映像分類方法および装置 Expired - Lifetime JP3475317B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34029396A JP3475317B2 (ja) 1996-12-20 1996-12-20 映像分類方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34029396A JP3475317B2 (ja) 1996-12-20 1996-12-20 映像分類方法および装置

Publications (2)

Publication Number Publication Date
JPH10187182A true JPH10187182A (ja) 1998-07-14
JP3475317B2 JP3475317B2 (ja) 2003-12-08

Family

ID=18335567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34029396A Expired - Lifetime JP3475317B2 (ja) 1996-12-20 1996-12-20 映像分類方法および装置

Country Status (1)

Country Link
JP (1) JP3475317B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006874A (ja) * 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2004258659A (ja) * 2003-02-25 2004-09-16 Mitsubishi Electric Research Laboratories Inc スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
WO2004079718A1 (ja) * 2003-03-06 2004-09-16 Sony Corporation 情報検出装置及び方法、並びにプログラム
JP2008047998A (ja) * 2006-08-11 2008-02-28 Casio Comput Co Ltd 動画再生装置及び動画再生方法
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
JP2011221807A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法、並びにプログラム
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
US8296801B2 (en) 2000-04-10 2012-10-23 Sony Corporation Asset management system and asset management method
JP2018206427A (ja) * 2013-09-06 2018-12-27 イマージョン コーポレーションImmersion Corporation スペクトログラムの視覚処理をして触覚効果を生成するためのシステム及び方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4321518B2 (ja) 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
JP4442585B2 (ja) 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8296801B2 (en) 2000-04-10 2012-10-23 Sony Corporation Asset management system and asset management method
JP2002006874A (ja) * 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2007264652A (ja) * 2003-02-25 2007-10-11 Mitsubishi Electric Corp ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体
JP2004258659A (ja) * 2003-02-25 2004-09-16 Mitsubishi Electric Research Laboratories Inc スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
WO2004079718A1 (ja) * 2003-03-06 2004-09-16 Sony Corporation 情報検出装置及び方法、並びにプログラム
US8195451B2 (en) 2003-03-06 2012-06-05 Sony Corporation Apparatus and method for detecting speech and music portions of an audio signal
JP2008047998A (ja) * 2006-08-11 2008-02-28 Casio Comput Co Ltd 動画再生装置及び動画再生方法
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
JP2011221807A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法、並びにプログラム
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP5578453B2 (ja) * 2010-05-17 2014-08-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声分類装置、方法、プログラム及び集積回路
US8892497B2 (en) 2010-05-17 2014-11-18 Panasonic Intellectual Property Corporation Of America Audio classification by comparison of feature sections and integrated features to known references
JP2018206427A (ja) * 2013-09-06 2018-12-27 イマージョン コーポレーションImmersion Corporation スペクトログラムの視覚処理をして触覚効果を生成するためのシステム及び方法

Also Published As

Publication number Publication date
JP3475317B2 (ja) 2003-12-08

Similar Documents

Publication Publication Date Title
JP4683253B2 (ja) Av信号処理装置および方法、プログラム、並びに記録媒体
EP1081960B1 (en) Signal processing method and video/voice processing device
US6697564B1 (en) Method and system for video browsing and editing by employing audio
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
US8442384B2 (en) Method and apparatus for video digest generation
US7386357B2 (en) System and method for generating an audio thumbnail of an audio track
US8838452B2 (en) Effective audio segmentation and classification
JP4348970B2 (ja) 情報検出装置及び方法、並びにプログラム
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
US20060245724A1 (en) Apparatus and method of detecting advertisement from moving-picture and computer-readable recording medium storing computer program to perform the method
KR20050014866A (ko) 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
US20040260540A1 (en) System and method for spectrogram analysis of an audio signal
JP3475317B2 (ja) 映像分類方法および装置
Kim et al. Comparison of MPEG-7 audio spectrum projection features and MFCC applied to speaker recognition, sound classification and audio segmentation
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
JP2004125944A (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
Zhang et al. Video content parsing based on combined audio and visual information
Mihajlovic et al. Automatic annotation of formula 1 races for content-based video retrieval
Krishnamoorthy et al. Hierarchical audio content classification system using an optimal feature selection algorithm
Penttilä et al. A speech/music discriminator-based audio browser with a degree of certainty measure
Chu et al. Toward semantic indexing and retrieval using hierarchical audio models
JP3730179B2 (ja) 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 10

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term