JP5658285B2 - 興味区間抽出装置、興味区間抽出方法 - Google Patents
興味区間抽出装置、興味区間抽出方法 Download PDFInfo
- Publication number
- JP5658285B2 JP5658285B2 JP2012551746A JP2012551746A JP5658285B2 JP 5658285 B2 JP5658285 B2 JP 5658285B2 JP 2012551746 A JP2012551746 A JP 2012551746A JP 2012551746 A JP2012551746 A JP 2012551746A JP 5658285 B2 JP5658285 B2 JP 5658285B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- interest
- feature
- vector
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 114
- 239000013598 vector Substances 0.000 claims description 256
- 230000005236 sound signal Effects 0.000 claims description 59
- 238000003860 storage Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims 2
- 238000000034 method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000386 athletic effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<1>概要
本実施の形態に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号の第1単位区間(10msec)毎に複数種類のアンカーモデルArそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成し、尤度ベクトルの各成分を2つの成分群に分類し、各成分群に属する成分に基づいて第1特徴区間(候補区間)および第2特徴区間の終了時刻を算出する。
<2>データ
本実施の形態に係る興味区間抽出装置で使用するデータについて説明する。
<2−1>動画ファイル
動画ファイルは、オーディオ信号と複数の画像データとから構成されている。そして、オーディオ信号は、図2(a)に示すような波形を有する。なお、オーディオ信号は、振幅値の時系列である
<2−2>特徴量ベクトル
以下、オーディオ信号から特徴量ベクトルMを生成するまでの概要を述べる。
<2−3>アンカーモデル
本実施の形態に係るアンカーモデルは、尤度を算出する際に基準となる1024種類のサウンド素片それぞれの特徴を表現するものであり、サウンド素片ごとに作成されている。そして、各アンカーモデルを規定するパラメータから構成される。
<2−4>尤度ベクトル
尤度ベクトルFは、複数のサウンド素片それぞれに対応するアンカーモデルAr(r=1,2,・・・,1024)を用いて、オーディオ信号の特徴量を表現する特徴量ベクトルMに対して算出された尤度Lrを成分とする。従って、尤度ベクトルは、1024次元のベクトルで表現される。この特徴量ベクトルMは、前述<2−3>のように、音声抽出装置102が抽出したオーディオ信号の第1単位区間毎に生成されるものである。
<3>構成
本実施の形態に係る興味区間抽出装置104を搭載した映像編集装置100を図6に示す。
<3−1>全体構成
映像編集装置100は、図6に示すように、入力装置101と、コンテンツ記憶装置103と、音声抽出装置102と、興味区間抽出装置104と、興味区間記憶装置105と、出力装置106と、アンカーモデル作成装置108と、音声データ記憶装置130と、インターフェース装置109とを備える。
<3−2>興味区間抽出装置
興味区間抽出装置104は、メモリ(図示せず)とプロセッサ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図7に示す各構成を実現している。以下、各構成について詳述する。
<3−2−1>特徴量ベクトル生成部
特徴量ベクトル生成部201は、入力されるオーディオ信号から特徴量ベクトルを生成する。この特徴量ベクトル生成部201は、まず、音声抽出装置102から入力されるオーディオ信号に対して第1単位区間毎に音響分析を行い、パワースペクトラムS(ω)を算出する。特徴量ベクトル生成部201は、算出したパワースペクトラムS(ω)から特徴量ベクトルM(M(1),M(2),・・・,M(26))を生成する。特徴量ベクトル生成部201は、100個の特徴量ベクトルMを生成することになる(図3参照)。
<3−2−2>尤度ベクトル生成部
尤度ベクトル生成部202は、各サウンド素片のアンカーモデルArを用いて特徴量ベクトルMに対する尤度Lrを算出し、算出した尤度Lrを各成分とする尤度ベクトルFを生成する。尤度ベクトル生成部202は、アンカーモデルArを構成する各パラメータをアンカーモデル蓄積部107から取得する。
<3−2−3>尤度ベクトルバッファ
尤度ベクトルバッファ203は、メモリの一部の領域により構成され、尤度ベクトル生成部202で生成された尤度ベクトルFを記憶する。
<3−2−4>成分分類部
成分分類部205は、[数1]の関係式に従って、尤度ベクトルバッファ203からオーディオ信号の全区間から生成された全ての尤度ベクトルFを読み出し、これらの尤度ベクトルFの総和の各成分を全区間に含まれる第1単位区間の数で割ったもの(重心ベクトルG)を算出する。
<3−2−5>頻度ベクトル生成部
頻度ベクトル生成部206は、頻度ベクトルNFを生成するときに用いる区間を第2単位区間ずつ(1secずつ)ずらしながら頻度ベクトルNFを生成していく。この第2単位区間は、図9に示すように、複数個の第1単位区間の集合に相当する。この頻度ベクトルNFの各成分は、第2単位区間に含まれる尤度ベクトルFの各成分の正規化累積尤度に相当する。この頻度ベクトルNFの一例を図10上段に示す。
<3−2−6>頻度ベクトルバッファ
頻度ベクトルバッファ207は、メモリの一部の領域により構成され、頻度ベクトル生成部206が生成した低頻度ベクトルNFlと高頻度ベクトルNFhを記憶する。
<3−2−7>基準ベクトル・閾値生成部
基準ベクトル・閾値生成部204は、頻度ベクトルバッファ203から指定時刻に対応する高頻度ベクトルNFhを含む複数の第2単位区間に含まれる高頻度ベクトルNFhを取得して基準ベクトルNFh0を算出する。図11の例では、基準ベクトルNFh0が、指定時刻に対応する第2単位区間の前後4個の第2単位区間(合計で9個の第2単位区間)内に含まれる9個の高頻度ベクトルNFhの総和を、第2単位区間の数(9個)で割って得られる。
<3−2−8>指定時刻取得部
指定時刻取得部210は、インターフェース装置109から指定時刻に関する情報を取得し、基準ベクトル・閾値生成部204、特徴点抽出部208および興味区間抽出部209に入力する。
<3−2−9>特徴点抽出部
特徴点抽出部208は、指定時刻T0から1sec刻みで時刻を遡りながら低頻度ベクトルNFl(T),NFl(T−1)の差分Δ(NFl(T)−NFl(T−1))のノルムを算出していく。
<3−2−10>興味区間抽出部
興味区間抽出部209では、指定時刻取得部210から入力される指定時刻に関する情報と、高頻度ベクトルNFhとに基づいて第1特徴区間(候補区間)を抽出する。
<3−2−10>アンカーモデル蓄積部
アンカーモデル蓄積部107は、メモリの一部により構成され、アンカーモデル作成装置108が作成したアンカーモデルArを蓄積している。このアンカーモデル蓄積部107は、興味区間抽出処理を行う前に予めアンカーモデルArを蓄積している。
<3−3>アンカーモデル作成装置
本実施の形態に係るアンカーモデル作成装置108の機能ブロックを図18に示す。アンカーモデル作成装置108は、音声データ蓄積装置130に蓄積されている音声データからアンカーモデルArを作成してアンカーモデル蓄積部107に蓄積する。
<3−3−1>特徴量ベクトル生成部
特徴量ベクトル生成部301は、前述<3−2−1>で説明した特徴量ベクトル生成部201と同様に、音声データ蓄積部130から取得した音声データを第1単位区間に分割し、第1単位区間毎に音響分析を行ってパワースペクトラムS(ω)を算出し、算出したパワースペクトラムS(ω)から特徴量ベクトルMを生成する。
<3−3−2>特徴量ベクトル分類部
特徴量ベクトル分類部302は、インターフェース装置109から入力されるアンカーモデルArの個数Kに基づいて、K−means法により複数の特徴量ベクトルMをK個のクラスタに分離し、各クラスタを表す代表的な特徴量ベクトル(以下、クラスタ特徴量ベクトルと称す。)を算出する。この各クラスタが各アンカーモデルArに対応することになる。なお、本実施の形態では、K=1024に設定されている。
<3−3−3>アンカーモデル生成部
アンカーモデル生成部303は、各クラスタのクラスタ特徴量ベクトルに基づいて、各アンカーモデルArに対応する特徴量出現確率関数bAr(M)を算出する。
<4>動作
<4−1>映像編集装置の動作
以下、本実施の形態に係る興味区間抽出装置104を搭載した映像編集装置100の動作について説明する。
<4−2>興味区間抽出処理
興味区間抽出処理について、図8に基づいて更に詳細に説明する。
<変形例>
以上、本発明に係る興味区間抽出装置104について実施形態1および2に基づいて説明したが、本発明は前述の実施形態1および2で示した興味区間抽出装置104に限られないことはもちろんである。
103 コンテンツ記憶装置
104 興味区間抽出装置
105 興味区間記憶装置
106 興味区間抽出部
107 アンカーモデル蓄積部
108 アンカーモデル作成装置
109 インターフェース装置
130 音声データ蓄積装置
201,301 特徴量ベクトル生成部
202 尤度ベクトル生成部
202b 頻度ベクトル生成部
203c 成分分類部
204 特徴点抽出部
205 興味区間抽出部
302 特徴量ベクトル分類部
303 アンカーモデル生成部
Claims (12)
- 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出装置であって、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積手段と、
前記指定時刻を取得する指定時刻取得手段と、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段と、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出手段とを備える
ことを特徴とする興味区間抽出装置。 - 前記単位区間を第1単位区間として、当該第1単位区間のN倍(Nは2以上の自然数)の長さの第2単位区間のオーディオ信号から生成されたN個の尤度ベクトルから頻度ベクトルを生成する頻度ベクトル生成手段を備え、
前記候補区間は、前記頻度ベクトルに基づいて算出される
ことを特徴とする請求項1記載の興味区間抽出装置。 - 前記頻度ベクトルの各成分を複数の成分群に分類する成分分類手段と、
複数の前記成分群それぞれに基づいて複数の特徴区間を算出する特徴区間算出手段とを備え、
前記候補区間は、複数の前記特徴区間により定まる
ことを特徴とする請求項2記載の興味区間抽出装置。 - 前記成分分類手段は、オーディオ信号の全区間の尤度ベクトルから重心ベクトルを生成し当該重心ベクトルの各成分の大きさに基づいて、前記頻度ベクトルの各成分を第1成分群と第2成分群とに分類し、
前記特徴区間算出手段は、前記重心ベクトルにおける前記第1成分群に属する各成分に基づいて第1特徴区間を算出し、前記重心ベクトルにおける前記第2成分群に属する各成分に基づいて第2特徴区間を算出し、
前記候補区間は、前記第1特徴区間および前記第2特徴区間により定まる
ことを特徴とする請求項3記載の興味区間抽出装置。 - 前記興味区間は、前記第1特徴区間に含まれ且つ前記第2特徴区間を包含する区間である
ことを特徴とする請求項4記載の興味区間抽出装置。 - ユーザが予め設定した興味区間の長さを取得する興味区間長取得手段と、
前記指定時刻から前記第2単位区間ずつ時刻をずらしながら前記第2特徴区間に含まれる特徴時刻を検索して抽出する特徴時刻抽出手段を備え、
前記興味区間抽出手段は、前記指定時刻から前記特徴時刻抽出手段が抽出した前記特徴時刻に向かって前記第2単位区間ずつ時刻をずらしながら、対象時刻が前記第1特徴区間に属し且つ当該対象時刻と前記指定時刻との間の長さが予め設定された興味区間の長さよりも短いか否かを判断し、対象時刻が前記第1特徴区間に属し且つ当該対象時刻と前記指定時刻との間の長さが予め設定された興味区間の長さよりも短いと判断すると前記対象時刻を含む第2単位区間を興味区間とする
ことを特徴とする請求項5記載の興味区間抽出装置。 - 前記動画ファイルは、1つのコンテンツを表す動画に対応する
ことを特徴とする請求項6記載の興味区間抽出装置。 - 前記興味区間抽出手段は、複数の前記指定時刻に対応する複数の前記興味区間を前記指定時刻の順に整列して外部記憶装置に記憶する
ことを特徴とする請求項7記載の興味区間抽出装置。 - 前記指定時刻取得手段は、動画ファイルに含まれ且つユーザの指定した区間に対応する画像データそれぞれの特徴量の時間変化に基づいて、当該ユーザの指定した区間の中から自動的に前記指定時刻を取得する
ことを特徴とする請求項8記載の興味区間抽出装置。 - 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出方法であって、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積するアンカーモデル蓄積ステップと、
前記指定時刻を取得する指定時刻取得ステップと、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む
ことを特徴とする興味区間抽出方法。 - コンピュータにより動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出処理を実現させるためのプログラムであって、前記興味区間抽出処理は、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積するアンカーモデル蓄積ステップと、
前記指定時刻を取得する指定時刻取得ステップと、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む
ことを特徴とする興味区間抽出プログラム。 - 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出用集積回路であって、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積部と、
前記指定時刻を取得する指定時刻取得部と、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成部と、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出部とを備える
ことを特徴とする興味区間抽出用集積回路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012551746A JP5658285B2 (ja) | 2011-01-05 | 2011-10-28 | 興味区間抽出装置、興味区間抽出方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011000839 | 2011-01-05 | ||
JP2011000839 | 2011-01-05 | ||
PCT/JP2011/006031 WO2012093430A1 (ja) | 2011-01-05 | 2011-10-28 | 興味区間抽出装置、興味区間抽出方法 |
JP2012551746A JP5658285B2 (ja) | 2011-01-05 | 2011-10-28 | 興味区間抽出装置、興味区間抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012093430A1 JPWO2012093430A1 (ja) | 2014-06-09 |
JP5658285B2 true JP5658285B2 (ja) | 2015-01-21 |
Family
ID=46457300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012551746A Expired - Fee Related JP5658285B2 (ja) | 2011-01-05 | 2011-10-28 | 興味区間抽出装置、興味区間抽出方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8942540B2 (ja) |
JP (1) | JP5658285B2 (ja) |
CN (1) | CN102782750B (ja) |
WO (1) | WO2012093430A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2012164818A1 (ja) * | 2011-06-02 | 2015-02-23 | パナソニック株式会社 | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789780B (zh) * | 2012-07-14 | 2014-10-01 | 福州大学 | 基于谱时幅度分级向量辨识环境声音事件的方法 |
US9544704B1 (en) * | 2015-07-16 | 2017-01-10 | Avaya Inc. | System and method for evaluating media segments for interestingness |
US11341185B1 (en) * | 2018-06-19 | 2022-05-24 | Amazon Technologies, Inc. | Systems and methods for content-based indexing of videos at web-scale |
CN111107442B (zh) * | 2019-11-25 | 2022-07-12 | 北京大米科技有限公司 | 音视频文件的获取方法、装置、服务器及存储介质 |
CN114255741B (zh) * | 2022-02-28 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 重复音频检测方法、设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298498A (ja) * | 1999-03-11 | 2000-10-24 | Fuji Xerox Co Ltd | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム |
JP2002140712A (ja) * | 2000-07-14 | 2002-05-17 | Sony Corp | Av信号処理装置および方法、プログラム、並びに記録媒体 |
JP2005331940A (ja) * | 2004-05-07 | 2005-12-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2008022103A (ja) * | 2006-07-11 | 2008-01-31 | Matsushita Electric Ind Co Ltd | テレビ番組動画像ハイライト抽出装置及び方法 |
JP2008175955A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | インデキシング装置、方法及びプログラム |
JP2008185626A (ja) * | 2007-01-26 | 2008-08-14 | Toshiba Corp | ハイライトシーン検出装置 |
WO2011033597A1 (ja) * | 2009-09-19 | 2011-03-24 | 株式会社 東芝 | 信号分類装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2960939B2 (ja) | 1989-08-24 | 1999-10-12 | 日本電信電話株式会社 | シーン抽出処理方法 |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
JP3955418B2 (ja) | 1999-08-17 | 2007-08-08 | 株式会社日立国際電気 | 動画像編集装置 |
US7302451B2 (en) | 2004-05-07 | 2007-11-27 | Mitsubishi Electric Research Laboratories, Inc. | Feature identification of events in multimedia |
CN100570712C (zh) | 2005-12-13 | 2009-12-16 | 浙江大学 | 基于锚模型空间投影序数比较的快速说话人确认方法 |
JP5088030B2 (ja) * | 2007-07-26 | 2012-12-05 | ヤマハ株式会社 | 演奏音の類似度を評価する方法、装置およびプログラム |
JP5206378B2 (ja) | 2008-12-05 | 2013-06-12 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
-
2011
- 2011-10-28 CN CN201180012516.2A patent/CN102782750B/zh active Active
- 2011-10-28 US US13/582,206 patent/US8942540B2/en active Active
- 2011-10-28 JP JP2012551746A patent/JP5658285B2/ja not_active Expired - Fee Related
- 2011-10-28 WO PCT/JP2011/006031 patent/WO2012093430A1/ja active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298498A (ja) * | 1999-03-11 | 2000-10-24 | Fuji Xerox Co Ltd | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム |
JP2002140712A (ja) * | 2000-07-14 | 2002-05-17 | Sony Corp | Av信号処理装置および方法、プログラム、並びに記録媒体 |
JP2005331940A (ja) * | 2004-05-07 | 2005-12-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2008022103A (ja) * | 2006-07-11 | 2008-01-31 | Matsushita Electric Ind Co Ltd | テレビ番組動画像ハイライト抽出装置及び方法 |
JP2008175955A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | インデキシング装置、方法及びプログラム |
JP2008185626A (ja) * | 2007-01-26 | 2008-08-14 | Toshiba Corp | ハイライトシーン検出装置 |
WO2011033597A1 (ja) * | 2009-09-19 | 2011-03-24 | 株式会社 東芝 | 信号分類装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2012164818A1 (ja) * | 2011-06-02 | 2015-02-23 | パナソニック株式会社 | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 |
Also Published As
Publication number | Publication date |
---|---|
US8942540B2 (en) | 2015-01-27 |
CN102782750A (zh) | 2012-11-14 |
CN102782750B (zh) | 2015-04-01 |
WO2012093430A1 (ja) | 2012-07-12 |
US20120321282A1 (en) | 2012-12-20 |
JPWO2012093430A1 (ja) | 2014-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262239B2 (en) | Video content contextual classification | |
US10679063B2 (en) | Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics | |
JP5658285B2 (ja) | 興味区間抽出装置、興味区間抽出方法 | |
CN102207954B (zh) | 电子设备、内容推荐方法及其程序 | |
US8948515B2 (en) | Method and system for classifying one or more images | |
JP5533861B2 (ja) | 表示制御装置、表示制御方法、及び、プログラム | |
CN109691124B (zh) | 用于自动生成视频亮点的方法和系统 | |
US8892497B2 (en) | Audio classification by comparison of feature sections and integrated features to known references | |
US20110243452A1 (en) | Electronic apparatus, image processing method, and program | |
WO2012020667A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
JP6039577B2 (ja) | 音声処理装置、音声処理方法、プログラムおよび集積回路 | |
JP2011223287A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP2012038240A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP5723446B2 (ja) | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 | |
CN102473409B (zh) | 声音空间的基准模型适应装置、集成电路以及av设备 | |
JP5908924B2 (ja) | 音声処理装置、方法、プログラムおよび集積回路 | |
TWI780333B (zh) | 動態處理並播放多媒體內容的方法及多媒體播放裝置 | |
US12067780B2 (en) | Systems and methods for video event segmentation derived from simultaneously recorded sensor data | |
Hauptmann et al. | Informedia@ trecvid2008: Exploring new frontiers | |
JP2011035489A (ja) | 映像再構成方法、映像再構成装置および映像再構成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20140606 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5658285 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |