JP2002251197A - オーディオビジュアルサマリ作成方法 - Google Patents

オーディオビジュアルサマリ作成方法

Info

Publication number
JP2002251197A
JP2002251197A JP2001376561A JP2001376561A JP2002251197A JP 2002251197 A JP2002251197 A JP 2002251197A JP 2001376561 A JP2001376561 A JP 2001376561A JP 2001376561 A JP2001376561 A JP 2001376561A JP 2002251197 A JP2002251197 A JP 2002251197A
Authority
JP
Japan
Prior art keywords
audio
image
segments
audiovisual
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001376561A
Other languages
English (en)
Other versions
JP3705429B2 (ja
Inventor
Kyou Ikou
キョウ イコウ
Xin Liu
リュウ シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2002251197A publication Critical patent/JP2002251197A/ja
Application granted granted Critical
Publication of JP3705429B2 publication Critical patent/JP3705429B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 入力ビデオから抽出された画像、オーディ
オ、およびテキスト特徴をシームレスに統合することに
より、オーディオ中心型、画像中心型、およびオーディ
オビジュアル統合型の高品質のサマリを作成する。 【解決手段】 オーディオと画像の内容の厳密な同期が
要求されないときには、統合型サマリ作成が用いられ
る。オーディオ内容と画像内容の同期を要求するビデオ
番組の場合、オーディオ中心型または画像中心型のいず
れかの方法を用いてサマリが作成される。機械学習によ
る方法と、代替法である発見的方法が使用可能である。
ナイーブベイズ法、決定木法、ニューラルネットワーク
法、および最大エントロピー法のようなさまざまな確率
論的方法が、機械学習による方法で使用可能である。代
替法である発見的方法を用いてオーディオビジュアル統
合型サマリを作成するには、最大2部マッチング法が用
いられる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、ビデオサ
マリ作成技術に関し、特に、入力ビデオから抽出した画
像、オーディオ、およびテキスト特徴をシームレスに統
合することによりビデオサマリを作成する方法およびシ
ステムに関する。
【0002】
【従来の技術】長い論説や学術論文などのテキスト文書
の多くには要約がある。要約の助けにより、読者は、文
書全体を詳細に分析せずに、その文書の内容が関心のあ
るものかどうかをすばやく確かめることができる。テキ
スト文書の場合もそうであるが、ビデオ番組の内容およ
び性質は一目では捉えられないことが多い。同様にして
一般的に全体の内容を示すために、長いビデオ番組の要
約すなわちサマリを提供することが一般に望まれる。
【0003】最近、ワールドワイドウェブ(WWWある
いはウェブ)の爆発的な成長により、オンラインテキス
トおよびマルチメディアデータコレクションの数が急激
に増大している。オンラインマルチメディアコンテンツ
の増大というこの傾向が続くと、ユーザが大量のデータ
から最も関連性のある情報をすばやく識別することを支
援する自動データサマリ作成技術はますます重要にな
る。
【0004】この状況において、ビデオサマリ作成が、
困難な課題を提示する。その作業が困難であるのは、ビ
デオ番組の画像トラックおよびオーディオトラックの両
方のサマリ作成をまず必要とするからである。2つのサ
マリを自然なやりかたで有効に統合することが、もう1
つの課題となる。
【0005】一般に、ほとんどの種類のビデオサマリ作
成は、オーディオ中心型サマリ作成(audio-centric sum
marization)、画像中心型サマリ作成(image-centric su
mmarization)、およびオーディオビジュアル統合型サマ
リ作成(integrated audio-visual summarization)とい
う3つのカテゴリに分類することができる。ビデオ番組
のうちには、例えばニュース放送、ドキュメンタリー、
ビデオセミナーのように、対応するオーディオトラック
と画像トラックの間に強い相関のないタイプのものがあ
る。このようなビデオカテゴリについては、オーディオ
と画像をゆるく整列(整合)させながら、オーディオと
画像の両方の内容のカバレジを最大にするオーディオビ
ジュアル統合型サマリ作成アプローチを使用するのが適
当である。他方、映画、ドラマ、トークショーなどのよ
うな他のタイプのビデオ番組は、オーディオトラックと
画像トラックの間に強い相関を有することがある。この
種のビデオ番組については、オーディオ提示とビデオ画
像の間の同期が重要である。このような状況では、オー
ディオ中心型または画像中心型のいずれかのサマリ作成
方法を使用するのが適当である。
【0006】
【発明が解決しようとする課題】従来のシステムは、こ
のようなさまざまなタイプのビデオ番組に対する有効で
効率的なサマリ作成という課題に対し、包括的な解決法
を提供していない。現在使用されている多くのビデオサ
マリ作成システム・方法は、あるタイプのビデオ内容を
発見的に重要であるとみなし、これらのあらかじめ指定
した内容を入力ビデオから抽出することによってサマリ
を作成している。その結果、これらのビデオサマリ作成
システム・方法は、非常に領域特異的(領域固有)かつ
アプリケーション特異的であり、ユーザの個々の需要に
基づいてサマリを作成することや、さまざまな種類のビ
デオ番組を処理することができない。
【0007】
【課題を解決するための手段】本発明は、機械学習フレ
ームワークに基づくビデオサマリ作成のシステムおよび
方法を提供することによって、従来のビデオサマリ作成
技術の前記およびその他の欠点を克服する。また、本発
明はさらに、機械学習フレームワークによって要求され
るトレーニングデータを得ることが困難な状況に対処す
るためのシステムおよび方法も提供する。これらのシス
テムおよび方法は、入力ビデオから抽出される画像、オ
ーディオ、およびテキスト特徴をシームレスに統合する
ことによって、高品質のオーディオおよび画像のサマリ
を作成することができる。
【0008】オーディオトラックと画像トラックの間の
強い同期に依存しないビデオ番組の具体例として、オー
ディオセグメントが最近の地震による犠牲者の数に関す
る情報を提示しているテレビニュース番組を考える。対
応する画像セグメントは、現場のレポーターの接写であ
ったり、崩壊した建物の現場で作業する救助隊の接写で
あったり、地震の震央を示す地域地図の接写であったり
する。このような場合、オーディオ内容は、必ずしも、
対応する画像内容に言及している必要がないことが多
い。前述のように、このようなビデオ番組のその他の例
には、ドキュメンタリー、セミナーなどがある。
【0009】本発明の一実施例によれば、厳密な同期が
要求されないときには、ビデオ番組のサマリを作成する
ために、オーディオビジュアル統合型サマリ作成技術が
用いられる。このようなビデオ番組のサマリを作成する
際には、オーディオおよび画像のサマリを別個に作成す
ることが好ましい。その後、2つのサマリが、ゆるく整
列して統合される。このアプローチでは、オーディオ内
容と画像内容の両方のカバレジを、サマリにおいて最大
化することが可能である。
【0010】逆に、オーディオ内容と画像内容の間の強
い同期を要求するビデオ番組は、一般に、特定の瞬間に
おけるオーディオトラックがその瞬間に提示される画像
と直接関係しており、その逆も同様であるということに
よって特徴づけられる。このようなビデオ番組のサマリ
を作成する際には、オーディオと画像の間の同期が重要
である。したがって、同期はオーディオ中心型または画
像中心型のいずれかであることが好ましい。
【0011】一実施例によれば、オーディオ中心型サマ
リ作成技術は、ビデオ番組に関連するオーディオ内容の
重要な側面を確認する。必要な程度の同期を達成するた
め、画像サマリは、オーディオサマリを構成するオーデ
ィオセグメントに対応するビデオフレームを選択するこ
とによってのみ、生成される。画像中心サマリ作成技術
は、まず、ビデオ番組の重要な画像セグメントを識別す
ることによって画像トラックのサマリを作成する。その
後、これらの重要なあるいは代表的な画像セグメントに
対応するオーディオセグメントを、全体のビデオサマリ
に含める。
【0012】サマリを作成するプロセスは、画像、オー
ディオ信号、音声トランスクリプト、および字幕(クロ
ーズドキャプション)テキストからの手がかりおよび特
徴を利用することによって容易化される。画像特徴、音
声トランスクリプト、および字幕テキストは、オーディ
オサマリ作成を改善するために、対応するオーディオ特
徴と組み合わされ、一方、オーディオ特徴、音声トラン
スクリプト、および字幕テキストは、よりよい画像サマ
リ作成を容易にするために、関連する画像特徴と組み合
わされる。
【0013】オーディオ中心型、画像中心型、あるいは
オーディオビジュアル統合型のサマリ作成を実現するた
め、以下では2つの実施例について説明する。1つの技
術によれば、与えられたアプリケーションに対していず
れのサマリ作成技術が好ましいかに応じて、あらかじめ
サマリ作成の選択(プレファレンス)を例示することが
可能なトレーニングデータを用いて、機械学習が、ビデ
オ番組のオーディオあるいは画像トラックに適用され
る。この技術では、システムは、既知のアルゴリズム方
式のうちの任意のものを用いて、サンプルビデオサマリ
に示される挙動を模倣し、このサンプルから、および、
サンプルの固有のインプリメンテーションから、学習を
行うことが可能である。必要な命令をシステムに提供す
るために、トレーニングデータが直ちに入手可能でない
場合や容易に適用可能でない場合には、以下で説明する
もう1つの実施例が、本発明の代替方法として、適用可
能である。
【0014】本発明の上記および関連するその他の利点
は、添付図面を参照して、以下の好ましい実施例の詳細
な説明を検討すれば、さらに明らかとなる。
【0015】
【発明の実施の形態】図面を参照すると、図1は、機械
学習によるビデオサマリ作成システム・方法に関する、
本発明の一実施例の動作を示す流れ図である。図1を参
照して、以下では、使用される数学的モデルのタイプ、
オーディオおよびビジュアルサマリ作成に用いられる特
徴、ならびに、オーディオおよびビジュアルサマリを整
列させる方法について説明する。
【0016】[機械学習フレームワーク]通常のビデオ
番組は、オーディオトラックおよび画像トラックの両方
を含み、これらはいずれも長く連続することがある。こ
のようなビデオ番組のサマリを作成するには、そのビデ
オを構成するオーディオトラックおよび画像トラックの
両方を、有意味かつ管理可能な操作ユニットに分節化し
なければならない。例えば、有意味なオーディオ操作ユ
ニットとしては、1個の単語、1個の句、1個の文、あ
るいはその他のコヒーレントな音響プロファイルを有す
るオーディオセグメントの発声がある。同様に、可能な
画像操作ユニットの例には、単一のカメラショット、一
連の連続するカメラショット、ある判断基準によってグ
ループ分けされた画像フレームのクラスタなどがある。
【0017】このような状況において、あるベクトルす
なわち特徴セットXで、オーディオまたは画像操作ユニ
ットを表すことが可能である。さらに、Xは、いくつか
の特徴xを含む。特徴xは、オーディオまたは画像操作
ユニットに関連する画像特徴、オーディオ特徴、テキス
ト特徴(例えば、音声トランスクリプトや字幕からの重
要なキーワード)とすることが可能である。n個の特徴
xが特定のベクトルすなわち特徴セットXに存在する場
合、X=[x1,x2,...,xn]である。サマリ作成作
業は、与えられた特徴セットXに対して、確率P(y|
X)を計算する二分分類問題に変換される。ここでyは
2進(バイナリ)変数であり、その値1および0は、X
がサマリに含まれるか否かのそれぞれの状態を表す。こ
の確率P(y|X)は、ルール(規則)によるアプロー
チを用いて決定することも可能であり、あるいは、機械
学習法を用いて評価することも可能である。後者の場
合、トレーニングデータが機械学習システムに提供さ
れ、システムは、提供されたトレーニングデータに従っ
て、確率P(y|X)を予測するモデルを学習すること
になる。
【0018】確率P(y|X)を評価するために、ナイ
ーブベイズ法、決定木法、ニューラルネットワーク法、
最大エントロピー法(これらには限定されない)などの
ような、既知のさまざまな機械学習技術のうちの任意の
ものを使用可能である。このような技術は、この技術分
野の当業者に周知であるため、ここで詳細に説明する必
要はない。
【0019】[システム構成]上記のように、図1は、
機械学習によるビデオサマリ要約作成システム・方法の
一実施例の動作を示す概略流れ図である。システムは、
ビデオ入力の画像トラックおよびオーディオトラックを
検査する。さらに、システムは、入力ビデオに関連する
字幕があればそれも検査することが可能である。ビデオ
サマリ作成システム・方法は、これらの3つの入力コン
ポーネント、すなわち、字幕、オーディオトラック、お
よび画像トラックの間の整列を実行することが可能であ
る。各入力コンポーネントに対する特徴抽出および特殊
な操作も実行可能である。抽出された特徴および各コン
ポーネント操作の出力はその後、オーディオビジュアル
統合型サマリ、または、オーディオ中心型サマリもしく
は画像中心型サマリのいずれかを作成するために、機械
学習によるサマリ作成モジュールに入力される。以下の
操作が一般に、入力コンポーネントのそれぞれに関して
実行される。
【0020】サウンド(音)の検出と分類: 音楽、拍
手、叫び声、爆発、雷鳴、銃声などのような非音声サウ
ンドからなるオーディオセグメントを検出する。それら
を、それぞれがコヒーレントな音響プロファイルを有す
るサウンドユニットに分節化する。これらのユニット
を、それらの内容に従って分類する。各サウンドユニッ
トに対して、以下のデータ、すなわち、オーディオトラ
ック内でのそのサウンドユニットの開始時刻コード、そ
のサウンドユニットの継続時間、およびサウンドユニッ
トのカテゴリあるいはタイプを出力する。
【0021】音声認識: サウンド検出・分類モジュー
ルによって検出された非音声オーディオセグメントを取
り除く。残りのオーディオセグメントに対して音声認識
を実行して音声トランスクリプトを生成する。それぞれ
の認識語、オーディオトラック内でのその開始時刻コー
ド、およびその継続時間を出力する。
【0022】字幕と音声トランスクリプトの整列: 字
幕と、音声認識器からの音声トランスクリプトとの間の
整列を実行する。字幕は、タイピングミスを含むことが
あり、音声認識器からの音声トランスクリプトは認識エ
ラーを含むことがある。字幕と音声トランスクリプトの
間の整列は、音声トランスクリプトの精度を改善するた
めに有効である。
【0023】音声ユニットと特徴ベクトル生成: 整列
した音声トランスクリプトに基づいて音声操作ユニット
を生成し、各音声ユニットに対して特徴ベクトルを生成
する。例えば、有意味な音声ユニットとしては、1個の
単語、1個の句、1個の文、あるいはその他の有意味な
音声内容を有するセグメントがある。
【0024】音声ユニット重要度ランク付け: 各音声
ユニットの重要度ランクを計算する。この重要度ランク
付けは、例えば、米国特許仮出願第60/254,53
5号(出願日:2000年12月12日、発明の名
称:"Text Summarization UsingIR Technique And Sing
ular Value Decomposition")、および、米国特許出願
第09/817,591号(出願日:2001年3月2
6日、発明の名称:"Generic Text Summarization Usin
g Relevance Measure and Latent Semantic Analysi
s")に記載されているような、当業者に知られた方法を
利用することが可能である(本出願人による特願200
1−356813号を参照)。
【0025】話者ID検出: 音声ユニット・特徴ベク
トル生成モジュールから音声ユニットを受け取る。それ
ぞれの音声ユニットに対して、話者の識別を決定する
(すなわち、話者識別検出)。
【0026】画像セグメント分節化: 画像トラック
を、それぞれがコヒーレントな画像プロファイルおよび
動きプロファイルを有する個々の画像セグメントに分節
化する。得られた画像セグメントは、画像操作ユニット
として使用可能である。
【0027】画像特徴ベクトル生成: 画像特徴を抽出
し、各画像セグメントに対して特徴ベクトルを形成す
る。特徴ベクトルを形成するためには、画像セグメント
内容の何らかの側面を捕捉する任意の画像特徴が使用可
能である。
【0028】顔ID検出: それぞれの画像セグメント
に人間の顔が含まれていれば、それを検出し識別する。
【0029】上記の操作が実行された後、出力は、機械
学習によるサマリ作成モジュールに供給され、そこで、
オーディオおよびビジュアルサマリが、前述のような機
械学習フレームワークを用いて作成される。オーディオ
サマリ作成プロセスには、それぞれの音声あるいはサウ
ンドユニットXに対して、そのユニットがオーディオサ
マリに含まれるのに十分な重要性を有する確率P(y|
X)を計算することが含まれる。上記のように、それぞ
れの音声あるいはサウンドユニットに関連する以下の特
徴が、機械学習フレームワークで使用可能である。すな
わち、その特徴とは、音声ユニットの開始時刻コード、
継続時間、および重要度ランク、サウンドユニットの開
始時刻コード、継続時間、およびカテゴリ、ならびに、
対応する画像の顔識別、および画像特徴ベクトルであ
る。それぞれの音声あるいはサウンドユニットXに対す
る確率P(y|X)が計算された後、オーディオサマリ
がユーザ指定の長さLsumに達するまで、確率P(y|
X)の降順に音声ユニットあるいはサウンドユニットを
選択することによって、オーディオサマリが作成され
る。
【0030】他方、ビジュアルサマリ作成は、上記の操
作で作成された画像セグメントを操作ユニットとして使
用する。ビジュアルサマリ作成プロセスは、同様に、機
械学習フレームワークを用いて、例えば各画像セグメン
トSに対して、その画像セグメントがビジュアルサマリ
に含まれるのに十分な重要性を有する確率P(y|S)
を計算する。上記のように、例えば、各画像セグメント
Sに関連する以下の特徴が考えられる。すなわち、その
特徴とは、長さ(すなわち、連続する、順次的な、ある
いはその他の関連するフレームの個数)、画像特徴ベク
トル、その画像セグメントに描画された人物あるいは顔
の識別、黒フレームや画像ロゴなどのような特殊なフレ
ームの存在、人間および物体(オブジェクト)の動き、
ズームやパンなどのようなカメラの動き、対応する音声
ユニットおよびサウンドユニット、ならびに、対応する
音声ユニットに関連する話者の識別である。各画像セグ
メントSに対する確率P(y|S)が計算された後、ビ
ジュアルサマリがユーザ指定の長さLsumに達するま
で、確率P(y|S)の降順に画像ユニットを選択する
ことによって、ビジュアルサマリが作成される。
【0031】ビジュアルサマリは、必ずしも、それぞれ
の選択された画像セグメントを最初から最後まで含むこ
とは必要でない。もとのビデオ番組を構成する画像セグ
メントの平均時間長は長いが、ユーザ指定のサマリ長L
sumは短い場合、ビジュアルサマリはほんの2、3個の
画像セグメントによって構成されることになるため、も
とのビジュアル内容の大幅な喪失につながる可能性があ
る。ユーザがビジュアルサマリ作成結果に影響を及ぼす
ことを可能にするため、ユーザは、サマリ長L sumのみ
ならず、最小再生時間Lminをも指定するように要求さ
れることも可能である。Lsumは、全体のビジュアル内
容を理解するためにユーザがどのくらいの長さの時間を
使いたいかを示す一方、Lminは、幅指向ビジュアルサ
マリと深さ指向ビジュアルサマリの間の選択権をユーザ
に提供する。例えば、小さいLminの値は、多数の短い
画像セグメントからなる幅指向のビジュアルサマリを生
成するために用いられる。他方、大きいLminの値は、
少数の長い画像セグメントからなる深さ指向のビジュア
ルサマリを生成するために用いられる。
【0032】ユーザがLsumおよびLminを指定した後、
ビジュアルサマリ内に含まれることが可能な画像セグメ
ントの総数は、C=min(Lsum/Lmin,|Ω|)に
等しい。ただし、|Ω|は、もとのビデオ内の画像セグ
メントの総数を表す。さらに、それぞれの選択された画
像セグメントに割り当てられることが可能な時間長は、
L=Lsum/Cに等しい。この状況において、ビジュア
ルサマリは、確率P(y|S)の降順にC個の画像セグ
メントを選択し、そのC個の画像セグメントのそれぞれ
の最初のL秒間をとり、それらを時間の昇順に連結する
ことによって作成される。
【0033】[オーディオサマリとビジュアルサマリの
間の整列]オーディオおよびビジュアルサマリが作成さ
れた後、解決すべき最後の問題は、どのようにしてこれ
らの2つのサマリを同期するかである。オーディオトラ
ックAおよび画像トラックIからなるビデオシーケンス
をV=(I,A)とする。Vのオーディオサマリは、A
sum={A(ti,τi)∈A|i=1,...,N
(A sum)}と表される。ただし、A(ti,τi)は、
時刻tiに開始し時間τiだけ継続するオーディオセグメ
ントを表し、N(Asum)は、Asumを構成するオーディ
オセグメントの個数を表す。Asum内のすべてのオーデ
ィオセグメントは、それらの開始時刻tiの昇順に配列
される。同様に、Vのビジュアルサマリは、Is um
{I(tj,τj)∈I|j=1,...,N(Isum)}と
表され、すべてのコンポーネントはそれらの開始時刻の
昇順にソートされる。
【0034】上記のように、オーディオ中心型および画
像中心型サマリは、同期の問題を最小にする。すなわ
ち、同期は、単に、もとのビデオ番組から、画像または
オーディオのそれぞれの対応部分をとることによって実
現可能である。オーディオ中心型サマリについては、A
(tj,τj)∈Asumの場合、I(tj,τj)∈Isum
ある。画像中心型サマリについては、I(tj,τj)∈
sumの場合、A(tj,τj)∈Asumである。オーディ
オビジュアル統合型サマリを作成するためには、オーデ
ィオサマリとビジュアルサマリが機械学習フレームワー
クを用いて別個に作成されるため、それぞれのオーディ
オセグメントA(tj,τj)∈Asumに対して、対応す
る画像セグメントI(tj,τj)は必ずしもIsumに属
するとは限らず、逆も同様である。したがって、画像お
よびオーディオの両方の内容のカバレジを、それらのい
ずれをも犠牲にせずに最大化するため、オーディオサマ
リとビジュアルサマリの間でゆるい整列が実行される。
【0035】オーディオビジュアル統合型サマリについ
ては、どのオーディオ内容がどの画像内容と同期しなけ
ればならないか、およびその逆はどうかについての、シ
ステム設計者の、またはユーザの要求すなわちプレファ
レンスが、あらかじめ規定された整列指定として、サマ
リ作成システムに提供される。例えば、同期は、以下の
場合に所望され、あるいは要求される。(1)ビジュア
ルサマリ内の画像セグメントが人物を示しており、対応
するオーディオセグメント画素の人物の音声を含む場
合、画像セグメントをそのオーディオ対応部分に、また
はその逆に、同期することが所望される。(2)オーデ
ィオサマリ内のオーディオセグメントが爆発からなり、
対応する画像セグメントが爆発を示している場合、オー
ディオセグメントをその画像対応部分に、またはその逆
に、同期することが所望される。(3)オーディオセグ
メントが、ある有名人の名前に言及する音声を含み、そ
の有名人の写真が、そのオーディオセグメントの小さい
時間ウィンドウ内の画像セグメントに示されている場
合、オーディオセグメントを、その有名人の写真を示す
画像セグメントに、またはその逆に、同期することが所
望される。
【0036】一実施例によれば、オーディオビジュアル
統合型サマリ作成は以下のように実行される。
【0037】上記のビジュアルサマリ作成プロセスと同
様に、オーディオビジュアル統合型サマリ作成は、2つ
のパラメータ、すなわち、ビジュアルサマリを構成する
各画像セグメントに対するサマリ長Lsum、および最小
再生時間Lminを指定することをユーザに要求すること
によって開始される。ユーザが深さ指向ビジュアルサマ
リと幅指向ビジュアルサマリとの間の選択をすることを
可能にすることとは別に、パラメータLminを導入する
もう1つの目的は、オーディオサマリとビジュアルサマ
リの間の部分的整列を実現することである。整列の主な
目標は、オーディオビジュアル統合型サマリがなめらか
で自然に見えるようにし、もとのビデオのオーディオよ
びビジュアルの両方の内容のカバレジを、それらのいず
れをも犠牲にすることなく、最大化することである。
【0038】例えば、ニュース番組では、アナウンサー
やレポーターによって話される文章は、ニュース記事の
重要な内容を伝えている可能性が高く、オーディオサマ
リに含まれる高い確率が与えられる。このような文章の
対応する画像部分は、スタジオのアナウンサーや現場の
レポーターの接写である。オーディオサマリ内のそれぞ
れの話された文が、対応する画像部分とよく整列してい
る場合、結果は、ほとんどアナウンサーやレポーターか
らなる画像部分を有するビデオサマリとなる。このよう
にして作成されるサマリは、自然でなめらかなものに見
えるかもしれないが、このような自然さおよびなめらか
さは、画像内容の相当な犠牲によりもたらされたもので
ある。完全な整列により引き起こされるこの問題を解決
するため、オーディオサマリとビジュアルサマリの間
で、以下の部分的整列操作が代わりに実行される。
【0039】1.上記のように、オーディオサマリは、
確率の降順で、音声またはサウンドユニットを選択する
ことによって作成される。
【0040】2.オーディオサマリ内の各コンポーネン
トA(ti,τi)に対して、対応する画像セグメントI
(ti,τi)の内容をチェックする。A(ti,τi)、
I(ti,τi)のペアが、システムに提供されたあらか
じめ規定された整列要件を満たす場合、時刻tiからL
min秒間、A(ti,τi)をI(ti,τi)と整列させ
る。そうでない場合は、A(ti,τi)に対して整列操
作を実行しない。以下の記述において、時刻tiを整列
点という。
【0041】3.ステップ2で整列点が識別された後、
ビデオサマリ全体は、いくつかの時間パーティションに
分割される。2つの隣り合う整列点ti,ti+1に対し
て、期間(ti,ti+1)に対するビジュアルサマリを作
成するために、以下の操作を実行する。
【0042】a.期間(ti,ti+Lmin)をI(ti
min)∈I(ti,τi)で満たす。これは、A(ti
τi)とI(ti,τi)の間の部分的整列を行う。
【0043】b.期間(ti+Lmin,ti+1)に対する
ビジュアルサマリを作成するため、この期間に入る画像
セグメントの集合Θを求める。この期間に含まれること
が可能な画像セグメントの総数は、C=min((t
i+1−ti−Lmin)/Lmin,|Θ|)に等しい。ただ
し、|Θ|は、集合Θ内の画像セグメントの個数を表
す。さらに、それぞれの画像セグメントに割り当てられ
ることが可能な時間長は、L=(ti+1−ti−Lmin
/Cに等しい。Θから、最も高い確率を有するC個の画
像セグメントを選択し、そのC個の画像セグメントのそ
れぞれの最初のL秒間をとり、それらを時間の昇順に連
結することによって、この期間に対するビジュアルサマ
リを作成する。
【0044】[ビデオサマリ作成の代替システム・方
法]上記のように、機械学習フレームワークに基づくビ
デオサマリ作成のシステムおよび方法は、人間の専門家
が前もって作成した十分な数のサンプルビデオサマリか
らなるトレーニングデータを必要とする。機械学習によ
るサマリ作成のシステムおよび方法は、専門家のサンプ
ルビデオサマリから学習すること、および、サンプルビ
デオサマリに示される挙動を模倣することによってビデ
オサマリを作成することが可能である。しかし、場合に
よっては、専門家により作られたサンプルビデオサマリ
を得ることが高価すぎることや非常に困難なことがあ
る。このような場合、トレーニングデータを必要としな
いシステムおよび方法を提供することが好ましい。
【0045】図2は、トレーニングサンプルを必要とし
ない代替的なビデオサマリ作成システム・方法の一実施
例の動作を示す概略流れ図である。図2からわかるよう
に、この代替システムは、前述の機械学習によるシステ
ムのものと非常に類似した流れ図を有する。したがっ
て、これから説明する代替システム・方法でも、第1実
施例の場合と同様に、オーディオ中心型、画像中心型、
またはオーディオビジュアル統合型のサマリを得ること
が可能である。図2の流れ図において、この代替システ
ムの、以下のモジュール以外はすべて、図1に示した対
応するモジュールと同一である。
【0046】ビジュアル内容による画像セグメントクラ
スタ化: 第1実施例と同様の画像セグメント分節化に
加えて、画像セグメントを、それらのビジュアル類似度
および動的レベルに基づいてクラスタ化する。このクラ
スタ化は、例えば、Y. Gongand X. Liu, "Video Summar
ization Using Singular Value Decomposition", inPro
ceedings of IEEE International Conference of Compu
ter Vision and Pattern Recognition (CVPR'00)、に記
載されているものや、Y. Gong and X. Liu,"Summarizin
g Video By Minimizing Visual Content Redundancie
s", in Proceedings of IEEE International Conferenc
e of Multimedia and Expo (ICME'01)、に記載されてい
るもののような方法を使用可能である。各フレームクラ
スタは、同じクラスタ内のすべての画像セグメントが互
いに視覚的に類似しているような1個以上の画像セグメ
ントからなる。
【0047】すべての特徴抽出操作がそれぞれのモジュ
ールによって実行された後、出力は、オーディオビジュ
アルサマリ作成モジュールに供給され、そこで、オーデ
ィオサマリもしくはビジュアルサマリのいずれか、また
はオーディオビジュアル統合型サマリが以下で説明する
ように作成される。
【0048】前述のシステムにおける機械学習によるビ
デオサマリ作成モジュールとは異なり、この場合のオー
ディオビジュアルサマリ作成モジュールは、それぞれの
音声またはサウンドユニットXに対する確率P(y|
X)も、それぞれのフレームクラスタSに対する確率P
(y|S)も計算しない。代わりに、オーディオサマリ
がユーザ指定の長さLsumに達するまで、音声ユニット
を(音声ユニット重要度ランク付けモジュールから受け
取った)その重要度ランクの降順に選択することによっ
て、オーディオサマリを作成する。サウンドユニット
は、例えば発見的ルールを用いて、ランク付けされ、オ
ーディオサマリに含めるかどうか選択される。前述のよ
うに、音声ユニットの重要度ランク付けは、例えば、米
国特許仮出願第60/254,535号(出願日:20
00年12月12日、発明の名称:"Text Summarizatio
n Using IR Technique And Singular Value Decomposit
ion")、および、米国特許出願第09/817,591
号(出願日:2001年3月26日、発明の名称:"Gen
eric Text Summarization Using Relevance Measure an
d Latent Semantic Analysis")に記載されているよう
な、当業者に知られた方法を利用することが可能である
(本出願人による特願2001−356813号を参
照)。さらに、重要度ランク付けは、発見的ルールと上
記の方法との組合せを用いて決定することも可能であ
る。例えば、このような発見的ルールは、重要な人物に
よって話された特定の語句や、爆発、自然災害、暴行な
どのような特別の事件を含む重要な画像セグメントに対
応する音声ユニットに、より高いランクを与える。
【0049】ビジュアルサマリを作成するため、代替シ
ステムもまた、2個のパラメータL sum、Lminのユーザ
による指定を必要とする。ここでも、各フレームクラス
タSの重要度をランク付けするために、発見的ルールが
使用可能である。一般に、ビジュアル内容サマリ作成に
対するシステム設計者の、またはユーザの知識、要望、
あるいはプレファレンスを反映する任意のルールが、発
見的ルールとして使用可能である。例えば、このような
発見的ルールは、特定の画像特徴や、有名人や、会社ロ
ゴなどのような特別のフレームを含むフレームクラス
タ、人間や物体の動きや、ズーム、パンなどのようなカ
メラの動きを有するフレームクラスタ、あるいは、対応
する音声ユニットが重要であるか、重要な人物によって
話されているフレームクラスタに、より高いランクを与
える。
【0050】さらに、各フレームクラスタの全時間長
(構成する各画像セグメントの継続時間の和)もまた、
ランク決定の過程で使用可能である。各フレームクラス
タは複数の画像セグメントからなることがあるため、1
つのフレームクラスタが選択された後、ビジュアルサマ
リを作成するためには、そのクラスタ内のどの画像セグ
メントを使用すべきかを決定することが依然として必要
である。画像セグメント選択の助けとなる情報が他にな
い場合、最も直接的な選択方法は、クラスタ内で最長の
画像セグメントを選択することとなるであろう。この理
由は、同じクラスタ内の画像セグメントはすべて視覚的
に類似しているため、最長の画像セグメントは、最も完
全なものであり、最もよくクラスタ全体を代表するから
である。この状況において、ビジュアルサマリ内に含ま
れることが可能な画像セグメントの総数Cと、それぞれ
の選択された画像セグメントに割り当てられることが可
能な時間長Lは、2個のパラメータLsum、Lminを利用
した前述のと同じ式を用いて計算可能である。ビジュア
ルサマリは、C個のフレームクラスタをそれらの重要度
ランクの降順に選択し、そのC個のフレームクラスタの
それぞれから最長の画像セグメントの最初のL秒間をと
った後、それらを時間の昇順に連結することによって、
作成することができる。
【0051】オーディオビジュアル統合型サマリについ
ては、前述の機械学習によるシステムと同様に、代替シ
ステムもまた、どのオーディオ内容がどの画像内容と同
期しなければならないかを示す整列指定と、パラメータ
sum、Lminのユーザによる入力とを必要とする。オー
ディオサマリが作成された後、オーディオサマリ内の各
コンポーネントA(ti,τi)は、その画像対応部分I
(ti,τi)とともに検査され、A(ti,τi)、I
(ti,τi)のペアがあらかじめ規定された整列要件を
満たすかどうか調べられる。この検査は、ビデオサマリ
全体をいくつかの時間パーティションに分割する整列点
の集合を識別する。どのフレームクラスタが、および、
選択されたフレームクラスタ内のどの画像セグメント
が、どの時間パーティションを満たすために使用される
べきかを決定しなければならない。この整列操作は、以
下の2つの主なステップからなる。
【0052】1.オーディオサマリ内の各コンポーネン
トA(ti,τi)に対して、対応する画像セグメントI
(ti,τi)の内容をチェックする。A(ti,τi)、
I(ti,τi)のペアが、あらかじめ規定された整列要
件を満たす場合、時刻tiからLmin秒間、A(ti
τi)をI(ti,τi)と整列させる。そうでない場合
は、A(ti,τi)に対して整列操作を実行しない。こ
こで、時刻tiを整列点という。
【0053】2.ステップ1ですべての整列点が識別さ
れた後、ビデオサマリ全体は、いくつかの時間パーティ
ションに分割される。(ビジュアル内容によるフレーム
クラスタ化モジュールから得られる)クラスタ集合から
のフレームクラスタを割り当てることによって、それぞ
れのパーティションを満たす。この割当ては、以下の2
つの制約に適応しなければならない。
【0054】a.単一割当て制約: 各フレームクラス
タは、ただ1つの時間スロット割当てを受け取ることが
できる。
【0055】b.時間順序制約: ビジュアルサマリを
構成するすべての画像セグメントの時間順序は維持され
なければならない。
【0056】以下で、上記の整列操作のステップ2の実
現法について説明する。ビデオサマリの全時間長Lsum
が整列点によってP個のパーティションに分割され、パ
ーティションiの時間長がTi(図3A参照)であると
仮定した場合、各時間スロットは少なくともLmin秒間
の長さでなければならないため、パーティションiは、
【数1】 個の時間スロットを提供することが可能であり、したが
って利用可能な時間スロットの総数はStotal=Σi=1 P
iとなる。ここで、問題は次のようになる。ビデオサ
マリの全部でO個のフレームクラスタとStotal個の時
間スロットが与えられた場合に、上記の2つの制約を満
たすように、フレームクラスタと時間スロットの間の最
適なマッチングを決定せよ。
【0057】若干の再定式化によって、今述べた問題
を、最大2部マッチング問題に変換することができる。
頂点の有限集合をVとし、V上の辺集合をEとする無向
グラフをG=(V,E)で表す。2部グラフとは、無向
グラフG=(V,E)であって、Vが、(u,v)∈E
ならばu∈Lかつv∈Rかu∈Rかつv∈Lかのいずれ
かが成り立つような2つの集合LおよびRに分割可能で
あるようなもののことである。すなわち、すべての辺
は、2つの集合LとRの間をつなぐ。マッチングとは、
辺の部分集合M∈Eであって、u∈Lかつv∈Rである
任意の頂点対(u,v)に対して、Mの高々1つの辺が
uとvの間を連結するようなもののことである。
【0058】最大マッチングとは、マッチングMであっ
て、任意のマッチングM′に対して、|M|≧|M′|
となるようなもののことである。この問題に最大2部マ
ッチングを適用するため、各頂点u∈Lを用いてフレー
ムクラスタを表し、各頂点v∈Rを用いて時間スロット
を表す。辺(u,v)が存在するのは、フレームクラス
タuが、時間順序制約に違反せずに時間スロットvをと
ることができる場合である。フレームクラスタが、もと
のビデオの前半からのものと、もとのビデオの後半から
のものという複数の画像セグメントからなる場合、この
フレームクラスタは、それから出てR内の相異なる頂点
に至る複数の辺を有することになる。
【0059】最大2部マッチング解は、すべてのフレー
ムクラスタと時間スロットの間の最適割当てである。な
お、最適割当ては必ずしも一意的であるとは限らない。
【0060】図3Aに、オーディオサマリとビジュアル
サマリの間の整列プロセスを示す。この図において、も
とのビデオ番組は70秒間の長さであり、その画像トラ
ックは、それぞれ10秒間継続する7個の画像セグメン
トからなり、オーディオトラックは、それぞれ長さ10
秒間の7個の話された文からなる。ユーザは、Lsum
20秒、およびLmin=3秒と設定している。オーディ
オサマリ作成は、2個の話された文A(0,10)およ
びA(30,10)を選択し、ビジュアル内容によるク
ラスタ化は、次の5個のクラスタを生成したと仮定す
る: I(0,10)からなるクラスタ1、 I(10,10)およびI(50,10)からなるクラ
スタ2、 I(30,10)からなるクラスタ3、 I(20,10)およびI(40,10)からなるクラ
スタ4、 I(60,10)からなるクラスタ5。
【0061】オーディオサマリがA(0,10)および
A(30,10)から形成されているので、対応する画
像セグメントI(0,10)およびI(30,10)の
内容を検査し、A(0,10)およびA(30,10)
に対して整列操作が要求されるかどうかを判定する必要
がある。I(0,10)およびI(30,10)は話さ
れた文A(0,10)、A(30,10)のそれぞれの
話者を表示していると仮定する。その場合、整列ルール
により、Lmin(3)秒間、I(0,10)はA(0,
10)と整列し、I(30,10)はA(30,10)
と整列することになる。I(0,10)およびI(3
0,10)は、一度使用されたため、これらはビジュア
ルサマリの他の部分で使用されることはない。
【0062】これらの2つの整列点により、ビジュアル
サマリの残りの期間は2つのパーティションに分割され
る。各パーティションは、高々2個の時間スロットを提
供することが可能な7秒間継続する。整列のために3個
のフレームクラスタおよび4個の時間スロットが残って
いるため、この整列作業に対して、図3Bに示す2部グ
ラフがある。フレームクラスタ2は、2個の画像セグメ
ントI(10,10)およびI(50,10)からなる
ため、パーティション1またはパーティション2のいず
れに時間スロットをとることも可能である。I(10,
10)がフレームクラスタ2から選択される場合、これ
はパーティション1に時間スロット2または3のいずれ
かをとることができる。他方、I(50,10)が選択
される場合、これはパーティション2に時間スロット5
または6のいずれかをとることができる。したがって、
クラスタ2から出る4本の辺、すなわち、時間スロット
2への辺、時間スロット3への辺、時間スロット5への
辺、および時間スロット6への辺が存在する。同様に、
クラスタ4から出る4本の辺、すなわち、時間スロット
2への辺、時間スロット3への辺、時間スロット5への
辺、および時間スロット6への辺が存在する。
【0063】他方、フレームクラスタ5は、ただ1つの
画像セグメントI(60,10)からなり、パーティシ
ョン2に時間スロット5または6のいずれかをとること
ができる。したがって、フレームクラスタ5から出る2
本の辺が存在する。
【0064】図3Bの2部グラフに対してはいくつかの
可能な最大マッチング解が存在する。図4Aおよび図4
Bは2つのそれぞれの解を示す。図4Aに示す解(i)
では、時間スロット3が未割当てのままである。図4B
に示す解(ii)では、時間スロット5が未割当てのま
まである。この場合、すべてのフレームクラスタが使用
されているため、複数の画像セグメントを有するフレー
ムクラスタを用いて、空き時間スロットを満たす必要が
ある。解(i)(図4A)の場合、フレームクラスタ4
の画像セグメントI(20,10)が、空き時間スロッ
トを満たすために使用されなければならない。解(i
i)(図4B)の場合、フレームクラスタ2の画像セグ
メントI(50,10)が、空き時間スロットを満たす
ために使用されなければならない。
【0065】上記の例は次のことを例示している。すな
わち、最大2部マッチングは、利用可能なフレームクラ
スタと時間スロットの間の最適なマッチングを求める
が、特に、利用可能なフレームクラスタの数より多くの
利用可能な時間スロットがあるときには、一部の時間ス
ロットを未割当てのまま残すことがある。これらの未割
当て時間スロットを満たすために、単一割当て制約をゆ
るめ、複数の画像セグメントを有するフレームクラスタ
を検査し、まだ使用されていない適当なセグメントを選
択することが可能である。このようにして、時間順序制
約は満たされる。ゆるめられた単一割当て制約に対する
それぞれの解を図5Aおよび図5Bに示す。
【0066】なお、最大2部マッチング操作は、不正な
解を生成することがある。図6Aおよび図6Bは、これ
の2つの例を示す。例(i)(図6A)では、画像セグ
メントI(60,10)が画像セグメントI(50,1
0)の前に置かれているため、時間順序制約に違反して
いる。例(ii)(図6B)では、割当てはいずれの制
約にも違反していないが、I(20,10)を時間スロ
ット2に割り当てることが、時間スロット3の割当てを
不可能にしている。しかし、これらの不正な解は、これ
らを2つの制約に照らして検査することによって容易に
検出され、各パーティションにおいて時間スロットに割
り当てられる画像セグメントを並べ替えることによって
補正することができる。例(i)(図6A)の場合、問
題は、パーティション2に割り当てられた2個の画像セ
グメントを時間の昇順にソートすることによって補正す
ることができる。例(ii)(図6B)の場合、まず、
フレームクラスタ2からの画像セグメントI(10,1
0)(これは、パーティション1に割り当てられること
が可能な唯一の残りの画像セグメントである)を用いて
空き時間スロットを満たした後に、そのパーティション
内の2個の画像セグメントをソートすることによって、
最終的な解に達することができる。
【0067】まとめると、整列操作のステップ2は、次
のように記述することができる。
【0068】1.整列点が識別された後、割当てのため
に残っているフレームクラスタおよび時間スロットの個
数を決定し、それに応じて2部グラフを作る。
【0069】2.最大2部マッチングアルゴリズムを適
用して可能な解を求める。
【0070】3.解を2つの制約について検査し、各パ
ーティション内の画像セグメントをソートすることによ
って違反を補正する。
【0071】4.未割当て時間スロットが存在する場
合、単一割当て制約をゆるめ、複数の画像セグメントを
有するフレームクラスタを検査し、まだ使用されていな
いセグメントで時間順序制約を満たす適当なセグメント
を選択する。
【0072】以上、好ましい実施例を参照して、本発明
について詳細に説明したが、本発明の技術的範囲および
技術思想の範囲内のさまざまな変形は、この技術分野の
当業者には明らかである。したがって、本発明は、特許
請求の範囲の技術的範囲によってのみ限定されるとみな
されるべきである。
【0073】
【発明の効果】以上詳細に説明したように、本発明によ
れば、オーディオと画像の内容の厳密な同期が要求され
ないときには、オーディオビジュアル統合型サマリ作成
技術を用い、オーディオ内容と画像内容の同期を要求す
るビデオ番組の場合には、オーディオ中心型または画像
中心型のいずれかの方法を用いてサマリが作成される。
これにより、入力ビデオから抽出された画像、オーディ
オ、およびテキスト特徴をシームレスに統合し、オーデ
ィオ中心型、画像中心型、およびオーディオビジュアル
統合型の高品質のサマリを作成することができる。
【図面の簡単な説明】
【図1】本発明のオーディオビジュアルサマリ作成シス
テム・方法の一実施例の動作を示す流れ図である。
【図2】本発明のオーディオビジュアルサマリ作成シス
テム・方法の代替実施例の動作を説明する流れ図であ
る。
【図3】Aは、オーディオサマリとビジュアルサマリの
間の整列プロセスを示す図である。Bは、その整列のた
めのフレームワークを示す図である。
【図4】時間順序制約を満たす代替解を示す図である。
【図5】時間順序制約を満たす代替解を示す図である。
【図6】本発明の方法から得られる不正な解を示す図で
ある。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/91 H04N 5/91 N C (72)発明者 シン リュウ アメリカ合衆国,ニュージャージー 08540 プリンストン,4 インディペン デンス ウエイ,エヌ・イー・シー・ユ ー・エス・エー インク内 Fターム(参考) 5C053 FA14 GA16 GB05 JA01 5D015 AA03 AA06 FF00 GG00 HH00 KK02 LL11

Claims (106)

    【特許請求の範囲】
  1. 【請求項1】 オーディオトラックおよび画像トラック
    を有するビデオ番組のオーディオ中心型オーディオビジ
    ュアルサマリを作成する方法において、 前記オーディオビジュアルサマリの時間長Lsumを選択
    するステップと、 前記オーディオトラックおよび画像トラックを検査する
    ステップと、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定のオーディオ、画像、およびテキ
    スト特性に基づいて、前記オーディオトラックから1個
    以上のオーディオセグメントを識別し、当該識別が、前
    記ビデオ番組内のオーディオセグメントのそれぞれにつ
    いて、与えられたオーディオセグメントが前記オーディ
    オビジュアルサマリに含められるのに適している確率を
    与える、前もって生成された経験に基づく学習データに
    依拠する機械学習法に従って実行される識別ステップ
    と、 前記オーディオセグメントを前記オーディオビジュアル
    サマリに追加するステップと、 時間長Lsumに達するまで、前記確率の降順に前記識別
    および追加を実行するステップと、 1個以上の識別されたオーディオセグメントに対応する
    1個以上の画像セグメントのみを、前記1個以上のオー
    ディオセグメントと前記1個以上の画像セグメントの間
    の同期の程度が高くなるように、選択するステップとを
    有することを特徴とするオーディオビジュアルサマリ作
    成方法。
  2. 【請求項2】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出する
    ステップと、 内容に従って前記非音声サウンドを分類するステップ
    と、 前記非音声サウンドのそれぞれについて、開始時刻コー
    ド、長さ、およびカテゴリを出力するステップとを有す
    ることを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記オーディオセグメントが音声を含む
    とき、前記識別するステップは、 前記オーディオセグメントに対する音声認識を実行して
    音声トランスクリプトを生成するステップと、 前記音声トランスクリプトのそれぞれについて、開始時
    刻コードおよび長さを出力するステップとを有すること
    を特徴とする請求項2記載の方法。
  4. 【請求項4】 字幕が存在するとき、前記方法は、字幕
    と音声トランスクリプトを整列させるステップをさらに
    有することを特徴とする請求項3記載の方法。
  5. 【請求項5】 前記識別するステップは、 前記字幕が存在する場合には前記整列に基づいて、ま
    た、前記字幕が存在しない場合には前記音声トランスク
    リプトに基づいて、音声ユニットを生成するステップ
    と、 前記音声ユニットのそれぞれについて、特徴ベクトルを
    生成するステップとを有することを特徴とする請求項4
    記載の方法。
  6. 【請求項6】 前記音声ユニットのそれぞれについて、
    重要度ランクを計算するステップをさらに有することを
    特徴とする請求項5記載の方法。
  7. 【請求項7】 前記音声ユニットを受け取るステップ
    と、 1以上の話者の識別を決定するステップとをさらに有す
    ることを特徴とする請求項6記載の方法。
  8. 【請求項8】 前記識別するステップは、前記画像トラ
    ックを個々の画像セグメントに分節化するステップを有
    することを特徴とする請求項1記載の方法。
  9. 【請求項9】 画像特徴を抽出するステップと、 前記画像セグメントのそれぞれについて、画像特徴ベク
    トルを形成するステップとをさらに有することを特徴と
    する請求項8記載の方法。
  10. 【請求項10】 前記画像セグメントのそれぞれについ
    て、1個以上の顔の識別を決定するステップをさらに有
    することを特徴とする請求項9記載の方法。
  11. 【請求項11】 前記確率は、ナイーブベイズ法、決定
    木法、ニューラルネットワーク法、および最大エントロ
    ピー法からなる群から選択される方法に従って計算され
    ることを特徴とする請求項1記載の方法。
  12. 【請求項12】 オーディオトラックおよび画像トラッ
    クを有するビデオ番組の画像中心型オーディオビジュア
    ルサマリを作成する方法において、 前記オーディオビジュアルサマリの時間長Lsumを選択
    するステップと、 前記ビデオ番組の前記画像トラックおよびオーディオト
    ラックを検査するステップと、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定の画像、オーディオ、およびテキ
    スト特性に基づいて、前記画像トラックから1個以上の
    画像セグメントを識別し、当該識別が、前記ビデオ番組
    内の前記画像セグメントのそれぞれについて、与えられ
    た画像セグメントが前記オーディオビジュアルサマリに
    含められるのに適している確率を与える、前もって生成
    された経験に基づく学習データに依拠する機械学習法に
    従って実行される識別ステップと、 前記1個以上の画像セグメントを前記オーディオビジュ
    アルサマリに追加するステップと、 時間長Lsumに達するまで、前記確率の降順に前記識別
    および追加を実行するステップと、 1個以上の識別された画像セグメントに対応する1個以
    上のオーディオセグメントのみを、前記1個以上の画像
    セグメントと前記1個以上のオーディオセグメントの間
    の同期の程度が高くなるように、選択するステップとを
    有することを特徴とするオーディオビジュアルサマリ作
    成方法。
  13. 【請求項13】 前記識別するステップは、前記画像ト
    ラックを個々の画像セグメントに分節化するステップを
    有することを特徴とする請求項12記載の方法。
  14. 【請求項14】 画像特徴を抽出するステップと、 前記画像セグメントのそれぞれについて、画像特徴ベク
    トルを形成するステップとをさらに有することを特徴と
    する請求項13記載の方法。
  15. 【請求項15】 前記画像セグメントのそれぞれについ
    て、1個以上の顔の識別を決定するステップをさらに有
    することを特徴とする請求項10記載の方法。
  16. 【請求項16】 前記オーディオビジュアルサマリ内の
    前記画像セグメントのそれぞれについて、最小再生時間
    minを選択するステップをさらに有することを特徴と
    する請求項12記載の方法。
  17. 【請求項17】 比較的多数のオーディオセグメントお
    よび画像セグメントが前記オーディオビジュアルサマリ
    に提供されて、幅指向のオーディオビジュアルサマリを
    提供するように、LminはLsumに比べて十分に小さいこ
    とを特徴とする請求項16記載の方法。
  18. 【請求項18】 比較的少数のオーディオセグメントお
    よび画像セグメントが前記オーディオビジュアルサマリ
    に提供されて、深さ指向のオーディオビジュアルサマリ
    を提供するように、LminはLsumに比べて十分に大きい
    ことを特徴とする請求項16記載の方法。
  19. 【請求項19】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出する
    ステップと、 内容に従って前記非音声サウンドを分類するステップ
    と、 前記非音声サウンドのそれぞれについて、開始時刻コー
    ド、長さ、およびカテゴリを出力するステップとを有す
    ることを特徴とする請求項12記載の方法。
  20. 【請求項20】 前記オーディオセグメントが音声を含
    むとき、前記識別するステップは、 前記オーディオセグメントに対する音声認識を実行して
    音声トランスクリプトを生成するステップと、 前記音声トランスクリプトのそれぞれについて、開始時
    刻コードおよび長さを出力するステップとを有すること
    を特徴とする請求項19記載の方法。
  21. 【請求項21】 字幕が存在するとき、前記方法は、字
    幕と音声トランスクリプトを整列させるステップをさら
    に有することを特徴とする請求項20記載の方法。
  22. 【請求項22】 前記識別するステップは、 前記字幕が存在する場合には前記整列に基づいて、ま
    た、前記字幕が存在しない場合には前記音声トランスク
    リプトに基づいて、音声ユニットを生成するステップ
    と、 前記音声ユニットのそれぞれについて、特徴ベクトルを
    生成するステップとを有することを特徴とする請求項2
    1記載の方法。
  23. 【請求項23】 前記音声ユニットのそれぞれについ
    て、重要度ランクを計算するステップをさらに有するこ
    とを特徴とする請求項22記載の方法。
  24. 【請求項24】 前記音声ユニットを受け取るステップ
    と、 1以上の話者の識別を決定するステップとをさらに有す
    ることを特徴とする請求項23記載の方法。
  25. 【請求項25】 前記確率は、ナイーブベイズ法、決定
    木法、ニューラルネットワーク法、および最大エントロ
    ピー法からなる群から選択される方法に従って計算され
    ることを特徴とする請求項12記載の方法。
  26. 【請求項26】 オーディオトラックおよびビデオトラ
    ックを有するビデオ番組の統合オーディオビジュアルサ
    マリを作成する方法において、 前記オーディオビジュアルサマリの時間長Lsumを選択
    するステップと、 オーディオビジュアルサマリに含まれるべき前記画像セ
    グメントのそれぞれについて、最小再生時間Lminを選
    択するステップと、 前記オーディオビジュアルサマリの長さLsumに達する
    まで1個以上の所望されるオーディオセグメントを選択
    し、当該選択が、前記ビデオ番組内の前記オーディオセ
    グメントのそれぞれについて、与えられたオーディオセ
    グメントが前記オーディオビジュアルサマリに含められ
    るのに適している確率を与える、前もって生成された経
    験に基づく学習データに依拠する機械学習法に従って実
    行されることによりオーディオサマリを作成するステッ
    プと、 前記画像セグメントのそれぞれについて、前記機械学習
    法に従って、与えられた画像セグメントが前記オーディ
    オビジュアルサマリに含められるのに適している確率を
    計算するステップと、 選択された前記オーディオセグメントのそれぞれについ
    て、対応する画像セグメントに関して、得られるオーデ
    ィオセグメントと画像セグメントのペアが、あらかじめ
    規定された整列要件を満たすかどうかを検査するステッ
    プと、 得られるオーディオセグメントと画像セグメントのペア
    が、あらかじめ規定された整列要件を満たす場合、ペア
    のオーディオセグメントと画像セグメントをそれぞれの
    最初から前記最小再生時間Lminだけ整列させて第1の
    整列点を規定するステップと、 前記検査および識別を繰り返して前記整列点をすべて識
    別するステップと、 前記オーディオビジュアルサマリの全長を、 前記オーディオビジュアルサマリの最初から開始し第1
    の整列点で終了するか、 ある整列点における画像セグメントの最後から開始し次
    の整列点で終了するか、 最後の整列点における画像セグメントの最後から開始し
    前記オーディオビジュアルサマリの最後で終了するかの
    いずれかの期間をそれぞれ有する複数のパーティション
    に分割するステップと、 前記パーティションのそれぞれについて、以下のステッ
    プ、すなわち、 該パーティションの期間に入る画像セグメントの集合を
    識別するステップと、 前記パーティションに挿入されることが可能な画像セグ
    メントの個数を決定するステップと、 挿入されるべきと識別された画像セグメントの長さを決
    定するステップと、 与えられた画像セグメントが前記オーディオビジュアル
    サマリに含められるのに適している前記確率の降順に、
    識別された画像セグメントを前記個数だけ選択するステ
    ップと、 選択された画像セグメントのそれぞれについて、それぞ
    れの最初から前記時間長だけのセクションを収集し、す
    べての収集されたセクションを時間の降順に前記パーテ
    ィションに追加するステップとに従って、さらに画像セ
    グメントを追加するステップとを有することを特徴とす
    るオーディオビジュアルサマリ作成方法。
  27. 【請求項27】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出する
    ステップと、 内容に従って前記非音声サウンドを分類するステップ
    と、 前記非音声サウンドのそれぞれについて、開始時刻コー
    ド、長さ、およびカテゴリを出力するステップとを有す
    ることを特徴とする請求項26記載の方法。
  28. 【請求項28】 前記オーディオセグメントが音声を含
    むとき、前記識別するステップは、 前記オーディオセグメントに対する音声認識を実行して
    音声トランスクリプトを生成するステップと、 前記音声トランスクリプトのそれぞれについて、開始時
    刻コードおよび長さを出力するステップとを有すること
    を特徴とする請求項27記載の方法。
  29. 【請求項29】 字幕が存在するとき、前記方法は、字
    幕と音声トランスクリプトを整列させるステップをさら
    に有することを特徴とする請求項28記載の方法。
  30. 【請求項30】 前記字幕が存在する場合には前記整列
    に基づいて、また、前記字幕が存在しない場合には前記
    音声トランスクリプトに基づいて、音声ユニットを生成
    するステップと、 前記音声ユニットのそれぞれについて、特徴ベクトルを
    生成するステップとをさらに有することを特徴とする請
    求項29記載の方法。
  31. 【請求項31】 前記音声ユニットのそれぞれについ
    て、重要度ランクを計算するステップをさらに有するこ
    とを特徴とする請求項30記載の方法。
  32. 【請求項32】 前記音声ユニットを受け取るステップ
    と、 1以上の話者の識別を決定するステップとをさらに有す
    ることを特徴とする請求項31記載の方法。
  33. 【請求項33】 比較的多数の画像セグメントが前記オ
    ーディオビジュアルサマリに提供されて、幅指向のオー
    ディオビジュアルサマリを提供するように、LminはL
    sumに比べて十分に小さいことを特徴とする請求項26
    記載の方法。
  34. 【請求項34】 比較的少数の画像セグメントが前記オ
    ーディオビジュアルサマリに提供されて、深さ指向のオ
    ーディオビジュアルサマリを提供するように、Lmin
    sumに比べて十分に大きいことを特徴とする請求項2
    6記載の方法。
  35. 【請求項35】 前記与えられたオーディオセグメント
    が前記オーディオビジュアルサマリに含められるのに適
    している確率は、ナイーブベイズ法、決定木法、ニュー
    ラルネットワーク法、および最大エントロピー法からな
    る群から選択される方法に従って計算されることを特徴
    とする請求項26記載の方法。
  36. 【請求項36】 前記与えられた画像セグメントが前記
    オーディオビジュアルサマリに含められるのに適してい
    る確率は、ナイーブベイズ法、決定木法、ニューラルネ
    ットワーク法、および最大エントロピー法からなる群か
    ら選択される方法に従って計算されることを特徴とする
    請求項26記載の方法。
  37. 【請求項37】 前記識別するステップは、前記画像ト
    ラックを個々の画像セグメントに分節化するステップを
    有することを特徴とする請求項26記載の方法。
  38. 【請求項38】 画像特徴を抽出するステップと、 前記画像セグメントのそれぞれについて、画像特徴ベク
    トルを形成するステップとをさらに有することを特徴と
    する請求項37記載の方法。
  39. 【請求項39】 前記画像セグメントのそれぞれについ
    て、1個以上の顔の識別を決定するステップをさらに有
    することを特徴とする請求項38記載の方法。
  40. 【請求項40】 オーディオトラックおよび画像トラッ
    クを有するビデオ番組のオーディオ中心型オーディオビ
    ジュアルサマリを作成する方法において、 前記オーディオビジュアルサマリの時間長Lsumを選択
    するステップと、 前記オーディオトラックおよび画像トラックを検査する
    ステップと、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定のオーディオ、画像、およびテキ
    スト特性に基づいて、前記オーディオトラックから1個
    以上のオーディオセグメントを識別し、当該識別が、前
    記ビデオ番組内の前記オーディオセグメントのそれぞれ
    について、与えられたオーディオセグメントが前記オー
    ディオビジュアルサマリに含められるのに適しているか
    どうかを決定するランク付けを与える、所定の発見的ル
    ールの集合に従って実行される識別ステップと、 前記オーディオセグメントを前記オーディオビジュアル
    サマリに追加するステップと、 時間長Lsumに達するまで、前記オーディオセグメント
    のランク付けの降順に前記識別および追加を実行するス
    テップと、 1個以上の識別されたオーディオセグメントに対応する
    1個以上の画像セグメントのみを、前記1個以上のオー
    ディオセグメントと前記1個以上の画像セグメントの間
    の同期の程度が高くなるように、選択するステップとを
    有することを特徴とするオーディオビジュアルサマリ作
    成方法。
  41. 【請求項41】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出する
    ステップと、 内容に従って前記非音声サウンドを分類するステップ
    と、 前記非音声サウンドのそれぞれについて、開始時刻コー
    ド、長さ、およびカテゴリを出力するステップとを有す
    ることを特徴とする請求項40記載の方法。
  42. 【請求項42】 前記オーディオセグメントが音声を含
    むとき、前記識別するステップは、 前記オーディオセグメントに対する音声認識を実行して
    音声トランスクリプトを生成するステップと、 前記音声トランスクリプトのそれぞれについて、開始時
    刻コードおよび長さを出力するステップとを有すること
    を特徴とする請求項41記載の方法。
  43. 【請求項43】 字幕が存在するとき、前記方法は、字
    幕と音声トランスクリプトを整列させるステップをさら
    に有することを特徴とする請求項42記載の方法。
  44. 【請求項44】 前記字幕が存在する場合には前記整列
    に基づいて、また、前記字幕が存在しない場合には前記
    音声トランスクリプトに基づいて、音声ユニットを生成
    するステップと、 前記音声ユニットのそれぞれについて、特徴ベクトルを
    生成するステップとをさらに有することを特徴とする請
    求項43記載の方法。
  45. 【請求項45】 前記音声ユニットを受け取るステップ
    と、 1以上の話者の識別を決定するステップとをさらに有す
    ることを特徴とする請求項44記載の方法。
  46. 【請求項46】 前記識別するステップは、前記画像ト
    ラックを個々の画像セグメントに分節化するステップを
    有することを特徴とする請求項40記載の方法。
  47. 【請求項47】 画像特徴を抽出するステップと、 前記画像セグメントのそれぞれについて、画像特徴ベク
    トルを形成するステップとをさらに有することを特徴と
    する請求項46記載の方法。
  48. 【請求項48】 前記画像セグメントのそれぞれについ
    て、1個以上の顔の識別を決定するステップをさらに有
    することを特徴とする請求項47記載の方法。
  49. 【請求項49】 前記音声ユニットのそれぞれについて
    前記ランク付けを計算するステップをさらに有すること
    を特徴とする請求項40記載の方法。
  50. 【請求項50】 オーディオトラックおよび画像トラッ
    クを有するビデオ番組の画像中心型オーディオビジュア
    ルサマリを作成する方法において、 前記サマリの時間長Lsumを選択するステップと、 前記画像トラックおよびオーディオトラックを検査する
    ステップと、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定の画像、オーディオ、およびテキ
    スト特性に基づいて、前記画像トラックから1個以上の
    画像セグメントを識別し、当該識別が、前記ビデオ番組
    内の前記画像セグメントのそれぞれについて、与えられ
    た画像セグメントが前記オーディオビジュアルサマリに
    含められるのに適しているかどうかを決定するランク付
    けを与える、所定の発見的ルールの集合に従って実行さ
    れる識別ステップと、 前記1個以上の画像セグメントを前記オーディオビジュ
    アルサマリに追加するステップと、 時間長Lsumに達するまで、前記ランク付けの降順に前
    記識別および追加を実行するステップと、 1個以上の識別された画像セグメントに対応する1個以
    上のオーディオセグメントのみを、前記1個以上の画像
    セグメントと前記1個以上のオーディオセグメントの間
    の同期の程度が高くなるように、選択するステップとを
    有することを特徴とするオーディオビジュアルサマリ作
    成方法。
  51. 【請求項51】 前記識別するステップは、所定の視覚
    的類似性および動的特性に基づいて、前記ビデオ番組の
    画像セグメントをクラスタ化するステップを有すること
    を特徴とする請求項50記載の方法。
  52. 【請求項52】 前記識別するステップは、前記画像ト
    ラックを個々の画像セグメントに分節化するステップを
    有することを特徴とする請求項51記載の方法。
  53. 【請求項53】 画像特徴を抽出するステップと、 前記フレームクラスタのそれぞれについて、画像特徴ベ
    クトルを形成するステップとをさらに有することを特徴
    とする請求項52記載の方法。
  54. 【請求項54】 前記フレームクラスタのそれぞれにつ
    いて、1個以上の顔の識別を決定するステップをさらに
    有することを特徴とする請求項53記載の方法。
  55. 【請求項55】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出する
    ステップと、 内容に従って前記非音声サウンドを分類するステップ
    と、 前記非音声サウンドのそれぞれについて、開始時刻コー
    ド、長さ、およびカテゴリを出力するステップとを有す
    ることを特徴とする請求項50記載の方法。
  56. 【請求項56】 前記オーディオセグメントが音声を含
    むとき、前記識別するステップは、 前記オーディオセグメントに対する音声認識を実行して
    音声トランスクリプトを生成するステップと、 前記音声トランスクリプトのそれぞれについて、開始時
    刻コードおよび長さを出力するステップとを有すること
    を特徴とする請求項55記載の方法。
  57. 【請求項57】 字幕が存在するとき、前記方法は、字
    幕と音声トランスクリプトを整列させるステップをさら
    に有することを特徴とする請求項56記載の方法。
  58. 【請求項58】 前記字幕が存在する場合には前記整列
    に基づいて、また、前記字幕が存在しない場合には前記
    音声トランスクリプトに基づいて、音声ユニットを生成
    するステップと、 前記音声ユニットのそれぞれについて、特徴ベクトルを
    生成するステップとをさらに有することを特徴とする請
    求項57記載の方法。
  59. 【請求項59】 前記音声ユニットのそれぞれについ
    て、重要度ランクを計算するステップをさらに有するこ
    とを特徴とする請求項58記載の方法。
  60. 【請求項60】 前記音声ユニットを受け取るステップ
    と、 1以上の話者の識別を決定するステップとをさらに有す
    ることを特徴とする請求項59記載の方法。
  61. 【請求項61】 前記オーディオビジュアルサマリ内の
    前記画像セグメントのそれぞれについて、最小再生時間
    minを選択するステップをさらに有することを特徴と
    する請求項50記載の方法。
  62. 【請求項62】 比較的多数のオーディオセグメントお
    よび画像セグメントが前記オーディオビジュアルサマリ
    に提供されて、幅指向のオーディオビジュアルサマリを
    提供するように、LminはLsumに比べて十分に小さいこ
    とを特徴とする請求項61記載の方法。
  63. 【請求項63】 比較的少数のオーディオセグメントお
    よび画像セグメントが前記オーディオビジュアルサマリ
    に提供されて、深さ指向のオーディオビジュアルサマリ
    を提供するように、LminはLsumに比べて十分に大きい
    ことを特徴とする請求項61記載の方法。
  64. 【請求項64】 オーディオトラックおよびビデオトラ
    ックを有するビデオ番組の統合オーディオビジュアルサ
    マリを作成する方法において、 前記オーディオビジュアルサマリの長さLsumを選択す
    るステップと、 オーディオビジュアルサマリに含まれるべき複数の画像
    セグメントのそれぞれについて、最小再生時間Lmin
    選択するステップと、 前記ビデオ番組内の前記オーディオセグメントのそれぞ
    れについて、与えられたオーディオセグメントが前記オ
    ーディオビジュアルサマリに含められるのに適している
    かどうかを決定するランク付けを与える、所定の発見的
    ルールの集合に従って、1個以上の所望されるオーディ
    オセグメントを選択することによって、オーディオサマ
    リを作成するステップと、 前記オーディオビジュアルサマリの長さに達するまで、
    前記オーディオセグメントのランク付けの降順に、前記
    選択を実行するステップと、 各フレームクラスタが少なくとも1つの前記画像セグメ
    ントを含み、与えられたフレームクラスタ内のすべての
    画像セグメントが互いに視覚的に類似しているように、
    前記画像セグメントの視覚的類似性および動的特性に基
    づいて、前記ビデオ番組の前記画像セグメントを複数の
    フレームクラスタへとグループ分けするステップと、 選択された前記オーディオセグメントのそれぞれについ
    て、対応する画像セグメントに関して、得られるオーデ
    ィオセグメントと画像セグメントのペアが、あらかじめ
    規定された整列要件を満たすかどうかを検査するステッ
    プと、 得られるオーディオセグメントと画像セグメントのペア
    が、あらかじめ規定された整列要件を満たす場合、ペア
    のオーディオセグメントと画像セグメントをそれぞれの
    最初から前記最小再生時間Lminだけ整列させて第1の
    整列点を規定するステップと、 前記検査および識別を繰り返して前記整列点をすべて識
    別するステップと、 前記オーディオビジュアルサマリの全長を、 前記オーディオビジュアルサマリの最初から開始し第1
    の整列点で終了するか、 ある整列点における画像セグメントの最後から開始し次
    の整列点で終了するか、 最後の整列点における画像セグメントの最後から開始し
    前記オーディオビジュアルサマリの最後で終了するかの
    いずれかの期間をそれぞれ有する複数のパーティション
    に分割するステップと、 各時間スロットが前記最小再生時間Lminに等しい長さ
    を有するように、前記パーティションのそれぞれを複数
    の時間スロットに分割するステップと、 前記フレームクラスタと前記時間スロットの間の最適マ
    ッチングに従って、以下のこと、すなわち、 各フレームクラスタをただ1つの時間スロットに割り当
    てること、および、オーディオビジュアルサマリ内のす
    べての画像セグメントの時間順序を維持することに基づ
    いて、前記パーティションのそれぞれの前記時間スロッ
    トを満たすように前記フレームクラスタを割り当てるス
    テップとを有することを特徴とするオーディオビジュア
    ルサマリ作成方法。
  65. 【請求項65】 前記最適マッチングは、最大2部マッ
    チング法によって計算されることを特徴とする請求項6
    4記載の方法。
  66. 【請求項66】 フレームクラスタより多くの時間スロ
    ットがある場合、複数の画像セグメントを含むフレーム
    クラスタを識別し、前記オーディオビジュアルサマリ内
    の前記画像セグメントの時間順序を維持しながら、すべ
    ての前記時間スロットが満たされるまで、前記識別され
    たフレームクラスタからの画像セグメントを時間スロッ
    トに割り当てることを特徴とする請求項65記載の方
    法。
  67. 【請求項67】 前記時間順序が維持されていることを
    確認するために前記オーディオビジュアルサマリを検査
    するステップと、 前記時間順序が維持されていない場合、前記時間順序が
    維持されるように、各パーティションに追加された前記
    画像セグメントを並べ替えるステップとをさらに有する
    ことを特徴とする請求項66記載の方法。
  68. 【請求項68】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出する
    ステップと、 内容に従って前記非音声サウンドを分類するステップ
    と、 前記非音声サウンドのそれぞれについて、開始時刻コー
    ド、長さ、およびカテゴリを出力するステップとを有す
    ることを特徴とする請求項64記載の方法。
  69. 【請求項69】 前記オーディオセグメントが音声を含
    むとき、前記識別するステップは、 前記オーディオセグメントに対する音声認識を実行して
    音声トランスクリプトを生成するステップと、 前記音声トランスクリプトのそれぞれについて、開始時
    刻コードおよび長さを出力するステップとを有すること
    を特徴とする請求項68記載の方法。
  70. 【請求項70】 字幕が存在するとき、前記方法は、字
    幕と音声トランスクリプトを整列させるステップをさら
    に有することを特徴とする請求項69記載の方法。
  71. 【請求項71】 前記字幕が存在する場合には前記整列
    に基づいて、また、前記字幕が存在しない場合には前記
    音声トランスクリプトに基づいて、音声ユニットを生成
    するステップと、 前記音声ユニットのそれぞれについて、特徴ベクトルを
    生成するステップとをさらに有することを特徴とする請
    求項70記載の方法。
  72. 【請求項72】 前記音声ユニットのそれぞれについ
    て、重要度ランクを計算するステップをさらに有するこ
    とを特徴とする請求項71記載の方法。
  73. 【請求項73】 前記音声ユニットを受け取るステップ
    と、 1以上の話者の識別を決定するステップとをさらに有す
    ることを特徴とする請求項72記載の方法。
  74. 【請求項74】 比較的多数の画像セグメントが前記オ
    ーディオビジュアルサマリに提供されて、幅指向のオー
    ディオビジュアルサマリを提供するように、LminはL
    sumに比べて十分に小さいことを特徴とする請求項64
    記載の方法。
  75. 【請求項75】 比較的少数の画像セグメントが前記オ
    ーディオビジュアルサマリに提供されて、深さ指向のオ
    ーディオビジュアルサマリを提供するように、Lmin
    sumに比べて十分に大きいことを特徴とする請求項6
    4記載の方法。
  76. 【請求項76】 前記識別するステップは、前記画像ト
    ラックを個々の画像セグメントに分節化するステップを
    有することを特徴とする請求項64記載の方法。
  77. 【請求項77】 画像特徴を抽出するステップと、 前記フレームクラスタのそれぞれについて、画像特徴ベ
    クトルを形成するステップとをさらに有することを特徴
    とする請求項76記載の方法。
  78. 【請求項78】 前記画像セグメントのそれぞれについ
    て、1個以上の顔の識別を決定するステップをさらに有
    することを特徴とする請求項77記載の方法。
  79. 【請求項79】 オーディオビジュアルコンテンツから
    なるビデオ番組のビデオサマリを作成する装置におい
    て、 前記オーディオビジュアルコンテンツのオーディオトラ
    ックおよび画像トラックを検査する検査手段と、 前記ビデオサマリの所望されるコンテンツに関連する所
    定のオーディオ、画像、およびテキスト特性のうちの少
    なくとも1つに基づき、前記オーディオトラックから1
    個以上のオーディオセグメントを、前記画像トラックか
    ら1個以上の画像セグメントを、前記ビデオサマリに含
    められるのに適しているかどうかを決定する順位を与え
    る所定の基準に従って、それぞれ識別する手段と、 前記順位に従って、前記1個以上のオーディオセグメン
    トおよび前記1個以上の画像セグメントをそれぞれ時間
    軸上に配置して前記ビデオサマリを生成する手段と、 を有することを特徴とするビデオサマリ作成装置。
  80. 【請求項80】 前記識別する手段は、 前記ビデオサマリの所望される内容に関連する1個以上
    の所定のオーディオ、画像、およびテキスト特性に基づ
    いて、前記オーディオトラックから1個以上のオーディ
    オセグメントを識別する際に、当該識別を、前記ビデオ
    番組内のオーディオセグメントのそれぞれについて、与
    えられたオーディオセグメントが前記オーディオビジュ
    アルサマリに含められるのに適している確率を与える、
    前もって生成された経験に基づく学習データに依拠する
    機械学習法に従って実行する、ことを特徴とする請求項
    79記載のビデオサマリ作成装置。
  81. 【請求項81】 前記識別する手段は、前記オーディオ
    セグメントをカテゴリ化することを特徴とする請求項8
    0記載のビデオサマリ作成装置。
  82. 【請求項82】 前記オーディオセグメントは、音声と
    非音声とにカテゴリ化されることを特徴とする請求項8
    1記載のビデオサマリ作成装置。
  83. 【請求項83】 前記識別する手段は、 非音声サウンドを含むオーディオセグメントを検出し、
    内容に従って前記非音声サウンドを分類し、前記非音声
    サウンドのそれぞれについて、オーディオ情報を出力す
    ることを特徴とする請求項82記載のビデオサマリ作成
    装置。
  84. 【請求項84】 前記オーディオ情報は、開始時刻コー
    ド、長さ、およびカテゴリであることを特徴とする請求
    項83記載のビデオサマリ作成装置。
  85. 【請求項85】 前記識別する手段は、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定の画像、オーディオ、およびテキ
    スト特性に基づいて、前記画像トラックから1個以上の
    画像セグメントを識別し、当該識別が、前記ビデオ番組
    内の前記画像セグメントのそれぞれについて、与えられ
    た画像セグメントが前記オーディオビジュアルサマリに
    含められるのに適している確率を与える、前もって生成
    された経験に基づく学習データに依拠する機械学習法に
    従って実行する、ことを特徴とする請求項79記載のビ
    デオサマリ作成装置。
  86. 【請求項86】 前記識別する手段は、 1個以上の所望されるオーディオセグメントを選択し、
    当該選択が、前記ビデオ番組内の前記オーディオセグメ
    ントのそれぞれについて、与えられたオーディオセグメ
    ントが前記オーディオビジュアルサマリに含められるの
    に適している確率を与える、前もって生成された経験に
    基づく学習データに依拠する機械学習法に従って実行す
    る、ことを特徴とする請求項79記載のビデオサマリ作
    成装置。
  87. 【請求項87】 前記識別する手段は、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定のオーディオ、画像、およびテキ
    スト特性に基づいて、前記オーディオトラックから1個
    以上のオーディオセグメントを識別し、当該識別が、前
    記ビデオ番組内の前記オーディオセグメントのそれぞれ
    について、与えられたオーディオセグメントが前記オー
    ディオビジュアルサマリに含められるのに適しているか
    どうかを決定するランク付けを与える、所定の発見的ル
    ールの集合に従って実行する、ことを特徴とする請求項
    79記載のビデオサマリ作成装置。
  88. 【請求項88】 前記識別する手段は、前記オーディオ
    セグメントをカテゴリ化することを特徴とする請求項8
    7記載のビデオサマリ作成装置。
  89. 【請求項89】 前記オーディオセグメントは、音声と
    非音声とにカテゴリ化されることを特徴とする請求項8
    8記載のビデオサマリ作成装置。
  90. 【請求項90】 前記識別する手段は、 非音声サウンドを含むオーディオセグメントを検出し、
    内容に従って前記非音声サウンドを分類し、前記非音声
    サウンドのそれぞれについて、オーディオ情報を出力す
    ることを特徴とする請求項89記載のビデオサマリ作成
    装置。
  91. 【請求項91】 前記オーディオ情報は、開始時刻コー
    ド、長さ、およびカテゴリであることを特徴とする請求
    項90記載のビデオサマリ作成装置。
  92. 【請求項92】 前記識別する手段は、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定の画像、オーディオ、およびテキ
    スト特性に基づいて、前記画像トラックから1個以上の
    画像セグメントを識別し、当該識別が、前記ビデオ番組
    内の前記画像セグメントのそれぞれについて、与えられ
    た画像セグメントが前記オーディオビジュアルサマリに
    含められるのに適しているかどうかを決定するランク付
    けを与える、所定の発見的ルールの集合に従って実行す
    る、ことを特徴とする請求項79記載のビデオサマリ作
    成装置。
  93. 【請求項93】 オーディオビジュアルコンテンツから
    なるビデオ番組のビデオサマリを作成する方法におい
    て、 前記オーディオビジュアルコンテンツのオーディオトラ
    ックおよび画像トラックを検査し、 前記ビデオサマリの所望されるコンテンツに関連する所
    定のオーディオ、画像、およびテキスト特性のうちの少
    なくとも1つに基づき、前記オーディオトラックから1
    個以上のオーディオセグメントを、前記画像トラックか
    ら1個以上の画像セグメントを、前記ビデオサマリに含
    められるのに適しているかどうかを決定する順位を与え
    る所定の基準に従って、それぞれ識別し、 前記順位に従って、前記1個以上のオーディオセグメン
    トおよび前記1個以上の画像セグメントをそれぞれ時間
    軸上に配置して前記ビデオサマリを生成する、 ステップを有することを特徴とするビデオサマリ作成方
    法。
  94. 【請求項94】 前記識別するステップは、 前記ビデオサマリの所望される内容に関連する1個以上
    の所定のオーディオ、画像、およびテキスト特性に基づ
    いて、前記オーディオトラックから1個以上のオーディ
    オセグメントを識別する際に、当該識別を、前記ビデオ
    番組内のオーディオセグメントのそれぞれについて、与
    えられたオーディオセグメントが前記オーディオビジュ
    アルサマリに含められるのに適している確率を与える、
    前もって生成された経験に基づく学習データに依拠する
    機械学習法に従って実行する、ことを特徴とする請求項
    93記載のビデオサマリ作成方法。
  95. 【請求項95】 前記識別するステップは、前記オーデ
    ィオセグメントをカテゴリ化することを特徴とする請求
    項94記載のビデオサマリ作成方法。
  96. 【請求項96】 前記オーディオセグメントは、音声と
    非音声とにカテゴリ化されることを特徴とする請求項9
    5記載のビデオサマリ作成方法。
  97. 【請求項97】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出し、
    内容に従って前記非音声サウンドを分類し、前記非音声
    サウンドのそれぞれについて、オーディオ情報を出力す
    ることを特徴とする請求項97記載のビデオサマリ作成
    方法。
  98. 【請求項98】 前記オーディオ情報は、開始時刻コー
    ド、長さ、およびカテゴリであることを特徴とする請求
    項97記載のビデオサマリ作成方法。
  99. 【請求項99】 前記識別するステップは、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定の画像、オーディオ、およびテキ
    スト特性に基づいて、前記画像トラックから1個以上の
    画像セグメントを識別し、当該識別が、前記ビデオ番組
    内の前記画像セグメントのそれぞれについて、与えられ
    た画像セグメントが前記オーディオビジュアルサマリに
    含められるのに適している確率を与える、前もって生成
    された経験に基づく学習データに依拠する機械学習法に
    従って実行する、ことを特徴とする請求項93記載のビ
    デオサマリ作成方法。
  100. 【請求項100】 前記識別するステップは、 1個以上の所望されるオーディオセグメントを選択し、
    当該選択が、前記ビデオ番組内の前記オーディオセグメ
    ントのそれぞれについて、与えられたオーディオセグメ
    ントが前記オーディオビジュアルサマリに含められるの
    に適している確率を与える、前もって生成された経験に
    基づく学習データに依拠する機械学習法に従って実行す
    る、ことを特徴とする請求項93記載のビデオサマリ作
    成方法。
  101. 【請求項101】 前記識別するステップは、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定のオーディオ、画像、およびテキ
    スト特性に基づいて、前記オーディオトラックから1個
    以上のオーディオセグメントを識別し、当該識別が、前
    記ビデオ番組内の前記オーディオセグメントのそれぞれ
    について、与えられたオーディオセグメントが前記オー
    ディオビジュアルサマリに含められるのに適しているか
    どうかを決定するランク付けを与える、所定の発見的ル
    ールの集合に従って実行する、ことを特徴とする請求項
    93記載のビデオサマリ作成方法。
  102. 【請求項102】 前記識別するステップは、前記オー
    ディオセグメントをカテゴリ化することを特徴とする請
    求項101記載のビデオサマリ作成方法。
  103. 【請求項103】 前記オーディオセグメントは、音声
    と非音声とにカテゴリ化されることを特徴とする請求項
    102記載のビデオサマリ作成方法。
  104. 【請求項104】 前記識別するステップは、 非音声サウンドを含むオーディオセグメントを検出し、
    内容に従って前記非音声サウンドを分類し、前記非音声
    サウンドのそれぞれについて、オーディオ情報を出力す
    ることを特徴とする請求項103記載のビデオサマリ作
    成方法。
  105. 【請求項105】 前記オーディオ情報は、開始時刻コ
    ード、長さ、およびカテゴリであることを特徴とする請
    求項104記載のビデオサマリ作成方法。
  106. 【請求項106】 前記識別するステップは、 前記オーディオビジュアルサマリの所望される内容に関
    連する1個以上の所定の画像、オーディオ、およびテキ
    スト特性に基づいて、前記画像トラックから1個以上の
    画像セグメントを識別し、当該識別が、前記ビデオ番組
    内の前記画像セグメントのそれぞれについて、与えられ
    た画像セグメントが前記オーディオビジュアルサマリに
    含められるのに適しているかどうかを決定するランク付
    けを与える、所定の発見的ルールの集合に従って実行す
    る、ことを特徴とする請求項93記載のビデオサマリ作
    成方法。
JP2001376561A 2000-12-12 2001-12-11 オーディオビジュアルサマリ作成方法 Expired - Fee Related JP3705429B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US25453400P 2000-12-12 2000-12-12
US10/011215 2001-10-25
US60/254534 2001-10-25
US10/011,215 US6925455B2 (en) 2000-12-12 2001-10-25 Creating audio-centric, image-centric, and integrated audio-visual summaries

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005107342A Division JP4340907B2 (ja) 2000-12-12 2005-04-04 オーディオビジュアルサマリ作成方法および装置

Publications (2)

Publication Number Publication Date
JP2002251197A true JP2002251197A (ja) 2002-09-06
JP3705429B2 JP3705429B2 (ja) 2005-10-12

Family

ID=26682129

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001376561A Expired - Fee Related JP3705429B2 (ja) 2000-12-12 2001-12-11 オーディオビジュアルサマリ作成方法
JP2005107342A Expired - Fee Related JP4340907B2 (ja) 2000-12-12 2005-04-04 オーディオビジュアルサマリ作成方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2005107342A Expired - Fee Related JP4340907B2 (ja) 2000-12-12 2005-04-04 オーディオビジュアルサマリ作成方法および装置

Country Status (2)

Country Link
US (1) US6925455B2 (ja)
JP (2) JP3705429B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
JP2007528622A (ja) * 2003-06-27 2007-10-11 ケーティー・コーポレーション ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法
US7372991B2 (en) 2003-09-26 2008-05-13 Seiko Epson Corporation Method and apparatus for summarizing and indexing the contents of an audio-visual presentation

Families Citing this family (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US8020183B2 (en) 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US20030038796A1 (en) * 2001-02-15 2003-02-27 Van Beek Petrus J.L. Segmentation metadata for audio-visual content
US6520032B2 (en) * 2001-03-27 2003-02-18 Trw Vehicle Safety Systems Inc. Seat belt tension sensing apparatus
US20030088687A1 (en) * 2001-12-28 2003-05-08 Lee Begeja Method and apparatus for automatically converting source video into electronic mail messages
US8060906B2 (en) * 2001-04-06 2011-11-15 At&T Intellectual Property Ii, L.P. Method and apparatus for interactively retrieving content related to previous query results
US20030163815A1 (en) * 2001-04-06 2003-08-28 Lee Begeja Method and system for personalized multimedia delivery service
US7904814B2 (en) 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US8479238B2 (en) 2001-05-14 2013-07-02 At&T Intellectual Property Ii, L.P. Method for content-based non-linear control of multimedia playback
JP4426743B2 (ja) * 2001-09-13 2010-03-03 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
US7474698B2 (en) 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US8214741B2 (en) 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7657907B2 (en) 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
EP1531456B1 (en) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Apparatus and method for automatic dissection of segmented audio signals
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
US20070061352A1 (en) * 2003-12-03 2007-03-15 Koninklijke Philips Electronic, N.V. System & method for integrative analysis of intrinsic and extrinsic audio-visual
EP1538536A1 (en) * 2003-12-05 2005-06-08 Sony International (Europe) GmbH Visualization and control techniques for multimedia digital content
US7594245B2 (en) 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
US8949899B2 (en) 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US8356317B2 (en) * 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
JP2006197115A (ja) * 2005-01-12 2006-07-27 Fuji Photo Film Co Ltd 撮像装置及び画像出力装置
WO2007004110A2 (en) * 2005-06-30 2007-01-11 Koninklijke Philips Electronics N.V. System and method for the alignment of intrinsic and extrinsic audio-visual information
JP4972095B2 (ja) 2005-11-15 2012-07-11 イッサム リサーチ ディベロップメント カンパニー オブ ザ ヘブライ ユニバーシティー オブ エルサレム 映像概要を生成する方法およびシステム
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
WO2007075488A2 (en) * 2005-12-16 2007-07-05 Nextbio System and method for scientific information knowledge management
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US8364665B2 (en) * 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
US20070157228A1 (en) 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
US8032840B2 (en) * 2006-01-10 2011-10-04 Nokia Corporation Apparatus, method and computer program product for generating a thumbnail representation of a video sequence
CN101395607B (zh) * 2006-03-03 2011-10-05 皇家飞利浦电子股份有限公司 用于自动生成多个图像的概要的方法和设备
US8689253B2 (en) 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US8930984B2 (en) * 2006-07-04 2015-01-06 Koninklijke Philips N.V. Method of content substitution
CN101485124B (zh) * 2006-07-04 2011-05-25 皇家飞利浦电子股份有限公司 内容替换方法
US20080085055A1 (en) * 2006-10-06 2008-04-10 Cerosaletti Cathleen D Differential cluster ranking for image record access
CN101529500B (zh) * 2006-10-23 2012-05-23 日本电气株式会社 内容概括系统、内容概括的方法
US8677409B2 (en) * 2007-01-05 2014-03-18 At&T Intellectual Property I, L.P Methods, systems, and computer program products for categorizing/rating content uploaded to a network for broadcasting
BRPI0720802B1 (pt) 2007-02-01 2021-10-19 Briefcam, Ltd. Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US9870796B2 (en) * 2007-05-25 2018-01-16 Tigerfish Editing video using a corresponding synchronized written transcript by selection from a text viewer
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
EP2165525B1 (en) * 2007-06-04 2018-09-12 Enswers Co., Ltd. Method of processing moving picture and apparatus thereof
WO2009111581A1 (en) * 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
US8259082B2 (en) * 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US9141859B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US9142216B1 (en) * 2012-01-30 2015-09-22 Jan Jannink Systems and methods for organizing and analyzing audio content derived from media files
US10002192B2 (en) * 2009-09-21 2018-06-19 Voicebase, Inc. Systems and methods for organizing and analyzing audio content derived from media files
US8707381B2 (en) * 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US9191639B2 (en) 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions
CN102385861B (zh) 2010-08-31 2013-07-31 国际商业机器公司 一种用于从语音内容生成文本内容提要的系统和方法
JP5259670B2 (ja) * 2010-09-27 2013-08-07 株式会社東芝 コンテンツ要約装置およびコンテンツ要約表示装置
US9185469B2 (en) 2010-09-30 2015-11-10 Kodak Alaris Inc. Summarizing image collection using a social network
US9489732B1 (en) * 2010-12-21 2016-11-08 Hrl Laboratories, Llc Visual attention distractor insertion for improved EEG RSVP target stimuli detection
US8380711B2 (en) * 2011-03-10 2013-02-19 International Business Machines Corporation Hierarchical ranking of facial attributes
CN103186578A (zh) * 2011-12-29 2013-07-03 方正国际软件(北京)有限公司 漫画有声效果的处理系统和处理方法
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
US20130283143A1 (en) 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US9699485B2 (en) * 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking
US10346542B2 (en) 2012-08-31 2019-07-09 Verint Americas Inc. Human-to-human conversation analysis
US9459768B2 (en) * 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US9495365B2 (en) 2013-03-15 2016-11-15 International Business Machines Corporation Identifying key differences between related content from different mediums
US9158435B2 (en) * 2013-03-15 2015-10-13 International Business Machines Corporation Synchronizing progress between related content from different mediums
US9804729B2 (en) 2013-03-15 2017-10-31 International Business Machines Corporation Presenting key differences between related content from different mediums
US20140362290A1 (en) * 2013-06-06 2014-12-11 Hallmark Cards, Incorporated Facilitating generation and presentation of sound images
US8947596B2 (en) * 2013-06-27 2015-02-03 Intel Corporation Alignment of closed captions
US9368106B2 (en) 2013-07-30 2016-06-14 Verint Systems Ltd. System and method of automated evaluation of transcription quality
CN104183239B (zh) * 2014-07-25 2017-04-19 南京邮电大学 基于加权贝叶斯混合模型的与文本无关的说话人识别方法
US20160098395A1 (en) * 2014-10-01 2016-04-07 Charter Communications Operating, Llc System and method for separate audio program translation
CN107005676A (zh) * 2014-12-15 2017-08-01 索尼公司 信息处理方法、影像处理装置和程序
KR102306538B1 (ko) 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
KR102456875B1 (ko) 2015-03-17 2022-10-19 코넬 유니버시티 심도 촬상 장치, 방법 및 응용
US9940932B2 (en) * 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10083369B2 (en) 2016-07-01 2018-09-25 Ricoh Company, Ltd. Active view planning by deep learning
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
US10432789B2 (en) * 2017-02-09 2019-10-01 Verint Systems Ltd. Classification of transcripts by sentiment
JP6355800B1 (ja) * 2017-06-28 2018-07-11 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
CN108175426B (zh) * 2017-12-11 2020-06-02 东南大学 一种基于深度递归型条件受限玻尔兹曼机的测谎方法
KR102542788B1 (ko) 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
KR102468214B1 (ko) * 2018-02-19 2022-11-17 삼성전자주식회사 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
JP2019160071A (ja) * 2018-03-15 2019-09-19 Jcc株式会社 要約作成システム、及び要約作成方法
US20190294886A1 (en) * 2018-03-23 2019-09-26 Hcl Technologies Limited System and method for segregating multimedia frames associated with a character
US10679069B2 (en) 2018-03-27 2020-06-09 International Business Machines Corporation Automatic video summary generation
US10372991B1 (en) 2018-04-03 2019-08-06 Google Llc Systems and methods that leverage deep learning to selectively store audiovisual content
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
US10971121B2 (en) * 2018-07-09 2021-04-06 Tree Goat Media, Inc. Systems and methods for transforming digital audio content into visual topic-based segments
US11100918B2 (en) * 2018-08-27 2021-08-24 American Family Mutual Insurance Company, S.I. Event sensing system
EP3841754A4 (en) * 2018-09-13 2022-06-15 iChannel.io Ltd. SYSTEM AND COMPUTERIZED METHOD FOR SUBTITLE SYNCHRONIZATION OF AUDIOVISUAL CONTENT USING HUMAN VOICE DETECTION FOR SYNCHRONIZATION
US11822888B2 (en) 2018-10-05 2023-11-21 Verint Americas Inc. Identifying relational segments
US11375293B2 (en) * 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11102523B2 (en) * 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US11039177B2 (en) 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
GB2587627B (en) 2019-10-01 2023-05-03 Sony Interactive Entertainment Inc Apparatus and method for generating a recording
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
US11032620B1 (en) * 2020-02-14 2021-06-08 Sling Media Pvt Ltd Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text
US11445273B1 (en) * 2021-05-11 2022-09-13 CLIPr Co. System and method for creating a video summary based on video relevancy
US11355155B1 (en) 2021-05-11 2022-06-07 CLIPr Co. System and method to summarize one or more videos based on user priorities
US11425181B1 (en) 2021-05-11 2022-08-23 CLIPr Co. System and method to ingest one or more video streams across a web platform
US11610402B2 (en) 2021-05-11 2023-03-21 CLIPr Co. System and method for crowdsourcing a video summary for creating an enhanced video summary
US11683558B2 (en) * 2021-06-29 2023-06-20 The Nielsen Company (Us), Llc Methods and apparatus to determine the speed-up of media programs using speech recognition
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
US11902690B2 (en) * 2021-10-27 2024-02-13 Microsoft Technology Licensing, Llc Machine learning driven teleprompter
US11785278B1 (en) * 2022-03-18 2023-10-10 Comcast Cable Communications, Llc Methods and systems for synchronization of closed captions with content output

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1169290A (ja) * 1997-08-15 1999-03-09 Nippon Telegr & Teleph Corp <Ntt> 映像制作方法及び装置及びこの方法を記録した記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867494A (en) * 1996-11-18 1999-02-02 Mci Communication Corporation System, method and article of manufacture with integrated video conferencing billing in a communication system architecture
US6754181B1 (en) * 1996-11-18 2004-06-22 Mci Communications Corporation System and method for a directory service supporting a hybrid communication system architecture
US5999525A (en) * 1996-11-18 1999-12-07 Mci Communications Corporation Method for video telephony over a hybrid network
US6335927B1 (en) * 1996-11-18 2002-01-01 Mci Communications Corporation System and method for providing requested quality of service in a hybrid network
US5867495A (en) * 1996-11-18 1999-02-02 Mci Communications Corporations System, method and article of manufacture for communications utilizing calling, plans in a hybrid network
US6731625B1 (en) * 1997-02-10 2004-05-04 Mci Communications Corporation System, method and article of manufacture for a call back architecture in a hybrid network with support for internet telephony

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1169290A (ja) * 1997-08-15 1999-03-09 Nippon Telegr & Teleph Corp <Ntt> 映像制作方法及び装置及びこの方法を記録した記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
JP2007528622A (ja) * 2003-06-27 2007-10-11 ケーティー・コーポレーション ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法
JP2009201144A (ja) * 2003-06-27 2009-09-03 Kt Corp ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法
US8238672B2 (en) 2003-06-27 2012-08-07 Kt Corporation Apparatus and method for automatic video summarization using fuzzy one-class support vector machines
US7372991B2 (en) 2003-09-26 2008-05-13 Seiko Epson Corporation Method and apparatus for summarizing and indexing the contents of an audio-visual presentation

Also Published As

Publication number Publication date
JP3705429B2 (ja) 2005-10-12
JP4340907B2 (ja) 2009-10-07
JP2005309427A (ja) 2005-11-04
US6925455B2 (en) 2005-08-02
US20020093591A1 (en) 2002-07-18

Similar Documents

Publication Publication Date Title
JP4340907B2 (ja) オーディオビジュアルサマリ作成方法および装置
Cheng et al. Look, listen, and attend: Co-attention network for self-supervised audio-visual representation learning
CN108986186B (zh) 文字转化视频的方法和系统
JP4981026B2 (ja) 複合ニュース・ストーリーの合成
CA2202539C (en) Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Alatan et al. Multi-modal dialog scene detection using hidden Markov models for content-based multimedia indexing
US20050038814A1 (en) Method, apparatus, and program for cross-linking information sources using multiple modalities
CN106021496A (zh) 视频搜索方法及视频搜索装置
EP0966717A2 (en) Multimedia computer system with story segmentation capability and operating program therefor
JP2012038239A (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
Maragos et al. Cross-modal integration for performance improving in multimedia: A review
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
US7890327B2 (en) Framework for extracting multiple-resolution semantics in composite media content analysis
Gong Summarizing audiovisual contents of a video program
Jitaru et al. Lrro: a lip reading data set for the under-resourced romanian language
Löffler et al. iFinder: An MPEG-7-based retrieval system for distributed multimedia content
Laugs et al. The Influence of Blind Source Separation on Mixed Audio Speech and Music Emotion Recognition
Bechet et al. Detecting person presence in tv shows with linguistic and structural features
Özer et al. Deep learning based, a new model for video captioning
Dalla Torre et al. Deep learning-based lexical character identification in TV series
Hu et al. Detecting highlighted video clips through emotion-enhanced audio-visual cues
CN114938462B (zh) 授课视频的智能剪辑方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050720

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080805

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100805

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110805

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110805

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120805

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130805

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees