JP3705429B2 - オーディオビジュアルサマリ作成方法 - Google Patents

オーディオビジュアルサマリ作成方法 Download PDF

Info

Publication number
JP3705429B2
JP3705429B2 JP2001376561A JP2001376561A JP3705429B2 JP 3705429 B2 JP3705429 B2 JP 3705429B2 JP 2001376561 A JP2001376561 A JP 2001376561A JP 2001376561 A JP2001376561 A JP 2001376561A JP 3705429 B2 JP3705429 B2 JP 3705429B2
Authority
JP
Japan
Prior art keywords
audio
image
segments
segment
audiovisual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001376561A
Other languages
English (en)
Other versions
JP2002251197A (ja
Inventor
キョウ イコウ
リュウ シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2002251197A publication Critical patent/JP2002251197A/ja
Application granted granted Critical
Publication of JP3705429B2 publication Critical patent/JP3705429B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般に、ビデオサマリ作成技術に関し、特に、入力ビデオから抽出した画像、オーディオ、およびテキスト特徴をシームレスに統合することによりビデオサマリを作成する方法およびシステムに関する。
【0002】
【従来の技術】
長い論説や学術論文などのテキスト文書の多くには要約がある。要約の助けにより、読者は、文書全体を詳細に分析せずに、その文書の内容が関心のあるものかどうかをすばやく確かめることができる。テキスト文書の場合もそうであるが、ビデオ番組の内容および性質は一目では捉えられないことが多い。同様にして一般的に全体の内容を示すために、長いビデオ番組の要約すなわちサマリを提供することが一般に望まれる。
【0003】
最近、ワールドワイドウェブ(WWWあるいはウェブ)の爆発的な成長により、オンラインテキストおよびマルチメディアデータコレクションの数が急激に増大している。オンラインマルチメディアコンテンツの増大というこの傾向が続くと、ユーザが大量のデータから最も関連性のある情報をすばやく識別することを支援する自動データサマリ作成技術はますます重要になる。
【0004】
この状況において、ビデオサマリ作成が、困難な課題を提示する。その作業が困難であるのは、ビデオ番組の画像トラックおよびオーディオトラックの両方のサマリ作成をまず必要とするからである。2つのサマリを自然なやりかたで有効に統合することが、もう1つの課題となる。
【0005】
一般に、ほとんどの種類のビデオサマリ作成は、オーディオ中心型サマリ作成(audio-centric summarization)、画像中心型サマリ作成(image-centric summarization)、およびオーディオビジュアル統合型サマリ作成(integrated audio-visual summarization)という3つのカテゴリに分類することができる。ビデオ番組のうちには、例えばニュース放送、ドキュメンタリー、ビデオセミナーのように、対応するオーディオトラックと画像トラックの間に強い相関のないタイプのものがある。このようなビデオカテゴリについては、オーディオと画像をゆるく整列(整合)させながら、オーディオと画像の両方の内容のカバレジを最大にするオーディオビジュアル統合型サマリ作成アプローチを使用するのが適当である。他方、映画、ドラマ、トークショーなどのような他のタイプのビデオ番組は、オーディオトラックと画像トラックの間に強い相関を有することがある。この種のビデオ番組については、オーディオ提示とビデオ画像の間の同期が重要である。このような状況では、オーディオ中心型または画像中心型のいずれかのサマリ作成方法を使用するのが適当である。
【0006】
【発明が解決しようとする課題】
従来のシステムは、このようなさまざまなタイプのビデオ番組に対する有効で効率的なサマリ作成という課題に対し、包括的な解決法を提供していない。現在使用されている多くのビデオサマリ作成システム・方法は、あるタイプのビデオ内容を発見的に重要であるとみなし、これらのあらかじめ指定した内容を入力ビデオから抽出することによってサマリを作成している。その結果、これらのビデオサマリ作成システム・方法は、非常に領域特異的(領域固有)かつアプリケーション特異的であり、ユーザの個々の需要に基づいてサマリを作成することや、さまざまな種類のビデオ番組を処理することができない。
【0007】
【課題を解決するための手段】
本発明は、機械学習フレームワークに基づくビデオサマリ作成のシステムおよび方法を提供することによって、従来のビデオサマリ作成技術の前記およびその他の欠点を克服する。また、本発明はさらに、機械学習フレームワークによって要求されるトレーニングデータを得ることが困難な状況に対処するためのシステムおよび方法も提供する。これらのシステムおよび方法は、入力ビデオから抽出される画像、オーディオ、およびテキスト特徴をシームレスに統合することによって、高品質のオーディオおよび画像のサマリを作成することができる。
【0008】
オーディオトラックと画像トラックの間の強い同期に依存しないビデオ番組の具体例として、オーディオセグメントが最近の地震による犠牲者の数に関する情報を提示しているテレビニュース番組を考える。対応する画像セグメントは、現場のレポーターの接写であったり、崩壊した建物の現場で作業する救助隊の接写であったり、地震の震央を示す地域地図の接写であったりする。このような場合、オーディオ内容は、必ずしも、対応する画像内容に言及している必要がないことが多い。前述のように、このようなビデオ番組のその他の例には、ドキュメンタリー、セミナーなどがある。
【0009】
本発明の一実施例によれば、厳密な同期が要求されないときには、ビデオ番組のサマリを作成するために、オーディオビジュアル統合型サマリ作成技術が用いられる。このようなビデオ番組のサマリを作成する際には、オーディオおよび画像のサマリを別個に作成することが好ましい。その後、2つのサマリが、ゆるく整列して統合される。このアプローチでは、オーディオ内容と画像内容の両方のカバレジを、サマリにおいて最大化することが可能である。
【0010】
逆に、オーディオ内容と画像内容の間の強い同期を要求するビデオ番組は、一般に、特定の瞬間におけるオーディオトラックがその瞬間に提示される画像と直接関係しており、その逆も同様であるということによって特徴づけられる。このようなビデオ番組のサマリを作成する際には、オーディオと画像の間の同期が重要である。したがって、同期はオーディオ中心型または画像中心型のいずれかであることが好ましい。
【0011】
一実施例によれば、オーディオ中心型サマリ作成技術は、ビデオ番組に関連するオーディオ内容の重要な側面を確認する。必要な程度の同期を達成するため、画像サマリは、オーディオサマリを構成するオーディオセグメントに対応するビデオフレームを選択することによってのみ、生成される。画像中心サマリ作成技術は、まず、ビデオ番組の重要な画像セグメントを識別することによって画像トラックのサマリを作成する。その後、これらの重要なあるいは代表的な画像セグメントに対応するオーディオセグメントを、全体のビデオサマリに含める。
【0012】
サマリを作成するプロセスは、画像、オーディオ信号、音声トランスクリプト、および字幕(クローズドキャプション)テキストからの手がかりおよび特徴を利用することによって容易化される。画像特徴、音声トランスクリプト、および字幕テキストは、オーディオサマリ作成を改善するために、対応するオーディオ特徴と組み合わされ、一方、オーディオ特徴、音声トランスクリプト、および字幕テキストは、よりよい画像サマリ作成を容易にするために、関連する画像特徴と組み合わされる。
【0013】
オーディオ中心型、画像中心型、あるいはオーディオビジュアル統合型のサマリ作成を実現するため、以下では2つの実施例について説明する。1つの技術によれば、与えられたアプリケーションに対していずれのサマリ作成技術が好ましいかに応じて、あらかじめサマリ作成の選択(プレファレンス)を例示することが可能なトレーニングデータを用いて、機械学習が、ビデオ番組のオーディオあるいは画像トラックに適用される。この技術では、システムは、既知のアルゴリズム方式のうちの任意のものを用いて、サンプルビデオサマリに示される挙動を模倣し、このサンプルから、および、サンプルの固有のインプリメンテーションから、学習を行うことが可能である。必要な命令をシステムに提供するために、トレーニングデータが直ちに入手可能でない場合や容易に適用可能でない場合には、以下で説明するもう1つの実施例が、本発明の代替方法として、適用可能である。
【0014】
本発明の上記および関連するその他の利点は、添付図面を参照して、以下の好ましい実施例の詳細な説明を検討すれば、さらに明らかとなる。
【0015】
【発明の実施の形態】
図面を参照すると、図1は、機械学習によるビデオサマリ作成システム・方法に関する、本発明の一実施例の動作を示す流れ図である。図1を参照して、以下では、使用される数学的モデルのタイプ、オーディオおよびビジュアルサマリ作成に用いられる特徴、ならびに、オーディオおよびビジュアルサマリを整列させる方法について説明する。
【0016】
[機械学習フレームワーク]
通常のビデオ番組は、オーディオトラックおよび画像トラックの両方を含み、これらはいずれも長く連続することがある。このようなビデオ番組のサマリを作成するには、そのビデオを構成するオーディオトラックおよび画像トラックの両方を、有意味かつ管理可能な操作ユニットに分節化しなければならない。例えば、有意味なオーディオ操作ユニットとしては、1個の単語、1個の句、1個の文、あるいはその他のコヒーレントな音響プロファイルを有するオーディオセグメントの発声がある。同様に、可能な画像操作ユニットの例には、単一のカメラショット、一連の連続するカメラショット、ある判断基準によってグループ分けされた画像フレームのクラスタなどがある。
【0017】
このような状況において、あるベクトルすなわち特徴セットXで、オーディオまたは画像操作ユニットを表すことが可能である。さらに、Xは、いくつかの特徴xを含む。特徴xは、オーディオまたは画像操作ユニットに関連する画像特徴、オーディオ特徴、テキスト特徴(例えば、音声トランスクリプトや字幕からの重要なキーワード)とすることが可能である。n個の特徴xが特定のベクトルすなわち特徴セットXに存在する場合、X=[x1,x2,...,xn]である。サマリ作成作業は、与えられた特徴セットXに対して、確率P(y|X)を計算する二分分類問題に変換される。ここでyは2進(バイナリ)変数であり、その値1および0は、Xがサマリに含まれるか否かのそれぞれの状態を表す。この確率P(y|X)は、ルール(規則)によるアプローチを用いて決定することも可能であり、あるいは、機械学習法を用いて評価することも可能である。後者の場合、トレーニングデータが機械学習システムに提供され、システムは、提供されたトレーニングデータに従って、確率P(y|X)を予測するモデルを学習することになる。
【0018】
確率P(y|X)を評価するために、ナイーブベイズ法、決定木法、ニューラルネットワーク法、最大エントロピー法(これらには限定されない)などのような、既知のさまざまな機械学習技術のうちの任意のものを使用可能である。このような技術は、この技術分野の当業者に周知であるため、ここで詳細に説明する必要はない。
【0019】
[システム構成]
上記のように、図1は、機械学習によるビデオサマリ要約作成システム・方法の一実施例の動作を示す概略流れ図である。システムは、ビデオ入力の画像トラックおよびオーディオトラックを検査する。さらに、システムは、入力ビデオに関連する字幕があればそれも検査することが可能である。ビデオサマリ作成システム・方法は、これらの3つの入力コンポーネント、すなわち、字幕、オーディオトラック、および画像トラックの間の整列を実行することが可能である。各入力コンポーネントに対する特徴抽出および特殊な操作も実行可能である。抽出された特徴および各コンポーネント操作の出力はその後、オーディオビジュアル統合型サマリ、または、オーディオ中心型サマリもしくは画像中心型サマリのいずれかを作成するために、機械学習によるサマリ作成モジュールに入力される。以下の操作が一般に、入力コンポーネントのそれぞれに関して実行される。
【0020】
サウンド(音)の検出と分類: 音楽、拍手、叫び声、爆発、雷鳴、銃声などのような非音声サウンドからなるオーディオセグメントを検出する。それらを、それぞれがコヒーレントな音響プロファイルを有するサウンドユニットに分節化する。これらのユニットを、それらの内容に従って分類する。各サウンドユニットに対して、以下のデータ、すなわち、オーディオトラック内でのそのサウンドユニットの開始時刻コード、そのサウンドユニットの継続時間、およびサウンドユニットのカテゴリあるいはタイプを出力する。
【0021】
音声認識: サウンド検出・分類モジュールによって検出された非音声オーディオセグメントを取り除く。残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを生成する。それぞれの認識語、オーディオトラック内でのその開始時刻コード、およびその継続時間を出力する。
【0022】
字幕と音声トランスクリプトの整列: 字幕と、音声認識器からの音声トランスクリプトとの間の整列を実行する。字幕は、タイピングミスを含むことがあり、音声認識器からの音声トランスクリプトは認識エラーを含むことがある。字幕と音声トランスクリプトの間の整列は、音声トランスクリプトの精度を改善するために有効である。
【0023】
音声ユニットと特徴ベクトル生成: 整列した音声トランスクリプトに基づいて音声操作ユニットを生成し、各音声ユニットに対して特徴ベクトルを生成する。例えば、有意味な音声ユニットとしては、1個の単語、1個の句、1個の文、あるいはその他の有意味な音声内容を有するセグメントがある。
【0024】
音声ユニット重要度ランク付け: 各音声ユニットの重要度ランクを計算する。この重要度ランク付けは、例えば、米国特許仮出願第60/254,535号(出願日:2000年12月12日、発明の名称:"Text Summarization Using IR Technique And Singular Value Decomposition")、および、米国特許出願第09/817,591号(出願日:2001年3月26日、発明の名称:"Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis")に記載されているような、当業者に知られた方法を利用することが可能である(本出願人による特願2001−356813号を参照)。
【0025】
話者ID検出: 音声ユニット・特徴ベクトル生成モジュールから音声ユニットを受け取る。それぞれの音声ユニットに対して、話者の識別を決定する(すなわち、話者識別検出)。
【0026】
画像セグメント分節化: 画像トラックを、それぞれがコヒーレントな画像プロファイルおよび動きプロファイルを有する個々の画像セグメントに分節化する。得られた画像セグメントは、画像操作ユニットとして使用可能である。
【0027】
画像特徴ベクトル生成: 画像特徴を抽出し、各画像セグメントに対して特徴ベクトルを形成する。特徴ベクトルを形成するためには、画像セグメント内容の何らかの側面を捕捉する任意の画像特徴が使用可能である。
【0028】
顔ID検出: それぞれの画像セグメントに人間の顔が含まれていれば、それを検出し識別する。
【0029】
上記の操作が実行された後、出力は、機械学習によるサマリ作成モジュールに供給され、そこで、オーディオおよびビジュアルサマリが、前述のような機械学習フレームワークを用いて作成される。オーディオサマリ作成プロセスには、それぞれの音声あるいはサウンドユニットXに対して、そのユニットがオーディオサマリに含まれるのに十分な重要性を有する確率P(y|X)を計算することが含まれる。上記のように、それぞれの音声あるいはサウンドユニットに関連する以下の特徴が、機械学習フレームワークで使用可能である。すなわち、その特徴とは、音声ユニットの開始時刻コード、継続時間、および重要度ランク、サウンドユニットの開始時刻コード、継続時間、およびカテゴリ、ならびに、対応する画像の顔識別、および画像特徴ベクトルである。それぞれの音声あるいはサウンドユニットXに対する確率P(y|X)が計算された後、オーディオサマリがユーザ指定の長さLsumに達するまで、確率P(y|X)の降順に音声ユニットあるいはサウンドユニットを選択することによって、オーディオサマリが作成される。
【0030】
他方、ビジュアルサマリ作成は、上記の操作で作成された画像セグメントを操作ユニットとして使用する。ビジュアルサマリ作成プロセスは、同様に、機械学習フレームワークを用いて、例えば各画像セグメントSに対して、その画像セグメントがビジュアルサマリに含まれるのに十分な重要性を有する確率P(y|S)を計算する。上記のように、例えば、各画像セグメントSに関連する以下の特徴が考えられる。すなわち、その特徴とは、長さ(すなわち、連続する、順次的な、あるいはその他の関連するフレームの個数)、画像特徴ベクトル、その画像セグメントに描画された人物あるいは顔の識別、黒フレームや画像ロゴなどのような特殊なフレームの存在、人間および物体(オブジェクト)の動き、ズームやパンなどのようなカメラの動き、対応する音声ユニットおよびサウンドユニット、ならびに、対応する音声ユニットに関連する話者の識別である。各画像セグメントSに対する確率P(y|S)が計算された後、ビジュアルサマリがユーザ指定の長さLsumに達するまで、確率P(y|S)の降順に画像ユニットを選択することによって、ビジュアルサマリが作成される。
【0031】
ビジュアルサマリは、必ずしも、それぞれの選択された画像セグメントを最初から最後まで含むことは必要でない。もとのビデオ番組を構成する画像セグメントの平均時間長は長いが、ユーザ指定のサマリ長Lsumは短い場合、ビジュアルサマリはほんの2、3個の画像セグメントによって構成されることになるため、もとのビジュアル内容の大幅な喪失につながる可能性がある。ユーザがビジュアルサマリ作成結果に影響を及ぼすことを可能にするため、ユーザは、サマリ長Lsumのみならず、最小再生時間Lminをも指定するように要求されることも可能である。Lsumは、全体のビジュアル内容を理解するためにユーザがどのくらいの長さの時間を使いたいかを示す一方、Lminは、幅指向ビジュアルサマリと深さ指向ビジュアルサマリの間の選択権をユーザに提供する。例えば、小さいLminの値は、多数の短い画像セグメントからなる幅指向のビジュアルサマリを生成するために用いられる。他方、大きいLminの値は、少数の長い画像セグメントからなる深さ指向のビジュアルサマリを生成するために用いられる。
【0032】
ユーザがLsumおよびLminを指定した後、ビジュアルサマリ内に含まれることが可能な画像セグメントの総数は、C=min(Lsum/Lmin,|Ω|)に等しい。ただし、|Ω|は、もとのビデオ内の画像セグメントの総数を表す。さらに、それぞれの選択された画像セグメントに割り当てられることが可能な時間長は、L=Lsum/Cに等しい。この状況において、ビジュアルサマリは、確率P(y|S)の降順にC個の画像セグメントを選択し、そのC個の画像セグメントのそれぞれの最初のL秒間をとり、それらを時間の昇順に連結することによって作成される。
【0033】
[オーディオサマリとビジュアルサマリの間の整列]
オーディオおよびビジュアルサマリが作成された後、解決すべき最後の問題は、どのようにしてこれらの2つのサマリを同期するかである。オーディオトラックAおよび画像トラックIからなるビデオシーケンスをV=(I,A)とする。Vのオーディオサマリは、Asum={A(ti,τi)∈A|i=1,...,N(Asum)}と表される。ただし、A(ti,τi)は、時刻tiに開始し時間τiだけ継続するオーディオセグメントを表し、N(Asum)は、Asumを構成するオーディオセグメントの個数を表す。Asum内のすべてのオーディオセグメントは、それらの開始時刻tiの昇順に配列される。同様に、Vのビジュアルサマリは、Isum={I(tj,τj)∈I|j=1,...,N(Isum)}と表され、すべてのコンポーネントはそれらの開始時刻の昇順にソートされる。
【0034】
上記のように、オーディオ中心型および画像中心型サマリは、同期の問題を最小にする。すなわち、同期は、単に、もとのビデオ番組から、画像またはオーディオのそれぞれの対応部分をとることによって実現可能である。オーディオ中心型サマリについては、A(tj,τj)∈Asumの場合、I(tj,τj)∈Isumである。画像中心型サマリについては、I(tj,τj)∈Isumの場合、A(tj,τj)∈Asumである。オーディオビジュアル統合型サマリを作成するためには、オーディオサマリとビジュアルサマリが機械学習フレームワークを用いて別個に作成されるため、それぞれのオーディオセグメントA(tj,τj)∈Asumに対して、対応する画像セグメントI(tj,τj)は必ずしもIsumに属するとは限らず、逆も同様である。したがって、画像およびオーディオの両方の内容のカバレジを、それらのいずれをも犠牲にせずに最大化するため、オーディオサマリとビジュアルサマリの間でゆるい整列が実行される。
【0035】
オーディオビジュアル統合型サマリについては、どのオーディオ内容がどの画像内容と同期しなければならないか、およびその逆はどうかについての、システム設計者の、またはユーザの要求すなわちプレファレンスが、あらかじめ規定された整列指定として、サマリ作成システムに提供される。例えば、同期は、以下の場合に所望され、あるいは要求される。(1)ビジュアルサマリ内の画像セグメントが人物を示しており、対応するオーディオセグメント画素の人物の音声を含む場合、画像セグメントをそのオーディオ対応部分に、またはその逆に、同期することが所望される。(2)オーディオサマリ内のオーディオセグメントが爆発からなり、対応する画像セグメントが爆発を示している場合、オーディオセグメントをその画像対応部分に、またはその逆に、同期することが所望される。(3)オーディオセグメントが、ある有名人の名前に言及する音声を含み、その有名人の写真が、そのオーディオセグメントの小さい時間ウィンドウ内の画像セグメントに示されている場合、オーディオセグメントを、その有名人の写真を示す画像セグメントに、またはその逆に、同期することが所望される。
【0036】
一実施例によれば、オーディオビジュアル統合型サマリ作成は以下のように実行される。
【0037】
上記のビジュアルサマリ作成プロセスと同様に、オーディオビジュアル統合型サマリ作成は、2つのパラメータ、すなわち、ビジュアルサマリを構成する各画像セグメントに対するサマリ長Lsum、および最小再生時間Lminを指定することをユーザに要求することによって開始される。ユーザが深さ指向ビジュアルサマリと幅指向ビジュアルサマリとの間の選択をすることを可能にすることとは別に、パラメータLminを導入するもう1つの目的は、オーディオサマリとビジュアルサマリの間の部分的整列を実現することである。整列の主な目標は、オーディオビジュアル統合型サマリがなめらかで自然に見えるようにし、もとのビデオのオーディオよびビジュアルの両方の内容のカバレジを、それらのいずれをも犠牲にすることなく、最大化することである。
【0038】
例えば、ニュース番組では、アナウンサーやレポーターによって話される文章は、ニュース記事の重要な内容を伝えている可能性が高く、オーディオサマリに含まれる高い確率が与えられる。このような文章の対応する画像部分は、スタジオのアナウンサーや現場のレポーターの接写である。オーディオサマリ内のそれぞれの話された文が、対応する画像部分とよく整列している場合、結果は、ほとんどアナウンサーやレポーターからなる画像部分を有するビデオサマリとなる。このようにして作成されるサマリは、自然でなめらかなものに見えるかもしれないが、このような自然さおよびなめらかさは、画像内容の相当な犠牲によりもたらされたものである。完全な整列により引き起こされるこの問題を解決するため、オーディオサマリとビジュアルサマリの間で、以下の部分的整列操作が代わりに実行される。
【0039】
1.上記のように、オーディオサマリは、確率の降順で、音声またはサウンドユニットを選択することによって作成される。
【0040】
2.オーディオサマリ内の各コンポーネントA(ti,τi)に対して、対応する画像セグメントI(ti,τi)の内容をチェックする。A(ti,τi)、I(ti,τi)のペアが、システムに提供されたあらかじめ規定された整列要件を満たす場合、時刻tiからLmin秒間、A(ti,τi)をI(ti,τi)と整列させる。そうでない場合は、A(ti,τi)に対して整列操作を実行しない。以下の記述において、時刻tiを整列点という。
【0041】
3.ステップ2で整列点が識別された後、ビデオサマリ全体は、いくつかの時間パーティションに分割される。2つの隣り合う整列点ti,ti+1に対して、期間(ti,ti+1)に対するビジュアルサマリを作成するために、以下の操作を実行する。
【0042】
a.期間(ti,ti+Lmin)をI(ti,Lmin)∈I(ti,τi)で満たす。これは、A(ti,τi)とI(ti,τi)の間の部分的整列を行う。
【0043】
b.期間(ti+Lmin,ti+1)に対するビジュアルサマリを作成するため、この期間に入る画像セグメントの集合Θを求める。この期間に含まれることが可能な画像セグメントの総数は、C=min((ti+1−ti−Lmin)/Lmin,|Θ|)に等しい。ただし、|Θ|は、集合Θ内の画像セグメントの個数を表す。さらに、それぞれの画像セグメントに割り当てられることが可能な時間長は、L=(ti+1−ti−Lmin)/Cに等しい。Θから、最も高い確率を有するC個の画像セグメントを選択し、そのC個の画像セグメントのそれぞれの最初のL秒間をとり、それらを時間の昇順に連結することによって、この期間に対するビジュアルサマリを作成する。
【0044】
[ビデオサマリ作成の代替システム・方法]
上記のように、機械学習フレームワークに基づくビデオサマリ作成のシステムおよび方法は、人間の専門家が前もって作成した十分な数のサンプルビデオサマリからなるトレーニングデータを必要とする。機械学習によるサマリ作成のシステムおよび方法は、専門家のサンプルビデオサマリから学習すること、および、サンプルビデオサマリに示される挙動を模倣することによってビデオサマリを作成することが可能である。しかし、場合によっては、専門家により作られたサンプルビデオサマリを得ることが高価すぎることや非常に困難なことがある。このような場合、トレーニングデータを必要としないシステムおよび方法を提供することが好ましい。
【0045】
図2は、トレーニングサンプルを必要としない代替的なビデオサマリ作成システム・方法の一実施例の動作を示す概略流れ図である。図2からわかるように、この代替システムは、前述の機械学習によるシステムのものと非常に類似した流れ図を有する。したがって、これから説明する代替システム・方法でも、第1実施例の場合と同様に、オーディオ中心型、画像中心型、またはオーディオビジュアル統合型のサマリを得ることが可能である。図2の流れ図において、この代替システムの、以下のモジュール以外はすべて、図1に示した対応するモジュールと同一である。
【0046】
ビジュアル内容による画像セグメントクラスタ化: 第1実施例と同様の画像セグメント分節化に加えて、画像セグメントを、それらのビジュアル類似度および動的レベルに基づいてクラスタ化する。このクラスタ化は、例えば、Y. Gong and X. Liu, "Video Summarization Using Singular Value Decomposition", in Proceedings of IEEE International Conference of Computer Vision and Pattern Recognition (CVPR'00)、に記載されているものや、Y. Gong and X. Liu, "Summarizing Video By Minimizing Visual Content Redundancies", in Proceedings of IEEE International Conference of Multimedia and Expo (ICME'01)、に記載されているもののような方法を使用可能である。各フレームクラスタは、同じクラスタ内のすべての画像セグメントが互いに視覚的に類似しているような1個以上の画像セグメントからなる。
【0047】
すべての特徴抽出操作がそれぞれのモジュールによって実行された後、出力は、オーディオビジュアルサマリ作成モジュールに供給され、そこで、オーディオサマリもしくはビジュアルサマリのいずれか、またはオーディオビジュアル統合型サマリが以下で説明するように作成される。
【0048】
前述のシステムにおける機械学習によるビデオサマリ作成モジュールとは異なり、この場合のオーディオビジュアルサマリ作成モジュールは、それぞれの音声またはサウンドユニットXに対する確率P(y|X)も、それぞれのフレームクラスタSに対する確率P(y|S)も計算しない。代わりに、オーディオサマリがユーザ指定の長さLsumに達するまで、音声ユニットを(音声ユニット重要度ランク付けモジュールから受け取った)その重要度ランクの降順に選択することによって、オーディオサマリを作成する。サウンドユニットは、例えば発見的ルールを用いて、ランク付けされ、オーディオサマリに含めるかどうか選択される。前述のように、音声ユニットの重要度ランク付けは、例えば、米国特許仮出願第60/254,535号(出願日:2000年12月12日、発明の名称:"Text Summarization Using IR Technique And Singular Value Decomposition")、および、米国特許出願第09/817,591号(出願日:2001年3月26日、発明の名称:"Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis")に記載されているような、当業者に知られた方法を利用することが可能である(本出願人による特願2001−356813号を参照)。さらに、重要度ランク付けは、発見的ルールと上記の方法との組合せを用いて決定することも可能である。例えば、このような発見的ルールは、重要な人物によって話された特定の語句や、爆発、自然災害、暴行などのような特別の事件を含む重要な画像セグメントに対応する音声ユニットに、より高いランクを与える。
【0049】
ビジュアルサマリを作成するため、代替システムもまた、2個のパラメータLsum、Lminのユーザによる指定を必要とする。ここでも、各フレームクラスタSの重要度をランク付けするために、発見的ルールが使用可能である。一般に、ビジュアル内容サマリ作成に対するシステム設計者の、またはユーザの知識、要望、あるいはプレファレンスを反映する任意のルールが、発見的ルールとして使用可能である。例えば、このような発見的ルールは、特定の画像特徴や、有名人や、会社ロゴなどのような特別のフレームを含むフレームクラスタ、人間や物体の動きや、ズーム、パンなどのようなカメラの動きを有するフレームクラスタ、あるいは、対応する音声ユニットが重要であるか、重要な人物によって話されているフレームクラスタに、より高いランクを与える。
【0050】
さらに、各フレームクラスタの全時間長(構成する各画像セグメントの継続時間の和)もまた、ランク決定の過程で使用可能である。各フレームクラスタは複数の画像セグメントからなることがあるため、1つのフレームクラスタが選択された後、ビジュアルサマリを作成するためには、そのクラスタ内のどの画像セグメントを使用すべきかを決定することが依然として必要である。画像セグメント選択の助けとなる情報が他にない場合、最も直接的な選択方法は、クラスタ内で最長の画像セグメントを選択することとなるであろう。この理由は、同じクラスタ内の画像セグメントはすべて視覚的に類似しているため、最長の画像セグメントは、最も完全なものであり、最もよくクラスタ全体を代表するからである。この状況において、ビジュアルサマリ内に含まれることが可能な画像セグメントの総数Cと、それぞれの選択された画像セグメントに割り当てられることが可能な時間長Lは、2個のパラメータLsum、Lminを利用した前述のと同じ式を用いて計算可能である。ビジュアルサマリは、C個のフレームクラスタをそれらの重要度ランクの降順に選択し、そのC個のフレームクラスタのそれぞれから最長の画像セグメントの最初のL秒間をとった後、それらを時間の昇順に連結することによって、作成することができる。
【0051】
オーディオビジュアル統合型サマリについては、前述の機械学習によるシステムと同様に、代替システムもまた、どのオーディオ内容がどの画像内容と同期しなければならないかを示す整列指定と、パラメータLsum、Lminのユーザによる入力とを必要とする。オーディオサマリが作成された後、オーディオサマリ内の各コンポーネントA(ti,τi)は、その画像対応部分I(ti,τi)とともに検査され、A(ti,τi)、I(ti,τi)のペアがあらかじめ規定された整列要件を満たすかどうか調べられる。この検査は、ビデオサマリ全体をいくつかの時間パーティションに分割する整列点の集合を識別する。どのフレームクラスタが、および、選択されたフレームクラスタ内のどの画像セグメントが、どの時間パーティションを満たすために使用されるべきかを決定しなければならない。この整列操作は、以下の2つの主なステップからなる。
【0052】
1.オーディオサマリ内の各コンポーネントA(ti,τi)に対して、対応する画像セグメントI(ti,τi)の内容をチェックする。A(ti,τi)、I(ti,τi)のペアが、あらかじめ規定された整列要件を満たす場合、時刻tiからLmin秒間、A(ti,τi)をI(ti,τi)と整列させる。そうでない場合は、A(ti,τi)に対して整列操作を実行しない。ここで、時刻tiを整列点という。
【0053】
2.ステップ1ですべての整列点が識別された後、ビデオサマリ全体は、いくつかの時間パーティションに分割される。(ビジュアル内容によるフレームクラスタ化モジュールから得られる)クラスタ集合からのフレームクラスタを割り当てることによって、それぞれのパーティションを満たす。この割当ては、以下の2つの制約に適応しなければならない。
【0054】
a.単一割当て制約: 各フレームクラスタは、ただ1つの時間スロット割当てを受け取ることができる。
【0055】
b.時間順序制約: ビジュアルサマリを構成するすべての画像セグメントの時間順序は維持されなければならない。
【0056】
以下で、上記の整列操作のステップ2の実現法について説明する。ビデオサマリの全時間長Lsumが整列点によってP個のパーティションに分割され、パーティションiの時間長がTi(図3A参照)であると仮定した場合、各時間スロットは少なくともLmin秒間の長さでなければならないため、パーティションiは、
【数1】
Figure 0003705429
個の時間スロットを提供することが可能であり、したがって利用可能な時間スロットの総数はStotal=Σi=1 Piとなる。ここで、問題は次のようになる。ビデオサマリの全部でO個のフレームクラスタとStotal個の時間スロットが与えられた場合に、上記の2つの制約を満たすように、フレームクラスタと時間スロットの間の最適なマッチングを決定せよ。
【0057】
若干の再定式化によって、今述べた問題を、最大2部マッチング問題に変換することができる。頂点の有限集合をVとし、V上の辺集合をEとする無向グラフをG=(V,E)で表す。2部グラフとは、無向グラフG=(V,E)であって、Vが、(u,v)∈Eならばu∈Lかつv∈Rかu∈Rかつv∈Lかのいずれかが成り立つような2つの集合LおよびRに分割可能であるようなもののことである。すなわち、すべての辺は、2つの集合LとRの間をつなぐ。マッチングとは、辺の部分集合M∈Eであって、u∈Lかつv∈Rである任意の頂点対(u,v)に対して、Mの高々1つの辺がuとvの間を連結するようなもののことである。
【0058】
最大マッチングとは、マッチングMであって、任意のマッチングM′に対して、|M|≧|M′|となるようなもののことである。この問題に最大2部マッチングを適用するため、各頂点u∈Lを用いてフレームクラスタを表し、各頂点v∈Rを用いて時間スロットを表す。辺(u,v)が存在するのは、フレームクラスタuが、時間順序制約に違反せずに時間スロットvをとることができる場合である。フレームクラスタが、もとのビデオの前半からのものと、もとのビデオの後半からのものという複数の画像セグメントからなる場合、このフレームクラスタは、それから出てR内の相異なる頂点に至る複数の辺を有することになる。
【0059】
最大2部マッチング解は、すべてのフレームクラスタと時間スロットの間の最適割当てである。なお、最適割当ては必ずしも一意的であるとは限らない。
【0060】
図3Aに、オーディオサマリとビジュアルサマリの間の整列プロセスを示す。この図において、もとのビデオ番組は70秒間の長さであり、その画像トラックは、それぞれ10秒間継続する7個の画像セグメントからなり、オーディオトラックは、それぞれ長さ10秒間の7個の話された文からなる。ユーザは、Lsum=20秒、およびLmin=3秒と設定している。オーディオサマリ作成は、2個の話された文A(0,10)およびA(30,10)を選択し、ビジュアル内容によるクラスタ化は、次の5個のクラスタを生成したと仮定する:
I(0,10)からなるクラスタ1、
I(10,10)およびI(50,10)からなるクラスタ2、
I(30,10)からなるクラスタ3、
I(20,10)およびI(40,10)からなるクラスタ4、
I(60,10)からなるクラスタ5。
【0061】
オーディオサマリがA(0,10)およびA(30,10)から形成されているので、対応する画像セグメントI(0,10)およびI(30,10)の内容を検査し、A(0,10)およびA(30,10)に対して整列操作が要求されるかどうかを判定する必要がある。I(0,10)およびI(30,10)は話された文A(0,10)、A(30,10)のそれぞれの話者を表示していると仮定する。その場合、整列ルールにより、Lmin(3)秒間、I(0,10)はA(0,10)と整列し、I(30,10)はA(30,10)と整列することになる。I(0,10)およびI(30,10)は、一度使用されたため、これらはビジュアルサマリの他の部分で使用されることはない。
【0062】
これらの2つの整列点により、ビジュアルサマリの残りの期間は2つのパーティションに分割される。各パーティションは、高々2個の時間スロットを提供することが可能な7秒間継続する。整列のために3個のフレームクラスタおよび4個の時間スロットが残っているため、この整列作業に対して、図3Bに示す2部グラフがある。フレームクラスタ2は、2個の画像セグメントI(10,10)およびI(50,10)からなるため、パーティション1またはパーティション2のいずれに時間スロットをとることも可能である。I(10,10)がフレームクラスタ2から選択される場合、これはパーティション1に時間スロット2または3のいずれかをとることができる。他方、I(50,10)が選択される場合、これはパーティション2に時間スロット5または6のいずれかをとることができる。したがって、クラスタ2から出る4本の辺、すなわち、時間スロット2への辺、時間スロット3への辺、時間スロット5への辺、および時間スロット6への辺が存在する。同様に、クラスタ4から出る4本の辺、すなわち、時間スロット2への辺、時間スロット3への辺、時間スロット5への辺、および時間スロット6への辺が存在する。
【0063】
他方、フレームクラスタ5は、ただ1つの画像セグメントI(60,10)からなり、パーティション2に時間スロット5または6のいずれかをとることができる。したがって、フレームクラスタ5から出る2本の辺が存在する。
【0064】
図3Bの2部グラフに対してはいくつかの可能な最大マッチング解が存在する。図4Aおよび図4Bは2つのそれぞれの解を示す。図4Aに示す解(i)では、時間スロット3が未割当てのままである。図4Bに示す解(ii)では、時間スロット5が未割当てのままである。この場合、すべてのフレームクラスタが使用されているため、複数の画像セグメントを有するフレームクラスタを用いて、空き時間スロットを満たす必要がある。解(i)(図4A)の場合、フレームクラスタ4の画像セグメントI(20,10)が、空き時間スロットを満たすために使用されなければならない。解(ii)(図4B)の場合、フレームクラスタ2の画像セグメントI(50,10)が、空き時間スロットを満たすために使用されなければならない。
【0065】
上記の例は次のことを例示している。すなわち、最大2部マッチングは、利用可能なフレームクラスタと時間スロットの間の最適なマッチングを求めるが、特に、利用可能なフレームクラスタの数より多くの利用可能な時間スロットがあるときには、一部の時間スロットを未割当てのまま残すことがある。これらの未割当て時間スロットを満たすために、単一割当て制約をゆるめ、複数の画像セグメントを有するフレームクラスタを検査し、まだ使用されていない適当なセグメントを選択することが可能である。このようにして、時間順序制約は満たされる。ゆるめられた単一割当て制約に対するそれぞれの解を図5Aおよび図5Bに示す。
【0066】
なお、最大2部マッチング操作は、不正な解を生成することがある。図6Aおよび図6Bは、これの2つの例を示す。例(i)(図6A)では、画像セグメントI(60,10)が画像セグメントI(50,10)の前に置かれているため、時間順序制約に違反している。例(ii)(図6B)では、割当てはいずれの制約にも違反していないが、I(20,10)を時間スロット2に割り当てることが、時間スロット3の割当てを不可能にしている。しかし、これらの不正な解は、これらを2つの制約に照らして検査することによって容易に検出され、各パーティションにおいて時間スロットに割り当てられる画像セグメントを並べ替えることによって補正することができる。例(i)(図6A)の場合、問題は、パーティション2に割り当てられた2個の画像セグメントを時間の昇順にソートすることによって補正することができる。例(ii)(図6B)の場合、まず、フレームクラスタ2からの画像セグメントI(10,10)(これは、パーティション1に割り当てられることが可能な唯一の残りの画像セグメントである)を用いて空き時間スロットを満たした後に、そのパーティション内の2個の画像セグメントをソートすることによって、最終的な解に達することができる。
【0067】
まとめると、整列操作のステップ2は、次のように記述することができる。
【0068】
1.整列点が識別された後、割当てのために残っているフレームクラスタおよび時間スロットの個数を決定し、それに応じて2部グラフを作る。
【0069】
2.最大2部マッチングアルゴリズムを適用して可能な解を求める。
【0070】
3.解を2つの制約について検査し、各パーティション内の画像セグメントをソートすることによって違反を補正する。
【0071】
4.未割当て時間スロットが存在する場合、単一割当て制約をゆるめ、複数の画像セグメントを有するフレームクラスタを検査し、まだ使用されていないセグメントで時間順序制約を満たす適当なセグメントを選択する。
【0072】
以上、好ましい実施例を参照して、本発明について詳細に説明したが、本発明の技術的範囲および技術思想の範囲内のさまざまな変形は、この技術分野の当業者には明らかである。したがって、本発明は、特許請求の範囲の技術的範囲によってのみ限定されるとみなされるべきである。
【0073】
【発明の効果】
以上詳細に説明したように、本発明によれば、オーディオと画像の内容の厳密な同期が要求されないときには、オーディオビジュアル統合型サマリ作成技術を用い、オーディオ内容と画像内容の同期を要求するビデオ番組の場合には、オーディオ中心型または画像中心型のいずれかの方法を用いてサマリが作成される。これにより、入力ビデオから抽出された画像、オーディオ、およびテキスト特徴をシームレスに統合し、オーディオ中心型、画像中心型、およびオーディオビジュアル統合型の高品質のサマリを作成することができる。
【図面の簡単な説明】
【図1】本発明のオーディオビジュアルサマリ作成システム・方法の一実施例の動作を示す流れ図である。
【図2】本発明のオーディオビジュアルサマリ作成システム・方法の代替実施例の動作を説明する流れ図である。
【図3】Aは、オーディオサマリとビジュアルサマリの間の整列プロセスを示す図である。Bは、その整列のためのフレームワークを示す図である。
【図4】時間順序制約を満たす代替解を示す図である。
【図5】時間順序制約を満たす代替解を示す図である。
【図6】本発明の方法から得られる不正な解を示す図である。

Claims (28)

  1. オーディオトラックおよびビデオトラックを有するビデオ番組の統合オーディオビジュアルサマリを作成する方法において、
    前記オーディオビジュアルサマリの時間長Lsumを選択するステップと、
    オーディオビジュアルサマリに含まれるべき画像セグメントのそれぞれについて、最小再生時間Lminを選択するステップと、
    前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って、前記オーディオビジュアルサマリの長さLsumに達するまで1個以上の所望されるオーディオセグメントを選択することによりオーディオサマリを作成するステップと、
    前記画像セグメントのそれぞれについて、前記機械学習法に従って、与えられた画像セグメントが前記オーディオビジュアルサマリに含められる確率を計算するステップと、
    選択された前記オーディオセグメントのそれぞれについて、対応する画像セグメントに関して、得られるオーディオセグメントと画像セグメントのペアが、内容的対応を要求するあらかじめ規定された整列要件を満たすかどうかを検査するステップと、
    得られるオーディオセグメントと画像セグメントのペアが、前記あらかじめ規定された整列要件を満たす場合、ペアのオーディオセグメントと画像セグメントをそれぞれの最初から前記最小再生時間Lminだけ整列させて第1の整列点を規定するステップと、
    前記検査および識別を繰り返して前記整列点をすべて識別するステップと、
    前記オーディオビジュアルサマリの全長を、
    前記オーディオビジュアルサマリの最初から開始し第1の整列点で終了するか、
    ある整列点における画像セグメントの最後から開始し次の整列点で終了するか、
    最後の整列点における画像セグメントの最後から開始し前記オーディオビジュアルサマリの最後で終了するか
    のいずれかにより決定される期間をそれぞれ有する複数のパーティションに分割するステップと、
    前記パーティションのそれぞれについて、以下のステップ、すなわち、
    該パーティションの期間に入る画像セグメントの集合を識別するステップと、
    前記パーティションに挿入されることが可能な画像セグメントの個数を決定するステップと、
    挿入されるべきと識別された画像セグメントの長さを決定するステップと、
    与えられた画像セグメントが前記オーディオビジュアルサマリに含められる前記確率の降順に、識別された画像セグメントを前記個数だけ選択するステップと、
    選択された画像セグメントのそれぞれについて、それぞれの最初から前記時間長だけのセクションを収集し、すべての収集されたセクションを時間の降順に前記パーティションに追加するステップと
    に従って、さらに画像セグメントを追加するステップとを有することを特徴とするオーディオビジュアルサマリ作成方法。
  2. 前記オーディオサマリ作成ステップは、
    前記オーディオトラックから非音声サウンドを含む非音声オーディオセグメントを検出するステップと、
    前記非音声オーディオセグメントを纏まった音響プロファイルを有する非音声ユニットに分節するステップと、
    各非音声ユニットのオーディオ特徴を前記確率を計算するために出力するステップと、
    を有することを特徴とする請求項記載の方法。
  3. 前記オーディオサマリ作成ステップは、さらに、
    前記オーディオトラックから前記非音声オーディオセグメントを取り除くステップと、
    前記非音声オーディオセグメントが取り除かれた前記オーディオトラックの残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを生成するステップと、
    を有することを特徴とする請求項記載の方法。
  4. 字幕が存在するとき、前記方法は、字幕と音声トランスクリプトを整列させるステップをさらに有することを特徴とする請求項記載の方法。
  5. 前記オーディオサマリ作成ステップは、
    前記字幕が存在する場合には前記整列に基づいて、また、前記字幕が存在しない場合には前記音声トランスクリプトに基づいて、有意味な音声内容を有する音声ユニットを生成するステップと、
    前記音声ユニットのそれぞれの特徴ベクトルを重要度ランクを計算するために生成するステップと、
    をさらに有することを特徴とする請求項記載の方法。
  6. 前記音声ユニットのそれぞれについて重要度ランクを前記確率を計算するために計算するステップをさらに有することを特徴とする請求項記載の方法。
  7. 前記音声ユニットを受け取るステップと、
    1以上の話者を識別し、前記オーディオセグメントと画像セグメントとを対応づけるステップと、
    をさらに有することを特徴とする請求項記載の方法。
  8. 前記オーディオビジュアルサマリに提供されるオーディオセグメントおよび画像セグメントの数を設定するために、前記最小再生時間Lminと前記オーディオビジュアルサマリの時間長Lsumとをそれぞれ選択することを特徴とする請求項記載の方法。
  9. minをLsumに比べて小さくすることで相対的にセグメント数が多く継続時間が短い幅指向のオーディオビジュアルサマリが提供され、LminをLsumに比べて大きくすることで相対的にセグメント数が少なく継続時間が長い深さ指向のオーディオビジュアルサマリが提供されることを特徴とする請求項記載の方法。
  10. 前記与えられたオーディオセグメントが前記オーディオビジュアルサマリに含められる確率は、ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法からなる群から選択される方法に従って計算されることを特徴とする請求項記載の方法。
  11. 前記与えられた画像セグメントが前記オーディオビジュアルサマリに含められる確率は、ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法からなる群から選択される方法に従って計算されることを特徴とする請求項記載の方法。
  12. 前記確率計算ステップは、前記画像トラックを画像操作ユニットとして使用する纏まりのある画像プロファイルおよび動きプロファイルを有する画像セグメントに分節化するステップを有することを特徴とする請求項記載の方法。
  13. 画像特徴を抽出するステップと、
    前記画像セグメントのそれぞれについて画像特徴ベクトルを前記確率を計算するために生成するステップと、
    をさらに有することを特徴とする請求項12記載の方法。
  14. 前記画像セグメントのそれぞれについて、1個以上の顔を前記確率を計算するために識別するステップをさらに有することを特徴とする請求項13記載の方法。
  15. オーディオトラックおよびビデオトラックを有するビデオ番組の統合オーディオビジュアルサマリを作成する方法において、
    前記オーディオビジュアルサマリの長さLsumを選択するステップと、
    オーディオビジュアルサマリに含まれるべき複数の画像セグメントのそれぞれについて、最小再生時間Lminを選択するステップと、
    前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記オーディオトラックから1個以上の所望されるオーディオセグメントを、前記オーディオセグメントのランク付けの降順に、前記オーディオビジュアルサマリの長さLsumに達するまで、選択することによって、オーディオサマリを作成するステップと、
    それぞれのフレームクラスタが少なくとも1つの前記画像セグメントを含み視覚的に類似しており、前記ビデオ番組の前記画像セグメントを視覚的類似性および動的特性に基づいて複数のフレームクラスタへとグループ分けするステップと、
    選択された前記オーディオセグメントのそれぞれについて、対応する画像セグメントに関して、得られるオーディオセグメントと画像セグメントのペアが、内容的対応を要求するあらかじめ規定された整列要件を満たすかどうかを検査するステップと、
    得られるオーディオセグメントと画像セグメントのペアが、前記あらかじめ規定された整列要件を満たす場合、ペアのオーディオセグメントと画像セグメントをそれぞれの最初から前記最小再生時間Lminだけ整列させて第1の整列点を規定するステップと、
    前記検査ステップおよび前記規定ステップを繰り返して前記整列点をすべて識別するステップと、
    前記オーディオビジュアルサマリの全長を、
    前記オーディオビジュアルサマリの最初から開始し第1の整列点で終了するか、
    ある整列点における画像セグメントの最後から開始し次の整列点で終了するか、
    最後の整列点における画像セグメントの最後から開始し前記オーディオビジュアルサマリの最後で終了するか
    のいずれかにより決定される期間をそれぞれ有する複数のパーティションに分割するステップと、
    各時間スロットが前記最小再生時間Lminに等しい長さを有するように、前記パーティションのそれぞれを複数の時間スロットに分割するステップと、
    前記フレームクラスタと前記時間スロットの間で、以下のこと、すなわち、
    各フレームクラスタをただ1つの時間スロットに割り当てること、および、
    オーディオビジュアルサマリ内のすべての画像セグメントの時間順序を維持すること
    に基づいて、前記パーティションのそれぞれの前記時間スロットに前記フレームクラスタを割り当てるステップと、
    を有することを特徴とするオーディオビジュアルサマリ作成方法。
  16. 前記フレームクラスタと前記時間スロットとの間の割り当ては、最大2部マッチング法によって計算されることを特徴とする請求項15記載の方法。
  17. フレームクラスタより多くの時間スロットがある場合、複数の画像セグメントを含むフレームクラスタを識別し、前記オーディオビジュアルサマリ内の前記画像セグメントの時間順序を維持しながら、すべての前記時間スロットが満たされるまで、前記識別されたフレームクラスタからの画像セグメントを時間スロットに割り当てることを特徴とする請求項16記載の方法。
  18. 前記時間順序が維持されていることを確認するために前記オーディオビジュアルサマリを検査するステップと、
    前記時間順序が維持されていない場合、前記時間順序が維持されるように、各パーティションに追加された前記画像セグメントを並べ替えるステップとをさらに有することを特徴とする請求項17記載の方法。
  19. 前記オーディオサマリ作成ステップは、
    前記オーディオトラックから非音声サウンドを含む非音声オーディオセグメントを検出するステップと、
    前記非音声オーディオセグメントを纏まった音響プロファイルを有する非音声ユニットに分節するステップと、
    各非音声ユニットのオーディオ特徴を前記ランク付け計算のために出力するステップと、
    を有することを特徴とする請求項15記載の方法。
  20. 前記オーディオサマリ作成ステップは、さらに、
    前記オーディオトラックから前記非音声オーディオセグメントを取り除くステップと、
    前記非音声オーディオセグメントが取り除かれた前記オーディオトラックの残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを生成するステップと、
    を有することを特徴とする請求項19記載の方法。
  21. 字幕が存在するとき、前記方法は、字幕と音声トランスクリプトを整列させるステップをさらに有することを特徴とする請求項20記載の方法。
  22. 前記字幕が存在する場合には前記整列に基づいて、また、前記字幕が存在しない場合には前記音声トランスクリプトに基づいて、有意味な音声内容を有する音声ユニットを生成するステップと、
    前記音声ユニットのそれぞれの特徴ベクトルを重要度ランクを計算するために生成するステップと、
    をさらに有することを特徴とする請求項21記載の方法。
  23. 前記音声ユニットのそれぞれについて、重要度ランクを前記ランク付け計算のために計算するステップをさらに有することを特徴とする請求項22記載の方法。
  24. 前記音声ユニットを受け取るステップと、
    1以上の話者を識別し、前記オーディオセグメントと画像セグメントとを対応づけるステップと、
    をさらに有することを特徴とする請求項23記載の方法。
  25. 前記オーディオビジュアルサマリに提供されるオーディオセグメントおよび画像セグメントの数を設定するために、前記最小再生時間Lminと前記オーディオビジュアルサマリの時間長Lsumとをそれぞれ選択することを特徴とする請求項15記載の方法。
  26. minをLsumに比べて小さくすることで相対的にセグメント数が多く継続時間が短い幅指向のオーディオビジュアルサマリが提供され、LminをLsumに比べて大きくすることで相対的にセグメント数が少なく継続時間が長い深さ指向のオーディオビジュアルサマリが提供されることを特徴とする請求項15記載の方法。
  27. オーディオビジュアルコンテンツからなるビデオ番組のビデオサマリを作成する方法において、
    前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオサマリに含められるのに適しているかどうかを決定する順位を与える所定の基準に従って、前記ビデオ番組内の前記オーディオトラックおよび/または前記画像トラックから1個以上のオーディオセグメントおよび/または1個以上の画像セグメントをそれぞれ識別するステップと、
    前記順位に従って、前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントをそれぞれ時間軸上に配置して前記ビデオサマリを生成するステップと、
    を有し、
    前記識別ステップおよび作成ステップは、
    前記オーディオビジュアルサマリの時間長Lsumを選択するステップと、
    オーディオビジュアルサマリに含まれるべき画像セグメントのそれぞれについて、最小再生時間Lminを選択するステップと、
    前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って、前記オーディオビジュアルサマリの長さLsumに達するまで1個以上の所望されるオーディオセグメントを選択することによりオーディオサマリを作成するステップと、
    前記画像セグメントのそれぞれについて、前記機械学習法に従って、与えられた画像セグメントが前記オーディオビジュアルサマリに含められる確率を計算するステップと、
    選択された前記オーディオセグメントのそれぞれについて、対応する画像セグメントに関して、得られるオーディオセグメントと画像セグメントのペアが、内容的対応を要求するあらかじめ規定された整列要件を満たすかどうかを検査するステップと、
    得られるオーディオセグメントと画像セグメントのペアが、前記あらかじめ規定された整列要件を満たす場合、ペアのオーディオセグメントと画像セグメントをそれぞれの最初から前記最小再生時間Lminだけ整列させて第1の整列点を規定するステップと、
    前記検査および識別を繰り返して前記整列点をすべて識別するステップと、
    前記オーディオビジュアルサマリの全長を、
    前記オーディオビジュアルサマリの最初から開始し第1の整列点で終了するか、
    ある整列点における画像セグメントの最後から開始し次の整列点で終了するか、
    最後の整列点における画像セグメントの最後から開始し前記オーディオビジュアルサマリの最後で終了するか
    のいずれかにより決定される期間をそれぞれ有する複数のパーティションに分割するステップと、
    前記パーティションのそれぞれについて、以下のステップ、すなわち、
    該パーティションの期間に入る画像セグメントの集合を識別するステップと、
    前記パーティションに挿入されることが可能な画像セグメントの個数を決定するステップと、
    挿入されるべきと識別された画像セグメントの長さを決定するステップと、
    与えられた画像セグメントが前記オーディオビジュアルサマリに含められる前記確率の降順に、識別された画像セグメントを前記個数だけ選択するステップと、
    選択された画像セグメントのそれぞれについて、それぞれの最初から前記時間長だけのセクションを収集し、すべての収集されたセクションを時間の降順に前記パーティションに追加するステップと
    に従って、さらに画像セグメントを追加するステップと、
    を有することを特徴とするビデオサマリ作成方法
  28. オーディオビジュアルコンテンツからなるビデオ番組のビデオサマリを作成する方法において、
    前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特 性、画像特性および/またはテキスト特性に基づき、前記ビデオサマリに含められるのに適しているかどうかを決定する順位を与える所定の基準に従って、前記ビデオ番組内の前記オーディオトラックおよび/または前記画像トラックから1個以上のオーディオセグメントおよび/または1個以上の画像セグメントをそれぞれ識別するステップと、
    前記順位に従って、前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントをそれぞれ時間軸上に配置して前記ビデオサマリを生成するステップと、
    を有し、
    前記識別ステップおよび作成ステップは、
    前記オーディオビジュアルサマリの長さLsumを選択するステップと、
    オーディオビジュアルサマリに含まれるべき複数の画像セグメントのそれぞれについて、最小再生時間Lminを選択するステップと、
    前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記オーディオトラックから1個以上の所望されるオーディオセグメントを、前記オーディオセグメントのランク付けの降順に、前記オーディオビジュアルサマリの長さLsumに達するまで、選択することによって、オーディオサマリを作成するステップと、
    それぞれのフレームクラスタが少なくとも1つの前記画像セグメントを含み視覚的に類似しており、前記ビデオ番組の前記画像セグメントを視覚的類似性および動的特性に基づいて複数のフレームクラスタへとグループ分けするステップと、
    選択された前記オーディオセグメントのそれぞれについて、対応する画像セグメントに関して、得られるオーディオセグメントと画像セグメントのペアが、内容的対応を要求するあらかじめ規定された整列要件を満たすかどうかを検査するステップと、
    得られるオーディオセグメントと画像セグメントのペアが、前記あらかじめ規定された整列要件を満たす場合、ペアのオーディオセグメントと画像セグメントをそれぞれの最初から前記最小再生時間Lminだけ整列させて第1の整列点を規定するステップと、
    前記検査ステップおよび前記規定ステップを繰り返して前記整列点をすべて識別するステップと、
    前記オーディオビジュアルサマリの全長を、
    前記オーディオビジュアルサマリの最初から開始し第1の整列点で終了するか、
    ある整列点における画像セグメントの最後から開始し次の整列点で終了するか、
    最後の整列点における画像セグメントの最後から開始し前記オーディオビジュアルサマリの最後で終了するか
    のいずれかにより決定される期間をそれぞれ有する複数のパーティションに分割するステップと、
    各時間スロットが前記最小再生時間Lminに等しい長さを有するように、前記パーティションのそれぞれを複数の時間スロットに分割するステップと、
    前記フレームクラスタと前記時間スロットの間で、以下のこと、すなわち、
    各フレームクラスタをただ1つの時間スロットに割り当てること、および、
    オーディオビジュアルサマリ内のすべての画像セグメントの時間順序を維持すること
    に基づいて、前記パーティションのそれぞれの前記時間スロットに前記フレームクラスタを割り当てるステップと、
    を有することを特徴とするビデオサマリ作成方法
JP2001376561A 2000-12-12 2001-12-11 オーディオビジュアルサマリ作成方法 Expired - Fee Related JP3705429B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US25453400P 2000-12-12 2000-12-12
US10/011,215 US6925455B2 (en) 2000-12-12 2001-10-25 Creating audio-centric, image-centric, and integrated audio-visual summaries
US10/011215 2001-10-25
US60/254534 2001-10-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005107342A Division JP4340907B2 (ja) 2000-12-12 2005-04-04 オーディオビジュアルサマリ作成方法および装置

Publications (2)

Publication Number Publication Date
JP2002251197A JP2002251197A (ja) 2002-09-06
JP3705429B2 true JP3705429B2 (ja) 2005-10-12

Family

ID=26682129

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001376561A Expired - Fee Related JP3705429B2 (ja) 2000-12-12 2001-12-11 オーディオビジュアルサマリ作成方法
JP2005107342A Expired - Fee Related JP4340907B2 (ja) 2000-12-12 2005-04-04 オーディオビジュアルサマリ作成方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2005107342A Expired - Fee Related JP4340907B2 (ja) 2000-12-12 2005-04-04 オーディオビジュアルサマリ作成方法および装置

Country Status (2)

Country Link
US (1) US6925455B2 (ja)
JP (2) JP3705429B2 (ja)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US8020183B2 (en) 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US20030038796A1 (en) * 2001-02-15 2003-02-27 Van Beek Petrus J.L. Segmentation metadata for audio-visual content
US6520032B2 (en) * 2001-03-27 2003-02-18 Trw Vehicle Safety Systems Inc. Seat belt tension sensing apparatus
US20030163815A1 (en) * 2001-04-06 2003-08-28 Lee Begeja Method and system for personalized multimedia delivery service
US20030088687A1 (en) * 2001-12-28 2003-05-08 Lee Begeja Method and apparatus for automatically converting source video into electronic mail messages
US8060906B2 (en) * 2001-04-06 2011-11-15 At&T Intellectual Property Ii, L.P. Method and apparatus for interactively retrieving content related to previous query results
US7904814B2 (en) 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US8479238B2 (en) 2001-05-14 2013-07-02 At&T Intellectual Property Ii, L.P. Method for content-based non-linear control of multimedia playback
JP4426743B2 (ja) * 2001-09-13 2010-03-03 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
US7474698B2 (en) 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US8214741B2 (en) * 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7657907B2 (en) 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
WO2004090752A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
KR100708337B1 (ko) 2003-06-27 2007-04-17 주식회사 케이티 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법
US7372991B2 (en) * 2003-09-26 2008-05-13 Seiko Epson Corporation Method and apparatus for summarizing and indexing the contents of an audio-visual presentation
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
DE60319710T2 (de) * 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US20070061352A1 (en) * 2003-12-03 2007-03-15 Koninklijke Philips Electronic, N.V. System & method for integrative analysis of intrinsic and extrinsic audio-visual
EP1538536A1 (en) * 2003-12-05 2005-06-08 Sony International (Europe) GmbH Visualization and control techniques for multimedia digital content
US7594245B2 (en) 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
US8949899B2 (en) 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
JP2006197115A (ja) * 2005-01-12 2006-07-27 Fuji Photo Film Co Ltd 撮像装置及び画像出力装置
WO2007004110A2 (en) * 2005-06-30 2007-01-11 Koninklijke Philips Electronics N.V. System and method for the alignment of intrinsic and extrinsic audio-visual information
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
JP4972095B2 (ja) 2005-11-15 2012-07-11 イッサム リサーチ ディベロップメント カンパニー オブ ザ ヘブライ ユニバーシティー オブ エルサレム 映像概要を生成する方法およびシステム
US8364665B2 (en) * 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
EP1964037A4 (en) 2005-12-16 2012-04-25 Nextbio SYSTEM AND METHOD FOR MANAGING SCIENTIFIC INFORMATION KNOWLEDGE
US20070157228A1 (en) * 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
US8032840B2 (en) * 2006-01-10 2011-10-04 Nokia Corporation Apparatus, method and computer program product for generating a thumbnail representation of a video sequence
US8689253B2 (en) 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
WO2007099496A1 (en) * 2006-03-03 2007-09-07 Koninklijke Philips Electronics N.V. Method and device for automatic generation of summary of a plurality of images
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
JP2009543413A (ja) * 2006-07-04 2009-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ置換の方法
WO2008007274A2 (en) * 2006-07-04 2008-01-17 Koninklijke Philips Electronics N.V. Method of content substitution
US20080085055A1 (en) * 2006-10-06 2008-04-10 Cerosaletti Cathleen D Differential cluster ranking for image record access
CN101529500B (zh) * 2006-10-23 2012-05-23 日本电气株式会社 内容概括系统、内容概括的方法
US8677409B2 (en) * 2007-01-05 2014-03-18 At&T Intellectual Property I, L.P Methods, systems, and computer program products for categorizing/rating content uploaded to a network for broadcasting
JP5355422B2 (ja) 2007-02-01 2013-11-27 イッサム・リサーチ・デヴェロップメント・カンパニー・オヴ・ザ・ヘブルー・ユニヴァーシティ・オヴ・イェルサレム ビデオの索引付けとビデオシノプシスのための、方法およびシステム
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US9870796B2 (en) * 2007-05-25 2018-01-16 Tigerfish Editing video using a corresponding synchronized written transcript by selection from a text viewer
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
CN102638686B (zh) * 2007-06-04 2015-04-22 恩斯沃尔斯有限责任公司 处理动态图像的方法及设备
WO2009111581A1 (en) * 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
US8259082B2 (en) * 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US9141859B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US10002192B2 (en) * 2009-09-21 2018-06-19 Voicebase, Inc. Systems and methods for organizing and analyzing audio content derived from media files
US9142216B1 (en) * 2012-01-30 2015-09-22 Jan Jannink Systems and methods for organizing and analyzing audio content derived from media files
US8707381B2 (en) * 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US9191639B2 (en) 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions
CN102385861B (zh) * 2010-08-31 2013-07-31 国际商业机器公司 一种用于从语音内容生成文本内容提要的系统和方法
JP5259670B2 (ja) * 2010-09-27 2013-08-07 株式会社東芝 コンテンツ要約装置およびコンテンツ要約表示装置
US9185469B2 (en) * 2010-09-30 2015-11-10 Kodak Alaris Inc. Summarizing image collection using a social network
US9489732B1 (en) * 2010-12-21 2016-11-08 Hrl Laboratories, Llc Visual attention distractor insertion for improved EEG RSVP target stimuli detection
US8380711B2 (en) * 2011-03-10 2013-02-19 International Business Machines Corporation Hierarchical ranking of facial attributes
CN103186578A (zh) * 2011-12-29 2013-07-03 方正国际软件(北京)有限公司 漫画有声效果的处理系统和处理方法
US20130283143A1 (en) 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US9699485B2 (en) * 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking
US10346542B2 (en) 2012-08-31 2019-07-09 Verint Americas Inc. Human-to-human conversation analysis
US9459768B2 (en) 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US9158435B2 (en) * 2013-03-15 2015-10-13 International Business Machines Corporation Synchronizing progress between related content from different mediums
US9804729B2 (en) 2013-03-15 2017-10-31 International Business Machines Corporation Presenting key differences between related content from different mediums
US9495365B2 (en) 2013-03-15 2016-11-15 International Business Machines Corporation Identifying key differences between related content from different mediums
US20140362290A1 (en) * 2013-06-06 2014-12-11 Hallmark Cards, Incorporated Facilitating generation and presentation of sound images
US8947596B2 (en) * 2013-06-27 2015-02-03 Intel Corporation Alignment of closed captions
US9368106B2 (en) * 2013-07-30 2016-06-14 Verint Systems Ltd. System and method of automated evaluation of transcription quality
CN104183239B (zh) * 2014-07-25 2017-04-19 南京邮电大学 基于加权贝叶斯混合模型的与文本无关的说话人识别方法
US20160098395A1 (en) * 2014-10-01 2016-04-07 Charter Communications Operating, Llc System and method for separate audio program translation
WO2016098458A1 (ja) * 2014-12-15 2016-06-23 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
EP3271747B1 (en) 2015-03-17 2022-05-25 Cornell University Depth field imaging apparatus, methods, and applications
US9940932B2 (en) * 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10083369B2 (en) 2016-07-01 2018-09-25 Ricoh Company, Ltd. Active view planning by deep learning
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
US10432789B2 (en) * 2017-02-09 2019-10-01 Verint Systems Ltd. Classification of transcripts by sentiment
JP6355800B1 (ja) * 2017-06-28 2018-07-11 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
CN108175426B (zh) * 2017-12-11 2020-06-02 东南大学 一种基于深度递归型条件受限玻尔兹曼机的测谎方法
KR102542788B1 (ko) 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
KR102468214B1 (ko) * 2018-02-19 2022-11-17 삼성전자주식회사 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
JP2019160071A (ja) * 2018-03-15 2019-09-19 Jcc株式会社 要約作成システム、及び要約作成方法
US20190294886A1 (en) * 2018-03-23 2019-09-26 Hcl Technologies Limited System and method for segregating multimedia frames associated with a character
US10679069B2 (en) 2018-03-27 2020-06-09 International Business Machines Corporation Automatic video summary generation
US10372991B1 (en) 2018-04-03 2019-08-06 Google Llc Systems and methods that leverage deep learning to selectively store audiovisual content
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
WO2020014223A1 (en) * 2018-07-09 2020-01-16 Tree Goat Media, LLC Systems and methods for transforming digital audio content into visual topic-based segments
US11100918B2 (en) 2018-08-27 2021-08-24 American Family Mutual Insurance Company, S.I. Event sensing system
EP3841754A4 (en) * 2018-09-13 2022-06-15 iChannel.io Ltd. SYSTEM AND COMPUTERIZED METHOD FOR SUBTITLE SYNCHRONIZATION OF AUDIOVISUAL CONTENT USING HUMAN VOICE DETECTION FOR SYNCHRONIZATION
US11822888B2 (en) 2018-10-05 2023-11-21 Verint Americas Inc. Identifying relational segments
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11375293B2 (en) * 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11039177B2 (en) 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US11102523B2 (en) * 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
GB2587627B (en) * 2019-10-01 2023-05-03 Sony Interactive Entertainment Inc Apparatus and method for generating a recording
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
US11032620B1 (en) * 2020-02-14 2021-06-08 Sling Media Pvt Ltd Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text
US11445273B1 (en) * 2021-05-11 2022-09-13 CLIPr Co. System and method for creating a video summary based on video relevancy
US11425181B1 (en) 2021-05-11 2022-08-23 CLIPr Co. System and method to ingest one or more video streams across a web platform
US11610402B2 (en) 2021-05-11 2023-03-21 CLIPr Co. System and method for crowdsourcing a video summary for creating an enhanced video summary
US11355155B1 (en) 2021-05-11 2022-06-07 CLIPr Co. System and method to summarize one or more videos based on user priorities
US11683558B2 (en) * 2021-06-29 2023-06-20 The Nielsen Company (Us), Llc Methods and apparatus to determine the speed-up of media programs using speech recognition
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
US11902690B2 (en) * 2021-10-27 2024-02-13 Microsoft Technology Licensing, Llc Machine learning driven teleprompter
US11785278B1 (en) * 2022-03-18 2023-10-10 Comcast Cable Communications, Llc Methods and systems for synchronization of closed captions with content output

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867495A (en) * 1996-11-18 1999-02-02 Mci Communications Corporations System, method and article of manufacture for communications utilizing calling, plans in a hybrid network
US6335927B1 (en) * 1996-11-18 2002-01-01 Mci Communications Corporation System and method for providing requested quality of service in a hybrid network
US5867494A (en) * 1996-11-18 1999-02-02 Mci Communication Corporation System, method and article of manufacture with integrated video conferencing billing in a communication system architecture
US6754181B1 (en) * 1996-11-18 2004-06-22 Mci Communications Corporation System and method for a directory service supporting a hybrid communication system architecture
US5999525A (en) * 1996-11-18 1999-12-07 Mci Communications Corporation Method for video telephony over a hybrid network
US6731625B1 (en) * 1997-02-10 2004-05-04 Mci Communications Corporation System, method and article of manufacture for a call back architecture in a hybrid network with support for internet telephony
JP3325809B2 (ja) * 1997-08-15 2002-09-17 日本電信電話株式会社 映像制作方法及び装置及びこの方法を記録した記録媒体

Also Published As

Publication number Publication date
JP4340907B2 (ja) 2009-10-07
US6925455B2 (en) 2005-08-02
JP2005309427A (ja) 2005-11-04
JP2002251197A (ja) 2002-09-06
US20020093591A1 (en) 2002-07-18

Similar Documents

Publication Publication Date Title
JP3705429B2 (ja) オーディオビジュアルサマリ作成方法
JP4981026B2 (ja) 複合ニュース・ストーリーの合成
US10134440B2 (en) Video summarization using audio and visual cues
US20050038814A1 (en) Method, apparatus, and program for cross-linking information sources using multiple modalities
WO2021046957A1 (zh) 一种视频分类方法、设备及系统
US20110122137A1 (en) Video summarization method based on mining story structure and semantic relations among concept entities thereof
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
CN110619284B (zh) 一种视频场景划分方法、装置、设备及介质
US8433566B2 (en) Method and system for annotating video material
CN107066488A (zh) 基于影视内容语义分析的影视桥段自动分割方法
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
Toklu et al. Videoabstract: a hybrid approach to generate semantically meaningful video summaries
US20240037941A1 (en) Search results within segmented communication session content
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
JP4270118B2 (ja) 映像シーンに対する意味ラベル付与方法及び装置及びプログラム
JP3622711B2 (ja) 映像コンテンツ視聴者情報提供システム及び方法と、視聴者情報提供装置、プログラム及びプログラムの記録媒体
Bechet et al. Detecting person presence in tv shows with linguistic and structural features
Özer et al. Deep learning based, a new model for video captioning
CN114938462B (zh) 授课视频的智能剪辑方法、系统、电子设备及存储介质
Jain et al. Audio based movies characterization using neural network
Jain et al. A Hybrid Approach for Video Indexing Using Computer Vision and Speech Recognition
Ide et al. Assembling personal speech collections by monologue scene detection from a news video archive
Dong et al. Educational documentary video segmentation and access through combination of visual, audio and text understanding
CN116453022A (zh) 一种基于多模态融合和Transformer网络的视频情感内容分析方法
Kothawade et al. A Survey on Automatic Video Lecture Indexing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050720

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080805

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100805

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110805

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110805

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120805

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130805

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees