JP2010525497A - スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置 - Google Patents

スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置 Download PDF

Info

Publication number
JP2010525497A
JP2010525497A JP2010506550A JP2010506550A JP2010525497A JP 2010525497 A JP2010525497 A JP 2010525497A JP 2010506550 A JP2010506550 A JP 2010506550A JP 2010506550 A JP2010506550 A JP 2010506550A JP 2010525497 A JP2010525497 A JP 2010525497A
Authority
JP
Japan
Prior art keywords
video content
video
segment
user
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010506550A
Other languages
English (en)
Other versions
JP5528324B2 (ja
Inventor
エム. マッコーエン、ケビン
エイ. グロスマン、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arris Technology Inc
Original Assignee
General Instrument Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by General Instrument Corp filed Critical General Instrument Corp
Publication of JP2010525497A publication Critical patent/JP2010525497A/ja
Application granted granted Critical
Publication of JP5528324B2 publication Critical patent/JP5528324B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈を付ける方法及び装置が提供される。当該方法は、映像コンテンツを表示装置に表示することから始まる。スピーチセグメントをユーザから受信して、スピーチセグメントが、現在表示されている映像コンテンツの一部分に注釈を付けるようにする。スピーチセグメントをテキストセグメントに変換し、そしてテキストセグメントを表示された映像コンテンツの一部分に関連付ける。テキストセグメントを、選択的に検索可能な方法で格納して、テキストセグメントを表示された映像コンテンツの一部分に関連付ける。

Description

本発明は概して、映像コンテンツに注釈を付ける方法及び装置に関し、特に、スピーチからテキストに変換されるメタデータにより映像コンテンツに注釈を付ける方法及び装置に関する。
消費者は益々頻繁に、家族の出来事、旅行体験などを、デジタルビデオ記録技術を使用して記録するようになっている。今日の最先端ホームビデオカメラ技術によって、膨大な量のこのような「自家製(home−grown)」ビデオデータ及び他のビデオデータを便利に記録し、そして格納することができる。例えば、次世代のデジタルビデオレコーダ(DVR)は、テラバイト単位で測定される記憶容量を実現する。より大きい記憶容量を確保することができるようになると、より豊富なコンテンツをユーザが格納することができることになる。フィルムのような古いアナログビデオフォーマットを、より新しいデジタルフォーマットに変換して、デジタルビデオ素材の量をより一層増やすサービスも普通に行なわれている。市販の映像編集製品によって、ホームムービーの品質を大幅に高め、かつホームムービーの表示を大幅に改善する映像生成が可能にもなる。
残念なことに、家族向けムービー及び他のムービーを記録し、そして編集する作業が容易になっているのと同じように、これらのムービーをアーカイブし、そして取り出す作業が極めて簡単になっている訳ではない。大量の写真とは異なり、収集した家族向けムービーを容易にブラウジングして鑑賞するということができない。コンテンツの特定セグメントを探し出す作業は、特定のアイテムを識別する作業に依存し、これは、アイテムを分類する必要があることを意味する。商用ムービー及びソングの場合、今日では、詳細メタデータを付与する多数のサービスを利用することができる(例えば、ムービー用のインターネットムービーデータベースIMDb,音楽用のCDDB)。しかしながら、膨大な量のコンテンツを管理するための実際の使用に供するために、このメタデータは、関連するコンテンツに関連付けて保存し、そしてユーザに、首尾一貫して分かり易い一つのアイテムとして提示する必要がある。
近年、MPEG−7及びTV−AnyTimeのような多数の規格が開発されており、これらの規格によって、マルチメディアコンテンツの特徴を記述することができるので、ユーザが当該コンテンツを、今日のテキスト型サーチエンジンと同程度に効率的、かつ効果的に検索し、ブラウジングし、そして検索することができる。これらの規格では通常、一連のオーディオビジュアルメタデータ要素が使用される。このような所謂マルチメディアコンテンツ管理システムは既に、商用目的でコンテンツクリエータ/オーナー及びサービスプロバイダ/ブロードキャスターによって広く使用されている。例えば、DVDムービーの場合、メタデータは多くの場合、コンテンツ自体の一部として供給されるので、ユーザが映像の特定部分に、「チャプター選択(chapter selection)」インターフェースを介してアクセスすることができる。記録されたプログラムの特定セグメントへのアクセスには、タイトル、カテゴリー、スタート位置、及び各セグメントの期間を記述したプログラムに関するセグメント情報が必要であり、この情報は、「映像インデックス化」と呼ばれるプロセスにより生成される。特定セグメントに、プログラムのセグメント情報を用いることなくアクセスするために、視聴者はプログラムを始めから、例えば高速順送りボタンを使用することにより線形サーチする必要があり、この作業は、面倒で非常に長い時間を要するプロセスである。
別の商用目的では、ブロードキャスターのようなサードパーティサービスプロバイダは、メタデータを関連するコンテンツと一緒に付与することができる。例えば、このような一つのメタデータソースが電子番組ガイド(EPG)であり、このガイドは、幾つかのケーブル及び衛星TVプロバイダを介して利用することができる。EPGメタデータはタイトル、放送時刻、及び放送に関する簡単な説明を含む。
商用ビデオとは異なり、ホームムービーは通常、ムービーの目録を作成し、検索し、読み出すことを可能とする、ムービーコンテンツに関するメタデータをほとんど含むことがない。また、EPGにおいて利用することができるような明確に定義されるメタデータを使用することができる商用目的とは異なり、消費者は多くの場合、数の限られた記述子の使用が適さない特有の方法で、ムービーにインデックスを付け、そしてムービーを取り出したいと考える。仮に、消費者がメタデータを自分で書き込むとしても、プロセスは不便であり、かつ非常に長い時間を要する。
本発明によれば、スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈を付ける方法及び装置が提供される。当該方法は、映像コンテンツを表示装置に表示することから始まる。スピーチセグメントをユーザから受信して、スピーチセグメントが、現在表示されている映像コンテンツの一部分に注釈を付けるようにする。スピーチセグメントはテキストセグメントに変換され、テキストセグメントは、表示された映像コンテンツの一部分に関連付けられる。テキストセグメントは、選択的に検索可能な方法で格納され、テキストセグメントが表示された映像コンテンツの一部分に関連付けられるようにする。
本発明の一つの態様によれば、スピーチセグメントを受信する前に操作状態を選択するユーザから信号を受信することができる。
本発明の別の態様によれば、操作状態は、注釈状態、ナレーション状態、コメント状態、分析状態、及びレビュー/編集状態から成るグループから選択することができる。
本発明の別の態様によれば、映像コンテンツはセットトップボックスにより表示することができる。
本発明の別の態様によれば、映像コンテンツはDVRにより表示することができる。
本発明の別の態様によれば、セットトップボックスは映像コンテンツをビデオカメラから受信することができる。
本発明の別の態様によれば、DVRは映像コンテンツをビデオカメラから受信することができる。
本発明の別の態様によれば、スピーチリクエストを受信する必要のあるモードを定義する複数の異なるユーザ選択可能な操作状態をユーザに提示することができる。
本発明の別の態様によれば、ユーザ選択可能な操作状態はGUIとして表示装置上に提示することができる。
本発明の別の態様によれば、GUIを、表示されている映像コンテンツに重ね合わせることができる。
映像情報を、デジタルビデオカメラからデジタルビデオレコーダ(DVR)のような映像記憶装置に転送する構成を示す図である。 一連のメニュー選択を表わすグラフィカルユーザインターフェース(GUI)が映像上に重ねられている表示装置上のスクリーンショットを示す図である。 DVRサブシステムを備える例示的なセットトップボックスを示す図である。 図3に示すメタデータ生成モジュールが用いることができるアーキテクチャの一例を示す図である。 幾つかの例において、メタデータを挿入することができる例示的なMPEGデジタルビデオトランスポートストリームまたはシーケンスを示す図である。 ユーザが選択可能なメタデータ生成モジュールの種々の動作状態の一つの特定の例を示す例示的な状態図である。
本明細書において記述されるのは、大量に収集したホームムービーをアーカイブし、かつ注釈を付与し、映像をブラウジングしまとめることを、簡単かつ楽しむことさえできる作業に変える方法及び装置である。以下に更に詳細に説明するように、ビデオカメラなどからの映像情報は、音声メタデータ生成モジュール(voice−based metadata generation module)を含む映像記憶装置に転送される。記憶装置に収めた映像が表示されているときに、エンドユーザはマイクロホンまたは他の音声入力デバイスを使用して映像に注釈を加える。スピーチに対してスピーチ−テキスト変換を行なって、ローカルに格納された映像の目録を作成し、検索し、読み出すために使用可能なメタデータソースを供給する。あるメタデータは、詳細な解説、及びコンテンツに関する詳細を含む。
一つの例示的な状況においては、ユーザは最近の家族の長期休暇の映像への検索可能なアクセスを実現したいと考える。ユーザは、映像のセグメント群を、これらのセグメントの位置、及び映像セグメント群に現われる家族構成員によって、または他の個人によって識別したいと考える。例えば、第1映像セグメントがスキー斜面上で記録され、第2部分がスキー小屋内で記録された場合、第1セグメントが再生、または表示される(rendered)と同時に、ユーザは例えば、ティムとベスがスキーで滑っていることを指摘して、スキー斜面について言葉に出して説明することができる。同様に、第2映像セグメントを再生している場合、ユーザはスキー小屋について、所望であればどんな詳細にも述べることができ、小屋に居るこれらの個人を特定することができる。このようにして、ユーザは映像全体にナレーションを入れ続けることができる。
図1は、映像情報をデジタルビデオカメラ110から、デジタルビデオレコーダ(DVR)115のような映像記憶装置に転送する構成を示している。DVR115及びデジタルビデオカメラ110は、適切な規格(例えば、IEEE1394)に準拠するインターフェースを含み、そして当該規格に準拠するケーブル120を介して接続される。従って、レコーダ115及びビデオカメラ110は、互いを認識し、そして互いに通信することができる。コンピュータモニタまたはテレビのような表示装置125は、デジタルビデオレコーダ115に接続されて、レコーダ115に格納された映像コンテンツを表示する。
図1に更に示すのは、種々の音声入力デバイスであり、これらのデバイスは、デジタルビデオレコーダ115に接続され、これらのデバイスのうちの任意のデバイスをユーザが用いて映像に注釈を加えることができる。詳細には、描かれている音声入力デバイスは、マイクロホン130と、携帯電話機135と、そして内蔵マイクロホン付きリモートコントロールユニット135と、を含む。ビデオレコーダ115がデジタルビデオカメラ110、マイクロホン130、携帯電話機135、及びリモートコントロールユニット135と有線リンクを介して通信している様子が描かれているが、これらの要素は代わりに、ビデオレコーダ115と無線リンクを介して通信してもよいことに留意されたい。
デジタルビデオレコーダ115は、以下に更に詳細に説明される音声メタデータ生成モジュールを含み、この音声メタデータ生成モジュールはスピーチを、一つまたは複数の音声入力デバイスから受信する。メタデータ生成モジュールは、スピーチをテキストに変換するスピーチ認識要素を含む。結果として得られるテキストは、メタデータ生成モジュールにより使用され、映像用メタデータを生成する。
図2は、表示装置のスクリーンショットを示している。DVR115に格納された映像は、映像の上に重ねられたグラフィカルユーザインターフェース(GUI)145と一緒に表示される。GUI145は、一連のメニュー選択を含み、これらのメニュー選択の中から、ユーザは、リモートコントロールユニットのような適切なユーザ入力デバイスを使用して選択を行なうことができる。種々のメニュー選択について、メタデータ生成モジュールの動作状態に関連付けながら以下に更に詳細に説明する。
映像がビデオカメラから転送される映像記憶装置は、図1及び2に示されるようなデジタルビデオレコーダ115に制限されないことに留意されたい。更に広い意味では、映像記憶装置は、ビデオ信号を受信し、記録し、再生する機能を備える非常に多くの種類の異なるデバイス、またはこれらのデバイスの組み合わせとして実装することができる。例えば、映像記憶装置は、セットトップボックス、テレビジョン、パーソナルコンピュータ、PDAなどとすることができる。例示のために、メタデータ生成モジュールを内蔵する映像記憶装置を図3に、DVRサブシステムを備えるセットトップボックスとして表わすこととする。
図3を参照すると、セットトップボックス10は、モデムのようなデバイス、ストリーミングメディアプレーヤ、及び他のネットワーク接続サポートデバイス及び/又はソフトウェアをサポートする外部ネットワーク接続/通信インターフェース59を含み、これらのインターフェース59は、ローカルエリアネットワークまたはワイドエリアネットワーク(例えば、ブロードバンドネットワーク11)を介してプログラムプロバイダ、及び広告コンテンツのような他のコンテンツのプロバイダに接続される。通信インターフェース59は更に、図1に示すビデオカメラ110及び種々の入力デバイスを接続する適切な接続手段を含む。
セットトップボックス10は更に、帯域内チューナ43を含み、この帯域内チューナは、ユーザインターフェース55を介して視聴者により選択されたチャネル信号16にチューニングする。図1に関連して説明したように、ユーザインターフェース55は、消費者が受信したいと考えるチャネルまたはプログラムを消費者が選択することができるようにする任意のタイプの公知の、または将来のデバイスまたは技術とすることができ、当該デバイスまたは技術として、例えばパーソナルビデオレコーダに関連するリモートコントロール、マウス、マイクロホン、キーボード、またはタッチスクリーンディスプレイを挙げることができる。
チャネル信号16は、ビデオ及び/又はオーディオ成分を含む。復調器40及び42は帯域内チューナ43に応答する。例えば、64/256直交振幅変復調器とすることができる復調器40は、チャネル信号16のデジタルバージョンを受信するように応答する。復調器40は、ケーブルモデムのような外部ネットワーク接続手段59からのムービングピクチャエキスパートグループ(MPEG)トランスポートストリーム、高精細度テレビストリーム、またはメディアストリームのような一つまたは複数のデジタルソースからのデジタルデータパケットを、公知の方法及び手法を使用して識別する。例えば、NTSC復調器とすることができる復調器42は、チャネル信号16のアナログバージョンを受信し、そして信号及びマーカを公知の方法及び手法を使用して解読するように応答する。復調器40及び42は、映像情報20を出力するように動作する。
映像情報20は、所定のメディアフォーマットに従ったフォーマットで配列された生のビデオデータまたはオーディオデータを含む。映像情報20は、MPEG−2メディアフォーマットのようなMPEGメディアフォーマットに従って配列されることが好ましいが、他のメディアフォーマットに従って配列されてもよく、他のメディアフォーマットとして、これらには制限されないが、他のMPEGフォーマット、ハイパーテキストマークアップ言語(HTML)、仮想現実モデル化言語(VRML)、拡張マークアップ言語(XML)、II.261フォーマット,またはII.263フォーマットを挙げることができる。
記憶媒体64は、とりわけ、符号化ビデオ信号20を受信して格納するように応答する。記憶媒体64は、現在公知であり、または後で開発され、かつデータを記録することができる任意のローカルデバイスまたはリモートデバイスとすることができ、当該デバイスとして、これらには制限されないが、ハードディスクドライブ、ビデオカセットレコーダテープ、コンパクトディスク及びデジタルビデオディスクのような全てのタイプの光記憶媒体、磁気テープ、ホームルータ、またはサーバを挙げることができる。図1のビデオカメラ110から転送される映像は、接続/通信インターフェース59によって受信され、そして記憶媒体64に格納される。
デコーダ49は、記録された符号化ビデオ信号20を記憶媒体64から受信し、ユーザインターフェース55からの命令に応答して、記録された符号化ビデオ信号20を表示装置25で再生するように応答する。デコーダ49はまた、ビデオプログラミングをチューナ43から直接受信し、通過するように応答する。デコーダ49の内部構造は公知である。デコーダ49は、アナログ−デジタル変換器と、一つまたは複数の記憶媒体及び/又はバッファと、汎用または特定用途向けプロセッサまたは特定用途向け集積回路とを、少なくとも2つのトランスポートストリーム、例えばビデオストリーム及びオーディオストリームを逆多重化する、及び/または同期させるデマルチプレクサーとともに含むことができる。ビデオデコーダ及びオーディオデコーダ、及び/又はアナログデコーダ及びデジタルデコーダは分離することができ、この場合、分離されたデコーダの間の通信を行なうことにより、同期、エラー補正及び制御が可能になる。
メタデータ生成モジュール30によって、ユーザは、映像を再生しながら、発声された単語シーケンスから得られるメタデータを生成し、精査し、そして修正することができる。メタデータ生成モジュール30は、メタデータを任意の適切なフォーマットで表わすことができる。例えば、TV−Anytimeフォーラムからメタデータ仕様が発行されており、メタデータ仕様は、消費者がコンテンツを探し出し、ナビゲートし、そして管理することを可能とするデータ構造を定義する。「TV−Anytime」規格は、TV−Anytimeフォーラムで定義される新規の規格である。TV−Anytime規格では、メタデータはXMLで記述される。同様に、マルチメディアコンテンツへの効果的かつ効率的なアクセスのためのMPEG規格(ISO/IEC 15938:Information Technology(情報技術)−−マルチメディアコンテンツ記述インターフェース),すなわちMPEG−7は、メタデータ要素及びこれらの要素の構造及び関係を提示し、これらの要素、構造、及び関係を記述子の形式、及び記述形式で定義して、マルチメディアコンテンツの記述を生成する。MPEG−7は、種々のタイプのマルチメディア情報を記述するのに用いることが可能な標準的な一連の記述ツールを指定する。MPEG−7は、その目的が付加的な機能を他のMPEG規格に提供することにあるので、旧世代のMPEG規格を置き換えるものではない。旧世代のMPEG規格によってコンテンツを利用することができるようになるとともに、MPEG−7はユーザが必要とするコンテンツを探し出すことを可能とする。
フォーマットに関係なく、メタデータを同じデータストリーム内、または同じローカル記憶媒体上に、関連する映像と共に物理的に位置するようにすることができるが、メタデータ記述は、ネットワーク上のような他の任意の場所に位置するようにすることもできる。コンテンツ及び当該コンテンツのメタデータ記述が同じ位置にない場合、これらの2つをリンクさせる、例えばコンテンツ識別子のような機構を用いる。
図3に更に示されるのは、オーディオ信号を出力するスピーカを含む表示装置25であり、この表示装置は、チューナ43または記憶媒体64から受信するビデオプログラミングを表示する。表示装置25は、アナログ信号またはデジタル信号を受信するように応答し、これらの信号として、これらには制限されないが、Sビデオ信号、合成オーディオ−ビデオ信号、SPDIF信号、及びDVI信号を挙げることができる。
プロセッサ39及びソフトウェア22が機能的に説明される。プロセッサ39及びソフトウェア22は、復調器40及び42、記憶媒体64、デコーダ49、及びメタデータ生成モジュール30を含む、セットトップボックス10の種々の構成要素に応答する。プロセッサ39のようなプロセッサへの読み込みが行なわれると、ソフトウェア22は、符号化ビデオ信号20の符号化、記録、及び再生を制御するように動作する。しかしながら、セットトップボックスの形態は決して、コンピュータソフトウェアまたは信号処理方法のいずれの特定の形態にも制限されることがないことを理解されたい。例えば、一緒にパッケージングされる、またはセットトップボックス10の他の構成要素と一緒にパッケージングされる一つまたは複数のプロセッサは、プロセッサ39の機能を種々の方法で実行することができる。また、ソフトウェア22は、DVRシステム10によって実現する機能を電気的に制御する一つまたは複数の部品に格納され(例えば、記憶媒体64に、またはリードオンリーメモリまたはランダムアクセスメモリのような別の内部または外部記憶媒体に格納される)、かつファームウェアを含む任意の命令とすることができ、そしてソフトウェア22は、一つまたは複数のプロセッサを含むセットトップボックス10の一つまたは複数の構成要素により使用され、または実装されうることを理解されたい。
図4は、メタデータ生成モジュール30が用いることができるアーキテクチャの一つの例を示している。メタデータ生成モジュール30は、ユーザインターフェースコンポーネント210と、音声認識コンポーネント220と、注釈メタデータエンジン230と、そして再生制御ロジック240と、を含む。ユーザインターフェースコンポーネント210は、例えば図2に示すようなGUIスクリーンショットに加えて、注釈のユーザ制御を可能にするために必要な他の対話型操作機能を表示する。スピーチ認識コンポーネントとも表記される音声認識コンポーネント220は音声認識を行なう。以下の記述では、「スピーチ認識(speech recognition)」及び「音声認識(voice recognition)」という用語は、同じ意味に使用される。音声認識コンポーネント220は、スピーカ依存のスピーチ認識ユニットまたはスピーカ非依存のスピーチ認識ユニットのいずれかとすることができる。このような従来の音声認識コンポーネントはこの技術分野では公知であるので、当該コンポーネントについて詳細に説明することはしない。一般的に、スピーカ依存のスピーチ認識構造では、スピーカを識別し、そして識別されたスピーカから発声される単語または語句のみが認識される。スピーカ非依存のスピーチ認識構造では、特定の単語のみが、これらの単語を発声する人物に関係なく認識される。
注釈メタデータエンジン230はメタデータを、音声認識コンポーネントが供給するテキストに基づいて、前述のTV−Anytime規格及びMPEG−7規格のようないずれかの適切なフォーマットを使用して生成する。注釈メタデータエンジン230は更に、メタデータを、適切なデータベースレコードまたはファイルに挿入する、またはMPEGビットストリームに直接挿入する。再生制御ロジック240は、ビデオストリームの再生を、ユーザから受信するメタデータを付加して調整する。メタデータ生成モジュール30は、ソフトウェアアプリケーション、ファームウェアレイヤまたはハードウェアレイヤ、或いはこれらの要素のいずれかの組み合わせとして実装することができることに留意されたい。例えば、或る場合においては、メタデータ生成モジュールは、ASICを関連するファームウェアと一緒に使用するハードウェアとして実装することができる。
メタデータ生成モジュール30は、メタデータと映像との関連付けを、いずれかの数の異なる方法で設定することができる。例えば、前に述べたように、メタデータは、データベースレコードに格納することができる。別の構成として、別の例では、メタデータ生成モジュール30は、メタデータをデジタルビットストリームに挿入する。図5は、例示的なMPEGデジタルビデオトランスポートストリームまたはシーケンスのシーケンスヘッダを示している。勿論、MPEGストリームは、例示のためにのみ示している。ここに説明する手法はより一般的には、任意の適切な規格に準拠するデジタル符号化ビデオストリームに適用することができる。通常、このようなビデオシーケンスを含む連続フレームは便宜上、フレームグループ群またはピクチャグループ群(groups of pictures:GOP)に分割される。MPEG規格では、シーケンスレイヤまたはGOPレイヤが定義される。シーケンスレイヤは、シーケンスヘッダで始まり、そしてシーケンスエンドで終了する。シーケンスレイヤは一つよりも多くのGOPを含む。GOPレイヤはGOPヘッダで始まり、そして複数のピクチャまたはフレームを含む。第1フレームは通常、I−ピクチャと、当該I−ピクチャに続くP−ピクチャ及びB−ピクチャである。MPEGによって、GOPの使用、サイズ、及び構成に関する柔軟性が得られるが、12フレームGOPは通常、25フレーム/秒システムフレームレートに対応し、そして15フレームGOPは通常、30フレーム/秒システムに対応する。図示のように、注釈メタデータエンジンはメタデータ及び関連するタイムスタンプをユーザデータビットとして、ビデオストリームに関連するヘッダに挿入する。このようにして、メタデータは、セットトップボックスに搭載されるMPEGデコーダにより利用可能であるので、メタデータを抽出し、ビデオストリームに同期させ、かつ恐らくは、スクリーンに、見出しまたは副題のいずれかとして表示させることができる。
メタデータ生成モジュール30は、多くの異なる状態で動作することができるので、ユーザは映像に容易に、かつ簡便に注釈を加えることができる。図6は、メタデータ生成モジュール30の種々の動作状態の一つの特定の例を示す例示的な状態図であり、これらの動作状態の中から、ユーザは選択を行なうことができる。勿論、これらの状態は例示としてのみ提示されており、決して制限的な意味に捉えられるべきではない。種々の状態の各状態は、映像記憶装置に関連するリモートコントロールユニットのような適切なユーザ入力デバイスを使用して入力することができる。ユーザが選択を行なう種々の状態は、図1に示すような表示装置上に提示することができる。
ユーザは、映像をビデオカメラから映像記憶装置に転送しながら、または転送を既に行なった後に、注釈プロセスを開始することができる。ユーザはまず、メタデータ生成モジュール30を、注釈状態、ナレーション状態、コメント状態、分析状態、及びレビュー/編集状態を含む他の状態へのエントリポイントとして利用される作動可能な音声認識注釈状態になることにより起動、または作動可能な状態にする。
注釈状態では、ユーザは単に、表示装置に提示される所定の質問またはカテゴリーに回答する。例えば、ユーザに映像のタイトル、トピック、日付、及び場所を入力するよう求める。注釈状態をこのように使用することにより、例えば放送番組のEPGから探し出すことができる情報に種類が類似する、映像についての基礎情報を提供する。ナレーション状態では、ユーザは、映像に関する更に詳細な、かつ分かり易い解説を、当該映像が表示されているときに入れることができる。この状態では、ユーザは、映像の各シーンまたはセグメント、及びすべてのシーンまたはセグメント、または選択されたシーン、或いは選択されたセグメントに、所望であればどのような細かな注釈も付けることができる。ナレーション状態では、音声認識コンポーネントは通常、映像の再生中はずっとアクティブ状態のままになっているのでユーザは、当該映像がスクリーンに表示されるときに当該映像の任意の部分について述べることができる。ユーザは映像をいずれの時点においても、早送りし、巻き戻しし、そして停止することができる。
コメント状態はナレーション状態と、デフォルト状態の音声認識コンポーネントが通常、映像の再生中はずっと非アクティブ状態であることを除いて同様である。この状態は、ユーザが主として映像を見ているが、実況解説(running commentary)を加えることを期待しない場合に使用すると最も便利である。ユーザが解説を付加したいと考える状況では、彼または彼女は、音声認識コンポーネントをユーザインターフェースで、例えばプレストゥトークボタン(press−to−talk button)を押すことにより起動する必要がある。ここでも同じように、ユーザは、映像をいずれの時点においても、早送りし、巻き戻しし、そして停止することができる。
分析状態は、スペルチェッカーに類似する記述チェッカーとして利用される。通常、ナレーション状態が完了した後に手動で、または自動的に分析状態となる。この状態ではユーザに対して、不明瞭な単語または語句、解説のないシーンまたはセグメント、或いはユーザの会話から変換されているテキストに異常があると推測させるその他の事項のようなアイテムを強調する。ユーザが実際に、解説のいずれかを修正したいと考える場合、ユーザはレビュー/編集状態を開始してそのような修正を行なう。
いくつもの他の状態から、編集/レビュー状態となることができる。例えば、ナレーション状態中にコンテンツを改良するために編集/レビュー状態となることが可能である。コメント状態になっているときに、またはコメント状態の終わりに、編集/レビュー状態となって、解説を修正することもできる。編集/レビュー状態においては、映像の再生が停止され、新規の解説が追加される代替ラインと共に現在の解説がスクリーンに表示される。
映像にメタデータを使用して注釈を付ける便利な方法を上に提示してきたが、検索エンジンまたは他のアプリケーションを使用してメタデータを検索し、メタデータにアクセスし、そしてそれ以外に、メタデータを利用する方法は制限を受けないことに留意されたい。制限を受けるのではなく、メタデータに対するクエリーは、この技術分野の当業者が利用することができるどのような方法でも実行することができる。

Claims (16)

  1. 映像コンテンツに注釈を付ける方法であって、
    映像コンテンツを表示装置に表示すること、
    スピーチセグメントをユーザから受信して、前記スピーチセグメントが、現在表示されている前記映像コンテンツの一部分に注釈を付けるようにすること、
    前記スピーチセグメントをテキストセグメントに変換すること、
    前記テキストセグメントを前記映像コンテンツの前記一部分に関連付けること、
    前記テキストセグメントを選択的に検索可能な方法で格納して、前記テキストセグメントが、表示された前記映像コンテンツの一部分に関連付けられるようにすること
    を備える方法。
  2. 前記スピーチセグメントを受信する前に操作状態を選択する前記ユーザから信号を受信することを更に備える、請求項1記載の方法。
  3. 前記操作状態は、注釈状態、ナレーション状態、コメント状態、分析状態、及びレビュー/編集状態から成るグループから選択される、請求項2記載の方法。
  4. 前記映像コンテンツはセットトップボックスにより表示される、請求項1記載の方法。
  5. 前記映像コンテンツはDVRにより表示される、請求項1記載の方法。
  6. 前記セットトップボックスは前記映像コンテンツをビデオカメラから受信する、請求項4記載の方法。
  7. 前記DVRは前記映像コンテンツをビデオカメラから受信する、請求項5記載の方法。
  8. スピーチリクエストを受信する必要のあるモードを定義する複数の異なるユーザ選択可能な操作状態を前記ユーザに提示することを更に備える、請求項1記載の方法。
  9. 前記ユーザ選択可能な操作状態はGUIとして前記表示装置上に提示される、請求項2記載の方法。
  10. 前記GUIは、表示されている前記映像コンテンツに重ね合わされる、請求項8記載の方法。
  11. ビデオプログラムを表示する装置であって、
    コンピュータ読み取り可能な記憶媒体と、
    前記コンピュータ読み取り可能な記憶媒体に応答し、かつソフトウェアプログラムに応答するプロセッサと
    を備え、前記ソフトウェアプログラムは、該ソフトウェアプログラムが前記プロセッサに読み込まれる場合に、
    映像コンテンツを表示装置に表示すること、
    スピーチセグメントをユーザから受信して、前記スピーチセグメントが、現在表示されている前記映像コンテンツの一部分に注釈を付けるようにすること、
    前記スピーチセグメントをテキストセグメントに変換すること、
    前記テキストセグメントを前記映像コンテンツの一部分に関連付けること、
    選択的に検索可能な方法で、前記テキストセグメントを格納して、前記テキストセグメントが表示された前記映像コンテンツの一部分に関連付けること
    を行うように動作する、装置。
  12. プログラミングコンテンツを、ブロードバンド通信システムを介して受信する受信機/チューナと、
    前記受信機/チューナにより提供されるプログラミングコンテンツを復号化するデコーダと
    を更に備える、請求項11記載の装置。
  13. 前記プロセッサは更に、前記スピーチセグメントを受信する前に操作状態を選択するユーザから信号を受信するように構成される、請求項11記載の装置。
  14. 前記プロセッサは更に、前記映像コンテンツをビデオカメラから受信するように構成される、請求項11記載の装置。
  15. 前記プロセッサは更に、スピーチリクエストを受信する必要のあるモードを定義する複数の異なるユーザ選択可能な操作状態をユーザに提示するように構成される、請求項11記載の装置。
  16. 命令で符号化されたコンピュータ読み取り可能な媒体であって、命令をプロセッサが実行する場合に、前記命令によって一つの方法が実行され、該方法は、
    映像コンテンツを表示装置に表示すること、
    スピーチセグメントをユーザから受信して、前記スピーチセグメントが、現在表示されている前記映像コンテンツの一部分に注釈を付けるようにすること、
    前記スピーチセグメントをテキストセグメントに変換すること、
    前記テキストセグメントを前記映像コンテンツの一部分に関連付けること、
    選択的に検索可能な方法で、前記テキストセグメントを格納して、前記テキストセグメントを表示された前記映像コンテンツの一部分に関連付けること
    を含む、コンピュータ読み取り可能な媒体。
JP2010506550A 2007-05-11 2008-04-28 スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置 Active JP5528324B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/747,584 US8316302B2 (en) 2007-05-11 2007-05-11 Method and apparatus for annotating video content with metadata generated using speech recognition technology
US11/747,584 2007-05-11
PCT/US2008/061718 WO2008140922A1 (en) 2007-05-11 2008-04-28 Method and apparatus for annotating video content with metadata generated using speech recognition technology

Publications (2)

Publication Number Publication Date
JP2010525497A true JP2010525497A (ja) 2010-07-22
JP5528324B2 JP5528324B2 (ja) 2014-06-25

Family

ID=39970326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010506550A Active JP5528324B2 (ja) 2007-05-11 2008-04-28 スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置

Country Status (4)

Country Link
US (4) US8316302B2 (ja)
JP (1) JP5528324B2 (ja)
KR (1) KR101115701B1 (ja)
WO (1) WO2008140922A1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471333B2 (en) * 2006-11-03 2016-10-18 Conceptual Speech, Llc Contextual speech-recognition user-interface driven system and method
TWI423041B (zh) * 2007-07-09 2014-01-11 Cyberlink Corp 可提升多媒體互動機制之影音播放方法及其相關裝置
US8837901B2 (en) * 2008-04-06 2014-09-16 Taser International, Inc. Systems and methods for a recorder user interface
US10354689B2 (en) * 2008-04-06 2019-07-16 Taser International, Inc. Systems and methods for event recorder logging
US20090251311A1 (en) * 2008-04-06 2009-10-08 Smith Patrick W Systems And Methods For Cooperative Stimulus Control
US20090307227A1 (en) * 2008-06-06 2009-12-10 Disney Enterprises, Inc. Methods and apparatuses for combining and distributing user enhanced video/audio content
US8892553B2 (en) * 2008-06-18 2014-11-18 Microsoft Corporation Auto-generation of events with annotation and indexing
US10574932B2 (en) * 2008-07-28 2020-02-25 Fox Digital Enterprises, Inc. System and method of generating subtitling for media
US9141859B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US9386356B2 (en) 2008-11-26 2016-07-05 Free Stream Media Corp. Targeting with television audience data across multiple screens
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9026668B2 (en) 2012-05-26 2015-05-05 Free Stream Media Corp. Real-time and retargeted advertising on multiple screens of a user watching television
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US9170700B2 (en) * 2009-05-13 2015-10-27 David H. Kaiser Playing and editing linked and annotated audiovisual works
US8887190B2 (en) * 2009-05-28 2014-11-11 Harris Corporation Multimedia system generating audio trigger markers synchronized with video source data and related methods
US20100306232A1 (en) * 2009-05-28 2010-12-02 Harris Corporation Multimedia system providing database of shared text comment data indexed to video source data and related methods
US9152139B2 (en) * 2009-06-16 2015-10-06 Control4 Corporation Automation Control of Electronic Devices
GB2472650A (en) * 2009-08-14 2011-02-16 All In The Technology Ltd Metadata tagging of moving and still image content
US8935204B2 (en) * 2009-08-14 2015-01-13 Aframe Media Services Limited Metadata tagging of moving and still image content
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
US8781824B2 (en) * 2010-12-31 2014-07-15 Eldon Technology Limited Offline generation of subtitles
US9342516B2 (en) * 2011-05-18 2016-05-17 Microsoft Technology Licensing, Llc Media presentation playback annotation
US20120308195A1 (en) * 2011-05-31 2012-12-06 Michael Bannan Feedback system and method
US9264471B2 (en) 2011-06-22 2016-02-16 Google Technology Holdings LLC Method and apparatus for segmenting media content
US9348554B2 (en) * 2011-12-20 2016-05-24 Audible, Inc. Managing playback of supplemental information
US20140129221A1 (en) * 2012-03-23 2014-05-08 Dwango Co., Ltd. Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method
US20130283143A1 (en) 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
CN103517092B (zh) 2012-06-29 2018-01-30 腾讯科技(深圳)有限公司 一种视频展示的方法及装置
US20140123012A1 (en) * 2012-10-31 2014-05-01 Research In Motion Limited Video-annotation entry and display apparatus
US20140258472A1 (en) * 2013-03-06 2014-09-11 Cbs Interactive Inc. Video Annotation Navigation
CN104239354A (zh) * 2013-06-20 2014-12-24 珠海扬智电子科技有限公司 影音内容的评价分享与播放方法以及影音分享系统
KR20150087034A (ko) 2014-01-21 2015-07-29 한국전자통신연구원 객체-콘텐츠 부가정보 상관관계를 이용한 객체 인식장치 및 그 방법
KR101640317B1 (ko) 2014-11-20 2016-07-19 소프트온넷(주) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
WO2016118537A1 (en) * 2015-01-19 2016-07-28 Srinivas Rao Method and system for creating seamless narrated videos using real time streaming media
KR101742779B1 (ko) 2015-05-12 2017-06-01 이석희 음성인식형 입체적 디지털영상 구현시스템
US10592750B1 (en) * 2015-12-21 2020-03-17 Amazon Technlogies, Inc. Video rule engine
EP3438852B1 (en) 2016-07-21 2023-03-15 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US11043221B2 (en) * 2017-04-24 2021-06-22 Iheartmedia Management Services, Inc. Transmission schedule analysis and display
US11263489B2 (en) * 2017-06-29 2022-03-01 Intel Corporation Techniques for dense video descriptions
US10390097B1 (en) 2018-05-30 2019-08-20 Rovi Guides, Inc. Systems and methods for creating an asynchronous social watching experience among users
US10938568B2 (en) 2018-06-05 2021-03-02 Eight Plus Ventures, LLC Image inventory production
US10606888B2 (en) 2018-06-05 2020-03-31 Eight Plus Ventures, LLC Image inventory production
US10289915B1 (en) * 2018-06-05 2019-05-14 Eight Plus Ventures, LLC Manufacture of image inventories
CN108960316B (zh) * 2018-06-27 2020-10-30 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
US10467391B1 (en) 2018-08-23 2019-11-05 Eight Plus Ventures, LLC Manufacture of secure printed image inventories
US10630738B1 (en) * 2018-09-28 2020-04-21 Ringcentral, Inc. Method and system for sharing annotated conferencing content among conference participants
US10565358B1 (en) 2019-09-16 2020-02-18 Eight Plus Ventures, LLC Image chain of title management
JP2023529346A (ja) * 2020-06-03 2023-07-10 ピージェー ファクトリー カンパニー リミテッド マルチデプスイメージを生成する方法
US11930189B2 (en) * 2021-09-30 2024-03-12 Samsung Electronics Co., Ltd. Parallel metadata generation based on a window of overlapped frames
CN114827716B (zh) * 2022-03-08 2023-08-11 深圳软牛科技有限公司 一种在wpf中创建视频播放器的方法、装置及相关组件

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278844A (ja) * 2001-01-19 2002-09-27 Xerox Corp 電子文書保護方法、同システムおよび機密内容オブジェクト
JP2004193979A (ja) * 2002-12-11 2004-07-08 Canon Inc 映像配信システム
JP2005182460A (ja) * 2003-12-19 2005-07-07 Canon Inc 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JP2006515138A (ja) * 2003-03-24 2006-05-18 キヤノン株式会社 移動電話システムにおけるマルチメディアデータ及び関連する注釈データの格納及び検索

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5517652A (en) * 1990-05-30 1996-05-14 Hitachi, Ltd. Multi-media server for treating multi-media information and communication system empolying the multi-media server
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US20030093790A1 (en) * 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
BR9906523A (pt) * 1998-06-11 2000-07-25 Koninkl Philips Electonics N V Aparelho e processo para gravar um sinal de informação de vìdeo digital em um portador de gravação, e, portador de gravação
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US7050110B1 (en) * 1999-10-29 2006-05-23 Intel Corporation Method and system for generating annotations video
GB2359918A (en) * 2000-03-01 2001-09-05 Sony Uk Ltd Audio and/or video generation apparatus having a metadata generator
US7222163B1 (en) * 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program
US7155517B1 (en) 2000-09-28 2006-12-26 Nokia Corporation System and method for communicating reference information via a wireless terminal
US20020065074A1 (en) * 2000-10-23 2002-05-30 Sorin Cohn Methods, systems, and devices for wireless delivery, storage, and playback of multimedia content on mobile devices
US7444660B2 (en) * 2000-11-16 2008-10-28 Meevee, Inc. System and method for generating metadata for video programming events
CA2386303C (en) * 2001-05-14 2005-07-05 At&T Corp. Method for content-based non-linear control of multimedia playback
US7206806B2 (en) 2001-05-30 2007-04-17 Pineau Richard A Method and system for remote utilizing a mobile device to share data objects
US20020184195A1 (en) * 2001-05-30 2002-12-05 Qian Richard J. Integrating content from media sources
US7970260B2 (en) * 2001-06-27 2011-06-28 Verizon Business Global Llc Digital media asset management system and method for supporting multiple users
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US20040237032A1 (en) * 2001-09-27 2004-11-25 David Miele Method and system for annotating audio/video data files
EP1313327A1 (en) * 2001-11-14 2003-05-21 Deutsche Thomson-Brandt Gmbh Digital video recorder and methods for digital recording
US7861169B2 (en) * 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US6585521B1 (en) * 2001-12-21 2003-07-01 Hewlett-Packard Development Company, L.P. Video indexing based on viewers' behavior and emotion feedback
EP1349080A1 (en) * 2002-03-26 2003-10-01 Deutsche Thomson-Brandt Gmbh Methods and apparatus for using metadata from different sources
US7987491B2 (en) * 2002-05-10 2011-07-26 Richard Reisman Method and apparatus for browsing using alternative linkbases
US6988245B2 (en) * 2002-06-18 2006-01-17 Koninklijke Philips Electronics N.V. System and method for providing videomarks for a video program
BR0306985A (pt) * 2002-07-23 2005-05-03 Samsung Electronics Co Ltd Estrurura de indexação de meta-dados divididos em fragmentos, estrutura de indexação de chave múltipla e mìdia passìvel de leitura por computador
KR20050057528A (ko) * 2002-09-23 2005-06-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 레코더 유닛 및 그것의 동작 방법
CN1706169A (zh) * 2002-10-18 2005-12-07 皇家飞利浦电子股份有限公司 用于即时电视中的元数据保护的方法、系统、装置、信号和计算机程序产品
KR101009629B1 (ko) * 2003-03-13 2011-01-21 한국전자통신연구원 디지털 방송 프로그램 서비스를 제공하기 위한 확장메타데이터의 데이터 구조와 이를 이용한 적응적 프로그램서비스 제공 시스템 및 그 방법
US8234395B2 (en) * 2003-07-28 2012-07-31 Sonos, Inc. System and method for synchronizing operations among a plurality of independently clocked digital data processing devices
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
TWI259719B (en) * 2004-01-14 2006-08-01 Mitsubishi Electric Corp Apparatus and method for reproducing summary
EP1973348A3 (en) * 2004-09-17 2009-10-21 Korea Electronics Technology Institute Method for deleting user metadata managed by a tv-anytime metadata server using a SOAP operation
EP1677536A1 (en) * 2004-12-30 2006-07-05 Korea Electronics Technology Institute Method for delivering non-anonymous user metadata using a soap operation in TV-Anytime metadata service
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US8065710B2 (en) * 2006-03-02 2011-11-22 At& T Intellectual Property I, L.P. Apparatuses and methods for interactive communication concerning multimedia content
US8645991B2 (en) * 2006-03-30 2014-02-04 Tout Industries, Inc. Method and apparatus for annotating media streams
US8024762B2 (en) * 2006-06-13 2011-09-20 Time Warner Cable Inc. Methods and apparatus for providing virtual content over a network
KR101443404B1 (ko) * 2006-09-15 2014-10-02 구글 인코포레이티드 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이
US7640272B2 (en) * 2006-12-07 2009-12-29 Microsoft Corporation Using automated content analysis for audio/video content consumption
US20080240490A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Source authentication and usage tracking of video
US20080276159A1 (en) * 2007-05-01 2008-11-06 International Business Machines Corporation Creating Annotated Recordings and Transcripts of Presentations Using a Mobile Device
US20110145068A1 (en) * 2007-09-17 2011-06-16 King Martin T Associating rendered advertisements with digital content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278844A (ja) * 2001-01-19 2002-09-27 Xerox Corp 電子文書保護方法、同システムおよび機密内容オブジェクト
JP2004193979A (ja) * 2002-12-11 2004-07-08 Canon Inc 映像配信システム
JP2006515138A (ja) * 2003-03-24 2006-05-18 キヤノン株式会社 移動電話システムにおけるマルチメディアデータ及び関連する注釈データの格納及び検索
JP2005182460A (ja) * 2003-12-19 2005-07-07 Canon Inc 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSND200700429018; 'ネトミシュラン 三ツ星 ネットサービスを探せ' ネットランナー 第9巻 第3号 , 20070301, pp.88-89, ソフトバンククリエイティブ(株) *
JPN6014013980; 'ネトミシュラン 三ツ星 ネットサービスを探せ' ネットランナー 第9巻 第3号 , 20070301, pp.88-89, ソフトバンククリエイティブ(株) *
JPN7013002965; 越後 富夫: '知っておきたいキーワード MPEG-7' [online] , 20070201, pp.1-3 *

Also Published As

Publication number Publication date
KR20090125292A (ko) 2009-12-04
JP5528324B2 (ja) 2014-06-25
US10482168B2 (en) 2019-11-19
US8793583B2 (en) 2014-07-29
US20170199856A1 (en) 2017-07-13
US20130041664A1 (en) 2013-02-14
US8316302B2 (en) 2012-11-20
US20080281592A1 (en) 2008-11-13
US20140331137A1 (en) 2014-11-06
KR101115701B1 (ko) 2012-03-06
WO2008140922A1 (en) 2008-11-20

Similar Documents

Publication Publication Date Title
JP5528324B2 (ja) スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置
US9521448B2 (en) Systems and methods for exporting digital content using an interactive television application
US7979432B2 (en) Apparatus, computer program product and system for processing information
JP2004516752A (ja) 映像番組のマルチメディア要約にアクセスするシステム及び方法
JP2002142175A (ja) インデックス情報の抽出とサーチが同時に可能な録画/再生装置
US6931201B2 (en) Video indexing using high quality sound
JP2007052626A (ja) メタデータ入力装置およびコンテンツ処理装置
JP4257103B2 (ja) ディジタルビデオレコーダ及びディジタル記録方法
KR100939718B1 (ko) 개인 비디오 녹화 시스템 및 녹화 프로그램 편집 방법
KR20050041797A (ko) 확장 검색 기능을 제공하는 메타 정보 및 서브 타이틀정보가 기록된 저장 매체 및 그 재생 장치
JP2004173120A (ja) 動画像蓄積装置、動画像配信システム
KR100492446B1 (ko) 지능형 pvr 시스템 및 그 운영방법
JP2006352458A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2006270793A (ja) ダイジェスト録画システム
US8000584B1 (en) Approach for storing digital content onto digital versatile discs (DVDs)
US20120059947A1 (en) Apparatus, systems and methods for storing music program content events received in a content stream
JP2010062870A (ja) 映像記録再生装置および映像記録再生方法
JP2010206624A (ja) 映像の保管管理システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120625

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120702

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120824

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140415

R150 Certificate of patent or registration of utility model

Ref document number: 5528324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250