JP2000516006A - Method and apparatus for navigating video content by displaying a plurality of key frames in parallel - Google Patents

Method and apparatus for navigating video content by displaying a plurality of key frames in parallel

Info

Publication number
JP2000516006A
JP2000516006A JP10529208A JP52920898A JP2000516006A JP 2000516006 A JP2000516006 A JP 2000516006A JP 10529208 A JP10529208 A JP 10529208A JP 52920898 A JP52920898 A JP 52920898A JP 2000516006 A JP2000516006 A JP 2000516006A
Authority
JP
Japan
Prior art keywords
keyframes
video
keyframe
displayed
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10529208A
Other languages
Japanese (ja)
Inventor
マルコ ポーロ セッカレリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Priority claimed from PCT/IB1998/000091 external-priority patent/WO1998034182A2/en
Publication of JP2000516006A publication Critical patent/JP2000516006A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/107Programmed access in sequence to addressed parts of tracks of operating record carriers of operating tapes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/50Tuning indicators; Automatic tuning control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/45Hierarchical combination of record carriers, e.g. HDD for fast access, optical discs for long term storage or tapes for backup
    • G11B2220/455Hierarchical combination of record carriers, e.g. HDD for fast access, optical discs for long term storage or tapes for backup said record carriers being in one device and being used as primary and secondary/backup media, e.g. HDD-DVD combo device, or as source and target media, e.g. PC and portable player
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)

Abstract

(57)【要約】 1列以上の複数のキーフレームを並列に表示することによりビデオ内容を案内するとともに、表示されたキーフレームの選択的アクセスにより前記ビデオ内容への実際のアクセスをこのようにアクセスしたキーフレームのマッピングを表しながら制御し得る方法である。この方法は、単一のユーザインターフェース編成内において、キーフレームをスクリーン上に時間的に整列した順序に配列する第1動作モードと、表示される連続キーフレーム間に多数の選択可能なグラニュラリティを有するキーフレームを配列する第2動作モードとの間で選択を行うことができる特徴を有する。 (57) [Summary] The video content is guided by displaying a plurality of key frames in one or more rows in parallel, and the actual access to the video content is selectively performed by selectively accessing the displayed key frame. This is a method that can be controlled while representing the mapping of the accessed key frame. The method has a first mode of operation in which key frames are arranged in a time-ordered order on a screen within a single user interface organization, and a number of selectable granularities between displayed consecutive key frames. The feature is that selection can be made between the second operation mode in which key frames are arranged.

Description

【発明の詳細な説明】 複数のキーフレームを並列に表示することによりビデオ内容を案内する方法及び 装置発明の背景 本発明は、1列以上の複数のキーフレームを並列に表示することによりビデオ 内容を案内するとともに、表示されたキーフレームの選択的アクセスにより前記 ビデオ内容への実際のアクセスをこのようにアクセスしたキーフレームのマッピ ングを表しながら制御し得る方法に関するものである。後の選択的再生のために 記録されるビデオプレゼンテーションの代表的部分をキーフレームとして使用す ることが提案されている。連続ビデオストリームとはビデオが“オン”のままで あることを意味し、このストリームにはアニメーション、一連の静止画、又は画 像のインタラクティブシーケンスを含めることができる。そのキャラクタは種々 のもの、例えば映画、ニュース、又はショッピングリストとすることができる。 この技術はS.W.Smolalr及びH.J.Zhangの論文”Content-Based Video Indexi ng and Retrieval”、IEEE Multimedia、Summer 1994、pp.62-72に開示されてい る。 キーフレームはユーザ宅においてビデオ材料の受信時にこの材料から導出アル ゴリズムにより取り出すことができ、或いは例えばビデオプロバイダにより、各 ビデオショットがキーフレームで開始するようにキーフレームにラベルを付ける ことができる。第3の方法は、これらのフレームを標準ビデオ速度に関連する均 一の時間インターバルで互いに連続させる。本発明は、キーフレーム使用してビ デオプレゼンテーションのダイナミックなオーバビューを有用なファシリティと ともにユーザに与え、ビデオ材料へのアクセス、次の表示の選択又は選択解除、 又は編集を一層容にする必要があるという認識に基づくものである。 ビデオ画像のディジタル及び圧縮符号化に対する現在のプロジェクトに対する 特定の問題は、大容量媒体へのその記憶は一般に即時アクセスを許容せず、特に 単位記憶サイズ当たりのフレーム数で表せるリニア記憶密度が不均一である点に ある。テープのような高容量主記憶媒体に、小容量であるが高いアクセス速度を 有する補助記憶媒体を付加することが提案されている。この場合には、高速順送 り及び高速逆送りのようなトリックモードの実行、並びに次の表示ためにビデオ 材料を要約形、変更形、又は再配列形に編集する処理がユーザインターフェース の点及び記憶技術の点の双方から見てかなりの難点を生ずる。発明の概要 従って、本発明の目的は、特に、ユーザインターフェース編成に一層高いフレ キシビリティを導入するとともに、ユーザに記憶編成並びにビデオ材料の一層自 然なフィーリングを与えることにある。この目的のために、本発明の特徴は、単 一のユーザインターフェース編成内において、キーフレームをスクリーン上に時 間的に整列した順序に配列する第1動作モードと、表示される連続キーフレーム 間に複数の不均一の選択可能なグラニュラリティを有するキーフレームを配列す る第2動作モードとの間で選択を行うことができることにある。キーフレームを 時間的に整列した順序で提示すると、例えばこれらのフレームが標準ビデオ速度 に関連する均一の時間インターバルで互いに連続する場合には、高速順送り及び 高速逆送りを簡単に実行することができる。更に、フレーム間における可変グラ ニュラリティを有する階層レベルの簡単容易な変化により簡単容易なアクセス及 び編集を行うことができる。キーフレーム又は少なくともその一部分を映画ショ ットの開始部から取り出す場合、又はオリジナルフィルムエディタにより発生さ れた他の関連するイベントから取り出す場合にも同じことがいえる。このように して、クラスタリング処理を自動的に実行することができる。 本発明方法においては、現在選択されているキーフレームを他のキーフレーム に対し多数倍のフォーマットで拡大することによりこのフレームをハイライト表 示するとともに、有害なビデオインターレス効果を検出し、もしそうであれば、 垂直デシメーションによりこの効果を低減させ、且つ又表示前に画像にアップサ ンプリングフィルタ処理を施す。比較的小さいキーフレームのビデオ歪みは許容 し得ることが経験上解っているが、特定のキーフレームを拡大する場合には、画 像改善のために追加の手段を講ずる必要がある。本発明者は、このアップグレー ディングは、標準状態下の画質に必ずしも達しないが、画質の快適で有益な向上 をもたらすことを確かめた。 本発明は上述した方法を実施するよう構成した装置にも関するものである。本 発明の他の特徴は従属請求項に記載されている。図面の簡単な説明 本発明のこれらの特徴及び他の特徴及び利点を図面を参照して好適実施例につ いて以下に詳細に説明する。図面において、 図1はTV−レコーダ組合せ装置のブロック図であり、 図2はビデオ記録の代表的構造を示し、 図3はスクローリングモザイクユーザインターフェースの設計例を示し、 図4はスクローリングリストユーザインターフェースの設計例を示し、 図5はもっと広範なグラフィカルユーザインターフェースの設計例を示し、 図6はサブタイトルの表示を示し、 図7はシステム動作の状態図を示す。好適実施例の詳細な説明 特に、通常のカスタマ及びプライベートな家庭の使用に関係するが、このよう な使用に関係するものに限定されるものではない種々の利点は次のとおりである 。 ・キーフレームは代表的なTV観察距離に位置するユーザがこれらを互いに識別 し得るように提示させなければならない。 ・同時に提示するキーフレームの数はユーザにディジタルビデオ材料のコンテン ツの有意部分のオーバビューを与えるのに十分とすべきである。 ・キーフレームは、例えばアスペクト比を保持することにより無歪みの形で表示 すべきである。 ・TVセットのリモートコントロール装置自体がユーザコントロール装置として 動作するようにするのが好ましい。 ・フィードバック情報は代表的観察距離から認知できなければならない。 ・“ドラッグ”及び“ドロップ”のようなコンピュータコンセプトは一般に不要 にする。・種々の機能は連続的ではなく時折使用されるだけとなるように実現し なければならない。 ・ユーザインターフェースはビデオプレゼンテーションの良く知られたリニアモ デルを表すべきである。特定の実施例の説明 図1は本発明によるTV−レコーダ組合せ装置を示す構成図である。要素20 はTVセットディスプレイ及び関連する即時制御兼電源部を示す。要素22はア ンテナ、又はケーブル配信のような他のタイプの信号分配エンティティを有する 接続部を示す。この要素には受信信号からディジタルビデオ情報又はディジタル 信号部分を取り出すエンティティも適宜含めることができる。要素34は図1の 種々のサブシステム間のビデオストリーム及び関連する情報の経路指定部を示す 。経路指定は制御ボックス28によってライン35を介して制御信号により制御 することができる。ライン35は単一の双方向相互接続ラインとして示されてい るが、実際には任意の数の単方向又は双方向ラインからなるものとすることがで きる。制御ボックス28はディスプレイ20からライン30を経て検出信号を受 信するとともに他のサブシステム38、40から検出信号を受信し、これらのサ ブシステムを制御する。ブロック38はマルチギガバイト領域の極めて高い記憶 容量を有するリニアテープレコーダである。ブロック40は高い記憶容量を有す る磁気ディスクレコーダであり、このレコーダはレコーダ38の記憶容量の一部 分を有するにすぎないが、このレコーダのアクセス速度はクロストラックジャン プアクセスによりレコーダ38よりはるかに速い。ブロック38とブロック40 が一緒にコンピュータメモリキャッシュシステムに類似の2レベル記憶編成を構 成し、ビデオプレゼンテーションのすべてのアイテムを少なくとも1度記憶する 。要素24はディスプレイ装置20とワイヤレスパス26を介して通信するとと もにサブシステム28及び他のサブシステム38及び40と間接的に通信するリ モートコントロール装置を示す。 図2はビデオプレゼンテーションの代表的な構成を示す。ビデオ内容を機能的 にするために、バー60はビデオ自体を、フレームの形で、又はMPEG符号の ような圧縮ビデオ内容のストリングとして含む。情報はバーに沿ってビデオ時間 の進行とともに記憶されるが、実際の記憶要件は再生時間に亘って均一にする必 要はない。点在するキーフレームが68のような黒垂直ストライプで示されてい る。各キーフレームは次のキーフレームまでのインターバル内の全ビデオを表す もの、又はこれを代表するものとして使用される。キーフレームは、ビデオプロ バイダがラベルを付ける又は”テーブル・オブ・コンテンツ“(TOC)を挿入 することにより各新ショットの第1フレームとして選択することができる。或い は又、レシーバが、あるアルゴリズムにより、ビデオコンテントが一つのフレー ムから次のフレームヘ急激に変化することを検出することができる。本発明はこ のアルゴリズムが正しいものと仮定する。図に示すように、キーフレームの分布 は不均一にすることができる。他のメカニズムは、連続するキーフレームを規定 のインターバル、例えば2−3秒ごとに互いに連続させることにある。本例では 、表示部62にキーフレームのみを示す。更に、キーフレームは幾分階層構造に 編成され、表示部64は限定された一組の高レベルのキーフレームのみを示す。 この階層構造は多レベルにすることができ、表示部66はビデオプレゼンテーシ ョン60の全体に対する単一のキーフレームのみと関連するものとすることがで きる。キーフレームの種々のレベルは上述した編成と異なる編成内で定めること ができ、並べることもできる。 図1において記憶マッピングを、ビデオプレゼンテーションの本体をテープレ コーダ38に記憶するとともに、少なくともキーフレームをできれば関連するキ ーフレームの直後の短いビデオ及び/又はオーディオインターバルと一緒にディ スクレコーダ40で再生するように行うことができる。このようなインターバル の長さはリニアテープレコーダ38の待ち時間に対応させて、リアルタイムアク セスを達成することができる。ビデオプレゼンテーションは映画のように本質的 にリニアなものとし得る。他の使用では、所定の記憶インターバルにアニメーシ ョン、静止画、又はコンシューマに使用される他の画像を含めることができる。 あるキーフレームはこれを抑圧することができる。これは、当該キーフレームの 前の時間インターバルをその後の時間インターバルと有効に結合する。リセット 機能によりインターバルを再び分離することができる。また、種々のクラスのキ ーフレーム、例えば一定の時間インターバルで互いに分離されたクラスのキーフ レームを抑圧することができる。種々の異なるクラスのキーフレーム、例えば受 信時にローカルアルゴリズムにより発生されるキーフレームに対しプロバイダに より導入されるキーフレームを1つのプレゼンテーションに使用することができ る。 図3はスクローリングモザイクユーザインターフェースの設計例を示す。どの スクリーンも左上から出発して右下まで20個のキーフレームを提示する。各キ ーフレームは図示のキーフレームの総合順位の番号を有している。実際には、キ ーフレーム144が矩形の制御カーソルによりハイライト表示されている。ユー ザはリモートコントロールを駆動し、カーソル装置のナビゲーション制御部によ ってカーソルを表示されたキーフレーム上及び上部及び底部に表示されたバーに 表示されたボタン上を自由に移動させることができる。ユーザが制御カーソルを 左上コーナにおいて左に移動させると、表示が20キーフレームだけ後ろにジャ ンプする。右下コーナにおいて右に移動させると、表示が20フレームだけ前に ジャンプする。スクリーンの上部バーをアクセスすることにより5つの等しい長 さの部分に分割されたプレゼンテーションの他の部分のアクセスを制御すること ができ、黒い水平バーが全プレゼンテーションのうちの、ここに表示された20 個のキーフレームによりカバーされる全時間を示す。 最初に特定のキーフレームを選択し、次いで底部ボタンの1っを選択すること により他の機能を開始させることができる。"view program"(プログラムビュー) ボタンはカーソルでアクセスしたキーフレームでの開始を制御する。"View segm ent"(セグメントビュー)ボタンはビュープログラムと同一であるが、次のキーフ レームで終了する単一セグメントのみを再生する。"view from x to y"(xから yまでビュー)ボタンはカーソルでアクセスした2つのキーフレームのうちの時 間的に早い方のフレームでの開始と、時間的に遅い方のフレームでの停止を制御 する。他のモードをキーフレーム選択機能とともに実現することができる。例え ば、ユーザが特定のインターバルの発生をチェックできるようにするFast-forwa rd(高速順送り)又はslow-forward(低速順送り)、又は所定のビデオ効果を達成 するfast/slow reverse(高速/低速逆送り)を達成することができる。表示中に 、特定のキーフレームに関連する瞬時の通過時に、このキーフレームがアクティ ブになり、次のキーフレームと関連する瞬時に到達するまでビデオストリームを 有効に表示する。次のキーフレームの到達時に、このフレームがアクティブフレ ームになる。このような機能によって、ユーザはビデオレコーダをインタ ーバル表示シーケンスに対し、例えばコマーシャルのような所定のセグメントを 削除することにより、低速順送りによって所定のディテールに注意が向くように ストレートフォワードにプログラムすることが可能になる。表示中に、図示して ない制御ボタンによりオーディオをアクティブにしたり、抑圧したりするするこ とができる。或いは又、オーディオを制御し続けるが、ビデオカーソルはディス クリートにして、適切なハイライト指示によりインターバルからインターバルに ステップするのみとすることもできる。 図4はスクローリングリストユーザインターフェースの代表的な設計例を示す 。本例では、全スクリーンはその底部に表示された5つのキーフレームを有し、 キーフレーム145がそのエッジに沿って移動する矩形の制御カーソルによりハ イライト表示されている。キーフレーム145は大きな倍率でバックグラウンド 内にも表示される。この制御インターフェースは図3のものと同一であるが、ボ タンの位置が相違している。拡大キーフレームはマルチキーフレームバー内に抑 圧することもできる。 図5はもっと広範なグラフィカルユーザインターフェースを示す。第1に、左 右のコラムは、play(再生)、stop(停止)、select(選択)、cut(切り取り )、paste(張り付け)、fast reverse(高速逆送り)、zoom+(ズーム+)、zo om-(ズームー)、fast forward(高速順送り)のための制御ボタンのコラムであ る。底部の行はほとんど相関を有しないそれぞれ異なるシーン又はショットに関 連する9つのキーフレームのシーケンスを有する。キーフレームの階層構造内の ステップ移動により、シーンからシーンへダイナミックな良好なオーバビューを 集めることができる。キーフレーム間隔は、例えば10秒にすることができるが 、これより大きい又は小さい間隔を使用することもできる。特に連続するキーフ レーム間の間隔が小さい場合には、高速順送りのような機能が実現される。他方 、同一の大きさの間隔を全オーディオのフル再生のために使用することができる が、ビデオは1つのキーフレームから次のキーフレームへジャンプするのみであ る。この場合、更に中心キーフレームが拡大表示される。十分に低いグラニュラ リティを有する小間隔のキーフレームを再生すると、拡大キーフレームをダイナ ミックに提示することができ、高速順送り(又は逆送り)モードを実行すること がで きる。本例では帆船を示す次のキーフレームの材料に到達すると、底部の行が1 位置だけ左にシフトし、左端の“太陽”が消え、新しいキーフレームが右端から 現れる。このような表示は特に背景記憶媒体からプレゼンテーション上にマップ され、標準ビデオより速いフレームレートで行うことができる。 図6は図5につき述べた汎用フォーマット内のサブタイトルのプレゼンテーシ ョンを示す。中央領域内のスペース50が実際のフレームに割り当てられ、スぺ ース52がビデオプレゼンテーションから取り出された、又は他の関連情報、例 えば聴覚障害者用に変換されたスピーチ−テキスト又は実際に使用されている言 語とは別の言語への翻訳に関連するサブタイトルの表示に割当てられている。サ ブタイトルはスクリーン底部の7つのキーフレームに関連する範囲からのみ取り 出す必要はない。それらの関連性はもっと広げることができる。更に、各キーフ レームはタイムコード54又はその上に置かれる他の関連データを有する。制御 ボタンの2つの列56、58が左側にアプリケーション操作用に、右側にイント ラプログラムオペレータ用に割り当てられている。スクリーンの上部は表示され ている実際のビデオ番組のタイトル60を有する。 実際にアクティブなキーフレーム領域内を時間とともに移動するビデオカーソ ルのダイナミックリプレゼンテーションを有するように構成する理由は、キーフ レームのスタティック提示だけではビデオプレゼンテーションを全体としてダイ ナミックにしてユーザにイベントの展開を良好に理解せしめるには不十分である からである。このためにセマンティクスを次のように向上させる。システムは、 所定の時間の休止後に、関連するオーディオ及び他の効果を含むディジタルビデ オ材料を縮小して表示することを開始するため、カーソルが“内包する”キーフ レームが“アライブ”になる。再生中に、次のキーフレームに到達すると、カー ソルはユーザインターフェース内に提示されている次のキーフレームに自動的に “ジャンプ”し、これはユーザがシステムとのインタラクションを(再び)開始す るまで続く。一般に、ここに記載する編成は全ビデオストリングと異なるこれと は別の情報の走査検索を可能にする。任意のキーフレームから次のキーフレーム へのジャンプとともにオーディオのみをダイナミックに再生する場合でも、ユー ザは特定の低い記憶要件において提示ビデオの良好な印象を得ることができる。 この点において、図7はシステム動作の状態図である。状態100において、 システムは多数のキーフレームを表示しながらユーザからの入力を待つ。このよ うな入力は表示されている多数のキーフレーム間のジャンプ、別の組のキーフレ ームへのジャンプ、関連するインターバルを表示するキーフレームの選択を含む ことができる。任意のこのような入力は矢104を駆動し、新しい時間インター バルを開始させる。このような入力がn秒(例えば20秒)間ないと、矢108が 駆動され、状態102に到達する。この状態において、システムはダイナミック なビデオカーソルフレームを実行する。ユーザ入力が受信されない限り、矢11 0が駆動され、システムは表示可能なビデオ材料を入手し得る限り表示しつづけ る。しかしユーザ入力が受信されると、矢106が駆動され、システムはダイナ ミックなビデオカーソルフレームの実際のコンテントの位置、又は実際のインタ ーバルの開始位置に留まる。“インタレーシング”効果により影響されたキーフレームの検出及びフィルタリ ング ビデオプログラムのコンテントを走査検索するのに使用するキーフレームのい くつかは高い動きを有するシーケンスから抽出されたものであることがある。こ れは、ビデオシーケンスが通常の如くインタレース符号化モードで符号化され、 フレームが完全なフレームの構成に起用する2つのフィールドからなり、偶数ラ インが一方のフィールドに属し、奇数ラインが他方のフィールドに属する場合に は、わずらわしいジグザグ効果を発生する。この問題は小さいキーフレームにお いて一層顕著になり、わずらわしくなり、この場合には画像が拡大され、ライン が太いブロックになると、この効果が一層目につくことになる。 最初に、このようなインタレーシング効果により影響されたキーフレームを検 出する必要がある。この効果は画像の行上に観察され、輝度変化が高い周波数値 を発生する。この点を利用して、空間周波数スペクトルを多数のサブバンドに分 割し、高い周波数成分のみを考慮する。実際には、検出しようとする効果は偶数 ラインと奇数ラインとの間で交互の輝度値を示すはずであり、従ってこの画像は 高いサンプリング周波数を有するはずである。列上の周波数変換(FFT又は好 ましくはDCT)の最高周波数成分である係数のみを計算する必要がある。画像 がジグザグ効果により影響されると、この成分が高い値を有する。 しかし、この効果は動きを有する物体、特に水平方向に動き成分を有する物体 にも対応して見える。従って、係数の総和は考慮すべきでない。その理由は、係 数の総和は詳細且つ高コントラストのパターンを有する画像において高い値を発 生し、最終的に誤りを発生するからである。画像をいくつかの小部分に分割し、 最大値/区域を考慮することにより一層良好な結果を得ることができる。例えば 、各区域の2つの最高値を加算することにより総和が高度に詳細な画像に影響さ れなくなる。 最後に、低い垂直解像度はジグザグ効果よりわずらわしくないので、この画像 をフィルタリングする最も簡単な方法は1つのィールドのみを考慮し、これを垂 直方向に2倍にアップサンプリングするものである。次のセクションで述べる補 間フィルタを得られた画像を表示する前に適用することができる。 従って、検出及び補正は次のように行われる。第1ステップは行の半分、偶数 行又は奇数行、を除去することにより1つのフィールドを捨て、次にキーフレー ムの元のサイズを復元するために2倍のアップサンプリングを行い、その後に補 間フィルタ処理を行う。この場合には、補間フィルタは簡単なリニア補間を行う 。アップサンプリング及び補間 TV観察距離から容易に見えるようにするために、キーフレームは補間フィル タが後続するアップサンプリングによりほぼフルスクリーンサイズに拡大する必 要がある。一般にキーフレームは低い解像度を有するので、高い倍率で拡大する 必要がある。これは、更に処理すると、画素が大きなブロックになるので、結果 は見やすいものにならないことを意味する。従って、画像をフィルタ処理する必 要があるが、良好な画質の画像を発生させ、高い解像度で表示させる必要がある 一方、短い応答時間を有するように高速処理する必要があるため、トレードオフ を見出す必要がある。問題は、拡大を画像の飛行中に行う必要がある点にある。 即ち、このことは、ハードディスクに記憶するためには必要とされる記憶スペー スが大きくなりすぎるため画像を一度も拡大及びフィルタ処理することができな いことを意味する。これがため、アップサンプリング及びフィルタリング処理は 、同時に許容し得る結果を維持しなからできるだけ高速にする必要がある。一般 に、 通常の補間フィルタを使用することができる(ディジタル信号処理に関する任意 の本:例えばH.C.Andrews,C.L.Pattersonの論文"Digital Interpolation of Di screte Image",IEEE Trans.Comput.196,v25,pp.196-202参照)。 画質を向上させる他の技術を使用することもできる。特に、ウェーブレット法 及びフラクタル法は高い計算負担を導くが視覚品質において顕著な結果を示す。 実際上、フラクタル圧縮技術は公知であり、同一の復号処理を反復することによ りディテールを高解像度で再構成する又はシミュレートすることができる。この 場合には、記憶する画像を高い圧縮率を発生するフラクタル圧縮画像とする。同 様に、ウェーブレット変換を使用することにより、一層高いスケールで高周波数 成分を予測して、ボケ効果のない高解像度画像を得ることができる。サブタイトルに基づくビデオプログラムのテキストサーチ 現在のビデオ伝送においては、番組と一緒にサブタイトルがしばしば伝送され る(多くの場合、アナログシステムでは垂直ブランキング期間内に挿入され、デ ィジタル伝送では個々のエレメンタリストリーム内に挿入される)。これは通常 外国語で配信される番組に対し使用され、或いは聴覚障害者のために使用される 。このような情報は通常スクリーン上に重畳されるが、記憶媒体に記録すること もできる。このようにすると、番組の音声及び時には聴覚障害者のための音声の 記述をサーチ処理に利用することができる。 この種の情報の抽出はプログラムを記録しながらリアルタイムで行う必要があ る。この技術をキーフレーム抽出ルーチンに結合すると、画像を関連するテキス ト、即ちキーフレームが抽出された番組部分に生ずるダイアログに結合すること ができる。このように、現在のテキスト検索技術を用いて特定のキーワードに基 づくテキスト検索を実行することができる。アプリケーションの特定のツールが 、現在“Web”サーチエンジンにおいて慣用されているように、キーワードに基 づく簡単な問合せを実行することができる。 一例として、ニュース番組が記録されたものとする。フランスに関するニュー スを検索したい場合には、キーワード“フランス”を挿入すると、システムは自 動的に番組のテキスト内のこのワードを探す。結果がイエスなら、ユーザにキー ワードが見つけ出された番組の部分及びサブタイトルの特定部分に関するキーフ レームが提示される。次いでユーザは番組を特定の点から見ることができる。問 合せの結果として多数のキーフレームが検出される場合には、これらのキーフレ ームのすべてが図5に示すようにスクリーンの底部に表示されるため、ユーザは 関連するテキストを1つづつ大きなウィンドウ上で分析することができる。結果 がノーの場合には、同種のキーワード(フランス、パリ)を使用することができ る。このシステムはスポーツ番組において特定のチーム又は特定のスポーツをカ バーするレポートを検索するのにも有用である。 多くの他の用途が可能であり、例えば映画が子供が見てもよいものか否かの検 査、会話に使用されている言葉が“不道徳言語”のリストに含まれているか否か の検査に使用することができる。 このようなシステムの可能な拡張として、 ・テキストがビデオから分離して得られない場合には、スクリーンの静止画から 、例えばOCR技術により抽出すること、 ・音声認識技術を用いて番組から会話を抽出すること、 がある。この場合には、システムは放送業者により提供されるサービスと常に無 関係に動作し、サブタイトルが設けられていない場合には、システムを学習させ て少なくともいくつかのキーワードに基づいてテキスト検索を常に実行し得るよ うにすることができる。DETAILED DESCRIPTION OF THE INVENTION Method for guiding video content by displaying a plurality of key frames in parallel apparatusBackground of the Invention   The invention provides video by displaying multiple keyframes in one or more rows in parallel. In addition to guiding the contents, the selective access of the displayed key frame The actual access to the video content is mapped to the keyframes accessed in this way. The present invention relates to a method capable of performing control while expressing the ringing. For later selective regeneration Use a representative portion of the recorded video presentation as a keyframe It has been proposed that A continuous video stream means that the video remains "on" Means that this stream contains an animation, a series of still images, An interactive sequence of images can be included. The character is various , For example, a movie, news, or shopping list. This technology is described in S.A. W. Smolalr and H.S. J. Zhang's dissertation “Content-Based Video Indexi ng and Retrieval ”, IEEE Multimedia, Summer 1994, pp.62-72. You.   The key frame is derived from the video material when it is received at the user's home. Can be retrieved by the algorithm, or, for example, by a video provider. Label keyframes so that video shots start at keyframes be able to. A third method is to average these frames relative to a standard video rate. Successive one at a time interval. The present invention uses keyframes to Dynamic overview of video presentations with useful facilities Together give the user access to video material, selection or deselection of the next display, Or, it is based on the recognition that editing needs to be more forgiving.   For current projects on digital and compression coding of video images A particular problem is that its storage on high-capacity media generally does not allow immediate access, especially The point that the linear storage density that can be expressed by the number of frames per unit storage size is not uniform is there. For high-capacity main storage media such as tapes It has been proposed to add an auxiliary storage medium having the same. In this case, high-speed sequential Perform trick modes such as fast and fast reverse and video for next display Editing material into summary, modified, or rearranged form This creates considerable difficulties, both from the standpoint of storage and storage technology.Summary of the Invention   Therefore, it is an object of the present invention to increase the user interface organization in particular. Introduces flexibility and gives users more control over memory organization and video material. To give a natural feeling. To this end, the features of the present invention are simply Place keyframes on screen within one user interface organization A first operation mode in which the keys are arranged in a spatially ordered sequence, and a continuous key frame to be displayed Arrange keyframes with multiple non-uniform selectable granularities in between Between the first and second operation modes. Keyframe Presented in a temporally-ordered order, for example, these frames are at standard video speed If they are continuous with each other at a uniform time interval associated with High-speed reverse feed can be easily executed. In addition, variable graphs between frames Easy access and access through simple and easy change of hierarchical level And edit it. Key frames or at least a part of them Generated from the beginning of the movie or generated by the original film editor The same is true when retrieving from other related events. in this way Then, the clustering process can be automatically executed.   In the method of the present invention, the currently selected key frame is replaced with another key frame. This frame is highlighted by enlarging it in multiple times the format And detect harmful video interlacing effects, and if so, Vertical decimation reduces this effect and also enhances the image before display. A sampling filter process is performed. Video distortion of relatively small keyframes is acceptable I know from experience that you can do this, but if you want to zoom in on a particular keyframe, Additional measures need to be taken to improve the image. The present inventor has Dings do not always achieve image quality under normal conditions, but provide a comfortable and beneficial improvement in image quality To make sure that   The invention also relates to an apparatus configured to perform the method described above. Book Other features of the invention are set out in the dependent claims.BRIEF DESCRIPTION OF THE FIGURES   These and other features and advantages of the present invention will be described with respect to preferred embodiments with reference to the drawings. This will be described in detail below. In the drawing,   FIG. 1 is a block diagram of a TV-recorder combination device,   FIG. 2 shows a typical structure of a video recording,   FIG. 3 shows a design example of a scrolling mosaic user interface,   FIG. 4 shows a design example of a scrolling list user interface,   FIG. 5 shows a more extensive graphical user interface design example.   FIG. 6 shows the display of the subtitle,   FIG. 7 shows a state diagram of the system operation.Detailed Description of the Preferred Embodiment   In particular, as it pertains to normal customer and private home use, Various advantages, which are not limited to those related to proper use, are: . -Key frames are distinguished from each other by users located at a typical TV viewing distance. Must be presented so that they can ・ The number of key frames to be presented at the same time Should be sufficient to give an overview of the significant part of the tree. ・ Key frames are displayed without distortion, for example by maintaining the aspect ratio Should. ・ TV set remote control device itself as user control device Preferably, it works. ・ Feedback information must be recognizable from the representative observation distance. ・ Computer concepts such as “drag” and “drop” are generally unnecessary To Various functions are implemented so that they are used only occasionally, not continuously. There must be. The user interface is a well-known linear model for video presentations. Should represent Dell.Description of specific embodiments   FIG. 1 is a block diagram showing a TV-recorder combination device according to the present invention. Element 20 Indicates a TV set display and associated immediate control and power supply. Element 22 is Have other types of signal distribution entities, such as antennas or cable distribution Shows the connection. This element contains digital video information or digital An entity for extracting a signal portion may be included as appropriate. Element 34 of FIG. Shows the routing of video streams and related information between various subsystems . Routing is controlled by a control signal via line 35 by control box 28 can do. Line 35 is shown as a single bidirectional interconnect line. However, it can actually consist of any number of unidirectional or bidirectional lines. Wear. The control box 28 receives the detection signal from the display 20 via the line 30. Receive the detection signals from the other subsystems 38 and 40, Control the subsystem. Block 38 is extremely high storage in the multi-gigabyte area This is a linear tape recorder having a capacity. Block 40 has high storage capacity This recorder is a part of the storage capacity of the recorder 38. But the access speed of this recorder is Access makes it much faster than recorder 38. Block 38 and Block 40 Together form a two-level storage organization similar to computer memory cache systems. And store all items of the video presentation at least once . Element 24 communicates with display device 20 via wireless path 26. A resource primarily indirectly communicating with subsystem 28 and other subsystems 38 and 40. 3 shows a mote control device.   FIG. 2 shows a typical configuration of a video presentation. Functional video content Bar 60, the video itself, in the form of frames or in MPEG code Included as a string of such compressed video content. Information along the bar video time The actual storage requirements must be uniform over the playback time. No need. The dotted keyframes are shown with black vertical stripes like 68 You. Each keyframe represents the entire video in the interval up to the next keyframe Or as a representative of it. Keyframes are for video professionals Binder labels or inserts “table of contents” (TOC) By doing so, it can be selected as the first frame of each new shot. Some In addition, the receiver uses one algorithm to convert the video content into one frame. It is possible to detect a sudden change from the program to the next frame. The present invention Assume that the algorithm is correct. As shown in the figure, the distribution of keyframes Can be non-uniform. Other mechanisms specify consecutive keyframes , For example, every 2-3 seconds. In this example , Display section 62 shows only key frames. In addition, keyframes are somewhat hierarchical Organized, display 64 shows only a limited set of high-level keyframes. This hierarchical structure can be multi-level, and the display 66 can be used for video presentation. Can be associated with only a single keyframe for the entire Wear. The different levels of keyframes must be defined in a different organization from the one described above Can be arranged.   Figure 1 shows the memory mapping, In addition to storing in the coder 38, at least the key frame -A short video and / or audio interval immediately following the frame The playback can be performed by the screcoder 40. Such an interval Length corresponds to the waiting time of the linear tape recorder 38. Seth can be achieved. Video presentations are as essential as movies Can be linear. In other uses, animate at a given storage interval. It can include alternative images, still images, or other images used by consumers. Certain keyframes can suppress this. This is the keyframe The previous time interval is effectively combined with the subsequent time interval. reset The function allows the intervals to be separated again. In addition, keys of various classes -Frames, e.g. classes of keys separated from one another at certain time intervals Lame can be suppressed. A variety of different classes of keyframes, e.g. To the provider for keyframes generated by the local algorithm upon transmission More introduced keyframes can be used for one presentation You.   FIG. 3 shows a design example of a scrolling mosaic user interface. Which The screen also presents 20 key frames starting from the upper left to the lower right. Each key The key frame has the number of the total rank of the key frame shown in the figure. In fact, -The frame 144 is highlighted by a rectangular control cursor. You The remote control is driven by the navigation control of the cursor device. The cursor on the displayed keyframe and on the bars displayed at the top and bottom. The user can freely move the displayed button. The user moves the control cursor Moving to the left in the upper left corner will cause the display to jump back 20 keyframes. Pump. Moving to the right in the lower right corner will cause the display to move forward 20 frames Jump. 5 equal lengths by accessing the top bar of the screen Control access to other parts of the presentation that are divided into pieces And a black horizontal bar shows 20 of the total presentations displayed here Indicates the total time covered by keyframes.   First select a specific keyframe, then select one of the bottom buttons , Other functions can be started. "view program" The button controls the start at the keyframe accessed by the cursor. "View segm The ent "(segment view) button is the same as the view program, but the next key Play only a single segment ending in the frame. "view from x to y" View to y) button is for two keyframes accessed with the cursor Controls start at earlier frame and stop at later frame I do. Other modes can be implemented with the keyframe selection function. example Fast-forwa allows users to check for the occurrence of a particular interval Achieve rd (fast forward) or slow-forward, or predetermined video effects Fast / slow reverse can be achieved. While displaying During the instantaneous passage associated with a particular keyframe, this keyframe Video stream until it reaches the moment associated with the next keyframe. Display effectively. When the next keyframe arrives, this frame Become a game. These features allow the user to interface the video recorder. For a global display sequence, a predetermined segment such as a commercial By removing, the low-speed progressive will focus on certain details. It becomes possible to program straight forward. While displaying, Activate or suppress audio with no control buttons Can be. Alternatively, you continue to control the audio, but the video cursor Cleat and interval to interval with appropriate highlighting instructions It is also possible to only step.   FIG. 4 shows a typical design example of a scrolling list user interface. . In this example, the entire screen has five keyframes displayed at the bottom, Key frame 145 is moved by a rectangular control cursor along its edge. It is highlighted. Keyframe 145 is background at high magnification It is also displayed inside. This control interface is identical to that of FIG. The position of the tongue is different. Enlarged keyframes are suppressed within the multi keyframe bar You can also press.   FIG. 5 shows a more extensive graphical user interface. First, left The right column is play (play), stop (stop), select (select), cut (cut) ), Paste (paste), fast reverse (fast reverse), zoom + (zoom +), zo om- (zoom), a column of control buttons for fast forward. You. The bottom row relates to different scenes or shots that have little correlation. It has a sequence of nine consecutive keyframes. In the keyframe hierarchy Dynamic, good overview from scene to scene by stepping Can be collected. The key frame interval can be, for example, 10 seconds, , Larger or smaller intervals may be used. Especially continuous keef When the interval between frames is small, a function such as high-speed sequential forwarding is realized. The other The same size interval can be used for full playback of all audio However, the video only jumps from one keyframe to the next You. In this case, the center key frame is further enlarged and displayed. Granular enough low When playing key frames at short intervals with Perform fast forward (or reverse) mode, which can be presented in a mix In Wear. In this example, when the material for the next keyframe, representing the sailboat, is reached, the bottom row is 1 Shifts the position to the left, the "sun" at the left disappears, and a new keyframe starts at the right appear. Such displays are especially useful for mapping from background storage media onto presentations. And can be done at a faster frame rate than standard video.   FIG. 6 shows the presentation status of the subtitle in the general format described with reference to FIG. Indicates an option. Space 50 in the central area is allocated to the actual frame and Source 52 has been retrieved from the video presentation or other relevant information, eg For example, speech-to-text converted for the deaf or actual spoken language Assigned to display subtitles related to translation into another language. Sa Titles should only be taken from the area associated with the seven keyframes at the bottom of the screen. You don't have to. Their relevance can be broadened further. In addition, each key The frames have a time code 54 or other relevant data placed thereon. control Two rows of buttons 56, 58 are located on the left for application operation and on the right Assigned for the program operator. The top of the screen is displayed Have the title 60 of the actual video program being played.   A video cursor that moves over time within the active keyframe area The reason for configuring to have a dynamic representation of A static presentation of the frame alone will divert the video presentation as a whole. Insufficient to be natural and give users a good understanding of event development Because. For this purpose, the semantics are improved as follows. the system, After a predetermined period of inactivity, a digital video with associated audio and other effects Cursor to “include” key to start displaying material in reduced size The frame becomes "alive". During playback, when the next keyframe is reached, The sol automatically changes to the next keyframe presented in the user interface “Jump”, which causes the user to (again) begin interacting with the system Continue until In general, the organization described here differs from all video strings. Allows scanning of other information. Any keyframe to next keyframe Even if you only play the audio dynamically with the jump to The user can get a good impression of the presented video at certain low storage requirements.   In this regard, FIG. 7 is a state diagram of the system operation. In state 100, The system waits for user input while displaying a number of key frames. This Such inputs can be jumps between multiple displayed keyframes, another set of keyframes. To jump to the game, including selecting keyframes to display the relevant intervals be able to. Any such input drives arrow 104 and a new time interface Start the ball. If there is no such input for n seconds (for example, 20 seconds), the arrow 108 It is driven and state 102 is reached. In this state, the system is dynamic Perform a video cursor frame. Arrow 11 unless user input is received. 0 is activated and the system continues to display as long as displayable video material is available You. However, when user input is received, arrow 106 is activated and the system Actual video cursor frame actual content location or actual interface Remains at the start of the globalDetection and filtering of keyframes affected by the "interlacing" effect Ning   A key frame used to scan through the content of a video program. Some may have been extracted from sequences with high motion. This This means that the video sequence is encoded in interlaced encoding mode as usual, The frame consists of two fields which are used to construct a complete frame, If the input line belongs to one field and the odd line belongs to the other field, Produces an annoying zigzag effect. The problem is in small keyframes. More noticeable and annoying, in which case the image is enlarged and This effect becomes more noticeable when the blocks become thicker.   First, look for keyframes affected by such interlacing effects. I need to get it out. This effect is observed on the rows of the image, where the frequency values where the luminance change is high Occurs. Taking advantage of this, the spatial frequency spectrum is divided into a number of subbands. And consider only high frequency components. In fact, the effect you are trying to detect is even It should show alternating luminance values between the lines and the odd lines, so this image It should have a high sampling frequency. Frequency transformation on columns (FFT or good More preferably, only the coefficient that is the highest frequency component of DCT needs to be calculated. image Is affected by the zigzag effect, this component has a high value.   However, this effect can be applied to objects with motion, especially objects with horizontal motion components. Appears to correspond. Therefore, the sum of the coefficients should not be considered. The reason is The sum of numbers yields high values in images with detailed and high-contrast patterns. This is because errors eventually occur. Divide the image into several small parts, Better results can be obtained by considering the maximum / area. For example , The sum affects the highly detailed image by adding the two highest values of each area No longer.   Finally, the lower vertical resolution is less annoying than the zigzag effect, so this image The easiest way to filter is to consider only one field and Upsampling is performed twice in the vertical direction. The supplement mentioned in the next section An inter-filter can be applied before displaying the resulting image.   Therefore, detection and correction are performed as follows. First step is half row, even number Discard one field by removing rows or odd rows, then keyframe Double upsampling to restore the original size of the Inter filter processing is performed. In this case, the interpolation filter performs a simple linear interpolation .Upsampling and interpolation   To make it easier to see from the TV viewing distance, the key frame is Must be increased to almost full screen size by subsequent upsampling. It is necessary. In general, keyframes have a lower resolution, so they are enlarged at a higher magnification There is a need. This will result in a larger block of pixels with further processing, Means that it is not easy to see. Therefore, it is necessary to filter the image. Need to generate good quality images and display at high resolution On the other hand, it is necessary to perform high-speed processing so as to have a short response time. Need to find out. The problem is that magnification must be done during the flight of the image. In other words, this means that the storage space required for storage on the hard disk is required. The image cannot be enlarged and filtered even once because it is too large. Means that Because of this, the upsampling and filtering process It must be as fast as possible while still maintaining acceptable results. General To Normal interpolation filter can be used (optional for digital signal processing) Book: For example, H.C.Andrews and C.L.Patterson's paper "Digital Interpolation of Di screte Image ", IEEE Trans. Comput. 196, v25, pp. 196-202).   Other techniques for improving image quality can also be used. In particular, the wavelet method And fractal methods lead to high computational burdens but show significant results in visual quality. In practice, fractal compression techniques are known, and by repeating the same decoding process. Details can be reconstructed or simulated at high resolution. this In this case, the stored image is a fractal compressed image that generates a high compression ratio. same In the same way, by using the wavelet transform, By predicting the components, a high-resolution image having no blurring effect can be obtained.Text Search for Video Programs Based on Subtitle   In current video transmission, subtitles are often transmitted along with programs. (Often inserted in the vertical blanking period in analog systems and In digital transmission, it is inserted in each elementary stream). This is usually Used for programs delivered in foreign languages or used for the hearing impaired . Such information is usually superimposed on the screen, but must be recorded on a storage medium. You can also. In this way, the audio of the program and sometimes for the hearing impaired The description can be used for the search process.   This type of information extraction must be performed in real time while recording the program. You. Combining this technique with the keyframe extraction routine allows the image to be I.e. binding to the dialog that occurs in the program part where the key frame was extracted Can be. In this way, using current text search technology, Can perform a text search based on Application specific tools , As currently used in the “Web” search engine, Simple queries can be performed.   As an example, it is assumed that a news program has been recorded. New about France If you want to search for a keyword, insert the keyword "France" and the system will Look for this word in the text of the program dynamically. If the result is yes, give the user a key Keyword for the part of the program where the word was found and the specific part of the subtitle A frame is presented. The user can then view the program from a particular point. Question If a large number of keyframes are detected as a result of the All of the games are displayed at the bottom of the screen as shown in FIG. Related texts can be analyzed one by one on a large window. result If no, you can use similar keywords (France, Paris) You. This system covers a specific team or a specific sport in a sports program. It is also useful for searching reports that bar.   Many other uses are possible, such as checking whether a movie is good for children to watch. Whether the words used in the examination and conversation are included in the list of "immoral languages" Can be used for inspection.   Possible extensions of such a system include: If the text is not available separately from the video, Extracting by, for example, OCR technology, Extracting conversations from programs using voice recognition technology; There is. In this case, the system will always be free from the services provided by the broadcaster. If the relationship works and no subtitles are provided, train the system Can always perform a text search based on at least some keywords Can be done.

───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),JP,KR────────────────────────────────────────────────── ─── Continuation of front page    (81) Designated countries EP (AT, BE, CH, DE, DK, ES, FI, FR, GB, GR, IE, IT, L U, MC, NL, PT, SE), JP, KR

Claims (1)

【特許請求の範囲】 1.1列以上の複数のキーフレームを並列に表示することによりビデオ内容を案 内するとともに、表示されたキーフレームの選択的アクセスにより前記ビデオ 内容への実際のアクセスをこのようにアクセスしたキーフレームのマッピング を表しながら制御し得る方法において、 単一のユーザインターフェース編成内において、キーフレームをスクリーン 上に時間的に整列した順序に配列する第1動作モードと、表示される連続キー フレーム間に不均一の選択可能なグラニュラリティを有するキーフレームを配 列する第2動作モードとの間で選択を行うことができることを特徴とするビデ オ内容案内方法。 2.前記時間的に整列した順番において時間的に中心に位置するキーフレームに 関連するオーディオインターバルを順次に再生することを特徴とする請求項1 記載の方法。 3.順次のオーディオインターバルが離散分離したキーフレームのシーケンスに 対しほぼ連続したオーディオ表現を構成することを特徴とする請求項2記載の 方法。 4.第2動作モードにおいて、実際にアクセスされたキーフレームに関連するオ ーディオインターバルを再生することを特徴とする請求項1記載の方法。 5.現在選択されているキーフレームをハイライト表示すると同時に、このキー フレームを他のキーフレームに対し多数倍の大きさのフォーマットに拡大し、 更に、有害なビデオインタレーシング効果を検出し、このような効果が検出さ れる場合には、このような効果を垂直デシメーションにより軽減させることを 特徴とする請求項1記載の方法。 6.現在選択されているキーフレームをハイライト表示すると同時に、このキー フレームを他のキーフレームに対し多数倍の大きさのフォーマットに拡大し、 更に、画像を表示する前に画像にアップサンプリングフィルタ処理を施すこと を特徴とする請求項1記載の方法。 7.関連するキーフレーム又はキーフレームのシーケンスに対し抽出されたサブ タイトル又は他の関連情報を表示することを特徴とする請求項1記載の方法。 8.請求項1に記載された方法を実行するよう構成された装置。[Claims] 1. Propose video content by displaying multiple keyframes in columns or more in parallel   And the selective access of the displayed keyframes   Mapping of keyframes accessed in this way to actual access to content   In a method that can be controlled while expressing     Screen keyframes within a single user interface organization   A first operation mode arranged in a time-sequential order above, and a continuous key displayed   Keyframes with non-uniform selectable granularity between frames   A selection between the second operation mode and the second operation mode.   E Contents guidance method. 2. In the key frame located at the center in time in the order arranged in time   2. The method according to claim 1, wherein the related audio intervals are sequentially reproduced.   The described method. 3. Sequential audio intervals into discrete keyframe sequences   3. A method according to claim 2, wherein said audio representation comprises a substantially continuous audio representation.   Method. 4. In the second mode of operation, audio associated with the actually accessed key frame   2. The method according to claim 1, wherein the audio interval is reproduced. 5. Highlight the currently selected keyframe and   Enlarge the frame to a format that is many times larger than other keyframes,   In addition, it detects harmful video interlacing effects, which are detected.   If this is the case, reduce such effects by vertical decimation.   The method of claim 1, wherein: 6. Highlight the currently selected keyframe and   Enlarge the frame to a format that is many times larger than other keyframes,   In addition, the image may be up-sampled before being displayed.   The method of claim 1, wherein: 7. Sub extracted for the relevant keyframe or sequence of keyframes   The method of claim 1, wherein a title or other relevant information is displayed. 8. An apparatus configured to perform the method of claim 1.
JP10529208A 1997-02-03 1998-01-22 Method and apparatus for navigating video content by displaying a plurality of key frames in parallel Pending JP2000516006A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP97200286.9 1997-02-03
EP97200286 1997-02-03
EP97201802.2 1997-06-16
EP97201802 1997-06-16
PCT/IB1998/000091 WO1998034182A2 (en) 1997-02-03 1998-01-22 A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel

Publications (1)

Publication Number Publication Date
JP2000516006A true JP2000516006A (en) 2000-11-28

Family

ID=27238396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10529208A Pending JP2000516006A (en) 1997-02-03 1998-01-22 Method and apparatus for navigating video content by displaying a plurality of key frames in parallel

Country Status (3)

Country Link
EP (1) EP0914638A2 (en)
JP (1) JP2000516006A (en)
KR (1) KR100552248B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747655B2 (en) 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7954056B2 (en) 1997-12-22 2011-05-31 Ricoh Company, Ltd. Television-based visualization and navigation interface
US8635531B2 (en) 2002-02-21 2014-01-21 Ricoh Company, Ltd. Techniques for displaying information stored in multiple multimedia documents
US8739040B2 (en) 1997-12-22 2014-05-27 Ricoh Company, Ltd. Multimedia visualization and integration environment

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249423B2 (en) * 2008-05-08 2012-08-21 Sony Ericsson Mobile Communications Ab Electronic devices and methods that insert addressable chapter marks relative to advertising content in video streams
KR101537592B1 (en) 2008-09-03 2015-07-22 엘지전자 주식회사 Mobile terminal and method for controlling the same
GB2477800A (en) * 2010-02-16 2011-08-17 Nds Ltd Video trick mode playback

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7954056B2 (en) 1997-12-22 2011-05-31 Ricoh Company, Ltd. Television-based visualization and navigation interface
US8739040B2 (en) 1997-12-22 2014-05-27 Ricoh Company, Ltd. Multimedia visualization and integration environment
US8995767B2 (en) 1997-12-22 2015-03-31 Ricoh Company, Ltd. Multimedia visualization and integration environment
US7747655B2 (en) 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US8635531B2 (en) 2002-02-21 2014-01-21 Ricoh Company, Ltd. Techniques for displaying information stored in multiple multimedia documents

Also Published As

Publication number Publication date
KR100552248B1 (en) 2006-06-15
KR20000064909A (en) 2000-11-06
EP0914638A2 (en) 1999-05-12

Similar Documents

Publication Publication Date Title
US6222532B1 (en) Method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
JP3667262B2 (en) Video skimming method and apparatus
EP2127368B1 (en) Concurrent presentation of video segments enabling rapid video file comprehension
Yeung et al. Video visualization for compact presentation and fast browsing of pictorial content
EP1024444B1 (en) Image information describing method, video retrieval method, video reproducing method, and video reproducing apparatus
WO1998034182A2 (en) A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
US6154771A (en) Real-time receipt, decompression and play of compressed streaming video/hypervideo; with thumbnail display of past scenes and with replay, hyperlinking and/or recording permissively intiated retrospectively
US6340971B1 (en) Method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
KR100252538B1 (en) Video editing scheme using icons directly obtained from coded video data
US8627206B2 (en) Image processing device and image processing method for displaying images in a spiral form
US20030086692A1 (en) Special reproduction control information describing method, special reproduction control information creating apparatus and method therefor, and video reproduction apparatus and method therefor
KR20020026099A (en) Intelligent fast-forward video system
KR20040108726A (en) Metadata edition device, metadata reproduction device, metadata distribution device, metadata search device, metadata reproduction condition setting device, and metadata distribution method
JP2009004999A (en) Video data management device
JPH11220689A (en) Video software processor and medium for storing its program
JP2000516006A (en) Method and apparatus for navigating video content by displaying a plurality of key frames in parallel
WO1998034181A2 (en) A method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
JP4667356B2 (en) Video display device, control method therefor, program, and recording medium
JP2000287165A (en) Image information description method, video image retrieval method, video reproduction method, video retrieval device and video reproduction device
WO2009044351A1 (en) Generation of image data summarizing a sequence of video frames
KR20020023063A (en) A method and apparatus for video skimming using structural information of video contents
KR20010035099A (en) Streaming Hypervideo System using Automatic Scene Change Detection and Controlling Method
KR20020014857A (en) A system for video skimming using shot segmentation information
Akutsu et al. Video interface for spatiotemporal interactions based on multi-dimensional video computing
JPH11260041A (en) Method and apparatus for editing comic type image and recording medium having recorded editing method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080307

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080414

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081031

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090512