JP2006527518A - ビデオ圧縮 - Google Patents
ビデオ圧縮 Download PDFInfo
- Publication number
- JP2006527518A JP2006527518A JP2006508463A JP2006508463A JP2006527518A JP 2006527518 A JP2006527518 A JP 2006527518A JP 2006508463 A JP2006508463 A JP 2006508463A JP 2006508463 A JP2006508463 A JP 2006508463A JP 2006527518 A JP2006527518 A JP 2006527518A
- Authority
- JP
- Japan
- Prior art keywords
- stream
- video
- audio
- information
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006835 compression Effects 0.000 title description 13
- 238000007906 compression Methods 0.000 title description 13
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 230000001360 synchronised effect Effects 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234381—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25808—Management of client data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/41407—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/24—Systems for the transmission of television signals using pulse code modulation
- H04N7/52—Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Computer Security & Cryptography (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
ビデオデータストリームからビデオフレームのストーリーボードを生成し、そのストーリーボードのビデオフレームのみをポータブル電子装置に伝送する方法と装置を開示する。入力ビデオデータからコンテント制御サマリーを生成する。そのコンテント制御サマリーを連続的オーディオ信号と同期させる。そのサマリーをその連続オーディオとともに符号化し伝送する。
Description
本発明は、ビデオ圧縮と伝送に関し、特に、移動データサービスのためのビデオ圧縮に関する。
今日、携帯電話その他ポータブル電子装置は通信以外の用途にも使用されている。例えば、多くの新しい携帯電話その他ポータブル電子装置は、ビデオ画像を表示することができるスクリーンを備えている。その結果として、ニュースやスポーツ等のビデオ画像をこれらのポータブル装置にブロードキャストすることができる。しかし、ビデオ画像のデータ量は膨大なので、携帯電話その他ポータブル装置にフルモーションビデオ信号を伝送して表示しようとすると、重大な問題が起こる。より具体的に、各画像フレームは、特定システムの表示解像度に応じたピクセルアレイにより形成された静止画である。その結果として、高解像度ビデオシーケンスに含まれる生情報の量は膨大である。伝送しなければならないデータ量を減らすため、圧縮方法(scheme)を用いてデータを圧縮する。いろいろなビデオ圧縮標準またはプロセスが確立されており、例えば、MPEG-2、MPEG-4、H.264などがある。しかし、これらの圧縮方法だけではポータブル電子装置に容易に伝送及び表示できる許容レベルまでデータ量を減らすことができない。
本発明は、ビデオデータストリームからビデオフレームのストーリーボードを生成し、そのストーリーボードのビデオフレームのみをポータブル電子装置に伝送する方法と装置を開示する。
本発明の一実施形態によると、伝送のためにビデオ信号を圧縮する方法と装置が開示される。入力ビデオデータからコンテント制御サマリーを生成する。そのコンテント制御サマリーを連続的オーディオ信号と同期させる。そのサマリーをその連続オーディオとともに符号化し伝送する。
本発明の他の実施形態によると、ユーザが要求した情報を供給する通信システム及び方法を開示する。そのユーザから情報要求を受信した時、データベースをサーチして、要求されたビデオ情報をそのデータベースから探して抽出する。抽出された情報のコンテント制御サマリーを生成する。そのコンテント制御サマリーを連続的オーディオ信号と同期させる。そのサマリーをその連続的オーディオとともに符号化する。
以下に説明する実施形態を参照して、本発明の上記その他の態様を明らかにする。
図1は、本発明の一実施形態による、移動データサービスのためにストーリーボードベースビデオ圧縮を提供する通信システム100を示す。通信システム100は、ビデオ信号104を受信し、そのビデオ信号中の重要シーンのストーリーボードを生成する、コンテント制御サマリー抽出装置102を有する。ビデオストリーム全体ではなく、これらの重要ビデオシーンだけがユーザのポータブル電子装置に送信される。サマリー/オーディオ同期装置106を用いて、コンテント制御サマリー抽出装置102により生成されたサマリーストーリーボードビデオフレームを、ビデオ入力104に付随した対応する連続的オーディオ信号と同期させる。ストーリーボード信号とオーディオ信号を圧縮部108で結合する。圧縮信号をレシーバ部110に送信する。そのレシーバ部110は、受信信号を解凍し、選択されたビデオシーンを表示し、一方、元のビデオストリームからのフルオーディオストリームを再生する。通信システム100の各コンポーネントは以下においてより詳しく説明する。
本発明によると、サマリー抽出装置102により、ビデオストリーム104をストーリーボードサマリーにする。本発明では、ビデオ入力からストーリーボードを生成するためにデータ検索システムで使用される既知の重要シーン検出方法及び装置を使用することができる。例えば、図2と3を参照して、(Dimitrova等の米国特許第6,137,544号に開示されている)重要シーン検出及びフレームフィルタリングシステムを簡単に説明する。しかし、本発明はこれに限定されない。
ビデオはアナログ(連続データ)形式またはデジタル(離散データ)形式のいずれかである。本実施例はデジタル領域で動作するので、デジタル形式を用いて処理する。ソースビデオすなわちビデオ信号は、一連の個別画像すなわちビデオフレームであり、表示された画像シーケンスが連続的ピクチャストリームに見えるくらい高いレートで表示される。これらのビデオフレームは、圧縮されていないデータであっても、MPEG、MPEG2、MPEG4、MotionJPEGなどのフォーマットで圧縮されたデータであってもよい。
非圧縮ビデオ中の情報は、メディアプロセッサ202でフレームにセグメント化される。この時、インテルスマートビデオレコーダIIIで使われているようなフレームグラブ法を用いる。各フレームはホストプロセッサ210で例えば8×8ピクセルのブロックに分割される。これらのブロックと周知のブロードキャスト標準CCIR-601を用いて、マクロブロック生成器206が輝度ブロックを生成し、色情報を平均化してクロミナンスブロックを生成する。輝度ブロック及びクロミナンスブロックがマクロブロックを形成する。
ビデオ信号は、MotionJPEG及びMPEGなどの圧縮標準を用いて圧縮された画像を表してもよい。信号がMPEGやその他の圧縮信号である場合、フレームパーサ205によりフレームまたはビットストリームパース法を用いてフレームに分割される。フレームはメディアプロセッサ203のエントロピーデコーダ214とテーブル指定器216に送られる。エントロピーデコーダ214は、テーブル指定器216からのデータを用いてMPEG信号を復号する。この時、例えば、ハフマン復号などの復号方法を用いる。
復号信号は逆量子化器218に送られ、テーブル指定器216からのデータを用いて逆量子化される。これらの段階はメディアプロセッサ203で行われるとして図示したが、メディアプロセッサ203でなく、ホストプロセッサ211その他の外部装置で行われてもよい。あるいは、システムがその異なる段階でアクセス可能であれば、DCT係数をホストプロセッサに直接送ることもできる。これらのアプローチでは、リアルタイムの処理まで実行することができる。
重要シーンを自動的に検出するために、ビデオシーンが変化したかどうか、または静的シーンとなったかどうかを検出する。シーンは1以上の関連する画像である。重要シーン検出において、重要シーンプロセッサ230を用いて2つの連続するフレームの少なくとも1つの特性を比較して、そのフレームの選択された特性が所定の第1の閾値より大きく相違している場合、その2つのフレームは大きく相違するとされ、その間でシーン変化があったと判断される。その選択特性の相違が所定の第2の閾値より小さい場合、そのシーンは類似していると判断され、静的シーンであるかどうか判断する処理が実行される。重要シーン変化があると、そのフレームをキーフレームとして保存する。重要シーン検出プロセス中にフレームをキーフレームとしてフレームメモリ234に保存した時、関連するフレーム番号を例えばその相対的な発生時を示すタイムコードまたはタイムスタンプに変換する。
キーフレームフィルタリング方法を用いて、繰り返しフレーム及びその他の選択したタイプのフレームをフィルタリングすることにより、フレームメモリに保存するキーフレームの数を減らすことができる。キーフレームフィルタリングは、重要シーン検出を行った後、ホストプロセッサ210中のキーフレームフィルタ240により実行される。キーフレームフィルタリングで残ったフレームを用いて、ビデオ入力104のストーリーボードサマリーを生成することができる。図4にキーフレーム抽出を示した。入力ビデオ信号401は大幅に縮小されたビデオ信号405に変換される。この大幅に縮小されたビデオ信号405は、ストーリーボードサマリーを生成するキーフレームのビデオ画像だけを含むが、随伴するオーディオ信号403は変化しない。
通信チャネルの利用可能帯域幅(すなわちビットレート)を最適に使用するため、単位時間当たりのキーフレーム数はあまり大きく変動しない方がよい。このため、本発明の有利な実施形態においては、上記の第1と第2の閾値は、これにより連続フレームが大幅に相違するか類似するかが決まるので、重要シーンプロセッサ230中のビットレート制御ループにより制御される。出力バッファの状態に応じて、バッファが半分以上いっぱいであれば、閾値を修正することにより、潜在的キーフレームの数を減らすことができる。バッファが半分までいっぱいになっていない場合、閾値を反対に修正することにより、潜在的キーフレームの数を増やすことができる。この目的を達成する代替的、または追加的手段として、バッファ状態信号により上記のキーフレームフィルタリング手段を修正する。
ストーリーボードサマリーが一旦生成されると、それとオーディオ信号とを同期させる必要がある。同期の例を図5に示した。
ビデオ入力401とオーディオ入力403が同期していると仮定して、ストーリーボードサマリーを生成した後、同期化器106がビデオとオーディオを同期させておく必要がある。これは、例えば、ストーリーボードフレームとオーディオにタイムコードを含めることによりなされる。このように、デコーダ側で、バッファに複数のストーリーボードフレームを置き、正しく同期された時間に所望のフレームを表示することができる。
上述の通り、ストーリーボードサマリーを生成し、オーディオ/ビデオを同期させると、伝送のためにその情報を圧縮することが必要となる。本発明はいろいろな圧縮方法及びエンコーダを使用することができ、特定の方法に限定はされない。図6を参照して、サマリーボード及び付随するオーディオの圧縮及び符号化のために使用することができるエンコーダの実施例による典型的なエンコーダ600を説明する。
図示した符号化システム600がキーフレームの圧縮を行う。各フレームのコンパクトな記述は、独立であるか(イントラフレーム符号化)、またはその前に符号化された1以上のキーフレームを参照するものである(インターフレーム符号化)。イントラフレーム符号化システムは、本発明の一実施形態によると、領域ピクセルデコリレーション部610に基づく。その領域ピクセルデコリレーション部610は量子化部620に接続され、その量子化部620は量子化された値をロスレス符号化する可変長符号化部630に接続されている。
領域ピクセルデコリレーション部610は、差分パルス符号変調(DPCM)に基づくか、またはブロックごとの線形変換(例えば、各ブロック輝度またはクロミナンスピクセルの離散余弦変換(DCT))である。本発明の一実施形態において、重なり合わない8×8ブロックを取得部611により所定順序で取得する。各8×8ピクセルのブロックにDCT機能を適用し(変換部612で示した)、その8×8ピクセルの平均を表すDC係数を1つと、AC係数を63個生成する。これらの係数は、8×8ピクセルブロック中の低周波数と高周波数の余弦パターンを表す。続いて、一連のDC変換係数にDPCMエンコーダ部613によりDPCMを適用する。
量子化部620は、スカラー量子化またはベクトル量子化を実行する。スカラー量子化器は、デコリレーション部610により生成された元の各値(ここでは「AC変換係数」と呼ぶ)の近似値を表す符号(すなわち「表示レベル」)を生成する。ベクトル量子化器は、デコリレーション部610により生成された一群(ここでは「ブロック」と呼ぶ)の元の値の近似値を表す符号を生成する。エンコーダの一実施形態において、スカラー量子化を適用して、各表示レベルは、近似部621において各AC変換係数を整数で除算して得られる。各整数除算の分母は、一般的には、63個のAC係数のそれぞれで異なる。所定の分母は量子化マトリックス622として表されている。
可変長符号化部630は、一般に、ハフマン符号化、算術符号化、またはこれら2つの組み合わせに基づいている。エンコーダの一実施形態において、所定の順序で(DC係数位置から始めて「ジグザグ」に)値をスキャンするスキャン部631によりスキャンして、一連の表示レベルを生成する。一連の表示レベルは、一連の非ゼロ値の終わりを示す符号(「ブロック終了」)とともに、ランレングス符号化部632に送られる。そのランレングス符号化部632は、表示レベルの値及びその後の同じ値の繰り返し回数に対して一意的な符号を生成する。これらの符号の2値シンボルの数は、ビデオ信号を量子化したコンパクト表現が得られるように決められる。結合部633は、ビデオ信号の輝度成分及びクロミナンス成分の両方について、各ブロックのDC係数とブロックごとのAC係数を表す2値シンボルのストリームを結合する。色成分、8×8ブロック、及びフレームごとの多重化の順序は、知覚的に最も関係のあるデータが先に送信されるように決められる。結合部により生成された多重化ビットストリームは、元のビデオ信号のコンパクト表現となる。
図7を参照して、本発明の一実施形態によるキーフレームデコーダを説明する。このデコーダは可変長デコーダ710、逆量子化部720、及び逆デコリレーション部730により構成されている。可変長デコーダ710は、逆多重化プロセスを実行して色成分、8×8ブロック、及び係数と関連したデータを取得する分離部711により構成される。ランレングス復号部712は、8×8ブロックごとにAC係数の表示レベルを回復する。
逆量子化部720は、所定の量子化マトリックス721を用いて、回復部722を用いて表示レベルから元の係数値の近似値を回復する。
逆デコリレーション部730は、デコリレーション部610の逆動作であり、同一の入力ビデオ信号またはその最善の近似値を得る。デコーダの一実施形態において、DCT部612のDCT機能と対応する逆DCT機能731を適用し、DPCMエンコーダ部613と対応するDPCMデコーダ732を適用する。配布部733は、復号された輝度ピクセル値及びクロミナンスピクセル値の8×8ブロックを、取得部611により取得したのと同じ所定順序で、適当な位置に配置する。
図8及び図2を参照して、実施例により、時間的階層化されたエンコーダ800を説明する。図示した符号化システム800は、時間的階層化圧縮を行い、それにより、チャネルの一部を用いてキーフレームだけを提供し、チャネルの他の部分を用いて失われた補完フレームを送信し、結合信号が元のフレームレートのビデオ信号となるようにする。重要シーン検出器230、801は、元のビデオを処理し、キーフレームを特定する信号を生成する。通常のMPEGエンコーダ802は、どの標準エンコーダ(MPEG-1、MPEG-2、MPEG-4ASP、H.261、H.262、H.264としても知られているMPEG-4AVC)としても機能し、元のビデオを受信して、それをMPEGに準拠して符号化するが、その特徴は、検出器801からのキーフレーム識別信号によりエンコーダが適当なフレームをPまたはBフレームとしてではなくIフレームとして処理する。適当なフレームとは、意図的なPフレームだけがIフレームで置き換えられることを意味する。Bフレームを置き換えるには、すでに符号化された先行するBフレームを再計算しなければならない。MPEGエンコーダは、不規則なGOP構造を有している場合があるにもかかわらず、I、P、Bフレームすべてを有するMPEG準拠ビットストリームを生成する。
キーフレームフィルタ803は、MPEGビットストリーム、キーフレーム識別信号を受信し、ベースストリームとエンハンスメントストリームを生成する。ベースストリームはイントラ符号化キーフレームにより構成されている。そのキーフレームはタイムスタンプされたIフレームを有するMPEG準拠ストリームである。エンハンスメントストリームはイントラ符号化フレームとインター符号化フレームの両方により構成されている。タイムスタンプされたI、P、Bフレームを有するMPEG準拠ストリームであり、「キーフレーム」で特定されたIフレームがないという特徴を有する。キーフレームを送信する決定は、現在のMPEGフレームの予測タイプのみではなく、キーフレーム識別信号にも基づく。現在のフレームがBフレームの場合、それに続くIフレームとPフレームはベースストリームで送信される。キーフレーム特定とキーフレーム送信の間のレイテンシは、一般的に小さく、間違ったシーンのフレームが送信されることはない。
ベースデコーダは、タイムスタンプされたキーフレームを有するMPEG準拠ベースストリームを受信し、そのフレームを復号し、適当な時にそのフレームを表示する。階層化デコーダは、図9に示したようなベース及びエンハンスメントストリームを結合する結合部を有する。ベースストリーム901はベースデコーダ902に送られ、復号される。復号されたベースストリームは、アップコンバータ904によりアップコンバートされ、加算部906に送られる。エンハンスメントストリーム903はデコーダ908により復号される。復号されたエンハンスメントストリームは、アップコンバートされたベースストリームに加算部906により加算され、最終的な表示用ビデオ信号が生成される。すべてのフレームを有するMPEG準拠ビデオストリームが生成され、通常のMPEGデコーダが元のフレームレートで復号ビデオ信号を取得することができる。
このアプリケーションでは、送信されたキーフレームは一般的には時間的に等間隔ではない。信号では、オーディオとキーフレームの時間の間には、明らかな意味的カップリングがある。利用可能なチャネル帯域幅を最適に利用するために、キーフレームをそれが表示される十分前に送信してもよい。情報を受信者に提示する時にオーディオとキーフレーム間の意味的カップリングを回復することが重要である。こうして、メッセージの意味が通信チャネルを介してできるだけ保存される。これを実現するために、データストリームを符号化中にタイムスタンプをキーフレームに付加する。復号の際、タイムスタンプを用いて、どの時点でキーフレームを表示(及び前に表示したキーフレームを置換)する必要があるかを判断する。結果として、タイムスタンプによりキーフレームがオーディオと同期させられる。
本発明の一実施形態によると、インターラクティブ通信システムにおいて本発明を用いて、ユーザは自分のポータブル電子装置で受信したい情報のタイプを特定することができる。図10にそのインターラクティブ通信システム1000の実施例を示した。ユーザは、電子ポータブル装置1002を用いて、声、SMS等を介してメッセージをシステム1000に送信し、いくつかの異なるトピックスに関するユーザ情報を送信するようシステムに要求する。この例では、ユーザが「イスラエルに関するニュース」をシステム1000に要求する。その要求はレシーバ1004により受信され、コンピュータ1006に送られる。コンピュータ1006はその要求を復号し、要求されている情報のタイプを判断する。コンピュータ1006は、その要求に関するビデオ情報のデータベース1008をサーチする。言うまでもなく、データベース1008はシステム1000の中にあってもよいし、システム1000とは離れていてもよく、コンピュータ1006は1以上の計算エレメントを有していてもよい。その要求に関係するデータベース中の情報がコンテント制御サマリー抽出装置1010に送られる。コンテント制御サマリー抽出装置102は、データベースからそのビデオ情報を受信し、ビデオ情報中の重要シーンのストーリーボードを生成する。サマリー/オーディオ同期装置1012を用いて、コンテント制御サマリー抽出装置1010により生成されたサマリーストーリーボードを、データベースからのビデオ情報に付随した対応する連続的オーディオ信号と同期させる。ストーリーボード信号及びオーディオ信号は、圧縮部1014で結合される。圧縮された信号はトランスミッタ1016により送信され、ユーザのポータブル電子装置1002により受信される。圧縮された信号はポータブル電子装置1002で復号及び表示される。当業者には言うまでもなく、上記の実施形態を実施するために使用するプログラムステップ及び関連データは、本発明から逸脱することなく、ディスク記憶装置その他の記憶装置を用いて実施することができる。その記憶装置には、リードオンリーメモリ(ROM)デバイス、ランダムアクセスメモリ(RAM)デバイス、光記憶エレメント、磁気記憶エレメント、光磁気記憶エレメント、フラッシュメモリ、コアメモリ、及び/またはその他の均等な記憶技術を含むが、これに限定はされない。このような代替的記憶デバイスは均等物であると考えられる。
言うまでもなく、本発明の別の実施形態は、上記のステップの順序に必ずしも限定されず、本発明の全体的動作に影響を与えることなく、一部のステップのタイミングを変更することができる。さらにまた、「1つの」という言葉は複数の場合を排除するものではない。
留意すべきことは、上記の実施形態は本発明を例示するものであり、限定するものではなく、当業者は添付したクレームの範囲から逸脱することなく多数の別の実施形態を設計することができるであろうということである。クレームにおいて、括弧内に記載した参照符号はそのクレームを限定していると解してはならない。「有する」という言葉は、クレームに挙げられている以外の他のエレメントやステップの存在を排除するものではない。本発明は、複数の異なるエレメントを有するハードウェアにより実施可能であり、好適にプログラムされたコンピュータによっても実施可能である。複数の手段を列挙した装置クレームにおいて、その手段の一部を1つの同じハードウェアアイテムにより実施することができる。複数の手段が別々の従属クレームに記載されていても、その手段を組み合わせることができないという意味ではない。
Claims (16)
- 伝送のためビデオ信号を圧縮する装置であって、
入力ビデオデータからコンテント制御サマリーを生成する手段と、
前記コンテント制御サマリーを連続的オーディオ信号と同期させる手段と、
伝送のため上記サマリーを前記連続的オーディオとともに符号化する手段と、を有することを特徴とする装置。 - 請求項1に記載の装置であって、
前記符号化した信号を送信する手段をさらに有することを特徴とする装置。 - 請求項1に記載の装置であって、
前記コンテント制御サマリーがキーフレーム検出を用いて生成されることを特徴とする装置。 - 請求項1に記載の装置であって、
前記コンテント制御サマリー手段がビットレート制御ループにより制御されることを特徴とする装置。 - 請求項1に記載の装置であって、
前記コンテント制御サマリーと前記連続的オーディオ信号が実質的に一定のビットレートストリームに圧縮されることを特徴とする装置。 - 請求項1に記載の装置であって、
適切な復号を保証するため、タイムスタンプを前記同期された信号に挿入することを特徴とする装置。 - 伝送のためビデオ信号を圧縮する方法であって、
入力ビデオデータからコンテント制御サマリーを生成する段階と、
前記コンテント制御サマリーを連続的オーディオ信号と同期させる段階と、
伝送のため上記サマリーを前記連続的オーディオとともに符号化する段階と、を有することを特徴とする方法。 - コンピュータに請求項7に記載の方法を実行させる命令を格納したコンピュータ記憶媒体。
- ユーザにより要求された情報を供給するインターラクティブ通信システムであって、
前記ユーザから情報要求を受け取る手段と、
前記要求された情報を求めてデータベースを検索して、前記データベースから前記要求された情報を抽出する手段と、
前記抽出された情報のコンテント制御サマリーを生成する手段と、
前記コンテント制御サマリーを連続的オーディオ信号と同期させる手段と、
伝送のため前記サマリーを前記連続的オーディオとともに符号化する手段と、を有すること特徴とするシステム。 - インターラクティブ通信システムにおいてユーザにより要求された情報を供給する方法であって、
前記ユーザから情報要求を受け取る段階と、
前記要求された情報を求めてデータベースを検索して、前記データベースから前記要求された情報を抽出する段階と、
前記抽出された情報のコンテント制御サマリーを生成する段階と、
前記コンテント制御サマリーを連続的オーディオ信号と同期させる段階と、
伝送のため前記サマリーを前記連続的オーディオとともに符号化する段階と、を有すること特徴とする方法。 - 通信システムにおいてオーディオ/ビデオ情報を搬送するビットストリームであって、
オーディオストリームと、
入力ビデオ信号のキーフレームから生成されたコンテントビデオサマリーストリームとを有し、
ブロードキャストのため前記オーディオストリームが前記ビデオサマリーストリームと同期していることを特徴とするビットストリーム。 - オーディオストリームと、
入力ビデオ信号のキーフレームから生成されたコンテントビデオサマリーストリームとを有し、
ブロードキャストのため前記オーディオストリームが前記ビデオサマリーストリームと同期していることを特徴とする記憶媒体。 - 受信した情報ストリームを復号するデコーダであって、
前記情報ストリーム中のベースストリームを復号する手段と、
前記復号されたベースストリームをアップコンバートする手段と、
前記情報ストリーム中のエンハンスメントストリームを復号する手段と、
前記アップコンバートされたベースストリームと前記エンハンスメントストリームを結合する手段と、を有し、
結合された信号がオーディオストリームと同期された静止ビデオ画像を有することを特徴とするデコーダ。 - 受信した情報ストリームを復号する方法であって、
前記情報ストリーム中のベースストリームを復号する段階と、
前記復号されたベースストリームをアップコンバートする段階と、
前記情報ストリーム中のエンハンスメントストリームを復号する段階と、
前記アップコンバートされたベースストリームと前記エンハンスメントストリームを結合する段階と、を有し、
結合された信号がオーディオストリームと同期された静止ビデオ画像を有することを特徴とする方法。 - オーディオストリームと入力ビデオ信号のキーフレームから生成されたコンテントビデオサマリーストリームとを搬送するビットストリームを復号する方法であって、
前記オーディオストリームが前記ビデオサマリーストリームと同期されており、
前記方法が
前記オーディオストリームを復号する段階と、
前記ビデオサマリーストリームを復号する段階と、
前記ビットストリームにより示されたように同期させて、前記復号されたオーディオストリームと前記復号されたビデオサマリーストリームを再生する段階と、を有することを特徴とする方法。 - オーディオストリームと入力ビデオ信号のキーフレームから生成されたコンテントビデオサマリーストリームとを搬送するビットストリームを復号する装置であって、
前記オーディオストリームが前記ビデオサマリーストリームと同期されており、
前記デコーダが
前記オーディオストリームを復号する手段と、
前記ビデオサマリーストリームを復号する手段と、
前記ビットストリームにより示されたように同期させて、前記復号されたオーディオストリームと前記復号されたビデオサマリーストリームを再生する手段と、を有することを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03101665 | 2003-06-06 | ||
PCT/IB2004/050783 WO2004110069A1 (en) | 2003-06-06 | 2004-05-27 | Video compression |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006527518A true JP2006527518A (ja) | 2006-11-30 |
Family
ID=33495633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006508463A Pending JP2006527518A (ja) | 2003-06-06 | 2004-05-27 | ビデオ圧縮 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060209947A1 (ja) |
JP (1) | JP2006527518A (ja) |
KR (1) | KR20060036922A (ja) |
WO (1) | WO2004110069A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012156652A (ja) * | 2011-01-24 | 2012-08-16 | Panasonic Corp | 動画伝送システム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070058614A1 (en) * | 2004-06-30 | 2007-03-15 | Plotky Jon S | Bandwidth utilization for video mail |
US7826536B2 (en) * | 2005-12-29 | 2010-11-02 | Nokia Corporation | Tune in time reduction |
EP1827009A1 (en) * | 2006-02-28 | 2007-08-29 | Matsushita Electric Industrial Co., Ltd. | Video encoder and decoder for an improved zapping service for mobile video reception |
JP4994698B2 (ja) * | 2006-04-13 | 2012-08-08 | キヤノン株式会社 | 情報伝送装置及び情報伝送方法 |
KR100776415B1 (ko) * | 2006-07-18 | 2007-11-16 | 삼성전자주식회사 | 동영상 재생 방법 및 그 시스템 |
US20100231582A1 (en) * | 2009-03-10 | 2010-09-16 | Yogurt Bilgi Teknolojileri A.S. | Method and system for distributing animation sequences of 3d objects |
CN102196303B (zh) * | 2010-03-02 | 2014-03-19 | 中兴通讯股份有限公司 | 一种媒体同步的方法和系统 |
ITVI20120104A1 (it) * | 2012-05-03 | 2013-11-04 | St Microelectronics Srl | Metodo e apparato per generare in tempo reale uno storyboard visuale |
CN104780422B (zh) * | 2014-01-13 | 2018-02-16 | 北京兆维电子(集团)有限责任公司 | 流媒体播放方法及流媒体播放器 |
CN107517400B (zh) * | 2016-06-15 | 2020-03-24 | 成都鼎桥通信技术有限公司 | 流媒体播放方法及流媒体播放器 |
CN108632557B (zh) * | 2017-03-20 | 2021-06-08 | 中兴通讯股份有限公司 | 一种音视频同步的方法及终端 |
CN108171763B (zh) * | 2018-01-15 | 2021-08-13 | 珠海市杰理科技股份有限公司 | 解码系数的存取方法和系统、jpeg解码系数的存取方法 |
CN113747235B (zh) * | 2021-10-09 | 2023-09-19 | 咪咕文化科技有限公司 | 一种视频处理方法、装置及设备 |
CN116800976B (zh) * | 2023-07-17 | 2024-03-12 | 武汉星巡智能科技有限公司 | 伴睡婴幼儿时音视频压缩和还原方法、装置及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6496228B1 (en) * | 1997-06-02 | 2002-12-17 | Koninklijke Philips Electronics N.V. | Significant scene detection and frame filtering for a visual indexing system using dynamic thresholds |
EP1201088B1 (en) * | 1999-07-30 | 2005-11-16 | Indinell Sociedad Anonima | Method and apparatus for processing digital images and audio data |
US6493386B1 (en) * | 2000-02-02 | 2002-12-10 | Mitsubishi Electric Research Laboratories, Inc. | Object based bitstream transcoder |
US7463683B2 (en) * | 2000-10-11 | 2008-12-09 | Koninklijke Philips Electronics N.V. | Method and apparatus for decoding spatially scaled fine granular encoded video signals |
-
2004
- 2004-05-27 KR KR1020057023456A patent/KR20060036922A/ko not_active Application Discontinuation
- 2004-05-27 US US10/559,559 patent/US20060209947A1/en not_active Abandoned
- 2004-05-27 JP JP2006508463A patent/JP2006527518A/ja active Pending
- 2004-05-27 WO PCT/IB2004/050783 patent/WO2004110069A1/en not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012156652A (ja) * | 2011-01-24 | 2012-08-16 | Panasonic Corp | 動画伝送システム |
Also Published As
Publication number | Publication date |
---|---|
KR20060036922A (ko) | 2006-05-02 |
US20060209947A1 (en) | 2006-09-21 |
WO2004110069A1 (en) | 2004-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5946043A (en) | Video coding using adaptive coding of block parameters for coded/uncoded blocks | |
US6466697B1 (en) | Data structure for image transmission, image coding method, and image decoding method | |
CN101232618B (zh) | 用于在视频编码系统中指示量化器参数的方法与设备 | |
EP1709801B1 (en) | Video Decoding Method Using Adaptive Quantization Matrices | |
CN101889447B (zh) | 扩展avc标准以与视频串行地对高分辨率数字静止画面编码 | |
JP4928726B2 (ja) | ビデオストリーム中の有効エントリポイントの指示 | |
KR20060045712A (ko) | 이미지 및 비디오의 예측 무손실 코딩 방법 | |
US20060274833A1 (en) | Text recognition during video compression | |
EP2055106A2 (en) | Techniques for variable resolution encoding and decoding of digital video | |
KR20100042632A (ko) | 비디오 인덱싱 방법, 및 비디오 인덱싱 디바이스 | |
JP2006527518A (ja) | ビデオ圧縮 | |
KR20110063004A (ko) | 키 프레임 추출 장치 및 방법과 이를 이용한 방송 녹화 장치 및 방법 | |
KR101323732B1 (ko) | 영상 부호화장치 및 방법과 그 복호화장치 및 방법 | |
JPH09200695A (ja) | 高速再生のためのビデオデータの復号化方法及びその装置 | |
JP2004241869A (ja) | 透かし埋め込み及び画像圧縮部 | |
JP2018513617A (ja) | ビデオ符号化システムにおける動きベクトルの選択及び予測方法 | |
KR100394013B1 (ko) | 비디오 스냅 영상용 변환 부호화 장치 | |
KR20190067577A (ko) | 데이터 인코딩 및 디코딩 장치와 방법 | |
KR100256648B1 (ko) | 영상 부호화 시스템의 압축 정보 포맷 | |
MEMORY | Si MACROBLOCKS Q | |
JPH1093917A (ja) | 画像処理装置 | |
JP4212127B2 (ja) | 符号化装置、復号装置および再符号化装置ならびに符号化方法、復号方法および再符号化方法 | |
Hosur et al. | Enhanced Frame-based Video Coding to Support Content-based Functionalities | |
Reed | Improvement of MPEG-2 compression by position-dependent encoding | |
JPH0775063A (ja) | 画像又は動画記録方法、記録装置、再生装置、及び送出装置 |