JP2009532741A6 - Preprocessor method and apparatus - Google Patents

Preprocessor method and apparatus Download PDF

Info

Publication number
JP2009532741A6
JP2009532741A6 JP2009504372A JP2009504372A JP2009532741A6 JP 2009532741 A6 JP2009532741 A6 JP 2009532741A6 JP 2009504372 A JP2009504372 A JP 2009504372A JP 2009504372 A JP2009504372 A JP 2009504372A JP 2009532741 A6 JP2009532741 A6 JP 2009532741A6
Authority
JP
Japan
Prior art keywords
frame
video
information
metadata
progressive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009504372A
Other languages
Japanese (ja)
Other versions
JP2009532741A (en
Inventor
ティアン、タオ
リウ、ファン
シ、ファン
ラビーンドラン、ビジャヤラクシュミ・アール.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority claimed from PCT/US2007/063929 external-priority patent/WO2007114995A1/en
Publication of JP2009532741A publication Critical patent/JP2009532741A/en
Publication of JP2009532741A6 publication Critical patent/JP2009532741A6/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

本発明は、一般に、マルチメディアデータ処理に関し、より詳細には、データ圧縮処理に先立ってまたはデータ圧縮処理と同時に実行される処理操作に関する。マルチメディアデータを処理する方法は、インタレースビデオフレームを受信することと、インタレースビデオフレームのメタデータを取得することと、メタデータの少なくとも一部を使用してインタレースビデオフレームをプログレッシブビデオに変換することと、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供することとを含む。前記方法は、インタレースビデオフレームの空間情報および双方向動き情報を生成することと、空間情報および双方向動き情報を使用してインタレースビデオフレームに基づいてプログレッシブビデオを生成することも含むことができる。The present invention relates generally to multimedia data processing and, more particularly, to processing operations performed prior to or concurrently with data compression processing. A method of processing multimedia data includes receiving an interlaced video frame, obtaining metadata for the interlaced video frame, and converting the interlaced video frame to progressive video using at least a portion of the metadata. Converting and providing the encoder with the progressive video and at least a portion of the metadata for use in encoding the progressive video. The method may also include generating spatial information and bi-directional motion information for an interlaced video frame and generating progressive video based on the interlaced video frame using the spatial information and the bi-directional motion information. it can.

Description

優先権の主張Priority claim

本特許出願は、2006年4月3日に出願された仮出願第60/789,048号、2006年4月4日に出願された仮出願第60/789,266号、および2006年4月4日に出願された仮出願第60/789,377号の優先権を主張し、上記の仮出願のすべては、本発明の譲受人に譲渡されており、参照により本明細書に明示的に組み込まれる。   This patent application includes provisional application 60 / 789,048 filed April 3, 2006, provisional application 60 / 789,266 filed April 4, 2006, and April 2006. Claiming priority of provisional application 60 / 789,377 filed on the 4th, all of the above provisional applications are assigned to the assignee of the present invention and are expressly incorporated herein by reference. Incorporated.

本発明は、一般に、マルチメディアデータ処理に関し、より詳細には、データ圧縮処理に先立ってまたはデータ圧縮処理と同時に実行される処理操作に関する。   The present invention relates generally to multimedia data processing and, more particularly, to processing operations performed prior to or concurrently with data compression processing.

仮出願第60/789,048号Provisional Application No. 60 / 789,048 仮出願第60/789,266号Provisional Application No. 60 / 789,266 仮出願第60/789,377号Provisional Application No. 60 / 789,377 P.Haavisto、J.Juhola、Y.Neuvo、「Scan rate up−conversion using adaptive weighted median filtering」、Signal Processing of HDTV II、703〜710ページ、1990年P. Haavisto, J.M. Juhola, Y. et al. Neuvo, “Scan rate up-conversion using adaptive media filtering”, Signal Processing of HDTV II, pages 703-710, 1990. R.Simonetti、S.Carrato、G.Ramponi、A.Polo Filisan、「Deinterlacing of HDTV Images for Multimedia Applications」、Signal Processing of HDTV IV、765〜772ページ、1993年R. Simonetti, S.M. Carrato, G.G. Ramponi, A.M. Polo Filisan, “Deinterlacing of HDTV Images for Multimedia Applications”, Signal Processing of HDTV IV, pages 765-772, 1993 D.L.Donoho、I.M.Johnstone、「Ideal spatial adaptation by wavelet shrinkage」、Biometrika、vol.8、425〜455ページ、1994年D. L. Donoho, I.D. M.M. Johnstone, “Ideal spatial adaptation by wavelet shrinkage”, Biometrica, vol. 8, pp. 425-455, 1994 S.P.Ghael、A.M.Sayeed、R.G.Baraniuk、「Improvement Wavelet denoising via empirical Wiener filtering」、Proceedings of SPIE、vol 3169、389〜399ページ、San Diego、1997年7月S. P. Ghael, A.M. M.M. Sayeded, R.M. G. Baraniuk, "Improvement Wavelet denoising via Emperor Wiener filtering", Proceedings of SPIE, vol 3169, pages 389-399, San Diego, July 1997. G.D.Haan、E.B.Bellersの「De−interlacing of video data」、IEEE Transactions on Consumer Electronics、Vol.43、No.3、819〜825ページ、1997年G. D. Haan, E .; B. Bellers, “De-interlacing of video data”, IEEE Transactions on Consumer Electronics, Vol. 43, no. 3, pp. 819-825, 1997 Specifications for Safe Action and Safe Title Areas Test Pattern for Television Systems、SMPTE推奨実践RP27.3−1989Specification for Safe Action and Safe Title Area Test Pattern for Television Systems, SMPTE Recommended Practice RP 27.3-1989

発明の概要Summary of the Invention

本明細書で説明される本発明の装置および方法は各々、いくつかの態様を有し、それらの1つが単独で、その望ましい属性に責任を負うことはない。本発明の範囲を限定することなく、そのより顕著な特徴が、今から簡潔に説明される。この説明を考察した後、特に「詳細な説明」と題するセクションを読んだ後、読者は、本発明の特徴が、どのようにマルチメディアデータ処理装置および方法に改良を提供するかを理解するであろう。   Each of the inventive devices and methods described herein have several aspects, one of which is by no means responsible for its desired attributes. Without limiting the scope of the invention, its more prominent features will now be briefly described. After reviewing this description, and particularly after reading the section entitled “Detailed Description”, the reader will understand how the features of the present invention provide improvements to multimedia data processing apparatus and methods. I will.

一態様では、マルチメディアデータを処理する方法は、インタレースビデオフレームを受信することと、インタレースビデオフレームをプログレッシブビデオに変換することと、プログレッシブビデオに関連するメタデータを生成することと、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供することとを備える。前記方法は、メタデータを使用してプログレッシブビデオを符号化することをさらに含むことができる。いくつかの態様では、インタレースビデオフレームは、NTSCビデオを備える。ビデオフレームを変換することは、インタレースビデオフレームをデインタレースすることを含むことができる。   In one aspect, a method of processing multimedia data includes receiving an interlaced video frame, converting the interlaced video frame to progressive video, generating metadata associated with the progressive video, and progressive Providing progressive video and at least a portion of the metadata to the encoder for use in encoding the video. The method can further include encoding progressive video using metadata. In some aspects, the interlaced video frame comprises NTSC video. Converting the video frame may include deinterlacing the interlaced video frame.

いくつかの態様では、メタデータは、帯域幅情報、双方向動き情報、比帯域、時間もしくは空間複雑さの値またはその両方などの複雑さの値、ルミナンス情報を含むことができ、空間情報は、ルミナンスおよび/またはクロミナンス情報を含むことができる。前記方法は、インタレースビデオフレームの空間情報および双方向動き情報を生成することと、空間情報および双方向動き情報を使用してインタレースビデオフレームに基づいてプログレッシブビデオを生成することも含むことができる。いくつかの態様では、インタレースビデオフレームを変換することは、3/2プルダウンビデオフレームを逆テレシネすること、および/またはプログレッシブビデオをリサイズすることを備える。前記方法は、グループオブピクチャ情報を決定するためにプログレッシブビデオを区分化することをさらに備えることができ、区分化は、プログレッシブビデオのショット検出を含むことができる。いくつかの態様では、前記方法は、雑音低減フィルタを用いるプログレッシブビデオも含む。   In some aspects, the metadata can include bandwidth information, bidirectional motion information, specific bandwidth, complexity values such as time or space complexity values, or both, and luminance information, , Luminance and / or chrominance information. The method may also include generating spatial information and bi-directional motion information for an interlaced video frame and generating progressive video based on the interlaced video frame using the spatial information and the bi-directional motion information. it can. In some aspects, converting the interlaced video frame comprises inverse telecine the 3/2 pull-down video frame and / or resizing the progressive video. The method can further comprise segmenting the progressive video to determine group of picture information, wherein the segmentation can include progressive video shot detection. In some aspects, the method also includes progressive video using a noise reduction filter.

別の態様では、マルチメディアデータを処理するための装置は、インタレースビデオフレームを受信するように構成される受信器と、インタレースビデオフレームをプログレッシブビデオに変換するように構成されるデインタレーサと、プログレッシブビデオに関連するメタデータを生成し、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータとを符号器に提供するように構成されるパーティショナとを含むことができる。いくつかの態様では、前記装置は、プログレッシブビデオを通信モジュールから受信し、提供されたメタデータを使用してプログレッシブビデオを符号化するように構成される符号器をさらに含むことができる。デインタレーサは、時空間デインタレースおよび/または逆テレシネを実行するように構成することができる。パーティショナは、ショット検出を実行し、ショット検出に基づいて圧縮情報を生成するように構成することができる。いくつかの態様では、パーティショナは、帯域幅情報を生成するように構成することができる。前記装置は、プログレッシブフレームをリサイズするように構成されるリサンプラも含むことができる。メタデータは、帯域幅情報、双方向動き情報、比帯域、ルミナンス情報、コンテンツに関係する空間複雑さの値、および/またはコンテンツに関係する時間複雑さの値を含むことができる。いくつかの態様では、デインタレーサは、インタレースビデオフレームの空間情報および双方向動き情報を生成し、空間情報および双方向動き情報を使用してインタレースビデオフレームに基づいてプログレッシブビデオを生成するように構成される。   In another aspect, an apparatus for processing multimedia data includes a receiver configured to receive interlaced video frames, a deinterlacer configured to convert interlaced video frames into progressive video, A partitioner configured to generate metadata associated with the progressive video and to provide the progressive video and the metadata to the encoder for use in encoding the progressive video. In some aspects, the apparatus can further include an encoder configured to receive progressive video from the communication module and encode the progressive video using the provided metadata. The deinterlacer can be configured to perform space-time deinterlacing and / or inverse telecine. The partitioner can be configured to perform shot detection and generate compression information based on the shot detection. In some aspects, the partitioner can be configured to generate bandwidth information. The apparatus can also include a resampler configured to resize the progressive frame. The metadata may include bandwidth information, bidirectional motion information, specific bandwidth, luminance information, spatial complexity values related to content, and / or temporal complexity values related to content. In some aspects, the deinterlacer generates spatial information and bidirectional motion information for interlaced video frames, and uses the spatial information and bidirectional motion information to generate progressive video based on the interlaced video frames. Composed.

別の態様は、インタレースビデオフレームを受信するための手段と、インタレースビデオフレームをプログレッシブビデオに変換するための手段と、プログレッシブビデオに関連するメタデータを生成するための手段と、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供するための手段とを含む、マルチメディアデータを処理するための装置を備える。いくつかの態様では、変換手段は、逆テレシネ器および/または時空間デインタレーサを備える。いくつかの態様では、生成手段は、ショット検出を実行し、ショット検出に基づいて圧縮情報を生成するように構成される。いくつかの態様では、生成手段は、帯域幅情報を生成するように構成される。いくつかの態様では、生成することは、プログレッシブフレームをリサイズするためにリサンプリングするための手段を含む。   Another aspect includes means for receiving an interlaced video frame, means for converting the interlaced video frame into progressive video, means for generating metadata associated with the progressive video, An apparatus for processing multimedia data, comprising means for providing progressive video and at least a portion of metadata to an encoder for use in encoding. In some aspects, the conversion means comprises an inverse telecine device and / or a space-time deinterlacer. In some aspects, the generating means is configured to perform shot detection and generate compression information based on the shot detection. In some aspects, the generating means is configured to generate bandwidth information. In some aspects, generating includes means for resampling to resize the progressive frame.

別の態様は、マルチメディアデータを処理するための命令を備える機械可読媒体を備え、前記命令は実行された時に、機械にインタレースビデオフレームを受信させ、インタレースビデオフレームをプログレッシブビデオに変換させ、プログレッシブビデオに関連するメタデータを生成させ、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供させる。   Another aspect comprises a machine-readable medium comprising instructions for processing multimedia data, said instructions causing the machine to receive interlaced video frames and convert the interlaced video frames to progressive video when executed. And generating metadata associated with the progressive video and providing the encoder with the progressive video and at least a portion of the metadata for use in encoding the progressive video.

別の態様は、インタレースビデオを受信し、インタレースビデオをプログレッシブビデオに変換し、プログレッシブビデオに関連するメタデータを生成し、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供するための構成を備えるプロセッサを含む。インタレースビデオの変換は、時空間デインタレースを実行することを含むことができる。いくつかの態様では、インタレースビデオの変換は、逆テレシネを実行することを備える。いくつかの態様では、メタデータの生成は、ショット変化の検出に基づいて圧縮情報を生成することを含む。いくつかの態様では、メタデータの生成は、プログレッシブビデオの圧縮情報を決定することを含む。いくつかの態様では、前記構成は、リサイズされたプログレッシブフレームを生成するためにビデオをリサンプルための構成を含む。いくつかの態様では、メタデータは、帯域幅情報、双方向動き情報、コンテンツに基づいた時間もしくは空間複雑さ情報などの複雑さ情報、および/または圧縮情報を含むことができる。   Another aspect is to receive interlaced video, convert the interlaced video to progressive video, generate metadata associated with the progressive video, and use progressive video and metadata for use in encoding progressive video. Including a processor having a configuration for providing at least a portion of The conversion of interlaced video can include performing space-time deinterlacing. In some aspects, interlaced video conversion comprises performing inverse telecine. In some aspects, generating metadata includes generating compression information based on shot change detection. In some aspects, generating metadata includes determining compression information for progressive video. In some aspects, the configuration includes a configuration for resampling a video to generate a resized progressive frame. In some aspects, the metadata may include bandwidth information, interactive motion information, complexity information such as content-based temporal or spatial complexity information, and / or compression information.

詳細な説明Detailed description

以下の説明は、例の完全な理解を提供するための詳細を含む。しかし、一例または一態様におけるプロセスまたはデバイスの詳細の必ずしもすべてが本明細書で説明または図示されていなくても、例が実施され得ることは、当業者であれば理解されよう。例えば、電気的コンポーネントは、不必要な詳細によって例があいまいにならないように、そのコンポーネントの必ずしもすべての電気的接続または電気的エレメントが図示されていないブロック図で示されてよい。他の例では、そのようなコンポーネント、他の構造および技法は、例をさらに説明するために詳細に示されてよい。   The following description includes details to provide a thorough understanding of the examples. However, one of ordinary skill in the art will appreciate that the examples may be practiced even if not all of the details of the process or device in one example or aspect are described or illustrated herein. For example, an electrical component may be shown in a block diagram where not all electrical connections or electrical elements of that component are shown, so that examples are not obscured by unnecessary details. In other examples, such components, other structures and techniques may be shown in detail to further explain the examples.

本発明のある態様、ならびに既存の前処理および符号化システムの性能を改善するプリプロセッサおよびプリプロセッサ動作方法のための態様が、本明細書で説明される。そのようなプリプロセッサは、デインタレース、逆テレシネ、フィルタリング、ショットタイプ識別、メタデータ処理および生成、ならびに帯域幅情報生成を実行することを含む符号化の準備において、メタデータおよびビデオを処理することができる。本明細書における「一態様」、「態様」、「いくつかの態様」、または「ある態様」についての言及は、態様に関係して説明される1つまたは複数の特定の特徴、構造、または特性が、プリプロセッサシステムの少なくとも1つの態様に含まれ得ることを意味する。本明細書の様々な箇所におけるそのような句の出現は、必ずしもすべてが、同じ態様に言及するものではなく、他の態様と相互に排他的な別個または代替態様に言及するものでもない。さらに、いくつかの態様によって提示されることがあり、他の態様によっては提示されないことがある様々な特徴が説明される。同様に、いくつかの態様のステップであることがあり、他の態様のステップではないことがある様々なステップが説明される。   Certain aspects of the present invention, as well as aspects for preprocessors and methods of operating preprocessors that improve the performance of existing preprocessing and encoding systems, are described herein. Such preprocessors process metadata and video in preparation for encoding, including performing deinterlacing, inverse telecine, filtering, shot type identification, metadata processing and generation, and bandwidth information generation. Can do. References herein to “one aspect”, “aspect”, “some aspects”, or “an aspect” are one or more particular features, structures, or structures described in connection with an aspect. It means that the characteristic can be included in at least one aspect of the preprocessor system. The appearances of such phrases in various places in the specification are not necessarily all referring to the same aspect, nor are they referring to separate or alternative aspects that are mutually exclusive with other aspects. Furthermore, various features are described that may be presented in some aspects and not in others. Similarly, various steps are described which may be steps of some aspects and not steps of other aspects.

本明細書で使用される「マルチメディアデータ」または「マルチメディア」は、(オーディオデータを含み得る)ビデオデータ、オーディオデータ、またはビデオデータとオーディオデータの両方を含む広義の用語である。本明細書で使用される「ビデオデータ」または「ビデオ」は、画像、またはテキスト、画像、および/もしくはオーディオデータを含む1つもしくは複数の画像列もしくは系列を指す広義の用語であり、マルチメディアデータを指すために使用することができ、別途指摘されない限り、「マルチメディアデータ」と「ビデオデータ」は、相互交換可能に使用されてよい。   “Multimedia data” or “multimedia” as used herein is a broad term that includes video data (which may include audio data), audio data, or both video and audio data. As used herein, “video data” or “video” is a broad term that refers to an image or one or more image sequences or sequences that contain text, images, and / or audio data, and is a multimedia term. Unless otherwise indicated, “multimedia data” and “video data” may be used interchangeably.

図1は、ストリーミングマルチメディアを送り届けるための通信システム100のブロック図である。そのようなシステムは、図1に示されるような多数の端末へのディジタル圧縮ビデオの伝送において応用を見出す。ディジタルビデオ源は、例えば、ディジタルケーブルもしくは衛星供給、またはディジタル化されるアナログ源とすることができる。ビデオ源は、伝送機構120において処理され、ネットワーク140を介する1つまたは複数の端末160への伝送のために、符号化され、搬送波上に変調される。端末160は、受信したビデオを復号し、典型的にはビデオの少なくとも一部を表示する。ネットワーク140は、符号化データの伝送に適した有線または無線の任意のタイプの通信ネットワークを指す。例えば、ネットワーク140は、セル電話ネットワーク、有線もしくは無線ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)、またはインターネットとすることができる。端末160は、セル電話、PDA、家庭用または商用ビデオ表示機器、コンピュータ(ポータブル、ラップトップ、ハンドヘルド、PC、およびより大規模なサーバベースのコンピュータシステム)、ならびにマルチメディアデータの使用が可能な個人向け娯楽デバイスを含むが、これらに限定されない、データの受信および表示が可能な任意のタイプの通信デバイスとすることができる。   FIG. 1 is a block diagram of a communication system 100 for delivering streaming multimedia. Such a system finds application in the transmission of digitally compressed video to multiple terminals as shown in FIG. The digital video source can be, for example, a digital cable or satellite supply, or an analog source that is digitized. The video source is processed in transmission mechanism 120 and encoded and modulated onto a carrier wave for transmission to one or more terminals 160 over network 140. Terminal 160 decodes the received video and typically displays at least a portion of the video. Network 140 refers to any type of wired or wireless communication network suitable for transmitting encoded data. For example, the network 140 can be a cell phone network, a wired or wireless local area network (LAN) or a wide area network (WAN), or the Internet. Terminal 160 is a cell phone, PDA, home or commercial video display device, computer (portable, laptop, handheld, PC, and larger server-based computer systems), and individuals capable of using multimedia data. It can be any type of communication device capable of receiving and displaying data including, but not limited to, amusement-oriented entertainment devices.

図2および図3は、プリプロセッサ202のサンプル態様を示している。図2では、プリプロセッサ202は、ディジタル伝送機構120内に存在する。復号器201は、ディジタルビデオ源からの符号化データを復号し、メタデータ204およびビデオ205をプリプロセッサ202に提供する。プリプロセッサ202は、あるタイプの処理をビデオ205およびメタデータ204に対して実行し、処理されたメタデータ206(例えば、ベースレイヤ参照フレーム、エンハンスメントレイヤ参照フレーム、帯域幅情報、コンテンツ情報)およびビデオ207を符号器203に提供するように構成される。マルチメディアデータのそのような前処理は、データの視覚的鮮明度、アンチエイリアス、および圧縮効率を向上させることができる。一般に、プリプロセッサ202は、復号器201によって提供されたビデオ系列を受け取り、符号器によるさらなる処理(例えば符号化)のために、ビデオ系列をプログレッシブビデオ系列に変換する。いくつかの態様では、プリプロセッサ202は、逆テレシネ、デインタレース、フィルタリング(例えば、アーチファクト除去、デリンギング、デブロッキング、および雑音低減)、リサイズ(例えば、標準定義からクウォータビデオグラフィックスアレイ(QVGA:Quarter Video Graphics Array)への空間解像度ダウンサンプリング)、ならびにGOP構造生成(例えば、複雑さマップ生成、シーン変化検出、およびフェード/フラッシュ検出の計算)を含む数多くの操作のために構成することができる。   2 and 3 show sample aspects of the preprocessor 202. FIG. In FIG. 2, the preprocessor 202 resides in the digital transmission mechanism 120. Decoder 201 decodes the encoded data from the digital video source and provides metadata 204 and video 205 to preprocessor 202. The preprocessor 202 performs certain types of processing on the video 205 and metadata 204, and processed metadata 206 (eg, base layer reference frames, enhancement layer reference frames, bandwidth information, content information) and video 207. Is provided to the encoder 203. Such preprocessing of multimedia data can improve the visual clarity, antialiasing, and compression efficiency of the data. In general, the preprocessor 202 receives the video sequence provided by the decoder 201 and converts the video sequence to a progressive video sequence for further processing (eg, encoding) by the encoder. In some aspects, the preprocessor 202 may perform inverse telecine, deinterlacing, filtering (eg, artifact removal, deringing, deblocking, and noise reduction), resizing (eg, a standard video graphics array (QVGA) from a standard definition). Spatial resolution downsampling to Video Graphics Array), and GOP structure generation (eg, complexity map generation, scene change detection, and fade / flash detection calculations) can be configured for numerous operations.

図3Aは、受け取ったメタデータ204およびビデオ205に対して前処理操作を実行し、その後、さらなる処理のために、処理されたメタデータ206およびプログレッシブビデオ207を(例えば符号器に)提供するための、モジュールまたはコンポーネント(本明細書ではまとめて「モジュール」と呼ばれる)を用いて構成されるプリプロセッサ202を示している。モジュールは、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実施することができる。プリプロセッサ202は、皆以下でさらに説明される、逆テレシネ301、デインタレーサ302、雑音低減器303、エイリアス抑制器304、リサンプラ305、デブロッカ/デリンガ306、およびGOPパーティショナ307を含む、1つまたは複数の図示されたモジュールを含む、様々なモジュールを含むことができる。プリプロセッサ202は、メモリ308および通信モジュール309を含む、ビデオおよびメタデータを処理するために使用できる他の適切なモジュールも含むことができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、着脱可能ディスク、CD−ROM、または当技術分野で知られた他の形態の記憶媒体に存在することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み、記憶媒体に情報を書くことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサに組み込まれてもよい。プロセッサおよび記憶媒体は、ASICに存在することができる。ASICは、ユーザ端末に存在することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内の別個のコンポーネントとして存在することができる。   FIG. 3A performs pre-processing operations on received metadata 204 and video 205, and then provides processed metadata 206 and progressive video 207 (eg, to an encoder) for further processing. 1 illustrates a preprocessor 202 configured with modules or components (collectively referred to herein as “modules”). A module may be implemented in hardware, software, firmware, or a combination thereof. The preprocessor 202 includes one or more of: an inverse telecine 301, a deinterlacer 302, a noise reducer 303, an alias suppressor 304, a resampler 305, a deblocker / deringer 306, and a GOP partitioner 307, all further described below. Various modules can be included, including the modules shown. Preprocessor 202 can also include other suitable modules that can be used to process video and metadata, including memory 308 and communication module 309. A software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM, or other form of storage medium known in the art. it can. An exemplary storage medium is coupled to the processor such that the processor can read information from, and write information to, the storage medium. In the alternative, the storage medium may be integral to the processor. The processor and the storage medium can reside in an ASIC. The ASIC can exist in the user terminal. In the alternative, the processor and the storage medium may reside as discrete components in a user terminal.

図3Bは、マルチメディアデータの処理のためのプロセス300を示す流れ図である。プロセス300は開始すると、ブロック320に進み、インタレースビデオを受信する。図2および図3に示されるプリプロセッサ202は、このステップを実行することができる。いくつかの態様では、復号器(例えば、図2の復号器201)が、インタレースデータを受信し、それをプリプロセッサ202に提供することができる。いくつかの態様では、プリプロセッサ202の一部である、図3Cに示されるデータ受信モジュール330が、このステップを実行することができる。プロセス300は次に、ブロック322に進み、インタレースビデオがプログレッシブビデオに変換される。図2、図3Aのプリプロセッサ202、および図3Cのモジュール332が、このステップを実行することができる。インタレースビデオがテレシネされている場合、ブロック322処理は、プログレッシブビデオを生成するために逆テレシネを実行することを含むことができる。プロセス300は次に、ブロック324に進み、プログレッシブビデオに関連するメタデータを生成する。図3AのGOPパーティショナ307、および図3Cのモジュール334が、そのような処理を実行することができる。プロセス300は次に、ブロック326に進み、プログレッシブビデオとメタデータの少なくとも一部とが、符号化(例えば圧縮)のために符号器に提供される。図2、図3Aに示されるプリプロセッサ202、および図3Cのモジュール336が、このステップを実行することができる。符号化のためにプログレッシブビデオおよび関連するメタデータを別のコンポーネントに提供した後、プロセス300は終了することができる。   FIG. 3B is a flow diagram illustrating a process 300 for processing multimedia data. When process 300 begins, it proceeds to block 320 and receives interlaced video. The preprocessor 202 shown in FIGS. 2 and 3 can perform this step. In some aspects, a decoder (eg, decoder 201 in FIG. 2) may receive interlaced data and provide it to preprocessor 202. In some aspects, the data receiving module 330 shown in FIG. 3C, which is part of the preprocessor 202, can perform this step. Process 300 then proceeds to block 322 where the interlaced video is converted to progressive video. The preprocessor 202 of FIGS. 2, 3A, and the module 332 of FIG. 3C can perform this step. If the interlaced video is telecined, block 322 processing can include performing inverse telecine to generate progressive video. The process 300 then proceeds to block 324 and generates metadata associated with the progressive video. The GOP partitioner 307 in FIG. 3A and the module 334 in FIG. 3C can perform such processing. Process 300 then proceeds to block 326 where progressive video and at least a portion of the metadata are provided to the encoder for encoding (eg, compression). The preprocessor 202 shown in FIGS. 2, 3A, and the module 336 of FIG. 3C can perform this step. After providing progressive video and associated metadata to another component for encoding, the process 300 can end.

図3Cは、マルチメディアデータを処理するための手段を示すブロック図である。ここでは、そのような手段がプリプロセッサ202に組み込まれて示されている。プリプロセッサ202は、モジュール330などの、ビデオを受信するための手段を含む。プリプロセッサ202は、モジュール332などの、インタレースデータをプログレッシブビデオに変換するための手段も含む。そのような手段は、例えば、時空間デインタレーサおよび/または逆テレシネ器を含むことができる。プリプロセッサ202は、モジュール334などの、プログレッシブビデオに関連するメタデータを生成するための手段も含む。そのような手段は、本明細書で説明されるような様々なタイプのメタデータを生成することができるGOPパーティショナ307(図3A)を含むことができる。プリプロセッサ202は、モジュール336によって示されるように、符号化のためにプログレッシブビデオおよびメタデータを符号器に提供するための手段も含む。そのような手段は、いくつかの態様では、図3Aに示される通信モジュール309を含むことができる。当業者であれば理解されるように、そのような手段は、多くの標準的な方法で実施することができる。   FIG. 3C is a block diagram illustrating means for processing multimedia data. Here, such means are shown incorporated in the preprocessor 202. Preprocessor 202 includes means for receiving video, such as module 330. Preprocessor 202 also includes means for converting interlaced data into progressive video, such as module 332. Such means may include, for example, a space-time deinterlacer and / or an inverse telecine device. Preprocessor 202 also includes means for generating metadata related to progressive video, such as module 334. Such means can include a GOP partitioner 307 (FIG. 3A) that can generate various types of metadata as described herein. Preprocessor 202 also includes means for providing progressive video and metadata to the encoder for encoding, as indicated by module 336. Such means may include, in some aspects, the communication module 309 shown in FIG. 3A. As will be appreciated by those skilled in the art, such means can be implemented in a number of standard ways.

プリプロセッサ202は、1つまたは複数の前処理操作のために、取得した(例えば、復号器201または別の源から取得した)メタデータを使用することができる。メタデータは、マルチメディアデータの内容に関係する、内容を説明する、または分類する情報(「コンテンツ情報」)を含むことができる。特に、メタデータは、コンテンツ分類を含むことができる。いくつかの態様では、メタデータは、符号化操作にとって望ましいコンテンツ情報を含まない。そのような場合、プリプロセッサ202は、コンテンツ情報を決定し、そのコンテンツ情報を前処理操作のために使用し、および/またはそのコンテンツ情報を他のコンポーネント、例えば復号器203に提供するように構成することができる。いくつかの態様では、プリプロセッサ202は、GOP区分化に影響を及ぼし、適切なタイプのフィルタリングを決定し、および/または符号器に伝えられる符号化パラメータを決定するために、そのようなコンテンツ情報を使用することができる。   The preprocessor 202 can use the obtained metadata (eg, obtained from the decoder 201 or another source) for one or more preprocessing operations. The metadata can include information relating to the content of the multimedia data, describing the content, or classifying (“content information”). In particular, the metadata can include content classification. In some aspects, the metadata does not include content information that is desirable for the encoding operation. In such cases, preprocessor 202 is configured to determine content information, use the content information for pre-processing operations, and / or provide the content information to other components, eg, decoder 203. be able to. In some aspects, the preprocessor 202 may use such content information to influence GOP partitioning, determine an appropriate type of filtering, and / or determine encoding parameters communicated to the encoder. Can be used.

図4は、プリプロセッサに含まれ得るプロセスブロックの説明的な一例を示しており、プリプロセッサ202によって実行され得る処理を図説している。この例では、プリプロセッサ202は、メタデータおよびビデオ204、205を受け取り、(処理された)メタデータおよびビデオを備える出力データ206、207を符号器228に提供する。一般に、プリプロセッサによって受け取られるビデオには3つのタイプが存在する。第1に、受け取られたビデオは、プログレッシブビデオとすることができ、デインタレースは、実行される必要がない。第2に、ビデオデータは、24fps映画系列から変換されたテレシネ化されたインタレースビデオとすることができ、この場合、ビデオ。第3に、ビデオは、テレシネされていないインタレースビデオとすることができる。プリプロセッサ226は、以下で説明されるように、これらのタイプのビデオを処理することができる。   FIG. 4 shows an illustrative example of process blocks that may be included in the preprocessor and illustrates the processing that can be performed by the preprocessor 202. In this example, preprocessor 202 receives metadata and video 204, 205 and provides output data 206, 207 comprising (processed) metadata and video to encoder 228. In general, there are three types of video received by the preprocessor. First, the received video can be progressive video, and deinterlacing does not need to be performed. Secondly, the video data can be telecine interlaced video converted from a 24 fps movie sequence, in this case video. Third, the video can be non-telecine interlaced video. The preprocessor 226 can process these types of video as described below.

ブロック401において、プリプロセッサ202は、受け取ったビデオ204、205がプログレッシブビデオであるかどうかを判定する。ある場合には、これは、メタデータがそのような情報を含むならばメタデータから判定することができ、またはビデオ自体を処理することによって判定することができる。例えば、以下で説明される逆テレシネプロセスは、受け取ったビデオ205がプログレッシブビデオであるかどうかを判定することができる。プログレッシブビデオである場合、プロセスは、ブロック407に進み、白色ガウス雑音などの雑音を低減するために、フィルタリング操作がビデオに対して実行される。ブロック401において、ビデオがプログレッシブビデオではない場合、プロセスは、フェーズ検出器であるブロック404に進む。   In block 401, the preprocessor 202 determines whether the received videos 204, 205 are progressive video. In some cases, this can be determined from the metadata if the metadata includes such information, or can be determined by processing the video itself. For example, the inverse telecine process described below can determine whether the received video 205 is progressive video. If it is progressive video, the process proceeds to block 407 and a filtering operation is performed on the video to reduce noise, such as white Gaussian noise. In block 401, if the video is not progressive video, the process proceeds to block 404, which is a phase detector.

フェーズ検出器604は、テレシネに由来するビデオと、始まりが標準放送フォーマットであるビデオとを弁別する。ビデオはテレシネされたものであるという判定が下された場合(フェーズ検出器404から出て行くYES判定経路)、テレシネビデオは、逆テレシネ406において、元のフォーマットに戻される。冗長フィールドが、識別されて除去され、同じビデオフレームに由来するフィールドが、完全な画像に再び組み立てられる。再構成されたフィルム画像の系列は、1秒の1/24という規則的な間隔で撮影されて記録されたものなので、GOPパーティショナ412または復号器において実行される動き推定プロセスは、テレシネデータではなく、規則的な時間ベースを有する逆テレシネ画像を使用したほうがより正確になる。   The phase detector 604 discriminates between video derived from telecine and video that begins with the standard broadcast format. If a determination is made that the video is telecine (YES decision path exiting from phase detector 404), the telecine video is returned to its original format at inverse telecine 406. Redundant fields are identified and removed, and fields from the same video frame are reassembled into a complete image. Since the sequence of reconstructed film images was taken and recorded at regular intervals of 1/24 of a second, the motion estimation process performed in the GOP partitioner 412 or decoder is Rather, it would be more accurate to use an inverse telecine image with a regular time base.

一態様では、フェーズ検出器404は、ビデオフレームを受け取った後、ある判定を下す。これらの判定は、(i)現在のビデオがテレシネ出力からのものであり、3:2プルダウンフェーズが図5に示される5つのフェーズP、P、P、P、およびPの1つであるかどうか、(ii)ビデオが従来のNTSCとして生成されたものか、を含む。その判定は、フェーズPとして示される。これらの判定は、図4に示されるフェーズ検出器404の出力として現れる。ラベル「YES」をもつフェーズ検出器404からの経路は、逆テレシネ406を作動させ、これは、正しいプルダウンフェーズが提供され、そのフェーズが、同じ撮影画像から形成されたフィールドを選別し、それらを組み合わせることを表す。ラベル「NO」をもつフェーズ検出器404からの経路は、デインタレーサ405を作動させ、最適な処理のために、明らかなNTSCフレームをフィールドに分割する。逆テレシネは、「INVERSE TELECINE ALGORITHM BASED ON STATE MACHINE」と題する同時係属中の米国特許出願[整理番号QFDM.021A(050943)]にさらに記載されており、同出願は、本発明の譲受人によって所有されており、参照によってその全体が本明細書に組み込まれる。 In one aspect, phase detector 404 makes a determination after receiving a video frame. These determinations are: (i) the current video is from the telecine output and the 3: 2 pulldown phase of the five phases P 0 , P 1 , P 2 , P 3 , and P 4 shown in FIG. (Ii) whether the video was generated as a conventional NTSC. Its determination is denoted as phase P 5. These decisions appear as the output of the phase detector 404 shown in FIG. The path from the phase detector 404 with the label “YES” activates the inverse telecine 406, which provides the correct pull-down phase, which sorts out the fields formed from the same captured image and Represents combining. The path from phase detector 404 with the label “NO” activates deinterlacer 405 and divides the apparent NTSC frame into fields for optimal processing. Inverse telecine is a co-pending US patent application entitled “INVERSE TELECINE ALGORITHM BASED ON STATE MACHINE” [Docket No. QFDM. 021A (050943)], which is owned by the assignee of the present invention and is hereby incorporated by reference in its entirety.

フェーズ検出器404は、いつでも異なるタイプのビデオを受け取ることがあり得るので、ビデオフレームを継続的に分析することができる。例えば、NTSC規格に準拠したビデオが、コマーシャルとしてビデオに挿入されることがあり得る。逆テレシネの後、結果のプログレッシブビデオは、白色ガウス雑音を低減するために使用できる雑音低減器(フィルタ)407に送られる。   Since the phase detector 404 can receive different types of video at any time, it can continuously analyze the video frames. For example, a video compliant with the NTSC standard may be inserted into the video as a commercial. After inverse telecine, the resulting progressive video is sent to a noise reducer (filter) 407 that can be used to reduce white Gaussian noise.

従来のNTSCビデオが認識された場合(フェーズ検出器401からのNO経路)、そのビデオは、圧縮のために、デインタレーサ405に伝送される。デインタレーサ405は、インタレースフィールドをプログレッシブビデオに変換し、その後、雑音低減操作が、プログレッシブビデオに対して実行されることができる。   If conventional NTSC video is recognized (NO path from phase detector 401), the video is transmitted to deinterlacer 405 for compression. The deinterlacer 405 converts the interlaced field into progressive video, and then a noise reduction operation can be performed on the progressive video.

適切な逆テレシネまたはデインタレース処理の後、ブロック408において、プログレッシブビデオは、エイリアス抑制およびリサンプリング(例えばリサイズ)のための処理が施される。   After appropriate inverse telecine or deinterlacing processing, at block 408, the progressive video is subjected to processing for alias suppression and resampling (eg, resizing).

リサンプリングの後、プログレッシブビデオは次に、ブロック410に進み、デブロッカおよびデリンギング操作が実行される。「ブロッキング」および「リンギング」という2つのタイプのアーチファクトが、ビデオ圧縮アプリケーションにおいて一般的に発生する。ブロッキングアーチファクトは、圧縮アルゴリズムが各フレームを数ブロック(例えば8×8ブロック)に分割するために発生する。各ブロックは、いくらかの僅かな誤差を含んで再構成され、ブロックのエッジ部分の誤差は、隣接ブロックのエッジ部分の誤差と際立った相違を示し、ブロック境界を可視化する。対照的に、リンギングアーチファクトは、画像特徴のエッジ周囲のひずみとして現れる。リンギングアーチファクトは、高周波数DCT係数を量子化する際に、符号器が多過ぎる情報を廃棄するために発生する。いくつかの説明的な例では、デブロッキングおよびデリンギングは、これらの可視アーチファクトを目立たなくするために、ローパスFIR(有限インパルス応答)フィルタを使用することができる。   After resampling, the progressive video then proceeds to block 410 where deblocker and deringing operations are performed. Two types of artifacts commonly occur in video compression applications: “blocking” and “ringing”. Blocking artifacts occur because the compression algorithm splits each frame into several blocks (eg, 8 × 8 blocks). Each block is reconstructed with some slight error, and the error in the edge portion of the block shows a marked difference from the error in the edge portion of the adjacent block, visualizing the block boundary. In contrast, ringing artifacts appear as distortion around the edges of image features. Ringing artifacts occur because the encoder discards too much information when quantizing high frequency DCT coefficients. In some illustrative examples, deblocking and deringing can use low-pass FIR (Finite Impulse Response) filters to make these visible artifacts less noticeable.

デブロッキングおよびデリンギングの後、プログレッシブビデオは、GOPパーティショナ412によって処理される。GOPポジショニングは、ショット変化を検出することと、複雑さマップ(例えば、時間的、空間的帯域幅マップ)を生成することと、適応GOPパーティショニングを含むことができる。ショット検出は、グループオブピクチャ(GOP)内のフレームが、シーン変化の発生を示すデータを提示した時を決定することに関する。シーン変化検出は、ビデオ符号器が適切なGOP長を決定し、固定間隔でIフレームを挿入する代わりに、GOP長に基づいてIフレームを挿入するために使用することができる。プリプロセッサ202は、マルチメディアデータを符号化するために使用できる帯域幅マップを生成するようにも構成することができる。いくつかの態様では、プリプロセッサの外部に配置されるコンテンツ分類モジュールが、代わりに帯域幅マップを生成する。適応GOPパーティショニングは、一緒に符号化されるグループオブピクチャの構成を適応的に変化させることができる。図4に示された操作の説明的な例が、以下で説明される。   After deblocking and deringing, the progressive video is processed by the GOP partitioner 412. GOP positioning can include detecting shot changes, generating a complexity map (eg, a temporal, spatial bandwidth map), and adaptive GOP partitioning. Shot detection relates to determining when a frame in a group of pictures (GOP) presents data indicating the occurrence of a scene change. Scene change detection can be used to insert an I frame based on the GOP length instead of the video encoder determining an appropriate GOP length and inserting I frames at fixed intervals. The preprocessor 202 can also be configured to generate a bandwidth map that can be used to encode multimedia data. In some aspects, a content classification module located external to the preprocessor generates a bandwidth map instead. Adaptive GOP partitioning can adaptively change the structure of the group of pictures that are encoded together. An illustrative example of the operation shown in FIG. 4 is described below.

逆テレシネ
逆テレシネ処理が、以下で説明され、逆テレシネの説明的な例が、図4〜図16を参照して提供される。ビデオ圧縮は、源の特性が知られており、理想的に調和した処理形態を選択するために使用される場合に、最良の結果を与える。例えば、放送されないビデオは、いくつかの方法で作成することができる。ビデオカメラや放送スタジオなどで従来どおりに生成される放送用ビデオは、米国ではNTSC規格に準拠している。この規格によれば、各フレームは、2つのフィールドから構成される。一方のフィールドは奇数ラインから成り、他方は偶数ラインから成る。これは「インタレース」フォーマットと呼ばれることがある。フレームは、約30フレーム/秒で生成されるが、フィールドは、1/60秒間隔のテレビカメラの画像の記録である。一方、フィルムは、24フレーム/秒で撮影され、各フレームは、完全な画像から成る。これは「プログレッシブ」フォーマットと呼ばれることがある。NTSC機器での伝送のため、「プログレッシブ」ビデオは、テレシネプロセスを介して「インタレース」ビデオフォーマットに変換される。以下でさらに説明される一態様では、システムは、ビデオがいつテレシネされたかを有利に決定し、元のプログレッシブフレームを再生成するために適切な変換を実行する。
Inverse Telecine Inverse telecine processing is described below and an illustrative example of inverse telecine is provided with reference to FIGS. Video compression gives the best results when the source characteristics are known and used to select an ideally harmonized processing form. For example, a non-broadcast video can be created in several ways. Broadcast video that is conventionally generated by a video camera, a broadcast studio, or the like conforms to the NTSC standard in the United States. According to this standard, each frame is composed of two fields. One field consists of odd lines and the other consists of even lines. This is sometimes referred to as an “interlaced” format. Frames are generated at approximately 30 frames / second, while fields are recordings of television camera images at 1/60 second intervals. On the other hand, film is filmed at 24 frames / second, each frame consisting of a complete image. This is sometimes referred to as a “progressive” format. For transmission on NTSC equipment, “progressive” video is converted to an “interlaced” video format via a telecine process. In one aspect described further below, the system advantageously determines when the video has been telecined and performs the appropriate transformations to regenerate the original progressive frame.

図4は、インタレースビデオに変換されたプログレッシブフレームをテレシネした結果を示している。F、F、F、Fは、テレシネ器への入力となるプログレッシブ画像である。それぞれのフレームの下の番号「1」および「2」は、奇数フィールドであるか、それとも偶数フィールドであるかの表示である。フレームレート間の相違のために、いくつかのフィールドが繰り返されていることに留意されたい。図4は、プルダウンフェーズP、P、P、P、Pも示している。フェーズPは、同じ第1フィールドを有する2つのNTSC互換フレームの第1のフレームによってマーク付け(mark)される。後続の4つのフレームは、フェーズP、P、P、Pに対応する。PおよびPによってマーク付けされるフレームは、同じ第2フィールドを有することに留意されたい。フィルムフレームFは3回走査されるので、連続して出力される2つの同じNTSC互換の第1フィールドが形成される。フィルムフレームFに由来するすべてのNTSCフィールドは、同じフィルム画像から得られたものであり、したがって、同じ瞬間に撮影されたものである。フィルムに由来する他のNTSCフレームは、1/24秒離れた隣接フィールドをもつことができる。 FIG. 4 shows the result of telecine the progressive frame converted to interlaced video. F 1 , F 2 , F 3 , and F 4 are progressive images that are input to the telecine unit. The numbers “1” and “2” below each frame indicate whether the field is an odd field or an even field. Note that some fields are repeated due to differences between frame rates. FIG. 4 also shows pull-down phases P 0 , P 1 , P 2 , P 3 , P 4 . Phase P 0 is marked by the first frame of two NTSC compatible frames having the same first field. The subsequent four frames correspond to phases P 1 , P 2 , P 3 , P 4 . Note that the frames marked by P 2 and P 3 have the same second field. Since the film frames F 1 is scanned three times, the first field of two identical NTSC compatible continuously outputted is formed. All NTSC fields derived from film frames F 1 are those obtained from the same film image, therefore, it is those taken at the same instant. Other NTSC frames from film can have adjacent fields that are 1/24 second apart.

図4に示されるフェーズ検出器404は、ビデオフレームを受け取った後、ある判定を下す。これらの判定は、(i)現在のビデオがテレシネ出力からのものであり、3:2プルダウンフェーズが図5の定義512に示される5つのフェーズP、P、P、P、Pの1つであるかどうか、(ii)ビデオが従来のNTSCとして生成されたものか、を含み、その判定は、フェーズPとして示される。 The phase detector 404 shown in FIG. 4 makes a determination after receiving a video frame. These decisions are: (i) the current video is from the telecine output, and the 3: 2 pulldown phase is the five phases P 0 , P 1 , P 2 , P 3 , P shown in definition 512 of FIG. whether one of the 4, wherein the or not (ii) video was generated as conventional NTSC, the determination is shown as phase P 5.

これらの判定は、図4に示されるフェーズ検出器401の出力として現れる。ラベル「YES」をもつフェーズ検出器401からの経路は、逆テレシネ406を作動させ、これは、正しいプルダウンフェーズが提供され、そのフェーズが、同じ撮影画像から形成されたフィールドを選別し、それらを組み合わせることを表す。ラベル「NO」をもつフェーズ検出器401からの経路は、デインタレーサブロック405を同様に作動させ、最適な処理のために、明らかなNTSCフレームをフィールドに分割する。   These determinations appear as the output of the phase detector 401 shown in FIG. The path from the phase detector 401 with the label “YES” activates the inverse telecine 406, which provides the correct pull-down phase, which sorts out the fields formed from the same captured image and Represents combining. The path from the phase detector 401 with the label “NO” activates the deinterlacer block 405 in the same way and divides the apparent NTSC frame into fields for optimal processing.

図6は、ビデオストリームを逆テレシネするプロセス600を示す流れ図である。一態様では、プロセス600は、図3の逆テレシネ301によって実行される。ステップ651で開始し、逆テレシネ301は、受け取ったビデオに基づいて複数のメトリックを決定する。この態様では、同一フレームまたは隣接フレームから取り出されたフィールドの間の差分の合計である4つのメトリックが形成される。4つのメトリックは、6つの仮定されたフェーズの各々について、受け取ったデータに由来する4つのメトリックとこれらのメトリックの最もありそうな値との間のユークリッド距離(Euclidian measure of distance)にさらにまとめられる。ユークリッド和は、ブランチ情報(branch information)と呼ばれ、受け取った各フレームに対して、そのような量が6つ存在する。仮定された各フェーズは、後続フェーズを有し、後続フェーズは、可能なプルダウンフェーズの場合、受け取った各フレームと一緒に変化する。   FIG. 6 is a flow diagram illustrating a process 600 for inverse telecine of a video stream. In one aspect, process 600 is performed by inverse telecine 301 of FIG. Beginning at step 651, inverse telecine 301 determines a plurality of metrics based on the received video. In this aspect, four metrics are formed that are the sum of differences between fields taken from the same frame or adjacent frames. The four metrics are further summarized for each of the six hypothesized phases to the Euclidian measure of distance between the four metrics derived from the received data and the most likely values of these metrics. . The Euclidean sum is called branch information, and there are six such quantities for each received frame. Each hypothesized phase has a subsequent phase, which changes with each received frame in the case of a possible pull-down phase.

遷移の可能な経路が、図7に示されており、767によって示されている。そのような経路が6つ存在する。判定プロセスは、仮定されたフェーズの各経路について、ユークリッド距離の和に等しい6つの尺度を維持する。変化させられた状態に手順を応答させるため、和の中の各ユークリッド距離は、それが古くなるほど小さくなる。ユークリッド距離の和が最小となるフェーズ行路(phase track)が、有効なフェーズ行路であると見なされる。この行路の現在のフェーズは、「適用可能フェーズ」と呼ばれる。選択されたフェーズがPでない限り、そのフェーズに基づいた逆テレシネが、今行われることができる。Pが選択された場合、現在のフレームは、ブロック405(図4)においてデインタレーサを使用してデインタレースされる。要約すると、適用可能フェーズは、現在のプルダウンフェーズとして、または有効なNTSCフォーマットを有すると推定されたフレームのデインタレースを命じる表示として利用される。 A possible path of transition is shown in FIG. There are six such paths. The decision process maintains six measures equal to the sum of the Euclidean distances for each path of the hypothesized phase. In order to make the procedure respond to the changed state, each Euclidean distance in the sum becomes smaller as it gets older. The phase track that minimizes the sum of the Euclidean distances is considered to be a valid phase track. The current phase of this route is called the “applicable phase”. Unless the selected phase is not P 5, it can be inverse telecine based on the phase is performed now. If P 5 is selected, the current frame is de-interlaced using the deinterlacer in block 405 (FIG. 4). In summary, the applicable phase is used as the current pull-down phase or as an indication to order deinterlacing of frames presumed to have a valid NTSC format.

入力されたビデオから受け取ったすべてのフレームについて、4つのメトリックの各々の新しい値が計算される。これらは、以下のように定義される。

Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
For every frame received from the input video, a new value for each of the four metrics is calculated. These are defined as follows:
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741

SADという用語は、「絶対差の和(summed absolute differences)」の略語である。メトリックを形成するために差がとられるフィールドが、図8に図式的に示されている。下付数字は、フィールド番号を示し、文字は、直前(=P)または現在(=C)を表す。図8の範囲記号(bracket)は、対を成すフィールドの間の差を示す。SADFSは、ラベルCを付された現在フレームのフィールド1とラベルPを付された直前フレームのフィールド1の間の差を示し、図8で提供される定義では、ラベルFSを付された範囲記号によって間隔が表され、SADSSは、ラベルCを付された現在フレームのフィールド2とラベルPを付された直前フレームのフィールド2の間の差を示し、ラベルSSを付された範囲記号によって間隔が表され、SADCOは、ラベルCを付された現在フレームのフィールド2とラベルCを付された現在フレームのフィールド1の間の差を示し、ラベルCOを付された範囲記号によって間隔が表され、SADPOは、現在フレームのフィールド1と直前フレームのフィールド2の間の差を示し、ラベルPOを付された範囲記号によって間隔が表される。 The term SAD is an abbreviation for “summed absolute differences”. The fields from which the difference is taken to form the metric are shown schematically in FIG. A subscript number indicates a field number, and a character indicates immediately preceding (= P) or present (= C). The range symbols in FIG. 8 indicate the differences between the paired fields. SAD FS indicates the difference between field 1 of the current frame labeled with C 1 and field 1 of the previous frame labeled with label P 1, and in the definition provided in FIG. The SAD SS indicates the difference between the field 2 of the current frame labeled C 2 and the field 2 of the previous frame labeled P 2 , and is labeled SS. range symbol interval is represented by, SAD CO represents the difference between the field 1 of the current frame, labeled fields 2 and labeled C 1 of the current frame is marked with label C 2, labeled labeled CO The range symbol is represented by a range symbol, SAD PO indicates the difference between field 1 of the current frame and field 2 of the previous frame, and is a range symbol labeled PO Represents the interval.

各SADを評価するための計算負荷が、以下で説明される。従来のNTSCには約480本のアクティブ水平ラインが存在する。水平方向における解像度が同じである場合、4:3のアスペクト比では、480×4/3=640に等しい垂直ラインまたは自由度が存在する。640×480ピクセルのビデオフォーマットは、高度テレビ標準委員会(Advanced Television Standards Committee)によって承認されたフォーマットの1つである。したがって、フレームの持続時間である1/30秒ごとに、640×480=307200個の新しいピクセルが生成される。新しいデータは、9.2×10ピクセル/秒のレートで生成され、これは、このシステムを実行するハードウェアまたはソフトウェアが、約10MB以上のレートでデータを処理することを含意する。これは、システムの高速部分の1つである。それは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの任意の組み合わせによって実施することができる。SAD計算器は、スタンドアロンコンポーネントとすることができ、ハードウェア、ファームウェア、ミドルウェアとして別のデバイスのコンポーネントに組み込まれることができ、またはプロセッサ上で実行されるマイクロコードもしくはソフトウェアで実施することができ、あるいはそれらの組み合わせとすることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、計算を実行するプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に保存することができる。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせに相当することができる。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡し、および/または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合されることができる。 The computational load for evaluating each SAD is described below. There are about 480 active horizontal lines in a conventional NTSC. For the same horizontal resolution, there is a vertical line or degree of freedom equal to 480 × 4/3 = 640 at a 4: 3 aspect ratio. The 640 × 480 pixel video format is one of the formats approved by the Advanced Television Standards Committee. Thus, for every 1/30 second, which is the duration of the frame, 640 × 480 = 307200 new pixels are generated. New data is generated at a rate of 9.2 × 10 6 pixels / second, which implies that the hardware or software running this system processes the data at a rate of about 10 MB or higher. This is one of the fast parts of the system. It can be implemented by hardware, software, firmware, middleware, microcode, or any combination thereof. The SAD calculator can be a stand-alone component, can be embedded in a component of another device as hardware, firmware, middleware, or can be implemented in microcode or software running on a processor, Or they can be a combination thereof. When implemented in software, firmware, middleware, or microcode, program code or code segments that perform computations can be stored on machine-readable media such as storage media. A code segment can correspond to a procedure, function, subprogram, program, routine, subroutine, module, software package, class, or any combination of instructions, data structures, or program statements. A code segment can be coupled to another code segment or a hardware circuit by passing and / or receiving information, data, arguments, parameters, or memory contents.

図9の流れ図900は、図8の関係を明示的にするものであり、式1〜式4の図式的表現である。流れ図900は、SADFS、SADCO、SADSS、およびSADPOの最も新しい値がそれぞれ保持される、記憶ロケーション941、942、943、944を示している。これらは各々、絶対差の和を求める4つの計算器940によって生成され、4つの計算器940は、直前の第1フィールドのデータのルミナンス値931、現在の第1フィールドのデータのルミナンス値932、現在の第2フィールドのデータのルミナンス値933、および直前の第2フィールドのデータのルミナンス値934を処理する。メトリックを定義する加算において、「値(i,j)」という用語は、位置i,jにおけるルミナンスの値であることを意味し、加算はすべてのアクティブピクセルにわたるが、アクティブピクセルの意味のあるサブセット上での加算は除外されない。 The flowchart 900 of FIG. 9 clarifies the relationship of FIG. 8 and is a schematic representation of Equations 1-4. Flow diagram 900 shows storage locations 941, 942, 943, 944 where the most recent values of SAD FS , SAD CO , SAD SS , and SAD PO are held, respectively. Each of these is generated by four calculators 940 that determine the sum of the absolute differences, and the four calculators 940 are the luminance value 931 of the previous first field data, the luminance value 932 of the current first field data, The luminance value 933 of the current second field data and the luminance value 934 of the immediately preceding second field data are processed. In the addition defining a metric, the term “value (i, j)” means the value of the luminance at position i, j, and the addition spans all active pixels, but a meaningful subset of active pixels The above addition is not excluded.

図10の流れ図100は、テレシネビデオを検出し、元の走査フィルム画像に回復するためにテレシネビデオに逆処理を施すためのプロセスを説明する詳細な流れ図である。ステップ1030において、図9で定義されたメトリックが評価される。ステップ1083に進み、4つのメトリックの下方エンベロープ値(lower envelope value)が見出される。SADメトリックの下方エンベロープは、SADがそれを下回ることのない最高の数値的下限である、動的に決定される量である。ステップ1085に進み、以下の式5〜式10で定義されるブランチ情報の量が決定され、それには、先に決定されたメトリック、下方エンベロープ値、および実験的に決定された定数Aを使用することができる。フェーズの後続値は整合性のないものとなり得るので、ステップ1087において、量Δがこの明らかな不安定性を低減するように決定される。フェーズは、フェーズ判定の系列が、図7に示された問題のモデルと整合している場合、整合的と見なされる。そのステップに続いて、プロセスは、ステップ1089に進み、Δの現在値を使用して判定変数を計算する。判定変数計算器1089は、そこに到るまでの1080番代のブロックにおいて生成されたすべての情報を使用して、判定変数を評価する。ステップ1030、1083、1085、1087、および1089は、図6のメトリック決定651の拡張である。これらの変数から、フェーズ選択器1090によって、適用可能フェーズが見出される。判定ステップ1091は、示されるように、テレシネビデオに逆処理を施すため、またはそれをデインタレースするために、適用可能フェーズを使用する。これは、図4のフェーズ検出器404の動作のより明示的な言明である。一態様では、図10の処理は、図4のフェーズ検出器404によって実行される。検出器404は、ステップ1030で開始して、図8を参照して上で説明されたプロセスによって複数のメトリックを決定し、ステップ1083、1085、1087、1089、1090、および1091を通って進む。   The flowchart 100 of FIG. 10 is a detailed flowchart illustrating a process for detecting telecine video and reverse processing the telecine video to recover the original scanned film image. In step 1030, the metrics defined in FIG. 9 are evaluated. Proceeding to step 1083, the four envelope lower envelope values are found. The lower envelope of the SAD metric is a dynamically determined quantity that is the highest numerical lower bound at which the SAD never falls below it. Proceeding to step 1085, the amount of branch information defined by Equations 5 through 10 below is determined, using the previously determined metric, the lower envelope value, and the experimentally determined constant A. be able to. Since the subsequent value of the phase can be inconsistent, in step 1087 the quantity Δ is determined to reduce this apparent instability. A phase is considered consistent if the sequence of phase determinations is consistent with the problem model shown in FIG. Following that step, the process proceeds to step 1089 where the decision variable is calculated using the current value of Δ. The decision variable calculator 1089 evaluates the decision variable using all the information generated in the 1080th generation block up to that point. Steps 1030, 1083, 1085, 1087, and 1089 are extensions of the metric determination 651 of FIG. From these variables, an applicable phase is found by the phase selector 1090. Decision step 1091 uses the applicable phase to reverse the telecine video or to deinterlace it, as shown. This is a more explicit statement of the operation of the phase detector 404 of FIG. In one aspect, the process of FIG. 10 is performed by the phase detector 404 of FIG. Detector 404 begins at step 1030 and determines a plurality of metrics according to the process described above with reference to FIG. 8 and proceeds through steps 1083, 1085, 1087, 1089, 1090, and 1091.

流れ図1000は、現在のフェーズを推定するためのプロセスを示している。流れ図は、ステップ1083において、ブランチ情報を計算するために、決定されたメトリックおよび下方エンベロープ値を使用することを述べている。ブランチ情報は、先に説明されたユークリッド距離として認識することができる。ブランチ情報を生成するために使用できる例示的な式は、以下の式5〜式10である。ブランチ情報の量は、図12のブロック1209において計算される。   Flow diagram 1000 illustrates a process for estimating the current phase. The flow diagram states that in step 1083, the determined metric and lower envelope value are used to calculate branch information. The branch information can be recognized as the Euclidean distance described above. Exemplary equations that can be used to generate branch information are Equations 5 through 10 below. The amount of branch information is calculated in block 1209 of FIG.

処理されたビデオデータは、例えば、プロセッサに接続されるチップ構成記憶媒体(例えば、ROM、RAM)またはディスクタイプ記憶媒体(例えば、磁気的もしくは光学的)を含み得る、記憶媒体に保存することができる。いくつかの態様では、逆テレシネ406およびデインタレーサ405は各々、記憶媒体の一部または全部を含むことができる。ブランチ情報の量は、以下の式によって定義される。

Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
The processed video data may be stored on a storage medium that may include, for example, a chip configuration storage medium (eg, ROM, RAM) or a disk type storage medium (eg, magnetic or optical) connected to the processor. it can. In some aspects, inverse telecine 406 and deinterlacer 405 may each include some or all of the storage medium. The amount of branch information is defined by the following equation.
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741

ブランチ計算のさらなる詳細が、図12のブランチ情報計算器1209に示されている。計算器1209に示されるように、ブランチ情報を生成するには、SADFSおよびSADSSの下方エンベロープ値である量Lと、SADPOの下方エンベロープ値である量Lと、SADCOの下方エンベロープ値である量Lを使用する。下方エンベロープは、H、H、およびHを生成するために、ブランチ情報計算における距離オフセットとして単独で、または所定の定数Aと併せて使用される。それらの値は、以下で説明される下方エンベロープトラッカ(lower envelope tracker)において最新に維持される。Hオフセットは、以下のように定義される。

Figure 2009532741
Figure 2009532741
Figure 2009532741
Further details of the branch calculation are shown in the branch information calculator 1209 of FIG. As shown in calculator 1209, to generate branch information, a quantity L S that is the lower envelope value of SAD FS and SAD SS , a quantity L P that is the lower envelope value of SAD PO, and a lower value of SAD CO using the amount L C is an enveloped value. The lower envelope is used alone or in conjunction with a predetermined constant A as a distance offset in the branch information calculation to generate H S , H P and H C. These values are kept up to date in the lower envelope tracker described below. The H offset is defined as follows:
Figure 2009532741
Figure 2009532741
Figure 2009532741

、L、およびLの値を追跡するプロセスが、図13A、図13B、および図13Cに提示されている。例えば、図11Aの1番上に示されたLのための追跡アルゴリズム1300について考える。メトリックSADPOが、比較器1305において、Lの現在値にしきい値Tを加えた値と比較される。SADPOの方が大きければ、ブロック1315に示されるように、Lの現在値は変更されない。SADPOの方が小さければ、ブロック1313に示されるように、Lの新しい値は、SADPOとLの線形結合になる。ブロック1315の別の態様では、Lの新しい値は、L+Tになる。 A process for tracking the values of L S , L P , and L C is presented in FIGS. 13A, 13B, and 13C. For example, consider the tracking algorithm 1300 for between L P shown at the top of FIG. 11A. Metric SAD PO is, in the comparator 1305 are compared with the current value obtained by adding the threshold T P in the value of L P. If is larger the SAD PO, as shown in block 1315, the current value between L P is not changed. Smaller towards SAD PO, as shown in block 1313, the new value between L P becomes a linear combination of SAD PO and L P. In another embodiment of the block 1315, a new value between L P will L P + T P.

図13Bおよび図13Cの量LおよびLも、同様に計算される。同じ機能を有する図13A、図13B、および図13Cの処理ブロックは、同じ番号が振られているが、変数の異なる組に関して動作することを示すため、プライム符号(’または”)が添えられている。例えば、SADPOとLの線形結合が形成される場合、その演算は、ブロック1313’に示される。Lの場合のように、1315’の別の態様は、LをL+Tによって置き換えたものである。 The quantities L S and L C in FIGS. 13B and 13C are calculated similarly. The processing blocks of FIGS. 13A, 13B, and 13C having the same function are numbered the same, but are accompanied by a prime code ('or ") to indicate that they operate on different sets of variables. For example, if a linear combination of SAD PO and L C is formed, the operation is shown in block 1313′.As in the case of L P , another aspect of 1315 ′ allows L C to be L C + it is replaced by T C.

しかし、Lの場合、この下方エンベロープは、SADFSおよびSADSSの両変数に適用されるので、代替として、図13Bのアルゴリズムは、各Xに順番にラベルを付けながら、SADFSおよびSADSSを処理する。SADFSおよびSADSSの値の交替は、ブロック1308でのSADFSの現在値が、ブロック1303においてXのロケーションに読み込まれた時と、それに続いて、ブロック1307でのSADSSの現在値が、ブロック1302においてXのロケーションに読み込まれた時とに発生する。Lの場合のように、1315”の別の態様は、LをL+Tによって置き換えたものである。現在の下方エンベロープ値をテストする際に使用される量Aおよびしきい値は、実験によって事前に決定される。 However, if the L S, the lower envelope, because it is applied to both variables SAD FS and SAD SS, as an alternative, the algorithm of FIG. 13B, while labeled sequentially to each X, SAD FS and SAD SS Process. The alternation of the SAD FS and SAD SS values occurs when the current value of the SAD FS at block 1308 is read into the X location at block 1303, followed by the current value of the SAD SS at block 1307. Occurs when read into the X location at block 1302. As with L P , another aspect of 1315 ″ is that L S is replaced by L S + T S. The quantity A and threshold used in testing the current lower envelope value are , Determined in advance by experiment.

図11は、図10のステップ1089を実行するための例示的なプロセスを示す流れ図である。図11は、全体として、判定変数を更新するためのプロセスを示している。メトリックから導き出された新しい情報を用いて更新される判定変数が(6つの可能な判定に対応して)6つ存在する。判定変数は、以下のようにして見出される。

Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
FIG. 11 is a flow diagram illustrating an exemplary process for performing step 1089 of FIG. FIG. 11 shows the process for updating the decision variable as a whole. There are six decision variables (corresponding to six possible decisions) that are updated with new information derived from the metric. The decision variable is found as follows.
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741
Figure 2009532741

量αは、1(unity)より小さく、過去の値に対する判定変数の依存性を制限し、αの使用は、各ユークリッド距離の影響をそのデータが古くなるにつれて減少させていくことに等しい。流れ図1162では、更新される判定変数は、ライン1101、1102、1103、1104、1105、および1106上で利用可能であるとして、左側に列挙されている。フェーズ遷移経路の1つにおける判定変数の各々は、次にブロック1100の1つにおいて1より小さいαを乗じられ、その後、古い判定変数の減衰値がブランチ情報の現在値に加えられ、変数は、減衰判定変数がその上に存在するフェーズ遷移経路上の次のフェーズによってインデックス付けされる。これは、ブロック1110において行われる。変数Dは、ブロック1193において、量Δだけずらされ、Δは、ブロック1112において計算される。以下で説明されるように、この量は、このシステムによって決定されるフェーズの系列における不整合性を低減するように選択される。最小の判定変数が、ブロック1120において見出される。 The quantity α is less than 1 (unity), limiting the dependence of the decision variable on past values, and the use of α is equivalent to reducing the effect of each Euclidean distance as the data becomes older. In flowchart 1162, the updated decision variables are listed on the left as available on lines 1101, 1102, 1103, 1104, 1105, and 1106. Each decision variable in one of the phase transition paths is then multiplied by a less than 1 in one of the blocks 1100, after which the decay value of the old decision variable is added to the current value of the branch information, and the variable is Attenuation decision variable is indexed by the next phase on the phase transition path that is on it. This is done at block 1110. The variable D 5 is shifted by an amount Δ in block 1193 and Δ is calculated in block 1112. As explained below, this amount is chosen to reduce inconsistencies in the sequence of phases determined by the system. The smallest decision variable is found at block 1120.

要約すると、各判定に固有の新しい情報が、現在の判定変数の値を得るために、αを乗じられた適切な判定変数の直前の値に加えられる。新しい判定は、新しいメトリックが手に入った時に行われることができ、したがって、この技法は、すべてのフレームのフィールド1および2を受け取った時に、新しい判定を行うことが可能である。これらの判定変数は、先に言及されたユークリッド距離の和である。   In summary, new information specific to each decision is added to the previous value of the appropriate decision variable multiplied by α to obtain the current decision variable value. A new decision can be made when a new metric is available, so this technique can make a new decision when fields 1 and 2 of all frames are received. These decision variables are the sum of the Euclidean distances mentioned above.

適用可能フェーズは、最小の判定変数の下付文字を有するフェーズとなるように選択される。判定変数に基づいた判定は、図10のブロック1090において明示的に行われる。一定の判定が、判定空間において許容される。ブロック1091で説明されたように、これらの判定は、(i)適用可能フェーズがPではない−ビデオの逆テレシネ、(ii)適用可能フェーズがPである−ビデオのデインタレース、である。 The applicable phase is selected to be the phase with the subscript of the smallest decision variable. A decision based on the decision variable is made explicitly in block 1090 of FIG. Certain decisions are allowed in the decision space. As described in block 1091, these decisions are made at (i) the applicable phase is not P 5- video inverse telecine, (ii) the applicable phase is P 5- video deinterlace. is there.

メトリックは、本質的に変化しやすいビデオから引き出されるので、首尾一貫した判定の列には、時々誤りが存在することがある。この技法は、図7と整合性をもたないフェーズ系列を検出する。その動作が、図14に略述されている。アルゴリズム1400は、ブロック1405において現在のフェーズ判定の下付文字(=x)を、ブロック1406において直前のフェーズ判定の下付文字(=y)を保存する。ブロック1410において、x=y=5であるかどうかがテストされ、ブロック1411において、以下の値が、すなわち、

Figure 2009532741
Because metrics are derived from videos that are inherently variable, there may be occasional errors in the consistent decision sequence. This technique detects phase sequences that are not consistent with FIG. The operation is outlined in FIG. The algorithm 1400 saves the current phase determination subscript (= x) at block 1405 and the previous phase determination subscript (= y) at block 1406. In block 1410, it is tested whether x = y = 5, and in block 1411 the following values are obtained:
Figure 2009532741

であるかどうかがテストされる。2つのテストのどちらかが肯定的な結果である場合、ブロック1420において、判定は整合的であると宣言される。どちらのテストも肯定的な結果でない場合、図11のブロック1193において示されたオフセットが、図15において計算され、Pに関連する判定変数であるDに加えられる。 It is tested whether it is. If either of the two tests gives a positive result, at block 1420 the decision is declared consistent. If neither test is a positive result, the offset shown in block 1193 of FIG. 11 is calculated in FIG. 15 and added to the decision variable D 5 associated with P 5 .

に対する変更も、プロセス1500の一部として図15に現れており、プロセス1500は、フェーズの系列の不整合に対する補正アクションを提供する。流れ図1500のブロック1510における整合性テストが失敗したと仮定する。ブロック1510から延びる「NO」ブランチに沿って進むと、ブロック1514における次のテストは、すべてのi<5について、D>Dかどうかであり、または代替として、i<5について、少なくとも1つの変数DがDより大きいかである。第1のケースが有効である場合、ブロック1516において、初期値がδであるパラメータδが、3δに変更される。第2のケースが有効である場合、ブロック1517において、δは4δに変更される。ブロック152Bにおいて、Δの値が更新されて、Δになり、ここで、

Figure 2009532741
Changes to D 5 also has appeared in Figure 15 as part of the process 1500, process 1500 provides a correction action for mismatch sequence of phases. Assume that the consistency test at block 1510 of flowchart 1500 has failed. Proceeding along the “NO” branch extending from block 1510, the next test in block 1514 is D 5 > D i for all i <5, or alternatively, at least 1 for i <5. One variable D i is greater than D 5 . If the first case is valid, then in block 1516, the parameter δ, whose initial value is δ 0 , is changed to 3δ 0 . If the second case is valid, at block 1517 δ is changed to 4δ 0 . In 152B block, the value of delta is updated, becomes delta B, wherein
Figure 2009532741

である。 It is.

再びブロック15210に戻り、判定の列が整合的であると判断されたと仮定する。パラメータδは、ブロック15215において、

Figure 2009532741
Returning again to block 15210, assume that the decision sequence is determined to be consistent. The parameter δ is
Figure 2009532741

によって定義されるδに変更される。 Is changed to δ + defined by.

δの新しい値は、ブロック152Aにおいて、Δについての更新関係であるΔに挿入される。これは

Figure 2009532741
The new value of δ, in block 152A, is inserted into an updated relationship is delta A of delta. this is
Figure 2009532741

というものである。その後、Δの更新値が、ブロック1593において、判定変数Dに加えられる。 That's it. Thereafter, the updated value of Δ is added to decision variable D 5 at block 1593.

図16は、ひとたびプルダウンフェーズが決定された後、逆テレシネプロセスがどのように進行するかを示している。この情報を用いて、フィールド1605および1605’は、ビデオの同じフィールドを表すものとして識別される。2つのフィールドは、一緒に平均され、フィールド1606と組み合わされて、フレーム1620を再構成する。再構成フレームは1620’である。同様のプロセスが、フレーム1622を再構成する。フレーム1621および1623に由来するフィールドは、重複していない。これらのフレームは、その第1および第2のフィールドを一緒に組み立てることによって再構成される。   FIG. 16 shows how the inverse telecine process proceeds once the pull-down phase is determined. With this information, fields 1605 and 1605 'are identified as representing the same field of the video. The two fields are averaged together and combined with field 1606 to reconstruct frame 1620. The reconstructed frame is 1620 '. A similar process reconstructs frame 1622. The fields derived from frames 1621 and 1623 do not overlap. These frames are reconstructed by assembling their first and second fields together.

上で説明された態様では、新しいフレームが受け取られるたびに、メトリックの4つの新しい値が見出され、6つで1組の仮定が、新たに計算された判定変数を使用してテストされる。他の処理構造は、判定変数を計算するために適合させることができる。ビタビ復号器が、一緒に経路を構成するブランチのメトリックを足し合わせて、経路メトリックを形成する。ここで定義される判定変数は、同様の規則によって形成され、その各々は、新しい情報変数の「リーキーな(leaky)」和である。(リーキーな加算では、判定変数の直前の値は、1より小さい数を乗じられた後、それに新しい情報データが加えられる)。ビタビ復号器の構造は、この手順の動作をサポートするために変更することができる。   In the aspect described above, each time a new frame is received, four new values of the metric are found and a set of six hypotheses is tested using the newly calculated decision variable. . Other processing structures can be adapted to calculate decision variables. A Viterbi decoder adds the metrics of the branches that together make up the path to form a path metric. The decision variables defined here are formed by similar rules, each of which is a “leaky” sum of new information variables. (In leaky addition, the previous value of the decision variable is multiplied by a number less than 1 and then new information data is added to it). The structure of the Viterbi decoder can be modified to support the operation of this procedure.

本態様は、新しいフレームが1/30秒ごとに出現する従来のビデオの処理に関して説明されたが、このプロセスは、時間をさかのぼって記録され、処理されるフレームにも適用され得ることに留意されたい。判定空間は同じままであるが、入力フレームの系列の時間反転を反映する小さな変更が存在する。例えば、(ここに示される)時間反転モードでの首尾一貫したテレシネ判定の列

Figure 2009532741
Although this aspect has been described with respect to conventional video processing where new frames appear every 1/30 second, it is noted that this process can also be applied to frames that are recorded and processed retrospectively. I want. The decision space remains the same, but there are small changes that reflect the time reversal of the sequence of input frames. For example, a consistent telecine decision sequence in time reversal mode (shown here)
Figure 2009532741

も、時間的に反転されている。 Even has been reversed in time.

第1の態様のこの変形の使用は、正当な判定を行う際に、判定プロセスを2回−1回は時間的に順方向(forward)で、もう1回は逆方向(backward)で−試みることを可能にする。2回の試みは、独立していないが、各試みがメトリックを異なる順序で処理する点で異なっている。   The use of this variant of the first aspect tries to make the decision process twice-one time forward in time and once in the backward direction when making a valid decision. Make it possible. The two attempts are not independent but differ in that each attempt processes the metrics in a different order.

このアイデアは、付加的に必要とされ得る将来のビデオフレームを保存するために維持されるバッファと併せて適用することができる。ビデオセグメントが処理の順方向において許容し得ない不整合な結果を与えることが見出された場合、手順は、バッファから将来のフレームを取り出し、逆方向にフレームを処理することによって、ビデオの難しいひと続きの範囲(stretch)を克服しようと試みる。   This idea can be applied in conjunction with a buffer that is maintained to store future video frames that may additionally be needed. If a video segment is found to give an inconsistent result that is unacceptable in the forward direction of processing, the procedure is difficult for the video by retrieving future frames from the buffer and processing the frames in the reverse direction. Try to overcome stretch.

本特許で説明されるビデオの処理は、PALフォーマットのビデオにも適用することができる。   The video processing described in this patent can also be applied to PAL format video.

デインタレーサ
本明細書で使用される「デインタレーサ」は、プログレッシブマルチメディアデータを形成するためにインタレースマルチメディアデータを全体的にまたは重要な部分だけ処理する、(例えば、プロセスを実行するように構成されたソフトウェア、ファームウェア、またはハードウェアを含む)デインタレースシステム、デバイス、またはプロセスを示すのに使用できる広義の用語である。
Deinterlacer As used herein, a “deinterlacer” processes interlaced multimedia data in whole or in a significant portion to form progressive multimedia data (eg, configured to perform a process). A broad term that can be used to describe a deinterlacing system, device, or process (including software, firmware, or hardware).

ビデオカメラや放送スタジオなどで従来どおりに生成される放送用ビデオは、米国ではNTSC規格に準拠している。ビデオを圧縮するための一般的な方法は、ビデオをインタレース化することである。インタレースデータでは、各フレームは、2つのフィールドの一方から構成される。一方のフィールドはフレームの奇数ラインから成り、他方は偶数ラインから成る。フレームは、約30フレーム/秒で生成されるが、フィールドは、1/60秒間隔のテレビカメラの画像の記録である。インタレースビデオ信号の各フレームは、画像の1つおきの水平ラインを示す。フレームが画面に投影されるとき、ビデオ信号は、偶数ラインと奇数ラインを交替で示す。これが十分に速く、例えば60フレーム毎秒で行われる場合、ビデオ画像は、人間の目には滑らかに見える。   Broadcast video that is conventionally generated by a video camera, a broadcast studio, or the like conforms to the NTSC standard in the United States. A common method for compressing video is to interlace the video. In interlaced data, each frame consists of one of two fields. One field consists of odd lines of the frame and the other consists of even lines. Frames are generated at approximately 30 frames / second, while fields are recordings of television camera images at 1/60 second intervals. Each frame of the interlaced video signal represents every other horizontal line of the image. When the frame is projected on the screen, the video signal alternates between even and odd lines. If this is fast enough, for example at 60 frames per second, the video image will appear smooth to the human eye.

インタレースは、NTSC(米国)およびPAL(ヨーロッパ)フォーマットに基づいたアナログテレビ放送において、数10年にわたって使用されてきた。各フレームを用いて画像の半分だけしか送信しないので、インタレースビデオは、画像全体を送信するのに比べて、おおよそ半分の帯域幅しか使用しない。端末16の内部におけるビデオの最終的な表示フォーマットは、必ずしもNTSC互換であるとは限らず、インタレースデータを直ちに表示できるとは限らない。代わりに、最新のピクセルベースディスプレイ(例えば、LCD、DLP、LCOS、プラズマなど)は、プログレッシブ走査型であり、プログレッシブ走査されたビデオ源を表示する(一方、多くのより旧式のビデオデバイスは、より旧式のインタレース走査技法を使用する)。いくつかの一般に使用されるデインタレースアルゴリズムの例が、P.Haavisto、J.Juhola、Y.Neuvoの「Scan rate up−conversion using adaptive weighted median filtering」、Signal Processing of HDTV II、703〜710ページ、1990年と、R.Simonetti、S.Carrato、G.Ramponi、A.Polo Filisanの「Deinterlacing of HDTV Images for Multimedia Applications」、Signal Processing of HDTV IV、765〜772ページ、1993年に記載されている。   Interlace has been used for decades in analog television broadcasts based on NTSC (US) and PAL (Europe) formats. Since only half of the image is transmitted with each frame, interlaced video uses approximately half the bandwidth compared to transmitting the entire image. The final video display format inside the terminal 16 is not necessarily NTSC compatible, and the interlaced data cannot always be displayed immediately. Instead, modern pixel-based displays (eg, LCD, DLP, LCOS, plasma, etc.) are progressively scanned and display progressively scanned video sources (while many older video devices are more Using old interlaced scanning technique). Some examples of commonly used deinterlacing algorithms are P.I. Haavisto, J.M. Juhola, Y. et al. Neuvo's “Scan rate up-conversion using adaptive media filtering”, Signal Processing of HDTV II, pages 703-710, 1990; Simonetti, S.M. Carrato, G.G. Ramponi, A.M. Polo Filisan, “Deinterlacing of HDTV Images for Multimedia Applications”, Signal Processing of HDTV IV, pages 765-772, 1993.

デインタレースの性能を向上させるために単独でまたは組み合わせて使用でき、デインタレーサ405(図4)において使用できる、システムおよび方法のためのデインタレース態様の例が、以下で説明される。そのような態様は、第1の暫定デインタレースフレームを決定するために時空間フィルタリングを使用して選択フレームをデインタレースすることと、選択フレームから第2の暫定デインタレースフレームを決定するために双方向動き推定および動き補償を使用することと、その後、最終のプログレッシブフレームを形成するために第1および第2の暫定フレームを組み合わせることとを含むことができる。時空間フィルタリングは、水平エッジまたは水平エッジ付近のぼやけを防止する水平エッジ検出器を含むことができる、加重メディアンフィルタ(「Wmed」フィルタ)を使用することができる。「現在」フィールドの先行および後続近隣フィールドの時空間フィルタリングは、選択フレームの部分を、例えば、静止、遅い動き、および速い動きなど、異なる動きレベルに分類する強度動きレベルマップ(intensity motion-level map)を生成する。   Examples of deinterlacing aspects for systems and methods that can be used alone or in combination to improve deinterlacing performance and that can be used in deinterlacer 405 (FIG. 4) are described below. Such an aspect can use space-time filtering to determine a first tentative deinterlaced frame and deinterlace the selected frame and determine a second tentative deinterlaced frame from the selected frame. Using bi-directional motion estimation and motion compensation for combining and then combining first and second provisional frames to form a final progressive frame. Spatio-temporal filtering may use a weighted median filter (“Wmed” filter) that may include a horizontal edge detector that prevents blurring around or near the horizontal edge. Spatio-temporal filtering of the leading and trailing neighboring fields of the “current” field is an intensity motion-level map that classifies portions of the selected frame into different motion levels, eg, stationary, slow motion, and fast motion. ) Is generated.

いくつかの態様では、強度マップは、5つの近隣フィールド(2つの先行フィールド、現在フィールド、および2つの後続フィールド)のピクセルを含むフィルタアパーチャを使用して、Wmedフィルタリングによって生成される。Wmedフィルタリングは、シーン変化ならびに出現および消失する物体を効果的に扱うことができる、前方(forward)、後方(backward)、および双方向静止領域検出を決定することができる。様々な態様では、Wmedフィルタは、フィールド間(inter-field)フィルタリングモードにおいて同じ偶奇性の1つまたは複数のフィールド間で利用することができ、またしきい値基準を微調整することによってフィールド内(intra-field)フィルタリングモードに切り換えられることができる。いくつかの態様では、動き推定および補償は、明るさレベルはほとんど均一であるが、色が異なる、選択フレームのデインタレース領域を改善するために、ルーマ(luma)(ピクセルの輝度または明るさ)およびクロマ(chroma)(ピクセルの色情報)データを使用する。動き推定の精度を高めるために、雑音低減フィルタが使用できる。雑音低減フィルタは、Wmedフィルタリングによって生成されたエイリアスアーチファクトを除去するために、Wmedデインタレース暫定フレームに適用することができる。以下で説明されるデインタレース方法およびシステムは、良好なデインタレース結果を生み出し、高速動作のデインタレース実施を可能にする比較的低い計算の複雑さを有し、セル電話、コンピュータ、およびディスプレイを利用する他のタイプの電子または通信デバイスにデータを提供するために使用されるシステムを含む、様々なデインタレース応用例にとってそのような実施を適したものにする。   In some aspects, the intensity map is generated by Wmed filtering using a filter aperture that includes pixels of five neighboring fields (two leading fields, current field, and two trailing fields). Wmed filtering can determine forward, backward, and bi-directional stationary region detection that can effectively handle scene changes and objects that appear and disappear. In various aspects, the Wmed filter can be utilized between one or more fields of the same even-oddness in inter-field filtering mode and can be adjusted within the field by fine-tuning the threshold criteria. It can be switched to (intra-field) filtering mode. In some aspects, motion estimation and compensation is performed with a luma (pixel brightness or brightness) to improve the de-interlaced region of the selected frame, where the brightness levels are almost uniform but differ in color. ) And chroma (pixel color information) data. A noise reduction filter can be used to improve the accuracy of motion estimation. The noise reduction filter can be applied to Wmed deinterlaced provisional frames to remove alias artifacts generated by Wmed filtering. The deinterlacing methods and systems described below have a relatively low computational complexity that yields good deinterlacing results and enables high speed deinterlacing implementations, such as cell phones, computers, and It makes such an implementation suitable for various deinterlacing applications, including systems used to provide data to other types of electronic or communication devices that utilize a display.

デインタレーサおよびデインタレース方法の態様が、マルチメディアデータをデインタレースするために使用される様々なコンポーネント、モジュール、および/またはステップを参照しながら本明細書で説明される。   Aspects of deinterlacers and deinterlacing methods are described herein with reference to various components, modules, and / or steps used to deinterlace multimedia data.

図17は、図4のデインタレーサ405として使用できるデインタレーサ1700の一態様を示すブロック図である。デインタレーサ1722は、インタレースデータの少なくとも一部を空間的および時間的(「時空間的」)にフィルタリングし、時空間情報を生成する、空間フィルタ1730を含む。例えば、空間フィルタ1730において、Wmedが使用できる。いくつかの態様では、デインタレーサ1700は、例えば、ワイナーフィルタ(Weiner filter)またはウェーブレット縮小フィルタ(wavelet shrinkage filter)など、雑音低減フィルタ(図示されず)も含む。デインタレーサ1700は、インタレースデータの選択フレームの動き推定および補償を提供し、動き情報を生成する、動き推定器1732も含む。結合器1734は、プログレッシブフレームを形成するために、時空間情報および動き情報を受け取り、それらを組み合わせる。   FIG. 17 is a block diagram illustrating one aspect of a deinterlacer 1700 that can be used as the deinterlacer 405 of FIG. Deinterlacer 1722 includes a spatial filter 1730 that filters at least a portion of the interlaced data spatially and temporally (“spatiotemporal”) to generate spatiotemporal information. For example, in the spatial filter 1730, Wmed can be used. In some aspects, deinterlacer 1700 also includes a noise reduction filter (not shown), such as, for example, a Weiner filter or a wavelet shrinkage filter. Deinterlacer 1700 also includes a motion estimator 1732 that provides motion estimation and compensation for selected frames of interlaced data and generates motion information. A combiner 1734 receives the spatio-temporal information and motion information and combines them to form a progressive frame.

図18は、デインタレーサ1700の別のブロック図である。デインタレーサ1700のプロセッサ1836が、空間フィルタモジュール1838と、動き推定モジュール1840と、結合器モジュール1842とを含む。外部源48からのインタレースマルチメディアデータは、デインタレーサ1700の通信モジュール44に提供されることができる。デインタレーサおよびそのコンポーネントまたはステップは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの任意の組み合わせによって実施することができる。例えば、デインタレーサは、スタンドアロンコンポーネントとすることができ、ハードウェア、ファームウェア、ミドルウェアとして別のデバイスのコンポーネントに組み込まれることができ、またはプロセッサ上で実行されるマイクロコードもしくはソフトウェアで実施することができ、あるいはそれらの組み合わせとすることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、デインタレーサタスクを実行するプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に保存することができる。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせに相当することができる。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡し、および/または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合されることができる。   FIG. 18 is another block diagram of deinterlacer 1700. The processor 1836 of the deinterlacer 1700 includes a spatial filter module 1838, a motion estimation module 1840, and a combiner module 1842. Interlaced multimedia data from the external source 48 can be provided to the communication module 44 of the deinterlacer 1700. The deinterlacer and its components or steps can be implemented by hardware, software, firmware, middleware, microcode, or any combination thereof. For example, a deinterlacer can be a stand-alone component, can be embedded in a component of another device as hardware, firmware, middleware, or can be implemented in microcode or software running on a processor, Or they can be a combination thereof. When implemented in software, firmware, middleware, or microcode, program code or code segments that perform deinterlacer tasks can be stored on machine-readable media such as storage media. A code segment can correspond to a procedure, function, subprogram, program, routine, subroutine, module, software package, class, or any combination of instructions, data structures, or program statements. A code segment can be coupled to another code segment or a hardware circuit by passing and / or receiving information, data, arguments, parameters, or memory contents.

受け取られたインタレースデータは、例えば、プロセッサ1836に接続されるチップ構成記憶媒体(例えば、ROM、RAM)またはディスクタイプ記憶媒体(例えば、磁気的もしくは光学的)を含み得る、デインタレーサ1700の記憶媒体1846に保存することができる。いくつかの態様では、プロセッサ1836は、記憶媒体の一部または全部を含むことができる。プロセッサ1836は、プログレッシブフレームを形成するためにインタレースマルチメディアデータを処理するように構成され、その後、プログレッシブフレームは、別のデバイスまたはプロセスに提供される。   The received interlaced data may include, for example, a chip configuration storage medium (eg, ROM, RAM) or a disk type storage medium (eg, magnetic or optical) connected to the processor 1836. 1846 can be stored. In some aspects, the processor 1836 may include some or all of the storage media. The processor 1836 is configured to process the interlaced multimedia data to form a progressive frame, after which the progressive frame is provided to another device or process.

テレビなどの従来のアナログビデオデバイスは、インタレース方式でビデオを描画し、すなわち、そのようなデバイスは、偶数番号の走査ライン(偶数フィールド)および奇数番号の走査ライン(奇数フィールド)を伝送する。信号サンプリングの観点からは、これは、

Figure 2009532741
Conventional analog video devices, such as televisions, draw video in an interlaced manner, that is, such devices transmit even numbered scan lines (even fields) and odd numbered scan lines (odd fields). From a signal sampling perspective, this is
Figure 2009532741

によって示されるパターンでの時空間サブサンプリングに等しく、ここで、Θは、元のフレーム画像を表し、Fは、インタレースフィールドを表し、(x,y,n)は、ピクセルの水平、垂直および時間位置をそれぞれ表す。 Is equivalent to the spatiotemporal subsampling in the pattern shown by where Θ represents the original frame image, F represents the interlaced field, and (x, y, n) is the horizontal, vertical and Each time position is represented.

一般性を失うことなく、本開示ではどこでも、n=0は偶数フィールドであると仮定することができ、その結果、式23は、

Figure 2009532741
Without loss of generality, anywhere in this disclosure it can be assumed that n = 0 is an even field, so that
Figure 2009532741

のように簡素化される。 It is simplified as follows.

水平次元ではデシメーションは行われないので、サブサンプリングパターンは、次のn−y座標で表すことができる。図19では、円形および星形の両方が、元の全フレーム画像がサンプルピクセルを有する位置を表す。インタレースプロセスは、円形ピクセルをそのままに残しながら、星形ピクセルをデシメートする。垂直位置には0から始まるインデックス付けを施してあり、したがって、偶数フィールドが最上位フィールドであり、奇数フィールドが最下位フィールドであることに留意されたい。   Since decimation is not performed in the horizontal dimension, the sub-sampling pattern can be expressed by the following ny coordinates. In FIG. 19, both circles and stars represent locations where the original full frame image has sample pixels. The interlace process decimates the star pixels, leaving the circular pixels intact. Note that the vertical positions are indexed starting from 0, so the even field is the most significant field and the odd field is the least significant field.

デインタレーサの目標は、インタレースビデオ(フィールドの系列)をインタレース化されていないプログレッシブフレーム(フレームの系列)に変換することである。言い換えると、全フレーム画像を「回復」または生成するために、偶数フィールドと奇数フィールドとで補間しあう。これは、式25によって表すことができ、

Figure 2009532741
The goal of the deinterlacer is to convert interlaced video (sequence of fields) into non-interlaced progressive frames (sequence of frames). In other words, the even and odd fields are interpolated to “recover” or generate the full frame image. This can be represented by Equation 25:
Figure 2009532741

ここで、Fは、喪失ピクセルについてのデインタレース結果を表す。 Where F i represents the deinterlace result for the lost pixel.

図20は、インタレースマルチメディアデータからプログレッシブフレームを生成するためにWmedフィルタリングおよび動き推定を使用するデインタレーサの一態様のいくつかの側面を説明するブロック図である。図20の上側部分は、現在フィールドと、2つの先行フィールド(PPフィールドおよびPフィールド)と、2つの後続フィールド(次フィールドおよび次々フィールド)からの情報を使用して生成され得る、動き強度マップ2052を示している。動き強度マップ2052は、現在フレームを2つ以上の異なる動きレベルに分類または区分化し、以下本明細書でさらに詳細に説明される時空間フィルタリングによって生成することができる。いくつかの態様では、動き強度マップ2052は、式4〜8を参照しながら以下で説明されるように、静止領域、遅い動き領域、および速い動き領域を識別するために生成される。空間/時間フィルタ、例えばWmedフィルタ2054は、動き強度マップに基づいた基準を使用してインタレースマルチメディアデータをフィルタリングし、時空間暫定デインタレースフレームを生成する。いくつかの態様では、Wmedフィルタリングプロセスは、水平近傍[−1,1]と、垂直近傍[−3,3]と、Z−1が1フィールド分の遅延を表す図20に示される5つのフィールド(PPフィールド、Pフィールド、現在フィールド、次フィールド、次々フィールド)によって表される5つの隣接フィールドからなる時間近傍を含む。現在フィールドに対して、次フィールドおよびPフィールドは、偶奇性が一致しないフィールドであり、PPフィールドおよび次々フィールドは、偶奇性が一致するフィールドである。時空間フィルタリングに関して使用される「近傍」は、フィルタリング動作中に実際に使用されるフィールドおよびピクセルの空間的および時間位置を指し、例えば図21および図22に示されるように、「アパーチャ」として示すことができる。 FIG. 20 is a block diagram illustrating some aspects of one aspect of a deinterlacer that uses Wmed filtering and motion estimation to generate progressive frames from interlaced multimedia data. The upper portion of FIG. 20 is a motion intensity map 2052 that can be generated using information from the current field, two previous fields (PP field and P field), and two subsequent fields (next field and next field). Is shown. The motion intensity map 2052 can be generated by space-time filtering that classifies or partitions the current frame into two or more different motion levels and is described in further detail herein below. In some aspects, the motion intensity map 2052 is generated to identify stationary regions, slow motion regions, and fast motion regions, as described below with reference to equations 4-8. A space / time filter, such as the Wmed filter 2054, filters the interlaced multimedia data using criteria based on the motion intensity map to generate a spatiotemporal temporary deinterlaced frame. In some aspects, the Wmed filtering process includes a horizontal neighborhood [-1, 1], a vertical neighborhood [ -3 , 3], and the five fields shown in FIG. 20 where Z -1 represents a delay of one field. It includes a time neighborhood consisting of five adjacent fields represented by (PP field, P field, current field, next field, next field). For the current field, the next field and the P field are fields that do not match even-oddity, and the PP field and the next field are fields that match even-oddity. “Neighborhood” as used with respect to spatio-temporal filtering refers to the spatial and temporal positions of the fields and pixels that are actually used during the filtering operation, and are shown as “apertures” as shown, for example, in FIGS. be able to.

デインタレーサは、雑音低減器(雑音低減フィルタ)2056も含むことができる。雑音低減器2056は、Wmedフィルタ2056によって生成された時空間暫定デインタレースフレームをフィルタリングするように構成される。時空間暫定デインタレースフレームの雑音低減は、源のインタレースマルチメディアデータ系列が白色雑音によって汚染されている場合は特に、後続の動き探索プロセスをより正確なものにする。雑音低減は、Wmed画像における偶数行と奇数行の間のエイリアスを少なくとも部分的に除去することもできる。雑音低減器2056は、やはり以下本明細書でさらに説明される、ウェーブレット縮小およびウェーブレットワイナーフィルタベースの雑音低減器を含む、様々なフィルタとして実施することができる。   The deinterlacer can also include a noise reducer (noise reduction filter) 2056. The noise reducer 2056 is configured to filter the space-time provisional deinterlaced frame generated by the Wmed filter 2056. The noise reduction of the space-time provisional deinterlaced frame makes the subsequent motion search process more accurate, especially when the source interlaced multimedia data sequence is contaminated with white noise. Noise reduction can also at least partially remove aliases between even and odd rows in the Wmed image. The noise reducer 2056 can be implemented as a variety of filters, including wavelet reduction and wavelet winer filter based noise reducers, also described further herein below.

図20の下側部分は、インタレースマルチメディアデータの動き情報(例えば、動きベクトル候補、動き推定、動き補償)を決定する一態様を示している。特に、図20は、選択フレームの動き補償を施した暫定プログレッシブフレームを生成し、その後、それをWmed暫定フレームと組み合わせて、デインタレース現在フレーム2064として示された結果の「最終」プログレッシブフレームを形成するために使用される、動き推定および動き補償方式を説明している。いくつかの態様では、インタレースマルチメディアデータの動きベクトル(「MV」)候補(または推定)が、外部の動き推定器からデインタレーサに提供され、双方向動き推定器および補償器(「ME/MC」)2068に開始点を提供するために使用される。いくつかの態様では、MV候補選択器2072は、処理されるブロックのMV候補のために、例えば、デインタレース先行フレーム2070内のブロックといった以前に処理されたブロックのMVなど、近隣ブロックのために以前に決定されたMVを使用する。動き補償は、先行デインタレースフレーム70および次(例えば将来)のWmedフレーム2058に基づいて、双方向で行われることができる。現在Wmedフレーム2060および動き補償(「MC」)現在フレーム2066は、結合器2062によって合併され、または組み合わされる。結果のデインタレース現在フレーム2064は、今ではプログレッシブフレームであり、デインタレース先行フレーム2070として使用されるために、ME/MC2068に戻され、例えば圧縮および表示端末への伝送など、さらなる処理のために、デインタレーサの外部へも伝達される。図20に示された様々な態様が、以下でより詳細に説明される。   The lower part of FIG. 20 illustrates one aspect of determining motion information (eg, motion vector candidates, motion estimation, motion compensation) of interlaced multimedia data. In particular, FIG. 20 generates a tentative progressive frame with motion compensation of the selected frame, and then combines it with the Wmed tentative frame to produce the resulting “final” progressive frame shown as a deinterlaced current frame 2064. The motion estimation and motion compensation scheme used to form is described. In some aspects, motion vector (“MV”) candidates (or estimates) of interlaced multimedia data are provided from an external motion estimator to a deinterlacer, and a bidirectional motion estimator and compensator (“ME / MC” ") Used to provide a starting point for 2068. In some aspects, the MV candidate selector 2072 is for MV candidates for the processed block, for neighboring blocks such as, for example, an MV of a previously processed block, such as a block in the deinterlace previous frame 2070. Use the previously determined MV. Motion compensation can be performed bi-directionally based on the previous deinterlace frame 70 and the next (eg, future) Wmed frame 2058. The current Wmed frame 2060 and the motion compensation (“MC”) current frame 2066 are merged or combined by a combiner 2062. The resulting deinterlaced current frame 2064 is now a progressive frame and is returned to the ME / MC 2068 for use as a deinterlace previous frame 2070 for further processing, eg compression and transmission to a display terminal. Therefore, it is also transmitted to the outside of the deinterlacer. Various aspects shown in FIG. 20 are described in more detail below.

図25は、インタレースフレームの系列からプログレッシブフレームの系列を生成するようにマルチメディアデータを処理するためのプロセス2500を示している。一態様では、プログレッシブフレームは、図4に示されたデインタレーサ405によって生成される。ブロック2502において、プロセス2500(プロセス「A」)は、選択フレームの時空間情報を生成する。時空間情報は、マルチメディアデータの動きレベルを分類し、動き強度マップを生成するために使用される情報を含むことができ、Wmed暫定デインタレースフレームおよびそのフレームを生成するために使用される情報(例えば、式26〜式33で使用される情報)を含む。このプロセスは、図20の上側部分に示されるようなWmedフィルタ2054と、以下でさらに詳細に説明されるその関連処理とによって実行することができる。図26に示されるプロセスAでは、ブロック2602において、領域が、以下でさらに説明されるように、異なる動きレベルのフィールドに分類される。   FIG. 25 shows a process 2500 for processing multimedia data to generate a sequence of progressive frames from a sequence of interlaced frames. In one aspect, the progressive frame is generated by the deinterlacer 405 shown in FIG. At block 2502, process 2500 (process “A”) generates spatio-temporal information for the selected frame. The spatio-temporal information can include information used to classify the motion level of the multimedia data and generate a motion intensity map, and is used to generate the Wmed interim deinterlace frame and its frame Information (for example, information used in Expression 26 to Expression 33) is included. This process can be performed by the Wmed filter 2054 as shown in the upper portion of FIG. 20 and its associated processing described in more detail below. In process A shown in FIG. 26, at block 2602, the regions are classified into different motion level fields, as further described below.

次にブロック2504(プロセス「B」)において、プロセス2500は、選択フレームの動き補償情報を生成する。一態様では、図20の下側部分に示された双方向動き推定器/動き補償器2068が、このプロセスを実行することができる。プロセス2500は、その後、ブロック2506に進み、選択フレームに関連するプログレッシブフレームを形成するために、時空間情報および動き補償情報に基づいて、選択フレームのフィールドをデインタレースする。これは、図20の下側部分に示された結合器2062によって実行することができる。   Next, at block 2504 (process “B”), process 2500 generates motion compensation information for the selected frame. In one aspect, a bi-directional motion estimator / motion compensator 2068 shown in the lower portion of FIG. 20 can perform this process. Process 2500 then proceeds to block 2506 and deinterlaces the fields of the selected frame based on the spatio-temporal information and motion compensation information to form a progressive frame associated with the selected frame. This can be done by the coupler 2062 shown in the lower part of FIG.

動き強度マップ
各フレームについて、現在フィールドのピクセルを処理して、異なる「動き」の領域を決定することによって、動き強度マップ2052が決定できる。3つのカテゴリの動き強度マップを決定する例示的な一態様が、図21〜図24を参照しながら以下で説明される。動き強度マップは、同じ偶奇性フィールドと異なる偶奇性フィールドのピクセルの比較に基づいて、各フレームの領域を、静止領域、遅い動き領域、および速い動き領域として指示することができる。
Motion Intensity Map A motion intensity map 2052 can be determined by processing the pixels of the current field for each frame to determine different “motion” regions. One exemplary manner of determining three categories of motion intensity maps is described below with reference to FIGS. The motion intensity map can indicate the region of each frame as a stationary region, a slow motion region, and a fast motion region based on a comparison of pixels of the same even and odd fields.

静止領域
動きマップの静止領域の決定は、あるピクセルのルミナンス差がある基準を満たすかどうかを決定するために、隣接フィールドの近傍内のピクセルを処理することを備える。いくつかの態様では、動きマップの静止領域の決定は、あるピクセルのルミナンス差があるしきい値を満たすかどうかを決定するために、5つの隣接フィールド(現在フィールド(C)、現在フィールドより時間的に前の2つのフィールド、および現在フィールドより時間的に後の2つのフレーム)の近傍内のピクセルを処理することを備える。これらの5つのフィールドは、Z−1が1フィールド分の遅延を表す図20に示されている。言い換えると、5つの隣接フィールドは一般に、Z−1の遅延時間を有するそのような系列で表示される。
Still region The determination of the still region of the motion map comprises processing pixels in the neighborhood of neighboring fields to determine if the luminance difference of a pixel meets a certain criterion. In some aspects, the determination of the static region of the motion map may include determining whether a luminance difference of a pixel satisfies a certain threshold by using five adjacent fields (current field (C), time from current field). In the vicinity of the first two fields (and two frames later in time than the current field). These five fields are shown in FIG. 20 where Z −1 represents a delay of one field. In other words, the five adjacent fields are typically displayed in such a sequence with a delay time of Z- 1 .

図21は、いくつかの態様による、時空間フィルタリングのために使用できる、5つのフィールドの各々のあるピクセルを識別するアパーチャを示している。アパーチャは、左から右に向かって、先々フィールド(PP)、先行フィールド(P)、現在フィールド(C)、次フィールド(N)、および次々フィールド(NN)の3×3ピクセルグループを含む。いくつかの態様では、現在フィールドの領域は、それが、図21に示されるピクセル位置および対応フィールドについて、式26〜式28に示される基準

Figure 2009532741
FIG. 21 illustrates an aperture that identifies a pixel in each of the five fields that can be used for space-time filtering, according to some aspects. From left to right, the aperture includes a 3 × 3 pixel group of a first field (PP), a previous field (P), a current field (C), a next field (N), and a next field (NN). In some aspects, the region of the current field corresponds to the criteria shown in Equations 26-28 for the pixel location and corresponding field shown in FIG.
Figure 2009532741

かつ

Figure 2009532741
And
Figure 2009532741

または

Figure 2009532741
Or
Figure 2009532741

を満たす場合、動きマップにおいて静止と見なされ、ここで、
はしきい値、
はPフィールド内に位置するピクセルPのルミナンス、
はNフィールド内に位置するピクセルNのルミナンス、
は現在フィールド内に位置するピクセルBのルミナンス、
は現在フィールド内に位置するピクセルEのルミナンス、
BPPはPPフィールド内に位置するピクセルBPPのルミナンス、
EPPはPPフィールド内に位置するピクセルEPPのルミナンス、
BNNはNNフィールド内に位置するピクセルBNNのルミナンス、および
ENNはNNフィールド内に位置するピクセルENNのルミナンス
である。
If it satisfies, it is considered stationary in the motion map, where
T 1 is a threshold value,
L P is the luminance of pixel P located in the P field,
L N is the luminance of pixel N located in the N field,
L B is the luminance of pixel B currently in the field,
L E is the luminance of the pixel E positioned currently in the field,
L BPP is the luminance of pixel B PP located in the PP field,
L EPP is the luminance of the pixel E PP located in the PP field,
L BNN is the luminance of the pixel B NN located in the NN field, and L ENN is the luminance of the pixel E NN located in the NN field.

しきい値Tは、事前決定され、特定の値に設定されることができ、デインタレース以外のプロセスによって決定され、(例えば、デインタレースされるビデオ用のメタデータとして)提供されることができ、またはデインタレースの最中に動的に決定されることができる。 The threshold T 1 can be predetermined, set to a specific value, determined by a process other than deinterlacing, and provided (eg, as metadata for deinterlaced video). Or can be determined dynamically during deinterlacing.

上の式26、式27、式28に示された静止領域基準は、少なくとも2つの理由で、従来のデインタレース技法よりも多くのフィールドを使用する。第1に、偶奇性が同じフィールド間の比較は、偶奇性が異なるフィールド間の比較よりも低いエイリアスおよびフェーズミスマッチを有する。しかし、処理されるフィールドと偶奇性が同じ直近の近隣フィールドとの間の最小時間差(したがって相関)は、2フィールド分であり、偶奇性が異なる近隣フィールドとの最小時間差よりも大きい。より信頼性の高い偶奇性が異なるフィールドとよりエイリアスが低い偶奇性が同じフィールドとの組み合わせは、静止領域検出の精度を向上させることができる。   The static region criteria shown in Equations 26, 27, and 28 above use more fields than conventional deinterlacing techniques for at least two reasons. First, comparisons between fields with the same even-oddity have lower alias and phase mismatch than comparisons between fields with different even-oddity. However, the minimum time difference (and thus the correlation) between the field being processed and the nearest neighbor field with the same even-oddity is two fields, which is greater than the minimum time difference between neighboring fields with different even-oddity. The combination of a field with higher even-oddity with higher reliability and a field with the same even-oddity with lower alias can improve the accuracy of still region detection.

加えて、5つのフィールドは、図21に示されるように、現在フィールドCのピクセルXに対して過去および将来に対称的に分散させることができる。静止領域は、前方静止(先行フレームに対して静止)、後方静止(次フレームに対して静止)、または双方向静止(前方および後方基準がともに満たされる場合)の3つのカテゴリに細分することができる。静止領域のこのより精細な分類は、シーン変化時および物体の出現/消失時に特に性能を向上させることができる。   In addition, the five fields can be symmetrically distributed in the past and future with respect to the pixel X of the current field C, as shown in FIG. The rest area may be subdivided into three categories: forward rest (still with respect to the previous frame), rear rest (still with respect to the next frame), or bi-directional rest (when both forward and rear criteria are met). it can. This finer classification of still areas can improve performance especially during scene changes and when objects appear / disappear.

遅い動き領域
動きマップの領域は、あるピクセルのルミナンス値が、静止領域を指示する基準を満たさないが、遅い動き領域を指示する基準を満たす場合、動きマップにおける遅い動き領域と見なすことができる。以下の式29は、遅い動き領域を決定するために使用できる基準を定義する。図22を参照すると、式29で識別されるピクセルIa、Ic、Ja、Jc、Ka、Kc、La、Lc、P、Nの位置が、ピクセルXを中心とするアパーチャ内に示されている。アパーチャは、現在フィールド(C)の3×7ピクセル近傍と、次フィールド(N)および先行フィールド(P)の3×5近傍とを含む。ピクセルXは、それが静止領域用の上に列挙された基準を満たさず、アパーチャ内のピクセルが式29に示される以下の基準

Figure 2009532741
Slow motion region A region of a motion map can be considered as a slow motion region in a motion map if the luminance value of a pixel does not meet the criteria indicating a still region, but meets the criteria indicating a slow motion region. Equation 29 below defines a criterion that can be used to determine the slow motion region. Referring to FIG. 22, the positions of the pixels Ia, Ic, Ja, Jc, Ka, Kc, La, Lc, P, N identified by Equation 29 are shown in the aperture centered on pixel X. The aperture includes a 3 × 7 pixel neighborhood of the current field (C) and a 3 × 5 neighborhood of the next field (N) and the previous field (P). Pixel X does not meet the criteria listed above for the static region, and the pixel in the aperture is
Figure 2009532741

を満たす場合、遅い動き領域の部分であると見なされ、ここで、
はしきい値、
Ia、LIc、LJa、LJc、LJa、LJc、LKa、LKc、LLa、LLc、L、Lは、それぞれピクセルIa、Ic、Ja、Jc、Ka、Kc、La、Lc、P、Nのルミナンス値である。
Is considered to be part of the slow motion region, where
T 2 is a threshold value,
L Ia , L Ic , L Ja , L Jc , L Ja , L Jc , L Ka , L Kc , L La , L Lc , L P , L N are pixels Ia, Ic, Ja, Jc, Ka, Kc, respectively. , La, Lc, P, N luminance values.

しきい値Tはやはり、事前決定され、特定の値に設定されることができ、デインタレース以外のプロセスによって決定され、(例えば、デインタレースされるビデオ用のメタデータとして)提供されることができ、またはデインタレースの最中に動的に決定されることができる。 Threshold T 2 are again pre determined, can be set to a particular value, as determined by the deinterlacing process other than are provided (e.g., as metadata for video to be de-interlaced) Or can be determined dynamically during deinterlacing.

フィルタは、角度に依存するエッジ検出能力のため、水平な(例えば、垂直線となす角度が45°より大きい)エッジをぼやけさせ得ることに留意されたい。例えば、図22に示されるアパーチャ(フィルタ)のエッジ検出能力は、ピクセル「A」および「F」、または「C」および「D」によって形成される角度によって影響される。そのような角度よりも水平などのようなエッジも、最適に補間されず、したがって、そのようなエッジにおいて、階段状アーチファクトが出現することがある。いくつかの態様では、遅い動きカテゴリは、このエッジ検出結果を考慮するために、「水平エッジ」と「その他」という2つのサブカテゴリに分割することができる。遅い動きピクセルは、以下に示される式30の基準が満たされる場合、水平エッジとして分類され、式30の基準が満たされない場合、いわゆる「その他」カテゴリに分類されることができる。

Figure 2009532741
Note that the filter may blur horizontal edges (eg, the angle formed by the vertical line is greater than 45 °) due to the angle-dependent edge detection capability. For example, the edge detection capability of the aperture (filter) shown in FIG. 22 is affected by the angle formed by pixels “A” and “F” or “C” and “D”. Edges such as horizontal rather than such angles are not optimally interpolated and therefore staircase artifacts may appear at such edges. In some aspects, the slow motion category can be divided into two sub-categories, “Horizontal Edge” and “Other”, to account for this edge detection result. Slow motion pixels can be classified as horizontal edges if the criteria in Equation 30 shown below are met, and in the so-called “other” category if the criteria in Equation 30 are not met.
Figure 2009532741

ここで、Tはしきい値であり、LA、LB、LC、LD、LE、LFは、ピクセルA、B、C、D、E、Fのルミナンス値である。 Here, T 3 is the threshold, LA, LB, LC, LD , LE, LF is the luminance value of the pixels A, B, C, D, E, F.

水平エッジおよびその他カテゴリの各々に対して、異なる補間方法が使用できる。   Different interpolation methods can be used for each of the horizontal edges and other categories.

速い動き領域
静止領域用の基準および遅い動き領域用の基準が満たされない場合、ピクセルは、速い動き領域にあると見なすことができる。
Fast Motion Region If a criterion for a stationary region and a criterion for a slow motion region are not met, the pixel can be considered to be in a fast motion region.

選択フレームのピクセルを分類した後、プロセスA(図26)は、ブロック2604に進み、動き強度マップに基づいて暫定デインタレースフレームを生成する。この態様では、Wmedフィルタ2054(図20)は、以下のように定義され得る候補全フレーム画像Fを提供するために、選択フィールドおよび必要な隣接フィールドをフィルタリングし、

Figure 2009532741
After classifying the pixels of the selected frame, process A (FIG. 26) proceeds to block 2604 and generates a provisional deinterlaced frame based on the motion intensity map. In this aspect, the Wmed filter 2054 (FIG. 20) filters the selected field and the necessary neighboring fields to provide a candidate full frame image F 0 that can be defined as:
Figure 2009532741

ここで、α(i=0,1,2,3)は、以下のように計算される整数重みである。

Figure 2009532741
Figure 2009532741
Here, α i (i = 0, 1, 2, 3) is an integer weight calculated as follows.
Figure 2009532741
Figure 2009532741

Wmedフィルタリングを施された暫定デインタレースフレームは、図20の下側部分に示されるように、動き推定および動き補償処理と協力するさらなる処理に提供される。 The Wmed filtered provisional deinterlace frame is provided for further processing in cooperation with motion estimation and motion compensation processing, as shown in the lower part of FIG.

上で説明され、式31に示されるように、静止補間は、フィールド間補間を備え、遅い動きおよび速い動き補間は、フィールド内補間を備える。偶奇性が同じフィールドの時間的(例えばフィールド間)補間が望ましくないある種の態様では、時間的補間は、しきい値T(式4〜式6)をゼロ(T=0)に設定することによって、「使用不可」にすることができる。時間的補間を使用不可とした現在フィールドの処理は、動きレベルマップのどの領域も静止として分類しないという結果をもたらし、Wmedフィルタ2054(図20)は、図22のアパーチャ内に示された3つのフィールドを使用し、現在フィールドと2つの隣接する偶奇性が異なるフィールド上で動作する。 As described above and shown in Equation 31, static interpolation comprises inter-field interpolation, and slow and fast motion interpolation comprises intra-field interpolation. In certain aspects where temporal (eg, field-to-field) interpolation of fields with the same oddity is not desired, temporal interpolation sets threshold T 1 (Equations 4-6) to zero (T 1 = 0). By doing so, it can be made “unusable”. Processing of the current field with temporal interpolation disabled results in no region of the motion level map being classified as stationary, and the Wmed filter 2054 (FIG. 20) is a combination of the three shown in the aperture of FIG. Uses a field and operates on a field that differs from the current field by two adjacent oddities.

雑音低減
ある態様では、候補Wmedフレームが動き補償情報を使用してさらに処理される前に、候補Wmedフレームから雑音を除去するために、雑音低減器が使用できる。雑音低減器は、Wmedフレームに存在する雑音を除去し、信号の周波数内容に関わらず信号を存続させることができる。ウェーブレットフィルタを含む様々なタイプの雑音低減フィルタが使用できる。ウェーブレットは、空間およびスケーリングドメイン(scaling domain)の両方において、与えられた信号を局在化するために使用される関数のクラスである。ウェーブレットの背後の基本的アイデアは、ウェーブレット表現における小さな変化が、元の信号における対応する小さな変化を生み出すように、異なるスケールまたは解像度で信号を分析することである。
Noise Reduction In some aspects, a noise reducer can be used to remove noise from the candidate Wmed frame before the candidate Wmed frame is further processed using motion compensation information. The noise reducer can remove the noise present in the Wmed frame and keep the signal regardless of the frequency content of the signal. Various types of noise reduction filters can be used, including wavelet filters. Wavelets are a class of functions used to localize a given signal, both in space and in the scaling domain. The basic idea behind wavelets is to analyze signals at different scales or resolutions so that small changes in the wavelet representation produce corresponding small changes in the original signal.

いくつかの態様では、雑音低減フィルタは、(4,2)双直交3次Bスプラインウェーブレットフィルタ((4, 2) biorthogonal cubic B-spline wavelet filter)の一態様に基づく。1つのそのようなフィルタは、以下の順変換および逆変換

Figure 2009532741
In some aspects, the noise reduction filter is based on one aspect of a (4,2) biorthogonal cubic B-spline wavelet filter. One such filter has the following forward and inverse transforms:
Figure 2009532741

および

Figure 2009532741
and
Figure 2009532741

によって定義することができる。 Can be defined by

雑音低減フィルタの適用は、雑音の多い環境において動き補償の精度を高めることができる。ビデオ系列内の雑音は、加法性白色ガウスであると仮定される。雑音の推定分散は、σによって表される。それは、0.6745で除算された最高周波数サブバンド係数の中央値絶対偏差として推定することができる。そのようなフィルタの実施は、D.L.Donoho、I.M.Johnstoneの「Ideal spatial adaptation by wavelet shrinkage」、Biometrika、vol.8、425〜455ページ、1994年においてさらに説明されており、同文献は、参照によりその全体が本明細書に組み込まれる。   The application of the noise reduction filter can improve the accuracy of motion compensation in a noisy environment. The noise in the video sequence is assumed to be additive white Gaussian. The estimated variance of noise is represented by σ. It can be estimated as the median absolute deviation of the highest frequency subband coefficient divided by 0.6745. Implementation of such a filter is described in D.C. L. Donoho, I.D. M.M. Johnstone's “Ideal spatial adaptation by wavelet shrinkage”, Biometrica, vol. 8, pages 425-455, 1994, which is incorporated herein by reference in its entirety.

ウェーブレット縮小またはウェーブレットワイナーフィルタも、雑音低減器として適用することができる。ウェーブレット縮小雑音低減は、ウェーブレット変換ドメインを縮小することを含むことができ、一般に、線形ウェーブレット順変換、非線形縮小雑音低減、および線形ウェーブレット逆変換の3つのステップを備える。ワイナーフィルタは、加法性雑音およびぼやけによって劣化した画像を改善するために使用できる、MSE最適線形フィルタである。そのようなフィルタは、当技術分野において一般に知られており、例えば、上で参照した「Ideal spatial adaptation by wavelet shrinkage」、およびS.P.Ghael、A.M.Sayeed、R.G.Baraniukの「Improvement Wavelet denoising via empirical Wiener filtering」、Proceedings of SPIE、vol 3169、389〜399ページ、San Diego、1997年7月で説明されている。   Wavelet reduction or wavelet Wiener filters can also be applied as noise reducers. Wavelet reduced noise reduction can include reducing the wavelet transform domain and generally comprises three steps: linear wavelet forward transformation, nonlinear reduced noise reduction, and linear wavelet inverse transformation. The Wiener filter is an MSE optimal linear filter that can be used to improve images degraded by additive noise and blur. Such filters are generally known in the art and are described, for example, in “Ideal spatial adaptation by wavelet shrinkage” referenced above, and in S.A. P. Ghael, A.M. M.M. Sayeded, R.M. G. Baraniuk, “Improvement Wavelet Denaturing Via Emperoral Wiener Filtering”, Proceedings of SPIE, vol 3169, pages 389-399, San Diego, July 1997.

動き補償
図27を参照すると、ブロック2702において、プロセスBは、双方向動き推定を実行し、次にブロック104において、動き推定を使用して、図20にさらに図示され、以下本明細書の例示的な態様で説明される、動き補償を実行する。Wmedフィルタと動き補償ベースのデインタレーサの間には1フィールド分の「遅れ」が存在する。現在フィールド「C」の「喪失」データ(本来の行ではない行(non-original rows)のピクセルデータ)についての動き補償情報は、図23に示されるような、先行フレーム「P」および次フレーム「N」の両方の情報から予測される。現在フィールド(図23)では、実線は、本来のピクセルデータが存在する行を表し、破線は、Wmed補間ピクセルデータが存在する行を表す。ある態様では、動き補償は、4行×8列のピクセル近傍において実行される。しかし、このピクセル近傍は、説明を目的とした一例であり、動き補償が、異なる数の行および異なる数の列を備えるピクセル近傍に基づいた他の態様において実行され得ること、それらの選択が、例えば、計算スピード、利用可能な処理能力、またはデインタレースされるマルチメディアデータの特性を含む、多くの要因に基づき得ることは、当業者には明らかであろう。現在フィールドは、行の半分しかもたないので、照合される4行は、実際には8ピクセル×8ピクセルの領域に対応する。
Motion Compensation Referring to FIG. 27, at block 2702, process B performs bi-directional motion estimation, and then at block 104, using motion estimation, is further illustrated in FIG. Motion compensation, described in a general manner, is performed. There is a “lag” of one field between the Wmed filter and the motion compensation based deinterlacer. The motion compensation information for the “lost” data of the current field “C” (pixel data of non-original rows) is the previous frame “P” and the next frame as shown in FIG. Predicted from both “N” information. In the current field (FIG. 23), the solid line represents the line where the original pixel data exists, and the broken line represents the line where the Wmed interpolated pixel data exists. In one aspect, motion compensation is performed in the vicinity of 4 rows by 8 columns of pixels. However, this pixel neighborhood is an illustrative example, and motion compensation can be performed in other ways based on pixel neighborhoods with different numbers of rows and different numbers of columns, and their selection is It will be apparent to those skilled in the art that it can be based on many factors including, for example, computational speed, available processing power, or characteristics of the deinterlaced multimedia data. Since the current field is only half of the row, the 4 rows to be matched actually correspond to an area of 8 pixels by 8 pixels.

図20を参照すると、双方向ME/MC2068は、Wmed現在フレーム2060をWmed次フレーム2058およびデインタレース現在フレーム2070と比較するために、予測ブロックと予測ブロックの間の類似性を測定するために使用できる、2乗誤差の和(SSE)を使用することができる。動き補償を施された現在フレーム2066の生成は、その後、最も類似する照合ブロックからのピクセル情報を使用して、本来のピクセル行の間の喪失データの箇所を埋める。いくつかの態様では、双方向ME/MC2068は、デインタレース先行フレーム2070の情報からのピクセル情報にバイアスをかけ、またはより大きな重みを与えるが、それは、デインタレース先行フレーム2070は、動き補償情報およびWmed情報によって生成されるのに対し、Wmed次フレーム2058は、時空間フィルタリングによってデインタレースされたに過ぎないからである。   Referring to FIG. 20, the bidirectional ME / MC 2068 measures the similarity between the prediction block and the prediction block to compare the Wmed current frame 2060 with the Wmed next frame 2058 and the deinterlaced current frame 2070. The sum of squared errors (SSE) that can be used can be used. Generation of the motion compensated current frame 2066 then uses the pixel information from the most similar match block to fill in the missing data locations between the original pixel rows. In some aspects, the bi-directional ME / MC 2068 biases or gives greater weight to pixel information from the information in the deinterlaced previous frame 2070, which means that the deinterlaced previous frame 2070 is motion compensated. This is because the Wmed next frame 2058 is only deinterlaced by space-time filtering, whereas it is generated by information and Wmed information.

いくつかの態様では、ルーマは同様だがクロマが異なる領域を有するフィールドの領域における照合性能を改善するため、1つまたは複数のルーマグループオブピクセル(luma group of pixels)(例えば、1つの4行×8列のルーマブロック)および1つまたは複数のクロマグループオブピクセル(chroma group of pixels)(例えば、2つの2行×4列のルーマブロックU、V)のピクセル値の寄与を含むメトリックが使用できる。そのような手法は、色敏感領域におけるミスマッチを効果的に減少させる。   In some aspects, one or more luma group of pixels (e.g., one 4 row x 1) to improve matching performance in areas of fields that have similar luma but different chroma areas. A metric can be used that includes pixel value contributions of 8 column luma blocks) and one or more chroma group of pixels (eg, 2 2 × 4 luma blocks U, V). . Such an approach effectively reduces mismatches in color sensitive areas.

動きベクトル(MV)は、垂直次元において1/2ピクセルの粒度を有し、水平次元において1/2または1/4ピクセルの粒度を有する。分数ピクセルサンプルを取得するため、補間フィルタが使用できる。例えば、半ピクセルサンプルを取得するために使用できるいくつかのフィルタは、双1次フィルタ(1,1)、H.263/AVCによって推奨される補間フィルタ(1,−5,20,20,−5,1)、および6タップハミング窓sinc関数フィルタ(3,−21,147,147,−21,3)を含む。1/4ピクセルサンプルは、双1次フィルタを適用することによって、全および半ピクセルサンプルから生成することができる。   The motion vector (MV) has a 1/2 pixel granularity in the vertical dimension and 1/2 or 1/4 pixel granularity in the horizontal dimension. An interpolation filter can be used to obtain fractional pixel samples. For example, some filters that can be used to acquire half-pixel samples are bilinear filters (1,1), H. Includes interpolation filters (1, -5, 20, 20, -5, 1) recommended by H.263 / AVC and 6-tap Hamming window sinc function filters (3, -21, 147, 147, -21, 3) . Quarter pixel samples can be generated from full and half pixel samples by applying a bilinear filter.

いくつかの態様では、動き補償は、現在フレームのある位置におけるデータ(例えば、物体の描画)を別のフレーム(例えば、次フレームまたは先行フレーム)の異なる位置における対応データと照合するために、様々なタイプの探索プロセスを使用することができ、それぞれのフレーム内の位置の差は、物体の運きを示している。例えば、探索プロセスは、より大きな探索領域をカバーできるフルモーション探索、またはより少ないピクセルおよび/もしくは例えばひし形などの特定の形を有することができる探索パターンにおいて使用される選択ピクセルを使用できる高速モーション探索を使用する。高速モーション探索の場合、探索領域の中心は、隣接フレームを探索するための開始点として使用できる動き推定または動き候補に置くことができる。いくつかの態様では、MV候補は、外部の動き推定器で生成され、デインタレーサに提供されることができる。先に動き補償を施された隣接フレーム内の対応する近傍に属するマクロブロックの動きベクトルも、動き推定として使用することができる。いくつかの態様では、MV候補は、対応する先行フレームおよび次フレームのマクロブロック近傍(例えば、3マクロブロック×3マクロブロック)を探索することから生成することができる。   In some aspects, motion compensation may be used to match data at one location in the current frame (eg, drawing of an object) with corresponding data at different locations in another frame (eg, the next or previous frame). Any type of search process can be used, and the difference in position within each frame indicates the movement of the object. For example, the search process can be a full motion search that can cover a larger search area, or a fast motion search that can use fewer pixels and / or selected pixels used in a search pattern that can have a particular shape, such as a diamond. Is used. In the case of fast motion search, the center of the search area can be placed in a motion estimation or motion candidate that can be used as a starting point for searching for adjacent frames. In some aspects, MV candidates may be generated with an external motion estimator and provided to the deinterlacer. The motion vector of the macroblock belonging to the corresponding neighborhood in the adjacent frame that has been previously subjected to motion compensation can also be used as motion estimation. In some aspects, MV candidates can be generated from searching for macroblock neighborhoods (eg, 3 macroblocks × 3 macroblocks) of corresponding previous and next frames.

図24は、図23に示されるような先行フレームおよび次フレームの近傍を探索することによって、動き推定/補償の最中に生成され得る、2つのMVマップであるMVおよびMVの例を示している。MVおよびMVの両方において、動き情報を決定するために処理されるブロックは、「X」によって表される中央ブロックである。MVおよびMVの両方に、処理される現在ブロックXの動き推定の最中に使用できる、9つのMV候補が存在する。この例では、先に実行された動き探索からの4つのMV候補が同じフィールド内に存在し、MVおよびMV(図24)において、より薄い色のブロックによって示されている。より濃い色のブロックによって示される他の5つのMV候補は、先に処理されたフレームの動き情報からコピー(またはマップ)されたものである。 FIG. 24 shows an example of two MV maps, MV P and MV N , that can be generated during motion estimation / compensation by searching for neighborhoods of the previous and next frames as shown in FIG. Show. In both MV P and MV N, the block processed to determine motion information is the central block represented by “X”. There are nine MV candidates in both MV P and MV N that can be used during motion estimation for the current block X being processed. In this example, four MV candidates from the previously performed motion search are present in the same field, indicated by lighter colored blocks in MV P and MV N (FIG. 24). The other five MV candidates indicated by the darker colored blocks are copied (or mapped) from previously processed frame motion information.

動き推定/補償が完了した後、Wmedフィルタによって生成された1つの補間結果(図20のWmed現在フレーム2060)と、動き補償器の動き推定処理によって生成されたもう1つの補間結果(MC現在フレーム2066)の、2つの補間結果は、喪失ラインをもたらす。結合器2062は一般に、現在デインタレースフレーム2064を生成するために、Wmed現在フレーム2060およびMC現在フレーム2066の少なくとも一部を使用することによって、Wmed現在フレーム2060とMC現在フレーム2066とを合併する。しかし、ある条件下では、結合器2062は、現在フレーム2060またはMC現在フレーム2066の一方だけを使用して、現在デインタレースフレームを生成することができる。一例では、結合器2062は、デインタレース出力信号を生成するために、式36に示されるように、Wmed現在フレーム2060とMC現在フレーム2066とを合併し、

Figure 2009532741
After the motion estimation / compensation is completed, one interpolation result (Wmed current frame 2060 in FIG. 20) generated by the Wmed filter and another interpolation result (MC current frame generated by the motion estimation process of the motion compensator). The two interpolation results of 2066) result in a lost line. Combiner 2062 generally merges Wmed current frame 2060 and MC current frame 2066 by using at least a portion of Wmed current frame 2060 and MC current frame 2066 to generate current deinterlaced frame 2064. . However, under certain conditions, combiner 2062 may generate a current deinterlaced frame using only one of current frame 2060 or MC current frame 2066. In one example, combiner 2062 merges Wmed current frame 2060 and MC current frame 2066 as shown in Equation 36 to produce a deinterlaced output signal,
Figure 2009532741

ここで、

Figure 2009532741
here,
Figure 2009532741

は、フィールドnの位置x=(x,y)におけるルミナンス値のために使用され、は転置を表す。

Figure 2009532741
Is used for the luminance value at the position x = (x, y) t field n i, t denotes the transpose.
Figure 2009532741

として定義されるクリップ関数を使用すると、kは、

Figure 2009532741
With clip function defined as, k i is
Figure 2009532741

として計算することができ、ここで、Cは、頑健なパラメータであり、Diffは、予測フレームピクセルと(既存フレームから取られた)予測フレーム内の利用可能ピクセルのルーマ差である。C1を適切に選択することによって、平均2乗誤差の相対重要度を調整することが可能である。kは、式39に示されるように計算することができ、

Figure 2009532741
Where C 1 is a robust parameter and Diff is the luma difference between the predicted frame pixel and the available pixel in the predicted frame (taken from an existing frame). By appropriately selecting C1, it is possible to adjust the relative importance of the mean square error. k 2 can be calculated as shown in Equation 39,
Figure 2009532741

ここで、

Figure 2009532741
here,
Figure 2009532741

は、動きベクトルであり、δは、ゼロによる除算を防止するための小さな定数である。フィルタリングのためにクリップ関数を使用するデインタレースは、G.D.Haan、E.B.Bellersの「De−interlacing of video data」、IEEE Transactions on Consumer Electronics、Vol.43、No.3、819〜825ページ、1997年においてさらに説明されており、同文献は、その全体が本明細書に組み込まれる。 Is a motion vector, and δ is a small constant to prevent division by zero. Deinterlacing using clip functions for filtering is D. Haan, E .; B. Bellers, “De-interlacing of video data”, IEEE Transactions on Consumer Electronics, Vol. 43, no. 3, pages 819-825, 1997, which is incorporated herein in its entirety.

いくつかの態様では、結合器2062は、高いPSNRおよび頑健な結果を達成するために、以下の式を試し、維持するように構成することができる。

Figure 2009532741
In some aspects, the combiner 2062 can be configured to try and maintain the following equation to achieve high PSNR and robust results.
Figure 2009532741

フィールド間補間を備えるデインタレース予測方式を、Wmed+MCデインタレース方式を用いるフィールド内補間から切り離すことが可能である。言い換えると、時空間Wmedフィルタリングは、主にフィールド内補間目的で使用することができ、一方、フィールド間補間は、動き補償の最中に実行することができる。これは、Wmed結果のピークSN比を低下させるが、不正確なフィールド間予測モード判定からの不良ピクセルが、Wmedフィルタリングプロセスから除去されるので、動き補償が適用された後の視覚的品質は、より好ましい。   It is possible to decouple the deinterlace prediction scheme with inter-field interpolation from intra-field interpolation using the Wmed + MC deinterlace scheme. In other words, spatio-temporal Wmed filtering can be used primarily for intra-field interpolation purposes, while inter-field interpolation can be performed during motion compensation. This reduces the peak signal-to-noise ratio of the Wmed result, but the bad quality from inaccurate inter-field prediction mode determination is removed from the Wmed filtering process, so the visual quality after motion compensation is applied is More preferred.

クロマ処理は、共存するルーマ処理と整合的であることができる。動きマップ生成に関して、クロマピクセルの動きレベルは、4つの共存するルーマピクセルの動きレベルを観測することによって取得される。操作は、ボーティング(voting)に基づくことができる(クロマ動きレベルは優勢なルーマ動きレベルを借用する)。しかし、発明者らは、以下のような従来の手法を使用することを提案する。4つのルーマピクセルのいずれか1つが速い動きレベルを有する場合、クロマ動きレベルは速い動きであり、それ以外で、4つのルーマピクセルのいずれか1つが遅い動きレベルを有する場合、クロマ動きレベルは遅い動きであり、それ以外では、クロマ動きレベルは静止である。従来の手法は、最高のPSNRを達成しないこともあるが、クロマ動きレベルにあいまい性が存在する場合常にINTER予測を使用するリスクを回避する。   Chroma processing can be consistent with coexisting luma processing. For motion map generation, chroma pixel motion levels are obtained by observing the motion levels of four coexisting luma pixels. The operation can be based on voting (the chroma motion level borrows the dominant luma motion level). However, the inventors propose to use a conventional technique as follows. If any one of the four luma pixels has a fast motion level, the chroma motion level is fast, otherwise if any one of the four luma pixels has a slow motion level, the chroma motion level is slow. It is motion, otherwise the chroma motion level is stationary. Conventional approaches may not achieve the highest PSNR, but avoid the risk of using INTER prediction whenever there is ambiguity in chroma motion levels.

マルチメディアデータ系列は、説明されたWmedアルゴリズムを単独で使用して、ならびに本明細書で説明されたWmedおよび動き補償を組み合わせたアルゴリズムを使用してデインタレースされる。同じマルチメディアデータ系列は、ピクセルブレンディング(または平均)アルゴリズムを使用してもデインタレースされ、「デインタレースなし」の場合には、どのような補間またはブレンディングも伴わずにフィールドが単に組み合わされる。結果のフレームが、PSNRを決定するために分析され、以下の表に示されている。

Figure 2009532741
The multimedia data sequence is deinterlaced using the described Wmed algorithm alone and using the combined Wmed and motion compensation algorithm described herein. The same multimedia data series is also deinterlaced using a pixel blending (or average) algorithm, and in the case of “no deinterlacing”, the fields are simply combined without any interpolation or blending. . The resulting frame was analyzed to determine PSNR and is shown in the table below.
Figure 2009532741

Wmedに加えてMCを使用してデインタレースを行ったことによるPSNRの改善が不十分なものに過ぎないとしても、上で言及されたように、Wmed結果とMC結果の組み合わせは、偶数フィールドと奇数フィールドの間のエイリアスおよび雑音を抑制するので、WmedおよびMC補間結果を組み合わせることによって生成されるデインタレース画像の視覚的品質はより好ましい。   As mentioned above, the combination of the Wmed result and the MC result is an even field, even though the improvement in PSNR due to deinterlacing using MC in addition to Wmed is only insufficient. The visual quality of the deinterlaced image generated by combining the Wmed and MC interpolation results is more favorable because it suppresses aliasing and noise between the and odd fields.

いくつかのリサンプリング態様では、画像サイズのリサイズのために、多相リサンプラが実施される。ダウンサンプリングの一例では、元の画像とリサイズ画像の間の比は、p/qとすることができ、ここで、pおよびqは、互いに素の整数である。相の総数はpである。いくつかの態様では、リサイズ係数が約0.5である場合、多相フィルタのカットオフ周波数は0.6である。カットオフ周波数は、リサイズ系列の高周波数応答を引き上げるために、リサイズ比と正確には一致しない。これは必然的にいくらかのエイリアスを許容する。しかし、人間の目は、エイリアスなしのぼやけた画像よりも、僅かにエイリアスがあっても鮮明な画像のほうを好むことがよく知られている。   In some resampling aspects, a polyphase resampler is implemented for resizing the image size. In one example of downsampling, the ratio between the original image and the resized image can be p / q, where p and q are relatively prime integers. The total number of phases is p. In some aspects, when the resizing factor is about 0.5, the cutoff frequency of the polyphase filter is 0.6. The cut-off frequency does not exactly match the resizing ratio in order to raise the high frequency response of the resizing sequence. This inevitably allows some aliasing. However, it is well known that the human eye prefers a clear image with a slight alias over a blurry image without an alias.

図42は、リサイズ比が3/4である場合の相を示す、多相リサンプリングの一例を示している。図42に示されるカットオフ周波数も3/4である。元のピクセルは、垂直軸を用いて上述の図42に示されている。フィルタ波形を表すために、軸を中心にしてsinc関数も描かれている。リサンプリング比と正確に同じになるようにカットオフ周波数を選択したため、sinc関数のゼロは、×印を用いて図42に示されるように、リサイズ後のピクセルの位置と重なり合っている。リサイズ後のピクセル値を見出すため、以下の式に示されるように、元のピクセルからの寄与が合計されることができ、

Figure 2009532741
FIG. 42 shows an example of multi-phase resampling showing the phase when the resizing ratio is 3/4. The cut-off frequency shown in FIG. 42 is also 3/4. The original pixel is shown in FIG. 42 above using the vertical axis. A sinc function is also drawn around the axis to represent the filter waveform. Since the cut-off frequency was selected to be exactly the same as the resampling ratio, the sinc function zero overlaps with the resized pixel position, as shown in FIG. To find the resized pixel value, the contributions from the original pixel can be summed, as shown in the equation below,
Figure 2009532741

ここで、fはカットオフ周波数である。上述のI−D多相フィルタは、水平次元および垂直次元の両方に適用することができる。 Here, f c is the cutoff frequency. The ID polyphase filter described above can be applied in both horizontal and vertical dimensions.

リサンプリング(リサイズ)の別の態様は、オーバスキャンを考慮する。NTSCテレビ信号では、画像は、486本の走査線を有し、ディジタルビデオでは、各走査線上に720個のピクセルを有することができる。しかし、画像全体の必ずしもすべてが、サイズと画面形式の間のミスマッチのため、テレビ上で可視となるわけではない。可視とならない画像の部分は、オーバスキャンと呼ばれる。   Another aspect of resampling (resizing) considers overscan. For NTSC television signals, an image can have 486 scan lines, and for digital video, it can have 720 pixels on each scan line. However, not all of the entire image is visible on the television because of a mismatch between size and screen format. The part of the image that is not visible is called overscan.

放送者ができるだけ多くのテレビによって可視となる領域に有用な情報を置くための助けとなるように、映画テレビ技術者協会(SMPTE:Society of Motion Picture & Television Engineers)は、セーフアクション領域およびセーフタイトル領域と呼ばれるアクションフレームの特定のサイズを定義した。Specifications for Safe Action and Safe Title Areas Test Pattern for Television SystemsのSMPTE推奨実践RP27.3−1989を参照されたい。セーフアクション領域は、「すべての重要なアクションが起こらなければならない」領域としてSMPTEによって定義されている。セーフタイトル領域は、「すべての有用な情報をそこに収めることで大多数の家庭用テレビ受像機における可視性を保証することができる」領域として定義されている。例えば、図43に示されるように、セーフアクション領域4310は、画面の中央90%を占有し、その全周囲に5%の縁領域を残す。セーフタイトル領域4305は、画面の中央80%を占有し、10%の縁領域を残す。図。   To help broadcasters put useful information in areas that are visible on as many televisions as possible, the Society of Motion Picture & Television Engineers (SMPTE) has created safe action areas and safe titles. A specific size of action frame called area was defined. Please refer to SMPTE Recommended Practice RP27.3-1989 from Specifications for Safe Action and Safe Title Area Test Pattern for Television Systems. The safe action area is defined by SMPTE as the "all important actions must take place" area. The safe title area is defined as an area where “all useful information can be stored there to guarantee visibility in the majority of home television receivers”. For example, as shown in FIG. 43, the safe action area 4310 occupies the center 90% of the screen and leaves a 5% edge area around it. The safe title area 4305 occupies the center 80% of the screen and leaves a 10% edge area. Figure.

ここで図44を参照すると、セーフタイトル領域は非常に小さいので、画像により多くの内容を追加するため、いくつかの放送は、白い長方形ウィンドウ4415内部のセーフアクション領域にテキストを含める。通常、オーバスキャンにおいては、黒い縁領域が見えることがある。例えば、図44では、黒い縁領域が、画像の上辺4420および下辺4425に現れている。H.264ビデオは、動き推定において境界拡張を使用するので、これらの黒い縁領域は、オーバスキャンにおいて除去することができる。拡張された黒い縁領域は、残余を大きくすることができる。控えめに、境界を2%だけカットし、その後、リサイズを行うことができる。リサイズ用のフィルタは、しかるべく生成することができる。多相ダウンサンプリングの前にオーバスキャンを除去するために、トランケーションが実行される。   Referring now to FIG. 44, the safe title area is so small that some broadcasts include text in the safe action area inside the white rectangular window 4415 to add more content to the image. Usually, a black edge region may be seen in overscan. For example, in FIG. 44, black edge regions appear on the upper side 4420 and the lower side 4425 of the image. H. Since H.264 video uses boundary extension in motion estimation, these black edge regions can be removed in overscan. The expanded black border area can increase the residue. Conservatively, the border can be cut by 2% and then resized. Resizing filters can be generated accordingly. Truncation is performed to remove overscan prior to polyphase downsampling.

デブロッキング/デリンギング
デブロッキング処理の一例では、デブロッキングフィルタは、フレームの境界のエッジと、デブロッキングフィルタが使用不可であるエッジとを除いて、フレームのすべての4×4ブロックエッジに適用することができる。このフィルタリングプロセスは、フレーム構成プロセスの完了後に、マクロブロックに基づいて実行され、フレーム内のすべてのマクロブロックが、マクロブロックアドレスの昇順で処理される。各マクロブロックについて、最初に垂直エッジが、左から右にフィルタリングされ、次に水平エッジが、上から下にフィルタリングされる。図39に示されるように、水平方向および垂直方向に関して、ルーマデブロッキングフィルタプロセスは、4つの16サンプルエッジ上で実行され、各クロマ成分用のデブロッキングフィルタプロセスは、2つの8サンプルエッジ上で実行される。先行マクロブロック上でのデブロッキングプロセス操作によってすでに変更されている場合がある、現在マクロブロックの上方および左方のサンプル値は、現在マクロブロック上でのデブロッキングフィルタプロセスへの入力として使用され、現在マクロブロックのフィルタリングの最中にさらに変更されることがある。垂直エッジのフィルタリングの最中に変更されたサンプル値は、同じマクロブロックの水平エッジのフィルタリングのための入力として使用することができる。デブロッキングプロセスは、ルーマ成分用およびクロマ成分用に別々に起動することができる。
Deblocking / Deringing In one example of the deblocking process, the deblocking filter is applied to all 4x4 block edges of the frame except for the edge of the frame boundary and the edge where the deblocking filter is disabled. Can do. This filtering process is performed based on the macroblock after completion of the frame construction process, and all macroblocks in the frame are processed in ascending order of macroblock addresses. For each macroblock, the vertical edges are first filtered from left to right and then the horizontal edges are filtered from top to bottom. As shown in FIG. 39, for horizontal and vertical directions, the luma deblocking filter process is performed on four 16 sample edges, and the deblocking filter process for each chroma component is performed on two eight sample edges. Executed. The sample values above and to the left of the current macroblock, which may have been changed by a deblocking process operation on the preceding macroblock, are used as input to the deblocking filter process on the current macroblock, It may change further during the current macroblock filtering. Sample values modified during vertical edge filtering can be used as input for horizontal edge filtering of the same macroblock. The deblocking process can be started separately for luma and chroma components.

デリンギング処理の一例では、エッジ付近の領域を平滑化するために、2−Dフィルタが適応的に適用されることができる。エッジピクセルは、ぼやけを回避するために、フィルタリングを僅かしか施されず、または全く施されない。   In one example of deringing processing, a 2-D filter can be adaptively applied to smooth the region near the edge. Edge pixels are filtered little or not at all to avoid blurring.

GOPパーティショナ
帯域幅マップ生成、ショット検出、および適応GOP区分化を含む処理の説明的な例が、以下で説明され、そのような処理は、GOPパーティショナに含まれることができる。
GOP Partitioner An illustrative example of processing that includes bandwidth map generation, shot detection, and adaptive GOP partitioning is described below, and such processing can be included in the GOP partitioner.

帯域幅マップ生成
人間の視覚品質Vは、符号化の複雑さCおよび割り当てられたビットB(帯域幅とも呼ばれる)の両方の関数とすることができる。図29は、この関係を示すグラフである。符号化の複雑さメトリックCが、人間の視覚の観点から時空間周波数を考慮していることに留意されたい。ひずみの場合、人間の目がより敏感に捉えるほど、複雑さの値も対応してより高くなる。VがCについて単調減少し、Bについて単調増加することを一般に仮定することができる。
Bandwidth Map Generation Human visual quality V can be a function of both encoding complexity C and allocated bits B (also called bandwidth). FIG. 29 is a graph showing this relationship. Note that the coding complexity metric C takes into account the spatio-temporal frequency from the perspective of human vision. In the case of strain, the more sensitive the human eye is, the correspondingly higher the value of complexity. It can generally be assumed that V monotonically decreases for C and monotonically increases for B.

一定した視覚品質を達成するため、すぐ下の2つの式で表現される基準を満たす帯域幅(B)が、符号化される第iオブジェクト(フレームまたはMB)に割り当てられる。

Figure 2009532741
Figure 2009532741
In order to achieve a constant visual quality, a bandwidth (B i ) that meets the criteria expressed by the two equations below is allocated to the i th object (frame or MB) to be encoded.
Figure 2009532741
Figure 2009532741

すぐ上の2つの式では、Cは、第iオブジェクトの符号化の複雑さ、Bは、利用可能な総帯域幅、Vは、オブジェクトに関して達成された視覚品質である。 The immediate two equations above, C i is the complexity of the encoding of the i object, B is the total available bandwidth, V is a visual quality achieved with respect to the object.

人間の視覚品質は、式として定式化するのが難しい。したがって、上記の式の組は、正確に定義されたものではない。しかし、3−Dモデルがすべての変数で連続的であると仮定するならば、比帯域(B/B)は、(C,V)対の近傍内では変化がないものとして扱うことができる。比帯域βは、以下に示される式で定義される。

Figure 2009532741
Human visual quality is difficult to formulate as a formula. Therefore, the above set of equations is not precisely defined. However, if the 3-D model is assumed to be continuous across all variables, the ratio band (B i / B) can be treated as having no change within the vicinity of the (C, V) pair. . The ratio band β i is defined by the following equation.
Figure 2009532741

ビット割り当ては、以下の式で表現されるように定義することができる。

Figure 2009532741
Bit allocation can be defined as expressed by the following equation:
Figure 2009532741

ここで、δは、「近傍」を表す。 Here, δ represents “neighborhood”.

符号化の複雑さは、空間的および時間的に、人間の視覚感度によって影響される。ジロ(Girod)の人間の視覚モデルは、空間複雑さを定義するために使用できるモデルの一例である。このモデルは、局所空間周波数および周囲照明を考慮する。結果のメトリックは、Dcsatと呼ばれる。プロセスの前処理時点において、画像がイントラ符号化されるか、それともインター符号化されるかは分からないので、両方についての比帯域が生成される。ビットは、異なるビデオオブジェクトのβINTRAの間の比に従って割り当てられる。イントラ符号化画像の場合、比帯域は、以下の式で表現される。

Figure 2009532741
Coding complexity is affected by human visual sensitivity, both spatially and temporally. Girod's human visual model is an example of a model that can be used to define spatial complexity. This model takes into account local spatial frequencies and ambient lighting. The resulting metric is called D csat . Since it is not known at the pre-processing time of the process whether the image is intra-coded or inter-coded, a ratio band for both is generated. Bits are allocated according to the ratio between β INTRA of different video objects. In the case of an intra-coded image, the ratio band is expressed by the following equation.
Figure 2009532741

上記の式において、Yは、マクロブロックの平均ルミナンス成分、αINTRAは、ルミナンスの2乗に対する加重係数であり、それにDcsat項が続き、β0INTRAは、

Figure 2009532741
In the above equation, Y is the average luminance component of the macroblock, α INTRA is the weighting factor for the square of the luminance, followed by the D csat term, and β 0 INTRA is
Figure 2009532741

を保証するための正規化係数である。例えば、αINTRA=4という値は、良好な視覚品質を達成する。コンテンツ情報(例えば、コンテンツ分類)は、ビデオの特定のコンテンツにとって望ましい良好な視覚品質レベルに対応する値にαINTRAを設定するために使用することができる。一例では、ビデオコンテンツが「語り手の顔が現れる」ニュース放送を備える場合、ビデオの情報画像または表示可能部分は音声部分よりも重要性が低いと見なすことができるので、視覚品質レベルはより低く設定することができ、データを符号化するために、より少ないビットを割り当てることができる。別の例では、ビデオコンテンツがスポーツイベントを備える場合、表示画像は視聴者にとってより重要であり得るので、より高い視覚品質レベルに対応する値にαINTRAを設定するために、コンテンツ情報が使用でき、したがって、データを符号化するために、より多くのビットを割り当てることができる。 Is a normalization coefficient for guaranteeing For example, a value of α INTRA = 4 achieves good visual quality. Content information (eg, content classification) can be used to set α INTRA to a value that corresponds to a good visual quality level desired for the particular content of the video. In one example, if the video content comprises a news broadcast with a “speaker's face”, the visual quality level is set lower because the information image or viewable part of the video can be considered less important than the audio part. Fewer bits can be allocated to encode the data. In another example, if the video content comprises a sporting event, the display information can be more important to the viewer, so the content information can be used to set α INTRA to a value corresponding to a higher visual quality level. Thus, more bits can be allocated to encode the data.

この関係を理解するため、帯域幅が符号化の複雑さの対数に応じて割り当てられることに留意されたい。ルミナンスの2乗項Yは、大きさがより大きい係数ほど符号化するのにより多くのビットを使用するという事実を反映している。対数が負の値を取ることを防止するため、括弧内の項に1が追加される。他の底をもつ対数も使用することができる。   To understand this relationship, note that bandwidth is allocated according to the logarithm of encoding complexity. The luminance squared term Y reflects the fact that the larger magnitude coefficient uses more bits to encode. To prevent the logarithm from taking a negative value, 1 is added to the term in parentheses. Logarithms with other bases can also be used.

時間複雑さは、絶対差の和(SAD)などのフレーム差分メトリックに加えて動きの量(例えば動きベクトル)を考慮した2つの連続するフレームの間の差を測定するフレーム差分メトリックの測定によって決定される。   Time complexity is determined by measuring a frame difference metric that measures the difference between two consecutive frames considering the amount of motion (eg, motion vector) in addition to a frame difference metric such as the sum of absolute differences (SAD). Is done.

インター符号化画像のビット割り当ては、空間複雑さに加えて時間複雑さも考慮することができる。これは以下のように表現される。

Figure 2009532741
In addition to spatial complexity, bit allocation of inter-coded images can take into account time complexity. This is expressed as follows.
Figure 2009532741

上記の式において、MVおよびMVは、現在のMBの順方向および逆方向動きベクトルである。イントラ符号化の帯域幅公式におけるYは2乗残差の和(SSD)によって置き換えられていることに留意されたい。上記の式における‖MV+MVの役割を理解するため、人間の視覚系の次の特徴、すなわち、平滑で予測可能な動きを経験している領域(小さな‖MV+MV)は、注意を引き、目によって追跡することができ、一般に静止領域と同程度のひずみにしか耐えることができないという特徴に留意されたい。しかし、速いまたは予測不可能な動きを経験している領域(大きな‖MV+MV)は、追跡することができず、相当な量子化に耐えることができる。実験は、αINTER=1、γ=0.001が良好な視覚品質を達成することを示した。 In the above equation, MV P and MV N are the forward and backward motion vectors of the current MB. Note that Y 2 in the intra-coding bandwidth formula is replaced by the sum of squared residuals (SSD). To understand the role of ‖MV P + MV N2 in the above formula, the following features of the human visual system, namely, the area experiencing predictable motion smooth (small ‖MV P + MV N2 ) Can be caught and tracked by the eye, and is generally characterized by being able to withstand only as much strain as the rest region. However, regions experiencing fast or unpredictable motion (large ‖MV P + MV N || 2) can not be tracked and can tolerate significant quantization. Experiments have shown that α INTER = 1, γ = 0.001 achieves good visual quality.

ショット検出
ショット検出の説明的な一例が以下で説明される。そのようなコンポーネントおよびプロセスは、GOPパーティショナ412(図4)内に含まれることができる。
Shot Detection An illustrative example of shot detection is described below. Such components and processes can be included in GOP partitioner 412 (FIG. 4).

動き補償器23は、ビデオ内のフレームについての双方向動き情報を決定するように構成することができる。動き補償器23は、1つまたは複数の差分メトリック、例えば、絶対差の和(SAD)または絶対差の和(SSD)を決定し、1つまたは複数のフレームのルミナンス情報(例えば、マクロブロック(MB)ルミナンス平均または差分)、ルミナンスヒストグラム差分、およびその例が式1〜式3を参照して説明されたフレーム差分メトリックを含む、他の情報を計算するようにも構成することができる。ショット分類器は、動き補償器によって決定された情報を使用して、ビデオ内のフレームを2つ以上の「ショット」カテゴリに分類するように構成することができる。符号器は、ショット分類に基づいて、複数のフレームを適応的に符号化するように構成される。動き補償器、ショット分類器、および符号器は、式1〜式10を参照して以下で説明される。   Motion compensator 23 can be configured to determine bi-directional motion information for frames in the video. The motion compensator 23 determines one or more difference metrics, eg, sum of absolute differences (SAD) or sum of absolute differences (SSD), and provides luminance information (eg, macroblock ( MB) luminance average or difference), luminance histogram difference, and other information, including frame difference metrics, examples of which are described with reference to Equations 1-3, can also be configured to calculate. The shot classifier can be configured to classify the frames in the video into two or more “shot” categories using information determined by the motion compensator. The encoder is configured to adaptively encode the plurality of frames based on the shot classification. The motion compensator, shot classifier, and encoder are described below with reference to Equations 1-10.

図28は、いくつかの態様によるショット検出および他の前処理操作のために構成されるプロセッサ2831を備える、プリプロセッサ202のブロック図である。ディジタルビデオ源は、図4に示されるようなプリプロセッサ202の外部の源によって提供され、プリプロセッサ202内の通信モジュール2836に伝達されることができる。プリプロセッサ202は、プロセッサ2831と通信する記憶媒体2825を含み、その両方とも、通信モジュール2836と通信する。プロセッサ2831は、動き補償器2032と、ショット分類器2833と、前処理用の他のモジュール2034とを含み、それらは、動き情報を生成し、ビデオデータのフレーム内のショットを分類し、本明細書で説明されるような他の前処理テストを実行するように動作することができる。動き補償器、ショット分類器、および他のモジュールは、図4の対応するモジュールと同様のプロセスを含むことができ、以下で説明される情報を決定するためにビデオを処理することができる。特に、プロセッサ2831は、双方向動き情報およびルミナンス情報を備える、複数のビデオフレームのうちの隣接フレームの間の差分を表すメトリックを取得し、前記メトリックに基づいて複数のビデオフレームにおけるショット変化を決定し、ショット変化に基づいて複数のフレームを適応的に符号化するための構成を有することができ、いくつかの態様では、メトリックは、プロセッサ2831の外部にあるばかりか、プリプロセッサ202の外部にあることもできる、デバイスまたはプロセスによって計算することができ、別のデバイスまたはメモリを介して直接または間接に、プロセッサ2831に伝達することができる。メトリックは、プロセッサ2831によっても、例えば、動き補償器2832によっても計算することができる。   FIG. 28 is a block diagram of a preprocessor 202 comprising a processor 2831 configured for shot detection and other preprocessing operations according to some aspects. The digital video source can be provided by a source external to the preprocessor 202 as shown in FIG. 4 and communicated to the communication module 2836 in the preprocessor 202. Preprocessor 202 includes a storage medium 2825 that communicates with processor 2831, both of which communicate with communication module 2836. The processor 2831 includes a motion compensator 2032, a shot classifier 2833, and another module 2034 for preprocessing, which generates motion information, classifies shots within a frame of video data, It can operate to perform other pre-processing tests as described in the document. Motion compensators, shot classifiers, and other modules can include processes similar to the corresponding modules of FIG. 4 and can process the video to determine the information described below. In particular, the processor 2831 obtains a metric that represents a difference between adjacent frames of the plurality of video frames comprising bidirectional motion information and luminance information, and determines shot changes in the plurality of video frames based on the metric. And may have a configuration for adaptively encoding multiple frames based on shot changes, and in some aspects the metrics are not only external to the processor 2831 but also external to the preprocessor 202. Can be computed by a device or process and can be communicated to the processor 2831 either directly or indirectly through another device or memory. The metric can be calculated by the processor 2831, for example, by the motion compensator 2832.

プリプロセッサ202は、さらなる処理、符号化、および例えば端末6(図1)など他のデバイスへの伝送のため、ビデオおよびメタデータを提供する。符号化ビデオは、いくつかの態様では、ベースレイヤおよびエンハンスメントレイヤを備え得る、スケーラブルなマルチレイヤ符号化ビデオとすることができる。スケーラブルレイヤ符号化は、本発明の譲受人によって所有される、「SCALABLE VIDEO CODING WITH TWO LAYER ENCODING AND SINGLE LAYER DECODING」と題する同時係属中の米国特許出願[整理番号050078]にさらに説明されており、同出願は、その全体が参照により本明細書に組み込まれる。   Preprocessor 202 provides video and metadata for further processing, encoding, and transmission to other devices such as terminal 6 (FIG. 1). The encoded video may in some aspects be a scalable multi-layer encoded video that may comprise a base layer and an enhancement layer. Scalable layer coding is further described in a co-pending US patent application entitled "SCALABLE VIDEO CODING WITH TWO LAYER ENCODER AND SINGLE LAYER DECODER" owned by the assignee of the present invention [Docket No. 050078] This application is incorporated herein by reference in its entirety.

図28ならびに本明細書で開示される他の例および図に関連して説明される様々な例示的な論理ブロック、コンポーネント、モジュール、および回路は、いくつかの態様では、本明細書で説明される機能を実行するために設計された、汎用プロセッサ、ディジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理、ディスクリートハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実施または実行することができる。図28に示されるプロセッサなどの汎用プロセッサは、マイクロプロセッサでよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械でもよい。プロセッサは、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと連携する1つまたは複数のマイクロプロセッサの組み合わせ、またはそのような他の任意の構成など、コンピューティングデバイスの組み合わせとして実施されてもよい。   Various exemplary logic blocks, components, modules, and circuits described in connection with FIG. 28 and other examples and figures disclosed herein, in some aspects, are described herein. A general purpose processor, digital signal processor (DSP), application specific integrated circuit (ASIC), field programmable gate array (FPGA) or other programmable logic device, discrete gate or transistor logic, It can be implemented or performed using discrete hardware components, or any combination thereof. A general purpose processor such as the processor shown in FIG. 28 may be a microprocessor, but in the alternative, the processor may be any conventional processor, controller, microcontroller, or state machine. A processor is a combination of computing devices such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors that cooperate with a DSP core, or any other such configuration. May be implemented.

ビデオ符号化は通常、構造化されたグループオブピクチャ(GOP)上で動作する。GOPは通常、イントラ符号化フレーム(Iフレーム)で開始し、それに一連のP(予測)またはB(双方向)フレームが続く。一般に、Iフレームは、フレームを表示するためのすべてのデータを保存することができ、Bフレームは、先行および後続フレーム内のデータに依存し(例えば、先行フレームから変更されたデータまたは次フレーム内のデータと異なるデータだけを含み)、Pフレームは、先行フレームから変更されたデータを含む。   Video coding typically operates on a structured group of pictures (GOP). A GOP typically starts with an intra-coded frame (I frame), followed by a series of P (predictive) or B (bidirectional) frames. In general, an I frame can store all data for displaying the frame, and a B frame depends on the data in the previous and subsequent frames (eg, data modified from the previous frame or in the next frame). P frame includes data changed from the previous frame.

一般的な使用においては、Iフレームは、符号化ビデオ内でPフレームおよびBフレームを差し入れられる。サイズ(例えば、フレームを符号化するために使用されるビットの数)に関して、Iフレームは一般に、Pフレームより大きく、Pフレームは、Bフレームよりも大きい。効率的な符号化、伝送、および復号処理のため、GOPの長さは、大きなIフレームから効率的損失を減らすのに十分なだけ長くなければならず、符号器と復号器の間のミスマッチまたはチャネル障害に対処するのに十分なだけ短くなければならない。加えて、Pフレーム内のマクロブロック(MB)は、同様の理由で、イントラ符号化することができる。   In general use, I frames are interleaved with P and B frames within the encoded video. With respect to size (eg, the number of bits used to encode a frame), an I frame is generally larger than a P frame, which is larger than a B frame. For efficient encoding, transmission, and decoding processes, the length of the GOP must be long enough to reduce the efficient loss from a large I-frame, and a mismatch between encoder and decoder or Must be short enough to cope with channel failure. In addition, macroblocks (MB) in P frames can be intra-coded for similar reasons.

シーン変化検出は、ビデオ符号器が適切なGOP長を決定し、Iフレームを固定間隔で挿入する代わりに、IフレームをGOP長に基づいて挿入するために使用することができる。実際のストリーミングビデオシステムでは、通信チャネルは通常、ビット誤りまたはパケット喪失によって障害をこうむる。IフレームまたはI MBをどこに置くかは、復号ビデオ品質および視聴経験に大きく影響することがある。1つの符号化方式は、共存する先行の画像または画像部分から著しい変化を有する画像または画像部分のためにイントラ符号化フレームを使用することである。通常、これらの領域は、動き推定を用いて効果的かつ効率的に予測することができず、そのような領域がインターフレーム符号化技法から除外されていれば(例えば、BフレームおよびPフレームを使用する符号化)、符号化はより効率的に行われることができる。チャネル障害の状況では、それらの領域は、誤り伝播の悪影響をこうむる可能性が高いが、誤り伝播は、イントラフレーム符号化によって低減または除去(もしくはほぼ除去)することができる。   Scene change detection can be used to insert an I frame based on the GOP length instead of the video encoder determining the appropriate GOP length and inserting the I frames at fixed intervals. In real streaming video systems, the communication channel is usually damaged by bit errors or packet loss. Where to place I frames or I MBs can greatly affect the decoded video quality and viewing experience. One encoding scheme is to use intra encoded frames for images or image portions that have significant changes from the coexisting previous image or image portion. Typically, these regions cannot be predicted effectively and efficiently using motion estimation and if such regions are excluded from interframe coding techniques (eg, B and P frames). Encoding used), the encoding can be performed more efficiently. In channel failure situations, these regions are likely to suffer from the adverse effects of error propagation, but error propagation can be reduced or eliminated (or nearly eliminated) by intraframe coding.

GOPビデオの部分は、2つ以上のカテゴリに分類することができ、各領域は、特定の実施に依存し得る異なるイントラフレーム符号化基準を有することができる。一例として、ビデオは、突然シーン変化と、クロスフェードおよび他の緩慢シーン変化と、カメラフラッシュライトの、3つのカテゴリに分類することができる。突然シーン変化は、先行フレームから著しく異なるフレームを含み、通常はカメラ操作によって引き起こされる。これらのフレームの内容は、先行フレームの内容と異なるので、突然シーン変化フレームは、Iフレームとして符号化されるべきである。クロスフェードおよび他の緩慢シーン変化は、シーンの緩慢な切り換えを含み、通常はカメラショットのコンピュータ処理によって引き起こされる。2つの異なるシーンの緩やかな混合は、人間の目にとってより好ましく見えることがあるが、ビデオ符号化に難題を提示する。動き補償は、それらのフレームのビットレートを効果的に低減することができず、より多くのイントラMBが、これらのフレームのために更新されることがある。   The portions of the GOP video can be classified into two or more categories, and each region can have a different intraframe coding standard that can depend on the particular implementation. As an example, videos can be divided into three categories: sudden scene changes, crossfades and other slow scene changes, and camera flashlights. Sudden scene changes include frames that differ significantly from the previous frame and are usually caused by camera manipulation. Since the content of these frames is different from the content of the previous frame, the sudden scene change frame should be encoded as an I frame. Crossfades and other slow scene changes include slow switching of scenes and are usually caused by computer processing of camera shots. The gentle mixing of two different scenes may appear more favorable to the human eye, but presents a challenge to video coding. Motion compensation cannot effectively reduce the bit rate of those frames, and more intra MBs may be updated for these frames.

カメラフラッシュライトまたはカメラフラッシュライトイベントは、フレームの内容がカメラフラッシュを含む場合に生じる。そのようなフラッシュは、持続時間が比較的短く(例えば1フレーム)、きわめて明るく、フラッシュを表現するフレーム内のピクセルは、隣接フレーム上の対応する領域と比べて異常に高いルミナンスを示す。カメラフラッシュライトは、画像のルミナンスを突然に素早く変化させる。通常、カメラフラッシュライトの持続時間は、一般に44msであると定義される人間の視覚系(HVS)の時間マスキング持続時間よりも短い。人間の目は、これらの短い明るさのバーストの品質に対して敏感でなく、したがって、それらは粗雑に符号化することができる。フラッシュライトフレームは、動き補償を用いて効果的に扱うことができないので、将来のフレームのための不適切な予測候補であり、これらのフレームの粗雑な符号化は、将来のフレームの符号化効率を低減させない。フラッシュライトとして分類されたシーンは、「人工的」な高いルミナンスのため、他のフレームを予測するために使用されるべきではなく、他のフレームは、同じ理由で、これらのフレームを予測するために効果的に使用することはできない。ひとたび識別されると、これらのフレームは、比較的高い処理量を必要とすることがあるので、取り除くことができる。1つの選択肢は、カメラフラッシュライトフレームを取り除き、それらの場所のDC係数を符号化することであり、そのような解決法は、簡単で、計算が速く、多くのビットを節約する。   A camera flashlight or camera flashlight event occurs when the contents of a frame include a camera flash. Such flashes are relatively short in duration (e.g., one frame) and are very bright, and the pixels in the frame that represent the flash exhibit an abnormally high luminance compared to the corresponding region on the adjacent frame. Camera flashlights suddenly and quickly change the luminance of the image. Typically, the duration of a camera flashlight is shorter than the human visual system (HVS) time masking duration, which is generally defined as 44 ms. The human eye is not sensitive to the quality of these short brightness bursts, so they can be coded coarsely. Since flashlight frames cannot be handled effectively using motion compensation, they are unsuitable prediction candidates for future frames, and the coarse coding of these frames can affect the coding efficiency of future frames. Will not be reduced. Scenes categorized as flashlights should not be used to predict other frames due to “artificial” high luminance, as other frames predict these frames for the same reason Cannot be used effectively. Once identified, these frames can be removed because they may require relatively high throughput. One option is to remove the camera flashlight frames and encode the DC coefficients at those locations, such a solution is simple, fast and saves a lot of bits.

上記のフレームのいずれかが検出された場合、ショットイベントが宣言される。ショット検出は、符号化品質を高めるために有用であるばかりでなく、探索およびインデックス付けの際にビデオコンテンツを識別する助けになることもできる。シーン検出プロセスの一態様が、以下本明細書で説明される。   If any of the above frames are detected, a shot event is declared. Shot detection is not only useful for increasing coding quality, but can also help identify video content during searching and indexing. One aspect of the scene detection process is described herein below.

図30は、GOP上で動作し、いくつかの態様では、ビデオフレーム内でのショット検出に基づいてビデオを符号化するために使用できる、プロセス3000を示しており、プロセス3000の部分(またはサブプロセス)は、図30〜図40を参照しながら説明および図説される。プロセッサ2831は、プロセス3000を組み込むように構成することができる。プロセス3000は、開始した後、ブロック3042に進み、隣接フレーム間の差分を表す情報を含む、ビデオフレームに関するメトリック(情報)が取得される。メトリックは、双方向動き情報と、ショット分類のために使用できる、隣接フレーム間で発生する変化を後で決定するためのルミナンスベースの情報とを含む。そのようなメトリックは、別のデバイスもしくはプロセスから取得することができ、または例えばプロセッサ2831によって計算することができる。メトリック生成の説明的な例が、図31のプロセスAを参照しながら説明される。   FIG. 30 illustrates a process 3000 that operates on a GOP and, in some aspects, can be used to encode a video based on shot detection within a video frame, and a portion (or sub-portion) of the process 3000. Process) is described and illustrated with reference to FIGS. The processor 2831 can be configured to incorporate the process 3000. After the process 3000 begins, the process proceeds to block 3042 where metrics (information) about the video frame are obtained, including information representing differences between adjacent frames. Metrics include bi-directional motion information and luminance-based information that can be used for shot classification to later determine changes that occur between adjacent frames. Such a metric can be obtained from another device or process, or can be calculated, for example, by the processor 2831. An illustrative example of metric generation is described with reference to process A in FIG.

プロセス3000は次に、ブロック3044に進み、ビデオ内のショット変化が、メトリックに基づいて決定される。ビデオフレームは、例えば、突然シーン変化、緩慢変化シーン、または高ルミナンス値を含むシーン(カメラフラッシュ)など、どのタイプのショットがフレームに含まれるかについて、2つ以上のカテゴリに分類することができる。符号化のある実施は、他のカテゴリを必要とすることがある。ショット分類の説明的な例が、図32のプロセスBを参照しながら説明され、より詳細には、図34〜図36のプロセスD、E、Fをそれぞれ参照しながら説明される。   Process 3000 then proceeds to block 3044 where shot changes in the video are determined based on the metric. Video frames can be classified into two or more categories as to what type of shots are included in the frame, for example, sudden scene changes, slowly changing scenes, or scenes containing high luminance values (camera flash). . Certain implementations of encoding may require other categories. An illustrative example of shot classification is described with reference to process B in FIG. 32, and more specifically with reference to processes D, E, and F in FIGS.

ひとたびフレームが分類されると、プロセス3000は、ブロック3046に進み、フレームは、ショット分類の結果を用いて、符号化され、または符号化のために指定されることができる。そのような結果は、フレームをイントラ符号化フレームを用いて符号化するか、それとも予測フレーム(例えば、PフレームまたはBフレーム)を用いて符号化するかに影響し得る。図33のプロセスCは、ショット結果を使用する符号化方式の一例を示している。   Once the frame is classified, process 3000 proceeds to block 3046 where the frame can be encoded or designated for encoding using the result of the shot classification. Such a result can affect whether the frame is encoded using an intra-coded frame or a predicted frame (eg, a P-frame or a B-frame). Process C in FIG. 33 shows an example of an encoding method using shot results.

図31は、ビデオのメトリックを取得するためのプロセスの一例を示している。図31は、図30のブロック3042で発生するいくつかのステップを示している。依然として図31を参照すると、ブロック3152において、プロセスAは、ビデオの双方向動き推定および補償情報を取得または決定する。図28の動き補償器2832は、フレームに対して双方向動き推定を実行し、後続のショット分類のために使用できる動き補償情報を決定するように構成することができる。プロセスAは次に、ブロック3154に進み、現在フレームまたは選択フレームおよび1つまたは複数の隣接フレームについてのルミナンス差ヒストグラムを含む、ルミナンス情報を生成する。最後に、プロセスAは、ブロック3156に進み、フレーム内に含まれるショットを表すメトリックが計算される。1つのそのようなメトリックは、式4および式10に2つの例が示された、フレーム差分メトリックである。動き情報、ルミナンス情報、およびフレーム差分メトリックを決定する説明的な例が、以下で説明される。   FIG. 31 shows an example of a process for obtaining video metrics. FIG. 31 illustrates several steps that occur at block 3042 of FIG. Still referring to FIG. 31, at block 3152, process A obtains or determines video bi-directional motion estimation and compensation information. The motion compensator 2832 of FIG. 28 can be configured to perform bi-directional motion estimation on the frame to determine motion compensation information that can be used for subsequent shot classification. Process A then proceeds to block 3154 and generates luminance information including a luminance difference histogram for the current frame or selected frame and one or more adjacent frames. Finally, process A proceeds to block 3156 where a metric representing the shot contained within the frame is calculated. One such metric is a frame difference metric, two examples shown in Equation 4 and Equation 10. An illustrative example of determining motion information, luminance information, and frame difference metrics is described below.

動き補償
双方向動き推定/補償を実行するため、ビデオ系列は、現在フレームのすべての8×8ブロックを、1つは過去、1つは将来の、直近の2つの隣接フレームと照合する双方向動き補償器を用いて、前処理することができる。動き補償器は、すべてのブロックについて、動きベクトルおよび差分メトリックを生成する。図37は、現在フレームCのピクセルを過去フレームPおよび将来(または次)フレームNと照合する一例を示して、この概念を説明しており、照合されたピクセルへの動きベクトル(過去動きベクトルMVおよび将来動きベクトルMV)を描いてある。双方向動きベクトル生成および関係する符号化の例示的な態様の簡潔な説明が以下に続く。
Motion Compensation To perform bi-directional motion estimation / compensation, the video sequence is bi-directional that matches all 8x8 blocks of the current frame with the two nearest neighboring frames, one past and one future. A motion compensator can be used for preprocessing. The motion compensator generates motion vectors and difference metrics for all blocks. FIG. 37 illustrates this concept by showing an example of matching the pixels of the current frame C with the past frame P and the future (or next) frame N. The motion vector (past motion vector MV) to the matched pixel is illustrated in FIG. P and future motion vector MV N ). A brief description of exemplary aspects of bi-directional motion vector generation and related encoding follows.

図40は、例えばMPEG−4における、動きベクトル決定プロセスおよび予測フレーム符号化の一例を示している。図40に示されるプロセスは、図31のブロック3152において行われ得るプロセス例のより詳細な説明である。図40では、現在画像4034は、5×5のマクロブロックから構成され、この例におけるマクロブロックの数は、恣意的なものである。マクロブロックは、16×16のピクセルから構成される。ピクセルは、8ビットのルミナンス値(Y)と、2つの8ビットのクロミナンス値(CrおよびCb)とによって定義することができる。   FIG. 40 shows an example of a motion vector determination process and prediction frame encoding in MPEG-4, for example. The process shown in FIG. 40 is a more detailed description of an example process that may be performed in block 3152 of FIG. In FIG. 40, the current image 4034 is composed of 5 × 5 macroblocks, and the number of macroblocks in this example is arbitrary. The macro block is composed of 16 × 16 pixels. A pixel can be defined by an 8-bit luminance value (Y) and two 8-bit chrominance values (Cr and Cb).

MPEGでは、Y、Cr、およびCb成分は、4:2:0フォーマットで保存することができ、CrおよびCb成分は、XおよびY方向で、2だけダウンサンプリングされる。したがって、各マクロブロックは、256のY成分、64のCr成分、および64のCb成分から成る。現在画像4034のマクロブロック4036は、現在画像4034とは異なる時点における参照画像4032から予測される。Y、Cr、およびCb値に関して、符号化される現在マクロブロック4036に最も近い、最も良く一致するマクロブロック4038を見つけるために、参照画像4032において、探索が行われる。参照画像4032における最も良く一致するマクロブロック138の位置が、動きベクトル4040内に符号化される。参照画像4032は、現在画像4034の構成に先立ち復号器が再構成するIフレームまたはPフレームとすることができる。最も良く一致するマクロブロック4038が、現在マクロブロック40から減算され(Y、Cr、およびCb成分の各々について差分が計算され)、残余誤差4042をもたらす。残余誤差4042は、2D離散コサイン変換(DCT)を用いて符号化4044され、その後、量子化4046される。量子化4046は、例えば、より少ないビットを高周波数の係数に割り当てる一方、より多くのビットを低周波数の係数に割り当てることによって、空間圧縮を提供するために実行することができる。残余誤差4042の量子化係数は、情報を識別する動きベクトル4040および参照画像4032と共に、現在マクロブロック4036を表す符号化情報である。符号化情報は、将来使用するためにメモリに保存することができ、例えば誤り訂正もしくは画像向上の目的で操作することができ、またはネットワーク140を介して伝送することができる。   In MPEG, Y, Cr, and Cb components can be stored in 4: 2: 0 format, and Cr and Cb components are downsampled by 2 in the X and Y directions. Thus, each macroblock consists of 256 Y components, 64 Cr components, and 64 Cb components. A macroblock 4036 of the current image 4034 is predicted from a reference image 4032 at a different point in time from the current image 4034. A search is performed in reference image 4032 to find the best matching macroblock 4038 that is closest to the current macroblock 4036 to be encoded with respect to Y, Cr, and Cb values. The position of the best matching macroblock 138 in the reference image 4032 is encoded in the motion vector 4040. The reference image 4032 may be an I frame or a P frame that is reconstructed by the decoder prior to the construction of the current image 4034. The best matching macroblock 4038 is subtracted from the current macroblock 40 (difference is calculated for each of the Y, Cr, and Cb components), resulting in a residual error 4042. The residual error 4042 is encoded 4044 using a 2D discrete cosine transform (DCT) and then quantized 4046. Quantization 4046 can be performed, for example, to provide spatial compression by assigning fewer bits to high frequency coefficients while assigning more bits to low frequency coefficients. The quantization coefficient of the residual error 4042 is encoded information representing the current macro block 4036 together with a motion vector 4040 and a reference image 4032 for identifying information. The encoded information can be stored in memory for future use, for example, can be manipulated for error correction or image enhancement purposes, or can be transmitted over the network 140.

残余誤差4042の符号化量子化係数は、符号器において、現在マクロブロック4036を再構成して、それを後続の動き推定および補償用の参照フレームの部分として使用するために、符号化動きベクトル4040と共に使用することができる。このPフレーム再構成のため、符号器は、復号器の手順をエミュレートすることができる。復号器のエミュレーションは、符号器および復号器が共に、同じ参照画像を用いて作業するという結果をもたらす。さらなるインター符号化のために符号器において行われるか、それとも復号器において行われるかに関わらず、ここで再構成プロセスが提示される。Pフレームの再構成は、参照フレーム(または参照される画像もしくはフレームの一部)が再構成された後に開始することができる。符号化量子化係数は、逆量子化4050され、次に2D逆DCTすなわちIDCT4052が実行され、復号または再構成残余誤差4054をもたらす。符号化動きベクトル4040は、復号され、すでに再構成された参照画像4032において、すでに再構成された最も良く一致するマクロブロック4056を見つけるために使用される。次に、再構成マクロブロック4058を形成するために、再構成された残余誤差4054が、再構成された最も良く一致するマクロブロック4056に加算される。再構成マクロブロック4058は、メモリに保存することができ、独立してもしくは画像内に他の再構成マクロブロックと一緒に表示することができ、または画像向上のためにさらに処理することができる。   The encoded quantized coefficients of residual error 4042 are encoded motion vector 4040 to reconstruct current macroblock 4036 and use it as part of a reference frame for subsequent motion estimation and compensation at the encoder. Can be used with. Because of this P-frame reconstruction, the encoder can emulate the decoder procedure. Decoder emulation results in both the encoder and decoder working with the same reference picture. Regardless of whether it is performed at the encoder or at the decoder for further inter-coding, a reconstruction process is presented here. P frame reconstruction can begin after a reference frame (or a referenced image or part of a frame) has been reconstructed. The coded quantized coefficients are dequantized 4050 and then a 2D inverse DCT or IDCT 4052 is performed, resulting in a decoded or reconstructed residual error 4054. The encoded motion vector 4040 is decoded and used to find the best-matched macroblock 4056 that has already been reconstructed in the reference image 4032 that has already been reconstructed. Next, the reconstructed residual error 4054 is added to the reconstructed best matching macroblock 4056 to form a reconstructed macroblock 4058. Reconstruction macroblock 4058 can be stored in memory, can be displayed independently or together with other reconstruction macroblocks in the image, or can be further processed for image enhancement.

Bフレーム(または双方向予測を用いて符号化された任意の区画)を使用する符号化は、現在画像内の領域と先行画像内の最も良く一致する予測領域および後続画像内の最も良く一致する予測領域との間の時間冗長性を利用することができる。後続の最も良く一致する予測領域と先行する最も良く一致する予測領域とは、組み合わせ双方向予測領域を形成するために組み合わされる。現在画像の領域と最も良く一致する組み合わせ双方向予測領域との間の差分が、残余誤差(または予測誤差)である。後続参照画像内の最も良く一致する予測領域の位置および先行参照画像内の最も良く一致する予測領域の位置は、2つの動きベクトル内に符号化することができる。   Coding using B-frames (or any partition encoded using bi-directional prediction) will best match the region in the current image with the best matching prediction region in the previous image and the subsequent image. Time redundancy between prediction regions can be used. The subsequent best matching prediction area and the preceding best matching prediction area are combined to form a combined bi-directional prediction area. The difference between the combined bi-directional prediction region that best matches the region of the current image is the residual error (or prediction error). The position of the best matching prediction region in the subsequent reference image and the position of the best matching prediction region in the preceding reference image can be encoded in two motion vectors.

ルミナンスヒストグラム差分
動き補償器は、すべてのブロックについて差分メトリックを生成することができる。差分メトリックは、2乗残差の和(SSD)または絶対差の和(SAD)とすることができる。一般性を失うことなく、ここではSADが例として使用される。
Luminance Histogram Difference The motion compensator can generate a difference metric for every block. The difference metric can be a sum of squared residuals (SSD) or a sum of absolute differences (SAD). Without loss of generality, SAD is used here as an example.

すべてのフレームについて、SAD比が以下のように計算され、

Figure 2009532741
For all frames, the SAD ratio is calculated as follows:
Figure 2009532741

ここで、SADおよびSADは、それぞれ前方および後方差分メトリックの絶対差の和である。「ゼロによる除算エラー」を防止するため、分母が小さな正の数εを含むことに留意されたい。分子も、分母における単位の影響とバランスを取るためにεを含む。例えば、先行フレーム、現在フレーム、および次フレームが同一である場合、動き探索は、SAD=SAD=0をもたらすべきである。この場合、上記の計算は、0または無限大の代わりに、γ=1を生成する。 Here, SAD P and SAD N are the sums of absolute differences of the forward and backward difference metrics, respectively. Note that the denominator contains a small positive number ε to prevent “divide-by-zero errors”. The numerator also contains ε to balance the effects of units in the denominator. For example, if the previous frame, the current frame, and the next frame are identical, the motion search should yield SAD P = SAD N = 0. In this case, the above calculation produces γ = 1 instead of 0 or infinity.

ルミナンスヒストグラムは、すべてのフレームについて計算することができる。一般に、マルチメディア画像は、8ビットのルミナンス深さ(例えば「ビン(bin)」の数)を有する。いくつかの態様に従ってルミナンスヒストグラムを計算するために使用されるルミナンス深さは、ヒストグラムを取得するために、16に設定することができる。他の態様では、ルミナンス深さは、処理されるデータのタイプ、利用可能な計算能力、または他の所定の基準に依存し得る、適切な数に設定することができる。いくつかの態様では、ルミナンス深さは、データの内容など、計算したメトリックまたは受け取ったメトリックに基づいて、動的に設定することができる。   A luminance histogram can be calculated for every frame. In general, multimedia images have an 8-bit luminance depth (eg, the number of “bins”). The luminance depth used to calculate the luminance histogram according to some aspects may be set to 16 to obtain the histogram. In other aspects, the luminance depth can be set to an appropriate number that may depend on the type of data being processed, the available computing power, or other predetermined criteria. In some aspects, the luminance depth can be set dynamically based on calculated metrics or received metrics, such as data content.

式49は、ルミナンスヒストグラム差分(ラムダ)を計算する一例を示しており、

Figure 2009532741
Equation 49 shows an example of calculating the luminance histogram difference (lambda),
Figure 2009532741

ここで、NPiは、先行フレームに関する第iのビン内のブロックの数であり、NCiは、現在フレームに関する第iのビン内のブロックの数であり、Nは、フレーム内のブロックの総数である。先行フレームおよび現在フレームのルミナンスヒストグラム差分が完全に異なる(または独立である)場合、λ=2となる。 Where N Pi is the number of blocks in the i th bin for the previous frame, N Ci is the number of blocks in the i th bin for the current frame, and N is the total number of blocks in the frame. It is. If the luminance histogram differences of the previous frame and the current frame are completely different (or independent), λ = 2.

図5のブロック56を参照しながら説明されたフレーム差分メトリックDは、式50に示されるように、計算することができ、

Figure 2009532741
The frame difference metric D described with reference to block 56 of FIG. 5 can be calculated as shown in Equation 50:
Figure 2009532741

ここで、Aは、応用例によって選択される定数であり、

Figure 2009532741
Where A is a constant selected according to the application example.
Figure 2009532741

である。 It is.

図32は、ビデオについて取得または決定されたメトリックを使用して、ショット(またはシーン)変化の3つのカテゴリを決定するプロセスBの一例を示している。図32は、図30のブロック3044の一態様で発生するいくつかのステップを示している。再び図32を参照すると、ブロック3262において、プロセスBは最初に、フレームが突然シーン変化を指示する基準を満たすかどうかを決定する。図34のプロセスDは、この決定の一例を示している。プロセスBは次に、ブロック3264に進み、フレームが緩慢変化シーンの部分であるかどうかを決定する。図35のプロセスCは、緩慢変化シーンを決定する一例を示している。最後にブロック3366において、プロセスBは、フレームがカメラフラッシュを含むかどうか、言い換えると、先行フレームと異なる大きなルミナンス値を含むかどうかを決定する。図36のプロセスFは、カメラフラッシュを含むフレームを決定する一例を示している。これらのプロセスの説明的な例が以下で説明される。   FIG. 32 shows an example of Process B that uses the metrics obtained or determined for the video to determine three categories of shot (or scene) changes. FIG. 32 illustrates some steps that occur in one aspect of block 3044 of FIG. Referring again to FIG. 32, at block 3262, process B first determines whether the frame meets the criteria for indicating a sudden scene change. Process D in FIG. 34 shows an example of this determination. Process B then proceeds to block 3264 and determines whether the frame is part of a slowly changing scene. Process C in FIG. 35 shows an example of determining a slowly changing scene. Finally, at block 3366, Process B determines whether the frame includes a camera flash, in other words, a large luminance value that is different from the previous frame. Process F of FIG. 36 shows an example of determining a frame including a camera flash. An illustrative example of these processes is described below.

突然シーン変化
図34は、突然シーン変化を決定するプロセスを示す流れ図である。図34はさらに、図32のブロック3262のいくつかの態様で発生し得るいくつかのステップを詳述している。ブロック3482において、フレーム差分メトリックDが式51に示される基準を満たすかどうかをチェックし、

Figure 2009532741
Sudden Scene Change FIG. 34 is a flow diagram illustrating the process of determining a sudden scene change. FIG. 34 further details some steps that may occur in some aspects of block 3262 of FIG. At block 3482, check if the frame difference metric D meets the criteria shown in Equation 51;
Figure 2009532741

ここで、Aは応用例によって選択される定数であり、Tはしきい値である。基準が満たされる場合、ブロック3484において、プロセスDは、フレームを突然シーン変化として指示し、この例では、さらなるショット分類は必要とされない。 Here, A is a constant selected according to the application example, and T 1 is a threshold value. If the criteria are met, at block 3484, Process D indicates the frame as a sudden scene change and no further shot classification is required in this example.

一例では、シミュレーションは、A=1、T=5という設定が、良好な検出性能を達成することを示している。現在フレームが突然シーン変化フレームである場合、γは大きく、γは小さくあるべきである。コンテキストの活動レベルに対してメトリックが正規化されるように、γ単独ではなく、比

Figure 2009532741
In one example, the simulation shows that the setting A = 1, T 1 = 5 achieves good detection performance. If the current frame is a sudden scene change frame, γ C should be large and γ P should be small. A ratio rather than γ C alone so that the metric is normalized to the activity level of the context
Figure 2009532741

が使用できる。 Can be used.

上記の基準は、非線形の方法でルミナンスヒストグラム差分ラムダ(λ)を使用することに留意されたい。図39は、λ×(2λ+1)が凸関数であることを示している。λが小さい(例えば、ゼロに近い)場合、それはほとんどプリエンファシス(preemphasis)ではない。λが大きくなるほど、より大きなエンファシスが関数によって行われる。しきい値Tが5に設定された場合、このプリエンファシスを用いて、1.4より大きい任意のλについて、突然シーン変化が検出される。 Note that the above criteria use the luminance histogram difference lambda (λ) in a non-linear manner. FIG. 39 shows that λ × (2λ + 1) is a convex function. If λ is small (eg close to zero), it is hardly preemphasis. The larger λ, the greater the emphasis is performed by the function. When threshold T 1 is set to 5, sudden scene changes are detected for any λ greater than 1.4 using this pre-emphasis.

クロスフェードおよび緩慢シーン変化
図35はさらに、図32のブロック3264で発生し得るいくつかの態様のさらなる詳細を示している。図35を参照すると、ブロック3592において、プロセスEは、フレームが緩慢シーン変化を表す一連のフレームの部分であるかどうかを決定する。プロセスEは、一定の数の連続フレームについて、式52に示されるように、フレーム差分メトリックDが第1のしきい値T未満であり、第2のしきい値T以上である場合に、現在フレームはクロスフェードまたは他の緩慢シーン変化であると決定し、

Figure 2009532741
Crossfade and Slow Scene Changes FIG. 35 further illustrates further details of some aspects that may occur at block 3264 of FIG. Referring to FIG. 35, at block 3592, process E determines whether the frame is part of a series of frames that represent a slow scene change. Process E, for a certain number of consecutive frames, when the frame difference metric D is less than the first threshold T 1 and greater than or equal to the second threshold T 2 as shown in Equation 52 , Determine that the current frame is a crossfade or other slow scene change,
Figure 2009532741

ここで、Tは上で使用されたのと同じしきい値であり、Tは別のしきい値である。一般に、TおよびTの正確な値は、可能な実装の相違のため、基準となる実験によって決定される。基準が満たされる場合、ブロック94において、プロセスEは、フレームを選択フレームエンドについての緩慢変化シーンショット分類の部分として分類する。 Where T 1 is the same threshold used above and T 2 is another threshold. In general, the exact values of T 1 and T 2 are determined by baseline experiments due to possible implementation differences. If the criteria are met, at block 94, process E classifies the frame as part of the slowly changing scene shot classification for the selected frame end.

カメラフラッシュライトイベント
図36に示されたプロセスFは、現在フレームがカメラフラッシュライトを備えるかどうかを決定できるプロセスの例である。カメラのこの例示的な態様では、現在フレームがカメラフラッシュライトを備えるかどうかを決定するために、ルミナンスヒストグラム統計が使用される。プロセスFは、ブロック3602に示されるように、現在フレームのルミナンスが先行フレームのルミナンスおよび次フレームのルミナンスより大きいかどうかを最初に決定することによって、カメラフラッシュイベントが選択フレーム内に存在することを決定する。大きくない場合、フレームはカメラフラッシュイベントでないが、大きい場合、フレームはカメラフラッシュイベントである可能性がある。ブロック3604において、プロセスFは、逆方向差分メトリックがしきい値Tよりも大きいかどうか、順方向差分メトリックがしきい値Tよりも大きいかどうかを決定し、これらの条件が共に満たされる場合、ブロック3606において、プロセスFは、現在フレームをカメラフラッシュライトを有するものとして分類する。一例では、ブロック3602において、プロセスFは、式53および式54に示されるように、現在フレームの平均ルミナンスから先行フレームの平均ルミナンスを引いた値がしきい値T以上かどうかを決定し、プロセスFは、平均ルミナンスから次フレームの平均ルミナンスを引いた値がしきい値T以上かどうかを決定する。

Figure 2009532741
Figure 2009532741
Camera Flashlight Event Process F shown in FIG. 36 is an example of a process that can determine whether the current frame comprises a camera flashlight. In this exemplary aspect of the camera, luminance histogram statistics are used to determine whether the current frame comprises a camera flashlight. Process F determines that a camera flash event is present in the selected frame by first determining whether the luminance of the current frame is greater than the luminance of the previous frame and the next frame, as shown in block 3602. decide. If not large, the frame is not a camera flash event, but if large, the frame may be a camera flash event. In block 3604, the process F indicates whether reverse differential metrics is greater than the threshold value T 3, the forward difference metric to determine whether greater than the threshold value T 4, are satisfied these conditions are both If so, at block 3606, Process F classifies the current frame as having a camera flashlight. In one example, at block 3602, the process F, as shown in Formula 53 and Formula 54, a value obtained by subtracting the average luminance of the previous frame from the average luminance of the current frame to determine whether the threshold T 3 or more, process F is a value obtained by subtracting the average luminance of the next frame from the average luminance is determined whether the threshold T 3 or more.
Figure 2009532741
Figure 2009532741

基準が満たされない場合、現在フレームは、カメラフラッシュライトを備えるものとして分類されず、プロセスFは復帰する。基準が満たされる場合、プロセスFは、ブロック3604に進み、以下の式55および式56に示されるように、後方差分メトリックSADおよび前方差分メトリックSADが、一定のしきい値T4よりも大きいかどうかを決定し、

Figure 2009532741
Figure 2009532741
If the criteria are not met, the current frame is not classified as having a camera flashlight and process F returns. If the criteria is met, the process F proceeds to block 3604, as shown in Formula 55 and Formula 56 below, the rear differential metric SAD P and forward difference metric SAD N is greater than a certain threshold value T4 Determine whether
Figure 2009532741
Figure 2009532741

ここで、

Figure 2009532741
here,
Figure 2009532741

は、現在フレームの平均ルミナンスであり、

Figure 2009532741
Is the average luminance of the current frame,
Figure 2009532741

は、先行フレームの平均ルミナンスであり、

Figure 2009532741
Is the average luminance of the preceding frame,
Figure 2009532741

は、次フレームの平均ルミナンスであり、SADおよびSADは、現在フレームに関連する前方および後方差分メトリックである。基準が満たされない場合、プロセスFは復帰する。 Is the average luminance of the next frame, and SAD P and SAD N are the forward and backward differential metrics associated with the current frame. If the criteria are not met, process F returns.

説明されたプロセスの実施は、しきい値を含む動作パラメータの相違をもたらし得るので、Tの値は一般に、基準となる実験によって決定される。SAD値はその決定に含まれるが、それは、カメラフラッシュが一般に1フレームしか要せず、ルミナンス差のため、このフレームは順方向および逆方向両方からの動き補償を使用してうまく予測し得ないからである。 Since implementation of the described process can result in differences in operating parameters including thresholds, the value of T 3 is generally determined by baseline experiments. Although the SAD value is included in the determination, it generally requires only one frame for the camera flash, and because of the luminance difference, this frame cannot be predicted well using motion compensation from both the forward and reverse directions. Because.

いくつかの態様では、1つまたは複数のしきい値T、T、T、およびTは、事前決定され、そのような値は、符号化デバイス内のショット分類器に組み込まれる。一般に、これらのしきい値は、ショット検出の特定の実施のテストを通して選択される。いくつかの態様では、1つまたは複数のしきい値T、T、T、およびTは、ショット分類器に供給される情報(例えばメタデータ)の使用に基づいて、またはショット分類器自体によって計算される情報に基づいて、処理中に(例えば動的に)設定することができる。 In some aspects, one or more thresholds T 1 , T 2 , T 3 , and T 4 are predetermined and such values are incorporated into a shot classifier in the encoding device. In general, these thresholds are selected through testing specific implementations of shot detection. In some aspects, the one or more thresholds T 1 , T 2 , T 3 , and T 4 may be based on use of information (eg, metadata) provided to the shot classifier or shot classification It can be set during processing (eg, dynamically) based on information calculated by the instrument itself.

ここで図33を参照すると、図33は、選択フレームのショット分類に基づいて、ビデオ用の符号化パラメータを決定するため、またはビデオを符号化するための、プロセスCを示している。ブロック3370において、プロセスCは、選択フレームが突然シーン変化として分類されるかどうかを決定する。分類される場合、ブロック3371において、現在フレームは、突然シーン変化として分類され、フレームはIフレームとして符号化することができ、GOP境界が決定されることができる。分類されない場合、プロセスCは、ブロック3372に進み、現在フレームが緩慢変化シーンの一部として分類される場合、ブロック3373において、現在フレームと緩慢変化シーン内の他のフレームとは、予測フレーム(例えば、PフレームまたはBフレーム)として符号化することができる。プロセスCは次に、ブロック3374に進み、現在フレームがカメラフラッシュを備えるフラッシュライトシーンとして分類されるかどうかをチェックする。分類される場合、ブロック3375において、例えば、先行フレームの除去、複製、またはフレームの特定の係数の符号化など特別な処理のために、フレームが識別されることができる。分類されない場合、現在フレームの分類は行われず、選択フレームは、他の基準に従って符号化すること、Iフレームとして符号化すること、または削除することができる。プロセスCは、符号器内で実施することができる。   Referring now to FIG. 33, FIG. 33 illustrates process C for determining video encoding parameters or encoding video based on shot classification of a selected frame. At block 3370, process C determines whether the selected frame is classified as a sudden scene change. If so, at block 3371, the current frame is classified as a sudden scene change, the frame can be encoded as an I-frame, and a GOP boundary can be determined. If not, process C proceeds to block 3372 and if the current frame is classified as part of a slowly changing scene, then in block 3373 the current frame and the other frames in the slowly changing scene are predicted frames (eg, , P frame or B frame). Process C then proceeds to block 3374 and checks whether the current frame is classified as a flashlight scene with a camera flash. If so, at block 3375, the frame can be identified for special processing, such as removal of previous frames, duplication, or encoding of specific coefficients of the frame. If not classified, the current frame is not classified, and the selected frame can be encoded according to other criteria, encoded as an I-frame, or deleted. Process C can be performed in the encoder.

上述の態様では、圧縮されるフレームとそれに隣接する2つのフレームの間の差分量は、フレーム差分メトリックDによって表される。著しい量の一方向ルミナンス変化が検出された場合、それは、フレーム内のクロスフェード効果を示している。クロスフェードがより顕著であるほど、Bフレームを使用することによって、より多くの利得が達成され得る。いくつかの態様では、式57に示されるように、修正フレーム差分メトリックが使用され、

Figure 2009532741
In the above aspect, the amount of difference between the frame to be compressed and the two adjacent frames is represented by the frame difference metric D. If a significant amount of unidirectional luminance change is detected, it indicates a crossfade effect in the frame. The more pronounced crossfading, the more gain can be achieved by using B frames. In some aspects, a modified frame difference metric is used, as shown in Equation 57:
Figure 2009532741

ここで、d=|Y−Y|およびd=|Y−Y|はそれぞれ、現在フレームと先行フレームの間のルーマ差および現在フレームと次フレームの間のルーマ差であり、Δは、実施に依存し得るため、基準となる実験において決定され得る定数であり、αは、0と1の間の値を有する重み変数である。 Where d P = | Y C −Y P | and d N = | Y C −Y N | are the luma difference between the current frame and the previous frame and the luma difference between the current frame and the next frame, respectively. , Δ is a constant that can be determined in a baseline experiment because it can depend on the implementation, and α is a weight variable having a value between 0 and 1.

修正フレーム差分メトリックDは、ルーマシフトの一貫した傾向が観察され、シフト強度が十分に大きい場合にのみ、元のフレーム差分メトリックDとは異なる。Dは、D以下である。ルーマ変化が一定(d=d)である場合、修正フレーム差分メトリックDは、元のフレーム差分メトリックDよりも低く、最低比は(1−α)である。 The modified frame difference metric D 1 differs from the original frame difference metric D only when a consistent trend of luma shift is observed and the shift intensity is sufficiently large. D 1 is D or less. If the luma change is constant (d P = d N ), the modified frame difference metric D 1 is lower than the original frame difference metric D and the lowest ratio is (1−α).

以下の表1は、突然シーン変化検出を追加したことによる性能改善を示している。シーン無変化(NSC)およびシーン変化(SC)ケースの両方におけるIフレームの総数は、ほぼ同じである。NSCケースでは、Iフレームは、系列全体の中に均一に分散され、一方、SCケースでは、Iフレームは、突然シーン変化フレームにだけ割り当てられる。   Table 1 below shows the performance improvement due to the sudden addition of scene change detection. The total number of I frames in both the scene unchanged (NSC) and scene changed (SC) cases is approximately the same. In the NSC case, I frames are evenly distributed throughout the sequence, while in the SC case, I frames are assigned only to sudden scene change frames.

一般に、PSNRに関して、0.2〜0.3dBの改善が達成され得ることが理解できる。シミュレーション結果は、上述のショットイベントを決定する上でショット検出器が非常に正確であることを示している。通常のクロスフェード効果を有する5クリップのシミュレーションは、Δ=5.5およびα=0.4において、同じビットレートで、0.226031dBのPSNR利得が達成されることを示している。

Figure 2009532741
In general, it can be seen that an improvement of 0.2-0.3 dB can be achieved with respect to PSNR. The simulation results show that the shot detector is very accurate in determining the shot event described above. Simulations of 5 clips with normal cross-fade effects show that a PSNR gain of 0.226031 dB is achieved at the same bit rate at Δ = 5.5 and α = 0.4.
Figure 2009532741

適応GOP構造
適応GOP構造操作の説明的な一例が、以下で説明される。そのような操作は、図412のGOPパーティショナ412に含まれることができる。旧式のビデオ圧縮規格であるMPEG2は、GOPが規則的な構造を有することを必要としないが、規則的な構造を課すこともできる。MPEG2系列は常に、Iフレーム、すなわち、先行画像への参照を用いずに符号化されるフレームで開始する。MPEG2のGOPフォーマットは通常、Iフレームに続くPまたは予測画像のGOP内における間隔を固定することによって、符号器において事前構成される。Pフレームは、先行するIまたはP画像から部分的に予測される画像である。開始Iフレームと後続Pフレームの間のフレームは、Bフレームとして符号化される。「B」フレーム(Bは双方向を表す)は、先行するIまたはP画像および次のIまたはP画像を、参照として独立にまたは同時に使用することができる。Iフレームを符号化するために使用されるビットの数は、平均で、Pフレームを符号化するために使用されるビットの数を超え、同様に、Pフレームを符号化するために使用されるビットの数は、平均で、Bフレームのビットの数を超える。スキップフレームは、使用される場合、その表現のためのビットを使用しないことも可能である。
Adaptive GOP Structure An illustrative example of adaptive GOP structure operation is described below. Such an operation can be included in the GOP partitioner 412 of FIG. The old video compression standard MPEG2 does not require the GOP to have a regular structure, but can also impose a regular structure. An MPEG2 sequence always starts with an I frame, ie, a frame that is encoded without reference to a previous image. The MPEG2 GOP format is usually pre-configured in the encoder by fixing the spacing in the GOP of P or predicted images following an I frame. A P frame is an image that is partially predicted from a preceding I or P image. Frames between the start I frame and subsequent P frames are encoded as B frames. A “B” frame (B represents bi-directional) can use the previous I or P image and the next I or P image independently or simultaneously as a reference. The number of bits used to encode an I frame, on average, exceeds the number of bits used to encode a P frame, as well as used to encode a P frame The number of bits on average exceeds the number of bits in a B frame. If skip frames are used, it is possible not to use bits for their representation.

PフレームおよびBフレームを使用すること、また最近の圧縮アルゴリズムにおいてフレームのスキップを使用することの1つの利点は、ビデオ伝送サイズを削減することが可能なことである。先に復号されたIまたはP画像は、他のPまたはB画像を復号するための参照として後で使用されるので、時間冗長性が高い場合、例えば、画像と画像の間に僅かな変化しか存在しない場合、P、B、またはスキップ画像の使用は、ビデオストリーミングを効率的に表現する。   One advantage of using P-frames and B-frames and using frame skipping in modern compression algorithms is that the video transmission size can be reduced. A previously decoded I or P image is later used as a reference for decoding other P or B images, so if temporal redundancy is high, for example, only a small change between images If not present, the use of P, B, or skipped images efficiently represents video streaming.

グループオブピクチャパーティショナは、時間冗長性を最小化するように、フレームを適応的に符号化する。フレーム間の差分は定量化され、画像をI、P、B、またはスキップフレームのどれによって表現するかの決定は、適切なテストが定量化された差分に対して実行された後、自動的に行われる。GOPパーティショナにおける処理は、雑音除去用のフィルタリングを提供するプリプロセッサ202の他の動作によって支援される。   The group of picture partitioners adaptively encode the frames so as to minimize temporal redundancy. Differences between frames are quantified and the determination of whether an image is represented by I, P, B, or skip frames is automatically made after the appropriate test is performed on the quantified difference. Done. The processing at the GOP partitioner is assisted by other operations of the preprocessor 202 that provide filtering for denoising.

適応符号化プロセスは、「固定」符号化プロセスでは利用可能でない利点を有する。固定プロセスは、コンテンツ内で変化が僅かしか起こっていない可能性を無視するが、適応手順は、各IおよびPフレームまたは2つのPフレームの間に、はるかに多くのBフレームが挿入されることを可能にし、それによって、フレームの系列を十分に表現するために使用されるビットの数を削減する。反対に、例えば、固定符号化プロセスでは、ビデオコンテンツ内での変化が著しい場合、予測フレームと参照フレームの間の相違があまりにも大きいため、Pフレームの効率は大きく低下する。これらの状況下では、一致する物体は、動き探索領域から脱落することがあり、または一致する物体の類似性は、カメラアングルの変化によって引き起こされるひずみのために低下する。適応符号化プロセスは、Pフレームが符号化されるべき場合を任意選択的に決定するために便利に使用することができる。   The adaptive encoding process has the advantage that it is not available in a “fixed” encoding process. The pinning process ignores the possibility of little change in the content, but the adaptation procedure is that much more B frames are inserted between each I and P frame or two P frames. Thereby reducing the number of bits used to fully represent the sequence of frames. Conversely, for example, in the fixed encoding process, if the change in the video content is significant, the difference between the predicted frame and the reference frame is so great that the efficiency of the P frame is greatly reduced. Under these circumstances, the matching object may fall out of the motion search area, or the similarity of the matching object is reduced due to distortion caused by camera angle changes. The adaptive encoding process can be conveniently used to optionally determine when a P frame is to be encoded.

本明細書で開示されたシステムでは、上で説明された状況のタイプが、自動的に感知される。本明細書で説明される適応符号化プロセスは、柔軟性があり、コンテンツ内のこれらの変化に適応するように作成される。適応符号化プロセスは、フレーム間の距離の尺度と考えられ得るフレーム差分メトリックを、同じ距離の加法的特性を用いて評価する。概念的には、フレーム間距離d12およびd23を有するフレームF、F、およびFが与えられた場合、FとFの間の距離は、少なくともd12+d23であると見なされる。フレーム割り当ては、この距離的なメトリックおよび他のメトリックに基づいて行われる。 In the system disclosed herein, the type of situation described above is automatically sensed. The adaptive encoding process described herein is flexible and is created to adapt to these changes in the content. The adaptive encoding process evaluates a frame difference metric, which can be thought of as a measure of the distance between frames, using the additive properties of the same distance. Conceptually, given frames F 1 , F 2 , and F 3 having interframe distances d 12 and d 23 , the distance between F 1 and F 3 is at least d 12 + d 23. Considered. Frame allocation is based on this distance metric and other metrics.

GOPパーティショナ412は、フレームを受け取ったときに、フレームに画像タイプを割り当てことによって動作する。画像タイプは、各ブロックを符号化するために使用できる予測方法を示す。   When the GOP partitioner 412 receives a frame, it operates by assigning an image type to the frame. The image type indicates a prediction method that can be used to encode each block.

I画像は、他の画像への参照を用いずに符号化される。I画像は、単独で存在し得るので、復号を開始できるデータストリーム内のアクセスポイントを提供する。I符号化タイプは、先行フレームへの「距離」がシーン変化しきい値を超える場合に、フレームに割り当てられる。   I images are encoded without reference to other images. Since an I-picture can exist alone, it provides an access point in the data stream where decoding can begin. The I encoding type is assigned to a frame when the “distance” to the previous frame exceeds the scene change threshold.

P画像は、動き補償された予測のために、先行IまたはP画像を使用することができる。P画像は、予測されるブロックから移され得る先行フィールドまたはフレーム内のブロックを、符号化のための基礎として使用する。参照ブロックが、考察されるブロックから減算された後、残余ブロックが、空間冗長性の排除のために一般に離散コサイン変換を使用して符号化される。P符号化タイプは、あるフレームとPフレームとして割り当てられた最後のフレームの間の「距離」が、一般に第1のしきい値より小さい第2のしきい値を超えた場合に、そのフレームに割り当てられる。   The P image can use the preceding I or P image for motion compensated prediction. The P picture uses the preceding field or block in the frame that can be shifted from the predicted block as the basis for encoding. After the reference block is subtracted from the considered block, the residual block is typically encoded using a discrete cosine transform to eliminate spatial redundancy. The P encoding type is used for a frame when the “distance” between a frame and the last frame assigned as a P frame exceeds a second threshold, which is generally less than the first threshold. Assigned.

Bフレーム画像は、上で説明されたような動き補償のために、先行するPまたはI画像および次のPまたはI画像を使用することができる。B画像内のブロックは、前方、後方、および双方向予測することができ、または他のフレームへの参照なしにイントラ符号化することができる。H.264では、参照ブロックは、32個ものフレームからの32個ものブロックの線形結合とすることができる。フレームは、IまたはPタイプに割り当てられない場合、そのフレームから直前フレームまでの「距離」が、一般に第2のしきい値より小さい第3のしきい値よりも大きいならば、Bタイプに割り当てられる。フレームは、符号化Bフレームになるように割り当てることができない場合、「スキップフレーム」ステータスに割り当てられる。このフレームは、実質的に先行フレームのコピーであるので、スキップすることができる。   A B-frame image can use the previous P or I image and the next P or I image for motion compensation as described above. Blocks in a B picture can be forward, backward, and bi-directionally predicted, or intra-coded without reference to other frames. H. In H.264, the reference block can be a linear combination of as many as 32 blocks from as many as 32 frames. If a frame is not assigned to type I or P, it is assigned to type B if the “distance” from that frame to the previous frame is greater than a third threshold, which is generally less than the second threshold. It is done. If a frame cannot be assigned to be an encoded B frame, it is assigned a “skip frame” status. Since this frame is essentially a copy of the previous frame, it can be skipped.

表示順に隣接フレーム間の差分を定量化するメトリックの評価は、GOPパーティショナ412において行われるこの処理の第1の部分である。このメトリックは、上で言及された距離であり、それを用いて、すべてのフレームは、適切なタイプに評価される。したがって、Iおよび隣接Pフレームの間または2つの連続するPフレームの間の間隔は、可変とすることができる。メトリックの計算は、ブロックベースの動き補償器を用いてビデオフレームを処理することによって開始し、ブロックはビデオ圧縮の基本単位であり、通常は16×16のピクセルから成るが、8×8、4×4、および8×16などの他のブロックサイズも可能である。出力において存在する2つのデインタレースフィールドから成るフレームの場合、動き補償は、フィールドに基づいて行われ、参照ブロックの探索は、フレームではなくフィールド内で行われる。現在フレームの第1フィールド内のブロックの場合、順方向参照ブロックは、あとに続くフレームのフィールド内で見出され、同様に、逆方向参照ブロックは、現在フィールドのすぐ前にあるフレームのフィールド内で見出される。現在ブロックは、補償フィールド内にまとめられる。プロセスは、フレームの第2フィールドについて続けられる。2つの補償フィールドは、順方向および逆方向補償フレームを形成するために組み合わされる。   Evaluation of a metric that quantifies the difference between adjacent frames in the display order is the first part of this process performed in the GOP partitioner 412. This metric is the distance mentioned above, with which all frames are evaluated to the appropriate type. Thus, the spacing between I and adjacent P frames or between two consecutive P frames can be variable. Metric calculation begins by processing the video frame with a block-based motion compensator, where the block is the basic unit of video compression, usually consisting of 16x16 pixels, but 8x8, 4 Other block sizes such as x4 and 8x16 are possible. In the case of a frame consisting of two deinterlace fields present at the output, motion compensation is performed on the basis of the field and the search for the reference block is performed in the field, not the frame. For blocks in the first field of the current frame, the forward reference block is found in the field of the subsequent frame, and similarly, the backward reference block is in the field of the frame immediately preceding the current field. Found in The current block is grouped in the compensation field. The process continues for the second field of the frame. The two compensation fields are combined to form a forward and reverse compensation frame.

逆テレシネ406において生成されたフレームの場合、再構成フィルムフレームだけが生成されるので、参照ブロックの探索は、フレームだけに基づいたものとすることができる。2つの参照ブロックと、順方向および逆方向の2つの差分が見出され、順方向および逆方向補償フレームももたらす。要約すると、動き補償器は、すべてのブロックについて、動きベクトルおよび差分メトリックを生成する。メトリックの差分は、考察されるフィールドまたはフレーム内のブロックと、順方向差分が評価されるか、それとも逆方向差分が評価されるかに応じて、先行するフィールドもしくはフレーム内または直後のフィールドもしくはフレーム内の最も良く一致するブロックとの間で評価されることに留意されたい。この計算には、ルミナンス値だけが入力される。   For frames generated in inverse telecine 406, only reconstructed film frames are generated, so the search for reference blocks can be based only on frames. Two reference blocks and two differences, forward and reverse, are found, also resulting in forward and reverse compensation frames. In summary, the motion compensator generates motion vectors and difference metrics for all blocks. The metric difference depends on the field or block in the field considered and whether the forward difference or the backward difference is evaluated. Note that the best matching block is evaluated. For this calculation, only the luminance value is input.

したがって、動き補償ステップは、差分の2つの組を生成する。これらは、ルミナンスの現在値のブロックと、時間的に現在フレームの直前および直後のフレームから取られた参照ブロック内のルミナンス値との間のものである。各順方向差分および各逆方向差分の絶対値は、ブロック内の各ピクセルについて決定され、各々は別々に、フレーム全体にわたって合計される。フレームを構成するデインタレースNTSCフィールドが処理される場合、2つの合計には、両方のフィールドが含まれる。このようにして、順方向および逆方向差分の絶対値の和である、SADおよびSADが見出される。 Accordingly, the motion compensation step generates two sets of differences. These are between the current value block of luminance and the luminance value in the reference block taken from the frame immediately before and immediately after the current frame in time. The absolute value of each forward difference and each backward difference is determined for each pixel in the block, each summed separately over the entire frame. If the deinterlaced NTSC fields that make up the frame are processed, the two totals include both fields. In this way, the sum of the absolute values of the forward and backward differences are found SAD P and SAD N.

すべてのフレームについて、SAD比は、関係

Figure 2009532741
For all frames, the SAD ratio is related
Figure 2009532741

を使用して計算され、ここで、SADおよびSADはそれぞれ、順方向および逆方向差分の絶対値の和である。小さな正の数が、「ゼロによる除算」エラーを防止するために分子に追加される。同様のε項が、分母に追加され、SADまたはSADがゼロに近い場合に、γの感度をさらに低下させる。 Where SAD P and SAD N are the sums of the absolute values of the forward and backward differences, respectively. A small positive number is added to the numerator to prevent "divide by zero" errors. A similar ε term is added to the denominator, further reducing the sensitivity of γ when SAD P or SAD N is close to zero.

一代替態様では、差分は、2乗残差の和であるSSDおよび絶対差の和であるSAD、またはSATDとすることができ、SATDでは、ブロックエレメントの差分が取られる前に、ピクセル値のブロックが、それらに2次元離散コサイン変換を適用することによって変換される。アクティブビデオの領域にわたって、和が評価されるが、他の態様では、より小さな領域が使用されてよい。   In one alternative, the difference may be SSD, which is the sum of squared residuals, and SAD, which is the sum of absolute differences, or SATD, where the difference between the pixel values is taken before the block element difference is taken. Blocks are transformed by applying a two-dimensional discrete cosine transform to them. The sum is evaluated over the area of active video, but in other aspects a smaller area may be used.

受け取ったまま(動き補償なし)のすべてのフレームのルミナンスヒストグラムも計算される。ヒストグラムは、利用可能であるならば、DC係数上で、すなわち、ルミナンス値のブロックに2次元離散コサイン変換を適用した結果である16×16の係数配列内の(0,0)係数上で動作する。等価的に、16×16ブロック内の256のルミナンス値の平均値が、ヒストグラムにおいて使用されてよい。ルミナンス深さが8ビットである画像の場合、ビンの数は16に設定される。次のメトリックは、ヒストグラム差分を評価する。

Figure 2009532741
Luminance histograms for all frames as received (no motion compensation) are also calculated. Histograms operate on DC coefficients, if available, ie on (0,0) coefficients in a 16 × 16 coefficient array that is the result of applying a two-dimensional discrete cosine transform to a block of luminance values. To do. Equivalently, an average value of 256 luminance values within a 16 × 16 block may be used in the histogram. For an image with a luminance depth of 8 bits, the number of bins is set to 16. The next metric evaluates the histogram difference.
Figure 2009532741

上記の式において、NPiは、第iのビン内の先行フレームからのブロックの数であり、NCiは、第iのビンに属する現在フレームからのブロックの数であり、Nは、フレーム内のブロックの総数である。 In the above equation, N Pi is the number of blocks from the previous frame in the i th bin, N Ci is the number of blocks from the current frame belonging to the i th bin, and N is in the frame The total number of blocks.

これらの中間結果は、現在フレームの差分メトリックを形成するために、

Figure 2009532741
These intermediate results are used to form a differential metric for the current frame.
Figure 2009532741

のようにまとめられ、ここで、γは、現在フレームに基づいたSAD比であり、γは、先行フレームに基づいたSAD比である。シーンが平滑な動きを有し、そのルーマヒストグラムがほとんど変化しない場合、M≒1である。現在フレームが突然シーン変化を表示する場合、γは大きくなり、γは小さくなるべきである。コンテキストの活動レベルに対してメトリックが正規化されるように、γ単独ではなく、比

Figure 2009532741
Where γ C is the SAD ratio based on the current frame and γ P is the SAD ratio based on the previous frame. If the scene has a smooth motion and its luma histogram hardly changes, then M≈1. If the current frame suddenly displays a scene change, γ C should increase and γ P should decrease. A ratio rather than γ C alone so that the metric is normalized to the activity level of the context
Figure 2009532741

が使用される。 Is used.

図40のデータフロー4100は、フレーム差分メトリックを計算するために使用できるいくつかのコンポーネントを示している。プリプロセッサ4125は、NTSC源を有するビデオの場合はインタレースフィールドを、ビデオ源が逆テレシネの結果である場合はフィルム画像のフレームを、双方向動き補償器4133に送り届ける。双方向動き補償器4133は、フィールド(またはビデオ源が映画の場合はフレーム)を16×16ピクセルのブロックに分割し、各ブロックを先行フレームのフィールドの定められた領域内のすべての16×16ブロックと比較することによって、フィールド上で動作する。最も良い一致を提供するブロックが選択され、現在ブロックから減算される。差分の絶対値が取られ、その結果が、現在ブロックを構成する256のピクセルにわたって合計される。これがフィールドのすべての現在ブロックについて、さらに両方のフィールドについて行われると、後方差分メトリックである量SADが、逆方向差分モジュール4137によって計算される。同様の手順が、前方差分モジュール4136によっても実行されることができる。前方差分モジュール4136は、前方差分メトリックであるSADを生成するために、時間的に現在フレームの直前のフレームを参照ブロックの源として使用する。回復されたフィルムフレームを使用して行われるものの、同じ推定プロセスが、逆テレシネにおいて入力フレームが形成された場合にも行われる。フレーム差分メトリックの計算を完了するために使用できるヒストグラムは、ヒストグラム差分モジュール4141において形成することができる。各16×16ブロックは、そのルミナンスの平均値に基づいて、ビンに割り当てられる。この情報は、ブロック内の256すべてのピクセルルミナンス値を合計し、それを必要に応じて256によって正規化し、平均値が入れられるビンのカウントをインクリメントすることによって形成される。計算は、各動き補償前フレームに対して1度行われ、現在フレームのヒストグラムは、新しい現在フレームが到来した場合に、先行フレームのヒストグラムになる。式59によって定義されたλを形成するために、2つのヒストグラムは、ヒストグラム差分モジュール4141において、差分が取られ、ブロック数によって正規化される。これらの結果は、フレーム差分結合器4143において組み合わされ、フレーム差分結合器4143は、式60において定義された現在フレーム差分を評価するために、ヒストグラム差分モジュール4139、前方および後方差分モジュール4136、4136において見出された中間結果を使用する。 The data flow 4100 of FIG. 40 illustrates several components that can be used to calculate the frame difference metric. The preprocessor 4125 sends an interlace field to the bi-directional motion compensator 4133 if the video has an NTSC source, or a film image frame if the video source is the result of inverse telecine. Bi-directional motion compensator 4133 divides the field (or frame if the video source is a movie) into 16 × 16 pixel blocks, and each block is all 16 × 16 within the defined area of the field of the previous frame. Operate on the field by comparing with blocks. The block that provides the best match is selected and subtracted from the current block. The absolute value of the difference is taken and the result is summed over the 256 pixels that make up the current block. When this is done for all current blocks of the field and for both fields, the backward difference metric quantity SAD N is calculated by the backward difference module 4137. A similar procedure may be performed by the forward difference module 4136. Forward difference module 4136, to generate a SAD P is a front differential metric is used as a source of temporal reference block the previous frame of the current frame. Although performed using recovered film frames, the same estimation process is performed when an input frame is formed in inverse telecine. A histogram that can be used to complete the calculation of the frame difference metric can be formed in the histogram difference module 4141. Each 16x16 block is assigned to a bin based on its luminance average. This information is formed by summing all 256 pixel luminance values in the block, normalizing it by 256 as necessary, and incrementing the count of bins into which the average value is placed. The calculation is performed once for each pre-motion compensation frame, and the histogram of the current frame becomes the histogram of the previous frame when a new current frame arrives. To form λ defined by Equation 59, the two histograms are differenced and normalized by the number of blocks in a histogram difference module 4141. These results are combined in a frame difference combiner 4143, which in the histogram difference module 4139, forward and backward difference modules 4136, 4136 to evaluate the current frame difference defined in Equation 60. Use the intermediate results found.

流れ図4100のシステムおよびそのコンポーネントまたはステップは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの任意の組み合わせによって実施することができる。プリプロセッサ4135、双方向動き補償器4133、前方および後方差分メトリックモジュール4136、4137、ヒストグラム差分モジュール4141、ならびにフレーム差分メトリック結合器4143を含む、流れ図4100の各機能コンポーネントは、スタンドアロンコンポーネントとして実現することができ、ハードウェア、ファームウェア、ミドルウェアとして別のデバイスのコンポーネントに組み込まれることができ、またはプロセッサ上で実行されるマイクロコードもしくはソフトウェアで実施することができ、あるいはそれらの組み合わせとすることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、所望のタスクを実行するプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に保存することができる。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせに相当することができる。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡し、および/または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合されることができる。   The system of flowchart 4100 and its components or steps may be implemented by hardware, software, firmware, middleware, microcode, or any combination thereof. Each functional component of flowchart 4100, including preprocessor 4135, bi-directional motion compensator 4133, forward and backward difference metric modules 4136, 4137, histogram difference module 4141, and frame difference metric combiner 4143 can be implemented as a stand-alone component. Can be embedded in a component of another device as hardware, firmware, middleware, or implemented in microcode or software running on a processor, or a combination thereof. When implemented in software, firmware, middleware, or microcode, program code or code segments that perform a desired task can be stored on a machine-readable medium, such as a storage medium. A code segment can correspond to a procedure, function, subprogram, program, routine, subroutine, module, software package, class, or any combination of instructions, data structures, or program statements. A code segment can be coupled to another code segment or a hardware circuit by passing and / or receiving information, data, arguments, parameters, or memory contents.

受け取られ処理されたデータは、例えば、プロセッサに接続されるチップ構成記憶媒体(例えば、ROM、RAM)またはディスクタイプ記憶媒体(例えば、磁気的もしくは光学的)を含み得る、記憶媒体に保存することができ、いくつかの態様では、結合器4143は、記憶媒体の一部または全部を含むことができる。図41の流れ図4200は、圧縮タイプをフレームに割り当てるプロセスを示している。一態様Mでは、式3で定義された現在フレーム差分は、フレーム割り当てに関して行われるすべての決定の基礎である。判定ブロック4253が示すように、考察対象のフレームが系列の最初である場合、YESと記された判定経路がブロック4255まで辿られ、それによって、フレームがIフレームであると宣言する。累積フレーム差分が、ブロック4257において、ゼロに設定され、プロセスは、(ブロック4258において)開始ブロック4253に復帰する。考察対象のフレームが系列の最初のフレームでない場合、判断が行われたブロック4253からNOと記された経路が辿られ、テストブロック4259において、現在フレーム差分が、シーン変化しきい値に対してテストされる。現在フレーム差分がシーン変化しきい値よりも大きい場合、YESと記された判定経路がブロック4255まで辿られ、やはりIフレームの割り当てをもたらす。現在フレーム差分がシーン変化しきい値よりも小さい場合、NO経路がブロック4261まで辿られ、現在フレーム差分が、累積フレーム差分に加算される。   The received and processed data is stored in a storage medium, which may include, for example, a chip configuration storage medium (eg, ROM, RAM) or a disk type storage medium (eg, magnetic or optical) connected to the processor In some aspects, the combiner 4143 can include some or all of the storage medium. The flowchart 4200 of FIG. 41 illustrates the process of assigning compression types to frames. In one aspect M, the current frame difference defined in Equation 3 is the basis for all decisions made regarding frame allocation. As decision block 4253 shows, if the frame under consideration is the first in the sequence, the decision path marked YES is followed to block 4255, thereby declaring the frame to be an I frame. The accumulated frame difference is set to zero at block 4257 and the process returns to start block 4253 (at block 4258). If the frame under consideration is not the first frame in the sequence, the path marked NO is followed from the determined block 4253, and in test block 4259 the current frame difference is tested against the scene change threshold. Is done. If the current frame difference is greater than the scene change threshold, the decision path marked YES is followed to block 4255, again resulting in I frame allocation. If the current frame difference is less than the scene change threshold, the NO path is traced to block 4261 and the current frame difference is added to the accumulated frame difference.

流れ図を進み、判定ブロック4263において、累積フレーム差分が、一般にシーン変化しきい値よりも小さいしきい値tと比較される。累積フレーム差分がtよりも大きい場合、制御はブロック4265に移り、フレームは、Pフレームになるように割り当てられ、その後、ステップ4267において、累積フレーム差分はゼロにリセットされる。累積フレーム差分がtより小さい場合、制御はブロック4263からブロック4269に移る。そこで、現在フレーム差分は、tよりも小さいτと比較される。現在フレーム差分がτより小さい場合、フレームは、ブロック4273において、スキップされるように割り当てられ、現在フレーム差分がτより大きい場合、フレームは、βフレームになるように割り当てられる。   Proceeding with the flowchart, at decision block 4263, the accumulated frame difference is compared to a threshold t, which is generally less than the scene change threshold. If the accumulated frame difference is greater than t, control passes to block 4265 where the frame is assigned to be a P frame, and then in step 4267, the accumulated frame difference is reset to zero. If the accumulated frame difference is less than t, control passes from block 4263 to block 4269. Therefore, the current frame difference is compared with τ smaller than t. If the current frame difference is less than τ, the frame is assigned to be skipped at block 4273, and if the current frame difference is greater than τ, the frame is assigned to be a β frame.

一代替態様では、別のフレーム符号化複雑さ表示Mが、

Figure 2009532741
In an alternative aspect, another frame coding complexity indication M * is
Figure 2009532741

として定義され、ここで、αは、スケーラであり、SADは、前方動き補償を用いたSADであり、MVは、前方動き補償からの動きベクトルのピクセルで測定した長さの合計であり、sおよびmは、SADがsより低くまたはMVがmより低い場合に、フレーム符号化複雑さ表示をゼロにする、2つのしきい値数である。Mは、図41の流れ図4200において、現在フレーム差分の代わりに使用される。理解されるように、Mは、前方動き補償が低いレベルの動きを示す場合にのみ、Mと異なる。この場合、MはMより小さい。 Is defined as, where, alpha is a scaler, SAD P is the SAD with forward motion compensation, MV P is an total length measured in the motion vector pixels from forward motion compensation , s and m, if the SAD P is low or MV P than s is less than m, to zero frame encoding complexity display, a two threshold number. M * is used in place of the current frame difference in the flowchart 4200 of FIG. As will be appreciated, M * differs from M only if the forward motion compensation shows a low level of motion. In this case, M is smaller than M.

本明細書で説明されたショット検出および符号化態様は、フローチャート、フロー図、構造図、またはブロック図として表されるプロセスとして説明され得ることに留意されたい。図に示された流れ図は順次プロセスとして動作を説明し得るが、多くの動作は、並列または同時に実行することもできる。加えて、動作の順序は、再構成されることもできる。プロセスは一般に、その動作が完了した時に終了する。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応することができる。プロセスが関数に対応する場合、その終了は、呼出元関数またはメイン関数への関数の復帰に対応する。   It should be noted that the shot detection and encoding aspects described herein may be described as a process represented as a flowchart, flow diagram, structure diagram, or block diagram. Although the flowcharts shown in the figures may describe the operations as a sequential process, many operations can also be performed in parallel or concurrently. In addition, the order of operations can be reconfigured. A process generally ends when its operation is complete. A process can correspond to a method, function, procedure, subroutine, subprogram, and the like. If the process corresponds to a function, its termination corresponds to the return of the function to the calling function or main function.

本明細書で開示されたデバイスの1つまたは複数のエレメントは、デバイスの動作に影響することなく再構成され得ることも、当業者には明らかであろう。同様に、本明細書で開示されたデバイスの1つまたは複数のエレメントは、デバイスの動作に影響することなく組み合わせることができる。情報およびマルチメディアデータが様々な異なる技術および技法のいずれかを使用して表現できることは、当業者であれば理解されよう。さらに、本明細書で開示された例に関連して説明された様々な例示的な論理ブロック、モジュール、およびアルゴリズムステップが、電子的ハードウェア、ファームウェア、コンピュータソフトウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせとして実施され得ることも、当業者であれば理解されよう。ハードウェアおよびソフトウェアのこの交換可能性を明瞭に示すため、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップは、広くそれらの機能性に関して上では説明された。そのような機能性がハードウェアとして実施されるか、それともソフトウェアとして実施されるかは、具体的なアプリケーションおよびシステム全体に課される設計制約に依存する。当業者は、各具体的なアプリケーションのために様々な方法で説明された機能性を実施することができるが、そのような実施決定は、開示された方法の範囲からの逸脱を引き起こすと解釈されるべきではない。   It will also be apparent to those skilled in the art that one or more elements of the devices disclosed herein can be reconfigured without affecting the operation of the device. Similarly, one or more elements of the devices disclosed herein can be combined without affecting the operation of the device. Those skilled in the art will appreciate that information and multimedia data can be represented using any of a variety of different technologies and techniques. Further, the various exemplary logic blocks, modules, and algorithm steps described in connection with the examples disclosed herein may be electronic hardware, firmware, computer software, middleware, microcode, or Those skilled in the art will also understand that they can be implemented as a combination. To clearly illustrate this interchangeability of hardware and software, various illustrative components, blocks, modules, circuits, and steps have been described broadly above in terms of their functionality. Whether such functionality is implemented as hardware or software depends upon the specific application and design constraints imposed on the overall system. One of ordinary skill in the art can implement the functionality described in various ways for each specific application, but such implementation decisions are interpreted as causing deviations from the scope of the disclosed methods. Should not.

例えば、本明細書で開示されたショット検出および符号化の例および図に関連して説明された方法またはアルゴリズムのステップは、直接ハードウェアで、プロセッサによって実行されるソフトウェアモジュールで、または2つの組み合わせで実施することができる。特に、方法およびアルゴリズムは、セル電話、コンピュータ、ラップトップコンピュータ、PDA、すべてのタイプの個人用および商用通信デバイスへのビデオの無線伝送を含む通信技術に適用可能である。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、着脱可能ディスク、CD−ROM、または当技術分野で知られた他の形態の記憶媒体に存在することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み、記憶媒体に情報を書くことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサに組み込まれてもよい。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)に存在することができる。ASICは、無線モデムに存在することができる。代替として、プロセッサおよび記憶媒体は、無線モデム内の別個のコンポーネントとして存在することができる。   For example, the method or algorithm steps described in connection with the shot detection and encoding examples and figures disclosed herein may be performed directly in hardware, in software modules executed by a processor, or in a combination of the two Can be implemented. In particular, the methods and algorithms are applicable to communication technologies including wireless transmission of video to cell phones, computers, laptop computers, PDAs, and all types of personal and commercial communication devices. A software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM, or other form of storage medium known in the art. it can. An exemplary storage medium is coupled to the processor such that the processor can read information from, and write information to, the storage medium. In the alternative, the storage medium may be integral to the processor. The processor and the storage medium can reside in an application specific integrated circuit (ASIC). An ASIC can reside in a wireless modem. In the alternative, the processor and the storage medium may reside as discrete components in the wireless modem.

加えて、本明細書で開示された例に関連して説明された様々な例示的な論理ブロック、コンポーネント、モジュール、および回路は、本明細書で説明される機能を実行するために設計された、汎用プロセッサ、ディジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理、ディスクリートハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実施または実行することができる。汎用プロセッサは、マイクロプロセッサでよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械でもよい。プロセッサは、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと連携する1つまたは複数のマイクロプロセッサの組み合わせ、またはそのような他の任意の構成など、コンピューティングデバイスの組み合わせとして実施されてもよい。   In addition, the various exemplary logic blocks, components, modules, and circuits described in connection with the examples disclosed herein were designed to perform the functions described herein. General purpose processor, digital signal processor (DSP), application specific integrated circuit (ASIC), field programmable gate array (FPGA) or other programmable logic device, discrete gate or transistor logic, discrete hardware components, or any of them It can be implemented or carried out using combinations. A general purpose processor may be a microprocessor, but in the alternative, the processor may be any conventional processor, controller, microcontroller, or state machine. A processor is a combination of computing devices such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors that cooperate with a DSP core, or any other such configuration. May be implemented.

開示された例についての先の説明は、当業者が開示された方法および装置を作成または使用することを可能とするために提供された。これらの例に対する様々な修正が、当業者には容易に明らかであり、本明細書で定められた原理は、他の例に適用することができ、開示された方法および装置の主旨または範囲から逸脱することなく、付加的なエレメントが追加されることができる。態様についての説明は、例示的であることを意図しており、特許請求の範囲を限定することは意図していない。   The previous description of the disclosed examples is provided to enable any person skilled in the art to make or use the disclosed methods and apparatus. Various modifications to these examples will be readily apparent to those skilled in the art, and the principles defined herein may be applied to other examples and may be derived from the spirit or scope of the disclosed methods and apparatus. Additional elements can be added without departing. The description of the embodiments is intended to be illustrative and is not intended to limit the scope of the claims.

ストリーミングマルチメディアデータを送り届けるための通信システムのブロック図。1 is a block diagram of a communication system for delivering streaming multimedia data. プリプロセッサを含むディジタル伝送機構のブロック図。The block diagram of the digital transmission mechanism containing a preprocessor. プリプロセッサの例示的な態様のブロック図。FIG. 3 is a block diagram of exemplary aspects of a preprocessor. マルチメディアデータを処理するためのプロセスを示す流れ図。5 is a flow diagram illustrating a process for processing multimedia data. マルチメディアデータを処理するための手段を示すブロック図。FIG. 3 is a block diagram illustrating means for processing multimedia data. 例示的なプリプロセッサの動作を示すブロック図。FIG. 3 is a block diagram illustrating the operation of an exemplary preprocessor. 逆テレシネプロセスにおけるフェーズ判定の図。The figure of the phase determination in an inverse telecine process. テレシネビデオに逆処理を施すプロセスを示す流れ図。6 is a flowchart showing a process for performing reverse processing on telecine video. フェーズ遷移を示す格子(trellis)の図。The figure of the trellis which shows a phase transition. 複数のメトリックを生成するために使用されるそれぞれのフレームを識別するための手引きの図。FIG. 6 is a diagram of guidance for identifying each frame used to generate multiple metrics. 図8のメトリックがどのように生成されるかを説明する流れ図。FIG. 9 is a flowchart illustrating how the metrics of FIG. 8 are generated. 推定フェーズに達するためのメトリックの処理を示す流れ図。6 is a flow diagram illustrating the processing of metrics to reach the estimation phase. 判定変数を生成するためのシステムを説明するデータ流れ図。The data flow figure explaining the system for producing | generating a decision variable. ブランチ情報を評価するために使用される変数を示すブロック図。The block diagram which shows the variable used in order to evaluate branch information. 下方エンベロープがどのように計算されるかを示す流れ図。Flow chart showing how the lower envelope is calculated. 下方エンベロープがどのように計算されるかを示す流れ図。Flow chart showing how the lower envelope is calculated. 下方エンベロープがどのように計算されるかを示す流れ図。Flow chart showing how the lower envelope is calculated. 整合性検出器の動作を示す流れ図。The flowchart which shows operation | movement of a consistency detector. フェーズ判定における不整合性を補償するために使用される判定変数に対するオフセットを計算するプロセスを示す流れ図。5 is a flow diagram illustrating a process for calculating an offset for a decision variable used to compensate for inconsistencies in phase decisions. プルダウンフェーズが推定された後の逆テレシネの動作を提示する図。The figure which shows the operation | movement of the inverse telecine after the pull-down phase is estimated. デインタレーサデバイスのブロック図。The block diagram of a deinterlacer device. 別のデインタレーサデバイスのブロック図。FIG. 4 is a block diagram of another deinterlacer device. インタレース画像のサブサンプリングパターンの図。The figure of the subsampling pattern of an interlaced image. デインタレースフレームを生成するためにWmedフィルタリング動き推定を使用するデインタレーサデバイスのブロック図。FIG. 4 is a block diagram of a deinterlacer device that uses Wmed filtering motion estimation to generate a deinterlaced frame. マルチメディアデータの静止領域を決定するためのアパーチャの一態様を示す図。The figure which shows the one aspect | mode of the aperture for determining the still area of multimedia data. マルチメディアデータの遅い動き領域を決定するためのアパーチャの一態様を示す図。The figure which shows the one aspect | mode of the aperture for determining the slow motion area | region of multimedia data. 動き推定の一態様を示す図。The figure which shows the one aspect | mode of motion estimation. 動き補償を決定する際に使用される2つの動きベクトルマップを示す図。The figure which shows the two motion vector maps used when determining motion compensation. マルチメディアデータをデインタレースする方法を示す流れ図。6 is a flow diagram illustrating a method for deinterlacing multimedia data. 時空間情報を使用してデインタレースフレームを生成する方法を示す流れ図。5 is a flowchart illustrating a method for generating a deinterlace frame using spatiotemporal information. デインタレースのための動き補償を実行する方法を示す流れ図。6 is a flow diagram illustrating a method for performing motion compensation for deinterlacing. いくつかの態様によるショット検出および他の前処理操作のために構成されるプロセッサを備えるプリプロセッサのブロック図。FIG. 4 is a block diagram of a preprocessor comprising a processor configured for shot detection and other preprocessing operations according to some aspects. 符号化の複雑さCおよび割り当てられたビットBの間の関係を示す図。FIG. 4 shows the relationship between encoding complexity C and assigned bit B. グループオブピクチャ上で動作し、いくつかの態様では、ビデオフレーム内でのショット検出に基づいてビデオを符号化するために使用できるプロセスを示す流れ図。FIG. 7 is a flow diagram illustrating a process that operates on a group of pictures and that, in some aspects, can be used to encode video based on shot detection within a video frame. ショット検出のためのプロセスを示す流れ図。6 is a flowchart illustrating a process for shot detection. ビデオにおけるショットの異なる分類を決定するためのプロセスを示す流れ図。6 is a flow diagram illustrating a process for determining different classifications of shots in a video. ショット検出結果に基づいてフレーム圧縮方式をビデオフレームに割り当てるためのプロセスを示す流れ図。6 is a flowchart illustrating a process for assigning a frame compression scheme to a video frame based on a shot detection result. 突然シーン変化を決定するためのプロセスを示す流れ図。6 is a flow diagram illustrating a process for determining a sudden scene change. 緩慢変化シーンを決定するためのプロセスを示す流れ図。6 is a flow diagram illustrating a process for determining a slowly changing scene. カメラフラッシュを含むシーンを決定するためのプロセスを示す流れ図。6 is a flow diagram illustrating a process for determining a scene that includes a camera flash. 現在フレームと先行フレームの間の動き補償ベクトルMVおよび現在フレームと次フレームの間の動き補償ベクトルMVを示す図。Shows the motion compensation vector MV N between the motion compensation vector MV P and the current frame and the next frame between the current frame and the preceding frame. フレーム差分メトリックを決定する際に使用される変数についての関係を示すグラフ。A graph showing the relationship for variables used in determining a frame difference metric. データの符号化および残余の計算を示すブロック図。FIG. 3 is a block diagram showing data encoding and residual calculation. フレーム差分メトリックの決定を示すブロック図。The block diagram which shows determination of a frame difference metric. 圧縮タイプがフレームに割り当てられる手順を示す流れ図。6 is a flowchart illustrating a procedure in which a compression type is assigned to a frame. 1−D多相リサンプリングの一例を示す図。The figure which shows an example of 1-D multiphase resampling. データのフレームのセーフアクション領域およびセーフタイトル領域を示す絵図。The pictorial diagram which shows the safe action area | region and safe title area | region of the flame | frame of data. データのフレームのセーフアクション領域を示す絵図。The pictorial diagram which shows the safe action area | region of the flame | frame of data.

Claims (50)

マルチメディアデータを処理する方法であって、
インタレースビデオフレームを受信することと、
前記インタレースビデオフレームをプログレッシブビデオに変換することと、
前記プログレッシブビデオに関連するメタデータを生成することと、
前記プログレッシブビデオの符号化の際に使用するために前記プログレッシブビデオと前記メタデータの少なくとも一部とを符号器に提供することと、を備える方法。
A method for processing multimedia data, comprising:
Receiving interlaced video frames;
Converting the interlaced video frame to progressive video;
Generating metadata associated with the progressive video;
Providing the progressive video and at least a portion of the metadata to an encoder for use in encoding the progressive video.
前記メタデータを使用して前記プログレッシブビデオを符号化することをさらに備える、請求項1に記載の方法。   The method of claim 1, further comprising encoding the progressive video using the metadata. 前記ビデオフレームを変換することが、前記インタレースビデオフレームをデインタレースすることを備える、請求項1に記載の方法。   The method of claim 1, wherein converting the video frame comprises deinterlacing the interlaced video frame. 前記メタデータが、帯域幅情報を備える、請求項1に記載の方法。   The method of claim 1, wherein the metadata comprises bandwidth information. 前記メタデータが、双方向動き情報を備える、請求項1に記載の方法。   The method of claim 1, wherein the metadata comprises bidirectional motion information. デインタレースすることが、
前記インタレースビデオフレームの空間情報および双方向動き情報を生成することと、
前記空間情報および双方向動き情報を使用して前記インタレースビデオフレームに基づいて前記プログレッシブビデオを生成することと、を備える、請求項1に記載の方法。
Deinterlacing
Generating spatial information and bidirectional motion information of the interlaced video frame;
Generating the progressive video based on the interlaced video frame using the spatial information and bidirectional motion information.
前記帯域幅情報が、ルミナンス情報を備える、請求項4に記載の方法。   The method of claim 4, wherein the bandwidth information comprises luminance information. 前記メタデータが、空間複雑さの値を備える、請求項1に記載の方法。   The method of claim 1, wherein the metadata comprises a spatial complexity value. 前記メタデータが、時間複雑さの値を備える、請求項1に記載の方法。   The method of claim 1, wherein the metadata comprises a time complexity value. 前記インタレースビデオフレームを変換することが、3/2プルダウンビデオフレームを逆テレシネすることを備える、請求項1に記載の方法。   The method of claim 1, wherein converting the interlaced video frame comprises inverse telecine a 3/2 pulldown video frame. 前記メタデータが、比帯域情報を備える、請求項10に記載の方法。   The method of claim 10, wherein the metadata comprises specific band information. 前記プログレッシブビデオをリサイズすることをさらに備える、請求項1に記載の方法。   The method of claim 1, further comprising resizing the progressive video. グループオブピクチャ情報を決定するために前記プログレッシブビデオを区分化することをさらに備える、請求項12に記載の方法。   The method of claim 12, further comprising segmenting the progressive video to determine group of picture information. 前記区分化が、前記プログレッシブビデオのショット検出を備える、請求項13に記載の方法。   The method of claim 13, wherein the segmentation comprises shot detection of the progressive video. 雑音低減フィルタを用いて前記プログレッシブビデオをフィルタリングすることをさらに備える、請求項14に記載の方法。   The method of claim 14, further comprising filtering the progressive video using a noise reduction filter. 前記メタデータが、ルミナンスおよびクロマ情報を備える、請求項1に記載の方法。   The method of claim 1, wherein the metadata comprises luminance and chroma information. マルチメディアデータを処理するための装置であって、
インタレースビデオフレームを受信するように構成される受信器と、
前記インタレースビデオフレームをプログレッシブビデオに変換するように構成されるデインタレーサと、
前記プログレッシブビデオに関連するメタデータを生成し、前記プログレッシブビデオの符号化の際に使用するために前記プログレッシブビデオと前記メタデータとを符号器に提供するように構成されるパーティショナと、を備える装置。
An apparatus for processing multimedia data,
A receiver configured to receive interlaced video frames;
A deinterlacer configured to convert the interlaced video frame to progressive video;
A partitioner configured to generate metadata associated with the progressive video and to provide the progressive video and the metadata to an encoder for use in encoding the progressive video. apparatus.
前記プログレッシブビデオを通信モジュールから受信し、前記提供されたメタデータを使用して前記プログレッシブビデオを符号化するように構成される符号器をさらに備える、請求項17に記載の装置。   The apparatus of claim 17, further comprising an encoder configured to receive the progressive video from a communication module and to encode the progressive video using the provided metadata. 前記デインタレーサが、時空間デインタレースを実行するように構成される、請求項17に記載の装置。   The apparatus of claim 17, wherein the deinterlacer is configured to perform space-time deinterlacing. プログレッシブビデオの雑音低減を行うための雑音低減フィルタをさらに備える、請求項17に記載の装置。   The apparatus of claim 17, further comprising a noise reduction filter for performing noise reduction of progressive video. 前記デインタレーサが、逆テレシネ器を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the deinterlacer comprises an inverse telecine device. 前記パーティショナが、ショット検出を実行し、前記ショット検出に基づいて圧縮情報を生成するように構成される、請求項17に記載の装置。   The apparatus of claim 17, wherein the partitioner is configured to perform shot detection and generate compression information based on the shot detection. 前記メタデータが、グループオブピクチャ情報を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the metadata comprises group of picture information. プログレッシブフレームをリサイズするように構成されるリサンプラをさらに備える、請求項17に記載の装置。   The apparatus of claim 17, further comprising a resampler configured to resize the progressive frame. 前記メタデータが、帯域幅情報を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the metadata comprises bandwidth information. 前記メタデータが、双方向動き情報を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the metadata comprises bidirectional motion information. デインタレーサが、
前記インタレースビデオフレームの空間情報および双方向動き情報を生成し、
前記空間情報および双方向動き情報を使用して前記インタレースビデオフレームに基づいてプログレッシブビデオを生成する、ように構成される、請求項17に記載の装置。
Deinterlacer
Generating spatial information and bidirectional motion information of the interlaced video frame;
The apparatus of claim 17, configured to generate progressive video based on the interlaced video frame using the spatial information and bidirectional motion information.
前記メタデータが、比帯域を備える、請求項23に記載の装置。   24. The apparatus of claim 23, wherein the metadata comprises a bandwidth ratio. 前記メタデータが、ルミナンス情報を備える、請求項23に記載の装置。   24. The apparatus of claim 23, wherein the metadata comprises luminance information. 前記メタデータが、空間複雑さの値を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the metadata comprises a spatial complexity value. 前記メタデータが、時間複雑さの値を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the metadata comprises a time complexity value. 前記メタデータが、ルミナンスおよびクロマ情報を備える、請求項17に記載の装置。   The apparatus of claim 17, wherein the metadata comprises luminance and chroma information. マルチメディアデータを処理するための装置であって、
インタレースビデオを受信するための手段と、
前記インタレースビデオをプログレッシブビデオに変換するための手段と、
前記プログレッシブビデオに関連するメタデータを生成するための手段と、
前記プログレッシブビデオの符号化の際に使用するために前記プログレッシブビデオと前記メタデータの少なくとも一部とを符号器に提供するための手段と、を備える装置。
An apparatus for processing multimedia data,
Means for receiving interlaced video;
Means for converting the interlaced video to progressive video;
Means for generating metadata associated with the progressive video;
Means for providing the progressive video and at least a portion of the metadata to an encoder for use in encoding the progressive video.
前記変換手段が、逆テレシネ器を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the converting means comprises an inverse telecine device. 前記変換手段が、時空間デインタレーサを備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the conversion means comprises a spatiotemporal deinterlacer. 前記生成手段が、ショット検出を実行し、前記ショット検出に基づいて圧縮情報を生成するように構成される、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the generating means is configured to perform shot detection and generate compression information based on the shot detection. 前記生成手段が、帯域幅情報を生成するように構成される、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the generating means is configured to generate bandwidth information. プログレッシブフレームをリサイズするためにリサンプリングするための手段をさらに備える、請求項33に記載の装置。   34. The apparatus of claim 33, further comprising means for resampling to resize the progressive frame. 前記提供されたメタデータを使用して前記プログレッシブビデオを符号化するための手段をさらに備える、請求項33に記載の装置。   34. The apparatus of claim 33, further comprising means for encoding the progressive video using the provided metadata. 前記プログレッシブビデオの雑音低減を行うための手段をさらに備える、請求項33に記載の装置。   34. The apparatus of claim 33, further comprising means for performing noise reduction of the progressive video. 前記メタデータが、グループオブピクチャ情報を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the metadata comprises group of picture information. 前記メタデータが、双方向動き情報を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the metadata comprises bidirectional motion information. 前記変換手段が、
前記インタレースビデオフレームの空間情報および双方向動き情報を生成し、
前記空間情報および双方向動き情報を使用して前記インタレースビデオフレームに基づいてプログレッシブビデオを生成する、ように構成される、請求項33に記載の装置。
The converting means is
Generating spatial information and bidirectional motion information of the interlaced video frame;
34. The apparatus of claim 33, configured to generate progressive video based on the interlaced video frame using the spatial information and bidirectional motion information.
前記メタデータが、比帯域を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the metadata comprises a bandwidth ratio. 前記帯域幅情報が、ルミナンス情報を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the bandwidth information comprises luminance information. 前記メタデータが、空間複雑さの値を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the metadata comprises a spatial complexity value. 前記メタデータが、時間複雑さの値を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the metadata comprises a time complexity value. 前記メタデータが、ルミナンスおよびクロマ情報を備える、請求項33に記載の装置。   34. The apparatus of claim 33, wherein the metadata comprises luminance and chroma information. マルチメディアデータを処理するための命令を備える機械可読媒体であって、前記命令が実行された時に、機械に
インタレースビデオフレームを受信させ、
前記インタレースビデオフレームをプログレッシブビデオに変換させ、
前記プログレッシブビデオに関連するメタデータを生成させ、
前記プログレッシブビデオの符号化の際に使用するために前記プログレッシブビデオと前記メタデータの少なくとも一部とを符号器に提供させる、機械可読媒体。
A machine-readable medium comprising instructions for processing multimedia data, wherein when the instructions are executed, the machine receives an interlaced video frame;
Converting the interlaced video frame to progressive video;
Generating metadata related to the progressive video;
A machine-readable medium that causes an encoder to provide the progressive video and at least a portion of the metadata for use in encoding the progressive video.
インタレースビデオを受信し、
前記インタレースビデオをプログレッシブビデオに変換し、
前記プログレッシブビデオに関連するメタデータを生成し、
前記プログレッシブビデオの符号化の際に使用するために前記プログレッシブビデオと前記メタデータの少なくとも一部とを符号器に提供する、ための構成を備えるプロセッサ。
Receive interlaced video,
Convert the interlaced video to progressive video,
Generating metadata related to the progressive video;
A processor comprising an arrangement for providing an encoder with the progressive video and at least a portion of the metadata for use in encoding the progressive video.
JP2009504372A 2006-04-03 2007-03-13 Microscope slide automatic reading system Withdrawn JP2009532741A (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US78904806P 2006-04-03 2006-04-03
US60/789,048 2006-04-03
US78926606P 2006-04-04 2006-04-04
US78937706P 2006-04-04 2006-04-04
US60/789,377 2006-04-04
US60/789,266 2006-04-04
PCT/US2007/063929 WO2007114995A1 (en) 2006-04-03 2007-03-13 Preprocessor method and apparatus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012162714A Division JP5897419B2 (en) 2006-04-03 2012-07-23 Preprocessor method and apparatus

Publications (2)

Publication Number Publication Date
JP2009532741A JP2009532741A (en) 2009-09-10
JP2009532741A6 true JP2009532741A6 (en) 2011-11-24

Family

ID=38121947

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2009504372A Withdrawn JP2009532741A (en) 2006-04-03 2007-03-13 Microscope slide automatic reading system
JP2012162714A Expired - Fee Related JP5897419B2 (en) 2006-04-03 2012-07-23 Preprocessor method and apparatus
JP2014263408A Expired - Fee Related JP6352173B2 (en) 2006-04-03 2014-12-25 Preprocessor method and apparatus

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2012162714A Expired - Fee Related JP5897419B2 (en) 2006-04-03 2012-07-23 Preprocessor method and apparatus
JP2014263408A Expired - Fee Related JP6352173B2 (en) 2006-04-03 2014-12-25 Preprocessor method and apparatus

Country Status (7)

Country Link
EP (1) EP2002650A1 (en)
JP (3) JP2009532741A (en)
KR (5) KR101373896B1 (en)
CN (1) CN104159060B (en)
AR (1) AR060254A1 (en)
TW (1) TW200803504A (en)
WO (1) WO2007114995A1 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI396975B (en) * 2008-08-06 2013-05-21 Realtek Semiconductor Corp Adaptable buffer device and method thereof
TWI392335B (en) * 2009-08-14 2013-04-01 Sunplus Technology Co Ltd De-ring system and method for reducing the overshooting and undershooting of a video signal in a scaler
CN102648490B (en) 2009-11-30 2016-08-17 株式会社半导体能源研究所 Liquid crystal display, for driving the method for this liquid crystal display and include the electronic equipment of this liquid crystal display
EP2666289A1 (en) * 2011-01-21 2013-11-27 Thomson Licensing System and method for enhanced remote transcoding using content profiling
US20130266080A1 (en) * 2011-10-01 2013-10-10 Ning Lu Systems, methods and computer program products for integrated post-processing and pre-processing in video transcoding
KR101906946B1 (en) 2011-12-02 2018-10-12 삼성전자주식회사 High density semiconductor memory device
US10136147B2 (en) 2014-06-11 2018-11-20 Dolby Laboratories Licensing Corporation Efficient transcoding for backward-compatible wide dynamic range codec
CN108702506B9 (en) * 2016-03-07 2021-10-15 索尼公司 Encoding apparatus and encoding method
JP7228917B2 (en) * 2018-01-02 2023-02-27 キングス カレッジ ロンドン Method and system for localization microscopy
CN111310744B (en) * 2020-05-11 2020-08-11 腾讯科技(深圳)有限公司 Image recognition method, video playing method, related device and medium
CN114363638B (en) * 2021-12-08 2022-08-19 慧之安信息技术股份有限公司 Video encryption method based on H.265 entropy coding binarization
CN114125346B (en) * 2021-12-24 2023-08-29 成都索贝数码科技股份有限公司 Video conversion method and device

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2700090B1 (en) 1992-12-30 1995-01-27 Thomson Csf Method for deinterlacing frames of a sequence of moving images.
EP0714576B1 (en) * 1994-04-05 1998-11-18 Koninklijke Philips Electronics N.V. Interlaced-to-sequential scan conversion
JP2832927B2 (en) * 1994-10-31 1998-12-09 日本ビクター株式会社 Scanning line interpolation apparatus and motion vector detection apparatus for scanning line interpolation
JPH09284770A (en) * 1996-04-13 1997-10-31 Sony Corp Image coding device and method
US5864369A (en) 1997-06-16 1999-01-26 Ati International Srl Method and apparatus for providing interlaced video on a progressive display
JP3649370B2 (en) * 1998-02-25 2005-05-18 日本ビクター株式会社 Motion compensation coding apparatus and motion compensation coding method
US6297848B1 (en) * 1998-11-25 2001-10-02 Sharp Laboratories Of America, Inc. Low-delay conversion of 3:2 pulldown video to progressive format with field averaging
JP3588564B2 (en) * 1999-03-31 2004-11-10 株式会社東芝 Video data recording device
JP2001204026A (en) * 2000-01-21 2001-07-27 Sony Corp Image information converter and method
KR100844816B1 (en) 2000-03-13 2008-07-09 소니 가부시끼 가이샤 Method and apparatus for generating compact transcoding hints metadata
KR100708091B1 (en) 2000-06-13 2007-04-16 삼성전자주식회사 Frame rate converter using bidirectional motion vector and method thereof
US6970513B1 (en) * 2001-06-05 2005-11-29 At&T Corp. System for content adaptive video decoding
KR100393066B1 (en) 2001-06-11 2003-07-31 삼성전자주식회사 Apparatus and method for adaptive motion compensated de-interlacing video data using adaptive compensated olation and method thereof
US6784942B2 (en) * 2001-10-05 2004-08-31 Genesis Microchip, Inc. Motion adaptive de-interlacing method and apparatus
JP4016646B2 (en) * 2001-11-30 2007-12-05 日本ビクター株式会社 Progressive scan conversion apparatus and progressive scan conversion method
KR100446083B1 (en) * 2002-01-02 2004-08-30 삼성전자주식회사 Apparatus for motion estimation and mode decision and method thereof
KR100850706B1 (en) * 2002-05-22 2008-08-06 삼성전자주식회사 Method for adaptive encoding and decoding motion image and apparatus thereof
KR20060011281A (en) * 2004-07-30 2006-02-03 한종기 Apparatus for converting resolution of image applied to transcoder and method of the same
JP2006074684A (en) * 2004-09-06 2006-03-16 Matsushita Electric Ind Co Ltd Image processing method and apparatus

Similar Documents

Publication Publication Date Title
JP6352173B2 (en) Preprocessor method and apparatus
US9131164B2 (en) Preprocessor method and apparatus
JP2009532741A6 (en) Preprocessor method and apparatus
KR100957479B1 (en) Method and apparatus for spatio-temporal deinterlacing aided by motion compensation for field-based video
US6862372B2 (en) System for and method of sharpness enhancement using coding information and local spatial features
EP1929784B1 (en) Content driven transcoder that orchestrates multimedia transcoding using content information
RU2378790C1 (en) Scalability techniques based on content information
JP2009512397A (en) Adaptive GOP structure in video streaming
US6873657B2 (en) Method of and system for improving temporal consistency in sharpness enhancement for a video signal
US7031388B2 (en) System for and method of sharpness enhancement for coded digital video
KR20030005219A (en) Apparatus and method for providing a usefulness metric based on coding information for video enhancement