JP2006311078A - High efficiency coding recorder - Google Patents
High efficiency coding recorder Download PDFInfo
- Publication number
- JP2006311078A JP2006311078A JP2005129723A JP2005129723A JP2006311078A JP 2006311078 A JP2006311078 A JP 2006311078A JP 2005129723 A JP2005129723 A JP 2005129723A JP 2005129723 A JP2005129723 A JP 2005129723A JP 2006311078 A JP2006311078 A JP 2006311078A
- Authority
- JP
- Japan
- Prior art keywords
- information
- scene
- encoding
- frame
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、デジタル画像データを効率良く記録することが可能な高能率符号化記録装置に関する。 The present invention relates to a high-efficiency encoding / recording apparatus capable of efficiently recording digital image data.
近年、デジタル化された映像の画像データに対して高能率な符号化を施して情報を圧縮することにより、長時間のコンテンツを記録媒体に記録したり、衛星回線、地上回線、および電話回線などの伝送路で送受信したりするサービスが多く利用されている。これらのサービスにおいては、動画像および音声の高能率符号化方式として国際規格であるMPEG2、MPEG4−ASP、MPEG4−AVCなどが用いられている。これらの規格では、隣接画素(空間方向)の相関、および、隣接フレーム間もしくは隣接フィールド間(時間方向)の相関を利用して情報量を圧縮する画像符号化方式が用いられている。 In recent years, high-efficiency encoding has been applied to digitized video image data to compress information, thereby recording long-term content on recording media, satellite lines, terrestrial lines, telephone lines, etc. There are many services that send and receive data over these transmission paths. In these services, MPEG2, MPEG4-ASP, MPEG4-AVC and the like, which are international standards, are used as high-efficiency encoding methods for moving images and audio. In these standards, an image coding method is used in which the amount of information is compressed using the correlation between adjacent pixels (space direction) and the correlation between adjacent frames or between adjacent fields (time direction).
例えば、MPEG2規格における画像符号化記録装置の一例として、以下のようなアルゴリズムで符号化処理が行われる装置がある。すなわち、時間的に連続する12の符号化対象画像フレームのうち1フレームの静止画が基準フレームとして捉えられ、空間方向の相関のみを用いて符号化される。この基準フレームの符号化データは、このフレームの符号化データのみで復元できる。 For example, as an example of an image encoding / recording apparatus in the MPEG2 standard, there is an apparatus that performs encoding processing using the following algorithm. That is, one still image of 12 encoding target image frames that are temporally continuous is regarded as a reference frame, and is encoded using only the correlation in the spatial direction. The encoded data of this reference frame can be restored only with the encoded data of this frame.
基準フレーム以外の11フレームでは、まず参照画像フレームとの間での被写体の動きから検出された動きベクトルを用いて画像が予測されることにより予測フレームが作成され、この予測フレームとの差分が求められる。この差分が空間方向の相関および時間方向の相関を用いて符号化されるため、基準フレームに比べてより高い符号化効率で符号化することができる。この予測フレームを用いて符号化されたデータは、参照フレームデータ、動きベクトルデータ、および予測フレームとの差分の符号化データより復元される。 In 11 frames other than the reference frame, first, a predicted frame is created by predicting an image using a motion vector detected from the motion of the subject with the reference image frame, and a difference from the predicted frame is obtained. It is done. Since this difference is encoded using the correlation in the spatial direction and the correlation in the time direction, it can be encoded with higher encoding efficiency than the reference frame. Data encoded using the prediction frame is restored from the reference frame data, the motion vector data, and the encoded data of the difference from the prediction frame.
MPEG2規格による画像符号化について図9を用いて具体的に説明する。図9は連続する基準フレームおよび予測フレームが平面状に並べられた状態を示している。Iで示されるIピクチャ(Intra−coded picture:Iフレーム)は入力された符号化対象画像フレームであり、符号化処理において定期的に用いられ、復号処理で基準フレームとして用いられる。また、P1〜P3で示されるPピクチャ(Predictive−coded picture:Pフレーム)は時間的に前(過去)の基準フレーム(Iピクチャ)のみを参照フレームとして作成される予測フレームであり、B1〜B8で示されるBピクチャ(Bi−directionally predictive coded picture:Bフレーム)は時間的に前後(過去と未来)の2つの参照フレームから作成される予測フレームである。Pピクチャは、それ自身が予測フレームであるとともに、続いて作成されるBピクチャやPピクチャの参照フレームにもなる。 The image encoding according to the MPEG2 standard will be specifically described with reference to FIG. FIG. 9 shows a state in which consecutive reference frames and prediction frames are arranged in a plane. An I picture (Intra-coded picture: I frame) indicated by I is an input encoding target image frame, which is periodically used in the encoding process and used as a reference frame in the decoding process. Further, P pictures (Predictive-coded pictures: P frames) indicated by P1 to P3 are prediction frames created using only a reference frame (I picture) that is temporally previous (past) as a reference frame, and B1 to B8. A B picture (Bi-directionally predictive coded picture: B frame) indicated by is a prediction frame created from two reference frames before and after (past and future) in terms of time. The P picture itself is a prediction frame, and also serves as a reference frame for a B picture and a P picture that are created subsequently.
図9の矢印は、予測方向を示す。例えば、P1ピクチャは時間的に前のIピクチャから予測され、B1ピクチャおよびB2ピクチャは時間的に前のIピクチャとP1ピクチャから予測され、B3ピクチャおよびB4ピクチャはP1ピクチャとP2ピクチャから予測される。 The arrows in FIG. 9 indicate the prediction direction. For example, P1 picture is predicted from temporally previous I picture, B1 picture and B2 picture are predicted from temporally previous I picture and P1 picture, and B3 picture and B4 picture are predicted from P1 picture and P2 picture. The
Iピクチャの画像データは、輝度信号が水平16画素×垂直16画素であるマクロブロックと呼ばれる処理単位に分割される。分割され得られたマクロブロックデータは、さらに8×8画素単位の2次元ブロックに分割され、この2次元ブロックごとに直交変換の一種であるDCT(Discrete Cosine Transform:離散コサイン変換)変換処理および量子化処理が行われる。 The image data of an I picture is divided into processing units called macroblocks whose luminance signal is 16 horizontal pixels × 16 vertical pixels. The obtained macroblock data is further divided into two-dimensional blocks of 8 × 8 pixel units, and each two-dimensional block is subjected to DCT (Discrete Cosine Transform) conversion processing, which is a kind of orthogonal transformation, and quantum processing. Processing is performed.
DCT変換で得られたデータはこの2次元ブロックデータの周波数成分に準じた値を示し、一般的な画像では成分が低周波域に集中する。この低周波成分は、高周波成分よりも視覚的に情報劣化が目立つ性質がある。よって量子化される際は、低周波成分域が細かく、高周波成分域が粗く処理され、その係数成分と成分がない係数0との連続する長さが可変長符号化されることにより、情報量が圧縮される。 Data obtained by DCT conversion shows a value according to the frequency component of the two-dimensional block data, and in a general image, the component is concentrated in a low frequency region. This low frequency component has a characteristic that information deterioration is more visually noticeable than a high frequency component. Therefore, when quantization is performed, the low frequency component area is processed finely, the high frequency component area is processed coarsely, and the continuous length of the coefficient component and the coefficient 0 having no component is variable-length encoded, whereby the amount of information Is compressed.
Pピクチャを用いて符号化対象フレームを圧縮する処理について図9を参照して説明する。図9のP1ピクチャ、P2ピクチャ、およびP3ピクチャに時間的に対応する符号化対象画像フレームも水平16画素×垂直16画素のマクロブロック単位に分割され、このマクロブロック毎に参照フレームであるIピクチャまたはPピクチャとの間の動きベクトルが検出される。動きベクトルは、一般的にブロックマッチング法により求められる。このブロックマッチング法では、動きベクトル検出対象である符号化対象画像フレームのマクロブロックデータの各画素と、このマクロブロックデータと近似の参照フレームのマクロブロックデータの各画素との差分絶対値和(もしくは差分二乗和)が求められ、その値が最小となるときの動きベクトルの値が検出された動きベクトルとして出力される。 The process of compressing the encoding target frame using the P picture will be described with reference to FIG. The encoding target image frame temporally corresponding to the P1 picture, P2 picture, and P3 picture in FIG. 9 is also divided into macroblock units of horizontal 16 pixels × vertical 16 pixels, and an I picture that is a reference frame for each macroblock Alternatively, a motion vector between the P picture is detected. The motion vector is generally obtained by a block matching method. In this block matching method, the sum of absolute differences between each pixel of the macroblock data of the encoding target image frame that is the motion vector detection target and each pixel of the macroblock data of the macroblock data and the approximate reference frame (or The sum of squared differences) is obtained, and the value of the motion vector when the value is the minimum is output as the detected motion vector.
参照フレームの画像を、このマクロブロック毎に検出された動きベクトル分ずらして作成された画像をPピクチャとする。Pピクチャの画像信号は、Iピクチャと同様に輝度信号で水平16画素×垂直16画素のマクロブロック単位に分割される。そして、得られたPピクチャのマクロブロックデータの各画素と符号化対象画像フレームのマクロブロックデータの各画素との差分ブロックデータが検出され、この差分ブロックデータが符号化される。正確な動きベクトルが検出された場合には、差分ブロックデータの情報量は元のマクロブロックデータの持っている情報量よりも大幅に少なくなる。そのため、Pピクチャを用いて符号化されたデータは、Iピクチャが符号化されたデータよりも粗い量子化処理が可能になる。実際には、差分ブロックデータを符号化するか、非差分ブロックデータ(符号化対象フレームのIntraブロックデータ)を符号化するかが予測モード判定で選択され、選択されたブロックデータに対してIピクチャと同様のDCT変換処理および量子化処理が施され、圧縮が行われる。 An image created by shifting the image of the reference frame by the motion vector detected for each macroblock is defined as a P picture. An image signal of a P picture is divided into macroblock units of horizontal 16 pixels × vertical 16 pixels by a luminance signal as in the case of an I picture. Then, difference block data between each pixel of the obtained macroblock data of the P picture and each pixel of the macroblock data of the encoding target image frame is detected, and this difference block data is encoded. When an accurate motion vector is detected, the information amount of the difference block data is significantly smaller than the information amount of the original macroblock data. Therefore, the data encoded using the P picture can be subjected to coarser quantization processing than the data encoded using the I picture. Actually, whether to encode differential block data or non-differential block data (intra block data of the encoding target frame) is selected by the prediction mode determination, and an I picture is selected for the selected block data. The same DCT conversion process and quantization process are performed, and compression is performed.
Bピクチャを用いて符号化対象フレームを圧縮する処理について説明する。図9のB1ピクチャ、B2ピクチャ、・・・B8ピクチャに時間的に対応する符号化対象画像フレームもPピクチャを用いる場合と同様の処理が行われるが、参照フレームであるIピクチャおよびPピクチャが時間的に前後に存在するため、それぞれの参照フレームと符号化対象フレームとの間で動きベクトルが検出される。この際、マクロブロック毎に選択される予測モードにより動きベクトルの検出が行われる。この予測モードには、時間的に前の基準フレームからブロックデータが予測される(Forward予測)モード、時間的に後の基準フレームからブロックデータが予測される(Backward予測)モード、これら2つの予測ブロックデータの画素毎の平均値からブロックデータが予測される(Average予測)モードの3種類が存在する。これら3種類のモードによりそれぞれ得られるBピクチャのマクロブロックデータと符号化対象画像フレームのマクロブロックデータとの差分ブロックデータ、および、符号化対象フレームのIntraブロックデータの4種類のブロックデータからいずれかのデータが判定により選択され、選択されたブロックデータにIピクチャおよびPピクチャと同様のDCT変換処理および量子化処理が施され、圧縮が行われる。 Processing for compressing the encoding target frame using the B picture will be described. The encoding target image frame temporally corresponding to the B1 picture, B2 picture,..., B8 picture in FIG. 9 is processed in the same way as when the P picture is used. Since they exist before and after in time, a motion vector is detected between each reference frame and the encoding target frame. At this time, the motion vector is detected by the prediction mode selected for each macroblock. This prediction mode includes a mode in which block data is predicted from a temporally previous reference frame (Forward prediction), and a block data is predicted from a temporally subsequent reference frame (Backward prediction). There are three types of modes in which block data is predicted from the average value of each block data pixel (Average prediction). Any one of four types of block data, that is, differential block data between the macro block data of the B picture and the macro block data of the encoding target image frame, and the intra block data of the encoding target frame, which are obtained by each of these three types of modes. The selected block data is subjected to DCT conversion processing and quantization processing similar to those for the I picture and P picture, and compression is performed on the selected block data.
Bピクチャは時間的に前後の基準フレームから予測が可能であるため、Pピクチャよりもさらに予測効率が向上する。よって、一般的にPピクチャよりもさらに粗く量子化される。 Since a B picture can be predicted from temporally preceding and following reference frames, the prediction efficiency is further improved than that of a P picture. Therefore, the quantization is generally coarser than that of the P picture.
このBピクチャを用いる符号化は時間的に後の基準フレームからの予測処理も行われるため、参照フレームを用いた符号化がBピクチャを用いる符号化に先行して行われる。そのため、入力された画像信号は図10に示すように、Bピクチャを用いて符号化される符号化対象画像フレームは、その参照フレームであるIピクチャまたはPピクチャの後に並べ替えが行われ、符号化される。復号される際は、図11に示すように、図10の逆の並べ替えを行って出力することにより、入力された画像信号の順に復号された画像が再生される。 Since the encoding using the B picture is also performed with a prediction process from a later reference frame, the encoding using the reference frame is performed prior to the encoding using the B picture. Therefore, as shown in FIG. 10, the input image signal is encoded using the B picture, and the encoding target image frame is rearranged after the I picture or P picture that is the reference frame. It becomes. At the time of decoding, as shown in FIG. 11, by performing the reverse rearrangement of FIG. 10 and outputting, the decoded images are reproduced in the order of the input image signals.
次に、MPEG2画像符号化を実現する従来の画像符号化記録装置の構成について説明する。図12は従来の画像符号化記録装置20を示すブロック図である。従来の画像符号化記録装置20は、対象画像入力端子201と、入力画像メモリ202と、2次元ブロックデータ変換回路203と、減算器204と、直交変換回路205と、量子化回路206と、符号化回路207と、符号化テーブル208と、マルチプレクサ209と、画像ビットストリームバッファ210と、逆量子化回路212と、逆直交変換回路213と、加算器214と、デブロック回路215と、参照画像メモリ216と、動きベクトル検出回路217と、動き補償予測回路218と、符号量制御回路219とを有する。
Next, the configuration of a conventional image encoding / recording apparatus that realizes MPEG2 image encoding will be described. FIG. 12 is a block diagram showing a conventional image encoding /
対象画像入力端子201は、符号化対象となるデジタル画像データを入力する。
The target
入力画像メモリ202は、対象画像入力端子201で入力されたデジタル画像データを記憶して遅延させ、符号化される順番にフレームを並べ替えて2次元ブロックデータ変換回路203に送信する。
The
2次元ブロックデータ変換回路203は、受信したデジタル画像データのフレームをマクロブロックデータに分割する。
The two-dimensional block
減算器204は、符号化対象のフレームがIピクチャの場合はそのまま直交変換回路205に送信し、Iピクチャ以外の場合は後述する予測ブロックデータと符号化対象フレームのマクロブロックデータとの差分を直交変換回路205に送信する。
If the encoding target frame is an I picture, the
直交変換回路205は、受信したマクロブロックデータをDCT変換し、このDCT変換により得られたDCT係数を量子化回路206に送信する。
The
量子化回路206は、受信したDCT係数を量子化マトリクスにより算出される値で除算して量子化処理を行う。
The
符号化回路207は、符号化テーブル208を参照することにより得られる符号化レートで、量子化されたDCT係数を可変長または固定長で符号化し、マルチプレクサ209に送信する。
The
符号化テーブル208は、DCT係数に対応する符号化レートを記憶している。 The encoding table 208 stores an encoding rate corresponding to the DCT coefficient.
マルチプレクサ209は、符号化回路207から受信した符号化データと2次元ブロックデータ変換回路203から受信したフレーム内でのマクロブロックデータの位置等を示す付加情報とを多重化して出力画像ビットストリームとし、画像ビットストリームバッファ210および符号量制御回路219に送信する。
The
画像ビットストリームバッファ210は、マルチプレクサ209から受信された出力画像ビットストリームを格納し、必要に応じて記録媒体もしくは伝送路211に送信する。
The image
逆量子化回路212は、量子化回路206から受信した量子化されたDCT係数を逆量子化し、得られたDCT係数を逆直交変換回路213に送信する。
The
逆直交変換回路213は、受信したDCT係数を逆DCT変換処理し、得られたマクロブロックデータを加算器214に送信する。
The inverse
加算器214は、逆直交変換回路213から受信したマクロブロックデータに後述する動き補償予測回路218から得られる予測ブロックデータを加算し、デブロック回路215に送信する。
The
デブロック回路215は、予測ブロックデータが加算されたマクロブロックデータを受信して復号し、得られた参照画像データを参照画像メモリ216に送信する。
The
参照画像メモリ216は、受信した参照画像データを記憶し、PピクチャまたはBピクチャの参照フレームとして動きベクトル検出回路217および動き補償予測回路218に送信する。
The
動きベクトル検出回路217は、2次元ブロックデータ変換回路203から受信した符号化対象画像のマクロブロックデータと参照画像メモリ216から受信した参照画像のマクロブロックデータとの間の動きベクトルを検出する。
The motion
動き補償予測回路218は、参照画像メモリ216から受信した参照フレームのマクロブロックデータを、動きベクトル検出回路217で求められた動きベクトル分ずらして予測ブロックデータを作成し、減算器204および加算器214に送信する。
The motion
符号量制御回路219は、マルチプレクサ209から送信された出力画像ビットストリームの符号量と予め設定された目標とする符号量とを比較し、目標符号量に近づけるために量子化する細かさ(量子化スケール)を算出し、算出された量子化スケールで量子化が行われるように量子化回路206を制御する。
The code
次に、上記の従来の画像符号化記録装置20の動作を説明する。
Next, the operation of the conventional image encoding /
まず、符号化対象となる映像のデジタル画像データが、対象画像入力端子201から入力されて入力画像メモリ202に送信される。入力画像メモリ202では受信したデジタル画像データが記憶されて遅延され、図10の符号化シンタックスに従って符号化される順番にフレームが並べ替えられて2次元ブロックデータ変換回路203に送信される。2次元ブロックデータ変換回路203においては、受信したデジタル画像データがマクロブロックデータに分割される。
First, digital image data of a video to be encoded is input from the target
次に、入力画像メモリ202から入力されたデジタル画像データがIピクチャである場合の符号化処理について説明する。まず、マクロブロックデータに分割されたIピクチャの画像データは減算器204を介して直交変換回路205に送信される。そして直交変換回路205でさらに水平8画素×垂直8画素単位に分割されてDCT変換処理が行われ、DCT係数が出力される。出力されたDCT係数は輝度信号が水平16画素×垂直16画素となるマクロブロック単位にまとめられ、量子化回路206に送られる。量子化回路206においては、DCT係数が周波数成分毎に異なった値を持つ量子化マトリクスにより算出される値で除算されることにより、量子化処理が行われる。量子化処理が行われたDCT係数は、符号化回路207において符号化テーブル208のDCT係数に対応したアドレスが参照されることにより可変長または固定長の符号化が行われ、得られた符号化データがマルチプレクサ209に送信される。
Next, an encoding process when digital image data input from the
マルチプレクサ209では、符号化回路207から受信された符号化データと2次元ブロックデータ変換回路203から受信されたフレーム内での該当するマクロブロックデータの位置等を示す付加情報とが多重化され、画像ビットストリームバッファ210に格納される。この多重化されたデータは、出力画像ビットストリームとして記録媒体もしくは伝送路211に出力される。
The
一方、量子化回路206において量子化されたDCT係数は、逆量子化回路212および逆直交変換回路213において逆量子化および逆DCT変換処理が行われ、量子化されたDCT係数が復号されマクロブロックごとのデータが得られる。この得られたマクロブロックごとデータは加算器214を介してデブロック回路215に送信され、デブロック回路215でデブロックされて復号された参照画像データが得られる。復号された参照画像データは参照画像メモリ216に供給されて格納される。参照画像メモリ216に格納された画像データは、予測フレームであるPピクチャやBピクチャを用いて符号化処理する時に参照フレームとして使用される。
On the other hand, the DCT coefficient quantized in the
次に、入力画像メモリ202から出力されたデジタル画像データが、予測フレームであるPピクチャまたはBピクチャを用いて符号化処理される場合について説明する。まず、2次元ブロックデータ変換回路203で分割された符号化対象となる画像フレームのマクロブロックデータと参照画像メモリ216に格納されている参照画像のマクロブロックデータとの間の動きベクトルが、動きベクトル検出回路217で求められる。動きベクトル検出回路217で求められた動きベクトルのデータは動き補償予測回路218に送信される。動き補償予測回路218では、参照画像メモリ216から取得した参照フレームのマクロブロックデータが、動きベクトル検出回路217で求められた動きベクトル分ずらされることにより予測ブロックデータが作成される。さらに動き補償予測回路218では、複数の予測モードの中から最適な予測モードで作成された予測ブロックデータが選択される。そして、減算器204で符号化対象となる画像のマクロブロックデータと動き補償予測回路218で選択された予測ブロックデータとの差分データが算出され、直交変換回路205に送信される。この差分データはIピクチャと同様にDCT変換処理および量子化処理が行われ、動きベクトルデータおよび予測ブロックデータとともに出力画像ビットストリームとして画像ビットストリームバッファ210から記録媒体もしくは伝送路211に出力される。
Next, a case where the digital image data output from the
符号量の制御に関しては、符号量制御回路219においてマルチプレクサ209から出力された画像ビットストリームの符号量と目標とする符号量とが比較され、目標とする符号量に近づけるための量子化スケール(量子化の細かさ)の算出が行われる。そして、この算出された量子化スケールで量子化が行われるように量子化回路206が制御される。
With regard to the control of the code amount, the code
この装置では前述した3種類のピクチャタイプを用いた情報量の異なる符号化処理が行われるため、それぞれのピクチャタイプの目標符号量はピクチャタイプの性質と出現頻度により算出される。 In this apparatus, the encoding processing with different information amounts using the three types of picture types described above is performed, so that the target code amount of each picture type is calculated based on the nature of the picture type and the appearance frequency.
一般的に各画像フレームの目標符号量は、一定時間における目標符号量に対し各ピクチャタイプを用いた符号化画像が持つ情報量から算出し、割り当てていく。具体的には、以前に各ピクチャタイプを用いて符号化したときに要した符号量をBits、各ピクチャタイプの量子化スケールの平均値をAvgQとした場合、各ピクチャタイプの持つ符号化の複雑度(以下、「符号化難易度」と称する)の近似値Cは以下の式(1)で算出される。
この値Cは、複雑な場面や動きの大きな場面程、値が大きい。ここで、Aはピクチャタイプの重要度や符号化時の劣化レベルを想定して各ピクチャタイプに対して設定される重み付けである。一般的にはこの重み付けは、A(I)>A(P)>A(B)となる。 This value C is larger for complex scenes and scenes with large movements. Here, A is a weight set for each picture type assuming the importance of the picture type and the degradation level at the time of encoding. Generally, this weighting is A (I)> A (P)> A (B).
一定時間内に含まれるF個のフレームに与えられる目標符号量TotalBitsに対して、各ピクチャタイプが用いられるFnum個のフレームに与えられる目標符号量Budgetは、下記式(2)〜(4)で算出される。
符号量制御回路219では、仮想的に復号装置がシュミレートされたVBV(Video Buffer Verifier)バッファと呼ばれるストリームバッファに対して復号バッファにオーバーフローまたはアンダーフローが起きないように、上記のように設定される目標符号量Budgetに対する制限が行われる。
The code
また、量子化スケールと出力符号量とは一般的にほぼ反比例の関係にある。これを利用して、フレームタイプ毎にピクチャ内の各マクロブロックデータに対する量子化スケール値が目標符号量Budgetから算出され、量子化処理が行われる。そして、ブロック毎に目標符号量に近づくように量子化スケールが変動されることによって、目標符号量内に出力画像ビットストリームが抑えられる。 The quantization scale and the output code amount are generally in an inversely proportional relationship. Using this, a quantization scale value for each macroblock data in the picture is calculated from the target code amount Budget for each frame type, and a quantization process is performed. Then, by changing the quantization scale so as to approach the target code amount for each block, the output image bit stream is suppressed within the target code amount.
上記のように、画像信号の空間方向相関や時間方向相関を利用して情報量を圧縮する方式を用いた場合、符号化難易度が高い場面で高い符号化効率を得ることができない。そのため、一定の目標符号量内に情報量を収めるには粗い量子化スケールにて量子化処理を行う必要があり、画像信号が復元されたときに画像の劣化が大きくなる。 As described above, when a method of compressing the information amount using the spatial direction correlation or the time direction correlation of the image signal is used, high encoding efficiency cannot be obtained in a scene where the encoding difficulty is high. For this reason, in order to keep the information amount within a certain target code amount, it is necessary to perform a quantization process on a coarse quantization scale, and image deterioration is increased when the image signal is restored.
このような画像の劣化を抑えるため、MPEG2規格においては、符号化された情報量が既知である画像を記録媒体に格納するときに、記録媒体の最大転送レートの符号化レート以内で上記符号化難易度に応じて符号化レートを変動させる、可変転送レート(VBR)符号化が可能になっている。 In order to suppress such deterioration of the image, in the MPEG2 standard, when an image with a known encoded information amount is stored in the recording medium, the above encoding is performed within the encoding rate of the maximum transfer rate of the recording medium. Variable transfer rate (VBR) encoding, in which the encoding rate is changed according to the difficulty level, is possible.
また、符号化された情報量が既知ではなく、将来の場面(シーン)が予測できないリアルタイムの入力信号を記録媒体に格納するときのVBR符号化処理の制御方法に関しては、例えば特許文献1に挙げられている方法がある。この方法では、設定された平均符号化レートに対し、復元された画像信号の劣化が目立たないレベルの最低量子化スケールが設定され、符号化情報の出力が平均符号化レートに満たない部分は以降の符号化処理に割り当てられる。この処理により、符号化難易度の高いシーンに対する耐性が高められ、画像の劣化が抑えられる。
For example,
また特許文献2には、テレビ番組を記録媒体に録画する場合に番組別に符号化レートを変動させる方法が記載されている。この方法は、番組内容に依存して大まかな符号化難易度の傾向があることを利用するものである。処理が行われる際は、電子番組ガイド(以下「EPG」と称する)から番組ジャンル情報が取得され、この情報を基準に好ましい符号化レートがテーブルから参照され、その符号化レートで符号化処理が行われる。
これらの方法により、設定された符号化レートに対して無駄な符号化情報を省いたり、予め認識できるコンテンツの情報を使用したりすることが可能になり、大局的な制御を行うことができる。
しかし、上記の特許文献1または特許文献2に記載の方法では、瞬間的に符号化難易度が高くなるシーンに対する符号化処理については改善されていなかった。そのため、シーンに応じて時間方向相関を高める方法や、画像の特性に応じた情報の削減に関する方法は考慮されていないという欠点があった。
However, in the method described in
具体的には、特許文献1に示されるような高能率符号化記録装置は将来入力されるデータを事前に知ることができない構成となっているため、瞬間的に符号化難易度の高いシーンが入力された場合に圧縮率を高めて画質の劣化を低減させることが困難であるという問題があった。
Specifically, since a high-efficiency encoding / recording apparatus as shown in
また、特許文献2に示されるような高能率符号化記録装置は、番組のジャンル情報に依存して番組ごとに1つの設定を行うため、1つのジャンルの番組を1つの記録媒体全体に記録する際には有効ではないという問題があった。さらに、ジャンルによって区分けされた番組の中にもシーン毎に特徴が存在するため、1つの番組中が同一の制御では充分な効果が発揮されず、例えば瞬間的に符号化難易度が高いシーンが入力されたときにシーンに合わせた有効な制御ができないという問題もあった。これら以外にも、EPG情報が存在しない入力ソースはジャンル情報が取得できないため、有効な処理ができないという問題もあった。
Moreover, since a high-efficiency encoding / recording apparatus as shown in
本発明は上記事情に鑑みてなされたものであり、シーンごとに符号化の制御を行うことにより、少ない符号量で最適な符号化処理を行う高能率符号化記録装置を提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a high-efficiency encoding and recording apparatus that performs optimal encoding processing with a small amount of code by controlling encoding for each scene. To do.
上記目的を達成するための請求項1に記載の高能率符号化記録装置は、入力された映像のデジタル画像データに対して符号化制御パラメータにより制御された符号化処理を施すことにより、デジタル画像データを圧縮して記録媒体に格納するものであり、デジタル画像データに付加された電子番組ガイド情報を基に、またはデジタル画像データから算出されるジャンル予測情報を基に、符号化処理の対象となる映像のジャンルに関する情報を取得するジャンル情報取得手段と、デジタル画像データから、映像情報の空間的な相関に関する情報と時間的な相関に関する情報と輝度レベルに関する情報と色差レベルに関する情報とのうち少なくとも1つを画像特性情報として算出する画像特性算出手段と、算出された画像特性情報を基に、映像のシーンが変化するシーン変化点に関するシーン区切り情報をデジタル画像データから検出するシーン変化点検出手段と、検出されたシーン区切り情報によりデジタル画像データをシーン別に区切り、区切られたシーンごとの画像特性情報に基づくシーン特性情報を算出するシーン分別手段と、映像のデジタル画像データのうち既に符号化されたデジタル画像データの符号量に関する符号化結果情報を取得する符号化結果情報取得手段と、前記ジャンルに関する情報とシーン特性情報とから算出されたシーン識別信号と符号化結果情報とを基に符号化制御パラメータの補正値を算出し、算出された補正値によって符号化制御パラメータを補正する符号化制御パラメータ補正手段と、区切られたシーンごとに設定された符号化制御パラメータに従って、デジタル画像データの区切られたシーンごとに符号化処理を行う符号化手段とを備えることを特徴とする。
In order to achieve the above object, a high-efficiency encoding / recording apparatus according to
また、請求項2は請求項1に記載の高能率符号化記録装置であり、画像特性算出手段は、画像特性情報として、デジタル画像データのフレームごとに算出される平均輝度レベル値と、デジタル画像データのフレームごとに算出される平均色差レベル値と、デジタル画像データのフレームごとに算出されるフレーム内における隣接画素間の差分絶対値の総和値と、デジタル画像データの連続する2フレーム間において算出される同一位置に属する画素間の差分絶対値の総和値とのうち少なくとも1つの値を算出することを特徴とする。 According to a second aspect of the present invention, there is provided the high-efficiency encoding / recording apparatus according to the first aspect, wherein the image characteristic calculation means includes, as image characteristic information, an average luminance level value calculated for each frame of the digital image data, and a digital image The average color difference level value calculated for each frame of data, the sum of absolute difference values between adjacent pixels in the frame calculated for each frame of digital image data, and calculated between two consecutive frames of digital image data And calculating at least one value of the sum of absolute differences between pixels belonging to the same position.
また、請求項3は請求項1または2に記載の高能率符号化記録装置であり、シーン変化点検出処理手段は、映像の瞬間的なシーンの変化、または連続的な期間を有して行われるシーンの変化を検出することを特徴とする。 A third aspect of the present invention is the high-efficiency encoding / recording apparatus according to the first or second aspect, wherein the scene change point detection processing means performs an instantaneous scene change of a video or a continuous period. It is characterized by detecting a change in the scene to be displayed.
また、請求項4は請求項1〜3の何れか1項に記載の高能率符号化記録装置であり、シーン分別手段は、シーン特性情報として、デジタル画像データのフレームごとに算出される平均輝度レベル値と、デジタル画像データのフレームごとに算出される平均色差レベル値と、デジタル画像データのフレームごとに算出されるフレーム内隣接画素間の差分絶対値の総和値と、デジタル画像データの連続する2フレーム間において算出される同一位置に属する画素間の差分絶対値の総和値とのうち少なくとも1つの値を算出し、符号化結果情報取得手段は、符号化結果情報として、動き補償予測が行われたフレームごとに算出される動きベクトル距離の総和値と、デジタル画像データのフレームごとに算出される符号化されたデジタル画像データの情報量とのうち少なくとも1つの値を算出することを特徴とする。 A fourth aspect of the present invention is the high-efficiency encoding / recording apparatus according to any one of the first to third aspects, wherein the scene classification means calculates the average luminance calculated for each frame of the digital image data as the scene characteristic information. The level value, the average color difference level value calculated for each frame of the digital image data, the sum of absolute differences between adjacent pixels calculated for each frame of the digital image data, and the continuous digital image data At least one value of the sum of absolute differences between pixels belonging to the same position calculated between two frames is calculated, and the encoding result information acquisition unit performs motion compensation prediction as the encoding result information. The sum of motion vector distances calculated for each frame and the encoded digital image data calculated for each frame of digital image data. And calculating at least one value of the distribution amount.
また、請求項5は請求項1〜4の何れか1項に記載の高能率符号化記録装置であり、符号化制御パラメータ補正手段は、符号化処理を制御するパラメータである動きベクトルの検出範囲を示す値と、動きベクトルを検出する際に参照フレームとなるフレームを挿入する間隔を指定する値と、目標とする符号量をフレームごとに制御する値と、瞬間的な符号化レートの最大値を制御する値と、輝度信号を量子化するための量子化マトリクス値と、
色差信号を量子化するための量子化マトリクス値とのうち少なくとも1つの値の補正値を出力することを特徴とする。
A fifth aspect of the present invention is the high-efficiency encoding / recording apparatus according to any one of the first to fourth aspects, wherein the encoding control parameter correction means detects a motion vector that is a parameter for controlling the encoding process. , A value for specifying an interval for inserting a frame to be a reference frame when detecting a motion vector, a value for controlling a target code amount for each frame, and a maximum instantaneous encoding rate A value for controlling, a quantization matrix value for quantizing the luminance signal,
A correction value of at least one of the quantization matrix values for quantizing the color difference signal is output.
また、請求項6は請求項1〜5の何れか1項に記載の高能率符号化記録装置であり、ジャンル情報取得手段において取得されるジャンルに関する情報は、デジタル画像データに付加された電子番組ガイド情報から取得した情報と、ジャンルを特定するために予め設定されたキーワード情報で電子番組ガイド情報から取得したテキストデータを検索処理することにより取得した情報とを含むことを特徴とする。
Further, claim 6 is the high-efficiency encoding and recording apparatus according to any one of
また、請求項7は請求項1〜5の何れか1項に記載の高能率符号化記録装置であり、シーン識別信号の出現頻度を累積加算して記録する頻度記録手段を有し、ジャンル情報取得手段は、電子番組ガイド情報から映像のジャンルに関する情報を取得できなかったときは、シーン分別手段から取得したシーン特性情報を基に全てのジャンルに対するシーン識別信号をそれぞれ算出し、この算出されたシーン識別信号の中で累積加算された出現頻度が最も高いシーン識別信号を選択してジャンル予測情報を算出することを特徴とする。 A seventh aspect of the present invention is the high-efficiency encoding / recording apparatus according to any one of the first to fifth aspects, comprising frequency recording means for accumulating and recording the appearance frequencies of scene identification signals, and genre information The acquisition means calculates the scene identification signals for all genres based on the scene characteristic information acquired from the scene classification means when the information about the video genre cannot be acquired from the electronic program guide information. Genre prediction information is calculated by selecting a scene identification signal having the highest appearance frequency cumulatively added from the scene identification signals.
本発明の高能率符号化記録装置によれば、映像のデジタル画像データを記録するときに、瞬間的に入力される符号化難易度の高いシーンや特徴のあるシーンに対して適切な符号化制御を行うことができる。これにより、限られた容量の記録媒体に、符号化品質を保ち効率良くデジタル画像データを記録することができる。 According to the high-efficiency encoding / recording apparatus of the present invention, when recording digital image data of video, appropriate encoding control is performed for scenes with high encoding difficulty and features that are input instantaneously. It can be performed. Thereby, digital image data can be efficiently recorded on a recording medium having a limited capacity while maintaining the encoding quality.
〈高能率符号化記録装置10の構成〉
本発明の第1実施形態における高能率符号化記録装置10の構成について図1を参照して説明する。本実施形態における高能率符号化記録装置10は、EPG情報入力端子101と、番組情報取得回路102と、ジャンル/キーワード検索回路103と、シーン情報データベース(記録媒体)104と、画像特性算出回路105と、シーン検出回路106と、シーン分別回路107と、データベース管理回路108と、符号化制御パラメータ補正回路109と、符号化シンタックス制御回路110と、ジャンル予測回路111と、対象画像入力端子201と、入力画像メモリ202と、2次元ブロックデータ変換回路203と、減算器204と、直交変換回路205と、量子化回路206と、符号化回路207と、符号化テーブル208と、マルチプレクサ209と、画像ビットストリームバッファ210と、記録媒体もしくは伝送路211と、逆量子化回路212と、逆直交変換回路213と、加算器214と、デブロック回路215と、参照画像メモリ216と、動きベクトル検出回路217と、動き補償予測回路218と、符号量制御回路219とを有する。このうち、対象画像入力端子201以降に記載の構成要件は図12に示す従来の画像符号化記録装置と同様であるため、説明を省略する。
<Configuration of high-efficiency encoding /
The configuration of the high-efficiency encoding /
EPG情報入力端子101は、EPG情報を入力して番組情報取得回路102に送信する。EPG情報は、地上アナログ放送の特定チャンネル・特定時刻にTV映像信号のブランキング区間に同期データとともに送信されてくる情報や、地上・BSデジタル放送でパケット化された符号化データであるTS(トランスポートストリーム)と呼ばれるデータの中に特定の識別情報とともに周期的に送られてくるSI(番組配列情報)から取得可能である。
The EPG
番組情報取得回路102は、受信したEPG情報から、処理を行っている番組のジャンル情報および番組内容を示すテキストデータを取得し、ジャンル/キーワード検索回路103に送信する。
The program
ジャンル/キーワード検索回路103は、ジャンル情報および番組内容を示すテキストデータを受信するとともに後述するシーン情報データベース104に格納されているキーワード情報を読み込み、番組内容を示すテキストデータの中にキーワード情報の中のキーワードがあるかどうか検索する。検索の結果抽出されたキーワード情報のジャンル情報IDおよび番組情報取得回路102から受信したジャンル情報は、シーン分別回路107に送信される。ここで、EPG情報が取得できないなどの理由でジャンル情報およびキーワード情報の抽出によるデータがともに取得できなかった場合には、情報取得不可を示す情報をシーン分別回路107およびジャンル予測回路111に送信する。
The genre /
シーン情報データベース104は、メインジャンル情報と、このメインジャンル情報を細分化するための番組詳細を示すキーワードとしてのサブジャンル情報と、このサブジャンル情報に対応するジャンル情報IDとで構成されたキーワード情報を格納している。またこのジャンル情報ID毎に、符号化制御を行うために予め設定された符号化制御パラメータを設定するためのデータであるシーン識別信号を格納している。またこのジャンルID毎に、出現頻度を累積加算したデータを格納している。
The
画像特性算出回路105は、入力画像メモリ202から符号化対象であるデジタル画像データを取得し、画像情報の空間的または時間的な相関や輝度および色差レベルに関する画像特性情報をフレーム毎に算出し、シーン検出回路106に送信する。
The image
本実施形態においてはこの画像特性情報として、デジタル画像データのフレームごとに算出される平均輝度レベル値と、デジタル画像データのフレームごとに算出される平均色差レベル値と、デジタル画像データのフレームごとに算出されるフレーム内における隣接画素間の差分絶対値の総和値と、デジタル画像データの連続する2フレーム間において算出される同一位置に属する画素間の差分絶対値の総和値とを算出する。 In this embodiment, as this image characteristic information, the average luminance level value calculated for each frame of digital image data, the average color difference level value calculated for each frame of digital image data, and the frame of digital image data The sum of absolute differences between adjacent pixels in the calculated frame and the sum of absolute differences between pixels belonging to the same position calculated between two consecutive frames of digital image data are calculated.
シーン検出回路106は、受信した画像特性情報を用いてシーンの変化点を検出する処理を行う。行った結果、シーン変化点が検出されたフレームであるかどうかを示すシーン区切り情報を作成し、シーン分別回路107に送信する。また、このとき画像特性情報もシーン分別回路107に送信する。
The
シーン分別回路107は、シーン検出回路106から受信したシーン区切り情報によりシーンの区切りを認識する。また、シーン検出回路106から受信した画像情報特性の1シーン区間の平均値(以下、「シーン特性情報」と称する)を算出し、ジャンル/キーワード検索回路103から受信したジャンル情報IDと合わせてデータベース管理回路108へ送信する。
The
データベース管理回路108は、シーン特性情報と符号量制御回路219から取得した符号化難易度および動きベクトル距離に関する符号化結果情報とからシーン識別信号を作成する。そして、このシーン識別信号およびシーン分別回路107から受信したジャンル情報IDを基にシーン情報データベース104をアクセスして符号化制御パラメータ補正データを取得し、符号化制御パラメータ補正回路109に送信する。
The
符号化制御パラメータ補正回路109は、現在制御している符号化パラメータと受信した符号化制御パラメータ補正データを比較し、異なると判断した場合には必要な処理モジュールに対して補正を行うように符号化シンタックス制御回路110に符号化制御パラメータ補正データを送信する。
The encoding control
符号化シンタックス制御回路110は、受信した符号化制御パラメータ補正データに応じて、制御する処理モジュールに符号化制御パラメータ補正データを送信する。
The encoding
ジャンル予測回路111は、シーン検出回路106からシーン区切り情報を取得し、ジャンル情報未取得フラグが存在する場合は予測ジャンル情報を作成してシーン分別回路107に送信する。
The
〈高能率符号化記録装置10の動作〉
本発明の第1実施形態における高能率符号化記録装置10の動作について説明する。
<Operation of High Efficiency Encoding /
The operation of the high-efficiency encoding /
本実施形態における高能率符号化記録装置10の動作のうち、符号化対象となる映像のデジタル画像データの流れについては従来の画像符号化記録装置20の場合と同様であるため説明を省略する。
Among the operations of the high-efficiency encoding /
まず、符号化対象となるデジタル画像データの入力とは別に、EPG情報がEPG情報入力端子101から入力される。取得されるEPG情報の例として、デジタル放送で伝送されるEPG情報の大まかな内容を図2に示す。
First, EPG information is input from the EPG
次に、図2に示すEPG情報から番組情報取得回路102でジャンルを特定するための情報として符号化処理中の番組の「番組名」、「番組記述」、「ジャンル」、「番組詳細情報」が取得され、ジャンル/キーワード検索回路103に送信される。
Next, “program name”, “program description”, “genre”, and “program detailed information” of the program being encoded as information for specifying the genre by the program
ジャンル/キーワード検索回路103では、番組情報取得回路102から受信された情報のうち「ジャンル」からジャンル情報が作成される。また、ジャンル/キーワード検索回路103ではシーン情報データベース104からキーワード情報が取得され、番組情報取得回路102から受信された「番組名」「番組記述」「番組詳細情報」の情報内容にキーワード情報の中のキーワードが含まれているかどうか検索される。
Genre /
シーン情報データベース104に格納されているキーワード情報のデータ構成例を図3に示す。このキーワード情報は、メインジャンル情報およびこのメインジャンル情報を細分化するための番組詳細を示すキーワードとしてのサブジャンル情報と、このサブジャンル情報に対応するジャンル情報IDとで構成されている。
A data configuration example of the keyword information stored in the
ジャンル/キーワード検索回路103で作成されたジャンル情報と、検索された結果抽出されたキーワード情報のジャンル情報IDとは、シーン分別回路107に送信される。このとき、EPG情報が取得できないなどの理由により、ジャンル/キーワード検索回路103でジャンル情報とキーワード情報の抽出によるジャンル情報IDがともに取得不可能な場合は、ジャンル/キーワード検索回路103からシーン分別回路107にジャンル情報取得不可を示す情報が送信される。
The genre information created by the genre /
一方、入力画像メモリに入力された符号化対象となるデジタル画像データが画像特性算出回路105に送信され、画像情報の空間的または時間的な相関に関する情報や輝度および色差レベルに関する情報である画像特性情報が算出される。
On the other hand, digital image data to be encoded input to the input image memory is transmitted to the image
画像特性算出回路105における画像特性情報の算出について説明する。算出される画像特性情報とは、具体的には、フレーム平均輝度情報LDC、フレーム平均色差情報CBDCおよびCRDC、フレーム内隣接画素間の差分絶対値のフレーム総和値FAct、連続するフレーム間における画面内同一位置に属する画素間差分絶対値の総和値FDfiff、である。
Calculation of image characteristic information in the image
フレーム平均輝度情報LDC(以下、「フレーム輝度DC」と称する)は、輝度信号のレベルをluma( )とすると、下記式(5)で算出される。
また、フレーム平均色差情報CBDCおよびCRDCは、色差信号のレベルをcb( )およびcr( )とすると、下記式(6)および(7)で算出される。
また、フレーム内隣接画素間の差分絶対値(以下、「フレームアクティビティ」と称する)のフレーム総和値FActは、まずフレームアクティビティとしてDCT処理を行う8×8画素単位で図4に示すような矢印の画素間の面内相関Activityが算出される。そして、この面内相関Activityのフレーム総和が算出されることにより、フレームアクティビティのフレーム総和値が求められる。 Further, the frame sum value FAct of the difference value between adjacent pixels in the frame (hereinafter referred to as “frame activity”) is an arrow as shown in FIG. 4 in units of 8 × 8 pixels for performing DCT processing as frame activity. An in-plane correlation activity between pixels is calculated. Then, by calculating the frame sum of the in-plane correlation Activity, the frame sum value of the frame activity is obtained.
この面内相関Activityは下記式(8)で算出される。
そして、この面内相関Activityのフレーム総和値としてのフレームアクティビティFActは、下記式(9)で算出される。
また、連続するフレーム間における画面内同一位置に属する画素間差分絶対値の総和値FDfiff(以下、「フレームディファレンス」と称する)は、符号化対象となる入力画像フレームの1フレーム前の輝度成分をprev_luma( )、1フレーム前の色差成分をprev_cb( )およびprev_cr( )とすると、下記式(10)で算出される。
画像特性算出回路105で上記のように算出された画像特性情報は、シーン検出回路106に送信される。シーン検出回路106では、受信したこれらの画像特性情報を用いてシーンが切り替わるシーン変化点を検出する処理が行われる。このシーン変化点として、瞬間的に画面が切り替わるシーンチェンジの検出と、連続的な期間を有して画面がオーバーラップして変化する(画面が次第に明るくなるフェードインおよび画面が次第に消えていくフェードアウトを含む)状態の検出とが行われる。
The image characteristic information calculated as described above by the image
これらの検出処理を図5を参照して説明する。この処理では、入力された画像特性情報の中の、フレームアクティビティのフレーム総和値FAct、および、フレーム輝度DC成分を用いて処理が行われる。 These detection processes will be described with reference to FIG. In this processing, processing is performed using the frame total value FAct of the frame activity and the frame luminance DC component in the input image characteristic information.
格納されている最新のフレームアクティビティのフレーム総和値をFAct(N)、1フレーム前のフレームアクティビティのフレーム総和値をFAct(N-1)、Nフレーム前のフレームアクティビティのフレーム総和値をFAct(0)とする。同様にフレーム輝度DC成分も、最新のフレーム輝度DC成分をLDC(N)、1フレーム前のフレーム輝度DC成分をLDC(N-1)、Nフレーム前のフレーム輝度DC成分をLDC(0)とする。また、I、J、K、およびLは変数である。 The frame total value of the latest frame activity stored is FAct (N), the frame total value of the frame activity one frame before is FAct (N-1), and the frame total value of the frame activity N frames before is FAct (0 ). Similarly, for the frame luminance DC component, the latest frame luminance DC component is LDC (N), the frame luminance DC component one frame before is LDC (N-1), and the frame luminance DC component N frames before is LDC (0). To do. I, J, K, and L are variables.
まず、シーンチェンジを検出するために、Nフレーム間のフレームアクティビティのフレーム総和値およびフレーム輝度DC成分のフレーム間差分絶対値が算出される。このとき、フレームI=0〜N-2に対するフレームアクティビティおよびフレーム輝度DC成分のフレーム間差分絶対値は以前のフレームでの算出結果から残っているため、まずフレームI=0〜N-2であるかどうかが判定される(S1)。フレームI=0〜N-2であれば(S1の「Yes」)、下記式(11)および式(12)の処理が行われる(S2)。
ステップS1において、フレームI=N-1になると(S1の「No」)フレームI=N-1とフレームI=Nとの間のフレームアクティビティの差分が下記式(13)で算出され、同様にフレーム輝度DC成分のフレーム間差分が下記式(14)で算出される(S3)。
次に、フレームJ(1≦J≦N-2)がシーンの切り替わりポイントであるかの判断を行うために、I=J-K(0≦K≦J)からI=N-2までのフレームアクティビティの総和値と、フレームJのフレームアクティビティ値が下記式(15)で比較される(S4)。比較された結果、式(15)が満たされる場合(S4の「Yes」)は、シーン変換点が検出されたと判断され、フレームJがシーン変化点ポイントとして出力される(S5)。 Next, in order to determine whether frame J (1 ≦ J ≦ N-2) is a scene switching point, the frame activity from I = JK (0 ≦ K ≦ J) to I = N-2 The total value and the frame activity value of frame J are compared by the following equation (15) (S4). As a result of the comparison, if Expression (15) is satisfied (“Yes” in S4), it is determined that a scene conversion point has been detected, and frame J is output as a scene change point (S5).
式(15)が満たされなかった場合(S4の「No」)は、I=J-K(0≦K≦J)からI=N-2までのフレーム輝度DC成分の差分値の総和値と、フレームJのフレーム輝度DC成分の差分値が下記式(16)で比較される(S6)。比較された結果、式(16)が満たされる場合(S6の「Yes」)はシーン変換点が検出されたと判断され、フレームJがシーン変化点ポイントとして出力される(S6)。
ここで、通常閾値は0.5より十分大きく1に近い値となる。式(16)の条件も満たさない場合(S6の「No」)は、シーン変化点は未検出である旨の情報が出力される(S7)。 Here, the normal threshold is a value sufficiently larger than 0.5 and close to 1. When the condition of Expression (16) is not satisfied (“No” in S6), information indicating that the scene change point has not been detected is output (S7).
次に、オーバーラップして変化するオーバーラップシーンを検出するため、Nフレーム間のフレームアクティビティの変化が測定され、一様に値が増加または減少しているかどうかが検索される。具体的な処理は以下のとおりである。 Next, in order to detect overlapping and changing overlap scenes, the change in frame activity between N frames is measured and a search is made as to whether the values are uniformly increasing or decreasing. The specific processing is as follows.
シーン変化点の検出が終わると、フレームJ=0〜N-1(S8)のL=J+1〜N-1(S9)においてオーバーラップシーンの検出が行われる。まず、FAct(J)とFAct(N)とが比較され(S10)、下記式(17)が満たされるかどうかが判定される。
判定の結果、式(17)が満たされる場合は(S10の「Yes」)、さらに下記式(18)が満たされるかどうかが判定される(S11)。
判定がN-1まで繰り返された結果(S12、S13)、式(18)が満たされる場合(S12の「Yes」)は、フェードインのオーバーラップ状態である可能性があると判断され、仮フェードイン状態であると判定される(S14)。 If the determination is repeated until N-1 (S12, S13) and equation (18) is satisfied (“Yes” in S12), it is determined that there is a possibility of an overlapped fade-in state. It is determined that it is in a fade-in state (S14).
また、式(17)が満たされなかった場合(S10の「No」)は、下記式(19)が満たされるかどうかが判定される(S15)。
判定がN-1まで繰り返された結果(S16、S17)、式(19)が満たされる場合(S16の「Yes」)は、フェードアウトのオーバーラップ状態である可能性があると判断され、仮フェードアウト状態であると判定される(S18)。 If the determination is repeated up to N-1 (S16, S17) and equation (19) is satisfied (“Yes” in S16), it is determined that there is a possibility of an overlapped fadeout, and a temporary fadeout is performed. The state is determined (S18).
上記の式(18)が満たされなかった場合(S11の「No」)、または式(19)が満たされなかった場合(S15「No」)は、フレームJ=1〜M(M<N-1)までステップS9からステップS18の処理が繰り返される(S19、S20の「No」)。フレームJ=N-1まで繰り返された結果、仮フェードイン状態または仮フェードアウト状態であると判定されなかった場合(S20の「Yes」)は、オーバーラップシーンは検出されなかったと判断される(S21)。 When the above equation (18) is not satisfied (“No” in S11) or when equation (19) is not satisfied (S15 “No”), frames J = 1 to M (M <N− The processing from step S9 to step S18 is repeated until 1) (“No” in S19 and S20). As a result of the repetition up to frame J = N−1, when it is not determined that the temporary fade-in state or the temporary fade-out state is present (“Yes” in S20), it is determined that no overlap scene has been detected (S21). ).
ステップS14で仮フェードイン状態であると判定された場合、またはステップS18で借りフェードアウト状態であると判定された場合、同区間の輝度DC成分の推移が測定される。輝度DC成分に関しては、以下の処理により誤差γを考慮して判定が行われる。ここで誤差γとしては、N-Jフレーム間の輝度DC成分の差分値LDC(N)-LDC(J)の10分の1程度が望ましい。 If it is determined in step S14 that it is in the temporary fade-in state, or if it is determined in step S18 that it is in the borrowed fade-out state, the transition of the luminance DC component in the same section is measured. The luminance DC component is determined in consideration of the error γ by the following process. Here, the error γ is preferably about 1/10 of the difference value LDC (N) −LDC (J) of the luminance DC component between the N−J frames.
処理は、L=J+1〜N-1まで繰り返される(S22)。まず、LDC(J)とLDC(N)とが比較され(S23)、下記式(20)が満たされるかどうかが判定される。
判定の結果、式(20)が満たされる場合は(S23の「Yes」)、さらに下記式(21)が満たされるかどうかが判定される(S24)。
判定がN-1まで繰り返された結果(S25、S26)、式(21)が満たされ(S25の「Yes」)、且つステップS14で仮フェードイン状態であると判定されている場合はフェードインのオーバーラップ状態であると判断され、フェードインが検出されたと判定される(S27)。また、式(21)が満たされ(S25の「Yes」)、且つステップS18で仮フェードアウト状態であると判定されている場合はフェードアウトのオーバーラップ状態であると判断され、フェードアウトが検出されたと判定される(S28)。 If the determination is repeated until N-1 (S25, S26), equation (21) is satisfied (“Yes” in S25), and it is determined in step S14 that the temporary fade-in state is present, fade-in Is determined to be in the overlap state, and it is determined that fade-in has been detected (S27). If it is determined that the formula (21) is satisfied (“Yes” in S25) and the temporary fade-out state is determined in step S18, it is determined that the fade-out overlap state is detected, and it is determined that the fade-out is detected. (S28).
また、式(20)が満たされなかった場合(S23の「No」)は、下記式(22)が満たされるかどうかが判定される(S29)
この判定処理は、フレームL=J+1〜N-1の間繰り返される(S30、S31)。判定がN-1まで繰り返された結果、式(22)が満たされ(S30の「Yes」)、且つステップS14で仮フェードイン状態であると判定されている場合はフェードインのオーバーラップ状態であると判断され、フェードインが検出されたと判定される(S27)。また、式(22)が満たされ(S30の「Yes」)、且つステップS18で仮フェードアウト状態であると判定されている場合はフェードアウトのオーバーラップ状態であると判断され、フェードアウトが検出されたと判定される(S28)。 This determination process is repeated between frames L = J + 1 to N−1 (S30, S31). As a result of the determination being repeated up to N−1, equation (22) is satisfied (“Yes” in S30), and if it is determined in step S14 that the temporary fade-in state is present, the fade-in overlap state is established. It is determined that a fade-in has been detected (S27). If it is determined that the formula (22) is satisfied (“Yes” in S30) and the temporary fade-out state is determined in step S18, it is determined that the fade-out overlap state is detected, and it is determined that the fade-out is detected. (S28).
上記の式(21)が満たされなかった場合(S24の「No」)、または式(22)が満たされなかった場合(S29「No」)は、オーバーラップシーンは検出されなかったと判断される(S21)。 When the above equation (21) is not satisfied (“No” in S24) or when equation (22) is not satisfied (S29 “No”), it is determined that no overlap scene has been detected. (S21).
シーン検出回路106では、上記の処理結果から、フレームJがシーン変換点が検出されたフレームであるかどうかを示すフラグ、オーバーラップシーンが検出されたフレームであるかどうかを示すフラグ、および、オーバーラップシーンが検出されたフレームにおいてアクティビティが上昇方向(フェードイン傾向)であるかまたは下降方向(フェードアウト傾向)であるかを示すフラグを含むシーン区切り情報が作成され、シーン分別回路107に送信される。また、同様にシーン検出回路106からシーン分別回路107に、画像特性情報も送信される。
In the
シーン分別回路107では、シーン検出回路106から受信したシーン区切り情報によってシーンの区切りが認識される。このとき、オーバーラップシーンが検出されたフレームであることを示すフラグが含まれているときは、フラグが消えたタイミングがシーンの区切りであり、その後は新しいシーンが開始されると認識される。
The
またシーン分別回路107では、シーン検出回路106からフレーム毎の画像特性情報が受信され、ジャンル/キーワード検索回路103からジャンル情報IDが受信される。この画像特性情報から、1つのシーンが続いている区間の平均値(以下、「シーン特性情報」と称する)が算出され、ジャンル/キーワード検索回路103から受信されたジャンル情報IDと合わせられ、データベース管理回路108へ送信される。
The
このシーン特性情報は、シーン開始後のフレーム数をPとすると、下記式(23)〜(27)で算出される。
上記により算出されたシーン特性情報は、シーンが続いていると判断されている間は新しく入力されるフレームの画像特性情報によって補正されていき、シーンの区切りでリセットされる。 The scene characteristic information calculated as described above is corrected by the image characteristic information of a newly input frame while it is determined that the scene continues, and is reset at a scene break.
一方、符号量制御回路219では、出力画像ビットストリームの符号量Bitusedと量子化スケールの平均値AvgQとからフレーム毎に算出される過去Mフレームの符号化難易度の平均値Complexが下記式(28)で算出される。
また、同じく符号量制御回路219では、予測フレームに対する動きベクトル距離のフレーム総和SumMVの過去Mフレームの平均値AvgMVが下記式(29)で算出される。
これら符号量制御回路219において、式(28)または(29)で算出されたComplexおよびAvgMVは、符号化結果情報としてデータベース管理回路108に送信される。
In these code
データベース管理回路108では、シーン分別回路107から受信したシーン特性情報と符号化制御回路219から受信した符号化結果情報とを基に、符号化制御を行うための符号化制御パラメータ補正データがシーン情報データベース104から取得される。
In the
データベース管理回路108において、シーン情報データベース104からパラメータ補正値が取得されるときの動作について、図6を参照して説明する。図6はシーン情報データベース104からパラメータ補正値が取得されるときの動作を示すアルゴリズムのフローチャートであり、Rは変数である。
The operation when the parameter correction value is acquired from the
まず、データベース管理回路108から、ジャンル情報IDを基にシーン特性情報および符号化結果情報の区分けを行うための閾値が、シーン情報データベース104から読み出される。この閾値は、N種類に区分けを行う場合、(N-1)種類がジャンル情報ID毎にシーン情報データベース104に格納されている。またこの閾値は、シーン特性情報および符号化結果情報のAvgFAct、AvgLDC、AvgCBDC、AvgCRDC、AvgFDiff、Complex、AvgMVの7種類に対して作成されており、各々の情報が該当する閾値と比較され区分けが行われる。本実施形態においては、AvgCBDC、AvgCRDC、AvgMVに関しては2種類、AvgFAct、AvgLDC、AvgFDiff、Complexに関しては4種類に区分けが行われる。
First, the threshold value for dividing the scene characteristic information and the encoding result information based on the genre information ID is read from the
これらの値うち、最初にAvgFActに関する区分けが行われる。その動作は、まずデータベース管理回路108からシーン情報データベース104にアクセスされ、ジャンル情報IDを基にAvgFActに関する3種類の閾値ε(R)(R=0〜2)が読み込まれる(S41)。そして、R=0におけるAvgFActとε(R)の比較が行われる(S42、S43)。その結果、AvgFAct<ε(R)の場合には(S43の「Yes」)、「R」が出力される(S44)。この処理がR=2となるまで繰り返し処理が行われ(S45、S46)、最終的にAvgFAct=ε(2)の場合には「3」が出力される(S47)。
Of these values, AvgFAct is first classified. In the operation, first, the
このAvgFActに関する区分け処理と同様に、AvgLDC、AvgCBDC、AvgCRDC、AvgFDiff、Complex、AvgMVに関しても区分け処理が行われる(S48〜S53)。その結果、出力された値が束ねられ、計11ビットの信号(以下、「シーン識別信号」と称する)が作成される(S54)。 Similar to this AvgFAct segmentation process, segmentation processes are also performed for AvgLDC, AvgCBDC, AvgCRDC, AvgFDiff, Complex, and AvgMV (S48 to S53). As a result, the output values are bundled, and a total 11-bit signal (hereinafter referred to as “scene identification signal”) is created (S54).
このシーン識別信号とジャンル情報IDとによって、符号化処理を制御するパラメータとしてシーン情報データベース104に格納されているテーブルのデータ(以下、「符号化制御パラメータ補正データ」と称する)がデータベース管理回路108で取得される(S55)。この符号化制御パラメータ補正データの構成例を図7に示す。データベース管理回路108からシーン情報データベース104のこのテーブルがアクセスされることにより、動きベクトルの検出範囲を示すMVMax、参照フレームを挿入する間隔を指定する値を示すSyntaxM、目標符号長のフレームタイプ別の重み付け乗数を示すA(T)、VBR符号化時の最大割当レートを示す値であるMaxRate、VBVバッファをどの程度充足度に向かって制御するかを示すパラメータであるTargetVBV、輝度信号用量子化マトリクス値であるQmatL、色差信号用量子化マトリクス値であるQmatCの符号化パラメータが取得される。
Based on the scene identification signal and the genre information ID, data in a table (hereinafter referred to as “encoding control parameter correction data”) stored in the
上記の符号化パラメータの取得処理において、ジャンル情報として「スポーツ/サッカー」が選択されている場合について説明する。 A case where “sports / soccer” is selected as genre information in the encoding parameter acquisition process will be described.
ジャンル情報として「スポーツ/サッカー」が選択されている場合には、検出されたシーン毎にシーン特性情報のAvgLDC、AvgCBDC、AvgCRDCに特徴付けられた芝生の認識が行われ、AvgFActの大小によって画面のズーム度合いが測定される。芝生が映されていると認識されていない状態でAvgFActが大きい場合には、観客席が映されていると認識される。 When “Sports / Soccer” is selected as the genre information, the lawn characterized by the AvgLDC, AvgCBDC, and AvgCRDC scene characteristics information is recognized for each detected scene. The degree of zoom is measured. If the AvgFAct is large when the lawn is not recognized, it is recognized that the spectator seat is shown.
芝生が映されていると認識されている場合には、番組での注目点は試合の選手の動きである。このとき遠景で映されている場合には、動きベクトルの検出範囲MVMaxを水平方向に大きく取るように設定されることにより画面上で小さい選手の移動が正確に捉えられる。また、近景で映されている場合には、瞬間的な早い動きに対応するように動きベクトルの検出範囲MVMaxは水平・垂直に同じように与えられ、MaxRate値が大きく、TargetVBV値が高く設定され、さらに参照フレームを挿入する間隔SyntaxMが短く設定されることにより予測効率が向上される。 When it is recognized that the lawn is reflected, the attention point on the program is the movement of the player in the game. At this time, when the image is displayed in a distant view, the movement of the small player can be accurately captured on the screen by setting the motion vector detection range MVMax to be large in the horizontal direction. Also, in the case of a close-up view, the motion vector detection range MVMax is given in the same way horizontally and vertically to correspond to instantaneous fast movement, the MaxRate value is large, and the TargetVBV value is set high. In addition, the prediction efficiency is improved by setting the interval SyntaxM for inserting the reference frame to be shorter.
一方、観客席が映されていると認識された場合は、動きベクトルの検出範囲MVMaxは小さめに設定されるとともに、MaxRateが小さく設定され瞬間的に大きな符号量が与えられないようにされる。さらに、Iピクチャの割当が増やされ、高解像度の観客席において動きのスムーズさよりもブロックノイズ等の符号化ノイズが出現しにくいように制御される。 On the other hand, when it is recognized that the audience seat is shown, the motion vector detection range MVMax is set to be small, and MaxRate is set to be small so that a large code amount is not given instantaneously. Furthermore, the allocation of I pictures is increased, and control is performed so that encoding noise such as block noise is less likely to appear than smoothness of movement in a high-resolution auditorium.
シーン特性情報において、上記と同じように芝生が映されていると認識された場合でも、例えばキーワード情報として「音楽/ライブ」が選択されておりAvgFActが高い場合には、上記の観客席の場合と同じ制御が行われる。このとき、観客席の重要度は低いため、高域の輝度信号用量子化マトリクス値QmatL、および色差信号用量子化マトリクス値QmatCで制御され、粗い量子化処理が許可される。 Even if it is recognized that the lawn is reflected in the scene characteristic information as described above, for example, when “music / live” is selected as the keyword information and AvgFAct is high, The same control is performed. At this time, since the degree of importance of the audience seats is low, control is performed with the high-frequency luminance signal quantization matrix value QmatL and the color difference signal quantization matrix value QmatC, and coarse quantization processing is permitted.
このような符号化制御パラメータ補正データが、シーン識別信号の特徴ある推移から予測できる多種のシーンに対して設定されシーン情報データベースに格納されている。 Such encoding control parameter correction data is set for various scenes that can be predicted from characteristic transitions of the scene identification signal and stored in the scene information database.
また、シーンが変化することによりシーン変化点が検出されると(S56)、シーン変化前の最後のジャンル情報IDとシーン識別信号で管理されているデータの出現頻度回数Timesを1増加するためのデータがシーン情報データベース104に送信され、記録される(S57、S58)。
When a scene change point is detected due to a scene change (S56), the appearance frequency count Times of the data managed by the last genre information ID and scene identification signal before the scene change is increased by one. Data is transmitted to the
次に、符号化制御パラメータ補正データは、シーン区切り情報とともにデータベース管理回路108から符号化制御パラメータ補正回路109に送信される。符号化制御パラメータ補正回路109では、現在制御されている符号化パラメータと受信した符号化制御パラメータ補正データとが比較される。比較された結果、異なると判断された場合には必要な処理モジュールに対する制御信号が作成され、符号化シンタックス制御回路110に送信される。具体的には、シーンが変化した際には符号化パラメータの変化による制御信号が符号化シンタックス制御回路110に送信されるが、シーンの変化がなく符号化パラメータが大きく変動しない場合には制御信号は送信されない。本実施形態においては、符号化パラメータのうち1つしか変動していない場合は制御信号は送信されない。
Next, the encoding control parameter correction data is transmitted from the
符号化シンタックス制御回路110において、受信された制御信号が対応する処理モジュールに送信される。具体的には、MVMaxに関しては動きベクトル検出回路217に、SyntaxMは符号化回路207、動きベクトル検出回路217、動き補償予測回路218、および符号量制御回路219に、A(T)、MaxRate、およびTargetVBVに関しては符号量制御回路219に、QmatL、QmatCに関しては量子化回路206、符号化回路207、逆量子化回路212に送信され、制御が行われる。
In the encoding
このように本実施形態によれば、符号化制御パラメータ補正データがシーン識別信号の特徴ある推移から予測できる多種のシーンに対して設定されているためシーンが切り替わったときに好適な符号化制御に切り替えることが可能になり、従来は困難であったシーンごとに適応したダイナミックな制御が実現可能である。 As described above, according to the present embodiment, since the encoding control parameter correction data is set for various scenes that can be predicted from the characteristic transition of the scene identification signal, the encoding control suitable for the scene switching is performed. It is possible to switch, and it is possible to realize dynamic control adapted to each scene, which has been difficult in the past.
以上は番組情報取得回路102においてEPG情報が取得できた場合についての高能率符号化記録装置10の動作について説明したが、次にEPG情報が取得できなかった場合について説明する。
The operation of the high-efficiency encoding /
符号化対象となるデジタル画像データがTV番組ではなくチューナー以外から入力された場合などは、EPG情報から作成されるジャンル情報およびキーワード情報の取得が不可能である。このような場合には、ジャンル情報の予測処理が行われる。 When digital image data to be encoded is input from a TV other than a TV program, it is impossible to obtain genre information and keyword information created from EPG information. In such a case, a genre information prediction process is performed.
ジャンル情報の予測処理について図8を参照して説明する。図8は、ジャンル情報の予測処理の動作のアルゴリズムを示すフローチャートであり、Hは変数である。 The genre information prediction process will be described with reference to FIG. FIG. 8 is a flowchart showing an algorithm of the operation for predicting genre information, where H is a variable.
まず、ジャンル/キーワード検索回路103では、番組情報取得回路102からEPG情報に含まれる情報が取得されなかったときはジャンル予測回路111に対して情報が取得できなかったことを知らせるジャンル情報未取得フラグが送信される。
First, in the genre /
ジャンル予測回路111では、シーン検出回路106にシーン区切り情報が存在する場合はシーン検出回路106からシーン区切り情報が受信される(S61)。このとき、ジャンル予測回路111にジャンル情報未取得フラグが存在している場合は(S62の「Yes」)、ジャンル予測回路111からデータベース管理回路108に対してジャンル取得要求が送信される(S63)。
The
データベース管理回路108では、シーン分別回路107から取得したシーン特性情報により全てのジャンルにおけるシーン識別信号が生成される。そして、生成されたそれぞれのシーン識別信号に属する各ジャンル情報IDの出現頻度が取得される(S64、S65、S66)。次に取得されたジャンル情報IDの出現頻度が比較され(S67)、最も多く検出されたジャンル情報IDとその出現頻度がジャンル予測回路111に送信される(S68、S65の「Yes」)。
In the
ジャンル予測回路111では、受信した出現頻度がΛ以上であった場合(S69)にそのジャンル情報IDが有効であると判断され、このジャンル情報IDが予測ジャンル情報としてシーン分別回路107に送信される(S70)。
The
シーン分別回路107において受信された予測ジャンル情報はデータベース管理回路108に送信され、この予測ジャンル情報によって符号化制御パラメータが補正される。
The predicted genre information received by the
このように本実施形態によれば、ジャンル情報IDの出現頻度が比較されることによって、EPG情報の取得が不可能であっても、該当するシーン識別信号に属するジャンルの出現確率からジャンルの予測を行うことが可能であるとともに、ユーザのジャンル嗜好が選択判断に加えられ、有効な予測制御が可能になる。 As described above, according to the present embodiment, by comparing the appearance frequencies of the genre information IDs, even if the EPG information cannot be obtained, the genre prediction is performed from the appearance probabilities of the genres belonging to the corresponding scene identification signal. In addition, the user's genre preference is added to the selection determination, and effective predictive control becomes possible.
本実施形態においては、シーン変化点の検出処理をフレームアクティビティおよびフレーム輝度DC成分のみで行っているが、フレーム色差DC成分を使用しても処理を行うことができる。 In the present embodiment, scene change point detection processing is performed using only frame activity and frame luminance DC components, but processing can also be performed using frame color difference DC components.
また、本実施形態においては、シーン毎の画像特性情報の平均値をシーン特性情報として算出したが、この算出方法には限定されず、シーン内の画像特性情報のヒストグラムを取ってその代表値をシーン特性情報として算出してもよい。 In this embodiment, the average value of the image characteristic information for each scene is calculated as the scene characteristic information. However, the present invention is not limited to this calculation method, and a representative value is obtained by taking a histogram of the image characteristic information in the scene. It may be calculated as scene characteristic information.
また、本実施形態においては、7種類の符号化パラメータを使用したが、大きな特徴のあるシーンでは少ない符号化パラメータでも識別できるため、符号化時に考慮したいシーンに特化した形で識別するための符号化パラメータを管理することも可能である。その場合には、必要な符号化制御が実現される状態で、データベースに蓄積されるデータ量を削減することができる。またそれに伴い、算出する画像特性情報およびシーン特性情報の種類も削減することができる。 In this embodiment, seven types of encoding parameters are used. However, since a scene with a large feature can be identified with a small number of encoding parameters, it is possible to identify in a form specialized for the scene to be considered at the time of encoding. It is also possible to manage the encoding parameters. In that case, the amount of data stored in the database can be reduced in a state where necessary encoding control is realized. Accordingly, the types of image characteristic information and scene characteristic information to be calculated can be reduced.
また、本実施形態においては、高能率符号化記録装置として回路構成のブロック図を用いて説明したが、これらの回路は同じ処理アルゴリズムを用いてコンピュータ等のソフトウェア上で処理される場合にも同様の効果が得られる。 In this embodiment, the block diagram of the circuit configuration has been described as the high-efficiency encoding / recording apparatus. However, these circuits are the same when they are processed on software such as a computer using the same processing algorithm. The effect is obtained.
また、本実施形態においてはMPEG2規格の符号化装置について説明したが、同様に画像信号の隣接画素間(空間方向)の相関および、隣接フレーム間もしくは隣接フィールド間(時間方向)の相関を利用して情報量を圧縮するMPEG4 ASPや、MPEG4 AVCを用いた符号化記録装置においても適用可能であり、同様の効果が得られる。MPEG4 AVCの場合には、量子化の細かさを輝度信号と色差信号とで異なる設定で符号化することができるため、符号化パラメータとして輝度信号と色差信号の量子化の比率を制御する値を用意することにより効果的な制御をすることが可能になる。
In this embodiment, the MPEG2 standard encoding apparatus has been described. Similarly, the correlation between adjacent pixels (spatial direction) of an image signal and the correlation between adjacent frames or adjacent fields (time direction) are used. The present invention can also be applied to an encoding / recording apparatus using MPEG4 ASP or MPEG4 AVC that compresses the amount of information, and similar effects can be obtained. In the case of MPEG4 AVC, since the fineness of quantization can be encoded with different settings for the luminance signal and the color difference signal, a value for controlling the quantization ratio of the luminance signal and the color difference signal is set as an encoding parameter. By preparing, it becomes possible to perform effective control.
10…高能率符号化記録装置
20…画像符号化記録装置
101…EPG情報入力端子
102…番組情報取得回路
103…ジャンル/キーワード検索回路
104…シーン情報データベース
105…画像特性算出回路
106…シーン検出回路
107…シーン分別回路
108…データベース管理回路
109…符号化制御パラメータ補正回路
110…符号化シンタックス制御回路
111…ジャンル予測回路
201…対象画像入力端子
202…入力画像メモリ
203…2次元ブロックデータ変換回路
204…減算器
205…直交変換回路
206…量子化回路
207…符号化回路
208…符号化テーブル
209…マルチプレクサ
210…画像ビットストリームバッファ
211…記録媒体もしくは伝送路
212…逆量子化回路
213…逆直交変換回路
214…加算器
215…デブロック回路
216…参照画像メモリ
217…動きベクトル検出回路
218…補償予測回路
219…符号量制御回路
DESCRIPTION OF
Claims (7)
前記デジタル画像データに付加された電子番組ガイド情報を基に、または前記デジタル画像データから算出されるジャンル予測情報を基に、前記符号化処理の対象となる映像のジャンルに関する情報を取得するジャンル情報取得手段と、
前記デジタル画像データから、映像情報の空間的な相関に関する情報と、時間的な相関に関する情報と、輝度レベルに関する情報と、色差レベルに関する情報とのうち少なくとも1つを画像特性情報として算出する画像特性算出手段と、
前記算出された画像特性情報を基に、前記映像のシーンが変化するシーン変化点に関するシーン区切り情報を前記デジタル画像データから検出するシーン変化点検出手段と、
前記検出されたシーン区切り情報により前記デジタル画像データをシーン別に区切り、区切られたシーンごとの前記画像特性情報に基づくシーン特性情報を算出するシーン分別手段と、
前記映像のデジタル画像データのうち既に符号化されたデジタル画像データの符号量に関する符号化結果情報を取得する符号化結果情報取得手段と、
前記ジャンルに関する情報と前記シーン特性情報とから算出されたシーン識別信号と、前記符号化結果情報とを基に前記符号化制御パラメータの補正値を算出し、算出された補正値によって前記符号化制御パラメータをシーンごとに補正する符号化制御パラメータ補正手段と、
前記区切られたシーンごとに補正された前記符号化制御パラメータに従って、前記デジタル画像データを前記区切られたシーンごとに符号化処理を行う符号化手段と、
を備えることを特徴とする高能率符号化記録装置。 In a high-efficiency encoding / recording apparatus for compressing the digital image data and storing it in a recording medium by performing an encoding process controlled by an encoding control parameter on the input digital image data of the video,
Genre information for acquiring information related to the genre of the video to be encoded based on electronic program guide information added to the digital image data or based on genre prediction information calculated from the digital image data Acquisition means;
Image characteristics for calculating at least one of information relating to spatial correlation of video information, information relating to temporal correlation, information relating to luminance level, and information relating to color difference level from the digital image data as image characteristic information A calculation means;
Based on the calculated image characteristic information, scene change point detection means for detecting scene break information about the scene change point at which the video scene changes from the digital image data;
Scene classification means for dividing the digital image data into scenes according to the detected scene separation information and calculating scene characteristic information based on the image characteristic information for each divided scene;
Encoding result information acquisition means for acquiring encoding result information relating to a code amount of digital image data already encoded among the digital image data of the video;
A correction value of the encoding control parameter is calculated based on the scene identification signal calculated from the information related to the genre and the scene characteristic information and the encoding result information, and the encoding control is performed based on the calculated correction value. Encoding control parameter correction means for correcting parameters for each scene;
Encoding means for encoding the digital image data for each of the divided scenes according to the encoding control parameter corrected for each of the divided scenes;
A high-efficiency encoding / recording apparatus comprising:
前記デジタル画像データのフレームごとに算出される平均輝度レベル値と、
前記デジタル画像データのフレームごとに算出される平均色差レベル値と、
前記デジタル画像データのフレームごとに算出されるフレーム内における隣接画素間の差分絶対値の総和値と、
前記デジタル画像データの連続する2フレーム間において算出される同一位置に属する画素間の差分絶対値の総和値と、
のうち少なくとも1つの値を算出する
ことを特徴とする請求項1に記載の高能率符号化記録装置。 The image characteristic calculation means, as the image characteristic information,
An average luminance level value calculated for each frame of the digital image data;
An average color difference level value calculated for each frame of the digital image data;
A sum of absolute values of differences between adjacent pixels in a frame calculated for each frame of the digital image data;
A sum of absolute differences between pixels belonging to the same position calculated between two consecutive frames of the digital image data;
The high-efficiency encoding / recording apparatus according to claim 1, wherein at least one value is calculated.
ことを特徴とする請求項1または2に記載の高能率符号化記録装置。 3. The high scene according to claim 1, wherein the scene change point detection processing unit detects an instantaneous scene change of the video or a scene change performed in a continuous period. Efficiency coding recording device.
前記デジタル画像データのフレームごとに算出される平均輝度レベル値と、
前記デジタル画像データのフレームごとに算出される平均色差レベル値と、
前記デジタル画像データのフレームごとに算出されるフレーム内隣接画素間の差分絶対値の総和値と、
前記デジタル画像データの連続する2フレーム間において算出される同一位置に属する画素間の差分絶対値の総和値と、
のうち少なくとも1つの値を算出し、
前記符号化結果情報取得手段は、前記符号化結果情報として、
動き補償予測が行われたフレームごとに算出される動きベクトル距離の総和値と、
前記デジタル画像データのフレームごとに算出される符号化されたデジタル画像データの情報量と、
のうち少なくとも1つの値を算出する
ことを特徴する請求項1〜3の何れか1項に記載の高能率符号化記録装置。 The scene classification means, as the scene characteristic information,
An average luminance level value calculated for each frame of the digital image data;
An average color difference level value calculated for each frame of the digital image data;
A sum of absolute values of differences between adjacent pixels in the frame calculated for each frame of the digital image data;
A sum of absolute differences between pixels belonging to the same position calculated between two consecutive frames of the digital image data;
Calculate at least one of the values
The encoding result information acquisition means, as the encoding result information,
A sum of motion vector distances calculated for each frame for which motion compensation prediction has been performed;
Information amount of encoded digital image data calculated for each frame of the digital image data;
The high-efficiency encoding / recording apparatus according to claim 1, wherein at least one value is calculated.
動きベクトルの検出範囲を示す値と、
前記動きベクトルを検出する際に参照フレームとなるフレームを挿入する間隔を指定する値と、
目標とする符号量を前記フレームごとに制御する値と、
瞬間的な符号化レートの最大値を制御する値と、
輝度信号を量子化するための量子化マトリクス値と、
色差信号を量子化するための量子化マトリクス値と、
のうち少なくとも1つの値の補正値を出力する
ことを特徴とする請求項1〜4の何れか1項に記載の高能率符号化記録装置。 The encoding control parameter correction means is a parameter for controlling the encoding process.
A value indicating a motion vector detection range;
A value specifying an interval for inserting a frame to be a reference frame when detecting the motion vector;
A value for controlling a target code amount for each frame;
A value that controls the maximum instantaneous encoding rate;
A quantization matrix value for quantizing the luminance signal;
A quantization matrix value for quantizing the color difference signal;
5. The high-efficiency encoded recording apparatus according to claim 1, wherein a correction value of at least one value is output.
前記デジタル画像データに付加された電子番組ガイド情報から取得した情報と、
ジャンルを特定するために予め設定されたキーワード情報で前記電子番組ガイド情報から取得したテキストデータを検索処理することにより取得した情報と、
を含むことを特徴とする請求項1〜5の何れか1項に記載の高能率符号化記録装置。 Information on the genre acquired by the program information acquisition means is
Information obtained from electronic program guide information added to the digital image data;
Information obtained by searching text data obtained from the electronic program guide information with keyword information set in advance to specify a genre;
The high-efficiency encoding / recording apparatus according to claim 1, comprising:
前記ジャンル情報取得手段は、前記電子番組ガイド情報から前記映像のジャンルに関する情報を取得できなかったときは、前記シーン分別手段から取得したシーン特性情報を基に全てのジャンルに対するシーン識別信号をそれぞれ算出し、この算出されたシーン識別信号の中で前記累積加算された出現頻度が最も高いシーン識別信号を選択して前記ジャンル予測情報を算出する
ことを特徴とする請求項1〜5の何れか1項に記載の高能率符号化記録装置。
A frequency recording means for accumulating and recording the appearance frequency of the scene identification signal;
The genre information acquisition unit calculates scene identification signals for all genres based on the scene characteristic information acquired from the scene classification unit when information about the genre of the video cannot be acquired from the electronic program guide information. 6. The genre prediction information is calculated by selecting a scene identification signal with the highest cumulative appearance frequency among the calculated scene identification signals. The high-efficiency encoding / recording apparatus according to the item.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005129723A JP2006311078A (en) | 2005-04-27 | 2005-04-27 | High efficiency coding recorder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005129723A JP2006311078A (en) | 2005-04-27 | 2005-04-27 | High efficiency coding recorder |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006311078A true JP2006311078A (en) | 2006-11-09 |
Family
ID=37477466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005129723A Pending JP2006311078A (en) | 2005-04-27 | 2005-04-27 | High efficiency coding recorder |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006311078A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014514800A (en) * | 2011-03-18 | 2014-06-19 | エンパイア テクノロジー ディベロップメント エルエルシー | Scene-based variable compression |
WO2017104699A1 (en) * | 2015-12-15 | 2017-06-22 | 日本電信電話株式会社 | Image difference detection device, method for detecting image difference, and computer program |
-
2005
- 2005-04-27 JP JP2005129723A patent/JP2006311078A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014514800A (en) * | 2011-03-18 | 2014-06-19 | エンパイア テクノロジー ディベロップメント エルエルシー | Scene-based variable compression |
KR101494121B1 (en) | 2011-03-18 | 2015-02-16 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | Scene-based variable compression |
US9338257B2 (en) | 2011-03-18 | 2016-05-10 | Empire Technology Development Llc | Scene-based variable compression |
US9826065B2 (en) | 2011-03-18 | 2017-11-21 | Empire Technology Development Llc | Scene-based variable compression |
WO2017104699A1 (en) * | 2015-12-15 | 2017-06-22 | 日本電信電話株式会社 | Image difference detection device, method for detecting image difference, and computer program |
JPWO2017104699A1 (en) * | 2015-12-15 | 2018-06-07 | 日本電信電話株式会社 | Image difference detection apparatus, image difference detection method, and computer program |
US10630991B2 (en) | 2015-12-15 | 2020-04-21 | Nippon Telegraph And Telephone Corporation | Image difference detection device, method for detecting image difference, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1177691B1 (en) | Method and apparatus for generating compact transcoding hints metadata | |
US7738550B2 (en) | Method and apparatus for generating compact transcoding hints metadata | |
JP5677992B2 (en) | Method and apparatus for data alignment with time domain boundaries | |
JP4014263B2 (en) | Video signal conversion apparatus and video signal conversion method | |
JP4373606B2 (en) | Apparatus and method for using accompanying information to improve an encoding system | |
US8139877B2 (en) | Image processing apparatus, image processing method, and computer-readable recording medium including shot generation | |
KR20040069210A (en) | Sharpness enhancement in post-processing of digital video signals using coding information and local spatial features | |
JP2007525921A (en) | Video encoding method and apparatus | |
JP2006311079A (en) | Image bit stream conversion apparatus | |
KR20040069208A (en) | Improving temporal consistency in video sharpness enhancement | |
JP4023324B2 (en) | Watermark embedding and image compression unit | |
JP2001309384A (en) | Picture compressor | |
JP2006311078A (en) | High efficiency coding recorder | |
JP4718736B2 (en) | Video encoding device | |
JP2868445B2 (en) | Moving image compression method and apparatus | |
JP4399794B2 (en) | Image coding apparatus and image coding method | |
JP2002016923A (en) | Image encoding device and method | |
JP3924815B2 (en) | Motion judgment device and motion judgment method | |
KR100944540B1 (en) | Method and Apparatus for Encoding using Frame Skipping | |
JP2002010268A (en) | Device and method for coding images |