JP6588801B2 - 画像処理装置、画像処理方法、及び、プログラム - Google Patents

画像処理装置、画像処理方法、及び、プログラム Download PDF

Info

Publication number
JP6588801B2
JP6588801B2 JP2015214800A JP2015214800A JP6588801B2 JP 6588801 B2 JP6588801 B2 JP 6588801B2 JP 2015214800 A JP2015214800 A JP 2015214800A JP 2015214800 A JP2015214800 A JP 2015214800A JP 6588801 B2 JP6588801 B2 JP 6588801B2
Authority
JP
Japan
Prior art keywords
moving image
frame rate
temporal
video
hierarchical structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015214800A
Other languages
English (en)
Other versions
JP2017085495A5 (ja
JP2017085495A (ja
Inventor
遼太 鈴木
遼太 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015214800A priority Critical patent/JP6588801B2/ja
Priority to US15/333,461 priority patent/US10419769B2/en
Publication of JP2017085495A publication Critical patent/JP2017085495A/ja
Publication of JP2017085495A5 publication Critical patent/JP2017085495A5/ja
Application granted granted Critical
Publication of JP6588801B2 publication Critical patent/JP6588801B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。
近年、デジタルビデオカメラや動画撮影機能付きデジタルカメラの普及により、動画データを扱う機会が増加している。これに伴い、様々な動画編集アプリケーションが提供されている。こうした動画編集の1つに、複数の動画を組み合わせて1つの動画を生成する編集がある。例えば、特許文献1では、異なるフレームレートを持つ複数の動画を結合編集する際に、フレームレートの互換性が取れるように、一方のフレームレートを変換する方法を開示する。
特開2008−278492号公報
特許文献1が開示する方法では、異なるフレームレートの動画を結合する場合、変換元の符号化データを一旦復号してから変換先のフレームレートに従って再符号化していた。このように対象となる符号化データの全体を復号し、再符号化する処理を編集の度毎に行うと、処理時間が膨大となり処理の効率化を図ることが困難になってしまう。
そこで本発明は、異なるフレームレートの動画を結合編集する場合に効率的な処理を可能にすることを目的とする。
上記課題を解決するための本発明は、時間的な階層構造を有するピクチャで構成される第1の動画と第2の動画とを結合して第3の動画を生成する画像処理装置であって、
前記第1の動画と前記第2の動画の時間的な階層構造を比較する比較手段と、
前記比較により前記時間的な階層構造が不一致と判定された場合に、前記第2の動画が有する時間的な階層構造を前記第1の動画が有する時間的な階層構造と一致させるように前記第2の動画を変換する変換手段と、
前記第1の動画と、前記変換手段が変換した前記第2の動画とを結合して前記第3の動画を生成する結合手段とを備え、
前記変換手段は、前記第2の動画の変換を、該第2の動画の復号を伴わずに該第2の動画が有するピクチャ数を増加、または、減少させることにより行い、
前記時間的な階層構造における各階層は、フレームレートと関連づけられ、
前記時間的な階層構造が不一致の場合とは、前記時間的な階層構造に含まれる階層の数が異なる場合と、前記時間的な階層構造に含まれる各階層と関連づけられたフレームレートが異なる場合との少なくともいずれかの場合であり、
前記第1の動画と、前記第2の動画とが有する前記時間的な階層の最下位の階層のフレームレートが異なっている場合に、前記変換手段は、前記第2の動画の最下位の階層のフレームレートを変更して、前記第1の動画の最下位の階層のフレームレートと一致させた後、前記第2の動画の変換を行うことを特徴とする。
本発明によれば、異なるフレームレートの動画を結合編集する場合に効率的な処理が可能となる。
発明の実施形態に対応する動画符号化装置の構成例を示すブロック図。 発明の第1の実施形態に対応する処理の一例を示すフローチャート。 発明の第1の実施形態に対応する、編集対象動画のフレームレートを変更する処理の一例を説明する図。 発明の第1の実施形態に対応する、編集対象動画のフレームレートを変更する処理の他の例を説明する図。 発明の第2の実施形態に対応する処理の一例を示すフローチャート。 発明の第2の実施形態に対応する、編集対象動画の最下位の階層を基準動画と一致させるための処理の一例を説明する図。 発明の第2の実施形態に対応する、再符号化により動画の時間的階層構造を再構成する例を説明する図。 発明の第2の実施形態に対応する、編集対象動画のフレームレートを変更する処理の他の例を説明する図。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
[実施形態1]
図1に本発明の第1の実施形態に対応する動画符号化装置の構成例を示す。図1に示す動画符号化装置は、入力される映像信号に対して符号化処理を施して記録する他、記録した複数の符号化データの結合編集が可能となっている。当該動画符号化装置は、例えばデジタルカメラ、デジタルビデオカメラとして実現することができる。また、それ以外に、例えばパーソナルコンピュータ、携帯電話、スマートフォン、PDA、タブレット端末などの任意の情報処理端末或いは撮像装置として実現することもできる。なお、図1は、デジタルカメラ等として機能する場合を考慮して撮像部102を含む構成を示した。しかし、発明の実施形態として、フレームレートや時間的階層構造の異なる動画を結合編集するための画像編集装置、或いは、画像処理装置として、撮像部102を有しない構成で実現してもよい。
図1を参照しながら、本実施形態の動画符号化装置100によるH.265規格に基づいて符号化した複数の動画の結合編集処理について説明する。なお、本実施形態ではH.265規格に基づいた符号化方式を例に説明するが、H.264等の他の時間スケーラブル符号化方式にも適用可能である。
図1に示す操作部101は、ユーザの指令を受け付け、指令に応じた制御信号を生成し、CPU103に供給する。例えば、操作部101は、ユーザ指令を受け付ける入力デバイスとして、ボタンやタッチパネル等からなる。撮像部102は、CMOSイメージセンサなどの撮像素子とA/D変換器を含んで構成される。撮像素子は、操作部101からの記録指示に従って被写体を撮影して得られた光学像を光電変換してアナログ画像信号を出力し、A/D変換器が当該画像信号をA/D変換して画像データを生成する。画像データは、メモリ104に出力され、記憶される。CPU103は、操作部101から入力される制御信号に基づき、本実施形態に対応する動画符号化装置100を構成する各処理部を制御する。メモリ104は、撮像部102から出力された画像データや、符号化部105または、復号化部106による処理後の動画データなどを一時的に記憶する。また、メモリ104には、CPU103のワークメモリとしても機能し、さらに後述する各種の処理を実行させるためのプログラムやデータも格納している。
符号化部105は、メモリ104に記憶された画像データを、時間スケーラブル符号化方式に従って符号化する。所定画素ブロック単位に画面内又は画面間予測符号化を行い、直交変換、量子化を行い、量子化されたデータをエントロピー符号化して符号化データを生成する。ここで、編集性の高い符号化データを生成するアプローチの1つとして、本実施形態では時間スケーラブル符号化により符号化データを生成する。時間スケーラブル符号化では、予めフレームレートに時間的な階層構造に基づくスケーラビリティを持たせることで、1つの符号化データから複数のフレームレートの動画像が生成できる。
例えば、120fpsのフレームレートを有する符号化データの場合、当該符号化データを構成するピクチャが属する時間的階層(時間レイヤ、或いは、レイヤ)として、30fps、60fps、120fpsのそれぞれのフレームレートに対応する階層を有することができる。また、当該階層構造では、上下に隣接し合う階層のフレームレートにつき、上位の階層のフレームレートが下位の階層のフレームレートの2倍となるように各階層の位置関係が決定される。より具体的に、例えば120fpsを構成する動画の1秒に相当する120枚のピクチャのうち、30枚が最下位の階層である30fpsのフレームレートと関連づけられた第1の階層に属することとなる。また、第1の階層の1つ上位の階層である60fpsのフレームレートと関連づけられた第2の階層には30枚のピクチャが属することとなる。これにより、第1の階層と第2の階層とを合わせて60枚のピクチャとなり、60fpsのフレームレートを達成することができる。更に、第2の階層の1つ上位の階層である120fpsのフレームレートと関連づけられた最上位の階層である第3の階層には残りの60枚のピクチャが属することとなる。これにより、第1から第3の階層までのピクチャを統合して120枚のピクチャとなり120fpsのフレームレートを達成することができる。
ただし、時間スケーラブル符号化では、各ピクチャの画像参照構造が階層的になるように符号化を行い、ピクチャ間の画像参照関係は、必ず自身のレイヤよりも上位の時間レイヤの画像を参照しないように制限した上で、各ピクチャに対して時間レイヤ情報を付加する。よって、上記例では、60fpsの第2の階層に属するピクチャは第1の階層に属するピクチャしか参照できない。また、120fpsの第3の階層に属するピクチャは、第1又は第2の階層に属するピクチャしか参照できない。符号化部105は、生成した符号化データをメモリ104に書き込む。
復号化部106は、メディア108に記録された符号化データを読み込み、エントロピー復号化する。そして、逆量子化、逆直交変換を行い、復号した画像データをメモリ104に書き出す。復号した画像データは、CPU103の指示に基づき、表示部107等に供給し、表示することができる。表示部107は、編集の進捗状況や、復号化部106で復号した画像データを表示するディスプレイである。メディア108は、ハードディスクドライブ、または不揮発性メモリ等で構成される記憶媒体であって、符号化データが記録される。内部バス109は、本実施形態に対応する動画符号化装置100を構成する各処理部を接続するインターコネクト・バスである。
本実施形態の動画符号化装置100は、以上のように構成される。また、本実施形態における動画符号化装置100は、複数の動画の結合編集が可能となっており、以下の様に動作する。
まず、ユーザが操作部101を介して編集開始の指示が入力すると、編集対象の候補となる動画の一覧画面が表示部107に表示される。ユーザは操作部101を操作して、表示された候補の中から編集対象とする動画を選択することができる。編集対象動画が選択されると、CPU103は、メディア108に記録した動画の中から、ユーザが指定する編集対象となる動画のフレームレート情報と時間レイヤ情報を取得する。ここで、ユーザは操作部101を介して、編集対象として選択した動画の中からフレームレート互換性基準となる動画(以下、「基準動画」ともいう)を更に選択する。フレームレート互換性基準となる動画とは、編集対象動画の間でフレームレートが異なる場合に行うフレームレート変換において基準となる動画である。その後CPU103は、編集対象動画のデータをメモリ104に書き出し、結合編集処理を開始する。結合編集処理が終了すると、CPU103は、結合編集した動画データをメモリ104に書き出し、メディア108に記録する。
なお、結合編集処理では、編集対象となる動画間でフレームレートおよび時間レイヤ構造が異なる場合、編集対象となる動画の間でフレームレートの互換性を取る必要がある。そこで、本実施形態では、フレームレート互換性基準となる動画を除いた編集対象となる動画の時間レイヤ構造を変換してフレームレートの変換を行い、結合編集処理を実行する。
以下、本実施形態に対応する結合編集処理の詳細について図2に示すフローチャートを参照して説明する。以下では、CPU103が行う複数の動画の結合編集において、動画間のフレームレートが異なる場合の時間レイヤ構造の変換方法について特に詳細に説明する。図2のフローチャートに対応する処理は、例えば、結合編集処理部として機能するCPU103が対応するプログラム(メモリ104に格納)を実行することにより実現できる。
まず、S201において、編集対象としてユーザが選択した各動画のフレームレートと時間レイヤ構造の情報を、該動画を保存するメディア108から取得する。フレームレート(fps)は、ファイルフォーマット中に動画情報として埋め込まれている場合、ファイルフォーマットを参照することによって取得することが可能である。また、符号化データのヘッダ部のHRD parameters syntaxに含まれる、num_units_in_tickと、time_scaleから算出し、取得することも可能である。一方、時間レイヤ情報を取得する方法は、符号化データのヘッダ部のnal_unit_header Syntaxに含まれるnuh_temporal_ID_plus1から判別する方法や、VPS(Video Parameter Set) Syntaxに含まれるvps_MAX_sub_layers_minus1から取得する方法や、SPS( Sequence Parameter Set) Syntaxに含まれるsps_MAX_sub_layers_minus1から取得することが可能である。ここでは、編集対象となる動画のフレームレートと時間レイヤ構造との関係は以下の通りである。なお、Temporal ID(時間ID)は時間レイヤ番号を表す指示子である。
i)フレームレート:30fps
Temporal ID0=30fps
ii) フレームレート:60fps
Temporal ID0=30fps
Temporal ID1=60fps
iii) フレームレート:120fps
Temporal ID0=30fps
Temporal ID1=60fps
Temporal ID2=120fps
次にS202では、S201で編集対象として選択した動画の中から、フレームレートの互換性を持たせるうえで基準となる基準動画をユーザが選択する。以下に説明する例では、上記3つの動画の中から60fpsの動画が基準動画として選択されたものとする。なお、フレームレート互換性基準(以下、単に「基準」ともいう。)となる動画の選択は、操作部101を介したユーザ指示に従うだけでなく、例えば編集対象となる動画の中でフレームレートの最も高い動画や、フレームレートの最も低い動画を基準として自動的に選択してもよい。また、選択された編集対象画像のフレームレートが不一致の場合にのみ実行してもよい。なお、選択方法自体が発明の本質的特徴ではないので、上述以外の方法であってもよい。
S203では、フレームレート変換対象となる動画(以下、「変換対象動画」ともいう)のフレームレート(以下、「FRc」という)と、基準動画のフレームレート(以下、「FRr」という)とで、フレームレートが等しいかどうかを判定する。FRcとFRrとが等しい場合、S208に処理を進め、異なる場合は、S204に処理を進める。
S204では、FRcとFRrとで、フレームレートの大小比較を行う。FRcの方が小さい場合、S205に処理を進め、大きい場合には、S206に処理を進める。ここでは、基準動画は60fpsと設定している。従って、30fpsの動画は、S205に処理を進め、また、120fpsの動画は、S206に処理を進める。
S205では、変換対象動画のフレームレートFRcが、基準動画のフレームレートFRrより小さい場合のフレームレート変換処理及び時間レイヤ構造変換処理を行う。具体的には、フレーム補間によってフレームレートを増加させる処理で、先頭ピクチャからピクチャ毎に直前に表示されるピクチャを繰り返して表示するピクチャデータ(以下、「コピーピクチャデータ」という)を生成し挿入する。即ち、同一内容のピクチャが2回ずつ表示されるように編集することで、30fpsの動画が60fpsの動画にアップコンバートされる。なお、コピーピクチャデータは、フレームレート不足を補うための補間データで、そのデータ構成はPピクチャもしくはBピクチャの形式で、直前のピクチャを参照し、そのまま保持する符号化データである。これらのコピーピクチャデータは、時間レイヤ指示子であるTemporalIDを、コピーピクチャ参照元のTemporalID+1の上位時間レイヤとして扱う。ここでS205処理は、30fpsの動画を60fpsの動画に変換する処理であって、S205処理によって変換した時間レイヤ構造を図3に示す。
図3(a)は30fpsを有する変換対象動画に対してコピーピクチャデータを挿入して、フレームレートを60fpsに向上させる例を示している。ここでは、30fpsのフレームレートを構成する各ピクチャのコピーピクチャがPピクチャとして生成され、それぞれ生成元となったピクチャを参照している。なお、図3では簡単のためにPピクチャのみで生成しているが、Bピクチャとして生成してもよい。生成されたコピーピクチャのTemporal IDは、元のピクチャのTemporal IDである0よりも1つ上のレイヤを示す値として1となる。図3(b)は、図3(a)のような変換処理を行う際の基準動画の一例を示しており、ここでは60fpsの動画が示されている。
次にS206では、変換対象動画のフレームレートFRcが、基準動画のフレームレートFRrより大きい場合のフレームレート変換及び時間レイヤ構造変換処理を行う。具体的には、ピクチャ破棄によってフレームレートを減少させる処理で、先頭ピクチャからピクチャ毎に基準動画のフレームレートより高い上位時間レイヤのピクチャを破棄する。ここでは、120fpsの動画を60fpsの動画に変換する処理であって、S206処理によって変換した時間レイヤ構造を図4に示す。
図4(a)は120fpsを有する変換対象動画に対してピクチャを破棄してフレームレートを60fpsに減少させる例を示している。ここでは、基準動画のフレームレートが60fpsであるので、120fps(Temporal ID=2)の時間レイヤに属するピクチャが破棄されている。図4(b)は、図4(a)のような変換処理を行う際の基準動画の一例を示しており、ここでは60fpsの動画が示されている。
S207では、S205もしくはS206でフレームレート変換対象となる動画が時間レイヤ構造を再構成したことによって変更したフレームレート情報と時間レイヤ情報を更新する。フレームレートに関しては、符号化データのヘッダ部のHRD parameters syntaxに含まれる、num_units_in_tickと、time_scale等の情報を更新する。また時間レイヤ情報に関しては、符号化データのヘッダ部のnal_unit_header Syntaxに含まれるnuh_temporal_ID_plus1、VPS(Video Parameter Set) Syntaxに含まれるvps_MAX_sub_layers_minus1、SPS( Sequence Parameter Set) Syntaxに含まれるsps_MAX_sub_layers_minus1等の情報を更新する。
続くS208では、変換対象動画のフレームレート変換が全て終わったかどうかを判定する。もし、変換対象動画の全てについて処理が終わっている場合は、S210に処理を進め、終わっていない場合は、S209へ処理を進める。ここで変換対象動画とは、基準動画を除いた全ての編集対象動画を指す。ここでは基準動画以外の編集対象動画が2つなので、S203からS207までの処理を2回実行することとなる。続くS209では、未処理の変換対象動画を選択するし、S203に戻って処理を繰り返す。一方、未編集の変換対象動画が存在せず、全てについて変換処理が終了している場合はS210において、編集対象となる動画を結合して1つの動画ファイルを生成する。そして、時間レイヤ構造を再構成したことによって変更したフレームレート情報をファイルフォーマット中に記録する。
以上のように、動画符号化装置100は、時間スケーラブルに符号化した複数の動画間でフレームレートが異なる場合、動画の復号を行わず、該動画に含まれるピクチャ数を増加、又は、減少させることにより時間レイヤ構造変換を行ってフレームレートの互換性を取る。まず、メディア108に保存されている編集対象となる動画のフレームレートと時間レイヤ構造を取得し、編集対象となる動画の中から、フレームレートの互換性を持たせる基準となる動画を選択する。そして、編集対象となる動画は、フレームレートの互換性基準となる動画と同一の時間レイヤ構造となるように時間レイヤ構造を再構成することで、フレームレートの互換性を持った動画が生成できる。また、フレームレート変換処理には、ピクチャ間の画像参照関係を変更することがないため、再符号化処理が不要な結合編集が可能となる。
[実施形態2]
次に発明の第2の実施形態について説明する。本実施形態に対応する動画符号化装置の構成は、図1の動画符号化装置と同様であるため、その構成に関わる説明は省略する。上述の第1の実施形態では、編集対象動画の最下位時間レイヤのフレームレートが等しい場合を説明した。これに対し、本実施形態では、編集対象動画の最下位時間レイヤのフレームレートが異なる場合の時間レイヤ構造変換方法について説明する。本実施形態ではフレームレート変換対象となる動画の最下位時間レイヤが示すフレームレートが、フレームレート互換性基準となる動画の最下位時間レイヤが示すフレームレートよりも大きい場合は、再符号化によって時間レイヤ構造を変換する。その一方で、フレームレート変換対象となる動画の最下位時間レイヤが示すフレームレートが、フレームレート互換性基準となる動画の最下位時間レイヤが示すフレームレートよりも小さい場合は、TemporalIDの書き換えと、ヘッダ情報の書き換えのみで時間レイヤ構造の変換処理を行う。
以下、本実施形態に対応する変換処理の詳細を図5に示すフローチャートを参照して説明する。図5のフローチャートに対応する処理は、例えば、結合編集処理部として機能するCPU103が対応するプログラム(メモリ104に格納)を実行することにより実現できる。なお、本実施形態は、第1の実施形態の処理を包含しつつ、最下位時間レイヤのフレームレートを統一する処理が含まれる。そこで、主として本実施形態特有の処理について詳細に説明し、第1の実施形態と同様の処理に関しては説明を省略する。
まず、S501では、編集対象となる動画を選択し、各動画のフレームレートと時間レイヤ構造を取得する。当該処理は第1の実施形態のS201に相当する。ここでは、編集対象となる動画のフレームレートと時間レイヤ構造との関係は以下に示す通りである。
i) フレームレート:60fps
Temporal ID0=30fps
Temporal ID1=60fps
ii) フレームレート:120fps
Temporal ID0=60fps
Temporal ID1=120fps
iii) フレームレート:240fps
Temporal ID0=120fps
Temporal ID1=240fps
S502では、S501で編集対象として選択した動画の中から基準動画を選択する。当該処理は第1の実施形態のS202に相当する。ここでは、フレームレートが120fpsの動画を基準動画として選択するものとする。続くS503では、変換対象動画の再下位時間レイヤのフレームレート(以下、「FRc_low」という)と、基準動画の最下位時間レイヤのフレームレート(以下、「FRr_low」という)が等しいかどうかを判定する。FRc_lowとFRr_lowとがが等しい場合はS508に処理を進め、異なる場合にはS504に処理を進める。ここでは、FRc_lowはいずれもFRr_lowと異なるためS504に処理を進める。
S504では、変換対象動画のFRc_lowと基準動画のFRr_lowとで大小比較を行う。FRr_lowよりFRc_low1の方が小さい場合、S505に処理を進め、大きい場合にはS506に処理を進める。上記例では基準動画は120fpsなのに対し、60fpsの変換対象動画のFRc_lowは30fpsであるため、S505に進む。一方、240fpsの変換対象動画のFRc_lowは120fpsであるため、S506に進む。
続くS505では、Temporal IDの書き換えにより、変換対象動画のFRc_lowを基準動画のFRr_lowに合わせる。これは、後の結合編集時に時間レイヤ指示子であるTemporal IDが異なることで、動画の各時間レイヤが示すフレームレートの整合が取れないことを防ぐための処理である。上記の例で、変換対象となるのは60fpsの動画である。即ち、Temporal ID = 1の時間レイヤに含まれる各ピクチャをTemporal ID = 0に書き換え、Temporal ID = 0とTemporal ID = 1の時間レイヤを統合することで、最下位時間レイヤが示すフレームレートを60fpsに変換する。S505の処理によって再構成した時間レイヤ構造を図6に示す。図6(a)は、書き換え前にTemporal ID=1の時間レイヤに含まれていたPピクチャが、Temporal ID = 0の時間レイヤに書き換えることを示している。この書き換えの結果、図6(b)に示すようにTemporal ID = 0が示す時間レイヤのフレームレートが60fpsとなる。
また、時間レイヤ構造の変更に伴い、符号化データのヘッダ部のnal_unit_header syntaxに含まれるnal_unit_type(NALユニットの種類を表す識別子)とVUI parameters syntaxに含まれるhrd_parameters(仮想参照デコーダで使用するパラメータ群)を書き換える。ここでは、時間レイヤ統合前にTemporal ID = 1としていたピクチャは、ピクチャの画像参照関係を表すnal_unit_type情報をTRAIL_N(nal_unit_type=2)からTRAIL_R(nal_unit_type=1)に書き換える。そして、新たに生成したTemporal ID = 0に相当するHRD情報を、時間レイヤ構造変換前のTemporal ID = 1に相当するHRD情報に置き換える。
S506では、再符号化により、変換対象動画のFRc_lowを基準動画のFRr_lowと一致させる。これは、S505で説明したように、後の結合編集時にTemporal IDが異なることで、編集対象となる動画間の各時間レイヤが示すフレームレートの整合が取れないことを防ぐための処理である。ここでは、240fpsの変換対象動画のFRc_lowを、120fpsの基準動画のFRc_lowと統一する。具体的に、120fpsと240fpsの2つの時間レイヤ構造を、再符号化によって、60fps、120fps、240fpsの3つの時間レイヤ構造に変換する。図7は、その結果として得られる再構成後の変換対象動画の時間レイヤ構造を示す。図7において、Temporal ID = 0の時間レイヤに含まれるピクチャは60fpsを有し、120fps、240fpsのフレームレートは、それぞれTemporal IDが繰り上がって、Temporal ID = 1、Temporal ID =2となる。これにより、フレームレートが240fpsの変換対象動画のFRc_lowが基準動画のFRr_lowと同じ60fpsとなった。
次にS507では、S505もしくはS506で変換対象動画の時間レイヤ構造を再構成したことによって変更したフレームレート情報と時間レイヤ情報を更新する。当該処理は、第1の実施形態のS207における処理に相当する。各ヘッダ部に格納される情報を更新した後、図2のS203に処理を進める。これ以降の処理は、図2に示したS203以降の処理と同様である。S203では、変換対象動画のフレームレートFRcと、基準動画のフレームレートFRrとで、フレームレートが等しいか比較を行う。上記の例では、変換対象動画はいずれも基準動画とフレームレートが異なるためS204に処理を進める。
S204では、FRcとFRrとの大小比較を行い、変換対象動画のフレームレートFRcの方が小さい場合は、S205に処理を進め、大きい場合には、S206に処理を進める。ここでは、基準動画のフレームレートFRrを120fpsと設定しているので、60fpsの変換対象動画は、S205で処理され、240fpsの変換対象動画はS206で処理される。
S205ではコピーピクチャによるピクチャ補間でフレームレートを増加させる処理を行う。ここでは、60fpsの変換対象動画を120fpsに変換する処理を行い、図8(a)に示すような時間レイヤ構造を生成することになる。図8(a)では、60fpsのフレームレートを構成する各ピクチャのコピーピクチャがPピクチャとして生成され、それぞれ生成元となったピクチャを参照している。生成されたコピーピクチャのTemporal IDは、元のピクチャのTemporal IDである0よりも1つ上の時間レイヤを示す値として1となる。
次にS206では、ピクチャ破棄によってフレームレートを減少させる処理を行う。ここでは、複数の時間レイヤ構造を持つ240fpsの変換対象動画を120fpsの動画に変換する処理を行い、図8(b)に示すような時間レイヤ構造を生成することになる。図8(b)では3つの時間レイヤのうち、240fpsの時間レイヤに属するピクチャを破棄して、60fpsのTemporal ID = 0の時間レイヤと、120fpsのTemporal ID =1の時間レイヤのみを残している。これ以降、第1の実施形態で記載したのと同様にS207からS210の処理を行う。なお、本実施形態ではフレームレート変換対象となる動画の数が2つであるため、S503からS507及びS203からS207までの処理を2回実行する。
以上によれば、編集対象動画の間で最下位時間レイヤのフレームレートが異なる場合であっても、変換対象動画のFRc_lowを基準動画のFRr_lowと同一になるように時間レイヤ構造を再構成することで、結合編集時のTemporal IDのミスマッチを防止することができる。これにより、複数の動画を結合編集した場合にフレームレートの互換性を持った動画が生成できる。また、本実施形態ではFRc_lowがFRr_lowより大きい場合にのみ再符号化を行い、FRc_lowがFRr_lowより小さい場合はTemporal IDとヘッダ情報の書き換えのみで時間レイヤ構造を変換するので、より少ない再符号化でフレームレートの互換性を持たせることができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100:動画符号化装置、101:操作部、102:撮像部、103:CPU、104:メモリ、105:符号化部、106:復号化部、107:表示部、108:メディア

Claims (12)

  1. 時間的な階層構造を有するピクチャで構成される第1の動画と第2の動画とを結合して第3の動画を生成する画像処理装置であって、
    前記第1の動画と前記第2の動画の時間的な階層構造を比較する比較手段と、
    前記比較により前記時間的な階層構造が不一致と判定された場合に、前記第2の動画が有する時間的な階層構造を前記第1の動画が有する時間的な階層構造と一致させるように前記第2の動画を変換する変換手段と、
    前記第1の動画と、前記変換手段が変換した前記第2の動画とを結合して前記第3の動画を生成する結合手段と
    を備え、
    前記変換手段は、前記第2の動画の変換を、該第2の動画の復号を伴わずに該第2の動画が有するピクチャ数を増加、または、減少させることにより行い、
    前記時間的な階層構造における各階層は、フレームレートと関連づけられ、
    前記時間的な階層構造が不一致の場合とは、前記時間的な階層構造に含まれる階層の数が異なる場合と、前記時間的な階層構造に含まれる各階層と関連づけられたフレームレートが異なる場合との少なくともいずれかの場合であり、
    前記第1の動画と、前記第2の動画とが有する前記時間的な階層の最下位の階層のフレームレートが異なっている場合に、前記変換手段は、前記第2の動画の最下位の階層のフレームレートを変更して、前記第1の動画の最下位の階層のフレームレートと一致させた後、前記第2の動画の変換を行うことを特徴とする画像処理装置。
  2. 前記変換手段は、前記ピクチャの数を増加させる場合に、前記第2の動画が有するピクチャを参照する、該ピクチャのコピーピクチャを挿入することにより前記第2の動画の変換を行うことを特徴とする請求項1に記載の画像処理装置。
  3. 前記コピーピクチャは、前記時間的な階層構造において、前記第2の動画が有するピクチャが属する階層の上位の階層のピクチャとして挿入されることを特徴とする請求項2に記載の画像処理装置。
  4. 前記変換手段は、前記ピクチャの数を減少させる場合に、前記第2の動画が有するピクチャのうち、前記第1の動画が有しない階層に属するピクチャを破棄することにより前記第2の動画の変換を行うことを特徴とする請求項1又は2に記載の画像処理装置。
  5. 前記変換手段は、前記第1の動画が有しない階層は、前記第2の動画の時間的な階層構造における最上位の階層を含むことを特徴とする請求項4に記載の画像処理装置。
  6. 前記時間的な階層構造において、上下に隣接する2つの階層において、上位の階層は下位の階層の2倍のフレームレートを有することを特徴とする請求項に記載の画像処理装置。
  7. 前記第1の動画の最下位の階層のフレームレートが、前記第2の動画の最下位の階層のフレームレートよりも高い場合、
    前記変換手段は、前記第2の動画が有する階層のうち、前記最下位の階層から、前記第1の動画の最下位の階層に対応する階層までに属するピクチャを統合することにより、前記第2の動画の最下位の階層のフレームレートを前記第1の動画の最下位の階層のフレームレートと一致させることを特徴とする請求項に記載の画像処理装置。
  8. 前記第1の動画の最下位の階層のフレームレートが、前記第2の動画の最下位の階層のフレームレートよりも低い場合に、
    前記変換手段は、前記第2の動画を復号したのち、前記第1の動画の最下位の階層に対応する階層を有する動画として再符号化することにより、前記第2の動画の最下位の階層のフレームレートを前記第1の動画の最下位の階層のフレームレートと一致させることを特徴とする請求項1又は7に記載の画像処理装置。
  9. 動画を復号する復号手段を更に備え、
    前記復号手段は、前記第3の動画を復号することを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  10. 被写体を撮影して画像を生成する撮像手段と、
    前記画像を時間的な階層構造を有するピクチャとして符号化して動画を生成する符号化手段と、
    請求項1乃至のいずれか1項に記載の画像処理装置の各手段と
    を備えることを特徴とする撮像装置。
  11. コンピュータを請求項1乃至のいずれか1項に記載の画像処理装置の各手段として機能させることを特徴とするプログラム。
  12. 時間的な階層構造を有するピクチャで構成される第1の動画と第2の動画とを結合して第3の動画を生成する画像処理方法であって、
    前記第1の動画と前記第2の動画の時間的な階層構造を比較する比較工程と、
    前記比較により前記時間的な階層構造が不一致と判定された場合に、前記第2の動画が有する時間的な階層構造を該第1の動画が有する時間的な階層構造と一致させるように前記第2の動画を変換する変換工程と、
    前記第1の動画と、前記変換工程で変換された前記第2の動画とを結合して前記第3の動画を生成する結合工程と
    を備え、
    前記変換工程では、前記第2の動画の変換が、該第2の動画の復号を伴わずに該第2の動画が有するピクチャ数を増加、又は、減少させることにより行われ
    前記時間的な階層構造における各階層は、フレームレートと関連づけられ、
    前記時間的な階層構造が不一致の場合とは、前記時間的な階層構造に含まれる階層の数が異なる場合と、前記時間的な階層構造に含まれる各階層と関連づけられたフレームレートが異なる場合との少なくともいずれかの場合であり、
    前記第1の動画と、前記第2の動画とが有する前記時間的な階層の最下位の階層のフレームレートが異なっている場合に、前記変換工程では、前記第2の動画の最下位の階層のフレームレートを変更して、前記第1の動画の最下位の階層のフレームレートと一致させた後、前記第2の動画の変換が行われることを特徴とする画像処理方法
JP2015214800A 2015-10-30 2015-10-30 画像処理装置、画像処理方法、及び、プログラム Expired - Fee Related JP6588801B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015214800A JP6588801B2 (ja) 2015-10-30 2015-10-30 画像処理装置、画像処理方法、及び、プログラム
US15/333,461 US10419769B2 (en) 2015-10-30 2016-10-25 Image processing apparatus, image processing method, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015214800A JP6588801B2 (ja) 2015-10-30 2015-10-30 画像処理装置、画像処理方法、及び、プログラム

Publications (3)

Publication Number Publication Date
JP2017085495A JP2017085495A (ja) 2017-05-18
JP2017085495A5 JP2017085495A5 (ja) 2018-11-29
JP6588801B2 true JP6588801B2 (ja) 2019-10-09

Family

ID=58635068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015214800A Expired - Fee Related JP6588801B2 (ja) 2015-10-30 2015-10-30 画像処理装置、画像処理方法、及び、プログラム

Country Status (2)

Country Link
US (1) US10419769B2 (ja)
JP (1) JP6588801B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015056449A1 (ja) 2013-10-18 2015-04-23 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
JP6538324B2 (ja) 2013-10-18 2019-07-03 パナソニック株式会社 画像符号化方法および画像符号化装置
US11533474B2 (en) 2019-03-11 2022-12-20 Dolby Laboratories Licensing Corporation Video coding using reference picture resampling supporting region of interest
HRP20230760T1 (hr) 2019-03-11 2023-11-10 Dolby Laboratories Licensing Corporation Signalizacija informacija koje se odnose na kut blende
JP2022543627A (ja) 2019-08-06 2022-10-13 ドルビー ラボラトリーズ ライセンシング コーポレイション 描画面サイズ拡張可能ビデオコーディング

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852565A (en) * 1996-01-30 1998-12-22 Demografx Temporal and resolution layering in advanced television
US6233356B1 (en) * 1997-07-08 2001-05-15 At&T Corp. Generalized scalability for video coder based on video objects
US6996173B2 (en) * 2002-01-25 2006-02-07 Microsoft Corporation Seamless switching of scalable video bitstreams
KR100654431B1 (ko) * 2004-03-08 2006-12-06 삼성전자주식회사 가변 gop 사이즈를 갖는 스케일러블 비디오 코딩방법및 이를 위한 스케일러블 비디오 인코더
US20060193379A1 (en) * 2005-02-25 2006-08-31 Nokia Corporation System and method for achieving inter-layer video quality scalability
EP1952631A4 (en) * 2005-09-07 2012-11-21 Vidyo Inc SYSTEM AND METHOD FOR SCALABLE AND DECELERATING VIDEO CONFERENCES WITH SCALABLE VIDEO CODING
EP1985116A4 (en) * 2005-12-22 2013-06-05 Vidyo Inc SYSTEM AND METHOD FOR VIDEO CONFERENCES USING SCALABLE VIDEO CODING AND COMPOSITION OF SCALABLE VIDEO CONFERENCE SERVER
US8379677B2 (en) 2007-04-30 2013-02-19 Vixs Systems, Inc. System for combining a plurality of video streams and method for use therewith
EP2903268A4 (en) * 2012-09-28 2016-03-09 Sharp Kk IMAGE DECODING DEVICE
JP6120667B2 (ja) 2013-05-02 2017-04-26 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、プログラム、及び記録媒体
JP2015080035A (ja) * 2013-10-15 2015-04-23 キヤノン株式会社 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
US10419769B2 (en) 2019-09-17
JP2017085495A (ja) 2017-05-18
US20170127070A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
JP6588801B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
JP2022520378A (ja) 参照画像リサンプリングのためのシグナリング
JP5950541B2 (ja) 動きベクトル符号化装置、動きベクトル符号化方法及びプログラム、動きベクトル復号装置、動きベクトル復号方法及びプログラム
JP2015534376A (ja) 映像符号化及び復号化方法、装置及びシステム
CN116016913A (zh) 视频编解码的方法、视频编解码器以及计算机可读介质
JP2022514513A (ja) タイル及びサブ画像の分割
TW200910975A (en) Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
CN111182308B (zh) 视频解码方法、装置、计算机设备及存储介质
JP2022521517A (ja) エンコーディングされたビデオビットストリームをデコーディングする方法、装置、およびコンピュータプログラム
JP2022522841A (ja) ビデオビットストリームにおける適応画像サイズのシグナリング
US20130251333A1 (en) Transcoding a video stream to facilitate accurate display
JP6270555B2 (ja) 画像処理システム、撮像装置及びその制御方法
TW201143443A (en) Method and system for 3D video decoding using a tier system framework
CN113099239A (zh) 对视频比特流进行编码的方法、设备和介质
JP2022531338A (ja) 参照ピクチャ・リサンプリングをリサンプリング・ピクチャ・サイズ指示とともにビデオ・ビットストリームでシグナリングすること
JP2023171607A (ja) 参照ピクチャー再サンプリングがある場合のラップアラウンド動き補償に関する方法、装置、コンピュータ・プログラム
JP6209026B2 (ja) 画像符号化装置及びその制御方法
JP4771986B2 (ja) 画像符号化装置およびそれを用いた撮像装置
JP6120667B2 (ja) 画像処理装置、撮像装置、画像処理方法、プログラム、及び記録媒体
JP2022524106A (ja) ビデオビットストリームにおけるピクチャサイズおよび分割情報の効率的なシグナリングのための方法、装置、およびコンピュータプログラム
JP6184558B2 (ja) 符号化装置、符号化方法及びプログラム、復号装置、復号方法及びプログラム
JP4514666B2 (ja) 動画像符号化装置
CN114514752A (zh) 用于交互式播放dash内容的应用程序预期交互式选择信息
JP2011049927A (ja) 画像処理装置、およびそれを搭載した撮像装置
JP4594163B2 (ja) 画像符号化方法、及び画像符号化装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181017

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190913

R151 Written notification of patent or utility model registration

Ref document number: 6588801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees