JP7092952B2 - ライブフィードにおけるコンテンツアウェアpqレンジアナライザとトーンマッピング - Google Patents

ライブフィードにおけるコンテンツアウェアpqレンジアナライザとトーンマッピング Download PDF

Info

Publication number
JP7092952B2
JP7092952B2 JP2021559842A JP2021559842A JP7092952B2 JP 7092952 B2 JP7092952 B2 JP 7092952B2 JP 2021559842 A JP2021559842 A JP 2021559842A JP 2021559842 A JP2021559842 A JP 2021559842A JP 7092952 B2 JP7092952 B2 JP 7092952B2
Authority
JP
Japan
Prior art keywords
image
content type
dynamic range
luminance value
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021559842A
Other languages
English (en)
Other versions
JP2022524651A (ja
Inventor
アリ ザンディファル
ジェームズ イー. クレンショー
クリスティーナ ミシェル ヴァスコ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022524651A publication Critical patent/JP2022524651A/ja
Application granted granted Critical
Publication of JP7092952B2 publication Critical patent/JP7092952B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • G09G5/026Control of mixing and/or overlay of colours in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0125Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level one of the standards being a high definition standard
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/02Improving the quality of display appearance
    • G09G2320/0238Improving the black level
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/06Adjustment of display parameters
    • G09G2320/066Adjustment of display parameters for control of contrast
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/06Colour space transformation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/02Networking aspects
    • G09G2370/022Centralised management of display operation, e.g. in a server instead of locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Image Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Computing Systems (AREA)

Description

[関連出願への相互参照]
本出願は、2019年4月25日に出願された米国仮特許出願第62/838,518号、および2019年4月25日に出願された欧州特許出願第19171057.3号の優先権を主張するものであり、それぞれの内容はその全体が参照により本明細書に組み込まれる。
[背景]
本出願は、全般に画像に関するものである。より具体的には、ライブ配信のためのPQレンジ分析およびトーンマッピングにおけるコンテンツアウェアネスに関するものである。
本明細書では、「ダイナミックレンジ」という用語は、人間の視覚システムが画像中の強度の範囲(例えば、輝度、ルマなど)を知覚する能力に関連し、例えば、最も暗い黒(「ダーク」)から最も明るい白(「ハイライト」)までの範囲である。この意味で、ダイナミックレンジは、「シーンに応じた」強度に関連する。また、ダイナミックレンジは、特定の幅の強度範囲を十分にまたは適切に表示するための表示装置の能力にも関連する。この意味では、ダイナミックレンジは、「表示に応じた」強度を意味する。本明細書では、特定の意味を持つことが明示されていない限り、この用語はどちらの意味でも、例えば、互換的に使用されてもよいものと推察されるべきである。
本明細書では、「ハイダイナミックレンジ」(HDR)という用語は、人間の視覚系の約14~15桁の大きさに及ぶダイナミックレンジの幅に関するものである。実際には、人間が強度範囲の広範な幅を同時に知覚することができるダイナミックレンジは、HDRに対して比較的切り詰められている可能性がある。本明細書では、「拡張ダイナミックレンジ」(EDR)または「視覚的ダイナミックレンジ」(VDR)という用語は、人間の視覚システムが同時に知覚できるダイナミックレンジに個別にまたは互換的に関連する場合がある。本明細書では、EDRは5~6桁の大きさに及ぶダイナミックレンジに関連してもよい。したがって、EDRは真のシーンに応じたHDRに比べてやや狭いが、それでもEDRは広範なダイナミックレンジの幅を表し、HDRと呼ばれることもある。
実際には、画像は1つ以上の色成分(例えば、ルマYとクロマCbおよびCr)を備え、各色成分はピクセルあたりnビット(例えば、n=8)の精度で表される。線形輝度符号化では、n<8の画像(例えば、カラー24ビットのJPEG画像)は、標準的なダイナミックレンジの画像とみなされ、n>8の画像は、拡張ダイナミックレンジの画像とみなしてもよい。また、EDR画像やHDR画像は、Industrial Light and Magic社が開発したOpenEXRファイルフォーマットのような、高精度(例えば16ビット)の浮動小数点フォーマットを用いて保存および配信することも可能である。
民生用デスクトップディスプレイの多くは、200~300cd/m(以下、「ニト」)の輝度をサポートする。民生用の高精細テレビ(HDTV)の多くは、300~1000ニトである。このようなディスプレイは、HDRやEDRに対して、標準ダイナミックレンジ(SDR)とも呼ばれる低ダイナミックレンジ(LDR)の典型例である。カメラなどのキャプチャ機器やドルビーラボラトリーズのPRM-4200プロ向け基準モニタなどのEDRディスプレイの進歩によりEDRコンテンツの利用可能性が広がったので、EDRコンテンツをカラーグレーディングして、1000ニトから5000ニト以上の高ダイナミックレンジに対応したEDRディスプレイに表示することが可能になった。
本明細書では、「ディスプレイ管理」という用語には、第1のダイナミックレンジ(例えば1000ニト)の入力映像信号を第2のダイナミックレンジ(例えば500ニト)のディスプレイにマッピングするために必要な処理(例えば、トーンおよび色域のマッピング)が含まれるが、これに限定されるものではない。
本項に記載されているアプローチは、追求することが可能なアプローチであり、必ずしもこれまでに考案された、または追求されたアプローチではない。したがって、別段の記載がない限り、本節に記載されているアプローチが、本節に記載されているという理由だけで、先行技術としての引用適格性を有すると仮定すべきでない。同様に、1つ以上のアプローチに関して特定された問題は、別様に示されていない限り、本節に基づいて、いかなる先行技術においても認識されていると仮定すべきでない。
本開示の様々な態様は、ライブフィードのPQレンジ分析およびトーンマッピングにおけるコンテンツアウェアネスを含む、画像処理のための回路、システム、および方法に関する。
本開示の1つの例示的な態様では、画像処理システムが提供され、画像信号を受信するように構成された入力であって、画像信号は、画像データの複数のフレームを含む入力と、複数のフレームの少なくとも1つのフレームに基づいて画像分類を自動的に決定し、画像分類に基づいてマッピングメタデータを動的に生成するように構成されたプロセッサとを備える。プロセッサは、画像信号のコンテンツタイプを決定するように構成された決定回路と、コンテンツタイプに基づいて、画像データを複数の特徴項目領域にセグメント化するように構成されたセグメント化回路と、複数の特徴項目領域のそれぞれ1つについて、少なくとも1つの画像アスペクト値を抽出するように構成された抽出回路と、を含む。
本開示の別の例示的な態様では、画像データの複数のフレームを含む画像信号を受信するステップと、前記複数のフレームの少なくとも1つのフレームに基づいて画像分類を自動的に決定するステップであって、画像信号のコンテンツタイプを決定するステップと、コンテンツタイプに基づいて、画像データを複数の空間領域にセグメント化するステップと、複数の空間領域のそれぞれについて、少なくとも1つの画像アスペクト値を抽出するステップと、を含む、画像分類を自動的に決定するステップと、画像分類に基づいて、マッピングメタデータの複数のフレームを生成するステップであって、マッピングメタデータの複数のフレームのそれぞれ1つが、画像データの複数のフレームのそれぞれ1つに対応するステップと、を備える画像処理方法が提供される。
本開示のさらに別の例示的な態様では、画像処理システムのプロセッサによって実行されると、画像処理システムに、画像データの複数のフレームを含む画像信号を受信するステップと、複数のフレームのうちの少なくとも1つのフレームに基づいて、画像分類を自動的に決定するステップと、を含む動作を実行させる命令を格納した非一時的なコンピュータ可読媒体が提供される。決定するステップは、画像信号のコンテンツタイプを決定するステップと、コンテンツタイプに基づいて画像データを複数の空間領域にセグメント化するステップと、複数の空間領域のそれぞれについて少なくとも1つの画像アスペクト値を抽出するステップと、画像分類に基づいてフレームごとにマッピングメタデータを動的に生成するステップと、を含む。
このように、本開示の様々な態様は、少なくとも、画像処理の技術分野だけでなく、画像のキャプチャ、符号化、およびブロードキャストの関連技術分野における改善を提供する。
本開示の様々な態様のこれらおよびその他のより詳細で具体的な特徴は、添付の図面を参照しながら、以下の説明でより完全に開示される。
図1は、本開示の様々な態様に従ったソースシーンおよび様々なレンダリングされたシーンを示す。 図2は、本開示の様々な態様に従った例示的なブロードキャストワークフローのブロック図を示す。 図3は、本開示の様々な態様に従った例示的な処理ユニットのブロック図を示す。 図4は、本開示の様々な態様に従った例示的な処理方法のプロセスフローを示す。 図5は、本開示の様々な態様に従った例示的な分類方法のプロセスフローを示す。 図6は、本開示の様々な態様に従った例示的なシーンを示す。 図7は、本開示の様々な態様に従った別の例示的なシーンを示す。 図8は、本開示の様々な態様に従った別の例示的なシーンを示す。
以下の説明では、本開示の1つ以上の態様の理解を提供するために、回路構成、波形のタイミング、回路の動作など、多数の詳細が記載されている。これらの具体的な詳細は単なる例示であり、本願の範囲を限定することを意図していないことは、当業者には容易に理解できるであろう。
本開示は、コンピュータで実装された方法によって制御されるハードウェアまたは回路、コンピュータプログラム製品、コンピュータシステムおよびネットワーク、ユーザインタフェース、およびアプリケーションプログラミングインターフェース、ならびにハードウェアで実装された方法、信号処理回路、メモリアレイ、特定用途向け集積回路、フィールドプログラマブルゲートアレイなど、さまざまな形態で具現化することができる。前述の概要は、本開示の様々な態様の全般的な考え方を与えることを意図したものに過ぎず、本開示の範囲を何ら限定するものではない。
映像キャプチャ、分析、およびエンコーディングが本明細書で説明される。以下の説明では、本開示の1つ以上の態様の理解を提供するために、回路構成、タイミング、回路動作など、多数の詳細が示される。これらの特定の詳細は単なる例示であり、本願の範囲を限定することを意図していないことは、当業者には容易に理解できるであろう。例えば、いくつかの実施例では、本開示の様々な態様は、これらの詳細がなくても実施することができる。他の例では、本発明を不必要に覆い隠したり、不明瞭にしたり、難読化したりすることを避けるために、よく知られた構造や装置を網羅的に詳細に説明しない場合がある。
[概要]
本明細書で説明する例は、映像ストリームのライブブロードキャスト中にメタデータを生成することを含む画像処理に関するものである。本明細書で説明するいくつかの例は、「ドルビービジョン」アーキテクチャで使用可能である。民生用途のドルビービジョンは、高いダイナミックレンジと広範な色域でマスタリングされたコンテンツの作成と配信を可能にするエンドツーエンドのテクノロジスイートである。ドルビービジョンのディスプレイ管理は、一連のアルゴリズムを用いて信号をドルビービジョン民生用テレビにマッピングすることで、(SDR画像しか表示できない場合もある)所与のテレビの能力に適合させる。SDRディスプレイにHDRコンテンツを表示する場合、HDR画像は、比較的縮小されたディスプレイのダイナミックレンジにマッピングされる。
図1は、ソースシーンから様々なレンダリングシーンへのマッピングの一例を示す図である。図1に示すように、HDR画像101は、ソースシーンをダーク(例えば、HDR画像101の左下および左上の領域)およびハイライト(例えば、HDR画像101の上中央および右上の領域)の両方で描写している。SDRディスプレイにハイライトを忠実に表示するためにHDR画像101をマッピングする際に、レンダリングシーンとして露出アンダー画像102を作成してもよい。露出アンダー画像102では、ハイライト部分は忠実に再現されているが、ダークに相当する部分のディテールが減少または消失している。逆に、SDRディスプレイ上でダークを忠実に表示するためにHDR画像101をマッピングすると、レンダリングシーンとして露出オーバー画像103が作成されることがある。露出オーバー画像103では、ダークが忠実に再現されるが、ハイライトに相当する部分が流失したように見えることがある。露出アンダーでも露出オーバーでもない変換画像を提示するために、メタデータ(つまり、画像データに関するデータ)を利用して、HDR画像101のどの特徴を画像のフォーカスエリアとみなすべきかを決定してもよい。
図2は、映像キャプチャ、プロダクションおよびポストプロダクション、およびライブ配信を含む、ブロードキャストワークフローシステム200の例を示す。映像キャプチャは、それぞれが1つ以上のカメラ211を含む、1つ以上のカメラバンク210によって達成されてもよい。個々のカメラバンク210は、異なる映像コンテンツをキャプチャするために、異なる物理的位置に配置されてもよい。例えば、ブロードキャストワークフローシステム200がスポーツのライブブロードキャストに使用される場合、第1のカメラバンク210はスポーツイベント自体の映像をキャプチャするために配置されてもよく、第2のカメラバンク210はブロードキャストブースの映像をキャプチャするために配置されてもよく、第3のカメラバンク210はスタジオ内のアナリストの映像をキャプチャするために配置されてもよい。各カメラバンク210は、任意の数のカメラ211を含んでいてもよい。個々のカメラ211は、HDR映像データやSDR映像データを撮影することができてもよい。所与のカメラ211によってキャプチャされた映像データは、対応する寄与リンク212を通過して、さらなる処理が行われる。
図2に示されているように、寄与リンク212を通過した映像データは、対応する入力変換器220で受信される。映像データがHDR映像データである場合、入力変換器220は、HDRからHDRへの変換、例えば、例えば、Rec.ITU-R BT.2100-1 (06/2017),“Image parameter values for high dynamic range television for use in production and international program exchange.”に説明されているように、HLG(Hybrid Log-Gamma)またはSLog-3 HDRからPQ(Perceptual Quantizer)HDRへの変換を行ってもよい。
映像データがSDR映像データである場合、入力変換器220はSDR-HDR変換を行ってもよい。図2では、各寄与リンク212に対応する入力変換器220を示すが、実際には、より少ない入力変換器220があってもよい。例えば、映像データがPQを用いたHDR映像データである場合には、変換が行われないため、入力変換器220を設けなくてもよい。いずれにしても、映像データは、プロダクションスイッチャ221に提供される。
プロダクションスイッチャ221は、カメラ211のそれぞれから映像データを受信し、カメラ211のうちの選択された1つから受信した映像データに対応してもよいブロードキャストストリーム222、品質管理(QC)ユニット223への出力、順にSDR対応のQCユニット223への出力を提供してもよいマッピングユニット224への出力、プレイアウトサーバ225への出力、および保存用のファイルインジェスト226を含む、複数の出力を提供する。ファイルインジェスト226からのデータは、ポストプロダクションユニット227でさらに処理され、その後プレイアウトサーバ225に提供されてもよい。プレイアウトサーバ225に格納された映像データは、インスタントリプレイやハーフタイム/インターミッション分析など、後の時間に再生するために利用されてもよい。プレイアウトサーバ225の出力は、SDR映像データ(この場合、別の入力変換器220を介して変換が行われてもよい)、HDR映像データ、またはその両方を含んでもよい。
ライブ配信のために、ブロードキャストストリーム222および/またはプレイアウトサーバ225からのデータは、ルータ230で受信される。ルータ230は、QCユニット223への1つ以上の出力(HDRおよび/またはSDR)、それぞれのブロードキャストエンコーダ232への1つ以上のHDR配信ストリーム231、1つ以上のSDR配信ストリーム237(例えば、SDRのサイマルキャスト)、およびマッピングユニット238へのHDRおよび/またはSDR出力を含む、複数の出力を提供する。それぞれのブロードキャストエンコーダ232は、HDR配信ストリーム231を受信し、以下でより詳細に説明するような様々な分析を行い、HDR映像フィード234およびメタデータフィード235を出力するHDR処理ユニット(HPU)233を含む。HDR映像フィード234およびメタデータフィード235は、符号化およびブロードキャストのために、符号化ユニット236に提供される。なお、SDR配信ストリーム237が存在する場合には、メタデータフィード235を生成することなく、符号化ユニット236に直接出力してもよい。
[HDR処理]
図3は、本開示の様々な態様に従った例示的な画像処理システムを示す。具体的には、図3は、図2に示されたHPU 233の一例であってもよいHPU 300を示す。HPU 300は、入力/出力(I/O)ユニット310と、メモリ320と、通信ユニット330と、ユーザインタフェース(UI)340と、プロセッサ350と、を含む。HPU 300の様々な要素は、バス360を介して相互に通信する。I/Oユニットは、図2に例示したHDR配信ストリーム231の一例である入力データ311を受信し、図2に例示したHDR映像フィード234およびメタデータフィード235のそれぞれの一例である映像フィード312およびメタデータフィード313を出力する。プロセッサ350は、決定ユニット351、セグメント化ユニット352、および抽出ユニット353を含み、それぞれについて以下でより詳細に説明する。
HPU 300の個々のコンポーネントは、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装されてもよい。例えば、様々なユニットは、回路または回路として実装されてもよく、メモリ内のソフトウェアモジュールまたはプロセッサ内のアルゴリズムなどとして実装されてもよく、回路およびソフトウェアモジュールの組み合わせを含む。
I/Oユニット310は、有線、光ファイバ、無線通信プロトコル、またはそれらの組み合わせを介してデータを入力または出力するための1つ以上のポートを含んでもよい。メモリ320は、ハードディスク、フラッシュストレージなどの、ROM(Read-Only Memory)またはRAM(Random-Access Memory)を含むがこれらに限定されない揮発性メモリユニットまたは不揮発性メモリユニットであってもよい。通信ユニット330は、有線、光ファイバ、無線通信プロトコル、またはそれらの組み合わせを介して、HPU 300の外部から制御信号または他の通信を受信するための回路を含んでもよい。UI 340は、マウス、キーボード、タッチスクリーンインターフェース、ディスプレイ、グラフィカルUI(GUI)など、ローカルユーザからの指示を受けたり、および/または、ローカルユーザと通信したりするためのデバイスまたはポートを含んでもよい。
プロセッサ350を含むがこれに限定されないHPU 300の様々なコンポーネントは、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、および、マイクロコントローラ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、別のコンフィギュラブルまたはプログラマブルロジックデバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)などの集積回路(IC)デバイスで実装されてもよい。一例では、決定ユニット351、セグメント化ユニット352、および抽出ユニット353は、プロセッサ350内の回路として実装されてもよい。別の例では、決定ユニット351、セグメント化ユニット352、および抽出ユニット353は、プロセッサ350内のソフトウェアモジュールとして実装されてもよい。決定ユニット351、セグメント化ユニット352、および抽出ユニット353の様々なものは、回路部品、アルゴリズム、および/またはサブルーチンを互いに共有してもよい。
HPU 300によって実装される画像処理方法の一例を、図4~5に示す。ステップS401において、HPU 300は、例えば、I/Oユニット310を介して、画像信号を受信する。画像信号は、画像データの複数のフレームを含み、ライブフィードに対応していてもよい。ステップS401において、HPU 300は、画像信号に含まれる画像データの複数のフレームのうち、少なくとも1つのフレームに基づいて、画像分類を自動的に決定する。この決定は、図5に例示するように、一連のサブプロセスを含んでいてもよい。例えば、ステップS501において、HPU 300は、画像信号のコンテンツタイプを決定し、ステップS502において、HPU 300は、決定されたコンテンツタイプに基づいて、画像データを複数の特徴項目領域にセグメント化し、ステップS503において、HPU 300は、複数の特徴項目領域のそれぞれのものについて、少なくとも1つの画像アスペクト値を抽出する。画像分類は、プロセッサ350によって実行されてもよく、その場合、ステップS501のコンテンツタイプ決定は、決定ユニット351によって実行されてもよく、ステップS502の画像データセグメント化は、セグメント化ユニット352によって実行されてもよく、ステップS503の画像アスペクト値抽出は、抽出ユニット353によって実行されてもよい。当業者が明確に理解して評価することができるように、画像分類は、一般に、(例えば、ラベル付けまたはセグメント化によって)画像を多数の(例えば、事前に定義された)カテゴリに割り当てること、および/または、単一の画像を(例えば、画像内のコンテンツに基づいて)多数の領域に割り当てることを含んでもよいが、これに限定されない。特に、そのような割り当てまたはカテゴリ化は、様々な実装および/または要件に応じて、任意の適切な方法を用いて、任意の適切な基準および/または条件に基づいて実行することができる。例えば、割り当てまたはカテゴリ化は、それぞれの画像から決定されたコンテンツタイプに基づいて達成されてもよい。したがって、本開示では、一連のサブプロセス/サブルーチンS501~S503は、集合的に見て、画像分類プロセス/アルゴリズム、または略して、画像分類と呼ばれることがある。画像分類に基づいて、ステップS403(図4参照)において、HPU 300は、例えば、I/Oユニット310を介して、出力するためのマッピングメタデータを生成する。
[マッピングメタデータの生成と使用]
これらの方法は、例示的なシーンを示す図6~8を参照して、より詳細に説明される。具体的には、図6~8は、HDR配信ストリーム232および/または入力データ311のフレームであってもよい、画像データの個々のフレームの例を示す。図6は、コンテンツの種類がビーチバレーであるフレーム600を示す図である。図7は、コンテンツの種類がクリケットであるフレーム700を示す図である。図8は、コンテンツの種類がサッカー(アソシエーションフットボール)であるフレーム800を示す図である。図6~8のコンテンツタイプは、ライブスポーツに関するものであるが、本開示はこれに限定されない。例えば、コンテンツタイプは、スポーツのライブ中継、映画、ニュース番組、自然風景などであってもよい。
フレーム600、700、または800のような画像データのフレーム(または複数のフレーム)を受信すると、画像処理システムは、画像分類を決定する。これは、図4に図示されたステップS402の一例であってもよく、図3に図示されたHPU 300によって実行されてもよい。画像分類を決定する際に、画像処理システムは、コンテンツタイプを決定するが、これは、図5に図示されたステップS501の一例であってもよい。
コンテンツタイプは、画像フレームの様々な領域を分析し、1つ以上の信頼領域を決定することによって決定されてもよい。例えば、画像処理システムは、画像フレーム600を分析し、比較的ベージュ色を有する大部分が信頼領域601であり、信頼領域601が砂に対応する可能性が高いと決定してもよい。画像処理システムは、さらに、画像フレーム600の上部分が信頼領域602を含み、信頼領域602が顔に対応する可能性が高いと決定してもよい。同様に、画像処理システムは、画像フレーム700を分析して、大きな緑色の部分が信頼領域701であり、信頼領域701が芝生に対応する可能性が高いと決定してもよい。また、画像処理システムは、同じ色の異なるトーンを区別してもよい。例えば、図8に示されているように、画像処理システムは、画像フレーム800を分析して、左の部分が1つの信頼領域801を含み、右の部分が別の信頼領域802を含むと決定してもよい。画像処理システムは、信頼領域801および802がともに芝生に対応する可能性が高いと決定してもよいが、画像処理システムは、信頼領域801の影になった芝生と、信頼領域802の太陽に照らされた芝生とを区別してもよい。図6~8は、それぞれの信頼領域を円形として図示しているが、実際には、信頼領域は、楕円形、長方形、または他の任意の形状であってもよい。
信頼領域に基づいて、画像処理システムは、取りうるコンテンツタイプのランク付けされたリストまたはランク付けされていないリストを生成してもよい。例えば、図6において、画像処理システムは、画像フレーム600がビーチバレーを示す可能性が85%、画像フレーム600がビーチサッカーを示す可能性が12%、画像フレームがビーチテニスを示す可能性が4%などであると決定してもよい。この決定は、画像データの1フレームに基づいても、画像データの連続した一連のフレームに基づいても、画像データの連続しない一連のフレーム(例えば、4フレームごと)に基づいてもよい。また、この決定は、10フレームごと、30秒ごとなど、ブロードキャスト中に繰り返し行われてもよい。
コンテンツタイプが決定されると、画像処理システムは、画像データを1つ以上の特徴項目領域にセグメント化する。これは、図5に示されるステップS502の一例であってもよい。セグメント化は、コンテンツタイプ自体に基づいて行われてもよく、例えば、画像処理システムは、検索してセグメント化するための画像データ内の優先項目の順序付けられたセットを決定してもよい。例えば、図6のビーチバレーボールの例では、画像処理システムは、まず、砂の特徴項目の領域を検索し、次に、複数の顔が接近していることに基づく群衆の特徴項目の領域を検索して、セグメント化してもよい。また、図7に示すクリケットの例では、同様に、画像処理システムは、まず、芝生の特徴項目領域を検索し、次に、ジャージの色に基づいて第1チームの選手を検索するなどして、セグメント化してもよい。また、色や階調に基づいてセグメント化してもよく、例えば、図8に示すサッカーの例では、画像処理システムは、影になった芝生の特徴項目領域、太陽に照らされた芝生の特徴項目領域、などを検索してセグメント化してもよい。図8は、セグメント化を明示的に示しており、画像フレーム800が、第1の特徴項目領域810(太陽に照らされた芝生)と第2の特徴項目領域820(影になった芝生)とにセグメント化される。セグメント化は、画像データの単一フレーム、画像データの一連の連続したフレーム、または画像データの一連の非連続フレーム(例えば、4フレームごと)に基づいてもよい。セグメント化は、10フレームごと、30秒ごとなど、ブロードキャスト中に繰り返し実行されてもよい。本開示のいくつかの態様では、セグメント化は、コンテンツタイプの決定よりも頻繁に行われる。例えば、画像処理システムは、5秒ごとにコンテンツタイプを決定してもよく、一方、画像処理システムは、0.5秒ごとに画像データをセグメント化してもよい。
画像処理システムは、セグメント化された特徴項目領域から、特徴項目領域のそれぞれのものについて、少なくとも1つの画像アスペクト値を抽出してもよい。これは、図5に示したステップS503の一例であってもよい。画像アスペクト値は、それぞれの特徴項目領域の輝度情報に関するものであってもよい(ただし、これに限定されない)。例えば、画像アスペクト値は、限定されないが、輝度最大値、輝度最小値、輝度中間値、輝度平均値、輝度分散値などを含んでもよい。画像のアスペクト値は、ヒストグラムとして視覚的または記憶的に表現されてもよい。画像アスペクト値の分布は、画像コンテンツ(例えば、ピクセル値、ルマ値、クロマ値、Y値、Cb/Cr値、RGB値など)、シーン、ゲイン/オフセット/パワーなどに基づいて導出されてもよい。本開示のいくつかの態様では、抽出は、セグメント化が発生するたびに発生する。
画像処理システムによって実装されるルーチンおよびサブルーチンの1つ以上は、自動的に実行されてもよい。例えば、HPU 300は、深層学習のような機械学習アルゴリズムを利用してもよい。本明細書で使用される深層学習は、特徴抽出および/または変換のために非線形処理ユニットの複数の層のカスケードを使用する機械学習アルゴリズムのクラスを意味する。連続する各層は、前の層からの出力を入力として使用してもよい。深層学習は、教師あり(例:分類)および/または教師なし(例:パターン分析)の仕方で学習することができる。深層学習は、異なる抽象度に対応する複数のレベルの表現を学習し、そのレベルが概念の階層を形成するように使用することができる。そのような技術の例としては、D. Tranらによる仕事“Learning spatiotemporal features with 3d convolutional networks”,IEEE International Conference on Computer Vision (ICCV), 2015, pp.4489-4497、およびK. Zhangらによる仕事“Joint face detection and alignment using multitask cascaded convolutional networks”,IEEE Signal Processing Letters 23.10, 2016, pp.1499-1503が挙げられる。
決定されたコンテンツタイプ、特徴項目領域、および/または画像アスペクト値のうちの1つ以上を含む画像分類の結果は、図2に例示されたメタデータフィード235および/または図3に例示されたメタデータフィード313のような、マッピングメタデータを動的に生成するために使用されてもよい。当業者であれば理解できるように、マッピングメタデータは、様々な実装および/または要件に応じて、任意の適切な仕方を用いて生成されてもよい。例えば、マッピングメタデータの生成は、上で例示したように、決定されたコンテンツタイプ、特徴項目領域、および/または、画像アスペクト値の一部または全部に基づいて実行されてもよい。さらに、マッピングメタデータは、入力信号の処理に沿って動的に生成されてもよい。すなわち、(例えば、ライブフィードからの)入力画像/映像信号の受信時に、マッピングメタデータは、画像分類手順とともに(言い換えれば、コンテンツタイプ、特徴項目領域、および/または、画像アスペクト値の決定とともに)動的に生成されてもよく、それによって、画像/映像の再生時の品質、正確性、および効率を向上させると同時に、(例えば、ライブブロードキャスト中の)不要または望ましくない遅延を低減または回避することができる。大まかに言えば、マッピングメタデータは、入力信号から出力信号への変換(例えば、マッピング)を可能にしたり、容易にしたりするような仕方で生成されてもよい。例えば、入力信号と出力信号のダイナミックレンジが異なってもよい。この場合、変換は、(入力信号内の)第1のダイナミックレンジのデータを(出力信号内の)第2のダイナミックレンジのデータに変換することを含んでもよい。言い換えれば、メタデータは、第1のダイナミックレンジから(第1のダイナミックレンジより高くても低くてもよい)第2のダイナミックレンジへの画像データを変換する(ことを可能にする/容易にする)ために生成されてもよい。当業者であれば理解できるように、変換には、トーンおよび/または色域のマッピングが含まれるが、これに限定されるものではない。マッピングメタデータは、下流の画像処理で使用されるいくつかのコンポーネントまたはパラメータを含んでもよい。限定するものではないが一例として、本開示(特にその画像分類)は、ライブストリームをサッカーゲームとして認識してもよい。次に、本開示は、オブジェクトの優先リストを芝生の領域と(人間の)顔に決定または選択してもよい。その後、リスト上のオブジェクトごとに、それらの領域内のHDR PQプロファイルの特徴(例えば、平均、分散など)を算出してもよい。その後、そのような特徴を用いて、適切なトーンマッピングカーブを決定してもよい。マッピングの典型的なケースは、HDRフィードが0.001ニトから1000ニトまでの範囲であり、0.005ニトから100ニトまでのSDRにマッピングすることが可能であるという要件がある場合である。さらに、SDRはBT.1886規格に従って符号化されていてもよい。さらに、要件には、(人間の)顔は最大SDRコード値の約70%、芝生は最大SDRコード値の18%であることも記載されている。これは、しばしば70%IREおよび18%IREと言われ、IREとはInstitute of Radio Engineersの略で、テレビの動作プラクティスを定めた旧専門機関である。ここで、現在の一例(サッカーの試合)では、HDR信号において、顔は200ニト、芝生は40ニトにシェーディングされてもよいことを本開示が見出したと仮定する。すると、最適化アルゴリズムを駆動して、HDRの200ニトのピクセルがSDR信号の70%にマッピングされ、HDRの40ニトのピクセルがSDR信号の18%にマッピングされるように、トーンマッピングアルゴリズムのパラメータを選択することができる。当業者には、HDRの最大画素値とHDRの最小画素値とに追加の制約を加えて、これらがSDR信号の適切なレベルにマッピングされるようにしてもよいことが明らかである。図8に示されるように、マッピングメタデータは、表示時点(例えば、エンドユーザが所有する市販のテレビ)で使用されて、ダークおよびハイライトの両方を含む画像全体を忠実に再現するレンダリング画像フレーム830を表示することができる。本開示がドルビービジョンアーキテクチャで実装される1つの特定の例では、マッピングメタデータは、L1パラメータ、L2/L8パラメータ、L3パラメータ、L4パラメータ、L11パラメータなどを含んでもよい。
L1メタデータは、ソース画像やソースシーンなどにおける輝度値の分布に関する情報を提供または記述するものである。上述したように、画像のアスペクト値の分布は、画像コンテンツ(例えば、ピクセル値、ルマ値、クロマ値、Y値、Cb/Cr値、RGB値など)、シーンなどに基づいて導出されてもよい。L1メタデータは、画像データの1つ以上のシーンを代表する最小(「クラッシュ」)、中間調(「ミッド」)、最大(「クリップ」)の輝度値を表す量を含んでもよい。
L2メタデータは、映像特性の調整に関する情報を提供または記述するものであり、その調整は、ディレクタ、カラーグレーダ、映像のプロなどが行った調整に由来するか、またはそれに遡る。L2メタデータは、図2に示される入力変換器220、プロダクションスイッチャ221、QCユニット223、プレイアウトサーバ225、ファイルインジェスト226、および/またはポストプロダクション227など、プロダクションおよび/またはポストプロダクションで実行される処理に、少なくとも部分的に基づいていてもよい。L8メタデータは、L2メタデータと類似しており、場合によっては、(例えば、それぞれのトーンカーブに応じて)L2メタデータと同等であってもよい。L2メタデータおよびL8メタデータは、「トリム」パラメータと呼ばれることがあり、画像データのゲイン/オフセット/パワーを示してもよく、それに関してもよい。L2メタデータは、特定の基準ダイナミックレンジを持つ第1の基準ディスプレイに対応してもよい。
L3メタデータは、監督、カラーグレーダ、映像制作者などによる調整に由来する、またはそれに遡る映像特性の調整についての情報を提供または記述する。L2メタデータと比較して、L3メタデータは、第1の基準ディスプレイの基準ダイナミックレンジとは異なる基準ダイナミックレンジを有する第2の基準ディスプレイに対応してもよい。L3メタデータは、例えば、クラッシュ輝度値、ミッド輝度値、および/またはクリップ輝度値に対するオフセットまたは調整を含む、L1メタデータからのオフセットまたは調整を含んでもよい。
L4メタデータは、グローバルディミング動作に関する情報を提供または記述する。L4メタデータは、前処理の際にエンコーダによって計算されてもよく、RGBカラープライマリを使用して計算されてもよい。一例において、L4メタデータは、フレームごとにディスプレイパネルのグローバルバックライト輝度レベルを記述するデータを含んでもよい。L11メタデータのような他の生成されたメタデータは、映画コンテンツ、コンピュータゲームコンテンツ、スポーツコンテンツなど、映像データのソースを特定するために使用される情報を提供または記述してもよい。このようなメタデータは、さらに、意図されたホワイトポイント、シャープネスなど、意図された画像設定を提供または記述してもよい。
これらを総合すると、マッピングメタデータは、第1のダイナミックレンジから、第1のダイナミックレンジとは異なる第2のダイナミックレンジに変換するための変換データを含んでもよい。本開示のいくつかの態様では、第1のダイナミックレンジは、第2のダイナミックレンジよりも高くてもよい(例えば、HDRからSDRへの変換)。本開示の他の態様では、第2のダイナミックレンジは、第1のダイナミックレンジよりも高くてもよい(例えば、SDRからHDRへの変換)。図1を参照すると、マッピングメタデータは、画像102および画像103それぞれのような露出オーバーまたは露出アンダーを回避するために利用されてもよい。例えば、マッピングメタデータは、エンドユーザが所有する市販のテレビによるトーンマッピングに使用するために、画像データ自体に符号化されてもよい。
[同等物、拡張物、代替物、その他]
本明細書に記載されているプロセス、システム、方法、ヒューリスティックなどに関して、そのようなプロセスなどのステップは、ある順序にしたがって発生するものとして記載されていますが、そのようなプロセスは、記載されたステップを本明細書に記載された順序以外の順序で実行しても実施可能であることを理解すべきである。さらに、特定のステップが同時に実行され得ること、他のステップが追加され得ること、または本明細書に記載された特定のステップが省略され得ることも理解すべきである。言い換えれば、本明細書におけるプロセスの記述は、特定の実施形態を例示する目的で提供されており、決して特許請求の範囲を限定するように解釈すべきでない。
特許請求の範囲で使用されているすべての用語は、本明細書で反対のことが明示されていない限り、最も広い合理的な解釈と、本明細書に記載されている技術に精通している者が理解する通常の意味を与えることが意図されている。特に、「a」、「the」、「said」などの単数形の冠詞の使用は、請求項に明確な反対への限定が記載されていない限り、示された要素の1つ以上を記載していると読み取るべきである。
このように、映像のキャプチャ、分析、およびブロードキャストに関連する例示的な態様が説明されている。前述の明細書では、本発明の態様が、実装ごとに異なる可能性のある多数の特定の詳細を参照して説明されている。したがって、何が本発明であり、何が出願人によって本発明であると意図されているかを示す唯一かつ排他的な指標は、本出願から発行された請求項のセットであり、そのような請求項が発行された特定の形式であり、その後の修正を含む。このような請求項に含まれる用語について本明細書で明示的に定められた定義は、請求項で使用される当該用語の意味を規定する。したがって、請求項に明示的に記載されていない限定、要素、特性、特徴、利点、または属性は、いかなる仕方でも当該請求項の範囲を限定すべきではない。したがって、本明細書および図面は、限定的な意味ではなく例示的な意味で捉えられるべきである。
本開示の様々な例は、請求項ではない、以下の列挙された例示的な実施形態(EEE)のいずれか1つ以上を取ることができる。
EEE1.画像処理システムであって、画像データの複数のフレームを含む画像信号を受信するように構成された入力と、複数のフレームのうちの少なくとも1つのフレームに基づいて画像分類を自動的に決定し、画像分類に基づいてマッピングメタデータを動的に生成するように構成されたプロセッサと、を備え、プロセッサは、画像信号のコンテンツタイプを決定するように構成された決定回路と、コンテンツタイプに基づいて、画像データを複数の特徴項目領域にセグメント化するように構成されたセグメント化回路と、複数の特徴項目領域のそれぞれのものについて、少なくとも1つの画像アスペクト値を抽出するように構成された抽出回路と、を含む。
EEE2.EEE1に記載の画像処理システムであって、少なくとも1つの画像アスペクト値は、輝度最大値、輝度最小値、輝度中間値、輝度平均値、輝度分散値から選択される少なくとも1つを含む。
EEE3.EEE1またはEEE2に記載の画像処理システムであって、画像信号がライブ映像フィードである。
EEE4.EEE1からEEE3のいずれか1つに記載の画像処理システムであって、画像信号およびマッピングメタデータを符号化するように構成されたエンコーダをさらに備える。
EEE5.EEE1からEEE4のいずれか1つに記載の画像処理システムであって、マッピングメタデータは、第1のダイナミックレンジから、第1のダイナミックレンジとは異なる第2のダイナミックレンジに変換するための変換データを含む。
EEE6.EEE5に記載の画像処理システムであって、第1のダイナミックレンジは第2のダイナミックレンジよりも高い。
EEE7.画像処理方法であって、画像データの複数のフレームを含む画像信号を受信するステップと、複数のフレームのうち少なくとも1つのフレームに基づいて画像分類を自動的に決定するステップであって、画像信号のコンテンツタイプを決定するステップと、コンテンツタイプに基づいて、画像データを複数の空間領域に分割するステップと、複数の空間領域のそれぞれについて、少なくとも1つの画像アスペクト値を抽出するステップと、画像分類に基づいて、マッピングメタデータの複数のフレームを生成するステップであって、マッピングメタデータの複数のフレームのそれぞれ1つが、画像データの複数のフレームのそれぞれ1つに対応する、生成するステップと、を含む、画像分類を自動的に決定するステップと、を備える。
EEE8.EEE7に記載の画像処理方法であって、少なくとも1つの画像アスペクト値は、輝度最大値、輝度最小値、輝度中間値、輝度平均値、または輝度分散値から選択される少なくとも1つを含む。
EEE9.EEE7またはEEE8に記載の画像処理方法であって、それぞれの特徴項目領域は、風景領域、影領域、空領域、顔検出領域、群衆領域から選択された少なくとも1つを指示する。
EEE10.EEE7からEEE9のいずれか1つに記載の画像処理方法であって、画像信号がライブ映像フィードである。
EEE11.EEE7からEEE10のいずれか1つに記載の画像処理方法であって、画像信号およびマッピングメタデータを圧縮出力信号に符号化するステップをさらに含む。
EEE12.EEE7からEEE11のいずれか1つに記載の画像処理方法であって、マッピングメタデータは、第1のダイナミックレンジから、第1のダイナミックレンジとは異なる第2のダイナミックレンジに変換するための変換データを含む。
EEE13.EEE12に記載の画像処理方法において、第1のダイナミックレンジは第2のダイナミックレンジよりも高い。
EEE14.命令を格納した非一時的なコンピュータ可読媒体であって、命令が画像処理システムのプロセッサによって実行されると、画像処理システムに、画像データの複数のフレームを含む画像信号を受信するステップと、複数のフレームのうちの少なくとも1つのフレームに基づいて、画像分類を自動的に決定するステップと、を含む動作を実行させ、決定するステップは、画像信号のコンテンツタイプを決定するステップと、コンテンツタイプに基づいて画像データを複数の空間領域に分割するステップと、複数の空間領域のそれぞれ1つについて少なくとも1つの画像アスペクト値を抽出するステップと、フレームごとに、画像分類に基づいてマッピングメタデータを動的に生成するステップと、を含む。
EEE15.EEE14に記載の非一時的なコンピュータ可読媒体であって、少なくとも1つの画像アスペクト値は、輝度最大値、輝度最小値、輝度中間値、輝度平均値、または輝度分散値から選択された少なくとも1つを含む。
EEE16.EEE14またはEEE15に記載の非一過性のコンピュータ可読媒体であって、それぞれの特徴項目領域は、風景領域、影領域、空領域、顔検出領域、群衆領域から選択された少なくとも1つを指示する。
EEE17.EEE14からEEE16のいずれか1つに記載の非一時的なコンピュータ可読媒体であって、画像信号がライブ映像フィードである。
EEE18.EEE14からEEE17のいずれか1つに記載の非一時的なコンピュータ可読媒体であって、さらに、画像信号とマッピングメタデータを符号化するステップを含む。
EEE19.EEE14からEEE18のいずれか1つに記載の非一時的なコンピュータ可読媒体であって、マッピングメタデータは、HDR信号とSDR信号の間で変換するための変換データを含む。
EEE20.EEE19に記載の非一時的なコンピュータ可読媒体であって、マッピングメタデータは、HDR信号からSDR信号に変換するための変換データを含む。

Claims (18)

  1. 画像データの複数のフレームの画像データを含む画像信号を受信するように構成された入力と、
    前記複数のフレームのうち少なくとも1つのフレームに基づいて画像分類を自動的に決定し、前記画像分類に基づいてマッピングメタデータを動的に生成するように構成されたプロセッサと、
    を備え、前記プロセッサは、
    前記画像信号のコンテンツタイプを決定するように構成された決定回路と、
    前記コンテンツタイプに基づいて、前記画像データを複数の特徴項目領域にセグメント化するように構成されたセグメント化回路と、
    前記複数の特徴項目領域のそれぞれについて、少なくとも1つの画像輝度値を抽出するように構成された抽出回路と、
    を含み、
    前記決定回路は、前記フレームの領域を分析し、1つ以上の信頼領域を決定することにより、前記コンテンツタイプを決定するように構成され、
    前記コンテンツタイプの決定は、前記1つ以上の信頼領域に基づいて、取りうるコンテンツタイプのランク付けされたまたはランク付けされていないリストを生成することを含み、
    前記画像データのセグメント化は、前記決定されたコンテンツタイプに基づいて、検索してセグメント化する、前記画像データ中の優先項目の順序付けられたセットを決定することを含み、
    前記マッピングメタデータは、前記コンテンツタイプ、前記特徴項目領域、および/または画像輝度値に基づいて動的に生成され、
    前記マッピングメタデータは、第1のダイナミックレンジから、前記第1のダイナミックレンジとは異なる第2のダイナミックレンジに変換するためのトーンおよび/または色域マッピングデータを含む、
    画像処理システム。
  2. 前記少なくとも1つの画像輝度値は、輝度最大値、輝度最小値、輝度中間値、輝度平均値、または輝度分散値から選択された少なくとも1つを含む、請求項1に記載の画像処理システム。
  3. それぞれの特徴項目領域は、風景領域、影領域、空領域、顔検出領域、群衆領域から選択される少なくとも1つを指示する、請求項1または2に記載の画像処理システム。
  4. 前記画像信号はライブ映像フィードである、請求項1から3のいずれか一項に記載の画像処理システム。
  5. 前記画像信号および前記マッピングメタデータを符号化するように構成されたエンコーダをさらに備える、請求項1から4のいずれか一項に記載の画像処理システム。
  6. 前記第1のダイナミックレンジは前記第2のダイナミックレンジよりも高い、請求項1に記載の画像処理システム。
  7. 画像データの複数のフレームを含む画像信号を受信するステップと、
    前記複数のフレームのうちの少なくとも1つのフレームに基づいて、画像分類を自動的に決定するステップであって、
    前記画像信号のコンテンツタイプを決定するステップと、
    前記コンテンツタイプに基づいて、前記画像データを複数の空間領域にセグメント化するステップと、
    前記複数の空間領域のそれぞれについて、少なくとも1つの画像輝度値を抽出するステップと、
    を含む、決定するステップと、
    前記画像分類に基づいて、マッピングメタデータの複数のフレームを生成するステップであって、前記マッピングメタデータの複数のフレームのそれぞれ1つは、前記画像データの複数のフレームのそれぞれ1つに対応する、生成するステップと、
    を含み、
    前記コンテンツタイプは、前記フレームの領域を分析し、1つ以上の信頼領域を決定することによって決定され、
    前記コンテンツタイプの前記決定は、前記1つ以上の信頼領域に基づいて、取りうるコンテンツタイプのランク付けされたまたはランク付けされていないリストを生成することを含み、
    前記画像データのセグメント化は、前記決定されたコンテンツタイプに基づいて、検索してセグメント化する、前記画像データ中の優先項目の順序付けられたセットを決定することを含み、
    前記マッピングメタデータは、前記コンテンツタイプ、前記空間領域、および/または画像輝度値に基づいて動的に生成され、
    前記マッピングメタデータは、第1のダイナミックレンジから、前記第1のダイナミックレンジとは異なる第2のダイナミックレンジに変換するためのトーンおよび/または色域マッピングデータを含む、画像処理方法。
  8. 前記少なくとも1つの画像輝度値は、輝度最大値、輝度最小値、輝度中間値、輝度平均値、または輝度分散値から選択される少なくとも1つを含む、請求項7に記載の画像処理方法。
  9. それぞれの特徴項目領域は、風景領域、影領域、空領域、顔検出領域、群衆領域から選択される少なくとも1つを指示する、請求項7または8に記載の画像処理方法。
  10. 前記画像信号は、ライブ映像フィードである、請求項7から9のいずれか一項に記載の画像処理方法。
  11. 前記画像信号と前記マッピングメタデータを圧縮出力信号に符号化する、請求項7から10のいずれか一項に記載の画像処理方法。
  12. 前記第1のダイナミックレンジは前記第2のダイナミックレンジよりも高い、請求項7に記載の画像処理方法。
  13. 画像処理システムのプロセッサによって実行されると、画像処理システムに、
    画像データの複数のフレームを含む画像信号を受信するステップと、
    前記複数のフレームのうちの少なくとも1つのフレームに基づいて、画像分類を自動的に決定するステップであって、
    前記画像信号のコンテンツタイプを決定するステップと、
    前記コンテンツタイプに基づいて、前記画像データを複数の空間領域にセグメント化するステップと、
    前記複数の空間領域のそれぞれについて、少なくとも1つの画像輝度値を抽出するステップと、
    を含む、決定するステップと、
    フレームごとに、前記画像分類に基づいてマッピングメタデータを動的に生成するステップと、
    を備える動作を実行させる命令を格納し、
    前記コンテンツタイプは、前記フレームの領域を分析し、1つ以上の信頼領域を決定することによって決定され、
    前記コンテンツタイプの前記決定は、前記1つ以上の信頼領域に基づいて、取りうるコンテンツタイプのランク付けされたまたはランク付けされていないリストを生成することを含み、
    前記画像データのセグメント化は、前記決定されたコンテンツタイプに基づいて、検索してセグメント化する、前記画像データ中の優先項目の順序付けられたセットを決定することを含み、
    前記マッピングメタデータは、前記コンテンツタイプ、前記空間領域、および/または画像輝度値に基づいて動的に生成され、
    前記マッピングメタデータは、第1のダイナミックレンジから、前記第1のダイナミックレンジとは異なる第2のダイナミックレンジに変換するためのトーンおよび/または色域マッピングデータを含む、非一時的なコンピュータ可読媒体。
  14. 前記少なくとも1つの画像輝度値は、輝度最大値、輝度最小値、輝度中間値、輝度平均値、または輝度分散値から選択される少なくとも1つを含む、請求項13に記載の非一時的なコンピュータ可読媒体。
  15. それぞれの特徴項目領域は、風景領域、影領域、空領域、顔検出領域、群衆領域から選択される少なくとも1つを指示する、請求項13または14に記載の非一時的なコンピュータ可読媒体。
  16. 前記画像信号はライブ映像フィードである、請求項13から15のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  17. 前記画像信号および前記マッピングメタデータを符号化するステップをさらに備える、請求項13から16のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  18. 前記マッピングメタデータは、HDR信号からSDR信号に変換するための変換データを含む、請求項13に記載の非一時的なコンピュータ可読媒体。
JP2021559842A 2019-04-25 2020-04-20 ライブフィードにおけるコンテンツアウェアpqレンジアナライザとトーンマッピング Active JP7092952B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962838518P 2019-04-25 2019-04-25
EP19171057.3 2019-04-25
EP19171057 2019-04-25
US62/838,518 2019-04-25
PCT/US2020/029023 WO2020219401A1 (en) 2019-04-25 2020-04-20 Content-aware pq range analyzer and tone mapping in live feeds

Publications (2)

Publication Number Publication Date
JP2022524651A JP2022524651A (ja) 2022-05-09
JP7092952B2 true JP7092952B2 (ja) 2022-06-28

Family

ID=70482932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021559842A Active JP7092952B2 (ja) 2019-04-25 2020-04-20 ライブフィードにおけるコンテンツアウェアpqレンジアナライザとトーンマッピング

Country Status (6)

Country Link
US (1) US20220180635A1 (ja)
EP (1) EP3959646B1 (ja)
JP (1) JP7092952B2 (ja)
CN (1) CN113748426B (ja)
ES (1) ES2945657T3 (ja)
WO (1) WO2020219401A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11617946B1 (en) 2021-06-29 2023-04-04 Amazon Technologies, Inc. Video game streaming with dynamic range conversion
US11666823B1 (en) 2021-06-29 2023-06-06 Amazon Technologies, Inc. Video game streaming with dynamic range conversion
US11612812B1 (en) * 2021-06-29 2023-03-28 Amazon Technologies, Inc. Video game streaming with dynamic range conversion
WO2024064054A1 (en) * 2022-09-23 2024-03-28 Apple Inc. Method and device for generating metadata estimations based on metadata subdivisions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132243A (ja) 2000-10-27 2002-05-09 Sony Corp 画像処理装置および方法、並びに記録媒体
US20100329554A1 (en) 2009-06-29 2010-12-30 Jiefu Zhai Automatic exposure estimation for HDR images based on image statistics
JP2012532335A (ja) 2009-06-29 2012-12-13 トムソン ライセンシング ゾーン・ベースのトーン・マッピング
CN103024300A (zh) 2012-12-25 2013-04-03 华为技术有限公司 一种高动态范围图像显示方法及装置
JP2013520687A (ja) 2010-02-19 2013-06-06 トムソン ライセンシング 高ダイナミックレンジのビデオ・トーン・マッピングのためのパラメータ補間

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020263B2 (en) * 2008-02-15 2015-04-28 Tivo Inc. Systems and methods for semantically classifying and extracting shots in video
TWI479898B (zh) * 2010-08-25 2015-04-01 Dolby Lab Licensing Corp 擴展影像動態範圍
WO2014140219A1 (en) * 2013-03-15 2014-09-18 Ventana Medical Systems, Inc. Spectral unmixing
CN111246050B (zh) * 2014-02-25 2022-10-28 苹果公司 用于视频数据处理的系统、装置和方法
AU2015357088A1 (en) * 2014-12-03 2017-05-18 Oregon Health & Science University Methods, systems, and apparatuses for quantitative analysis of heterogeneous biomarker distribution
KR20170091744A (ko) * 2015-01-19 2017-08-09 돌비 레버러토리즈 라이쎈싱 코오포레이션 높은 동적 범위 비디오에 대한 디스플레이 관리
US10778983B2 (en) * 2015-09-23 2020-09-15 Dolby Laboratories Licensing Corporation Preserving texture/noise consistency in video codecs
US9681182B2 (en) * 2015-11-02 2017-06-13 Disney Enterprises, Inc. Real-time transmission of dynamic range tags in a video broadcast
US10593028B2 (en) * 2015-12-03 2020-03-17 Samsung Electronics Co., Ltd. Method and apparatus for view-dependent tone mapping of virtual reality images
US10242449B2 (en) * 2017-01-04 2019-03-26 Cisco Technology, Inc. Automated generation of pre-labeled training data
US10719936B2 (en) * 2017-04-27 2020-07-21 Retinascan Limited System and method for automated funduscopic image analysis
US10685236B2 (en) * 2018-07-05 2020-06-16 Adobe Inc. Multi-model techniques to generate video metadata

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132243A (ja) 2000-10-27 2002-05-09 Sony Corp 画像処理装置および方法、並びに記録媒体
US20100329554A1 (en) 2009-06-29 2010-12-30 Jiefu Zhai Automatic exposure estimation for HDR images based on image statistics
JP2012532335A (ja) 2009-06-29 2012-12-13 トムソン ライセンシング ゾーン・ベースのトーン・マッピング
JP2013520687A (ja) 2010-02-19 2013-06-06 トムソン ライセンシング 高ダイナミックレンジのビデオ・トーン・マッピングのためのパラメータ補間
CN103024300A (zh) 2012-12-25 2013-04-03 华为技术有限公司 一种高动态范围图像显示方法及装置

Also Published As

Publication number Publication date
JP2022524651A (ja) 2022-05-09
CN113748426B (zh) 2023-06-09
CN113748426A (zh) 2021-12-03
ES2945657T3 (es) 2023-07-05
EP3959646B1 (en) 2023-04-19
EP3959646A1 (en) 2022-03-02
US20220180635A1 (en) 2022-06-09
WO2020219401A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP7092952B2 (ja) ライブフィードにおけるコンテンツアウェアpqレンジアナライザとトーンマッピング
EP3295450B1 (en) Backlight control and display mapping for high dynamic range images
CN109219844B (zh) 在视频优先级与图形优先级之间转换
Lin et al. Image enhancement using the averaging histogram equalization (AVHEQ) approach for contrast improvement and brightness preservation
Veluchamy et al. Fuzzy dissimilarity color histogram equalization for contrast enhancement and color correction
US9679366B2 (en) Guided color grading for extended dynamic range
US20180130188A1 (en) Image highlight detection and rendering
US20110116713A1 (en) Image contrast enhancement apparatus and method thereof
KR101985880B1 (ko) 디스플레이 장치 및 이의 제어 방법
Boitard et al. Zonal brightness coherency for video tone mapping
JP6934240B2 (ja) 画像処理装置
JP2023516184A (ja) 逆トーンマッピングのための方法及び装置
JP2008042893A (ja) ビデオコンテンツ検出器
JP5084615B2 (ja) 画像表示装置
CN113099191B (zh) 一种图像处理方法及装置
US20220261970A1 (en) Methods, systems and computer program products for generating high dynamic range image frames
CN115918061A (zh) 用于高动态范围视频的图片元数据
KR20160025876A (ko) 영상의 대비 강화 방법 및 장치
WO2019233800A1 (en) Adjusting parameters of light effects specified in a light script
US20230230617A1 (en) Computing dynamic metadata for editing hdr content
Qian et al. A local tone mapping operator for high dynamic range images
WO2024020482A1 (en) Color-grading content based on similarity to exemplars
CN117876280A (zh) 视频帧图像增强方法、系统及存储介质
JP2019208205A (ja) 試験測定装置、変更画像生成方法及びコンピュータ・プログラム
CN118101854A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20211208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220304

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220304

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220616

R150 Certificate of patent or registration of utility model

Ref document number: 7092952

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150