JP6973412B2 - 情報処理装置および方法 - Google Patents

情報処理装置および方法 Download PDF

Info

Publication number
JP6973412B2
JP6973412B2 JP2018559029A JP2018559029A JP6973412B2 JP 6973412 B2 JP6973412 B2 JP 6973412B2 JP 2018559029 A JP2018559029 A JP 2018559029A JP 2018559029 A JP2018559029 A JP 2018559029A JP 6973412 B2 JP6973412 B2 JP 6973412B2
Authority
JP
Japan
Prior art keywords
unit
voxel
subject
coding
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018559029A
Other languages
English (en)
Other versions
JPWO2018123611A1 (ja
Inventor
公志 江島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018123611A1 publication Critical patent/JPWO2018123611A1/ja
Application granted granted Critical
Publication of JP6973412B2 publication Critical patent/JP6973412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Generation (AREA)
  • Image Processing (AREA)

Description

本開示は、情報処理装置および方法に関し、特に、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができるようにした情報処理装置および方法に関する。
近年、3次元領域を任意の視点位置から見た画像(自由視点画像とも称する)を表示するために、複数台の撮像装置により互いに異なる視点位置からその3次元領域を撮像し、それらの撮像画像から上述の自由視点画像を生成する方法が考えられた(例えば、特許文献1参照)。
このような従来の手法では各撮像画像を互いに独立に符号化することにより情報量の削減が行われていたが、より長時間、より広範囲を、より多くの撮像装置で撮像し、記録すると、それに伴いデータ量が増大し、データの記録や伝送が困難になるおそれがあった。これに対して各撮像画像の圧縮率を増大させることにより符号化効率の低減を抑制することが可能である。
特開2015−114716号公報
しかしながら、一般的には、このような3次元領域には、比較的注目度の高い部分と、比較的注目度の低い部分とが存在するが、このような傾向を無視して各撮像画像の圧縮率を一律に増大させると、比較的注目度の高い部分(すなわち、比較的に自由視点画像に含まれやすい部分)の品質が、比較的注目度の低い部分(すなわち、比較的に自由視点画像に含まれにくい部分)と同様に低減してしまうので、自由視点画像を見るユーザにとってのその自由視点画像の品質(主観的品質とも称する)が不要に低減してしまうおそれがあった。
本開示は、このような状況に鑑みてなされたものであり、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができるようにするものである。
本技術の一側面の情報処理装置は、3次元領域における単位領域であるボクセルであって、複数の撮像部の撮像範囲である視野の重なりに関するパラメータが第1の閾値よりも大きなピークボクセルを検出し、前記ピークボクセルの周辺において前記第1の閾値よりも小さい第2の閾値よりも前記パラメータが大きな前記ボクセルである周辺ボクセルを検出し、前記ピークボクセルおよび前記周辺ボクセルが被写体を含むと判定する被写体判定部と、前記被写体判定部により前記被写体を含むと判定された前記ボクセルに対して、前記被写体判定部により前記被写体を含まないと判定された前記ボクセルよりも大きな重みを設定する重み付け部と、前記重み付け部により設定された前記重みに基づいて、前記3次元領域に関する情報を符号化する符号化部とを備える情報処理装置である。
前記重み付け部は、前記3次元領域内の視聴不可能なボクセルに対してより小さな前記重みを設定することができる。
前記重み付け部は、前記3次元領域内の視聴可能な領域の分布を示す視聴可能領域マップに基づいて特定される視聴不可能な前記ボクセルに対してより小さな前記重みを設定することができる。
各ボクセルについて前記パラメータを算出するパラメータ算出部をさらに備え、前記被写体判定部は、前記パラメータ算出部により算出された前記パラメータを用いて前記ボクセルが前記被写体を含むかを判定することができる。
前記パラメータ算出部は、各撮像部の撮像範囲を示す視野錐の位置、方向、大きさ、形状に基づいて、各ボクセルについて前記パラメータを算出することができる。
前記パラメータ算出部は、さらに、前記ボクセルの前記視野錐内の位置に基づいて前記パラメータを算出することができる。
前記パラメータ算出部は、前記撮像部の位置および姿勢に基づいて前記視野錐を推定することができる。
前記パラメータ算出部は、さらに前記撮像部の内部パラメータに基づいて前記視野錐を推定することができる。
前記パラメータ算出部は、さらにデプス情報に基づいて前記視野錐を推定することができる。
前記重み付け部により設定された前記3次元領域内の前記重みの分布を、前記3次元領域の撮像画像に対応付ける重み映像対応付け部をさらに備え、前記符号化部は、前記重み映像対応付け部により前記撮像画像に対応付けられた前記重みの分布に基づいて前記撮像画像を符号化するように構成されるようにすることができる。
前記符号化部は、前記重みの分布に応じて、前記撮像画像の符号化のビットレートまたは符号化モードを制御することができる。
前記重み付け部により設定された前記3次元領域内の前記重みの分布を、前記3次元領域内の音声に対応付ける重み音声対応付け部をさらに備え、前記符号化部は、前記重み音声対応付け部により前記音声に対応付けられた前記重みの分布に基づいて前記音声を符号化するように構成されるようにすることができる。
前記符号化部は、前記重みの分布に応じて、前記音声の符号化のビットレートまたは符号化モードを制御することができる。
前記重み付け部により設定された前記3次元領域内の前記重みの分布を、前記3次元領域の3次元構造を示す3次元構造データに対応付ける重み3次元構造対応付け部をさらに備え、前記符号化部は、前記重み3次元構造対応付け部により前記3次元構造データに対応付けられた前記重みの分布に基づいて前記3次元構造データを符号化するように構成されるようにすることができる。
前記符号化部は、前記重みの分布に応じて、前記3次元構造データの符号化の、3次元を表現する頂点数の近似・削除率を制御することができる。
本技術の一側面の情報処理方法は、3次元領域における単位領域であるボクセルであって、複数の撮像部の撮像範囲である視野の重なりに関するパラメータが第1の閾値よりも大きなピークボクセルを検出し、前記ピークボクセルの周辺において前記第1の閾値よりも小さい第2の閾値よりも前記パラメータが大きな前記ボクセルである周辺ボクセルを検出し、前記ピークボクセルおよび前記周辺ボクセルが被写体を含むと判定し、前記被写体を含むと判定された前記ボクセルに対して、前記被写体を含まないと判定された前記ボクセルよりも大きな重みを設定し、設定された前記重みに基づいて、前記3次元領域に関する情報を符号化する情報処理方法である。
本技術の一側面の情報処理装置および方法においては、3次元領域における単位領域であるボクセルであって、複数の撮像部の撮像範囲である視野の重なりに関するパラメータが第1の閾値よりも大きなピークボクセルが検出され、そのピークボクセルの周辺において第1の閾値よりも小さい第2の閾値よりもパラメータが大きなボクセルである周辺ボクセルが検出され、そのピークボクセルおよび周辺ボクセルが被写体を含むと判定され、被写体を含むと判定されたボクセルに対して、被写体を含まないと判定されたボクセルよりも大きな重みが設定され、その設定された重みに基づいて、3次元領域に関する情報が符号化される。
本開示によれば、情報を処理することができる。特に、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができる。
撮像の様子の例を示す図である。 撮像記憶システムの主な構成例を示す図である。 符号化装置の主な構成例を示すブロック図である。 視野重複度算出部の主な構成例を示すブロック図である。 品質重み統合部の主な構成例を示すブロック図である。 ボリューム情報の対応付けの様子の例を示す図である。 ボリューム情報の対応付けの様子の例を示す図である。 符号化処理の流れの例を説明するフローチャートである。 視野重複度算出処理の流れの例を説明するフローチャートである。 重複度ボリューム更新処理の流れの例を説明するフローチャートである。 被写体検出処理の流れの例を説明するフローチャートである。 品質重み統合処理の流れの例を説明するフローチャートである。 重み付け符号化処理の流れの例を説明するフローチャートである。 撮像記憶システムの主な構成例を示す図である。 撮像伝送システムの主な構成例を示す図である。 コンピュータの主な構成例を示すブロック図である。
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.自由視点画像用撮像画像の符号化
2.第1の実施の形態(撮像記憶システム)
3.第2の実施の形態(撮像記憶システム)
4.第3の実施の形態(撮像伝送システム)
5.第4の実施の形態(コンピュータ)
6.その他
<1.自由視点画像用撮像画像の符号化>
近年、例えば特許文献1に記載の手法のように、3次元領域を任意の視点位置から見た画像(自由視点画像とも称する)を表示するために、複数台の撮像装置により互いに異なる視点位置からその3次元領域を撮像し、それらの撮像画像から上述の自由視点画像を生成する方法が考えられた。
例えば、複数の撮像装置と画像処理装置を有するシステムが、所定の3次元領域において、その複数の撮像装置を用いて複数の方向を撮像したり、各撮像装置の姿勢(撮像方向)を変えながら撮像を行ったり、各撮像装置の位置(撮像位置)を移動させながら撮像を行ったりすることで多数の撮像方向・撮像位置の撮像画像群(画像データ群)を得る。そして、そのシステムが画像処理装置を用いてこの画像データ群に基づいてその3次元領域内の任意の視点位置・視点方向の画像(自由視点画像)を生成する。
このようなシステムにより、例えば史跡・景観地といった観光地のような広範囲において自由視点画像を提供することができる。例えば、図1のAに示されるように、銅像等の所定の被写体を視聴者が様々な視点から自由視点画像を楽しむ被写体ケースと、図1のBに示されるように、展望台等の所定の位置から視聴者の周囲360°自由な方向の自由視点映像を楽しむ全天球ケースと、それらが混在するケースとがありうる。このようなシステムの各撮像装置が固定されず連携して動く事で1つのシステムでこれら複数のケースを含む広範囲・長時間の自由視点映像の撮影を可能とする。
このような広範囲を撮像可能なシステムにおいて自由視点画像生成のために必要な画像、音声、3次元構造を記録するには膨大なサイズのデータが必要となり、それを保存・伝送する設備にかかるコストも非常に大きくなるおそれがあった。これに対して従来の手法では、各撮像画像を互いに独立に符号化することにより情報量の削減が行われていた。しかしながら、近年は、より長時間、より広範囲を、より多くの撮像装置で撮像し、記録することが求められており、その場合、データ量が増大し、データの記録や伝送が困難になるおそれがあった。
これに対して各撮像画像の圧縮率を増大させることにより符号化効率の低減を抑制することが可能である。しかしながら、一般的には、このような3次元領域には、比較的注目度の高い部分と、比較的注目度の低い部分とが存在するが、このような傾向を無視して各撮像画像の圧縮率を一律に増大させると、比較的注目度の高い部分(すなわち、比較的に自由視点画像に含まれやすい部分)の品質が、比較的注目度の低い部分(すなわち、比較的に自由視点画像に含まれにくい部分)と同様に低減してしまうので、自由視点画像を見るユーザにとってのその自由視点画像の品質(主観的品質とも称する)が不要に低減してしまうおそれがあった。
また、例えば、CG(Computer Graphics)等ではプレイヤからの距離に応じて3次元構造(ポリゴン等)の品質を制御する技術が存在するが、上述の自由視点画像の場合、撮像時と視聴時とで視点が一致しない可能性がある。そのため、このような制御方法では、3次元領域の注目度(重要度)に応じて正しく品質を制御することは困難であった。そのため、自由視点画像の主観的品質が不要に低減するおそれがあった。
そこで、複数の撮像部の撮像範囲である視野の重なりに関するパラメータを用いて特定された、その複数の撮像部による撮像の対象となる3次元領域の視野の重なりに関する分布に基づいて、その3次元領域に関する情報を符号化するようにする。
例えば、情報処理装置において、複数の撮像部の撮像範囲である視野の重なりに関するパラメータを用いて特定された、その複数の撮像部による撮像の対象となる3次元領域の視野の重なりに関する分布に基づいて、その3次元領域に関する情報を符号化する符号化部とを備えるようにする。
このようにすることにより、3次元領域の重要度の分布に応じた適切な手法で符号化を行うことができるので、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができる。
<2.第1の実施の形態>
<撮像記憶システム>
図2は、本技術を適用した情報処理システムの一実施の形態である撮像記憶システムの主な構成例を示すブロック図である。図2に示される撮像記憶システム100は、3次元領域を撮像して自由視点画像生成用の撮像画像を生成し、記憶するシステムである。
図2に示されるように、撮像記憶システム100は、撮像装置111−1乃至撮像装置111−N、姿勢制御装置112−1乃至姿勢制御装置112−N、制御装置113、符号化装置114、並びにストレージ115を有する(Nは任意の自然数)。以下において、撮像装置111−1乃至撮像装置111−Nを互いに区別して説明する必要がない場合、撮像装置111とも称する。また、姿勢制御装置112−1乃至姿勢制御装置112−Nを互いに区別して説明する必要がない場合、姿勢制御装置112とも称する。
撮像装置111は、撮像機能を有し、被写体を撮像して撮像画像を得る。撮像装置111の位置や姿勢は、自身に対応する姿勢制御装置112により制御される。また、撮像装置111の撮像タイミングや撮像に関する設定は、制御装置113により制御される。撮像装置111は、撮像して得られた撮像画像を符号化装置114に供給する。
姿勢制御装置112は、例えばアームや回転台等により構成され、駆動することにより自身に設置された撮像装置111の位置や姿勢を制御する。なお、姿勢制御装置112は、制御装置113により制御される。
制御装置113は、各撮像装置111および各姿勢制御装置112の制御に関する処理を行う。例えば、制御装置113は、撮像装置111が所望の位置や姿勢になるように、その撮像装置111が設置される姿勢制御装置112を駆動させる。また、例えば、制御装置113は、撮像に関するパラメータを撮像装置111に供給したり、そのパラメータを用いて所望のタイミングで撮像を行うように撮像装置111を駆動させたりする。さらに、制御装置113は、撮像装置111や姿勢制御装置112から任意の情報を取得することができるように構成される。例えば、制御装置113は、撮像装置111の位置や姿勢に関する情報を撮像装置111や姿勢制御装置112から取得する。
さらに、制御装置113は、任意の情報を符号化装置114に供給することができるように構成される。例えば、制御装置113は、各撮像装置111の位置や姿勢に関する情報を符号化装置114に供給する。
符号化装置114は、各撮像装置111から供給される撮像画像を符号化する。その際、符号化装置114は、各撮像装置111の位置関係等から導かれる視野重複度と、撮影者によって設定される視聴可能領域マップ等によって、映像・音声・3次元構造の保存品質を動的に制御する。これにより符号化装置114は、品質の低減を抑制しながら、記録サイズを圧縮することができる。符号化装置114は、生成した符号化データをストレージ115に供給する。
ストレージ115は、ハードディスクや半導体メモリ等、任意の記憶媒体を有し、任意の情報を記憶することができるように構成される。ストレージ115は、符号化装置114から供給される符号化データを、その記憶媒体に記憶する。
<符号化装置>
図3は、本技術を適用した情報処理装置の一実施の形態である符号化装置114(図2)の主な構成例を示すブロック図である。図3に示されるように、符号化装置114は、視野重複度算出部131、品質重み統合部132、映像符号化部133、音声符号化部134、3次元構造符号化部135、および出力部136を有する。
視野重複度算出部131は、撮像装置111の撮像範囲である視野の重なりに関するパラメータである視野重複度(重複度ボリュームとも称する)の算出に関する処理を行う。視野重複度算出部131には、例えば、撮像位置推定情報151、撮像内部パラメータ152、およびデプス情報等の撮像に関する情報が供給される。撮像位置推定情報151は、各撮像装置111の推定された撮像位置や撮像方向等を示す情報である。撮像内部パラメータ152は、撮像時に用いられた各撮像装置111の内部パラメータを示す情報である。デプス(Depth)情報153は、撮像画像に含まれる被写体の奥行きを示す情報である。視野重複度算出部131は、これらの情報を用いて視野重複度や、被写体の位置を示す情報である被写体情報を求める。視野重複度算出部131は、その視野重複度を示す情報や被写体情報を品質重み統合部132に供給する。
品質重み統合部132は、視野重複度算出部131から供給される視野重複度を示す情報や被写体情報、並びに、3次元領域内の視聴可能な領域の分布を示す視聴可能領域マップ等に基づいて、撮像装置111による撮像の対象となる3次元領域について品質に関する重み付けを行い、品質重み(品質重みボリュームとも称する)の分布を設定する。なお、品質重み(品質重みボリューム)とは、撮像装置111による撮像の対象となる3次元領域について品質に関する重みである。品質重み統合部132は、その設定した品質重みの分布を、画像、音声、3次元構造等の各種情報と対応付け、各種情報に対応付けられた品質重みの分布を示す情報を、映像符号化部133、音声符号化部134、および3次元構造符号化部135に供給する。
映像符号化部133は、品質重みに基づく手法を用いて、その品質重みに対応付けられた画像を符号化する。音声符号化部134は、品質重みに基づく手法を用いて、その品質重みに対応付けられた音声を符号化する。3次元構造符号化部135は、品質重みに基づく手法を用いて、その品質重みに対応付けられた、3次元領域の3次元構造を示す3次元構造データを符号化する。つまり、これらの符号化部は、重みに応じた手法で3次元領域に関する情報を符号化する。
出力部136は、映像符号化部133により生成された、撮像画像の符号化データを出力する。また、出力部136は、音声符号化部134により生成された、音声の符号化データを出力する。さらに、出力部136は、3次元構造符号化部135により生成された3次元構造の符号化データを出力する。
<視野重複度算出部>
図4は、図3の視野重複度算出部131の主な構成例を示すブロック図である。図4に示されるように、視野重複度算出部131は、重複度ボリューム更新部171および被写体判定部172を有する。
重複度ボリューム更新部171は、供給される撮像位置推定情報151、撮像内部パラメータ152、およびデプス情報153に基づいて、保持している重複度ボリューム191を更新する。
撮像位置推定情報151は、例えば、制御装置113において生成され、制御装置113から重複度ボリューム更新部171に供給される。撮像位置推定情報151は、各撮像装置111による撮像位置や撮像方向等を示す情報であればどのような情報であってもよい。例えば、撮像位置推定情報151が、制御装置113が撮像装置111や姿勢制御装置112に対して供給する制御情報、または、その制御情報に基づいて生成される情報であってもよい。なお、位置の表現方法は任意であり、例えば、xyz座標等で表すようにしてもよいし、後述するボクセル(Voxel)等によって表すようにしてもよい。また、方向の表現方法も任意であり、例えば、ベクトルのxyz座標等で表すようにしてもよいし、基準の方向からの角度等で表すようにしてもよい。
撮像内部パラメータ152は、どのような情報を含んでいてもよい。例えば、撮像内部パラメータ152が、撮像装置111のレンズサイズを示す情報や撮像装置111のキャリブレーション結果を示す情報等を含んでいてもよい。撮像内部パラメータ152は、例えば、制御装置113または各撮像装置111において生成され、その制御装置113または各撮像装置111から重複度ボリューム更新部171に供給される。
デプス情報153は、撮像装置111において得られた撮像画像に含まれる被写体の奥行きを示す情報である。デプス情報153は、例えば撮像装置111において、撮像画像に基づいて生成される。デプス情報153は、例えば、その撮像装置111において生成され、その撮像装置111から重複度ボリューム更新部171に供給される。なお、デプス情報153は、省略するようにしてもよい。
重複度ボリューム191は、より多くのカメラによって、より長時間撮影されている3次元領域であればあるほど大きな値をとる3次元のボリューム表現である。重複度ボリューム191は、撮像装置111が撮像を行う3次元領域について、所定の大きさの単位領域であるボクセル(Voxel)毎に設定される。
重複度ボリューム更新部171(パラメータ算出部とも称する。視野重複度算出部とも称する。重複度ボリューム算出部とも称する。)は、撮像位置推定情報151や撮像内部パラメータ152に基づいて、視野重複度(視野の重なりに関するパラメータ、重複度ボリューム)を算出し、その算出した値を用いて、保持している重複度ボリューム191を更新する。その際、重複度ボリューム更新部171は、撮像装置111が撮像する範囲を示すビューコーン(視野錐)と重なるボクセルの重複度ボリューム191を、一様の値で更新するようにしてもよいし、そのボクセルのビューコーン内に置ける位置に応じた値で更新するようにしてもよい。一般的に、ビューコーン内の画面中央且つフォーカス点近傍はそれ以外と比較して重要であるといえる。そこで、上述したように重複度ボリューム191をそのボクセルのビューコーン内に置ける位置に応じた値で更新するようにすることにより、重複度ボリューム更新部171は、このようなビューコーン内における位置に応じた重要度を重複度ボリューム191に反映させることができる。
また、付属情報としてデプス情報153を利用することができる場合、重複度ボリューム更新部171は、保持している重複度ボリューム191の、そのデプス情報153によって判明した前景が存在する箇所を、より大きな値で更新するようにしてもよい。このようにすることにより、より効率的な更新を行う事ができる。さらに、重複度ボリューム更新部171が、重複度ボリューム191を、時間方向で1つ前の状態に基づいて更新するようにしてもよい。このようにすることにより、例えば撮像姿勢制御のある瞬間においてたまたま視野が重なった事による影響を抑制することができる。
以上のように更新されて得られた最新の重複度ボリューム191は、品質重み統合部132に供給される。また、この重複度ボリューム191は、被写体判定部172にも供給される。
被写体判定部172は、重複度ボリューム191を用いて被写体の存在の有無を判定する被写体判定を行う。被写体判定部172は、特定の被写体を様々な角度から視聴できるようにする対象があるかないか、あるとすればいくつ・どの位置に・どの程度の領域をもって存在するかを判定する。より具体的には、被写体判定部172は、重複度ボリューム中の重複度ピークからリージョングローイング等を用いてボリューム内をセグメンテーションし被写体が存在するボリュームを特定する。被写体判定部172は、これを繰り返し重複度ボリューム中から被写体領域を抽出し、その中から重複度や領域の大きさ等で閾値処理を行い、被写体を重要度でソートして被写体情報193とする。被写体判定部172は、ボクセル毎にこの被写体判定を行う。
被写体情報193は、被写体判定の結果を示す情報であればどのような情報であってもよいが、例えば、3次元領域のボクセル毎に設定される、被写体の存在の有無(すなわち、当該ボクセルに被写体が含まれるか否か)を示す被写体フラグが含まれるようにしてもよい。つまり、この場合、被写体判定部172は、ボクセル毎に、被写体判定を行い、その結果を示す被写体フラグを立て、それを被写体情報193に含める。
なお、被写体判定部172が、前フレームの被写体情報192を利用して被写体判定を行うようにしてもよい。以上のようにして得られた被写体情報193は、品質重み統合部132に供給される。
<品質重み統合部>
図5は、図3の品質重み統合部132の主な構成例を示すブロック図である。図3に示されるように品質重み統合部132は、被写体・背景品質重み更新部201、ボリューム情報映像対応付け部202、ボリューム情報音声対応付け部203、およびボリューム情報3D構造対応付け部204を有する。
被写体・背景品質重み更新部201(重み付け部とも称する)は、視野重複度算出部131から供給された重複度ボリューム191および被写体情報193、並びに、撮影者等により予め設定された視聴可能領域マップ154を用いて、撮像の対象となる3次元領域について品質に関する重み付けを行い、品質重みボリューム211の更新を行う。
品質重みボリューム211は、例えば、重複度ボリューム191に基づいて高品質で残すべき3次元領域に対して大きな値をアスペクト別に保存した3次元ボリューム情報である。つまり、品質重みボリューム211は、撮像の対象となる3次元領域についての品質に関する重み(品質重みとも称する)の分布を示す情報である。例えば、品質に関する重み付けがボクセル毎に行われ、品質重みボリューム211が各ボクセルの品質重みを含むようにしてもよい。
被写体情報193は、特に高品質に残すべきである被写体の存在位置と領域の情報を提供する。また、視聴可能領域マップ154は、視聴不可能な3次元位置を示す。視聴可能領域マップ154は、例えば、3次元領域の内、自由視点画像に含めることが可能な位置(ボクセル)に値が1のフラグがセットされたボリューム情報で表現される。換言するに、値が0のフラグがセットされたボクセル(またはフラグがセットされないボクセル)は、自由視点画像に含めることができない領域である。必要に応じて、各位置から特定の方向のみは視聴不可能といった情報を追記することができるようにしてもよい。この視聴可能領域マップ154は、例えば、観光地の建物群の内、修復中の史跡を自由視点画像の対象から排除したいといった場合等に用いることができる。視聴不可能対象領域は後段の品質重み計算時に品質は極端に低い、もしくは保存しない等の処理が自動的にとられる。
例えば、視聴可能領域マップ154のフラグが0のボクセルに対してより小さな品質重み(例えば最小値(例えば0))がセットされる。また、視聴可能領域マップ154のフラグが1であり、かつ、被写体フラグが1のボクセルに対してより大きな品質重み(例えば最大値)がセットされる。さらに、視聴可能領域マップ154のフラグが1であり、かつ、被写体フラグが0のボクセルの品質重みは、重複度ボリューム191のそのボクセルの値にセットされる。つまり、被写体を含むと判定されたボクセルに対して、被写体を含まないと判定されたボクセルにセットされる品質重みよりも大きな品質重みがセットされる。なお、視聴可能領域マップ154は省略するようにしてもよい。
その後、品質重みボリューム211は各情報に対応付けられる。ボリューム情報映像対応付け部202(重み映像対応付け部とも称する)は、品質重みボリューム211を撮像画像に対応付ける。つまり、各ボクセルの品質重みを、撮像画像に含まれる各ボクセルに対応する領域に対応付ける。つまり、品質重みボリューム211がどのように各撮像画像に対応するかがプロジェクションして求められる。例えば、被写体が存在する場合の、このような対応付けの様子の例を図6に示す。また、例えば、被写体が存在しない場合の、このような対応付けの様子の例を図7に示す。ボリューム情報映像対応付け部202は、品質重みボリューム211を対応付けた画像データ(撮像画像データ)を映像符号化部133に供給する。
ボリューム情報音声対応付け部203(重み音声対応付け部とも称する)は、品質重みボリューム211を音声信号(オーディオデータ)に対応付ける。例えば、ボリューム情報音声対応付け部203は、集音マイクの位置情報と方向に応じて、各ボクセルに品質重みを対応付ける。ボリューム情報音声対応付け部203は、品質重みボリューム211を対応付けた音声データを音声符号化部134に供給する。
ボリューム情報3D構造対応付け部204(重み3次元構造対応付け部とも称する)は、品質重みボリューム211を、撮像対象とする3次元領域の構造を表す3D構造データに対応付ける。例えば、ボリューム情報3D構造対応付け部204は、品質重みボリューム211の位置を座標変換してそのまま対応付けられる。ボリューム情報3D構造対応付け部204は、品質重みボリューム211を対応付けた3D構造データを3次元構造符号化部135に供給する。
図3の映像符号化部133乃至3次元構造符号化部135は、この対応関係に基づいて、より重みが大きい領域の劣化が少なくなるように符号化制御を行う。例えば、映像符号化部133は、各領域の品質重みに基づいて、その領域の画像の符号化の、ビットレート設定やコーディングモードの決定を行う。つまり、映像符号化部133は、各領域の画像の符号化を、その領域の品質重みに基づくビットレートやコーディングモードで行う。また、例えば、音声符号化部134は、各領域の品質重みに基づいて、その領域の音声の符号化の、ビットレート設定やコーディングモードの決定を行う。つまり、音声符号化部134は、各領域の音声の符号化を、その領域の品質重みに基づくビットレートやコーディングモードで行う。さらに、例えば、3次元構造符号化部135は、品質重みに基づいて、3次元を表現する頂点数の近似や削減率をセットする。
<符号化処理の流れ>
次に、上述のような符号化装置114により実行される符号化処理の流れの例を、図8のフローチャートを参照して説明する。
符号化処理が開始されると、符号化装置114の視野重複度算出部131は、ステップS101において、視野重複度算出処理を実行し、重複度ボリューム191や被写体情報193を更新する。ステップS102において、品質重み統合部132は、品質重み統合処理を実行し、品質重みボリューム211を更新する。ステップS103において、映像符号化部133乃至3次元構造符号化部135は、重み付け符号化処理を行い、画像データ、音声データ、3次元構造データ等の各種情報を、品質重みに応じた方法で符号化する。ステップS103の処理が終了すると、符号化処理が終了する。
<視野重複度算出処理の流れ>
次に、図9のフローチャートを参照して、図8のステップS101において実行される視野重複度算出処理の流れの例を説明する。視野重複度算出処理が開始されると、視野重複度算出部131の重複度ボリューム更新部171は、ステップS121において、重複度ボリューム更新処理を実行し、重複度ボリューム191を更新する。ステップS122において、被写体判定部172は、被写体領域検出処理を実行し、3次元領域の中の被写体が存在する領域である被写体領域を検出する。ステップS122の処理が終了すると、視野重複度算出処理が終了し、処理は図8に戻る。
<重複度ボリューム更新処理の流れ>
次に、図10のフローチャートを参照して、図9のステップS121において実行される重複度ボリューム更新処理の流れの例を説明する。
重複度ボリューム更新処理が開始されると、重複度ボリューム更新部171は、ステップS141において、変数iを初期化する(例えばi=0)。ステップS142において、重複度ボリューム更新部171は、変数jを初期化する(例えば、j=0)。ステップS143において、重複度ボリューム更新部171は、撮像位置推定情報151や撮像内部パラメータ152等の情報に基づいて、i番目の撮像装置111の位置および姿勢、すなわち、i番目の撮像装置111の撮像範囲(ビューコーン(視野錐))を推定する。ステップS144において、重複度ボリューム更新部171は、j番目のボクセルの位置を算出する。
ステップS145において、重複度ボリューム更新部171は、そのj番目のボクセルが、i番目の撮像装置111のビューコーン内に位置するか否かを判定する。位置すると判定された場合、処理はステップS146に進む。ステップS146において、重複度ボリューム更新部171は、ボクセル値、すなわち、処理対象であるj番目のボクセルの視野重複度を更新する。ステップS146の処理が終了すると処理はステップS147に進む。また、ステップS145において、j番目のボクセルが、i番目の撮像装置111のビューコーン内に位置しないと判定された場合、ステップS146の処理が省略され、処理はステップS147に進む。
ステップS147において、重複度ボリューム更新部171は、未処理のボクセルが存在するか否かを判定する。存在すると判定された場合、処理はステップS148に進む。ステップS148において、重複度ボリューム更新部171は、変数jをインクリメント(例えば+1)する。すなわち、新たなボクセルを処理対象とする。ステップS148の処理が終了すると処理はステップS144に戻り、それ以降の処理を繰り返す。
そしてステップS147において、全てのボクセルを処理したと判定された場合、処理はステップS149に進む。ステップS149において、重複度ボリューム更新部171は、未処理の撮像装置111が存在するか否かを判定する。存在すると判定された場合、処理はステップS150に進む。ステップS150において、重複度ボリューム更新部171は、変数iをインクリメント(例えば、+1)する。すなわち、新たな撮像装置111を処理対象とする。ステップS150の処理が終了すると処理はステップS142に戻り、それ以降の処理を繰り返す。
そしてステップS149において、全ての撮像装置111を処理したと判定された場合、重複度ボリューム更新処理が終了し、処理は図9に戻る。つまり、全ての撮像装置111の撮像範囲とすべてのボクセルとが比較されて、いずれかの撮像装置111の撮像範囲内に位置するボクセルが検索される。そして、そのいずれかの撮像装置111の撮像範囲内に位置するボクセルの重複度ボリュームが更新される。
<被写体領域検出処理の流れ>
次に、図11のフローチャートを参照して、図9のステップS122において実行される被写体領域検出処理の流れの例を説明する。被写体領域検出処理が開始されると、被写体判定部172は、ステップS171において、重複度ボリューム191の中から、重複度が第1の閾値より大きいボクセル(ピークボクセルとも称する)を検出する。ステップS172において、被写体判定部172は、変数iを初期化する。ステップS173において、被写体判定部172は、i番目のピークボクセルをカレントボクセルとし、その位置に被写体フラグを立てる(例えば、被写体フラグ=1)。ステップS174において、被写体判定部172は、変数jを初期化する(例えばj=0)。ステップS175において、被写体判定部172は、カレントボクセルの近傍に位置するボクセル(近傍ボクセル)の中から重複度が上述の第1の閾値よりも小さな第2の閾値より大きいボクセルを検出し、それをスタックに保存する。
ステップS176において、被写体判定部172は、スタックに未処理の近傍ボクセルが存在するか否かを判定する。存在すると判定された場合、処理はステップS177に進む。ステップS177において、被写体判定部172は、スタックからj番目の近傍ボクセルを選択し、その位置に被写体フラグを立て、その近傍ボクセルをカレントボクセルとする。ステップS178において、被写体判定部172は、変数jをインクリメント(例えば、+1)する。すなわち、処理対象を次の近傍ボクセルに移行する。ステップS178の処理が終了すると、処理はステップS176に戻り、それ以降の処理を繰り返す。
ステップS176において、未処理の近傍ボクセルが存在しないと判定された場合、処理はステップS179に進む。ステップS179において、被写体判定部172は、未処理のピークボクセルが存在するか否かを判定する。存在すると判定された場合、処理はステップS180に進む。
ステップS180において、被写体判定部172は、変数iをインクリメント(例えば、+1)する。すなわち、処理対象を次のピークボクセルに移行する。ステップS180の処理が終了すると、処理はステップS175に戻り、それ以降の処理を繰り返す。また、ステップS179において、全てのピークボクセルが処理されたと判定された場合、被写体検出処理が終了し、処理は図9に戻る。
<品質重み統合処理の流れ>
次に、図12のフローチャートを参照して、図8のステップS102において実行される品質重み統合処理の流れの例を説明する。
品質重み統合処理が開始されると、被写体・背景品質重み更新部201は、ステップS201において、変数iを初期化する(例えばj=0)。ステップS202において、被写体・背景品質重み更新部201は、品質重みボリュームのi番目のボクセルの位置に対応する、重複度ボリューム191のボクセル値、被写体情報193の被写体フラグ、視聴可能領域マップ154の視聴可能フラグを取得する。
ステップS203において、被写体・背景品質重み更新部201は、視聴可能フラグが0であるか否かを判定する。i番目のボクセルの視聴可能フラグが0であると判定された場合、処理はステップS204に進む。ステップS204において、被写体・背景品質重み更新部201は、そのi番目のボクセルの品質重みを0(または最小値)にセットする。ステップS204の処理が終了すると処理はステップS208に進む。また、ステップS203において、i番目のボクセルの視聴可能フラグが1であると判定された場合、処理はステップS205に進む。
ステップS205において、被写体・背景品質重み更新部201は、被写体フラグが立っている(1である)か否かを判定する。i番目のボクセルの被写体フラグが立っている(1である)と判定された場合、処理はステップS206に進む。ステップS206において、被写体・背景品質重み更新部201は、そのi番目のボクセルの品質重みを最大値にセットする。ステップS206の処理が終了すると処理はステップS208に進む。また、ステップS205において、i番目のボクセルの被写体フラグが立っていない(0である)と判定された場合、処理はステップS207に進む。
ステップS207において、被写体・背景品質重み更新部201は、i番目のボクセルの品質重みを、重複度ボリューム191の、そのi番目のボクセルの視野重複度にセットする。ステップS207の処理が終了すると処理はステップS208に進む。
ステップS208において、被写体・背景品質重み更新部201は、未処理のボクセルが存在するか否かを判定する。存在すると判定された場合、処理はステップS209に進む。ステップS209において、被写体・背景品質重み更新部201は、変数iをインクリメント(例えば、+1)する。すなわち、処理対象を次のボクセルに移行する。ステップS209の処理が終了すると、処理はステップS202に戻り、それ以降の処理を繰り返す。
そして、ステップS208において、全てのボクセルが処理されたと判定された場合、処理はステップS210に進む。ステップS210において、ボリューム情報映像対応付け部202乃至ボリューム情報3D構造対応付け部204は、以上のようにして更新された品質重みボリューム211を、画像、音声、3D構造データ等、各種情報に対応付ける。ステップS210の処理が終了すると品質重み統合処理が終了し、処理は図8に戻る。
<重み付け符号化処理の流れ>
次に、図13のフローチャートを参照して、図8のステップS103において実行される重み付け符号化処理の流れの例を説明する。
重み付け符号化処理が開始されると、符号化装置114の映像符号化部133は、ステップS231において、映像データを、品質重みに応じた方法で符号化する。ステップS232において、音声符号化部134は、音声データを、品質重みに応じた方法で符号化する。ステップS233において、3次元構造符号化部135は、3次元構造データを、品質重みに応じた方法で符号化する。ステップS233の処理が終了すると重み付け符号化処理が終了し、処理は図8に戻る。
以上のように各処理を実行することにより、符号化装置114は、視野重複度に基づいて設定した、撮像の対象となる3次元領域についての品質重みに応じた方法で、映像、音声、3次元構造等の3次元領域に関する情報を符号化することができる。したがって、比較的注目度の低い部分(すなわち、比較的に自由視点画像に含まれにくい部分)に比べて、比較的注目度の高い部分(すなわち、比較的に自由視点画像に含まれやすい部分)の品質低減を抑制するように圧縮率を向上させることができるので、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができる。
また、単純に「被写体有り」の状態と「被写体無し」の状態とでモードを切り替えるようにすると、それらの間の状態遷移の際に品質が急激に変化し、主観的品質が低減するおそれがあるが、上述したように、視野重複度の値を品質重みに用いることにより、例えば「被写体有り」の状態から「被写体無し」の状態へと遷移する途中においてある単一の撮像装置111により撮像された撮像画像の端に被写体が写っていたとしても連続的に常により適切な品質で保存する事が可能である。
また、逆に「被写体無し」の状態から「被写体有り」の状態へと遷移する際に例えばまだ被写体がやや遠方にありカメラ群から遠い場合、品質重みが低く、カメラ群から近くなり様々な方向から見られるようになると連続的に徐々に増大するように品質重みが上がる事で効率的且つ主観的にも良く品質制御が可能となる。
なお、重複度ボリューム191や品質重みボリューム211等の情報が、メタデータとしてコンテンツ(符号化データ)に付加されるようにしてもよい。このようにすることにより、後でそのメタデータを参照し、例えば、ハイライト(Highlight)やそれを利用したサムネール作成等に利用することができる。また、例えば、編集時に不要な映像トランジション区間を検出したりするのにも利用することができる。もちろん、例えば、撮像位置推定情報151、撮像内部パラメータ152、デプス情報153、視聴可能領域マップ154、被写体情報193等の、重複度ボリューム191および品質重みボリューム211以外の上述した任意の情報を、メタデータとしてコンテンツ(符号化データ)に付加するようにしてもよい。
<3.第2の実施の形態>
<撮像記憶システム>
図14は、本技術を適用した情報処理システムの一実施の形態である撮像記憶システムの主な構成例を示すブロック図である。図14に示される撮像記憶システム300は、図2の撮像記憶システム100と同様のシステムであり、基本的に同様の構成を有し、同様の処理を行う。ただし、撮像記憶システム300は、ストレージ311−1乃至ストレージ311−N(Nは自然数)を有する。以下において、ストレージ311−1乃至ストレージ311−Nを互いに区別して説明する必要がない場合、ストレージ311と称する。
ストレージ311は、例えばハードディスクや半導体メモリのような任意の記憶媒体を有し、情報を記憶する。ストレージ311は、各撮像装置111に対応するように設けられており、自身が対応する撮像装置111により得られた情報(例えば画像データや音声データ等)を、記憶し、保存する。例えば、ストレージ311−1は、撮像装置111−1が撮像して得られた撮像画像の画像データや音声データ等を記憶する。同様に、ストレージ311−Nは、撮像装置111−Nが撮像して得られた撮像画像の画像データや音声データ等を記憶する。
撮像記憶システム300の場合、撮像記憶システム100の場合と異なり、符号化装置114は、このストレージ311から画像データや音声データ等を取得する。つまり、このようなストレージ311を設け、撮像装置111において得られた情報をそのストレージ311に一時的に記憶させることにより、符号化装置114は、撮像装置111において得られた情報を即時的に符号化する必要が無く、任意のタイミングにおいて符号化を行うことができる。
この場合も、符号化装置114は、第1の実施の形態において説明したのと同様の方法で符号化を行うことができる。すなわち、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができる。
なお、複数の撮像装置111のそれぞれにおいて得られた情報を互いに独立に管理することができるのであれば、1台のストレージ311が、複数の撮像装置111において得られた情報を記憶するようにしてもよい。つまり、ストレージ311の数は任意であり、撮像装置111と同数でもよいし、撮像装置111より少なくてもよいし、多くてもよい。
<4.第3の実施の形態>
<撮像伝送システム>
また、符号化装置114が符号化して得られた符号化データは、ストレージ115に記憶させずに他の装置に伝送するようにしてもよい。図15は、本技術を適用した情報処理システムの一実施の形態である撮像伝送システムの主な構成例を示すブロック図である。図15に示される撮像伝送システム400は、図2の撮像記憶システム100と同様のシステムであり、基本的に同様の構成を有し、同様の処理を行う。ただし、撮像伝送システム400は、ストレージ115の代わりに、通信媒体410、復号装置411、およびモニタ412を有する。
通信媒体410は、符号化装置114と復号装置411との間の情報の授受に利用される伝送媒体である。つまり、符号化装置114と復号装置411との間の通信は、この通信媒体410を介して行われる。なお、この通信媒体410は、どのようなものであってもよく、例えば、有線ケーブル(有線通信の通信媒体)により構成されるようにしてもよいし、空気(無線通信の通信媒体)により構成されるようにしてもよいし、それらの両方により構成されるようにしてもよい。例えば、通信媒体410には、インターネット等の通信網が含まれるようにしてもよい。
復号装置411は、符号化装置114が生成した符号化データを、符号化装置114の符号化方法に対応する方法で復号する装置である。復号装置411は、符号化装置114において生成された符号化データを、通信媒体410を介して取得する。復号装置411は、得られた符号化データを、符号化装置114の符号化方法に対応する復号方法で復号する。復号装置411は、例えば、この復号により撮像画像の画像データ等を取得する。復号装置411は、その撮像画像から自由視点画像を生成し、それを表示デバイスであるモニタ412に表示させる。
このような場合であっても、符号化装置114は、第1の実施の形態において説明したのと同様の方法で符号化を行うことができる。すなわち、主観的品質の低減を抑制しながら符号化効率の低減を抑制することができる。
<5.第4の実施の形態>
<コンピュータ>
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
図16に示されるコンピュータ800において、CPU(Central Processing Unit)801、ROM(Read Only Memory)802、RAM(Random Access Memory)803は、バス804を介して相互に接続されている。
バス804にはまた、入出力インタフェース810も接続されている。入出力インタフェース810には、入力部811、出力部812、記憶部813、通信部814、およびドライブ815が接続されている。
入力部811は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部812は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部813は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部814は、例えば、ネットワークインタフェースよりなる。ドライブ815は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア821を駆動する。
以上のように構成されるコンピュータ800では、CPU801が、例えば、記憶部813に記憶されているプログラムを、入出力インタフェース810およびバス804を介して、RAM803にロードして実行することにより、上述した一連の処理が行われる。RAM803にはまた、CPU801が各種の処理を実行する上において必要なデータなども適宜記憶される。
コンピュータ800が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア821に記録して適用することができる。その場合、プログラムは、リムーバブルメディア821をドライブ815に装着することにより、入出力インタフェース810を介して、記憶部813にインストールすることができる。また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部814で受信し、記憶部813にインストールすることができる。その他、このプログラムは、ROM802や記憶部813等に、あらかじめインストールしておくこともできる。
<6.その他>
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
また、上述した各ステップの処理は、上述した各装置、または、上述した各装置以外の任意の装置において、実行することができる。その場合、その処理を実行する装置が、上述した、その処理を実行するのに必要な機能(機能ブロック等)を有するようにすればよい。また、処理に必要な情報を、適宜、その装置に伝送するようにすればよい。
なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
なお、本技術は以下のような構成も取ることができる。
(1) 複数の撮像部の撮像範囲である視野の重なりに関するパラメータを用いて特定された前記複数の撮像部による撮像の対象となる3次元領域の視野の重なりに関する分布に基づいて、前記3次元領域に関する情報を符号化する符号化部と
を備える情報処理装置。
(2) 前記符号化部は、前記パラメータを用いて前記3次元領域の重み付けを行う重み付け部
をさらに備える(1)に記載の情報処理装置。
(3) 前記重み付け部は、所定の大きさの単位領域であるボクセル毎に重み付けを行う
(2)に記載の情報処理装置。
(4) 前記重み付け部は、被写体を含むボクセルに対してより大きな重みを設定する
(3)に記載の情報処理装置。
(5) 前記パラメータに基づいて、各ボクセルについて、被写体を含むか否かを判定する被写体判定部をさらに備え、
前記重み付け部は、前記被写体判定部により被写体を含むと判定されたボクセルに対して、前記被写体判定部により被写体を含まないと判定されたボクセルよりも大きな重みを設定するように構成される
(3)に記載の情報処理装置。
(6) 前記被写体判定部は、前記パラメータが第1の閾値よりも大きいピークボクセルを検出し、検出された前記ピークボクセルの周辺において、前記第1の閾値よりも小さい第2の閾値よりも前記パラメータが大きなボクセルを検出して保持し、前記ピークボクセルおよび保持した周辺ボクセルが前記被写体を含むと判定する
(5)に記載の情報処理装置。
(7) 前記重み付け部は、前記3次元領域内の視聴不可能なボクセルに対してより小さな重みを設定する
(3)乃至(6)のいずれかに記載の情報処理装置。
(8) 前記重み付け部は、前記3次元領域内の視聴可能な領域の分布を示す視聴可能領域マップに基づいて特定される前記視聴不可能なボクセルに対してより小さな重みを設定する
(7)に記載の情報処理装置。
(9) 各ボクセルについて前記パラメータを算出するパラメータ算出部をさらに備え、
前記重み付け部は、前記パラメータ算出部により算出された前記パラメータを用いて前記3次元領域の重み付けを行うように構成される
(3)乃至(8)のいずれかに記載の情報処理装置。
(10) 前記パラメータ算出部は、各撮像部の撮像範囲を示す視野錐の位置、方向、大きさ、形状に基づいて、各ボクセルについて前記パラメータを算出する
(9)に記載の情報処理装置。
(11) 前記パラメータ算出部は、さらに、ボクセルの前記視野錐内の位置に基づいて前記パラメータを算出する
(10)に記載の情報処理装置。
(12) 前記パラメータ算出部は、撮像部の位置および姿勢に基づいて前記視野錐を推定する
(10)または(11)に記載の情報処理装置。
(13) 前記パラメータ算出部は、さらに撮像部の内部パラメータに基づいて前記視野錐を推定する
(12)に記載の情報処理装置。
(14) 前記パラメータ算出部は、さらにデプス情報に基づいて前記視野錐を推定する
(12)または(13)に記載の情報処理装置。
(15) 前記重み付け部により得られた前記3次元領域内の重みの分布を、前記3次元領域の撮像画像に対応付ける重み映像対応付け部をさらに備え、
前記符号化部は、前記重み映像対応付け部により前記撮像画像に対応付けられた前記3次元領域内の重みの分布に基づいて前記撮像画像を符号化するように構成される
(2)乃至(14)のいずれかに記載の情報処理装置。
(16) 前記符号化部は、前記3次元領域内の重みの分布に応じて、前記撮像画像の符号化のビットレートまたは符号化モードを制御する
(15)に記載の情報処理装置。
(17) 前記重み付け部により得られた前記3次元領域内の重みの分布を、前記3次元領域内の音声に対応付ける重み音声対応付け部をさらに備え、
前記符号化部は、前記重み音声対応付け部により前記音声に対応付けられた前記3次元領域内の重みの分布に基づいて前記音声を符号化するように構成される
(2)乃至(16)のいずれかに記載の情報処理装置。
(18) 前記符号化部は、前記3次元領域内の重みの分布に応じて、前記音声の符号化のビットレートまたは符号化モードを制御する
(17)に記載の情報処理装置。
(19) 前記重み付け部により得られた前記3次元領域内の重みの分布を、前記3次元領域の3次元構造を示す3次元構造データに対応付ける重み3次元構造対応付け部をさらに備え、
前記符号化部は、前記重み3次元構造対応付け部により前記3次元構造データに対応付けられた前記3次元領域内の重みの分布に基づいて前記3次元構造データを符号化するように構成される
(2)乃至(18)のいずれかに記載の情報処理装置。
(20) 前記符号化部は、前記3次元領域内の重みの分布に応じて、前記3次元構造データの符号化の、3次元を表現する頂点数の近似・削除率を制御する
(19)に記載の情報処理装置。
(21) 複数の撮像部の撮像範囲である視野の重なりに関するパラメータを用いて特定された前記複数の撮像部による撮像の対象となる3次元領域の視野の重なりに関する分布に基づいて、前記3次元領域に関する情報を符号化する
情報処理方法。
100 撮像記憶システム, 111 撮像装置, 112 姿勢制御装置, 113 制御装置, 114 符号化装置, 115 ストレージ, 131 視野重複度算出部, 132 品質重み統合部, 133 映像符号化部, 134 音声符号化部, 135 3次元構造符号化部, 136 出力部, 171 重複度ボリューム更新部, 172 被写体判定部, 201 被写体・背景品質重み更新部, 202 ボリューム情報映像対応付け部, 203 ボリューム情報音声対応付け部, 204 ボリューム情報3D構造対応付け部, 300 撮像記憶システム, 311 ストレージ, 400 撮像伝送システム, 410 通信媒体, 411 復号装置, 412 モニタ, 800 コンピュータ

Claims (16)

  1. 3次元領域における単位領域であるボクセルであって、複数の撮像部の撮像範囲である視野の重なりに関するパラメータが第1の閾値よりも大きなピークボクセルを検出し、前記ピークボクセルの周辺において前記第1の閾値よりも小さい第2の閾値よりも前記パラメータが大きな前記ボクセルである周辺ボクセルを検出し、前記ピークボクセルおよび前記周辺ボクセルが被写体を含むと判定する被写体判定部と、
    前記被写体判定部により前記被写体を含むと判定された前記ボクセルに対して、前記被写体判定部により前記被写体を含まないと判定された前記ボクセルよりも大きな重みを設定する重み付け部と、
    前記重み付け部により設定された前記重みに基づいて、前記3次元領域に関する情報を符号化する符号化部と
    を備える情報処理装置。
  2. 前記重み付け部は、前記3次元領域内の視聴不可能な前記ボクセルに対してより小さな前記重みを設定する
    請求項1に記載の情報処理装置。
  3. 前記重み付け部は、前記3次元領域内の視聴可能な領域の分布を示す視聴可能領域マップに基づいて特定される視聴不可能な前記ボクセルに対してより小さな前記重みを設定する
    請求項2に記載の情報処理装置。
  4. 各ボクセルについて前記パラメータを算出するパラメータ算出部をさらに備え、
    前記被写体判定部は、前記パラメータ算出部により算出された前記パラメータを用いて前記ボクセルが前記被写体を含むかを判定する
    請求項1に記載の情報処理装置。
  5. 前記パラメータ算出部は、各撮像部の撮像範囲を示す視野錐の位置、方向、大きさ、形状に基づいて、各ボクセルについて前記パラメータを算出する
    請求項4に記載の情報処理装置。
  6. 前記パラメータ算出部は、さらに、前記ボクセルの前記視野錐内の位置に基づいて前記パラメータを算出する
    請求項5に記載の情報処理装置。
  7. 前記パラメータ算出部は、前記撮像部の位置および姿勢に基づいて前記視野錐を推定する
    請求項5に記載の情報処理装置。
  8. 前記パラメータ算出部は、さらに前記撮像部の内部パラメータに基づいて前記視野錐を推定する
    請求項7に記載の情報処理装置。
  9. 前記パラメータ算出部は、さらにデプス情報に基づいて前記視野錐を推定する
    請求項7に記載の情報処理装置。
  10. 前記重み付け部により設定された前記3次元領域内の前記重みの分布を、前記3次元領域の撮像画像に対応付ける重み映像対応付け部をさらに備え、
    前記符号化部は、前記重み映像対応付け部により前記撮像画像に対応付けられた前記重みの分布に基づいて前記撮像画像を符号化するように構成される
    請求項1に記載の情報処理装置。
  11. 前記符号化部は、前記重みの分布に応じて、前記撮像画像の符号化のビットレートまたは符号化モードを制御する
    請求項10に記載の情報処理装置。
  12. 前記重み付け部により設定された前記3次元領域内の前記重みの分布を、前記3次元領域内の音声に対応付ける重み音声対応付け部をさらに備え、
    前記符号化部は、前記重み音声対応付け部により前記音声に対応付けられた前記重みの分布に基づいて前記音声を符号化するように構成される
    請求項1に記載の情報処理装置。
  13. 前記符号化部は、前記重みの分布に応じて、前記音声の符号化のビットレートまたは符号化モードを制御する
    請求項12に記載の情報処理装置。
  14. 前記重み付け部により設定された前記3次元領域内の前記重みの分布を、前記3次元領域の3次元構造を示す3次元構造データに対応付ける重み3次元構造対応付け部をさらに備え、
    前記符号化部は、前記重み3次元構造対応付け部により前記3次元構造データに対応付けられた前記重みの分布に基づいて前記3次元構造データを符号化するように構成される
    請求項1に記載の情報処理装置。
  15. 前記符号化部は、前記重みの分布に応じて、前記3次元構造データの符号化の、3次元を表現する頂点数の近似・削除率を制御する
    請求項14に記載の情報処理装置。
  16. 3次元領域における単位領域であるボクセルであって、複数の撮像部の撮像範囲である視野の重なりに関するパラメータが第1の閾値よりも大きなピークボクセルを検出し、前記ピークボクセルの周辺において前記第1の閾値よりも小さい第2の閾値よりも前記パラメータが大きな前記ボクセルである周辺ボクセルを検出し、前記ピークボクセルおよび前記周辺ボクセルが被写体を含むと判定し、
    前記被写体を含むと判定された前記ボクセルに対して、前記被写体を含まないと判定された前記ボクセルよりも大きな重みを設定し、
    設定された前記重みに基づいて、前記3次元領域に関する情報を符号化する
    情報処理方法。
JP2018559029A 2016-12-28 2017-12-14 情報処理装置および方法 Active JP6973412B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016256729 2016-12-28
JP2016256729 2016-12-28
PCT/JP2017/044858 WO2018123611A1 (ja) 2016-12-28 2017-12-14 情報処理装置および方法

Publications (2)

Publication Number Publication Date
JPWO2018123611A1 JPWO2018123611A1 (ja) 2019-10-31
JP6973412B2 true JP6973412B2 (ja) 2021-11-24

Family

ID=62707388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018559029A Active JP6973412B2 (ja) 2016-12-28 2017-12-14 情報処理装置および方法

Country Status (3)

Country Link
US (1) US11019362B2 (ja)
JP (1) JP6973412B2 (ja)
WO (1) WO2018123611A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI692939B (zh) * 2018-08-14 2020-05-01 鈺創科技股份有限公司 過濾訊號的數位濾波器
US10964043B2 (en) * 2019-06-05 2021-03-30 Icatch Technology, Inc. Method and measurement system for measuring dimension and/or volume of an object by eliminating redundant voxels
CN110267041B (zh) 2019-06-28 2021-11-09 Oppo广东移动通信有限公司 图像编码方法、装置、电子设备和计算机可读存储介质
CN110611771B (zh) * 2019-10-18 2021-04-30 浙江大华技术股份有限公司 聚焦位置的设置方法及装置、存储介质、电子装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007026440A1 (ja) * 2005-08-29 2007-03-08 National University Corporation Nagoya University 画像情報圧縮方法、画像情報圧縮装置、及び自由視点テレビシステム
US20100259595A1 (en) 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video
EP2536142A1 (en) 2011-06-15 2012-12-19 NEC CASIO Mobile Communications, Ltd. Method and a system for encoding multi-view video content
TWI496090B (zh) * 2012-09-05 2015-08-11 Ind Tech Res Inst 使用深度影像的物件定位方法與裝置
US9984498B2 (en) * 2013-07-17 2018-05-29 Microsoft Technology Licensing, Llc Sparse GPU voxelization for 3D surface reconstruction
JP6309749B2 (ja) 2013-12-09 2018-04-11 シャープ株式会社 画像データ再生装置および画像データ生成装置
US9940541B2 (en) * 2015-07-15 2018-04-10 Fyusion, Inc. Artificially rendering images using interpolation of tracked control points

Also Published As

Publication number Publication date
JPWO2018123611A1 (ja) 2019-10-31
WO2018123611A1 (ja) 2018-07-05
US20190313121A1 (en) 2019-10-10
US11019362B2 (en) 2021-05-25

Similar Documents

Publication Publication Date Title
JP6973412B2 (ja) 情報処理装置および方法
JP6408019B2 (ja) 画像デバイスにおける写真構図および位置ガイダンス
CN114119849A (zh) 三维场景渲染方法、设备以及存储介质
JP2020071851A (ja) アバタによる生放送方法及び装置
US20180332317A1 (en) Adaptive control for immersive experience delivery
CN110869980B (zh) 将内容分发和呈现为球形视频和3d资产组合
US20130321593A1 (en) View frustum culling for free viewpoint video (fvv)
US20100250588A1 (en) Image searching system and image searching method
CN109906600B (zh) 模拟景深
US20220385721A1 (en) 3d mesh generation on a server
JPWO2019031259A1 (ja) 画像処理装置および方法
JP2018107793A (ja) 仮想視点画像の生成装置、生成方法及びプログラム
US11006141B2 (en) Methods and systems for using atlas frames to process data representative of a scene
JP2017520036A (ja) モザイク画像の生成方法および装置
JP2018526736A (ja) シーン再構成方法、装置、端末機器及び記憶媒体
WO2019107181A1 (ja) 送信装置、送信方法、および受信装置
WO2018221211A1 (ja) 画像処理装置および方法、ファイル生成装置および方法、並びにプログラム
US20190005728A1 (en) Provision of Virtual Reality Content
JP2014164446A (ja) 背景モデル構築装置、背景モデル構築方法、およびプログラム
JP2017103613A (ja) 情報取得装置、情報取得方法及び情報取得プログラム
US11825066B2 (en) Video reproduction apparatus, reproduction method, and program
KR102468718B1 (ko) 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법
CN115937392A (zh) 一种三维模型的渲染方法和装置
KR20180053494A (ko) 모바일 환경에서의 증강현실 게임공간 구축방법
JP2013214158A (ja) 表示画像検索装置、表示制御システム、表示制御方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R151 Written notification of patent or utility model registration

Ref document number: 6973412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151