JP2023048531A - Information processing device, information processing method, program, and acoustic automatic synthesis system - Google Patents
Information processing device, information processing method, program, and acoustic automatic synthesis system Download PDFInfo
- Publication number
- JP2023048531A JP2023048531A JP2021157900A JP2021157900A JP2023048531A JP 2023048531 A JP2023048531 A JP 2023048531A JP 2021157900 A JP2021157900 A JP 2021157900A JP 2021157900 A JP2021157900 A JP 2021157900A JP 2023048531 A JP2023048531 A JP 2023048531A
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- posture model
- sound
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 180
- 230000015572 biosynthetic process Effects 0.000 title claims description 34
- 238000003786 synthesis reaction Methods 0.000 title claims description 34
- 238000003672 processing method Methods 0.000 title claims 2
- 238000003384 imaging method Methods 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000002194 synthesizing effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 210000003414 extremity Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Image Generation (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
本開示は、仮想視点画像のデータに音響のデータを合成する技術に関する。 The present disclosure relates to a technique for synthesizing acoustic data with virtual viewpoint image data.
複数の異なる位置に配置したカメラ等の撮像装置を用いて多視点で同期撮像を行い、当該撮像により得られた複数の撮像画像(以下「複数視点画像」という。)に基づいて仮想視点画像を生成する技術がある。仮想視点画像によれば、撮像空間に存在するオブジェクトを様々な角度から鑑賞することができる。仮想視点画像を生成するシステムには、複数視点画像の撮像時に集音した音響のデータ(以下「音響データ」という。)を仮想視点画像のデータ(以下「仮想視点画像データ」という。)に合成するものがある。このようなシステムでは、仮想視点画像の時刻と複数視点画像の撮像時に集音した音響の時刻とを同期させることにより、仮想視点画像データに音響データを合成することが行われている。なお、特許文献1には、ゲームシステムの分野において、仮想空間内において動作するキャラクタの関節モデルにおける関節同士の距離に応じて、キャラクタの動作に対応する音声を出力させる技術が開示されている。 Synchronous multi-viewpoint imaging is performed using imaging devices such as cameras placed at a plurality of different positions, and a virtual viewpoint image is generated based on a plurality of captured images (hereinafter referred to as "multi-viewpoint images") obtained by the imaging. There is technology to generate. According to the virtual viewpoint image, an object existing in the imaging space can be viewed from various angles. In a system for generating virtual viewpoint images, sound data (hereinafter referred to as "acoustic data") collected when multiple viewpoint images are captured is combined with virtual viewpoint image data (hereinafter referred to as "virtual viewpoint image data"). there is something to do In such a system, sound data is combined with virtual viewpoint image data by synchronizing the time of the virtual viewpoint image with the time of the sound collected when capturing the multiple viewpoint images. In the field of game systems, Japanese Patent Laid-Open No. 2003-200000 discloses a technique for outputting a sound corresponding to the motion of a character according to the distance between the joints in the joint model of the character that moves in the virtual space.
スタジオ等の第1の撮像空間で撮像された複数視点画像に基づいて生成された仮想視点画像データと、舞台等の第1の撮像空間とは異なる第2の撮像空間で集音された音響のデータとの合成は、ユーザの手動により合成する手法により実現できる。具体的には、仮想視点画像を提供するユーザ(以下、単に「ユーザ」という。)は、予め取得した音響データと仮想視点画像データとを同期させるタイミングを手動で合わせることにより、音響データと仮想視点画像と合成する。しかしながら、このような手法では、ユーザは、仮想視点画像をしながら合成したい様々な音響データの1つ1つを仮想視点画像データに手動で合成する必要がある。そのため、このような手法では、音響データと仮想視点画像データと合成するための編集に長い時間を要するという問題点があった。 Virtual viewpoint image data generated based on multi-viewpoint images captured in a first imaging space such as a studio, and sound collected in a second imaging space different from the first imaging space such as a stage. Synthesis with data can be realized by a user's manual synthesis technique. Specifically, a user who provides a virtual viewpoint image (hereinafter, simply referred to as a “user”) manually synchronizes the timing of synchronizing acoustic data and virtual viewpoint image data acquired in advance, so that the acoustic data and the virtual viewpoint image data are synchronized. Synthesize with the viewpoint image. However, in such a method, the user needs to manually synthesize the virtual viewpoint image data with various sound data that the user wishes to synthesize while creating the virtual viewpoint image. Therefore, in such a method, there is a problem that it takes a long time to edit for synthesizing the acoustic data and the virtual viewpoint image data.
本開示は、このような問題点を解決するためのものであり、互いに異なる撮像空間において取得された仮想視点画像データと音響データとを効率よく合成する情報処理装置を提供することを目的としている。 The present disclosure is intended to solve such problems, and aims to provide an information processing apparatus that efficiently synthesizes virtual viewpoint image data and sound data acquired in different imaging spaces. .
本開示に係る情報処理装置は、第1の撮像空間を撮像する複数の撮像装置から得られた第1の複数視点画像に基づいて生成された第1の姿勢モデルのデータを取得する第1モデル取得手段と、第1の複数視点画像に基づいて生成された仮想視点画像のデータを取得する画像取得手段と、第1の撮像空間とは異なる第2の撮像空間を撮像する複数の撮像装置から得られた第2の複数視点画像に基づいて生成された第2の姿勢モデルのデータを取得する第2モデル取得手段と、第2の撮像空間において、第2の複数視点画像が撮像されるときに集音された音響のデータを取得する音響取得手段と、第1の姿勢モデルと第2の姿勢モデルとの一致度を評価する評価手段と、一致度に基づいて、仮想視点画像と音響とを含むデータを生成するデータ生成手段と、を有する。 An information processing device according to the present disclosure is a first model that acquires data of a first posture model generated based on first multi-viewpoint images obtained from a plurality of imaging devices that capture images of a first imaging space. From an acquisition means, an image acquisition means for acquiring data of a virtual viewpoint image generated based on a first multi-viewpoint image, and a plurality of imaging devices for imaging a second imaging space different from the first imaging space. second model acquisition means for acquiring data of a second posture model generated based on the obtained second multi-viewpoint image; and when the second multi-viewpoint image is captured in the second imaging space. sound acquisition means for acquiring data of sound collected by the virtual viewpoint image; evaluation means for evaluating the degree of matching between the first posture model and the second posture model; and data generation means for generating data including
本開示によれば、互いに異なる撮像空間において取得された仮想視点画像データと音響データとを効率よく合成することができる。 According to the present disclosure, it is possible to efficiently synthesize virtual viewpoint image data and sound data acquired in imaging spaces different from each other.
以下、添付の図面を参照して、本開示の実施の形態について詳細に説明する。なお、以下の実施の形態に示す構成は一例に過ぎず、本開示の範囲をその構成のみに限定するものではない。 Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. Note that the configurations shown in the following embodiments are merely examples, and the scope of the present disclosure is not limited only to those configurations.
(実施形態1)
[構成]
図1乃至7を参照して、実施形態1に係る情報処理システム1について説明する。図1は、実施形態1に係る情報処理システム1の構成の一例を示すブロック図である。情報処理システム1は、複数の撮像装置11、集音装置15、複数の撮像装置16、第1情報処理装置100、第2情報処理装置150、及び出力装置19を備える。
(Embodiment 1)
[composition]
An
情報処理システム1は、互いに異なる撮像空間において取得された仮想視点画像データと音響データとを合成するためのシステムである。音響が画像を視聴する視聴者に与える影響は様々ある。例えば、舞台芸術の分野では、演者の動きによる拍手又は足音等の舞台音響は、演出上において視聴者に大きな影響を与える。また、スポーツ等の室内競技の分野では、体育館等の空間における音響は、視聴者に競技の臨場感を感じさせる上で必要不可欠なものである。これらの音響には、舞台又は体育館等の撮像空間における反響、又は撮像空間を構成する壁又は床等の構造等が影響する。そのため、仮想視点画像を生成するシステムが設置されるスタジオ等の撮像空間における反響又は構造等は、舞台又は体育館等における反響又は構造等とは異なる。したがって、スタジオ等の撮像空間における集音では、視聴者に演出又は臨場感等を感じさせるのに必要な音響データを取得することができない。本実施形態における情報処理システム1は、この課題を解決するためのシステムである。
The
複数の撮像装置11のそれぞれは、デジタルビデオカメラ又はデジタルスチルカメラ等により構成され、スタジオ等の第1の撮像空間(以下「第1撮像空間」という。)の周囲に設置されている。複数の撮像装置11のそれぞれは、第1撮像空間を撮像して、当該撮像により得た撮像画像のデータ(以下「撮像画像データ」という。)を第1情報処理装置100に出力する。複数の撮像装置16のそれぞれは、デジタルビデオカメラ又はデジタルスチルカメラ等により構成され、舞台又は体育館等の第2の撮像空間(以下「第2撮像空間」という。)の周囲に設置されている。複数の撮像装置16のそれぞれは、第2撮像空間を撮像して、当該撮像により得た撮像画像データを第2情報処理装置150に出力する。
Each of the plurality of
集音装置15は、マイク等により構成され、第2撮像空間における音響、具体的には、集音装置15は、第2撮像空間に存在するオブジェクトの動作時に発生する音響を集音し、集音した音響を音響信号に変換して第2情報処理装置150に出力する。以下、複数の撮像装置11のそれぞれが出力する撮像画像データを合わせて、複数視点画像のデータという。また、同様に、複数の撮像装置16のそれぞれが出力する撮像画像データを合わせて、複数視点画像のデータ(以下「複数視点画像データ」という。)という。
The
第2情報処理装置150は、集音装置15が出力した音響信号と、複数の撮像装置16が出力する複数視点画像データとを取得する。第2情報処理装置150は、取得した音響信号が示す音響を音響データとして第1情報処理装置100に出力する。また、第2情報処理装置150は、取得した複数視点画像データを構成する複数の撮像画像データに基づいて、撮像画像に写るオブジェクトに対応する姿勢モデルのデータを生成し、生成した姿勢モデルのデータを第1情報処理装置100に出力する。第2情報処理装置150は、音声取得部151、第2画像群取得部152、第2前景取得部153、第2モデル生成部154、モデル出力部155、及び音響出力部156を備える。第2情報処理装置150が備える各部の詳細については後述する。
The second
ここで、姿勢モデルのデータとは、オブジェクトを構成する関節の位置、関節同士の接続関係、関節間の距離、及び関節の角度等を表すデータである。以下、音響データには、第2情報処理装置150が音声信号を取得した時刻等を示す情報が含まれているものとする。また、各撮像装置16は、互いに時刻が同期されており、第2情報処理装置150と各撮像装置16とは、互いに時刻が同期されているものとする。また、各撮像装置16が出力する撮像画像データには、撮像画像の撮像時刻を示す情報(以下「撮像時刻情報」という。)が含まれているものとする。なお、装置間の時刻の同期手法は周知であるため説明を省略する。
Here, the posture model data is data representing the positions of the joints forming the object, the connection relationship between the joints, the distance between the joints, the angles of the joints, and the like. Hereinafter, it is assumed that the acoustic data includes information indicating the time when the second
第1情報処理装置100は、第2情報処理装置150が出力した音響データ及び姿勢モデルのデータと、複数の撮像装置16が出力する複数視点画像データとを取得する。第1情報処理装置100は、取得した複数視点画像データを構成する複数の撮像画像データに基づいて、仮想視点画像のデータ(以下「仮想視点画像データ」という。)と、撮像画像に写るオブジェクトに対応する姿勢モデルのデータとを生成する。以下、第1情報処理装置100が生成する姿勢モデルのデータを第1姿勢モデルのデータといい、第2情報処理装置150が生成する姿勢モデルのデータを第2姿勢モデルのデータという。第1情報処理装置100は、第1姿勢モデルと第2姿勢モデルとの一致度を評価し、生成した仮想視点画像と取得した音響とを含むデータを、当該一致度に基づいて生成する。
The first
具体的には、第1情報処理装置100は、生成した仮想視点画像データに、取得した音響データを合成して、音響データ付きの仮想視点画像データを生成することにより、生成した仮想視点画像と取得した音響とを含むデータを生成する。更に、第1情報処理装置100は、合成後の音響データ付きの仮想視点画像データを出力装置19に出力する。第1情報処理装置100は、第1画像群取得部101、第1前景取得部102、画像生成部103、第1モデル生成部104、モデル取得部105、音響取得部106、対応付け部107、評価部108、及びデータ生成部109を備える。第1情報処理装置100が備える各部の詳細については後述する。以下、各撮像装置11は、互いに時刻が同期されているものとする。また、各撮像装置11が出力する撮像画像データには、撮像画像の撮像時刻を示す情報(撮像時刻情報)が含まれているものとする。なお、装置間の時刻の同期手法は周知であるため説明を省略する。
Specifically, the first
出力装置19は、LCD等により構成された表示出力部と、スピーカ等により構成された音声出力部とを有し、第1情報処理装置100が出力する仮想視点画像データをレンダリングして、仮想視点画像と音響とを視聴可能に出力する。第1情報処理装置100が合成後の仮想視点画像データを出力する先は、出力装置19に限定されるものではなく、第1情報処理装置100は、合成後の仮想視点画像データを、図1には不図示の記憶装置に出力してもよい。この場合、第1情報処理装置100は、記憶装置に合成後の仮想視点画像データを書き込んで、記憶装置に合成後の仮想視点画像データを記憶させる。
The
第1情報処理装置100のハードウェア構成について説明する。第1情報処理装置100が備える各部の処理は、第1情報処理装置100に内蔵されたASIC(Application Specific Integrated Circuit)等のハードウェアによってなされる。当該処理は、FPGA(Field Programmable Gate Array)等のハードウェアによってなされるものであってもよい。また、当該処理は、CPU(Central Processor Unit)若しくはGPU(Graphic Processor Unit)、及びメモリを用いたソフトウエアによってなされてもよい。
A hardware configuration of the first
図2を参照して、第1情報処理装置100が備える各部がソフトウエアとして動作する場合の第1情報処理装置100のハードウェア構成について説明する。図2は、実施形態1に係る第1情報処理装置100のハードウェア構成の一例を示すブロック図である。第1情報処理装置100は、コンピュータにより構成されており、当該コンピュータは、図2に一例として示すようにCPU201、ROM202、RAM203、補助記憶装置204、表示部205、操作部206、通信部207、及びバス208を有している。
With reference to FIG. 2, the hardware configuration of the first
CPU201は、ROM202又はRAM203に格納されているプログラム又はデータを用いて当該コンピュータを制御することにより、当該コンピュータを図1に示す第1情報処理装置100が備える各部として機能させる。なお、第1情報処理装置100は、CPU201とは異なる1又は複数の専用のハードウェアを有し、CPU201による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC、FPGA、及びDSP(デジタルシグナルプロセッサ)等がある。ROM202は、変更を必要としないプログラム等を格納する。RAM203は、補助記憶装置204から供給されるプログラム若しくはデータ、又は通信部207を介して外部から供給されるデータ等を一時記憶する。補助記憶装置204は、例えばハードディスクドライブ等で構成され、画像データ又は音声データ等の種々のデータを記憶する。
The
表示部205は、例えば液晶ディスプレイ又はLED等により構成され、ユーザが第1情報処理装置100を操作又は閲覧するためのGUI(Graphical User Interface)等を表示する。操作部206は、例えばキーボード、マウス、ジョイスティック、又はタッチパネル等により構成され、ユーザによる操作を受けて各種の指示をCPU201に入力する。CPU201は、表示部205を制御する表示制御部、及び操作部206を制御する操作制御部としても動作する。
The
通信部207は、第1情報処理装置100の外部の装置との通信に用いられる。例えば、第1情報処理装置100が外部の装置と有線接続される場合には、通信用のケーブルが通信部207に接続される。第1情報処理装置100が外部の装置と無線通信する機能を有する場合には、通信部207はアンテナを備える。バス208は、第1情報処理装置100の備える各部をつないで情報を伝達する。実施形態1では、表示部205及び操作部206は、第1情報処理装置100の内部に存在するものとして説明するが、表示部205及び操作部206の少なくとも一方は、第1情報処理装置100の外部に別の装置として存在していてもよい。
The
第2情報処理装置150のハードウェア構成について説明する。第2情報処理装置150が備える各部の処理は、第1情報処理装置100と同様に、第2情報処理装置150に内蔵されたASIC、FPGA等のハードウェアによってなされる。また、当該処理は、CPU若しくはGPU及びメモリを用いたソフトウエアによってなされてもよい。第2情報処理装置150が備える各部がソフトウエアとして動作する場合、第2情報処理装置150は、図2に示すコンピュータにより構成され、当該コンピュータを図1に示す第2情報処理装置150が備える各部として機能させてもよい。
A hardware configuration of the second
[各部の処理]
第2情報処理装置150が備える各部の処理について説明する。音声取得部151は、集音装置15が出力する音声信号を取得し、音声信号をAD変換することによりデジタル化して音響データを生成する。音声取得部151は、音響データを生成する際に、例えば、音響データに音声信号を取得した時刻を示す情報を含めるように音響データを生成する。音声取得部151は、生成した音響データを第2情報処理装置150が備える補助記憶装置204に記憶させて、補助記憶装置204に当該音響データを保持させる。音響出力部156は、音声取得部151が生成した音響データを第1情報処理装置100に出力する。具体的には、音響出力部156は、補助記憶装置204に保持された音響データを補助記憶装置204から読み出し、読み出した音響データを第1情報処理装置100に出力する。
[Processing of each part]
Processing of each unit included in the second
第2画像群取得部152は、複数の撮像装置16のそれぞれが出力する撮像画像データを取得する。すなわち、第2画像群取得部152は、複数の撮像装置16から複数視点画像データを取得する。第2前景取得部153は、第2画像群取得部152が取得した複数視点画像を構成する複数の撮像画像毎に、撮像画像に写るオブジェクトに対応する画像領域を抽出し、抽出した画像領域を前景領域として取得する。更に、第2前景取得部153は、取得した前景領域を示す前景画像を生成する。ここで、前景領域として抽出される画像領域に対応するオブジェクトとは、一般的に、時系列で同じ方向から撮像を行った場合において動きのある、又は、その位置が変化し得る動的なオブジェクト(以下「動体オブジェクト」という。)を指す。動体オブジェクトは、例えば、競技において、それが行われるフィールド内にいる選手又は審判等の自然人、及び、球技であれば、それに使用されるボール等である。また、コンサート又はエンタテイメント等の催しにおいては、歌手、演奏者、パフォーマー、又は司会者等が動体オブジェクトとなる。撮像画像から前景画像を生成する手法は周知であるため説明を省略する。
The second image
第2モデル生成部154は、第2前景取得部153が取得した、複数の撮像画像のそれぞれに対応する前景領域に基づいて、撮像画像に写るオブジェクトに対応する姿勢モデル(第2姿勢モデル)のデータを生成する。第2モデル生成部154が第2姿勢モデルのデータを生成する手法について説明する。第2モデル生成部154は、まず、標準的な人の形状を模した標準的な3次元形状モデル(以下「標準形状モデル」という。)のデータと、標準形状モデルに対応する標準的な姿勢モデル(以下「標準姿勢モデル」という・)のデータを取得する。標準形状モデル及び標準姿勢モデルのデータは、例えば、第2情報処理装置150が備える補助記憶装置204に予め記憶させており、第2モデル生成部154は、これらのデータを補助記憶装置204から読み出すことにより取得する。
The second
図3を参照して、標準形状モデル301及び標準姿勢モデル302について説明する。図3は、実施形態1に係る標準形状モデル301及び標準姿勢モデル302の一例を説明するための説明図である。標準形状モデル301は、3次元のメッシュにより表現されたモデルであって、標準形状モデル301のデータには、各頂点の位置を示す座標と三角形又は四角形等の面を構成する頂点のID(identifier)等の識別情報とが含まれている。標準形状モデル301は、ボクセルと呼ばれる点の集合により表現されたものであってもよい。
A
標準姿勢モデル302のデータには、頭部、肩、肘、手首、又は手足等の人体における関節部位に対応する標準姿勢モデル302における位置を示す情報(以下「関節情報303」という。)が含まれている。また、標準姿勢モデル302のデータには、関節情報303に加えて、標準姿勢モデル302における関節部位同士の接続関係を示す情報(以下「接続情報304」という。)が含まれている。接続情報304とは、例えば、標準姿勢モデル302における関節部位同士の距離を示す情報である。また、標準姿勢モデル302のデータには、関節情報303及び接続情報304に加えて、標準姿勢モデル302における関節における角度を示す情報(以下「角度情報」という。)が含まれる。角度情報とは、例えば、標準姿勢モデル302における隣接する関節部位同士を結んだ線分同士であって、隣接する線分同士が成す角度を示す情報である。
The data of the
第2モデル生成部154は、第2前景取得部153が取得した前景領域と一致するように図3に一例として示す標準姿勢モデル302に対応する標準形状モデル301を変形させる。第2モデル生成部154は、変形させた結果、最も一致した状態となった標準姿勢モデル302をオブジェクトに対応する姿勢モデル(第2姿勢モデル)として推定し、第2姿勢モデルのデータを生成する。ただし、第2姿勢モデルの生成手法は、上述の手法に限定されるものではない。例えば、第2モデル生成部154は、2次元画像上でオブジェクトの2次元の姿勢を推定し、各撮像装置16の位置、撮像方向、及び画角等に基づいて、3次元の姿勢モデルを推定して第2姿勢モデルのデータを生成してもよい。
The second
第2モデル生成部154は、生成した第2姿勢モデルのデータを第2情報処理装置150が備える補助記憶装置204に記憶させて、補助記憶装置204に当該データを保持させる。第2モデル生成部154は、第2姿勢モデルのデータを補助記憶装置204に記憶させる際に、第2姿勢モデルを生成する際に用いた撮像画像の撮像時刻を示す情報(撮像時刻情報)を、当該第2姿勢モデルのデータに対応付けて補助記憶装置204に記憶させる。モデル出力部155は、第2モデル生成部154が生成した第2姿勢モデルのデータと、当該第2姿勢モデルのデータに対応付けられ撮像時刻情報とを第1情報処理装置100に出力する。具体的には、モデル出力部155は、第2姿勢モデルのデータと撮像時刻情報と補助記憶装置204から読み出し、読み出した第2姿勢モデルのデータと撮像時刻情報とを第1情報処理装置100に出力する。
The second
第1情報処理装置100が備える各部の処理について説明する。モデル取得部105は、第2情報処理装置150が有するモデル出力部155が出力する第2姿勢モデルのデータと、当該第2姿勢モデルのデータに対応付けられ撮像時刻情報とを取得する。音響取得部106は、第2情報処理装置150が有する音響出力部156が出力する音響データを取得する。対応付け部107は、第2姿勢モデルのデータと音響データとの対応付けを行う。対応付け部107が行う当該対応付けの詳細については、図5及び図6を用いて後述する。
Processing of each unit included in the first
第1画像群取得部101は、複数の撮像装置11のそれぞれが出力する撮像画像データを取得する。すなわち、第1画像群取得部101は、複数の撮像装置11から複数視点画像データを取得する。第1前景取得部102は、第1画像群取得部101が取得した複数視点画像を構成する複数の撮像画像毎に、撮像画像に写るオブジェクトに対応する画像領域を抽出し、抽出した画像領域を前景領域として取得する。更に、第1前景取得部102は、取得した前景領域を示す前景画像を生成する。ここで、オブジェクトは、動体オブジェクトを指し、動体オブジェクトは、スタジオ等の第1撮像空間に存在する自然人等である。第1モデル生成部104は、第1前景取得部102が取得した、複数の撮像画像のそれぞれに対応する前景領域に基づいて、撮像画像に写るオブジェクトに対応する姿勢モデル(第1姿勢モデル)のデータを生成する。具体的には、例えば、第1モデル生成部104は、上述した、第2モデル生成部154が第2姿勢モデルのデータを生成する手法と同様の手法により、第1姿勢モデルのデータを生成する。
The first image
評価部108は、第1モデル生成部104が生成した第1姿勢モデルのデータとモデル取得部105が取得した第2姿勢モデルのデータとに基づいて、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価する。具体的には、例えば、評価部108は、第2姿勢モデルのデータを正解のデータとして、第1姿勢モデルのデータと第2姿勢モデルのデータとを比較して一致度を評価する。より具体的には、評価部108は、第1姿勢モデルのデータと第2姿勢モデルのデータとに含まれる関節情報303同士、接続情報304同士、及び角度情報同士の少なくともいずれかを比較することにより一致度を評価する。例えば、評価部108は、関節情報303同士の差分値、接続情報304同士の差分値、及び、角度情報同士の差分値の少なくともいずれかが、予め定められた閾値以下であるとき、第1姿勢モデルと第2姿勢モデルとが一致していると判定する。
Based on the data of the first posture model generated by the first
評価部108は、関節情報303、接続情報304、及び角度情報のうちの2つ以上の情報を組わせて、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価してもよい。また、評価部108は、関節情報303のうち、標準姿勢モデル302における頭部及び四肢の先端の関節等の予め定められた関節部位の位置を示す情報同士を比較してもよい。同様に、評価部108は、接続情報304のうちの標準姿勢モデル302における予め定められた関節部位間の接続情報同士、又は、角度情報のうちの標準姿勢モデル302における予め定められた関節部位における角度を比較してもよい。評価部108による第1姿勢モデルと第2姿勢モデルとの間の一致度の評価手法は、上述のものに限定されるものではない。
The
画像生成部103は、第1画像群取得部101が取得した複数視点画像と、第1前景取得部102が取得した、当該複数視点画像を構成する各撮像画像における前景領域とに基づいて、仮想視点画像を生成する。具体的には、例えば、画像生成部103は、以下のような手法により仮想視点画像を生成する。まず、画像生成部103は、各撮像画像における前景領域を示す前景画像を用いて、視体積交差法(Visual hull)によりオブジェクトに対応する三次元形状(以下「前景モデル」という。)のデータを生成する。Visual hullによる三次元形状データ生成手法は周知であるため説明を省略する。
The
次に、画像生成部103は、前景モデルに対して、複数視点画像を構成する複数の撮像画像のうちの少なくとも1つを用いてテクスチャマッピングを行うことにより、当該前景モデルに色付けを行う。また、画像生成部103は、前景モデルの背景となる背景モデルに対して、予め用意された背景画像を用いてテクスチャマッピングを行うことにより、当該背景モデルに色付けを行う。ここで、例えば、背景画像とは、競技場又は舞台等を撮像することにより得られた撮像画像である。最後に、画像生成部103は、ユーザ等により指定された三次元の仮想空間における視点(以下「仮想視点」という。)の位置に応じてレンダリングを行うことにより仮想視点画像を生成する。画像生成部103における仮想視点画像の生成手法は上述の手法に限定されるものではなく、例えば、画像生成部103は、三次元形状データを用いずに、撮像画像に対して射影変換を行うことにより仮想視点画像を生成してもよい。
Next, the
データ生成部109は、評価部108による評価結果である一致度に基づいて、画像生成部103が生成した仮想視点画像と、音響取得部106が取得した音響データが示す音響とを含むデータを生成する。具体的には、データ生成部109は、画像生成部103が生成した仮想視点画像のデータに音響取得部106が取得した音響データを合成して、音響データ付きの仮想視点画像データを生成する。すなわち、データ生成部109が生成する、仮想視点画像と音響とを含むデータとは、音響データ付きの仮想視点画像データである。より具体的には、まず、データ生成部109は、評価部108により第1姿勢モデルと第2姿勢モデルとが一致している判定された第2姿勢モデルに対応する時刻を取得する。ここで、第2姿勢モデルに対応する時刻とは、第2姿勢モデルを生成する際に用いられた前景領域を取得した撮像画像の撮像時刻である。
The
次に、データ生成部109は、対応付け部107により第2姿勢モデルのデータに対応付けられた音響データのうち、評価部108により第1姿勢モデルと第2姿勢モデルとが一致している判定された第2姿勢モデルに対応する時刻の音響データを取得する。最後に、データ生成部109は、評価部108により第1姿勢モデルと第2姿勢モデルとが一致している判定された第1姿勢モデルに対応する仮想視点画像のデータに、取得した当該時刻の音響データを合成して、音響データ付きの仮想視点画像データを生成する。ここで、第1姿勢モデルに対応する仮想視点画像とは、第1姿勢モデルを生成する際に用いられた前景領域と同一の前景領域を用いて生成された仮想視点画像である。データ生成部109は、生成した音響データ付きの仮想視点画像データを出力装置に出力する。なお、データ生成部109は、評価部108により第1姿勢モデルと第2姿勢モデルとが一致していない判定された第1姿勢モデルに対応する仮想視点画像のデータについては、音響取得部106が取得した音響データを合成せずにそのまま出力装置に出力する。
Next, the
[動作フロー]
図4を参照して、第2情報処理装置150の動作について説明する。図4は、実施形態1に係る第2情報処理装置150における処理の流れの一例を示すフローチャートである。なお、図4の説明において、記号「S」はステップを意味する。まず、S401にて、音声取得部151は、集音装置15が出力する音声信号を取得して音響データを生成する。また、第2画像群取得部152は、複数の撮像装置16のそれぞれが出力する撮像画像データ、すなわち、複数視点画像データを取得する。次に、S402にて、第2前景取得部153は、S401にて取得した複数視点画像を構成する複数の撮像画像毎に、撮像画像に写るオブジェクトに対応する前景領域を取得して、前景領域を示す前景画像を生成する。次に、S403にて、第2モデル生成部154は、第2姿勢モデルを推定して、第2姿勢モデルのデータを生成する。
[Operation flow]
The operation of the second
次に、S404にて、モデル出力部155は、第2姿勢モデルのデータと、当該第2姿勢モデルのデータに対応付けられ撮像時刻情報とを第1情報処理装置100に出力する。具体的には、例えば、モデル出力部155は、第1情報処理装置100から出力指示を受信したときに、第2姿勢モデルのデータと当該撮像時刻情報とを第1情報処理装置100に出力する。また、音響出力部156は、音響データを第1情報処理装置100に出力する。具体的には、例えば、音響出力部156は、第1情報処理装置100から出力指示を受信したときに、音響データを第1情報処理装置100に出力する。S404の後、第2情報処理装置150は、図4に示すフローチャートの処理を終了する。
Next, in S<b>404 , the
図5を参照して、第1情報処理装置100の動作について説明する。図5は、実施形態1に係る第1情報処理装置100における処理の流れの一例を示すフローチャートである。なお、図5の説明において、記号「S」はステップを意味する。まず、S501にて、モデル取得部105は、第2姿勢モデルのデータと、当該第2姿勢モデルのデータに対応付けられ撮像時刻情報とを第2情報処理装置150から取得する。また、音響取得部106は、音響データを第2情報処理装置150から取得する。
The operation of the first
次に、S502にて、対応付け部107は、S501にて取得された音響データを解析する。具体的には、例えば、対応付け部107は、音響データが示す音響の音量の大きさ、すなわち、音響に対応する音声信号の振幅の大きさを解析して、音響データのうち、音量が極大値となる時点を探索する。対応付け部107における音量の解析は、例えば、音響における各周波数のうち、48キロヘルツ(kHz)等の予め定められた周波数に対応する音響の音量の大きさを解析してもよい。また、対応付け部107は、S502の解析結果に基づいて、音響データの切り出しを行う。解析結果に基づく音響データの切り出しは、例えば、S501にて取得された音響データのうちから、オブジェクトである自然人が舞台でジャンプした際の着地音等に対応する部分の切り出しが考えられる。
Next, in S502, the associating
この場合、着地したときに舞台の床から生じる着地音以外の音響は、不必要な音響である。そのため、音響データのうち、音量が極大値となる時点の前後において音響の音量が予め定められた閾値以下の期間を削除する等の手法を用いて、仮想視点画像データに合成したい期間以外の音響データを削除して合成用の音響データとして切り出す。合成用の音響データの切り出し手法は上述のものに限定されるものではない。 In this case, sounds other than the landing sound produced from the floor of the stage upon landing are unnecessary sounds. Therefore, by using a method such as deleting a period before and after the point in time when the sound volume reaches a maximum value in the sound data when the sound volume is equal to or less than a predetermined threshold value, the sound other than the period desired to be combined with the virtual viewpoint image data is extracted. Delete the data and cut it out as sound data for synthesis. The method of cutting out sound data for synthesis is not limited to the one described above.
次に、S503にて、対応付け部107は、合成用の音響データと第2姿勢モデルのデータとを対応付ける。具体的には、まず、対応付け部107は、ステップS502における解析の結果に基づいて、合成用の音響データの音量が極大値となる時点に対応する時刻と同時刻に撮像された撮像画像に基づいて生成された第2姿勢モデルのデータを特定する。以下、ある時刻に撮像された撮像画像に基づいて生成された姿勢モデルのデータを姿勢モデルフレームのフレームデータと称して説明する。すなわち、対応付け部107は、ステップS502における解析の結果に基づいて、合成用の音響データの音量が極大値となる時点に対応する時刻と同時刻に撮像された撮像画像に基づいて生成された第2姿勢モデルフレームのフレームデータを特定する。次に、対応付け部107は、合成用の音響データの音量が極大値となる時点に対応する時刻と、特定した第2姿勢モデルフレームのフレームデータとを対応付ける。このようにして、対応付け部107は、合成用の音響データと第2姿勢モデルのデータとを対応付ける。
Next, in S503, the associating
図6を参照して、対応付け部107における対応付け処理について説明する。図6は、実施形態1に係る対応付け部107における対応付け処理の一例を説明するための説明図である。図6において、上部には、時系列に並べた第2姿勢モデルフレーム601a~601eが示されており、下部には、時系列の音声信号で示した音響データ602a~602cが示されている。なお、図6の下部は、一例として、音響データのうち、48kHzに対応する音響データを音声信号で示したものである。ここで、音響データ602bは、S502における切り出し処理により切り出された合成用の音響データを示している。また、音響データ602a,602cは、S501において取得された音声データのうち、S502における切り出し処理により削除された音声データを示している。なお、図6において、横軸は、時間軸であり、図6の下部において、縦軸は、音声信号の振幅の大きさを示している。
The association processing in the
音響データ602bは、仮想視点画像に合成するための合成用の音響データとして、第2姿勢モデルフレーム601a~601eのいずれかと対応付けられる。S502における解析により、音響データ602bにおいて音量が最大となる時点、すなわち、音響データ602bが最大振幅となる時点に対応する時刻が特定される。当該特定の後、当該時刻と同時刻に撮像された撮像画像に基づいて生成された第2姿勢モデルフレームが特定される。図6に示す例では、第2姿勢モデルフレーム601dに対応する時刻と、音響データ602bが最大振幅となる時点に対応する時刻とが一致しているため、音響信号602bと第2姿勢モデルフレーム601dとが対応付け部107により対応付けられる。
The
ただし、第2姿勢モデルフレームと音響データとが互いに時刻同期はされていたとしても、第2姿勢モデルフレームのフレームレートと音響データのサンプリングレートとが互いに異なる場合がある。このような場合、音響データが最大振幅となる時点に対応する時刻と同時刻の第2姿勢モデルフレームが存在しないことがある。したがって、このような場合には、音響データが最大振幅となる時点に対応する時刻に最も近い時刻の第2姿勢モデルフレームを特定して、音響データが最大振幅となる時点に対応する時刻と、特定した第2姿勢モデルフレームとを対応付ければよい。音響データと第2姿勢モデルとを対応付ける手法は上述のものに限定されるものではなく、音響と第2姿勢モデルとを同期できる手法であれば良い。 However, even if the second posture model frame and the acoustic data are time-synchronized with each other, the frame rate of the second posture model frame and the sampling rate of the acoustic data may differ from each other. In such a case, there may not be a second posture model frame at the same time as the time when the acoustic data reaches the maximum amplitude. Therefore, in such a case, the second posture model frame at the time closest to the time point at which the acoustic data reaches its maximum amplitude is identified, and the time point corresponding to the time point at which the acoustic data reaches its maximum amplitude is specified; All that is necessary is to associate it with the specified second posture model frame. The method of associating the acoustic data with the second posture model is not limited to the one described above, and any method that can synchronize the acoustic data with the second posture model may be used.
図7を参照して、対応付け部107による音響データと姿勢モデルとの対応付けを示す情報の構成について説明する。図7は、実施形態1に係る対応付け部107による音響データと姿勢モデルとの対応付けを示す情報の構成の一例を説明するための説明図である。図7に示すように、例えば、仮想視点画像に合成したい音響データのパターン数に応じて、パターンNo.が割り振られている。ここで、パターンには、例えば、舞台芸能の演目ごと、又は撮影シーンごとに仮想視点画像に合成したい音響データが設定されるものとする。図7に示す音響数には、パターンNo.ごとに仮想視点画像に合成する音響データの数、すなわち、S502にて切り出された合成用の音響データの数が入力される。図7に示す音響情報のそれぞれには、合成用の音響データが格納され、図7に示す姿勢推定モデルデータには、合成用の音響データが最大振幅となる時点に対応する時刻の第2姿勢モデルフレームのフレームデータが格納される。
The configuration of information indicating the correspondence between the acoustic data and the posture model by the associating
S503の後、S511にて、第1画像群取得部101は、複数の撮像装置11のそれぞれが出力する撮像画像データ、すなわち、複数視点画像データを取得する。次に、S512にて、第1前景取得部102は、S511にて取得した複数視点画像を構成する複数の撮像画像毎に、撮像画像に写るオブジェクトに対応する前景領域を取得して、前景領域を示す前景画像を生成する。次に、S513にて、画像生成部103は、仮想視点画像を生成する。次に、S514にて、第1モデル生成部104は、第1姿勢モデルを推定して、第1姿勢モデルのデータを生成する。
After S503, in S511, the first image
次に、S515にて、評価部108は、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価し、第1姿勢モデルと第2姿勢モデルとが一致するか否かを判定する。S515にて一致すると判定された場合、S516にて、データ生成部109は、S513にて生成された仮想視点画像データに、S503にて第2姿勢モデルのデータと対応付けられた合成用の音響データを合成する。その後、データ生成部109は、合成後の仮想視点画像データを出力装置に出力する。S515にて第1姿勢モデルと第2姿勢モデルとが一致しないと判定された場合、データ生成部109は、S513にて生成された仮想視点画像データをそのまま出力装置に出力する。
Next, in S515, the
第1情報処理装置100は、S520にて終了条件を満たしか否かを判定する。ここで、終了条件とは、例えば、ユーザからの終了指示の操作信号を受けた場合等である。第1情報処理装置100は、終了条件を満たすまでの間、S511からS516までの処理を繰り返して実行し、終了条件を満たしたときに図5に示すフローチャートの処理を終了する。
The first
以上のように、第1情報処理装置100によれば、互いに異なる撮像空間において取得された仮想視点画像データと音響データとを効率よく合成することができる。結果として、スタジオ等では再現できない音響を仮想視点画像に効率よく合成することが可能となるため、音響データと仮想視点画像データと合成するための作業負荷を低減することができる。
As described above, according to the first
なお、実施形態1では、第1情報処理装置100は、第1画像群取得部101、第1前景取得部102、画像生成部103、及び第1モデル生成部104を備えるものとして説明したが、これに限定されるものではない。例えば、第1情報処理装置100とは異なる装置にて生成された第1姿勢モデルのデータを取得する、図1には図示の第1姿勢モデル取得部を第1情報処理装置100が有している場合、第1情報処理装置100は、第1モデル生成部104を有する必要はない。また、例えば、第1情報処理装置100とは異なる装置にて生成された仮想視点画像を取得する、図1には図示の画像取得部を第1情報処理装置100が有している場合、第1情報処理装置100は、画像生成部103を有する必要はない。また、第1情報処理装置100は、第2情報処理装置150が有する各部を有するものであってもよい。すなわち、第1情報処理装置100は、第2情報処理装置150が有する機能を有していてもよい。第1情報処理装置100が、第2情報処理装置150が有する全ての構成を有する場合、情報処理システム1は、第2情報処理装置150を有していなくてもよい。
In the first embodiment, the first
(実施形態2)
図8乃至10を参照して、実施形態2に係る情報処理システム1について説明する。実施形態2に係る情報処理システム1の構成は、図1に一例として示す実施形態1に係る情報処理システム1の構成と同様である。すなわち、情報処理システム1は、複数の撮像装置11、集音装置15、複数の撮像装置16、第1情報処理装置100、第2情報処理装置150、及び出力装置19を備える。
(Embodiment 2)
An
実施形態1に係る情報処理システム1は、以下のようなものであった。まず、第2情報処理装置150にて、舞台等の第2撮像空間における撮像及び集音により得られた撮像画像データ及び音声信号に基づいて、事前に、第2姿勢モデルのデータと音響データとを生成しておく。次に、第1情報処理装置100にて、スタジオ等の第1撮像空間における撮像により得られた撮像画像データに基づいて、第1姿勢モデルのデータと仮想視点画像データとを生成する。更に、第1情報処理装置100にて、第1姿勢モデルのデータと第2姿勢モデルのデータとの間の一致度を評価して、当該一致度に基づいて、仮想視点画像データと音響データとを合成し、合成後の仮想視点画像データを出力する。
The
これに対して、実施形態2に係る情報処理システム1(以下、単に「情報処理システム1」という。)は、以下のようなものである。まず、第2情報処理装置150にて、舞台等の第2撮像空間における撮像及び集音により得られた撮像画像データ及び音声信号に基づいて、事前に、第2姿勢モデルのデータと音響データとを生成しておく。また、事前に、第2姿勢モデルのデータの解析により物理情報を生成しておく。物理情報については後述する。次に、第1情報処理装置100にて、スタジオ等の第1撮像空間における撮像により得られた撮像画像データに基づいて、第1姿勢モデルのデータと仮想視点画像データとを生成する。また、第1姿勢モデルのデータの解析により物理情報を生成する。更に、第1情報処理装置100にて、第1姿勢モデルのデータ及び当該データに対応する物理情報と、第2姿勢モデルのデータ及び当該データに対応する物理情報との間の一致度を評価する。最後に、第1情報処理装置100にて、当該一致度に基づいて、仮想視点画像データと音響データとを合成し、合成後の仮想視点画像データを出力する。
On the other hand, an information processing system 1 (hereinafter simply referred to as "
[構成]
実施形態2に係る第1情報処理装置100(以下、単に「第1情報処理装置100」という。)の機能ブロックの構成は、図1に一例として示す実施形態1に係る第1情報処理装置100が有する機能ブロックと同様であるため説明を省略する。すなわち、第1情報処理装置100は、を備える。すなわち、第1情報処理装置100は、第1画像群取得部101、第1前景取得部102、画像生成部103、第1モデル生成部104、モデル取得部105、音響取得部106、対応付け部107、評価部108、及びデータ生成部109を備える。また、実施形態2に係る第2情報処理装置150(以下、単に「第2情報処理装置150」という。)の機能ブロックの構成は、図1に一例として示す実施形態1に係る第2情報処理装置150が有する機能ブロックと同様であるため説明を省略する。すなわち、第2情報処理装置150は、音声取得部151、第2画像群取得部152、第2前景取得部153、第2モデル生成部154、モデル出力部155、及び音響出力部156を備える。また、第1情報処理装置100及び第2情報処理装置150のハードウェア構成は、実施形態1に係る第1情報処理装置100及び第2情報処理装置150と同様であるため説明を省略する。
[composition]
The configuration of the functional blocks of the first
[各部の処理]
以下、情報処理システム1と実施形態1に係る情報処理システム1との差異について説明する。まず、第2情報処理装置150が備える各部の処理について説明する。音声取得部151、第2画像群取得部152、第2前景取得部153、及び音響出力部156は、実施形態1に係る音声取得部151、第2画像群取得部152、第2前景取得部153、及び音響出力部156と同様であるため説明を省略する。
[Processing of each part]
Differences between the
第2モデル生成部154は、第2姿勢モデルのデータを生成する機能に加えて、生成した第2姿勢モデルのデータを解析して、第2姿勢モデルのデータに対応する物理情報(以下「第2物理情報」という。)を生成する機能を有する。ここで、物理情報とは、第2姿勢モデルフレームにおけるオブジェクトに対応する関節部位の速度又は加速度を示す情報である。具体的には、第2モデル生成部154は、複数の第2姿勢モデルフレームのフレームデータに基づいて当該関節部位の速度又は加速度を算出することにより、第2物理情報を生成する。第2モデル生成部154は、第2姿勢モデルのデータ、及び第2姿勢モデルを生成する際に用いた撮像画像の撮像時刻を示す情報(撮像時刻情報)に加えて、生成した第2物理情報を、第2情報処理装置150が備える補助記憶装置204に記憶させる。具体的には、第2モデル生成部154は、第2物理情報を第2姿勢モデルフレームのフレームデータに対応付けて、第2情報処理装置150が備える補助記憶装置204に記憶させる。
In addition to the function of generating the data of the second posture model, the second
モデル出力部155は、第2姿勢モデルのデータ、及び当該第2姿勢モデルのデータに対応付けられ撮像時刻情報に加えて、第2モデル生成部154が生成した第2物理情報を第1情報処理装置100に出力する。具体的には、モデル出力部155は、第2姿勢モデルのデータ、撮像時刻情報、及び第2物理情報を補助記憶装置204から読み出し、読み出した第2姿勢モデルのデータ、撮像時刻情報、及び第2物理情報を第1情報処理装置100に出力する。
The
次に、第1情報処理装置100が備える各部の処理について説明する。第1画像群取得部101、第1前景取得部102、画像生成部103、音響取得部106、及びデータ生成部109は、実施形態1に係る、対応する各部と同様であるため説明を省略する。第1モデル生成部104は、第1姿勢モデルのデータを生成する機能に加えて、生成した第1姿勢モデルのデータを解析して、第1姿勢モデルのデータに対応する物理情報(以下「第1物理情報」という。)を生成する機能を有する。具体的には、第1モデル生成部104は、複数の第1姿勢モデルフレームのフレームデータに基づいて当該関節部位の速度又は加速度を算出することにより、第1物理情報を生成する。生成された第1物理情報は、第1姿勢モデルフレームのフレームデータに対応付けられる。
Next, processing of each unit included in the first
モデル取得部105は、第2情報処理装置150が有するモデル出力部155が出力する第2姿勢モデルのデータ、及び当該第2姿勢モデルのデータに対応付けられ撮像時刻情報に加えて、第2物理情報を取得する。取得される第2物理情報は、第2姿勢モデルフレームのフレームデータに対応付けられている。対応付け部107は、音響データから合成用の音響データを切り出す機能、及び、合成用の音響データ、第2姿勢モデルフレームのフレームデータ、及び第2姿勢モデルフレームのフレームデータに対応する第2物理情報を互いに対応付ける機能を有する。対応付け部107が有する機能のうち、音響データから合成用の音響データを切り出す機能については実施形態1で説明したため説明を省略する。また、合成用の音響データと第2姿勢モデルフレームのフレームデータとを対応付ける手法については、実施形態1で説明したため説明を省略する。また、第2物理情報は、第2姿勢モデルフレームのフレームデータに対応付けられているものであるため説明を省略する。
In addition to the data of the second orientation model output by the
評価部108は、第1姿勢モデルのデータと第2姿勢モデルのデータとに基づいて、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価する機能を有する。具体的には、評価部108は、第1姿勢モデルのデータと第2姿勢モデルのデータとに含まれる関節情報303同士、接続情報304同士、及び角度情報同士の少なくともいずれかを比較することにより一致度を評価する機能を有する。また、評価部108は、当該機能に加えて、第1物理情報と第2物理情報とに基づいて、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価する機能を有する。具体的には、評価部108は、第1姿勢モデルにおけるオブジェクトに対応する関節部位の速度又は加速度を示す情報と、当該関節部位に対応する、第2姿勢モデルにおけるオブジェクトに対応する関節部位の速度又は加速度を示す情報と比較する。例えば、速度同士の差分値、及び、加速度同士の差分値の少なくともどちらかが、予め定められた閾値以下であるとき、第1姿勢モデルと第2姿勢モデルとが一致していると判定する。
The
より具体的には、例えば、まず、評価部108は、第1姿勢モデルのデータと第2姿勢モデルのデータとに基づいて、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価する。次に、第1姿勢モデルのデータと第2姿勢モデルのデータとに基づいて第1姿勢モデルと第2姿勢モデルとが一致すると判定された場合に、評価部108は、第1物理情報と第2物理情報とに基づいて、第1姿勢モデルと第2姿勢モデルとの間の一致度を評価する。このような段階的な評価により、第1姿勢モデルと第2姿勢モデルとの間の一致度の評価の精度を向上できる。なお、第1姿勢モデルのデータと第2姿勢モデルのデータとに基づいて第1姿勢モデルと第2姿勢モデルとが一致すると判定されたときに、評価部108は、第1モデル生成部104及びモデル取得部105に対して物理情報を生成させる指示を行ってもよい。
More specifically, for example, the
[動作フロー]
図8を参照して、第2情報処理装置150の動作について説明する。図8は、実施形態2に係る第2情報処理装置150における処理の流れの一例を示すフローチャートである。なお、図8の説明において、記号「S」はステップを意味する。また、図8において、図4と同一の符号を付したものについては説明を省略する。まず、第2情報処理装置150は、S401からS403までの処理を実行する。
[Operation flow]
The operation of the second
S403の後、S804にて、第2モデル生成部154は、第2物理情報を生成する。次に、S805にて、モデル出力部155は、第2姿勢モデルのデータ、当該第2姿勢モデルのデータに対応付けられ撮像時刻情報と、及び第2物理情報を第1情報処理装置100に出力する。具体的には、例えば、モデル出力部155は、第1情報処理装置100から出力指示を受信したときに、第2姿勢モデルのデータ、当該撮像時刻情報、及び第2物理情報を第1情報処理装置100に出力する。また、音響出力部156は、音響データを第1情報処理装置100に出力する。具体的には、例えば、音響出力部156は、第1情報処理装置100から出力指示を受信したときに、音響データを第1情報処理装置100に出力する。S805の後、第2情報処理装置150は、図8に示すフローチャートの処理を終了する。
After S403, in S804, the second
図9を参照して、第1情報処理装置100の動作について説明する。図9は、実施形態2に係る第1情報処理装置100における処理の流れの一例を示すフローチャートである。なお、図9の説明において、記号「S」はステップを意味する。また、図9において、図5と同一の符号を付したものについては説明を省略する。まず、第1情報処理装置100は、S501及びS502の処理を実行する。
The operation of the first
S502の後、S903にて、対応付け部107は、合成用の音響データ、第2姿勢モデルのデータ、及び第2物理情報を互いに対応付ける。具体的には、まず、対応付け部107は、ステップS502における解析の結果に基づいて、合成用の音響データの音量が極大値となる時点に対応する時刻と同時刻に撮像された撮像画像に基づいて生成された第2姿勢モデルのデータを特定する。すなわち、対応付け部107は、ステップS502における解析の結果に基づいて、合成用の音響データの音量が極大値となる時点に対応する時刻と同時刻に撮像された撮像画像に基づいて生成された第2姿勢モデルフレームのフレームデータを特定する。次に、対応付け部107は、音響データから合成用の音響データを切り出す機能、及び、合成用の音響データ、第2姿勢モデルフレームのフレームデータ、及び第2姿勢モデルフレームのフレームデータに対応する第2物理情報を互いに対応付ける。このようにして、対応付け部107は、合成用の音響データ、第2姿勢モデルのデータ、及び第2物理情報を互いに対応付ける。
After S502, in S903, the associating
図10を参照して、対応付け部107における対応付け処理、特に、合成用の音響データと、複数の第2姿勢モデルフレームのフレームデータとの対応付け処理について説明する。図10は、実施形態2に係る対応付け部107における対応付け処理の一例を説明するための説明図である。図10において、上部には、時系列に並べた第2姿勢モデルフレーム1001a~1001eが示されており、下部には、時系列の音声信号で示した音響データ1002a~1002cが示されている。なお、図10の下部は、一例として、音響データのうち、48kHzに対応する音響データを音声信号で示したものである。ここで、音響データ1002bは、S502における切り出し処理により切り出された合成用の音響データを示している。また、音響データ1002a,1002cは、S501において取得された音声データのうち、S502における切り出し処理により削除された音声データを示している。なお、図10において、横軸は、時間軸であり、図10の下部において、縦軸は、音声信号の振幅の大きさを示している。
Referring to FIG. 10, association processing in
音響データ1002bは、仮想視点画像に合成するための合成用の音響データとして、第2姿勢モデルフレーム1001a~1001eのいずれかと対応付けられる。S502における解析により、音響データ1002bにおいて音量が最大となる時点、すなわち、音響データ1002bが最大振幅となる時点に対応する時刻が特定される。当該特定の後、当該時刻と同時刻に撮像された撮像画像に基づいて生成された第2姿勢モデルフレームが特定される。図10に示す例では、第2姿勢モデルフレーム1001dに対応する時刻と、音響データ1002bが最大振幅となる時点に対応する時刻とが一致している。そのため、音響信号1002bと第2姿勢モデルフレーム1001dとが対応付け部107により対応付けられる。音響データが最大振幅となる時点に対応する時刻と同時刻の第2姿勢モデルフレームが存在しない場合、実施形態1に係る対応付け部107と同様に、まず、音響データが最大振幅となる時点に対応する時刻に最も近い時刻の第2姿勢モデルフレームを特定する。次に、音響データが最大振幅となる時点に対応する時刻と、特定した第2姿勢モデルフレームとを対応付ければよい。
The
音響信号1002bと第2姿勢モデルフレーム1001dとを対応付けた後、第2姿勢モデルフレーム1001dの時刻を基準とした前後の予め定められた期間内に含まれる1以上の第2姿勢モデルフレームと音響信号1002bとを対応付ける。なお、当該期間に含まれる全ての第2姿勢モデルフレームに対して音響信号1002bを対応付ける必要はない。例えば、当該期間に含まれる第2姿勢モデルフレームのうち、第2姿勢モデルフレーム同士の時間間隔が、予め定められた時間間隔の第2姿勢モデルフレームのみに対して音響信号1002bを対応付けてもよい。なお、音響信号1002bを対応付ける、第2姿勢モデルフレーム1001dに近傍する第2姿勢モデルフレームの決定方法は上述のものに限定されるものではない。また、音響データと第2姿勢モデルとを対応付ける手法は上述のものに限定されるものではなく、音響と第2姿勢モデルとを同期できる手法であれば良い。
After the
S503の後、第1情報処理装置100は、S511からS514までの処理を実行する。S514の後、S911にて、第1モデル生成部104は、第1物理情報を生成する。次に、S912にて、評価部108は、評価対象となる最初の第1姿勢モデルフレームのフレームデータと第2姿勢モデルフレームのフレームデータとの間の一致度を評価し、第1姿勢モデルフレームと第2姿勢モデルフレームとが一致するか否かを判定する。S515にて一致すると判定された場合、評価部108は、S913の処理を実行する。S913にて、評価部108は、評価対象となる最初の姿勢モデルフレーム以降の、第1姿勢モデルフレームのフレームデータ及び第1物理情報と第2姿勢モデルフレームのフレームデータ及び第2物理情報とが一致するか否かを判定する。
After S503, the first
S913にて一致すると判定された場合、S516にて、データ生成部109は、S513にて生成された仮想視点画像データに、S503にて第2姿勢モデルのデータと対応付けられた合成用の音響データを合成する。その後、データ生成部109は、合成後の仮想視点画像データを出力装置に出力する。S912又はS913にて一致しないと判定された場合、データ生成部109は、S513にて生成された仮想視点画像データをそのまま出力装置に出力する。第1情報処理装置100は、S520にて終了条件を満たしか否かを判定する。第1情報処理装置100は、終了条件を満たすまでの間、S511からS516までの処理を繰り返して実行し、終了条件を満たしたときに図9に示すフローチャートの処理を終了する。
If it is determined in S913 that they match, in S516 the
以上のように、第1情報処理装置100によれば、互いに異なる撮像空間において取得された仮想視点画像データと音響データとを効率よく合成することができる。結果として、スタジオ等では再現できない音響を仮想視点画像に効率よく合成することが可能となるため、音響データと仮想視点画像データと合成するための作業負荷を低減することができる。また、第1情報処理装置100は、第1姿勢モデルのデータと第2姿勢モデルのデータと間の一致度に加えて、第1姿勢モデルに対応する第1物理情報と第2姿勢モデルに対応する第2物理情報との間の一致度を評価するものである。このような第1情報処理装置100によれば、互いに異なる撮像空間において取得された仮想視点画像データと音響データとの自動合成の精度を向上できる。結果として、仮想視点画像データに、誤った時刻の音響データが合成されてしまうことを抑制できる。
As described above, according to the first
(その他の実施形態)
本開示は、上述の実施形態の1以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present disclosure supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or storage medium, and one or more processors in the computer of the system or device read and execute the program. processing is also feasible. It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
なお、本開示はその開示の範囲内において、各実施形態の自由な組み合わせ、各実施形態の任意の構成要素の変形、又は、各実施形態において任意の構成要素の省略が可能である。 In addition, within the scope of the disclosure, the present disclosure allows free combination of each embodiment, modification of arbitrary constituent elements of each embodiment, or omission of arbitrary constituent elements in each embodiment.
100 情報処理装置
103 画像生成部
104 第1モデル生成部
105 モデル取得部
106 音響取得部
108 評価部
109 データ生成部
100
Claims (14)
前記第1の複数視点画像に基づいて生成された仮想視点画像のデータを取得する画像取得手段と、
前記第1の撮像空間とは異なる第2の撮像空間を撮像する複数の撮像装置から得られた第2の複数視点画像に基づいて生成された第2の姿勢モデルのデータを取得する第2モデル取得手段と、
前記第2の撮像空間において、前記第2の複数視点画像が撮像されるときに集音された音響のデータを取得する音響取得手段と、
前記第1の姿勢モデルと前記第2の姿勢モデルとの一致度を評価する評価手段と、
前記一致度に基づいて、前記仮想視点画像と前記音響とを含むデータを生成するデータ生成手段と、
を有すること
を特徴とする情報処理装置。 a first model acquiring means for acquiring data of a first posture model generated based on first multi-viewpoint images obtained from a plurality of imaging devices imaging a first imaging space;
image acquisition means for acquiring data of a virtual viewpoint image generated based on the first multi-viewpoint image;
A second model for acquiring data of a second posture model generated based on second multi-viewpoint images obtained from a plurality of imaging devices imaging a second imaging space different from the first imaging space. acquisition means;
sound acquisition means for acquiring sound data collected when the second multi-viewpoint image is captured in the second imaging space;
evaluation means for evaluating a degree of matching between the first posture model and the second posture model;
data generation means for generating data including the virtual viewpoint image and the sound based on the degree of matching;
An information processing device characterized by comprising:
を更に有し、
前記データ生成手段は、前記一致度に基づいて前記第2の姿勢モデルに対応する前記第1の姿勢モデルを特定し、特定した前記第1の姿勢モデルに対応する前記仮想視点画像と、前記第1の姿勢モデルに対応すると特定した前記第2の姿勢モデルのデータに対応付けられた前記音響のデータとを対応付けたデータを生成すること
を特徴とする請求項1に記載の情報処理装置。 further comprising an associating means for analyzing the acoustic data and associating the second posture model data with the analyzed acoustic data;
The data generating means specifies the first posture model corresponding to the second posture model based on the degree of matching, the virtual viewpoint image corresponding to the specified first posture model, and the 2. The information processing apparatus according to claim 1, wherein data is generated in which the acoustic data associated with the data of the second posture model identified as corresponding to one posture model are associated with each other.
前記データ生成手段は、前記仮想視点画像と前記合成用の音響とを含むデータを生成すること
を特徴とする請求項2に記載の情報処理装置。 The associating means analyzes the sound data, cuts out sound data for synthesis from the sound data based on the result of the analysis, and cuts out the sound data for synthesis; making a correspondence with the data of the second posture model corresponding to the period of the sound data for synthesis,
3. The information processing apparatus according to claim 2, wherein the data generating means generates data including the virtual viewpoint image and the synthesis sound.
を特徴とする請求項3に記載の情報処理装置。 4. The information processing apparatus according to claim 3, wherein the associating means cuts out the sound data for synthesis based on the volume level of the sound data.
を特徴とする請求項4に記載の情報処理装置。 5. The information according to claim 4, wherein the associating means cuts out the sound data for synthesis based on a volume level corresponding to a predetermined frequency in the sound data. processing equipment.
を特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。 The evaluation means includes information indicating positions of joints of the first posture model, information indicating positions of joints of the second posture model, and information indicating connection relationships between joints in the first posture model. and information indicating a connection relationship between joints in the second posture model, and evaluating the degree of matching between the first posture model and the second posture model. The information processing apparatus according to any one of claims 1 to 5.
を更に有し、
前記評価手段は、前記第1の物理情報と前記第2の物理情報とに基づいて、前記第1の姿勢モデルと前記第2の姿勢モデルとの前記一致度を評価すること
を特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。 physical information acquiring means for acquiring first physical information that is physical information of the first posture model and second physical information that is physical information of the second posture model;
The evaluation means evaluates the degree of matching between the first posture model and the second posture model based on the first physical information and the second physical information. Item 7. The information processing apparatus according to any one of Items 1 to 6.
を特徴とする請求項7に記載の情報処理装置。 The first physical information and the second physical information are the velocity and acceleration of joint parts in the first posture model and the second posture model, and the first posture model and the second posture. 8. The information processing apparatus according to claim 7, wherein the information indicates at least one of the angles of parts in the model.
を特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。 The first posture model is a three-dimensional model representing joints and connection relationships between joints in an object existing in a first imaging space, and the second posture model exists in a second imaging space. 9. The information processing apparatus according to any one of claims 1 to 8, wherein the model is a three-dimensional model showing joints in an object and connection relationships between the joints.
前記第1の複数視点画像を構成する複数の撮像画像毎に、前記撮像画像におけるオブジェクトに対応する画像領域を前景領域として取得する第1前景取得手段と、
複数の撮像画像毎に取得した前記前景領域に基づいて、前記オブジェクトに対応する前記第1の姿勢モデルを生成する第1モデル生成手段と、
前記第1の複数視点画像と、前記第1の複数視点画像を構成する複数の撮像画像毎に取得した前記前景領域とに基づいて、前記仮想視点画像を生成する画像生成手段と、
を更に有し、
前記第1モデル取得手段は、前記第1モデル生成手段により生成された前記第1の姿勢モデルのデータを取得し、
前記画像取得手段は、前記画像生成手段により生成された前記仮想視点画像のデータを取得すること
を特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。 a first image group acquiring means for acquiring the first multi-viewpoint images;
a first foreground obtaining means for obtaining, as a foreground area, an image area corresponding to an object in the captured image for each of a plurality of captured images that constitute the first multi-viewpoint image;
a first model generation means for generating the first posture model corresponding to the object based on the foreground region acquired for each of a plurality of captured images;
image generation means for generating the virtual viewpoint image based on the first multi-viewpoint image and the foreground region obtained for each of a plurality of captured images that constitute the first multi-viewpoint image;
further having
The first model acquisition means acquires data of the first posture model generated by the first model generation means,
The information processing apparatus according to any one of claims 1 to 9, wherein the image obtaining means obtains data of the virtual viewpoint image generated by the image generating means.
前記第2の複数視点画像を構成する複数の撮像画像毎に、前記撮像画像におけるオブジェクトに対応する画像領域を前景領域として取得する第2前景取得手段と、
複数の撮像画像毎に取得した前記前景領域に基づいて、前記オブジェクトに対応する前記第2の姿勢モデルを生成する第2モデル生成手段と、
前記第2の撮像空間に設置された集音装置から、前記集音装置により集音された音声の信号を取得し、前記音声の信号をデジタル化して前記音響のデータを取得する音声取得手段と、
を更に有し、
前記第2モデル取得手段は、前記第2モデル生成手段により生成された前記第2の姿勢モデルのデータを取得し、
前記音響取得手段は、前記音声取得手段により取得された前記音響のデータを取得すること
を特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。 a second image group acquiring means for acquiring the second multi-viewpoint images;
a second foreground obtaining means for obtaining, as a foreground area, an image area corresponding to an object in the captured image for each of a plurality of captured images forming the second multi-viewpoint image;
a second model generation means for generating the second posture model corresponding to the object based on the foreground region acquired for each of a plurality of captured images;
sound acquisition means for acquiring a signal of sound collected by the sound collecting device from the sound collecting device installed in the second imaging space, and digitizing the signal of the sound to acquire the data of the sound; ,
further having
the second model acquisition means acquires data of the second posture model generated by the second model generation means;
The information processing apparatus according to any one of claims 1 to 10, wherein the sound acquisition means acquires the sound data acquired by the sound acquisition means.
前記第1の撮像空間とは異なる第2の撮像空間を撮像する複数の撮像装置から得られた第2の複数視点画像に基づいて第2の姿勢モデルのデータを生成し、且つ、前記第2の撮像空間に設置された集音装置による集音により得られた音響の信号に基づいて音響のデータを生成する第2の情報処理装置と、
を有し、
前記第1の情報処理装置は、前記第2の情報処理装置により生成された前記第2の姿勢モデルと前記音響のデータとを取得して、前記第1の姿勢モデルと前記第2の姿勢モデルとの一致度に基づいて前記仮想視点画像と前記音響とを含むデータを生成すること
を特徴とする情報処理システム。 a first information processing device that generates first posture model data and virtual viewpoint image data based on first multi-viewpoint images obtained from a plurality of imaging devices imaging a first imaging space; ,
generating data of a second posture model based on second multi-viewpoint images obtained from a plurality of imaging devices imaging a second imaging space different from the first imaging space; a second information processing device that generates acoustic data based on an acoustic signal obtained by sound collection by a sound collector installed in the imaging space;
has
The first information processing device acquires the second posture model generated by the second information processing device and the acoustic data, and generates the first posture model and the second posture model. an information processing system that generates data including the virtual viewpoint image and the sound based on the degree of matching between the virtual viewpoint image and the sound.
前記第1の複数視点画像に基づいて生成された仮想視点画像のデータを取得する画像取得工程と、
前記第1の撮像空間とは異なる第2の撮像空間を撮像する複数の撮像装置から得られた第2の複数視点画像に基づいて生成された第2の姿勢モデルのデータを取得する第2モデル取得工程と、
前記第2の撮像空間において、前記第2の複数視点画像が撮像されるときに集音された音響のデータを取得する音響取得工程と、
前記第1の姿勢モデルと前記第2の姿勢モデルとの一致度を評価する評価工程と、
前記一致度に基づいて、前記仮想視点画像と前記音響とを含むデータを生成するデータ生成工程と、
を有すること
を特徴とする情報処理方法。 a first model acquisition step of acquiring data of a first posture model generated based on first multi-viewpoint images obtained from a plurality of imaging devices imaging a first imaging space;
an image acquisition step of acquiring data of a virtual viewpoint image generated based on the first multi-viewpoint image;
A second model for acquiring data of a second posture model generated based on second multi-viewpoint images obtained from a plurality of imaging devices imaging a second imaging space different from the first imaging space. an acquisition step;
a sound acquisition step of acquiring sound data collected when the second multi-viewpoint image is captured in the second imaging space;
an evaluation step of evaluating a degree of matching between the first posture model and the second posture model;
a data generation step of generating data including the virtual viewpoint image and the sound based on the degree of matching;
An information processing method characterized by having
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021157900A JP2023048531A (en) | 2021-09-28 | 2021-09-28 | Information processing device, information processing method, program, and acoustic automatic synthesis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021157900A JP2023048531A (en) | 2021-09-28 | 2021-09-28 | Information processing device, information processing method, program, and acoustic automatic synthesis system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023048531A true JP2023048531A (en) | 2023-04-07 |
Family
ID=85780132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021157900A Pending JP2023048531A (en) | 2021-09-28 | 2021-09-28 | Information processing device, information processing method, program, and acoustic automatic synthesis system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023048531A (en) |
-
2021
- 2021-09-28 JP JP2021157900A patent/JP2023048531A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10582191B1 (en) | Dynamic angle viewing system | |
JP6415675B1 (en) | Generating apparatus, generating method, and program | |
KR102077108B1 (en) | Apparatus and method for providing contents experience service | |
KR101295471B1 (en) | A system and method for 3D space-dimension based image processing | |
CN102622774B (en) | Living room film creates | |
CN110622215B (en) | Three-dimensional model generation device, generation method, and program | |
CN104883557A (en) | Real time holographic projection method, device and system | |
CN106534618B (en) | Method, device and system for realizing pseudo field explanation | |
WO2010038693A1 (en) | Information processing device, information processing method, program, and information storage medium | |
CN105704507A (en) | Method and device for synthesizing animation in video in real time | |
CN113822970A (en) | Live broadcast control method and device, storage medium and electronic equipment | |
CN105338370A (en) | Method and apparatus for synthetizing animations in videos in real time | |
CN116071471A (en) | Multi-machine-position rendering method and device based on illusion engine | |
JP2019022151A (en) | Information processing apparatus, image processing system, control method, and program | |
JP4881178B2 (en) | Odometer image generation device and odometer image generation program | |
JP6431259B2 (en) | Karaoke device, dance scoring method, and program | |
JP6812181B2 (en) | Image processing device, image processing method, and program | |
CN117793324A (en) | Virtual rebroadcast reconstruction system, real-time generation system and pre-generation system | |
JP2019103126A (en) | Camera system, camera control device, camera control method, and program | |
JP2023033975A (en) | Image processing device, image processing method, and program | |
KR20200143293A (en) | Metohd and appartus for generating augumented reality video for real-time multi-way ar broadcasting | |
JP2023048531A (en) | Information processing device, information processing method, program, and acoustic automatic synthesis system | |
CN114419285A (en) | Virtual character performance control method and system applied to composite theater | |
JP7065708B2 (en) | Recording / playback device and program | |
JP4217008B2 (en) | Camera work simulator and simulation method |