JP2021125138A

JP2021125138A - 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム

Info

Publication number: JP2021125138A
Application number: JP2020020068A
Authority: JP
Inventors: 祥吾今尾; Shogo Imao
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-30
Anticipated expiration: 2040-02-07
Also published as: US11501471B2; JP7127659B2; US20210248788A1

Abstract

【課題】撮影画像のみから物体を切り抜いて処理する。【解決手段】仮想・現実合成システムにおいて、学習用コンピュータは、背景、任意の物体、又は任意の物体を操作するユーザの身体の一部を含む現実空間におけるユーザ視点の撮像画像データを入力とし、撮像画像から切り抜いた任意の物体に対応する第１領域又はユーザの体の一部に対応する第２領域を含む切抜き領域を示す切抜きデータを出力とする学習データを用いて、セマンティックセグメンテーションモデルを学習する。仮想・現実合成コンピュータにおいて、上記学習により得られた学習済みデータを学習済みセマンティックセグメンテーションモデル部に設定し、デュアルカメラ撮像画像データが入力されて切抜きデータを出力し、仮想・現実合成部にて、仮想空間映像データと切抜きデータに対応するデュアルカメラ撮像画像データとを合成し、得られる仮想・現実合成映像データを表示する。【選択図】図２

Description

本発明は、撮影画像から物体を切り抜いて処理する情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラムに関する。

仮想（ＶＲ：ＶｉｒｔｕａｌＲｅａｌｉｔｙ）空間上に所望の現実の物体を表示する従来技術の一つとして、クロマキー合成技術が知られている。この技術は、例えばブルーやグリーンなどの均質な特定の色の背景の前で所望の現実の物体を撮影し、その特定の色の成分から撮影された映像の一部である例えば背景を透明にし、その背景部分に別の映像を合成する技術である。このようなクロマキー合成技術によれば、色の成分判別だけで所望の現実の物体をリアルタイムに切り抜くことができる。

特開２０１１−２１５８５６号公報

しかし、例えばユーザが自宅などで楽器を演奏する現実シーンをコンサート会場などの仮想空間に合成することを考えた場合、上記クロマキー合成技術では、特定の色の背景で囲まれた撮影空間の環境が必要であり、そのような環境を一般ユーザが構築することは手間や場所、金銭コスト的にも困難である。また、クロマキー合成技術では、撮影映像において特定の色を有する領域以外は全て切り抜かれてしまうため、切り抜きたい現実の物体以外の物体はその空間に置けないことになり、例えば切り抜きたい楽器等の所望の物体やユーザの身体以外と特定の色の背景以外は撮影映像中に入り込まないようにしなければならない。更に、切り抜きたい所望の物体やユーザの身体の中に特定の色の領域が含まれる場合その領域は切り抜くことができない。

そこで、本発明は、仮想空間画像データに、ユーザ視点でリアルタイムに撮像される撮像画像データに含まれる一部の領域のデータを合成し、良好に仮想・現実合成画像データを生成することを目的とする。

態様の一例の情報処理装置は、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別し、仮想空間画像データに、取得された撮像画像データに含まれる領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成する。

本発明によれば、仮想空間画像データに、ユーザ視点でリアルタイムに撮像される撮像画像データに含まれる一部の領域のデータを合成し、良好に仮想・現実合成画像データを生成することが可能となる。

本発明による仮想・現実合成コンピュータの実施形態のハードウェア構成例を示すブロック図である。仮想・現実合成システムの実施形態のブロック図である。現実の物体が電子楽器とユーザの身体の一部である場合の切抜き動作の説明図である。学習データ（学習入力データと学習正解データ）の例を示す図である。学習データのバリエーションの例を示す図である。合成学習入力データと合成学習正解データの例を示す図である。学習フェーズの処理例を示すフローチャートである。実施フェーズの処理例を示すフローチャートである。推論処理の詳細例を示すフローチャートである。角度により楽器を見ているか否かを判定する手法の説明図である。現実の物体が缶飲料とユーザの身体の一部である場合の切抜き動作の説明図である。現実の物体がスマートフォンとユーザの身体の一部である場合の切抜き動作の説明図である。

以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。図１は、本発明による仮想・現実合成コンピュータの実施形態のハードウェア構成例１００を示すブロック図である。

仮想・現実合成コンピュータ１００は、通常のパーソナルコンピュータのほか、スマートフォン、タブレット端末、デジタルカメラなどを含む。図１に示される仮想・現実合成コンピュータ１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、デュアルカメラ１０４、ヘッドマウントディスプレイ（ＨＭＤ：ＨｅａｄＭｏｕｔｅｄＤｉｓｐｌａｙ、以下「ＨＭＤ」）ＨＭＤ１０５、カメラＩ／Ｆ（インタフェース）１０６、ディスプレイコントローラ１０７、スイッチＩ／Ｆ（インタフェース）１０８、外部記憶装置１０９、及びネットワークインタフェース１１０を含み、これらはシステムバス１１１により相互に接続されている。なお各図面に例示するような画像を描画するための各種演算処理は、図示しないＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により実行されているが、以下の実施例の説明としては、説明の都合上、ＣＰＵ１０１により実行されているものとして記載している場合がある。このように仮想・現実合成コンピュータ１００の構成は、図１に示される構成に限定されるものではない。

読出し専用の半導体メモリであるＲＯＭ１０２は、仮想・現実合成処理に用いられるプログラム及びデータを格納する。

ＣＰＵ１０１は、例えば、ランダムアクセス可能な半導体メモリであるＲＡＭ１０３をプログラムやデータの作業領域として使用しながら、以下で説明する仮想・現実合成のための情報処理に対応するプログラムを実行する。

デュアルカメラ１０４は、ユーザ視点の撮像画像データを入力するための２つのカメラユニットからなるカメラデバイスである。デュアルカメラ１０４で撮像された撮像画像は、カメラＩ／Ｆ１０６及びシステムバス１１１を介して撮像画像データとしてＲＡＭ１０３に順次記憶される。

ＣＰＵ１０１での情報処理により合成された仮想・現実合成画像は、ＲＡＭ１０３、システムバス１１１、及びディスプレイコントローラ１０７を介して、ユーザが装着するＨＭＤ１０５に表示される。ユーザがＨＭＤ１０５上の特には図示しないスイッチ類を操作した状態は、スイッチＩ／Ｆ１０８及びシステムバス１１１を介してＣＰＵ１０１により処理される。

外部記憶装置１０９は、例えばＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）、ハードディスク記憶装置、磁気ディスク記憶装置、光ディスク装置、光磁気ディスク装置、又はテープ装置などの記憶デバイスであり、後述する学習データや、合成学習データ、又は学習済みセマンティックセグメンテーションモデルデータなどの大規模データを記憶し、ＣＰＵ１０１により随時ＲＡＭ１０３にロードされて処理される。

本実施形態において使用されるプログラム及びデータを格納するコンピュータ読取り可能な記録媒体は、ＲＯＭ１０２、ＲＡＭ１０３、外部記憶装置１０９、又は特には図示しない可搬型記録媒体のような、物理的な（非一時的な）記録媒体である。

ネットワークインタフェース１１０は、外部の例えば学習用コンピュータ２０１などからローカルエリアネットワークやインターネットなどのネットワークを介して、学習済みセマンティックセグメンテーションモデルデータなどの各種データを受信する。また、本実施形態において使用されるプログラム及び他の各種データは、外部の装置からネットワークインタフェース１１０を介して受信し、それらをＲＡＭ１０３にロードして使用することができる。

なお、仮想・現実合成コンピュータ１００は、図１の全ての構成要素を含む必要はなく、逆に、他の例えば入力装置（キーボードやマウスなど）、出力装置（データ等の表示用ディスプレイやプリンタなど）や可搬型記録媒体駆動装置を追加されてもよい。

図２は、仮想・現実合成システムの実施形態のブロック図である。仮想・現実合成システムは、学習用コンピュータ２０１と図１のハードウェア構成例を有する仮想・現実合成コンピュータ１００とを含む。

仮想・現実合成コンピュータ１００は、図１のＣＰＵ１０１がＲＯＭ１０２からＲＡＭ１０３にロードした仮想・現実合成処理プログラムを実行する機能である、学習済みセマンティックセグメンテーションモデル部２０６と、仮想・現実合成部２０７とを含む。

学習済みセマンティックセグメンテーションモデル部２０６には、予め工場設定等により学習用コンピュータ２０１から、仮想・現実合成コンピュータ１００内の例えばＲＯＭ１０２又は外部記憶装置１０９に記憶されている学習済みセマンティックセグメンテーションモデルデータ２１０が設定される。学習済みセマンティックセグメンテーションモデル部２０６は、図１のＨＭＤ１０５と一体になっているデュアルカメラ１０４からユーザ視点で図１のＲＡＭ１０３に入力する例えば図３（ａ）に示されるようなデュアルカメラ撮像画像データ２１１に対して、セマンティックセグメンテーションの演算を実行する畳込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）である。この結果、学習済みセマンティックセグメンテーションモデル部２０６は、デュアルカメラ撮像画像データ２１１と同じサイズの画像データのピクセル毎に、例えば図３（ｂ）に示されるように、任意の物体である例えば電子楽器（電子楽器でない楽器であってもよい）の切抜き領域（第１領域）３０１であるか、例えばその電子楽器を演奏する演奏者であるユーザの身体の一部の切抜き領域（第２領域）３０２であるか、これら以外の例えば背景領域（第３領域）３０３であるかがラベル付けされた切抜きデータ２１２を出力し、ＲＡＭ１０３に記憶させる。

仮想・現実合成部２０７は、デュアルカメラ撮像画像データ２１１と同じサイズの画像データ上で、図３（ｃ）に示されるように、切抜きデータ２１２が示す電子楽器等の切抜き領域３０１及び演奏者等の身体の一部の切抜き領域３０２以外の背景領域３０３に、デュアルカメラ撮像画像データ２１１とは異なる例えばコンサートの聴衆映像のような仮想空間映像（画像）データ２１３を合成し、或いは、デュアルカメラ撮像画像データ２１１とは異なる例えばコンサートの聴衆映像のような仮想空間映像（画像）データ２１３に、切抜きデータ２１２が示す電子楽器等の切抜き領域３０１及び演奏者等の身体の一部の切抜き領域３０２を合成し、これらの合成の結果得られる仮想・現実合成映像（画像）データ２１４を順次ＲＡＭ１０３に記憶させる。そして、仮想・現実合成部２０７は、その仮想・現実合成映像データ２１４を、図１のＲＡＭ１０３からシステムバス１１１及びディスプレイコントローラ１０７を介して、演奏者等が装着する図１のＨＭＤ１０５のディスプレイに表示させる。

この結果、ユーザである演奏者等は、ＨＭＤ１０５を通して、自分自身がまるでコンサート会場の聴衆の前で電子楽器等を演奏しているかのような迫力のある臨場感を得ることが可能となる。

学習用コンピュータ２０１は、製品としてユーザに提供される仮想・現実合成コンピュータ１００とは別に、例えば工場出荷時に稼働されるコンピュータであり、図１と同様のＣＰＵ、ＲＯＭ、ＲＡＭ、外部記憶装置、システムバスなどを有する、一般的で高性能なコンピュータであってよい。そして、学習用コンピュータ２０１は、ＣＰＵがＲＯＭからＲＡＭにロードしたプログラムを実行する機能又は特には図示しないＧＰＵによる専用機能である、学習データ収集部２０２、学習データ合成部２０４、及びセマンティックセグメンテーションモデル学習部２０５を含む。また、学習用コンピュータ２０１は、各種学習データを記憶する外部記憶装置又はＲＡＭである、学習データ記憶部２０３を含む。

学習データ収集部２０２は、背景、少なくとも１つ以上の任意の物体、又は任意の物体を操作するユーザの身体の一部、を含む現実空間におけるユーザ視点の特には図示しないカメラからの撮像画像データである学習入力データ２０８Ａと、撮像画像から例えばクロマキー合成技術を用いて切り抜いた任意の物体に対応する第１領域又はユーザの体の一部に対応する第２領域を含む切抜き領域を示す切抜きデータである学習正解データ２０８Ｂとからなる学習データ２０８を収集する。図４は、学習入力データ２０８Ａと学習正解データ２０８Ｂの例を示す図である。学習正解データ２０８Ｂは例えば、学習入力データ２０８Ａから電子楽器やそれを演奏する演奏者の身体の一部が切り抜かれた切抜き領域を示す正解データである。

学習データ記憶部２０３は、学習データ収集部２０２が収集した学習データ２０８（学習入力データ２０８Ａ、学習正解データ２０８Ｂの組）を、例えば背景、任意の物体、又は前記ユーザの身体の一部の撮像画像データへの映り込み態様に応じて、複数のグループに分類して、例えば各グループ毎にそれぞれ数万組ずつの学習データ２０８を独立したフォルダに記憶する。

より具体的には、例えば任意の物体が電子楽器である場合に、学習データ記憶部２０３は例えば、図５（ａ）に例示される、電子楽器及びユーザの身体の一部以外の撮像領域である背景のみの画像２０８（＃１）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

また、学習データ記憶部２０３は例えば、図５（ｂ）に例示される、角度や場所にこだわらず自由に撮影した色々な角度からのピアノ画像２０８（＃２）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

また、学習データ記憶部２０３は例えば、図５（ｃ）に例示される、ピアノが上部に映っている画像２０８（＃３）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

また、学習データ記憶部２０３は例えば、図５（ｄ）に例示される、弾く時の角度からの正面から撮影したピアノ画像２０８（＃４）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

また、学習データ記憶部２０３は例えば、図５（ｅ）に例示される、演奏者の身体を自由に見渡す画像２０８（＃５）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

更に、学習データ記憶部２０３は例えば、図５（ｆ）に例示される、演奏者の足が画像の下方に映る範囲で演奏者の身体を自由に見渡す画像２０８（＃６）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

そして、学習データ記憶部２０３は例えば、図５（ｇ）に例示される、演奏者が自分の手を見ている画像２０８（＃７）の入力データと正解データの組のグループを、独立したフォルダに記憶する。

学習データ合成部２０４は、背景と任意の物体、背景とユーザの身体の一部、又は背景と任意の物体とユーザの身体の一部が含まれるように、学習データ記憶部の複数のグループのフォルダから学習データ２０８（学習入力データ２０８Ａと学習正解データ２０８Ｂの組）をランダムに選択する。そして、学習データ合成部２０４は、選択した学習データ２０８の学習入力データ２０８Ａ（撮像画像データ）をユーザ視点で矛盾のないように合成して合成学習入力データ２０９Ａを生成する。また、学習データ合成部２０４は、選択した学習データ２０８の学習正解データ２０８Ｂ（切出し画像データ）をユーザ視点で矛盾のないように合成して合成学習正解データ２０９Ｂを生成する。

より具体的には、学習データ合成部２０４は、学習データ記憶部２０３から、背景のみの画像２０８（＃１）のみを数万枚単位で選択し、図６（ａ）に例示されるように、それぞれ選択した背景のみの画像２０８（＃１）の学習入力データ２０８Ａ（＃１）をそのまま合成学習入力データ２０９Ａ（＃１）として出力し、同じく学習正解データ２０８Ｂ（＃１）をそのまま合成学習正解データ２０９Ｂ（＃１）として出力する。

「背景＋ピアノの学習データの生成」
また、学習データ合成部２０４は、学習データ記憶部２０３から、色々な角度からのピアノ画像２０８（＃２）（或る角度からのピアノ画像は、図５（ｂ）に例示）と、背景のみの画像２０８（＃１）（図５（ａ）に例示）を選択し、ピアノの学習入力データ２０８Ａ（＃２）と、背景のみの学習入力データ２０８Ａ（＃１）を、＃１の画像の上に＃２の画像が重なるように合成して、図６（ｂ）に例示される合成学習入力データ２０９Ａ（＃２）として出力する。同様に、ピアノの学習正解データ２０８（＃２）と、背景のみの学習正解データ２０８（＃１）を、＃１の画像の上に＃２の画像が重なるように合成して、図６（ｂ）に示される合成学習正解データ２０９Ｂ（＃２）として出力する。

「背景＋身体（手＋足）の学習データの生成」
また、学習データ合成部２０４は、学習データ記憶部２０３から、身体を自由に見渡す画像２０８（＃６）と、背景のみの画像２０８（＃１）を選択し、学習入力データ２０８Ａ（＃６）と２０８Ａ（＃１）を、＃１の画像の上に＃６の画像が重なるように合成して、図６（ｃ）に例示される合成学習入力データ２０９Ａ（＃３）として出力する。同様に、学習正解データ２０８Ｂ（＃６）と２０８Ｂ（＃１）を、＃１の画像の上に＃６の画像が重なるように合成して、図６（ｃ）に例示される合成学習正解データ２０９Ｂ（＃３）として出力する。

「背景＋身体の一部（手）の学習データの生成」
また、学習データ合成部２０４は、学習データ記憶部２０３から、演奏者が自分の手を見ている画像２０８（＃７）と、背景のみの画像２０８（＃１）を選択し、特には図示しないが、学習入力データ２０８Ａ（＃７）と２０８Ａ（＃１）を、＃１の画像の上に＃７の画像が重なるように合成して、合成学習入力データ２０９Ａとして出力する。同様に、学習正解データ２０８Ｂ（＃７）と２０８Ｂ（＃１）を、＃１の画像の上に＃７の画像が重なるように合成して、合成学習正解データ２０９Ｂとして出力する。

「背景＋ピアノと身体の一部が重ならない学習データの生成」
更に、学習データ合成部２０４は、学習データ記憶部２０３から、ピアノが上部に映っている画像２０８（＃３）と、演奏者の足が画像の下方に映る範囲で演奏者の身体を自由に見渡す画像２０８（＃６）と、背景のみの画像２０８（＃１）を選択し、学習入力データ２０８Ａ（＃３）と２０８Ａ（＃６）と２０８Ａ（＃１）を、＃１の画像の上に＃３の画像、＃３の画像の上に＃６の画像が重なるように合成して、図６（ｄ）に例示される合成学習入力データ２０９Ａ（＃４）として出力する。同様に、学習正解データ２０８Ｂ（＃３）と２０８Ｂ（＃６）と２０８Ｂ（＃１）を、＃１の画像の上に＃３の画像、＃３の画像の上に＃６の画像が重なるように合成して、図６（ｄ）に例示される合成学習正解データ２０９Ｂ（＃４）として出力する。

「背景＋ピアノと身体の一部が重なる学習データの生成」
そして、学習データ合成部２０４は、学習データ記憶部２０３から、弾く時の角度からの正面から撮影したピアノ画像２０８（＃４）と、演奏者が自分の手を見ている画像２０８（＃７）と、背景のみの画像２０８（＃１）を選択し、学習入力データ２０８Ａ（＃４）と２０８Ａ（＃７）と２０８Ａ（＃１）を、＃１の画像の上に＃４の画像、＃４の画像の上に＃７の画像が重なるように合成して、図６（ｅ）に例示される合成学習入力データ２０９Ａ（＃５）として出力する。同様に、学習正解データ２０８Ｂ（＃４）と２０８Ｂ（＃７）と２０８Ｂ（＃１）を、＃１の画像の上に＃４の画像、＃４の画像の上に＃７の画像が重なるように合成して、図６（ｅ）に例示される合成学習正解データ２０９Ｂ（＃５）として出力する。

セマンティックセグメンテーションモデル学習部２０５は、学習データ合成部２０４が生成したそれぞれ数万枚単位の合成学習入力データ２０９Ａを畳込みニューラルネットワークの入力層に与え、対応する合成学習正解データ２０９Ｂを上記畳込みニューラルネットワークの出力層に与えながら、セマンティックセグメンテーションのアルゴリズムに基づいて上記畳込みニューラルネットワークの中間層のパラメータを学習させる。セマンティックセグメンテーションのアルゴリズムとしては、既知の種々の提案されている技術を採用することができる。

この結果、セマンティックセグメンテーションモデル学習部２０５は、畳込みニューラルネットワークの構造データと、上記学習された中間層のパラメータ群のデータセットとして、学習済みセマンティックセグメンテーションモデルデータ２１０を出力する。この学習済みセマンティックセグメンテーションモデルデータ２１０は、図１の仮想・現実合成コンピュータ１００内の図２の学習済みセマンティックセグメンテーションモデル部２０６に対応する図１のＲＯＭ１０２又は外部記憶装置１０９に記憶される。

学習済みセマンティックセグメンテーションモデル部２０６は、ＲＯＭ１０２又は外部記憶装置１０９から読み出した畳込みニューラルネットワークの構造データと中間層のパラメータ群とに基づいて畳込みニューラルネットワークを形成し、その畳込みニューラルネットワークにおいて、デュアルカメラ撮像画像データ２１１を入力層に入力し、中間層にてセマンティックセグメンテーションの演算を実行し、出力層から切抜きデータ２１２を出力する。

以上のように、本実施形態では、学習データ合成部２０４が背景と任意の物体、背景とユーザの身体の一部、又は背景と任意の物体とユーザの身体の一部が含まれる精度の高い合成学習入力データ２０９Ａとそれに対応する合成学習正解データ２０９Ｂを生成することができ、セマンティックセグメンテーションモデル学習部２０５がこれらの合成学習データ２０９に基づいて精度の高い学習済みセマンティックセグメンテーションモデルデータ２１０を生成することができる。そして、このモデルデータが設定された学習済みセマンティックセグメンテーションモデル部２０６が、デュアルカメラ撮像画像データ２１１に対して精度の高いセマンティックセグメンテーションの演算を実行すること可能となって、切抜き精度の高い切抜きデータ２１２を生成することが可能となる。この結果、仮想・現実合成部２０７が、精度の高い仮想・現実合成映像データ２１４をＨＭＤ１０５に与えることが可能となり、電子楽器等の演奏者は臨場感にあふれる仮想・現実合成映像に基づく演奏を楽しむことが可能となる。

図７は、図２の学習用コンピュータ２０１による学習済みセマンティックセグメンテーションモデルの学習処理の例を示すフローチャートである。この学習処理は、特には図示しないが、学習用コンピュータ２０１内のＣＰＵ（以下、「学習プロセッサ」と呼ぶ）がＲＯＭに記憶されている学習処理プログラムをＲＡＭに読み出して実行する処理である。

まず、学習プロセッサは、学習データ合成部２０４が出力する例えばそれぞれ合成学習入力データ２０９Ａと合成学習正解データ２０９Ｂからなる数万組の合成学習データ２０９を例えば外部記憶装置１０９から、１つの合成学習入力データ２０９Ａと合成学習正解データ２０９Ｂの組を、ＲＡＭ１０３に入力する（ステップＳ７０１）。

次に、学習プロセッサは、予め構造が決定されている畳込みニューラルネットワークにおいて、ステップＳ７０１で入力した合成学習入力データ２０９Ａを入力層に与え、中間層でセマンティックセグメンテーションの演算を実行することにより、出力層から切抜きデータを出力する（ステップＳ７０２）。セマンティックセグメンテーションのモデル構造としては、前述した文献１に記載のものを使用することができる。

更に、学習プロセッサは、ステップＳ７０２で得られた切抜きデータと、ステップＳ７０１で入力した合成学習正解データ２０９Ｂとで、両者間の差を示す損失を計算する（ステップＳ７０３）。ここでの損失計算における損失関数としては、本実施形態におけるような背景の学習データ割合が多いデータ（アンバランスなデータ）に対して精度の高いモデルを算出可能な、既知のＤｉｃｅ損失を採用することができる。

また、ステップＳ７０３の損失計算処理において、背景部分はデータのバリエーションが多種多様であり、背景の特徴を学習させると推論精度が下がると判断し、上記Ｄｉｃｅ損失を使用して、「楽器」と「その他（背景＋身体）」での損失値と、「身体」と「その他（背景＋楽器）」での損失値をそれぞれ計算し、平均したものを最終的な損失値とすることができる。「背景」と「その他（楽器＋身体）」の損失値は、推論精度が下がるため適用しないようにすることができる。

次に、学習プロセッサは、ステップＳ７０３の損失計算で計算した損失値が低くなるように、畳込みニューラルネットワークモデル内の中間層のパラメータを更新する（ステップＳ７０４）。

その後、学習プロセッサは、汎化性能の高いモデルが作成できるまで、ステップＳ７０１からステップＳ７０４の処理を繰り返す（ステップＳ７０５：ＮＯ）。

汎化性能の高いモデルが作成できたら、学習プロセッサは、図７のフローチャートで示される学習処理を終了し、畳込みニューラルネットワークの構造データと、上記学習された中間層のパラメータ群のデータセットとして、学習済みセマンティックセグメンテーションモデルデータ２１０を出力する。

図８は、図１の仮想・現実合成コンピュータ１００による仮想・現実合成処理の例を示すフローチャートである。この処理は、図１のＣＰＵ１０１がＲＯＭ１０２に記載されている仮想・現実合成処理プログラムをＲＡＭ１０３に読み出して実行する処理である。

前述したように、図７のフローチャートで例示される学習処理により学習用コンピュータ２０１から出力された学習済みセマンティックセグメンテーションモデルデータ２１０は、予め工場設定等により、図２の仮想・現実合成コンピュータ１００内の例えばＲＯＭ１０２又は外部記憶装置１０９に記憶されている。

ＣＰＵ１０１は、図１のＨＭＤ１０５と一体になっているデュアルカメラ１０４からユーザ視点で、図１のＲＡＭ１０３に入力する１フレーム分のデュアルカメラ撮像画像データ２１１を取得する（図３（ａ）参照）（ステップＳ８０１）。

次に、ＣＰＵ１０１は、図２の学習済みセマンティックセグメンテーションモデル部２０６の処理を実行する。まず、ＣＰＵ１０１は、ＲＡＭ１０３上にＲＯＭ１０２又は外部記憶装置１０９から読み出した畳込みニューラルネットワークの構造データと中間層のパラメータ群とに基づいて畳込みニューラルネットワークを形成する。続いて、ＣＰＵ１０１は、その畳込みニューラルネットワークにおいて、ステップＳ８０１で取得した左右のデュアルカメラ撮像画像データ２１１を入力層に入力し、中間層にてセマンティックセグメンテーションの畳込みニューラルネットワーク演算による推論処理を実行する（ステップＳ８０２）。

そして、ＣＰＵ１０１は、デュアルカメラ撮像画像データ２１１と同じサイズの画像データのピクセル毎に、切抜きデータ２１２を出力する（図３（ｂ）参照）（ステップＳ８０３）。この切抜きデータ２１２において、任意の物体である例えば電子楽器の切抜き領域３０１と、例えばその電子楽器を演奏する演奏者であるユーザの身体の一部の切抜き領域３０２には、それぞれ個別のラベル値が設定され、これら以外の例えば背景領域３０３には透明値が設定される。この切抜きデータ２１２は、ＲＡＭ１０３に記憶される。

次に、ＣＰＵ１０１は、図２の仮想・現実合成部２０７の処理を実行する。まず、ＣＰＵ１０１は、例えば外部記憶装置１０９に記憶されている仮想空間映像データ２１３の１フレーム分の画像データに、透明値が設定されている背景領域３０３を有する上記切抜きデータ２１２の画像データを合成して、仮想・現実合成映像データ２１４の１フレーム分の画像データを生成しＲＡＭ１０３に記憶させる（ステップＳ８０４）。

そして、ＣＰＵ１０１は、ステップＳ８０４で生成されＲＡＭ１０３に記憶された１フレーム分の仮想・現実合成映像データ２１４を、図１のＲＡＭ１０３からシステムバス１１１及びディスプレイコントローラ１０７を介して、演奏者等が装着する図１のＨＭＤ１０５のディスプレイに表示させる（ステップＳ８０５）。

その後、ＣＰＵ１０１は、演奏者がＨＭＤ１０５の特には図示しないスイッチを操作することにより、スイッチＩ／Ｆ１０８からシステムバス１１１を介して仮想・現実合成処理の実行停止が指示されたか否かを判定する（ステップＳ８０６）。

ステップＳ８０６の判定がＮＯならば、ＣＰＵ１０１は、ステップＳ８０１の処理に戻って、次のフレーム画像に対するステップＳ８０２からＳ８０６の一連の仮想・現実合成処理の実行を続行する。

ステップＳ８０６の判定がＹＥＳになったら、ＣＰＵ１０１は、図８のフローチャートで示される仮想・現実合成処理の実行を終了する。

図９は、仮想・現実合成コンピュータ１００が実行する図８のフローチャートで例示される仮想・現実合成処理における、ステップＳ８０２のセマンティックセグメンテーションによる推論処理の例の他の実施形態を示すフローチャートである。

上述のように仮想空間上で実際の楽器を弾く仮想・現実合成処理を実行する場合において、ＨＭＤ１０５に装着したデュアルカメラ１０４からから得られたデュアルカメラ撮像画像データ２１１に対して、学習済みセマンティックセグメンテーションモデル部２０６において常時セマンティックセグメンテーションの推論処理が実行された場合、演奏者が楽器や自分の身体を見ていないときでも推論処理が実行されているため、推論結果に誤りが生じた際に仮想・現実合成映像データ２１４にノイズが混じってしまう可能性がある。例えばＨＭＤ１０５を装着して演奏者が楽器が見えない方向（例えば、上方向）を向いている時に、他の現実の物体が楽器と誤認識されたら、その物体が仮想空間上に映し出されてしまう。

そこで、以下に説明する他の実施形態では、セマンティックセグメンテーションによる
推論処理が特定の条件下のみで実行される。

まず、演奏者は、ＨＭＤ１０５の特には図示しないスイッチにより、楽器を見ているときだけ身体が見えればいいか、身体は常に見えてほしいかの選択を予め決めておく。その後、ＣＰＵ１０１は、図８のフローチャートで示される仮想・現実合成処理の実行を開始する。

そして、ＣＰＵ１０１は、図８のステップＳ８０２のセマンティックセグメンテーションによる推論処理を実行するときに、ステップＳ８０２の代わりに図９のフローチャートの処理を実行する。

図９において、ＣＰＵ１０１はまず、デュアルカメラ撮像画像データ２１１において、ユーザがどこを見ようとしているのかを検出する視線検出手段（例えば、ヘッドマウントディスプレイに含まれる姿勢センサー）から取得されるユーザの視線データから、演奏者が楽器を見ているか否かを判定する（ステップＳ９０１）。

ステップＳ９０１の判定がＹＥＳなら、ＣＰＵ１０１は、ステップＳ９０４に移行し、身体と楽器の両方に対するセマンティックセグメンテーションの推論処理を実行する。その後、ＣＰＵ１０１は、現フレーム画像に対する図９及び図８のフローチャートの推論処理を終了する。

ステップＳ９０１の判定がＮＯならば、次にＣＰＵ１０１は、演奏者が楽器を見ているときだけ身体が見えればいい設定を行っているか否かを判定する（ステップＳ９０２）。

ステップＳ９０２の判定がＹＥＳならば、ＣＰＵ１０１は、推論処理は実行せずに、現フレーム画像に対する図８のステップＳ８０２に代わる図９のフローチャートの処理を終了する。この場合、ＣＰＵ１０１は、続く図８のステップＳ８０３の処理は実行せず、図８のステップＳ８０４では仮想空間映像データ２１３のみのＨＭＤ１０５への表示処理を実行する。

ステップＳ９０２の判定がＮＯならば、ＣＰＵ１０１は、身体のみに対するセマンティックセグメンテーションの推論処理を実行する。ここでは、上述のような身体、楽器、背景の３クラスに分類する３クラス分類モデルを利用する場合、身体と分類されたピクセルはそのまま利用し、背景と分類されたピクセル及び楽器と分類されたピクセルをそれぞれ透明にする処理を実行する。或いは、身体部分のセグメンテーションを実行する新たなモデルを作成し、推論処理を実行してもよい。その後、ＣＰＵ１０１は、現フレーム画像に対する図８のステップＳ８０２に代わる図９のフローチャートの処理を終了する。この場合、ＣＰＵ１０１は、続く図８のステップＳ８０３では身体のみの切抜きデータ２１２を生成する。

図１０は、ステップＳ９０１の楽器を見ているか否かの判定処理としては、いくつかの手法を採用することができる。

（１）角度による判定方法
図１０は、角度により楽器を見ているか否かを判定する手法の説明図である。この手法では、演奏者が固定の位置にいるという前提で、図１０（ａ）（ｂ）又は（ｃ）に示されるように、ＣＰＵ１０１は、ＨＭＤ１０５についたカメラの視野角に楽器が入っていると判定した場合に演奏者が楽器を見ていると判断し、上記視野角に楽器が入っていないと判定した場合に演奏者が楽器を見ていないと判断する。若しくは、演奏者が自ら推論処理を行いたいＨＭＤ１０５の角度を設け、ＣＰＵ１０１は、その角度の範囲内に楽器が入っていると判定した場合に演奏者が楽器を見ていると判断する。

（２）物体検出による判定方法
例えば、既知の物体検出の技術を用いて、デュアルカメラ１０４からのデュアルカメラ撮像画像データ２１１から楽器が検出された場合に、演奏者が楽器を見ていると判断する。

（３）赤外線センサーを用いた判定方法
現在の主流のＨＭＤ１０５では、仮想空間を自由に動き回るために、赤外線センサでユーザの位置情報を追跡している。そこで、例えばＶＩＶＥトラッカーと呼ばれる既知の装置などで、楽器の位置情報を追跡し、更に楽器の大きさを入力することでＨＭＤ１０５に装着したカメラの視野角に楽器が入っているかどうかを判断することができる。

以上説明したセマンティックセグメンテーションによる推論処理の例の他の実施形態では、仮想空間上で実際の楽器を弾くシステムにおいて、推論処理の誤出力を大幅に削減することが可能となる。また、常時推論処理を走らせるわけではないので、仮想・現実合成コンピュータ１００のマシン負荷（計算量）を削減することが可能となる。

上記他の実施形態は、楽器を対象とするものであるが、この技術は楽器に限られるものではない。

図１１は、図２の実施形態における切抜きデータ２１２が対象とする現実の物体が、楽器ではなく、例えば缶飲料とユーザの身体の一部である場合の説明図である。本明細書において説明したセマンティックセグメンテーションによる切抜きデータ２１２の生成技術を用いれば、缶飲料がソーダ飲料である場合の合成学習入力データ２０９Ａ（＃１）と合成学習正解データ２０９Ｂ（＃１）、缶飲料がコーラ飲料である場合の合成学習入力データ２０９Ａ（＃２）と合成学習正解データ２０９Ｂ（＃２）、缶飲料がコーヒー飲料である場合の合成学習入力データ２０９Ａ（＃３）と合成学習正解データ２０９Ｂ（＃３）等を用いてセマンティックセグメンテーションモデルの学習を行うことにより、ユーザがどのような缶飲料を持っていても、それによる現実の切抜きデータ２１２を、仮想空間上に合成することが可能となる。

図１２は、図２の実施形態における切抜きデータ２１２が対象とする現実の物体が、楽器ではなく、例えばスマートフォンとユーザの身体の一部である場合の説明図である。本明細書において説明したセマンティックセグメンテーションによる切抜きデータ２１２の生成技術を用いれば、ユーザとスマートフォンとの対応関係における様々な形態の例えば合成学習入力データ２０９Ａ（＃１）と合成学習正解データ２０９Ｂ（＃１）、合成学習入力データ２０９Ａ（＃２）と合成学習正解データ２０９Ｂ（＃２）等を用いてセマンティックセグメンテーションモデルの学習を行うことにより、ユーザがどのような形態でスマートフォンを持っていても、その抜きデータ２１２を、仮想空間上に合成することが可能となる。

以上説明した実施形態により、学習済みセマンティックセグメンテーションモデルデータ２１０さえ予め作成しておき、仮想・現実合成コンピュータ１００に設定しておけば、デュアルカメラ１０４からの一人称視点での映像からピアノやそれを演奏するユーザの身体の一部などの所望の物体をピクセル毎で抽出し、それを仮想空間上に表示することが可能となる。これにより例えば以下の様な効果が考えられる。
（１）一人称視点の身体画像だけを切り抜くとすると、３６０度映像や仮想空間などにアバターとしてではなくそのままの自分で入り込むことができ、仮想空間への没入感をより増すことが可能となる。
（２）一人称視点の身体と楽器だけを切り抜くとすると、仮想空間上で実際の楽器を演奏する体験ができる。例えば、仮想空間上でライブ体験などを実現することが可能となる。
（３）図１１の実施形態で説明したように、一人称視点の身体と飲み物を切り抜くとすると、仮想空間で楽しみながら（ＨＭＤ１０５を外さなくても）、飲み物を飲むことが可能となる。
（４）図１２の実施形態で説明したように、一人称視点のスマートフォンだけを切り抜くとすると、仮想空間上で本物のスマートフォンを操作することが可能となる。

以上のように、所望の物体を切り抜く学習済みセマンティックセグメンテーションモデルデータさえ作成してしまえば、なんでも仮想空間上に表示することが可能となる。

他の実施例として、現実空間を撮像した撮像画像データから、仮想空間に持ち込みたい任意の物体として、電子楽器と、それを操作するユーザの身体の一部と、を仮想空間に持ち込んだ。別の実施例としては、ユーザの身体の一部は３次元のコンピュータグラフィックスで描画し、撮像画像データを含むユーザの身体の動きを検出可能なデータに基づいてユーザの身体の動きを検出し、描画する３次元のコンピュータグラフィックスの動きをユーザの身体の動きに合わせて動作させてもよい。この場合、楽器等の任意の物体と、背景と、を分類する２クラス分類モデルを学習済みモデルとして作成すればよい。

その他、本発明は上述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。上述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。

以上の実施形態に関して、更に以下の付記を開示する。
（付記１）
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別し、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成する、
情報処理装置。
（付記２）
前記撮像画像データから、前記任意の物体が映る第１領域と、ユーザの身体の少なくとも一部が映る第２領域と、をリアルタイムに識別し、
前記仮想空間画像データに、前記第１領域のデータと、前記第２領域のデータと、をリアルタイムに合成することにより前記仮想・現実合成画像データを生成する、
付記１に記載の情報処理装置。
（付記３）
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いて学習させた学習済みモデルに、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データを入力することで、前記学習済みモデルが出力する前記任意の物体が映る第１領域と、前記ユーザの身体の少なくとも一部が映る第２領域と、その他の第３領域と、が分類されたセマンティックセグメンテーションデータに基づいて、前記撮像画像データから、前記任意の物体が映る第１領域と、前記ユーザの身体の少なくとも一部が映る第２領域と、をリアルタイムに識別する、
付記２に記載の情報処理装置。
（付記４）
前記任意の物体は、少なくとも楽器、飲み物、携帯端末装置のいずれかを含み、
前記ユーザの身体の少なくとも一部は、前記楽器、前記飲み物、前記携帯端末装置に触れるユーザの身体の一部、を含む、
付記２乃至３のいずれかに記載の情報処理装置。
（付記５）
ユーザがどこを見ようとしているのかを検出する視線検出手段から取得されるユーザの視線データに基づいてユーザが前記任意の物体を見ていると判断できる場合に、識別された前記第１領域のデータを、前記仮想空間画像データに合成するように制御し、
前記視線データに基づいてユーザが前記任意の物体を見ていると判断できない場合に、識別された前記第１領域のデータを、前記仮想空間画像データに合成しないように制御する、
付記２乃至４のいずれかに記載の情報処理装置。
（付記６）
付記１乃至５のいずれかに記載の情報処理装置と、
ユーザ視点でリアルタイムに現実空間を撮像するデュアルカメラと、
前記仮想・現実合成画像データを表示するヘッドマウントディスプレイと、
を備える仮想・現実合成システム。
（付記７）
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを含み、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データが入力される入力層と、
前記任意の物体が映る第１領域と、前記ユーザの身体の少なくとも一部が映る第２領域と、その他の第３領域と、が分類されたセマンティックセグメンテーションデータを出力とする出力層と、
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いてセマンティックセグメンテーションに基づいてパラメータが学習された中間層と、
を備え、
前記撮像画像データを入力とし、前記セマンティックセグメンテーションデータを出力とする学習済みモデルの生成方法。
（付記８）
情報処理装置のプロセッサに、
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
方法。
（付記９）
情報処理装置のプロセッサに、
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
プログラム。

１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４デュアルカメラ
１０５ＨＭＤ
１０６カメラＩ／Ｆ
１０７ディスプレイコントローラ
１０８スイッチＩ／Ｆ
１０９外部記憶装置
１１０ネットワークインタフェース
１１１システムバス
２０１学習用コンピュータ
２０２学習データ収集部
２０３学習データ記憶部
２０４学習データ合成部
２０５セマンティックセグメンテーションモデル学習部
２０６学習済みセマンティックセグメンテーションモデル部
２０７仮想・現実合成部
２０８学習データ
２０８Ａ学習入力データ
２０８Ｂ学習正解データ
２０９合成学習データ
２０９Ａ合成学習入力データ
２０９Ｂ合成学習正解データ
２１０学習済みセマンティックセグメンテーションモデルデータ
２１１デュアルカメラ撮像画像データ
２１２切抜きデータ
２１３仮想空間映像データ
２１４仮想・現実合成映像データ

態様の一例の情報処理装置は、ユーザ視点で現実空間が撮像された撮像画像データを取得し、前記撮像画像データを学習済みモデルに入力し、前記学習済みモデルが出力するセグメンテーションデータであって、前記撮像画像データを、任意の物体が映る第１領域及びユーザの身体の少なくとも一部が映る第２領域と、その他の第３領域と、に分けたセグメンテーションデータに基づいて、仮想空間画像データに、前記撮像画像データの前記第１領域及び前記第２領域のデータを合成する、処理を実行する。

ステップＳ９０２の判定がＮＯならば、ＣＰＵ１０１は、身体のみに対するセマンティックセグメンテーションの推論処理を実行する（ステップＳ９０３）。ここでは、上述のような身体、楽器、背景の３クラスに分類する３クラス分類モデルを利用する場合、身体と分類されたピクセルはそのまま利用し、背景と分類されたピクセル及び楽器と分類されたピクセルをそれぞれ透明にする処理を実行する。或いは、身体部分のセグメンテーションを実行する新たなモデルを作成し、推論処理を実行してもよい。その後、ＣＰＵ１０１は、現フレーム画像に対する図８のステップＳ８０２に代わる図９のフローチャートの処理を終了する。この場合、ＣＰＵ１０１は、続く図８のステップＳ８０３では身体のみの切抜きデータ２１２を生成する。

ステップＳ９０１の楽器を見ているか否かの判定処理としては、いくつかの手法を採用することができる。

Claims

ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別し、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成する、
情報処理装置。
前記撮像画像データから、前記任意の物体が映る第１領域と、ユーザの身体の少なくとも一部が映る第２領域と、をリアルタイムに識別し、
前記仮想空間画像データに、前記第１領域のデータと、前記第２領域のデータと、をリアルタイムに合成することにより前記仮想・現実合成画像データを生成する、
請求項１に記載の情報処理装置。
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いて学習させた学習済みモデルに、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データを入力することで、前記学習済みモデルが出力する前記任意の物体が映る第１領域と、前記ユーザの身体の少なくとも一部が映る第２領域と、その他の第３領域と、が分類されたセマンティックセグメンテーションデータに基づいて、前記撮像画像データから、前記任意の物体が映る第１領域と、前記ユーザの身体の少なくとも一部が映る第２領域と、をリアルタイムに識別する、
請求項２に記載の情報処理装置。
前記任意の物体は、少なくとも楽器、飲み物、携帯端末装置のいずれかを含み、
前記ユーザの身体の少なくとも一部は、前記楽器、前記飲み物、前記携帯端末装置に触れるユーザの身体の一部、を含む、
請求項２乃至３のいずれかに記載の情報処理装置。
ユーザがどこを見ようとしているのかを検出する視線検出手段から取得されるユーザの視線データに基づいてユーザが前記任意の物体を見ていると判断できる場合に、識別された前記第１領域のデータを、前記仮想空間画像データに合成するように制御し、
前記視線データに基づいてユーザが前記任意の物体を見ていると判断できない場合に、識別された前記第１領域のデータを、前記仮想空間画像データに合成しないように制御する、
請求項２乃至４のいずれかに記載の情報処理装置。
請求項１乃至５のいずれかに記載の情報処理装置と、
ユーザ視点でリアルタイムに現実空間を撮像するデュアルカメラと、
前記仮想・現実合成画像データを表示するヘッドマウントディスプレイと、
を備える仮想・現実合成システム。
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを含み、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データが入力される入力層と、
前記任意の物体が映る第１領域と、前記ユーザの身体の少なくとも一部が映る第２領域と、その他の第３領域と、が分類されたセマンティックセグメンテーションデータを出力とする出力層と、
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いてセマンティックセグメンテーションに基づいてパラメータが学習された中間層と、
を備え、
前記撮像画像データを入力とし、前記セマンティックセグメンテーションデータを出力とする学習済みモデルの生成方法。
情報処理装置のプロセッサに、
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
方法。
情報処理装置のプロセッサに、
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
プログラム。