JP2021125138A - 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム - Google Patents

情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム Download PDF

Info

Publication number
JP2021125138A
JP2021125138A JP2020020068A JP2020020068A JP2021125138A JP 2021125138 A JP2021125138 A JP 2021125138A JP 2020020068 A JP2020020068 A JP 2020020068A JP 2020020068 A JP2020020068 A JP 2020020068A JP 2021125138 A JP2021125138 A JP 2021125138A
Authority
JP
Japan
Prior art keywords
data
user
virtual
image data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020020068A
Other languages
English (en)
Other versions
JP7127659B2 (ja
Inventor
祥吾 今尾
Shogo Imao
祥吾 今尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2020020068A priority Critical patent/JP7127659B2/ja
Priority to US17/168,868 priority patent/US11501471B2/en
Publication of JP2021125138A publication Critical patent/JP2021125138A/ja
Application granted granted Critical
Publication of JP7127659B2 publication Critical patent/JP7127659B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/4013D sensing, i.e. three-dimensional (x, y, z) position or movement sensing.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Electrophonic Musical Instruments (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】撮影画像のみから物体を切り抜いて処理する。【解決手段】仮想・現実合成システムにおいて、学習用コンピュータは、背景、任意の物体、又は任意の物体を操作するユーザの身体の一部を含む現実空間におけるユーザ視点の撮像画像データを入力とし、撮像画像から切り抜いた任意の物体に対応する第1領域又はユーザの体の一部に対応する第2領域を含む切抜き領域を示す切抜きデータを出力とする学習データを用いて、セマンティックセグメンテーションモデルを学習する。仮想・現実合成コンピュータにおいて、上記学習により得られた学習済みデータを学習済みセマンティックセグメンテーションモデル部に設定し、デュアルカメラ撮像画像データが入力されて切抜きデータを出力し、仮想・現実合成部にて、仮想空間映像データと切抜きデータに対応するデュアルカメラ撮像画像データとを合成し、得られる仮想・現実合成映像データを表示する。【選択図】図2

Description

本発明は、撮影画像から物体を切り抜いて処理する情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラムに関する。
仮想(VR:Virtual Reality)空間上に所望の現実の物体を表示する従来技術の一つとして、クロマキー合成技術が知られている。この技術は、例えばブルーやグリーンなどの均質な特定の色の背景の前で所望の現実の物体を撮影し、その特定の色の成分から撮影された映像の一部である例えば背景を透明にし、その背景部分に別の映像を合成する技術である。このようなクロマキー合成技術によれば、色の成分判別だけで所望の現実の物体をリアルタイムに切り抜くことができる。
特開2011−215856号公報
しかし、例えばユーザが自宅などで楽器を演奏する現実シーンをコンサート会場などの仮想空間に合成することを考えた場合、上記クロマキー合成技術では、特定の色の背景で囲まれた撮影空間の環境が必要であり、そのような環境を一般ユーザが構築することは手間や場所、金銭コスト的にも困難である。また、クロマキー合成技術では、撮影映像において特定の色を有する領域以外は全て切り抜かれてしまうため、切り抜きたい現実の物体以外の物体はその空間に置けないことになり、例えば切り抜きたい楽器等の所望の物体やユーザの身体以外と特定の色の背景以外は撮影映像中に入り込まないようにしなければならない。更に、切り抜きたい所望の物体やユーザの身体の中に特定の色の領域が含まれる場合その領域は切り抜くことができない。
そこで、本発明は、仮想空間画像データに、ユーザ視点でリアルタイムに撮像される撮像画像データに含まれる一部の領域のデータを合成し、良好に仮想・現実合成画像データを生成することを目的とする。
態様の一例の情報処理装置は、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別し、仮想空間画像データに、取得された撮像画像データに含まれる領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成する。
本発明によれば、仮想空間画像データに、ユーザ視点でリアルタイムに撮像される撮像画像データに含まれる一部の領域のデータを合成し、良好に仮想・現実合成画像データを生成することが可能となる。
本発明による仮想・現実合成コンピュータの実施形態のハードウェア構成例を示すブロック図である。 仮想・現実合成システムの実施形態のブロック図である。 現実の物体が電子楽器とユーザの身体の一部である場合の切抜き動作の説明図である。 学習データ(学習入力データと学習正解データ)の例を示す図である。 学習データのバリエーションの例を示す図である。 合成学習入力データと合成学習正解データの例を示す図である。 学習フェーズの処理例を示すフローチャートである。 実施フェーズの処理例を示すフローチャートである。 推論処理の詳細例を示すフローチャートである。 角度により楽器を見ているか否かを判定する手法の説明図である。 現実の物体が缶飲料とユーザの身体の一部である場合の切抜き動作の説明図である。 現実の物体がスマートフォンとユーザの身体の一部である場合の切抜き動作の説明図である。
以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。図1は、本発明による仮想・現実合成コンピュータの実施形態のハードウェア構成例100を示すブロック図である。
仮想・現実合成コンピュータ100は、通常のパーソナルコンピュータのほか、スマートフォン、タブレット端末、デジタルカメラなどを含む。図1に示される仮想・現実合成コンピュータ100は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、デュアルカメラ104、ヘッドマウントディスプレイ(HMD:Head Mouted Display、以下「HMD」)HMD105、カメラI/F(インタフェース)106、ディスプレイコントローラ107、スイッチI/F(インタフェース)108、外部記憶装置109、及びネットワークインタフェース110を含み、これらはシステムバス111により相互に接続されている。なお各図面に例示するような画像を描画するための各種演算処理は、図示しないGPU(Graphics Processing Unit)により実行されているが、以下の実施例の説明としては、説明の都合上、CPU101により実行されているものとして記載している場合がある。このように仮想・現実合成コンピュータ100の構成は、図1に示される構成に限定されるものではない。
読出し専用の半導体メモリであるROM102は、仮想・現実合成処理に用いられるプログラム及びデータを格納する。
CPU101は、例えば、ランダムアクセス可能な半導体メモリであるRAM103をプログラムやデータの作業領域として使用しながら、以下で説明する仮想・現実合成のための情報処理に対応するプログラムを実行する。
デュアルカメラ104は、ユーザ視点の撮像画像データを入力するための2つのカメラユニットからなるカメラデバイスである。デュアルカメラ104で撮像された撮像画像は、カメラI/F106及びシステムバス111を介して撮像画像データとしてRAM103に順次記憶される。
CPU101での情報処理により合成された仮想・現実合成画像は、RAM103、システムバス111、及びディスプレイコントローラ107を介して、ユーザが装着するHMD105に表示される。ユーザがHMD105上の特には図示しないスイッチ類を操作した状態は、スイッチI/F108及びシステムバス111を介してCPU101により処理される。
外部記憶装置109は、例えばSSD(Solid State Disk)、ハードディスク記憶装置、磁気ディスク記憶装置、光ディスク装置、光磁気ディスク装置、又はテープ装置などの記憶デバイスであり、後述する学習データや、合成学習データ、又は学習済みセマンティックセグメンテーションモデルデータなどの大規模データを記憶し、CPU101により随時RAM103にロードされて処理される。
本実施形態において使用されるプログラム及びデータを格納するコンピュータ読取り可能な記録媒体は、ROM102、RAM103、外部記憶装置109、又は特には図示しない可搬型記録媒体のような、物理的な(非一時的な)記録媒体である。
ネットワークインタフェース110は、外部の例えば学習用コンピュータ201などからローカルエリアネットワークやインターネットなどのネットワークを介して、学習済みセマンティックセグメンテーションモデルデータなどの各種データを受信する。また、本実施形態において使用されるプログラム及び他の各種データは、外部の装置からネットワークインタフェース110を介して受信し、それらをRAM103にロードして使用することができる。
なお、仮想・現実合成コンピュータ100は、図1の全ての構成要素を含む必要はなく、逆に、他の例えば入力装置(キーボードやマウスなど)、出力装置(データ等の表示用ディスプレイやプリンタなど)や可搬型記録媒体駆動装置を追加されてもよい。
図2は、仮想・現実合成システムの実施形態のブロック図である。仮想・現実合成システムは、学習用コンピュータ201と図1のハードウェア構成例を有する仮想・現実合成コンピュータ100とを含む。
仮想・現実合成コンピュータ100は、図1のCPU101がROM102からRAM103にロードした仮想・現実合成処理プログラムを実行する機能である、学習済みセマンティックセグメンテーションモデル部206と、仮想・現実合成部207とを含む。
学習済みセマンティックセグメンテーションモデル部206には、予め工場設定等により学習用コンピュータ201から、仮想・現実合成コンピュータ100内の例えばROM102又は外部記憶装置109に記憶されている学習済みセマンティックセグメンテーションモデルデータ210が設定される。学習済みセマンティックセグメンテーションモデル部206は、図1のHMD105と一体になっているデュアルカメラ104からユーザ視点で図1のRAM103に入力する例えば図3(a)に示されるようなデュアルカメラ撮像画像データ211に対して、セマンティックセグメンテーションの演算を実行する畳込みニューラルネットワーク(CNN:Convolution Neural Network)である。この結果、学習済みセマンティックセグメンテーションモデル部206は、デュアルカメラ撮像画像データ211と同じサイズの画像データのピクセル毎に、例えば図3(b)に示されるように、任意の物体である例えば電子楽器(電子楽器でない楽器であってもよい)の切抜き領域(第1領域)301であるか、例えばその電子楽器を演奏する演奏者であるユーザの身体の一部の切抜き領域(第2領域)302であるか、これら以外の例えば背景領域(第3領域)303であるかがラベル付けされた切抜きデータ212を出力し、RAM103に記憶させる。
仮想・現実合成部207は、デュアルカメラ撮像画像データ211と同じサイズの画像データ上で、図3(c)に示されるように、切抜きデータ212が示す電子楽器等の切抜き領域301及び演奏者等の身体の一部の切抜き領域302以外の背景領域303に、デュアルカメラ撮像画像データ211とは異なる例えばコンサートの聴衆映像のような仮想空間映像(画像)データ213を合成し、或いは、デュアルカメラ撮像画像データ211とは異なる例えばコンサートの聴衆映像のような仮想空間映像(画像)データ213に、切抜きデータ212が示す電子楽器等の切抜き領域301及び演奏者等の身体の一部の切抜き領域302を合成し、これらの合成の結果得られる仮想・現実合成映像(画像)データ214を順次RAM103に記憶させる。そして、仮想・現実合成部207は、その仮想・現実合成映像データ214を、図1のRAM103からシステムバス111及びディスプレイコントローラ107を介して、演奏者等が装着する図1のHMD105のディスプレイに表示させる。
この結果、ユーザである演奏者等は、HMD105を通して、自分自身がまるでコンサート会場の聴衆の前で電子楽器等を演奏しているかのような迫力のある臨場感を得ることが可能となる。
学習用コンピュータ201は、製品としてユーザに提供される仮想・現実合成コンピュータ100とは別に、例えば工場出荷時に稼働されるコンピュータであり、図1と同様のCPU、ROM、RAM、外部記憶装置、システムバスなどを有する、一般的で高性能なコンピュータであってよい。そして、学習用コンピュータ201は、CPUがROMからRAMにロードしたプログラムを実行する機能又は特には図示しないGPUによる専用機能である、学習データ収集部202、学習データ合成部204、及びセマンティックセグメンテーションモデル学習部205を含む。また、学習用コンピュータ201は、各種学習データを記憶する外部記憶装置又はRAMである、学習データ記憶部203を含む。
学習データ収集部202は、背景、少なくとも1つ以上の任意の物体、又は任意の物体を操作するユーザの身体の一部、を含む現実空間におけるユーザ視点の特には図示しないカメラからの撮像画像データである学習入力データ208Aと、撮像画像から例えばクロマキー合成技術を用いて切り抜いた任意の物体に対応する第1領域又はユーザの体の一部に対応する第2領域を含む切抜き領域を示す切抜きデータである学習正解データ208Bとからなる学習データ208を収集する。図4は、学習入力データ208Aと学習正解データ208Bの例を示す図である。学習正解データ208Bは例えば、学習入力データ208Aから電子楽器やそれを演奏する演奏者の身体の一部が切り抜かれた切抜き領域を示す正解データである。
学習データ記憶部203は、学習データ収集部202が収集した学習データ208(学習入力データ208A、学習正解データ208Bの組)を、例えば背景、任意の物体、又は前記ユーザの身体の一部の撮像画像データへの映り込み態様に応じて、複数のグループに分類して、例えば各グループ毎にそれぞれ数万組ずつの学習データ208を独立したフォルダに記憶する。
より具体的には、例えば任意の物体が電子楽器である場合に、学習データ記憶部203は例えば、図5(a)に例示される、電子楽器及びユーザの身体の一部以外の撮像領域である背景のみの画像208(#1)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
また、学習データ記憶部203は例えば、図5(b)に例示される、角度や場所にこだわらず自由に撮影した色々な角度からのピアノ画像208(#2)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
また、学習データ記憶部203は例えば、図5(c)に例示される、ピアノが上部に映っている画像208(#3)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
また、学習データ記憶部203は例えば、図5(d)に例示される、弾く時の角度からの正面から撮影したピアノ画像208(#4)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
また、学習データ記憶部203は例えば、図5(e)に例示される、演奏者の身体を自由に見渡す画像208(#5)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
更に、学習データ記憶部203は例えば、図5(f)に例示される、演奏者の足が画像の下方に映る範囲で演奏者の身体を自由に見渡す画像208(#6)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
そして、学習データ記憶部203は例えば、図5(g)に例示される、演奏者が自分の手を見ている画像208(#7)の入力データと正解データの組のグループを、独立したフォルダに記憶する。
学習データ合成部204は、背景と任意の物体、背景とユーザの身体の一部、又は背景と任意の物体とユーザの身体の一部が含まれるように、学習データ記憶部の複数のグループのフォルダから学習データ208(学習入力データ208Aと学習正解データ208Bの組)をランダムに選択する。そして、学習データ合成部204は、選択した学習データ208の学習入力データ208A(撮像画像データ)をユーザ視点で矛盾のないように合成して合成学習入力データ209Aを生成する。また、学習データ合成部204は、選択した学習データ208の学習正解データ208B(切出し画像データ)をユーザ視点で矛盾のないように合成して合成学習正解データ209Bを生成する。
より具体的には、学習データ合成部204は、学習データ記憶部203から、背景のみの画像208(#1)のみを数万枚単位で選択し、図6(a)に例示されるように、それぞれ選択した背景のみの画像208(#1)の学習入力データ208A(#1)をそのまま合成学習入力データ209A(#1)として出力し、同じく学習正解データ208B(#1)をそのまま合成学習正解データ209B(#1)として出力する。
「背景+ピアノの学習データの生成」
また、学習データ合成部204は、学習データ記憶部203から、色々な角度からのピアノ画像208(#2)(或る角度からのピアノ画像は、図5(b)に例示)と、背景のみの画像208(#1)(図5(a)に例示)を選択し、ピアノの学習入力データ208A(#2)と、背景のみの学習入力データ208A(#1)を、#1の画像の上に#2の画像が重なるように合成して、図6(b)に例示される合成学習入力データ209A(#2)として出力する。同様に、ピアノの学習正解データ208(#2)と、背景のみの学習正解データ208(#1)を、#1の画像の上に#2の画像が重なるように合成して、図6(b)に示される合成学習正解データ209B(#2)として出力する。
「背景+身体(手+足)の学習データの生成」
また、学習データ合成部204は、学習データ記憶部203から、身体を自由に見渡す画像208(#6)と、背景のみの画像208(#1)を選択し、学習入力データ208A(#6)と208A(#1)を、#1の画像の上に#6の画像が重なるように合成して、図6(c)に例示される合成学習入力データ209A(#3)として出力する。同様に、学習正解データ208B(#6)と208B(#1)を、#1の画像の上に#6の画像が重なるように合成して、図6(c)に例示される合成学習正解データ209B(#3)として出力する。
「背景+身体の一部(手)の学習データの生成」
また、学習データ合成部204は、学習データ記憶部203から、演奏者が自分の手を見ている画像208(#7)と、背景のみの画像208(#1)を選択し、特には図示しないが、学習入力データ208A(#7)と208A(#1)を、#1の画像の上に#7の画像が重なるように合成して、合成学習入力データ209Aとして出力する。同様に、学習正解データ208B(#7)と208B(#1)を、#1の画像の上に#7の画像が重なるように合成して、合成学習正解データ209Bとして出力する。
「背景+ピアノと身体の一部が重ならない学習データの生成」
更に、学習データ合成部204は、学習データ記憶部203から、ピアノが上部に映っている画像208(#3)と、演奏者の足が画像の下方に映る範囲で演奏者の身体を自由に見渡す画像208(#6)と、背景のみの画像208(#1)を選択し、学習入力データ208A(#3)と208A(#6)と208A(#1)を、#1の画像の上に#3の画像、#3の画像の上に#6の画像が重なるように合成して、図6(d)に例示される合成学習入力データ209A(#4)として出力する。同様に、学習正解データ208B(#3)と208B(#6)と208B(#1)を、#1の画像の上に#3の画像、#3の画像の上に#6の画像が重なるように合成して、図6(d)に例示される合成学習正解データ209B(#4)として出力する。
「背景+ピアノと身体の一部が重なる学習データの生成」
そして、学習データ合成部204は、学習データ記憶部203から、弾く時の角度からの正面から撮影したピアノ画像208(#4)と、演奏者が自分の手を見ている画像208(#7)と、背景のみの画像208(#1)を選択し、学習入力データ208A(#4)と208A(#7)と208A(#1)を、#1の画像の上に#4の画像、#4の画像の上に#7の画像が重なるように合成して、図6(e)に例示される合成学習入力データ209A(#5)として出力する。同様に、学習正解データ208B(#4)と208B(#7)と208B(#1)を、#1の画像の上に#4の画像、#4の画像の上に#7の画像が重なるように合成して、図6(e)に例示される合成学習正解データ209B(#5)として出力する。
セマンティックセグメンテーションモデル学習部205は、学習データ合成部204が生成したそれぞれ数万枚単位の合成学習入力データ209Aを畳込みニューラルネットワークの入力層に与え、対応する合成学習正解データ209Bを上記畳込みニューラルネットワークの出力層に与えながら、セマンティックセグメンテーションのアルゴリズムに基づいて上記畳込みニューラルネットワークの中間層のパラメータを学習させる。セマンティックセグメンテーションのアルゴリズムとしては、既知の種々の提案されている技術を採用することができる。
この結果、セマンティックセグメンテーションモデル学習部205は、畳込みニューラルネットワークの構造データと、上記学習された中間層のパラメータ群のデータセットとして、学習済みセマンティックセグメンテーションモデルデータ210を出力する。この学習済みセマンティックセグメンテーションモデルデータ210は、図1の仮想・現実合成コンピュータ100内の図2の学習済みセマンティックセグメンテーションモデル部206に対応する図1のROM102又は外部記憶装置109に記憶される。
学習済みセマンティックセグメンテーションモデル部206は、ROM102又は外部記憶装置109から読み出した畳込みニューラルネットワークの構造データと中間層のパラメータ群とに基づいて畳込みニューラルネットワークを形成し、その畳込みニューラルネットワークにおいて、デュアルカメラ撮像画像データ211を入力層に入力し、中間層にてセマンティックセグメンテーションの演算を実行し、出力層から切抜きデータ212を出力する。
以上のように、本実施形態では、学習データ合成部204が背景と任意の物体、背景とユーザの身体の一部、又は背景と任意の物体とユーザの身体の一部が含まれる精度の高い合成学習入力データ209Aとそれに対応する合成学習正解データ209Bを生成することができ、セマンティックセグメンテーションモデル学習部205がこれらの合成学習データ209に基づいて精度の高い学習済みセマンティックセグメンテーションモデルデータ210を生成することができる。そして、このモデルデータが設定された学習済みセマンティックセグメンテーションモデル部206が、デュアルカメラ撮像画像データ211に対して精度の高いセマンティックセグメンテーションの演算を実行すること可能となって、切抜き精度の高い切抜きデータ212を生成することが可能となる。この結果、仮想・現実合成部207が、精度の高い仮想・現実合成映像データ214をHMD105に与えることが可能となり、電子楽器等の演奏者は臨場感にあふれる仮想・現実合成映像に基づく演奏を楽しむことが可能となる。
図7は、図2の学習用コンピュータ201による学習済みセマンティックセグメンテーションモデルの学習処理の例を示すフローチャートである。この学習処理は、特には図示しないが、学習用コンピュータ201内のCPU(以下、「学習プロセッサ」と呼ぶ)がROMに記憶されている学習処理プログラムをRAMに読み出して実行する処理である。
まず、学習プロセッサは、学習データ合成部204が出力する例えばそれぞれ合成学習入力データ209Aと合成学習正解データ209Bからなる数万組の合成学習データ209を例えば外部記憶装置109から、1つの合成学習入力データ209Aと合成学習正解データ209Bの組を、RAM103に入力する(ステップS701)。
次に、学習プロセッサは、予め構造が決定されている畳込みニューラルネットワークにおいて、ステップS701で入力した合成学習入力データ209Aを入力層に与え、中間層でセマンティックセグメンテーションの演算を実行することにより、出力層から切抜きデータを出力する(ステップS702)。セマンティックセグメンテーションのモデル構造としては、前述した文献1に記載のものを使用することができる。
更に、学習プロセッサは、ステップS702で得られた切抜きデータと、ステップS701で入力した合成学習正解データ209Bとで、両者間の差を示す損失を計算する(ステップS703)。ここでの損失計算における損失関数としては、本実施形態におけるような背景の学習データ割合が多いデータ(アンバランスなデータ)に対して精度の高いモデルを算出可能な、既知のDice損失を採用することができる。
また、ステップS703の損失計算処理において、背景部分はデータのバリエーションが多種多様であり、背景の特徴を学習させると推論精度が下がると判断し、上記Dice損失を使用して、「楽器」と「その他(背景+身体)」での損失値と、「身体」と「その他(背景+楽器)」での損失値をそれぞれ計算し、平均したものを最終的な損失値とすることができる。「背景」と「その他(楽器+身体)」の損失値は、推論精度が下がるため適用しないようにすることができる。
次に、学習プロセッサは、ステップS703の損失計算で計算した損失値が低くなるように、畳込みニューラルネットワークモデル内の中間層のパラメータを更新する(ステップS704)。
その後、学習プロセッサは、汎化性能の高いモデルが作成できるまで、ステップS701からステップS704の処理を繰り返す(ステップS705:NO)。
汎化性能の高いモデルが作成できたら、学習プロセッサは、図7のフローチャートで示される学習処理を終了し、畳込みニューラルネットワークの構造データと、上記学習された中間層のパラメータ群のデータセットとして、学習済みセマンティックセグメンテーションモデルデータ210を出力する。
図8は、図1の仮想・現実合成コンピュータ100による仮想・現実合成処理の例を示すフローチャートである。この処理は、図1のCPU101がROM102に記載されている仮想・現実合成処理プログラムをRAM103に読み出して実行する処理である。
前述したように、図7のフローチャートで例示される学習処理により学習用コンピュータ201から出力された学習済みセマンティックセグメンテーションモデルデータ210は、予め工場設定等により、図2の仮想・現実合成コンピュータ100内の例えばROM102又は外部記憶装置109に記憶されている。
CPU101は、図1のHMD105と一体になっているデュアルカメラ104からユーザ視点で、図1のRAM103に入力する1フレーム分のデュアルカメラ撮像画像データ211を取得する(図3(a)参照)(ステップS801)。
次に、CPU101は、図2の学習済みセマンティックセグメンテーションモデル部206の処理を実行する。まず、CPU101は、RAM103上にROM102又は外部記憶装置109から読み出した畳込みニューラルネットワークの構造データと中間層のパラメータ群とに基づいて畳込みニューラルネットワークを形成する。続いて、CPU101は、その畳込みニューラルネットワークにおいて、ステップS801で取得した左右のデュアルカメラ撮像画像データ211を入力層に入力し、中間層にてセマンティックセグメンテーションの畳込みニューラルネットワーク演算による推論処理を実行する(ステップS802)。
そして、CPU101は、デュアルカメラ撮像画像データ211と同じサイズの画像データのピクセル毎に、切抜きデータ212を出力する(図3(b)参照)(ステップS803)。この切抜きデータ212において、任意の物体である例えば電子楽器の切抜き領域301と、例えばその電子楽器を演奏する演奏者であるユーザの身体の一部の切抜き領域302には、それぞれ個別のラベル値が設定され、これら以外の例えば背景領域303には透明値が設定される。この切抜きデータ212は、RAM103に記憶される。
次に、CPU101は、図2の仮想・現実合成部207の処理を実行する。まず、CPU101は、例えば外部記憶装置109に記憶されている仮想空間映像データ213の1フレーム分の画像データに、透明値が設定されている背景領域303を有する上記切抜きデータ212の画像データを合成して、仮想・現実合成映像データ214の1フレーム分の画像データを生成しRAM103に記憶させる(ステップS804)。
そして、CPU101は、ステップS804で生成されRAM103に記憶された1フレーム分の仮想・現実合成映像データ214を、図1のRAM103からシステムバス111及びディスプレイコントローラ107を介して、演奏者等が装着する図1のHMD105のディスプレイに表示させる(ステップS805)。
その後、CPU101は、演奏者がHMD105の特には図示しないスイッチを操作することにより、スイッチI/F108からシステムバス111を介して仮想・現実合成処理の実行停止が指示されたか否かを判定する(ステップS806)。
ステップS806の判定がNOならば、CPU101は、ステップS801の処理に戻って、次のフレーム画像に対するステップS802からS806の一連の仮想・現実合成処理の実行を続行する。
ステップS806の判定がYESになったら、CPU101は、図8のフローチャートで示される仮想・現実合成処理の実行を終了する。
図9は、仮想・現実合成コンピュータ100が実行する図8のフローチャートで例示される仮想・現実合成処理における、ステップS802のセマンティックセグメンテーションによる推論処理の例の他の実施形態を示すフローチャートである。
上述のように仮想空間上で実際の楽器を弾く仮想・現実合成処理を実行する場合において、HMD105に装着したデュアルカメラ104からから得られたデュアルカメラ撮像画像データ211に対して、学習済みセマンティックセグメンテーションモデル部206において常時セマンティックセグメンテーションの推論処理が実行された場合、演奏者が楽器や自分の身体を見ていないときでも推論処理が実行されているため、推論結果に誤りが生じた際に仮想・現実合成映像データ214にノイズが混じってしまう可能性がある。例えばHMD105を装着して演奏者が楽器が見えない方向(例えば、上方向)を向いている時に、他の現実の物体が楽器と誤認識されたら、その物体が仮想空間上に映し出されてしまう。
そこで、以下に説明する他の実施形態では、セマンティックセグメンテーションによる
推論処理が特定の条件下のみで実行される。
まず、演奏者は、HMD105の特には図示しないスイッチにより、楽器を見ているときだけ身体が見えればいいか、身体は常に見えてほしいかの選択を予め決めておく。その後、CPU101は、図8のフローチャートで示される仮想・現実合成処理の実行を開始する。
そして、CPU101は、図8のステップS802のセマンティックセグメンテーションによる推論処理を実行するときに、ステップS802の代わりに図9のフローチャートの処理を実行する。
図9において、CPU101はまず、デュアルカメラ撮像画像データ211において、ユーザがどこを見ようとしているのかを検出する視線検出手段(例えば、ヘッドマウントディスプレイに含まれる姿勢センサー)から取得されるユーザの視線データから、演奏者が楽器を見ているか否かを判定する(ステップS901)。
ステップS901の判定がYESなら、CPU101は、ステップS904に移行し、身体と楽器の両方に対するセマンティックセグメンテーションの推論処理を実行する。その後、CPU101は、現フレーム画像に対する図9及び図8のフローチャートの推論処理を終了する。
ステップS901の判定がNOならば、次にCPU101は、演奏者が楽器を見ているときだけ身体が見えればいい設定を行っているか否かを判定する(ステップS902)。
ステップS902の判定がYESならば、CPU101は、推論処理は実行せずに、現フレーム画像に対する図8のステップS802に代わる図9のフローチャートの処理を終了する。この場合、CPU101は、続く図8のステップS803の処理は実行せず、図8のステップS804では仮想空間映像データ213のみのHMD105への表示処理を実行する。
ステップS902の判定がNOならば、CPU101は、身体のみに対するセマンティックセグメンテーションの推論処理を実行する。ここでは、上述のような身体、楽器、背景の3クラスに分類する3クラス分類モデルを利用する場合、身体と分類されたピクセルはそのまま利用し、背景と分類されたピクセル及び楽器と分類されたピクセルをそれぞれ透明にする処理を実行する。或いは、身体部分のセグメンテーションを実行する新たなモデルを作成し、推論処理を実行してもよい。その後、CPU101は、現フレーム画像に対する図8のステップS802に代わる図9のフローチャートの処理を終了する。この場合、CPU101は、続く図8のステップS803では身体のみの切抜きデータ212を生成する。
図10は、ステップS901の楽器を見ているか否かの判定処理としては、いくつかの手法を採用することができる。
(1)角度による判定方法
図10は、角度により楽器を見ているか否かを判定する手法の説明図である。この手法では、演奏者が固定の位置にいるという前提で、図10(a)(b)又は(c)に示されるように、CPU101は、HMD105についたカメラの視野角に楽器が入っていると判定した場合に演奏者が楽器を見ていると判断し、上記視野角に楽器が入っていないと判定した場合に演奏者が楽器を見ていないと判断する。若しくは、演奏者が自ら推論処理を行いたいHMD105の角度を設け、CPU101は、その角度の範囲内に楽器が入っていると判定した場合に演奏者が楽器を見ていると判断する。
(2)物体検出による判定方法
例えば、既知の物体検出の技術を用いて、デュアルカメラ104からのデュアルカメラ撮像画像データ211から楽器が検出された場合に、演奏者が楽器を見ていると判断する。
(3)赤外線センサーを用いた判定方法
現在の主流のHMD105では、仮想空間を自由に動き回るために、赤外線センサでユーザの位置情報を追跡している。そこで、例えばVIVEトラッカーと呼ばれる既知の装置などで、楽器の位置情報を追跡し、更に楽器の大きさを入力することでHMD105に装着したカメラの視野角に楽器が入っているかどうかを判断することができる。
以上説明したセマンティックセグメンテーションによる推論処理の例の他の実施形態では、仮想空間上で実際の楽器を弾くシステムにおいて、推論処理の誤出力を大幅に削減することが可能となる。また、常時推論処理を走らせるわけではないので、仮想・現実合成コンピュータ100のマシン負荷(計算量)を削減することが可能となる。
上記他の実施形態は、楽器を対象とするものであるが、この技術は楽器に限られるものではない。
図11は、図2の実施形態における切抜きデータ212が対象とする現実の物体が、楽器ではなく、例えば缶飲料とユーザの身体の一部である場合の説明図である。本明細書において説明したセマンティックセグメンテーションによる切抜きデータ212の生成技術を用いれば、缶飲料がソーダ飲料である場合の合成学習入力データ209A(#1)と合成学習正解データ209B(#1)、缶飲料がコーラ飲料である場合の合成学習入力データ209A(#2)と合成学習正解データ209B(#2)、缶飲料がコーヒー飲料である場合の合成学習入力データ209A(#3)と合成学習正解データ209B(#3)等を用いてセマンティックセグメンテーションモデルの学習を行うことにより、ユーザがどのような缶飲料を持っていても、それによる現実の切抜きデータ212を、仮想空間上に合成することが可能となる。
図12は、図2の実施形態における切抜きデータ212が対象とする現実の物体が、楽器ではなく、例えばスマートフォンとユーザの身体の一部である場合の説明図である。本明細書において説明したセマンティックセグメンテーションによる切抜きデータ212の生成技術を用いれば、ユーザとスマートフォンとの対応関係における様々な形態の例えば合成学習入力データ209A(#1)と合成学習正解データ209B(#1)、合成学習入力データ209A(#2)と合成学習正解データ209B(#2)等を用いてセマンティックセグメンテーションモデルの学習を行うことにより、ユーザがどのような形態でスマートフォンを持っていても、その抜きデータ212を、仮想空間上に合成することが可能となる。
以上説明した実施形態により、学習済みセマンティックセグメンテーションモデルデータ210さえ予め作成しておき、仮想・現実合成コンピュータ100に設定しておけば、デュアルカメラ104からの一人称視点での映像からピアノやそれを演奏するユーザの身体の一部などの所望の物体をピクセル毎で抽出し、それを仮想空間上に表示することが可能となる。これにより例えば以下の様な効果が考えられる。
(1)一人称視点の身体画像だけを切り抜くとすると、360度映像や仮想空間などにアバターとしてではなくそのままの自分で入り込むことができ、仮想空間への没入感をより増すことが可能となる。
(2)一人称視点の身体と楽器だけを切り抜くとすると、仮想空間上で実際の楽器を演奏する体験ができる。例えば、仮想空間上でライブ体験などを実現することが可能となる。
(3)図11の実施形態で説明したように、一人称視点の身体と飲み物を切り抜くとすると、仮想空間で楽しみながら(HMD105を外さなくても)、飲み物を飲むことが可能となる。
(4)図12の実施形態で説明したように、一人称視点のスマートフォンだけを切り抜くとすると、仮想空間上で本物のスマートフォンを操作することが可能となる。
以上のように、所望の物体を切り抜く学習済みセマンティックセグメンテーションモデルデータさえ作成してしまえば、なんでも仮想空間上に表示することが可能となる。
他の実施例として、現実空間を撮像した撮像画像データから、仮想空間に持ち込みたい任意の物体として、電子楽器と、それを操作するユーザの身体の一部と、を仮想空間に持ち込んだ。別の実施例としては、ユーザの身体の一部は3次元のコンピュータグラフィックスで描画し、撮像画像データを含むユーザの身体の動きを検出可能なデータに基づいてユーザの身体の動きを検出し、描画する3次元のコンピュータグラフィックスの動きをユーザの身体の動きに合わせて動作させてもよい。この場合、楽器等の任意の物体と、背景と、を分類する2クラス分類モデルを学習済みモデルとして作成すればよい。
その他、本発明は上述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。上述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。
以上の実施形態に関して、更に以下の付記を開示する。
(付記1)
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別し、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成する、
情報処理装置。
(付記2)
前記撮像画像データから、前記任意の物体が映る第1領域と、ユーザの身体の少なくとも一部が映る第2領域と、をリアルタイムに識別し、
前記仮想空間画像データに、前記第1領域のデータと、前記第2領域のデータと、をリアルタイムに合成することにより前記仮想・現実合成画像データを生成する、
付記1に記載の情報処理装置。
(付記3)
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いて学習させた学習済みモデルに、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データを入力することで、前記学習済みモデルが出力する前記任意の物体が映る第1領域と、前記ユーザの身体の少なくとも一部が映る第2領域と、その他の第3領域と、が分類されたセマンティックセグメンテーションデータに基づいて、前記撮像画像データから、前記任意の物体が映る第1領域と、前記ユーザの身体の少なくとも一部が映る第2領域と、をリアルタイムに識別する、
付記2に記載の情報処理装置。
(付記4)
前記任意の物体は、少なくとも楽器、飲み物、携帯端末装置のいずれかを含み、
前記ユーザの身体の少なくとも一部は、前記楽器、前記飲み物、前記携帯端末装置に触れるユーザの身体の一部、を含む、
付記2乃至3のいずれかに記載の情報処理装置。
(付記5)
ユーザがどこを見ようとしているのかを検出する視線検出手段から取得されるユーザの視線データに基づいてユーザが前記任意の物体を見ていると判断できる場合に、識別された前記第1領域のデータを、前記仮想空間画像データに合成するように制御し、
前記視線データに基づいてユーザが前記任意の物体を見ていると判断できない場合に、識別された前記第1領域のデータを、前記仮想空間画像データに合成しないように制御する、
付記2乃至4のいずれかに記載の情報処理装置。
(付記6)
付記1乃至5のいずれかに記載の情報処理装置と、
ユーザ視点でリアルタイムに現実空間を撮像するデュアルカメラと、
前記仮想・現実合成画像データを表示するヘッドマウントディスプレイと、
を備える仮想・現実合成システム。
(付記7)
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを含み、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データが入力される入力層と、
前記任意の物体が映る第1領域と、前記ユーザの身体の少なくとも一部が映る第2領域と、その他の第3領域と、が分類されたセマンティックセグメンテーションデータを出力とする出力層と、
任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いてセマンティックセグメンテーションに基づいてパラメータが学習された中間層と、
を備え、
前記撮像画像データを入力とし、前記セマンティックセグメンテーションデータを出力とする学習済みモデルの生成方法。
(付記8)
情報処理装置のプロセッサに、
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
方法。
(付記9)
情報処理装置のプロセッサに、
ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
プログラム。
101 CPU
102 ROM
103 RAM
104 デュアルカメラ
105 HMD
106 カメラI/F
107 ディスプレイコントローラ
108 スイッチI/F
109 外部記憶装置
110 ネットワークインタフェース
111 システムバス
201 学習用コンピュータ
202 学習データ収集部
203 学習データ記憶部
204 学習データ合成部
205 セマンティックセグメンテーションモデル学習部
206 学習済みセマンティックセグメンテーションモデル部
207 仮想・現実合成部
208 学習データ
208A 学習入力データ
208B 学習正解データ
209 合成学習データ
209A 合成学習入力データ
209B 合成学習正解データ
210 学習済みセマンティックセグメンテーションモデルデータ
211 デュアルカメラ撮像画像データ
212 切抜きデータ
213 仮想空間映像データ
214 仮想・現実合成映像データ
態様の一例の情報処理装置は、ユーザ視点で現実空間が撮像された撮像画像データを取得し、前記撮像画像データを学習済みモデルに入力し、前記学習済みモデルが出力するセグメンテーションデータであって、前記撮像画像データを、任意の物体が映る第1領域及びユーザの身体の少なくとも一部が映る第2領域と、その他の第3領域と、に分けたセグメンテーションデータに基づいて、仮想空間画像データに、前記撮像画像データの前記第1領域及び前記第2領域のデータを合成する、処理を実行する。
ステップS902の判定がNOならば、CPU101は、身体のみに対するセマンティックセグメンテーションの推論処理を実行する(ステップS903)。ここでは、上述のような身体、楽器、背景の3クラスに分類する3クラス分類モデルを利用する場合、身体と分類されたピクセルはそのまま利用し、背景と分類されたピクセル及び楽器と分類されたピクセルをそれぞれ透明にする処理を実行する。或いは、身体部分のセグメンテーションを実行する新たなモデルを作成し、推論処理を実行してもよい。その後、CPU101は、現フレーム画像に対する図8のステップS802に代わる図9のフローチャートの処理を終了する。この場合、CPU101は、続く図8のステップS803では身体のみの切抜きデータ212を生成する。
ステップS901の楽器を見ているか否かの判定処理としては、いくつかの手法を採用することができる。

Claims (9)

  1. ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別し、
    仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成する、
    情報処理装置。
  2. 前記撮像画像データから、前記任意の物体が映る第1領域と、ユーザの身体の少なくとも一部が映る第2領域と、をリアルタイムに識別し、
    前記仮想空間画像データに、前記第1領域のデータと、前記第2領域のデータと、をリアルタイムに合成することにより前記仮想・現実合成画像データを生成する、
    請求項1に記載の情報処理装置。
  3. 任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いて学習させた学習済みモデルに、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データを入力することで、前記学習済みモデルが出力する前記任意の物体が映る第1領域と、前記ユーザの身体の少なくとも一部が映る第2領域と、その他の第3領域と、が分類されたセマンティックセグメンテーションデータに基づいて、前記撮像画像データから、前記任意の物体が映る第1領域と、前記ユーザの身体の少なくとも一部が映る第2領域と、をリアルタイムに識別する、
    請求項2に記載の情報処理装置。
  4. 前記任意の物体は、少なくとも楽器、飲み物、携帯端末装置のいずれかを含み、
    前記ユーザの身体の少なくとも一部は、前記楽器、前記飲み物、前記携帯端末装置に触れるユーザの身体の一部、を含む、
    請求項2乃至3のいずれかに記載の情報処理装置。
  5. ユーザがどこを見ようとしているのかを検出する視線検出手段から取得されるユーザの視線データに基づいてユーザが前記任意の物体を見ていると判断できる場合に、識別された前記第1領域のデータを、前記仮想空間画像データに合成するように制御し、
    前記視線データに基づいてユーザが前記任意の物体を見ていると判断できない場合に、識別された前記第1領域のデータを、前記仮想空間画像データに合成しないように制御する、
    請求項2乃至4のいずれかに記載の情報処理装置。
  6. 請求項1乃至5のいずれかに記載の情報処理装置と、
    ユーザ視点でリアルタイムに現実空間を撮像するデュアルカメラと、
    前記仮想・現実合成画像データを表示するヘッドマウントディスプレイと、
    を備える仮想・現実合成システム。
  7. 任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを含み、ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データが入力される入力層と、
    前記任意の物体が映る第1領域と、前記ユーザの身体の少なくとも一部が映る第2領域と、その他の第3領域と、が分類されたセマンティックセグメンテーションデータを出力とする出力層と、
    任意の物体が映るデータと、ユーザの身体の少なくとも一部が映るデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを入力とし、前記任意の物体の切抜きデータと、前記ユーザの身体の少なくとも一部の切抜きデータと、のいずれか一方を含むデータ、両方を含むデータ及び両方を含まないデータを出力とする学習データを用いてセマンティックセグメンテーションに基づいてパラメータが学習された中間層と、
    を備え、
    前記撮像画像データを入力とし、前記セマンティックセグメンテーションデータを出力とする学習済みモデルの生成方法。
  8. 情報処理装置のプロセッサに、
    ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
    仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
    方法。
  9. 情報処理装置のプロセッサに、
    ユーザ視点でリアルタイムに撮像されることにより取得される現実空間における撮像画像データから、仮想空間に持ち込みたい任意の物体が映る領域をリアルタイムに識別させ、
    仮想空間画像データに、取得された前記撮像画像データに含まれる前記領域のデータをリアルタイムに合成することにより仮想・現実合成画像データを生成させる、
    プログラム。
JP2020020068A 2020-02-07 2020-02-07 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム Active JP7127659B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020020068A JP7127659B2 (ja) 2020-02-07 2020-02-07 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム
US17/168,868 US11501471B2 (en) 2020-02-07 2021-02-05 Virtual and real composite image data generation method, virtual and real images compositing system, trained model generation method, virtual and real composite image data generation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020020068A JP7127659B2 (ja) 2020-02-07 2020-02-07 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム

Publications (2)

Publication Number Publication Date
JP2021125138A true JP2021125138A (ja) 2021-08-30
JP7127659B2 JP7127659B2 (ja) 2022-08-30

Family

ID=77178784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020020068A Active JP7127659B2 (ja) 2020-02-07 2020-02-07 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム

Country Status (2)

Country Link
US (1) US11501471B2 (ja)
JP (1) JP7127659B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022177220A (ja) * 2022-03-21 2022-11-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識モデルの訓練方法、テキスト認識方法及び装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020129115A1 (ja) * 2018-12-17 2021-11-04 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム、情報処理方法およびコンピュータプログラム
US11107280B1 (en) * 2020-02-28 2021-08-31 Facebook Technologies, Llc Occlusion of virtual objects in augmented reality by physical objects
CN113688887A (zh) * 2021-08-13 2021-11-23 百度在线网络技术(北京)有限公司 图像识别模型的训练与图像识别方法、装置
WO2024007135A1 (zh) * 2022-07-04 2024-01-11 北京小米移动软件有限公司 图像处理方法、装置、终端设备、电子设备及存储介质
CN116563210B (zh) * 2023-03-21 2023-12-08 安徽中新云谷数字技术有限公司 一种虚拟现实图像质量评价方法及系统
US11880698B1 (en) * 2023-05-15 2024-01-23 Verizon Patent And Licensing Inc. Systems and methods for enhanced graphical user interface information tracking

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134693A (ja) * 2007-10-30 2009-06-18 Canon Inc 画像処理装置、画像処理方法
JP2019533866A (ja) * 2016-10-31 2019-11-21 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 制御フィードバックを用いる画像セグメンテーションの方法及びシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280115B2 (en) 2007-10-30 2012-10-02 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP5401386B2 (ja) 2010-03-31 2014-01-29 新日鉄住金ソリューションズ株式会社 情報処理システム及び情報処理方法
EP3410264B1 (en) 2014-01-23 2020-08-26 Sony Corporation Image display device and image display method
US10191541B2 (en) 2016-06-30 2019-01-29 Sony Interactive Entertainment Inc. Augmenting virtual reality content with real world content
EP3635951A4 (en) * 2017-04-19 2021-07-14 Vidoni, Inc. AUGMENTED REALITY LEARNING SYSTEM AND PROCESS USING MOTION-CAPTURING VIRTUAL HANDS
JP6298561B1 (ja) * 2017-05-26 2018-03-20 株式会社コロプラ ヘッドマウントデバイスと通信可能なコンピュータによって実行されるプログラム、当該プログラムを実行するための情報処理装置、およびヘッドマウントデバイスと通信可能なコンピュータによって実行される方法
US10867390B2 (en) * 2018-09-10 2020-12-15 Arm Limited Computer vision processing
WO2020163316A1 (en) * 2019-02-05 2020-08-13 Smith & Nephew, Inc. Augmented reality in arthroplasty surgery
US10643593B1 (en) * 2019-06-04 2020-05-05 Electronic Arts Inc. Prediction-based communication latency elimination in a distributed virtualized orchestra
US11127148B1 (en) * 2020-05-12 2021-09-21 Microsoft Technology Licensing, Llc Parallax correction for partially overlapping stereo depth images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134693A (ja) * 2007-10-30 2009-06-18 Canon Inc 画像処理装置、画像処理方法
JP2019533866A (ja) * 2016-10-31 2019-11-21 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 制御フィードバックを用いる画像セグメンテーションの方法及びシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022177220A (ja) * 2022-03-21 2022-11-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識モデルの訓練方法、テキスト認識方法及び装置
JP7406606B2 (ja) 2022-03-21 2023-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識モデルの訓練方法、テキスト認識方法及び装置

Also Published As

Publication number Publication date
US11501471B2 (en) 2022-11-15
JP7127659B2 (ja) 2022-08-30
US20210248788A1 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
JP7127659B2 (ja) 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム
KR100845390B1 (ko) 영상 처리기, 영상 처리 방법, 기록 매체, 및 반도체 장치
KR102240302B1 (ko) 가상 피팅 장치 및 이의 가상 피팅 방법
US9626103B2 (en) Systems and methods for identifying media portions of interest
JP5827445B2 (ja) 拡張現実インタラクションを実現する方法およびシステム
CN108874126B (zh) 基于虚拟现实设备的交互方法及系统
CN112560605B (zh) 交互方法、装置、终端、服务器和存储介质
JP2014238731A (ja) 画像処理装置、画像処理システム、および画像処理方法
KR101263686B1 (ko) 증강 현실을 이용한 노래방 시스템 및 장치, 이의 노래방 서비스 방법
CN109154862B (zh) 用于处理虚拟现实内容的装置、方法和计算机可读介质
JP6730461B2 (ja) 情報処理システム及び情報処理装置
JP2011258158A (ja) プログラム、情報記憶媒体及び画像生成システム
JP7319172B2 (ja) 画像処理装置、画像処理方法及び画像処理システム
US20230036919A1 (en) Incorporating interaction actions into video display through pixel displacement
JP2020112944A (ja) 映像処理装置、映像処理方法、及び映像処理プログラム
CN117333645A (zh) 一种环形全息交互系统及其设备
US11961190B2 (en) Content distribution system, content distribution method, and content distribution program
JP2003085571A (ja) 塗り絵玩具
CN111651054A (zh) 音效控制方法、装置、电子设备及存储介质
CN111652986B (zh) 舞台效果呈现方法、装置、电子设备及存储介质
JPH10214344A (ja) インタラクティブ表示装置
JP2011206220A (ja) ゲームシステム、ゲームシステムの制御方法、及びプログラム
JP5213913B2 (ja) プログラム及び画像生成システム
WO2023170744A1 (ja) 画像処理装置、画像処理方法、および記録媒体
WO2024142883A1 (ja) 検索装置、検索方法、及び記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220801

R150 Certificate of patent or registration of utility model

Ref document number: 7127659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150