JP2023117800A

JP2023117800A - 情報処理装置および代表座標導出方法

Info

Publication number: JP2023117800A
Application number: JP2022020558A
Authority: JP
Inventors: 孝範南野; Takanori Minamino; 憲三西川; Kenzo Nishikawa
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2023-08-24
Also published as: WO2023153093A1

Abstract

【課題】撮影画像におけるマーカ像を適切に検出するための技術を提供する。【解決手段】撮影画像取得部２１２は、イメージセンサから上下反転して読み出された画像データを取得する。第１抽出処理部２３４は、イメージセンサから上下反転して読み出された画像データから、画素が連続する連結成分を抽出する。代表座標導出部２３８は、第１抽出処理部２３４が抽出した連結成分の画素にもとづいて、マーカ像の代表座標を導出する。【選択図】図８

Description

本発明は、撮影画像に含まれるマーカ像を検出するための技術に関する。

特許文献１は、複数のマーカを備えたデバイスを撮影した画像からマーカ像の代表座標を特定し、マーカ像の代表座標を用いてデバイスの位置情報および姿勢情報を導出する情報処理装置を開示する。特許文献１に開示された情報処理装置は、撮影画像において第１輝度以上の画素が連続する領域を囲む第１境界ボックスを特定するとともに、第１境界ボックス内において第１輝度よりも高い第２輝度以上の画素が連続する領域を囲む第２境界ボックスを特定し、第１境界ボックス内または第２境界ボックス内の画素にもとづいてマーカ像の代表座標を導出する。

特許文献２は、複数の発光部と複数の操作部材とを設けられた入力デバイスを開示する。入力デバイスの発光部は、ヘッドマウンティングデバイスに設けられたカメラにより撮影され、検知された発光部の位置にもとづいて、入力デバイスの位置と姿勢が算出される。

特開２０２０－１８１３２２号公報国際公開第２０２１／２４０９３０号

近年、デバイスの位置や姿勢をトラッキングし、ＶＲ空間の３Ｄモデルに反映させる情報処理技術が普及している。情報処理装置が、ゲーム空間のプレイヤキャラクタやゲームオブジェクトの動きを、トラッキング対象となるデバイスの位置や姿勢の変化に連動させることで、ユーザによる直観的な操作が実現される。

デバイスの位置および姿勢を推定することを目的として、複数の点灯マーカがデバイスに設けられ、情報処理装置は、デバイスを撮影した画像に含まれる複数のマーカ像の代表座標を特定し、当該デバイスの３次元モデルにおける複数のマーカの３次元座標と照らし合わせることで、実空間におけるデバイスの位置および姿勢を推定できる。デバイスの位置および姿勢を高精度に推定するためには、撮影画像における各マーカ像を適切に検出できることが必要となる。

そこで本発明は、撮影画像におけるマーカ像を適切に検出するための技術を提供することを目的とする。なおデバイスは操作部材を有する入力デバイスであってよいが、操作部材を有しない単にトラッキングの対象となるデバイスであってもよい。

上記課題を解決するために、本発明のある態様の情報処理装置は、複数のマーカを備えたデバイスを撮影した画像を取得する撮影画像取得部と、撮影画像におけるマーカ像にもとづいて、デバイスの位置情報および姿勢情報を推定する推定処理部とを備える。推定処理部は、撮影画像からマーカ像の代表座標を特定するマーカ像座標特定部と、マーカ像の代表座標を用いて、デバイスの位置情報および姿勢情報を導出する位置姿勢導出部とを有する。撮影画像取得部は、イメージセンサから上下反転して読み出された画像データを取得し、マーカ像座標特定部は、イメージセンサから上下反転して読み出された画像データから、画素が連続する連結成分を抽出する抽出処理部と、抽出処理部が抽出した連結成分の画素にもとづいて、マーカ像の代表座標を導出する代表座標導出部とを有する。

本発明の別の態様は、代表座標の導出方法であって、複数のマーカを備えたデバイスを撮影したイメージセンサから、上下反転して読み出された画像データを取得するステップと、画像データから、画素が連続する連結成分を抽出するステップと、抽出した連結成分の画素にもとづいて、マーカ像の代表座標を導出するステップとを有する。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを読み取り可能に記録した記録媒体、データ構造などの間で変換したものもまた、本発明の態様として有効である。

実施例における情報処理システムの構成例を示す図である。ＨＭＤの外観形状の例を示す図である。ＨＭＤの機能ブロックを示す図である。入力デバイスの形状を示す図である。入力デバイスの形状を示す図である。入力デバイスを撮影した画像の一部の例を示す図である。入力デバイスの機能ブロックを示す図である。情報処理装置の機能ブロックを示す図である。位置姿勢推定処理を示すフローチャートである。撮影画像から８近傍の画素の連結成分を抽出する処理を示すフローチャートである。撮影されたフレーム画像の一例を示す図である。画像のラインデータの読み出しの順番を説明するための図である。画素の連結性を説明するための図である。撮影画像における複数の画素を示す図である。第１連結成分を囲む境界ボックスを示す図である。別の第１連結成分を囲む境界ボックスを示す図である。撮影画像において抽出した境界ボックスの例を示す図である。２つのマーカ像を１つの第１連結成分として誤抽出した例を示す図である。第１連結成分から複数の第２連結成分を抽出する処理を示すフローチャートである。境界ボックスの領域を含む撮影画像の例を示す図である。第２連結成分を抽出する対象領域を示す図である。第２連結成分を囲む境界ボックスを示す図である。代表座標の導出処理を示すフローチャートを示す図である。撮影画像において抽出した境界ボックスの例を示す図である。

図１は、実施例における情報処理システム１の構成例を示す。情報処理システム１は情報処理装置１０と、記録装置１１と、ヘッドマウントディスプレイ（ＨＭＤ）１００と、ユーザが手指で操作する入力デバイス１６と、画像および音声を出力する出力装置１５とを備える。出力装置１５はテレビであってよい。情報処理装置１０は、アクセスポイント（ＡＰ）１７を介して、インターネットなどの外部のネットワーク２に接続される。ＡＰ１７は無線アクセスポイントおよびルータの機能を有し、情報処理装置１０はＡＰ１７とケーブルで接続してもよく、既知の無線通信プロトコルで接続してもよい。

記録装置１１は、システムソフトウェアや、ゲームソフトウェアなどのアプリケーションを記録する。情報処理装置１０は、コンテンツサーバからネットワーク２経由で、ゲームソフトウェアを記録装置１１にダウンロードしてよい。情報処理装置１０はゲームソフトウェアを実行して、ゲームの画像データおよび音声データをＨＭＤ１００に供給する。情報処理装置１０とＨＭＤ１００とは既知の無線通信プロトコルで接続されてもよく、またケーブルで接続されてもよい。

ＨＭＤ１００は、ユーザが頭部に装着することによりその眼前に位置する表示パネルに画像を表示する表示装置である。ＨＭＤ１００は、左目用表示パネルに左目用の画像を、右目用表示パネルに右目用の画像を、それぞれ別個に表示する。これらの画像は左右の視点から見た視差画像を構成し、立体視を実現する。ユーザは光学レンズを通して表示パネルを見るため、情報処理装置１０は、レンズによる光学歪みを補正した視差画像データをＨＭＤ１００に供給する。

ＨＭＤ１００を装着したユーザにとって出力装置１５は必要ないが、出力装置１５を用意することで、別のユーザが出力装置１５の表示画像を見ることができる。情報処理装置１０は、ＨＭＤ１００を装着したユーザが見ている画像と同じ画像を出力装置１５に表示させてもよいが、別の画像を表示させてもよい。たとえばＨＭＤを装着したユーザと、別のユーザとが一緒にゲームをプレイするような場合、出力装置１５からは、当該別のユーザのキャラクタ視点からのゲーム画像が表示されてもよい。

情報処理装置１０と入力デバイス１６とは既知の無線通信プロトコルで接続されてよく、またケーブルで接続されてもよい。入力デバイス１６は操作ボタンなどの複数の操作部材を備え、ユーザは入力デバイス１６を把持しながら、手指で操作部材を操作する。情報処理装置１０がゲームを実行する際、入力デバイス１６はゲームコントローラとして利用される。入力デバイス１６は、３軸の加速度センサおよび３軸のジャイロセンサを含む姿勢センサ（ＩＭＵ：Inertial Measurement Unit）を備え、所定の周期（たとえば８００Ｈｚ）でセンサデータを情報処理装置１０に送信する。

実施例のゲームは、入力デバイス１６の操作部材の操作情報だけでなく、入力デバイス１６の位置、姿勢、動きなどを操作情報として取り扱って、仮想３次元空間内におけるプレイヤキャラクタの動きに反映する。たとえば操作部材の操作情報は、プレイヤキャラクタを移動させるための情報として利用され、入力デバイス１６の位置、姿勢、動きなどの操作情報は、プレイヤキャラクタの腕を動かすための情報として利用されてよい。ゲーム内の戦闘シーンにおいて、入力デバイス１６の動きが、武器をもつプレイヤキャラクタの動きに反映されることで、ユーザの直観的な操作が実現され、ゲームへの没入感が高められる。

入力デバイス１６の位置および姿勢をトラッキングするために、入力デバイス１６には、ＨＭＤ１００に搭載された撮像装置１４によって撮影可能な複数のマーカ（光出射部）が設けられる。情報処理装置１０は、入力デバイス１６を撮影した画像を解析して、実空間における入力デバイス１６の位置情報および姿勢情報を推定し、推定した位置情報および姿勢情報をゲームに提供する。

ＨＭＤ１００には、複数の撮像装置１４が搭載される。複数の撮像装置１４は、それぞれの撮影範囲を足し合わせた全体の撮影範囲がユーザの視野の全てを含むように、ＨＭＤ１００の前面の異なる位置に異なる姿勢で取り付けられる。撮像装置１４は、入力デバイス１６の複数のマーカの像を取得できるイメージセンサを備える。たとえばマーカが可視光を出射する場合、撮像装置１４はＣＣＤ（Charge Coupled Device）センサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサなど、一般的なデジタルビデオカメラで利用されている可視光センサを有する。マーカが非可視光を出射する場合、撮像装置１４は非可視光センサを有する。複数の撮像装置１４は同期したタイミングで、ユーザの前方を所定の周期（たとえば１２０フレーム／秒）で撮影し、入力デバイス１６を撮影した画像データを情報処理装置１０に送信する。

情報処理装置１０は、撮影画像に含まれる入力デバイス１６の複数のマーカ像の位置を特定する。なお１つの入力デバイス１６が同じタイミングで複数の撮像装置１４に撮影されることもあるが、撮像装置１４の取付位置および取付姿勢は既知であるため、情報処理装置１０は複数の撮影画像を合成して、マーカ像の位置を特定してよい。

入力デバイス１６の３次元形状と、その表面に配置された複数のマーカの位置座標は既知であり、情報処理装置１０は、撮影画像内のマーカ像の分布にもとづいて、入力デバイス１６の位置座標および姿勢を推定する。入力デバイス１６の位置座標は、基準位置を原点とした３次元空間における位置座標であってよく、基準位置はゲーム開始前に設定した位置座標（緯度、経度）であってよい。

実施例の情報処理装置１０は、入力デバイス１６の姿勢センサが検出したセンサデータを用いて、入力デバイス１６の位置座標および姿勢を推定する機能を有する。そこで実施例の情報処理装置１０は、撮像装置１４で撮影した撮影画像にもとづく推定結果と、センサデータにもとづく推定結果を用いて、高精度に入力デバイス１６のトラッキング処理を実施してよい。この場合、情報処理装置１０は、カルマンフィルタを用いた状態推定技術を適用して、撮影画像にもとづく推定結果と、センサデータにもとづく推定結果を統合することで、現在時刻における入力デバイス１６の位置座標および姿勢を高精度に特定してよい。

図２は、ＨＭＤ１００の外観形状の例を示す。ＨＭＤ１００は、出力機構部１０２および装着機構部１０４から構成される。装着機構部１０４は、ユーザが被ることにより頭部を一周してＨＭＤ１００を頭部に固定する装着バンド１０６を含む。装着バンド１０６はユーザの頭囲に合わせて長さの調節が可能な素材または構造をもつ。

出力機構部１０２は、ＨＭＤ１００をユーザが装着した状態において左右の目を覆う形状の筐体１０８を含み、内部には装着時に目に正対する表示パネルを備える。表示パネルは液晶パネルや有機ＥＬパネルなどであってよい。筐体１０８内部にはさらに、表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大する左右一対の光学レンズが備えられる。ＨＭＤ１００はさらに、ユーザの耳に対応する位置にスピーカーやイヤホンを備えてよく、外付けのヘッドホンが接続されるように構成されてもよい。

筐体１０８の前方側外面には、複数の撮像装置１４ａ、１４ｂ、１４ｃ、１４ｄが備えられる。ユーザの顔正面方向を基準として、撮像装置１４ａは、カメラ光軸が右斜め上を向くように前方側外面の右上隅に取り付けられ、撮像装置１４ｂは、カメラ光軸が左斜め上を向くように前方側外面の左上隅に取り付けられ、撮像装置１４ｃは、カメラ光軸が右斜め下を向くように前方側外面の右下隅に取り付けられ、撮像装置１４ｄは、カメラ光軸が左斜め下を向くように前方側外面の左下隅に取り付けられる。このように複数の撮像装置１４が設置されることで、それぞれの撮影範囲を足し合わせた全体の撮影範囲がユーザの視野の全てを含む。このユーザの視野は、３次元仮想空間におけるユーザの視野であってよい。

ＨＭＤ１００は、姿勢センサが検出したセンサデータおよび撮像装置１４が撮影した画像データを情報処理装置１０に送信し、また情報処理装置１０で生成されたゲーム画像データおよびゲーム音声データを受信する。

図３は、ＨＭＤ１００の機能ブロックを示す。制御部１２０は、画像データ、音声データ、センサデータなどの各種データや、命令を処理して出力するメインプロセッサである。記憶部１２２は、制御部１２０が処理するデータや命令などを一時的に記憶する。姿勢センサ１２４は、ＨＭＤ１００の動きに関するセンサデータを取得する。姿勢センサ１２４は、少なくとも３軸の加速度センサおよび３軸のジャイロセンサを含む。姿勢センサ１２４は、所定の周期（たとえば８００Ｈｚ）で各軸成分の値（センサデータ）を検出する。

通信制御部１２８は、ネットワークアダプタまたはアンテナを介して、有線または無線通信により、制御部１２０から出力されるデータを外部の情報処理装置１０に送信する。また通信制御部１２８は、情報処理装置１０からデータを受信し、制御部１２０に出力する。

制御部１２０は、ゲーム画像データやゲーム音声データを情報処理装置１０から受け取ると、表示パネル１３０に供給して表示させ、また音声出力部１３２に供給して音声出力させる。表示パネル１３０は、左目用表示パネル１３０ａと右目用表示パネル１３０ｂから構成され、各表示パネルに一対の視差画像が表示される。また制御部１２０は、姿勢センサ１２４からのセンサデータ、マイク１２６からの音声データ、撮像装置１４からの撮影画像データを、通信制御部１２８から情報処理装置１０に送信させる。

図４（ａ）は、左手用の入力デバイス１６ａの形状を示す。左手用の入力デバイス１６ａは、ケース体２０と、ユーザが操作する複数の操作部材２２ａ、２２ｂ、２２ｃ、２２ｄ（以下、特に区別しない場合は「操作部材２２」と呼ぶ）と、ケース体２０の外部に光を出射する複数のマーカ３０とを備える。マーカ３０は断面円形の出射面を有してよい。操作部材２２は、傾動操作するアナログスティック、押下式ボタンなどを含んでよい。ケース体２０は、把持部２１と、ケース体頭部とケース体底部とを連結する湾曲部２３を有し、ユーザは湾曲部２３に左手を入れて、把持部２１を把持する。ユーザは把持部２１を把持した状態で、左手の親指を用いて、操作部材２２ａ、２２ｂ、２２ｃ、２２ｄを操作する。

図４（ｂ）は、右手用の入力デバイス１６ｂの形状を示す。右手用の入力デバイス１６ｂは、ケース体２０と、ユーザが操作する複数の操作部材２２ｅ、２２ｆ、２２ｇ、２２ｈ（以下、特に区別しない場合は「操作部材２２」と呼ぶ）と、ケース体２０の外部に光を出射する複数のマーカ３０とを備える。操作部材２２は、傾動操作するアナログスティック、押下式ボタンなどを含んでよい。ケース体２０は、把持部２１と、ケース体頭部とケース体底部とを連結する湾曲部２３を有し、ユーザは湾曲部２３に右手を入れて、把持部２１を把持する。ユーザは把持部２１を把持した状態で、右手の親指を用いて、操作部材２２ｅ、２２ｆ、２２ｇ、２２ｈを操作する。

図５は、右手用の入力デバイス１６ｂの形状を示す。入力デバイス１６ｂは、図４（ｂ）で示した操作部材２２ｅ、２２ｆ、２２ｇ、２２ｈに加えて、操作部材２２ｉ、２２ｊを有する。ユーザは把持部２１を把持した状態で、右手の人差し指を用いて操作部材２２ｉを操作し、中指を用いて操作部材２２ｊを操作する。以下、入力デバイス１６ａと入力デバイス１６ｂとを特に区別しない場合、「入力デバイス１６」と呼ぶ。

入力デバイス１６に設けられた操作部材２２は、押さなくても、触れるだけで指を認識するタッチセンス機能を搭載する。右手用の入力デバイス１６ｂに関して言えば、操作部材２２ｆ、２２ｇ、２２ｊが、静電容量式タッチセンサを備えてよい。なおタッチセンサは他の操作部材２２に搭載されてもよいが、入力デバイス１６をテーブルなどに載置した際に、載置面に接触することのない操作部材に搭載されることが好ましい。

マーカ３０は、ケース体２０の外部に光を出射する光出射部であり、ケース体２０の表面において、ＬＥＤ（Light Emitting Diode）素子などの光源からの光を外部に拡散出射する樹脂部を含む。マーカ３０は撮像装置１４により撮影されて、入力デバイス１６の位置および姿勢の推定処理に利用される。撮像装置１４は所定の周期（たとえば１２０フレーム／秒）で空間を撮影するため、マーカ３０は、撮像装置１４の周期的な撮影タイミングに同期して光を出射し、撮像装置１４による非露光期間には消灯して無用な電力消費を抑えることが好ましい。

実施例において撮像装置１４による撮影画像は、入力デバイス１６のトラッキング処理と、ＨＭＤ１００のトラッキング処理（ＳＬＡＭ）のために利用される。そのため６０フレーム／秒で撮影される画像が、入力デバイス１６のトラッキング処理に利用され、６０フレーム／秒で撮影される別の画像が、ＨＭＤ１００の自己位置推定および環境地図作成を同時実行する処理に利用されてよい。

図６は、入力デバイス１６を撮影した画像の一部の例を示す。この画像は、右手で把持された入力デバイス１６ｂの撮影画像であり、光を出射する複数のマーカ３０の像が含まれる。ＨＭＤ１００において、通信制御部１２８は、撮像装置１４が撮影した画像データを所定の周期で情報処理装置１０に送信する。

図７は、入力デバイス１６の機能ブロックを示す。制御部５０は、操作部材２２に入力された操作情報を受け付け、また姿勢センサ５２により取得されたセンサデータを受け付ける。姿勢センサ５２は、入力デバイス１６の動きに関するセンサデータを取得し、少なくとも３軸の加速度センサおよび３軸のジャイロセンサを含む。姿勢センサ５２は、所定の周期（たとえば８００Ｈｚ）で各軸成分の値（センサデータ）を検出する。制御部５０は、受け付けた操作情報およびセンサデータを通信制御部５４に供給する。通信制御部５４は、ネットワークアダプタまたはアンテナを介して、有線または無線通信により、制御部５０から出力される操作情報およびセンサデータを情報処理装置１０に送信する。また通信制御部５４は、情報処理装置１０から発光指示を取得する。

入力デバイス１６は、複数のマーカ３０を点灯するための複数の光源５８を備える。光源５８は、所定の色で発光するＬＥＤ素子であってよい。制御部５０は、情報処理装置１０から取得した発光指示にもとづいて光源５８を発光させ、マーカ３０を点灯させる。なお図７に示す例では、１つのマーカ３０に対して１つの光源５８が設けられているが、１つの光源５８が、複数のマーカ３０を点灯させてもよい。

図８は、情報処理装置１０の機能ブロックを示す。情報処理装置１０は、処理部２００および通信部２０２を備え、処理部２００は、取得部２１０、ゲーム実行部２２０、画像信号処理部２２２、推定処理部２３０およびマーカ情報保持部２５０を備える。通信部２０２は、入力デバイス１６から送信される操作部材２２の操作情報およびセンサデータを受信し、取得部２１０に供給する。また通信部２０２は、ＨＭＤ１００から送信される撮影画像データおよびセンサデータを受信し、取得部２１０に供給する。

取得部２１０は、撮影画像取得部２１２、センサデータ取得部２１４および操作情報取得部２１６を備える。推定処理部２３０は、マーカ像座標特定部２３２、マーカ像座標抽出部２４０および位置姿勢導出部２４２を備え、マーカ像座標特定部２３２は、第１抽出処理部２３４、第２抽出処理部２３６および代表座標導出部２３８を有する。推定処理部２３０は、撮影画像に含まれるマーカ像にもとづいて、入力デバイス１６の位置情報および姿勢情報を推定する。なお実施例では説明を省略するが、推定処理部２３０は、撮影画像に含まれるマーカ像から推定される入力デバイス１６の位置情報および姿勢情報と、入力デバイス１６で検出されるセンサデータから推定される入力デバイス１６の位置情報および姿勢情報とをカルマンフィルタに入力することで、入力デバイス１６の位置情報および姿勢情報を高精度に推定してもよい。推定処理部２３０は、推定した入力デバイス１６の位置情報および姿勢情報をゲーム実行部２２０に供給する。

情報処理装置１０はコンピュータを備え、コンピュータがプログラムを実行することによって、図８に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する１つ以上のプロセッサ、補助記憶装置、その他のＬＳＩなどをハードウェアとして備える。プロセッサは、半導体集積回路やＬＳＩを含む複数の電子回路により構成され、複数の電子回路は、１つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図８に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

撮影画像取得部２１２は、複数のマーカ３０を備えた入力デバイス１６を撮影した画像データを取得し、画像信号処理部２２２に供給する。画像信号処理部２２２は、画像データにノイズ低減や光学補正（シェーディング補正）などの画像信号処理を行い、高画質化した撮影画像データを推定処理部２３０に供給する。

撮影画像取得部２１２は、画像の水平方向のラインデータを、１ラインずつ画像信号処理部２２２に供給する。実施例の画像信号処理部２２２はハードウェアで構成されて、画像データの数ライン分をラインバッファに記憶し、ラインバッファに記憶した数ライン分の画像データに対して高画質化処理を実施し、高画質化したラインデータを推定処理部２３０に供給する。

センサデータ取得部２１４は、入力デバイス１６およびＨＭＤ１００から送信されるセンサデータを取得し、推定処理部２３０に供給する。操作情報取得部２１６は、入力デバイス１６から送信される操作情報を取得し、ゲーム実行部２２０に供給する。ゲーム実行部２２０は、操作情報および入力デバイス１６の位置姿勢情報にもとづいて、ゲームを進行する。

マーカ像座標特定部２３２は、撮影画像に含まれるマーカ３０の像を代表する２次元座標（以下、「マーカ像座標」とも呼ぶ）を特定する。マーカ像座標特定部２３２は、所定値以上の輝度値をもつ画素が連続する領域を特定し、その画素領域の重心座標を算出して、マーカ像の代表座標としてよい。マーカ像座標特定部２３２による代表座標の導出手法については後述する。

３次元の形状および大きさが既知である物体の撮影画像から、それを撮影した撮像装置の位置および姿勢を推定する手法として、ＰＮＰ（Perspective n-Point）問題を解く方法が知られている。実施例でマーカ像座標抽出部２４０は、撮影画像におけるＮ（Ｎは３以上の整数）個の２次元マーカ像座標を抽出し、位置姿勢導出部２４２は、マーカ像座標抽出部２４０により抽出されたＮ個のマーカ像座標と、入力デバイス１６の３次元モデルにおけるＮ個のマーカの３次元座標から、入力デバイス１６の位置情報および姿勢情報を導出する。位置姿勢導出部２４２は、以下の（式１）を用いて撮像装置１４の位置および姿勢を推定し、その推定結果をもとに入力デバイス１６の３次元空間の位置情報および姿勢情報を導出する。

ここで（ｕ，ｖ）は撮影画像におけるマーカ像座標であり、（Ｘ，Ｙ，Ｚ）は、入力デバイス１６の３次元モデルが基準位置および基準姿勢にあるときのマーカ３０の３次元空間での位置座標である。なお３次元モデルは、入力デバイス１６と完全に同一の形状および大きさをもち、マーカを同一位置に配置したモデルである。マーカ情報保持部２５０は、基準位置および基準姿勢にある３次元モデルにおける各マーカの３次元座標を保持しており、位置姿勢導出部２４２は、マーカ情報保持部２５０から各マーカの３次元座標を読み出して、（Ｘ，Ｙ，Ｚ）を取得する。

（ｆ_ｘ、ｆ_ｙ）は撮像装置１４の焦点距離、（ｃ_ｘ、ｃ_ｙ）は画像主点であり、いずれも撮像装置１４の内部パラメータである。ｒ_１１～ｒ_３３、ｔ_１～ｔ_３を要素とする行列は、回転・並進行列である。（式１）において（ｕ，ｖ）、（ｆ_ｘ、ｆ_ｙ）、（ｃ_ｘ、ｃ_ｙ）、（Ｘ，Ｙ，Ｚ）は既知であり、位置姿勢導出部２４２は、Ｎ個のマーカ３０について方程式を解くことにより、それらに共通の回転・並進行列を求める。位置姿勢導出部２４２は、この行列によって表される角度および並進量に基づいて、入力デバイス１６の位置情報および姿勢情報を導出する。実施例では、入力デバイス１６の位置姿勢を推定する処理をＰ３Ｐ問題を解くことで実施し、したがって位置姿勢導出部２４２は、３個のマーカ像座標と、入力デバイス１６の３次元モデルにおける３個の３次元マーカ座標を用いて、入力デバイス１６の位置および姿勢を導出する。情報処理装置１０は、３次元の現実空間のワールド座標をＳＬＡＭ技術により生成しており、したがって位置姿勢導出部２４２は、ワールド座標系における入力デバイス１６の位置および姿勢を導出する。

図９は、推定処理部２３０による位置姿勢推定処理を示すフローチャートである。撮影画像取得部２１２は、入力デバイス１６を撮影した画像のラインデータを順次取得し（Ｓ１０）、画像信号処理部２２２に供給する。なお位置姿勢推定処理の計算負荷を下げるために、撮影画像取得部２１２は、取得した２つのラインデータをビニング処理（４画素を１画素にまとめる処理）して、画像信号処理部２２２に供給してもよい。画像信号処理部２２２は、数ライン分のラインデータをラインバッファに記憶して、ノイズ低減や光学補正などの画像信号処理を行う（Ｓ１２）。画像信号処理部２２２は、画像信号処理したラインデータをマーカ像座標特定部２３２に供給し、マーカ像座標特定部２３２は、撮影画像に含まれる複数のマーカ像の代表座標を特定する（Ｓ１４）。画像信号処理されたラインデータおよび特定したマーカ像の代表座標は、メモリ（図示せず）に一時記憶される。

マーカ像座標抽出部２４０は、マーカ像座標特定部２３２により特定された複数のマーカ像座標の中から、任意の３個のマーカ像座標を抽出する。マーカ情報保持部２５０は、基準位置および基準姿勢にある入力デバイス１６の３次元モデルにおける各マーカの３次元座標を保持している。位置姿勢導出部２４２は、マーカ情報保持部２５０から３次元モデルにおけるマーカの３次元座標を読み出し、（式１）を用いてＰ３Ｐ問題を解く。位置姿勢導出部２４２は、抽出された３個のマーカ像座標に共通する回転・並進行列を特定すると、抽出した３個のマーカ像座標以外の入力デバイス１６のマーカ像座標を用いて再投影誤差を算出する。

マーカ像座標抽出部２４０は、３個のマーカ像座標の組合せを所定数抽出する。位置姿勢導出部２４２は、抽出された３個のマーカ像座標のそれぞれの組合せに対して回転・並進行列を特定し、それぞれの再投影誤差を算出する。それから位置姿勢導出部２４２は、所定数の再投影誤差の中から最小の再投影誤差となる回転・並進行列を特定して、入力デバイス１６の位置情報および姿勢情報を導出する（Ｓ１６）。位置姿勢導出部２４２は、導出した入力デバイス１６の位置情報および姿勢情報をゲーム実行部２２０に供給する。

位置姿勢推定処理は、入力デバイス１６のトラッキング用画像の撮像周期（６０フレーム／秒）で実施される（Ｓ１８のＮ）。ゲーム実行部２２０がゲームを終了すると、推定処理部２３０による位置姿勢推定処理は終了する（Ｓ１８のＹ）。

以下、複数のフローチャートを用いて、マーカ像座標特定部２３２が、マーカ像の代表座標を導出する手法について説明する。実施例の撮影画像はグレースケール画像であり、各画素の輝度は８ビットで表現されて、０～２５５の輝度値をとる。撮影画像においてマーカ像は、図６に示すように高輝度をもつ像として撮影される。

図１０は、第１抽出処理部２３４が撮影画像から８近傍の画素の連結成分を抽出する処理を示すフローチャートである。第１抽出処理部２３４は、画像信号処理部２２２から、画像信号処理されたラインデータを取得する（Ｓ２０）。第１抽出処理部２３４は、撮影画像から、８近傍の画素の連結成分を抽出する処理を実施する（Ｓ２２）。

図１１は、撮影されたフレーム画像の一例を示す。画像下方に含まれる高輝度の物体は、発光したマーカ３０である。画像信号処理部２２２は、フレーム画像の水平方向のラインデータを、垂直方向の上から順に第１抽出処理部２３４に供給する。画像信号処理部２２２から供給されるラインデータは、メモリ（図示せず）に順次記憶されてよい。

図１２は、画像のラインデータの読み出しの順番を説明するための図である。第１抽出処理部２３４は、フレーム画像の水平方向のラインデータを上から順に受け取り、８近傍の画素の連結成分を抽出する処理を実施する。

図１３（ａ）は、８近傍の画素を説明するための図である。ＣＣＬ（Connected-component labeling）アルゴリズムにおいて、１つの画素Ｐを中心として、その周り（上下左右方向と４つの斜め方向）に存在する画素を「８近傍の画素」と呼ぶ。２値画像において、同じ値をもつ２つの画素が互いに８近傍に存在するとき、当該２つの画素は「８隣接」しているといい、複数の画素が８隣接により連結している集合を、本実施例では「第１連結成分」と呼ぶ。第１抽出処理部２３４はハードウェアにより構成され、画像信号処理部２２２から２つまたは３つのラインデータが入力されると、８近傍の画素の連結成分を抽出する処理を実施する。

一方、後述するように、実施例の第２抽出処理部２３６はソフトウェア演算により、４近傍の画素の連結成分を抽出する処理を実施する。
図１３（ｂ）は、４近傍の画素を説明するための図である。１つの画素Ｐを中心として、その上下左右方向に存在する画素を「４近傍の画素」と呼ぶ。４近傍の画素は、斜め方向に存在する画素を含まない。２値画像において、同じ値をもつ２つの画素が互いに４近傍に存在するとき、当該２つの画素は「４隣接」しているといい、複数の画素が４隣接により連結している集合を、本実施例では「第２連結成分」と呼ぶ。第２抽出処理部２３６の処理機能はＤＳＰによるソフトウェア演算により実現され、実施例において第２抽出処理部２３６は、第１抽出処理部２３４が抽出した連結成分に対して、４近傍の画素の連結成分を抽出する処理を実施する。

１枚の同じフレーム画像から、８近傍の画素の連結成分と、４近傍の画素の連結成分とを独立して別個に抽出する場合、８近傍の連結成分は斜め方向に連結する画素も含むため、８近傍の連結成分のサイズは４近傍の連結成分のサイズ以上となり、８近傍の連結成分の抽出数は、４近傍の連結成分の抽出数以下となる。

図１０に戻って、第１抽出処理部２３４による８近傍の画素の第１連結成分の抽出処理（Ｓ２２）について説明する。第１抽出処理部２３４は、撮影画像において第１輝度以上の画素が８近傍で連結する領域を探索する。たとえば第１輝度は輝度値１２８であってよい。第１抽出処理部２３４が、８近傍の画素の連結成分を抽出することで、４近傍の画素の連結成分を抽出する場合と比較すると、抽出する連結成分の個数を少なくでき、後段のマーカ像代表座標の導出処理にかかる負荷を低減できる。

図１４は、撮影画像における複数の画素の例を示す。実際に撮影されたグレースケール画像において、最高の輝度値２５５をもつ画素は白、最低の輝度値０をもつ画素は黒で表現されるが、以下の図１４～図１６、図２０～図２２では、見やすさを優先して、各画素の輝度表現を反転（白黒を反転）させている。したがって図１４～図１６、図２０～図２２で黒は輝度値２５５（最高の輝度値）を、白は輝度値０（最低の輝度値）を表現する。第１抽出処理部２３４は、第１輝度以上の画素が８近傍で連結する領域を見つけると、８近傍の画素の第１連結成分として抽出し（Ｓ２２）、第１連結成分を囲む境界ボックスを特定する（Ｓ２４）。

図１５は、抽出された８近傍の画素の第１連結成分７８ａを囲む境界ボックス８０ａを示す。境界ボックス８０ａは、８近傍の画素の第１連結成分７８ａを囲む最小の矩形として特定される。なお第１抽出処理部２３４は、第１連結成分の抽出処理を画像のラインデータごとに実施するため、第１連結成分７８ａを抽出したときには、その下方に図示される別の第１連結成分の存在を認識していない。第１抽出処理部２３４は、境界ボックス８０ａを特定すると、境界ボックス８０ａの座標情報（境界ボックス情報）をメモリ（図示せず）に出力して、記憶するｓ（Ｓ２６）。

ここで第１抽出処理部２３４は、抽出した第１連結成分の個数が所定の上限数以内であるか判定する（Ｓ２８）。たとえば上限数は２５６個に設定されていてよい。実施例において位置姿勢推定処理は、入力デバイス１６のトラッキング用画像の撮像周期（６０フレーム／秒）で実施されるため、抽出した第１連結成分の個数が膨大になると、位置姿勢推定処理を撮像周期内に完了することが困難となる。そこで第１抽出処理部２３４が抽出する第１連結成分の個数には上限数が設定され、第１抽出処理部２３４は、抽出した第１連結成分の個数が上限数を超えると（Ｓ２８のＮ）、第１連結成分の抽出処理を強制的に終了する。

抽出した第１連結成分の個数が所定の上限数以内である場合（Ｓ２８のＹ）、撮影画像の１フレーム分の処理が終了するまで（Ｓ３０のＮ）、Ｓ２０～Ｓ２６のステップが繰り返し実施される。
図１６は、Ｓ２２で抽出された別の第１連結成分７８ｂを囲む境界ボックス８０ｂを示す。境界ボックス８０ｂは、８近傍の画素の第１連結成分７８ｂを囲む最小の矩形として特定される。第１抽出処理部２３４は、境界ボックス８０ｂの座標情報をメモリに出力する。撮影画像の１フレーム分の処理が終了すると（Ｓ３０のＹ）、第１抽出処理部２３４は、次のフレーム画像の処理を開始する。

図１７は、撮影画像において抽出した境界ボックスの例を示す。第１抽出処理部２３４は、撮影画像から、８近傍画素の複数の第１連結成分を抽出して、複数の第１連結成分のそれぞれを囲む境界ボックスの情報をメモリに出力して記憶する。図１７に示す例では、撮影画像の下側でマーカ像の境界ボックスが特定されており、撮影画像の上側では、照明光などの光源像の境界ボックスが特定されている。

図１７に示す例では、ユーザが入力デバイス１６を、ＨＭＤ１００から近い位置で操作しているため、撮影画像の下側において、大きなマーカ像を取り囲む境界ボックスが特定されている。しかしながら、たとえばユーザが手を前方にいっぱいに伸ばした位置で入力デバイス１６を操作すると、入力デバイス１６と撮像装置１４の距離が遠くなることで撮影されるマーカ像は小さくなり、複数の小さいマーカ像が近接する場合には、第１抽出処理部２３４が、複数のマーカ像を１つの第１連結成分として誤抽出することがある。

図１８は、２つのマーカ像を１つの第１連結成分として誤抽出した例を示す。図１８に示す例では、２つの小さなマーカ像が８近傍で連結していることで、第１抽出処理部２３４は、２つのマーカ像を１つの第１連結成分として抽出して、２つのマーカ像を囲む境界ボックスを特定している。そこで実施例の第２抽出処理部２３６は、第１抽出処理部２３４が特定した境界ボックスに含まれる複数のマーカ像を分離処理する機能を備える。

図１９は、第２抽出処理部２３６が境界ボックスに含まれる第１連結成分から、複数の４近傍の画素の第２連結成分を抽出する処理を示すフローチャートである。第２抽出処理部２３６は、第１抽出処理部２３４が抽出した第１連結成分を、複数の４近傍の画素の第２連結成分に分離できるかどうか調査し、分離できる場合には、元の第１連結成分を破棄して分離後の複数の第２連結成分に置き換え、分離できない場合には、元の第１連結成分を維持する。

第２抽出処理部２３６は、第１抽出処理部２３４が特定した境界ボックス情報（座標情報）をメモリから取得する（Ｓ４０）。このとき第２抽出処理部２３６は、当該境界ボックスおよびその周辺を含む撮影画像データも、撮影画像データを記憶したメモリから取得する（Ｓ４２）。

図２０は、境界ボックス８０ａの領域を含む撮影画像の例を示す。取得する撮影画像領域の横幅および縦幅は、境界ボックス８０ａの横幅および縦幅の略２倍であって、画像領域の中心位置が境界ボックス８０ａの中心位置と略一致するように設定される。第２抽出処理部２３６は、第１抽出処理部２３４が特定した境界ボックス８０ａとその周囲とのコントラストを確認する（Ｓ４４）。境界ボックス８０ａがマーク像を含んでいれば、境界ボックス８０ａ内の平均輝度は高く、一方で、境界ボックス８０ａの外部の平均輝度は相対的に低くなる。そこで第２抽出処理部２３６は、境界ボックス８０ａ内の平均輝度と、取得した画像領域のうち境界ボックス８０ａの外部の領域内の平均輝度を算出し、輝度比を求める。

第２抽出処理部２３６は、境界ボックス８０ａ内の画素の平均輝度Ｂ１と、境界ボックス８０ａの外側の画像領域内の画素の平均輝度Ｂ２を算出する。輝度比（Ｂ１／Ｂ２）が所定値未満である場合（Ｓ４４のＮ）、第２抽出処理部２３６は、境界ボックス８０ａに含まれる第１連結成分は分離対象ではないことを判断して、当該第１連結成分の分離処理を中止する。所定値は、たとえば３であってよい。このとき第２抽出処理部２３６は、境界ボックス８０ａがマーカ像を含んでいないことを判定して、境界ボックス８０ａを破棄してもよい。

輝度比が所定値以上である場合（Ｓ４４のＹ）、第２抽出処理部２３６は、境界ボックス８０ａの大きさおよび形状が所定の条件を満たしているか調べる（Ｓ４６）。具体的に第２抽出処理部２３６は、水平方向のピクセル数ｘと、垂直方向のピクセル数ｙとが、以下の条件１～４を満たしているか否かを判定する。
（条件１）Xmin ≦ ｘ ≦ Xmax
（条件２）Ymin ≦ ｙ ≦ Ymax
（条件３）ｘ／ｙ ≦ Aspect_Thresh
（条件４）ｙ／ｘ ≦ Aspect_Thresh

条件１，２は、境界ボックス８０ａの大きさが所定の範囲内にあること、つまり境界ボックス８０ａが大きすぎず且つ小さすぎないことを規定した条件である。複数のマーカ像が１つの第１連結成分として誤抽出されるとき、各マーカ像は必ず小さいため（各マーカ像が大きければ、複数のマーカ像が１つの第１連結成分として抽出されることはない）、ピクセル数ｘとピクセル数ｙとが、それぞれXmax、Ymax以下の境界ボックス８０ａを調査対象としている。また境界ボックス８０ａが小さすぎる場合には、マーカ像を含んでいる可能性が低いため、ピクセル数ｘとピクセル数ｙとが、それぞれXmin、Ymin以上の境界ボックス８０ａを調査対象としている。条件３，４は、細長い境界ボックス８０ａを調査対象外とするための条件である。第２抽出処理部２３６は、境界ボックス８０ａの大きさおよび形状が条件１～４のいずれかを満たしていないことを判定すると（Ｓ４６のＮ）、境界ボックス８０ａに含まれる第１連結成分は分離対象ではないことを判断して、当該第１連結成分の分離処理を中止する。

第２抽出処理部２３６は、境界ボックス８０ａの大きさおよび形状が条件１～４の全てを満たしていることを判定すると（Ｓ４６のＹ）、境界ボックス８０ａに含まれる第１連結成分を分離するための処理を実施する。具体的に第２抽出処理部２３６は、第１連結成分から、４近傍で連結する領域を探索して、４近傍の画素の第２連結成分を抽出する。

図２１は、４近傍の画素の第２連結成分を抽出する対象領域を示す。この対象領域は、境界ボックス８０ａを１画素ずつ水平方向の両側および垂直方向の両側に広げた領域となる。第２連結成分の抽出処理において、第２抽出処理部２３６は、第２輝度以上の画素が４近傍で連結する領域を探索する。第２輝度は、第１輝度と同じであってよいが、第１輝度より高くてよく、たとえば第２輝度は、輝度値１６０であってよい。

第２抽出処理部２３６は、第２輝度以上の画素が４近傍で連結する領域を見つけると、４近傍の画素の第２連結成分として抽出し（Ｓ４８）、第２連結成分を囲む境界ボックスを特定する（Ｓ５０）。第２抽出処理部２３６は、第１連結成分から複数の第２連結成分を抽出しない場合（Ｓ５２のＮ）、境界ボックス８０ａに含まれる第１連結成分は分離対象ではないことを判断して、当該第１連結成分の分離処理を中止する。一方、第２抽出処理部２３６は、第１連結成分から複数の第２連結成分を抽出した場合（Ｓ５２のＹ）、境界ボックス８０ａに含まれていた第１連結成分７８ａを、複数の第２連結成分に分離する（Ｓ５４）。

図２２は、抽出された４近傍の画素の第２連結成分を囲む境界ボックスを示す。この例で第２抽出処理部２３６は、図２１に示す対象領域から、３つの第２連結成分８２ａ、８２ｂ、８２ｃを抽出して、各第２連結成分を囲む境界ボックス８４ａ、８４ｂ、８４ｃを特定する。なお図２２において第２抽出処理部２３６は、ＣＣＬアルゴリズムにしたがって、第２連結成分８２ａにラベル値１を、第２連結成分８２ｂにラベル値２を、第２連結成分８２ｃにラベル値３を付与している。ここでラベル値３を付した第２連結成分８２ｃは、境界ボックス８０ａの外部の画素を含んで構成されているため、第２抽出処理部２３６は、第２連結成分８２ｃは第１連結成分７８ａから分離したものではないことを認識して、処理対象から除外する。

この例では、８近傍で連結していた第１連結成分７８ａが、４近傍の第２連結成分８２ａと第２連結成分８２ｂに分離されている。第２抽出処理部２３６は、第２連結成分８２ａおよび第２連結成分８２ｂが所定の条件を満たす場合に、第１抽出処理部２３４が抽出した第１連結成分７８ａを、第２連結成分８２ａおよび第２連結成分８２ｂに置き換える。具体的に第２抽出処理部２３６は、第２連結成分８２ａおよび第２連結成分８２ｂのそれぞれの画素数が所定値以上であることを条件に、第１連結成分７８ａを破棄して、第２連結成分８２ａおよび第２連結成分８２ｂに置き換えてよい。この処理により、１つの第１連結成分７８ａとして誤抽出されていた２つのマーカ像を分離することが可能となる。なお第２抽出処理部２３６は、第１連結成分７８ａが所定数（たとえば３または４個）以上に分離された場合には、当該分離処理が適切でないことを判定して、第１連結成分７８ａを維持してよい。

第２抽出処理部２３６は、第１抽出処理部２３４が特定した全ての境界ボックスについて、分離できる第１連結成分が含まれているか調査する（Ｓ５６のＮ）。第２抽出処理部２３６が全ての境界ボックスについての調査を終了すると（Ｓ５６のＹ）、代表座標導出部２３８は、第１抽出処理部２３４が抽出した第１連結成分の画素および／または第２抽出処理部２３６が抽出した第２連結成分の画素にもとづいて、マーカ像の代表座標を導出する処理を実施する。

図２３は、代表座標の導出処理を示すフローチャートを示す。代表座標導出部２３８は、第１抽出処理部２３４が特定した境界ボックスと、第２抽出処理部２３６が特定した境界ボックスとを用いて、マーカ像の代表座標を導出する。実施例において代表座標導出部２３８は、いくつかの基準に照らし合わせて、第１抽出処理部２３４および第２抽出処理部２３６が特定した境界ボックスに、マーカ像が含まれているか調べる。まず代表座標導出部２３８は境界ボックス情報を取得して（Ｓ６０）、境界ボックスの大きさが所定の範囲内にあるか調べる（Ｓ６２）。境界ボックスが大きすぎる場合（Ｓ６２のＮ）、当該境界ボックスに含まれる第１連結成分または第２連結成分は、マーカ３０を撮影した像ではない。そのため代表座標導出部２３８は、大きすぎる当該境界ボックスを破棄する。

境界ボックスの大きさが所定の範囲内にある場合（Ｓ６２のＹ）、第２抽出処理部２３６は、境界ボックス内に含まれる高輝度画素の連結成分の形状が長尺形状であるか調べる（Ｓ６４）。マーカ３０は断面円形の出射面を有するため、マーカ像は丸に近い形状を有し、長尺形状になることはない。高輝度画素の連結成分の形状が長尺形状である場合（Ｓ６４のＹ）、当該境界ボックスに含まれる高輝度点灯体はマーカ３０でないため、代表座標導出部２３８は、長尺形状の当該境界ボックスを破棄する。

高輝度画素の連結部分の形状が長尺形状でない場合（Ｓ６４のＮ）、代表座標導出部２３８は、特定した境界ボックスとその周囲とのコントラストを確認する（Ｓ６６）。このコントラストの確認処理は、たとえば図１９のＳ４４に示した処理と同様の処理であってよい。境界ボックス内の平均輝度と、境界ボックスの外部の所定領域内の平均輝度との比が所定値未満である場合（Ｓ６６のＮ）、代表座標導出部２３８は、当該境界ボックスを破棄する。

輝度比が所定値以上である場合（Ｓ６６のＹ）、代表座標導出部２３８は、当該境界ボック内にマーカ像が含まれていることを認識し、境界ボックス内の第３輝度以上の画素にもとづいて、マーカ像の代表座標を導出する（Ｓ６８）。この代表座標は、重心座標であってよい。第３輝度は、第１輝度よりも低く、たとえば輝度値６４であってよい。代表座標導出部２３８は、Ｘ軸方向とＹ軸方向において輝度平均位置を算出し、代表座標（ｕ，ｖ）を導出する。このとき代表座標導出部２３８は、第３輝度以上の各画素の画素値を加味して輝度重心位置を求めて、代表座標（ｕ，ｖ）を導出することが好ましい。

上記した実施例では、図１０のＳ２８に関連して、第１抽出処理部２３４が抽出できる第１連結成分の個数に上限が設定されていることを説明した。なお第１抽出処理部２３４は、抽出した第１連結成分の個数が上限数に達すると、第１連結成分の抽出処理を強制終了するが、第２抽出処理部２３６は、抽出された上限数の第１連結成分に対して上記した分離処理を実施してよい。

図２４は、撮影画像において第１抽出処理部２３４が抽出した境界ボックスの例を示す。この撮影画像には、日よけや目隠しなどの目的で窓の内側に付けられるブラインドが含まれている。ここで撮影されているブラインドは、上下方向に複数の横長羽根（スラット）を並べたベネシャンブラインド（Venetian blind）であり、オフィスなどでよく使われるタイプのブラインドである。

実施例の第１抽出処理部２３４は、画像のラインデータを順次取得して、８近傍の画素の第１連結成分を抽出するハードウェアによって構成されている。図２４に示す矢印は、撮像装置１４のイメージセンサから画像のラインデータを読み出す順番を示しており、第１抽出処理部２３４は、読み出されたラインデータにもとづいて、第１連結成分の抽出処理を実施する。図２４に示す例では、第１抽出処理部２３４が撮影画像の上から下に向けて、順番に第１連結成分の抽出処理を実施した結果、全ての画像データの処理を終了する前に、抽出した第１連結成分の個数が上限数（２５６個）に達して、第１連結成分の抽出処理が強制終了している。図２４の撮影画像に示されるように、入力デバイス１６のマーカ３０を撮影したマーカ像は画像左下に存在しているが、第１連結成分の抽出数が上限数に達したことで、マーカ像は抽出されていない。

図１７にも示したように、入力デバイス１６は、ＨＭＤ１００に搭載された撮像装置１４のイメージセンサによって撮影されるため、ユーザが普通にゲームプレイしている状況下では、入力デバイス１６は画角内の下側に撮影される。そこでＨＭＤ１００において制御部１２０は、撮像装置１４のイメージセンサから上下反転して画像データを読み出し、読み出した画像データを通信制御部１２８から情報処理装置１０に送信してよい。

情報処理装置１０において、撮影画像取得部２１２は、イメージセンサから上下反転して読み出された画像データを取得する。したがって撮影画像取得部２１２は、撮影画像のラインデータを、画像の最下部から順番に取得して、画像信号処理部２２２を介して推定処理部２３０に供給する。これにより第１抽出処理部２３４は、イメージセンサから上下反転して読み出された画像データから、所定輝度以上の画素が連続する第１連結成分を抽出でき、抽出した第１連結成分の個数が上限数に到達する前に、撮影画像の下側に存在するマーカ像に対応する第１連結成分を抽出する可能性を高めることができる。

以上、本発明を実施例をもとに説明した。上記実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。実施例では推定処理を情報処理装置１０が実施したが、情報処理装置１０の機能がＨＭＤ１００に設けられて、ＨＭＤ１００が推定処理を実施してもよい。つまりＨＭＤ１００が、情報処理装置１０であってもよい。

実施例では、操作部材２２を備えた入力デバイス１６における複数マーカ３０の配置について説明したが、トラッキングの対象となるデバイスは、必ずしも操作部材２２を備えていなくてよい。実施例では撮像装置１４がＨＭＤ１００に取り付けられているが、撮像装置１４は、マーカ像を撮影できればよく、ＨＭＤ１００以外の別の位置に取り付けられてもよい。

１・・・情報処理システム、１０・・・情報処理装置、１４・・・撮像装置、１６ａ，１６ｂ・・・入力デバイス、２０・・・ケース体、２１・・・把持部、２２・・・操作部材、２３・・・湾曲部、３０・・・マーカ、５０・・・制御部、５２・・・姿勢センサ、５４・・・通信制御部、５８・・・光源、１００・・・ＨＭＤ、１０２・・・出力機構部、１０４・・・装着機構部、１０６・・・装着バンド、１０８・・・筐体、１２０・・・制御部、１２２・・・記憶部、１２４・・・姿勢センサ、１２６・・・マイク、１２８・・・通信制御部、１３０・・・表示パネル、１３２・・・音声出力部、２００・・・処理部、２０２・・・通信部、２１０・・・取得部、２１２・・・撮影画像取得部、２１４・・・センサデータ取得部、２１６・・・操作情報取得部、２２０・・・ゲーム実行部、２２２・・・画像信号処理部、２３０・・・推定処理部、２３２・・・マーカ像座標特定部、２３４・・・第１抽出処理部、２３６・・・第２抽出処理部、２３８・・・代表座標導出部、２４０・・・マーカ像座標抽出部、２４２・・・位置姿勢導出部、２５０・・・マーカ情報保持部。

Claims

複数のマーカを備えたデバイスを撮影した画像を取得する撮影画像取得部と、
撮影画像におけるマーカ像にもとづいて、前記デバイスの位置情報および姿勢情報を推定する推定処理部と、を備え、
前記推定処理部は、
撮影画像からマーカ像の代表座標を特定するマーカ像座標特定部と、
マーカ像の代表座標を用いて、前記デバイスの位置情報および姿勢情報を導出する位置姿勢導出部と、を有し、
前記撮影画像取得部は、イメージセンサから上下反転して読み出された画像データを取得し、
前記マーカ像座標特定部は、
イメージセンサから上下反転して読み出された画像データから、画素が連続する連結成分を抽出する抽出処理部と、
前記抽出処理部が抽出した連結成分の画素にもとづいて、マーカ像の代表座標を導出する代表座標導出部と、を有する、
ことを特徴とする情報処理装置。
前記抽出処理部は、所定の上限数の範囲内で、複数の前記連結成分を抽出する、
ことを特徴とする請求項１に記載の情報処理装置。
前記抽出処理部は、抽出した前記連結成分の数が所定の上限数に達すると、前記連結成分の抽出処理を終了する、
ことを特徴とする請求項２に記載の情報処理装置。
前記抽出処理部はハードウェアで構成されて、前記イメージセンサから上下反転して読み出された画像のラインデータから、前記連結成分を抽出する、
ことを特徴とする請求項１から３のいずれかに記載の情報処理装置。
前記イメージセンサは、ヘッドマウントディスプレイに搭載されている、
ことを特徴とする請求項１から４のいずれかに記載の情報処理装置。
複数のマーカを備えたデバイスを撮影したイメージセンサから、上下反転して読み出された画像データを取得するステップと、
前記画像データから、画素が連続する連結成分を抽出するステップと、
抽出した連結成分の画素にもとづいて、マーカ像の代表座標を導出するステップと、
を有することを特徴とする代表座標導出方法。
コンピュータに、
複数のマーカを備えたデバイスを撮影したイメージセンサから、上下反転して読み出された画像データを取得する機能と、
前記画像データから、画素が連続する連結成分を抽出する機能と、
抽出した連結成分の画素にもとづいて、マーカ像の代表座標を導出する機能と、
を実現させるためのプログラム。