JP7444292B2 - 検出システム、検出方法、及びプログラム - Google Patents

検出システム、検出方法、及びプログラム Download PDF

Info

Publication number
JP7444292B2
JP7444292B2 JP2022575550A JP2022575550A JP7444292B2 JP 7444292 B2 JP7444292 B2 JP 7444292B2 JP 2022575550 A JP2022575550 A JP 2022575550A JP 2022575550 A JP2022575550 A JP 2022575550A JP 7444292 B2 JP7444292 B2 JP 7444292B2
Authority
JP
Japan
Prior art keywords
detection
unit
confidence
user terminal
integrating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022575550A
Other languages
English (en)
Other versions
JPWO2022153910A1 (ja
Inventor
雅也 藤若
英之 下西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2022153910A1 publication Critical patent/JPWO2022153910A1/ja
Application granted granted Critical
Publication of JP7444292B2 publication Critical patent/JP7444292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/10Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
    • G01C21/12Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
    • G01C21/16Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Description

本発明は、現実空間に存在するオブジェクトを検出する技術に関する。
現実空間に存在するオブジェクトを検出する技術が知られている。このような技術は、例えば、AR(Augmented Reality)において用いられる。ARは、現実空間に存在するオブジェクトを検出し、検出したオブジェクトが存在する場所に仮想オブジェクトを配置する。また、ARは、ユーザ端末のカメラが現実空間を撮影した撮影画像に仮想オブジェクトを重畳して、当該ユーザ端末のディスプレイに表示する。
現実空間に存在するオブジェクトを検出する技術としては、撮影画像において、事前に登録したオブジェクトの特徴点にマッチングする領域を検出する映像認識技術がよく知られている。
また、現実空間に存在するオブジェクトを検出する他の技術が、非特許文献1に記載されている。非特許文献1に記載された技術は、センサを用いて特定した端末の位置及び向きと、事前に登録した対象空間におけるオブジェクトの位置情報とに基づいて、対象空間に存在するオブジェクトを検出する。
Chen, Kaifei, et al. "Marvel: Enabling mobile augmented reality with low energy and low latency." Proceedings of the 16th ACM Conference on Embedded Networked Sensor Systems. 2018.
上述した映像認識技術及び非特許文献1に記載された技術には、オブジェクトの検出精度に改善の余地がある。その理由について説明する。上述した映像認識技術をARで用いる場合、カメラが現実空間を撮影してから、仮想オブジェクトを重畳した撮影画像が表示されるまでの処理時間は短いことが要求される。しかしながら、高速にオブジェクトを検出するには、高精度な映像認識技術を利用できない可能性があるため、オブジェクトを精度よく認識できない場合がある。また、非特許文献1に記載された技術は、事前に登録したオブジェクトの位置情報を用いるため、移動するオブジェクトを精度よく認識することが難しい。
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、現実空間に存在するオブジェクトの検出精度を向上させる技術を提供することである。
本発明の一態様に係る検出システムは、第1センサの検出値を参照してオブジェクトを検出する第1検出手段と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備える。
本発明の一態様に係る検出方法は、第1センサの検出値を参照して現実空間に存在するオブジェクトを検出すること、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出すること、及び、前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出すること、を含む。
本発明の一態様に係るプログラムは、コンピュータを検出システムとして機能させるプログラムであって、前記コンピュータを、第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出手段と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させる。
本発明の一態様によれば、現実空間に存在するオブジェクトの検出精度を向上させる技術を提供することができる。
本発明の例示的実施形態1に係る検出システムの構成を示すブロック図である。 本発明の例示的実施形態1に係る検出方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る検出システムの構成を示すブロック図である。 本発明の例示的実施形態2に係るユーザ端末の外観の一例を示す模式図である。 本発明の例示的実施形態2に係るオブジェクト情報のデータ構造の一例を示す図である。 本発明の例示的実施形態2が含む各機能ブロック間の入出力を模式的に示す図である。 本発明の例示的実施形態2に係るユーザ端末が実行する検出方法の流れを示すフロー図である。 本発明の例示的実施形態2に係るサーバが実行する検出方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る具体例1における現実空間を模式的に示す図である。 本発明の例示的実施形態2に係る具体例1における新たなオブジェクト情報の一例を示す図である。 本発明の例示的実施形態2に係る具体例2における現実空間を模式的に示す図である。 本発明の例示的実施形態2に係る具体例2における第1領域を説明する模式図である。 本発明の例示的実施形態2に係る具体例2における第2領域を説明する模式図である。 本発明の例示的実施形態2に係る具体例2における座標変換処理を説明する模式図である。 本発明の例示的実施形態2に係る具体例2における座標変換処理を説明する他の模式図である。 本発明の例示的実施形態2に係る具体例2におけるIoUを説明するための模式図である。 本発明の例示的実施形態2に係る具体例3における更新されたオブジェクト情報の一例を説明する図である。 本発明の例示的実施形態3に係る検出システムの構成を示すブロック図である。 本発明の例示的実施形態4に係る検出システムの構成を示すブロック図である。 本発明の例示的実施形態5に係る検出システムの構成を示すブロック図である。 本発明の各例示的実施形態における検出システムのハードウェア構成の一例を示すブロック図である。
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
<検出システムの構成>
本例示的実施形態に係る検出システム1の構成について、図1を参照して説明する。図1は、検出システム1の構成を示すブロック図である。
図1に示すように、検出システム1は、第1検出部11と、第2検出部12と、統合部14とを含む。ここで、第1検出部11は、請求の範囲に記載した第1検出手段を実現する構成の一例である。また、第2検出部12は、請求の範囲に記載した第2検出手段を実現する構成の一例である。また、統合部14は、請求の範囲に記載した統合手段を実現する構成の一例である。
第1検出部11は、第1センサの検出値を参照してオブジェクトを検出する。第1センサは、現実空間に存在するオブジェクトを検出するためのセンサである。第1センサの一例としては、例えば、カメラ、又はレーザースキャナ等があるが、これらに限られない。第1検出部11は、第1センサの検出値を取得可能に第1センサに接続される。第1検出部11及び第1センサ間は、有線接続されてもよいし、無線接続されてもよい。
なお、「オブジェクトを検出する」とは、少なくともオブジェクトの位置を検出することを含む。検出する位置は、オブジェクトが存在する三次元空間における三次元的な位置であってもよいし、当該三次元空間が投影された二次元平面における二次元的な位置であってもよい。なお、「オブジェクトの位置」とは、「オブジェクトが含まれる三次元的または二次元的な領域」によって表されてもよい。そのほか、「オブジェクトを検出する」とは、オブジェクトの識別情報、種類、色、形状等といったオブジェクトの属性又は特徴を検出することをさらに含んでいてもよい。
第2検出部12は、オブジェクトの過去の検出結果を参照してオブジェクトを検出する。オブジェクトの過去の検出結果とは、検出システム1が過去にオブジェクトを検出した結果であり、例えば、後述する統合部14による検出結果である。過去の検出結果を示す情報は、記憶装置に蓄積されている。第2検出部12は、過去の検出結果を示す情報を取得可能に記憶装置に接続される。
統合部14は、第1検出部11による検出結果及び第2検出部12による検出結果を統合してオブジェクトを検出する。例えば、第1検出部11及び第2検出部12がそれぞれ検出結果の確度を出力する場合、統合部14は、これらの確度に基づいて第1検出部11による検出結果、及び第2検出部12による検出結果を統合する。
ここで、2つの検出結果を統合する、とは、各検出結果を参照して検出結果を決定することである。例えば、2つの検出結果を統合する、とは、各検出結果に基づいて何れの検出結果を採用するかを決定することであってもよい。また、2つの検出結果を統合するとは、一方の検出結果を採用するか否かを、他方の検出結果に基づき決定することであってもよい。また、2つの検出結果を統合するとは、各検出結果の確度を参照して、新たな確度を算出することを含んでいてもよい。
<検出方法の流れ>
以上のように構成された検出システム1が実行する検出方法S1の流れについて、図2を参照して説明する。図2は、検出方法S1の流れを示すフロー図である。
(ステップS11)
ステップS11において、第1検出部11は、第1センサの検出値を参照してオブジェクトを検出する。
(ステップS12)
ステップS12において、第2検出部12は、オブジェクトの過去の検出結果を参照してオブジェクトを検出する。
(ステップS13)
ステップS13において、統合部14は、第1検出部11による検出結果及び第2検出部12による検出結果を統合してオブジェクトを検出する。
<本例示的実施形態の効果>
本例示的実施形態は、第1センサの検出値を参照することによるオブジェクトの検出結果と、過去の検出結果を参照することによるオブジェクトの検出結果とを統合してオブジェクトを検出する。これにより、第1検出部11又は第2検出部12のみを用いる場合と比べて、より精度よくオブジェクトを検出することができる。
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
<検出システムの構成>
本例示的実施形態に係る検出システム1Aの構成について、図3を参照して説明する。図3は、検出システム1Aの構成を示すブロック図である。
図3に示すように、検出システム1Aは、ユーザ端末10Aと、サーバ20Aとを含む。ユーザ端末10A及びサーバ20Aは、ネットワークN1を介して接続されている。ネットワークN1は、例えば、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせである。ただし、ネットワークN1の構成はこれらに限定されない。また、図には、ユーザ端末10A及びサーバ20Aを1つずつ示しているが、検出システム1Aが含む各装置の数を限定するものではない。
(ユーザ端末の構成)
ユーザ端末10Aの構成について、図3及び図4を参照して説明する。図4は、ユーザ端末10Aの外観の一例を示す模式図である。図3及び図4に示すように、ユーザ端末10Aは、制御部110Aと、カメラ130Aと、IMU(Inertial Measurement Unit)40Aと、ディスプレイ150Aと、通信部160Aとを含む。制御部110Aは、映像認識部11Aと、自己位置推定部12Aと、ローカル位置推定部13Aと、統合部14Aとを含む。ユーザ端末10Aは、例えば、図4に外観を示すようなタブレット端末またはスマートフォンであるが、これらに限られない。
ここで、カメラ130Aは、請求の範囲に記載した第1センサの一例である。IMU140Aは、請求の範囲に記載した第2センサの一例である。映像認識部11Aは、請求の範囲に記載した第1検出手段を実現する構成の一例である。自己位置推定部12A及びローカル位置推定部13Aは、請求の範囲に記載した第2検出手段を実現する構成の一例である。統合部14Aは、請求の範囲に記載した統合手段を実現する構成の一例である。
(カメラ)
カメラ130Aは、周囲を撮影して撮影画像を生成する。カメラ130Aは、例えば、集光レンズからの入射光を撮像素子により電気信号に変換し、電気信号をA/D変換して画像処理することによって撮影画像を生成する。撮像素子は、例えば、CCD(Charge Coupled Devices)、又はCMOS(Complementary Metal Oxide Semiconductor)等であるが、これらに限られない。カメラ130Aは、撮影画像を制御部110Aに出力する。カメラ130Aは、所定のフレームレートで撮影画像を生成する。以降、撮影画像を、映像フレームとも記載する。
(IMU)
IMU140Aは、互いに直交する3軸方向の角速度及び加速度を検出する装置である。IMU140Aは、ジャイロセンサ及び加速度センサを含み、ジャイロセンサにより角速度を検出し、加速度センサにより加速度を検出する。IMU140Aは、検出値を制御部110Aに出力する。
(ディスプレイ)
ディスプレイ150Aは、制御部110Aから出力される画像を表示する。ディスプレイ150Aは、例えば、液晶ディスプレイ、プラズマディスプレイ、無機EL(Electro luminescence)ディスプレイ、又は有機ELディスプレイであるが、これらに限られない。また、ディスプレイ150Aは、タッチパネルと一体に形成されていてもよい。
(通信部)
通信部160Aは、制御部110Aの制御の基に、サーバ20Aと通信を行う。以降、制御部110Aが通信部160Aを制御してデータを送受信することを、単に、制御部110Aがデータを送受信する、とも記載する。
制御部110Aの詳細な構成については後述する。
(サーバ20Aの構成)
図3に示すように、サーバ20Aは、制御部210Aと、記憶部220Aと、通信部260Aとを含む。制御部210Aは、グローバル位置推定部21Aを含む。記憶部220Aは、オブジェクト情報22Aを記憶する。オブジェクト情報22Aは、オブジェクトの過去の検出結果を示す情報であり、過去に検出した各オブジェクトについてデータベースに記憶される。以降、各オブジェクトのオブジェクト情報22Aを格納したデータベースを、オブジェクトマップとも記載する。オブジェクトマップの詳細については後述する。グローバル位置推定部21Aは、請求の範囲に記載した蓄積手段を実現する構成の一例である。通信部260Aは、制御部210Aの制御の基に、ユーザ端末10Aと通信を行う。以降、制御部210Aが通信部260Aを制御してデータを送受信することを、単に、制御部210Aがデータを送受信する、とも記載する。
(オブジェクトマップ)
オブジェクトマップは、1以上の各オブジェクトについてオブジェクト情報22Aを格納したデータベースである。オブジェクト情報22Aは、当該オブジェクトについての過去の検出結果を示す情報である。オブジェクト情報22Aは、当該オブジェクトが検出されるとオブジェクトマップに蓄積される。以降、オブジェクトマップに格納されたオブジェクト情報22Aを、「蓄積されたオブジェクト情報22A」とも記載する。
オブジェクト情報22Aのデータ構造について、図5を参照して説明する。図5は、オブジェクト情報22Aのデータ構造を示す図である。図5に示すように、オブジェクト情報22Aは、オブジェクトIDと、座標(x,y,z)と、サイズと、位置コンフィデンスD6と、認識コンフィデンスC6とを含む。
オブジェクトIDは、オブジェクトを一意に識別する識別情報である。座標(x,y,z)は、オブジェクトのグローバル位置を示すグローバル座標であり、例えば、オブジェクトの中心座標である。サイズは、オブジェクトの大きさを示す情報である。ここでは、簡略化のために、オブジェクトの形状が立方体で定義されるものとして説明する。この場合、サイズは、立方体の一辺の長さで表される。本例示的実施形態では、オブジェクトのサイズは、オブジェクトIDに応じて事前に与えられている。なお、オブジェクトのサイズは、立方体の一辺の長さに限定されない。また、オブジェクトのサイズは、事前に与えられることに限定されない。例えば、グローバル位置推定部21Aが、オブジェクトのサイズを検出してオブジェクト情報22Aに含めてもよい。認識コンフィデンスC6は、当該オブジェクト情報22Aが示す過去の検出結果の認識に関する確度である。位置コンフィデンスD6は、当該オブジェクト情報22Aが示す過去の検出結果の位置に関する確度である。
(制御部の詳細な構成)
次に、ユーザ端末10の制御部110A、及びサーバ20の制御部210Aが含む各部の詳細な構成について、図6を参照して説明する。図6は、検出システム1Aが含む各機能ブロック間の入出力を模式的に示す図である。
(認識コンフィデンス及び位置コンフィデンス)
図6に示すように、各機能ブロックの入出力には、認識コンフィデンス及び位置コンフィデンスが含まれる。認識コンフィデンスは、オブジェクトの認識に関する確度である。位置コンフィデンスは、検出したオブジェクトの位置に関する確度、又は、検出したユーザ端末10Aの位置及び向きに関する確度である。これらの確度は、0以上1以下の値をとる。
(映像認識部)
映像認識部11Aは、カメラ130Aが撮影した映像フレームを参照して、オブジェクトを検出する。具体的には、映像認識部11Aは、カメラ130Aから取得した映像フレームにおいてオブジェクトの領域を特定することにより、オブジェクトを検出する。映像認識部11Aが特定するオブジェクトの領域を、以降、第1領域と記載する。第1領域は、映像フレームにおけるオブジェクトの二次元的な位置を表す。映像認識部11Aは、映像フレームを入力として、第1領域を示す情報と、認識コンフィデンスC1とを出力する。第1領域は、例えば、バウンディングボックス、又はセグメント情報によって表されるが、これらに限られない。なお、セグメント情報とは、映像フレームを分割した複数のセグメントのうち第1領域を構成する1以上のセグメントを示す情報である。
認識コンフィデンスC1は、映像認識部11Aによる検出結果の認識に関する確度である。例えば、認識コンフィデンスC1としては、映像認識部11Aが用いる映像認識技術が出力する確度が用いられる。
具体的には、映像認識部11Aは、映像フレームから第1領域を検出するよう学習された検出モデルを用いて、オブジェクトの検出を行う。一例として、検出モデルは、映像フレームを入力として、検出したオブジェクトのオブジェクトIDと、第1領域を示す情報と、認識コンフィデンスC1とを出力する。このような検出モデルは、認識対象となるオブジェクトを撮影した映像フレームと、正解となる第1領域とを関連付けたデータを教師データとして用いることにより生成可能である。例えば、教師データは、ユーザがカメラ130Aを用いてオブジェクトを撮影し、撮影した映像フレームにおいてオブジェクトを含む第1領域を正解として入力することにより生成される。検出モデルの生成に用いる機械学習アルゴリズムとしては、YOLO(You Only Look Once)等のディープラーニングが挙げられるが、これに限られない。
また、映像認識部11Aは、検出モデルを用いる代わりに、特徴点のマッチング処理を用いて第1領域を検出してもよい。特徴点のマッチング処理とは、事前に登録しておいたオブジェクトの画像の特徴点と、映像フレームから抽出した特徴点とのマッチングを行う処理である。特徴点を抽出する技術としては、例えば、SIFT(Scale-Invariant Feature Transform)、SURF(Speed-Up Robust Features)等が挙げられるが、これらに限られない。
なお、映像認識部11Aは、検出モデルを用いる手法、又は特徴点のマッチング処理による手法に限らず、映像フレームからオブジェクトを検出するその他の公知の技術を用いて第1領域を検出可能である。ただし、本例示的実施形態をARの用途で用いる場合、映像フレームを取得してから認識したオブジェクトに基づく仮想情報を重畳表示するまでの処理遅延を小さくすることが求められる。したがって、この場合、映像認識部11Aが採用する映像認識技術は、軽量に動作する技術であることが望ましい。
また、本例示的実施形態では、検出モデルは、事前に学習済みであるものとする。ただし、検出モデルの生成は、逐次的に行われてもよい。例えば、映像認識部11Aは、検出システム1Aがオブジェクトを検出できなかったと判断した際の映像フレームを用いて、検出モデルを追加学習させてもよい。例えば、映像認識部11Aは、当該映像フレームにおいて正解となる第1領域を、ユーザ入力等により特定する。また、映像認識部11Aは、当該映像フレームと、正解となる第1領域とを関連付けた教師データを用いて、検出モデルを追加学習させる。
また、本例示的実施形態では、映像認識部11Aが検出モデルを含む(すなわち、ユーザ端末10Aが検出モデルを格納する)ものとして説明しているが、検出モデルは、サーバ20Aに格納されていてもよい。また、検出モデルは、ユーザ端末10Aによって生成されるものに限らず、サーバ20又は検出システム1Aの外部の装置によって生成されたものであってもよい。
(自己位置推定部)
自己位置推定部12Aは、IMU140Aから取得したセンサデータ及びカメラ130Aから取得した映像フレームを参照して、現実空間におけるユーザ端末10Aの位置及び向きを推定する。具体的には、自己位置推定部12Aは、ユーザ端末10Aの位置及び向きを示す情報と、推定結果の確度を示す位置コンフィデンスD2とを出力する。センサデータ及び映像フレームを参照して位置及び向きを推定する技術には、公知の推定技術を採用可能である。なお、採用した推定技術が、位置及び向きの確率分布又は共分散を出力する場合、自己位置推定部12Aは、確率分布又は共分散から位置コンフィデンスD2を算出してもよい。
(ローカル位置推定部)
ローカル位置推定部13Aは、サーバ20Aに蓄積されたオブジェクト情報22Aと、自己位置推定部12Aが推定したユーザ端末10Aの位置及び向きとを参照して、ユーザ端末10Aから見たオブジェクトの相対的な位置を推定する。以降、オブジェクトの相対的な位置を、ローカル位置とも記載する。また、ローカル位置推定部13Aは、オブジェクトのローカル位置に基づいて、オブジェクトを含む第2領域を算出する。また、ローカル位置推定部13Aは、第2領域を示す情報と、位置コンフィデンスD3と、認識コンフィデンスC6とを出力する。位置コンフィデンスD3は、第2領域の位置に関する確度である。認識コンフィデンスC6は、第2領域を算出するために参照したオブジェクト情報22Aに含まれる。
ここで、オブジェクトのローカル位置とは、視野画像におけるオブジェクトの位置である。また、第2領域は、視野画像における二次元的な領域として特定される。例えば、第2領域は、視野画像におけるバウンディングボックス又はセグメント情報によって表される。なお、視野画像とは、ユーザ端末10Aの位置から見た現実空間が投影された二次元画像である。換言すると、視野画像は、ユーザ端末10Aに搭載されたカメラ130Aによって撮影され、ディスプレイ150Aに画面(スクリーン)として表示され得る。そこで、以降、視野画像に設定される二次元座標系を、スクリーン座標系とも記載する。
また、ローカル位置推定部13Aは、位置コンフィデンスD3を、自己位置推定部12Aが出力した位置コンフィデンスD2と、位置コンフィデンスD6とに基づいて算出する。位置コンフィデンスD6は、第2領域を算出するために参照したオブジェクト情報22Aに含まれる。例えば、位置コンフィデンスD3は、次式(1)により計算される。
D3=D2×D6…(1)
このように、位置コンフィデンスD2及び位置コンフィデンスD6を乗算することにより、ユーザ端末10Aの位置及び向きの推定に関する不確実さと、オブジェクトの過去の位置に関する不確実さとが加算的に加味される。換言すると、ローカル位置推定部13Aは、位置コンフィデンスD2、及び位置コンフィデンスD6の少なくとも一方が大きいほど、より大きい位置コンフィデンスD3を算出する。なお、位置コンフィデンスD3は、式(1)に限らず、不確実さが加算的又は増加する方向に加味される計算方式であれば、他の方式によって算出されてもよい。
(統合部)
統合部14Aは、映像認識部11Aによる検出結果と、ローカル位置推定部13Aによる検出結果とを統合してオブジェクトを検出する。具体的には、統合部14Aは、映像認識部11Aによる検出結果と、ローカル位置推定部13Aによる検出結果とを、認識コンフィデンスC1、位置コンフィデンスD3、及び認識コンフィデンスC6を参照して統合する。なお、統合部14Aは、オブジェクトIDが異なるオブジェクト毎に、統合した検出結果を管理する。統合処理の詳細については後述する。
また、統合部14Aは、統合した検出結果を示す情報を、ディスプレイ150Aに表示してもよい。例えば、統合部14Aは、映像フレームに、統合した検出結果に基づく仮想情報を重畳し、重畳した画像をディスプレイ150Aに表示する。
(統合処理の詳細)
統合部14Aは、映像認識部11A及びローカル位置推定部13Aがそれぞれ出力した認識コンフィデンスC1、C6を参照して認識コンフィデンスC4を算出する。また、統合部14Aは、算出した認識コンフィデンスC4が閾値以上の場合に、映像認識部11Aによる検出結果を採用して統合部14Aによる検出結果とする。また、統合部14Aは、算出した認識コンフィデンスC4が閾値未満の場合には、オブジェクトを検出できなかったとする検出結果を出力する。
(認識コンフィデンスC4の算出処理)
認識コンフィデンスC4の算出処理の詳細について説明する。まず、統合部14Aは、認識コンフィデンスC4を算出するために、ローカル位置推定部13Aが出力した認識コンフィデンスC6を参照するか否かを決定する。具体的には、統合部14Aは、(i)ローカル位置推定部13Aが算出した位置コンフィデンスD3が閾値未満であるか否か、及び、(ii)映像認識部11Aが検出したオブジェクトの位置と、ローカル位置推定部13Aが検出したオブジェクトの位置との関係が条件を満たすか否かに基づいて、認識コンフィデンスC6を参照するか否かを決定する。
ここで、当該条件としては、例えば、第1領域及び第2領域の重なり度合であるIoUが閾値以上である、との条件が適用される。例えば、統合部14Aは、IoUが閾値以上の場合に、認識コンフィデンスC6を参照することを決定する。ただし、当該条件は、上述したものに限られない。例えば、当該条件として、第1領域および第2領域の各中心点の距離が閾値以下である、との条件が適用されてもよい。
また、統合部14Aは、認識コンフィデンスC6を参照することを決定した場合、認識コンフィデンスC4を、次式(2)を満たすよう算出する。
C4≧max(C1,C6)…(2)
つまり、統合部14Aは、認識コンフィデンスC1及び認識コンフィデンスC6のうち大きい方以上の値を、認識コンフィデンスC4として算出する。換言すると、統合部14Aは、認識コンフィデンスC1及び認識コンフィデンスC6の少なくとも一方が大きいほど、より大きい認識コンフィデンスC4を算出する。これは、2つの異なるオブジェクト検出機構(すなわち、映像認識部11A及びローカル位置推定部13A)が類似する位置を出力した場合に認識コンフィデンスを増加させ、その認識の確度を高めることが望ましいからである。なお、認識コンフィデンスC4は、式(2)に限らず、その他の計算方式によって算出されてもよい。
また、統合部14Aは、映像認識部11Aが検出したオブジェクトの位置と、ローカル位置推定部13Aが検出したオブジェクトの位置との関係が条件を満たさない場合、過去に検出したオブジェクトが移動したものとみなす。この場合、統合部14Aは、過去の検出結果の認識に関する確度である認識コンフィデンスC6を参照しないことを決定する。これにより、移動するオブジェクトについては、過去の検出結果を参照せずに精度よく検出することができる。
(マルチモーダルな検出機構)
上述したように、換言すると、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1が閾値より低い場合、当該認識コンフィデンスC1を無視する。また、統合部14Aは、ローカル位置推定部13Aが出力した位置コンフィデンスD3又は認識コンフィデンスC6が閾値より低い場合、当該位置コンフィデンスD3又は認識コンフィデンスC6を無視する。つまり、統合部14Aは、映像認識部11Aによる検出結果と、ローカル位置推定部13Aの検出結果とを統合してマルチモーダルな検出機構として動作する。また、統合部14Aは、それぞれの検出結果の確度に応じて、シングルモーダルな検出機構としても動作する。
(グローバル位置推定部)
グローバル位置推定部21Aは、統合部14Aによる検出結果に基づいて、オブジェクトの過去の検出結果を示すオブジェクト情報22Aを、オブジェクトマップに蓄積する。ここで、オブジェクト情報22Aを蓄積する、とは、オブジェクトマップにオブジェクト情報22Aを新たに登録すること、既存のオブジェクト情報22Aを更新すること、及び、既存のオブジェクト情報22Aを削除することを含む。
具体的には、グローバル位置推定部21Aは、統合部14Aによる検出結果を参照して、オブジェクトの現実空間における位置を推定し、推定した位置をオブジェクト情報22Aに含めてオブジェクトマップに蓄積する。現実空間の位置は、例えば、グローバル座標系で表される。以降、現実空間における位置を、グローバル位置とも記載する。例えば、グローバル位置推定部21Aは、統合部14Aによる検出結果と、自己位置推定部12Aが推定したユーザ端末10Aの位置及び向きとに基づいて、グローバル位置を推定する。また、グローバル位置推定部21Aは、グローバル位置を推定するために、さらにオブジェクト情報22Aに含まれるオブジェクトのサイズを参照してもよい。また、グローバル位置推定部21Aは、グローバル位置と共に、グローバル位置の確度である位置コンフィデンスD5を算出する。例えば、グローバル位置推定部21Aは、各種のセンサデータを用いてグローバル位置を推定する公知の推定技術を採用可能である。例えば、推定技術の具体例としては、SLAM(Simultaneous Localization and Mapping)が挙げられる。SLAMは、端末の自己位置の推定及び周辺オブジェクトの地図構築を同時に行う技術である。グローバル位置推定部21Aは、SLAMを用いることにより、統合部14Aによる検出結果から、オブジェクトのグローバル位置及び位置コンフィデンスD5を算出可能である。
また、グローバル位置推定部21Aは、算出した位置コンフィデンスD5と、統合部14Aから受信した認識コンフィデンスC4とを参照して、検出したオブジェクトに関するオブジェクト情報22Aをオブジェクトマップに蓄積するか否かを決定する。
具体的には、グローバル位置推定部21Aは、検出したオブジェクトと同一IDのオブジェクト情報22Aがオブジェクトマップに蓄積されていない場合、認識コンフィデンスC4に基づいて、当該オブジェクト情報22Aを登録するか否かを決定する。グローバル位置推定部21Aは、認識コンフィデンスC4が閾値未満であれば、当該オブジェクト情報22Aを登録しない。また、グローバル位置推定部21Aは、認識コンフィデンスC4が閾値以上であれば、当該オブジェクト情報22Aを登録する。登録されるオブジェクト情報22Aは、オブジェクトIDと、グローバル位置と、認識コンフィデンスC6と、位置コンフィデンスD6とを含む。登録するオブジェクト情報22Aに含める認識コンフィデンスC6としては、統合部14Aから受信した認識コンフィデンスC4の値が適用される。また、登録するオブジェクト情報22Aに含める位置コンフィデンスD6としては、グローバル位置に関して算出した位置コンフィデンスD5の値が適用される。
また、グローバル位置推定部21Aは、検出したオブジェクトと同一IDのオブジェクト情報22Aがオブジェクトマップに蓄積されている場合、コンフィデンススコアに基づいて、当該オブジェクト情報22Aを更新するか否かを決定する。コンフィデンススコアとは、認識コンフィデンスと位置コンフィデンスとに基づき算出される指標であり、認識コンフィデンスC4と位置コンフィデンスD5との少なくとも一方の増加に対して、増加するスコアである。例えば、認識コンフィデンス及び位置コンフィデンスの和又は積である。ただし、コンフィデンススコアの計算方式は、上述した計算方式に限定されない。
具体的には、グローバル位置推定部21Aは、認識コンフィデンスC4と位置コンフィデンスD5とに基づいてコンフィデンススコアScore1を算出する。また、グローバル位置推定部21Aは、オブジェクト情報22Aに含まれる認識コンフィデンスC6及び位置コンフィデンスD6に基づいてコンフィデンススコアScore2を算出する。コンフィデンススコアScore2は、請求の範囲に記載した「過去のコンフィデンススコア」の一例である。グローバル位置推定部21Aは、コンフィデンススコアScore1が過去のコンフィデンススコアScore2より大きい場合に、オブジェクト情報22Aを更新することを決定する。
<検出方法の流れ>
以上のように構成された検出システム1Aは、検出方法S1Aを実行する。検出方法S1Aは、ユーザ端末10Aが実行する検出方法S10Aと、サーバ20Aが実行する検出方法S20Aとを含む。
(ユーザ端末が実行する検出方法の流れ)
まず、ユーザ端末10Aが実行する検出方法S10Aの流れについて、図7を参照して説明する。図7は、検出方法S10Aの流れを示すフロー図である。図7に示すように、検出方法S10Aは、ステップS101~S114を含む。
(ステップS101)
ステップS101において、映像認識部11Aは、カメラ130Aから映像フレームを取得する。
(ステップS102)
ステップS102において、映像認識部11Aは、映像フレームからオブジェクトを検出する。例えば、映像認識部11Aは、取得した映像フレームを検出モデルに入力し、検出モデルから出力されるオブジェクトID、オブジェクトを含む第1領域Area1、及び認識コンフィデンスC1を取得する。
(ステップS103)
ステップS103において、ローカル位置推定部13Aは、ステップS102で検出したオブジェクトに関するオブジェクト情報22Aを、サーバ20Aに要求する。
また、ローカル位置推定部13Aは、受信したオブジェクト情報22Aを参照して、グローバル座標系においてオブジェクトが過去に検出された領域を算出する。当該領域を、以降、「過去の領域」とも記載する。例えば、ローカル位置推定部13Aは、オブジェクトのグローバル位置である中心座標を中心とし、オブジェクトのサイズを一辺とする立方体の領域を、過去の領域として算出する。
なお、オブジェクト情報22Aを受信する当該ステップは、任意の時点で実行可能である。例えば、ローカル位置推定部13Aは、認識対象の各オブジェクトに関するオブジェクト情報22Aを、定期的にサーバ20Aに要求することにより受信してもよい。また、サーバ20Aが、オブジェクト情報22Aを更新したことに応答してユーザ端末10Aにオブジェクト情報22Aを送信してもよい。
(ステップS104)
ステップS104において、ローカル位置推定部13Aは、ステップS103でオブジェクト情報22Aを取得できたか否かを判断する。換言すると、ローカル位置推定部13Aは、オブジェクトマップに、該当するオブジェクト情報22Aが蓄積されているか否かを判断する。
(ステップS104で「はい」:ステップS105)
ステップS104で「はい」と判断した場合、ステップS105において、自己位置推定部12Aは、ステップS101で取得した映像フレーム及びIMU140Aからのセンサデータを参照して、ユーザ端末10Aの位置及び向きを推定する。また、自己位置推定部12Aは、推定結果の確度である位置コンフィデンスD2を算出する。また、自己位置推定部12Aは、オブジェクト情報22Aに含まれる認識コンフィデンスC6を取得する。
(ステップS106)
ステップS106において、ローカル位置推定部13Aは、オブジェクト情報22Aと、ユーザ端末10Aの位置及び向きの情報とを用いて、第2領域Area2を求める。第2領域Area2を示す情報は、スクリーン座標系で表される。
(ステップS107)
ステップS107において、ローカル位置推定部13Aは、オブジェクト情報22Aに含まれる位置コンフィデンスD6と、自己位置推定部12Aが算出した位置コンフィデンスD2とを参照して、位置コンフィデンスD3を算出する。また、ローカル位置推定部13Aは、オブジェクト情報22Aに含まれる認識コンフィデンスC6を出力する。
(ステップ108)
ステップS108において、ローカル位置推定部13Aは、位置コンフィデンスD3が閾値α1以上であるか否かを判断する。閾値α1は、認識コンフィデンスC6を参照するか否かを判断するための閾値である。
(ステップS108で「はい」:ステップS109)
ステップS108で「はい」と判断した場合、ステップS109において、統合部14Aは、第1領域Area1及び第2領域Area2の重なり度合いであるIoUを算出する。
(ステップS110)
ステップS110において、統合部14Aは、IoUが閾値α2以上であるか否かを判断する。閾値α2は、認識コンフィデンスC6を参照するか否かを判断するための閾値である。
(ステップS110で「はい」:ステップS111)
ステップS110で「はい」と判断した場合、ステップS111において、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1と、ローカル位置推定部13Aが出力した認識コンフィデンスC6とを参照して、認識コンフィデンスC4を算出する。例えば、認識コンフィデンスC4は、前述した式(2)により算出される。
(ステップS113)
ステップS113において、統合部14Aは、認識コンフィデンスC4が閾値α3以上であるか否かを判断する。閾値α3は、映像認識部11Aによる検出結果を採用するか否かを判断するための閾値である。
(ステップS113で「はい」:ステップS114)
ステップS113で「はい」と判断した場合、ステップS114において、統合部14Aは、映像認識部11Aによる検出結果であるオブジェクトID及び第1領域Area1を示す情報を、統合した検出結果として出力する。また、統合部14Aは、統合した検出結果の認識に関する確度として、認識コンフィデンスC4を出力する。また、統合部14Aは、自己位置推定部12Aが推定したユーザ端末10Aの位置及び向きを出力する。具体的には、統合部14Aは、検出結果、認識コンフィデンスC4、及びユーザ端末10Aの位置及び向きをサーバ20Aに送信する。
(ステップS104、ステップS108、ステップS110で「いいえ」:ステップS112)
ステップS104、ステップS108、又はステップS110で「いいえ」と判断した場合、ステップS112において、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1を、認識コンフィデンスC4とする。その後、ユーザ端末10Aは、ステップS113~S114を実行する。これにより、映像認識部11Aによる認識の確度(認識コンフィデンスC1、すなわち、この場合は認識コンフィデンスC4)が閾値α3以上であれば、映像認識部11Aによる検出結果(オブジェクトID及び第1領域Area1)が、統合した検出結果として出力される。
(ステップS113で「いいえ」)
ステップS113で「いいえ」と判断した場合、ユーザ端末10Aは、検出方法S10Aを終了する。例えば、この場合、検出システム1Aは、オブジェクトを検出できなかったとの検出結果を出力してもよい。
(サーバが実行する検出方法の流れ)
次に、サーバ20Aが実行する検出方法S20Aの流れについて、図8を参照して説明する。図8は、検出方法S20Aの流れを示すフロー図である。図8に示すように、検出方法S20Aは、ステップS201~S208を含む。
(ステップS201)
ステップS201において、サーバ20Aのグローバル位置推定部21Aは、ユーザ端末10Aから、統合部14Aによる検出結果(オブジェクトID、第1領域Area1を示す情報)と、認識コンフィデンスC4とを取得する。
(ステップS202)
ステップS202において、グローバル位置推定部21Aは、認識コンフィデンスC4が閾値α4以上であるか否かを判断する。閾値α4は、オブジェクト情報22Aを蓄積するか否かを判断するための閾値である。
(ステップS202で「はい」:ステップS203)
ステップS202において「はい」と判断した場合、ステップS203において、グローバル位置推定部21Aは、統合部14Aによる検出結果、及びユーザ端末10Aの位置および向きを参照して、オブジェクトのグローバル位置を推定する。また、グローバル位置推定部21Aは、推定結果の位置コンフィデンスD5を算出する。
(ステップS204)
ステップS204において、グローバル位置推定部21Aは、位置コンフィデンスD5と、ユーザ端末10Aから取得した認識コンフィデンスC4とに基づいて、コンフィデンススコアScore1を算出する。ここでは、コンフィデンススコアScore1は、認識コンフィデンスC4及び位置コンフィデンスD5の和であるものとする。
(ステップS205)
ステップS205において、グローバル位置推定部21Aは、オブジェクトマップに、当該オブジェクトと同一IDのオブジェクト情報22Aが蓄積されているか否かを判断する。
(ステップS205で「はい」:ステップS206)
ステップS205で「はい」と判断した場合、ステップS206において、グローバル位置推定部21Aは、オブジェクトマップから当該オブジェクト情報22Aを取得する。また、グローバル位置推定部21Aは、当該オブジェクト情報22Aに含まれる位置コンフィデンスD6と、認識コンフィデンスC6とに基づいて、コンフィデンススコアScore2を算出する。ここでは、コンフィデンススコアScore2は、認識コンフィデンスC6及び位置コンフィデンスD6の和であるものとする。
(ステップS207)
ステップS207において、グローバル位置推定部21Aは、コンフィデンススコアScore1がScore2より大きいか否かを判断する。
(ステップS207で「はい」:ステップS208)
ステップS207で「はい」と判断した場合、グローバル位置推定部21Aは、オブジェクトマップにオブジェクト情報22Aを蓄積する。具体的には、グローバル位置推定部21Aは、既に格納されている当該オブジェクトと同一IDのオブジェクト情報22Aに含まれるグローバル位置を、ステップS203で算出したグローバル位置に更新する。また、グローバル位置推定部21Aは、当該オブジェクト情報22Aに含まれる位置コンフィデンスD6を、位置コンフィデンスD5の値に更新する。また、グローバル位置推定部21Aは、当該オブジェクト情報22Aに含まれる認識コンフィデンスC6を、認識コンフィデンスC4の値に更新する。
(ステップS205で「いいえ」:ステップS208)
ステップS205で「いいえ」と判断した場合、グローバル位置推定部21Aは、ステップS208を実行する。すなわち、この場合、グローバル位置推定部21Aは、オブジェクトマップに、新たに当該オブジェクトと同一IDのオブジェクト情報22Aを追加する。追加される新たなオブジェクト情報22Aは、ユーザ端末10Aから受信したオブジェクトID及びステップS203で算出したグローバル位置を含む。また、新たなオブジェクト情報22Aは、位置コンフィデンスD6として、ステップS203で算出した位置コンフィデンスD5の値を含む。また、新たなオブジェクト情報22Aは、認識コンフィデンスC6として、ユーザ端末10Aから受信した認識コンフィデンスC4の値を含む。
(ステップS202、ステップS207で「いいえ」)
ステップS202、又はステップS207において「いいえ」と判断した場合、サーバ20Aは、検出方法S20Aを終了する。
<具体例>
検出システム1Aが実行する検出方法S1Aの具体例を、図9~図16を参照して説明する。ここでは、検出システム1Aが、オブジェクトOBJを初めて検出する具体例1と、その後、再度オブジェクトOBJを検出する具体例2及び具体例3とについて説明する。
(具体例1:オブジェクトOBJの初めての検出)
(ステップS101の具体例)
図9は、本具体例1において検出対象となる現実空間を模式的に示す図である。図9に示すように、現実空間には、グローバル座標系(X,Y,Z)が設定される。現実空間には、ユーザUと、ユーザUが保持するユーザ端末10Aと、オブジェクトOBJとが存在する。図9に示すように、ユーザUは、オブジェクトOBJに充分近い状態である。ここで、「充分近い」とは、閾値α3以上の認識コンフィデンスC1でオブジェクトOBJを検出可能な程度に近いことをいう。この状態で、ユーザUは、ユーザ端末10Aに搭載されたカメラ130AをオブジェクトOBJに向ける。カメラ130Aは、オブジェクトOBJを含む映像フレームを生成する。ユーザ端末10Aは、ステップS101を実行し、当該映像フレームを取得する。
(ステップS102の具体例)
ユーザ端末10Aの映像認識部11Aは、映像フレームを検出モデルに入力することにより、オブジェクトOBJのオブジェクトID=1と、映像フレームにおいてオブジェクトOBJを含む第1領域Area1とを得る。このとき、映像認識部11Aは、認識コンフィデンスC1として0.9を算出したとする。この例では、認識コンフィデンスC1=0.9は、閾値α3以上である。
(ステップS103~S104の具体例)
オブジェクトOBJを初めて検出する場合、ステップS103~S104を実行する時点で、オブジェクトOBJに関するオブジェクト情報22Aは、オブジェクトマップに蓄積されていない。したがって、ローカル位置推定部13Aは、ステップS104でNoと判断する。
(ステップS112~S114の具体例)
そこで、統合部14Aは、ステップS112を実行し、映像認識部11Aが算出した認識コンフィデンスC1を、認識コンフィデンスC4とする。すなわち、認識コンフィデンスC4=0.9となる。また、統合部14Aは、認識コンフィデンスC4が閾値α3以上であるため(ステップS113で「はい」)、ステップS114を実行する。すなわち、統合部14Aは、映像認識部11Aによる検出結果(オブジェクトID及び第1領域Area1)と、認識コンフィデンスC4と、ユーザ端末10Aの位置及び向きとを、サーバ20Aに送信する。
(ステップS201~S20の具体例)
サーバ20Aのグローバル位置推定部21Aは、ユーザ端末10Aから上述の検出結果及び認識コンフィデンスC4を受信すると、受信した認識コンフィデンスC4=0.9が閾値α4以上であるため、ステップS202で「はい」と判断する。
(ステップS203の具体例)
ステップS203において、グローバル位置推定部21Aは、ユーザ端末10Aから受信した検出結果と、ユーザ端末10Aの位置及び向きとに基づいて、オブジェクトOBJのグローバル位置を推定する。ここでは、グローバル位置(X=4.0(m:メートル),Y=5.0(m)、Z=0.5(m))が推定されたものとする。また、グローバル位置推定部21Aは、推定結果の位置コンフィデンスD5として0.9を算出する。
(ステップS204の具体例)
ステップS204において、グローバル位置推定部21Aは、コンフィデンススコアScore1として、認識コンフィデンスC4=0.9及び位置コンフィデンスD5=0.9の和である1.8を算出する。
(ステップS205、S208の具体例)
ステップS205において、グローバル位置推定部21Aは、オブジェクトマップには、当該オブジェクトのオブジェクト情報22Aが未だ格納されていないため(ステップS205で「いいえ」)、ステップS208を実行する。すなわち、グローバル位置推定部21Aは、オブジェクトOBJに関するオブジェクト情報22Aを、オブジェクトマップに新たに追加する。図10は、新たなオブジェクト情報22Aの一例を示す図である。図10に示すように、オブジェクト情報22Aは、オブジェクトID=1と、グローバル位置(X=4.0(m:メートル),Y=5.0(m)、Z=0.5(m))とを含む。また、オブジェクト情報22Aは、サイズとして、事前に与えられた値0.5(m)を含む。また、オブジェクト情報22Aは、位置コンフィデンスD6として、位置コンフィデンスD5の値0.9を含む。また、オブジェクト情報22Aは、認識コンフィデンスC6として、認識コンフィデンスC4の値0.9を含む。
(具体例2:オブジェクトOBJを再度検出)
(ステップS101の具体例)
その後、ユーザUがオブジェクトOBJから離れてより遠方に移動したとする。図11は、ユーザUがオブジェクトOBJから離れた状態での現実空間を模式的に示す図である。図11に示すように、ユーザUは、オブジェクトOBJから離れた状態で、ユーザ端末10Aに搭載されたカメラ130AをオブジェクトOBJに向ける。カメラ130Aは、オブジェクトOBJを含む映像フレームを生成する。ユーザ端末10Aは、ステップS101を実行し、当該映像フレームを取得する。
(ステップS102の具体例)
具体例1と同様に、ユーザ端末10Aの映像認識部11Aは、映像フレームを検出モデルに入力することにより、オブジェクトOBJのオブジェクトID=1と、映像フレームにおいてオブジェクトOBJを含む第1領域Area1とを得る。このとき、映像認識部11Aは、認識コンフィデンスC1として0.3を算出したとする。これは、オブジェクトOBJが具体例1より相対的に遠くに移動したことにより、映像認識部11Aが算出する認識コンフィデンスC1が、具体例1より低くなったためである。
図12は、映像認識部11Aが検出した第1領域Area1を説明する模式図である。図12に示すように、この具体例2では、映像認識部11Aは、映像フレームにおいてオブジェクトOBJを含む矩形の第1領域Area1を検出している。なお、図12は、第1領域Area1を説明するための模式図であり、必ずしも当該ステップにおいてディスプレイ150Aに第1領域Area1を示す矩形が表示されることを限定するものではない。
(ステップS103~S104の具体例)
ここで、サーバ20Aのオブジェクトマップには、図10に示した通り、オブジェクトOBJに関するオブジェクト情報22Aが格納されている。そこで、ローカル位置推定部13Aは、ステップS103で、図10に示したオブジェクト情報22Aを取得する。ローカル位置推定部13Aは、オブジェクト情報22Aを取得できたため、ステップS104では「はい」と判断する。
(ステップS105の具体例)
ステップS105において、自己位置推定部12Aは、ユーザ端末10Aの位置及び向きとして、グローバル座標系における位置P1及び方向d1を推定する。また、自己位置推定部12Aは、これらの推定結果の位置コンフィデンスD2として、0.95を算出する。
(ステップS106の具体例)
図13は、ステップS106において、ローカル位置推定部13Aが推定した第2領域Area2を説明する模式図である。図13に示すように、第2領域Area2は、スクリーン座標系における矩形(バウンディングボックス)として表される。なお、図13は、第2領域Area2を説明するための模式図であり、必ずしも当該ステップにおいてディスプレイ150Aに第2領域Area2を示す矩形が表示されることを限定するものではない。
ローカル位置推定部13Aが、スクリーン座標系における第2領域Area2を推定する処理の具体例について、次式(3)、及び図14~図15を参照して説明する。
まず、ローカル位置推定部13Aは、オブジェクト情報22Aに含まれるグローバル座標(X,Y,Z)を、式(3)を用いてスクリーン座標(u,v)に変換する。ここで、グローバル座標(X,Y,Z)は、オブジェクトOBJの中心点をグローバル座標系で表したものである。また、r11~r33は、回転パラメータである。t1~t3は、移動パラメータである。これらのパラメータは、それぞれ、端末の位置P1及び向きd1から計算される。また、fx,fy,cx,cyは、カメラ130Aの内部パラメータである。なお、式(3)は、ピンホールカメラの歪みを考慮しない方式である。ローカル位置推定部13Aは、式(3)の代わりに、歪みを考慮した方式を用いてもよい。また、ローカル位置推定部13Aは、式(3)の代わりに、カメラ130Aの種別に応じた方式を用いてもよい。
図14は、オブジェクトOBJの中心点のグローバル座標(X,Y,Z)をスクリーン座標(u,v)に変換する処理を説明する模式図である。図14の上部は、グローバル座標系におけるユーザ端末10Aの位置P1と、向きd1と、オブジェクトOBJの中心点P2とを示す。図14の下部は、スクリーン座標系におけるオブジェクトOBJの中心点P2を示す。
次に、ローカル位置推定部13Aは、オブジェクト情報22Aに含まれるオブジェクトOBJのサイズ0.5(m)に基づいて、オブジェクトOBJの中心点を中心とする、1辺の長さが0.5(m)の立方体を仮想的に形成する。また、ローカル位置推定部13Aは、仮想的に形成した立方体の8つの頂点のグローバル座標を、式(3)を用いてスクリーン座標系に変換する。
図15は、仮想的に形成した立方体の8つの頂点のグローバル座標をスクリーン座標に変換する処理を説明する模式図である。図15の上部は、グローバル座標系において、位置P2を中心とする立方体の8つの頂点P3~P10を示す。図15の下部は、スクリーン座標系に変換された8つの頂点P3~P10を示す。
次に、ローカル位置推定部13Aは、スクリーン座標系において、頂点P3~P10を全て含むバウンディングボックスを、第2領域Area2として算出する。
(ステップS107~S108の具体例)
ステップS107において、ローカル位置推定部13Aは、オブジェクトOBJのオブジェクト情報22Aに含まれる認識コンフィデンスC6=0.9を出力する。また、ローカル位置推定部13Aは、位置コンフィデンスD3として、ユーザ端末10Aの位置P1に関する位置コンフィデンスD2=0.95と、オブジェクト情報22Aに含まれる位置コンフィデンスD6=0.9とを乗算する。これにより、位置コンフィデンスD3=0.855が算出される。当該位置コンフィデンスD3は、閾値α1以上であるものとする。したがって、ローカル位置推定部13Aは、ステップS108で「はい」と判断する。
(ステップS109~S110の具体例)
図16は、ステップS109において、統合部14Aが算出するIoUを説明するための模式図である。図16に示すように、スクリーン座標系において、映像認識部11Aが算出した第1領域Area1と、ローカル位置推定部13Aが推定した第2領域Area2とが重なり合う領域(斜線パターンで塗りつぶした領域)を第3領域Area3とする。統合部14Aは、第3領域Area3の面積を、第1領域Area1及び第2領域Area2を結合した結合領域の面積で除算した値を、IoUとして算出する。ここでは、IoUとして、0.8が算出されたものとする。当該IoUは、閾値α2以上であるものとする。したがって、統合部14Aは、ステップS110で「はい」と判断する。
(ステップS111、S113の具体例)
ステップS111において、統合部14Aは、式(2)を用いて、認識コンフィデンスC4を算出する。具体的には、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1=0.3と、ローカル位置推定部13Aが出力した認識コンフィデンスC6=0.9とのうち、最大値である0.9を、認識コンフィデンスC4とする。この具体例では、映像認識部11Aによる検出結果を採用するか否かを判断するための閾値α3は0.5である。統合部14Aが算出した認識コンフィデンスC4=0.9は、閾値α3=0.5以上であるため、統合部14Aは、ステップS113で「はい」と判断する。
(ステップS114の具体例)
統合部14Aは、オブジェクトOBJを検出できたとみなして、映像認識部11Aが検出した第1領域Area1を、検出結果として採用し出力する。統合部14Aは、検出結果であるオブジェクトID=1及び第1領域Area1と、認識コンフィデンスC4=0.9と、ユーザ端末10Aの位置及び向きとを、サーバ20Aに送信する。このように、具体例2は、映像認識部11Aによる認識コンフィデンスC1が低い場合であっても、ローカル位置推定部13Aによる認識結果を統合することにより、オブジェクトOBJを高精度に検出することができる。
(ステップS201~S202の具体例)
サーバ20Aのグローバル位置推定部21Aは、ユーザ端末10Aから上述の検出結果及び認識コンフィデンスC4=0.9を受信する。また、グローバル位置推定部21Aは、受信した認識コンフィデンスC4=0.9が閾値α4以上であるため、ステップS202で「はい」と判断する。
(ステップS203の具体例)
ステップS203において、グローバル位置推定部21Aは、ユーザ端末10Aから受信した検出結果と、ユーザ端末10Aの位置及び向きとに基づいて、オブジェクトOBJのグローバル位置を推定する。ここでは、グローバル位置として、オブジェクト情報22Aに既に含まれているグローバル位置とは異なる位置(X=3.9(m:メートル),Y=5.1(m)、Z=0.5(m))が推定されたものとする。また、グローバル位置推定部21Aは、推定結果の位置コンフィデンスD5として、具体例1より小さい0.7を算出する。これは、具体例2では、ユーザ端末10AからオブジェクトOBJまでの距離が具体例1より遠いためである。
(ステップS204~S206の具体例)
ステップS204において、グローバル位置推定部21Aは、統合部14Aから受信した認識コンフィデンスC4=0.9、及び算出した位置コンフィデンスD5=0.7の和であるコンフィデンススコアScore1=1.6を算出する。
また、オブジェクトマップには、オブジェクト情報22Aが蓄積されているため、グローバル位置推定部21Aは、ステップS205で「はい」と判断し、ステップS206を実行する。すなわち、グローバル位置推定部21Aは、オブジェクト情報22Aに含まれる認識コンフィデンスC6=0.9、及び位置コンフィデンスD6=0.9の和であるコンフィデンススコアScore2=1.8を算出する。
(ステップS207~S208の具体例)
ここで、Score1>Score2でないため、グローバル位置推定部21Aは、ステップS207で「いいえ」と判断し、検出方法S20Aを終了する。すなわち、グローバル位置推定部21Aは、オブジェクトマップに蓄積されたオブジェクト情報22Aを更新しない。
このように、具体例2は、ユーザがオブジェクトOBJから離れて遠方に移動した場合にもオブジェクトOBJを高精度に検出できる。ただし、過去の検出結果であるオブジェクト情報22Aは、ユーザがオブジェクトOBJから離れて遠方に移動した場合の検出結果によって更新されない。
(具体例3:オブジェクトOBJを再度検出)
その後、図9に示すように、ユーザUが再びオブジェクトOBJの近傍に移動したとする。
(ステップS101~S114の具体例)
具体例3では、ユーザ端末10Aは、具体例2とほぼ同様に検出方法S10Aを実行する。なお、具体例3では、ユーザ端末10AからオブジェクトOBJまでの距離が具体例2より近いため、ステップS102において算出する認識コンフィデンスC1の値は具体例2より大きくなる。ただし、ステップS114においてユーザ端末10Aからサーバ20Aに対して出力される認識コンフィデンスC4の値は、0.9で具体例2と同一であったものとする。
(ステップS201~S206の具体例)
また、具体例3では、サーバ20Aは、ステップS201~S206まで具体例2とほぼ同様に検出方法S20Aを実行する。ただし、ステップS203において、位置コンフィデンスD5として、具体例2より大きい0.95が算出される点が異なる。これは、具体例3では、ユーザ端末10AからオブジェクトOBJまでの距離が具体例2より近いためである。その結果、ステップS204において、コンフィデンススコアScore1として、具体例2より大きい1.85が算出される点も異なる。このコンフィデンススコアScore1の値1.85は、統合部14Aから受信した認識コンフィデンスC4=0.9、及び算出した位置コンフィデンスD5=0.95の和である。
(ステップS207~S208の具体例)
ここで、Score1>Score2であるため、グローバル位置推定部21Aは、ステップS207で「はい」と判断し、ステップS208を実行する。すなわち、グローバル位置推定部21Aは、オブジェクトマップに蓄積されたオブジェクト情報22Aを更新する。
図17は、更新されたオブジェクト情報22Aを説明する図である。図17に示すように、オブジェクト情報22Aに含まれるグローバル位置は、(X=3.9(m:メートル),Y=5.1(m)、Z=0.5(m))に更新される。また、認識コンフィデンスC6は、既に格納されている値0.9が、ユーザ端末10Aから受信した認識コンフィデンスC4=0.9と同一であるため、更新されない。また、位置コンフィデンスD6は、グローバル位置推定部21Aが算出した位置コンフィデンスD5=0.95に更新される。
このように、具体例3では、ユーザがオブジェクトOBJに再度接近した場合にオブジェクトOBJを高精度に検出できる。また、過去の検出結果であるオブジェクト情報22Aは、ユーザがオブジェクトOBJに再度接近した場合の検出結果によって更新される。したがって、検出システム1Aは、移動するオブジェクトOBJであっても、高精度に検出することができる。
<本例示的実施形態の効果>
本例示的実施形態は、ユーザ端末10Aに高い処理性能を要求することなく、オブジェクトを高精度に検出することができる。その理由について説明する。
まず、ユーザ端末10AにARを実現する場合を考える。この場合、カメラ130Aが映像フレームを生成してから、仮想オブジェクトが重畳された映像フレームをディスプレイ150Aに表示するまでの処理速度は、短いことが要求される。つまり、ユーザ端末10Aがオブジェクトを検出する処理速度は、できるだけ短いことが望ましい。本実施形態では、映像認識部11Aによる検出精度を、ローカル位置推定部13の検出結果によって高めることができる。その結果、映像認識部11Aを、高い端末の処理性能が要求されるような高精度な映像認識技術を用いて実現しなくてもよい。したがって、本例示的実施形態は、ユーザ端末10Aの処理性能に関わらず、高速に、かつ、高精度に、オブジェクトを検出することができる。
また、本例示的実施形態は、移動するオブジェクトであっても、より精度よく検出することができる。その理由について説明する。
ここで、認識したいオブジェクトがユーザ端末10Aから遠くなるほど、映像認識部11Aによる検出精度が低くなると考えられる。本例示的実施形態は、オブジェクトがユーザ端末10Aの近傍にある場合(例えば、具体例1)に、映像認識部11Aは確度(認識コンフィデンスC1)の高い検出結果を出力する。ローカル位置推定部13Aは、オブジェクトマップにオブジェクト情報22Aの登録が無ければ、検出結果を出力しない。この場合、統合部14Aは、確度の高い映像認識部11Aによる検出結果のみを用いて検出結果を出力する。また、オブジェクトマップには、当該オブジェクトのグローバル位置と、認識コンフィデンスと、位置コンフィデンスとが記録される。このとき、オブジェクトが近傍にあるほど、オブジェクトマップに記録する位置コンフィデンス及び認識コンフィデンスは高い値になる。
次に、ユーザ端末10Aが移動すると、オブジェクトがユーザ端末10Aから相対的に遠くに移動する(例えば、具体例2)。この場合、映像認識部11Aは、確度(認識コンフィデンスC1)が低下した検出結果を出力する。ローカル位置推定部13Aは、オブジェクトマップに格納されたオブジェクト情報22Aに基づいてローカル位置を推定する。統合部14Aは、映像認識部11Aによる検出結果とローカル位置推定部13Aによる検出結果とを統合することで、映像認識部11Aによる検出結果の確度が低下していても、当該検出結果を採用することができる。その結果、検出精度が向上する。
また、オブジェクト自体が移動すると、IoUが閾値以下となることが多い。この場合、ローカル位置推定部13Aによる検出結果は統合の対象とならない。したがって、移動したオブジェクトの過去の検出結果が参照されることがなく、映像認識部11Aによる検出結果が検出結果として採用される。このように、移動するオブジェクトに対して過去の検出結果を参照しないことにより、移動するオブジェクトに対して過去の検出結果を参照する非特許文献1に記載の技術に比べて、検出精度が向上する。
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
<検出システムの構成>
本例示的実施形態に係る検出システム1Bの構成について、図18を参照して説明する。図18は、検出システム1Bの構成を示すブロック図である。検出システム1Bは、例示的実施形態2に係る検出システム1Aとほぼ同様に構成されるが、ユーザ端末10Aに代えてユーザ端末10Bを含む点が異なる。ユーザ端末10Bは、例示的実施形態2に係るユーザ端末10Aとほぼ同様に構成されるが、三次元センサ170Bをさらに含む点が異なる。また、映像認識部11Aと、ローカル位置推定部13Aと、統合部14Aとに代えて、映像認識部11Bと、ローカル位置推定部13Bと、統合部14Bとを含む点も異なる。
(三次元センサ)
三次元センサ170Bは、オブジェクトOBJに関する深度情報を取得するセンサである。例えば、三次元センサ170Bは、赤外線センサ、三次元LiDar、又はステレオカメラであってもよいが、これに限られない。
(映像認識部)
映像認識部11Bは、例示的実施形態2における映像認識部11Aとほぼ同様に構成されるが、映像フレームに加えて深度情報を用いる点と、三次元的な第1領域を示す情報を出力する点とが異なる。換言すると、映像認識部11Bは、二次元画像である映像フレームを分析する代わりに、映像フレームに深度情報を加えた三次元データを分析する。
具体的には、映像認識部11Bは、映像フレーム及び深度情報から、オブジェクトの三次元的な領域を検出するよう機械学習により学習された検出モデルを用いて、オブジェクトの検出を行う。一例として、検出モデルは、映像フレーム及び深度情報を入力として、検出したオブジェクトのオブジェクトIDと、オブジェクトを含む三次元的な第1領域を示す情報と、認識コンフィデンスC1とを出力する。三次元的な第1領域を示す情報は、例えば、カメラ座標系で表される。ここで、カメラ座標系とは、ユーザ端末10Bの位置を原点とする三次元座標系である。このような検出モデルは、認識対象となるオブジェクトを含む映像フレーム及び同時に取得された深度情報と、正解となる三次元的な第1領域とを関連付けた教師データを用いることにより生成可能である。
(ローカル位置推定部)
ローカル位置推定部13Bは、例示的実施形態2におけるローカル位置推定部13Aとほぼ同様に構成されるが、オブジェクトのローカル位置、及び第2領域を三次元的に算出する点が異なる。
具体的には、ローカル位置推定部13Bは、蓄積されたオブジェクト情報22Aと、ユーザ端末10Bの位置及び向きとを参照して、ユーザ端末10Bの位置を原点とする三次元座標系(すなわち、カメラ座標系)におけるオブジェクトのローカル位置を推定する。具体的には、ローカル位置推定部13Bは、蓄積されたオブジェクト情報22Aに含まれるグローバル位置を示すグローバル座標を、ユーザ端末10Bの位置及び向きに基づいて、カメラ座標系を用いたカメラ座標に座標変換する。座標変換した結果が、ローカル位置である。
また、ローカル位置推定部13Bは、算出したローカル位置と、オブジェクト情報22Aに含まれるサイズ情報とに基づいて、カメラ座標系においてオブジェクトを含む三次元的な第2領域を算出する。例えば、ローカル位置推定部13Bは、カメラ座標系において、ローカル位置を中心とし、1辺の長さがサイズ情報の示す長さとなる立方体の領域を、オブジェクトを含む三次元的な第2領域として算出する。
ローカル位置推定部13Bは、三次元的な第2領域の位置に関する位置コンフィデンスD3を算出する。位置コンフィデンスD3の算出手法については、ローカル位置推定部13Aと同様である。
(統合部)
統合部14Bは、例示的実施形態2における統合部14Aとほぼ同様に構成されるが、IoUを三次元的に算出する点が異なる。
具体的には、統合部14Bは、映像認識部11Bが検出した三次元的な第1領域(例えば、直方体)と、ローカル位置推定部13Bが検出した三次元的な第2領域(上述した例では、立方体)との共通部分の体積を求める。また、統合部14Bは、第1領域及び第2領域を結合した結合領域の体積を求める。統合部14Bは、共通部分の体積を結合領域の体積で除算することにより、IoUを算出する。
<検出方法の流れ>
以上のように構成された検出システム1Bが実行する検出方法は、図7を参照して説明した例示的実施形態2における検出方法S1Aとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法S1Aにおいて説明した通りである。
(ステップS101)
ステップS101において、映像認識部11Aは、映像フレームに加えて、三次元センサ170Bから深度情報を取得する。その他の点については、上述したステップS101と同様である。
(ステップS102)
ステップS102において、映像認識部11Bは、カメラ座標系における三次元的な第1領域を示す情報を出力する。その他の点については、上述したステップS102と同様である。
(ステップS106)
ステップS106において、ローカル位置推定部13Bは、カメラ座標系における三次元的な第2領域を算出する。その他の点については、上述したステップS106と同様である。
(ステップS109)
ステップS109において、統合部14Bは、IoUを、三次元的な第1領域及び第2領域を参照して算出する。その他の点については、上述したステップS109と同様である。
<本例示的実施形態の効果>
本例示的実施形態は、第1検出部及び第2検出部が三次元的にオブジェクトを検出することにより、オブジェクトをさらに精度よく検出することができる。
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
<検出システムの構成>
本例示的実施形態に係る検出システム1Cの構成について、図19を参照して説明する。図19は、検出システム1Cの構成を示すブロック図である。検出システム1Cは、例示的実施形態2に係る検出システム1Aとほぼ同様に構成されるが、ユーザ端末10Aに代えてユーザ端末10Cを含む点が異なる。ユーザ端末10Cは、例示的実施形態2に係るユーザ端末10Aとほぼ同様に構成されるが、映像認識部11Aに代えて映像認識部11Cを含む点が異なる。
(映像認識部11C)
映像認識部11Cは、例示的実施形態2における映像認識部11Aとほぼ同様に構成されるが、映像フレームを参照することに加えて、オブジェクトのサイズに関する情報と、ユーザ端末10Cの位置及び向きとをさらに参照する点が異なる。映像認識部11Cは、オブジェクトの実際の大きさの情報と、ユーザ端末10Cの位置及び向きに関する情報を使うことで、映像フレーム上におけるオブジェクトのサイズを推定することができる。
具体的には、映像認識部11Cは、オブジェクト情報22Aを参照して、オブジェクトのサイズに関する情報を取得する。例えば、サーバ20Aは、定期的に、又はオブジェクト情報22Aを更新したタイミングで、オブジェクトのサイズに関する情報をユーザ端末10に送信するよう構成されていてもよい。また、映像認識部11Cは、サーバ20Aに対して、定期的にオブジェクト情報22Aを要求することにより、当該情報を取得してもよい。
また、映像認識部11Cは、自己位置推定部12Aから、ユーザ端末10Cの位置及び向きを示す情報を取得する。
また、映像認識部11Cが用いる検出モデルは、例示的実施形態2における映像認識部11Aが用いる検出モデルとほぼ同様に構成されるが、オブジェクトを含み得る複数の候補領域を出力する点が異なる。複数の候補領域は、少なくとも領域のサイズが異なる。この場合、映像認識部11Cは、ユーザ端末10Cの位置及び向きを参照して、複数の候補領域のうち、映像フレームに含まれ得るオブジェクトのサイズに整合するサイズの候補領域を選択する。そして、映像認識部11Cは、選択した候補領域を、第1領域として出力する。
なお、映像認識部11Cがその他の映像認識技術を用いる場合について説明する。この場合、当該映像認識技術が、オブジェクトを含み得る複数の候補領域を検出することが前提である。このような場合、映像認識部11Cは、検出モデルを用いる場合と同様に、ユーザ端末10Cの位置及び向きを参照して、複数の候補領域のうち、映像フレームに含まれ得るオブジェクトのサイズに整合するサイズの候補領域を選択することが可能である。
<検出方法の流れ>
以上のように構成された検出システム1Cが実行する検出方法は、図7を参照して説明した例示的実施形態2における検出方法S1Aとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法S1Aにおいて説明した通りである。
(ステップS102)
ステップS102において、映像認識部11Cは、映像フレームに加えて、オブジェクトのサイズに関する情報と、ユーザ端末10Cの位置及び向きを示す情報とを参照して、映像フレームに含まれ得るオブジェクトのサイズに整合する第1領域を検出する。
<本例示的実施形態の効果>
本例示的実施形態は、オブジェクト情報22Aに含まれるオブジェクトのサイズに関する情報を考慮することにより、映像認識部11Cの検出精度を向上させることができる。その結果、本例示的実施形態は、オブジェクトをさらに精度よく検出することができる。
〔例示的実施形態5〕
本発明の第5の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~4にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
<検出システムの構成>
本例示的実施形態に係る検出システム1Dの構成について、図20を参照して説明する。図20は、検出システム1Dの構成を示すブロック図である。検出システム1Dは、ユーザ端末10Dと、サーバ20Dとを含む。ユーザ端末10Dは、例示的実施形態2に係るユーザ端末10Aとほぼ同様に構成されるが、ローカル位置推定部13A及び統合部14Aに代えて、ローカル位置推定部13D及び統合部14Dを含む点が異なる。また、サーバ20Dは、例示的実施形態に係るサーバ20Aとほぼ同様に構成されるが、グローバル位置推定部21Aに代えて、グローバル位置推定部21Dを含む点が異なる。また、記憶部220Aが、オブジェクト情報22Aの代わりにオブジェクト情報22Dを記憶する点が異なる。また、記憶部220Aが、さらにキネマティクス情報23Dを記憶する点が異なる。
(キネマティクス情報)
キネマティクス情報23Dは、オブジェクトの移動に関する特徴を示す情報である。キネマティクス情報23Dは、オブジェクトIDに関連付けて記憶される。キネマティクス情報23Dは、例えば、オブジェクトの平均移動速度、最大移動速度、又は、移動速度に関する確率分布を含む。
(オブジェクトマップ)
オブジェクトマップは、各オブジェクトについて、オブジェクト情報22Aの代わりにオブジェクト情報22Dを格納する。オブジェクト情報22Dは、図6を参照して説明した項目に加えて、さらに、検出時刻を含む。検出時刻は、当該オブジェクトを直近に検出した時刻を示す。
(グローバル位置推定部)
グローバル位置推定部21Dは、例示的実施形態2におけるグローバル位置推定部21Aとほぼ同様に構成されるが、オブジェクトマップに蓄積するオブジェクト情報22Dに、さらに検出時刻を含める点が異なる。例えば、グローバル位置推定部21Dは、オブジェクト情報22Dに含める検出時刻として、統合部14Dから検出結果を受信した時刻を用いてもよいし、オブジェクト情報22Dを追加又は更新する時刻を用いてもよいが、これらに限られない。
(ローカル位置推定部)
ローカル位置推定部13Dは、例示的実施形態2に係るローカル位置推定部13Aとほぼ同様に構成されるが、蓄積されたオブジェクト情報22Dと、ユーザ端末10の位置及び向きとを参照することに加えて、キネマティクス情報23Dを参照する点が異なる。
具体的には、ローカル位置推定部13Dは、オブジェクトの検出時刻と、キネマティクス情報23Dとを参照することにより、現在のオブジェクトを含む第2領域を推定する。例えば、キネマティクス情報が移動に関する確率分布を含む場合、ローカル位置推定部13Dは、検出時刻及びキネマティクス情報23Dとから、第2領域の確率分布P(x,y)を推定する。
(統合部)
統合部14Dは、例示的実施形態2に係る統合部14Aとほぼ同様に構成されるが、IoUの代わりに、判定パラメータを用いる点が異なる。判定パラメータは、第1領域内での第2領域の確率分布の積算値により求められる。この場合、統合部14Dは、判定パラメータが閾値以上である場合に、IoUが閾値α2以上である場合と同様に動作する。
<検出方法の流れ>
以上のように構成された検出システム1Dが実行する検出方法は、図7~図8を参照して説明した例示的実施形態2における検出方法S1Aとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法S1Aにおいて説明した通りである。
(ステップS103)
ステップS103において、ローカル位置推定部13Dは、オブジェクト情報22Dに加えて、キネマティクス情報23Dをサーバ20Aに要求する。その他の点については、例示的実施形態2について説明したステップS103と同様である。
(ステップS104)
ステップS104において、ローカル位置推定部13Dは、オブジェクト情報22D及びキネマティクス情報23Dが取得できたか否かを判断する。ローカル位置推定部13Dは、両方取得できた場合には、「はい」と判断し、何れか1つを取得できない場合には、「いいえ」と判断する。その他の点については、例示的実施形態2について説明したステップS104と同様である。
(ステップS106)
ステップS106において、ローカル位置推定部13Dは、蓄積されたオブジェクト情報22Dと、ユーザ端末10の位置及び向きとを参照することに加えて、キネマティクス情報23Dを参照することにより、現在のオブジェクトが含まれる第2領域を算出する。ここでは、キネマティクス情報23Dが移動速度に関する確率分布を含むものとし、第2領域の確率分布が算出される。その他の点については、例示的実施形態2について説明したステップS106と同様である。
(ステップS109)
ステップS109において、統合部14Dは、第1領域と、第2領域の確率分布とから、判定パラメータを算出する。その他の点については、例示的実施形態2について説明したステップS109と同様である。
(ステップS110)
ステップS110において、統合部14Dは、判定パラメータが閾値以上であるか否かを判断する。
(ステップS208)
ステップS208において、グローバル位置推定部21Dは、オブジェクト情報22Dに、検出時刻を含めてオブジェクトマップに追加又は更新する。その他の点については、例示的実施形態2について説明したステップS208と同様である。
<本例示的実施形態の効果>
本例示的実施形態は、オブジェクトのキネマティクス情報を利用することにより、映像認識部11Aが検出した第1領域が、過去に検出した位置からの移動先として可能性が高い場合に、当該第1領域を検出結果として採用し、低い場合には採用しない。したがって、本例示的実施形態は、オブジェクトをさらに精度よく検出することができる。
なお、上述した例示的実施形態2~5において、ユーザ端末に含まれる機能ブロックの一部または全部は、サーバに含まれていてもよい。また、ユーザ端末が実行するステップの一部または全部は、サーバが実行してもよい。また、サーバに含まれる機能ブロックの一部または全部は、ユーザ端末に含まれていてもよい。また、サーバが実行するステップの一部または全部は、ユーザ端末が実行してもよい。また、ユーザ端末及びサーバは、一体の装置として構成されてもよい。
〔ソフトウェアによる実現例〕
検出システム1、ユーザ端末10A、10B、10C、10D、サーバ20A、及びサーバ20Dの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、検出システム1、ユーザ端末10A、10B、10C、10D、サーバ20A、及びサーバ20Dは、それぞれ、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図21に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを、検出システム1、ユーザ端末10A、10B、10C、10D、サーバ20A、サーバ20Dとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、検出システム1、ユーザ端末10A、10B、10C、10D、サーバ20A、サーバ20Dの各機能が実現される。
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
(付記1)
第1センサの検出値を参照してオブジェクトを検出する第1検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備えた検出システム。
上記構成により、第1センサの検出値を参照することによるオブジェクトの検出結果と、過去の検出結果を参照することによるオブジェクトの検出結果とを統合してオブジェクトを検出する。これにより、いずれかの検出結果のみを用いる場合と比べて、より精度よくオブジェクトを検出することができる。
(付記2)
前記統合手段による検出結果に基づいて、前記過去の検出結果を示すオブジェクト情報を記憶装置に蓄積する蓄積手段をさらに備え、
前記第2検出手段は、前記オブジェクト情報を参照して前記オブジェクトを検出する、付記1に記載の検出システム。
上記構成により、過去の検出結果を参照してオブジェクトを検出することができる。
(付記3)
前記第1検出手段は、ユーザ端末に搭載されたカメラを前記第1センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第2検出手段は、前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第2センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出する、付記1又は2に記載の検出システム。
上記構成により、撮影画像を参照することによるオブジェクトの検出結果と、過去の検出結果及びユーザ端末の位置/向きを考慮することによるオブジェクトの検出結果とを統合して、オブジェクトを検出することができる。これにより、さらに精度よくオブジェクトを検出することができる。
(付記4)
前記第2検出手段は、前記オブジェクトの相対的な位置として、前記ユーザ端末の位置を原点とする三次元座標系における前記オブジェクトの位置、又は、前記ユーザ端末の位置から見た二次元の視野画像における前記オブジェクトの位置を検出する、付記3に記載の検出システム。
上記構成により、過去の検出結果及びユーザ端末の位置/向きに基づいて、より精度よくオブジェクトを検出することができる。
(付記5)
前記第1検出手段及び前記第2検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を、それぞれの前記確度を参照して統合する、付記1から4の何れかに記載の検出システム。
上記構成により、各検出結果の確度を考慮して、より確度の高い検出結果を得るよう統合を行うことができる。
(付記6)
前記統合手段は、前記第1検出手段が検出した前記オブジェクトの位置と、前記第2検出手段が検出した前記オブジェクトの位置との関係が条件を満たすか否かに基づいて、前記第2検出手段が算出した確度を参照するか否かを決定する、付記5に記載の検出システム。
上記構成により、映像フレームを参照することによる検出結果と、過去の検出結果を参照することによる検出結果とが、位置関係において条件を満たしていれば、過去の検出結果の確度を採用することができる。
(付記7)
前記第1検出手段は、前記オブジェクトを検出するために、前記オブジェクトの大きさに関する情報をさらに参照する、付記1から6の何れか1項に記載の検出システム。
上記構成により、オブジェクトの大きさを考慮して、より精度よくオブジェクトを検出することができる。
(付記8)
前記第2検出手段は、前記オブジェクトを検出するために、前記オブジェクトに関するキネマティクス情報をさらに参照する、付記1から7の何れかに記載の検出システム。
上記構成により、オブジェクトのキネマティクス情報を考慮して、移動するオブジェクトをより精度よく検出することができる。
(付記9)
前記第1検出手段は、前記確度として、検出した前記オブジェクトの認識に関する確度である認識コンフィデンスC1を算出し、
前記第2検出手段は、前記確度として、検出した前記オブジェクトの位置に関する確度である位置コンフィデンスD3と、前記過去の検出結果の認識に関する確度である認識コンフィデンスC6と、を算出し、
前記統合手段は、前記認識コンフィデンスC1、前記位置コンフィデンスD3、及び前記認識コンフィデンスC6に基づいて、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合する、付記5に記載の検出システム。
上記構成により、認識コンフィデンスC1、位置コンフィデンスD3、及び認識コンフィデンスC6に基づいて、より精度よくオブジェクトを検出することができる。
(付記10)
前記第1検出手段は、ユーザ端末に搭載されたカメラを前記第1センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第2検出手段は、
前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第2センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出し、
前記ユーザ端末の位置及び向きに関する確度である位置コンフィデンスD2と、前記過去の検出結果の位置に関する確度である位置コンフィデンスD6と、を参照して前記位置コンフィデンスD3を算出し、
前記位置コンフィデンスD2、及び前記位置コンフィデンスD6の少なくとも一方が大きいほど、より大きい前記位置コンフィデンスD3を算出する、付記9に記載の検出システム。
上記構成により、ユーザ端末の位置及び向きと過去の検出結果とに基づいて検出したオブジェクトの位置について、その確度を求めることができる。
(付記11)
前記統合手段は、
当該統合手段による検出結果の認識に関する確度として、前記認識コンフィデンスC1及び前記認識コンフィデンスC6を参照して認識コンフィデンスC4を算出し、前記認識コンフィデンスC1及び前記認識コンフィデンスC6の少なくとも一方が大きいほど、より大きい認識コンフィデンスC4を算出する、付記9又は付記10に記載の検出システム。
上記構成により、第1検出手段の検出結果及び第2検出手段の検出結果の何れか一方の確度が低くても他方が大きければ、統合部による検出結果の確度を高めることができる。
(付記12)
前記蓄積手段は、前記統合手段による検出結果を参照して、前記オブジェクトの前記現実空間における位置を推定し、推定した位置を前記オブジェクト情報に含めて蓄積する、付記2に記載の検出システム。
上記構成により、過去の検出結果を、ユーザ端末の位置の変化に関わらず参照しやすいグローバル位置として蓄積することができる。
(付記13)
前記蓄積手段は、前記統合手段による検出結果の確度である認識コンフィデンスC4を参照して、前記オブジェクト情報を更新するか否かを決定する、付記2又は付記12に記載の検出システム。
上記構成により、検出結果の確度に応じて過去の検出結果を更新するか否かを決定するので、過去の検出結果としてより精度の高い情報を蓄積できる。
(付記14)
前記蓄積手段は、前記オブジェクト情報を更新するか否かを決定するために、前記検出結果に基づき推定された前記オブジェクトの前記現実空間における位置の確度である位置コンフィデンスD5をさらに参照する、付記13に記載の検出システム。
上記構成により、現実空間における位置の推定結果の確度に応じて過去の検出結果を更新するか否かを決定するので、過去の検出結果としてより精度の高い情報を蓄積できる。
(付記15)
前記蓄積手段は、前記オブジェクト情報を更新するか否かを決定するために、前記認識コンフィデンスC4及び前記位置コンフィデンスD5を参照して算出したコンフィデンススコアが、前記オブジェクト情報を参照して算出した過去の前記コンフィデンススコアより大きい場合に、前記オブジェクト情報を更新することを決定し、
前記認識コンフィデンスC4及び前記位置コンフィデンスD5の少なくとも一方が大きくなった場合に、前記コンフィデンススコアが小さくならないように前記コンフィデンススコアを算出する、付記14に記載の検出システム。
上記構成により、過去の検出結果としてより精度の高い情報を蓄積できる。
(付記16)
第1センサの検出値を参照して現実空間に存在するオブジェクトを検出すること、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出すること、及び、
前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出すること、を含む検出方法。
上記構成により、付記1と同様の効果を奏する。
(付記17)
コンピュータを検出システムとして機能させるプログラムであって、
前記コンピュータを、
第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させるプログラム。
上記構成により、付記1と同様の効果を奏する。
(付記18)
少なくとも1つのプロセッサを備え、前記プロセッサは、第1センサの検出値を参照してオブジェクトを検出する第1検出処理と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出処理と、前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出する統合処理と、を実行する検出システム。
なお、この検出システムは、更にメモリを備えていてもよく、このメモリには、前記第1検出処理と、前記第2検出処理と、前記統合処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1、1A、1B、1C、1D 検出システム
10、10A、10B、10C、10D ユーザ端末
170B 三次元センサ
11 第1検出部
12 第2検出部
11A、11B、11C 映像認識部
12A 自己位置推定部
13A、13B、13D ローカル位置推定部
14、14A、14B、14D 統合部
20、20A、20D サーバ
21A、21D グローバル位置推定部
22A、22D オブジェクト情報
23D キネマティクス情報
110A、210A 制御部
130A カメラ
140A IMU
150A ディスプレイ
160A、260A 通信部
220A 記憶部

Claims (9)

  1. 第1センサの検出値を参照してオブジェクトを検出する第1検出手段と、
    前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
    前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備え
    前記第1検出手段及び前記第2検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
    前記統合手段は、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を、それぞれの前記確度を参照して統合する、
    検出システム。
  2. 前記統合手段による検出結果に基づいて、前記過去の検出結果を示すオブジェクト情報を記憶装置に蓄積する蓄積手段をさらに備え、
    前記第2検出手段は、前記オブジェクト情報を参照して前記オブジェクトを検出する、請求項1に記載の検出システム。
  3. 前記第1検出手段は、ユーザ端末に搭載されたカメラを前記第1センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
    前記第2検出手段は、前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第2センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出する、請求項1又は2に記載の検出システム。
  4. 前記第2検出手段は、前記オブジェクトの相対的な位置として、前記ユーザ端末の位置を原点とする三次元座標系における前記オブジェクトの位置、又は、前記ユーザ端末の位置から見た二次元の視野画像における前記オブジェクトの位置を検出する、請求項3に記載の検出システム。
  5. 前記統合手段は、前記第1検出手段が検出した前記オブジェクトの位置と、前記第2検出手段が検出した前記オブジェクトの位置との関係が条件を満たすか否かに基づいて、前記第2検出手段が算出した確度を参照するか否かを決定する、請求項1から4のいずれか1項に記載の検出システム。
  6. 前記第1検出手段は、前記オブジェクトを検出するために、前記オブジェクトの大きさに関する情報をさらに参照する、請求項1からの何れか1項に記載の検出システム。
  7. 前記第2検出手段は、前記オブジェクトを検出するために、前記オブジェクトに関するキネマティクス情報をさらに参照する、請求項1からの何れか1項に記載の検出システム。
  8. 第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出工程と
    前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出工程と
    前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出する統合工程と、を含み、
    前記第1検出工程及び前記第2検出工程において、前記オブジェクトの検出結果の確度をそれぞれ算出し、
    前記統合工程において、前記第1検出工程における検出結果及び前記第2検出工程における検出結果を、それぞれの前記確度を参照して統合する、
    検出方法。
  9. コンピュータを検出システムとして機能させるプログラムであって、
    前記コンピュータを、
    第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出手段と、
    前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
    前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させ
    前記第1検出手段及び前記第2検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
    前記統合手段は、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を、それぞれの前記確度を参照して統合す
    プログラム。
JP2022575550A 2021-01-12 2022-01-06 検出システム、検出方法、及びプログラム Active JP7444292B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021003113 2021-01-12
JP2021003113 2021-01-12
PCT/JP2022/000153 WO2022153910A1 (ja) 2021-01-12 2022-01-06 検出システム、検出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2022153910A1 JPWO2022153910A1 (ja) 2022-07-21
JP7444292B2 true JP7444292B2 (ja) 2024-03-06

Family

ID=82447328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022575550A Active JP7444292B2 (ja) 2021-01-12 2022-01-06 検出システム、検出方法、及びプログラム

Country Status (3)

Country Link
US (1) US20240062541A1 (ja)
JP (1) JP7444292B2 (ja)
WO (1) WO2022153910A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011044130A (ja) 2009-07-21 2011-03-03 Ttes Inc 画像処理システム及び画像処理方法
JP2016170060A (ja) 2015-03-13 2016-09-23 三菱電機株式会社 設備情報表示システム、モバイル端末、サーバおよび設備情報表示方法
JP2019045997A (ja) 2017-08-30 2019-03-22 キヤノン株式会社 情報処理装置及びその方法、プログラム
JP2020077363A (ja) 2018-09-26 2020-05-21 アップル インコーポレイテッドApple Inc. モバイルデバイスの位置特定

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3450704B2 (ja) * 1997-09-01 2003-09-29 キヤノン株式会社 位置姿勢検出装置及び情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011044130A (ja) 2009-07-21 2011-03-03 Ttes Inc 画像処理システム及び画像処理方法
JP2016170060A (ja) 2015-03-13 2016-09-23 三菱電機株式会社 設備情報表示システム、モバイル端末、サーバおよび設備情報表示方法
JP2019045997A (ja) 2017-08-30 2019-03-22 キヤノン株式会社 情報処理装置及びその方法、プログラム
JP2020077363A (ja) 2018-09-26 2020-05-21 アップル インコーポレイテッドApple Inc. モバイルデバイスの位置特定

Also Published As

Publication number Publication date
US20240062541A1 (en) 2024-02-22
WO2022153910A1 (ja) 2022-07-21
JPWO2022153910A1 (ja) 2022-07-21

Similar Documents

Publication Publication Date Title
CN110568447B (zh) 视觉定位的方法、装置及计算机可读介质
WO2019219077A1 (zh) 定位方法、定位装置、定位系统、存储介质及离线地图数据库的构建方法
JP7236565B2 (ja) 位置姿勢決定方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US11567496B2 (en) Method and apparatus for optimizing scan data and method and apparatus for correcting trajectory
JP2019133658A (ja) 測位方法、測位装置及び読取り可能な記憶媒体
CN113874870A (zh) 基于图像的定位
JP2019087229A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
KR102200299B1 (ko) 3d-vr 멀티센서 시스템 기반의 도로 시설물 관리 솔루션을 구현하는 시스템 및 그 방법
JP2011186808A (ja) 情報処理装置、マップ更新方法、プログラム及び情報処理システム
CN112556685B (zh) 导航路线的显示方法、装置和存储介质及电子设备
JP2012185540A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
KR102167835B1 (ko) 영상 처리 방법 및 장치
KR102490520B1 (ko) Gps정보 및 라이다 신호를 기초로 형성되는 컬러 맵 생성 장치 및 그 제어방법
KR20120078339A (ko) 이동 로봇의 이미지 기반 동시적 위치 인식 및 지도 작성 방법
KR102383567B1 (ko) 시각 정보 처리 기반의 위치 인식 방법 및 시스템
JP6922348B2 (ja) 情報処理装置、方法、及びプログラム
CN113610702B (zh) 一种建图方法、装置、电子设备及存储介质
CN113378605A (zh) 多源信息融合方法及装置、电子设备和存储介质
KR20230049969A (ko) 글로벌 측위 장치 및 방법
JP2020052977A (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2019215778A1 (ja) データ提供システムおよびデータ収集システム
JP7444292B2 (ja) 検出システム、検出方法、及びプログラム
US11557059B2 (en) System and method for determining position of multi-dimensional object from satellite images
JP2015005220A (ja) 情報表示装置及び情報表示方法
KR102299902B1 (ko) 증강현실을 제공하기 위한 장치 및 이를 위한 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R151 Written notification of patent or utility model registration

Ref document number: 7444292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151