JP2021114216A

JP2021114216A - 情報システム、端末、サーバ及びプログラム

Info

Publication number: JP2021114216A
Application number: JP2020007298A
Authority: JP
Inventors: 晴久加藤; Haruhisa Kato
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-08-05
Anticipated expiration: 2040-01-21
Also published as: JP7290584B2

Abstract

【課題】位置ずれを抑制した拡張現実を提供可能な情報システムを提供する。【解決手段】ネットワークを介して相互に通信可能とされる端末及びサーバを備える情報システム100であって、撮像部11は、継続して撮像を行うことで継続して撮像画像を得ており、認識部12は、撮像画像を解析して撮像されている対象を認識し、対象の位置姿勢を推定し、予測部13は、推定された位置姿勢の履歴より未来の少なくとも１つの位置姿勢を予測し、生成部14は、予測された位置姿勢に対応する少なくとも１つの情報を生成し、選択部15は、生成された情報の中から選択し、提示部16は、選択された情報を提示し、選択部15は、認識部12が現時刻の撮像画像より推定した位置姿勢に近いと判定される位置姿勢に対応する情報を、過去時刻において予測部13が予測した少なくとも１つの位置姿勢に対応するものとして生成部14が生成した少なくとも１つの情報の中から選択する。【選択図】図１

Description

本発明は、ネットワーク経由で拡張現実表示を行う情報システム、端末、サーバ及びプログラムに関する。

撮像対象と撮像部との相対的な位置および姿勢を推定し関連情報を提示する拡張現実において、リアルタイムかつ高品位に情報を提示することができれば、利用者の利便性を向上させることができる。上記を実現する従来技術の例として、特許文献１に開示のものがあり、ここでは以下のような手法が公開されている。

特許文献１では、サーバに備え付けられた撮像部で対象を撮像し撮像情報に撮像された撮像対象を認識した結果に応じて関連情報を描画した上で、描画結果を端末へ伝送し端末で提示する手法を開示している。このとき、サーバの高性能な計算資源を利用することで関連情報は高品位に描画されうる。

特開２０１４−４４６５５号公報

特許文献１では、サーバの豊富な計算資源を利用できるが、情報の送受信に係る通信遅延が発生するため、情報を受信するまでの間に提示すべき場所が変更されると、然るべき場所に情報を提示できないという問題がある。

特に、特許文献１では撮像部がサーバ側にあることを前提としており、撮像部がユーザ端末側に存在してユーザ操作（撮像部のカメラの向きなどを定める操作）を受けつけることで、ユーザが存在する現場においてリアルタイムに撮像が行われる環境は全く考慮されていない。このような環境において、ユーザ端末側で撮像した結果をサーバ側に伝送して、サーバ側で描画した結果を端末側にさらに伝送すると、撮像タイミングと描画タイミングとが少なくとも往復の伝送所要時間だけ乖離してしまうこととなる。従って、リアルタイムでの撮像映像に過去タイミングの描画結果を反映させることで、拡張現実表示における位置ずれが発生しうることとなるが、特許文献１ではこのような課題に対処することはできなかった。

拡張現実表示における仮想空間での表示に限らず、サーバ側で生成した仮想空間での音声（仮想空間内の所定位置を音源とする音声）を、撮像部が存在するユーザ端末側で再生する場合にも同様の位置ずれの課題があるが、特許文献１ではこのような課題に対処することはできなかった。

上記従来技術の課題に鑑み、本発明は、位置ずれを抑制した拡張現実を提供可能な情報システム、端末、サーバ及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、ネットワークを介して相互に通信可能とされる端末及びサーバを備える情報システムであって、前記端末は、撮像部、認識部、選択部及び提示部を備え、前記サーバは生成部を備え、前記端末又は前記サーバは予測部を備え、前記撮像部は、継続して撮像を行うことで継続して撮像画像を得ており、前記認識部は、前記撮像画像を解析して当該撮像画像に撮像されている対象を認識し、当該対象の位置姿勢を推定し、前記予測部は、前記推定された位置姿勢の履歴より未来の少なくとも１つの位置姿勢を予測し、前記生成部は、前記予測された位置姿勢に対応する少なくとも１つの情報を生成し、前記選択部は、前記生成された情報の中から選択し、前記提示部は、前記選択された情報を提示し、前記選択部は、前記認識部が現時刻の撮像画像より推定した位置姿勢に近いと判定される位置姿勢に対応する情報を、過去時刻において前記予測部が予測した少なくとも１つの位置姿勢に対応するものとして前記生成部が生成した少なくとも１つの情報の中から選択することを特徴とする。また、前記情報システムにおける端末又はサーバであることを特徴とする。さらに、コンピュータを前記端末又は前記サーバとして機能させるプログラムであることを特徴とする。

本発明によれば、未来の少なくとも１つの位置姿勢を予測し、予測された位置姿勢に対応する複数の情報を生成し、過去時刻において予測した少なくとも１つの位置姿勢に対応して生成された情報の中から、現時刻の位置姿勢に近いと判定されるものを選択して提示することで、位置ずれを抑制した拡張現実を提供することが可能となる。

一実施形態に係る情報システムの機能ブロック図である。予測部が予測する、複数の対象情報（位置姿勢）で構成される予測情報の模式例を示す図である。一実施形態に係る端末の動作のフローチャートである。一実施形態に係るサーバの動作のフローチャートである。情報システムの各部の動作タイミングの例を示す図である。図５の動作タイミングにより実現される拡張現実表示の模式例を示す図である。図１とは別の一実施形態に係る情報システムの構成図である。一般的なコンピュータ装置におけるハードウェア構成の例を示す図である。

図１は、一実施形態に係る情報システムの機能ブロック図である。情報システム100は、インターネット等のネットワークNWを介して相互に通信可能とされる端末10及びサーバ20で構成される。図示するように機能ブロック構成として、端末10は撮像部11、認識部12、予測部13、選択部15、提示部16及び端末側送受部21を備え、サーバ20は生成部14及びサーバ側送受部22を備える。

端末側送受部21及びサーバ側送受部22はそれぞれ端末10及びサーバ20におけるネットワークNWを介した情報の送受信を担う機能部であり、ハードウェアとしては通信インタフェースで構成することができ、アプリケーション用途に応じた任意内容の情報をネットワークNW上で送受信する機能（通信機能）を有する。本実施形態においては当該通信機能により、端末側送受部21及びサーバ側送受部22は、端末10が送信してサーバ20で受信する情報として詳細を後述する予測部13で得る予測情報の送受信と、この逆にサーバ20が送信して端末10で受信する情報として詳細を後述する生成部14で得る生成情報の送受信と、を担うものである。

情報システム100はその全体的な動作として、例えば30fps（フレーム毎秒）や120fpsといったような所定の表示処理レートに応じたリアルタイムの各時刻t(t=1,2,…)において端末10で現実世界にある対象の撮像を行い、撮像された対象に応じた描画処理をサーバ20において行い、描画結果（複数の描画結果の中から端末10において選択されたもの）を端末10においてリアルタイムで表示することで、端末10を利用するユーザに対して撮像された対象に応じた拡張現実表示を提供するものである。

情報システム100の端末10及びサーバ20の各部は、各部に応じた所定の処理レートでリアルタイムに（又は一定の時間間隔ごとに）、あるいは所定条件が満たされるタイミングごとに、各部の処理を繰り返して行うものである。当該タイミング等の詳細に関しては図３ないし図５を参照して後述することとし、以下では各部が当該タイミング等に沿って繰り返し実行する共通の処理に関して説明する。

撮像部11は、ハードウェアとしてはデジタルカメラで構成することができるものであり、端末10のユーザによる撮像操作を受けて撮像を行い、撮像画像Pを得る。撮像部11で得た撮像画像Pはその撮像時刻tと紐づけて撮像情報P(t)として認識部12及び提示部16へと出力される。

認識部12は当該撮像情報P(t)に撮像されている撮像対象の種類Kを認識したうえで、この種類Kの撮像対象の撮像部11に対する相対的な位置姿勢Hを計算する。認識部12は、当該認識され計算された撮像対象の種類K及び位置姿勢Hに対して、当該認識及び計算に用いた撮像情報P(t)に含まれる時刻情報tを紐づけて対象情報OB(t)={K(t),H(t)}とし、対象情報OB(t)を予測部13および選択部15へと出力する。

上記の認識部12における撮像画像P(t)から撮像されている対象の種類K(t)（物体種別K(t)）を認識する処理と、当該対象の位置姿勢H(t)を計算する処理とには、既存の画像認識技術や拡張現実表示技術等において利用されている任意の既存手法を用いることができる。例えば、画像よりSIFT特徴情報等の特徴点及び特徴量の検出を行い、リファレンスとなる１種類以上の物体種別に関して予め登録しておく特徴情報との照合を行い、照合により特徴情報同士が最も一致すると判定される物体種別を対象の認識結果とし、この照合の際に一致した特徴点同士の画像座標の対応関係を与える変換（平面射影変換行列等で表現可能な平面射影変換）の関係として、対象の位置姿勢を得るようにしてもよい。３次元コンピュータグラフィックスの分野において既知のように、こうして得られる対象の位置姿勢は、所定の３次元世界座標系内における対象の座標(X,Y,Z)_[世界]と、撮像部11を構成するハードウェアとしてのカメラにおける３次元カメラ座標系での対象の座標(X,Y,Z)_[カメラ]と、の変換関係として表現されるものであり、当該カメラの外部パラメータに相当するものである。

ここで、認識部12でリファレンスとなる特徴情報を登録しておく１種類以上の対象物は、情報システム100において実現する拡張現実表示を紐づける対象物として、任意のものを予め登録しておくことができる。撮像部11において当該登録されている対象物を撮像することで、認識部12において当該対象物とその位置姿勢が認識され、後述する提示部16において拡張現実表示が実現される。

認識部12ではある時刻tにおいて対象情報OB(t)={K(t),H(t)}を得た以降の時刻t+1,t+2,…では、同一の種類K(t)の対象が撮像部11によって継続して撮像されているものとして、（すなわち、K(t)=K(t+1)=K(t+2)=…であるものとして、）認識処理（検出処理）は省略したうえで位置姿勢のトラッキング（追跡）のみを行って位置姿勢H(t+1),H(t+2),…を求めることで、対象情報OB(t+1),OB(t+2),…を得るようにしてもよい。ある時刻tで認識（検出）が行われた後のトラッキング処理には任意の既存手法を用いてよい。トラッキングが継続できなくなった時刻において認識部12では再度、認識及び位置姿勢の計算を行い、以降は同様にトラッキングを継続することを試みるようにしてもよい。

予測部13は、現在（現時刻t）までに得られて予測部13において記憶しておく対象情報OB(t)の履歴{OB(t-i)|i=0,1,2,…,N(N>0)}を用いて、現時刻tにおいて未来時刻t+Δ(Δ>0)の対象情報OB(t+Δ)を予測したものとして予測情報E(t)を得て、この予測情報を生成部14へと送信する。ここで、本実施形態において実現する用途が提示部16における拡張現実表示であり、同一の対象物について重畳表示を継続して実施することを想定したものであるため、現時刻tの対象情報OB(t)における種別K(t)と同一種別の対象物が認識部12において認識されている一定期間内の過去範囲を、予測部13が利用する履歴{OB(t-i)|i=0,1,2,…,N(N>0)}として利用する。

予測部13では、上記履歴を用いることにより、現時刻tで認識された種別K(t)の対象物（同一対象K(t)=K(t+Δ)）の未来時刻t+Δにおける位置姿勢H(t+Δ)を予測して、未来の対象情報OB(t+Δ)={K(t+Δ),H(t+Δ)}={K(t),H(t+Δ)}として現時刻tでの対象物K(=K(t))の予測情報E(t,K)を得る。本実施形態では、以下の（１）及び／又は（２）の方針に従って予測部13が予測することにより、複数の、未来時刻t+Δにおける位置姿勢H(t+Δ)を予測することで予測情報E(t,K)を得るようにしてよい。

（１）現時刻tに対する未来時刻t+Δを定めるための差分時間Δ（Δ>0）の候補を複数（M個、M≧2）設けておき、これらM個の複数の互いに異なる差分時間Δ（各候補時間Δ=Δ1,Δ2,…,ΔMとする）についてそれぞれ、当該差分時間で定まる未来時刻の位置姿勢H(t+Δ1),H(t+Δ2),…,H(t+ΔM)を予測する。ここで予測手法としては、ある１種類の予測手法を適用する。

（２）ある１つの未来時刻t+Δについて、複数L種類（L≧2）の互いに異なる予測手法を適用することで、複数L個の未来の位置姿勢H(t+Δ)を予測する。すなわち、互いに異なる予測手法の識別子をe(e=1,2,…,L)とし、予測手法eで予測した未来時刻t+Δの位置姿勢をH_e(t+Δ)とすると、互いに異なる予測手法を適用することでL個の予測結果としての位置姿勢H₁(t+Δ), H₂(t+Δ)…, H_L(t+Δ)を得ることができる。

なお、方針（１）に関して、異なる未来時刻での予測結果が偶然一致する場合や、方針（２）に関して、異なる予測手法を適用した結果として偶然、予測結果が一致しうる場合や、方針（１）の１つの予測結果と方針（２）の１つの予測結果とが偶然一致する場合もありうるが、偶然一致した結果が複数得られたものとして、方針（１）及び／又は（２）により複数の予測結果を得ることができる。

方針（１）に関して、複数の差分時間Δは、端末10とサーバ20との間のネットワークNWを介した通信遅延の時間の候補として、実績値を予め取得しておく等により、予め所定の候補時間を複数、設定しておけばよい。あるいは、より正確には、必要となる差分時間は後述する図５の模式例で示されるように、端末10とサーバ20との間での情報の送受信の所要時間と、端末10及びサーバ20で各種の情報処理を完了するのに要する時間と、を加算したものであるため、これらについての実績値を予め取得しておく等により、所定の候補時間を複数設定しておいてもよい。

方針（２）に関して、複数の異なる予測手法は、任意の既存の時系列データ等に適用可能な予測手法から所定のものを複数、予め設定しておけばよい。例えば、カルマンフィルタや、線形補間（位置に関して線形補間、姿勢に関して球面線形補間などを用い、未来時刻について外挿補間すればよい）や、自己回帰移動平均モデル（ARMAモデル）等の１種類以上の統計モデルや、１種類以上の各種の機械学習モデルなどの中から、複数のものを予め設定しておけばよい。ここで、同一種類のモデルであってもパラメータ（方針（１）の予測対象時間Δは当該パラメータからは除くものとする）が異なるものは、互いに異なる予測手法として扱うようにしてもよい。

図２は、予測部13が予測する複数の対象情報（位置姿勢）で構成される予測情報の模式例を示す図であり、撮像画像に撮像され認識部12で認識されたある対象Kについての位置姿勢の履歴データD0が実線グラフL0上に示されている。図２では、現時刻tまでの履歴データD0の一部の模式例として、実線グラフ上L0上に過去時刻t-2,t-1と現時刻tとの３つの位置姿勢データが黒丸（●）で示されている。図２ではさらに、この履歴データD0より現時刻tにおいて予測部13が対象Kについて予測した未来時刻での複数の対象の位置姿勢の予測情報E(t,K)の構成データD12の模式例として、第１の予測手法及び第２の予測手法により予測した結果として破線L1及びL2上にそれぞれ白丸（○）で示される、３＋３＝６個のデータ例が示されている。

すなわち、図２の模式例は、方針（１）として３つの差分時間Δ1,Δ2,Δ3を設定し、方針（２）として２つの異なる予測手法を設定することで、合計で3+3=6個の、未来時刻t+Δ1,t+Δ2,t+Δ3についての位置姿勢の予測情報E(t,K)を得る例となっている。変形例として例えば、方針（１）のみで破線L1上の3個のみのデータで構成される予測情報を得てもよいし、方針（２）のみで、１つの未来時刻t+Δ2における破線L1及びL2上の2個のみのデータで構成される予測情報を得てもよい。

なお、図２では模式例として、位置姿勢を１次元的な量としてグラフ線上に示しているが、実際の位置姿勢は前述の通りホモグラフィ行列等で表現可能なものとして、多次元量であってよい。（当該多次元量で構成される位置姿勢の、各次元の値の時間軸上での予測の模式例が図２であるものとしてよい。）

生成部14は、予測部13より受け取った予測情報に応じた描画を行い、得られる生成情報を選択部15へと送信する。既に説明した通り、予測情報E(t,K)は、現時刻tにおいて認識された種別K(t)(=対象物Kとする)と、その対象物Kに関して予測された未来の複数の位置姿勢とで構成される情報として予測部13で予測されて生成部14に送信されるものである。この予測情報E(t,K)に含まれる複数の位置姿勢をN1個（N1≧2）のH₁,H₂,…H_N1とすると、生成部14では、対象物Kに応じて予め設定されている処理の３次元モデルMD(K)を、これらN1個の位置姿勢のそれぞれに応じて描画することで、N1個の描画情報g₁,g₂…,g_N1を得て、描画するのに用いた位置姿勢（及びモデルMD(K)が対応する対象物Kの情報）と紐づけたN1個のペア情報(H₁,g₁),(H₂,g₂),…,(H_N1,g_N1)を現時刻tの対象物Kに関する生成情報G(t,K)として得る。なお、この生成情報G(t,K)={(H_i,g_i)|i=1,2,…,N1}に紐づいている現時刻tは、撮像部11の撮像時刻tである。予測された各位置姿勢H_i(i=1,2,…,N1)には、予測部13で予測した際の対応する差分時間Δ_iと、適用した予測手法e_iと、の情報を紐づけておいてもよい。

生成部14では、対象物Kに応じて予め設定されている３次元モデルMD(K)を、各位置姿勢H_i(i=1,2,…,N1)で描画することで、対応する描画情報g_i(i=1,2,…,N1)を得ることができる。当該３次元モデルMD(K)は、後述する提示部16において拡張現実表示するための仮想対象としての３次元モデルであり、生成部14では当該３次元モデルを、３次元仮想空間内の位置姿勢H_iに対応する位置姿勢に配置したうえで２次元画像平面（撮像部11を構成するカメラの画像平面）上に描画することで描画情報を得ることができる。３次元コンピュータグラフィックスの分野においてビューイングパイプラインの関係として既知のように、この位置姿勢に配置したうえでの２次元画像平面上への描画は、撮像部11をハードウェアとして構成するカメラについて既知の内部パラメータと、外部パラメータに相当する情報を有する位置姿勢H_iと、を用いて行うことができる。

選択部15では、認識部12から得られる現時刻t2の位置姿勢H(t2)に最も近い位置姿勢を、生成部14から得られている過去時刻t1（t1＜t2）の対象物Kについての生成情報G(t1,K)={(H_i,g_i)|i=1,2,…,N1}に含まれる各位置姿勢H_i(i=1,2,…,N1)の中から探索することで、最も近い位置姿勢H_min(i=minの場合に位置姿勢H_iとH(t2)との相違が最小になったものとする)を選択し、当該選択された最も近い位置姿勢及び対応する描画情報を紐づけた選択情報(H_min,g_min)を提示部16へと出力する。（なお、現時刻t2で認識部12で認識された対象物K(t2)と、生成情報G(t1,K)の対象物K=K(t1)とが同じことを確認したうえで、選択部15は当該選択を行い、選択情報を出力する。現時刻t2の対象物K(t2)とは異なる対象物が紐づいている生成情報しか存在しない場合は、選択部15では当該選択を行わずに、現時刻の対象物K(t2)と同じ対象物が紐づいた生成情報の受信があるまで待機すればよい。）

なお、選択部15では、位置姿勢の相違を任意の既存手法で評価すればよく、例えば、位置姿勢が平面射影変換行列で表される場合に、位置姿勢H_iから位置姿勢H(t2)への変化分を表す平面射影変換行列の積「H(t2)・H_i ^-1」（H_i ^-1はH_iの逆行列）を回転成分と並進成分とに分解し、当該回転成分で与えられる回転角（絶対値）と並進成分で与えられる移動量(絶対値)との重みづけ和等が最も小さいものとして、最も近い位置姿勢H_minを求めるようにしてよい。

選択部15で上記のように、現時刻t2の位置姿勢H(t2)と過去時刻t1の生成情報G(t1,K)とを用いた処理を行う理由は次の通りである。すなわち、図５を参照して後述するように、現時刻t2において端末10の撮像部11において撮像を行って撮像画像P(t2)を得て、これに対する認識部12による認識結果OB(t2)=(K,H(t2))が得られ、選択部15に出力された際に、生成部14から送信されて選択部15で受信して参照可能となっている生成情報は、端末10とサーバ20との間のネットワークNWを介した情報送受信等に要する時間が存在することにより、現時刻t2ではなく過去時刻t1のものであるためである。

なお、選択部15では現時刻t2において生成部14から送信された参照可能となっている最新の（最も近い過去時刻に相当する）過去時刻t1の生成情報G(t1,K)のみではなく、さらに過去にある１つ以上の過去時刻t1-1,t1-2,…の生成情報G(t1-1,K),G(t1-2,K),…も、位置姿勢が最も近いものを探索する対象に含めるようにしてもよい。（この際、前述のように、現時刻t2で認識部12に認識された対象物K(t2)と同じ対象物K=K(t2)が紐づいている生成情報を探索対象とする。）

提示部16では、現時刻t2において選択部15で得られた選択情報(H_min,g_min)のうちの描画情報g_minを撮像部11で得た現時刻t2の撮像画像P(t2)に対して重畳することで、当該現時刻t2における対象物K(t2)に対する拡張現実表示を得て、ユーザに対して提示する。生成部14に関して既に説明したように、生成部14での描画情報の描画は撮像部11を構成するカメラの画像平面においてなされており、撮像部11の撮像画像の座標で定義されたマスク画像（描画した３次元モデルが存在する部分はモデル描画結果としての画素値を有し、存在しない部分は透過領域として構成されるマスク画像）として描画情報が得られている。従って、提示部16では当該共通の座標を用いて描画情報を撮像画像に対してそのまま重畳することで拡張現実表示を実現した画像を得ることができる。

以上、情報システム100の各部が所定の処理タイミングで実行する処理に関して説明した。以下、図３及び図４を参照して、一実施形態に係る各部の処理タイミングの関係に関して説明する。

図３は、一実施形態に係る端末10の動作のフローチャートであり、端末10の各部の動作タイミングの一例を示すものである。図３のフローを開始するとステップS11では、現時刻tが撮像部11による撮像のタイミングであるか否かを判定し、当該タイミングに該当するならステップS12へと進み、当該タイミングに該当しないなら当該ステップS11自身へと戻り、当該タイミングに到達するまで待機する。

ステップS11で肯定判定を得る撮像タイミングを時刻t(t=1,2,…)とする。本実施形態では、以下のステップS12〜S16は当該時刻tに同期して実行され、ステップS16（ステップS16がスキップされた場合はステップS15）よりステップS11に戻った際は、次の撮像タイミングt+1を待機する状態となる。

ステップS12では、当該撮像タイミングtにおいて撮像部11が撮像を行って撮像画像P(t)を得て、この撮像画像P(t)に対して認識部12が認識処理を適用して認識結果の対象情報OB(t)を得てからステップS13へと進む。

ステップS13では、当該撮像タイミングtが予測タイミングに該当するか否かを判定し、該当すればステップS14へと進み、該当しなければステップS14はスキップしてステップS15へと進む。ステップS14では、当該撮像タイミングtまでに得られている認識結果の履歴OB(t),OB(t-1),OB(t-2),…（当該履歴のうち、認識された対象物Kが現時刻tの対象物K(t)と同一であるもの）を参照して予測部13が予測情報E(t,K)を予測し、この予測情報E(t,K)をサーバ20の生成部14へと送信してから、ステップS15へと進む。

ステップS15では、当該撮像タイミングtが提示タイミングに該当するか否かを判定し、該当すればステップS16へと進み、該当しなければステップS16はスキップしてステップS11へと戻る。

ステップS16では、当該撮像タイミングtにおいて選択部15が受信済みとなっている最新過去時刻t-Δ（Δ>0）の生成情報G(t-Δ,K)の中から、当該撮像タイミングtの位置姿勢H(t)（当該時刻tにおいてステップS12で認識されたもの）に最も近いものを探索することで選択情報(H_min,g_min)を得たうえで、提示部16が当該選択情報における描画情報g_minを当該撮像タイミングtの撮像画像P(t)（当該時刻tにおいてステップS12で撮像されたもの）に対して重畳して拡張現実表示を行い、ステップS11へと戻る。なお、選択部15に関して既に説明したように、ステップS16ではさらに過去時刻の生成情報G(t-Δ-1,K), G(t-Δ-2,K),…も探索対象としてよい。また、前述のように、現時刻tで認識部12に認識された対象物K(t)と同じ対象物K=K(t)が紐づいている生成情報を、ステップS16における探索対象とし、この条件に該当する生成情報が存在しない場合は選択部15による選択ができなかったものとして、提示部16では重畳することなく、撮像画像P(t)のみを表示してよい。

以上、図３のステップにおいて、ステップS13及びステップS15で肯定判定を得るタイミングは、ステップS11と同期させて設定してもよいし、ステップS11のタイミングから一定割合を間引いた間欠的なものとして設定してもよい。ステップS13及びステップS15の両方をステップS11と同期して設定する場合、常に肯定判定となるためこれらステップS13及びステップS15は省略したものとみなすことができる。この場合、端末10の各部11〜16が全て撮像部11の撮像レート（例えば30fps）に同期して動作することとなる。ステップS13及び／又はステップS15の肯定判定をステップS11から一定割合だけ間引く場合、例えば、撮像部11及び認識部12は30fpsで動作し、予測部13は30回毎の間欠的な動作として1fpsで動作し、選択部15及び提示部16は2回毎の間欠的な動作として15fpsで動作する、といったことが可能である。なお、提示部16の動作処理レートは、拡張現実表示のレートとなる。

図４は、一実施形態に係るサーバ20の動作のフローチャートであり、サーバ20を構成する生成部14の動作タイミングの一例を示すものである。図４のフローを開始するとステップS21では端末10の予測部13において予測され送信された新たな最新の予測情報E(t,K)を生成部14において受信したか否かを判定し、受信があればステップS22へと進み、受信がなければ当該ステップS21へと戻ることにより、受信があるまで待機する。

ステップS22では、生成部14において当該予測情報E(t,K)に含まれる対象物Kに応じた３次元モデルMD(K)を当該予測情報E(t,K)に含まれる複数の位置姿勢H_i(i=1,2,…,N1)に応じて描画情報g_i(i=1,2,…,N1)を描画することで生成情報G(t,K)={(H_i,g_i)|i=1,2,…,N1}を得て、この生成情報G(t,K)を端末10の選択部15へと送信してから、ステップS21へと戻る。

以上、図４のステップに示されるように、サーバ20の生成部14では、新たな予測情報E(t,K)の受信があり次第、直ちに生成情報G(t,K)を生成して端末10の選択部15へと送信すればよい。

図５は、情報システム100の各部の動作タイミングの例を示す図であり、以上の図３及び図４に従って動作することで、端末10の撮像部11で過去時刻t1において撮像した撮像画像P(t1)を元にして得られる生成情報G(t1,K)が端末10の選択部15及び提示部16で現時刻t2（t1<t2）に参照可能となることを、各情報の送受信のタイミングを模式的に表現することで示したものである。

図５では垂直下方向に情報システム100の各部に共通の時間進行軸が示され、図示される通り、過去時刻t1で得た撮像画像P(t1)より認識結果OB(t1)が得られ、予測情報E(t1,K)が得られ、端末側送受部21及びサーバ側送受部22を介してネットワークNW上で予測情報E(t1,K)が送信されることにより生成部14において受信されて生成情報G(t1,K)が得られ、サーバ側送受部22及び端末側送受部21を介してネットワークNW上で生成情報G(t1,K)が送信されることにより選択部15において受信される。

以上の各処理（及び以下の各処理）には、図５に縦方向のバーとして模式的に示されるように、それぞれ処理完了に要する時間が存在する。

生成情報G(t1,K)が選択部15において受信されたタイミングは、撮像部11及び認識部12が新たな現時刻t2のタイミングで処理を行っているタイミングに相当することから、選択部15では新たな現時刻t2の認識結果OB(t2)の位置姿勢に最も近い位置姿勢を生成情報G(t1,K)（及びさらに１つ以上過去の生成情報）の中から選択情報SL(t2)として選択し、提示部16ではこの現時刻t2での選択情報SL(t2)と撮像画像P(t2)とを用いて拡張現実表示を行う。なお、図３のステップS16等に関して前述のように、受信した生成情報G(t1,K)に紐づいた対象物K=K(t1)が、現時刻t2の認識結果OB(t2)における対象物K=K(t2)と同じであることを確認したうえで、選択部16において位置姿勢が最も近いものを選択し、選択情報SL(t2)を得る。

なお、図３及び図４の動作タイミング例で説明したように、情報システム100の各部はそれぞれが繰り返し処理を行っている。図５は、現時刻t2において提示部16が拡張現実表示を行う際に参照される各情報の生成や送信のタイミングのみを、これら繰り返し処理の中から抜粋して模式的に示したものである。

図５に示されるように、端末10では現時刻t2において受信している最新の予測情報に紐づいている過去時刻t1より、予測部13が方針（１）で予測する差分時間Δ_iの正解を、これら２時刻の差「t2-t1」として計算し、取得することが可能である。予測部13ではこの差分時間の正解を履歴として保存しておき、方針（１）の差分時間Δ_iを動的に決定するようにしてもよい。（例えば、一定期間の過去履歴の正解差分時間Δの統計分布から、当該統計分布の範囲内にある複数の値として、現時刻tでの方針（１）による予測のための複数の差分時間Δ_iを定めるようにしてもよい。）方針（２）に関しても、複数の予測手法e_iのうち正解であったもの（選択部16で実際に選択されたもの）あるいは正解率が高いものを、以降の時刻における予測部13による予測で優先的に利用する等（例えば他の予測手法よりも予測個数を増やす等）の、動的な決定を行うようにしてよい。

図６は、図５の動作タイミングにより実現される拡張現実表示の模式例を示す図である。過去時刻t1の撮像画像P(t1)では認識部12で認識される対象物Kの一例としての正方マーカMが平面上に配置されている状態が撮像されており、現時刻t2の撮像画像P(t2)では同マーカMが平面上にあるが、過去時刻t1の状態からは位置姿勢が変化して傾いた状態として撮像されている。過去時刻t1の撮像画像P(t1)を元に得られる生成情報G(t1,K)が現時刻t2で参照可能になっており、４つの描画情報g1,g2,g3,g4（正方マーカM上に拡張現実表示として重畳させることを想定した立方体３次元モデルを各位置姿勢で描画したもの）の中から現時刻t2の位置姿勢に最も近いと判定された描画情報g2が現時刻t2の撮像画像P(t2)に重畳され、現時刻t2での拡張現実表示AR(t2)が得られる。

図６に示されるように、過去時刻t1の撮像画像P(t1)に関してもさらに過去時刻t0（不図示、t0<t1）のものとして得られている生成情報G(t0,K)（不図示）の中から当該過去時刻t1の位置姿勢に最も近いと判定された描画情報g0が撮像画像P(t1)に対して重畳され、拡張現実表示AR(t1)が得られる。（すなわち、図６では時刻t2を現在時刻としているが、過去時刻t1が現在時刻である時点においても、同様の処理により拡張現実表示が行われる。）

以上、一実施形態に係る情報システム100によれば、サーバサイドレンダリング方式を採用した、端末10の側の位置姿勢に基づく拡張現実表示において、複数の予測位置姿勢（予測情報E(t,K)）に基づいてレンダリングし端末受信時の位置姿勢に類似したレンダリング結果を選択して重畳することで、サーバサイドレンダリングにおいて不可避となる情報の送受信等による遅延の影響としての位置ずれを抑制することが可能となる。

以下、種々の補足事項や変形例等を説明する。

（１）図７は、図１とは別の一実施形態に係る情報システム100の構成図であり、図１の構成に対して、予測部13が端末10ではなくサーバ20に備わる点のみで相違する構成を示す図である。この場合も各部の処理は図１に関して説明したのと同様であるが、情報の送受信の構成として、認識部12で認識した結果としての対象情報がネットワークNWを介して予測部13へと送信されることで出力される点と、予測部13の予測情報がそのままサーバ20内にある生成部14に出力される点とが相違している。

図７の実施形態では、図３及び図４の動作フローを次のように変更すればよい。端末10の側の動作を示す図３では、ステップS13を認識部12が認識した対象情報のサーバ20の側への送信タイミングの判定処理に変更し、ステップS14を当該肯定判定の際の、対象情報のサーバ20の側への送信処理へと変更すればよい。サーバ20側の動作を示す図４では、ステップS21を対象情報の受信があったか否かの判定に変更し、ステップS22を予測部13による予測と、この予測情報を用いた生成部14による生成情報の生成及び端末10の側への送信に変更すればよい。

（２）生成部14では、予測情報に含まれる各位置姿勢に応じた、対象物Kに応じた３次元モデルMD(K)の描画を行って描画情報を得るものとしたが、これに代えて、音声情報（定常的な音声）の生成を行ってもよい。この際、仮想３次元空間内において３次元モデルMD(K)の位置姿勢に音源があるものとして、音量や位相などを反映したステレオ音声を生成すればよい。選択部15では生成情報に含まれる位置姿勢を参照することで同様に最も近い位置姿勢に対応する音声情報を選択して、提示部16では当該選択された音声情報を再生することで提示することができる。３次元モデルMD(K)の描画と音声情報の生成との両方を行い、両方を提示部16で提示（表示及び再生）するようにしてもよい。

（３）図３のステップS13の予測タイミングの判定を、ステップS11の撮像タイミング（時刻t）に応じた所定のレートとして予め設定しておくのではなく、動的に判定する変形例として次のようにしてもよい。すなわち、ステップS13では選択部15において、当該時刻tにおいて参照可能となっている生成情報の中から、当該時刻tの撮像画像P(t)に撮像されている対象物K(t)を認識して得た位置姿勢H(t)に最も近いと判定される位置姿勢H_minを探索し、この現在の位置姿勢H(t)と最も近いものとして探索された位置姿勢H_minとの相違が閾値判定で小さいとされた場合、予測部13での予測を行わない（すなわち、ステップS13で否定判定を得る）ようにしてもよい。

上記ステップS13での選択部15による探索判定は次のものに変更してもよい。すなわち、当該時刻tにおいて参照可能となっている生成情報の中から、当該時刻tの撮像画像P(t)を認識して得た位置姿勢H(t)との相違が閾値以下であるような位置姿勢Hを探索し、当該探索された位置姿勢Hの個数が閾値以上となり多いと判定される場合に、予測部13での予測を行わない（すなわち、ステップS13で否定判定を得る）ようにしてもよい。

上記動的に判定する場合は、選択部15では現時刻から見て一定期間の過去に渡って既に受信済みとなっている生成情報を探索の対象とすればよい。当該受信済みで蓄積されている生成情報の中に既に現時刻tの位置姿勢に近い位置姿勢が１つあるいは多数存在する場合にステップS13の否定判定を得て、予測部13による予測と結果としての予測情報のサーバ20側への送信を停止することで、サーバ20側の負荷やネットワークNWの帯域を節約することが可能となる。

（４）以上の説明では、拡張現実の表示を行う場合に、提示部16では撮像画像P(t)に選択部15が選択した描画情報を重畳した拡張現実表示を提供するものとした。これは、端末10がディスプレイを有するスマートフォン等である場合や、ビデオシースルー型のディスプレイを有するHMD（ヘッドマウントディスプレイ）等である場合に適用可能である。この変形例として、光学シースルー型ディスプレイを有するHMD等によって端末10を構成し、提示部16では選択部15が選択した描画情報のみを、ユーザの肉眼に直接見えている実世界の背景（撮像画像P(t)が撮像しているのと同じ背景）に対して重畳して表示することで拡張現実表示を提供するようにしてもよい。なお、光学シースルー型ディスプレイから見える景色が撮像部11のカメラで撮像する撮像画像と一致するように、ディスプレイ及びカメラ間で位置合わせやキャリブレーション等を予め行っておくようにすればよい。

（５）予測部13での別の実施形態として、前述した方針（１）及び（２）の両方に関して単数（１つの差分時間Δと１つの予測手法）のみを設定し、現時刻tに関して複数ではなく１つのみの未来の位置姿勢情報H(t+Δ)を予測して、予測情報を得るようにしてもよい。この場合、選択部15では、継続して取得され保存しておく２時刻以上の予測情報に対応する生成情報（紐づいた対象物Kが現時刻におけるものと共通するもの）から選択を行うことで、以上説明してきた複数の位置姿勢を含む生成情報から選択する場合と同様に選択を行うことができる。予測情報において１つの位置姿勢情報しか存在しない場合は、当該姿勢情報を選択するようにしてもよいし、現時刻tの位置姿勢情報H(t)に近いと閾値判定されなかった場合は、選択対象が存在しなかったものとして提示部16での提示処理を省略するようにしてもよい。

（６）予測部13が前述の方針（１）及び／又は（２）により１つの予測情報E(t,K)を、複数の予測される位置姿勢を含む情報として得る場合に可能な実施形態として、生成部14では、予測情報E(t,K)を受信して、複数の位置姿勢に応じて３次元モデルMD(K)を描画した結果としての生成情報G(t,K)={(H_i,g_i)|i=1,2,…,N1}を、N1枚（N1≧2）のマスク画像g₁,g₂…,g_N1（N1枚の当該マスク画像で構成される時間軸上の連続フレーム）からなる映像として符号化してもよい。生成部14は当該符号化ストリームの形の生成情報G(t,K)を、ネットワークNW上を介して選択部15へと送信し、選択部15において復号して、画像情報としての生成情報G(t,K)を得るようにしてもよい。

上記のように映像として符号化する場合、符号化対象となる複数のマスク画像g₁,g₂…,g_N1を、対応する位置姿勢H₁,H₂,…H_N1が最も近いもの同士が時間軸上で隣接するように並び替えたうえで、当該並び替えられた順番でフレーム時刻（予測部13で予測する際の方針（１）の差分時刻Δや撮像時刻tとは別途の、映像として符号化するためのフレーム時刻）が定義される映像として予測符号化を適用してよい。例えば、最初の時刻のフレームはフレーム内予測（イントラ予測）を適用し、以降の時刻のフレームは、前時刻のフレームを参照フレームとしてフレーム間予測（インター予測）を適用して符号化してもよい。生成部14における映像の符号化と、当該符号化映像を受信した選択部15における復号とには、H.264やH.265等の任意の既存の動画像圧縮方式に即したものを用いてよい。

上記の並び替える例として、図６の４つの位置姿勢の描画結果g1〜g4で構成される生成情報G(t1,K)であれば、g4→g1→g3→g2の順番で時間軸上に並ぶ４フレーム分の映像として、この生成情報G(t,K)を符号化するようにしてよい。隣接フレーム間での位置姿勢の変化が小さくなるように並び替えることで、フレーム間予測の動きベクトルや予測残差が小さくなり、符号化効率を向上させることができる。

（７）認識部12では、予めリファレンスとしての特徴情報を登録しておく複数の認識対象物の中から、撮像部11で得られている撮像画像に撮像されている対象物を認識するものとしたが、複数ではなく単数の唯一の対象物（１種類のみの対象物）を認識されうる対象物（この認識結果により提示部16において拡張現実表示が重畳されうる対象物）の候補として設定しておいてもよい。この場合、対象情報、予測情報及び生成情報においては、これらの情報は認識部12で認識に成功して得られる情報であるため、対象物の情報を省略するようにしてもよい。生成部14においても、３次元モデルの情報は当該１種類の対象物に応じたものとして予め登録しておき、このモデルを描画すればよい。（なお、予め登録される認識・重畳の対象物が単数又は複数のいずれの場合においても、撮像画像に対象物が撮像されていない等により、認識部12で認識できない場合は、当該時刻に関して予測部13、選択部15及び提示部16の処理を省略し、拡張現実表示を行わないようにすればよい。）

（８）図８は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。情報システム100における端末10及びサーバ20はそれぞれ、このような構成を有する１台以上のコンピュータ装置70として実現可能である。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する１つ以上の専用プロセッサ72（GPU（グラフィックス処理装置）や深層学習専用プロセッサ等）、CPU71にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。

端末10及びサーバ20の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又は専用プロセッサ72によって実現することができる。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、ネットワーク上でのデータ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。撮像部11及び提示部16をハードウェアとして構成するのがそれぞれ、カメラ78及びディスプレイ76である。端末側送受部21及びサーバ側送受部22をハードウェアとして構成するのが通信インタフェース75である。

100…情報システム、10…端末、20…サーバ
11…撮像部、12…認識部、13…予測部、14…生成部、15…選択部、16…提示部

Claims

ネットワークを介して相互に通信可能とされる端末及びサーバを備える情報システムであって、
前記端末は、撮像部、認識部、選択部及び提示部を備え、前記サーバは生成部を備え、前記端末又は前記サーバは予測部を備え、
前記撮像部は、継続して撮像を行うことで継続して撮像画像を得ており、
前記認識部は、前記撮像画像を解析して当該撮像画像に撮像されている対象を認識し、当該対象の位置姿勢を推定し、
前記予測部は、前記推定された位置姿勢の履歴より未来の少なくとも１つの位置姿勢を予測し、
前記生成部は、前記予測された位置姿勢に対応する少なくとも１つの情報を生成し、
前記選択部は、前記生成された情報の中から選択し、
前記提示部は、前記選択された情報を提示し、
前記選択部は、前記認識部が現時刻の撮像画像より推定した位置姿勢に近いと判定される位置姿勢に対応する情報を、過去時刻において前記予測部が予測した少なくとも１つの位置姿勢に対応するものとして前記生成部が生成した少なくとも１つの情報の中から選択することを特徴とする情報システム。
前記予測部は、前記端末と前記サーバとの間でのネットワークを介した通信遅延の時間候補を複数設け、現時刻を起点として当該複数の時間候補だけ先の複数の未来時刻に関してそれぞれ、位置姿勢を予測することを特徴とする請求項１に記載の情報システム。
前記予測部は、複数の互いに異なる予測手法を用いて予測することにより、未来の複数の位置姿勢を予測することを特徴とする請求項１または２に記載の情報システム。
前記生成部は、前記予測された位置姿勢に対応する拡張現実表示の描画を行うことによって、前記情報を生成することを特徴とする請求項１ないし３のいずれかに記載の情報システム。
前記提示部は、前記選択された、前記拡張現実表示の描画としての情報を、前記撮像部が現時刻において撮像して得た撮像画像に対して重畳して表示することを特徴とする請求項４に記載の情報システム。
前記生成部は、前記予測された位置姿勢に対応する音源における音声生成を行うことによって少なくとも１つの情報を生成することを特徴とする請求項１ないし５のいずれかに記載の情報システム。
前記選択部は、前記認識部が現時刻の撮像画像より推定した位置姿勢に近いと判定される位置姿勢に対応する情報を、過去時刻において前記予測部が予測した少なくとも１つの位置姿勢に対応するものとして前記生成部が生成した少なくとも１つの情報の中から探索し、
現時刻において、当該判定されて探索された個数が閾値条件を満たして多いと判定される場合、前記予測部は、前記予測する処理を省略することを特徴とする請求項１ないし６のいずれかに記載の情報システム。
前記予測部は、前記推定された位置姿勢の履歴より未来の複数の位置姿勢を予測し、
前記生成部は、前記予測された位置姿勢に対応する複数の拡張現実表示の描画を行うことで前記情報を生成し、当該複数の描画を対応する位置姿勢の隣同士での変化が少ない順番に並び替え、当該複数の描画を当該並び替えられた順番でフレーム番号が定まる映像として符号化して、当該符号化映像を前記選択部へと送信することを特徴とする請求項１ないし７のいずれかに記載の情報システム。
ネットワークを介して相互に通信可能とされる端末及びサーバを備える情報システムにおける端末であって、
前記端末は、撮像部、認識部、選択部、提示部を備え、前記サーバは生成部を備え、前記端末又は前記サーバは予測部を備え、
前記撮像部は、継続して撮像を行うことで継続して撮像画像を得ており、
前記認識部は、前記撮像画像を解析して当該撮像画像に撮像されている対象を認識し、当該対象の位置姿勢を推定し、
前記予測部は、前記推定された位置姿勢の履歴より未来の少なくとも１つの位置姿勢を予測し、
前記生成部は、前記予測された位置姿勢に対応する少なくとも１つの情報を生成し、
前記選択部は、前記生成された情報の中から選択し、
前記提示部は、前記選択された情報を提示し、
前記選択部は、前記認識部が現時刻の撮像画像より推定した位置姿勢に近いと判定される位置姿勢に対応する情報を、過去時刻において前記予測部が予測した少なくとも１つの位置姿勢に対応するものとして前記生成部が生成した少なくとも１つの情報の中から選択することを特徴とする端末。
ネットワークを介して相互に通信可能とされる端末及びサーバを備える情報システムにおけるサーバであって、
前記端末は、撮像部、認識部、選択部、提示部を備え、前記サーバは予測部及び生成部を備え、
前記撮像部は、継続して撮像を行うことで継続して撮像画像を得ており、
前記認識部は、前記撮像画像を解析して当該撮像画像に撮像されている対象を認識し、当該対象の位置姿勢を推定し、
前記予測部は、前記推定された位置姿勢の履歴より未来の少なくとも１つの位置姿勢を予測し、
前記生成部は、前記予測された位置姿勢に対応する少なくとも１つの情報を生成し、
前記選択部は、前記生成された情報の中から選択し、
前記提示部は、前記選択された情報を提示し、
前記選択部は、前記認識部が現時刻の撮像画像より推定した位置姿勢に近いと判定される位置姿勢に対応する情報を、過去時刻において前記予測部が予測した少なくとも１つの位置姿勢に対応するものとして前記生成部が生成した少なくとも１つの情報の中から選択することを特徴とするサーバ。
コンピュータを請求項９に記載の端末又は請求項１０に記載のサーバとして機能させることを特徴とするプログラム。