JP2023152861A - 投影システムを制御する装置、方法及びプログラム - Google Patents

投影システムを制御する装置、方法及びプログラム Download PDF

Info

Publication number
JP2023152861A
JP2023152861A JP2023046323A JP2023046323A JP2023152861A JP 2023152861 A JP2023152861 A JP 2023152861A JP 2023046323 A JP2023046323 A JP 2023046323A JP 2023046323 A JP2023046323 A JP 2023046323A JP 2023152861 A JP2023152861 A JP 2023152861A
Authority
JP
Japan
Prior art keywords
person
projection
information
processors
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023046323A
Other languages
English (en)
Inventor
ラ コー クリステンセン マックス
La Cour Christensen Max
マーチン ピスター ラース
Martin Piester Lars
イショージ ソエンデルガールド ウルリッヒ
Ishoej Soendergaard Ulrik
ウェステルガールド ヤコブセン トーマス
Westergaard Jakobsen Thomas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokogawa Electric Corp
Original Assignee
Yokogawa Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokogawa Electric Corp filed Critical Yokogawa Electric Corp
Publication of JP2023152861A publication Critical patent/JP2023152861A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3179Video signal processing therefor
    • H04N9/3185Geometric adjustment, e.g. keystone or convergence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F19/00Advertising or display means not otherwise provided for
    • G09F19/12Advertising or display means not otherwise provided for using special optical effects
    • G09F19/18Advertising or display means not otherwise provided for using special optical effects involving the use of optical projection means, e.g. projection of images on clouds
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F19/00Advertising or display means not otherwise provided for
    • G09F19/22Advertising or display means on roads, walls or similar surfaces, e.g. illuminated
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F27/00Combined visual and audible advertising or displaying, e.g. for public address
    • G09F27/005Signs associated with a sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3141Constructional details thereof
    • H04N9/3147Multi-projection systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3191Testing thereof
    • H04N9/3194Testing thereof including sensor feedback
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19608Tracking movement of a target, e.g. by detecting an object predefined as a target, using target direction and or velocity to predict its new position
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B7/00Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00
    • G08B7/06Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources
    • G08B7/066Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources guiding along a path, e.g. evacuation path lighting strip
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F27/00Combined visual and audible advertising or displaying, e.g. for public address
    • G09F2027/001Comprising a presence or proximity detector

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Accounting & Taxation (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Projection Apparatus (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Controls And Circuits For Display Device (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】人物検出の分野における改良されたコンセプトを提供する。【解決手段】投影システムを制御する装置を提供する。この装置は、ビデオデータを1つ以上のカメラから取得し、投影システムと通信するための少なくとも1つのインタフェースを備えている。この装置は1つ以上のプロセッサを備え、このプロセッサは、ビデオデータを処理してビデオデータ中に示される環境内の人物の位置を特定し、環境内の人物の位置に基づいて投影ターゲットを決定し、人物についての追加的情報を取得し、投影システムを制御して投影画像を投影ターゲット上に投影させる。投影画像は、人物についての追加的情報及び/または人物の位置に依存する情報を含む。【選択図】図1a

Description

本発明の種々の例は、投影システムを制御する装置、方法、及びコンピュータプログラム、及びこうした装置、投影システム、及び1つ以上のカメラを備えたシステムに関するものである。
カメラは、倉庫または空港のような閉じた空間内の侵入者の存在を長時間にわたって検出するために使用されてきた。一般に、人間のオペレータが複数のカメラのビデオ映像を監視して、ビデオ映像中の侵入者を検出すべく見張る。
それに加えて、PIR(Passive InfraRed:受動型赤外線)検出器が、検出領域内部の人物の大まかな存在を検出するために用いられている。夜間に、方向設定不可能なフットライトが、人物の検出時にスイッチオンされて領域全体を照明する。一般に、PIR検出器は動物によってトリガされることもあり、その存在検出は非常に基本的であり、このため、検出した人物または動物の正確な位置を知ることができず、このため大きな領域が一度に照明される。
一部の場合には、人物の大まかな検出を、カメラに基づく人物の位置の特定と組み合わせて、サーチライトを人物に当てる。しかし、こうしたサーチライトは、例えば、受刑者が刑務所から脱走することを防止する関連のセキュリティ(保安)用途に限定される。
Ye他、"Deep Learning for Person Re-identification: A Survey and Outlook"、IEEE Transactions on Pattern Analysis and Machine Intelligence、2020年1月6日、pp.2872-2893、vol.44
人物検出の分野における改良されたコンセプトの要望が存在し得る。
独立請求項の主題が、この要望に応える。
本発明の種々の例は、人物検出の分野は、セキュリティの態様に関連するだけでなく、検出した人物に情報を届けて、例えば大きな建物を通る人物の経路を案内し、あるいは状況に応じた手助けまたは情報を提供する態様にも関連する、という発見に基づく。本発明は、自動的なカメラベースの人物検出を、環境内の人物の位置を特定するアルゴリズムと組み合わせて用いる。環境内の人物の位置に基づいて、投影ターゲットを(例えば、近くの壁面に、あるいは床面上に)決定し、この人物に関係するものと考えられる情報を投影ターゲット上に投影する。こうして、環境を投影ターゲットとして用いて、非常に関係のある情報を、的を絞ったやり方で人物に提供することができる。本発明を用いて、方向設定可能な情報投影機を、カスタマイズ(顧客対応)された情報の方向設定可能な提示用に実現することができる。
本発明の一部の例は、投影システムを制御する装置に関するものである。この装置は、ビデオデータを1つ以上のカメラから取得し、投影システムと通信するための少なくとも1つのインタフェースを備えている。この装置は、ビデオデータを処理して、ビデオデータ中に示される環境内の人物の位置を特定するように構成された1つ以上のプロセッサを備えている。この1つ以上のプロセッサは、人物に対する投影ターゲットを、環境内の人物の位置に基づいて決定するように構成されている。この1つ以上のプロセッサは、人物についての追加的情報を取得するように構成されている。この1つ以上のプロセッサは、投影システムを制御して投影画像を投影ターゲット上に投影させるように構成されている。この投影画像は、人物についての追加的情報及び/または人物の位置に依存する情報を含む。人物についての追加的情報(及び/または人物の位置)に依存する情報を投影ターゲット上に投影することによって、投影されている情報は、ユーザに非常に関係し、ユーザが容易に知覚することができる様式で表示することもできる。
例えば、上記1つ以上のプロセッサは、人物のポーズ及び/または人物の少なくとも1つの身体部分の向きを特定するように構成することができる。上記1つ以上のプロセッサは、人物に対する投影ターゲット及び/または投影する情報を、人物のポーズに基づいて、及び/または少なくとも1つの身体部分の向きに基づいて決定するように構成することができる。人物に対する投影ターゲットを、人物のポーズまたは身体部分(例えば、頭部)の向きに基づいて決定することによって、人物が投影画像を知覚することができるように投影画像を置くことができる。例えば、上記1つ以上のプロセッサは、(人物の現在のポーズまたは頭部の向きに基づいて)人物が前方を見ている場合に人物が投影画像を知覚することができるように、投影ターゲットを決定するように構成することができる。人物のポーズに基づいて、及び/または少なくとも1つの身体部分(例えば、頭部)の向きに基づいて、投影する情報を決定することによって、人物が良く見ている物体上に情報を与えることができる。
一般に、投影システムは、投影画像を異なる場所に置くように設計されている。しかし、投影ターゲットの配置次第では、例えば、投影システムに対する投影ターゲットの角度及び人物に対する投影ターゲットの角度に起因して、及び/または投影ターゲットが平らでない表面であることに起因して、結果的な投影画像が歪むことがある。上記1つ以上のプロセッサは、人物の頭部の位置及び/または向きを特定し、投影画像の情報内容が人物によって認識可能であるように、人物の頭部の位置及び/または向きに基づいて投影画像を予め空間的に変形させるように構成することができる。換言すれば、人物が情報を判読可能である(あるいは、情報をグラフィックにより伝える場合には認識可能である)ことを保証する補正を行うことができる。更に、対話的な3D(three dimensional:三次元)効果を発生することができる。
想定されるコンセプトは、一般に、単一のカメラ及び単一の投影機(プロジェクタ)を用いて実現することができる。しかし、このコンセプトは、複数のカメラ及び/または複数の投影機で、より大きな空間内でも適用可能である。例えば、上記1つ以上のプロセッサは、投影システムの複数の投影機のうちの1つを、人物の位置に基づいて、人物のポーズに基づいて、及び/または人物の少なくとも1つの身体部分の向きに基づいて選択するように構成することができる。上記1つ以上のプロセッサは、投影システムを制御して、選択した投影機を用いて投影画像を投影させるように構成することができる。例えば、人物の視野内にある投影ターゲット上に投影するのに適した投影機を選択することができる。
投影ターゲットを置くことができる異なる場所が存在する。例えば、上記1つ以上のプロセッサは、投影ターゲットを、環境の床面上、壁面上、及び人物の所定の身体部分上、のうちの1つに設定するように構成することができる。例えば、床面を用いて人物の経路についての情報を伝えることができるのに対し、壁面を用いて、例えば、壁面の付近に配置された物体についての書面情報を伝えることができる。情報がこの人物のみによって認識可能であるべき場合、あるいは情報がこの人物に関連するが他の人物(例えば、警備員)の目に見えるべき場合、身体部分、例えば手の平または手の甲を用いることができる。
提案するコンセプトを用いて、継続的支援をユーザに提供することができる。例えば、上記1つ以上のプロセッサは、ビデオデータの複数のフレームにわたって人物の位置を追跡して、人物の位置が変化した場合に投影ターゲットを更新するように構成することができる。特に、上記1つ以上のプロセッサは、少なくとも2つのカメラのビデオデータにわたって人物の位置を追跡するように構成することができる。実際には、大きな、あるいはねじれた空間を人物が動き回る間に、投影画像を調整することができる。
種々の例では、上記1つ以上のプロセッサが、深層学習(ディープラーニング)を用いて学習させた機械学習モデルを用いて、人物の位置、人物のポーズ、及び/または人物の少なくとも1つの身体部分の向きを、ビデオデータに基づいて特定するように構成されている。機械学習、特に深層学習は、位置、ポーズまたは向きの特定を改善して、増加した精度、信頼性、または多用途性を実現する。
提案する投影画像は、多くの場合、人物についての追加的情報に基づく。こうした追加的情報は、特に、人物のアイデンティティ(同一性)に基づいて、あるいは人物の前の居場所に基づいて獲得することができ、人物の前の居場所は人物の再同定スキームを用いて追跡することができる。例えば、上記1つ以上のプロセッサは、ビデオデータに基づいて人物を同定または再同定するように構成することができる。
提案するコンセプトでは、投影画像が人物のアイデンティティまたは再同定に基づくことができる。特に、人物のアイデンティティまたは再同定を用いて、a)情報が投影すべきものであるか否かを判定して、b)この情報を投影することを決定することができる。
従って、a)に関しては、上記1つ以上のプロセッサは、人物のアイデンティティまたは再同定が所定の基準を満足するか否かに基づいて、投影システムを制御して投影画像を投影させるように構成することができる。例えば、人物が(従業員とは対照的な)来訪者である場合、(例えば人物が安全帽なしで製造プラントの危険区域内へ入り込んでいるので)人物が現在の場所にいることを許可されていない場合、あるいは人物が認識されず、さもなければ投影画像を省略することができる場合、投影画像を投影することができる。
b)に関しては、上記1つ以上のプロセッサは、上記追加的情報を、人物のアイデンティティまたは再同定に基づいて決定するように構成することができる。例えば、上記1つ以上のプロセッサは、人物についての追加的情報を、この人物についての情報を含むデータベースから取得するように構成することができる。
例えば、提案するシステムを用いて、大きな空間を通して、例えば空港または大きなオフィス空間を通して人物を案内することができる。人物はターミナルで登録して自分の行き先を指定することができる。次に、提案するシステムを用いて、この人物を行き先に向けて案内することができる。例えば、上記1つ以上のプロセッサは、人物のアイデンティティまたは再同定に基づいて、この人物の行き先を、この人物についての追加的情報として特定するように構成することができる。上記1つ以上のプロセッサは、この人物の行き先を指し示す方向指示記号付きの投影画像を生成するように構成することができる。
特に、視覚情報に関しては、異なる人物が異なる必要性を有する。例えば、異なる人物は異なる言語または表記文字(例えば、繁体字の漢字対簡体字の漢字)を話すこと(従って、読むこと)がある。更に、一部の人物はより大きな文字、あるいはある形態のジオプター補正を必要とすることがある。また、一部の人物は色覚異常であり、色を通して伝えられる情報の知覚に限界がある。例えば、上記1つ以上のプロセッサは、人物のアイデンティティまたは再同定に基づいて、この人物が視覚情報を知覚する能力についての情報を、この人物についての追加的情報として決定するように構成することができる。上記1つ以上のプロセッサは、人物が視覚情報を知覚する能力についての情報に基づいて、投影画像の情報内容の視覚的表現を決定するように構成することができる。特に、上記1つ以上のプロセッサは、投影画像の使用色、フォントサイズ、使用言語、使用文字種、及びジオプター補正、のうちの少なくとも1つを適合させるように構成することができる。
以上で指摘したように、上記投影システムを用いて投影画像を異なるターゲット上、例えば壁面上、床面上、または身体部分上に投影することができる。これらの投影ターゲットは、平らでないか、人物または投影システムに対する未知の角度を有することがある。従って、較正メカニズムを用いて、人物によって知覚される投影画像の歪みを回避することができる。例えば、上記1つ以上のプロセッサは、投影システムを制御して較正投影画像を投影させるように構成することができる。上記1つ以上のプロセッサは、較正投影画像を示すビデオデータに基づいて較正情報を決定するように構成することができる。上記1つ以上のプロセッサは、較正情報に基づいて投影システムを制御するように構成することができる。
提案するコンセプトは、セキュリティ関係において用いることもできる。例えば、提案するコンセプトは、大きく暗い空間を監視するために用いることができる。例えば、赤外線カメラ、即ち赤外線発光器を有し赤外線反射に感応するカメラを用いて暗い所を見ることができる。従って、上記ビデオデータは赤外線カメラのビデオデータとすることができる。
一部の例では、人物についての追加的情報及び/または人物の位置を、無線周波数カードリーダ、ブルートゥース(登録商標)ビーコンのような追加的センサを用いて定めることができる。例えば、上記1つ以上のプロセッサは、1つ以上の追加的センサのセンサデータに更に基づいて、人物の位置を特定し、及び/または人物についての追加的情報を決定するように構成することができる。
本発明の一部の例は、投影システムを制御する対応する方法に関するものである。この方法は、1つ以上のカメラのビデオデータを処理して、ビデオデータ中に示される環境内の人物の位置を特定するステップを含む。この方法は、人物についての追加的情報を取得するステップを含む。この方法は、投影システムを制御して投影画像を投影ターゲット上に投影させるステップを含み、この投影画像は、人物についての追加的情報及び/または人物の位置に依存する情報を含む。
本発明の一部の方法は、対応するコンピュータプログラムに関するものであり、このコンピュータプログラムは、コンピュータ、プロセッサ、処理回路、またはプログラマブルなハードウェア構成要素上で実行されると上記の方法を実行するためのプログラムコードを有する。
本発明の一部の例は、投影システムを制御する他の装置に関するものである。この装置は、異なるフォーカスを有するが、以上で提示した装置と同様に実現される。特に、投影ターゲットの決定及び人物についての追加的情報の決定を省略することができる。この装置は、ビデオデータを1つ以上のカメラから取得し、投影システムと通信するための少なくとも1つのインタフェースを備えている。この装置は、ビデオデータを処理して、ビデオデータ中に示される環境内の人物の位置を特定するように構成された1つ以上のプロセッサを備えている。この1つ以上のプロセッサは、ビデオデータに基づいて人物を同定または再同定するように構成されている。この1つ以上のプロセッサは、人物のアイデンティティまたは再同定が所定の基準を満足する場合に、投影システムを制御して投影画像を投影ターゲット上に投影させるように構成されている。投影ターゲットは、環境内の人物の位置に基づいて、この人物に対して決定される。例えば、この例を用いて、ビデオ映像中に示された人物のアイデンティティまたは再同定に応じて作動するセキュリティシステムを実現することができる。この構成では、提案するコンセプトを用いて、方向設定可能なセキュリティビームを実現することができる。
本発明の一部の例は、投影システムを制御する対応する方法に関するものである。この方法は、1つ以上のカメラのビデオデータを処理して、ビデオデータ中に示される環境内の人物の位置を特定するステップを含む。この方法は、ビデオデータに基づいて人物を同定または再同定するステップを含む。この方法は、人物のアイデンティティまたは再同定が所定の基準を満足する場合に、投影システムを制御して投影画像を投影ターゲット上に投影させるステップを含む。投影ターゲットは、環境内の人物の位置に基づいて、この人物に対して決定される。
本発明の一部の例は、対応するコンピュータプログラムに関するものであり、このコンピュータプログラムは、コンピュータ、プロセッサ、処理回路、またはプログラマブルなハードウェア構成要素上で実行されると上記の方法を実行するためのプログラムコードを有する。
本発明の一部の例は、1つ以上のカメラ、投影システム、及び以上で紹介した装置のうちの1つを備えたシステムに関するものである。
例えば、異なる種類の投影機を、投影システムの一部として用いることができる。例えば、投影システムは、少なくとも1つの投影機、少なくとも1つの発光ダイオード系投影機、少なくとも1つの動画投影機、及び少なくとも1つの天井投影機、のうちの1つ以上を備えることができる。
例えば、投影機自体が大きな映写面を可能にすることができ、あるいは、投影の向きを調整するための1つ以上のサーボモータに投影機を結合することができる。例えば、投影システムは、当該投影システムの1つ以上の投影機の投影方向を調整するための1つ以上のサーボモータを備えることができる。
装置に関して以上に概説したように、上記1つ以上のカメラは1つ以上の赤外線カメラを含むことができる。それに加えて、あるいはその代わりに、上記システムは、上記1つ以上のカメラに加えて、1つ以上の追加的センサを更に備えることができる。
装置及び/または方法の一部の例を、以下にほんの一例として、添付した図面を参照しながら説明する。
投影システムを制御する装置の例のブロック図である。 投影システムを制御する方法の例のフローチャートである。 投影システムを制御する方法の例のフローチャートである。 方向についての情報を人物の目の前の床面上に投影する例の概略図である。 コンテキスト情報を人物に近い壁面上に投影する例の概略図である。 投影システムを制御する他の方法の例のフローチャートである。
詳細な説明
ここで、いくつかの例を、添付した図面を参照しながら説明する。しかし、他の可能な例は、詳細に説明する実施形態の特徴に限定されない。他の例は、特徴の修正並びに特徴の等価物及び代案を含むことができる。更に、本明細書中で特定例を説明するために用いる用語は、更に可能な例を制限すべきものではない。
図面の説明全体を通して、同一または類似の参照番号は、同一または類似の要素及び/または特徴を参照し、これらの要素及び/または特徴は、同一または類似の機能を提供しつつ、同一にすることも修正された形式で実現することもできる。図面中の線、層及び/または領域の厚さは、明確化のために誇張することもある。
2つの要素AとBを「または」を用いて組み合わせる際に、これは、個別の場合において特に断りのない限り、全ての可能な組合せ、即ちAのみ、Bのみ、並びにAとBを開示するものと理解すべきである。同じ組み合わせについての代わりの文言として、「A及びBのうちの少なくとも一方」または「A及び/またはB」を用いることがある。このことは3つ以上の要素の組合せにも同等に当てはまる。
「ある1つの」、「その」のような単数形を用い、単一の要素のみの使用が明示的にせよ暗示的にせよ強制として規定されていない場合、別な例は複数の要素を用いて同じ機能を実現することもできる。ある機能を複数の要素を用いて実現するものとして以下に記述する場合、別な例は単一の要素または単一の処理エンティティ(実体)を用いて実現することができる。更に、「含む」、「含んでいる」、「備える」及び/または「備えている」は、使用時に、指定した特徴、整数値、ステップ、動作、工程、要素、構成要素、及び/またはそれらのグループの存在を記述するものと理解され、但し1つ以上の他の特徴、整数値、ステップ、動作、工程、要素、構成要素、及び/またはそれらのグループの存在または追加を排除しない。
図1aは、投影システム30を制御する装置10の例のブロック図を示す。装置10は、少なくとも1つのインタフェース12及び1つ以上のプロセッサ14を備えている。任意で、装置10は1つ以上の記憶装置16を更に備えている。1つ以上のプロセッサ14は、1つ以上のインタフェース12、及び任意の1つ以上の記憶装置16に結合されている。一般に、装置10の機能は、1つ以上のプロセッサ14によって、例えば、(1つ以上のカメラ20,投影システム30、及び/または(図2に示す)1つ以上の追加的センサと通信するための)少なくとも1つのインタフェース、及び/または(情報を記憶するための)1つ以上の記憶装置16と連動して提供される。
1つ以上のプロセッサ14は、少なくとも1つのインタフェース12を通して、1つ以上のカメラ20からビデオデータを取得するように構成されている。1つ以上のプロセッサ14は、このビデオデータを処理して、ビデオデータ中に示される(図2及び3に示す)環境内の人物40の位置を特定する。1つ以上のプロセッサ14は、環境内の人物の位置に基づいて、人物に対する投影ターゲットを決定するように構成されている。1つ以上のプロセッサ14は、人物についての追加的情報を取得するように構成されている。1つ以上のプロセッサ14は、(少なくとも1つのインタフェース12を介して)投影システムを制御して(図2及び3に示す)投影画像50を投影ターゲット上に投影させるように構成されている。投影画像は、人物についての追加的情報及び/または人物の位置に依存する情報を含む。
図1aは、1つ以上のカメラ20、投影システム30、及び装置10を備えたシステムを更に示す。任意で、図2に示すように、このシステムは、RFID(Radio Frequency Identification:無線ICタグ)端子またはブルートゥース(登録商標)ビーコンのような1つ以上の追加的センサを、1つ以上のカメラ20に加えて更に備えることができる。
図1b及び1cは、投影システムを制御する対応する方法の例のフローチャートを示す。この方法は、1つ以上のカメラのビデオデータを処理して、ビデオデータ中に示される環境内の人物の位置を特定するステップ110を含む。この方法は、人物に対する投影ターゲットを、環境内の人物の位置に基づいて決定するステップ130を含む。この方法は、人物についての追加的情報を取得するステップ150を含む。この方法は、投影システムを制御して投影画像を投影ターゲット上に投影させるステップ190を含む。この投影画像は、人物についての追加的情報及び/または人物の位置に依存する情報を含む。
以下では、上記装置、上記システム、上記方法、及び対応するコンピュータプログラムの特徴を、上記装置及びシステムに関して例示する。上記装置及び/またはシステムに関連して紹介する特徴は、対応する方法及びコンピュータプログラムに同様に含めることができる。
提案するコンセプトは、3つの構成要素-1つ以上のカメラ20、投影システム30、及び装置10に基づき、1つ以上のカメラ20を用いて人物を検出して人物の位置を特定し、投影システム30を用いてターゲットへの投影画像を提供し、装置10は、1つ以上のカメラ20及び投影システム30を共に制御して、これら2つの間の情報の処理を実行する。
提案するコンセプトは、1つ以上のカメラのビデオデータから始まる。1つ以上のカメラは、環境内に、例えば天井カメラまたは壁カメラとして配置されている。例えば、1つ以上のカメラは、環境内に配置された監視カメラとすることができる。一般に、1つ以上のカメラは、これらのカメラを用いて環境内、例えば暗闇内の人物を検出することができるように配置することができる。例えば、1つ以上のカメラは、周囲照明なしに人物のビデオデータを提供するのに適したものとすることができる。特に、1つ以上のカメラは、1つ以上の赤外線カメラ、即ち(近)赤外光を発光する発光器を備え、発光した(近)赤外光の反射を記録するように構成されたカメラを含むことができる。従って、上記ビデオデータは、赤外線カメラのビデオデータ、即ち(近)赤外光の反射を表現するビデオデータとすることができる。しかし、ビデオデータは赤外線スペクトルに限定されなくてもよい。例えば、利用可能な周辺光の量に応じて、ビデオデータは、赤外光の反射を表現するカラービデオデータまたはモノクロ(白黒、単色)ビデオデータを含むことができる。その代わりに、例えば、1つ以上のカメラが赤外線発光器を欠く場合、ビデオデータはカラービデオデータに限定することができる。例えば、上記1つ以上のプロセッサは、ビデオデータを1つ以上のカメラから受信することによって、ビデオデータを1つ以上のカメラから読み出すことによって、あるいは1つ以上のカメラ(または他のエンティティ)によってビデオデータが共有メモリに書き込まれた後に、ビデオデータを共有メモリから読み出すことによって、ビデオデータを取得するように構成することができる。一般に、上記ビデオデータは、例えば1つ以上のビデオカメラによるビデオデータの発生と、上記1つ以上のプロセッサがビデオデータを取得することとの間に最大1秒の遅延を伴う準リアルタイムのビデオデータとすることができる。
ビデオデータを装置10によって処理して、処理の結果を用いて投影システムにより投影画像を提供する。例えば、上記1つ以上のプロセッサは、少なくとも1つのインタフェースを通して、制御信号を投影システムに供給して投影システムを制御するように構成することができる。一般に、投影システム30は1つ以上の投影機を備えている。特に、投影システムは、空間的に可変の投影ターゲット上に投影画像を投影することができ、投影画像は情報内容を有する。空間的に可変の投影ターゲット上に投影画像を投影する目的で、1つ以上の投影機をサーボモータに結合することができ、サーボモータは投影画像の向きを投影ターゲットに向けて調整するように構成されている。換言すれば、投影システムは、当該投影システムの1つ以上の投影機の投影方向を(図1aに矢印で示すように)調整するための1つ以上のサーボモータを備えることができる。その代わりに、1つ以上の投影機は、複数の画素を用いて投影画像を第1のより大きな領域上に投影するのに適したものとすることができ、複数の画素の部分集合を用いて投影画像を第2のより小さな領域上に投影するのに適したものとすることができる。上記1つ以上のプロセッサは、第2のより小さな領域を第1のより大きな領域内で選択して、1つ以上の投影機を制御して、画素の部分集合を用いて投影画像を提供させるように構成することができる。残りの画素は、例えばこれらの画素を低い輝度レベルに、あるいは(可能ならば)オフに設定することによって、暗いままに設定することができる。
投影システム30を用いて、情報内容を有する投影画像を提供する。従って、投影システムは、環境の一部分を照明するために用いる光を超えることができる。一部の例では、1つ以上の投影機を画素ベースにすることができ、(情報内容を含む)任意の画像を投影ターゲット上に投影するのに適したものとすることができる。例えば、汎用のRGB(Red-Green-Blue:赤色-緑色-青色)投影機を用いることができる。その代わりに、1つ以上の投影機は、均一な光ビームを提供するように構成する(即ち、指向性のある光源とする)ことができ、投影システムは、1つ以上の投影機と投影ターゲットとの間に配置された1つ以上の投影テンプレート(例えば、方向を指し示すための矢印を投影するための1つ以上のテンプレート)を備える。
異なる種類の投影機が投影画像を提供するのに適している。例えば、上記投影システムは、少なくとも1つのレーザー投影機を備えることができ、このレーザー投影機は投影テンプレートと一緒に用いることができる。それに加えて、あるいはその代わりに、上記投影システムは、少なくとも1つの発光ダイオード(LED:Light Emitting Diode)ベースの投影機を備えることができ、この発光ダイオードベースの投影機は、画素ベースの投影機または均一な光ビームを提供する投影機とすることができる。その代わりに、あるいはそれに加えて、上記投影システムは、少なくとも1つの動画投影機を備えることができ、この動画投影機は画素ベースの投影機とすることができる。上記の投影機のいずれも、環境の天井に取り付けること、または天井内に収納することができ、あるいは環境の壁面に取り付けることができる。従って、上記投影システムは、少なくとも1つの天井投影機(即ち、天井または天井内に配置された投影機)、及び/または壁面に取り付けられた少なくとも1つの投影機を備えることができる。一部の例では、以下より明らかになるように、上記投影システムが複数の投影機を備えることができ、これらの投影機は環境内の異なる場所に配置され、これにより、投影画像を環境全体にわたって異なる投影ターゲット上に投影することができる。同様に、複数のカメラを環境内の異なる場所に配置することができる。例えば、環境は、倉庫、オフィスビル、空港、公共交通の駅、またはクルーズ船のような大きな構造とすることができる。
装置10は1つ以上のカメラ20及び投影システムにリンクしている。装置10を用いて、1つ以上のカメラによって供給されるビデオデータを処理し、それに応じて投影システムを制御する。特に、装置10の1つ以上のプロセッサは、ビデオデータを処理して、ビデオデータ中に示される人物についての情報を決定する。
基本的構成では、上記1つ以上のプロセッサが環境内の人物の位置を特定するように構成されている。例えば、上記1つ以上のプロセッサは、それぞれのカメラの視野内の人物の位置を特定して、カメラの視野内の人物の位置に基づいて、例えばカメラの視野内の(即ち、ビデオデータ中の)人物の位置及び/またはサイズと環境内の人物の位置との間の所定の変換規則を用いることによって、環境内の人物の位置を特定するように構成することができる。例えば、人物の身体ポーズを特定することができ、(この身体ポーズに応じた)人物の足の位置を用いて、環境内の人物の位置を特定することができる。例えば、環境内の人物の位置は、環境に広がる二次元または三次元座標系に対して特定することができる。その代わりに、人物の位置は、他の基準点に対して、例えば上記投影システムのある投影機に対して特定することができる。
一般に、提案するコンセプトを用いて、環境を動き回る人物に情報を提供することができる。従って、人物の位置は1回特定することができるだけでなく、人物が環境を動き回る間に更新し追跡することができる。例えば、上記1つ以上のプロセッサは、人物の位置を、ビデオデータの複数のフレームにわたって追跡して、人物の位置が変化した場合に投影ターゲットを更新するように構成されている。従って、図1cに更に示すように、上記方法は、人物の位置をビデオデータの複数のフレームにわたって追跡するステップ115と、人物の位置が変化した場合に投影ターゲットを更新するステップとを含むことができる。特に、人物は環境内を自由に動き回ることができる。提案するコンセプトを、環境内の複数の位置に配置された複数のカメラと共に用いる場合、人物が環境内を動き回る間に、環境の異なる位置に配置されたカメラにより人物を追跡することができる。換言すれば、上記1つ以上のプロセッサは、少なくとも2つのカメラのビデオデータにわたって人物の位置を追跡するように構成することができる。従って、上記方法は、少なくとも2つのカメラのビデオデータにわたって人物の位置を追跡するステップ115を含むことができる。例えば、カメラ間の空間的関係を用いて、1つのカメラのビデオデータ中に検出される人物と他のカメラのビデオデータ中に検出される人物との対応を特定することができる。それに加えて、あるいはその代わりに、人物再同定を用いて、少なくとも2つのカメラのビデオデータにわたって人物を追跡することができる。人物再同定についてのより詳細なことは、本開示の後の段階に挙げる。
一部の構成では、人物の追加的特性を(人物の位置に加えて)特定することができる。例えば、上記1つ以上のプロセッサは、人物のポーズ及び/または人物の少なくとも1つの身体部分(例えば、人物の頭部、手、または胴体(トルソー))の向きを特定するように構成することができる。従って、図1cに示すように、上記方法は、人物のポーズ及び/または人物の少なくとも1つの身体部分の向きを特定するステップ120を含むことができる。特に、上記1つ以上のプロセッサは、人物の頭部の位置及び/または向きを特定するように構成することができる。従って、図1cに更に示すように、上記方法は、人物の頭部の位置及び/または向きを特定するステップ125を含むことができる。例えば、人物が前方を見ている(例えば、前方の床面を見ている、あるいは前方の壁面を見ている)際に、人物の頭部または胴体の位置または向きを特定して、適切な投影ターゲットを、例えば人物の視野内に決定することができる。他方では、人物の手の位置または向きを用いて、投影ターゲットを人物の手の甲または手の平上に決定することができる。その代わりに、あるいはそれに加えて、人物の身体ポーズ、あるいは身体部分(例えば、手)の向きを用いて、例えば、人物が自分の手で情報を入力する(例えば、選択を実行する)ことを可能にすることによって、(例えば、バーチャルリアリティ(仮想現実感)のゴーグルなしでも、バーチャルリアリティ環境における相互作用と同様に)投影画像と相互作用することができる。
一般に、環境内の人物の位置、及び/または頭部、胴体、または手のような身体部分の位置及び/または向きは、人物の身体ポーズから導出することができる。従って、上記1つ以上のプロセッサは、ビデオデータに基づいて人物の身体ポーズを特定し、身体部分の位置及び/向きを人物のポーズから導出するように構成することができる。例えば、人物の頭部の(推定)ポーズについての情報を出力するように学習させた機械学習モデル(更に「ポーズ推定機械学習モデル」と表す)の助けを借りて、この分析を実行することができる。例えば、ポーズ推定機械学習モデルを学習させて、ポーズ推定をビデオデータに対して実行することができる。例えば、上記1つ以上のプロセッサは、ポーズ推定機械学習モデルを用いて、ビデオデータを処理して、ビデオデータ中に示される人物の身体ポーズを特定することができる。
これに関連して、人物の身体ポーズは、一人以上の人物の肢の相対的な位置及び角度に基づくこと、あるいはこれらの相対的な位置及び角度によって形成することができる。例えば、人物はいわゆる身体ポーズの骨格によって表すことができ、身体ポーズの骨格は複数の関節及び複数の肢から成る。しかし、身体ポーズの骨格の「関節」及び「肢」は、抽象的意味で用いられ、薬剤において用いられる用語と必ずしも同じことを意味しない。身体ポーズの骨格はグラフとすることができ、関節はグラフの頂点であり、肢はグラフのエッジ(辺縁)である。身体ポーズの骨格では、関節が肢によって相互接続されている。身体ポーズの骨格を構成するために用いられる肢の一部は、「上腕」、「前腕」、「大腿部(太もも)」(即ち、脚上部)、及び「脛(すね)」(即ち、脚下部)のような生物学的対応物に相当するが、身体ポーズの骨格は、脊椎を表す肢、肩関節を接続する肢、または股関節を接続する肢のような、生物学的意味での肢とは考えられない肢を含み得る。実際に、これらの肢は、グラフの頂点を接続するエッジと同様に、関節どうしを接続する。例えば、肢は、それぞれの肢を接続する関節の所で、互いに対して回転することができる。例えば、ポーズ推定機械学習モデルを学習させて、ビデオデータに基づいて身体ポーズの骨格を(例えば、グラフとして)出力することができる。
一部の例では、ポーズ推定機械学習モデルを学習させて、二次元の身体ポーズデータを出力することができる。この場合、人物の身体ポーズが身体ポーズ骨格を含むことができ、骨格の関節は、二次元空間内に、例えばビデオデータのフレームの座標系に対応する座標系内に定義される。例えば、ビデオデータをポーズ推定機械学習モデル用の入力として用いることができ、二次元の身体ポーズをポーズ推定機械学習モデルによって出力することができる。DeepPose(ディープポーズ)またはDeep High-Resolution Representation Learning for Human pose Estimation(HRNet:人間ポーズ推定用の深層高解像度表現学習)のような種々の周知の機械学習モデルを、このタスク用に使用することができる。こうした二次元の身体ポーズデータは、次の身体ポーズの処理に十分である。
しかし、一部の例では、身体ポーズを三次元で特定することができ、即ち、ポーズ推定骨格の関節の位置を三次元座標系内で定義することができる。例えば、ポーズ推定機械学習モデルを学習させて、三次元のポーズ推定を実行することができる。一部の例では、ポーズ推定機械学習モデルを学習させて、複数のカメラからのビデオデータに基づく三次元のポーズ推定を実行することができ、これらのビデオデータは一人以上の人物を複数の観測角度から示す。例えば、複数の観測角度は、環境の周りに配置された複数のカメラによって記録された環境内の一人以上の人物の動き及びポーズを示す。その代わりに、ポーズ推定機械学習モデルを学習させて、単一のカメラからのビデオデータに基づく三次元のポーズ推定を実行することができる。この場合、例えば、単一のカメラからのビデオデータしか利用可能でない際に、あるいは1つ以上の追加的なカメラの視野が遮られている場合に、三次元の身体ポーズを特定するために単一のカメラからのビデオデータで十分である。
その代わりに、三次元の身体ポーズを二次元の身体ポーズから生成することができる。上記1つ以上のプロセッサは、二次元の身体ポーズを後処理して、例えば追加的な機械学習モデルを用いて、あるいは異なる観測角度に基づく身体ポーズの複数の時間同期サンプルに対する三角測量を用いて、三次元の身体ポーズを生成するように構成することができる。
人物の位置、人物の身体ポーズ、及び関連する特性(身体部分の向きまたは位置)のような人物の一部の態様は、機械学習を用いて特定することができることは明らかである。換言すれば、上記1つ以上のプロセッサは、機械学習モデル、特に深層学習を用いて学習させた機械学習モデルを用いて、人物の位置、人物のポーズ、及び/または人物の少なくとも1つの身体部分の向きを、ビデオデータに基づいて特定するように構成することができる。従って、図1cに示すように、上記方法は、機械学習モデル、特に深層学習を用いて学習させた機械学習モデルを用いて、人物の位置、人物のポーズ、及び/または人物の少なくとも1つの身体部分の向きを、ビデオデータに基づいて特定するステップ110;115;120;125を含むことができる。
次に、人物の位置、及び任意で少なくとも1つの身体部分のポーズまたは向きのような他の特性を用いて、投影ターゲットを決定する。本実施形態では、カスタマイズされた情報を人物用に投影する。従って、投影ターゲットは、人物が投影画像を知覚することができるように、特に、人物が前方を見ている場合または時に人物が投影画像を知覚することができるように選定することができる。この目的で、人物の位置及び他の特性を用いることができる。
例えば、身体ポーズ、例えば頭部の向きを用いて、人物が対面している方向を特定することができる。次に、投影画像が人物にとって可視(かつ認識可能)であるように、人物の現在の身体ポーズに基づいて、即ち人物が投影画像を見るために振り向かなければならないことなしに、投影ターゲットを選定することができる。特に、人物に対する次の3つの投影ターゲットが、情報を伝えるのに適したものとして識別されている-人物の目の前の床面、人物の目の前の壁面、または人物の手の甲または手の平のような人物の身体部分。従って、上記1つ以上のプロセッサは、投影ターゲットを、環境の床面上、環境の壁面上、または人物の所定の身体部分上のうちの1つに置くように構成することができる。例えば、上記1つ以上のプロセッサは、投影ターゲットを、人物のポーズと一直線になる方向にある、即ち人物の目の前の床面上、壁面上に置くように構成することができる。
図2は、方向についての情報を人物の目の前の床面上に投影する例の概略図を示す。例えば、本発明のコンセプトは、例えば、適切な矢印記号を人物の目の前の床面上に投影することにより来訪者を道案内することによって、ナビゲーションまたは他の目的に用いることができる。例えば、人物の二次元位置を用いて、上記装置は、投影機の光を人物の目の前の床面上に当てて所望の情報を見せることができる。図2は人物40を示し、人物40は天井カメラ20のビデオデータ中に示されている。天井投影機30を用いて、投影画像50を人物の目の前の床面上に投影する。図2では、方向矢印及びいくつかの例示的文字列が人物の目の前に投影されている。任意で、人物についての追加的情報、または人物の位置を、追加的センサ60を用いて更に定めることができる。
異なる種類の投影機を用いて、こうした方向角を床面上に投影することができる。例えば、(「ロール角」用の)第3のサーボモータを、均一な光ビームを提供する投影機及び投影マスクと組み合わせて用いる場合に、方向設定可能な矢印を床面上に投影して、矢印の向きの変化を可能にすることができる。その代わりに、図2に示すような汎用のRGB投影機を用いることができ、これにより追加的情報を矢印に加えて投影することができる。例えば、人物を行き先へ案内することに加えて、安全フィードバックを(例えば、「警告:前進する前に要注意」を対応するアニメーションと共に)与えることができる。
こうした情報は壁面上に投影することもできる。図3は、コンテキスト情報を人物の近くの壁面上に投影する例の概略図を示す。ここでも、人物40が天井カメラ20のビデオデータ中に示され、サーボモータを用いて投影方向を変化させる投影機30を用いて、投影画像50を壁面の投影ターゲット上に投影する。この場合、文字情報を含む投影画像を、人物の近くの壁面上の、頭部の高さの所に投影する。
投影画像の情報内容を決定するために、人物についての追加的情報を用いる。種々の例では、この追加的情報を人物のアイデンティティまたは再同定に基づいて決定する。換言すれば、検出した人物を更に分析して、この人物のアイデンティティを明らかにするか、環境内のこの人物の前の居場所を明らかにすることができる。例えば、上記1つ以上のプロセッサは、ビデオデータに基づいて人物を同定または再同定するように構成することができる。従って、図1cに更に示すように、上記方法は、ビデオデータに基づいて人物を同定または再同定するステップ140を含むことができる。投影画像、例えば投影画像の情報内容、あるいは投影画像を提供すべきか否かの判定は、人物のアイデンティティまたは再同定に基づくことができる。換言すれば、上記1つ以上のプロセッサは、上記追加的情報を、人物のアイデンティティまたは再同定に基づいて決定するように構成することができる。それに加えて、あるいはその代わりに、上記1つ以上のプロセッサは、人物のアイデンティティまたは再同定が所定の基準を満足するか否かに基づいて、投影システムを制御して投影画像を投影させるように構成することができる。
一人以上の人物の同定または再同定を可能にする種々のコンセプトが存在する。人物の同定または再同定は、顔認識または再同定、(人物が着用する)QR(Quick Response:クイックレスポンス)コード、または類似のもののような画像ベースの技術を用いることができる。例えば、上記1つ以上のプロセッサは、ビデオデータに対する顔認識を用いて一人以上の人物を同定するように構成することができる。例えば、機械学習モデル(更に「顔認識機械学習モデル」と表す)を学習させて、顔認識の種々の態様を実行することができる。例えば、顔認識機械学習モデルを学習させて、ビデオデータに対する顔検出を実行して、検出した顔の特徴を抽出することができる。上記1つ以上のプロセッサは、検出した顔の抽出した特徴を、顔認識データベースに記憶されている特徴と比較するように構成することができる。例えば、環境内にいることを予期される人物(例えば、従業員、保安要員、等)の特徴を顔認識データベース内に記憶することができる。任意で、環境内にいることを明示的に許可されていない人物の特徴を顔認識データベース内に記憶することもできる。人物が顔認識データベース内に見出され、この人物が環境内にいることが予期される場合、投影画像をこの人物に合わせることができ、あるいは(従業員または保安要員が環境中の自分の道を知っているので)投影画像を必要がないものとして省略することができる。人物が顔認識データベース内に見出されない場合、投影画像を個人向け情報なしに提供することができ、最寄りの守衛所または案内所への方向を示すことができる。この場合、上記所定の基準は、人物が顔認識データベース内に見出されるか否かに関するものとすることができる。例えば、前者の例に関しては、人物が顔認識データベース内に見出され、環境内にいることが予期される場合に、上記所定の基準を満たすものと考えることができ、従って、投影画像を見せなくてもよく、人物が見出されない場合に上記所定の基準を満たさず、従って投影画像を見せてもよい。後者の例に関しては、人物が顔認識データベース内に見出されない場合に、上記所定の基準を満たすものと考えることができ、投影画像をカスタマイズされた情報なしに見せ、あるいは、人物が顔認識データベース内に見出される場合に、上記所定の基準を満たすものと考えることができ、投影画像をカスタマイズされた情報付きで見せる。この場合、両方の場合を所定の基準として用いることができ、投影画像の情報内容は所定の基準に基づいて変化する。
例えば、(同じカメラ及びビデオ映像による顔認識を用いることによって)人物のアイデンティティが既知である場合、投影される画像を更にカスタマイズして個人的フィードバックを含めることができる。例えば、汎用の投影機を用いることによってフィードバックを与えて、まずカメラ映像を用いて人物を同定することによって、個人向け情報を床面上または壁面上に投影することができる。
その代わりに(あるいはそれに加えて)、人物再同定を用いることができる。換言すれば、上記1つ以上のプロセッサは、人物再同定用に学習させた機械学習モデル(更に「人物再同定機械学習モデル」と表す)を用いて人物を再同定するように構成することができる。視覚的人物再同定システムは、人物をその外観のみから区別または再同定する目的を果たし、(通常は顔の特徴から)人物の絶対的アイデンティティを定めることを追求する同定システムとは対照的である。これに関連して、人物再同定とは、人物が再同定されたこと、即ち、以前に記録されている人物が再度記録され、前回の記録と一致することを示す。
種々の例では、上記再同定が、ビデオデータのような視覚的データから生成されるいわゆる再同定コードに基づく。人物の再同定コードは、その人物を表現し、人物の異なる画像について同様であるべきである。人物の再同定コードは、他の人物の再同定コードと比較することができる。第1の再同定コードと第2の再同定コードとの間に一致が見出された場合(即ち、これらの再同定コード間の差が閾値よりも小さい場合)、第1の再同定コードと第2の再同定コードとが同一人物を表すものと考えることができる。再同定を実行するために、次の2つの構成要素-再同定コードを生成する構成要素、及びこれらの再同定コードを評価する構成要素を用いて、実際の再同定を実行する。一部の例では、上述した顔認識を、人物再同定を用いて実現することができる。例えば、再同定コードを生成することによって特徴抽出を実行することができ、この再同定コードは、顔認識データベースに記憶されている他の再同定コードと比較することができる。
人物の画像に基づいて再同定コードを生成し、生成したコードを1つ以上の記憶装置上に記憶することによって、人物を再同定システムに追加することができる。再同定コードは、人物を再同定することを可能にするように、即ち人物がビデオデータのあるフレーム内に捕捉されているか否かを判定することを可能にするように生成することができる。再同定コードは、いわゆる匿名の再同定を可能にすることができ、匿名の再同定では、人物の絶対的アイデンティティを確立せずに再同定コードを生成する。従って、一部の例では、匿名の再同定が望まれ、人物を表す再同定コードを人物のアイデンティティにリンクさせなくてもよい。こうした匿名の再同定は、人物が環境全体にわたって移動する間に、人物の移動をアイデンティティにリンクさせずに人物を追跡するのに十分である。人物再同定機械学習モデルを学習させて、ビデオデータ中に示される人物について、対応する再同定コードを出力することができる。上記1つ以上のプロセッサは、再同定機械学習モデルを用いて、ビデオデータ中に示される人物の再同定コードを生成し、記憶されている再同定コードを人物の再同定コードと比較するように構成することができる。一致が見出された場合、ビデオデータ中に示される人物を再同定することができる。人物が環境内にいることが予期されるか否かに応じて、あるいは人物が環境を通って積極的に案内されているか否かに基づいて、投影画像を提供することができる。ビデオデータ中に示される人物を再同定することができない場合、投影画像を提供しなくてもよく、あるいはプロンプト記号を示して人物を行き先へ案内することを申し入れることができる。前者の場合には、上記所定の基準が、人物を再同定することができるか否かに関係する。上記所定の基準を満足しない場合、即ち、人物を再同定することができない場合、投影画像を提供しなくても良い。
以上に概説したように、提案するコンセプトの一部の応用では、投影画像の情報内容を用いて環境中で人物を案内することができる。この応用では、人物のアイデンティティまたは再同定を用いて行き先を特定して、その行き先へ人物を案内することができる。換言すれば、上記1つ以上のプロセッサは、人物のアイデンティティまたは再同定に基づいて、人物の行き先を、この人物についての追加的情報として特定して、人物の行き先を指し示す方向指示記号付きの投影画像を生成することができる。従って、図1cに示すように、上記方法は、人物のアイデンティティまたは再同定に基づいて、人物の行き先を、この人物についての追加的情報として特定するステップ155と、人物の行き先を指し示す方向指示記号付きの投影画像を生成するステップとを含むことができる。例えば、人物の行き先は、人物のアイデンティティに基づくデータベースから取得することができる。例えば、空港では、人物のアイデンティティを用いて出発ゲートを特定することができ、出発ゲートが行き先である。再同定のシナリオでは、人物がターミナルにおいて行き先を選択しており、ターミナルのカメラを用いて初期の再同定コードを生成し、この行き先は、人物が他のカメラからのビデオデータ中で再同定されている際にいつでも、データベースから取得することができる。例えば、方向指示記号(例えば、矢印及び/または書き出しの記述)を、床面上、壁面上、あるいは人物の広げた手の上に投影することができる。
一部の例では、人物の再同定のアイデンティティを、アクセッシビリティ(アクセス可能性)に関して用いる。例えば、一部の人物が(例えば、フォントサイズ、区別することができる色、ジオプター、等に関する)自分の視力に起因して、情報の差異を識別することが困難であるものと知られていることがある。こうした情報は、データベースに記憶することができ、自分のアイデンティティまたは再同定コードによりアクセス可能にすることができる。例えば、上記1つ以上のプロセッサは、人物のアイデンティティまたは再同定に基づいて、この人物が視覚情報を知覚する能力についての情報を、この人物についての追加的情報として決定するように構成することができる。上記1つ以上のプロセッサは、投影画像の情報内容の視覚的表現を、人物が視覚情報を知覚する能力に基づいて決定するように構成することができる。従って、図1cに示すように、上記方法は、人物のアイデンティティまたは再同定に基づいて、この人物が視覚情報を知覚する能力についての情報を、この人物についての追加的情報として決定するステップ160を含むことができる。上記方法は、投影画像の情報内容の視覚的表現を、人物が視覚情報を知覚する能力についての情報に基づいて決定するステップを含むことができる。特に、上記1つ以上のプロセッサは、投影画像の、使用色、フォントサイズ、及びジオプター補正のうちの少なくとも1つを適合させるように構成することができる。従って、上記方法は、投影画像の使用色、フォントサイズ、及びジオプター補正のうちの少なくとも1つを適合させるステップ165を含むことができる。例えば、色、フォントサイズ、及び/またはジオプター補正は、人物が視覚情報を知覚する能力に適合させることができる。それに加えて、あるいはその代わりに、言語及び/または文字種(例えば、ラテン文字、キリル文字、ジョージア文字、繁体字、簡体字、ハングル文字、漢字、片仮名、平仮名、等)を人物の能力に適合させることができる。
開示全体を通して概説するように、提案するコンセプトは、空港、倉庫、クルーズ船、等のような、単一のカメラまたは単一の投影機では情報提供することができない大空間にわたる大きな環境に適用可能にすることができる。従って、カメラ及び投影機を環境全体にわたって配置して、情報が必要である際にいつでも情報を提供することができる。その結果、投影ターゲットをカバーする投影システムの投影機によって(投影画像が人物に当たらずに)投影画像を提供することができる。例えば、上記1つ以上のプロセッサは、投影システムの複数の投影機のうちの1つを、位置に基づいて、人物のポーズに基づいて、及び/または人物の少なくとも1つの身体部分の向きに基づいて選択して、投影システムを制御して、選択した投影機を用いて投影画像を投影させるように構成することができる。従って、図1cに示すように、上記方法は、投影システムの複数の投影機のうちの1つを、位置に基づいて、人物のポーズに基づいて、及び/または人物の少なくとも1つの身体部分の向きに基づいて選択するステップ170と、投影システムを制御して、選択した投影機を用いて投影画像を投影させるステップとを含むことができる。例えば、投影機が、投影画像が人物に当たらないように(即ち、人物が投影の経路内に立たないように)投影画像を投影ターゲット上に投影するのに適しているか否かに基づいて、投影機を選択することができる。
一般に、倉庫、空港、等の環境は、投影ターゲットとして用いることができる多数の表面を有する。しかし、これらの投影ターゲットの必ずしも全てが平らな表面ではない。更に、これらの表面は投影ビームに対して角度をなすことが多い。例えば、投影機をサーボと共に用いて投影ビームを指向させる場合、投影面と投影機との間の非常に小さい鋭角がその結果になり得る。これを補償するために、自動化された較正方法を用いることができる。例えば、上記1つ以上のプロセッサは、投影システムを制御して較正投影画像(例えば、所定のパターン)を投影させて、較正投影画像を示すビデオデータに基づいて較正情報(例えば、所定のパターンと投影面上の投影画像との差異)を決定し、較正情報に基づいて(例えば、投影画像を予め変形させて、キーストーン補正(台形歪み補正)を実行することによって、及び/または平らでない表面を明らかにすることによって)投影システムを制御するように構成することができる。従って、図1cに示すように、上記方法は、投影システムを制御して較正投影画像を投影させるステップ180と、較正投影画像を示すビデオデータに基づいて較正情報を決定するステップ185と、較正情報に基づいて投影システムを制御するステップとを含むことができる。例えば、サーボと共に用いられて投影ビームの方向を変化させる投影機の較正に関しては、サーボを格子の周りに動かして、ビデオデータ中の二次元画像内の対応する光(中心)の位置を追跡することによって、光の制御を自動的に較正することができる。
上記1つ以上のプロセッサは、次に、投影システムを制御して投影画像50を投影ターゲット上に投影させるように構成されている。投影画像は、人物についての追加的情報及び/または人物の位置に依存する情報を含む。特に、複数の例において概説するように、人物についての追加的情報及び/または人物の位置に依存する情報は、人物の行き先への道を示すための方向指示記号(例えば、矢印)、人物の行き先に基づく警告、行き先への経路の文字記述、及びコンテキスト情報(例えば、工業プラント内の機械について、美術館内の芸術品について、空港内またはクルーズ船内等の設備についての情報)、のうちの1つ以上を含むことができる。上記1つ以上のプロセッサは、この情報を、人物についての追加的情報に基づいて(例えば、人物のアイデンティティに基づいて、または人物が環境中の自分の道を知っているか否かに基づいて)、及び/または位置(例えば、方向指示記号または経路の文字記述)に基づいて決定するように構成することができる。
較正に関して説明したように、多くの場合に、倉庫、空港、等のような環境は、投影ターゲットとして用いることができる多数の表面を有し、これらの表面は平らでないことがあり、あるいは投影ビームに対して角度をなし得る。上記1つ以上のプロセッサは、投影画像を空間的に変形させることによって補償するように構成することができる。更に、投影画像が人物の目の前で空中に浮いているように見えるような視覚効果を用いることができる。例えば、適切な遠近法の行列を用いて投影画像を予め変形させて、あたかも人物の目の前に浮いている仮想的スクリーン上に情報が出現するように人物に情報を知覚させる方法で、更には、例えば誤った遠近法を用いた広告目的で3Dオブジェクトをレンダリングするために、投影画像が変換されるようにすることができる。これらの技法及び効果は、スポーツ分野における広告、あるいは強化遠近図法が用いる技法及び効果と同様にすることができる。しかし、この効果は相互作用的にすることができる。このことを行うために、投影機によって床面上または壁面上に投影される上記変換された画像が3Dオブジェクトを表すように人間に見えるように、射影行列を決定する。次に、人物が動き回るが、自分の見え方では3Dオブジェクトであるように見える際に、このオブジェクトの投影画像を相応に変化させることができる。例えば、強化遠近法を用いて、人物にとって、自分の現在の角度から見てあたかも現実の物理的な3D物体であるかのように見えるように、3Dオブジェクトの画像を床面上に投影することができる。例えば、上記1つ以上のプロセッサは、投影画像の情報内容を人物が認識可能であるように、人物の頭部の位置及び/または向きに基づいて投影画像を予め空間的に変形させるように構成することができる。従って、図1cに示すように、上記方法は、投影画像の情報内容が人物によって認識可能であるように、人物の頭部の位置及び/または向きに基づいて投影画像を予め空間的に変形させるステップ195を含むことができる。例えば、上記1つ以上のプロセッサは、人物の頭部の位置及び/または向きに基づいて、透視/射影行列を決定するように構成することができる。上記1つ以上のプロセッサは、人物が動き回る間に透視/射影行列を更新するように構成することができる。
以下では、空間変換プロセスの例を挙げ、この空間玄関プロセスを用いて投影画像を予め空間的に変形することができる。以下では、4×4行列を例として用いる。所与の視野(fov:field of view)、近平面(zn)、及び遠平面(zf)に対する射影行列は次式のように計算することができる:
ここに、fovwはスクリーンの幅の角度(ラジアン)の視野であり、fovhはスクリーンの高さの角度であり、mcotはコタンジェント(余接)関数である。次に、この射影行列を更に操作して、この射影行列を対応する回転または平行移動の行列と乗算することによって、特定のカメラまたは投影機における位置及び向きのような外部パラメータと整合させる。
提案するコンセプトでは、これらの位置及び向きの行列が、人物(例えば、人物の頭部)の位置及び向きと整合することができる。これらの位置及び向きは、以上で示したように、例えばポーズ推定機械学習モデルを用いて、環境内に配置されたカメラからのビデオデータに基づいて導出することができる。例えば、目の位置及び/または向きを特定して、位置及び向きの行列の決定用の基準として用いることができる。
上述した「ホログラフィック」再投影法を以下に説明し、「ホログラフィック」再投影法を用いて、投影画像が人物の目の前の空中に浮いているように見えるように、投影画像を生成することができる。例えば、こうしたホログラフィック再投影は、物体の陰影を表面上に投影するためにコンピュータグラフィックスにおいて用いられる方法と同様に実現することができる。以下では、投影画像を用いて示される情報を表すことができる3Dオブジェクトが、三角メッシュまたは同様なものによって(ローカル)オブジェクト座標内に記述されるものと仮定する。更に、この3Dオブジェクトは、モデル行列Mmodelに対応する3Dワールド空間内に位置決めされているものと仮定する。更に、見物人が、射影行列Mviewに対応する所定の眼球位置、向き、及び視野を有するものと仮定する。それに加えて、床面が無限平面及び対応する「陰影行列」Msurfaceによって記述されるものと仮定する。最後に、RGB投影機(または同様な投影装置)を、ビュー行列Mprojに応じてワールド空間内に位置決めされるものと仮定する。
例えば、以下のプロセスを再投影用に用いることができる。まず、モデル行列Mmodelの使用によって、オブジェクトメッシュをワールド座標に変換することができる。次に、Mviewのワールド座標系を用いて、Mviewを用いる見物人の目の空間内にオブジェクトをレンダリングすることができる。次に、陰影射影行列/表面再投影行列Msurfaceを用いて、オブジェクトを床面上に背面投影し、これにより人物の眼球位置に応じた投影画像を提供する。無限大の床面については、この背面投影を1回だけ実行する。複数の三角形を含むより精巧な床面については、背面投影を反復することができる。最後に、オブジェクトをRGB投影機の背面Mproj上に背面投影して、RGB投影機へ送られる結果的な画像を取得する。上記のプロセスは、投影機が最終的な画像を用いて、人物が自分の所定位置から「ホログラム」として見る(投影される情報の)3Dオブジェクトの投影画像を得ることを可能にする。
改良として、上記のタスクは実際には説明したように実行されないことがある。その代わりに、射影行列を操作して、4つの行列Mproj、Mview、Msurface及びMmodelを乗算することによって最終的な射影行列を生み出して、単一の射影行列Mを得ることができる。このレンダリングプロセスは、RGB投影機が使用する最終的な画像を直接レンダリングして、単一の行列計算/投影タスクでオブジェクトメッシュを変換することによって、中間的計算をバイパス(回避)することができる。
両方の場合において、最終結果は3Dオブジェクトの再投影画像であり、この再投影画像は人物にとってホログラムとして見える。1つ以上の陰影を追加して、現実性を更に高めることができる。
一部の例では、投影される情報を相互作用的にすることができ、即ち人物が、投影されている情報と相互作用することができる。例えば、上記1つ以上のプロセッサは、人物と投影画像との相互作用(例えば、人物のジェスチャー)を、人物のポーズに基づいて、及び/または少なくとも1つの身体部分の向きに基づいて(例えば、手の向きに基づいて)特定するように構成することができる。例えば、上記1つ以上のプロセッサは、人物と投影画像との相互作用を、ビデオデータの複数のフレームにわたるポーズまたは向きの進行に基づいて特定して、動き、例えばスワイプの動きに基づくジェスチャーを特定することができる。上記1つ以上のプロセッサは、例えば、投影画像を拡大縮小することによる、または投影ターゲットを移動させることによる、あるいは投影画像の情報内容を調整することによる、例えば情報内容をスクロールするか、前回の、または後続する情報内容に切り換えることによる相互作用に基づいて、投影画像を制御するように構成することができる。実際に、バーチャルリアリティにおいて(バーチャルリアリティ用ゴーグルなしでも)用いられる手ベースの入力と同様に、ポーズを用いて投影画像と相互作用することができる。
一部の例では、ビデオデータの分析に加えて、追加的センサを用いて、人物の特性を特定し、及び/または人物についての追加的情報を決定することができる。例えば、上記1つ以上のプロセッサは、人物の位置及び/または人物についての追加的情報を、1つ以上の追加的センサ(例えば、図2に示すセンサ160)のセンサデータに更に基づいて定めるように構成することができる。例えば、ポーズ、視線方向、及び着衣を、1つ以上の追加的センサのセンサデータに基づいて特定することができる。例えば、1つ上の追加的センサは、(人物のモバイル機器のブルートゥース(登録商標)(広告)パケットを傍受して、例えば人物のアイデンティティを特定するための、あるいは人物の再同定用の)ブルートゥース(登録商標)ビーコン、(人物の身分証明カードを登録して、人物のアイデンティティを特定するための)無線ICタグ(RFID)または近接場通信(NFC:near field communication)端末、独立した赤外線ベースのカメラ、深度センサ(例えば、飛行時間(タイム・オブ・フライト)センサ、ライダー(Lidar)センサ、またはレーダーセンサ)、マイクロホン、等を含むことができる。
本発明の少なくとも一部の例は、機械学習モデルまたは機械学習アルゴリズムを用いることに基づく。機械学習は、コンピュータシステムが、モデル及び推論に頼る代わりに、明示的命令を用いることなしに特定のタスクを実行するために用いることができるアルゴリズム及び統計モデルを参照する。例えば、機械学習では、ルールベースのデータの変換の代わりに、履歴データ及び/または学習データの分析から推論されるデータの変換を用いることができる。例えば、画像の内容を、機械学習モデルを用いて、あるいは機械学習アルゴリズムを用いて分析することができる。機械学習モデルが画像の内容を分析するために、学習画像を入力として用い、学習内容を出力として用いて、機械学習モデルを学習させることができる。非常の多数の学習画像及び関連する学習内容情報で機械学習モデルを学習させることによって、機械学習モデルは画像の内容を認識することを「学習し」、従って、学習画像に含まれない画像の内容を、機械学習モデルを用いて認識することができる。同じ原理は他の種類のセンサデータにも用いることができる:学習センサデータ及び所望の出力を用いて機械学習モデルを学習させることによって、機械学習モデルは、センサデータと出力との間の変換を「学習し」、この変換を用いて、機械学習モデルに提供される非学習のセンサデータに基づく出力を提供することができる。
学習入力データを用いて機械学習モデルを学習させる。以上で詳述した例は「教師付き学習」と称される学習方法を用いる。教師付き学習では、複数の学習サンプル、及び複数の所望の出力値を用いて機械学習モデルを学習させ、各サンプルは複数の入力データ値を含むことができ、即ち、各学習サンプルは所望の出力値に関連する。学習サンプル及び所望の出力値を共に指定することによって、機械学習モデルは、どの出力値を提供すべきかを、学習中に提供されるサンプルに類似の入力サンプルに基づいて「学習する」。教師付き学習とは別に、半教師付き学習を用いることができる。半教師付き学習では、学習サンプルの一部が対応する所望の出力値を欠く。教師付き学習は、教師付き学習アルゴリズム、例えば分類アルゴリズム、回帰アルゴリズム、または類似度学習アルゴリズムに基づくことができる。分類アルゴリズムは、限られた値の集合に出力が制約される際に、即ち、限られた値の集合のうちの1つに入力が分類される際に用いることができる。回帰アルゴリズムは、出力が(ある範囲内の)任意の値を有することができる際に用いることができる。類似度学習アルゴリズムは、分類アルゴリズム及び回帰アルゴリズムと似ているが、2つのオブジェクト等が類似または関係する度合いを測定する類似度関数を用いて複数の例から学習することに基づく。
教師付きまたは半教師付き学習とは別に、教師なし学習を用いて機械学習モデルを学習させることができる。教師なし学習では、入力データ(のみ)を供給してもよく、教師なし学習アルゴリズムを用いて、例えば入力データをグループ化または集団化することによって、入力データの構造を見出して、データにおける共通性を見出すことができる。集団化は、複数の入力値から成る入力データを部分集合(クラスタ(集団))に割り当てて、1つ以上の(所定の)類似度基準によれば、同じクラスタ内の入力値は類似であるのに対し、他のクラスタに含まれる入力値は非類似であるようにすることである。
強化学習は機械学習アルゴリズムの第3グループである。換言すれば、強化学習を用いて機械学習モデルを学習させることができる。強化学習では、1つ以上のソフトウェア・アクター(「ソフトウェア・エージェント」と称される)を学習させて、環境内で行動を取らせる。取られる行動に基づいて、報酬を計算する。強化学習は、1つ以上のソフトウェア・エージェントを学習させて、累計の報酬が増加するように行動を選定させて、与えられた作業が(増加する報酬によって証明されるように)より上手くなるソフトウェア・エージェントをもたらす。
以上で紹介した種々の例では、種々の機械学習モデル、例えば推定後機械学習モデル、顔認識機械学習モデル、または人物再同定機械学習モデルが用いられている。例えば、これらの機械学習モデルは、以下に示す種々の技法を用いて学習させることができる。
例えば、推定後機械学習モデルは、教師付き学習を用いて学習させることができる。例えば、ビデオデータを学習の学習サンプルとして用いることができ、対応する推定後データ、例えば二次元または三次元座標系内の身体ポーズ骨格の複数の点を、所望の出力として用いることができる。その代わりに、強化学習モデルを用いることができ、ビデオデータ中に示される実際のポーズから生成される推定後データの偏差を最小にすることを追求する報酬関数を学習用に用いる。
顔認識用に使用する機械学習モデルは、例えば、ビデオデータ内の顔を検出して、長方形の境界ボックス用に用いられる対応する位置を出力するように当該機械学習モデルを学習させることによって、教師付き学習を用いて学習させることもでき、ビデオデータのフレームは学習サンプルとして提供され、境界ボックスの対応する位置は所望の学習出力として提供される。特徴抽出は分類問題であり、従って分類アルゴリズムを適用することができる。その代わりに、以上で概説したように、顔認識は人物再同定機械学習モデルを用いて実現することができる。
人物再同定機械学習モデルは、例えばトリプレット損失ベースの学習を用いて学習させることができる。トリプレット損失では、ベースライン入力を正入力及び負入力と比較する。人物再同定機械学習モデルを学習させるために使用する入力の集合毎に、同一人物を示す2つのサンプルをベースライン入力及び正入力として用いることができ、異なる人物からのサンプルをトリプレット損失ベースの学習の負入力として用いることができる。しかし、人物再同定機械学習モデルの学習は、その代わりに、他の教師付き学習アルゴリズム、教師なし学習アルゴリズム、または強化学習アルゴリズムに基づくことができる。例えば、Ye他:”Deep Learning for Person Re-identification: A Survey and Outlook” (2020)(非特許文献1)は、機械学習ベースの再同定システムの例を、対応する学習法と共に提供する。
機械学習アルゴリズムは、通常、機械学習モデルに基づく。換言すれば、「機械学習アルゴリズム」とは、機械学習モデルを作成し、学習させ、または使用するために用いることができる一組の命令を表すことができる。「機械学習モデル」とは、例えば機械学習アルゴリズムによって実行される学習に基づいて学習させた知識を表現するデータ構造及び/または規則の集合を表すことができる。実施形態では、機械学習アルゴリズムの使用は、その基になる機械学習モデル(またはその基になる複数の機械学習モデル)の使用を暗に意味することができる。機械学習モデルの使用は、機械学習モデル、及び/または機械学習モデルであるデータ構造及び/または規則の集合を、機械学習アルゴリズムによって学習させることを暗に意味することができる。
例えば、機械学習モデルは、人工ニューラルネットワーク(ANN:artificial neural network:人口神経回路網)とすることができる。ANNは、脳内に見出すことができるような生物学的ニューラルネットワークから着想を得たシステムである。ANNは、相互接続された複数のノード、及びこれらのノード間の複数の接続体、いわゆるエッジを備えている。通常は3種類のノード、即ち入力値を受ける入力ノード、他のノードに接続される(だけの)隠れノード、及び出力値を提供する出力ノードが存在する。各ノードは人工ニューロンを表すことができる。各エッジは、情報を1つのノードから他の1つのノードへ伝達する。ノードの出力は、その入力の合計の(非線形)関数として定義することができる。ノードの入力は、この関数において、エッジの「重み」またはその入力を供給したノードの「重み」に基づいて用いることができる。ノードの重み及び/またはエッジの重みは、学習プロセスにおいて調整することができる。換言すれば、人工ニューラルネットワークの学習は、人工ニューラルネットワークのノード及び/またはエッジの重みを調整すること、即ち所与の入力に対する所望の出力を獲得することを含むことができる。少なくとも一部の実施形態では、機械学習モデルを、ディープ(深層)ニューラルネットワーク、例えば隠れノードの1つ以上の層(即ち、隠れ層)、好適には隠れノードの複数の層を備えたディープニューラルネットワークとすることができる。
その代わりに、機械学習モデルはサポートベクターマシンとすることができる。サポートベクターマシン(即ち、サポートベクターネットワーク)は教師付き学習モデルであり、関連する学習アルゴリズムを伴い、この学習アルゴリズムを用いて、例えば分類分析または回帰分析においてデータを分析することができる。サポートベクターマシンは、2つのカテゴリの一方に属する複数の学習入力値を有する入力を提供することによって学習させることができる。サポートベクターマシンを学習させて、新たな入力値を2つのカテゴリの一方に割り当てることができる。その代わりに、機械学習モデルはベイジアン(Bayesian)ネットワークとすることができ、これは確率指向の非巡回グラフィカルモデルである。ベイジアンネットワークは、ランダム値の集合、及びその条件依存関係を、有向非巡回グラフを用いて表現することができる。その代わりに、機械学習モデルは遺伝的アルゴリズムに基づくことができ、遺伝的アルゴリズムは、自然淘汰(自然選択)のプロセスを模擬した探索アルゴリズム及び発見的方法である。
少なくとも1つのインタフェース12は、モジュール内、モジュール間、または異なるエンティティのモジュール間で情報を受信及び/または送信するための1つ以上の入力及び/または出力に相当し、この情報は、指定されたコードに応じた数(ビット)値とすることができる。例えば、少なくとも1つのインタフェース12は、情報を受信及び/または送信するように構成されたインタフェース回路を備えることができる。
実施形態では、1つ以上のプロセッサ14を、1つ以上の処理部、1つ以上の処理装置、プロセッサ、処理用のあらゆる手段、例えば相応に適合させたソフトウェアで動作可能なプロセッサ、コンピュータ、またはプログラマブルなハードウェア構成部品を用いて実現することができる。換言すれば、1つ以上のプロセッサ14の所望の機能はソフトウェアで実現することもでき、従ってこのソフトウェアは1つ以上のプログラマブルなハードウェア構成要素上で実行される。こうしたハードウェア構成要素は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP:Digital Signal Processor)、マイクロコントローラ、等を備えることができる。
少なくとも一部の実施形態では、1つ以上の記憶装置16が、磁気または光記憶媒体のようなコンピュータ可読記憶媒体のグループのうちの少なくとも1つの要素、例えばハードディスクドライブ、フラッシュメモリ、フロッピー(登録商標)ディスク、ランダムアクセスメモリ(RAM:random access memory)、プログラマブル読出し専用メモリ(PROM:programmable read-only memory)、消去可能プログラマブル読出し専用メモリ(EPROM:erasable PROM)、電気的消去可能プログラマブル読出し専用メモリ(EEPROM:electrically erasable PROM)、またはネットワーク記憶装置を備えることができる。
上記の装置、システム、方法、及びコンピュータプログラムのより詳細及び態様は、提案するコンセプト、あるいは以上または以下に説明する1つ以上の例(例えば、図4)に関連して述べる。これらの装置、システム、方法、及びコンピュータプログラムは、提案するコンセプトの1つ以上の態様、あるいは以上または以下に説明する1つ以上の例に相当する、1つ以上の追加的な任意の特徴を備えることができる。
図1a~3に関しては、環境内の人物への情報の提供に関係する例を示した。しかし、提案する技法の少なくとも一部は、セキュリティ用途に適用することもできる。特に、提案するコンセプトを用いて投影画像を提供することができ、この投影画像は、人物のアイデンティティまたは再同定が所定の基準を満足するか否かに基づいて、例えば同定または再同定された人物が環境内にいることを許可されているか否かに基づいて提供される。
以下では、装置、方法、コンピュータプログラム、及びシステムを紹介し、これらは図1a~3に関連して示した装置、方法、コンピュータプログラム、及びシステムと同様に実現される。従って、これらの装置及びシステムの紹介は、図1a、2及び3を再び参照する、というのは、提案する装置及びシステムの構成要素は、図1a、2及び3に示す装置及びシステムの構成要素と同様であるからである。
本発明の一部の例は、投影システム30を制御する他の装置10に関するものである。この装置は、1つ以上のカメラ20からビデオデータを取得し、投影システム30と通信するための1つ以上のインタフェース12を備えている。装置10は、ビデオデータを処理して、ビデオデータ中に示される環境内の人物40の位置を特定するように構成された1つ以上のプロセッサ14を備えている。1つ以上のプロセッサ14は、ビデオデータに基づいて人物を同定または再同定するように構成されている。1つ以上のプロセッサ14は、人物のアイデンティティまたは再同定が所定の基準を満足する場合に、投影システムを制御して投影画像50を投影ターゲット上に投影させ、投影ターゲットは、環境内の人物の位置に基づいて、この人物に対して決定される。一部の例は対応するシステムに関係し、このシステムは、装置10、1つ以上のカメラ20、投影システム30、及び1つ以上の追加的センサ60のような任意の追加的構成要素を備えている。
図4は、投影システムを制御するための対応する方法の例のフローチャートを示す。この方法は、1つ以上のカメラのビデオデータを処理して、ビデオデータ中に示される環境内の人物の位置を特定するステップ110を含む。この方法は、ビデオデータに基づいて人物を同定または再同定するステップ140を含む。この方法は、人物のアイデンティティまたは再同定が所定の基準を満足する場合に、投影システムを制御して投影画像を投影ターゲット上に投影させるステップ190を含み、投影ターゲットは環境内の人物の位置に基づく。この方法は、例えば図1cに関連して示す1つ以上の追加的特徴を含むことができる。
上記の装置、システム、方法、及び対応するコンピュータプログラムのそれぞれの特徴を、図1a~3に関連して紹介してきた。しかし、本発明のこの第2の態様に関して説明する装置、システム、方法、及びコンピュータプログラムは、図1a~3に関連して示す特徴の必ずしも全部を実現しない。この第2の態様は、図1a~3に示すものと同様な、有能なビデオ処理システムの応用、セキュリティの分野における応用に関するものである。例えば、この第2の態様を用いて、物理的な侵入者の検出及び阻止のためのコンセプトを提供することができる。
例えば、提案するコンセプトの第2の態様は、ビデオカメラ、光ビーム、及び複数のサーボを用いて実現することができる。カメラを用いて、(ディープニューラルネットワークに基づく機械学習/人工知能の使用により)ビデオ映像中の侵入者の可能性のあるもの(即ち、人物)を同定または再同定することができる。換言すれば、ビデオ映像を、例えばディープネットワークを用いて分析して、人物を検出することができる。侵入者が検出された場合、装置に作り付けの光ビーム(投影システムの投影機)をスイッチオンする。ビデオデータ中の人物の(二次元)位置を、サーボの対応する位置に変換することができる。サーボを用いて、光を指向させて人物の顔面上に当てることができる。特に、電気機械サーボは、侵入者の顔面または他の身体部分に向けて光を指向させて、侵入者が領域を退去するまで侵入者の顔面に光を当て続けることができる。このことは、侵入者が能動的に追跡されており、更に前進することを思いとどまって欲しいことを侵入者に知らせる。受動的な/不動のフットライトを有する既存の赤外線ベースの方法とは対照的に、提案する光ビームの追加的移動は、能動的追跡を侵入者にとってより明らかにし、従って阻止の要因を増加させる。顔面以外の他の身体部分もターゲットにすることができる。例えば、投影ターゲットを、人物の身体ポーズに基づいて決定して、頭部または胴体のような特定の身体部分上を投影画像のターゲットとすることができる。
提案するコンセプトでは、人物を同定または再同定する。このことは、環境、例えば倉庫、または空港の制限区域内にいることを許可された人物と、この環境内にいることを許可されていない人物とを区別する目的を果たす。従って、顔認識または人物再同定を用いて、既知の人物(即ち、許可された職員)を同定または再同定することによって、許可された職員に対しては(光を顔面に当てる)セキュリティビームを作動させないことができる。例えば、上記所定の基準は、人物が既知である(例えば、顔認識データベース内に見出されるか、既知の再同定コードと同様な再同定コードを有する)か否かに関するものとすること、及び/または(顔認識データベース内のエントリ、または既知の再同定コードを、人物が環境内にいることを許可されているか否かを示す情報にリンクすることによって)人物が環境内にいることを許可されていることが既知であるか否かに関するものとすることができる。
基本的構成では、上記光源及びカメラを同じ物理的位置または筐体内に配置することができる。しかし、図1a~3に関連して示した例と同様に、複数のカメラ及び投影システムを環境の周囲に配置することができる。従って、上記カメラと投影システムとは互いに分離することができる。例えば、複数のカメラと異なる数の光源とを組み合わせて、より広い領域内の複数の人物を追跡することができる。
以上で示した例と同様に、自動較正を用いてサーチライトを人物に向けて指向させることもできる。このことは、上記システムを、例えば白色の壁の直前に配置することによって行うことができ、あるいは画像中の顔面の位置を検出して、顔面(または他の身体部分)が光で覆われたことを検出することができるまで、対応するサーボの制御を適切に調整することによって、より取り入れることができる。較正プロセスが終了すると、特定の装置が後に使用するために設定を記憶する。
上記の装置、システム、方法、及びコンピュータプログラムのより詳細及び態様は、提案するコンセプトに関連して、あるいは以上または以下に説明する1つ以上の例(例えば、図1a~3)に記述されている。上記の装置、システム、方法、及びコンピュータプログラムは、提案するコンセプトの1つ以上の態様、あるいは以上または以下に説明する1つ以上の例に対応する1つ以上の追加的な任意の特徴を含むことができる。
提案するコンセプトの例は、セキュリティ、スマートビルディング、ビデオ監視、人工知能、ディープニューラルネットワーク、及び/またはコンピュータビジョンの分野において応用することができる。
前の例のうち特定のものに関して説明した態様及び特徴は、他の例のうちの1つ以上と組み合わせて、この1つ以上の他の例の同一または同様の特徴を置き換えること、あるいはこの他の例に追加的に導入することもできる。
例は、更に、(コンピュータ)プログラムとすること、あるいはプログラムに関するものとすることができ、このプログラムは、コンピュータ、プロセッサ、または他のプログラマブルなハードウェア構成要素上で実行されると、上記の方法のうちの1つ以上を実行するためのプログラムコードを含む。従って、上述した方法のうちの異なるもののステップ、動作、またはプロセスも、プログラマブルなコンピュータ、プロセッサ、または他のプログラマブルなハードウェア構成要素上で実行することができる。例は、デジタルデータ記憶媒体のようなプログラム記憶デバイスをカバーすることもでき、これらのプログラム記憶デバイスは、機械可読、プロセッサ可読、またはコンピュータ可読であり、機械で実行可能、プロセッサで実行可能、またはコンピュータで実行可能なプログラム及び命令を符号化及び/または収容する。プログラム記憶デバイスは、例えば、デジタル記憶デバイス、磁気ディスクまたは磁気テープのような磁気記憶媒体、ハードディスクドライブ、または光読出し可能なデジタルデータ記憶媒体を含むことができ、あるいはこれらとすることができる。他の例は、上述した方法のステップを実行するようにプログラムされたコンピュータ、プロセッサ、制御装置、(フィールド)プログラマブル・ロジックアレイ((F)PLA:(field) programmable logic array)、(フィールド)プログラマブル・ゲートアレイ((F)PGA:(field) programmable gate array)、グラフィックス・プロセシングユニット(GPU:graphics processing unit:グラフィック処理装置)、特定用途向け集積回路(ASIC:application specific integrated circuit)、集積回路(IC:integrated circuit)またはシステム・オン・チップ(SOC:system-on-chip)システムを含むこともできる。
更に、説明または特許請求の範囲中に開示された複数のステップ、プロセス、動作、または機能は、個別の場合に特に断りのない限り、必ず記載された順序に依存すること、あるいは技術的理由で必要であることを暗に意味するものと考えるべきでないことは明らかである。従って、これ以前の記載は、複数のステップまたは機能を特定の順序に限定しない。更に、他の例では、単一のステップ、機能、プロセス、または動作が、複数のサブステップ、副次的機能、サブプロセス、または副次的動作を含むこと、及び/または単一のステップ、機能、プロセス、または動作を、複数のサブステップ、副次機能、サブプロセス、または副次的動作に分けることができる。
ある態様を装置またはシステムに関して説明する場合、これらの態様は、対応する方法の説明としても理解すべきである。例えば、装置またはシステムのブロック、装置、または機能的態様は、対応する方法のステップのような特徴に対応することができる。従って、方法に関して説明した態様は、対応する装置または対応するシステムの、対応するブロック、対応する要素、特性または機能的特徴としても理解すべきである。
以下の特許請求の範囲は詳細な説明に含まれ、各請求項は別個の例として自立することができる。なお、特許請求の範囲では、従属請求項は1つ以上の他の請求項との特定の組合せを参照するが、他の例は従属請求項と他のあらゆる従属請求項または独立請求項との組合せを含むこともできる。こうした組合せは、個別の場合において特定の組合せを意図しないことが記載されていない限り、明示的に提案される。更に、ある請求項の特徴は、その請求項が他の独立請求項に従属するものとして直接に規定されていなくても、当該他の独立請求項にも含まれるべきである。

Claims (15)

  1. 投影システムを制御する装置であって、
    ビデオデータを1つ以上のカメラから取得し、前記投影システムと通信するための少なくとも1つのインタフェースと、
    1つ以上のプロセッサとを備え、
    該1つ以上のプロセッサは、
    前記ビデオデータを処理して、前記ビデオデータ中に示される環境内の人物の位置を特定し、
    前記人物に対する投影ターゲットを、前記環境内の前記人物の位置に基づいて決定し、
    前記人物についての追加的情報を取得し、
    前記投影システムを制御して、投影画像を前記投影ターゲット上に投影させ、
    前記投影画像が、前記人物についての前記追加的情報及び/または前記人物の位置に依存する情報を含む装置。
  2. 前記1つ以上のプロセッサが、前記人物のポーズ及び/または前記人物の少なくとも1つの身体部分の向きを特定し、前記人物に対する前記投影ターゲット及び/または投影される前記情報を、前記人物の前記ポーズに基づいて、及び/または前記少なくとも1つの身体部分の向きに基づいて決定する、請求項1に記載の装置。
  3. 前記少なくとも1つのプロセッサが、前記人物が前方を見ている場合に前記人物が前記投影画像を知覚することができるように前記投影ターゲットを決定する、及び/または、
    前記少なくとも1つのプロセッサが、前記人物の頭部の位置及び/または向きを特定し、前記投影画像の情報内容が前記人物によって認識可能であるように、前記人物の前記頭部の位置及び/または向きに基づいて前記投影画像を予め空間的に変形させる、請求項2に記載の装置。
  4. 前記1つ以上のプロセッサが、前記投影システムの複数の投影機のうちの少なくとも1つを、前記人物の位置、前記人物のポーズに基づいて、及び/または前記人物の少なくとも1つの身体部分の向きに基づいて選択し、前記投影システムを制御して、前記選択した投影機を用いて前記投影画像を投影させる、請求項1~3のいずれかに記載の装置。
  5. 前記1つ以上のプロセッサが、前記投影ターゲットを、前記環境の床面上、前記環境の壁面上、及び前記人物の所定の身体部分上、のうちの1つに設定する、請求項1~3のいずれかに記載の装置。
  6. 前記1つ以上のプロセッサが、前記人物の位置を、前記ビデオデータの複数のフレームにわたって追跡し、前記人物の位置が変化した場合に前記投影ターゲットを更新する、請求項1~3のいずれかに記載の装置。
  7. 前記1つ以上のプロセッサが、深層学習を用いて学習させた機械学習モデルを用いて、前記人物の位置、前記人物のポーズ、及び/または前記人物の少なくとも1つの身体部分の向きを、前記ビデオデータに基づいて特定する、請求項1~3のいずれかに記載の装置。
  8. 前記1つ以上のプロセッサが、前記ビデオデータに基づいて前記人物を同定または再同定し、前記投影画像が前記人物のアイデンティティまたは再同定に基づく、請求項1~3のいずれかに記載の装置。
  9. 前記1つ以上のプロセッサが、前記追加的情報を、前記人物の前記アイデンティティまたは前記再同定に基づいて決定する、及び/または、
    前記1つ以上のプロセッサが、前記人物の前記アイデンティティまたは前記再同定に基づいて、前記人物の行き先を前記人物についての前記追加的情報として特定し、前記人物の前記行き先を指し示す方向指示記号付きの前記投影画像を生成する、及び/または、
    前記1つ以上のプロセッサが、前記人物の前記アイデンティティまたは前記再同定に基づいて、前記人物が視覚情報を知覚する能力についての情報を前記人物についての前記追加的情報として決定し、前記人物が視覚情報を知覚する能力についての情報に基づいて、前記投影画像の情報内容の視覚的表現を決定する、請求項8に記載の装置。
  10. 前記1つ以上のプロセッサが、前記人物の前記アイデンティティまたは前記再同定が所定の基準を満足するか否かに基づいて、前記投影システムを制御して前記投影画像を投影させる、請求項8に記載の装置。
  11. 前記1つ以上のプロセッサが、前記投影システムを制御して較正投影画像を投影させ、前記較正投影画像を示す前記ビデオデータに基づいて較正情報を決定し、該較正情報に基づいて前記投影システムを制御する、請求項1~3のいずれかに記載の装置。
  12. 前記1つ以上のプロセッサが、1つ以上の追加的センサのセンサデータに更に基づいて、前記人物の位置を特定し、及び/または前記人物についての前記追加的情報を決定する、請求項1~3のいずれかに記載の装置。
  13. 1つ以上のカメラと、投影システムと、請求項1~3のいずれかに記載の装置とを備えたシステム。
  14. 投影システムを制御する方法であって、
    1つ以上のカメラのビデオデータを処理して、前記ビデオデータ中に示される環境内の人物の位置を特定するステップと、
    前記環境内の前記人物の位置に基づいて、前記人物に対する投影ターゲットを決定するステップと、
    前記人物についての追加的情報を取得するステップと、
    前記投影システムを制御して、投影画像を前記投影ターゲット上に投影させるステップであって、前記投影画像が、前記人物についての前記追加的情報及び/または前記人物の位置に依存する情報を含むステップと、
    を含む方法。
  15. 1つ以上のカメラのビデオデータを処理して、前記ビデオデータ中に示される環境内の人物の位置を特定するステップと、
    前記環境内の前記人物の位置に基づいて、前記人物に対する投影ターゲットを決定するステップと、
    前記人物についての追加的情報を取得するステップと、
    投影システムを制御して、投影画像を前記投影ターゲット上に投影させるステップであって、前記投影画像が、前記人物についての前記追加的情報及び/または前記人物の位置に依存する情報を含むステップと
    をコンピュータに実行させるためのプログラム。
JP2023046323A 2022-03-30 2023-03-23 投影システムを制御する装置、方法及びプログラム Pending JP2023152861A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP22165477.5 2022-03-30
EP22165477.5A EP4254945A1 (en) 2022-03-30 2022-03-30 Apparatus and method for controlling a projection system

Publications (1)

Publication Number Publication Date
JP2023152861A true JP2023152861A (ja) 2023-10-17

Family

ID=80999520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023046323A Pending JP2023152861A (ja) 2022-03-30 2023-03-23 投影システムを制御する装置、方法及びプログラム

Country Status (2)

Country Link
EP (1) EP4254945A1 (ja)
JP (1) JP2023152861A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9723293B1 (en) * 2011-06-21 2017-08-01 Amazon Technologies, Inc. Identifying projection surfaces in augmented reality environments
US10462421B2 (en) * 2015-07-20 2019-10-29 Microsoft Technology Licensing, Llc Projection unit
US10853911B2 (en) * 2018-04-17 2020-12-01 Google Llc Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment

Also Published As

Publication number Publication date
EP4254945A1 (en) 2023-10-04

Similar Documents

Publication Publication Date Title
US11315526B2 (en) Transportation hub information system
CN110310175B (zh) 用于移动增强现实的系统和方法
Cao et al. Mobile augmented reality: User interfaces, frameworks, and intelligence
US20230281939A1 (en) Wearable Electronic Device
US20220358770A1 (en) Scene reconstruction in three-dimensions from two-dimensional images
CN106462242B (zh) 使用视线跟踪的用户界面控制
US10540812B1 (en) Handling real-world light sources in virtual, augmented, and mixed reality (xR) applications
US20200410713A1 (en) Generating pose information for a person in a physical environment
CN107004279A (zh) 自然用户界面相机校准
KR20210095941A (ko) 관절체 포즈를 검출하기 위한 시스템 및 방법
Schütt et al. Semantic interaction in augmented reality environments for microsoft hololens
Romero et al. FlowCap: 2D human pose from optical flow
Medeiros et al. 3D pointing gestures as target selection tools: guiding monocular UAVs during window selection in an outdoor environment
Muñoz-Salinas et al. People detection and tracking with multiple stereo cameras using particle filters
WO2009016624A2 (en) System and method employing thermal imaging for object detection
TWI750822B (zh) 用於為目標設置可呈現的虛擬對象的方法和系統
US10713847B2 (en) Method and device for interacting with virtual objects
Schelle et al. Gestural transmission of tasking information to an airborne UAV
JP2023152861A (ja) 投影システムを制御する装置、方法及びプログラム
Diaz et al. Multimodal sensing interface for haptic interaction
Veronese et al. Probabilistic Mapping of human Visual attention from head Pose estimation
Asteriadis et al. Robust validation of visual focus of attention using adaptive fusion of head and eye gaze patterns
Muñoz-Salinas et al. Multi-agent system for people detection and tracking using stereo vision in mobile robots
Trejo Ramírez 3D Partial scans models for people recognition with a RGB-D sensor
US20240257419A1 (en) Virtual try-on via warping and parser-based rendering