JP7339386B2 - 視線追跡方法、視線追跡装置、端末デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

視線追跡方法、視線追跡装置、端末デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7339386B2
JP7339386B2 JP2022053479A JP2022053479A JP7339386B2 JP 7339386 B2 JP7339386 B2 JP 7339386B2 JP 2022053479 A JP2022053479 A JP 2022053479A JP 2022053479 A JP2022053479 A JP 2022053479A JP 7339386 B2 JP7339386 B2 JP 7339386B2
Authority
JP
Japan
Prior art keywords
image
eye
coordinate system
gaze
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022053479A
Other languages
English (en)
Other versions
JP2022088529A (ja
Inventor
シュナン デン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022088529A publication Critical patent/JP2022088529A/ja
Application granted granted Critical
Publication of JP7339386B2 publication Critical patent/JP7339386B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/13Digital output to plotter ; Cooperation and interconnection of the plotter with other functional units
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2380/00Specific applications
    • G09G2380/10Automotive applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Optics & Photonics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)
  • Eye Examination Apparatus (AREA)

Description

本開示は、コンピュータの分野、具体的にはスマート交通や深層学習などの人工知能分野、特に視線追跡方法及び装置、モデル訓練方法及び装置、端末デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラムに関する。
人間視線追跡は、コンピュータビジョンとコンピュータグラフィックスの分野の重要かつ基盤的な問題であり、ヒューマンコンピュータインタラクション、バーチャルリアリティ、拡張現実などの分野でも非常に広く使用される。例えば、コンピュータビジョンでは、顔面上の人間眼球の注目点は、様々なヒューマンコンピュータインタラクション機能を完成させるために使用され得る。拡張現実では、視線方向は、表示内容を調整してより良好な臨場感を生み出すために使用され得る。目が人間の豊かな感情を表現できるので、人間視線追跡の研究は、科学研究および適用の価値が非常に高い。コンピュータグラフィックスとコンピュータビジョンの分野では、高精度の視線方向追跡は、常に重要で挑戦的な問題となっている。
本開示は、視線追跡方法及び装置、モデル訓練方法及び装置、端末デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。
本開示の第一様態によれば、視線追跡方法が提供される。この方法は、運転者の眼球状態画像である第一画像を取得することと、事前に訓練された視線校正モデルに基づいて、第一画像に対応する世界座標系内の注視領域を決定することと、を含む。
本開示の第二様態によれば、モデル訓練方法が提供される。この方法は、訓練サンプルがラベルポイントを注目しているときの運転者の眼球画像と、ラベルポイントの位置情報とを含む訓練サンプルセットを取得することと、眼球画像を入力し、位置情報を出力として使用して、視線校正モデルを訓練して取得することと、を含む。
本開示の第三様態によれば、視線追跡装置が提供される。この装置は、運転者の眼球状態画像である第一画像を取得するように構成された第一取得モジュールと、事前に訓練された視線校正モデルに基づいて、第一画像に対応する世界座標系内の注視領域を決定するように構成された第一決定モジュールと、を含む。
本開示の第四様態によれば、モデル訓練装置が提供される。この装置は、訓練サンプルがラベルポイントを注目しているときの運転者の眼球画像と、ラベルポイントの位置情報とを含む訓練サンプルセットを取得するように構成された第五取得モジュールと、眼球画像を入力し、位置情報を出力として使用して、視線校正モデルを訓練して取得するように構成された訓練モジュールと、を含む。
本開示の第五様態によれば、電子デバイスが提供される。この電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリと、を含み、このメモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、この命令は、少なくとも1つのプロセッサが第一様態の任意の実施形態に記載の方法を実行できるように少なくとも1つのプロセッサによって実行される。
本開示の第六様態によれば、第一様態または第二様態の任意の実施形態に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体が提供される。
本開示の第七様態によれば、プロセッサによって実行されると、第一様態または第二様態の任意の実施形態に記載の方法を実行するコンピュータプログラムが提供される。
このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解されるであろう。
図面は、本実施例をより明確に理解するために使用されており、本開示を限定するものではない。ここで、
本開示が適用され得る例示的なシステムアーキテクチャ図である。 本開示に係る視線追跡方法の一実施例のフローチャートである。 本開示に係る視線追跡方法の別の実施例のフローチャートである。 本開示に係る視線追跡方法のさらに別の実施例のフローチャートである。 本開示に係るモデル訓練方法の一実施例のフローチャートである。 本開示に係る視線追跡装置の一実施例の構造概略図である。 本開示に係るモデル訓練装置の一実施例のフローチャートである。 本開示の実施例に係る視線追跡方法を実行するための電子デバイスのブロック図である。
本開示の例示的な実施例は、理解を容易にするための本開示の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本開示の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。
なお、本開示の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。
図1は、本開示の視線追跡方法または視線追跡装置の実施例が適用され得る例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末デバイス101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末デバイス101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
ユーザは、端末デバイス101、102、103を使用してネットワーク104を介してサーバ105と対話して、情報などを送受信することができる。端末デバイス101、102、103には、様々なクライアントアプリケーションがインストールされ得る。
端末デバイス101、102、103は、ハードウェアであり得るか、またはソフトウェアであり得る。端末デバイス101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、様々な電子デバイスであり得る。端末デバイス101、102、103がソフトウェアである場合、それらは、上記電子デバイスにインストールされ得る。それらは、複数のソフトウェアまたはソフトウェアモジュールとして実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。
サーバ105は様々なサービスを提供することができる。例えば、サーバ105は、端末デバイス101、102、103から取得された第一画像を分析して処理し、処理結果(例えば、注目領域)を生成することができる。
なお、サーバ105は、ハードウェアであり得るか、またはソフトウェアであり得る。サーバ105がハードウェアである場合、それは、複数のサーバからなる分散型サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバ105がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。
なお、本開示の実施例によって提供される視線追跡方法が一般にサーバ105によって実行されるため、視線追跡装置は、一般にサーバ105内に配置される。
図1中の端末デバイス、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末デバイス、ネットワーク、およびサーバの数が任意に設定され得る。
さらに図2を参照すると、図2は、本開示に係る視線追跡方法の一実施例のプロセス200を示す。この視線追跡方法は、以下のステップを含む。
ステップ201:第一画像を取得する。
本実施例では、視線追跡方法の実行主体(例えば、図1に示すサーバ105)は、運転者の眼球状態画像である第一画像を取得することができる。
第一画像は運転者が乗っている車両の画像センサによって収集され得、本実施例の画像センサはカメラセンサ(以下、カメラと略称される)であり、実際の状況に応じて他の画像センサが採用され得るが、本開示では特に限定されない。上記カメラは、運転者の眼球状態画像をリアルタイムで撮影することができる。
ステップ202:事前に訓練された視線校正モデルに基づいて、第一画像に対応する世界座標系内の注視領域を決定する。
本実施例では、上記実行主体は、事前に訓練された視線校正モデルに基づいて、第一画像に対応する世界座標系内の注視領域を決定することができる。ここで、視線校正モデルは、事前に訓練されたモデルである。それは、運転者の眼球状態を表す第一画像を事前に訓練されたこの視線校正モデルに入力して、この第一画像に対応する運転者の注視方向を決定し、次に、決定された注視方向に基づいて第一画像に対応する世界座標系内の注視領域を決定して、運転者の視線追跡を実現することができる。この注視領域は、最終的に決定されるべき運転者の興味のある領域である。
なお、世界座標系は、システムの絶対座標系であり、ユーザ座標系が確立される前に画面上のすべての点は、この座標系の原点に基づいてそれ自体の位置を決定する。
本開示の実施例によって提供される視線追跡方法は、まず、運転者の眼球状態を表す第一画像を取得し、次に、事前に訓練された視線校正モデルに基づいて、第一画像に対応する世界座標系内の注視領域を決定する。本開示は、視線追跡方法を提供する。この方法は、事前に訓練された視線校正モデルに基づいて運転者の視線を校正することにより、運転者の視線範囲内の物体またはオブジェクトの追跡を実現して、視線追跡精度を向上させることができる。
さらに図3を参照すると、図3は、本開示に係る視線追跡方法の別の実施例のプロセス300を示す。この視線追跡方法は、以下のステップを含む。
ステップ301:第一画像を取得する。
ステップ301は前記実施例のステップ201と基本的に一致しており、特定の実施形態には前記ステップ201の説明を参照することができるので、ここでは繰り返されない。
ステップ302:第一画像を事前に訓練された視線校正モデルに入力して、第一画像に対応する視線方向を取得する。
本実施例では、視線追跡方法の実行主体(例えば、図1に示すサーバ105)は、第一画像を事前に訓練された視線校正モデルに入力して、第一画像に対応する視線方向を取得することができる。
運転者が運転している道路の両側の異なる建築物を注目しているとき、その視線方向が異なり、それに対応する眼球向き情報も異なるため、本実施例では、運転者の視線方向は、運転者の眼球状態を表す第一画像を事前に訓練された視線校正モデルに入力して、第一画像に対応する視線方向を取得することによって決定される。
ステップ303:視線方向に対応する世界座標系内の注視領域を決定する。
本実施例では、上記実行主体は、視線方向に対応する世界座標系内の注視領域を決定することができる。世界座標系は実世界での座標系である。それは、運転者の視線方向を決定した後、視線方向に基づいて世界座標系内の注視領域を決定することができる。この注視領域は視線方向に対応する。例えば、運転者の視線方向が左前方であると決定した後、左前方に対応する世界座標系内の領域がこの注視領域であると決定することができる。
図3から分かるように、図2に対応する実施例と比べて、本実施例の視線追跡方法は、視線校正モデルの訓練ステップと、この視線校正モデルに基づいて、第一画像に対応する視線方向を決定し、視線方向に対応する世界座標系内の注目領域を決定するステップとを強調しており、この方法は、視線校正精度を向上させ、適用範囲を広げる。
さらに図4を参照すると、図4は、本開示に係る視線追跡方法のさらに別の実施例のプロセス400を示す。この視線追跡方法は、以下のステップを含む。
ステップ401:第一画像を取得する。
ステップ402:第一画像を事前に訓練された視線校正モデルに入力して、第一画像に対応する視線方向を取得する。
ステップ403:視線方向に対応する世界座標系内の注視領域を決定する。
ステップ401-403は前記実施例のステップ301-303と基本的に一致しており、特定の実施形態には前記ステップ301-303の説明を参照することができるので、ここでは繰り返されない。
ステップ404:第二画像を取得する。
本実施例では、視線追跡方法の実行主体(例えば、図1に示すサーバ105)は、運転者が乗っている車両の周囲環境画像である第二画像を取得することができる。
第二画像は運転者が乗っている車両の別のカメラによって収集され得、即ち、運転者が乗っている車両には2つのカメラが取り付けられ得、1つは運転者の眼球状態画像を内部から収集することができ、もう1つは運転者が乗っている車両の周囲環境画像を外部から収集することができる。当然のことながら、実際の状況に応じてカメラの数が任意に設定されるが、本開示では特に限定されない。
第二画像は、この車両が走行する道路の両側の各建築物を含み得、障害物などをさらに含み得る。
ステップ405:世界座標系と第二画像に対応する画像座標系との対応関係に基づいて、第一ターゲット領域に対応する第二画像内の第二ターゲット領域を決定する。
本実施例では、上記実行主体は、世界座標系と第二画像に対応する画像座標系との対応関係に基づいて、第一ターゲット領域に対応する第二画像内の第二ターゲット領域を決定することができる。
第二画像が現実の環境内のオブジェクトを撮影した画像であるため、第二画像は世界座標系に対応しており、第二画像には画像座標系もある場合、世界座標系と第二画像に対応する画像座標系との対応関係に基づいて、第一ターゲット領域に対応する第二画像内の第二ターゲット領域を決定することができる。第二ターゲット領域は、運転者の視線方向に対応する第二画像内の領域である。
なお、カメラによって収集されたデジタル画像は、コンピュータに配列として記憶され得、配列内の各要素(画素、pixel)の値は、画像点の輝度(グレースケール)である。画像には直角座標系u-vが定義されており、各画素の座標(u、v)はそれぞれ、配列内のこの画素の列数および行数である。従って、(u、v)は、画素を単位とした画像座標系での座標である。
ステップ406:第二ターゲット領域内のPOIオブジェクトを決定する。
本実施例では、上記実行主体は、第二ターゲット領域内のPOI(Point of Interest、ポイントオブインタレスト)オブジェクトを決定することができる。第二ターゲット領域が運転者の視線方向に対応する第二画像内の領域であるため、第二ターゲット領域は、運転者の注目領域であり、第二ターゲット領域内のターゲットオブジェクトは、本実施例のPOIオブジェクト、即ち、運転者の注目オブジェクトである。従って、上記実行主体は、第二ターゲット領域内のPOIオブジェクトを決定することができる。
本実施例のいくつかの代替実施形態では、上記視線追跡方法は、車両の現在位置情報を取得することと、現在位置情報に基づいてPOIオブジェクトの属性情報を取得することと、をさらに含む。
本実施形態では、上記実行主体は、車両の現在位置情報を取得することができる。ここで、現在位置情報は、車両上のGPS(Global Positioning System、タイミング測距ナビゲーション衛星の全地球測位システム)によって取得され得るか、または車両上のIMU(Inertial Measurement Unit、慣性計測装置)センサによって取得され得るが、本開示では特に限定されない。現在位置情報は、世界座標系内の現在位置の座標であり得る。
車両の現在位置情報を取得した後、取得された現在位置情報に基づいてPOIオブジェクトの属性情報を取得することができる。例えば、現在位置の座標に基づいてこのPOIオブジェクトの属性情報を地図から取得することができる。ここで、属性情報は、POIオブジェクトの名称、カテゴリ情報などであり得る。例えば、POIオブジェクトがデパートである場合、その属性情報は、このデパートの名称、デパート内の店舗の活動推薦、活動の割引情報などの情報を含み得る。POIオブジェクトが運転者の興味のあるオブジェクトであるため、本実施例では、POIオブジェクトの属性情報を取得して、より包括的な情報を運転者にフィードバックすることもできる。
ステップ407:画像座標系とヘッドアップ表示画面に対応する表示座標系との対応関係に基づいて、ヘッドアップ表示画面内のPOIオブジェクトのターゲット表示位置を決定する。
本実施例では、上記実行主体は、画像座標系とヘッドアップ表示画面に対応する表示座標系との対応関係に基づいて、ヘッドアップ表示画面内のPOIオブジェクトのターゲット表示位置を決定することもできる。
本実施例では、ヘッドアップ表示画面はヘッドアップディスプレイによって投影されて形成されており、ヘッドアップ表示画面には対応する表示座標系もあり、POIオブジェクトが第二画像内のオブジェクトであり、この表示座標系と第二画像に対応する画像座標系との間には対応関係もあるので、上記実行主体は、表示座標系と画像座標系との対応関係に基づいて、ヘッドアップ表示画面内のPOIオブジェクトのターゲット表示位置を決定して、このターゲット表示位置にこのPOIオブジェクトを表示することができる。
ステップ408:ヘッドアップ表示画面内のターゲット表示位置にPOIオブジェクトを表示する。
本実施例では、上記実行主体は、ヘッドアップ表示画面内のターゲット表示位置に上記POIオブジェクトを表示し、上記属性情報をヘッドアップ表示画面内のPOIオブジェクトに重畳表示することができる。ターゲット表示位置がPOIオブジェクトの実位置情報(即ち、第二画像内の位置情報)に対応するので、POIオブジェクトのターゲット表示位置が決定された後、ヘッドアップディスプレイは、POIをターゲット表示位置に投影して、POIオブジェクトを運転者により直感的で正確に表示することができる。
ステップ409:属性情報をヘッドアップ表示画面内のPOIオブジェクトに重畳表示する。
本実施例では、上記実行主体は、POIオブジェクトの属性情報をPOIオブジェクトに重畳表示することにより、これらの属性情報を現実の建物と融合して、拡張現実効果を達成することができる。例えば、POIオブジェクトがデパートである場合、上記実行主体は、このデパートをターゲット表示位置にレンダリングし、このデパートの名称、デパート内の活動情報などをこのPOIオブジェクトに重畳表示することができる。
図4から分かるように、図3に対応する実施例と比べて、本実施例の視線追跡方法はさらに、第二画像を取得し、世界座標系と第二画像に対応する画像座標系との対応関係に基づいて、第一ターゲット領域に対応する第二画像内の第二ターゲット領域を決定し、第二ターゲット領域内のPOIオブジェクトを決定し、次に、車両の現在位置情報を取得し、現在位置情報に基づいてPOIオブジェクトの属性情報を取得し、最後に、画像座標系とヘッドアップ表示画面に対応する表示座標系との対応関係に基づいて、ヘッドアップ表示画面内のPOIオブジェクトのターゲット表示位置を決定し、ヘッドアップ表示画面内のターゲット表示位置にPOIオブジェクトを表示し、属性情報をヘッドアップ表示画面内のPOIオブジェクトに重畳表示することにより、オブジェクトの属性情報を現実の建物と融合して、拡張現実効果を達成する。
本開示の技術的解決手段に係るユーザ個人情報の取得、記憶、適用などはいずれも、関連法令の規定を満たしており、公序良俗に違反していない。
さらに図5を参照すると、図5は、本開示に係るモデル訓練方法の一実施例のプロセス500を示す。このモデル訓練方法は、以下のステップを含む。
ステップ501:訓練サンプルセットを取得する。
本実施例では、モデル訓練方法の実行主体(例えば、図1に示すサーバ105)は、訓練サンプルがラベルポイントを注目しているときの運転者の眼球画像と、ラベルポイントの位置情報とを含む訓練サンプルセットを取得することができる。
本実施例では、訓練サンプルセットを取得するとき、校正板を配置して、ヘッドアップディスプレイによって投影されて形成されたヘッドアップ表示画面にこの校正板を表示することができる。ここで、校正板は異なる領域に事前に分割され得、各領域はそれ自体の位置情報に対応しており、校正板の解像度はヘッドアップディスプレイの解像度と一致すべきであり、例えば、それらの解像度はいずれも854*480である。また、校正板は碁盤目状でもあり得るが、本実施例では特に限定されない。
次に、試験者が運転者の位置に座って(または運転者は試験を直接実行する)、校正板上の異なるデータ、即ち、校正板上の異なる領域を注目するようにして、異なる領域を注目しているときの試験者の眼球状態画像を収集して、視線校正モデルを訓練するための訓練サンプルセットを取得することができる。訓練サンプルセットは、ラベルポイントを注目しているときの運転者の眼球画像と、ラベルポイントの位置情報とを含む。ここで、ラベルポイントの位置情報は手動でラベル付けされ得、例えば、位置情報は五行三列としてラベル付けされる。
ステップ502:眼球画像を入力し、位置情報を出力として使用して、視線校正モデルを訓練して取得する。
本実施例では、上記実行主体は、眼球画像を入力し、位置情報を出力として使用して、視線校正モデルを訓練して取得することができる。
訓練サンプルセットを取得した後、この訓練サンプルセットを深層学習モデルに入力し、深層学習モデルを訓練して、訓練された視線校正モデルを取得する。この視線校正モデルの入力は運転者の眼球画像であり、出力はその眼球画像に対応する位置情報である。ここで、深層学習モデルは、従来のモデルとして採用され得るが、本開示では特に限定されない。
本開示の実施例によって提供されるモデル訓練方法は、まず、訓練サンプルセットを取得し、次に眼球画像を入力し、位置情報を出力として使用して、視線校正モデルを訓練して取得する。本開示は、モデル訓練方法を提供する。この方法は、視線校正モデルを訓練して取得することができるので、視線校正結果をより正確にすることができる。
さらに図6を参照すると、上記の各図に示す方法の実施形態として、本開示は、図2に示す方法の実施例に対応する視線追跡装置の実施例を提供する。この装置は、様々な電子デバイスに特に適用できる。
図6に示すように、本実施例の視線追跡装置600は、第一取得モジュール601、および第一決定モジュール602を含み得る。ここで、第一取得モジュール601は、運転者の眼球状態画像である第一画像を取得するように構成される。第一決定モジュール602は、事前に訓練された視線校正モデルに基づいて、第一画像に対応する世界座標系内の注視領域を決定するように構成される。
本実施例では、視線追跡装置600の第一取得モジュール601、および第一決定モジュール602の具体的な処理とその技術的効果については、それぞれ図2に対応する実施例のステップ201-202の関連説明を参照することができるので、ここでは繰り返さない。
本実施例のいくつかの代替実施形態では、第一決定モジュールは、第一画像を事前に訓練された視線校正モデルに入力して、第一画像に対応する視線方向を取得するように構成された入力サブモジュールと、視線方向に対応する世界座標系内の注視領域を決定するように構成された決定サブモジュールと、を含む。
本実施例のいくつかの代替実施形態では、上記視線追跡装置は、運転者が乗っている車両の周囲環境画像である第二画像を取得するように構成された第二取得モジュールと、世界座標系と第二画像に対応する画像座標系との対応関係に基づいて、第一ターゲット領域に対応する第二画像内の第二ターゲット領域を決定するように構成された第二決定モジュールと、をさらに含む。
本実施例のいくつかの代替実施形態では、上記視線追跡装置は、第二ターゲット領域内のポイントオブインタレストPOIオブジェクトを決定するように構成された第三決定モジュールと、画像座標系とヘッドアップ表示画面に対応する表示座標系との対応関係に基づいて、ヘッドアップ表示画面内のPOIオブジェクトのターゲット表示位置を決定するように構成された第四決定モジュールと、をさらに含む。
本実施例のいくつかの代替実施形態では、上記視線追跡装置は、車両の現在位置情報を取得するように構成された第三取得モジュールと、現在位置情報に基づいてPOIオブジェクトの属性情報を取得するように構成された第四取得モジュールと、属性情報をヘッドアップ表示画面内のPOIオブジェクトに重畳表示するように構成された表示モジュールと、をさらに含む。
さらに図7を参照すると、上記の各図に示す方法の実施形態として、本開示は、図5に示す方法の実施例に対応するモデル訓練装置の実施例を提供する。この装置は、様々な電子デバイスに特に適用できる。
図7に示すように、本実施例のモデル訓練装置700は、第五取得モジュール701、および訓練モジュール702を含み得る。ここで、第五取得モジュール701は、訓練サンプルがラベルポイントを注目しているときの運転者の眼球画像と、ラベルポイントの位置情報とを含む訓練サンプルセットを取得するように構成される。訓練モジュール702は、眼球画像を入力し、位置情報を出力として使用して、視線校正モデルを訓練して取得するように構成される。
本実施例では、モデル訓練装置700の第五取得モジュール701、および訓練モジュール702の具体的な処理とその技術的効果については、それぞれ図5に対応する実施例のステップ501-502の関連説明を参照することができるので、ここでは繰り返さない。
本開示の実施例によれば、本開示は、電子デバイス、可読記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図8は、本開示の実施例を実施するために使用され得る例示的な電子デバイス800の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本開示の実施形態を限定することを意図したものではない。
図8に示すように、デバイス800は、リードオンリメモリ(ROM)802に記憶されたコンピュータプログラム、または記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット801を含む。RAM803には、デバイス800の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット801、ROM802、およびRAM803は、バス804を介して互いに接続される。入力/出力(I/O)インターフェース805も、バス804に接続される。
デバイス800内の複数のコンポーネントは、I/Oインターフェース805に接続されており、キーボード、マウスなどの入力ユニット806と、各種の視線追跡装置、スピーカーなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット809と、を含む。通信ユニット809は、デバイス800が、インターネットなどのコンピュータネットワーク、および/または様々な通信ネットワークを介して、他の装置との間で情報/データを交換することを可能にする。
計算ユニット801は、処理能力および計算能力を備えた様々な汎用および/または専用の処理コンポーネントであり得る。計算ユニット801のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上記様々な方法および処理、例えば、視線追跡方法を実行する。例えば、いくつかの実施例では、視線追跡方法は、記憶ユニット808などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して、デバイス800にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上記視線追跡方法の1つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット801は、他の任意の適切な手段(例えば、ファームウェア)を介して、視線追跡方法を実行するように構成され得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途用標準品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブル視線追跡装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図で指定された機能/動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。
本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD-ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、視線追跡情報をユーザに表示するための視線追跡装置(例えば、CRT(陰極線管)またはLCD(液晶視線追跡装置)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであり得るか、または分散型システムのサーバ、またはブロックチェーンを組み合わせたサーバであり得る。
ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本開示に記載の各ステップは、本開示に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書に限定されない。
上記特定の実施形態は、本開示の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本開示の精神と原則の範囲内で行われた修正、同等置換、改良などは、本開示の保護範囲に含まれるべきである。

Claims (13)

  1. 視線追跡方法であって、
    運転者の眼球状態画像である第一画像を取得することと、
    事前に訓練された視線校正モデルに基づいて、前記第一画像に対応する世界座標系内の車外の注視領域を第一ターゲット領域として決定することと、を含み、
    前記視線校正モデルは、
    訓練サンプルがラベルポイントを注目しているときの運転者の眼球状態画像と、前記ラベルポイントの位置情報とを含む訓練サンプルセットを取得することと、
    前記眼球状態画像を入力し、前記位置情報を出力として使用して、視線校正モデルを訓練して取得することと、を含むモデル訓練方法により得られ、
    訓練サンプルセットを取得することは、
    ヘッドアップディスプレイによって投影されて形成されたヘッドアップ表示画面に校正板を表示させることであって、前記校正板は異なる領域に事前に分割され、各領域はそれ自体の前記位置情報に対応しており、前記校正板の解像度は前記ヘッドアップディスプレイの解像度と一致するように構成される、ことと、
    運転者の位置に座っている試験者が異なる領域を注目しているときの試験者の眼球状態画像を収集して、収集した眼球状態画像と対応する前記位置情報とを訓練サンプルとし、視線校正モデルを訓練するための訓練サンプルセットを得ることを含む、
    視線追跡方法。
  2. 前述した事前に訓練された視線校正モデルに基づいて、前記第一画像に対応する世界座標系内の車外の注視領域を第一ターゲット領域として決定することは、
    前記第一画像を事前に訓練された視線校正モデルに入力して、前記第一画像に対応する視線方向を取得することと、
    前記視線方向に対応する世界座標系内の注視領域を決定することと、を含む、
    請求項1に記載の方法。
  3. 前記方法は、
    前記運転者が乗っている車両の周囲環境画像である第二画像を取得することと、
    世界座標系と前記第二画像に対応する画像座標系との対応関係に基づいて、前記第一ターゲット領域に対応する前記第二画像内の第二ターゲット領域を決定することと、をさらに含む、
    請求項1-2のいずれか一項に記載の方法。
  4. 前記方法は、
    前記第二ターゲット領域内のポイントオブインタレストPOIオブジェクトを決定することと、
    前記画像座標系とヘッドアップ表示画面に対応する表示座標系との対応関係に基づいて、前記ヘッドアップ表示画面内の前記POIオブジェクトのターゲット表示位置を決定することと、をさらに含む、
    請求項3に記載の方法。
  5. 前述した前記第二ターゲット領域内のポイントオブインタレストPOIオブジェクトを決定することの後に、前記方法は、
    前記車両の現在位置情報を取得することと、
    前記現在位置情報に基づいて前記POIオブジェクトの属性情報を取得することと、
    前記属性情報を前記ヘッドアップ表示画面内の前記POIオブジェクトに重畳表示することと、をさらに含み、
    前記POIオブジェクトは、建物であり、前記POIオブジェクトの属性情報は、前記建物内の商業施設に関する商業情報である、
    請求項4に記載の方法。
  6. 視線追跡装置であって、
    運転者の眼球状態画像である第一画像を取得するように構成された第一取得モジュールと、
    事前に訓練された視線校正モデルに基づいて、前記第一画像に対応する世界座標系内の車外の注視領域を第一ターゲット領域として決定するように構成された第一決定モジュールと、を含み、
    前記視線追跡装置は、
    訓練サンプルがラベルポイントを注目しているときの運転者の眼球状態画像と、前記ラベルポイントの位置情報とを含む訓練サンプルセットを取得するように構成された訓練サンプルセット取得モジュールと、
    前記眼球状態画像を入力し、前記位置情報を出力として使用して、視線校正モデルを訓練して取得するように構成された訓練モジュールと、
    前記訓練サンプルセット取得モジュールは、さらに、
    ヘッドアップディスプレイによって投影されて形成されたヘッドアップ表示画面に校正板を表示させ、前記校正板は異なる領域に事前に分割され、各領域はそれ自体の前記位置情報に対応しており、前記校正板の解像度は前記ヘッドアップディスプレイの解像度と一致するように構成され、
    運転者の位置に座っている試験者が異なる領域を注目しているときの試験者の眼球状態画像を収集して、収集した眼球状態画像と対応する前記位置情報とを訓練サンプルとし、視線校正モデルを訓練するための訓練サンプルセットを得る、ように構成される、
    視線追跡装置。
  7. 前記第一決定モジュールは、
    前記第一画像を事前に訓練された視線校正モデルに入力して、前記第一画像に対応する視線方向を取得するように構成された入力サブモジュールと、
    前記視線方向に対応する世界座標系内の注視領域を決定するように構成された決定サブモジュールと、を含む、
    請求項に記載の装置。
  8. 前記装置は、
    前記運転者が乗っている車両の周囲環境画像である第二画像を取得するように構成された第二取得モジュールと、
    前記世界座標系と前記第二画像に対応する画像座標系との対応関係に基づいて、前記第一ターゲット領域に対応する前記第二画像内の第二ターゲット領域を決定するように構成された第二決定モジュールと、をさらに含む、
    請求項6-7のいずれか一項に記載の装置。
  9. 前記装置は、
    前記第二ターゲット領域内のポイントオブインタレストPOIオブジェクトを決定するように構成された第三決定モジュールと、
    前記画像座標系とヘッドアップ表示画面に対応する表示座標系との対応関係に基づいて、前記ヘッドアップ表示画面内の前記POIオブジェクトのターゲット表示位置を決定するように構成された第四決定モジュールと、をさらに含む、
    請求項に記載の装置。
  10. 前記装置は、
    前記車両の現在位置情報を取得するように構成された第三取得モジュールと、
    前記現在位置情報に基づいて前記POIオブジェクトの属性情報を取得するように構成された第四取得モジュールと、
    前記属性情報を前記ヘッドアップ表示画面内の前記POIオブジェクトに重畳表示するように構成された表示モジュールと、をさらに含み、
    前記POIオブジェクトは、建物であり、前記POIオブジェクトの属性情報は、前記建物内の商業施設に関する商業情報である、
    請求項に記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサが請求項1-5のいずれか一項に記載の方法を実行できるように前記少なくとも1つのプロセッサによって実行される、
    端末デバイス。
  12. 請求項1-5のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
  13. プロセッサによって実行されると、請求項1-5のいずれか一項に記載の方法を実行するコンピュータプログラム。
JP2022053479A 2021-06-25 2022-03-29 視線追跡方法、視線追跡装置、端末デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム Active JP7339386B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110709957.3A CN113420678A (zh) 2021-06-25 2021-06-25 视线追踪方法、装置、设备、存储介质以及计算机程序产品
CN202110709957.3 2021-06-25

Publications (2)

Publication Number Publication Date
JP2022088529A JP2022088529A (ja) 2022-06-14
JP7339386B2 true JP7339386B2 (ja) 2023-09-05

Family

ID=77716691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022053479A Active JP7339386B2 (ja) 2021-06-25 2022-03-29 視線追跡方法、視線追跡装置、端末デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220309702A1 (ja)
EP (1) EP4040405A3 (ja)
JP (1) JP7339386B2 (ja)
KR (1) KR20220054754A (ja)
CN (1) CN113420678A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114302054B (zh) * 2021-11-30 2023-06-20 歌尔科技有限公司 一种ar设备的拍照方法及其ar设备
CN114067420B (zh) * 2022-01-07 2023-02-03 深圳佑驾创新科技有限公司 一种基于单目摄像头的视线测量方法及装置
CN115116039A (zh) * 2022-01-14 2022-09-27 长城汽车股份有限公司 一种车辆座舱外视线追踪方法、装置、车辆和存储介质
CN114715175A (zh) * 2022-05-06 2022-07-08 Oppo广东移动通信有限公司 目标对象的确定方法、装置、电子设备以及存储介质
WO2023226034A1 (zh) * 2022-05-27 2023-11-30 京东方科技集团股份有限公司 视线标定系统、方法、设备和非瞬态计算机可读存储介质
CN115097933A (zh) * 2022-06-13 2022-09-23 华能核能技术研究院有限公司 专注度的确定方法、装置、计算机设备和存储介质
CN115830675B (zh) * 2022-11-28 2023-07-07 深圳市华弘智谷科技有限公司 一种注视点跟踪方法、装置、智能眼镜及存储介质
CN115761249B (zh) * 2022-12-28 2024-02-23 北京曼恒数字技术有限公司 一种图像处理方法、系统、电子设备及计算机程序产品
CN116597425B (zh) * 2023-05-24 2024-04-05 无锡车联天下信息技术有限公司 一种驾驶员的样本标签数据的确定方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183072A1 (en) 2019-12-16 2021-06-17 Nvidia Corporation Gaze determination machine learning system having adaptive weighting of inputs
US20210182609A1 (en) 2019-12-16 2021-06-17 Nvidia Corporation Neural network based determination of gaze direction using spatial models

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0755941A (ja) * 1993-08-11 1995-03-03 Nissan Motor Co Ltd 車間距離測定装置
JPH07257228A (ja) * 1994-03-18 1995-10-09 Nissan Motor Co Ltd 車両用表示装置
JP6107590B2 (ja) * 2013-10-16 2017-04-05 株式会社デンソー ヘッドアップディスプレイ装置
KR101923672B1 (ko) * 2015-06-15 2018-11-30 서울바이오시스 주식회사 헤드램프 장치 및 그 조명 제어 방법
CN109835260B (zh) * 2019-03-07 2023-02-03 百度在线网络技术(北京)有限公司 一种车辆信息显示方法、装置、终端和存储介质
CN109917920B (zh) * 2019-03-14 2023-02-24 阿波罗智联(北京)科技有限公司 车载投射处理方法、装置、车载设备及存储介质
CN110148224B (zh) * 2019-04-04 2020-05-19 精电(河源)显示技术有限公司 Hud图像显示方法、装置及终端设备
EP3828755B1 (en) * 2019-11-29 2023-07-19 Veoneer Sweden AB Improved estimation of driver attention
CN111767844B (zh) * 2020-06-29 2023-12-29 阿波罗智能技术(北京)有限公司 用于三维建模的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183072A1 (en) 2019-12-16 2021-06-17 Nvidia Corporation Gaze determination machine learning system having adaptive weighting of inputs
US20210182609A1 (en) 2019-12-16 2021-06-17 Nvidia Corporation Neural network based determination of gaze direction using spatial models

Also Published As

Publication number Publication date
CN113420678A (zh) 2021-09-21
EP4040405A3 (en) 2022-12-14
KR20220054754A (ko) 2022-05-03
EP4040405A2 (en) 2022-08-10
JP2022088529A (ja) 2022-06-14
US20220309702A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
JP7339386B2 (ja) 視線追跡方法、視線追跡装置、端末デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
US11016297B2 (en) Image generation apparatus and image generation method
US10832084B2 (en) Dense three-dimensional correspondence estimation with multi-level metric learning and hierarchical matching
US11024014B2 (en) Sharp text rendering with reprojection
KR102233052B1 (ko) 혼합 현실의 등급을 매긴 정보 전달
US20180031848A1 (en) Binocular See-Through Augmented Reality (AR) Head Mounted Display Device Which is Able to Automatically Adjust Depth of Field and Depth Of Field Adjustment Method ThereforT
US9696798B2 (en) Eye gaze direction indicator
KR102705789B1 (ko) 컴퓨터 생성 현실 텍스트의 렌더링
US20220358662A1 (en) Image generation method and device
KR20160060582A (ko) 시각 데이터를 처리하는 장치 및 방법, 및 관련된 컴퓨터 프로그램 제품
CN114842120B (zh) 一种图像渲染处理方法、装置、设备及介质
US20220307855A1 (en) Display method, display apparatus, device, storage medium, and computer program product
KR20200079748A (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
Pourazar et al. A comprehensive framework for evaluation of stereo correspondence solutions in immersive augmented and virtual realities
CN111914861A (zh) 目标检测方法和装置
US20240096023A1 (en) Information processing method and device
Syed et al. A Framework for Cardboard Based Augmented Reality
US20240062341A1 (en) Projection method and electronic device
US12062211B1 (en) Enhanced content positioning
EP4086102A2 (en) Navigation method and apparatus, electronic device, readable storage medium and computer program product
CN117435041A (zh) 信息交互方法、装置、电子设备和存储介质
CN117991889A (zh) 信息交互方法、装置、电子设备和存储介质
CN117745982A (zh) 录制视频的方法、装置、系统、电子设备和存储介质
CN115981544A (zh) 基于扩展现实的交互方法、装置、电子设备和存储介质
CN118037766A (zh) 图像处理方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230824

R150 Certificate of patent or registration of utility model

Ref document number: 7339386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150