JP2023508778A - シーン認識対話を行うためのシステム - Google Patents

シーン認識対話を行うためのシステム Download PDF

Info

Publication number
JP2023508778A
JP2023508778A JP2022565025A JP2022565025A JP2023508778A JP 2023508778 A JP2023508778 A JP 2023508778A JP 2022565025 A JP2022565025 A JP 2022565025A JP 2022565025 A JP2022565025 A JP 2022565025A JP 2023508778 A JP2023508778 A JP 2023508778A
Authority
JP
Japan
Prior art keywords
vehicle
salient
objects
driver
navigation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022565025A
Other languages
English (en)
Other versions
JP7345683B2 (ja
Inventor
智織 堀
チェリアン,アノープ
チェン,スーホン
マークス,ティム
ル・ルー,ジョナタン
貴明 堀
ハルシャム,ブレット
ベトロ,アンソニー
スリバン,アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023508778A publication Critical patent/JP2023508778A/ja
Application granted granted Critical
Publication of JP7345683B2 publication Critical patent/JP7345683B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3644Landmark guidance, e.g. using POIs or conspicuous other objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3602Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3664Details of the user input interface, e.g. buttons, knobs or sliders, including those provided on a touch screen; remote controllers; input using gestures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3667Display of a road map
    • G01C21/367Details, e.g. road map scale, orientation, zooming, illumination, level of detail, scrolling of road map or positioning of current position marker
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3667Display of a road map
    • G01C21/3673Labelling using text of road map data items, e.g. road names, POI names
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3691Retrieval, searching and output of information related to real-time traffic, weather, or environmental conditions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/38Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
    • G01S19/39Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/42Determining position
    • G01S19/48Determining position by combining or switching between position solutions derived from the satellite radio beacon positioning system and position solutions derived from a further system
    • G01S19/485Determining position by combining or switching between position solutions derived from the satellite radio beacon positioning system and position solutions derived from a further system whereby the further system is an optical system or imaging system

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Ecology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Environmental Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2023508778000001
車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、車両を運転している運転者に運転指示を提供するように構成されたナビゲーションシステムが提供される。このナビゲーションシステムは、車両を運転するための経路と、現在の時点において経路上の車両の状態と、現在の時点において車両の経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含む。少なくとも1つの顕著物体は、現在の時点における現在位置と将来の時点における将来位置との間の経路上に移動している車両の測定システムによって検知された物体であり、一組の顕著物体は、1つ以上の静的物体と、1つ以上の動的物体とを含む。このナビゲーションシステムは、車両の状態によって特定される運転者視点から得られた動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、車両の運転者に運転指示を出力するように構成された出力インターフェイスとを含む。

Description

本発明は、一般的には、シーン認識対話システムを提供するための方法およびシステムに関し、より詳しくは、車両の周辺の静的物体および動的物体に関するリアルタイムのユニモーダル情報またはマルチモーダル情報に基づいて、車両の運転者に経路案内を提供するためのシーン認識対話ナビゲーションシステムに関する。
車両を運転する運転者へのナビゲーション支援は、通常、運転者に経路案内発話を提供することができるシステム、例えばGPS受信機によって提供される。経路案内は、最も一般的には、曲がる地点までの距離、曲がる方向、および曲がる場所を明確にするためのいくつかの可能な追加情報、例えば「100フィート先にさらに右折して、ジョンソン通りにお入りください」を示す曲がり指示である。しかしながら、運転者に経路案内を提供するこの手法は、特定の状況において、例えば、運転者が曲がるべき道路の名称「ジョンソン通り」を知らないまたは容易に認識できない場合、または複数の街路および経路が近接している場合、運転者を混乱させる可能性がある。したがって、運転者は、曲がるべき道路を正しく識別できず、曲がれなくなり、混乱に陥り、危険な状況につながる可能性がある。
代替的な経路案内システムは、マップ上の特定地点に関連する記憶情報を用いて、「100フィート先の郵便局で曲がってください」などの曲がる地点を示すことができる。しかしながら、特定の状況において、例えば、郵便局が樹木または車両によって隠されているまたは識別し難い場合に、または記憶情報が古くなり、その曲がる地点に郵便局が既に存在していない場合に、この手法は、運転者を混乱させる可能性がある。
代替的に、実験的な経路案内システムは、運転者がカメラを用いて撮影したリアルタイム画像を受け入れ、リアルタイム画像上に運転すべき特定の経路を示すグラフィカル要素、例えば矢印などをオーバーレイすることができる。しかしながら、この手法は、音声で記述文を提供しないため、運転者が道路から目を離して経路案内を見る必要がある。
シーン認識対話システムは、車載インフォテイメント、家電製品、構築システム内のサービスロボットとの対話、および測量システムなどのいくつかの用途に適用することができる。GPSは、単にナビゲーションシステムの1つの定位(localization)方法であり、他の用途に他の定位方法を適用することができる。以下、シーン認識対話の1つの適用例として、ナビゲーションシステムを説明する。
本開示の少なくとも1つの実現例は、曲がる地点を知る仮想乗客が運転者に案内を提供することで、既存の手法とは異なる。経路を知っている乗客は、経路を知らない運転者に案内を提供する場合、通常、運転者が意図した経路に従って安全に運転することを支援するために、静的物体および動的物体の両方を考慮して、最も直感的な、自然な、適切な、容易に理解可能な、明瞭的な運転指示を策定する。
本開示の少なくとも1つの他の実現例は、他の車両などの車両の周辺の動的物体のリアルタイム情報を利用して基準点を識別することによって経路案内を提供することで、既存の手法とは異なる。本開示の少なくとも1つの他の実現例は、リアルタイム情報を利用して、運転者が容易に識別できるように、車両の周辺の静的物体を適切に記述することを変更するまたは影響する可能性がある現在の状況、例えば車両または樹木などの他の物体が視界を遮ること、例えば建設または改修によって静的物体の外観が静的物体データベースに記憶された静的物体の外観とは異なること、または静的物体が既に存在せず、経路案内を提供するための基準点ではないことを考慮することで、既存の手法とは異なる。
いくつかの実施形態の目的は、車両の周辺の静的物体および動的物体に関するリアルタイムのユニモーダル情報またはマルチモーダル情報に基づいて、車両の運転者に経路案内を提供することである。例えば、いくつかの実施形態の目的は、「100フィート先にさらに右折して、ジョンソン通りにお入りください」などのGPSベースの運転指示に加えてまたはその代わりに、「茶色煉瓦の建物の前で右折してください」または「白い車に追従してください」などのコンテキストベースの運転指示を提供することである。このようなコンテキストベースの運転指示は、車両の周辺のシーンのリアルタイム認識に基づいて生成されてもよい。したがって、コンテキストベースのナビゲーションは、本明細書においてシーン認識ナビゲーションと呼ばれる。
いくつかの実施形態は、異なる時点において、異なる数または種類の物体が車両を運転するための経路に関連し得るという理解に基づく。これらの関連オブジェクトの全ては、シーン認識ナビゲーションにとって潜在的に有用である。しかしながら、コンピュータが運転判断を行う自律運転とは対照的に、あまりにも多くの異なる物体または人間の運転者が容易に識別できない物体に対して運転指示を生成する場合、人間の運転者は、混乱してしまうおよび/または迷ってしまう可能性がある。異なる物体がコンテキスト運転指示に関連する度合いが異なるため、いくつかの実施形態の目的は、運転者の経路に関連する一組の顕著物体から1つの顕著物体を選択し、選択された顕著物体の記述に基づいて運転指示を生成することである。
本発明の経路案内システムは、例えば、静的マップ、計画経路、GPSまたは他の方法によって決定された車両の現在位置、および1つ以上のカメラ、1つ以上のマイクロフォン、および1つ以上の距離検出装置、例えばレーダおよびLIDARを含むがこれらに限定しない多くのセンサからのリアルタイムセンサ情報を含む複数のソースからの情報を受信することができる。リアルタイムセンサ情報は、プロセッサによって処理される。このプロセッサは、リアルタイムセンサ情報から、車両の周辺に存在する一組の顕著な静的物体および動的物体と、乗用車、トラック、建物などの各物体の種類、物体の色、サイズおよび位置を含み得る一組の物体属性とを検出することができる。また、動的物体の場合、プロセッサは、動的物体の軌道を決定することができる。マイクロフォンによって取得された音声情報の場合、プロセッサは、音声の種類を識別することによって物体の種類を検出することができ、物体の属性は、物体の方向および車両からの距離、物体の運動軌道、および音声の強度を含むことができる。一組の顕著物体と対応する一組の属性とは、以下、動的マップと呼ばれる。
経路案内システムは、いくつかの方法、例えば、ルールベースの方法または機械学習ベースの方法を用いて動的マップを処理することによって、経路に基づいて一組の顕著物体から1つの顕著物体を特定し、特定した顕著物体を使用して経路案内を提供する。
経路案内情報の伝達は、境界矩形または他のグラフィカル要素を用いて、ディスプレイ上で、例えば計器板または中央コンソール内のLCDディスプレイ上で顕著物体を強調表示することを含んでもよい。代替的に、伝達方法は、例えば、ルールベースの方法または機械学習ベースの方法を用いて、顕著物体の一組の記述属性を含む文を生成することを含んでもよい。生成された文は、ディスプレイ上で運転者に表示されてもよい。代替的に、生成された文は、音声合成によって、運転者が聞くことができる発話に変換されてもよい。
本発明のさらなる目的は、車両と経路上の曲がる地点との距離を考慮することによって、顕著物体を決定することができることである。特に、様々な距離範囲で複数の異なる顕著物体を選択することができる。各距離範囲で選択された顕著物体は、計画経路に関する最大の情報を運転者に提供する。例えば、曲がる地点からの距離が長い場合、曲がる地点がまだはっきり見えないため、曲がる地点の近くの建物などの大きな静的物体は、顕著物体として決定されてもよい。一方、曲がる地点からの距離が短い場合、計画経路に沿って運転している他の車両などの動的物体は、はっきり見えるようになり、経路案内に充分に使用できるため、顕著物体として決定されてもよい。
本発明のさらなる目的は、本発明の経路案内システムが、計画経路に基づいて、何らかの形で車両の周辺の他の物体の記述的な警告を提供することができることである。例えば、次に計画経路から曲がる場合、経路案内システムは、計画経路上に存在する障害物を検出すると、物体の存在を運転者に警告するように、記述的な警告メッセージを運転者に伝達することができる。より具体的には、計画経路に沿って運転する車両の近くの地点で人が道路を横断しているまたは横断しようとする場合、経路案内システムは、記述的な警告メッセージを提供することができる。例えば、経路案内システムは、「警告:左側の横断歩道に人がいます」という警告文を生成し、放送することができる。
本発明のさらなる目的は、運転者と本発明の経路案内システムとの間の双方向対話を提供することである。これによって、運転者は、顕著物体に関する明確な位置、属性または他の情報を求めることができ、異なる顕著物体を要求することができる。双方向対話は、発話を含む1つ以上の対話機構を含んでもよい。この対話機構の自動音声認識装置によって、経路案内システムは、運転者の発話の内容を取得することができ、運転者の発話を処理して、システムへの運転者の応答を理解し、適応することができる。また、対話は、運転者の画像を撮影する1つ以上のカメラによって捕捉され、コンピュータ視覚サブシステムに入力される情報を含んでもよい。このコンピュータ視覚サブシステムには、運転者の指差しまたは運転者の視線方向などの運転者のジェスチャを含むがこれらに限定されない運転者に関する情報を抽出することができる。対話は、運転者からの手動入力、例えば操舵ハンドル、計器板または中央コンソール上で配置された運転者が利用可能な1つ以上の制御ボタンの押下を含むことができる。
いくつかの実施形態によれば、ナビゲーションシステムは、車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、車両の運転者に運転指示を提供するように構成される。ナビゲーションシステムは、車両を運転するための経路と、現在の時点において経路上の車両の状態と、現在の時点において車両の経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含み、少なくとも1つの顕著物体は、現在の時点における現在位置と将来の時点における将来位置との間の経路上に移動している車両の測定システムによって検知された物体であり、一組の顕著物体は、1つ以上の静的物体と、1つ以上の動的物体とを含む。ナビゲーションシステムは、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、車両の運転者に運転指示を出力するように構成された出力インターフェイスとを含む。
本開示のいくつかの実施形態は、ユーザ(運転者)とのシーン認識対話が、マルチモーダル検知情報を分析し、コンテキストベースの自然言語生成を介して人間とのより自然で直感的な対話を提供する注目マルチモーダル融合に基づいて行われ得るという認識に基づく。
場合によって、マルチモーダル検知情報は、カメラによって捕捉された画像/映像、マイクロフォンによって取得された音声情報、およびLiDARまたはレーダなどの距離センサによって決定された定位情報であってもよい。
シーン理解技術およびコンテキストベースの自然言語生成を用いた注目マルチモーダル融合は、シーン内の物体およびイベントに基づいて、ユーザとより直感的に対話する強力なシーン認識対話システムを実現する。シーン認識対話技術は、車載インフォテイメントおよび家電製品のヒューマンマシンインターフェイス(HMI)、構築システム内のサービスロボットとの対話、および測量システムを含むいくつかの用途に広く適用することができる。
以下、添付の図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも一定の縮尺で描かれていない。その代わりに、本開示の実施形態の原理を示すために、図面を強調する場合がある。
本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。 本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。 本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。 本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。 本開示のいくつかの実施形態に従って、車両周辺の外部シーンから運転指示の出力までの情報の流れを示す経路案内システムの概略図である。 本開示のいくつかの実施形態に従って、複数のソースおよびセンサから入力を受信し、ディスプレイまたはスピーカに情報を出力するコンピュータを示すブロック図である。 本開示の実施形態に従って、マルチモーダル注目方法を示すブロック図である。 本開示の実施形態に従って、文を生成するためのマルチモーダル融合方法(マルチモーダル特徴融合手法)の一例を示すブロック図である。 本開示の実施形態に従って、車両の状態および動的マップに基づいて運転指示を生成するように構成されたナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である。 本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である(第1のパラメトリック関数は、車両の状態に基づいて動的マップ内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップを取得するように構成され、第2のパラメトリック関数は、変換後動的マップに基づいて運転指示を生成するように構成される)。 本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である(第1のパラメトリック関数は、シーンからの測定値に基づいて車両の状態および動的マップを決定するように構成され、第2のパラメトリック関数は、車両の状態および動的マップに基づいて運転指示を生成するように構成される)。 本開示の実施形態に従って、シーンからの測定値に基づいて運転指示を生成するように構成されたナビゲーションシステムのパラメトリック関数のエンドツーエンド訓練を示すフロー図である。 本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である(第1のパラメトリック関数は、シーンからの測定値に基づいて車両の状態および動的マップを決定するように構成され、第2のパラメトリック関数は、車両の状態に基づいて動的マップ内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップを取得するように構成され、第3のパラメトリック関数は、変換後動的マップから一部の顕著物体を選択するように構成され、第4のパラメトリック関数は、選択された顕著物体に基づいて運転指示を生成するように構成される)。 本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数のマルチタスク訓練を示すフロー図である(第1のパラメトリック関数は、シーンからの測定値に基づいて車両の状態および動的マップを決定するように構成され、第2のパラメトリック関数は、車両の状態に基づいて動的マップ内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップを取得するように構成され、第3のパラメトリック関数は、変換後動的マップから一部の顕著物体を選択するように構成され、第4のパラメトリック関数は、選択された顕著物体に基づいて運転指示を生成するように構成される)。 本開示のいくつかの実施形態に従って、動的マップ内の例示的な顕著物体と、これらの物体の属性と、これらの属性値とを示す図である。 本開示のいくつかの実施形態に従って、一組の顕著物体およびそれらの相対的な空間関係を示す図である。 本開示のいくつかの実施形態に従って、異なる時点で経路案内文を生成するための一組の顕著物体および各々の関連性スコアを示す図である。 本開示のいくつかの実施形態に従って、異なる時点で経路案内文を生成するための一組の顕著物体および各々の関連性スコアを示す図である。 本開示のいくつかの実施形態に従って、経路案内システムと運転者との間の例示的な会話を示す図である。 本開示のいくつかの実施形態に従って、文生成器内のルールベースの物体ランキング装置を使用する経路案内システムの特定の実施形態を示すフローチャートである。
上記の特定の図面は、本開示の実施形態を図示しているが、上記で議論したように、他の実施形態も考えられる。本開示は、限定ではなく例示として、例示的な実施形態を提供する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多くの他の変形例および実施例を考案することができる。
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用または構成を制限することを意図していない。むしろ、以下の例示的な実施形態の説明は、1つ以上の例示的な実施形態の実施を可能にするための説明を当業者に与える。添付の特許請求の範囲に記載された主題の精神および範囲から逸脱することなく、要素の機能および配置に対する様々な変更が考えられる。
実施形態に対する完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても、実施形態を実施できることを理解することができる。例えば、不必要な詳細で実施形態を不明瞭にしないように、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の構成要素として示されてもよい。また、実施形態を不明瞭にしないように、周知のプロセス、構造、および技術は、不必要な詳細なしで示されてもよい。さらに、様々な図面において、同様の参照番号および名称は、同様の要素を示す。
また、各々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されることがある。フローチャートが動作を順次のプロセスとして説明しても、多くの動作は、並列にまたは同時に実行されてもよい。また、動作の順序は、変更されてもよい。プロセスの動作が完了したときに、プロセスを終了することができるが、このプロセスは、討論されていないまたは図示されていない追加のステップを含むことができる。さらに、具体的に記載されたプロセス内の全ての動作は、全ての実施形態に含まれる必要がない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどであってもよい。プロセスが関数である場合、関数の終了は、当該関数を呼び出し関数または主関数に復帰させることに対応する。
さらに、開示された主題の実施形態は、手動でまたは自動で、少なくとも部分的に実装されてもよい。手動または自動の実装は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせで実装されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。プロセッサは、必要なタスクを実行することができる。
図1A~1Dは、本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。場合によって、ナビゲーションシステムは、経路案内システムとも呼ばれてもよく、経路案内システムは、ナビゲーションシステムとも呼ばれてもよい。
図1Aは、いくつかの実施形態の特徴を示すナビゲーションシステムのブロック図である。動的マップ内の一組の顕著物体は、車両の測定システム160によって検知された検知情報に基づいて、識別および記述されてもよい。この検知情報は、1つ以上のモダリティからの情報、例えば、マイクロフォン161からの音声情報、カメラ162からの視覚情報、LiDAR163などの距離センサ(すなわち、深度センサ)からの深度情報、および全地球測位システム(GPS)164からの定位情報を含む。システムは、一組の顕著物体のうち、1つ以上の顕著物体の記述に基づいて、運転指示105を出力する。いくつかの実施形態において、プロセッサは、測定システム160からの測定値を、測定値から運転指示を生成するように訓練されたパラメトリック関数170に提出することによって、運転指示105を生成する。他の実施形態において、測定システムによって取得されたマルチモーダル検知情報は、車両の状態(本明細書において車両状態とも称される)および動的マップの決定に使用される。プロセッサは、車両の状態および動的マップを、車両の状態によって特定される運転者視点から得られた動的マップ内の顕著物体の記述に基づいて運転指示105を生成するように構成されたパラメトリック関数170に提出するように構成される。
図1B、1Cおよび1Dは、本発明のいくつかの実施形態に従って、ナビゲーションシステムを示す図である。ナビゲーションシステムは、車両を運転するための経路を取得しており、現在の時点で運転経路110上の車両の状態に関する情報を有する。なお、経路は、一連のセグメントおよび曲がりからなり、各セグメントは、所定の長さおよび位置を有し、各曲がりは、特定の方向で1つのセグメントまたは曲がりを別のセグメントまたは曲がりに接続する。いくつかの実施形態において、セグメントおよび曲がりは、車両が1つの場所から別の場所に移動するための経路を提供するように接続される道路の部分である。経路は、道路上にオーバーレイされたた矢印によって示され、車両がこれから走行する運転経路110の一部として表される。いくつかの実施形態において、車両の状態は、経路上の車両の運転に関連する一組の顕著物体を含む動的マップに対する車両の位置および向きを含む。顕著物体は、建物130、標識140、または郵便ポスト102などの1つ以上の静的物体(すなわち、常に静止している物体)と、他の車両120、125または歩行者106などの1つ以上の動的物体(すなわち、移動する能力を有する物体)とを含む。いくつかの実施形態において、現在移動していないが移動する能力を有する動的物体、例えば、駐車している車または現在では止まっている歩行者は、(移動速度がゼロに等しいにもかかわらず)動的物体として考えられる。ナビゲーションシステムは、運転指示105を生成するように構成されたプロセッサを含み、運転指示105は、音声合成システム150などの出力インターフェイスを介して、車両の運転者に出力される。
いくつかの実施形態において、運転指示は、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体(102、125、126)を含む。例えば、図1Bにおいて、運転指示105は、運転者視点に基づいて動的マップ内の一組の顕著物体から選択された顕著物体102の記述「赤い郵便ポスト」に基づく。いくつかの実施形態において、運転者視点は、動的マップに対する車両の現在位置と、車両の現在位置および向きに関連する経路110の一部とを含む。例えば、「赤い郵便ポスト」を選択した1つの理由は、赤い郵便ポストが経路110の次の曲がりの方向に位置しているためである。(図1Bに示されていない)次の曲がり110が左折である代替的な状況において、運転指示は、別の物体130に基づく。この場合、左折しようとしている運転者の観点から、別の物体130が赤い郵便ポスト102よりも高い関連性を有するため、その記述「青い建物」は、運転指示「青い建物の前で左折してください」に使用される。
図1Cにおいて、運転指示105は、動的マップ内の顕著物体125の記述「右折している銀色車」に基づく。図1Dにおいて、運転指示105は、動的マップ内の一組の顕著物体、すなわち、歩行者106および横断歩道の記述「横断歩道には歩行者がいます」に基づいた警告である。これらの物体は、車両の運転者に可視であり、車両の経路110の次の部分に位置するため、運転者視点から重要である。
図2は、車両周辺の外部シーン201から運転指示213の出力までの情報の流れを示す、提案された経路案内システムの概略図である。車両は、リアルタイムセンサ情報203を経路案内システムに提供する複数のリアルタイムセンサモダリティを備える。物体検出および分類モジュール204は、パラメータ化された関数を用いてリアルタイムセンサ情報203を処理することによって、車両に対する物体の位置と物体の種類との両方を含む車両の周辺の物体に関する情報を抽出する。物体の種類は、少なくとも建物、車、トラック、および歩行者を含む。物体属性抽出モジュール205は、追加の操作を実行することによって、検出された各物体の一組の物体属性を抽出する。一組の物体属性は、少なくとも色、車両からの距離、およびサイズを含み、一部の特定種類の物体の属性は、運動速度および運動方向などの軌道情報を含むことができる。当業者なら理解するように、異なる種類の物体は、異なる属性を有してもよい。例えば、トラックは、トラックの属性を有してもよく、トラックの属性は、例えば、文生成器212が経路案内を行うための高度な記述的な運転指示文213を生成する必要に応じて、箱型、セミ型、ダンプ型などのいずれかの値を有してもよい。動的マップ206は、物体検出および分類モジュール204からの情報、物体属性抽出モジュール205からの情報、計画運転経路202、および車両状態209から決定された視体積211を受信する。動的マップ206は、運転経路情報202を用いて、計画経路から検出された顕著物体のうちの一部を識別する。顕著物体とは、運転経路に関連する物体、例えば経路の曲がる地点と同じコーナーに存在する、または曲がる地点の直後の計画経路上に存在する物体を指す。動的マップは、運転者に経路案内を提供するために使用される候補物体である、種類および属性を含む一組の静的顕著物体および動的顕著物体からなる。
車両状態209は、車両の位置、速度および向きの1つまたは組み合わせを含む。いくつかの実施形態において、運転者の座席の高さと、運転者が激しく頭部を動かさなくても合理的に見える角度範囲、例えば、自動車の正面方向の±60°とが一定である場合、運転者視点210は、運転者の視界位置である。運転者視点210を用いて、運転者が見ることができる空間の一部である視界体積211を決定することができる。1つ以上のリアルタイムセンサを車両に搭載することによって、運転者が見えない物体を見ることができるため、この視界体積は、有用である。例えば、車両の屋根に搭載されたLIDARは、より近い第2の物体の後方の第1の物体を検出することができるが、運転者視点210から見る場合、第1の物体は、第2の物体によって遮蔽されている。第1の物体は、見えないため、その時の顕著物体に適さない。したがって、動的マップ206は、視界体積211を用いて、一組の顕著物体を決定することができる。代替的に、運転者視点210から見えない顕著物体は、運転指示文213を生成するために重要である可能性がある。例えば、救急車は、車両の後方から接近している場合に、運転者の視界から直接に見えない可能性がある。文生成モジュール212は、接近している救急車に関する警告を運転者に与える運転指示文213を生成することができる。なお、動的マップは、リアルタイムセンサ情報203に基づいて連続的に更新されてもよく、視界体積211の状態は、常に変化してもよい。
文生成モジュール212は、運転経路202、視界体積211および動的マップ206に基づいて、運転指示文213を生成する動作を行う。文生成モジュール212は、パラメトリック関数を用いて、動的マップ206内の一組の静的顕著物体207および動的顕著物体208から、運転指示文213を生成するために最も顕著である一部の物体を選択する。概括的に言えば、最も顕著な物体は、運転者が迅速に認識できるように、より大きく、色または場所でより独特なものである。
文生成モジュール212は、複数の異なるパラメトリック関数によって実装されてもよい。文生成モジュール212を実装するための1つの可能なパラメトリック関数は、単に運転指令としても知られているテンプレートベースの運転指令を使用する。テンプレートベースの運転指示の例は、「<方向>に曲がっている前方の<属性><顕著物体>に追従してください」である。この例において、<属性>、<顕著物体>および<方向>は、文生成モジュール212が運転指示文213を生成する時に埋めるテンプレートスロットである。この場合、<属性>は、顕著物体の1つ以上の属性であり、<方向>は、運転経路202上の次の曲がる方向である。このようなテンプレートベースの運転指令の具体例は、「左折している前方の大型茶色の箱型トラックに追従してください」である。この具体例において、「大型」、「茶色」および「箱型」は、運転経路202上の次の曲がる方向と同じ方向に「左折」した「トラック」の属性である。多くの可能なテンプレートベースの運転指示は、例えば、「<属性><顕著物体>の前で<方向>に曲がってください」、「<属性><顕著物体>の後で<方向>に曲がってください」、「<方向>に合流してください」、「<属性><顕著物体>に向かって運転してください」、「<属性><顕著物体>で停車してください」、および「<属性><顕著物体>の近くに駐車してください」などを含む。「前」、「後」および「近く」という用語を用いて、顕著物体と経路との間の相対的な空間関係を示している。例えば、「大きな緑色彫像の前で右に曲がってください」。理解すべきことは、前述したリストは、包括的なものではなく、2つの顕著物体を含む運転指示文213を提供するための運転指令を含む、テンプレートベースの運転指令の多くの追加変形が可能であることである。
図3は、本発明の経路案内システム300を示すブロック図である。経路案内システムは、必要な機能に応じて、1つ以上の周辺装置と接続することができるコンピュータ305において実装される。運転者コントロールインターフェイス310は、コンピュータ305を運転者コントロール311に接続する。1つ以上の運転者コントロール311は、例えば車両のステアリングホイール上のボタンを含み、運転者が1つの入力を経路案内システム300に提供することを可能にする。ディスプレイインターフェイス350は、コンピュータ305を1つ以上のディスプレイ装置355に接続する。1つ以上のディスプレイ装置355は、例えば、計器板に搭載されたディスプレイまたはセンターコンソールに搭載されたディスプレイを含み、経路案内システムが視覚出力を運転者に表示することを可能にする。カメラインターフェイス360は、コンピュータ305を1つ以上のカメラ365に接続する。1つのカメラ365は、車両の周辺の前方からの光を受光するように配置される。別のカメラ365は、経路案内システム300が別の形の入力をするために運転者の顔および動作を観察することを可能にするように、車両の内部からの光を受光するように配置されてもよい。距離センサインターフェイス370は、コンピュータ305を1つ以上の距離センサ375に接続する。1つ以上の距離センサ375は、例えば、外部向き正面、側面または背面レーダおよびLidarを含み、経路案内システムが車両の周辺に関する3D情報、例えば、近くの物体までの距離を含む3D情報を取得することを可能にする。また、距離センサ375は、1つ以上の内部向きレーダセンサおよびLidarを含んでもよい。これらの内部向きレーダセンサおよびLidarは、経路案内システムがシステム300へのさらに別の形の入力をするために運転者の動作に関する3D情報を取得することを可能にする。GPSインターフェイス376は、コンピュータ305をGPS受信機377に接続する。GPS受信機377は、車両の現在のリアルタイム位置を提供するGPS信号を受信することができる。マイクロフォンインターフェイス380は、コンピュータ305を1つ以上のマイクロフォン385に接続する。1つ以上のマイクロフォン385は、例えば、車両の外部からの音声信号を受信することを可能にするために、車両の外部に配置された1つのマイクロフォン385と、運転者の発話を含む車両の内部からの音声信号を受信することを可能にするために、車両の内部に配置された1つ以上のマイクロフォン385とを含んでもよい。スピーカインターフェイス390は、コンピュータ305を1つ以上のスピーカ395に接続する。1つ以上のスピーカ395は、システム300が、例えば、音声合成器によって可聴形式に変換された運転指示213を含み得る可聴出力を運転者に出力することを可能にする。まとめると、運転者制御311、カメラ365、距離センサ375、GPS受信機377、およびマイクロフォン385は、前述したリアルタイム情報203を提供するリアルタイムセンサを構成する。
コンピュータ305は、ネットワークインターフェイスコントローラ(NIC)312を含むことができる。システム300は、NIC312を介して、例えば、インターネットを含み得るネットワーク313と情報を交換することができる。交換される情報は、ネットワークベースのマップと、車両の周辺の静的物体の位置および属性などの他のデータ314とを含むことができる。コンピュータは、経路案内システム300を実装するために必要な実際のアルゴリズムを実行するプロセッサ320と、何らかの形のコンピュータメモリ、例えばダイナミックランダムアクセスメモリ(DRAM)、ハードディスクドライブ(HDD)、またはソリッドステートドライブ(SSD)である記憶装置330とを含む。記憶装置330は、物体検出および分類モジュール331、物体属性抽出モジュール332、動的マップ333、経路334、経路案内モジュール335、および文生成モジュール336を記憶することを含むがこれに限定されない多くの目的のために使用されてもよい。また、コンピュータ305は、様々なモジュールおよびインターフェイスによって使用される一時的なデータを記憶するために使用される作業メモリ340を有する。
マルチモーダル注目方法
マルチモーダル融合モデルを含む文生成器は、マルチモーダル注目方法に基づいて構築されてもよい。図4は、本開示の実施形態に従って、マルチモーダル注目方法を示すブロック図である。マルチモーダル注目方法は、特徴抽出器1~K、注目推定器1~K、加重和プロセッサ1~L、特徴変換モジュール1~K、およびシーケンス生成器450に加えて、モーダル注目推定器455と、単純和プロセッサ(図示せず)の代わりに加重和プロセッサ445とをさらに含む。マルチモーダル注目方法は、シーケンス生成モデル(図示せず)、特徴抽出モデル(図示せず)、およびマルチモーダル融合モデル(図示せず)の組み合わせて実行される。両方の方法において、シーケンス生成モデルは、シーケンス生成器450を形成することができ、特徴抽出モデルは、特徴抽出器1~K(411、421、431)を形成することができる。また、特徴変換モジュール1~K(414、424、434)、モーダル注目推定器455、加重和プロセッサ1~K(413、423、433)および加重和プロセッサ445は、マルチモーダル融合モデルによって形成されてもよい。
マルチモーダル映像データがK個のモダリティ(K≧2、一部のモダリティが同じものである)を含む場合、モダル-1データを処理するための特徴抽出器411、注目推定器412および加重和プロセッサ413は、モダル-1データを固定次元のコンテンツベクトルに変換する。この場合、特徴抽出器411は、データから複数の特徴ベクトルを抽出し、注目推定器412は、抽出された各特徴ベクトルの重みを推定し、加重和プロセッサ413は、抽出された特徴ベクトルと推定された重みとの加重和として算出されたコンテンツベクトルを出力(生成)する。モーダル-2データを処理するための特徴量抽出器421、注目推定器422および加重和プロセッサ423は、モーダル-2データを固定次元のコンテンツベクトルに変換する。モーダル-Kデータを処理するための特徴抽出器431、注目推定器432および加重和プロセッサ433は、モーダル-Kデータを固定次元のコンテンツベクトルに変換する。これによって、K個の固定次元のコンテンツベクトルが得られる。モーダル-1データ、モーダル-2データ、...、モーダル-Kデータの各々は、一定の間隔を有する時間順序または所定の時間間隔を有する他の所定の順序を有する系列データであってもよい。
次いで、特徴変換モジュール414、424および434は、K個のコンテンツベクトルをN次元ベクトルにそれぞれ変換(変形)することによって、K個の変換されたN次元ベクトルを生成する。Nは、予め定義された正の整数である。
図4の単純なマルチモーダル方法の場合、K個の変換されたN次元ベクトルは、単一のN次元コンテンツベクトルに加算されるが、マルチモーダル注目方法の場合、K個の変換されたN次元ベクトルは、モーダル注目推定器455および加重和プロセッサ445によって単一のN次元コンテンツベクトルに変換される。このときに、モーダル注目推定器455は、各変換されたN次元ベクトルの重みを推定し、加重和プロセッサ445は、K個の変換されたN次元ベクトルと推定重みとの加重和として算出されたN次元コンテンツベクトルを出力(生成)する。
シーケンス生成器450は、単一のN次元コンテンツベクトルを受信し、映像データを記述する文中のワードに対応する1つのラベルを予測する。
次のワードを予測するために、シーケンス生成器450は、文のコンテキスト情報、例えば以前に生成されたワードを表すベクトルを、適切なコンテンツベクトルを取得するために注目重みを推定する注目推定器412、422、432およびモーダル注目推定器455に提供する。このベクトルは、プレステップ(pre-step)コンテキストベクトルとも呼ばれる。
シーケンス生成器450は、文の開始(start of sentence)トークン<sos>から始まる次のワードを予測し、「文の終了」(end of sentence)に対応する特定のシンボル<eos>が予測されるまで、次のワード(予測ワード)を反復的に予測することによって、(1つまたは複数の)記述文を生成する。すなわち、シーケンス生成器450は、マルチモーダル入力ベクトルからワードシーケンスを生成する。場合によって、マルチモーダル入力ベクトルは、異なる入力/出力インターフェイス、例えば、HMIおよびI/Oインターフェイス(図示せず)または1つ以上のI/Oインターフェイス(図示せず)を介して受信されてもよい。
各生成プロセスにおいて、予測ワードは、加重コンテンツベクトルおよびプレステップコンテキストベクトルに基づいて、全ての可能なワードの中で最も高い確率を有するように生成される。また、予測ワードをメモリ340、記憶装置330、またはより多くの記憶装置(図示せず)に蓄積することによって、ワードシーケンスを生成することができる。この蓄積処理は、特定のシンボル(シーケンス終了シンボル)を受信するまで継続的に実行されてもよい。システム300は、NICおよびネットワーク、HMIおよびI/Oインターフェイスまたは1つ以上のI/Oインターフェイスを介して、シーケンス生成器450から生成された予測ワードを送信することができる。これによって、他のコンピュータ(図示せず)または他の出力装置(図示せず)は、予測ワードのデータを使用することができる。
K個のコンテンツベクトルの各々が別個のモダリティデータおよび/または別個の特徴抽出器から得られた場合、K個の変換されたベクトルの加重和とのモダリティまたは特徴融合は、文のコンテキスト情報に従って、異なるモダリティおよび/または異なる特徴に注意を払うことによって、各ワードをより良好に予測するができる。したがって、このマルチモーダル注目方法は、異なるモダリティまたは特徴に対する注目重みを包括的または選択的に使用する異なる特徴を利用して、各ワードの記述を推測することができる。
また、システム300のマルチモーダル融合モデルは、データ分配モジュール(図示せず)を含むことができる。データ分配モジュールは、I/Oインターフェイスを介して複数の時系列データを受信し、受信したデータをモーダル-1データ、モーダル-2データ、...、モーダル-Kデータに分配し、マイニング間隔に従って、分配された各時系列データを分割し、その後、モーダル-1データ、モーダル-2データ、...、モーダル-Kデータを特徴抽出器1~Kにそれぞれ提供する。
場合によって、複数の時系列データは、カメラを用いて捕捉された映像信号およびマイクロフォンを用いて記録された音声信号であってもよい。距離センサによって取得された時系列深度画像がモダルデータとして使用される場合、システム300は、図中の特徴抽出器411、421および431(K=3)を使用する。少なくとも1つのカメラからの画像(フレーム)、測定システムからの信号、少なくとも1つの隣接車両からの通信データ、または車両に配置された少なくとも1つのマイクロフォンからの音声信号を含むことができるリアルタイムマルチモーダル情報は、カメラインターフェイス360、距離センサインターフェイス370またはマイクロフォンインターフェイス380を介して、システム300内の特徴抽出器411、421および431に提供される。特徴抽出器411、421および431は、画像データ、音声データおよび深度データを、モーダル-1データ、モーダル-2データ、およびモーダル-3(例えば、K=3)としてそれぞれ抽出することができる。この場合、特徴抽出器411、421および431は、第1の間隔、第2の間隔および第3の間隔に従って、リアルタイム画像(フレーム)のデータストリームから、モーダル-1データ、モーダル-2データおよびモーダル-3をそれぞれ受信する。
場合によって、画像特徴、運動特徴、または音声特徴が異なる時間間隔で捕捉された場合、データ分配モジュールは、所定の異なる時間間隔で、複数の時系列データをそれぞれ分割することができる。
場合によって、物体検出器、物体分類器、運動軌道推定器および物体属性抽出器の1つまたは組み合わせは、カメラインターフェイス360、距離センサインターフェイス370またはマイクロフォンインターフェイス380を介して、所定の時間間隔で時系列データを受信し、検出された物体の情報、例えば物体位置、物体種類、物体属性、物体運動、および交差点位置を含む特徴ベクトルシーケンスを生成するための特徴抽出器の1つとして、使用されてもよい。
例示的なマルチモーダル融合モデル
文を生成する手法は、マルチモーダルシーケンスツーシーケンス(sequence-to-sequence)学習に基づくことができる。本開示の実施形態は、各々が各自の特徴ベクトルシーケンスを有する複数のモダリティの融合を処理するための注目モデルを提供する。画像特徴、運動特徴、および音声特徴などのマルチモーダル入力を利用して、文を生成することができる。また、異なる特徴抽出方法からの複数の特徴を組み合わせることによって、一般的に、文の質を効果的に向上させることができる。
図5は、K=2と仮定する場合、文を生成するためのマルチモーダル融合方法(マルチモーダル特徴融合手法)の一例を示すブロック図である。入力画像/音声シーケンス560は、所定の時間間隔を有する時系列データであってもよい。特徴ベクトルの入力シーケンスは、1つ以上の特徴抽出器561を用いて取得される。
一方が画像シーケンスX=x11、x12、...、x1Lであり、他方が音声信号シーケンスX=x21、x22、...、x2L′である入力画像/音声シーケンス560の場合、各画像または音声信号は、まず、画像または音声信号を処理するための特徴抽出器561に供給される。画像の場合、特徴抽出器は、予め訓練された畳み込みニューラルネットワーク(CNN)、例えば、GoogLeNet、VGGNet、またはC3Dであってもよい。この場合、各入力画像の各特徴ベクトルは、CNNの完全接続層の活性化ベクトルを抽出することによって取得することができる。図5において、画像特徴ベクトルシーケンスX′は、x′11、x′12、...、x′1Lとして示されている。音声信号の場合、特徴抽出器は、メル周波数ケプストラム係数(MFCC)を特徴ベクトルとして生成するたmのメル周波数分析方法であってもよい。図5において、音声特徴ベクトルシーケンスX′は、x′21、x′22、・・・、x′2L′として示される。
マルチモーダル融合方法は、双方向長短期メモリ(BLSTM)またはゲート付き回帰型ユニット(GRU)に基づくエンコーダを利用して、各ベクトルが各自のコンテキスト情報を含むように特徴ベクトルシーケンスをさらに変換することができる。しかしながら、リアルタイム画像記述タスクの場合、次元を低減するために、CNNベースの特徴を直接に使用してもよく、または1つ以上のフィードフォワード層を追加してもよい。
Figure 2023508778000002
Figure 2023508778000003
Figure 2023508778000004
Figure 2023508778000005
Figure 2023508778000006
Figure 2023508778000007
Figure 2023508778000008
Figure 2023508778000009
Figure 2023508778000010
したがって、試験段階において、ビーム探索方法を用いて、各i番目ステップの複数の状態および仮説が最も高い累積確率を有するように保持し、文の終了トークンに到達したものから最良の仮説を選択することができる。
シーン認識対話ナビゲーションシステムの文生成の例示的な説明
本発明のいくつかの実施形態に従ったシーン認識対話ナビゲーションシステムを設計するために、車両のカメラによって捕捉されたリアルタイム画像を用いて、車両の人間の運転者にナビゲーション文を生成することができる。この場合、物体検出および分類モジュール331、物体属性抽出モジュール332、および運動軌道推定モジュール(図示せず)は、文生成器の特徴抽出器として使用されてもよい。
物体検出および分類モジュール311は、各画像から複数の顕著物体を検出し、各物体の境界ボックスおよび物体種類を予測することができる。境界ボックスは、画像内の物体の位置を示し、4次元ベクトル(x,y,x,y)として示される。xおよびyは、画像内の物体の左上角の座標を表し、xおよびyは、画像内の物体の右下角の座標を表す。
物体種類識別子は、建物、看板、ポール、交通信号灯、樹木、人間、自転車、バス、車などの所定の物体種類を示す整数である。物体種類識別子は、ワンホットベクトル(one-hot vector)として示されてもよい。物体属性抽出モジュール332は、各物体の属性を推定することができる。属性は、物体の形状、色および状態、例えば、高さ、広さ、大きさ、赤色、青色、白色、黒色、歩行中、および立ち留まりであってもよい。属性は、各属性を示す所定の整数である属性識別子として予測される。属性識別子は、ワンホットベクトルとして示されてもよい。運動軌道推定モジュール(図示せず)は、以前に受信した画像を用いて、各物体の運動ベクトルを推定することができる。この運動ベクトルは、2D画像内の物体の方向および速度を含んでもよく、2次元ベクトルとして表されてもよい。運動ベクトルは、以前に受信した画像内の同じ物体の位置の差を用いて推定されてもよい。また、物体検出および分類モジュール331は、道路交差点を検出し、道路交差点の境界ボックスを表す4次元ベクトルを形成することができる。これらのモジュールを用いて、物体および道路交差点の境界ボックスのベクトルと、物体種類識別子および属性識別子のワンホットベクトルと、物体の運動ベクトルとを連結することによって、検出された各物体の特徴ベクトルを構築することができる。
Figure 2023508778000011
Figure 2023508778000012
例えば、高速R-CNN(Ren, Shaoqingら, "Faster R-CNN: Towards real-time object detection with region proposal networks", Advances in neural information processing systems, 2015)は、物体検出および分類モジュール331および物体属性抽出モジュール332に使用され得る既知の従来方法である。
特定の経路が、車両が次の交差点で右折することを示す場合、システムは、「黒い建物の前の交差点で右折してください」などの文を生成することができる。このような文を生成するために、曲がる方向に関する情報を特徴ベクトルに追加する必要がある。この場合、曲がる方向を3次元ワンホットベクトルとして表すことができる。したがって、(1,0,0)=左折すること、(0,1,0)=真っ直ぐ運転すること、(0,0,1)=右折すること、(0,0,0)=交差点がないことである。
この方向ベクトルは、各物体から抽出された各特徴ベクトルに連結されてもよい。
また、運転者からの音声要求を受け入れ、運転者に音声応答を出力する音声対話システムを構成するために、このシステムは、音声認識システムおよびテキスト音声合成システムを含んでもよい。この場合、運転者の要求の音声認識の結果として得られたテキスト文は、文生成モジュール336に供給されてもよい。このテキスト文は、図4のマルチモーダル融合方法に使用されたマルチモーダル入力(すなわち、モーダル-kデータであり、kは、1<k<Kの整数である)のうち、1つであってもよい。テキスト文中の各ワードは、固定次元のワード埋め込みベクトルに変換されてもよい。したがって、テキスト文は、特徴ベクトルシーケンスとして表されてもよい。マルチモーダル融合方法は、運転者の要求から抽出された特徴ベクトルシーケンスおよび検出された物体を用いて、運転者への応答として妥当な文を生成することができる。テキスト音声合成システムは、生成された文を音声信号にさらに変換し、いくつかの音声スピーカを介して当該音声信号を出力することができる。
文生成モデルを訓練するための構成
マルチモーダル融合モデルを用いて注目ベースの文生成器を学習させるために、シーン認識対話データを作成した。このシーン認識対話データは、車のダッシュボードに取り付けられたカメラから取得された21567個の画像を含む。次いで、これらの画像は、人間によって注釈された。車の運転者をナビゲートするために、36935個の物体-交差点の対は、対応する物体名、属性、境界ボックス、および文で標記された。データは、2658個の固有の物体および8970個の固有の文を含んでいた。
文生成モデル、すなわち、デコーダネットワークは、訓練セットを用いて交差エントロピー基準を最小化するように訓練される。画像特徴は、BLSTMエンコーダに供給され、続いてデコーダネットワークに供給される。エンコーダネットワークは、100個のセルからなる2つのBLSTM層を含む。デコーダネットワークは、100個のセルからなる1つのLSTM層を含む。各ワードは、LSTM層に供給されるときに50次元ベクトルに埋め込まれる。我々は、AdaDeltaオプティマイザ(M. D. Zeiler. ADADELTA: An adaptive learning rate method. CoRR, abs/1212.5701, 2012)を適用することによって、パラメータを更新する。更新されたパラメータは、注目モデルを最適化するために広く使用される。LSTMおよび注目モデルは、PyTorch(Paszke, Adamら, "PyTorch: An imperative style, high-performance deep learning library". Advances in Neural Information Processing Systems. 2019)を用いて実装された。
図6Aは、本開示の実施形態に従って、車両状態610および動的マップ611に基づいて運転指示640を生成するように構成されたナビゲーションシステム600Aのパラメトリック関数635の訓練を示すフロー図である。例えば、パラメトリック関数635は、パラメータセット650内のパラメータを含むニューラルネットワークとして、またはパラメータセット650内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、観測された車両状態610、観測された動的マップ611、および対応する運転指示602の組み合わせを含む訓練データ例の訓練セット601に基づいて実行されてもよい。訓練データ例は、様々な条件で車両を運転し、観察された車両状態610および観察された動的マップ611を記録し、現在の車両状態および動的マップに対応する状況において運転者を案内することに関連する運転指示の例示を提供するように人間に依頼することによって、対応する運転指示602をラベルとして収集することによって収集されてもよい。ナビゲーションシステムが運転者を案内しようとしている経路に沿って安全に運転することを支援するために、運転指示の直感性、自然性、関連性、容易に理解可能性、明瞭性に基づいて、現在の状況において仮定的な運転指示として特に適切であると考えられる1つ以上の運転指示を提供するように、複数の人間に依頼してもよい。対応する運転指示は、車両が運転されているときに乗客によって収集されてもよく、または車両状態および動的マップの例を、対応する運転指示で車両状態および動的マップを注釈する人間のラベラに示すことによってオフラインで収集されてもよい。例えば、訓練データを収集している車両が、交差点で、ナビゲーションシステムが運転者を案内しようとしている経路上で車両の前方に右折している黒い車に遭遇した場合、人間のラベラに見せられた車両のダッシュボードカメラからの映像クリップが、黒い車が右折していることおよび意図した経路がその交差点で右折していることを暗示する場合、人間のラベラは、「右折している黒い車に追従してください」などの対応する運転指示をこの瞬間にラベル付ける。例えば、人間のラベラは、安全に右折することに影響を及ぼし得る潜在的な危険、例えば車両の将来の経路上の道路を横断しようとしている歩行者に気付いた場合、「道路を横断しようとしている歩行者に注意してください」などの対応する運転指示をその瞬間にラベル付けてもよい。目的関数計算モジュール645は、生成された運転指示640と訓練運転指示602との間の誤差関数を計算することによって、目的関数を計算する。誤差関数は、類似度、交差エントロピー基準などに基づいてもよい。訓練モジュール655は、目的関数を用いてパラメータ650を更新することができる。パラメトリック関数635がニューラルネットワークとして実装された場合、訓練モジュール655は、ネットワーク訓練モジュールであり、パラメータ650は、ネットワークパラメータを含む。パラメトリック関数635がルールベースのシステムとして実装された場合、パラメータ650は、目的関数645を最小化または減少するために、訓練モジュール655を用いて、訓練セット601に基づいて修正され得るルールベースのシステムのパラメータ、例えば、重みおよび閾値を含む。
図6Bは、本開示の実施形態に従って、ナビゲーションシステム600Bのパラメトリック関数の訓練を示すフロー図である。第1のパラメトリック関数615は、車両610の状態に基づいて動的マップ611内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップ620を取得するように構成され、第2のパラメトリック関数635は、変換後動的マップ620に基づいて運転指示640を生成するように構成される。例えば、第1のパラメトリック関数615は、パラメータセット650内のパラメータを含むニューラルネットワークとして、またはパラメータセット650内のパラメータを含むルールベースのシステムとして実装されてもよく、第2のパラメトリック関数635は、パラメータセット650内のパラメータを含むニューラルネットワークとして、またはパラメータセット650内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、図6Aのシステムと同様の方法で実行されてもよい。この場合、パラメータ650は、第1のパラメトリック関数615のパラメータを含むことができる。同様に、第1のパラメトリック関数615は、訓練モジュール655を用いて、生成された運転指示640と訓練運転指示602とを比較することによって得られた目的関数645に基づいて訓練されてもよい。
図6Cは、本開示の実施形態に従って、ナビゲーションシステム600Cのパラメトリック関数の訓練を示すフロー図である。第1のパラメトリック関数605は、シーンからの測定603に基づいて車両状態610および動的マップ611を決定するように構成され、第2のパラメトリック関数635は、車両状態610および動的マップ611に基づいて運転指示640を生成するように構成される。例えば、第1のパラメトリック関数605は、パラメータセット650内のパラメータを含むニューラルネットワークとして、またはパラメータセット650内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、観測された測定値603と対応する運転指示602との組み合わせを含む収集された訓練データ例の訓練セット601に基づいて実行されてもよい。訓練データ例は、図6Aのシステムと同様に、様々な条件で車両を運転し、シーンの観測された測定値603を記録し、対応する運転指示602を収集することによって収集されてもよい。訓練は、図6Aのシステムと同様に、訓練セット601を用いて実行されてもよい。この場合、パラメータ650は、第1のパラメトリック関数605のパラメータを含むことができる。同様に、第1のパラメトリック関数605は、訓練モジュール655を用いて、生成された運転指示640と訓練運転指示602とを比較することによって得られた目的関数645に基づいて訓練されてもよい。
図6Dは、本開示の実施形態に従って、シーンからの測定値603に基づいて運転指示640を生成するように構成されたナビゲーションシステム600Dのパラメトリック関数635のエンドツーエンド訓練を示すフロー図である。訓練は、観測された測定値603と対応する運転指示602との組み合わせを含む収集された訓練データ例の訓練セット601に基づいて実行されてもよい。目的関数計算モジュール645は、生成された運転指示640と訓練運転指示602との間の誤差関数を計算することによって、目的関数を計算する。訓練モジュール655は、目的関数を用いてパラメータ650を更新することができる。
図6Eは、本開示の実施形態に従って、ナビゲーションシステム600Eのパラメトリック関数の訓練を示すフロー図である。第1のパラメトリック関数605は、シーンからの測定603に基づいて車両状態610および動的マップ611を決定するように構成され、第2のパラメトリック関数615は、車両状態610に基づいて動的マップ611内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップ620を取得するように構成され、第3のパラメトリック関数625は、変換後動的マップ620から一部の顕著物体630を選択するように構成され、第4のパラメトリック関数635は、選択された顕著物体630に基づいて運転指示640を生成するように構成される。例えば、各パラメトリック関数は、パラメータセット650内のパラメータを含むニューラルネットワークとして、またはパラメータセット650内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、観測された測定値603と対応する運転指示602との組み合わせを含む収集された訓練データ例の訓練セット601に基づいて実行されてもよい。目的関数計算モジュール645は、生成された運転指示640と訓練運転指示602との間の誤差関数を計算することによって、目的関数を計算する。訓練モジュール655は、目的関数を用いてパラメータ650を更新することができる。
図6Fは、本開示の実施形態に従って、ナビゲーションシステム600Eのパラメトリック関数のマルチタスク訓練を示すフロー図である。第1のパラメトリック関数605は、シーンからの測定603に基づいて車両状態610および動的マップ611を決定するように構成され、第2のパラメトリック関数615は、車両状態610に基づいて動的マップ611内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップ620を取得するように構成され、第3のパラメトリック関数625は、変換後動的マップ620から一部の顕著物体630を選択するように構成され、第4のパラメトリック関数635は、選択された顕著物体630に基づいて運転指示640を生成するように構成される。例えば、これらのパラメトリック関数は、パラメータセット650内のパラメータを含むニューラルネットワークとして実装されてもよい。訓練は、観測された測定値603の組み合わせを含む収集された訓練データ例の訓練セット601と、車両状態ラベル、動的マップラベル、変換後動的マップラベル、選択された顕著物体、および運転指示の1つまたは組み合わせを含む対応するラベル付きデータ602とに基づいて実行されてもよい。目的関数計算モジュール645は、決定された車両状態610とラベル付きデータ602からの訓練車両状態との間の誤差関数、決定された動的マップ611とラベル付きデータ602からの訓練動的マップとの間の誤差関数、選択された顕著物体630とラベル付きデータ602からの訓練顕著物体との間の誤差関数、および生成された運転指示640とラベル付きデータ602からの訓練運転指示との間の誤差関数の1つまたは組み合わせの加重和を計算することによって、目的関数を計算する。訓練モジュール655は、目的関数を用いてパラメータ650を更新することができる。
図7は、本開示のいくつかの実施形態に従って、動的マップ内の例示的な顕著物体710、720、730、740、750、760、および各物体の属性および値711、721、731、741、751、761を示している。
動的マップ内の顕著物体が有し得る属性は、種類、色、動的状態(すなわち、運動)、形状、サイズ、位置、外観、および深度を含む。属性の種類は、物体の種類を指す。例えば、顕著物体760の場合、属性761の種類は、当該物体が2つの道路の間の交差点であることを示す値を有する交差点である。属性の種類の他の可能な値は、車711、建物721、歩行者741、およびサイレン音751などの様々な音声を含む。他の属性色は、物体の色を指し、茶色721、白色731、または黒色711などの値を有することができる。いくつかの実施形態において使用される別の属性は、物体の動的状態、すなわち、物体の運動に関する情報である。物体の動的状態は、物体の移動方向、例えば右折している711、711の速度、例えば15キロの時速、または運動していない状態(例えば、物体は、現在静止している自動車または歩行者などの動的物体である)などの値を有することができる。いくつかの実施形態において使用される他の属性は、形状721および731、車両701に対する深度711または動的マップの基準フレームに対する位置、顕著物体全体のサイズ、およびプロセッサが運転者視点から物体の一部しか見えると判定した場合に、顕著物体の可視部分のサイズを含む。
なお、本開示のいくつかの実施形態において、運転者の観点から関連性がある顕著物体は、運転者が現在では可視または感知できる必要がない。例えば、車両の現在位置または将来位置に接近している救急車は、たとえ車両の運転者が現在では見えないまたは聞こえないとしても、関連性があるものとして、「警告:救急車は、後方から接近している」または「警告:救急車は、左側の青い建物の後方から接近している」などの運転指示に含まれてもよい。
動的マップ内の顕著物体間の空間関係も、運転指示の生成に使用される。空間関係は、別の物体または一組の物体に対する1つ以上の物体の相対的な3D位置を示することができる。相対位置は、左側、右側、前方、後方、上方、下方に位置するものとして表現される。カメラから推定された深度または距離情報、または距離センサ(すなわち、深度センサ)、例えばLidarまたはレーダセンサから直接に取得された深度または距離情報は、相対的な3D位置の決定に使用される。
図8は、動的マップ内の例示的な顕著物体801、802、803、804、および各物体対の空間関係812、834を示す。この例において、顕著物体801は、顕著物体802に対して空間関係812を有する。すなわち、顕著物体801は、顕著物体802の左側5メートルにある。同様に、顕著物体803は、顕著物体804に対して空間関係834を有する。すなわち、顕著物体804は、顕著物体803の前方20メートル且つ左側15メートルにある。
また、顕著物体から得られた運動軌道および音声も、運転指示の生成に使用されてもよい。動作軌道は、各顕著物体について決定され、所定の時間における顕著物体の移動を示す。顕著物体に関連する音声は、マイクロフォンを用いて直接に取得される。
図9および10に示すように、運動軌道916は、所定の時間にいて、顕著物体906の運動に基づいて推定され、運動軌道914は、所定の時間において、顕著物体904の運動に基づいて推定される。また、シーンは、静止物体902、903と、車両901の測定システムによって検知され得る特定の音声を発する閉鎖物体905とを含む。
特定の時点において、ナビゲーションシステムは、運転者視点から検知された顕著物体の属性を比較ことによって、生成された運転指示に含まれる顕著物体の関連性を示す各顕著物体の関連性スコアを推定することができる。次いで、ナビゲーションシステムは、関連性スコアに基づいて、一組の顕著物体から、生成された運転指示に含まれる顕著物体を選択する。ナビゲーションシステムは、顕著物体から車両までの距離の関数、顕著物体から経路上の次の曲がる地点までの距離の関数、および車両から経路上の次の曲がる地点までの距離の関数の1つまたは組み合わせに基づいて、各顕著物体の関連性スコアを推定する。
図9および10に示す例において、車両901の経路は、車両が次の交差点で右折すること950を示している。図9に示すように、車両901が交差点から100メートル離れている時に、最も高い関連性スコア930を有する顕著物体は、運動軌道916を有する顕著物体906であり、生成された運転指示は、「右折している黒い車に追従してください」である。図10に示されるように、車両901が交差点から50メートル離れている時に、最も高い関連性スコア1030を有する顕著物体は、運動軌道914を有する顕著物体904および顕著物体905を含む。この場合、生成された運転指示1040は、「左側から道路を横断しようとしている歩行者および左側から接近している救急車に注意してください」である。
これらの例は、現在の時点において車両の経路に関連する一組の顕著物体およびそれらの属性、ならびに車両の状態に基づいたナビゲーションシステムの適応性を示す。
ナビゲーションシステムは、言語規則に従った言語文の形の運転指示を生成し、出力インターフェイスは、言語文を放送するように構成されたスピーカに接続される。また、ナビゲーションシステムは、運転者からの音声要求を受け入れ、運転者に音声応答を出力するように構成された音声対話システムをサポートする。従って、言語文は、音声対話システムの動作履歴を使用する。音声対話システムは、生成された運転指示を明確にするために、または運転者とシーンとの間の他の対話手段および運転指示を提供するために使用される。
図11は、動的マップ内の車両1101および一組の顕著物体1102、1103、1104を有するシーンを示す。生成された第1の運転指示1105は、「右折している黒い車に追従してください」である。シーン内に2つの黒い車1102、1104がある場合、運転者は、「どの黒い車?」という説明を求める。生成された第2の運転指示1107は、「黒い低層建物の前の黒い車」である。
図12は、本発明の経路案内システムの特定の実施形態を示すフローチャートである。この実施形態において、システムは、1つ以上の音声センサ1211、1つ以上のカメラ1212および1つ以上のLIDAR距離センサ1214からのリアルタイムセンサ情報、GPS位置1201、および経路方向1210を受信する。物体検出器および分類器1220は、物体の属性を含む全ての検出された物体を出力する。前述したように、顕著物体検出器1222は、経路方向1210を用いて動的マップ1224を決定する。この実施形態において、顕著物体は、建物などの静的物体であるかまたは車などの動的物体であるかに応じて、2つの異なる経路に従って処理される。動的物体に関する情報は、物体の移動速度および方向からなる物体の軌道を推定する動的顕著物体軌道推定器1240によって処理される。動的顕著物体軌道推定器1240は、多くの方法で実装されてもよい。例えば、動的顕著物体軌道推定器1240は、第1のカメラ画像内の物体の位置と第2のカメラ画像内の物体の位置とを比較することによって、物体の軌道を推定することができる。
その後、動的顕著物体属性抽出器1241は、動的顕著物体の属性を抽出することによって、属性を有する一組の動的顕著物体1242を生成する。静的顕著物体属性抽出器1231は、静的顕著物体のセットの属性を抽出することによって、属性を有する一組の静的顕著物体1232を生成する。また、静的顕著物体属性抽出器1231は、車両GPS位置1201を用いてマップサーバ1202から取得されたローカルマップデータ1203を入力として受信する。これによって、静的顕著物体属性抽出器1231は、物体の名前などの静的顕著物体の追加の属性を含むことができる。例えば、静的顕著物体が店舗である場合、その物体の属性は、店舗名を含むことができる。
文生成モジュール1243は、多くの方法で実装されてもよい。非常に強力なものは、人間のラベラによって提供された顕著物体および対応文のデータセットを用いて訓練されたニューラルネットワークとして実装されたパラメトリック関数である。
図12に示された文生成モジュール1243の特定の実施形態は、ルールベースの物体ランキング装置1245を採用する。この物体ランキング装置は、選択された顕著物体1250を出力するために、手動で生成されたルールセットを用いて顕著物体をランキングする。これらのルールを用いて、一組の顕著物体のデータおよび属性に基づいて一組の顕著物体を比較およびランキングすることによって、選択された顕著物体1250を特定することができる。例えば、ルールは、車両と同じ方向に移動している動的物体を優先してもよい。ルールは、小さいものよりも大きな物体を優先してもよく、または茶色もしくは黒色などのより暗い色よりも赤色もしくは緑色などの明るい色を優先してもよい。
Figure 2023508778000013
Figure 2023508778000014
Figure 2023508778000015
また、この実施形態において、文生成器1243の物体ランキング装置1245は、自動音声認識モジュール1260によって音声入力1211から検出された運転者音声1261を入力として受信する。対話システム1262は、物体ランキング装置1245の機能を調整するために使用される出力を提供する。例えば、第1の顕著物体を使用する以前の運転指示が運転者に出力されたが、運転者は、参照物としての顕著物体を見えなかった。その結果、運転者は、顕著物体を見えなかったことを発話する。したがって、物体ランキング装置は、以前の顕著物体のスコアを低減ことによって、代替的な顕著物体を顕著物体1250として選択する。
また、本発明の別の態様は、マルチモーダル情報を取得し、取得されたマルチモーダル情報を解析し、経路に基づいて1つ以上の顕著物体を特定し、1つ以上の顕著物体に基づいて経路案内を提供する文を生成することによって、経路案内を車両の運転者に提供するための方法を実現することができるという認識に基づいている。この方法は、音声合成モジュールまたはディスプレイのうちの1つ以上を用いて、生成文を出力するステップを含んでもよい。この場合、経路は、現在地および目的地に基づいて決定され、文は、取得されたマルチモーダル情報および顕著物体に基づいて生成され、マルチモーダル情報は、1つ以上の撮像装置からの情報を含む。解析は、複数の物体を検出および分類するステップと、検出された物体に複数の属性を関連付けるステップと、経路に基づいて車両の進行方向の交差点の位置を検出するステップと、一部の物体の運動軌道を推定するステップと、検出された一部の物体間の空間関係を決定するステップとのうちの1つまたは組み合わせを含むことによって達成されてもよい。空間関係は、物体間の相対位置および向きを示す。場合によって、複数の物体を検出および分類するステップは、機械学習に基づいたシステムを用いて実行されてもよい。また、属性は、主な色、および車両の現在位置に対する深度の1つまたは組み合わせを含むことができ、物体の種類は、歩行者、車両、自転車、建物、および交通標識の1つ以上を含むことができる。さらに、生成文は、顕著物体に関連する運転指示を含む経路案内を提供することができ、生成文は、解析の結果に基づく警告を示す。
場合によって、撮像装置は、1つ以上のカメラ、1つ以上の距離センサ、または1つ以上のカメラと1つ以上の距離センサとの組み合わせであってもよい。場合によって、少なくとも1つの距離センサは、LIDAR(Light Detection and Ranging)またはレーダなどであってもよく、1つ以上の撮像装置は、車両の周囲から情報を捕捉することができる。また、マルチモーダル情報は、車両が運転されている間にリアルタイムで取得された信号および/または1つ以上のマイクロフォンによって捕捉された音声信号を含むことができ、場合によって、音声信号は、ユーザの発話であってもよい。これによって、本方法を使用するナビゲーションシステムは、ユーザ(運転者)と対話することができ、ユーザにより有益な情報を生成することができる。マルチモーダル情報は、ユーザとシステムとの間の対話の履歴であってもよく、マップ情報を含んでもよい。対話は、1つ以上のユーザ発話入力および以前に生成された文を含むことができる。また、解析ステップは、マップ上で車両の位置を特定するステップを含むことができる。この場合、マップ情報は、複数の注目地を含み、1つ以上の顕著物体は、解析結果に基づいて、注目地から選択されてもよい。
以上、シーン認識対話システムの1つの応用例として、ナビゲーションシステムを説明した。しかしながら、本発明は、ナビゲーションシステムに限定されない。例えば、本発明のいくつかの実施形態は、車載インフォテイメント、家電製品、構築システム内のサービスロボットとの対話、および測量システムに適用することができる。GPSは、単にナビゲーションシステムの1つの定位方法であり、他の用途に他の定位方法を適用することができる。
本開示の別の実施形態によれば、運転者コントロールインターフェイス310および運転者コントロール311をロボットコントロールインターフェイス(図示せず)およびロボットコントロールインターフェイスに変更することによって、シーン認識対話システムを実現することができる。この場合、サービスロボットのシステム設計に応じてGPS/定位インターフェイス376およびGPS/定位装置377を使用することができ、訓練データセットを変更することができる。
さらに、本開示の実施形態は、マルチモーダル融合モデルを実行するための有効な方法を提供する。したがって、マルチモーダル融合モデルを使用する方法およびシステムによって、中央処理ユニット(CPU)の使用、電力消費、および/またはネットワーク帯域幅の使用を低減することができる。
上述した本開示の実施形態は、多くの方法で実装されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。1つの集積回路要素は、1つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。
また、本明細書において概説した様々な方法または工程は、様々なオペレーティングシステムまたはプラットフォームのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコーディングされてもよい。さらに、このようなソフトウェアは、いくつかの適切なプログラミング言語および/またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードもしくは中間コードとしてコンパイルされてもよい。通常、プログラムモジュールの機能は、所望に応じて様々な実施形態に組み合わせられてもよく、分散させられてもよい。
また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、一部の動作を同時に実行することを含み得る実施形態を構築することができる。さらに、請求項において請求項要素を修飾するための順序用語、例えば第1、第2などの使用は、別の請求項要素に対する1つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、(順序用語を使用することによって)特定の名前を有する1つの請求項要素と同じ名前を有する別の要素とを区別させる。
いくつかの好ましい実施形態を参照して本開示を説明したが、理解すべきことは、本開示の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本開示の真の精神および範囲内にある全ての変形および修正を網羅する。
本発明は、一般的には、シーン認識対話システムを提供するためのシステムに関し、より詳しくは、車両の周辺の静的物体および動的物体に関するリアルタイムのユニモーダル情報またはマルチモーダル情報に基づいて、車両の運転者に経路案内を提供するためのシーン認識対話ナビゲーションシステムに関する。
上記の課題は、独立請求項に記載の主題によって解決される。いくつかの実施形態によれば、ナビゲーションシステムは、車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、車両の運転者に運転指示を提供するように構成される。ナビゲーションシステムは、車両を運転するための経路と、現在の時点において経路上の車両の状態と、現在の時点において車両の経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含み、少なくとも1つの顕著物体は、現在の時点における現在位置と将来の時点における将来位置との間の経路上に移動している車両の測定システムによって検知された物体であり、一組の顕著物体は、1つ以上の静的物体と、1つ以上の動的物体とを含む。ナビゲーションシステムは、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、車両の運転者に運転指示を出力するように構成された出力インターフェイスとを含む。
いくつかの実施形態において、運転指示は、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体(102、125、126)を含む。例えば、図1Bにおいて、運転指示105は、運転者視点に基づいて動的マップ内の一組の顕著物体から選択された顕著物体102の記述「赤い郵便ポスト」に基づく。いくつかの実施形態において、運転者視点は、動的マップに対する車両の現在位置と、車両の現在位置および向きに関連する経路110の一部とを含む。例えば、「赤い郵便ポスト」を選択した1つの理由は、赤い郵便ポストが経路110の次の曲がりの方向に位置しているためである。(図1Bに示されていない)次の経路110が左折である代替的な状況において、運転指示は、別の物体130に基づく。この場合、左折しようとしている運転者の観点から、別の物体130が赤い郵便ポスト102よりも高い関連性を有するため、その記述「青い建物」は、運転指示「青い建物の前で左折してください」に使用される。
純なマルチモーダル方法の場合、K個の変換されたN次元ベクトルは、単一のN次元コンテンツベクトルに加算されるが、図4のマルチモーダル注目方法の場合、K個の変換されたN次元ベクトルは、モーダル注目推定器455および加重和プロセッサ445によって単一のN次元コンテンツベクトルに変換される。このときに、モーダル注目推定器455は、各変換されたN次元ベクトルの重みを推定し、加重和プロセッサ445は、K個の変換されたN次元ベクトルと推定重みとの加重和として算出されたN次元コンテンツベクトルを出力(生成)する。
場合によって、複数の時系列データは、カメラを用いて捕捉された映像信号およびマイクロフォンを用いて記録された音声信号であってもよい。距離センサによって取得された時系列深度画像がモダルデータとして使用される場合、システム300は、図中の特徴抽出器411、421および431(K=3)を使用する。少なくとも1つのカメラからの画像(フレーム)、測定システムからの信号、少なくとも1つの隣接車両からの通信データ、または車両に配置された少なくとも1つのマイクロフォンからの音声信号を含むことができるリアルタイムマルチモーダル情報は、カメラインターフェイス360、距離センサインターフェイス370またはマイクロフォンインターフェイス380を介して、システム300内の特徴抽出器411、421および431に提供される。特徴抽出器411、421および431は、画像データ、音声データおよび深度データを、モーダル-1データ、モーダル-2データ、およびモーダル-3データ(例えば、K=3)としてそれぞれ抽出することができる。この場合、特徴抽出器411、421および431は、第1の間隔、第2の間隔および第3の間隔に従って、リアルタイム画像(フレーム)のデータストリームから、モーダル-1データ、モーダル-2データおよびモーダル-3データをそれぞれ受信する。
物体検出および分類モジュール331は、各画像から複数の顕著物体を検出し、各物体の境界ボックスおよび物体種類を予測することができる。境界ボックスは、画像内の物体の位置を示し、4次元ベクトル(x1,y1,x2,y2)として示される。x1およびy1は、画像内の物体の左上角の座標を表し、x2およびy2は、画像内の物体の右下角の座標を表す。
動的マップ内の顕著物体が有し得る属性は、種類、色、動的状態(すなわち、運動)、形状、サイズ、位置、外観、および深度を含む。属性の種類は、物体の種類を指す。例えば、顕著物体760の場合、属性761の種類は、当該物体が2つの道路の間の交差点であることを示す値を有する交差点である。属性の種類の他の可能な値は、車711、建物721、歩行者741、およびサイレン音751などの様々な音声を含む。他の属性色は、物体の色を指し、建物721の茶色建物731の白色、または車711の黒色などの値を有することができる。いくつかの実施形態において使用される別の属性は、物体の動的状態、すなわち、物体の運動に関する情報である。物体の動的状態は、物体の移動方向、例えば右折している711、711の速度、例えば15キロの時速、または運動していない状態(例えば、物体は、現在静止している自動車または歩行者などの動的物体である)などの値を有することができる。いくつかの実施形態において使用される他の属性は、建物721および731の形状、車両701に対する車711の深度または動的マップの基準フレームに対する位置、顕著物体全体のサイズ、およびプロセッサが運転者視点から物体の一部しか見えると判定した場合に、顕著物体の可視部分のサイズを含む。

Claims (17)

  1. 車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、前記車両の運転者に運転指示を提供するように構成されたナビゲーションシステムであって、
    前記車両を運転するための経路と、現在の時点において前記経路上の前記車両の状態と、前記現在の時点において前記車両の前記経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含み、少なくとも1つの顕著物体は、前記現在の時点における現在位置と将来の時点における将来位置との間の前記経路上に移動している前記車両の測定システムによって検知された物体であり、前記一組の顕著物体は、1つ以上の静的物体と、1つ以上の動的物体とを含み、
    前記ナビゲーションシステムは、
    前記車両の前記状態によって特定された運転者視点から得られた前記動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、
    前記運転指示を前記車両の前記運転者に出力するように構成された出力インターフェイスとを含む、ナビゲーションシステム。
  2. 前記プロセッサは、前記車両の前記状態および前記動的マップを、前記運転指示を生成するように構成されたパラメトリック関数に提出するように構成される、請求項1に記載のナビゲーションシステム。
  3. 前記パラメトリック関数は、車両状態、動的マップ、および前記運転者視点に関連する運転指示の組み合わせを含む訓練データを用いて訓練される、請求項2に記載のナビゲーションシステム。
  4. 前記動的マップは、前記顕著物体の属性の値および前記顕著物体の間の空間関係を示す特徴を含み、
    前記プロセッサは、前記顕著物体の属性および前記顕著物体の間の空間関係を決定し、前記属性および前記空間関係を更新し、更新された前記属性および前記空間関係を前記パラメトリック関数に提出することによって、前記運転指示を生成する、請求項2に記載のナビゲーションシステム。
  5. 前記顕著物体の前記属性は、前記顕著物体の種類、前記顕著物体の動的状態、前記顕著物体の形状、前記顕著物体のサイズ、前記顕著物体の可視部分のサイズ、前記顕著物体の位置、および前記顕著物体の色の1つまたは組み合わせを含み、
    前記空間関係は、相対位置、標高、距離、角度、および閉鎖の1つまたは組み合わせを含み、
    前記プロセッサは、前記車両の状態に基づいて、前記属性および前記空間関係を更新する、請求項4に記載のナビゲーションシステム。
  6. 前記測定システムから、前記現在の時点における前記シーンの測定値を受信するように構成された通信インターフェイスをさらに含み、
    前記測定値は、カメラ、深度センサ、マイクロフォン、前記車両のGPS、近隣車両のGPS、距離センサ、および路側機(RSU)のセンサの1つまたは組み合わせを含む少なくとも1つのセンサから受信される、請求項1に記載のナビゲーションシステム。
  7. 前記プロセッサは、前記測定値から特徴を抽出することによって、前記車両の前記状態および前記動的マップを決定するように訓練された第1のパラメトリック関数を実行する、請求項6に記載のナビゲーションシステム。
  8. 前記プロセッサは、前記第1のパラメトリック関数によって抽出された前記特徴から前記運転指示を生成するように訓練された第2のパラメトリック関数を実行し、
    前記第1のパラメトリック関数と前記第2のパラメトリック関数とは、共同で訓練される、請求項7に記載のナビゲーションシステム。
  9. 前記プロセッサは、前記測定値から前記運転指示を生成するように訓練されたパラメトリック関数を実行する、請求項6に記載のナビゲーションシステム。
  10. 前記運転指示は、一組の所定の運転指令から選択された運転指令を含み、
    前記所定の運転指令の各々は、1つ以上の顕著物体に基づいて修正され、前記修正後運転指令が前記運転者に対する清澄度を示すスコアに関連付けられ、
    前記パラメトリック関数は、より高いスコアを有する前記修正後運転指令を含む前記運転指示を生成するように訓練される、請求項4に記載のナビゲーションシステム。
  11. 前記一組の所定の運転指令は、追従運転指令、後曲がり運転指令、および前曲がり運転指令を含む、請求項10に記載のナビゲーションシステム。
  12. 前記プロセッサは、
    前記測定値から特徴を抽出することによって、前記車両の前記状態および前記動的マップを決定するように訓練された第1のパラメトリック関数を実行し、
    前記車両の前記状態に基づいて前記動的マップを変換することによって、前記運転者視点から前記顕著物体の前記属性および前記空間関係を特定するための変換後動的マップを生成するように訓練された第2のパラメトリック関数を実行し、
    前記変換後動的マップ内の前記顕著物体の前記属性および前記空間関係に基づいて、前記一組の顕著物体から1つ以上の顕著物体を選択するように訓練された第3のパラメトリック関数を実行し、
    選択された前記顕著物体の前記属性および前記空間関係に基づいて、前記運転指示を生成するように訓練された第4のパラメトリック関数を実行するように構成される、請求項6に記載のナビゲーションシステム。
  13. 前記運転指示は、言語規則に従った言語文の形で生成され、
    前記出力インターフェイスは、前記言語文を放送するように構成されたスピーカに接続される、請求項1に記載のナビゲーションシステム。
  14. 前記運転者からの音声要求を受け入れ、前記運転者に音声応答を出力するように構成された音声対話システムをさらに含み、
    前記プロセッサは、前記音声対話システムの動作履歴を用いて、前記言語文を生成する、請求項13に記載のナビゲーションシステム。
  15. 前記プロセッサは、
    前記運転者視点から検知された前記顕著物体の属性を比較することによって、前記生成された運転指示に含まれる前記顕著物体の関連性を示す各顕著物体の関連性スコアを推定し、
    前記関連性スコアに基づいて、前記一組の顕著物体から、前記生成された運転指示に含まれる顕著物体を選択するように構成される、請求項1に記載のナビゲーションシステム。
  16. 各顕著物体の前記関連性スコアの前記推定は、前記顕著物体から前記車両までの距離の関数、前記顕著物体から前記経路上の次の曲がる地点までの距離の関数、および前記車両から前記経路上の前記次の曲がる地点までの距離の関数の1つまたは組み合わせに基づいて行われる、請求項15に記載のナビゲーションシステム。
  17. 前記顕著物体の前記記述は、運転指令と、前記顕著物体の属性の値と、前記顕著物体の種類のラベルとを含む、請求項1に記載のナビゲーションシステム。
JP2022565025A 2020-02-06 2020-12-17 シーン認識対話を行うためのシステム Active JP7345683B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/784,103 2020-02-06
US16/784,103 US11635299B2 (en) 2020-02-06 2020-02-06 Method and system for scene-aware interaction
PCT/JP2020/048324 WO2021157243A1 (en) 2020-02-06 2020-12-17 Method and system for scene-aware interaction

Publications (2)

Publication Number Publication Date
JP2023508778A true JP2023508778A (ja) 2023-03-03
JP7345683B2 JP7345683B2 (ja) 2023-09-15

Family

ID=74561964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022565025A Active JP7345683B2 (ja) 2020-02-06 2020-12-17 シーン認識対話を行うためのシステム

Country Status (5)

Country Link
US (1) US11635299B2 (ja)
EP (1) EP3994426B1 (ja)
JP (1) JP7345683B2 (ja)
CN (1) CN115038936A (ja)
WO (1) WO2021157243A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11892311B2 (en) * 2016-11-26 2024-02-06 Thinkware Corporation Image processing apparatus, image processing method, computer program and computer readable recording medium
US11282385B2 (en) * 2018-04-24 2022-03-22 Qualcomm Incorproated System and method of object-based navigation
CA3110657A1 (en) * 2020-02-28 2021-08-28 Invision Ai, Inc. Scene-aware object detection
TWI767300B (zh) * 2020-08-18 2022-06-11 廣達電腦股份有限公司 運算裝置及視訊影像的雨滴去除方法
CN112735130B (zh) * 2020-12-25 2022-05-10 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、电子设备和介质
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
CN114537409B (zh) * 2022-02-17 2022-11-11 上海交通大学 基于多模态分析的多感官车载交互方法及系统
CN114943344B (zh) * 2022-05-27 2024-04-05 武汉大学 联合svm和hmm的导航场景感知通用模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015007632A (ja) * 2014-07-14 2015-01-15 コア ワイヤレス ライセンシング エス.アー.エール.エル. 位置オフセット情報を決定する方法および装置
US20150160033A1 (en) * 2013-12-09 2015-06-11 Harman International Industries, Inc. Eye gaze enabled navigation system
US20170314954A1 (en) * 2016-05-02 2017-11-02 Google Inc. Systems and Methods for Using Real-Time Imagery in Navigation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10245335A1 (de) * 2002-09-27 2004-04-08 Robert Bosch Gmbh Navigationsvorrichtung
US7831433B1 (en) * 2005-02-03 2010-11-09 Hrl Laboratories, Llc System and method for using context in navigation dialog
US7912637B2 (en) * 2007-06-25 2011-03-22 Microsoft Corporation Landmark-based routing
US20110130956A1 (en) * 2009-11-30 2011-06-02 Nokia Corporation Method and apparatus for presenting contextually appropriate navigation instructions
US9412273B2 (en) * 2012-03-14 2016-08-09 Autoconnect Holdings Llc Radar sensing and emergency response vehicle detection
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
US10527443B2 (en) * 2017-08-16 2020-01-07 International Business Machines Corporation Generating navigation instructions
US11282385B2 (en) * 2018-04-24 2022-03-22 Qualcomm Incorproated System and method of object-based navigation
US10810792B2 (en) * 2018-05-31 2020-10-20 Toyota Research Institute, Inc. Inferring locations of 3D objects in a spatial environment
US11260872B2 (en) * 2018-10-12 2022-03-01 Honda Motor Co., Ltd. System and method for utilizing a temporal recurrent network for online action detection
US10943588B2 (en) * 2019-01-03 2021-03-09 International Business Machines Corporation Methods and systems for managing voice response systems based on references to previous responses
US11257493B2 (en) * 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
US11189007B2 (en) * 2019-12-03 2021-11-30 Imagry (Israel) Ltd Real-time generation of functional road maps

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150160033A1 (en) * 2013-12-09 2015-06-11 Harman International Industries, Inc. Eye gaze enabled navigation system
JP2015007632A (ja) * 2014-07-14 2015-01-15 コア ワイヤレス ライセンシング エス.アー.エール.エル. 位置オフセット情報を決定する方法および装置
US20170314954A1 (en) * 2016-05-02 2017-11-02 Google Inc. Systems and Methods for Using Real-Time Imagery in Navigation

Also Published As

Publication number Publication date
CN115038936A (zh) 2022-09-09
WO2021157243A1 (en) 2021-08-12
JP7345683B2 (ja) 2023-09-15
EP3994426A1 (en) 2022-05-11
EP3994426B1 (en) 2023-05-31
US11635299B2 (en) 2023-04-25
US20210247201A1 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
JP7345683B2 (ja) シーン認識対話を行うためのシステム
US9747898B2 (en) Interpretation of ambiguous vehicle instructions
US11676346B2 (en) Augmented reality vehicle interfacing
JP6800899B2 (ja) 視界に制限のある交差点への接近のためのリスクベースの運転者支援
US10339711B2 (en) System and method for providing augmented reality based directions based on verbal and gestural cues
CN109215433A (zh) 用于自动驾驶仿真的基于视觉的驾驶场景生成器
US10336252B2 (en) Long term driving danger prediction system
CN110347145A (zh) 用于自动驾驶车辆的感知辅助
CN113196103A (zh) 用于自主车辆的对象动作分类
CN108974009A (zh) 用于自动驾驶控制的方法、介质和系统
US11118934B2 (en) Method and system of route guidance for a towing vehicle
WO2020005918A1 (en) Phrase recognition model for autonomous vehicles
KR102458664B1 (ko) 차량의 주행을 보조하는 전자 장치 및 방법
US10647332B2 (en) System and method for natural-language vehicle control
JP2018173862A (ja) 走行支援装置及びコンピュータプログラム
KR20180074568A (ko) 차선 정보를 추정하는 방법 및 전자 장치
JP7340046B2 (ja) 緊急車両の音声および視覚の検出を融合した機械学習モデル
CN110007752A (zh) 增强现实车辆界面连接
JP2022058556A (ja) 自律走行車両を利用するモデル訓練及び車中検証のためのオーディオロギング
WO2021033591A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP7426471B2 (ja) 自動運転車インタラクションシステム
JP7233918B2 (ja) 車載装置、通信システム
JP2009133657A (ja) 案内装置、案内方法、案内プログラム及びその記録媒体
CN215897762U (zh) 一种视觉辅助系统
JP7473087B2 (ja) 駐車支援装置、駐車支援方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230905

R150 Certificate of patent or registration of utility model

Ref document number: 7345683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150