JP7340046B2 - 緊急車両の音声および視覚の検出を融合した機械学習モデル - Google Patents

緊急車両の音声および視覚の検出を融合した機械学習モデル Download PDF

Info

Publication number
JP7340046B2
JP7340046B2 JP2022004009A JP2022004009A JP7340046B2 JP 7340046 B2 JP7340046 B2 JP 7340046B2 JP 2022004009 A JP2022004009 A JP 2022004009A JP 2022004009 A JP2022004009 A JP 2022004009A JP 7340046 B2 JP7340046 B2 JP 7340046B2
Authority
JP
Japan
Prior art keywords
feature vector
autonomous vehicle
vehicle
neural network
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022004009A
Other languages
English (en)
Other versions
JP2022048199A (ja
Inventor
カイチェン シュー
ホンギ ソン
チー ルオ
ウェイ ワン
ゼジュン リン
ウェスレー レイノルズ
フォン リュウ
ジャン トウ フウ
ジン ホー ミアオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2022048199A publication Critical patent/JP2022048199A/ja
Application granted granted Critical
Publication of JP7340046B2 publication Critical patent/JP7340046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • B60W60/0016Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/18Conjoint control of vehicle sub-units of different type or different function including control of braking systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0025Planning or execution of driving tasks specially adapted for specific operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0965Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages responding to signals from another vehicle, e.g. emergency vehicle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096766Systems involving transmission of highway information, e.g. weather, speed limits where the system is characterised by the origin of the information transmission
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/123Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams
    • G08G1/133Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams within the vehicle ; Indicators inside the vehicles or at stops
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0004In digital systems, e.g. discrete-time systems involving sampling
    • B60W2050/0005Processor details or data handling, e.g. memory registers or chip architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4041Position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4044Direction of movement, e.g. backwards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Automation & Control Theory (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Atmospheric Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Combustion & Propulsion (AREA)
  • Otolaryngology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Traffic Control Systems (AREA)

Description

本開示の実施形態は、全体的に、自律走行車の操作に関する。
より具体的に、本開示の実施形態は、緊急車両の検出のための複数のソースからのセンサーデータの融合に関する。
自律走行モード(例えば、無人運転)で動作する車両は、乗員、特にドライバーをいくつかの運転関連の義務から解放することができる。
自律走行モードで動作する場合、車両は、オンボードセンサーを使用して様々な場所に移動することができるため、人と機械との相互作用を最小限に抑える状況または乗客なしのいくつかの状況で車両を走行させることができる。
緊急車両(例えば、パトカー、消防車および救急車)が道路上にあることを検出した場合、ADVは、ローカルトラフィックルールに準拠するために適切な措置を講じる必要がある。
従って、ADVが走行する際には、ADV周囲環境で緊急車両を正確に検出することが不可欠であり、ADVを不必要に停止する必要はない。
検出制度を向上させる方法は、複数のソースからの情報(例えば、ADVのセンサーからの画像および音声)を使用して、単一のソースの不安定性を排除することである。
このような方法は、複数のソースからの情報を融合させる必要がある。
本出願の一つの態様は、自律走行車を操作するコンピューター実装の方法を提供し、
前記方法は、前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信し、
前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされ、
前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、
前記自律走行車の周囲環境からキャプチャされるステップと、
前記自律走行システムによって、キャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出するステップと、
前記自律走行システムによって、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとを連結して、連結特徴ベクトルを構築するステップと、及び前記連結特徴ベクトルに基づいて、第1のニューラルネットワークモデルを使用する前記自律走行システムによって、
前記自律走行車の周囲環境に緊急車両が存在することを決定するステップ、とを含み、
前記第1の特徴ベクトルを抽出するステップは、
第2のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第3の特徴ベクトルを抽出する、ステップであって、前記第3の特徴ベクトルは、基本的な音声特徴ベクトルである、ステップと、
第3のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第4の特徴ベクトルを抽出する、ステップであって、前記第4の特徴ベクトルは、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルである、ステップと、及び
前記第3の特徴ベクトルと前記第4の特徴ベクトルとを連結して単一の特徴ベクトルを形成するステップを含む。
本出願のもう一つの態様は、命令が格納された非一時的な機械可読媒体であって、
前記命令がプロセッサによって実行される場合、
前記プロセッサが自律走行車(ADV)を操作させる操作を実行し、
前記操作は、前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、
前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、
前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
前記自律走行システムがキャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出する、ことと、
前記自律走行システムが前記第1の特徴ベクトルと前記第2の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、
前記連結特徴ベクトルに基づいて、前記自律走行システムによって第1のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
前記第1の特徴ベクトルを抽出することは、
第2のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第3の特徴ベクトルを抽出する、ことであって、前記第3の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
第3のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第4の特徴ベクトルを抽出する、ことであって、前記第4の特徴ベクトルは、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルである、ことと、及び
前記第3の特徴ベクトルと前記第4の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、非一時的な機械可読媒体を提供する。
本出願のもう一つの態様は、プロセッサと、命令を格納するために前記プロセッサに接続され、
前記命令が前記プロセッサによって実行される場合、
前記プロセッサが自律走行車(ADV)を操作させる操作を実行するメモリと、を備えるデータ処理システムであって、
前記操作は、前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、
前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、
前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
前記自律走行システムがキャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出することと、
前記自律走行システムが前記第1の特徴ベクトルと前記第2の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、及び前記連結特徴ベクトルに基づいて、
前記自律走行システムによって第1のニューラルネットワークモデルを使用して、
前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
前記第1の特徴ベクトルを抽出することは、
第2のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第3の特徴ベクトルを抽出する、ことであって、前記第3の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
第3のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第4の特徴ベクトルを抽出する、ことであって、前記第4の特徴ベクトルは、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルである、ことと、及び
前記第3の特徴ベクトルと前記第4の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、データ処理システムを提供する。
本出願の一つの態様は、コンピュータープログラムであって、前記コンピュータープログラムがプロセッサにより実行されると、上記一つの態様の方法を実現させるコンピュータープログラムを提供する。
本開示の実施形態は、図面の各図に限定されるものではなく、例示として示され、図面の同じ参照番号は、同様の要素を示す。
一実施形態によるネットワーク化されたシステムを示すブロック図である。 一実施形態による自律走行車の例を示すブロック図である。 一実施形態による自律走行車で一緒に使用される感知および計画システムの例を示すブロック図である。 一実施形態による自律走行車で一緒に使用される感知および計画システムの例を示すブロック図である。 一実施形態による緊急車両検出システムの例を示す。 一実施形態による緊急車両検出システムをさらに示す。 一実施形態による緊急車両を検出するプロセスを示す。
以下で論じられる詳細を参照して、本開示の様々な実施形態および態様を説明し、添付の図面は、前記様々な実施形態を例示する。
以下の説明および図面は、本開示の説明であり、本開示を限定するものとして解釈されるべきでない。
多くの特定の詳細を説明して、本開示の様々な実施形態の全面的な理解を提供する。
しかしながら、場合によっては、本開示の実施形態の簡潔な議論を提供するために、周知のまたは従来の詳細を説明していない。
本明細書における「一実施形態」または「実施形態」への言及は、当該実施形態と組み合わせて説明される特定の特徴、構造または特性が、本開示の少なくとも一つの実施形態に含まれることを指す。
本明細書の様々な場所での「一実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。
様々な実施形態によれば、自律走行車(ADV)を操作するシステム、方法および媒体を説明する。
実施形態は、複数の機械学習モデルを使用して、それぞれ、ADVに取り付けられるセンサーによってキャプチャされた音声データおよび視覚データから特徴を抽出し、次にこれらの抽出された特徴を融合して、連結特徴ベクトルを構築する。
連結特徴ベクトルは、入力として多層パーセプトロン(MLP)に提供されて、周囲環境における緊急車両の存在に関連する検出結果を生成する。
ADVは、当該検出結果を使用して、ローカルトラフィックルールに準拠するための適切なアクションを実行することができる。
音声データおよび視覚データの決定レベルの融合(ポスト融合)と比較して、本開示の実施形態は、緊急車両をより正確に検出することができる。
一実施形態において、自律走行車(ADV)を操作する方法は、ADVの自律走行システム(ADS)で音声信号ストリームおよび画像フレームシーケンスを受信する。
ここで、音声信号ストリームは、ADVに取り付けられた一つまたは複数の音声キャプチャデバイスを使用して、ADVの周囲環境からキャプチャされ、画像フレームシーケンスは、ADVに取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、周囲環境からキャプチャされるステップと、ADSによって、キャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、およびキャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出するステップを含む。
当該方法は、ADSによって、第1の特徴ベクトルと第2の特徴ベクトルとを結合して、連結特徴ベクトルを構築するステップと、及び連結特徴ベクトルに基づいて、第1のニューラルネットワークモデルを使用するADSによって、ADVの周囲環境に緊急車両が存在することを決定するステップをさらに含む。
一実施形態において、第1のニューラルネットワークモデルは、多層パーセプトロン(MLP)ネットワークであり、緊急車両の位置をさらに出力し、緊急車両の移動方向を出力することができる。
ADVの位置を決定することに応答して、ADSは、緊急車両の位置および移動方向に基づいて、現在の走行車線からADVを操舵するか、またはADVをブレーキして減速することの少なくとも一つを含むADVを制御するステップをさらに含む。
一実施形態において、第1の特徴ベクトルを抽出するステップは、三つの異なるニューラルネットワークを使用して、キャプチャされた音声信号ストリームから三つの異なる特徴ベクトルを抽出することをさらに含む。
この三つの異なる特徴ベクトルは、基本的な音声特徴ベクトル、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルおよびMelヒストグラム特徴ベクトルである。
次に、この三つの異なる特徴ベクトルは、単一の音声特徴ベクトルに連結されることができ、当該音声特徴ベクトルは、処理するためにMLPに送ることができる。
本明細書に記載の実施形態は、実行可能なコンピュータープログラム命令が格納される非一時的な機械可読媒体を含むことができ、コンピュータープログラム命令が一つまたは複数のデータ処理システムによって実行される場合、当該実行可能なコンピュータープログラム命令は、一つまたは複数のデータ処理システムが、本明細書に記載の一つまたは複数の方法を実行することができるようにする。
当該命令は、フラッシュメモリまたは他の形式のメモリ等の不揮発性メモリに格納されることができる。
これらの実施形態は、システムの請求項として実行されることもできる。
上記の要約は、本開示におけるすべての実施形態の網羅的なリストを含まない。
すべてのシステムおよび方法は、本開示に説明される様々な態様および実施形態のすべての適切な組み合わせに従って実施されることができる。
自律走行車
図1は、本開示の一実施形態による自律走行ネットワーク構成を示すブロック図である。
図1を参照して、ネットワーク構成100は、ネットワーク102を介して、一つまたは複数のサーバー103~104に通信可能に接続されることができる自律走行車(ADV)101を含む。
一つのADVを示しているが、複数のADVは、ネットワーク102を介して互いに接続され、および/またはサーバー103~104に接続されることができる。
ネットワーク102は、任意のタイプのネットワーク、例えば、有線または無線のローカルエリアネットワーク(LAN)、インターネット等のワイドエリアネットワーク(WAN)、セルラーネットワーク、衛星ネットワークまたはその組み合わせであり得る。
サーバー103~104は、任意のタイプのサーバーまたはサーバークラスター、例えば、ネットワークまたはクラウドサーバー、アプリケーションサーバー、バックエンドサーバーまたはその組み合わせであり得る。
サーバー103~104は、データ分析サーバー、コンテンツサーバー、交通情報サーバー、地図および関心のあるポイント(MPOI)サーバーまたはロケーションサーバー等であり得る。
ADVとは、自律走行モードになるように構成できる車両を指し、当該自律走行モード下で、車両は、ドライバーからの入力がほとんどまたは全くない状態で環境内を移動する。
このようなADVは、センサーシステムを含むことができ、当該センサーシステムは、車両の動作環境に関連する情報を検出するように構成された一つまたは複数のセンサーを含むことができる。
当該車両およびそれに関連するコントローラーは、検出された情報を使用して当該環境内を移動する。
ADV101は、手動モード下で、全自律走行モード下でまたは部分的自律走行モード下で動作することができる。
一実施形態において、ADV101は、自律走行システム(ADS)110、車両制御システム111、無線通信システム112、ユーザインターフェースシステム113、およびセンサーシステム115を含むが、これらに限定されない。
ADV101は、エンジン、ホイール、ステアリングホイール、トランスミッション等の、普通の車両に含まれるいくつかの一般的なコンポーネントをさらに含むことができ、当該コンポーネントは、加速信号またはコマンド、減速信号またはコマンド、ステアリング信号またはコマンド、ブレーキ信号またはコマンド等の様々な通信信号および/またはコマンドを使用して、車両制御システム111および/またはADS110によって制御されることができる。
コンポーネント110~115は、相互接続、バス、ネットワークまたはその組み合わせを介して互いに通信可能に接続される。
例えば、コンポーネント110~115は、コントローラーローカルエリアネットワーク(CAN)バスを介して互いに通信可能に接続されることができる。
CANバスは、ホストなしのアプリケーションでマイクロコントローラーおよびデバイスが相互に通信できるように設計された車両バス規格である。
これは、元々自動車の電気配線を多重化するために設計されたメッセージベースのプロトコルであるが、他の多くの環境でも使用される。
ここで図2を参照すると、一実施形態において、センサーシステム115は、一つまたは複数のカメラ211、全地球測位システム(GPS)ユニット212、慣性測定ユニット(IMU)213、レーダーユニット214および光検出および測距(LIDAR)ユニット215を含むが、これらに限定されない。
GPSシステム212は、ADVの位置に関する情報を提供するように操作可能なトランシーバを含むことができる。
IMUユニット213は、慣性加速度に基づいて、ADVの位置および向きの変化を感知することができる。
レーダーユニット214は、無線信号を使用して、ADVのローカル環境内のオブジェクトを感知するシステムを表すことができる。
いくつかの実施形態において、オブジェクトを感知することに加えて、レーダーユニット214は、オブジェクトの速度および/または進行方向をさらに感知することができる。
LIDARユニット215は、レーザーを使用して、ADVが配置される環境内のオブジェクトを感知することができる。
他のシステムコンポーネントに加えて、LIDARユニット215は、一つまたは複数のレーザーソース、レーザースキャナーおよび一つまたは複数の検出器を含むことができる。
カメラ211は、ADV周囲環境の画像をキャプチャするための一つまたは複数のデバイスを含むことができる、スチルカメラおよび/またはビデオカメラである。
カメラは、例えば、カメラを回転および/または傾斜プラットフォームに取り付けることによって、機械的に移動可能であり得る。
センサーシステム115は、ソナーセンサー、赤外線センサー、ステアリングセンサー、スロットルセンサー、ブレーキセンサーおよび音声センサー(例えば、マイクロフォン)等の他のセンサーをさらに含むことができる。
音声センサーは、ADV周囲環境から音を収集するように構成されることができる。
ステアリングセンサーは、ステアリングホイール、車両のホイールまたはその組み合わせのステアリング角度を感知するように構成されることができる。
スロットルセンサーおよびブレーキセンサーは、それぞれ車両のスロットル位置およびブレーキ位置を感知する。
場合によっては、スロットルセンサーおよびブレーキセンサーは、統合されたスロットル/ブレーキセンサーとして統合されることができる。
一実施形態において、車両制御システム111は、ステアリングユニット201、スロットルユニット202(加速ユニットとも呼ばれる)およびブレーキユニット203を含むが、これらに限定されない。
ステアリングユニット201は、車両の方向または進行方向を調製するために使用される。スロットルユニット202は、モーターまたはエンジンの速度を制御するために使用され、モーターまたはエンジンの速度は、車両の速度および加速度を制御する。
ブレーキユニット203は、車両のホイールまたはタイヤを減速させるための摩擦を提供することによって車両を減速させる。
図2に示されるコンポーネントは、ハードウェア、ソフトウェアまたはその組み合わせで実装されることができることに留意したい。
図1に戻ると、無線通信システム112は、ADV101と例えばデバイス、センサー、他の車両等の外部システムとの間の通信を可能にする。
例えば、無線通信システム112は、一つまたは複数のデバイスと直接無線通信することができるか、またはネットワーク102を介してサーバー103~104と通信する等の通信ネットワークを介して無線通信を実行することができる。
無線通信システム112は、例えば、WiFiを使用して、任意のセルラー通信ネットワークまたは無線ローカルエリアネットワーク(WLAN)を使用して、別のコンポーネントまたはシステムと通信することができる。
無線通信システム112は、例えば、赤外線リンク、ブルートゥース(登録商標)等を使用して、デバイス(例えば、乗客のモバイルデバイス、ディスプレイデバイス、車両101内のスピーカー)と直接通信することができる。
ユーザインターフェースシステム113は、例えば、キーボード、タッチスクリーンディスプレイデバイス、マイクロフォンおよびスピーカー等を含む、車両101内に実装された周辺デバイスの一部であり得る。
ADV101の機能の一部または全部は、特に自律走行モード下で操作される場合、ADS110によって制御または管理されることができる。
ADS110は、必要なハードウェア(例えば、プロセッサ、メモリ、記憶装置)およびソフトウェア(例えば、オペレーティングシステム、計画およびルーティングプログラム)を含んで、センサーシステム115、制御システム111、無線通信システム112および/またはユーザインターフェースシステム113から情報を受信し、受信した情報を処理し、出発点から目的地までのルートまたはパス(path)を計画し、次に計画および制御情報に基づいて車両101を運転する。
代わりに、ADS110は、車両制御システム111と統合されることができる。
例えば、乗客としてのユーザは、例えば、ユーザインターフェースを介して、移動の開始場所および目的地を指定することができる。
ADS110は、移動関連データを取得する。
例えば、ADS110は、サーバー103~104の一部であり得るMPOIサーバーから位置およびルートデータを取得することができる。
ロケーションサーバーは、位置サービスを提供し、MPOIサーバーは、地図サービスおよび特定の位置のPOIを提供する。
代わりに、このような位置およびMPOI情報は、ADS110の永続記憶装置にローカルにキャッシュされることができる。
ADV101がルートに沿って移動する場合、ADS110も、交通情報システムまたはサーバー(TIS)からリアルタイムの交通情報を取得することができる。
サーバー103~104は、第三者のエンティティによって操作されることに留意されたい。
代わりに、サーバー103~104の機能は、ADS110と統合されることができる。
リアルタイムの交通情報、MPOI情報および位置情報ならびにセンサーシステム115によって検出または感知されたリアルタイムのローカル環境データ(例えば、障害物、オブジェクト、感知の車両)に基づいて、ADS110は、最適なルートを計画し、かつ計画されたルートに従って、例えば、制御システム111を介して車両101を運転して、指定された目的地に安全かつ効率的に到達することができる。
サーバー103は、様々なクライアントのためにデータ分析サービスを実行するためのデータ分析システムであり得る。
一実施形態において、データ分析システム103は、データコレクタ121および機械学習エンジン122を含む。
データコレクタ121は、様々な車両(ADVまたは人間ドライバーによって運転される従来の車両)から走行統計データ123を収集する。
走行統計データ123は、発光された運転指示(例えば、スロットル、ブレーキ、ステアリングコマンド)および異なる時点での車両のセンサーによってキャッチャされた車両の応答(例えば、速度、加速、減速、方向)を示す情報を含む。
走行統計データ123は、異なる時点での運転環境を説明する情報、例えば、ルート(開始場所および目的位置を含む)、MPOI、道路状況、気象状況等をさらに含むことができる。
走行統計データ123に基づいて、機械学習エンジン122は、様々な目的のために、一組の規則、アルゴリズムおよび/または予測モデル124を生成または訓練する。
次に、アルゴリズム124にADVにロードして、自律走行プロセス中にリアルタイムで使用することができる。
図3Aおよび図3Bは、一実施形態によるADVと一緒に使用される自律走行システムの例を示すブロック図である。
システム300は、図1のADV101の一部として実装することができ、ADS110、制御システム111およびセンサーシステム115を含むが、これらに限定されない。
図3A~図3Bを参照すると、ADS110は、測位モジュール301、感知モジュール302、予測モジュール303、決定モジュール304、計画モジュール305、制御モジュール306、およびルーティングモジュール307を含むが、これらに限定されない。
モジュール301~307の一部または全部は、ソフトウェア、ハードウェアまたはその組み合わせで実装されることができる。
例えば、これらのモジュールは、永続記憶装置352にインストールされ、メモリ351にロードされ、一つまたは複数のプロセッサ(図示せず)によって実行されることができる。
これらのモジュールの一部または全部は、図2の車両制御システム111の一部または全部のモジュールに通信可能に結合または統合されることができることに留意したい。
モジュール301~307のいくつかは、統合モジュールとして一緒に統合されることができる。
測位モジュール301は、ADV300の現在位置を決定し(例えば、GPSユニット212を使用して)、ユーザの移動またはルートに関連する任意のデータを管理する。
測位モジュール301(地図およびルートモジュールとも呼ばれる)は、ユーザの移動またはルートに関連する任意のデータを管理する。
ユーザは、例えば、ユーザインターフェースを介してログインし、かつ移動の開始場所および目的地を指定することができる。
測位モジュール301は、地図およびルートデータ311等のADV300の他のコンポーネントと通信して、移動関連データを取得する。
例えば、測位モジュール301は、ロケーションサーバーおよび地図ならびにPOI(MPOI)サーバーから位置およびルートデータを取得することができる。
ロケーションサーバーは、位置サービスを提供し、MPOIサーバーは、地図サービスおよび特定の位置のPOIを提供することにより、地図およびルートデータ311の一部としてキャッシュされることができる。
ADV300がルートを沿って移動する場合、測位モジュール301も、交通情報システムまたはサーバーからリアルタイムの交通情報を取得することができる。
センサーシステム115によって提供されるセンサーデータおよび測位モジュール301によって取得される定位情報に基づいて、感知モジュール302は、周囲環境に関する感知を決定する。
感知情報は、ドライバーが運転している車両の周囲で通常のドライバーが感知するであろうものを表すことができる。
感知は、車線構成、信号機、別の車両の相対位置、歩行者、建物、横断歩道またはその他の交通関連標識(例えば、一時停止標識、降伏標識)等を、例えばオブジェクトの形態で含むことができる。
車線構成は、例えば、車線の形状(例えば、直線または曲線)、車線の幅、道路の車線数、一方向または双方向の車線、結合または分割された車線、出口車線等の、一つまたは複数の車線を説明する情報が含む。
感知モジュール302は、コンピューター視覚システムまたはコンピューター視覚システムの機能を含んで、一つまたは複数のカメラによって収集された画像を処理および分析することにより、ADV環境内のオブジェクトおよび/または特徴を識別することができる。
オブジェクトは、信号機、道路の境界、他の車両、歩行者および/または障害物等を含むことができる。
コンピューター視覚システムは、オブジェクト認識アルゴリズム、ビデオトラッキングおよび他のコンピューター視覚技術を使用することができる。
いくつかの実施形態において、コンピューター視覚システムは、地図をマッピングし、オブジェクトを追跡し、オブジェクトの速度等をステイすることができる。
感知モジュール302も、レーダーおよび/またはLIDAR等の他のセンサーによって提供される他のセンサーデータに基づいて、オブジェクトを検出することができる。
感知モジュール302は、緊急車両検出モジュール308を含むことができ、緊急車両検出モジュール308は、音声データおよび視覚データの両方を使用して、ADVの周囲環境における緊急車両の存在を検出することができる。
各オブジェクトについて、予測モジュール303は、このような状況でオブジェクトがどのように動作するかを予測する。
予測は、感知データに基づいて実行され、当該感知データは、一組の地図/ルートデータ311およびトラフィックルール312が考慮される時点での運転環境を感知する。
例えば、オブジェクトが反対方向の車両であり、かつ現在の運転環境が交差点を含む場合、予測モジュール303は、車両が直進するか方向転換するかを予測する。
感知データが交差点に信号機がないことを示す場合、予測モジュール303は、車両が交差点に入る前に完全に停止する必要があるかもしれないと予測することができる。
感知データが、車両が現在左折または右折の唯一の車線にあることを示す場合、予測モジュール303は、車両がそれぞれ左または右に曲がる可能性が高いと予測することができる。
各オブジェクトについて、決定モジュール304は、オブジェクトをどのように処分するかについて决定を下す。
例えば、特定のオブジェクト(例えば、横断ルートないの別の車両)およびオブジェクトを説明するメタデータ(例えば、速度、方向、回転角度)に基づいて、決定モジュール304は、当該オブジェクトをどのように遭遇させるか(例えば、追い越し、降伏、停止、通過)を決定する。
決定モジュール304は、永続記憶装置352に格納されることができるトラフィックルールまたは運転規則312等の一連の規則に従ってそのような決定を行うことができる。
永続記憶装置352は、プロファイルテーブル313を含んでもよい。
ルーティングモジュール307は、出発点から目的地までの一つまたは複数のルートまたはパス(path)を提供するように構成される。
開始場所から目的位置までの所定の移動、例えば、ユーザから受信した所定の移動について、ルーティングモジュール307は、ルートおよび地図データ311を取得し、かつ開始場所から目的位置までのすべての可能なルートまたはパス(path)を決定する。
ルーティングモジュール307は、開始場所から目的位置までの各ルートを決定する地形図の形で基準線を生成することができる。
基準線とは、他の車両、障害物または交通状況からの干渉のない理想的なルートまたはパス(path)を指す。
即ち、道路上に他の車両、歩行者または障害物がない場合、ADVは、基準線に正確にまたは厳密に従う必要がある。
次に、地形図が決定モジュール304および/または計画モジュール305に提供される。
決定モジュール304および/または計画モジュール305は、すべての可能なルートをチェックして、他のモジュールによって提供される他のデータに基づいて最良のルートの一つを選択および変更し、ここで、他のデータは、例えば、測位モジュール301の交通状況、感知モジュール302によって感知された運転環境および予測モジュール303によって予測された交通状況である。
その時点での特定の運転環境に応じて、制御ADVを制御するために使用される実際のパス(path)またはルートは、ルーティングモジュール307によって提供される基準線に近いか、または異なる可能性がある。
感知されたオブジェクトのそれぞれの決定に基づいて、計画モジュール305は、ルーティングモジュール307によって提供される基準線を基礎として使用して、ADVをためにパス(path)またはルートまたは軌跡、および運転パラメーター(例えば、距離、速度および/または回転角度)を計画する。
言い換えれば、所定のオブジェクトについて、決定モジュール304は、当該オブジェクトをどうするかを決定し、計画モジュール305は、それをどのように行うことを決定する。
例えば、所定のオブジェクトについて、決定モジュール304は、当該オブジェクトを超えることを決定することができ、計画モジュール305は、当該オブジェクトの左側または右側のどちらを越えるかを決定することができる。
計画および制御データは、計画モジュール305によって生成され、車両300が次の移動サイクル(例えば、次のルート/パス(path)区間)でどのように移動するかを説明する情報を含む。
例えば、計画および制御データは、車両300に時速30マイル(mph)で10メートルを移動し、次に時速25マイルで右車線に変更するように指示することができる。
計画および制御データに基づいて、制御モジュール306は、計画および制御データによって限定された軌道(ルートまたはパス(path)とも呼ばれる)に従って、適切なコマンドまたは信号をCANバスモジュール321を介して車両制御システム111に送信することによって、ADVを制御および運転する。
計画および制御データは、十分な情報を含む。
パス(path)またはルートに沿ったまま様々な時点で適切な車両設定または運転パラメーター(例えば、スロットル、ブレーキ、ステアリングコマンド)を使用して、車両をルートまたはパス(path)の第1のポイントから第2のポイントまで運転する。
一実施形態において、計画フェーズは、複数の計画サイクル(運転サイクルとも呼ばれる)、例えば、100ミリ秒(ms)の時間間隔のサイクルで実行される。
計画サイクルまたは運転サイクルごとに、計画および制御データに基づいて一つまたは複数の制御コマンドが発行される。
即ち、100msごとに、計画モジュール305は、例えば、ターゲット位置およびADVがターゲット位置に到達するのに必要な時間を含む、次の一つのルート区間またはパス(path)区間を計画する。
代わりに、計画モジュール305は、具体的な速度、方向および/またはステアリング角等を指定することができる。
一実施形態において、計画モジュール305は、次の所定の期間(例えば、5秒)の間、ルート区間またはパス(path)区間を計画する。
各計画期間について、計画モジュール305は、前のサイクルに計画されたターゲット位置に基づいて、現在の期間(例えば、次の5秒)のターゲット位置を計画する。
次に、制御モジュール306は、現在のサイクルの計画および制御データに基づいて、一つまたは複数の制御コマンド(例えば、スロットル、ブレーキ、ステアリング制御コマンド)を生成する。
決定モジュール304および計画モジュール305は、統合されたモジュールに統合されることができることに留意したい。
決定モジュール304/計画モジュール305は、ナビゲーションシステムまたはナビゲーションシステムの機能を含んで、ADVの運転パス(path)を確定することができる。
例えば、ナビゲーションシステムは、次のパス(path)に沿ったADVの動きに影響を与えるために使用される一連の速度および進行方向を決定することができる。
当該パス(path)により、ADVは、基本的に感知される障害物を回避しながら、道路ベースのパス(path)に沿って最終目的地まで進むことができ、目的地は、ユーザインターフェースシステム113を介したユーザ入力に従って認定することができる。
ナビゲーションシステムは、ADVの実行中に運転パス(path)を動的に更新されることができ、ADV101の運転パス(path)を決定するために、GPSシステムからのデータと一つまたは複数の地図を組み込むことができる。
緊急車両の検出
図4は、一実施形態による緊急車両検出システム400の例を示す。
緊急車両検出モジュール308は、機能レベルで音声データおよび視覚データを融合することができる。
緊急車両検出モジュール308は、音声サブモジュール407および視覚サブモジュール409を含む。
音声サブモジュール407は、ADV101に取り付けられた音声センサー403によってADVの周囲環境からキャプチャされた音声データ404を受信し、音声データから音声特徴ベクトル411を抽出することができる。
視覚サブモジュール409は、視覚センサー405によってキャプチャされた視覚データ406を受信し、訓練されたニューラルネットワークモデル(例えば、畳み込みネットワーク(CNN))をキャプチャされた視覚データに適用して、視覚特徴ベクトル417を抽出することができる。
音声特徴ベクトル411および視覚特徴ベクトル417は、音声-視覚特徴ベクトル410に連結されることができ、音声-視覚特徴ベクトル410は、入力として多層パーセプトロン(MLP)419に供給することができる。
一実施形態において、音声センサー403(音声キャプチャデバイスとも呼ばれる)は、ADV101の異なる位置に取り付けられる複数のマイクロフォンを含むことができる。
マイクロフォンは、ADV上の固定された既知の位置でマイクロフォンアレイを形成することができ、マイクロフォンアレイは、ADV101の周囲の様々な方向の音を感知するように配置される。
視覚センサーまたは画像センサー405(画像キャプチャデバイスとも呼ばれる)は、ADV101上の異なる位置に取り付けられる複数のカメラを含むことができる。
音声センサー403および視覚センサー405は、それらが同期される同じオブジェクト(例えば、緊急車両)から音声信号および画像をキャプチャできるように校正することができる。
従って、任意の指定された運転サイクルにおいて、周囲環境からキャプチャされた音声信号ストリームおよび周囲環境からキャプチャされた画像フレームシーケンスを同期させることができる。
一実施形態において、音声サブモジュール407は、一つまたは複数の所定のアルゴリズムまたは一つまたは複数のニューラルネットワークモデルを実装するソフトウェアモジュールであり得る。
視覚サブモジュール409は、訓練されたニューラルネットワークモデル(例えば、畳み込みネットワーク(CNN))であり得る。
一実施形態において、音声サブモジュール407は、周囲環境からキャプチャされた音声信号ストリームを数値表現(即ち、数値アレイ)に変換することができる。
次に、音声サブモジュール407は、数値アレイを複数のブロックに分割して、画像フレームシーケンス内の画像フレームの数に一致させることができる。
異なる中小レベルの特徴を数値アレイのブロックから抽出して、音声特徴ベクトル411を形成することができる。
図5では、数値アレイから特徴を抽出する詳細について説明した。
一実施形態において、視覚サブモジュール409は、緊急車両識別のために訓練されたCNNモデルを使用して、視覚特徴を抽出することができる。
画像フレームシーケンスによって現れる視覚データは、入力として訓練されたCNNに供給されることができる。
各画像フレームは、CNNを介して順方向に伝播することができる。
しかしながら、画像フレームをCNNの各層を介して順方向に伝播して出力層に到達させる代わりに、CNNは、事前に指定された層(例えば、活性化またはプーリング層)で伝播を停止し、視覚特徴ベクトル417として事前に指定された層で値を抽出することができる。
CNNは、ADVが現在走行している特定の道路区間を走行した複数の緊急車両から收集されたか、または異なる道路区間を走行した緊急車両から収集された視覚データを使用して、訓練することができる。
一実施形態において、緊急車両検出モジュール308は、音声特徴ベクトル411と視覚特徴ベクトル417とを音声-視覚特徴ベクトル410に連結することができる。
二つの特徴ベクトル411と417とを連結するプロセスは、音声データと視覚データとの特徴レベルの融合を実行するプロセスである。
一実施形態において、二つの特徴ベクトル411と417とは、任意の変更を加えることなく、単一のベクトルに直接的に連結されることができる。
このような方法を介して、各ブロックからの音声特徴を、対応する画像フレームからの視覚特徴と連結することができる。
別の実装形態において、重み付き特徴レベル融合法が使用され、ここで、重み付き係数に従って、各特徴ベクトル411および417から特徴を選択することができる。
重み付き係数は、経験的に決定された信号対雑音比であり、様々な気象条件下で1日中の異なる時間に特定の道路区間の騒音レベルを測定するために使用されることができる。
当該比率は、ADV101が道路区間を走行している際の時間および天候に基づいてADV101によって自動的に調整されることができる。
一実施形態において、周囲環境が騒がしいほど、より多くの音声特徴を選択して、音声データからの低品質の情報を補償する必要がある。
別の方法は、訓練されたニューラルネットワークを使用して、この二つの特徴ベクトル411と417とを融合することであり、当該ニューラルネットワークは、どの特徴が音声特徴ベクトル411および視覚特徴ベクトル417から取得されて、連結された音声-視覚特徴ベクトル410を形成するかを決定することができる。
図4にさらに示されるように、MLP419は、連結された音声-視覚特徴ベクトル410を入力として受け取り、周囲環境における緊急車両の可能性を示す確率421、緊急車両の位置423および緊急車両の移動方向425を出力する。
一実施形態において、MLP419は、入力層と出力層との間に一つまたは複数の層を有するフィードフォワードニューラルネットワークであり得る。
MLP419において、データは、入力層から出力層に一方向に流れる。
MLP419は、バックプロパゲーション学習アルゴリズムを使用して訓練されることができる。
当該バックプロパゲーション学習アルゴリズムは、音声データおよび視覚データから抽出された連結視聴覚特徴を使用し、当該音声データおよび視覚データは、当該特定の道路区間またはまたは任意の道路区間を走行する複数の緊急車両から収集される。
一実施形態において、緊急車両の位置423は、緊急車両の方向および緊急車両からADV101までの距離によって測定される。
緊急車両の方向は、ADV101を表す線とADV101から緊急車両まで伸びる線との間の角度によって表すことができる。
ADV101を表す線は、ADV101の走行方向に沿ってADV101を通過する線であり得る。
緊急車両の移動方向425は、緊急車両がADV101に向かって移動しているか、またはADV101から離れて移動しているかを示す。
一実施形態において、緊急車両検出モジュール308からの出力情報は、自律走行システム110によって使用されて、CANバスモジュール321を介して車両制御システム111に送信されるコマンドまたは信号を生成することができる。
当該コマンドまたは信号に基づいて、車両制御システム111は、適切なアクションを取るようにADV101を制御することができる。
一実施形態において、緊急車両がADV101に向かって移動していることに応答して、ADV101は、現在の走行車線またはブレーキを誘導して減速するか、または道路の脇に誘導することができる。
緊急車両がADV101から離れると、ADV101は、邪魔されることなく、現在のパス(path)に沿って移動し続けることができる。
図5は、一実施形態による緊急車両検出システム400をさらに示す。
より具体的には、図5は、音声サブモジュール407を詳細に示す。
一実施形態において、音声サブモジュール407は、異なるレベルの音声特徴を抽出するための複数の機械学習モデルを含むことができる。
ニューラルネットワークモデル(例えば、CNN)503は、音声センサー403によってキャプチャされた生の音声データから音声信号509を抽出することに使用されることができる。
上記のように、音声センサー403によってキャプチャされた音声信号ストリームは、数値アレイに変換されることができ、次に、視覚センサー405によってキャプチャされた画像フレームシーケンスにおける画像フレームの数に等しいブロック(ウィンドウ)に分割されることができる。
抽出された音声信号509は、特徴(例えば、音声信号の各ウィンドウ(ブロック)の周波数、振幅およびフレーズ)を含むベクトルであり得る。
一実施形態において、Mel周波数ケプストラム係数(MFCC)特徴抽出器505は、音声センサー403によってキャプチャされた生の音声データからMFCC特徴511を抽出することができる。
抽出されたMFCC特徴511は、特徴ベクトルである。
MFCC特徴抽出器505は、訓練されたニューラルネットワークモデルまたはMFCC抽出アルゴリズムを実装するソフトウェアアプリケーションであり得る。
一実施形態において、当該アルゴリズムは、音声データ内の音声信号のウィンドウ処理、離散フーリエ変換(DFT)の適用、マグニチュードの対数の取得、およびMel尺度での周波数の変換等の、音声データからMFCC特徴を抽出する操作を実行することができ、続いて逆DCTを適用する。
Melスペクトログラム抽出器507は、音声センサー403によってキャプチャされた生の音声データからMelスペクトログラム特徴515を抽出することができる。
Melスペクトログラムは、周波数をMel尺度に変換されたスペクトログラムである。
スペクトログラムは、時間の経過に伴う信号周波数の周波数スペクトルを直感的に表したものである。
Melスペクトログラム抽出器507は、訓練されたニューラルネットワークモデルまたはMelスペクトログラム特徴抽出アルゴリズムを実装するソフトウェアアプリケーションであり得る。
抽出されたMelスペクトログラム特徴511は、特徴ベクトルであり得る。
一実施形態において、音声信号特徴ベクトル509、MFCC特徴ベクトル511およびMelスペクトログラム特徴ベクトル515は、一緒に連結されて、音声特徴ベクトル411を形成することができ、音声特徴ベクトル411は、視覚特徴ベクトル417とさらに連結されて、音声-視覚特徴ベクトル410を形成する。
一実施形態において、三つの特徴ベクトル509、511および515は、フレーム/ブロックレベルで同期され、これらのベクトルの連結は、特徴ベクトルを単一の特徴ベクトルに簡単に組み合わせることによって実行されることができる。
図6は、一実施形態による緊急車両を検出するプロセス600を示す。
プロセス600は、ソフトウェア、ハードウェアまたはその組み合わせを含み得る処理ロジックによって実行されることができる。
例えば、プロセス600は、図4に説明された自律走行システムによって実行されることができる。
図6に示されるように、操作601において、処理ロジックは、音声信号ストリームおよび画像フレームシーケンスを受信し、音声信号ストリームは、ADVの周囲環境からADVに取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされ、画像フレームシーケンスは、ADVに取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、周囲環境からキャプチャされる。
操作602において、処理ロジックは、キャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出する。
操作603において、処理ロジックは、第1の特徴ベクトルと第2のベクトルとを連結して、連結特徴ベクトル(concatenated feature vector)を構築する。
操作604において、処理ロジックは、連結特徴ベクトルに基づいて、第1のニューラルネットワークモデルを使用して、ADVの周囲環境に緊急車両が存在することを決定する。
上記に示され、説明されたコンポーネントの一部または全部は、ソフトウェア、ハードウェアまたはその組み合わせで実装されることができることに留意したい。
例えば、このようなコンポーネントは、永続記憶装置にインストールおよび保存されるソフトウェアとして実装されることができ、当該ソフトウェアは、プロセッサ(図示せず)によってメモリにロードされ、メモリ内で実行されて、本発明に記載のプロセスまたは操作を実装することができる。
代わりに、このようなコンポーネントは、専用ハードウェア(例えば、集積回路(例えば、特定用途向け集積回路またはASIC)、デジタルシグナルプロセッサ(DSP)またはフィールドプログラマブルゲートアレイ(FPGA))にプログラムまたは埋め込まれた実行可能なコードとして実装されルことができ、当該実行可能なコードは、アプリケーションから対応するドライバーおよび/またはオペレーティングシステムを介してアクセスすることができる。
さらに、このようなコンポーネントは、一つまたは複数の特定の命令を介してソフトウェアコンポーネントによってアクセス可能な命令セットの一部として、プロセッサまたはプロセッサコア内の特定のハードウェアロジックとして実装されることができる。
前述の詳細な説明の一部は、コンピューターメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現に基づいて提示される。
これらのアルゴリズムの説明および表現は、データ処理の分野の技術者が自分の仕事の本質をその分野の他の技術者に最も効果的につた出るために使用される方法である。
本明細書において、アルゴリズムは、通常、望ましい結果につながる自己無撞着な一連の操作であるとみなされる。
これらの操作は、物理量の物理的な操作を必要とする操作である。
しかしながら、これらおよび類似の用語のすべては、適切な物理量に関連付けられるべきであり、これらの量に適用される単なる便利なラベルであることに留意したい。
上記の議論から明らかな様に、特に別段の記載がない限り明細書全体において、用語(例えば、添付の特許請求の範囲に記載された用語)を使用する議論は、コンピューターシステムまたは同様の男子コンピューティングデバイスのアクションおよび処理を指す。
前記コンピューターシステムまたは電子コンピューティングデバイスは、コンピューターシステムのレジスタおよびメモリ内の物理的(電子的)量としてあらわされるデータを操作し、コンピューターシステムメモリまたはレジスタまたは他のそのような情報記憶装置、送信またはディスプレイデバイス内の物理量として同様に表される他のデータに変換する。
本開示の実施形態は、本明細書の操作を実行するための装置にさらに関する。
このようなコンピュータープログラムは、非一時的なコンピューター可読媒体に保存される。
機械可読媒体は、機械(例えば、コンピューター)によって可読可能な形式で情報を格納するための任意のメカニズムを含む。
例えば、機械可読(例えば、コンピューター可読)媒体は、機械(例えば、コンピューター)可読記憶媒体(例えば、読み取り専用メモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス)を含む。
前述の図に説明されるプロセスまたは方法は、ハードウェア(例えば、回路、専用ロジック等)、ソフトウェア(例えば、非一時的なコンピューター可読媒体上に具現化される)または両方の組み合わせを含む、処理ロジックによって実行されることができる。
前記プロセスまたは方法は、いくつかの順次操作に関して上記で説明されたが、前記操作中のいくつかは、異なる順序で実行されることができ、さらにいくつかの操作は、順次ではなく並行して実行されることができる。
本開示の実施形態は、特定のプログラミング言語を参照して説明されていない。
本明細書に記載されるように、本開示の実施形態の教示を実施するために、様々なプログラミング言語を使用できる。
上記の明細書において、本開示の実施形態は、その特定の例示的な実施形態を参照して説明される。
以下の特許請求の範囲に記載されるように、本開示のより広い精神および範囲から逸脱することなく、それに様々な修正を加えることができることは明らかであろう。
従って、本明細書および図面は、限定的な意味ではなく例示的な意味で見なされるべきである。

Claims (20)

  1. 自律走行車を操作するためのコンピューター実装方法であって、
    前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ステップであって、前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ステップと、
    前記自律走行システムがキャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出するステップと、
    前記自律走行システムが前記第1の特徴ベクトルと前記第2の特徴ベクトルとを連結して、連結特徴ベクトルを構築するステップと、及び
    前記連結特徴ベクトルに基づいて、前記自律走行システムによって第1のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定するステップ、とを含み、
    前記第1の特徴ベクトルを抽出するステップは、
    第2のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第3の特徴ベクトルを抽出する、ステップであって、前記第3の特徴ベクトルは、基本的な音声特徴ベクトルである、ステップと、
    第3のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第4の特徴ベクトルを抽出する、ステップであって、前記第4の特徴ベクトルは、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルである、ステップと、及び
    前記第3の特徴ベクトルと前記第4の特徴ベクトルとを連結して単一の特徴ベクトルを形成するステップを含む、コンピューター実装方法。
  2. 前記第1のニューラルネットワークモデルは、多層パーセプトロン(MLP)ネットワークである
    請求項1に記載のコンピューター実装方法。
  3. 前記第1のニューラルネットワークモデルを使用して、前記緊急車両の位置および前記緊急車両の移動方向を決定するステップをさらに含む
    請求項1に記載のコンピューター実装方法。
  4. 前記自律走行車の周囲環境に緊急車両が存在するとの前記決定に応答して、前記緊急車両の前記位置および前記移動方向に基づいて、現在の走行車線から前記自律走行車を操舵するか、または前記自律走行車をブレーキして減速させることの少なくとも一つを含むように前記自律走行車を制御するステップをさらに含む
    請求項3に記載のコンピューター実装方法。
  5. 第4のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第5の特徴ベクトルを抽出する、ステップであって、前記第5の特徴ベクトルは、Melヒストグラムの特徴ベクトルである、ステップと、及び
    前記第3の特徴ベクトル、前記第4の特徴ベクトルおよび前記第5の特徴ベクトルを連結して前記単一の特徴ベクトルを形成するステップをさらに含む
    請求項に記載のコンピューター実装方法。
  6. 前記自律走行システムは、畳み込みニューラルネットワークを使用して前記第2の特徴ベクトルを抽出する
    請求項1に記載のコンピューター実装方法。
  7. 前記一つまたは複数の音声キャプチャデバイスは、一つまたは複数のマイクロフォンを含み、前記一つまたは複数の画像キャプチャデバイスは、一つまたは複数のカメラを含む
    請求項1に記載のコンピューター実装方法。
  8. 命令が格納された非一時的な機械可読媒体であって、
    前記命令がプロセッサによって実行される場合、前記プロセッサが自律走行車(ADV)を操作させる操作を実行し、
    前記操作は、
    前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
    前記自律走行システムがキャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出することと、
    前記自律走行システムが前記第1の特徴ベクトルと前記第2の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、及び
    前記連結特徴ベクトルに基づいて、前記自律走行システムによって第1のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
    前記第1の特徴ベクトルを抽出することは、
    第2のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第3の特徴ベクトルを抽出する、ことであって、前記第3の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
    第3のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第4の特徴ベクトルを抽出する、ことであって、前記第4の特徴ベクトルは、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルである、ことと、及び
    前記第3の特徴ベクトルと前記第4の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、非一時的な機械可読媒体。
  9. 前記第1のニューラルネットワークモデルは、多層パーセプトロン(MLP)ネットワークである
    請求項に記載の非一時的な機械可読媒体。
  10. 前記操作は、
    前記第1のニューラルネットワークモデルを使用して、前記緊急車両の位置および前記緊急車両の移動方向を決定することをさらに含む
    請求項に記載の非一時的な機械可読媒体。
  11. 前記操作は、
    前記自律走行車の周囲環境に緊急車両が存在するとの前記決定に応答して、前記緊急車両の前記位置および前記移動方向に基づいて、現在の走行車線から前記自律走行車を操舵するか、または前記自律走行車をブレーキして減速させることの少なくとも一つを含むように前記自律走行車を制御することをさらに含む
    請求項10に記載の非一時的な機械可読媒体。
  12. 前記操作は、
    第4のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第5の特徴ベクトルを抽出する、ことであって、前記第5の特徴ベクトルは、Melヒストグラムの特徴ベクトルである、ことと、及び
    記第3の特徴ベクトル、前記第4の特徴ベクトルおよび前記第5の特徴ベクトルを連結して前記単一の特徴ベクトルを形成することをさらに含む
    請求項に記載の非一時的な機械可読媒体。
  13. 前記自律走行システムは、畳み込みニューラルネットワークを使用して前記第2の特徴ベクトルを抽出する
    請求項に記載の非一時的な機械可読媒体。
  14. 前記一つまたは複数の音声キャプチャデバイスは、一つまたは複数のマイクロフォンを含み、前記一つまたは複数の画像キャプチャデバイスは、一つまたは複数のカメラを含む
    請求項に記載の非一時的な機械可読媒体。
  15. プロセッサと、
    命令を格納するために前記プロセッサに接続され、前記命令が前記プロセッサによって実行される場合、前記プロセッサが自律走行車(ADV)を操作させる操作を実行するメモリと、を備えるデータ処理システムであって、
    前記操作は、
    前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
    前記自律走行システムがキャプチャされた音声信号ストリームから第1の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第2の特徴ベクトルを抽出することと、
    前記自律走行システムが前記第1の特徴ベクトルと前記第2の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、及び
    前記連結特徴ベクトルに基づいて、前記自律走行システムによって第1のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
    前記第1の特徴ベクトルを抽出することは、
    第2のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第3の特徴ベクトルを抽出する、ことであって、前記第3の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
    第3のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第4の特徴ベクトルを抽出する、ことであって、前記第4の特徴ベクトルは、Mel周波数ケプストラム係数(MFCC)の特徴ベクトルである、ことと、及び
    前記第3の特徴ベクトルと前記第4の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、データ処理システム。
  16. 前記第1のニューラルネットワークモデルは、多層パーセプトロン(MLP)ネットワークである
    請求項15に記載のデータ処理システム。
  17. 前記操作は、
    前記第1のニューラルネットワークモデルを使用して、前記緊急車両の位置および前記緊急車両の移動方向を決定することをさらに含む
    請求項15に記載のデータ処理システム。
  18. 前記操作は、
    前記自律走行車の周囲環境に緊急車両が存在するとの前記決定に応答して、前記緊急車両の前記位置および前記移動方向に基づいて、現在の走行車線から前記自律走行車を操舵するか、または前記自律走行車をブレーキして減速させることの少なくとも一つを含むように前記自律走行車を制御することをさらに含む
    請求項17に記載のデータ処理システム。
  19. 前記操作は、
    第4のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第5の特徴ベクトルを抽出する、ことであって、前記第5の特徴ベクトルは、Melヒストグラムの特徴ベクトルである、ことと、及び
    前前記第3の特徴ベクトル、前記第4の特徴ベクトルおよび前記第5の特徴ベクトルを連結して前記単一の特徴ベクトルを形成することをさらに含む
    請求項15に記載のデータ処理システム。
  20. コンピュータープログラムであって、
    前記コンピュータープログラムがプロセッサにより実行されると、請求項1ないし請求項のいずれか一項に記載のコンピューター実装方法を実現させるコンピュータープログラム。
JP2022004009A 2021-01-14 2022-01-13 緊急車両の音声および視覚の検出を融合した機械学習モデル Active JP7340046B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/149,659 2021-01-14
US17/149,659 US11620903B2 (en) 2021-01-14 2021-01-14 Machine learning model to fuse emergency vehicle audio and visual detection

Publications (2)

Publication Number Publication Date
JP2022048199A JP2022048199A (ja) 2022-03-25
JP7340046B2 true JP7340046B2 (ja) 2023-09-06

Family

ID=78938063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022004009A Active JP7340046B2 (ja) 2021-01-14 2022-01-13 緊急車両の音声および視覚の検出を融合した機械学習モデル

Country Status (5)

Country Link
US (1) US11620903B2 (ja)
EP (1) EP3965066B1 (ja)
JP (1) JP7340046B2 (ja)
KR (1) KR20220058492A (ja)
CN (1) CN113799789A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3988417A1 (en) * 2020-10-23 2022-04-27 Tusimple, Inc. Safe driving operations of autonomous vehicles
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
EP4298547A1 (en) * 2021-05-21 2024-01-03 Google LLC Machine-learned language models which generate intermediate textual analysis in service of contextual text generation
US20230339394A1 (en) * 2022-04-22 2023-10-26 Velo.Ai, Inc Artificially intelligent mobility safety system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137756A1 (en) 2016-11-17 2018-05-17 Ford Global Technologies, Llc Detecting and responding to emergency vehicles in a roadway
JP2022096601A (ja) 2020-12-17 2022-06-29 インテル・コーポレーション 車両のオーディオ‐ビジュアルおよび協調的認識

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7245767B2 (en) * 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
US10394239B2 (en) * 2017-04-04 2019-08-27 At&T Intellectual Property I, L.P. Acoustic monitoring system
US10431082B2 (en) 2017-06-19 2019-10-01 GM Global Technology Operations LLC Systems and methods for emergency vehicle response in an autonomous vehicle
US10319228B2 (en) 2017-06-27 2019-06-11 Waymo Llc Detecting and responding to sirens
US10452923B2 (en) * 2017-11-28 2019-10-22 Visual Semantics, Inc. Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation
US20220150068A1 (en) * 2018-03-07 2022-05-12 Private Identity Llc System and methods for implementing private identity
US20220147602A1 (en) * 2018-03-07 2022-05-12 Private Identity Llc System and methods for implementing private identity
US20220147607A1 (en) * 2018-03-07 2022-05-12 Private Identity Llc System and methods for implementing private identity
US11282385B2 (en) * 2018-04-24 2022-03-22 Qualcomm Incorproated System and method of object-based navigation
WO2020073147A1 (en) * 2018-10-08 2020-04-16 Qualcomm Incorporated Vehicle entry detection
US20210358513A1 (en) * 2018-10-26 2021-11-18 Nec Corporation A source separation device, a method for a source separation device, and a non-transitory computer readable medium
US11379519B2 (en) * 2018-12-07 2022-07-05 Seoul National University R&Db Foundation Query response device and method
CN111401100B (zh) * 2018-12-28 2021-02-09 广州市百果园信息技术有限公司 视频质量评估方法、装置、设备及存储介质
WO2020163970A1 (en) * 2019-02-15 2020-08-20 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
WO2020256475A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
US11120566B2 (en) * 2019-06-28 2021-09-14 Baidu Usa Llc Determining vanishing points based on feature maps
US11635299B2 (en) * 2020-02-06 2023-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for scene-aware interaction
US20220292809A1 (en) * 2020-03-17 2022-09-15 Samsung Electronics Co., Ltd. Methods and systems for grouping of media based on similarities between features of the media
KR102437039B1 (ko) * 2020-07-02 2022-08-26 주식회사 딥브레인에이아이 영상 생성을 위한 학습 장치 및 방법
US20220093094A1 (en) * 2020-09-21 2022-03-24 Amazon Technologies, Inc. Dialog management for multiple users
US20220121868A1 (en) * 2020-10-16 2022-04-21 Pindrop Security, Inc. Audiovisual deepfake detection
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137756A1 (en) 2016-11-17 2018-05-17 Ford Global Technologies, Llc Detecting and responding to emergency vehicles in a roadway
JP2022096601A (ja) 2020-12-17 2022-06-29 インテル・コーポレーション 車両のオーディオ‐ビジュアルおよび協調的認識

Also Published As

Publication number Publication date
EP3965066A2 (en) 2022-03-09
EP3965066A3 (en) 2022-06-22
CN113799789A (zh) 2021-12-17
US11620903B2 (en) 2023-04-04
KR20220058492A (ko) 2022-05-09
US20220223037A1 (en) 2022-07-14
JP2022048199A (ja) 2022-03-25
EP3965066B1 (en) 2024-01-31

Similar Documents

Publication Publication Date Title
JP7340046B2 (ja) 緊急車両の音声および視覚の検出を融合した機械学習モデル
KR102607029B1 (ko) 긴급 차량의 오디오 및 시각적 검출의 사후 융합
US11372417B2 (en) Method for predicting exiting intersection of moving obstacles for autonomous driving vehicles
CN112793584B (zh) 紧急车辆音频检测
KR102599790B1 (ko) 자율 주행 차량을 이용하는 모델 트레이닝 및 온보드 검증을 위한 오디오 로깅
KR102359497B1 (ko) 단일 차량 동작용으로 설계된 자율 주행 시스템에 따른 차량 플래툰 구현
WO2021147070A1 (en) A feedback based real time steering calibration system
EP3998609A2 (en) Automatic audio data labelling utilizing autonomous driving vehicle
CN113442945A (zh) 用于自动驾驶车辆的使用反馈的增量式侧向控制系统
US11535277B2 (en) Dual buffer system to ensure a stable nudge for autonomous driving vehicles
KR102597917B1 (ko) 자율 주행 차량을 위한 음원 검출 및 위치 측정
CN113753071A (zh) 预防减速规划
US11453404B2 (en) Gear based vehicle load inference system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230523

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230825

R150 Certificate of patent or registration of utility model

Ref document number: 7340046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150