JP7032387B2

JP7032387B2 - 単眼動画データに基づく車両の挙動推定システム及び方法

Info

Publication number: JP7032387B2
Application number: JP2019512864A
Authority: JP
Inventors: レヴコヴァ・ルドミラ; バナジー・コイェル
Original assignee: Nauto Inc
Current assignee: Nauto Inc
Priority date: 2016-12-02
Filing date: 2017-12-01
Publication date: 2022-03-08
Anticipated expiration: 2037-12-01
Also published as: WO2018102697A1; EP3548353B1; US20180157918A1; US10068140B2; JP2020500759A; EP3548353A4; EP3548353A1

Description

本発明は、現在普及しているデュアルカメラ／ステレオ推定技術とは異なり、全体として、単一のカメラからの単眼動画データに基づく車両の挙動についての変数の推定に関する。

近年、人工知能（「ＡＩ」）の分野において、自動車への応用傾向が高まるとともに、改めて注目が集まってきている。しかしながら、適切なＡＩシステムを車両に統合する際の主な障害の１つは、そのような応用において必須の要件である、大量の生データをリアルタイムで分析及び処理に必要なハードウェアのコストと複雑さである。ビッグデータに関する巨大なニューラルネットワークのバックエンドトレーニングを容易にするためのＧＰＵ（画像処理装置の）技術に関して多くの進歩があったが、そのような高価で洗練されたハードウェアを車両内に設置することはまだ、商業的に実施可能となっていない。

しかしながら、既知のＡＩアプローチには依然として、特定の用途における実施を阻むいくつかの障害がある。畳み込みニューラルネットワーク（ＣＮＮ）の大成功にもかかわらず、自動車についてそのようなシステムを統合する際は、大量のデータポイント（例えば、１００万）からの学習への主な依存、長いトレーニング時間、計算コスト及び複雑さは、全て大きな経常経費である。これまで、挙動を推定するために使用されるＣＮＮは、ステレオフィードを使用するので、推定時間がかかり、計算上の負担及び一般的なコスト増大となる。１台ではなく２台のカメラを実装することも設計上の課題となるだろう。車両実装の場合ＧＰＵ（画像装置）が必要であると、さらに設計上の困難が生じるだろう。ＣＮＮジョブを実行する標準的なマシンであるＧＰＵは、自動車用の環境で大量の電力を消費する際に発生する熱のために複雑な冷却システムを要する。たとえば、１２ｋｇの単純なＩｎｔｅｌＲＯＳＰＣは３００Ｗの電力を消費し、車内での使用には、これだけで実現可能性のハードルは高い。

Ｋｏｎｄａｅｔａｌ．，Ｌｅａｒｎｉｎｇｔｏｅｎｃｏｄｅｍｏｔｉｏｎａｎｄｕｓｉｎｇｓｐａｔｉｏ－ｔｅｍｐｏｒａｌｓｙｎｃｈｒｏｎｙ，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ），２０１４

したがって、当技術分野では、はるかに高速の計算時間、低消費電力、低グレードのハードウェア上で動作し、商用車のコスト又は商用車の経常経費を押し上げない、はるかに単純でありながら同等又はより正確なシステムが必要とされている。

ここに開示され記載されているのは、時間及び空間に係る挙動の特徴を符号化（エンコード）することによって単眼動画データ（モノキュラービデオデータ）に基づいて車両の挙動を推定するための複数のシステム及び複数の方法である。一実施形態では、車両速度を推定するためのシステムは、車両に搭載され、単眼動画データを取り込むように構成されたカメラと、データ及びプロセッサ実行可能命令を格納するように構成されるメモリと、プロセッサ実行可能命令を実行するように構成されるプロセッサとを含む。一実施形態では、プロセッサは、車両の移動中にキャプチャされたプレトレーニング（事前学習）動画データをカメラから受信し、プレトレーニング動画データを使用して同期オートエンコーダの１つ又は複数のフィルタをトレーニングし、同期オートエンコーダからの訓練された１つ又は複数のフィルタをプレトレーニングする。

畳み込みニューラルネットワークのプレトレーニングに続いて、プロセッサは、車両が動いている間にカメラからリアルタイム動画データを受信し、リアルタイム動画データをプレトレーニングされた畳み込みニューラルネットワークに提供し、プレトレーニングされた畳み込みニューラルネットワークから推定車両挙動変数を受け取り、推定車両挙動変数を、車両のオーディオ／ビジュアルシステム及び運転者支援システムの少なくとも一方に出力する。

本発明の他の態様、特徴、及び技術は、本発明の例示的な実施形態の以下の説明から、当業者に、より明らかとなるであろう。

本発明の特徴、目的、及び利点は、全体を通して同様の参照符号がそれに対応して識別している図面とあわせることで、以下に記載される詳細な説明からより明らかになるであろう。

本発明の１つ又は複数の態様が実施されてもよい例示的な情報処理サブシステムを示すブロック図である。本発明の原理に従って実行される様々な操作の流れ図である。本発明に従って構成された畳み込みニューラルネットワークトレーニングアーキテクチャの一実施形態を表す図である。本発明の原理に従って、図１の情報処理サブシステムによって実行される様々な操作の別の流れ図である。

本発明の一態様は、単一のカメラによってキャプチャされたリアルタイム画像を使用して、速度などの車両の挙動を推定するための改良されたモデル化技法に重点を置いたシステム及び方法を提供することである。特定の実施形態では、リアルタイムカメラでキャプチャされた画像は、本明細書に記載の技術に従ってプレトレーニング（事前学習）された畳み込みニューラルネットワークによって分析される。車両の挙動を推定するために、本発明は、取り込まれた画像内の類似の同期的特徴を認識し、そのように認識された特徴に従って挙動を符号化（エンコード）するように構成される。次いで、符号化された挙動の特徴は、車両のエゴモーション／エゴ速度のような車両の挙動を推定する上で使用される。

本発明の別の態様は、車両の制御に使用するために、推定された車両の挙動に対応する変数を運転者又は運転者補助システムに出力することである。例えば、システムは、任意の所与の時点で、すなわち現在及び／又は近い将来に、車両が有する速度又は有すべき速度を予測する自律駆動システムの構成要素として特に有利であろう。そのようなシステムはまた、車両安定性制御サブシステムの一部として特に有利であろう。例えば、車両が道路の穴部を越えて走行すると、後輪スリップが発生し、車両の振動のために、ハードウェアセンサは車両の位置を特定することも正確な移動変数を提供することもできない。そのような場合、本発明は、例えば、車両のピッチ速度を推定し、そのような後輪スリップがいつ生じるかを検出し、運転者に警告することと、運転者に手動制御を引き継ぐように通知することとの、少なくとも一つのために使用されてもよい。代替として、運転者補助システムは、少なくとも部分的に車両の挙動変数に基づいて、ステアリングと、加速／減速操作との中の一つを実行するように構成されてもよい。

以下により詳細に記載されるように、本発明の特定の態様は、Ｋｏｎｄａらによって開発された同期オートエンコーダ（ＳＡＥ）モデル（非特許文献１）のような既知のモデリング技術を拡張し改良することに基づく。Ｋｏｎｄａらのモデルは、市場のほとんどの速度モデルと同様に、ステレオ又はマルチカメラモーションフィードに基づいているのに対し、本発明の一態様は、この概念をシングルカメラフィードに拡張することである。本発明の別の態様は、ＣａｆｆｅＮｅｔへの入力を操作することで、従来技術で使用されているものとは異なるとともに非自明な範囲において、ＣａｆｆｅＮｅｔモデルを使用することである。この別の態様は、現在の空間及び時間に係る（時空）タスクを調整するため新しい方法で、ＣａｆｆｅＮｅｔモデルを使用する。これらの技術革新は、処理メモリ要件を削減しながら、精度の向上とデータの処理速度の向上をもたらす。

本明細書に開示されているシステム及び方法の結果として、リソースに制約のある環境における新しい用途が今や実現可能である。そのようなリソース制約のある環境の１つは、自動車のデータ処理環境である。例えば、本明細書に開示された革新的なシステム及び方法は、Ｎｖｉｄｉａ製のＪｅｔｓｏｎＴＸ１又はＴＫ１、又はＱｕａｌｃｏｍｍ製のＳｎａｐｄｒａｇｏｎ８１０及び８２０プロセッサなどの、それほどパワフルでも高価でもないプラットフォーム上、約１５Ｈｚで高速ニューラルネットワークを実行できるようにする。これは、１５Ｈｚで実行するにははるかにパワフルなハードウェアが必要となる視覚オドメトリを実行するための既知の手段とは対照的である。たとえば、有名なＶＧＧアーキテクチャは、メモリに収まるものであれば、上記のハードウェア上で１Ｈｚ未満で動作する。近年高い評価を受けたアーキテクチャＲｅｓＮｅｔ－１５２／１０１も最大で３Ｈｚで動作するとみられる。

やはり、それほどパワフルでないハードウェアを使用して本発明が実施可能ということは、そのようなハードウェアは比較的安価で、適切な温度に維持するのが困難ではないので、車両への適用可能となったことを意味する。加えて、本発明は、非常に小さいメモリフットプリント（メモリの占有領域）（例えば４ＭＢ）で実施可能であり、これにより、複数装置への迅速な分配及び無線接続を介した更新を可能となり、これは今や、複数車両の集団への用途を同様に実行可能にする。ネットワークを介して、複数の自律走行車両全体への、モデル更新の実行はこれまで困難であったが、比較的小さなメモリフットプリントにより本発明は有利である。

本発明の１つ又は複数の態様を実施するように構成された１つの車両ベースのシステムを図１の簡略図に示す。図１に示すように、情報処理システム１００は、本発明の１つ又は複数の態様を実施するように構成されている。具体的には、システムは少なくとも１つのプロセッサ１０５を備え、これは上述のＪｅｔｓｏｎＴＸ１又はＴＫ１のような画像処理装置（「ＧＰＵ」）を備えてもよい。システムは、メモリ１１０、タッチスクリーンディスプレイ１１５、及びユーザ入力１２０を含み、それぞれバス１３５によって相互接続されている。システム１００はまた、ＧＰＳトランシーバ及び関連回路１２５と、カメラ１３０と、１つ又は複数の無線ネットワーク（図示せず）から無線周波数信号を送信及び受信する機能を実行する無線周波数インターフェース１４０とを備えてもよい。最後に、システムは音声出力を提供するためのスピーカ１４５を備えてもよい。システム１００は、車両情報処理の分野で一般的に知られている追加の構成要素（例えば、プロセッサ、メモリ、その他など）を備えてもよいことをさらに理解されたい。

ユーザ入力１２０に関しては、押しボタン式ダイヤルパッド、キーボードなどのキーパッドを使用して実施されるようにしてもよい。タッチスクリーンディスプレイ１１５は、ＬＣＤ（液晶型ディスプレイ）又は家庭用電子機器で一般的に使用される他の任意のタイプのディスプレイとしてもよい。ディスプレイ１１５は好ましくはタッチセンシティブである（接触に反応する）と、ディスプレイ１１５とユーザ入力１２０の一部であるという二重の機能を提供するだろう。好ましい実施形態では、情報処理サブシステム１００は車両に組み込まれてもよい。ディスプレイ１１５、ユーザ入力１２０、及びスピーカ１４５は、車両のオーディオ／ビジュアルシステムの少なくとも一部を構成してもよいことを理解されたい。

ついに、図１のシステム１００は、適応型クルーズコントロール（ＡＣＣ）、適応型ハイビームシステム、自動駐車システム、ナビゲーションシステム、自動車用暗視システム、死角モニタ、衝突回避システム、運転者眠気検出システム、運転者監視システム、距離ベース速度制御システム、車線逸脱警報システム、車線変更支援、その他などの中の一又は複数を包含し得る、運転者補助システム１５０を備える。

図２を参照して、本発明の１つ又は複数の態様を実施するためのプロセス２００について説明する。特定の実施形態では、プロセス２００は、ＧＰＵ１０５、メモリ１１０、及びカメラ１３０などのシステム１００の特定の構成要素を使用して実施するようにしてもよい。基本的な考え方は、ガボールフィルタ間のペアパターンの相違点又は類似点を符号化する。基本的に、トレーニングを受けたオートエンコーダは、入力を回復しようとしている間に複数のガボールフィルタパターンを学習する（教師なし学習）。このプロセスはトレーニング前のステップであり、トレーニング中又はテスト中にリアルタイムで繰り返されることはない。しかしながら、別のＣＮＮは、リアルタイムで車両速度を推定できるようにこれらの生成された特徴フィルタでトレーニングされる。

このように、本発明の一態様は、アルゴリズム又は速度の精度が、ラベル付けされていないキャプチャされた動画データによって低下しないようにしながら、モノカメラフィードを使用することにある。そのために、ブロック２１０は、車両（例えば、車両の正面）に取り付けられた単一カメラ（単眼カメラ）を用いて動画トレーニングデータを取り込むことからプロセスを開始し、車両が様々な設定（例えば、高速道路、脇道、都会の環境、その他など）を任意の速度の範囲（例えば、０から７０ｍｐｈ（約１１３ｋｍ毎時））で走行する間、画像が取り込まれる。キャプチャされた動画フィードは、ブロック２２０で前処理されてもよく、それは以下にさらに記載する。前処理の後、取り込まれたトレーニング動画データはＳＡＥに提供されてもよく、学習されたガボールフィルタを生成するためのプレトレーニング（事前学習）プロセス（ブロック２３０）として使用されてもよい。その後、多層畳み込みニューラルネットワーク（ＣＮＮ）の第１の層は、ＳＡＥ生成重みを使用して初期化され得る（ブロック２４０）。特定の実施形態では、ＣＮＮはＮ層のＣＮＮであってもよく、このＮは使用ケースの複雑さに基づいて必要とされるのと同じ数の層に拡張可能であるとする。ＣＮＮをトレーニングするために他のアーキテクチャ（例えば、ＣａｆｆｅＮｅｔ）を使用してもよいことをさらに理解されたい。

ブロック２２０の前処理動作は、ＳＡＥプレトレーニングプロセスに使用されるデータをＺＣＡ白色化することを含む。そのようなＺＣＡ白色化前処理は、いくつかの数の時間的に連続したフレームのシーケンスにおいて元のフレームからクロップを取った後に実行されるようにしてもよい。一般的には、隣接する画素値は高度に相関しているので、画像入力値の生データは冗長である。ＺＣＡ白色化の結果として、本発明者らは、この冗長性の低減を達成し、これにより結果として生じる特徴は、相関性はより低く、同じ分散を有することになる。例として、大きさが１６×１６×５ピクセルの２５６個のフィルタをトレーニングするようにしてもよく、ここで寸法は空間方向と時間方向の両方に及ぶものとする。他の実施形態では、前処理は、データの（ＺＣＡ白色化なしで）バッチ正規化を備えるものとしてもよい。ブロック２２０の前処理操作は、「ぼかしパターン」を作成するためにいくつかの数の入力フレームの平均化をさらに備えてもよいことをさらに理解されたい。これらのパターンは、オブジェクトの速度とカメラからの距離に応じて、表示されるフレーム数を足し合わせると多少ぼやけて見えるため、挙動をエンコードするための新規な方法である。そのような平均化された画像のうちの１つ又は複数がＣＮＮに与えられると、入力フレームのぼけの程度を評価することによって移動中の車の速度を推定するようにトレーニング可能である。

動画ストリーム内の画像の空間的要素と時間的要素との間の橋渡しをマッピングするためには、同じ挙動についての複数の特徴間の同期性の測定が極めて重要である。既存のＣＮＮモデルは、動画のステレオシーケンスを操作して深度マップを作成し、速度を決定する。しかしながら、特定の車両用途の場合のように単一のカメラフィードのみが利用可能である場合、発明者らは、ＳＡＥアプローチに加えてさらに改良し、それによって、２つ又はそれ以上の動画フィードからの通常のシーケンス間エンコーディングではなく、シーケンス内エンコーディングを行うように、第１のチャネルの複製を第２のチャネルとして提供する。これは、ガボールパターンをエンコードするためのプレトレーニングプロセスとして使用され、実際の試験段階には単一のフィードのみを使用する。

同期性を検出するための１つの既知の方法は、ディープ（深層）ネットワークにおいてフィルタを符号化するための唯一の許容可能なタイプのモジュールとして単に重み付け合計を使用するのではなく、フィルタ応答間の乗法的（「ゲーティング」）相互作用を可能にすることである。乗法的ゲーティングは、入力間のパターンの類似性を符号化するために使用できる。具体的には、特徴のセットが、両方の入力に少なくとも部分的に存在し、それら二つの特徴のセットが互いに識別されることと、区別されることとの少なくとも一方が可能である。両方の画像において同様に変換された特徴を検出するこの能力が、同期性（の検出）と呼ばれる。

同期オートエンコーダを使用する教師なし学習プロセスに関して、オートエンコーダは、例えば、入力Ｘを受け取り、それを隠された表現にマッピングする。

上記の式は、以下の式により変数化されている。

ここで、（数式）記号は通常の意味であるとする。

結果として得られる潜在表現Ｒは、入力空間の「再構成された」ベクトルＺ（次の数式の中で、文字の上に→が付いたＺ）にマッピングされる。

重み行列Ｗ’は、Ｗ’＝Ｗ^Ｔとなるように任意に制約可能であり、その場合、オートエンコーダは、転置行列を使うという。ネットワークは再構成誤差（ベクトルＸとベクトルＺの間の誤差）を最小にするようにトレーニングされる。デュアル入力チャネルＸ及びＹアーキテクチャという状況では、フィルタ応答は次のように定義される。

さらに、標準ノイズモデルで入力データが破損していて、オートエンコーダが部分可視の入力シーケンスから出力を再構築するように強制されているときに、ノイズ除去を使用してもよい。符号化は、シグモイド重み減衰とデュアルチャネルの乗法的ゲーティングの両方を使用する。

ここで、＊は要素単位の乗算を表す。

復号化側では、入力の再構成は次の式で与えられる。

引き続き図２の操作を参照すると、ＳＡＥモデルは、両方のチャネルが同一であり、トレーニングシーケンスからランダムにトリミングされた（例えば、１６×１６×５（スペース×スペース×時間））ピクセルの所与のサイズを有するローカル動画ブロックペアでトレーニングされてもよい。上記のように、トレーニングサンプルはＺＣＡ白色化されてもよい。次いで、所定数（例えば、２５６）のそのようなフィルタ対が、シーケンスデータからの教師なし学習を使用して挙動を符号化するために使用される。発明者側が知る限りでは、配列内パターンを符号化するためのこの研究は以前に行われたことがないので、モノカメラソリューションは市場で主流ではない。当社の技術革新は、これを研究するだけでなく、市場の他の重たいネットワークや既存のオフザシェルフよりも、検出速度を大幅に向上させて競争力のある結果を達成するようにネットワークを適応させる。再構成誤差を最小にするために、二乗誤差の標準和［１５］は次のように計算される。

ここで、出力ベクトルＸ（文字の上に→及び記号が付いたＸ）及び出力ベクトルＹ（文字の上に→及び記号が付いたＹ）はＳＡＥの再構成された出力であり、ＬはＬ２損失関数を表す。

重みは、トレーニングの初期段階では２５６から、高度な段階では１のバッチサイズまで、さまざまなバッチサイズ設定の確率勾配降下法で更新される。

エンコーダ内に乗法的相互作用が存在するため、再構成誤差は、他の入力が与えられたときに、一方の入力に条件付けられる。しかしながら、いったんフィルタがこの依存性を学習すると、本発明者らは、フィルタで初期化されたＣＮＮモデルが、例え第２のデータチャネルがなくてもパターンを正しく識別することを学習することを発見した。

図３は、本発明に従って構成された畳み込みニューラルネットワークトレーニングアーキテクチャの一実施形態の視覚表現の代表的なものである。単眼動画（モノキュラービデオ）フィードの状況において、発明者は、このアーキテクチャは、（ＳＡＥをトレーニングするときに使用された）デュアル入力チャネルを不要とすることがわかった。その理由は、デュアル入力チャネルを使わないことにより、（Ｋｏｎｄａらからの）デュアル入力チャンネルよりも、速度及び正確さの両方の点で優れる図３の単一チャネルネットワークという結果に至ったからである。

上述のように、ネットワークの第１の畳み込み層のフィルタは、ＳＡＥの教師なし学習から得られた特徴で初期化される。一例として、入力データはグレイスケールに変換され、ＣＮＮは、比較的高解像度の入力（例えば５００×３００ピクセル）及び比較的低解像度（１５０×１５０ピクセル）のいずれかを使用してトレーニングされる。トレーニングの初期段階中にサンプルのバッチ（例えば、２５６）のバッチ正規化を実行してもよい。そして特定の実施形態では、ゲーティング操作後のトランケートＲｅＬＵは、このＲｅＬＵがシグモイドに置換されてもよく、１のバッチサイズに切り替えられてもよいプラトーに損失が減少するまで、使用されてもよい。このように、ネットワークエラーを最小限に抑えるために、入力データをグローバルに正規化する。５ｍｐｈ（約８ｋｍ毎時）という低い二乗平均平方根誤差（ＲＭＳＥ）が達成され得る。

一般的に、バッチ正規化は、ディープニューラルネットワークをトレーニングするプロセス全体を加速するものである。ディープネットワークでは、入力層があり、その後にいくつかの隠れ層があり、最後に出力層がある。トレーニングのプロセスは、各層の出力が次の層に渡されることで構成されていて、トレーニングプロセスの速度低下を防ぐために、学習率と、運動量などの他の変数とを反復的に修正する必要がある。比較的高い学習率を維持し、トレーニングプロセスがより高速となることがわかったように、バッチ正規化の使用が好ましいとしてもよい。局所的応答正規化と共にバッチ正規化もまた、特定の実施形態において、改良された結果を得るため使用されてもよいことをさらに理解されたい。

ＺＣＡ白色化入力を使用してＳＡＥによって学習されたフィルタは、図３のアーキテクチャに示されるように、ＣＮＮの第１の層（複数のこともある）を初期化するために使用される。ＣＮＮの第１層の出力は、２つの入力チャネルからの局所的な挙動の複合表現として解釈可能である。ＣＮＮの残りの部分は、ローカル表現を所望のラベルに関連付ける（エゴモーション／エゴ速度における変化）。これはオドメトリと方向に容易に拡張可能である。図３は、車両エゴ速度の推定に関して最速かつ最も正確に実行したＣＮＮのアーキテクチャを示す。このアーキテクチャでは、車速度がそれぞれ既知の動画フレームでトレーニングされた。トレーニング中、ＣＮＮの各層は、その入力に対して特定の数値変換（多くの場合、これは重み行列による乗算である）を実行し、その出力を次の層に渡す。最後の層は、その出力を車の既知速度と比較し、速度予測と真値との間の不一致の大きさに関する情報を伝える。この違いの大きさに応じて、前の層は、この違いを最小化するために重みを調整する。このような順方向及び逆方向の情報の受け渡しは、所望の性能が達成されるまで数十万回以上繰り返される。ＣＮＮが完全にトレーニングされると、その通常の動作は、動画入力の往路通過のみで構成され、最後の層の出力は、予測車両エゴ速度である。

図４は、図１の情報処理サブシステム１００の１つ又は複数の構成要素、例えば、ＧＰＵ１０５、メモリ１１０、カメラ１３０によって実行される様々な操作の図を示す。具体的には、プロセス４００はブロック４１０で始まり、動いている車両に取り付けられた単眼カメラ（モノカメラ）（例えば、カメラ１３０）によってリアルタイム動画データが取り込まれる。ブロック４２０において、キャプチャされたリアルタイム動画データは、その後、図２のプロセス２００に従って従前にトレーニングされた畳み込みニューラルネットワークに提供されてもよい。

プロセス４００はその後ブロック４３０に進み、そこで、トレーニングされたＣＮＮによって、車両の挙動の変数（例えば、車両速度）が推定されるようにしてもよい。このＣＮＮのフィルタは、モーションブラー（動いている車両の撮像のぶれ）と連続するフレーム間の同期性を理解して符号化するために、いくつかの異なる近傍を動く車の連続パッチを使用してプレトレーニングされている。このことは、ＣＮＮによる、各フレーム又は一連のフレームに記録された速度の推論を支援する。速度の真値は、車のＩＭＵ（慣性計測装置）から提供される。一実施形態において、推定される車両挙動変数は車両速度であってもよく、他の実施形態において推定される車両挙動変数は、ピッチ速度及び一般的な視覚オドメトリ測定法を含んでもよい。

トレーニングされた畳み込みニューラルネットワークによって推定された車両挙動変数は、その後、ブロック４４０において、情報処理サブシステムによって、車両のオーディオ／ビジュアルコンポーネント／システム（例えば、ディスプレイ１１５、スピーカ１４５など）、あるいは車両の運転者支援システム（例えば、運転者支援システム１５０）に出力されるようにしてもよい。上述のように、例えば、複数の環境要因が典型的なセンサ類の不正確さを招くようなとき、車両挙動変数は、任意の瞬間における車両速度がいくつであるのか／あるべきかを予測する自律駆動システムと、車両安定性制御サブシステムとの少なくとも一方に、提供されるようにしてもよい。代替として、運転者支援システムは、少なくとも部分的に車両挙動変数に基づいて、ステアリングと、加速／減速操作のうちの一方を少なくとも部分的に実行するように構成されるようにしてもよい。一実施形態では、このケースは、くぼみ又は他の路面障害を通過するときの車輪の機械的滑りを検出することによって行われる。このようなとき、衝撃のため、センサは一時的に正しく機能しなくなる。しかしながら、それは、サイレントエラー（検知できないエラー）と、誤検出と、車の誤作動との結果となる使えないデータを出力する。本発明の方法は、後輪スリップの発生イベントを正確に検出し、ＡＤＡＳを介して警告を送信するために実装される。全６度（前後、上下、左右）の挙動を検出するため別の利用ケースは、車を取り囲む全てのセンサの健全性チェックと、エゴローカリゼーション（自車位置推定）及びオドメトリマッピングのための挙動推定値の構築とのために検討されている。

本明細書で使用されるとき、用語「ａ」又は「ａｎ」は、１つ又は複数を意味するものとする。「複数」という用語は、２つ又は２つ以上を意味するものとする。「他の」という用語は、２番目又はそれ以降の番目として定義される。用語「含む」及び／又は「有する」は、オープンエンド（例えば、備える）の意味である。本明細書で使用される「又は」という用語は、包含的であると解釈されるか、又は任意の１つ又は任意の組合せを意味するものとする。したがって、「Ａ、Ｂ又はＣ」は、「Ａと、Ｂと、Ｃと、ＡＢと、ＡＣと、ＢＣと、ＡＢＣとの中のいずれか」を意味する。この定義の例外は、要素、機能、工程又は行為の組み合わせが何らかの意味で本質的に相互に排他的である場合にのみ生じるとする。

本明細書全体を通して「一実施形態」、「特定の実施形態」、「実施形態」、又は同様の用語は、その実施形態に関して説明した特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。これにより、このような句の出現又は本明細書全体にわたる様々な場所での出現は、必ずしも全てが同じ実施形態を参照しているわけではない。さらに、特定の特徴、構造、又は特性は、制限なしに任意の適切な方法で組み合わせてもよい。

コンピュータプログラミングの当業者の実務に従って、本発明を、コンピュータシステム又は同様の電子システムによって実行される動作を参照して以下に説明する。そのような操作はコンピュータ実行されているということがある。象徴的に表される動作は、データビットを表す電気信号の中央処理装置などのプロセッサによる操作と、システムメモリ内などのメモリ位置でのデータビットの維持とを含むことが理解されるであろう。シグナルの処理データビットが維持されるメモリ位置は、データビットに対応する特定の電気的、磁気的、光学的、又は有機的特性を有する物理的位置である。

ソフトウェアで実施されるとき、本発明の（複数の）要素は本質的に必要なタスクを実行するための（複数の）コードセグメントである。コードセグメントは、プロセッサ可読媒体に格納可能であり、コンピュータデータ信号によって送信可能である。「プロセッサ可読媒体」は、情報を記憶可能な任意の媒体を包含してもよい。プロセッサ可読媒体の例には、電子回路、半導体メモリ装置、ＲＯＭ、フラッシュメモリ又は他の不揮発性メモリ、フロッピー（登録商標）ディスケット、ＣＤ－ＲＯＭ、光ディスク、ハードディスクなどが包含される。

本発明を様々な実施形態に関連して説明したが、本発明はさらなる修正が可能であることを理解されたい。本出願は、一般に本発明の原理に従い、そして本発明に関連する技術の範囲内で公知で通常行われる範囲内にあるような本開示からの逸脱を含む、本発明のあらゆる変形、使用又は適合を網羅することを意図する。

１００情報処理システム
１０５プロセッサ
１１０メモリ
１１５ディスプレイ
１２０ユーザ入力
１２５ＧＰＳ
１３０カメラ
１３５バス
１４０送信機／受信機
１４５スピーカ
１５０運転者補助システム
２００プロセス
２１０トレーニング動画データをキャプチャする
２２０画像処理を行う
２３０オートエンコーダフィルタをトレーニングする
２４０畳み込みニューラルネットワークをトレーニングする
４００プロセス
４１０リアルタイム動画データをキャプチャする
４２０畳み込みニューラルネットワークにデータを提供する
４３０車両の挙動を推定する
４４０車両の挙動の情報を出力する

Claims

車両に搭載され、単眼動画データをキャプチャするカメラと、
データと、プロセッサ実行可能な命令とを格納するメモリと、
メモリに格納されてあるプロセッサ実行可能な命令を実行する、プロセッサと、
を備える、空間及び時間に係る挙動の特徴を符号化することにより、単眼動画データに基づいて車両速度を推定するシステムであって、
プロセッサは、
車両が動いている間にキャプチャされた、プレトレーニング動画データをカメラから受け取り、
プレトレーニング動画データを使用して、同期オートエンコーダの一つ又は複数のフィルタをトレーニングし、
ＺＣＡ白色化によってプレトレーニング動画データを前処理してから、同期オートエンコーダのトレーニングされた一つ又は複数のフィルタを使用して、畳み込みニューラルネットワークをプレトレーニングし、
プレトレーニングされた畳み込みニューラルネットワークに従い、
プロセッサはさらに、
車両が動いている間にリアルタイム動画データをカメラから受け取り、
リアルタイム動画データをプレトレーニングされた畳み込みニューラルネットワークに提供し、
プレトレーニングされた畳み込みニューラルネットワークから推定された車両挙動変数を受け取り、
推定された車両挙動変数を、車両の、音声と視覚との少なくとも一方のシステムと、運転者補助システムとの少なくとも一方に、出力する、
空間及び時間に係る挙動の特徴を符号化することにより、単眼動画データに基づいて車両速度を推定するシステム。
プロセッサは、同期オートエンコーダからのトレーニングされた１つ又は複数のフィルタを使用して、畳み込みニューラルネットワークの第１の層を初期化することによって畳み込みニューラルネットワークをプレトレーニングする、請求項１に記載のシステム。
畳み込みニューラルネットワークはさらに反復的にトレーニングされ、第１層の出力は畳み込みニューラルネットワークの次の層に渡され、対応する出力を畳み込みニューラルネットワークの別の層に渡す請求項２に記載のシステム。
プロセッサは、プレトレーニング動画データの第１のチャネルをトレーニング前動画データのプレトレーニング動画データの第２のチャネルとして複製し、プレトレーニング動画データの第１のチャネルと、プレトレーニング動画データの第２のチャネルとは、同期オートエンコーダの一つ又は複数のフィルタをトレーニングするために提供された、請求項１に記載のシステム。
前記車両挙動変数は、車両の速度を含む、請求項１に記載のシステム。
運転者補助システムは、少なくとも部分的に、前記推定された車両挙動変数に基づいて、ステアリングと、加速／減速操作との中の一つを実行する、請求項１に記載のシステム。
畳み込みニューラルネットワークをプレトレーニングすることを備える、空間及び時間に係る挙動の特徴を符号化することにより、単眼動画データに基づいて車両速度を推定する方法であって、
プレトレーニングは、
車両が動いている間にキャプチャされたプレトレーニング動画データを、車両に搭載された単眼カメラから受け取ることと、
プレトレーニング動画データを使用して、車両メモリに格納された同期オートエンコーダの一つ又は複数のフィルタをトレーニングすることと、
ＺＣＡ白色化によってプレトレーニング動画データを前処理してから、同期オートエンコーダのトレーニングされた一つ又は複数のフィルタを使用して、車両メモリに格納された畳み込みニューラルネットワークをプレトレーニングすることと、
を備え、
プレトレーニングされた畳み込みニューラルネットワークに従うことにおいて、さらに、車両が動いている間にリアルタイム動画データをカメラから受け取ることと、
リアルタイム動画データをプレトレーニングされた畳み込みニューラルネットワークに提供することと、
プレトレーニングされた畳み込みニューラルネットワークから推定された車両挙動変数を受け取ることと、
推定された車両挙動変数を、車両の、音声と視覚との少なくとも一方のシステムと、運転者補助システムとの少なくとも一方に、出力することと、
を備える、空間及び時間に係る挙動の特徴を符号化することにより、単眼動画データに基づいて車両速度を推定する方法。
畳み込みニューラルネットワークをプレトレーニングすることは、同期オートエンコーダからのトレーニングされた１つ又は複数のフィルタを使用して畳み込みニューラルネットワークの第１層を初期化することによって畳み込みニューラルネットワークをプレトレーニングすることを備える、請求項７に記載の方法。
プレトレーニング動画データの第１のチャネルを、プレトレーニング動画データの第２のチャネルとして複製することをさらに備え、プレトレーニング動画データの第１チャネルと、プレトレーニング動画データの第２のチャネルは、同期オートエンコーダの１つ又は複数のフィルタをトレーニングするために提供される、請求項７に記載の方法。
前記車両挙動変数が、車両の速度を含む、請求項７に記載の方法。
少なくとも部分的に前記推定された車両挙動変数に基づいて、ステアリングと、加速／減速操作との中の一つを車両の運転者補助システムによって実行することをさらに備える、請求項７に記載の方法。