JP7433496B1

JP7433496B1 - 車線識別方法、車線識別装置、電子デバイス、記憶媒体及びプログラム

Info

Publication number: JP7433496B1
Application number: JP2023050736A
Authority: JP
Inventors: ビンウー; カイチョン; トンビンチャン; ジャンチョンヤン; チェンルー; デグオシア; ジーチョウファン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-29
Filing date: 2023-03-28
Publication date: 2024-02-19
Anticipated expiration: 2043-03-28
Also published as: US20240071102A1; CN115147801A; CN115147801B; EP4332912A1; JP2024032640A; KR20240030966A

Abstract

【課題】車線識別方法、車線識別装置、電子デバイス、記憶媒体及びプログラムを提供する。【解決手段】本開示は、人工知能技術分野に関し、特にスマートモビリティ、自動運転、高精度地図、深層学習等の技術分野に関する。具体的な実現方法は、原画像の基本特徴を抽出することと、原画像の基本特徴を利用して、原画像における少なくとも１つの車線キーポイントを識別することと、少なくとも１つの車線キーポイントを利用して、原画像の基本特徴から局所特徴を抽出し、基本特徴と局所特徴とを融合することと、融合後の結果に基づいて、原画像における車線を識別することと、を含む。本開示によれば、車線識別の効果を向上することができる。【選択図】図２

Description

本開示は、人工知能技術分野に関し、特にスマートモビリティ、自動運転、高精度地図、深層学習等の技術分野に関する。

近年、人工知能技術の発展に伴い、高精度地図技術は徐々に画期的な進展を実現している。高精度地図において、車線の検出は、地図要素への認知のコア技術であり、高精度地図データの制作方向において極めて重要な役割を有する。深層学習に基づく車線検出方法が主流になりつつある。深層学習に基づく車線検出方法は、通常ではセマンティック分割、後処理車線抽出に基づく方法であり、その後処理プロセスが冗長であるため、車線識別の効果が低い。

本開示は、車線識別方法、車線識別装置、電子デバイス、記憶媒体及びプログラムを提供する。

本開示の１つの態様では、車線識別方法を提供し、当該方法は、
原画像の基本特徴を抽出することと、
原画像の基本特徴を利用して、原画像における少なくとも１つの車線キーポイントを識別することと、
少なくとも１つの車線キーポイントを利用して、原画像の基本特徴から局所特徴を抽出し、基本特徴と局所特徴とを融合することと、
融合後の結果に基づいて、原画像における車線を識別することと、を含む。

本開示のもう１つの様態では、車線識別装置を提供し、当該装置は、
原画像の基本特徴を抽出するためのメインモジュールと、
原画像の基本特徴を利用して、原画像における少なくとも１つの車線キーポイントを識別するためのキーポイント識別モジュールと、
少なくとも１つの車線キーポイントを利用して、原画像の基本特徴から局所特徴を抽出し、基本特徴と局所特徴とを融合するための抽出及び融合モジュールと、
融合後の結果に基づいて、原画像における車線を識別するための車線識別モジュールと、を備える。

本開示のもう１つの様態では、電子デバイスを提供し、当該電子デバイスは、
少なくとも１つのプロセッサと、
当該少なくとも１つのプロセッサと通信接続されるメモリと、を備え、
当該メモリには、当該少なくとも１つのプロセッサで実行可能な命令が記憶され、当該命令は、当該少なくとも１つのプロセッサによって実行されると、当該少なくとも１つのプロセッサに、本開示のいずれか１つの実施例の車線識別方法を実行させる。

本開示のもう１つの様態では、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、当該コンピュータ命令は、本開示のいずれか１つの実施例の車線識別方法をコンピュータに実行させる。

本開示のもう１つの様態では、プログラムを提供し、該プログラムは、コンピュータにおいて、プロセッサにより実行されると、本開示のいずれか１つの実施例の車線識別方法を実行させる。

本開示の車線識別方法によれば、原画像の基本特徴と局所特徴との融合結果に基づいて車線を識別することができるため、複雑な後処理プロセスを回避し、車線識別の効果を高めることができる。

ここに記載された内容は、本開示の実施例のキーポイント又は重要な特徴を記述することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して説明を促す。

添付図面は、本方案をより良く理解するためのものであり、本開示を限定するものではない。
従来のセマンティック分割、後処理に基づく車線識別方法を示す概略図である。本開示の一実施例による車線識別方法２００の実現フローチャートである。本開示の一実施例による局所特徴抽出方式を示す概略図である。本開示の一実施例による車線画素符号化を示す概略図である。本開示の一実施例による車線符号化情報を示す概略図である。本開示の一実施例による車線識別の全体枠組を示す概略図である。本開示の一実施例による車線識別装置７００の構成を示す概略図である。本開示の一実施例による車線識別装置８００の構成を示す概略図である。本開示の実施例を実現可能な例示的な電子デバイス９００の概略ブロック図である。

以下では、本開示の例示的な実施例を、理解を容易にするために本開示の実施例の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本開示の範囲及び精神を逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能及び構成については、明確化及び簡明化のために説明を省略する。

車線検出アルゴリズムは、従来の検出アルゴリズムと深層学習に基づく車線検出アルゴリズムとに大別されている。深層学習に基づく車線検出の主流である方式は、セマンティック分割、後処理車線抽出に基づくものであり、このような方式は、後処理プロセスが冗長であるため、車線識別の効果が低い。

図１は、従来のセマンティック分割、後処理に基づく車線識別方法を示す概略図である。図１に示すように、当該識別方式は、以下のステップを含む。

１．セマンティック分割アルゴリズムに基づいて、原画像に対して画素レベルの分割を行い、セマンティック分割図を得る。

２．セマンティック分割図に基づいて、車線輪郭を抽出する。

３．車線輪郭に基づいて、車線中心線を抽出する。

４．抽出した車線中心線に対して車線の集約を行い、１つの車線となるように同一方向の複数の車線を集約する。

５．集約後の車線に対してフィッティングを行い、滑らかな車線曲線となるように車線をフィッティングし、車線識別を完了する。

このように、上述の過程には複数の処理プロセスが含まれており、プロセスの冗長性により車線識別効果の低下を招くことが分かる。例えば、プロセスごとの精度が９０％の場合でも、理論的には最終的な車線識別の精度は約９０％×９０％×９０％×９０％×９０％＝５９％となる。このことから、直前のプロセスの識別誤差が後続のプロセスに蓄積されてしまい、また、従来のセマンティック分割、後処理に基づく車線識別方法には処理プロセスが多いため、従来の車線識別方法は車線識別効果が比較的低いということがわかる。

本開示の実施例では、冗長な後処理プロセスを排除し、車線識別の効果を向上させることができる車線識別方法を提案する。図２は、本開示の一実施例による車線識別方法２００の実現フローチャートであり、以下のステップを含む。

Ｓ２１０において、原画像の基本特徴を抽出する。

Ｓ２２０において、当該原画像の基本特徴を利用して、当該原画像における少なくとも１つの車線キーポイントを識別する。

Ｓ２３０において、当該少なくとも１つの車線キーポイントを利用して、当該原画像の基本特徴から局所特徴を抽出し、当該基本特徴と当該局所特徴とを融合する。

Ｓ２４０において、融合後の結果に基づいて、当該原画像における車線を識別する。

ここで、原画像は、交通シーンの画像であってもよく、例えば、車載撮像装置、スマートモビリティ撮像装置等により取得された映像データであってもよい。原画像は、静的画像、動的ビデオ画像、またはビデオ画像から抽出されたビデオフレームなど、様々な形態とすることができ、本開示の実施例では、原画像の形態や取得経路について制限しない。

ステップＳ２２０において、基本特徴を利用して識別された車線キーポイントは、車線の関連情報を初歩的に備えているが、基本特徴の表現力が弱いため、識別の効果が相対的に低い。本開示の実施例は、後続のステップにより、局所特徴と基本特徴とを融合し、融合した結果を利用して最終的に車線を識別する。局所特徴は、車線キーポイント付近の特徴情報を重点的に表しており、基本特徴は、原画像の全体情報を表しているため、融合後の結果は、原画像の全体情報を表すことができるとともに、車線キーポイント周辺の局所情報もよりよく表すことができる。そのため、融合後の結果を用いて車線を識別する効果がより良い。

上述の過程から分かるように、本開示の実施例で提案される車線識別方法は、入力が原画像であり、出力が完全な高精度車線であるエンドツーエンドの高精度な車線検出方法である。図１に示すような車線輪郭の抽出、車線中心線の抽出、車線の集約、車線のフィッティング等の多段階な処理方式に比べて、本開示の実施例では、煩雑で冗長な処理を回避し、車線識別の効果を高め、車線識別の精度及び再現率を向上させることができる。

本開示の実施例で提案の車線識別方法は、１つ以上のニューラルネットワークモデルまたはディープラーニングモデル（モデルと略す）を利用して実現することができる。

いくつかの実施形態では、本開示の実施例は、モデルのバックボーン（Ｂａｃｋｂｏｎｅ）ネットワークを用いて、原画像の基本特徴を抽出することができ、すなわち、上述のステップＳ２１０を実行することができる。例えば、車載カメラ、スマートモビリティ撮像装置などによって取得した原画像をニューラルネットワークモデルのＢａｃｋｂｏｎｅネットワークに入力し、ニューラルネットワークモデルのＢａｃｋｂｏｎｅネットワークから当該原画像の基本特徴を出力する。

Ｂａｃｋｂｏｎｅネットワークは、特徴抽出ネットワークを用いることができ、後続のネットワークで利用するために、画像中の情報を抽出する役割を果たすことができる。Ｂａｃｋｂｏｎｅネットワークは、深層残差ネットワーク（Ｄｅｅｐｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ，ＲｅｓＮｅｔ）、視覚幾何学グループ（ＶＧＧ，ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）ネットワークなどがよく用いられている。これらのネットワークは、画像分類、画像識別などの問題において特徴抽出能力が高いことが証明されている。本開示の実施例は、バックボーンネットワークとしてこれらのネットワークを使用する場合に、トレーニング済みモデルパラメータを直接ロードしてから、後続のネットワークに接続ことができる。トレーニングの過程において、ネットワークの全体に対して同期にトレーニングすることができる。

いくつかの実施形態では、本開示の実施例の、原画像の基本特徴を利用して、原画像における少なくとも１つの車線キーポイントを識別する（例えば、上述のステップＳ２２０）方法は、以下のステップを含む。

原画像の基本特徴を利用して、原画像の対応するキーポイント分布情報を決定し、ここで、キーポイント分布情報は、原画像における少なくとも１つの車線キーポイントを表すために用いられ、キーポイント分布情報には、各画素の種類が含まれる。

原画像におけるキーポイント分布情報を決定することにより、原画像における車線キーポイントの初歩的な識別を実現することが可能となり、車線キーポイント周辺の特徴情報を表す局所特徴を抽出するための基礎を築く。

例えば、当該種類は、背景、車線キーポイント、または車線の縁である。

いくつかの実施形態では、本開示の実施例は、１つ以上のニューラルネットワークモデル、または１つのニューラルネットワークモデルにおける１つ以上の層を用いて、ステップＳ２１０で抽出された基本特徴を利用して、キーポイント分布情報を識別することができる。例えば、このキーポイント分布情報は、キーポイント画像（Ｎｏｄｅｍａｐ）であってもよく、Ｎｏｄｅｍａｐにおける各画素の値は、０、１、または２であってもよく、ここで、
値が０の場合、当該画素が背景に属していることを表す、
値が１の場合、当該画素が車線キーポイントに属していることを表す、
値が２の場合、当該画素が車線の縁に属することを表す。

いくつかの実施形態では、上記の「背景」は、車線（車線キーポイント及び車線の縁を含む）以外の部分を指すことができる。

この例では、画素の値が１であれば、当該画素が車線キーポイントであることを表し、画素の値が別の値（例えば０または２）であれば、当該画素が車線キーポイントではないことを表す。

上述した画素の値及び意味は一例にすぎず、本開示の実施例では、これについて限定しない。本開示の実施例は、任意の値を用いて画素が車線キーポイントに属することを表すことができる。なお、本開示の実施形態では、背景と車線の縁とを区別しなくてもよい。例えば、Ｎｏｄｅｍａｐにおける各画素の値は０または１とすることができ、ここで、値が１であれば、当該画素が車線キーポイントに属していることを表し、値が０であれば、当該画素が車線キーポイントに属していないことを表す。

いくつかの実施形態では、本開示の実施例のステップＳ２３０において、車線キーポイントを利用して原画像の基本特徴から局所特徴を抽出する方法は、
車線キーポイントを利用して複数の局所枠を構築作成することと、
当該複数の局所枠を利用して、原画像の基本特徴に対し分割し、局所特徴を得ることと、を含む。

図３は、本開示の一実施例による局所特徴抽出方式を示す概略図である。図３に示すように、本開示の実施例は、車線キーポイントが各局所枠の右下隅、左下隅、右上隅及び左上隅に位置するように、車線キーポイントを利用して４つの局所枠を構築することができる。例えば、図３に示すように、車線キーポイントは、第１局所枠の右下隅、第２局所枠の左下隅、第３局所枠の右上隅及び第４局所枠の左上隅に位置する。４つの局所枠のサイズは、予め設定された値であり、さらに４つの局所枠を利用してそれぞれ原画像の基本特徴に対し分割し、分割して得られたデータを局所特徴とする。

上記の例では、車線がそれぞれ右下隅、左下隅、右上隅、及び左上隅に位置する４つの局所枠を利用して基本特徴を分割することで、分割によって得られた局所特徴が車線キーポイント及び車線キーポイント周辺の特徴情報を重点的に表すことができ、車線識別の効果を向上させることができる。

いくつかの実施形態では、原画像の基本特徴は、例えばＨ＊Ｗ＊６４の大きさの特徴ベクトルとして表してもよく、ここで、Ｈは原画像の高さ（単位は画素数）、Ｗは原画像の幅（単位は画素数）である。画素Ａを例にとると、画素Ａは車線キーポイントであり、画素Ａの対応する局所特徴を抽出する過程は、次のとおりである。

１．画素Ａの座標ｘ，ｙを取得する。

２．Ａの座標位置を右下隅、左下隅、右上隅、左上隅とし、それぞれ４つの５＊５の局所枠を構築し、ここで、５＊５は、予め設定された、局所枠のサイズであり、当該サイズは単なる例示である。

３．構築した局所枠を利用して画像の基本特徴に対し分割し、局所特徴を得る。

このようにして、１つの画素は、サイズ５＊５の４つの局所枠に対応し、各局所枠は、原画像の基本特徴（Ｈ＊Ｗ＊６４の特徴ベクトル）から局所特徴を分割して抽出する必要があるため、１画素あたりの局所特徴ベクトルの大きさは４＊６４＊５＊５であり、抽出された局所特徴を後から融合しやすくするために、局所特徴ベクトルを、２５６＊５＊５の大きさの特徴ベクトルのような３次元ベクトルに調整してもよい。

なお、図３に示す局所枠は、抽出された車線キーポイントの近傍部分の局所特徴（局所特徴はベクトルで表される）を表す抽象的な表現であり、具体的な形状を表すものではない。

上記の例は、単一車線キーポイントの視点から説明したものである。単一車線キーポイントに対し、その対応する局所特徴を得ることができる。前のステップで複数の車線キーポイントが識別された場合、本ステップでは、各車線キーポイントに対しそれぞれの対応する局所特徴を取得し、その後の過程で、基本特徴と複数の車線キーポイントの対応する局所特徴とを融合してもよい。

いくつかの実施形態では、原画像の基本特徴は、第１ベクトルで表され、車線キーポイントに対応する局所特徴は、第２ベクトルで表され、
基本特徴と局所特徴とを融合する方法は、第１ベクトルと第２ベクトルとを組み合わせて第３ベクトルを得ることを含むことができる。

ベクトルを組み合わせる方式を採用することにより、基本特徴と局所特徴とを融合した後に得られた特徴は、依然としてベクトルの形式で表し、後続の車線識別過程で使いやすくできる。

例えば、複数の車線キーポイントが識別された場合、各車線キーポイントに対応する局所特徴は、第２ベクトルで表すことができる。このようにして、基本特徴と局所特徴とを融合する際に、第１ベクトルと複数の第２ベクトル（すなわち、すべての車線キーポイントの対応する局所特徴のベクトル表示）とを組み合わせて第３ベクトルを得ることができる。融合後の第３ベクトルは、３次元ベクトルであってもよい。

上記の局所特徴の抽出、及び基本特徴と局所特徴との融合の過程は、１つまたは複数のニューラルネットワークモデル、または１つのニューラルネットワークモデルにおける１つまたは複数の層を用いて実現することができる。

本開示の実施例は、車線の局所特徴と全体特徴との融合を採用することにより、車線の識別精度を大幅に向上させることができ、画素レベルでの車線の高精度な識別を実現することができる。本開示の実施例は、車両遮蔽、車線被覆などの特殊な場面においても、エンドツーエンド生成型ネットワークにより、車線識別再現率及びモデルのロバスト性を大幅に向上させることができる。

いくつかの実施形態では、本開示の実施例における、融合後の結果に基づいて原画像における車線を識別する方法（上述のステップＳ２４０）は、
融合後の結果に基づいて、原画像の車線符号化情報を決定することと、
車線符号化情報を利用して原画像における車線を識別することと、を含むことができる。

いくつかの実施形態では、原画像の車線符号化情報は、原画像における各画素の第１情報を含み、当該第１情報は、以下の少なくとも１つを含む。
（１）画素が車線キーポイントであるか否か、
（２）画素の隣接する車線キーポイントの数、
（３）画素と隣接する車線キーポイントとの位置関係。

例えば、ある画素が車線キーポイントである場合、当該画素の第１情報は、当該画素の隣接する車線キーポイントの数と、当該画素と隣接する車線キーポイントとの位置関係とを含む。また、例えば、ある画素が車線キーポイントでない場合、当該画素の第１情報は、当該画素の隣接する車線キーポイントの数、及び当該画素と隣接する車線キーポイントとの位置関係を含まず、それに応じて、第１情報のうちの、当該画素の隣接する車線キーポイントの数を表す部分、及び当該画素と隣接する車線キーポイントとの位置関係を表す部分の値がデフォルト値となる。

上述した車線符号化情報の一例から分かるように、車線符号化情報における各画素の第１情報には、当該画素が車線キーポイントであるか否かの情報と、周辺キーポイントとの位置関係とが含まれており、画素の車線関連情報を網羅的にカバーすることができ、車線識別の効果を保証することができる。

いくつかの実施形態では、画素が車線キーポイントである場合、当該画素と隣接する車線キーポイントとの位置関係は、原画像の座標軸に対する、当該画素と隣接する車線キーポイントとの連結線の偏向角度、及び当該画素と隣接する車線キーポイントとの連結線の長さとを含んでもよい。ここで、座標軸とは、水平座標軸または垂直座標軸を指してもよい。この位置関係表現方法は、少ないデータ量で車線キーポイント間の位置関係を表現することができ、データ量を削減し、データ処理の困難性を低減することができる。

あるいは、画素が車線キーポイントである場合に、当該画素と隣接する車線キーポイントとの位置関係は、当該画素に対する、隣接する車線キーポイントの水平方向のオフセット量、及び当該画素に対する、隣接する車線キーポイントの垂直方向のオフセット量を含んでもよい。

本開示の実施例は、他の位置関係表現形式を採用してもよいが、ここでは枚挙しない。

いくつかの実施形態では、各画素の第１情報は、３次元ベクトルで表されてもよい。当該３次元ベクトルのうちの２つの要素は、画素の、原画像における位置（例えば、水平方向における位置や、垂直方向における位置を含む）を表し、当該３次元ベクトルのうちの３番目の要素は、当該画素の第１情報を表す。

車線検出において、車線の符号化形式が非常に重要である。有効な符号化車線こそ、ディープラーニングアルゴリズムに画像中の車線をより正確に識別させることができると共に、より直接的な車線表現形式を提供し、エンドツーエンドの車線検出の実現可能性を高める。本開示の実施例で提案する車線符号化は、符号化アルゴリズムによって画像中の車線をベクトルの形式に符号化する。

本開示の実施例は、車線を３次元ベクトルに符号化し、すなわち、上述した車線符号化情報を３次元ベクトルの形式で表す。当該３次元ベクトルは、効率的に車線の画像における具体的な位置を表現すると共に、ディープラーニングのエンドツーエンドの車線検出、識別の実現をサポートすることができる。図４は、本開示の一実施例による車線画素符号化を示す概略図である。図４における点Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆは、車線を構成する車線キーポイントである。図４中の車線構造は、以下の辞書を用いて符号化され、当該辞書には、複数のキー値対（Ｋｅｙ－Ｖａｌｕｅ）が含まれ、各キー値対は１つの車線キーポイントの座標、及び当該車線キーポイントのすべての隣接する車線キーポイントの座標を表す。

｛
Ａ：［Ｂ］、
Ｂ：［Ａ，Ｃ］、
Ｃ：［Ｂ，Ｄ，Ｅ］、
Ｄ：［Ｃ］、
Ｅ：［Ｃ，Ｆ］、
Ｆ：［Ｅ］
｝

車線キーポイントＡの隣接する車線キーポイントにはＢが含まれ、車線キーポイントＢの隣接する車線キーポイントにはＡとＣが含まれ、等が上記の辞書から分かる。

上記の車線符号化構造がエンドツーエンド車線検出アルゴリズムトレーニングに直接使用できず、この問題を解決するために、本開示の実施例では、トレーニングに使用可能な３次元ベクトル、すなわち上記の実施例の過程における車線符号化情報となるように、一部の情報を符号化する。ある一枚の画像に対し、画像における各画素点を符号化する必要がある。符号化情報には、次の３つの部分がある。

１．ノード（Ｎｏｄｅ）ビットは、１ビット符号であり、現在の画素点が車線キーポイントであるか否かを表す。例えば、当該ビットが０の場合、車線キーポイントではないことを表し、当該ビットが１の場合、車線キーポイントであることを表す。

２、リンク（Ｌｉｎｋ）ビットは、６ビット符号であり、現在の画素点が車線キーポイントであれば、Ｌｉｎｋビットは、当該画素点に隣接する車線キーポイントが存在するか否か、隣接する車線キーポイントがいくつ存在するかを表す。Ｌｉｎｋビットのデフォルト値は、「００００００」のように、すべての位置が０を取る。たとえば、Ｎ個（Ｎは正の整数）の隣接する車線キーポイントがある場合、左から右に向かって最初のＮ個の０符号を順次１に変更し、隣接ノードが存在することを表す。例えば、ある画素のＬｉｎｋビットの値が「００００００」である場合に、当該画素に表される車線キーポイントに隣接する車線キーポイントはないことを意味する。また、ある画素のＬｉｎｋビットの値が「１１１０００」である場合に、当該画素に表される車線キーポイントに３つの隣接する車線キーポイントがあることを意味する。この例では、最大で１画素の６つの隣接する車線キーポイントを表すことができる。なお、Ｌｉｎｋビットの６ビット符号化の形式は、一例にすぎず、Ｌｉｎｋビットを別の長さに符号化すると、表現できる隣接する車線キーポイントの最大数もそれに応じて変化する。ある画素のＮｏｄｅビットの値が「０」である場合、すなわち、当該画素が車線キーポイントでない場合、当該画素のＬｉｎｋビットの値は「００００００」を取ることができる。

３、位置関係（Ｄｘ＆Ｄｙ）ビットは、１２ビット符号であり、現在の画素と隣接する車線キーポイントとの位置関係を表す。デフォルト値は、（０，０）ｘ６のように、すべての位置に０を取る。現在の画素点が１つの車線キーポイントである場合に、Ｌｉｎｋビットに「１」が記入された位置の対応する（Ｄｘ＆Ｄｙ）ビットに、原画像の座標軸に対する、当該画素と隣接する車線キーポイントとの連結線の偏向角度、及び当該画素と隣接する車線キーポイントとの連結線の長さがそれぞれ表される。

図５は、本開示の一実施例による車線符号化情報を示す概略図である。図５に示すように、３次元の車線符号化ベクトルは、原画像における車線キーポイントを表すことができる。当該３次元ベクトルは、Ｈを原画像の高さ（単位は画素数）、Ｗを原画像の幅（単位は画素数）としたとき、Ｈ＊Ｗ＊１９の大きさで表される。なお、上記の３次元ベクトルのサイズの「１９」は、一例に過ぎない。当該サイズは、単一の画素の符号化方法に関連する一例であり、上記の３次元ベクトルのサイズの「１９」は、１つの画素の符号化方法に関連し、符号化形式が変化する場合、当該３次元ベクトルの大きさもそれに応じて変化する。

このようにして、原画像における各画素点を順次符号化し、各画素点がいずれも１９ビットの符号を有するようにすることにより、原画像全体の車線構造を３次元ベクトルに符号化することができる。エンドツーエンドの車線識別モデルは、当該車線符号化構造に基づいてトレーニング及び学習することができる。このように、本開示の実施例は、符号化方式を採用し、車線図の符号化アルゴリズムを革新し、画像中の車線を３次元ベクトルに符号化することができ、ディープラーニングに基づくエンドツーエンドの車線検出モデルの構築に実現可能な符号化方式を提供し、エンドツーエンドの車線トレーニングにおける車線符号化の難題を効果的に解決し、車線識別の正確率をさらに高めることができる。

上記では、本開示の実施例で提案された車線識別方法を説明したが、当該車線識別方法は、１つまたは複数のニューラルネットワークモデルを用いて実現され得る。本方案は主に二つの方面で革新を行った。第一に、原画像における車線キーポイントを初歩的に識別し、それによって局部特徴を抽出し、局部情報と基本特徴とを融合し、融合後の情報を利用して車線の識別を行い、車線の識別の正確率を高めることができる。第二に、融合後の情報を符号化し、本開示で提案した符号化方式を採用して符号化して３次元ベクトルを得、当該３次元ベクトルを最終的な車線識別に用いることにより、車線のエンドツーエンドの正確な識別をさらに向上させることができる。

本開示の実施例で提案した車線識別方法は、ニューラルネットワークモデルを採用して実現することができる。図６は、本開示の一実施例による車線識別の全体枠組を示す概略図である。図６に示すように、バックボーンネットワークは、入力された原画像に対して特徴抽出を行い、原画像の基本特徴を得て、当該基本特徴を後続の車線識別の基本的な情報とする。当該基本特徴に基づいて、原画像における車線キーポイントを識別し、車線キーポイントの情報を図６のキーポイント画像（Ｎｏｄｅｍａｐ）で表すことができる。当該ステップで抽出された車線キーポイントは、初歩的な抽出である。その後、当該車線キーポイントの情報を利用して、基本特徴から局所特徴を抽出し、基本特徴と局所特徴とを融合する。融合後の特徴に基づいて、ニューラルネットワークアルゴリズムを用いて車線符号化ベクトル予測を行うことができ、融合後の特徴を、対応する車線符号化ベクトルに変換する。本開示の実施例では、ニューラルネットワークアルゴリズムの具体的な方法について限定しない。最後に、車線符号化ベクトルに基づいて、最終的な車線識別結果を得ることができる。車線符号化ベクトルを車線識別結果に変換する過程は、上記符号化過程の逆演算を採用してもよい。具体的に、上記図４及び図５に示す符号化過程を参照してもよいため、ここでは繰り返し述べない。

本開示の実施例は、さらに車線識別装置を提案する。図７は、本開示の実施例による車線識別装置７００の構成を示す概略図であり、当該車線識別装置７００は、
原画像の基本特徴を抽出するためのメインモジュール７１０と、
原画像の基本特徴を利用して、原画像における少なくとも１つの車線キーポイントを識別するためのキーポイント識別モジュール７２０と、
少なくとも１つの車線キーポイントを利用して、原画像の基本特徴から局所特徴を抽出し、基本特徴と局所特徴とを融合するための抽出及び融合モジュール７３０と、
融合後の結果に基づいて、原画像における車線を識別するための車線識別モジュール７４０と、を備える。

図８は、本開示の一実施例による車線識別装置８００の構成を示す構成図であり、図８に示すように、いくつかの実施形態において、本開示の一実施例で提案される車線識別モジュール７４０は、
融合後の結果に基づいて、原画像の車線符号化情報を決定するための符号化決定サブモジュール７４１と、ここで、原画像の車線符号化情報は、原画像における各画素の第１情報を含み、当該第１情報は、当該画素が車線キーポイントであるか否かと、当該画素の隣接する車線キーポイントの数と、当該画素と隣接する車線キーポイントとの位置関係と、のうちの少なくとも１つを含み、
車線符号化情報を利用して原画像における車線を識別するための識別サブモジュール７４２と、を備える。

いくつかの実施形態では、各画素の第１情報は、３次元ベクトルで表され、
３次元ベクトルのうちの２つの要素は、画素の、原画像における位置を表し、３次元ベクトルのうちのもう１つの要素は、画素の第１情報を表す。

いくつかの実施形態では、画素が車線キーポイントである場合に、当該画素と隣接する車線キーポイントとの位置関係は、
原画像の座標軸に対する、当該画素と隣接する車線キーポイントとの連結線の偏向角度と、当該画素と隣接する車線キーポイントとの連結線の長さと、を含む。

いくつかの実施形態では、抽出及び融合モジュール７３０は、
車線キーポイントを利用して複数の局所枠を構築し、複数の局所枠を利用して、原画像の基本特徴に対し分割し、局所特徴を得るための局所特徴抽出サブモジュール７３１を備える。

いくつかの実施形態では、局所特徴抽出サブモジュール７３１は、車線キーポイントが各局所枠の右下隅、左下隅、右上隅、及び左上隅に位置するように、車線キーポイントを利用して４つの局所枠を構築することに用いられ、
４つの局所枠のサイズは、予め設定された値である。

いくつかの実施形態では、基本特徴は、第１ベクトルで表され、局所的特徴は、第２ベクトルで表され、
抽出及び融合モジュール７３０は、
第１ベクトルと第２ベクトルとを組み合わせて、第３ベクトルを得るための融合サブモジュール７３２をさらに備える。

いくつかの実施形態では、キーポイント識別モジュール７２０は、原画像の基本特徴を利用して、原画像の対応するキーポイント分布情報を決定することに用いられ、ここで、キーポイント分布情報は、原画像における少なくとも１つの車線キーポイントを表すために用いられ、キーポイント分布情報には、画素の種類（背景、車線キーポイント、または車線の縁）が含まれる。

本開示の実施例で提案される車線識別装置は、１つまたは複数のニューラルネットワークモデルを採用して実現され得る。例えば、１つ以上のニューラルネットワークモデルを１つ以上のサーバーに配置し、本開示の実施例の車線識別装置を構成する。車線識別装置は、上述したいずれの車線識別方法を採用して、原画像を利用してエンドツーエンドの車線識別を実現することができる。

本開示の実施例に係る装置の各モジュール、サブモジュールの具体的な機能及び例示的説明は、上述した方法の実施例における対応するステップの関連説明を参照することができ、ここでは繰り返し述べない。

本開示の技術的解決策において、関係する利用者の個人情報の取得、保管及び利用等は、いずれも関係法令の規定に適合しており、公序良俗に反するものではない。

本開示の実施例によれば、本開示は、電子デバイス及び可読記憶媒体を提供する。

図９は、本開示の実施例を実現するための電子デバイス９００の概略ブロック図である。電子デバイスは、各形式のデジタルコンピュータを指し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ、及びその他の適合するコンピュータが挙げられる。電子デバイスは、各形式の移動装置を更に指し、例えば、パーソナルデジタルアシスタント、セルラー電話、インテリジェントフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置が挙げられる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本開示に記載・特定されているものの実現を限定するわけではない。

図９に示すように、デバイス９００は、リードオンリーメモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム命令、又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット９０１を含む。ＲＡＭ９０３には、デバイス９００の動作に必要な各種のプログラム及びデータを更に記憶することができる。計算ユニット９０１と、ＲＯＭ９０２と、ＲＡＭ９０３とは、バス９０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続されている。

デバイス９００における複数のコンポーネントは、Ｉ／Ｏインターフェース９０５に接続されており、当該複数のコンポーネントは、キーボードやマウス等の入力ユニット９０６と、種々なディスプレイやスピーカ等の出力ユニット９０７と、磁気ディスクや光学ディスク等の記憶ユニット９０８と、ネットワークカード、モデム、無線通信トランシーバー等の通信ユニット９０９と、を備える。通信ユニット９０９は、デバイス９００がインターネットのようなコンピュータネット及び／又は種々なキャリアネットワークを介して他の機器と情報／データを交換することを許可する。

計算ユニット９０１は、処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を備えるが、これらに限定されない。計算ユニット９０１は、上述で説明された各方法及び処理、例えば車線識別方法を実行する。例えば、いくつかの実施例では、車線識別方法を、記憶ユニット９０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部又は全ては、ＲＯＭ９０２及び／又は通信ユニット９０９を介して、デバイス９００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ９０３にロードされて計算ユニット９０１によって実行される場合に、前述した車線識別方法の１つ又は複数のステップを実行することができる。追加可能に、他の実施例では、計算ユニット９０１は、他の任意の適当な方式（例えば、ファームウェア）により車線識別方法を実行するように構成することができる。

本開示で記載されているシステム又は技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実現することができる。これらの各実施例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び／又は解釈される１つ又は複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力デバイス、及び当該少なくとも１つの出力デバイスに転送することができる専用又は汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び／又はブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよいし、部分的にマシンで実行されてもよいし、独立したソフトパッケージとして部分的にマシンで実行されるとともに部分的にリモートマシンで実行されてもよし、又は完全にリモートマシン又はサーバーで実行されてもよい。

本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて用いられるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、１つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータによりここで記載されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター等）、ユーザが入力をコンピュータに提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール等）を備えるができる。ユーザとのインタラクションを提供するために、他の種類の装置を使用することもでき、例えば、ユーザに提供するフィードバックは、いかなる形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック等）であってもよく、また、いかなる形式（例えば、音響入力、音声入力、触覚入力等）によって、ユーザからの入力を受付取るができる。

ここに記載されているシステムと技術を、バックグラウンド部品に含まれる計算システム（例えば、データサーバーとして）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバー）、又はフロント部品を含む計算システム（例えば、ＧＵＩ又はネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザがＧＵＩ又は当該ネットワークブラウザによって、ここに記載されているシステムと技術の実施形態とインタラクションすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロント部品のいかなる組合した計算システムで実施することができる。如何なる形式又はメディアのデジタルデータ通信（例えば、通信ネットワーク）を介して、システムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。通常、クライアントとサーバーは、互いに離れており、通信ネットワークを介してインタラクションを行うことが一般的である。対応するコンピュータで動作することで、クライアント－サーバーの関係を有するコンピュータプログラムによってクライアントとサーバーの関係を生み出す。サーバーは、クラウドサーバーであってもよく、または分布式システムのサーバーであってもよく、あるいはブロックチェーンを結合したサーバーであってもよい。

上記の様々な態様のフローを使用して、ステップを新たにソート、追加、又は削除することが可能であることを理解すべきである。例えば、本開示で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本開示で開示された技術案が所望する結果を実現することができる限り、本開示ではこれに限定されない。

上記具体的な実施形態は、本開示の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本開示の要旨及び原理原則内における変更、均等な置換及び改善等は、いずれも本開示の保護範囲に含まれるべきである。

Claims

原画像の基本特徴を抽出することと、
前記原画像の基本特徴を利用して、前記原画像における少なくとも１つの車線キーポイントを識別することと、
前記少なくとも１つの車線キーポイントを利用して、前記原画像の基本特徴から局所特徴を抽出し、前記基本特徴と前記局所特徴とを融合することと、
融合後の結果に基づいて、前記原画像における車線を識別することと、を含む、
車線識別方法。
前記融合後の結果に基づいて、前記原画像における車線を識別することは、
融合後の結果に基づいて、前記原画像の車線符号化情報を決定することと、
前記車線符号化情報を利用して前記原画像における車線を識別することと、を含み、
ここで、前記原画像の車線符号化情報は、前記原画像における各画素の第１情報を含み、
前記第１情報は、
前記画素が車線キーポイントであるか否かと、
前記画素の隣接する車線キーポイントの数と、
前記画素と前記隣接する車線キーポイントとの位置関係と、
のうちの少なくとも一つを含む、
請求項１に記載の車線識別方法。
前記各画素の第１情報は、３次元ベクトルで表され、
前記３次元ベクトルのうちの２つの要素は、前記画素の、前記原画像における位置を表し、前記３次元ベクトルのうちのもう１つの要素は、前記画素の第１情報を表す、
請求項２に記載の車線識別方法。
前記画素が車線キーポイントである場合に、前記画素と前記隣接する車線キーポイントとの位置関係は、
前記原画像の座標軸に対する、前記画素と前記隣接する車線キーポイントとの連結線の偏向角度と、
前記画素と前記隣接する車線キーポイントとの連結線の長さと、を含む、
請求項２に記載の車線識別方法。
前記車線キーポイントを利用して、前記原画像の基本特徴から局所特徴を抽出することは、
前記車線キーポイントを利用して複数の局所枠を構築することと、
前記複数の局所枠を利用して前記原画像の基本特徴に対し分割し、前記局所特徴を得ることと、を含む、
請求項１に記載の車線識別方法。
前記車線キーポイントを利用して複数の局所枠を構築することは、
前記車線キーポイントが各局所枠の右下隅、左下隅、右上隅、及び左上隅に位置するように、前記車線キーポイントを利用して４つの局所枠を構築することを含み、
前記４つの局所枠のサイズは、予め設定された値である、
請求項５に記載の車線識別方法。
前記基本特徴は、第１ベクトルで表され、前記局所特徴は、第２ベクトルで表され、
前記基本特徴と前記局所特徴とを融合することは、前記第１ベクトルと前記第２ベクトルとを組み合わせて、第３ベクトルを得ることを含む、
請求項６に記載の車線識別方法。
前記原画像の基本特徴を利用して、前記原画像における少なくとも１つの車線キーポイントを識別することは、
前記原画像の基本特徴を利用して、前記原画像の対応するキーポイント分布情報を決定することを含み、ここで、前記キーポイント分布情報は、前記原画像における少なくとも１つの車線キーポイントを表すために用いられ、前記キーポイント分布情報には、各画素の種類が含まれる、
請求項１に記載の車線識別方法。
原画像の基本特徴を抽出するためのメインモジュールと、
前記原画像の基本特徴を利用して、前記原画像における少なくとも１つの車線キーポイントを識別するためのキーポイント識別モジュールと、
前記少なくとも１つの車線キーポイントを利用して、前記原画像の基本特徴から局所特徴を抽出し、前記基本特徴と前記局所特徴とを融合するための抽出及び融合モジュールと、
融合後の結果に基づいて、前記原画像における車線を識別するための車線識別モジュールと、を備える、
車線識別装置。
前記車線識別モジュールは、
融合後の結果に基づいて、前記原画像の車線符号化情報を決定するための符号化決定サブモジュールと、
前記車線符号化情報を利用して前記原画像における車線を識別するための識別サブモジュールと、を備え、
ここで、前記原画像の車線符号化情報は、前記原画像における各画素の第１情報を含み、
前記第１情報は、
前記画素が車線キーポイントであるか否かと、
前記画素の隣接する車線キーポイントの数と、
前記画素と前記隣接する車線キーポイントとの位置関係と、
のうちの少なくとも一つを含む、
請求項９に記載の車線識別装置。
前記各画素の第１情報は、３次元ベクトルで表され、
前記３次元ベクトルのうちの２つの要素は、前記画素の、前記原画像における位置を表し、前記３次元ベクトルのうちのもう１つの要素は、前記画素の第１情報を表す、
請求項１０に記載の車線識別装置。
前記画素が車線キーポイントである場合に、前記画素と前記隣接する車線キーポイントとの位置関係は、
前記原画像の座標軸に対する、前記画素と前記隣接する車線キーポイントとの連結線の偏向角度と、
前記画素と前記隣接する車線キーポイントとの連結線の長さと、を含む、
請求項１０に記載の車線識別装置。
前記抽出及び融合モジュールは、
前記車線キーポイントを利用して複数の局所枠を構築し、前記複数の局所枠を利用して前記原画像の基本特徴に対し分割し、前記局所特徴を得るための局所特徴抽出サブモジュール、を備える、
請求項９に記載の車線識別装置。
前記局所特徴抽出サブモジュールは、
前記車線キーポイントが各局所枠の右下隅、左下隅、右上隅、及び左上隅に位置するように、前記車線キーポイントを利用して４つの局所枠を構築することに用いられ、
前記４つの局所枠のサイズは、予め設定された値である、
請求項１３に記載の車線識別装置。
前記基本特徴は、第１ベクトルで表され、前記局所特徴は、第２ベクトルで表され、
前記抽出及び融合モジュールは、前記第１ベクトルと前記第２ベクトルとを組み合わせて、第３ベクトルを得るための融合サブモジュールをさらに備える、
請求項１４に記載の車線識別装置。
前記キーポイント識別モジュールは、前記原画像の基本特徴を利用して、前記原画像の対応するキーポイント分布情報を決定することに用いられ、ここで、前記キーポイント分布情報は、前記原画像における少なくとも１つの車線キーポイントを表すために用いられ、前記キーポイント分布情報には、各画素の種類が含まれる、
請求項９に記載の車線識別装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、請求項１から請求項８のいずれか１項に記載の車線識別方法を実行させる、電子デバイス。
コンピュータに請求項１から請求項８のいずれか１項に記載の車線識別方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行されると、請求項１から請求項８のいずれか１項に記載の車線識別方法を実現するためのプログラム。