JP2020528616A - 画像処理方法およびシステム、記憶媒体およびコンピューティングデバイス - Google Patents

画像処理方法およびシステム、記憶媒体およびコンピューティングデバイス Download PDF

Info

Publication number
JP2020528616A
JP2020528616A JP2020502970A JP2020502970A JP2020528616A JP 2020528616 A JP2020528616 A JP 2020528616A JP 2020502970 A JP2020502970 A JP 2020502970A JP 2020502970 A JP2020502970 A JP 2020502970A JP 2020528616 A JP2020528616 A JP 2020528616A
Authority
JP
Japan
Prior art keywords
image
convolution
layer
slice
slice component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020502970A
Other languages
English (en)
Other versions
JP6778842B2 (ja
Inventor
シンガン パン
シンガン パン
ジエンピン シー
ジエンピン シー
ピン ルオ
ピン ルオ
シャオガン ワン
シャオガン ワン
シャオオウ タン
シャオオウ タン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2020528616A publication Critical patent/JP2020528616A/ja
Application granted granted Critical
Publication of JP6778842B2 publication Critical patent/JP6778842B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本願は、画像処理方法およびシステム、記憶媒体およびコンピューティングデバイスを開示する。前記方法は、画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することと、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を順次行うことであって、前記スライス成分が、前記画像特徴を示す多次元テンソルを前記方向に従い順次分割して得られることと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理することと、を含む。

Description

(関連出願の相互参照)
本願は、2017年7月21日に中国特許局に提出された、出願番号201710602674.2、発明の名称「画像処理方法およびシステム、記憶媒体およびコンピューティングデバイス」の中国特許出願の優先権を主張し、その全ての内容は参照により本願に組み込まれる。
本願の実施例は、コンピュータービジョンの分野に関し、特に画像処理方法およびシステム、記憶媒体およびコンピューティングデバイスに関する。
自動運転は、自動車産業と人工知能、モノインターネット、高性能コンピューターなどの新世代の情報技術との深く統合したものであり、現在の世界の自動車及び交通分野のインテリジェント化およびネットワーク化の開発の主な方向である。コンピュータービジョンを利用して交通シーンに対する理解するのは、自動運転の重要な課題である。通常、区画線検出、セマンティックセグメンテーションなどの技術を含み、交通シーンにおける車両、歩行者、区画線などの目標対象の位置情報を検知するために用いられる。現在、畳み込みニューラルネットワークは、目標検出やセマンティックセグメンテーションなどの問題を解決するための主流の方法になっている。
本願の実施例は、画像処理の技術的解決策を提供する。
第1の態様において、本願の実施例は、画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することと、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を順次行うことであって、前記スライス成分が、前記画像特徴を示す多次元テンソルを前記方向に従い順次分割して得られることと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理することと、を含む画像処理方法を提供する。
任意選択で、本願の実施例では、前記少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理することは、少なくとも最終的に得られた畳み込み処理の結果に基づいて、前記画像中の物体の検出、前記画像中の物体の識別、前記画像中の物体の追跡、前記画像の分割、および/または前記画像の分類を行うことを含む。
任意選択で、本願の実施例では、前記画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することは、畳み込みニューラルネットワークの畳み込み層により前記画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することを含む。
任意選択で、本願の実施例では、前記畳み込み層は、前記畳み込みニューラルネットワークの中間の隠れ層または最上位の隠れ層である。
任意選択で、本願の実施例では、前記スライス成分の畳み込み処理は畳み込み層によって処理され、且つ異なるスライス成分を処理する少なくとも2つの畳み込み層のネットワークパラメータは同じである。
任意選択で、本願の実施例では、前記前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、順次少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を行うことは、前記多次元テンソル中の1番目の層のスライス成分に対して畳み込み処理を行い、1番目の層のスライス成分の畳み込み処理の結果と2番目の層のスライス成分との和を利用して前記多次元テンソル中の2番目の層のスライス成分を更新することと、更新された2番目の層のスライスに対して畳み込み処理を行い、2番目の層のスライス成分の畳み込み処理と3番目の層のスライス成分との和を利用して前記多次元テンソル中の3番目の層のスライス成分を更新し、このようにして、前記多次元テンソル中の最後の層のスライス成分まで更新することとを含む。
任意選択で、本願の実施例では、前記多次元は、高さ、幅およびチャンネル数を含む3次元を少なくとも含む。
任意選択で、本願の実施例では、前記方向は、上から下への高さ方向、下から上への高さ方向、左から右への幅方向、右から左への幅方向のうちの少なくとも1つを含む。
任意選択で、本願の実施例では、前記方法は、画像処理の結果に基づいて制御コマンドを生成し、制御コマンドに基づいて目標対象を制御して対応操作を実行させ、または画像処理の結果に基づいて目標対象を制御して対応操作を実行させることを更に含む。
任意選択で、本願の実施例では、前記画像は、交通シーン画像を含む。
任意選択で、本願の実施例では、前記交通シーン画像中の物体は、区画線、歩行者、車両、桿状物、障害物のうちの少なくとも1つを含む。
第2の態様において、本願の実施例は、画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得するための第1の畳み込み処理モジュールと、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を順次行うための第2の畳み込み処理モジュールであって、前記スライス成分が、前記画像特徴を示す多次元テンソルを前記方向に従い順次分割して得られる第2の畳み込み処理モジュールと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理するための画像処理モジュールと、を含む画像処理システムを提供する。
任意選択で、本願の実施例では、前記画像処理モジュールは、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像中の物体を検出するための物体検出モジュールと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像中の物体を識別するための物体識別モジュールと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像中の物体を追跡するための物体追跡モジュールと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を分割するためのセマンティックセグメンテーションモジュールと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を分類するための画像分類モジュールとのうちの少なくとも1つを含む。
任意選択で、本願の実施例では、前記画像処理システムは畳み込みニューラルネットワークを含み、前記第1の畳み込み処理モジュールは畳み込みニューラルネットワークの畳み込み層である。
任意選択で、本願の実施例では、前記畳み込み層は、前記畳み込みニューラルネットワークの中間の隠れ層または最上位の隠れ層である。
任意選択で、本願の実施例では、前記第2の畳み込み処理モジュールは、畳み込みニューラルネットワーク中のスライス成分に対して畳み込み処理を行うための複数の畳み込み層を含み、且つ異なるスライス成分を処理する少なくとも2つの畳み込み層のネットワークパラメータは同じである。
任意選択で、本願の実施例では、前記第2の畳み込み処理モジュールは、具体的に、前記多次元テンソル中の1番目の層のスライス成分に対して畳み込み処理を行い、1番目の層のスライス成分の畳み込み処理の結果と2番目の層のスライス成分との和を利用して前記多次元テンソル中の2番目の層のスライス成分を更新し、更新された2番目の層のスライスに対して畳み込み処理を行い、2番目の層のスライス成分の畳み込み処理と3番目の層のスライス成分との和を利用して前記多次元テンソル中の3番目の層のスライス成分を更新し、このようにして、前記多次元テンソル中の最後の層のスライス成分まで更新するために用いられる。
任意選択で、本願の実施例では、前記多次元は、高さ、幅およびチャンネル数を含む3次元を少なくとも含む。
任意選択で、本願の実施例では、前記方向は、上から下への高さ方向、下から上への高さ方向、左から右への幅方向、右から左への幅方向のうちの少なくとも1つを含む。
任意選択で、本願の実施例では、前記システムは、画像処理の結果に基づいて制御コマンドを生成し、制御コマンドに基づいて目標対象を制御して対応操作を実行させるための第1の制御モジュール、または画像処理の結果に基づいて目標対象を制御して対応操作を実行させるための第2の制御モジュールを更に含む。
任意選択で、本願の実施例では、前記画像は、交通シーン画像を含む。
任意選択で、本願の実施例では、前記交通シーン画像中の物体は、区画線、歩行者、車両、桿状物、障害物のうちの少なくとも1つを含む。
第3の態様において、本願の実施例は、コンピューターコマンドが記憶され、コンピューターによって記憶媒体中のコンピューターコマンドを読み取した後に、コンピューターは本願の実施例によって提供される画像処理方法を実行することができるコンピューター可読記憶媒体を提供する。
第4の態様において、本願の実施例は、本願の実施例によって提供される画像処理方法を実行するためのコマンドを含むコンピュータープログラムを提供する。例えば、前記コンピュータープログラムは、画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得するためのコマンドと、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を順次行うためのコマンドであって、前記スライス成分が、前記画像特徴を示す多次元テンソルを前記方向に従い順次分割して得られるコマンドと、少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理するためのコマンドと、を含む。
第5の態様において、本願の実施例は、メモリと、プロセッサーと、メモリに記憶されプロセッサー上で実行可能なコンピューティングプログラムを含み、前記プロセッサーによって前記プログラムを実行する時に、本願の実施例によって提供される画像処理方法を実行することができるコンピューティングデバイスを提供する。
本願の実施例は、画像に対して畳み込み処理を行い多次元テンソルを取得し、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして画像を処理することで、画像処理の精度が向上し、ユーザのエクスペリエンスが向上した。
本願の選択可能な実施例によって提供される画像識別ためのシステムの模式図である。 本願の選択可能な実施例によって提供されるコンピューターデバイスの構造模式図である。 本願の選択可能な実施例によって提供されるサーバのモジュールの模式図である。 本願の選択可能な実施例によって提供される空間ニューラルネットワークを使用した画像識別のフローチャートである。 本願の選択可能な実施例によって提供される空間畳み込み層による画像識別のフローチャートである。 本願の選択可能な実施例によって提供される空間畳み込みニューラルネットワークによる画像識別の模式図である。 本願の選択可能な実施例によって提供される別の空間畳み込みニューラルネットワークによる画像識別の模式図である。 本願の選択可能な実施例によって提供される区画線を含む交通シーンの物理図である。 本願の選択可能な実施例によって提供される従来の畳み込みニューラルネットワークによる区画線予測結果の模式図である。 本願の選択可能な実施例によって提供される空間畳み込みニューラルネットワークによる区画線予測結果の模式図である。 本願の選択可能な実施例によって提供される電柱を含む交通シーン物理図である。 本願の選択可能な実施例によって提供される従来の畳み込みニューラルネットワークによる電柱予測結果の模式図である。 本願の選択可能な実施例によって提供される空間畳み込みニューラルネットワークによる電柱予測結果の模式図である。 本願の選択可能な実施例によって提供される電柱を含む交通シーンの物理図である。 本願の選択可能な実施例によって提供される従来の畳み込みニューラルネットワークによる電柱予測結果の模式図である。 本願の選択可能な実施例によって提供される空間畳み込みニューラルネットワークによる電柱予測結果の模式図である。 本願の選択可能な実施例によって提供される街灯柱を含む交通シーンの物理図である。 本願の選択可能な実施例によって提供される従来の畳み込みニューラルネットワークによる街灯柱予測結果の模式図である。 本願の選択可能な実施例によって提供される空間畳み込みニューラルネットワークによる街灯柱予測結果の模式図である。 本願の選択可能な実施例によって提供される画像処理方法のフローチャートである。 本願の選択可能な実施例によって提供される画像処理システムの構造模式図である。
明細書の一部を構成する図面によって本願の実施例を説明し、且つ説明とともに本願の原理を解釈する。
図面を参照し、本願は、以下の詳細な説明によってより明確にする。
以下、具体的な実施例により、添付の図面を参照して本願を更に説明する。
図1は、本願の選択可能な実施例によって提供される画像識別システムの模式図であり、該画像識別システム100は、画像処理システムの一例であり得る。画像識別システム100は、サーバ110、ネットワーク120、クライアント130、及びデータベース140を含み得る。サーバ110は、空間畳み込みニューラルネットワークをトレーニングするためのデータベース140中の画像情報を取得し得る。サーバ110は、クライアント130から画像情報を受信し識別してもよい。
サーバ110は、単一のサーバまたはサーバグループであり得、前記サーバグループは集中式または分散式(例えば、サーバは分散式システムであり得る)であってもよい。いくつかの実施例では、サーバ110はリモートまたはローカルサーバであり得る。例えば、サーバ110は、ネットワーク120を介してデータベース140中に格納されたデータを取得してもよく、クライアント130に直接接続してクライアント130中のデータを取得してもよい。
ネットワーク120は、情報およびデータの交換を促進することができる。画像識別システム100中の構成要素は、ネットワーク120を介してシステム中の他の構成要素に情報およびデータを送信することができる。いくつかの実施例では、ネットワーク120は有線ネットワークまたは無線ネットワークであり得、例えば、ケーブルネットワーク、有線ネットワーク、光ファイバーネットワーク、遠距離通信ネットワーク、イントラネット、インターネット、ローカルエリアネットワーク(LAN)、無線ローカルエリアネットワーク(WLAN)、メトロエリアネットワークMAN)、広域ネットワーク(WAN)、公衆交換電話網(PSTN)、Bluetoothネットワーク、ZigBeeネットワーク、近距離無線通信(NFC)ネットワークなどであり得る。いくつかの実施例では、ネットワーク120は、1つまたは複数のネットワークアクセスポイントを含み得る。例えば、ネットワーク120は、基地局またはインターネット交換ポイントなどの有線または無線ネットワークアクセスポイントを含み得る。画像識別システム100の1つまたは複数の構成要素は、これらの基地局またはインターネット交換ポイントによってネットワーク120上に接続され、データおよび/または情報を交換することができる。
クライアント130は、モバイルデバイス(例えば、スマートフォン)130−1、タブレット130−2、ノートブックコンピューター130−3、車載コンピューター130−4などを含み得る。クライアント130はサーバ110と通信することができる。いくつかの実施例では、クライアント130は、取得した画像情報をサーバ110へ送信し識別することができる。サーバ110は、識別された結果を次の操作のためにクライアント130へ送信することができる。例えば、クライアント130は車載コンピュータシステムであり、車載前方カメラによって取得されたリアタイム交通シーン画像情報をサーバ110へ送信し識別して、サーバ110によって処理された画像を受信し、前記処理された画像に基づいて車両に対する自動制御を行い、車両の自動運転を実現する。また例えば、自動駐車を実行する時に、車載コンピュータシステムは、後方カメラからの駐車スペースのライブビュー画像情報を取得し、サーバ110へ送信し処理することができる。車載コンピューターは処理された画像情報を受信し、これらの処理された画像情報に基づいて、車載処理システムは自動駐車の操作を実行することができる。
データベース140は、データおよびコマンドを記憶することができる。いくつかの実施例では、データベース140は、クライアント130から取得されたデータを記憶することができる。いくつかの実施例では、データベース140は、サーバ110によって実行または使用されるデータまたはコマンドを記憶でき、サーバ110は、前記コマンドの実行または前記データの使用によって本願に記載の例示的な方法を実現することができる。例えば、データベース140は、履歴交通シーン画像情報を記憶し得、サーバ110は前記履歴交通シーン画像情報を使用して、空間畳み込みニューラルネットワークをトレーニングすることができる。
いくつかの実施例では、データベース140は、大容量記憶装置、リムーバブル記憶装置、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)など、またはそれらの任意の組合わせを含み得る。大容量記憶装置はディスク、コンパクトディスク、固体ハードディスクなどを含み得る。リムーバブル記憶装置は、フラッシュドライブ、フロッピーピーディスク、コンパクトディスク、メモリカード、コンパクトディスク、磁気テープなどを含みえる。RAMは、ダイナミックRAM(DRAM)、ダブルレート同期ダイナミックRAM(DDRSDRAM)、スタティックRAM(SRAM)、サイリスタRAM(T−RAM)、ゼロキャパシタンスRAM(Z−RAM)などを含み得る。ROMは、マスクROM(MROM)、プログラマブルROM(PROM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)などを含み得る。いくつかの実施例では、データベース140はクラウドプラットフォーム上に配置され得る。前記クラウドプラットフォームは、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、コミュニティクラウド、分散クラウド、クロスクラウド、マルチクラウドなどを含み得る。
図2は、本願の選択可能な実施例によって提供されるコンピューティングデバイスの構造を示す。このようなンピューティングデバイス200は、本願に記載の特定システムを実施するために用いられる。このようなコンピューティングデバイスは汎用のコンピューターであってもよく、特定目的を持つコンピューターであってもよい。両方のコンピューターも本願中の特定システムを実現するために用いられる。コンピューティングデバイス200は、現在説明されている画像識別システム100に必要な任意のコンポーネントを実現するために用いられる。例えば、画像識別システム100中のサービス端末(サーバ110)は、コンピューティングデバイス200によってそのハードウェアデバイス、ソフトウェアプログラム、ファームウェアおよびそれらの組合わせを介して実現されえる。また例えば、画像識別システム100中のクライアント(車載コンピュータ130−4)は、コンピューティングデバイス200によってそのハードウェアデバイス、ソフトウェアプログラム、ファームウェアおよびそれらの組合わせを介して実現され得る。便宜上、図では1台のコンピューターのみが描かれるが、本実施例で説明する関連コンピューターの機能は、システムの処理負荷を分散するために、同様のプラットフォームのセットによって分散方式で実施され得る。
コンピューティングデバイス200は、データ通信を実現するネットワークに接続される通信ポート250を含み得る。コンピューティングデバイス200は、プログラムコマンドを実行するための1つまたは複数のプロセッサー220をさらに含み得る。例示的なコンピューティングデバイス200は、内部通信バス210、ハードディスク270などの異なる形式のプログラム記憶ユニットおよびデータ記憶ユニット、読み取り専用メモリ230、ランダムアクセスメモリ240、コンピューティングデバイス200の処理および/または通信に使用される各種のデータファイル、及びプロセッサー220が実行可能なプログラムコマンドを含む。コンピューティングデバイス200は、コンピューティングデバイスと外部コンポーネントとの間の入力/出力データ流をサポートする入力/出力ポート260を更に含む。コンピューティングデバイス200は、通信ネットワークを介してプログラム及びデータを受信してもよい。
以上の図1および図2は、本願の実施例によって提供される画像処理技術の解決策の選択可能な応用シーン及び例示に過ぎず、網羅的ではないことを理解されるべきである。例えば、本願の実施例によって提供される画像処理技術の解決策は、単一のデバイス(例えば計算処理能力を有するデバイス、すなわち、本願の実施例で説明されたコンピューティングデバイス)上で実行され得、ネットワークを介して他のデバイスと通信する必要はなく、または、本願の実施例の技術の解決策は、端末側またはサーバ側の2つまたは2つ以上のコンピューティングデバイス間で対話式で実行され得、または端末側のコンピューティングデバイスとサーバ側のコンピューティングデバイスが対話式で実行され得るが、以下繰り返されない。
図3は、本願の選択可能な実施例によって提供されるサーバ110のモジュール模式図である。サーバ110は、取得モジュール302、トレーニングモジュール304、予測モジュール306および記憶モジュール308を含み得る。前記サーバ110内の各モジュール間の接続方式は、有線、無線、または両者の組合わせであり得る。任意のモジュールは、ローカル、リモート、または両者の組合わせであり得る。
取得モジュール302は、記憶モジュール308に記憶された画像を取得するために用いられ、ネットワーク120を介してデータベース140に記憶された画像を取得してもよく、ネットワーク120を介してクライアント130から画像を取得してもよい。前記画像は、空間畳み込みニューラルネットワークをトレーニングするための履歴交通シーン画像であってもよく、自動運転のためのリアタイム交通シーン画像であってもよい。前記画像は、静止画像であってもよく、動的ビデオのビデオフレーム画像であってもよい。
トレーニングモジュール304は、取得された画像に基づいて空間畳み込みニューラルネットワークをトレーニングすることができる。前記空間畳み込みニューラルネットワークは、記憶モジュール308に記憶され得る。いくつかの実施例では、前記空間畳み込みニューラルネットワークは、従来の畳み込み層及び空間連続性を有する物体を識別するための空間畳み込み層を含み得る。前記の空間畳み込みニューラルネットワークに対するトレーニングには、確率的勾配降下法および逆伝播アルゴリズムが含まれる。
予測モジュール306は、トレーニングされた空間畳み込みニューラルネットワークに基づいて画像識別を行うことができる。前記画像は、リアタイムの交通シーン画像であり得る。前記のリアタイム交通シーン画像に対する識別は自動運転に用いられる。いくつかの実施例では、予測モジュール306の予測結果を目標対象に送信し制御コマンドを生成することができる(例えば、第1の制御モジュールによって制御コマンドを生成する)。予測モジュール306の予測結果を目標対象中の第2の制御モジュールに送信し、第2の制御モジュールは、画像処理の結果に基づいて目標対象を制御して対応操作を実行させる。前記目標対象はスマートビークル、インテリジェントロボットまたは他のスマートデバイスであり得る。前記制御コマンドには、自動車の自動運転またはアシスト運転制御コマンド、ロボット操作制御コマンド、スマートデバイス実行制御コマンドなどが含まれる。前記トレーニングされた空間畳み込みニューラルネットワークは、記憶モジュール308に記憶され、またはネットワークを介してデータベース140に記憶されてもよい。
記憶モジュール308は、情報およびコマンドを記憶するために用いられる。前記情報には、空間畳み込みニューラルネットワークをトレーニングするための履歴交通シーン画像、自動運転のためのリアタイム交通シーン画像、および該画像識別システムで利用可能な任意のモデル、データなどが含まれる。
図3は、本願の実施例によって提供される画像処理技術の解決策のサービス端末(サーバ110)のモジュール模式図に過ぎないことを理解されるべきである。クライアント端末では、一部のモジュールが省略されまたはマージされ得る。例えば、クライアント端末では、クライアント端末は、取得された画像、およびトレーニングされたニューラルネットワークに基づいて、再度トレーニングすることなく予測を行うだけでよく、トレーニングモジュール304は不要である。
図4は、本願の選択可能な実施例によって提供される空間ニューラルネットワークを使用した画像識別のフローチャートである。ステップ402において、取得モジュール302は画像を取得することができる。前記画像は履歴交通シーン画像およびリアタイム交通シーン画像を含む。前記画像は静止画像であってもよく、動的ビデオ中のビデオフレーム画像であってもよい。いくつかの実施例では、前記画像はクライアント130またはデータベース140に記憶され、取得モジュール302はネットワーク120を介して取得し得る。いくつかの実施例では、前記画像は記憶モジュール308に記憶され、取得モジュール302は記憶モジュール308から直接取得し得る。
ステップ404において、トレーニングモジュール304は、取得された画像に基づいて空間畳み込みニューラルネットワークをトレーニングすることができる。前記空間畳み込みニューラルネットワークは記憶モジュール308に記憶され得る。いくつかの実施例では、前記空間畳み込みニューラルネットワークは、従来の畳み込み層および空間連続性を有する物体を識別するための空間畳み込み層を含み得る。前記の空間連続性を有する物体を識別するための空間畳み込み層は、従来の畳み込み層(最上位の隠れ層)の後段に位置してもよく、即ち、従来の畳み込み層の出力(例えば第1の畳み込み処理モジュールの出力)を空間連続性を有する物体を識別するための空間畳み込み層の入力(例えば第2の畳み込み処理モジュールの入力)とすることができる。前記の空間連続性を有する物体を識別するための空間畳み込み層は、従来の畳み込み層の中間の隠れ層の間に位置してもよく、中間の隠れ層の出力をその入力とすることができる。
空間連続性を有する物体を識別するための空間畳み込み層の選択可能な計算ステップは以下を含む。
1.取得された画像を畳み込みニューラルネットワークを介し処理して、該画像に対応する多次元テンソル(即ち画像特徴を示す多次元テンソル)を取得し、該テンソルを少なくとも1つの次元方向にそって複数のスライス(slice、即ちスライス成分)に分割り、その内に、スライスの数は2または2以上、該次元成分よりも小さい任意の整数である。
2.第1の个スライスは変更されない。
3.第1の个スライスを畳み込み、該畳み込み結果と第2のスライスとの和を利用して第2のスライスを更新し、即ち、第1の个スライスの畳み込み結果と第2のスライスとの和を新しい第2のスライスとする。
4.更新された第2のスライスを畳み込み、該畳み込み結果と第3のスライスとの和を利用して第3のスライスを更新し、即ち、更新された第2のスライスの畳み込み結果と第3のスライスとの和を新しい第3のスライスとし、このようにして、第2のスライスから最後のスライスまでのそれぞれのスライスに対応する更新結果が得られる。
上述の計算ステップは、第2の畳み込み処理モジュールによって実行され得る。
いくつかの実施例では、各スライスを畳み込む時に、すべての畳み込み層は同じネットワークパラメータを有し、例えば、共有の重み値を有し、同じ畳み込みカーネルを有する。いくつかの実施例では、一部(2つまたは2つ以上)の畳み込み層は同じネットワークパラメータを有する。前記ネットワークパラメータには、重み値及び畳み込みカーネルが含まれるが、これらに限定されない。
いくつかの実施例では、前記空間連続性を有する物体は、区画線、電柱、電柱、街灯柱などの交通シーン画像内の通常物体を含み得る。前記空間畳み込みニューラルネットワークに対するトレーニングには、確率的勾配降下法および逆伝播アルゴリズムが含まれる。
ステップ406において、予測モジュール306は、トレーニングされた空間畳み込みニューラルネットワークに基づいて画像を予測することができる。予測モジュール306は画像処理モジュールの一例であり得る。いくつかの実施例では、前記画像は、自動運転のためのリアタイム交通シーン画像であってもよい。いくつかの実施例では、前記画像は自動駐車のための駐車スペースのライブビュー画像であってもよい。いくつかの実施例では、前記画像は静止画像であってもよい。いくつかの実施例では、前記画像は動的ビデオのフレーム画像であってもよい。前記トレーニングされた畳み込みニューラルネットワークは、記憶モジュール308に記憶され、またはネットワークを介してデータベース140に記憶されてもよい。
図5は、本願の選択可能な実施例によって提供される空間畳み込み層による画像識別のフローチャートである。ステップ502において、従来の畳み込み層によって処理された画像情報を取得する。例えば、前記画像情報は、取得された車載カメラにより取得した履歴またはリアタイムの交通シーン画像、従来の畳み込みニューラルネットワークの畳み込み層によって処理された画像特徴を示す多次元テンソルであり得る。
ステップ504において、前記画像情報を任意のテンソルの方向に沿って複数のスライス(即ち複数のスライス成分)に分割し、その内に、それぞれのスライスは1つの畳み込み層に対応する。いくつかの実施例では、前記各スライスに対応する畳み込み層は同じネットワークパラメータを有し、いくつかの実施例では、2つまたは2つ以上のスライスに対応する畳み込み層は同じネットワークパラメータを有する。前記ネットワークパラメータには、重み、畳み込みカーネルが含まれるが、これらに限定されない。前記各畳み込み層は非線性活性化関数によって後処理される。前記非線性活性化関数には、ReLU関数、PReLU関数、およびSigmoid関数などが含まれる。空間畳み込み層は、従来の畳み込み層の後に設置され、従来の畳み込み層から出力された画像情報を計算することができる。垂直方向を例として、従来の畳み込み層から出力した画像情報の3次元または3次元以上のテンソルを想定し、ここで3次元のテンソルを例にして、その高さ、幅、及びチャンネル数は、それぞれH、C、Wとすると、垂直方向にそってH個のスライスに分割する。
ステップ506において、最上位層のスライスは変更されなく、最上位層のスライスを第1の畳み込み層の入力とし、得られた畳み込み結果を第2の畳み込み層に送る。いくつかの実施例では、第1のスライス(即ち最上位層のスライス)を第1の畳み込み層に送った後、サイズC×wのC個の畳み込みカーネルを畳み込み(ただし、wは畳み込みカーネルの幅である)、その出力と2番目の層のスライスを加算した後、更新された2番目の層のスライスとする。ステップ508において、任意の中間層のスライスに対して、前の層のスライスの畳み込み結果と該中間層のスライスを加算して更新された中間層のスライスとし、更新された中間層のスライスを対応する中間畳み込み層の入力とし、得られた畳み込み結果を次の層のスライスに送る。ステップ510において、最下層のスライスに対して、前の層の畳み込み結果と最下層のスライスを加算して更新された最下層のスライスとする。
より具体的には、3次元の畳み込みカーネルKを想定し、その要素K(i,j,k)はk列離れた前のスライスのi番目のチャンネルと現在スライスのj番目のチャンネルの2つの要素の間の重み値を表す。画像特徴を示す3次元テンソルはXであると、その要素X(i,j,k)はXのi番目のチャンネル、j番目の行、k番目の列の要素を表す。空間畳み込みニューラルネットワークの順次計算式は次の通りである。


ただし、
は、ReLU(Rectified Linear Units)、PReLU(Parametric Rectified Linear Units)、Sigmoid、Tanhなどの非線性活性化関数であり、
は、更新されたスライスを表し、
はn列離れた前のスライスのm番目のチャンネルと現在スライスのi番目のチャンネルの2つの要素の間の重み値を表す。
ステップ512において、システムは、更新されたスライスを組合わせ、最終の畳み込み結果を取得し、例えば、変更されない最上位層のスライス、更新された各中間層のスライス、および更新された最下層のスライスを組合わせて最終の畳み込み結果を得る。
図6は、本願の選択可能な実施例によって提供される空間畳み込み層が従来の畳み込み層の後に設置され、垂直方向に画像情報を処理する模式図である。図6に示すように、従来の畳み込み層では、画像情報が異なる畳み込み層間で転送され、同じ畳み込み層のニューロン間で情報が転送されない。空間畳み込み層では、各畳み込み層も複数のスライスに分割され、且つ上層のスライスと下層のスライスの間で情報が転送される。従って、空間畳み込み層は、空間連続性を有する物体を識別することができる。
いくつかの実施例では、空間畳み込み層が垂直上向き、垂直下向き、水平左向き及び水平右向きなどの複数の方向に沿って畳み込まれる。いくつかの実施例では、空間畳み込み層は従来の畳み込み層の間(例えば、従来の畳み込みニューラルネットワークの中間の隠れ層)に設置され得る。図7に示すように、従来の畳み込みニューラルネットワークの最上位の隠れ層(top hidden layer)の後に、順次垂直下向き、垂直上向き、水平右向きおよび水平左向きの4つの方向の空間畳み込み層が設置される。交通シーン画像が従来の畳み込みニューラルネットワークによって畳み込み処理された後、さらに空間畳み込み層によって畳み込まれ組合わせられて、最後の予測画像情報を取得する。いくつかの実施例では、同じ方向、例えば垂直下向きに、空間畳み込み処理が2回または2回以上実行され得、且つ同じ方向の畳み込み処理が間隔を空けて実行され得る。例えば、空間畳み込み層の順序は、垂直下向き、垂直上向き、垂直下向き、水平右向き、および水平左向きであってもよい。
図8は、区画線を含む交通シーン画像である。図9は従来の畳み込みニューラルネットワークを利用して前記交通シーン画像中の区画線を予測する結果の模式図である。図10は、空間畳み込みニューラルネットワークを利用して前記交通シーン画像中の区画線を予測する結果の模式図である。図9と図10を比較すると、従来の畳み込みニューラルネットワークにより画像を識別する時に、その右下隅の区画線が顕著なぼやけ現象を招くことが分かった。空間畳み込みニューラルネットワークにより処理された画像は、ぼやけ現象が大幅に改善された。この結果は、従来の畳み込みニューラルネットワークと比較して、空間畳み込みニューラルネットワークが区画線検出の方で顕著な利点を有することを示す。
図11〜図13、図14〜図16、図17〜図19は、それぞれ電柱、電柱、および街灯柱の物理シーン図、従来の畳み込みニューラルネットワークの予測結果の模式図、空間畳み込みニューラルネットワークの予測結果の模式図である。図11には電柱が含まれる。従来の畳み込みニューラルネットワークにより該実際の交通シーン画像を処理する時に、該電柱の予測に顕著な偏差がある。図12に示すように、該電柱に対する予測は顕著な不連続現象がある。これらの現象は、不十分な光線、電柱の色と近い背景または他の物体で一部隠れられたなどの原因によって発生する。図13では、空間畳み込みニューラルネットワークを使用して該交通シーン画像を識別する。その結果は、空間畳み込みニューラルネットワークが該交通シーン中の電柱を効果的に識別し、不連続現象を解消したことを示す。
図14〜図16、図17〜図19は、同様に空間畳み込みニューラルネットワークがそれぞれ電柱および街灯柱を効果的に識別するできることを示す。従来の畳み込みニューラルネットワークを使用して該実際の交通シーン画像を処理する時に、電柱および街灯柱に対する予測には顕著な偏差がある。図15および図17に示すように、電柱および街灯柱に対する予測には顕著な不連続現象がある。図16および図19では、空間畳み込みニューラルネットワークを使用して該交通シーン画像を識別する。その結果は、空間畳み込みニューラルネットワークが該交通シーン中の電柱および街灯柱を効果的に識別し、不連続現象を解消したことを示す。従来の畳み込みニューラルネットワークと比較して、より良い識別効果を有し、且つその予測効果は光線および背景からの影響が小さい。
上記の比較結果によって、従来の畳み込みニューラルネットワークと比較して、空間畳み込みニューラルネットワークは、効果的に上記交通シーン画像中の物体を検出(区画線を検出)し、前記画像中の物体を識別(人または障害物等を識別)し、前記画像中の物体を追跡(移動している車両を追跡)し、前記画像を分割(背景、道路、歩行者、車両、街灯などを分割)し、および/または前記画像を分類することができることが示される。例えば、物体検出モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像中の物体を検出し、物体識別モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像中の物体を識別し、物体追跡モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像中の物体を追跡し、セマンティックセグメンテーションモジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像を分割し、画像分類モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像を分類する。
図20は本願の選択可能な実施例によって提供される画像処理方法のフローチャートである。図20に示される方法は、主に、ステップS2000、ステップS2010、およびステップS2020を含む。任意選択で、該方法はステップS2030を更に含み得る。
S2000において、画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得。
選択可能な例では、本願の画像は具体的に区画線、歩行者、車両、桿状物および/または障害物を含む交通シーン画像であり得る。該画像が畳み込みニューラルネットワークの畳み込み層によって畳み込み処理された後に、画像特徴を示す多次元テンソルを取得し得、例えば、畳み込みニューラルネットワークの中間の隠れ層または最上位の隠れ層によって畳み込み処理された後に、画像特徴を示す3次元テンソルを取得し得、その3次元は具体的に高さ、幅、およびチャンネル数であり得る。
S2010において、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対して順次畳み込み処理を行う。
選択可能な例では、本願のスライス成分は、画像特徴を示す多次元テンソルを多次元テンソルの少なくとも1次元に対応する方向に従い順次分割して得られたものである。多次元テンソルの次元には高さ、および幅が含まれる場合に、該方向は、上から下への高さ方向、下から上への高さ方向、左から右への幅方向または右から左への幅方向などであり得る。
選択可能な例では、本願は、多次元テンソル中の1番目の層のスライス成分に対して畳み込み処理を行い、1番目の層のスライス成分の畳み込み処理の結果と2番目の層のスライス成分との和を利用して該多次元テンソル中の2番目の層のスライス成分を更新し、その後、更新された2番目の層のスライス成分に対して畳み込み処理を行い、2番目の層のスライス成分の畳み込み処理と3番目の層のスライス成分との和を利用して該多次元テンソル中の3番目の層のスライス成分を更新し、このようにして、該多次元テンソル中の最後の層のスライス成分まで更新するようにしてもよい。本願は、第1のスライス成分から最後から2番目のスライス成分までのそれぞれのスライス成分にそれぞれ畳み込み層を設置し、更新された対応にする層のスライス成分に対して畳み込み処理を行うようにしてもよく、各畳み込み層中の少なくとも2つ畳み込み層のネットワークパラメータが同じであり、通常、各畳み込み層のネットワークパラメータが同じである。加えて、本願は、多次元テンソル中の2番目の層のスライス成分から最後の層のスライス成分までの一部のスライス成分を更新する場合も排除しない。
S2020においては、少なくとも最終的に得られた畳み込み処理の結果に基づいて該画像を処理する。
選択可能な例では、本願では、最終的に得られた畳み込み処理の結果(例えば更新された多次元テンソル)は複数の応用シーンに応用され得、例えば最終的に得られた畳み込み処理の結果を利用して画像中の物体を検出し得、最終的に得られた畳み込み処理の結果を利用して画像中の物体を識別し得、最終的に得られた畳み込み処理の結果を利用し画像中の物体を追跡し得、最終的に得られた畳み込み処理の結果を利用して画像を分割し得、最終的に得られた畳み込み処理の結果を利用して画像を分類し得る。本願は最終的に得られた畳み込み処理の結果の具体的な応用シーンを限定しない。
S2030においては、画像処理の結果に応じて制御コマンドを生成し、該制御コマンドに基づいて目標対象を制御して対応する操作を実行させ、または画像処理の結果に基づいて目標対象を制御して対応操作を実行させる。
選択可能な例では、本願中の目標対象は、自動運転に基づく乗り物(例えば自動運転自動車など)またはロボットまたはロボットアームなどであり得る。本願は、目標対象の具体的な表現形式を限定しない。
図21は、本願の選択可能な実施例によって提供される画像処理システムの構造模式図である。図21に示されるシステムは、第1の畳み込み処理モジュール2100、第2の畳み込み処理モジュール2110、および画像処理モジュール2120を含む。任意選択で、該システムは、第1の制御モジュール2130および/または第2の制御モジュール2140を更に含んでも良い。
第1の畳み込み処理モジュール2100は、画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得するために用いられる。
選択可能な例では、第1の畳み込み処理モジュール2100によって畳み込み処理される画像は、具体的に区画線、歩行者、車両、桿状物および/または障害物を含む交通シーン画像であり得る。該画像が第1の畳み込み処理モジュール2100によって畳み込み処理された後、画像特徴を示す多次元テンソルを取得でき、例えば中間の隠れ層または最上位の隠れ層の第1の畳み込み処理モジュール2100によって畳み込み処理された後、画像特徴を示す3次元テンソルを取得し、その3次元は具体的に高さ、幅、およびチャンネル数であり得る。
第2の畳み込み処理モジュール2110は、前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い順次少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を行うために用いられる。
選択可能な例では、第2の畳み込み処理モジュール2110によって使用されるスライス成分は、画像特徴を示す多次元テンソルを多次元テンソルの少なくとも1次元に対応する方向に従い順次分割して得られる。多次元テンソルの次元には高さおよび幅が含まれる場合に、該方向は上から下への高さ方向、下から上への高さ方向、左から右への幅方向または右から左への幅方向などであり得る。
選択可能な例では、第2の畳み込み処理モジュール2110は、多次元テンソル中の1番目の層のスライス成分に対して畳み込み処理を行い、1番目の層のスライス成分の畳み込み処理の結果と2番目の層のスライス成分との和を利用して該多次元テンソル中の2番目の層のスライス成分を更新し、その後、第2の畳み込み処理モジュール2110は更新された2番目の層のスライス成分に対して畳み込み処理を行い、2番目の層のスライス成分の畳み込み処理と3番目の層のスライス成分との和を利用して該多次元テンソル中の3番目の層のスライス成分を更新し、このようにして、第2の畳み込み処理モジュール2110は該多次元テンソル中の最後の層のスライス成分まで更新する。第2の畳み込み処理モジュール2110は畳み込みニューラルネットワーク中の複数の畳み込み層であっても良く、第2の畳み込み処理モジュール2110は、第1のスライス成分から最後から2番目のスライス成分までのそれぞれのスライス成分に対してそれぞれ畳み込み層を設置し、第2の畳み込み処理モジュール2110は対応する畳み込み層により更新された対応する層のスライス成分に対して畳み込み処理を行うようにしてもよく、第2の畳み込み処理モジュール2110中の各畳み込み層中の少なくとも2つ畳み込み層のネットワークパラメータが同じであり、通常、第2の畳み込み処理モジュール2110中の各畳み込み層のネットワークパラメータが同じである。加えて、本願は、第2の畳み込み処理モジュール2110によって多次元テンソル中の2番目の層のスライス成分から最後の層のスライス成分までの一部のスライス成分を更新する場合も排除しない。
画像処理モジュール2120は、少なくとも最終的に得られた畳み込み処理の結果に基づいて該画像を処理するために用いられる。該画像処理モジュール2120は、物体検出モジュール、物体識別モジュール、物体追跡モジュール、セマンティックセグメンテーションモジュール、および画像分類モジュール中の少なくとも1つを含み得る。物体検出モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像中の物体を検出するために用いられる。物体識別モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像中の物体を識別するために用いられる。物体追跡モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像中の物体を追跡するために用いられる。セマンティックセグメンテーションモジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像を分割するために用いられる。画像分類モジュールは少なくとも最終的に得られた畳み込み処理の結果に基づいて画像を分類するために用いられる。
第1の制御モジュール2130は、画像処理の結果に基づいて制御コマンドを生成し、制御コマンドに基づいて目標対象を制御して対応操作を実行させるために用いられる。
第2の制御モジュール2140は、画像処理の結果に基づいて目標対象を制御して対応操作を実行させるために用いられる。
選択可能な例では、第1の制御モジュール2130及び第2の制御モジュール2140によって制御される目標対象は、自動運転に基づく乗り物(例えば自動運転自動車など)またはロボットまたはロボットアームなどであり得る。本願は第1の制御モジュール2130及び第2の制御モジュール2140によって制御される目標対象の具体的な表現形式を限定しない。
以上の説明は、本願の好ましい実施例に関するものに過ぎず、本願はここに限定されなく、当業者にとっては、本願に様々な変更及び修正を加えることができる。本願の精神および原理内で行われたすべての修正、等価置換、改善などは、本願の保護範囲に含まれることが意図される。
110 サーバ
120 ネットワーク
130 クライアント
140 データベース
210 データバス
220 プロセッサー
230 読み取り専用メモリ(ROM)
240 ランダムアクセスメモリ(RAM)
250 通信ポート
260 入力/出力ポート
270 ハードディスク

Claims (25)

  1. 画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することと、
    前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を順次行うことであって、前記スライス成分が、前記画像特徴を示す多次元テンソルを前記方向に従い順次分割して得られることと、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理することと、を含むことを特徴とする画像処理方法。
  2. 前記少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理することは、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて、前記画像中の物体の検出、前記画像中の物体の識別、前記画像中の物体の追跡、前記画像の分割、および/または前記画像の分類を行うことを含むことを特徴とする請求項1に記載の方法。
  3. 前記画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することは、
    畳み込みニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得することを含むことを特徴とする請求項1または2に記載の方法。
  4. 前記畳み込み層は、前記畳み込みニューラルネットワークの中間の隠れ層または最上位の隠れ層であることを特徴とする請求項3に記載の方法。
  5. 前記スライス成分の畳み込み処理は畳み込み層によって処理され、且つ異なるスライス成分を処理する少なくとも2つの畳み込み層のネットワークパラメータは同じであることを特徴とする請求項1〜4のいずれか1項に記載の方法。
  6. 前記前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、順次少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を行うことは、
    前記多次元テンソル中の1番目の層のスライス成分に対して畳み込み処理を行い、1番目の層のスライス成分の畳み込み処理の結果と2番目の層のスライス成分との和を利用して前記多次元テンソル中の2番目の層のスライス成分を更新することと、
    更新された2番目の層のスライスに対して畳み込み処理を行い、2番目の層のスライス成分の畳み込み処理と3番目の層のスライス成分との和を利用して前記多次元テンソル中の3番目の層のスライス成分を更新し、このようにして、前記多次元テンソル中の最後の層のスライス成分まで更新することを特徴とする請求項1〜5のいずれか1項に記載の方法。
  7. 前記多次元は、高さ、幅およびチャンネル数を含む3次元を少なくとも含むことを特徴とする請求項1〜6のいずれか1項に記載の方法。
  8. 前記方向は、上から下への高さ方向、下から上への高さ方向、左から右への幅方向、右から左への幅方向のうちの少なくとも1つを含むことを特徴とする請求項7に記載の方法。
  9. 画像処理の結果に基づいて制御コマンドを生成し、制御コマンドに基づいて目標対象を制御して対応操作を実行させ、または、
    画像処理の結果に基づいて目標対象を制御して対応操作を実行させることを特徴とする請求項1〜8のいずれか1項に記載の方法。
  10. 前記画像は、交通シーン画像を含むことを特徴とする請求項1〜9のいずれか1項に記載の方法。
  11. 前記交通シーン画像中の物体は、区画線、歩行者、車両、桿状物、障害物のうちの少なくとも1つを含むことを特徴とする請求項10に記載の方法。
  12. 画像に対して畳み込み処理を行い、画像特徴を示す多次元テンソルを取得するための第1の畳み込み処理モジュールと、
    前のスライス成分の畳み込み処理を次のスライス成分の畳み込み処理の入力とするようにして、前記画像特徴を示す多次元テンソルの少なくとも1次元に対応する方向に従い、少なくとも2つのスライス成分に対してそれぞれ畳み込み処理を順次行うための第2の畳み込み処理モジュールであって、前記スライス成分が、前記画像特徴を示す多次元テンソルを前記方向に従い順次分割して得られる第2の畳み込み処理モジュールと、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を処理するための画像処理モジュールと、を含むことを特徴とする画像処理システム。
  13. 前記画像処理モジュールは、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像中の物体を検出するための物体検出モジュールと、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像中の物体を識別するための物体識別モジュールと、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像中の物体を追跡するための物体追跡モジュールと、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を分割するためのセマンティックセグメンテーションモジュールと、
    少なくとも最終的に得られた畳み込み処理の結果に基づいて前記画像を分類するための画像分類モジュールと、の少なくとも1つを含むことを特徴とする請求項12に記載のシステム。
  14. 前記画像処理システムは畳み込みニューラルネットワークを含み、前記第1の畳み込み処理モジュールは畳み込みニューラルネットワークの畳み込み層であることを特徴とする請求項12または13に記載のシステム。
  15. 前記畳み込み層は、前記畳み込みニューラルネットワークの中間の隠れ層または最上位の隠れ層であることを特徴とする請求項14に記載のシステム。
  16. 前記第2の畳み込み処理モジュールは、畳み込みニューラルネットワークにおけるスライス成分に対して畳み込み処理を行う複数の畳み込み層を含み、且つ異なるスライス成分を処理する少なくとも2つの畳み込み層のネットワークパラメータは同じであることを特徴とする請求項12〜15のいずれか1項に記載のシステム。
  17. 前記第2の畳み込み処理モジュールは、具体的に、
    前記多次元テンソル中の1番目の層のスライス成分に対して畳み込み処理を行い、1番目の層のスライス成分の畳み込み処理の結果と2番目の層のスライス成分との和を利用して前記多次元テンソル中の2番目の層のスライス成分を更新することと、
    更新された2番目の層のスライスに対して畳み込み処理を行い、2番目の層のスライス成分の畳み込み処理と3番目の層のスライス成分との和を利用して前記多次元テンソル中の3番目の層のスライス成分を更新し、このようにして、前記多次元テンソル中の最後の層のスライス成分まで更新することに用いられることを特徴とする請求項12〜16のいずれか1項に記載のシステム。
  18. 前記多次元は、高さ、幅およびチャンネル数を含む3次元を少なくとも含むことを特徴とする請求項12〜17のいずれか1項に記載のシステム。
  19. 前記方向は、上から下への高さ方向、下から上への高さ方向、左から右への幅方向、右から左への幅方向のうちの少なくとも1つを含むことを特徴とする請求項18に記載のシステム。
  20. 画像処理の結果に基づいて制御コマンドを生成し、制御コマンドに基づいて目標対象を制御して対応操作を実行させる第1の制御モジュール、または、
    画像処理の結果に基づいて目標対象を制御して対応操作を実行させる第2の制御モジュールを更に含むことを特徴とする請求項12〜19のいずれか1項に記載のシステム。
  21. 前記画像は、交通シーン画像を含むことを特徴とする請求項12〜20のいずれか1項に記載のシステム。
  22. 前記交通シーン画像中の物体は、区画線、歩行者、車両、桿状物、障害物のうちの少なくとも1つを含むことを特徴とする請求項21に記載のシステム。
  23. コンピューターコマンドが記憶され、デバイスによって記憶媒体中のコンピューターコマンドを読取った後、デバイスは請求項1〜11のいずれか1項に記載の画像処理方法を実行することを特徴とするコンピューター可読記憶媒体。
  24. メモリ、およびプロセッサーを含むコンピューティングデバイスにおいて、前記プロセッサーによって前記メモリに記憶されたコンピュータープログラムを実行する時に、請求項1〜11中のいずれか1項に記載の画像処理方法中の各ステップを実行することを特徴とするコンピューティングデバイス。
  25. コンピューターコマンドを含み、デバイスのプロセッサーによって前記コンピューターコマンドを実行する時に、前記プロセッサーは請求項1〜11のいずれか1項に記載の画像処理方法中の各ステップを実行することを特徴とするコンピュータープログラム。
JP2020502970A 2017-07-21 2017-10-16 画像処理方法およびシステム、記憶媒体およびコンピューティングデバイス Active JP6778842B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710602674.2 2017-07-21
CN201710602674 2017-07-21
PCT/CN2017/106324 WO2019015144A1 (zh) 2017-07-21 2017-10-16 图像处理方法和系统、存储介质和计算设备

Publications (2)

Publication Number Publication Date
JP2020528616A true JP2020528616A (ja) 2020-09-24
JP6778842B2 JP6778842B2 (ja) 2020-11-04

Family

ID=65016497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502970A Active JP6778842B2 (ja) 2017-07-21 2017-10-16 画像処理方法およびシステム、記憶媒体およびコンピューティングデバイス

Country Status (2)

Country Link
JP (1) JP6778842B2 (ja)
WO (1) WO2019015144A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801282A (zh) * 2021-03-24 2021-05-14 东莞中国科学院云计算产业技术创新与育成中心 三维图像处理方法、装置、计算机设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI765336B (zh) * 2019-10-08 2022-05-21 國立清華大學 適用於卷積神經網路之記憶體優化實現之區塊式推論方法及其系統
CN111814960B (zh) * 2020-07-03 2023-10-24 国家气候中心 天气气候系统的识别方法、装置、存储介质及处理器
TWI792464B (zh) 2020-08-03 2023-02-11 美商Cmc材料股份有限公司 含二氧化鈦之釕化學機械拋光漿液及其用於拋光含釕基板之方法
CN112215243A (zh) * 2020-10-30 2021-01-12 百度(中国)有限公司 图像特征提取方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9904874B2 (en) * 2015-11-05 2018-02-27 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
CN105844653B (zh) * 2016-04-18 2019-07-30 深圳先进技术研究院 一种多层卷积神经网络优化系统及方法
CN106919921B (zh) * 2017-03-06 2020-11-06 重庆邮电大学 结合子空间学习与张量神经网络的步态识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801282A (zh) * 2021-03-24 2021-05-14 东莞中国科学院云计算产业技术创新与育成中心 三维图像处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2019015144A1 (zh) 2019-01-24
JP6778842B2 (ja) 2020-11-04

Similar Documents

Publication Publication Date Title
JP6778842B2 (ja) 画像処理方法およびシステム、記憶媒体およびコンピューティングデバイス
US20210325882A1 (en) Sparse Convolutional Neural Networks
WO2020244653A1 (zh) 物体识别方法及装置
CN111666921B (zh) 车辆控制方法、装置、计算机设备和计算机可读存储介质
US20180157972A1 (en) Partially shared neural networks for multiple tasks
US20190138826A1 (en) Spatial and Temporal Information for Semantic Segmentation
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
CN109214986A (zh) 从下采样的低分辨率lidar 3-d点云和摄像机图像生成高分辨率3-d点云
CN109215067A (zh) 基于cnn和crf模型生成高分辨率3-d点云
CN111626128A (zh) 一种基于改进YOLOv3的果园环境下行人检测方法
CN108830171B (zh) 一种基于深度学习的智能物流仓库引导线视觉检测方法
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN112991413A (zh) 自监督深度估测方法和系统
CN111368972B (zh) 一种卷积层量化方法及其装置
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
CN111627050B (zh) 一种目标跟踪模型的训练方法和装置
JP6980289B2 (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
CN111461221B (zh) 一种面向自动驾驶的多源传感器融合目标检测方法和系统
CN110176024B (zh) 在视频中对目标进行检测的方法、装置、设备和存储介质
WO2022165614A1 (zh) 一种路径构建方法、装置、终端及存储介质
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
KR102143034B1 (ko) 객체의 미래 움직임 예측을 통한 동영상에서의 객체 추적을 위한 방법 및 시스템
CN115984586A (zh) 一种鸟瞰视角下的多目标跟踪方法及装置
DE112022002652T5 (de) Automatische erzeugung einer vektorkarte für die fahrzeugnavigation
EP3352112A1 (en) Architecture adapted for recognising a category of an element from at least one image of said element

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200116

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20200508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200508

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6778842

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250