JP2023049041A - 等方性畳み込みニューラルネットワークを介した画像処理 - Google Patents
等方性畳み込みニューラルネットワークを介した画像処理 Download PDFInfo
- Publication number
- JP2023049041A JP2023049041A JP2022154538A JP2022154538A JP2023049041A JP 2023049041 A JP2023049041 A JP 2023049041A JP 2022154538 A JP2022154538 A JP 2022154538A JP 2022154538 A JP2022154538 A JP 2022154538A JP 2023049041 A JP2023049041 A JP 2023049041A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- sensor
- size
- image
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims description 38
- 238000002604 ultrasonography Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 3
- 238000012549 training Methods 0.000 description 28
- 238000010801 machine learning Methods 0.000 description 27
- 230000015654 memory Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 21
- 238000013500 data storage Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000003287 optical effect Effects 0.000 description 16
- 238000003860 storage Methods 0.000 description 14
- 238000004519 manufacturing process Methods 0.000 description 11
- 238000003384 imaging method Methods 0.000 description 9
- 230000005291 magnetic effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000002156 mixing Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000011524 similarity measure Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000002860 competitive effect Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000005355 Hall effect Effects 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- UBAZGMLMVVQSCD-UHFFFAOYSA-N carbon dioxide;molecular oxygen Chemical compound O=O.O=C=O UBAZGMLMVVQSCD-UHFFFAOYSA-N 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010413 gardening Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005865 ionizing radiation Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011172 small scale experimental method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】画像を処理するための畳み込みニューラルネットワークシステムを開示する。【解決手段】畳み込みニューラルネットワークシステムは、センサ及びコントローラを含み、コントローラは、センサから画像を受け取ることと、画像をそれぞれサイズpの複数のパッチに分割することと、第1の畳み込み層を介して、サイズpに等しいストライドを有しかつサイズpである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を行うように構成されている。【選択図】図1
Description
技術分野
本開示は、概して、等方性畳み込みニューラルネットワークを用いた画像処理に関する。より具体的には、本願は、等方性畳み込みニューラルネットワークにおいてパラメータを低減することを可能とするための改善に関する。
本開示は、概して、等方性畳み込みニューラルネットワークを用いた画像処理に関する。より具体的には、本願は、等方性畳み込みニューラルネットワークにおいてパラメータを低減することを可能とするための改善に関する。
背景
対象物認識は、画像を所定数のクラスに分類することを含む、コンピュータビジョンにおける基本的な問題である。畳み込みニューラルネットワーク(CNN)は、ラベリングされた大規模なデータセット及び強力な計算インフラストラクチャを利用することができるため、この問題についての最新の成果を達成している。CNNは、トレーニング画像から弁別可能な分類特徴を自動的に抽出し、これらを組み合わせて使用して、複雑な対象物を認識している。これにより、CNNは、ImageNetのような大規模なデータセットに対する従来のコンピュータビジョンアプローチを大幅に上回る性能を可能にしている。これは、大規模なデータセットが通常、ヒューリスティックな機能に依拠しているからである。
対象物認識は、画像を所定数のクラスに分類することを含む、コンピュータビジョンにおける基本的な問題である。畳み込みニューラルネットワーク(CNN)は、ラベリングされた大規模なデータセット及び強力な計算インフラストラクチャを利用することができるため、この問題についての最新の成果を達成している。CNNは、トレーニング画像から弁別可能な分類特徴を自動的に抽出し、これらを組み合わせて使用して、複雑な対象物を認識している。これにより、CNNは、ImageNetのような大規模なデータセットに対する従来のコンピュータビジョンアプローチを大幅に上回る性能を可能にしている。これは、大規模なデータセットが通常、ヒューリスティックな機能に依拠しているからである。
概要
第1の例示的な実施形態は、畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法を開示する。本方法は、画像を受け取ることと、画像をそれぞれサイズpの複数のパッチに分割することと、第1の畳み込み層を介して、サイズpに等しいストライドを有しかつサイズpである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を含む。
第1の例示的な実施形態は、畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法を開示する。本方法は、画像を受け取ることと、画像をそれぞれサイズpの複数のパッチに分割することと、第1の畳み込み層を介して、サイズpに等しいストライドを有しかつサイズpである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を含む。
第2の例示的な実施形態は、畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法を開示する。コンピュータ実装された方法は、サイズL×Wの画像を受け取ることと、各パッチを組み合わせたサイズがL×Wに等しい複数のパッチに画像を分割することと、第1の畳み込み層を介して、パッチサイズに等しいサイズ及びパッチサイズに等しいストライドを有する特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を含む。
第3の例示的な実施形態は、センサ及びコントローラを含む畳み込みニューラルネットワークシステムを開示しており、当該コントローラは、センサから画像を受け取ることと、画像をそれぞれサイズpの複数のパッチに分割することと、第1の畳み込み層を介して、サイズpに等しいストライドを有しかつサイズpである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用することにより特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を行うように構成されている。
詳細な説明
必要に応じて、本発明の詳細な実施形態を本明細書に開示するが、開示する実施形態は、種々の代替的な形態により実施可能な本発明の単なる例示であることを理解されたい。図面は、必ずしも縮尺通りに描かれておらず、いくつかの特徴は、特定の構成要素の詳細を示すために誇張又は縮小されていることがある。従って、本明細書に開示する特定の構造的及び機能的な詳細は、限定として解釈されるべきではなく、本発明の種々の利用を当業者に教示するための代表的な基礎として解釈されるべきである。
必要に応じて、本発明の詳細な実施形態を本明細書に開示するが、開示する実施形態は、種々の代替的な形態により実施可能な本発明の単なる例示であることを理解されたい。図面は、必ずしも縮尺通りに描かれておらず、いくつかの特徴は、特定の構成要素の詳細を示すために誇張又は縮小されていることがある。従って、本明細書に開示する特定の構造的及び機能的な詳細は、限定として解釈されるべきではなく、本発明の種々の利用を当業者に教示するための代表的な基礎として解釈されるべきである。
「実質的に」なる用語は、本明細書においては、開示する又は特許請求する実施形態を説明するために使用され得る。「実質的に」なる用語は、本開示において開示する又は特許請求する値又は相対特性が変化する可能性を有することを示す。この場合、「実質的に」とは、値又は相対特性の変化量が、当該値又は相対特性の±0%以内、±0.1%以内、±0.5%以内、±1%以内、±2%以内、±3%以内、±4%以内、±5%以内又は10%以内であることを意味し得る。
センサなる用語は、物理的属性を検出又は測定し、これを記録し、表示し、又は、他の方式によりこれに応答するデバイスを指す。センサなる用語は、光学センサ、光センサ、撮像センサ若しくは光子センサ(例えば、電荷結合素子(CCD)、CMOS能動ピクセルセンサ(APS)、赤外線センサ(IR)、CMOSセンサ)、音響センサ、音声センサ、又は、振動センサ(例えば、マイクロフォン、ジオフォン、ハイドロフォン)、自動車センサ(例えば、車輪速度、駐車、レーダ、酸素、死角、トルク)、化学センサ(例えば、イオン感応型電界効果トランジスタ(ISFET)、酸素、二酸化炭素、化学抵抗器、ホログラフィックセンサ)、電流、電位、磁気又は無線周波数センサ(例えば、ホール効果、磁力計、磁気抵抗、ファラデーカップ、ガルバノメータ)、環境、天候、水分若しくは湿分センサ(例えば、気象レーダ、放射計)、流量若しくは流体速度センサ(例えば、質量空気流量センサ、風向計)、電離放射線若しくは亜原子粒子センサ(例えば、イオン化チャンバ、ガイガーカウンタ、中性子検出器)、ナビゲーションセンサ(例えば、全地球測位システム(GPS)センサ、磁気流体(MHD)センサ)、位置、角度、変位、距離、速度若しくは加速度センサ(例えば、LiDAR、加速度計、ウルトラワイドバンドレーダ、圧電センサ)、力、密度若しくはレベルセンサ(例えば、ストレインゲージ、核密度ゲージ)、サーマル、熱若しくは温度センサ(例えば、赤外線温度計、パイロメータ、熱電対、サーミスタ、マイクロ波放射計)、又は、物理的属性を検出若しくは測定し、記録し、表示し又は他の形式によりこれに応答する目的を有する他のデバイス、モジュール、機械又はサブシステムを含む。
図1は、ニューラルネットワークをトレーニングするシステム100を示している。システム100は、ニューラルネットワークのためのトレーニングデータ192にアクセスする入力インタフェースを含み得る。例えば、図1に示されているように、入力インタフェースは、データストレージ190からトレーニングデータ192にアクセスすることができるデータストレージインタフェース180によって構成されるものとしてよい。例えば、データストレージインタフェース180は、メモリインタフェース又は持続的ストレージインタフェース、例えば、ハードディスクインタフェース又はSSDインタフェースであるものとしてよく、また、Bluetooth、Zigbee若しくはWi‐Fiインタフェース、又は、イーサネットインタフェース若しくは光ファイバインタフェースなどのパーソナルエリアネットワークインタフェース、ローカルエリアネットワークインタフェース若しくはワイドエリアネットワークインタフェースであるものとしてもよい。データストレージ190は、ハードドライブ又はSSDなどの、システム100の内部データストレージだけでなく、外部データストレージ、例えばネットワークアクセス可能なデータストレージであるものとしてもよい。
いくつかの実施形態においては、データストレージ190は、システム100によってデータストレージ190からアクセスされ得るニューラルネットワークの未トレーニングバージョンのデータ表現194をさらに含み得る。ただし、トレーニングデータ192及び未トレーニングのニューラルネットワークのデータ表現194はまた、それぞれ、種々のデータストレージから、例えば、データストレージインタフェース180の異なるサブシステムを介してもアクセスされ得ることが理解されよう。各サブシステムは、データストレージインタフェース180のための上述したタイプのものから構成可能である。他の実施形態においては、未トレーニングのニューラルネットワークのデータ表現194は、ニューラルネットワークの設計パラメータに基づいてシステム100によって内部で生成されることもあり、従って、データストレージ190に明示的に記憶されていないこともある。システム100はさらに、プロセッササブシステム160を含むものとしてよく、このプロセッササブシステム160は、システム100の動作中に、トレーニングすべきニューラルネットワークの層スタックの代替物として反復機能を提供するように構成可能である。一実施形態においては、置換される層スタックのそれぞれの層は、相互に共有される重みを有し得るものであり、前の層の出力を入力として受け取ることもあり、又は、層スタックの第1の層である場合には層スタックの入力の一部を初期活性体として受け取ることもある。システムはまた、複数の層を含み得る。プロセッササブシステム160は、トレーニングデータ192を使用してニューラルネットワークを反復的にトレーニングするようにさらに構成され得る。ここで、プロセッササブシステム160によるトレーニングの反復は、順方向伝搬部分及び逆方向伝搬部分を含み得る。プロセッササブシステム160は、実行可能な順方向伝搬部分を定義する他の演算中に、反復関数が固定点に収束する反復関数の平衡点を決定することによって順方向伝搬部分を実行するように構成可能であり、ここで、当該平衡点の決定は、数値的求根アルゴリズムを使用して反復関数の根解からその入力を差し引いた解を求めることと、ニューラルネットワークにおける層スタックの出力の代替物として平衡点を形成することと、を含む。システム100は、さらに、トレーニング済みニューラルネットワークのデータ表現196を出力するための出力インタフェースを含むものとしてよく、ここでのデータは、トレーニング済みモデルデータ196とも称され得る。例えば、図1にも示されているように、出力インタフェースは、この実施形態においては入出力(「IO」)インタフェースであるデータストレージインタフェース180によって構成可能であり、当該インタフェースを介してトレーニング済みモデルデータ196をデータストレージ190に記憶することができる。例えば、「未トレーニング」のニューラルネットワークを定義するデータ表現194は、トレーニング中又はトレーニング後に、トレーニング済みのニューラルネットワークのデータ表現196によって少なくとも部分的に置換することができ、これにより、ニューラルネットワークのパラメータ、例えば、重み、ハイパーパラメータ及び他のタイプのニューラルネットワークパラメータが、トレーニング済みデータ192についてのトレーニングを反映するように、適応化可能となる。このことは、図1においても、データストレージ190上の同一のデータレコードを指している参照番号194、196によって示されている。他の実施形態においては、データ表現196は、「未トレーニングの」ニューラルネットワークを定義するデータ表現194とは別個に記憶され得る。いくつかの実施形態においては、出力インタフェースは、データストレージインタフェース180とは別個のものであってもよいが、一般的にはデータストレージインタフェース180に関して上述したタイプのものであってよい。
図2は、等方性畳み込みニューラルネットワーク200のフロー図であり、ここで、特徴マップにおけるチャネルの数及び特徴マップのサイズは、全ての演算を通して一定に維持される。ステップ202において、コントローラは、畳み込みを実行する。当該畳み込みは、ピクセル単位の畳み込み(例えば1×1)又はパッチ単位の畳み込み(例えばp×p)であるものとしてよい。畳み込みがp×pのようなパッチ単位で行われる場合、重なりが存在しないように、ストライドは、pとされる。ステップ204において、コントローラは、特徴マップの各要素に適用される非線形関数を含む活性化関数を実行する。活性化関数は、ガウス誤差線形ユニット(GELU)として示されているが、整流線形ユニット(ReLU)、指数線形ユニット(ELU)、漏洩整流線形ユニット(LeakyReLU)、スケーリング指数線形ユニット(SELU)、又は、他の活性化関数であるものとしてもよい。ステップ206において、コントローラは、バッチ全体にわたる値の平均化であるバッチ正規化関数を実行する。ステップ202、204及び206は、畳み込み層を構成している。
ステップ208においては、深さ単位畳み込みが行われる。ステップ210において、コントローラは、ステップ204において説明したように活性化関数を実行する。ステップ212において、コントローラは、バッチ全体にわたる値の平均化であるバッチ正規化関数を実行する。ステップ208、210及び212は、深さ単位畳み込み層を構成している。コントローラは、任意選択手段として、深さ単位畳み込み層の入力特徴マップを出力に追加することができる。
ステップ214においては、点単位畳み込みが行われるが、この畳み込みは、ピクセル単位の畳み込み(例えば1×1)であるものとしてよい。ステップ216において、コントローラは、ステップ204において説明したように活性化関数を実行する。ステップ218において、コントローラは、バッチ全体にわたる値の平均化であるバッチ正規化関数を実行する。ステップ214、216及び218は、点単位畳み込み層を構成している。コントローラは、任意選択手段として、ピクセル単位畳み込み層の入力特徴マップを出力に追加することができる。
ステップ220において、コントローラは、特徴マップにおける全てのピクセルにわたる平均化を行う。ステップ222において、コントローラは、クラスを予測するための線形変換を実行する。
深さ単位畳み込みと点単位畳み込みとを交互に組み合わせることの利点の1つに、従来のCNNに関してパラメータが低減されることが含まれる。本明細書において提示するアーキテクチャは、3つの段階、即ち、(1)処理のための高次元空間に入力を投影するパッチ埋め込みと、(2)完全畳み込みブロックのアプリケーションの反復と、(3)グローバルプーリング及びこれに続く線形分類器(例えばソフトマックス)と、を含む。第1のステップ(1)は、ストライドpを有する3→hチャネルからのp×pカーネルの畳み込みを含むものとしてよく、ここで、pは、パッチサイズである。次いで、ステップ(2)においては、h→hチャネルからのk×kカーネルの深さ単位で分離可能な畳み込み(入力次元と出力次元とが同一になるようにパディングが行われる)及びこれに続くh→hチャネルからの1×1カーネルの畳み込みが含まれる。各畳み込みに続いて、上述した活性化関数(例えばGELU)及び活性化後バッチ正規化関数(例えばBatchNorm)が行われる。
「混合後」。深さ単位で分離可能な畳み込みは、比較的大きいカーネルサイズk、例えば9のカーネルサイズを有する改善された結果を生じた。当該層は、大きいカーネルサイズに起因する離隔した位置からの空間情報を含む「空間情報」を混合する。次に、1×1畳み込みにより「チャネル情報」が混合される。これらのことは、MLPミキサのトークン混合ステップ及びチャネル混合ステップに類似している。
「等方性」。パッチ埋め込みステップの後、ネットワークの内部解像度は、常にh/p×w/pとなる。高解像度の内部表現について大きいカーネルサイズにおける畳み込みを実行することは、高価となり得る。しかし、フーリエ領域においては、当該演算の実行時間は、カーネルサイズとは無関係であり、フレームワークがFFT処理に自動的に切り替わる選択深層学習フレームワークにおいてこれを活用することができる。
図3には、データに注釈を付すシステムを実装したデータ注釈システム300が示されている。データ注釈システム300は、少なくとも1つのコンピューティングシステム302を含み得る。コンピューティングシステム302は、メモリユニット308に動作可能に接続された少なくとも1つのプロセッサ304を含み得る。プロセッサ304は、中央処理ユニット(CPU)306の機能を実装した1つ又は複数の集積回路を含み得る。CPU306は、命令セット、例えば、x86、ARM、パワー又はMIPS命令セットファミリのうちのいずれかを実装した市販入手可能な処理ユニットであるものとしてよい。動作中に、CPU306は、メモリユニット308に記憶されていてそこから取り出されたプログラム命令を実行することができる。記憶されていたプログラム命令は、本明細書に記載の動作を実行するためにCPU306の動作を制御するソフトウェアを含み得る。いくつかの例においては、プロセッサ304は、CPU306、メモリユニット308、ネットワークインタフェース及び入出力インタフェースの機能を単一の集積デバイスに集積したシステムオンチップ(SoC)であるものとしてよい。コンピューティングシステム302は、種々の態様の動作を管理するオペレーティングシステムを実装することができる。
メモリユニット308は、命令及びデータを記憶した揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリは、ソリッドステートメモリ、例えば、NANDフラッシュメモリ、磁気記憶媒体及び光学記憶媒体、又は、コンピューティングシステム302が非アクティブ状態のとき若しくは電力を喪失したときにデータを保持する他の任意の適当なデータストレージデバイスを含み得る。揮発性メモリは、プログラム命令及びデータを記憶したスタティックランダムアクセスメモリ及びダイナミックランダムアクセスメモリ(RAM)を含み得る。例えば、メモリユニット308は、機械学習モデル310又はアルゴリズム、機械学習モデル310用のトレーニングデータセット312、ロー(raw)ソースデータセット316を記憶することができる。モデル310は、本開示に記載されかつ図2に示されている畳み込みニューラルネットワークを含み得る。また、トレーニングデータセット312は、本開示に記載されかつ図2、図4、図6、図7、図8、図9及び図10に示されている特徴及び特徴抽出器を含み得る。また、ローソース316は、本開示に記載されかつ図6、図11、図12、図13、図14、図15及び図16に示されている複数の入力モダリティからのデータを含み得る。
コンピューティングシステム302は、外部のシステム及びデバイスとの通信を提供するように構成されたネットワークインタフェースデバイス322を含み得る。例えば、ネットワークインタフェースデバイス322は、IEEE(Institute of Electrical and Electronics Engineers)802.11規格ファミリによって規定されている有線及び/又は無線のイーサネットインタフェースを含み得る。ネットワークインタフェースデバイス322は、セルラネットワーク(例えば、3G、4G、5G)との通信のためのセルラ通信インタフェースを含み得る。ネットワークインタフェースデバイス322は、さらに、外部ネットワーク324又はクラウドへの通信インタフェースを提供するように構成可能である。
外部ネットワーク324は、ワールドワイドウェブ又はインターネットと称され得る。外部ネットワーク324は、コンピューティングデバイス間の標準的な通信プロトコルを確立することができる。外部ネットワーク324によって、コンピューティングデバイスとネットワークとの間において情報及びデータを容易に交換することが可能となり得る。1つ又は複数のサーバ330が外部ネットワーク324と通信することができる。
コンピューティングシステム302は、デジタル及び/又はアナログの入力及び出力を提供するように構成可能な入出力(I/O)インタフェース320を含み得る。I/Oインタフェース320は、外部デバイスとの通信のための付加的なシリアルインタフェース(例えば、ユニバーサルシリアルバス(USB)インタフェース)を備え得る。
コンピューティングシステム302は、システム300が制御入力を受け取ることを可能にする任意のデバイスを含み得るマンマシンインタフェース(HMI)デバイス318を含み得る。入力デバイスの例には、人間側のインタフェースとなる入力装置、例えば、キーボード、マウス、タッチスクリーン、音声入力デバイス、及び、他の同様のデバイスが含まれ得る。コンピューティングシステム302は、ディスプレイデバイス332を含み得る。コンピューティングシステム302は、グラフィックス及びテキスト情報をディスプレイデバイス332に出力するためのハードウェア及びソフトウェアを含み得る。ディスプレイデバイス332は、電子ディスプレイスクリーン、プロジェクタ、プリンタ、又は、ユーザ若しくはオペレータに情報を表示する他の適当なデバイスを含むものとしてよい。コンピューティングシステム302は、さらに、ネットワークインタフェースデバイス322を介したリモートHMI及びリモートディスプレイデバイスとの対話を可能にするように構成され得る。
システム300は、1つ又は複数のコンピューティングシステムを使用して実装され得る。当該例においては、説明した特徴の全てを実装した単一のコンピューティングシステム302を示しているが、種々の特徴及び機能が相互に通信を行う複数のコンピューティングユニットによって別個に実現され得ることが意図されている。選択される特定のシステムアーキテクチャは、種々の要因に依存し得る。
システム300は、ローソースデータセット316を分析するように構成された機械学習アルゴリズム310を実装することができる。ローソースデータセット316は、機械学習システムの入力データセットの典型であり得るローセンサデータ又は未処理のセンサデータを含み得る。ローソースデータセット316は、動画像、動画像セグメント、静止画像、テキストに基づく情報、及び、ローセンサデータ又は部分的に処理されたセンサデータ(例えば、対象物のレーダマップ)を含み得る。いくつかの例においては、機械学習アルゴリズム310は、所定の関数を実行するように設計されたニューラルネットワークアルゴリズムであるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、自動車用途において、動画像内の歩行者を識別するように構成可能である。
コンピュータシステム300は、機械学習アルゴリズム310に対するトレーニングデータセット312を記憶することができる。トレーニングデータセット312は、機械学習アルゴリズム310をトレーニングするための、以前に構築されたデータのセットを表現することができる。トレーニングデータセット312は、ニューラルネットワークアルゴリズムに関連付けられた重み係数を学習するために機械学習アルゴリズム310によって使用可能である。トレーニングデータセット312は、機械学習アルゴリズム310が学習プロセスを介して複製を試みる対応する成果又は結果を有するソースデータのセットを含むものとしてよい。この実施例においては、トレーニングデータセット312は、歩行者の有無及び対応する存在情報及び位置情報を含む又は含まないソース動画像を含み得る。当該ソース動画像は、歩行者が識別される種々のシナリオを含み得る。
機械学習アルゴリズム310は、トレーニングデータセット312を入力として使用する学習モードにおいて動作可能である。機械学習アルゴリズム310は、トレーニングデータセット312からのデータを使用して、複数回の反復にわたって実行され得る。各反復のたびに、機械学習アルゴリズム310は、達成された結果に基づいて内部重み付け係数を更新することができる。例えば、機械学習アルゴリズム310は、出力結果(例えば、注釈)を、トレーニングデータセット312に含まれる出力結果(例えば、注釈)と比較することができる。トレーニングデータセット312は、予想された結果を含むので、機械学習アルゴリズム310は、性能がいつ受容可能となるかを決定することができる。機械学習アルゴリズム310が所定の性能レベル(例えば、トレーニングデータセット312に関連付けられた成果との100%の一致)に到達した後、機械学習アルゴリズム310は、トレーニングデータセット312にないデータを使用して実行することができる。トレーニング済み機械学習アルゴリズム310は、新たなデータセットに適用され、これにより、注釈付きデータを生成することができる。
機械学習アルゴリズム310は、ローソースデータ316内の特定の特徴を識別するように構成され得る。ローソースデータ316は、注釈結果が所望される複数のインスタンス又は入力データセットを含むものとしてよい。例えば、機械学習アルゴリズム310は、動画像内の歩行者の存在を識別し、その発生に注釈を付すように構成可能である。機械学習アルゴリズム310は、ローソースデータ316を処理して特定の特徴の存在を識別するようにプログラミングされ得る。機械学習アルゴリズム310は、ローソースデータ316内の特徴を、所定の特徴(例えば、歩行者)として識別するように構成されるものとしてよい。ローソースデータ316は、種々のソースから導出可能である。例えば、ローソースデータ316は、機械学習システムによって収集された実際の入力データであるものとしてよい。ローソースデータ316は、システムのテストのために機械で生成され得る。一例として、ローソースデータ316は、カメラからのロー動画像を含むものとしてよい。
この例においては、機械学習アルゴリズム310は、ローソースデータ316を処理し、画像の表現の指標を出力することができる。出力には、画像の拡張表現を含めることもできる。機械学習アルゴリズム310は、生成された各出力に対する信頼度レベル又は信頼度係数を生成することができる。例えば、所定の高信頼度閾値を超える信頼度値は、識別された特徴が特定の特徴に対応することを機械学習アルゴリズム310が確信していることを示し得る。低信頼度閾値よりも低い信頼度値は、特定の特徴が存在することについてのいくらかの不確実性を機械学習アルゴリズム310が有することを示し得る。
図4は、表1に記載されているパッチサイズ14を有するConvMixer-1024/20に関するパッチ埋め込み重みビジュアライゼーション400のグラフィック表現である。
例示的な機械アーキテクチャ及び機械可読媒体。図5は、システムのインプリメンテーション又は本明細書に開示する方法の実行に適した電子コンピューティングシステムのブロック図である。図5の機械は、本開示におけるコンセプトの実施に適したスタンドアローンの装置として示されている。上述したサーバの態様に関して、データセンタにおいて動作する複数の機械、クラウドアーキテクチャの一部分などを使用することができる。サーバの態様においては、図示の機能及び装置の全てが利用されるわけではない。例えば、ユーザがサーバ及び/又はクラウドアーキテクチャとの対話に使用するシステム、デバイスなどは、スクリーン、タッチスクリーン入力などを有し得るが、サーバは、スクリーン、タッチスクリーン、カメラなどを有しないことが多く、典型的には、適当な入出力の態様を有する接続システムを介してユーザとの対話を行う。従って、以下のアーキテクチャは、複数のタイプのデバイス及び機械を包含するものと解釈されるべきであり、種々の態様として、その形状要因及び目的に応じて、いずれかの特定のデバイス内又は機械内に存在してもよいし又は存在しなくてもよい(例えば、サーバがカメラを有することは稀であり、一方、ウェアラブルが磁気ディスクを有することは稀である)。なお、図5の例示的な説明は、当業者が、ハードウェア及びソフトウェアの適当な組合せによって、使用される特定のデバイス、機械などについての図示の実施形態を適当に変更しながら、前述した実施形態をどのように実施するかを決定し得るようにすることに適している。
1つの機械しか図示していないが、用語「機械」は、本明細書において論じる方法論のうちのいずれか1つ又は複数を実行するための1つの命令セット(又は複数の命令セット)を個別に又は統合して実行する機械の任意の集合体を含むものであることも考慮されたい。
機械500の例には、少なくとも1つのプロセッサ502(例えば、コントローラ、マイクロコントローラ、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、テンソル処理ユニット(TPU)、高度処理ユニット(APU)、又は、これらの組合せ)、リンク508を介して相互に通信する1つ又は複数のメモリ、例えばメインメモリ504、スタティックメモリ506又は他のタイプのメモリが含まれる。リンク508は、バス又は他のタイプの接続チャネルであるものとしてよい。機械500は、さらに、任意のタイプのディスプレイを含むグラフィックディスプレイユニット510などの、他の任意選択手段としての態様を含むものとしてよい。機械500はまた、他の任意選択手段としての態様、例えば、英数字入力デバイス512(例えば、キーボード、タッチスクリーンなど)、ユーザインタフェース(UI)ナビゲーションデバイス514(例えば、マウス、トラックボール、タッチデバイスなど)、ストレージユニット516(例えば、ディスクドライブ又は他の記憶装置)、信号発生デバイス518(例えば、スピーカ)、センサ521(例えば、全地球測位センサ、加速度計、マイクロフォン、カメラなど)、出力コントローラ528(1つ以上の他のデバイスに接続及び/又は通信するための有線接続部又は無線接続部、例えば、ユニバーサルシリアルバス(USB)、近距離無線通信(NFC)、赤外線(IR)、シリアル/パラレルバスなど)、並びに、1つ以上のネットワーク526に接続されるネットワークインタフェースデバイス520及び/又は1つ以上のネットワーク526を介して通信するためのネットワークインタフェースデバイス520(例えば、有線及び/又は無線)を含み得る。
種々のメモリ(即ち504、506及び/又はプロセッサ502のメモリ)及び/又はストレージユニット516は、本明細書に記載する方法論又は機能のうちのいずれか1つ又は複数を具現化し又は利用するための命令及びデータ構造(例えば、ソフトウェア)524の1つ又は複数のセットを記憶することができる。これらの命令は、プロセッサ502によって実行される際に、種々の演算部に開示している実施形態を行わせるためのものである。
図6は、長さ602及び幅604(ここでは、n×nとして示されている)、パッチ長さ606及びパッチ幅608によって規定されるパッチサイズ(ここでは、p×pとして示されている)、並びに、チャネル深さ610(ここでは、cとして示されている)を有する画像600のグラフィック表現である。例えば、画像がRGB(赤色、緑色、青色)を基礎とする画像である場合、cは、入力チャネルの数又はRGBを表す3であり得る。ただし、画像がどのように表現されるのかに基づいてより多くの又はより少ないチャネルを有し得る場合、音声、IR、レーダ、LiDAR、磁気による撮像などのセンサによって生成された画像が3つより多くのチャネルを有し得ることが考察される。
図7は、図6の画像のパッチ埋め込みのための重みベクトルのグラフィック表現である。ここで、hは、アーキテクチャに依存する特徴マップにおけるチャネルの数である。パッチとストライドとが等しいので重なりは存在せず、y1は、画像の左上のパッチに対応し、y2は、画像の中央上のパッチに対応し、y3は、画像の右上のパッチに対応する、といった形式となっており、その他も同様である。
図8は、各パッチのチャネル深さの2次元レイアウト800のグラフィック表現である。2Dレイアウトを観察することの利点は、点単位畳み込みが各ピクセルに別々に作用し、従って、空間的関係が考慮されないので、より効率的になり得る、密な行列乗算が可能となることを含む。
図9は、チャネル深さを有する各特徴マップの3次元レイアウト900のグラフィック表現である。3Dレイアウトは、深さがhによって表現されるように空間的関係を維持し、ここで、hは、パッチ埋め込みの次元であり、又は、換言すると、特徴マップにおけるチャネル数である。
図10は、ConvMixer-1536/20の進行方向において深くなる層のうち64個の深さ単位畳み込みカーネルの特定のサブセットのグラフィック表現である。画像は、(a)層1、(b)層4、(c)層6、(d)層9、(e)層11、(f)層13、(g)層15、(h)層17、及び、(i)層19に対応する。
畳み込みは、大抵の場合、従来のピラミッド型設計を行っていないネットワークにおいて、自己注意型及びより一般的な線形変換によって置き換えられるようになってきている。これらのネットワークは、より緩やかな誘導バイアスを有しており、そのため、多くの場合に、より多数のデータを必要とする。これらのネットワークには、重みの共有を増加させ、プーリングを回避し、離隔した空間位置からの情報を混合する傾向がある。本開示は、自己注意型及びより一般的な線形変換を使用して犠牲となる属性を保持しつつ、データ効率とトレーサビリティとを向上させる、シンプルでありながら競争力のある完全畳み込みアーキテクチャを提供する。当該シンプルでありながら競争力のある完全畳み込みアーキテクチャ“ConvMixer”は、事前学習を行わずに、典型的にはパラメータの一部を用いて、ImageNet‐1K及びCIFAR‐10において高い精度を達成する。例えば、672Kのパラメータを用いたCIFAR‐10で96.3%の精度、14.6Mのパラメータを用いたImageNet-1Kで77.5%top-1の精度が実現されている。
畳み込みニューラルネットワークは、長年にわたってコンピュータビジョンタスクに対する主要なアプローチとなっている。しかし、近年、視覚変換器が登場したことによって、関心は、畳み込みに代わる新しい演算子を提示する自己注意型に大きい焦点を当てた代替的なアーキテクチャに移ってきている。こうしたアーキテクチャは、現行の畳み込みネットワークよりも単純であることが多く、例えば、これらは(ストリッピング及びプーリングのような)ダウンサンプリングを排除し、これに代えて、全て同等のサイズである(又は等方性を有する)特徴マップに反復適用される同一のブロックを含む傾向にある。
比較的複雑な畳み込みネットワークからのこうした逸脱は、パッチ埋め込みの導入と共に到来した。即ち、第1の層は、重なりのない入力の正方形領域(図6)と等しく適用される線形変換である。次に、モデルは、元の画像でなく、パッチ埋め込みを処理する(図7)。
こうした新しいアーキテクチャにおいては、主に、従来のものとは異なって多くの場合により表現力の高い演算子、例えば、自己注意型パーセプトロン又は単純多層パーセプトロンに注目が集まっている。なお、コンピュータビジョンのタスクでは、これらの新しい演算が、新しいネットワークデザインと同時に導入されてきた。本開示は、アーキテクチャの効果から演算子の効果を解膠することの利点を示す。多くの場合、自己注意型は、従来設計のニューラルネットワークの内部に配置され、又は、畳み込みと自己注意型との融合に含められる。本開示においては、等方性アーキテクチャにおける従来の演算(即ち、畳み込み)のみを提示する。
本開示は、標準的な深さ単位畳み込み演算及び点単位畳み込み演算のみを使用するパッチ埋め込みを使用した視覚変換器の精神におけるきわめて単純なアーキテクチャを提示する。
その単純性、及び、理論的には表現力の低い畳み込み層の使用にもかかわらず、当該アーキテクチャは、たとえ全てが同様の最新のパイプライン(即ち、ほぼデフォルトの設定(timm))によりトレーニングされる場合にも、ResNet及びDeiTのような現在標準的なモデルとの競争力を有する。
このことは、多くの最近の研究において使用されている新しい単純な等方性アーキテクチャの設計の利点を際立たせている。さらに、パッチ埋め込みによってこうしたネットワーク設計が可能になることを強調しておきたい。漸進的なダウンサンプリングに代えて、パッチ層は、入力を、ネットワーク全体にわたって維持される合理的な所定のサイズへと直ちに変換する。
“ConvMixer”と称される当該モデルは、パッチ埋め込みとこれに続く単純完全畳み込みブロックの反復適用とから構成される。ここで重要なことは、図9に示されている、次元hを有するパッチ埋め込みのための「3Dレイアウト」の使用であり、これは、パッチサイズpに対して、畳み込み、即ち、
として実装することができる。
当該ブロックの複数回の適用後、システムは、次いで、サイズhの特徴ベクトルを得るためにグローバルプーリングを実行し、次いで、この特徴ベクトルを線形分類器によって分類することができる。
「設計パラメータ」。ConvMixerのインスタンス化は、4つのパラメータ、即ち、(1)隠れ次元h(即ち、パッチ埋め込みの次元)と、(2)深さd、又は、完全畳み込みブロックの反復回数と、(3)モデルの内部解像度を制御するパッチサイズpと、(4)深さ単位畳み込み層のカーネルサイズkと、に依存する。ConvMixerの名称は、ConvMixer-h/dのように、その隠れ次元及び深さを基礎とする。本開示において後に示すように、ConvMixerは、異常に大きいカーネルサイズ及び小さいパッチサイズで最良に動作する。パッチサイズpによって除算された(意図された)入力サイズnが「内部解像度」と称される。
「動機」。当該アーキテクチャは「混合」の概念に基づいている。例として、「空間位置」を混合するための深さ単位畳み込みと、「チャネル位置」を混合するための点単位畳み込みとを考察する。鍵となる着想は、MLPと自己注意型とが離隔した空間位置を混合することができること、即ち、MLPと自己注意型とが任意の大きさの受容野を有し得ることである。従って、「大きいカーネル」が、離隔した空間位置の混合にとって「重要なはずである」と仮定することができる。
「パッチ埋め込み」。単に、カーネルサイズp、pのストライド、及び、hのカーネルにおける畳み込みである。hは、パッチ埋め込みの次元である。他の実施形態においては、これをh×(n/p)2行列へと再構成することができる。従って、空間データは、完全なままであり、h×n/p×n/pテンソルと共に作用する。当該モデルは、パッチ埋め込みによって可能となる、全体にわたって同等の内部解像度を維持しているので、これを「等方性」と称することができる。
自己注意型多層パーセプトロン(MLP)はより柔軟性が高く、従って、大きい受容野及びコンテキストアウェア挙動が可能であるが、畳み込みにもいくつかの利点がある。変換の不変性を含むその誘導バイアスは視覚タスクに適しており、高いデータ効率をもたらす。さらに、完全畳み込みは可変サイズの入力に適用可能であり、これは実用上有用であって、トレーニングの高速化を可能にする。畳み込みは、低レベルの最適化にきわめて適している。
以下は、PyTorchにおける当該モデルの一実施形態のインプリメンテーションであり、最小限の調整によってImageNet上の81.4%top‐1精度の向上が可能である。モジュール「減算及び残差(Reduce and Residual)」は、“einops”パッケージ内にあり、以下に、
として示される。これは、ConvMixerの例示的なPyTorchのインプリメンテーションであり、hは、次元であり、dは、深さであり、pは、patch_sizeであり、kは、kernel_sizeである。
一実施形態において、CIFAR-10における小規模実験を行ったが、ここでは、ConvMixerが0.7M程度のパラメータで96%を超える精度が達成された。これにより、畳み込み誘導バイアスのデータ効率が実証された。使用される残差接続のためのいくつかのコンフィギュレーションにより、点単位畳み込み(式3)後の除外がより迅速な収束をもたらすことが見出された。BatchNormをLayerNormに置き換えると、精度が約1%低下した。表1を参照されたい。
「結果」。約50Mのパラメータを用いたConvMixer-1536/20は、ImageNet上において81.4%のtop‐1精度を達成し、20Mのパラメータを用いたConvMixer-768/32は、約80.2%の精度を達成した(表1を参照)。より幅広のConvMixerは、より少ないエポックで収束するように見えるが、メモリ集約的及びコンピュータ集約的である。比較的小さいパッチを有するConvMixerが相当に良好に実行された。より大きいパッチには、より深いConvMixerが必要である。大きいカーネルが重要となることが予想されるかもしれないが、ConvMixer-1536/20では、k=9の場合には81.37%の精度、k=3の場合には80.4%の精度を受容しており、これは、予想よりも小さい影響である。パラメータの観点からは、k=9の設定は、価値あるトレードオフであるが、k=3の場合、スループット及びトレーニング時間は、およそ2倍速い。
表2は、ConvMixerが与えられたパラメータ予算に対して競争力のある精度を達成することを示している。即ち、DeiT-Bでは、86Mのパラメータに対して81.8%の精度が得られ、ConvMixer-1536/20では、52Mのパラメータに対して81.37%の精度が得られた。同様のConvMixerは、同様の手法によりトレーニングされた、60Mのパラメータに対して79.64%の精度を有するResNet-152に比較しても、より優れている。しかし、同様のConvMixerは、ResNetより4倍遅く、DeiTより最大7倍遅い。今後の最適化によって、これは変化する可能性がある。これは主に、ConvMixerがp=7を使用しているのに対し、DeiTがp=16を使用しているため、我々の比較が制限されているからである。より詳細に比較すると、p=16及び5.8Mのパラメータを用いるConvMixer-512/16では、72.6%の精度が得られるのに対し、5Mのパラメータを用いるDeiT-Tiでは、72.2%の精度が得られ、ここで、ConvMixerは、約2.5倍遅い。同様のパッチサイズ及びパラメータでは、ConvMixer-768/32は、ResMLP-S12/8よりもいくらか正確であるが、スループットは、0.3倍となる。
「等方性アーキテクチャ」。視覚変換器は、第1の層に対してパッチ埋め込みを使用する等方性アーキテクチャの新しいパラダイムを考案した。当該モデルは、自己注意型演算及びMLP演算に代わる異なる演算を伴う反復変換器エンコーダブロックに類似している。例えば、MLP-Mixerは、これら双方と異なる次元にわたって適用されたMLPとの置き換え(即ち、空間位置とチャネル位置との混合)を行う。ResMLPは、このテーマにおけるデータ効率の高いバリエーションである。CycleMLP、gMLP、及び、視覚パーミュテータは、一方又は双方のブロックを種々の新たな演算と置き換える。これらは全て、相当に性能が高く、典型的には新規な演算選択に寄与する。研究の前提となっている視覚変換器は、等方性(又は「等尺性」)MobileNetを調査し、さらに他の名称でのパッチ埋め込みを実装した。これらのアーキテクチャは、等方性MobileNetv3ブロックを単純に反復するものである。これらは、パッチサイズと我々の実験に一致する精度との間のトレードオフを意味しており、同様の性能のモデルをトレーニングする(付録2を参照されたい)。ただし、これらのブロックは、我々のものよりかなり複雑である。単純性及びモチベーションは、我々の成果物を差別化する。我々は、これらの成果物が単純なアーキテクチャを可能にするパッチ埋め込みを共通に有することを強調する。
標準的なパッチ埋め込みを異なるステム、例えば標準的な畳み込みステムと置き換えることによって、又は、近傍のパッチ埋め込みを反復結合することによって、視力変換器の性能を向上させることができる。ただし、これは、より複雑なステムによって視覚変換器に畳み込みと同様の誘導バイアスを単純に付加するもの、即ち、局所性を単純に付加するものであってよい。換言すれば、成果物は、パッチ埋め込みの除去及びトークンの局所性の増加という問題を抱えているが、これは、畳み込みのような局所性保存演算を有する3Dレイアウトパッチ埋め込みを使用するなどの他の手段によって解決することができる。
上述したアーキテクチャは、画像データ又は画像データのモダリティが使用される複数の実施形態において使用可能である。図11乃至図16は、例示的な実施形態を示しているが、本開示の概念は、付加的な実施形態に適用することもできる。いくつかの例示的な実施形態は、次のもの、即ち、モダリティが動画像、重量、IR、3Dカメラ及び音声を含み得る産業用途;モダリティがトルク、圧力、温度、距離又は音声を含み得る電動工具又は電気器具用途;モダリティが超音波、動画像、CATスキャン、MRI又は音声を含み得る医療用途;モダリティが動画像、超音波、LiDAR、IR又は音声を含み得るロボット用途;並びに、モダリティが動画像、音声、IR又はLiDARを含み得るセキュリティ用途を含む。モダリティは、多様なデータセットを有するものとしてよく、例えば、動画像データセットは、静止画像を含むものとしてよく、LiDARデータセットは、点群を含むものとしてよく、マイクロフォンデータセットは、時系列を含むものとしてよい。
図11は、少なくとも部分的に自律的な車両又は少なくとも部分的に自律的なロボットであり得る車両を制御するように構成された制御システム1102の概略図である。当該車両は、センサ1104及びアクチュエータ1106を含む。センサ1104は、1つ又は複数の波エネルギに基づくセンサ(例えば、電荷結合素子CCD又はビデオセンサ)、レーダ、LiDAR、マイクロフォンアレイ、超音波、赤外線、熱撮像、音響撮像又は他の技術(例えば、GPSなどの位置特定センサ)を含み得る。1つ又は複数の特定のセンサのうちの1つ又は複数を車両に組み込むことができる。上記に規定した1つ以上の特定のセンサに代えて又はこれに加えて、制御モジュール1102は、実行時にアクチュエータ1104の状態を決定するように構成されたソフトウェアモジュールを含み得る。
車両が少なくとも部分的に自律的な車両である実施形態においては、アクチュエータ1106は、車両のブレーキシステム、推進システム、エンジン、ドライブトレイン又はステアリングシステムにおいて実施され得る。車両が検出された対象物との衝突を回避すべくアクチュエータ1106を制御するように、アクチュエータ制御コマンドを決定することができる。検出された対象物も、歩行者又は樹木など、分類器が最も可能性が高いとみなすものに従って分類することができる。アクチュエータ制御コマンドは、分類に応じて決定され得る。例えば、制御システム1102は、センサ1104からの(例えば、光学、音響、熱)画像又は他の入力を、1つ以上の背景クラス及び1つ以上の対象物クラス(例えば、歩行者、自転車、車両、樹木、交通標識、信号機、路上ごみ、又は、工事現場バレル/コーンなど)へとセグメンテーションし、対象物との衝突が回避されるように、この場合はブレーキシステム又は推進システムとして実現されているアクチュエータ1106に制御コマンドを送信することができる。他の例においては、制御システム1102は、画像を、1つ以上の背景クラス及び1つ以上のマーカクラス(例えば車線マーク、ガードレール、車道側縁、車両軌道など)にセグメンテーションし、車両がマーカを踏まずに車線内にとどまるように、ここではステアリングシステムに組み込まれているアクチュエータ1106に制御コマンドを送信することができる。敵対的攻撃が発生する可能性があるシナリオにおいては、上述したシステムは、対象物がより良好に検出されるように、又は、照明条件の変化又は車両のセンサ若しくはカメラの角度が識別されるように、さらにトレーニングされ得る。
車両1100が少なくとも部分的に自律的なロボットである他の実施形態においては、車両1100は、飛行、泳行、潜行及び歩行などの1つ又は複数の機能を実行するように構成された移動ロボットであり得る。当該移動ロボットは、少なくとも部分的に自律的な芝刈り機、又は、少なくとも部分的に自律的な掃除ロボットであるものとしてよい。このような実施形態においては、アクチュエータ制御コマンド1106は、移動ロボットと識別された対象物との衝突が回避されるように、移動ロボットの推進ユニット、ステアリングユニット及び/又はブレーキユニットを制御するために決定され得る。
他の実施形態においては、車両1100は、園芸ロボットの形態の少なくとも部分的に自律的なロボットである。こうした実施形態においては、車両1100は、センサ1104として光学センサを使用して、車両1100に近接する環境内の植物の状態を特定することができる。アクチュエータ1106は、化学物質を噴霧するように構成されたノズルであるものとしてよい。植物の識別された属種及び/又は識別された状態に応じて、アクチュエータ制御コマンド1102は、アクチュエータ1106が適量の適当な化学薬品を植物に散布するように決定され得る。
車両1100は、家電機器の形態の少なくとも部分的に自律的なロボットであるものとしてもよい。家電機器の非限定的な例には、洗濯機、ストーブ、オーブン、電子レンジ、又は、食器洗い機が含まれる。こうした車両1100において、センサ1104は、家電機器により処理される対象物の状態を検出するように構成された光学センサ又は音響センサであるものとしてよい。例えば、家電機器が洗濯機である場合、センサ1104は、洗濯機内の洗濯物の状態を検出するものであり得る。アクチュエータ制御コマンドは、検出された洗濯物の状態に基づいて決定され得る。
当該実施形態によれば、制御システム1102は、センサ1104から(光学又は音響)画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスkと、類似性尺度
とを使用して、制御システム1102は、センサ1104から受け取った画像の各ピクセルを分類するために、図10において説明した方法を使用することができる。こうした分類に基づいて、例えば、歩行者又は樹木との衝突を回避する制動又は方向転換のために、検出された車線マーク内にとどまる操舵のために、又は、上述したアクチュエータ1106によって実行される任意の動作のために、信号をアクチュエータ1106へ送信することができる。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ1104へ送信することもできる。
図12は、製造ラインの一部などの製造システム102のパンチカッタ、カッタ又はガンドリルなどのシステム1200(例えば製造機械)を制御するように構成された制御システム1202の概略図を示している。制御システム1202は、システム100(例えば、製造機械)を制御するように構成されたアクチュエータ1206を制御するように構成され得る。
システム1200(例えば、製造機械)のセンサ1204は、製造された製品の1つ又は複数の属性を捕捉するように構成された光学センサ若しくは音響センサ又はこれらのセンサアレイのような波エネルギセンサであるものとしてよい。制御システム1202は、1つ又は複数の捕捉された属性から、製造された製品の状態を特定するように構成されるものとしてよい。アクチュエータ1206は、製造された製品の後続の製造ステップのために、製造された製品104の特定された状態に依存してシステム1202(例えば、製造機械)を制御するように構成され得る。アクチュエータ1206は、先行して製造された製品の特定された状態に依存して、システム(例えば、製造機械)の、後続して製造された製品における図11の機能部(例えば、製造機械)を制御するように構成されるものとしてよい。
当該実施形態においては、制御システム1202は、センサ1204から(例えば、光学又は音響)画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスkと、類似性尺度
とを使用して、制御システム1202は、図10において説明した方法を使用して、センサ1204から受け取った画像の各ピクセルを分類することができ、例えば、製造される対象物の画像を2つ以上のクラスにセグメンテーションし、製造された製品の異常を検出し、バーコードなど、製造された製品上の対象物の存在を保証する。こうした分類に基づいて、アクチュエータ1206に信号を送信することができる。例えば、制御システム1202が製品の異常を検出した場合、アクチュエータ1206は、異常な製品又は欠陥のある製品をマーキングし又はラインから除去することができる。他の例においては、制御システム1202が製品上に配置されるべきバーコード又は他の対象物の存在を検出した場合、アクチュエータ1106はこれらの対象物を適用又は除去することができる。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ1204へ送信することもできる。
図13は、少なくとも部分的に自律的なモードを有する電動ドリル又は電動ドライバなどの電動工具1300を制御するように構成された制御システム1302の概略図を示している。制御システム1302は、電動工具1300を制御するように構成されたアクチュエータ1306を制御するように構成され得る。
電動工具1300のセンサ1304は、作業面の1つ又は複数の属性、及び/又は、作業面に打ち込まれる締結具の1つ又は複数の属性を捕捉するように構成された光学センサ又は音響センサなどの波エネルギセンサであるものとしてよい。制御システム1302は、1つ又は複数の捕捉された属性から、作業面の状態、及び/又は、作業面に対する締結具の状態を特定するように構成され得る。
当該実施形態においては、制御システム1302は、センサ1304から(例えば、光学又は音響)画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスkと、類似度尺度
とを使用して、制御システム1302は、図10において説明した方法を使用して、センサ1304から受け取った画像の各ピクセルを分類し、これにより、作業面若しくは締結具の画像を2つ以上のクラスにセグメンテーションし、又は、作業面若しくは締結具における異常を検出することができる。こうした分類に基づいて、例えば、工具の圧力若しくは速度、又は、上記のセクションにおいて説明したアクチュエータ1306によって実行される任意の動作のために、信号をアクチュエータ1306へ送信可能である。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ1304へ送信することもできる。他の例においては、画像は、圧力、トルク、毎分回転数、温度、電流などの電動工具1300からの信号の時系列画像であるものとしてよく、この場合、電動工具は、ハンマドリル、ドリル、(回転又は破壊)ハンマ、インパクトドライバ、往復鋸、振動マルチツールであり、コードレスであってもコーデッド(コード有り)であってもよい。
図14は、自動パーソナルアシスタント1401を制御するように構成された制御システム1402の概略図を示している。制御システム1402は、自動パーソナルアシスタント1401を制御するように構成されたアクチュエータ1406を制御するように構成され得る。自動パーソナルアシスタント1401は、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗い機などの家電機器を制御するように構成されるものとしてもよい。
当該実施形態においては、制御システム1402は、センサ1404から(例えば、光学又は音響)画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスkと、類似性尺度
とを使用して、制御システム1402は、図10において説明した方法を使用して、センサ1404から受け取った画像の各ピクセルを分類し、例えば、操作すべき若しくは動作させるべき装置又は他の対象物の画像をセグメンテーションすることができる。こうした分類に基づいて、アクチュエータ1406に信号を送信し、例えば、家電機器と対話する自動パーソナルアシスタント1401の可動部分、又は、上記のセクションにおいて説明したアクチュエータ1406によって実行される任意の動作を制御することができる。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ1404へ送信することもできる。
図15は、監視システム1500を制御するように構成された制御システム1502の概略図を示している。監視システム1500は、ドア252を通るアクセスを物理的に制御するように構成され得る。センサ1504は、アクセスが許可されるかどうかの決定に関連するシーンを検出するように構成され得る。センサ1504は、静止画像データ及び/又は動画像データを生成及び送信するように構成された光学センサ若しくは音響センサ又はこれらのセンサアレイであるものとしてよい。こうしたデータは、人の顔貌を検出するために制御システム1502によって使用され得る。
監視システム1500は、サーベイランスシステムであるものとしてもよい。このような実施形態においては、センサ1504は、監視下にあるシーンを検出するように構成された光学センサ、赤外線センサ、音響センサなどの波エネルギセンサであるものとしてよく、制御システム1502は、ディスプレイ1508を制御するように構成されている。制御システム1502は、シーンの分類を行うように、例えば、センサ1504によって検出されたシーンに不審があるかどうかを特定するように構成されている。摂動の対象物は、システムが最適でない条件(例えば、夜間、霧中、降雨、干渉性のバックグラウンドノイズなど)の下にあるときにもこのような対象物の識別を可能にするために、所定のタイプの対象物の検出に利用され得る。制御システム1502は、分類に応じてアクチュエータ制御コマンドをディスプレイ1508へ送信するように構成されている。ディスプレイ1508は、アクチュエータ制御コマンドに応じて、表示されている内容を調整するように構成され得る。例えば、ディスプレイ1508は、コントローラ1502によって疑わしいとみなされた対象物を強調表示することができる。
当該実施形態においては、制御システム1502は、センサ1504から(光学又は音響)画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスkと、類似性尺度
とを使用して、制御システム1502は、図10において説明した方法を使用して、センサ1504から受け取った画像の各ピクセルを分類し、例えば、シーン内の疑わしい若しくは望ましくない対象物の存在を検出し、照明若しくは観察条件のタイプを検出し、又は、動作を検出することができる。こうした分類に基づいて、例えば、ドア又は他の出入口のロック又はロック解除、警報発生若しくは他の信号の動作のために、又は、上記のセクションにおいて説明したアクチュエータ1506によって実行される任意の動作のために、信号がアクチュエータ1506へ送信され得る。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ1504へ送信することもできる。
図16は、撮像システム1600、例えば、MRI装置、X線撮像装置又は超音波装置を制御するように構成された制御システム1602の概略図を示している。センサ1604は、例えば、撮像センサ若しくは音響センサ又はこれらのセンサアレイであり得る。制御システム1602は、センシングされた画像の全部又は一部の分類を決定するように構成され得る。制御システム1602は、トレーニング済みニューラルネットワークによって取得された分類に応じてアクチュエータ制御コマンドを決定又は選択するように構成され得る。例えば、制御システム1602は、センシングされた(光学又は音響)画像の1つの領域につき潜在的に異常であると解釈し得る。この場合、ディスプレイ1606に撮像を表示させ、潜在的に異常な領域を強調させるように、アクチュエータ制御コマンドを決定又は選択することができる。
当該実施形態においては、制御システム1602は、センサ1604から画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスkと、類似性尺度
とを使用して、制御システム1602は、図10において説明した方法を使用して、センサ1604から受け取った画像の各ピクセルを分類することができる。こうした分類に基づいて、信号がアクチュエータ1606へ送信され、例えば、画像の異常領域、又は、上記のセクションにおいて説明したアクチュエータ1606によって実行される任意の動作を検出することができる。
本明細書に記載したアルゴリズム及び/又は方法論を具現化するプログラムコードは、種々の異なる形態のプログラム製品として個別に又は集合的に配布することができる。プログラムコードは、1つ又は複数の実施形態の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を使用して配布することができる。本質的に非一時性であるコンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は、他のデータなどの情報を記憶するための任意の方法若しくは技術により実装された、揮発性及び不揮発性、リムーバブル及び非リムーバブルの有形媒体を含み得る。コンピュータ可読記憶媒体には、さらに、RAM、ROM、消去可能なプログラマブル読出し専用メモリ(EPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EEPROM)、フラッシュメモリ、又は、他のソリッドステートメモリ技術、ポータブルなコンパクトディスク読出し専用メモリ(CD-ROM)、又は、他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶装置、又は、所望の情報を記憶するために使用され得る、コンピュータにより読出し可能な任意の他の媒体を含む。コンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、コンピュータ、他のタイプのプログラマブルデータ処理装置若しくは他のデバイスへと、又は、ネットワークを介して外部コンピュータ若しくは外部記憶デバイスへとダウンロード可能である。
コンピュータ可読媒体に記憶されたコンピュータ可読プログラム命令は、コンピュータ可読媒体に記憶された命令によりフローチャート又はグラフに指定された機能、動作及び/又は演算を実現するための命令を含む製造物品が提供されるように、コンピュータ、他のタイプのプログラマブルデータ処理装置又は他のデバイスに対して特定の手法における機能を指示するために使用され得る。所定の代替的な実施形態においては、フローチャート及びグラフで指定された機能、動作及び/又は演算は、1つ又は複数の実施形態に即した並べ替え、連続処理及び/又は同時処理も可能である。さらに、フローチャート及び/又はグラフのいずれも、1つ又は複数の実施形態に即して図示されたものよりも多数の又は少数のノード又はブロックを含み得る。
本発明の全てを種々の実施形態の説明によって例示し、これらの実施形態をかなり詳細に説明したが、添付の特許請求の範囲をこのような詳細に限定する又は何らかの態様により制限することは、出願人の意図するところではない。付加的な利点及び修正は、当業者には容易に明らかであろう。従って、本発明の広い態様は、特定の詳細、代表的な装置及び方法並びに図示及び説明した実施例に限定されるものではない。従って、一般的な発明の概念の思想又は範囲から逸脱することなく、このような詳細から脱却した形態が形成され得る。
Claims (19)
- 畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法であって、
画像を受け取ることと、
前記画像をそれぞれサイズpの複数のパッチに分割することと、
第1の畳み込み層を介して、サイズpに等しいストライドを有しかつサイズpである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、
深さ単位畳み込み層と点単位畳み込み層とを交互に適用して前記特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、前記精細化における全ての演算を通して一定に維持される、ことと、
前記精細化された特徴マップを出力することと、
を含む方法。 - センサから前記画像を受け取ることを含む、請求項1に記載の方法。
- 前記センサは、動画像、レーダ、LiDAR又は超音波のうちの1つであり、前記精細化された特徴マップに基づいて自律型車両を制御するように構成されたコントローラと通信する、請求項2に記載の方法。
- 前記センサは、動画像、音声、IR又はLiDARのうちの1つであり、前記精細化された特徴マップに基づいてアクセスドアを制御するように構成されたコントローラと通信する、請求項2に記載の方法。
- 前記センサは、動画像、音声、超音波、IR又はLiDARのうちの1つであり、前記精細化された特徴マップに基づいて機械システムを制御するように構成されたコントローラと通信する、請求項2に記載の方法。
- 前記第1の畳み込み層は、ガウス誤差線形ユニット(GELU)である活性化関数を含む、請求項1に記載の方法。
- 各チャネルに対する空間位置にわたり前記特徴マップを平均化して、全てのチャネルに関する平均を取得することと、
前記全てのチャネルに関する平均を変換して、前記入力画像が特定のクラスに対応する確率を取得することと、
前記画像が前記特定のクラスに属する確率を出力することと、
をさらに含む、請求項1に記載の方法。 - 畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法であって、
サイズL×Wの画像を受け取ることと、
各パッチを組み合わせたサイズがL×Wに等しい複数のパッチに前記画像を分割することと、
第1の畳み込み層を介して、前記パッチサイズに等しいサイズ及び前記パッチサイズに等しいストライドを有する特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、
深さ単位畳み込み層と点単位畳み込み層とを交互に適用して前記特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、前記精細化における全ての演算を通して一定に維持される、ことと、
前記精細化された特徴マップを出力することと、
を含む方法。 - 各パッチサイズは、p×pである、請求項8に記載の方法。
- センサから前記画像を受け取ることを含む、請求項8に記載の方法。
- 前記センサは、動画像、レーダ、LiDAR又は超音波のうちの1つであり、前記精細化された特徴マップに基づいて自律型車両を制御するように構成されたコントローラと通信する、請求項10に記載の方法。
- 前記センサは、動画像、音声、IR又はLiDARのうちの1つであり、前記精細化された特徴マップに基づいてアクセスドアを制御するように構成されたコントローラと通信する、請求項10に記載の方法。
- 前記第1のセンサは、動画像、音声、超音波、IR又はLiDARのうちの1つであり、前記精細化された特徴マップに基づいて機械システムを制御するように構成されたコントローラと通信する、請求項10に記載の方法。
- 各チャネルに対する空間位置にわたり前記特徴マップを平均化して、全てのチャネルに関する平均を取得することと、
前記全てのチャネルに関する平均を変換して、前記入力画像が特定のクラスに対応する確率を取得することと、
前記画像が前記特定のクラスに属する確率を出力することと、
をさらに含む、請求項8に記載の方法。 - 畳み込みニューラルネットワークシステムであって、
センサと、
コントローラと、
を備え、
前記コントローラは、
前記センサから画像を受け取ることと、
前記画像をそれぞれサイズpの複数のパッチに分割することと、
第1の畳み込み層を介して、サイズpに等しいストライドを有しかつサイズpである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、
深さ単位畳み込み層と点単位畳み込み層とを交互に適用して前記特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、前記精細化における全ての演算を通して一定に維持される、ことと、
前記精細化された特徴マップを出力することと、
を行うように構成されている、畳み込みニューラルネットワークシステム。 - 前記センサは、動画像、レーダ、LiDAR又は超音波のうちの1つであり、前記コントローラはさらに、前記精細化された特徴マップに基づいて自律型車両を制御するように構成されている、請求項15に記載の畳み込みニューラルネットワークシステム。
- 前記センサは、動画像、音声、IR又はLiDARのうちの1つであり、前記コントローラはさらに、前記精細化された特徴マップに基づいてアクセスドアを制御するように構成されている、請求項15に記載の畳み込みニューラルネットワークシステム。
- 前記センサは、動画像、音声、超音波、IR又はLiDARのうちの1つであり、前記コントローラはさらに、前記精細化された特徴マップに基づいて機械システムを制御するように構成されている、請求項15に記載の畳み込みニューラルネットワークシステム。
- 前記コントローラはさらに、
各チャネルに対する空間位置にわたり前記特徴マップを平均化して、全てのチャネルに関する平均を取得し、
前記全てのチャネルに関する平均を変換して、前記入力画像が特定のクラスに対応する確率を取得し、
前記画像が前記特定のクラスに属する確率を出力する
ように構成されている、請求項15に記載の畳み込みニューラルネットワークシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/487,631 | 2021-09-28 | ||
US17/487,631 US11922291B2 (en) | 2021-09-28 | 2021-09-28 | Image processing via isotonic convolutional neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023049041A true JP2023049041A (ja) | 2023-04-07 |
Family
ID=85477154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022154538A Pending JP2023049041A (ja) | 2021-09-28 | 2022-09-28 | 等方性畳み込みニューラルネットワークを介した画像処理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11922291B2 (ja) |
JP (1) | JP2023049041A (ja) |
CN (1) | CN115880560A (ja) |
DE (1) | DE102022210129A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332320B (zh) * | 2023-11-21 | 2024-02-02 | 浙江大学 | 一种基于残差卷积网络的多传感器融合pmsm故障诊断方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295476B (zh) * | 2015-05-29 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 人脸关键点定位方法和装置 |
US10713794B1 (en) * | 2017-03-16 | 2020-07-14 | Facebook, Inc. | Method and system for using machine-learning for object instance segmentation |
US11263782B2 (en) * | 2017-10-11 | 2022-03-01 | Qualcomm Incorporated | Image signal processor for processing images |
-
2021
- 2021-09-28 US US17/487,631 patent/US11922291B2/en active Active
-
2022
- 2022-09-26 DE DE102022210129.4A patent/DE102022210129A1/de active Pending
- 2022-09-28 JP JP2022154538A patent/JP2023049041A/ja active Pending
- 2022-09-28 CN CN202211206078.XA patent/CN115880560A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
DE102022210129A1 (de) | 2023-03-30 |
CN115880560A (zh) | 2023-03-31 |
US20230096021A1 (en) | 2023-03-30 |
US11922291B2 (en) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363058B (zh) | 使用单触发卷积神经网络的用于避障的三维对象定位 | |
US11853883B2 (en) | System and method for instance-level lane detection for autonomous vehicle control | |
US20220100850A1 (en) | Method and system for breaking backdoored classifiers through adversarial examples | |
US20230025238A1 (en) | Anomalous region detection with local neural transformations | |
US20230024101A1 (en) | Contrastive predictive coding for anomaly detection and segmentation | |
CN116068885A (zh) | 切换递归卡尔曼网络的改进 | |
JP2023049041A (ja) | 等方性畳み込みニューラルネットワークを介した画像処理 | |
Patel et al. | Developing smart devices with automated Machine learning Approach: A review | |
US20210357763A1 (en) | Method and device for performing behavior prediction by using explainable self-focused attention | |
US11978188B2 (en) | Method and system for graph level anomaly detection | |
Chaudhuri et al. | Adversarial surround localization and robust obstacle detection with point cloud mapping | |
US20230244835A1 (en) | 6d object pose estimation with 2d and 3d pointwise features | |
US11893087B2 (en) | Defending multimodal fusion models against single-source adversaries | |
CN114580491A (zh) | 经由二元和多类马尔可夫随机场的基于高效半定规划的推理的图像分割 | |
CN115588187A (zh) | 基于三维点云的行人检测方法、装置、设备以及存储介质 | |
JP2022105321A (ja) | 信号対信号変換を介したセンシング | |
US11867806B2 (en) | Synthetic aperture acoustic imaging with deep generative model | |
Martínez-Franco et al. | Machine Vision for Collaborative Robotics Using Synthetic Data-Driven Learning | |
US20230303084A1 (en) | Systems and methods for multi-modal data augmentation for perception tasks in autonomous driving | |
US20220101143A1 (en) | Method and system for learning joint latent adversarial training | |
US20230406344A1 (en) | Performance of neural networks under distribution shift | |
US20230100132A1 (en) | System and method for estimating perturbation norm for the spectrum of robustness | |
US20240070451A1 (en) | System and method for universal purification of input perturbation with denoised diffiusion models | |
JP2023145403A (ja) | 深層平衡フロー推定 | |
CN116597190A (zh) | 用于异常检测的潜在离群暴露 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221213 |