JP2023527228A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2023527228A JP2023527228A JP2022573477A JP2022573477A JP2023527228A JP 2023527228 A JP2023527228 A JP 2023527228A JP 2022573477 A JP2022573477 A JP 2022573477A JP 2022573477 A JP2022573477 A JP 2022573477A JP 2023527228 A JP2023527228 A JP 2023527228A
- Authority
- JP
- Japan
- Prior art keywords
- mask
- channel
- feature map
- feature
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000000873 masking effect Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 description 35
- 238000000034 method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101001109518 Homo sapiens N-acetylneuraminate lyase Proteins 0.000 description 1
- 102100022686 N-acetylneuraminate lyase Human genes 0.000 description 1
- 101100340434 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IFM1 gene Proteins 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示による実施形態を説明する前に、畳み込みレイヤにおける計算の概要を、図13から15Bを参照して説明する。
まず、実施の形態1にかかる情報処理装置1を、図1を参照して説明する。
次に、本実施形態の効果について説明する。前述のように、マスキング演算子2は入力特徴マップのマスクチャネルを使用して、入力特徴マップの特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成する。マスクされた特徴チャネルは、畳み込み演算に使用される。したがって、マスクされた特徴チャネルの冗長領域はマスクされるため、それらのピクセルに関する計算は省略される。これはCNNにおける冗長な計算を減らすのに役立つ。
まず、添付図面を参照して、本開示の実施の形態2を以下で説明する。
本開示の実施の形態2を示す図2を参照すると、Region-Masked(RGM)畳み込みレイヤ10は、スプリッタ11、マスキング演算子12および畳み込み演算子13を含む。この実施形態は、推論処理のための順伝播の構成と動作を説明する。RGM畳み込みレイヤ10は、汎用プロセッサシステム、又はGraphic Processing Unit(GPU)、Application-Specific Integrated Circuit(ASIC)、Application-Specific Instruction set Processor(ASIP)のような特定の回路、およびField Programmable Gate Array(FPGA)のような再構成可能デバイスを使用するために実装することができるが、使用するものはこれらに限定されない。
上記の手段は、概して以下のように動作する。
スプリッタ11は、入力特徴マップM1を、マスクチャネルMC1と特徴チャネルMF1に分割する。
マスキング演算子12は、マスクチャネルMC1を使用して、特徴チャネルMF1のピクセルをマスクし、マスクされた特徴チャネルを生成する。
畳み込み演算子13は、マスクされた特徴チャネルとRGM畳み込みレイヤのカーネルとの間で畳み込み演算を実行して、出力特徴マップM2を生成する。
次に、図5のフローチャートを参照して、本実施形態の概略的な動作を説明する。
次に、本実施形態の効果について説明する。前述のように、マスキング演算子12は、入力特徴マップM1のマスクチャネルMC1を使用して、入力特徴マップM1の特徴チャネルMF1のピクセルをマスクし、畳み込み演算に使用されるマスクされた特徴チャネルを生成する。したがって、マスクされた特徴チャネルの冗長領域はマスクされるため、それらのピクセルに関する計算は省略される。これはCNNにおける冗長な計算を減らすのに役立つ。
次に、本開示の実施の形態3は、Region-Masked CNN(RGM-CNN)と呼ばれるCNNにおける1または複数のRGM畳み込みレイヤの使用法を示す。このRGM-CNNは、図13の手段によって処理されるCNNの代わりに使用される。添付図面を参照することにより、これが説明される。
図9A及び9Bを参照すると、RGM-CNNは、1または複数のRGM畳み込みレイヤを含む。各RGM畳み込みレイヤは、その入力データを処理する処理レイヤとして機能する。入力画像IMは、シングルまたはマルチチャネルの画像データである。人間H1と円柱C1という2つのオブジェクトがこの画像内にあると仮定すると、順伝播によって、オブジェクトの位置とクラスだけでなく、背景などといった、省略可能な冗長な計算も解析される。
次に、図10のフローチャートを参照して、本実施形態の概略動作を詳述する。
最初に、RGM-CNNの順伝播は、RGM-CNNの入力レイヤに画像を供給することによって開始される(図10のステップS11)。そして、順伝播処理は、次のレイヤに進む(図10のステップS12)。処理は各レイヤの種類に依存しており(図10のステップS13)、レイヤごとに処理が進む。レイヤがRGM畳み込みレイヤであれば、実施の形態2に従ってレイヤの順伝播が進む。レイヤが畳み込みレイヤ、バッチ正規化レイヤなどの別の種類のレイヤである場合、順伝播はレイヤの種類に応じて進行する。最後に、図10のステップS12~S14を、RGM-CNN処理の最後のレイヤまで繰り返す(図10のステップS14)。
前述のように、RGM畳み込みレイヤは、入力特徴マップ内のチャネルを使用して、畳み込みレイヤの空間的に冗長な計算を省略し、次のレイヤと特徴チャネルの計算を省略するために使用できるマスクチャネルを含む出力特徴マップを生成する。
特徴マップのマスクチャネルを使用した計算を効果的に省略するには、マスクチャネルのカーネルを適切にトレーニングし、特徴マップの特徴チャネルの冗長または意味のある領域を学習する必要がある。実施の形態4では、RGM-CNNをトレーニングするシステムの例を説明する。
図11を参照して、本開示の実施の形態4を以下に説明する。RGM-CNNトレーニングシステム30は、RGM-CNNプロパゲータ31、タスク損失計算器32、マスク生成器33、マスク損失計算器34、及び総損失計算器35を含む。RGM-CNNプロパゲータ31は、実施の形態3で開示したRGM-CNNを含み、トレーニング方向計算手段および重み更新手段として機能する。RGM-CNNトレーニングシステム30は、汎用プロセッサシステム、又はGraphic Processing Unit(GPU)、Application-Specific Integrated Circuit(ASIC)及びApplication-Specific Instruction set Processor(ASIP)のような特定の回路、およびField Programmable Gate Array(FPGA)のような再構成可能デバイスを使用して実装できるが、使用するものはこれに限定されない。
RGM-CNNプロパゲータ31は、順伝播、トレーニング方向の計算、および重みの更新を実行する。
タスク損失計算器32は、予測とgroundtruthからタスク損失を計算する。
マスク生成器33は、groundtruth BBoxからgroundtruthマスクを生成する。
マスク損失計算器34は、生成されたgroundtruthマスクと、順伝播からの特徴マップのマスクチャネルからマスク損失を計算する。
総損失計算器35は、タスク損失とトレーニング方向の計算に使用されるマスク損失からRGM-CNNの総損失を計算する。
次に、図12のフローチャートを参照して、本実施形態の一般的な動作を説明する。
L=αLT+βLM
L、LT、LMは、それぞれ総損失、タスク損失およびマスク損失である。αとβは、図12のステップS27で総損失を最適化するために各損失の重みを指定する係数値である。
次に、本実施形態の効果について説明する。
本実施形態は、システム30がオブジェクトのgroundtruth BBoxを使用してマスクチャネルのカーネルをトレーニングするように構成されているため、複雑な詳細を有する背景の計算を省略することができる。
2 マスキング演算子
3 畳み込み演算子
10 Region-Masked(RGM)畳み込みレイヤ
11 スプリッタ
12 マスキング演算子
13 畳み込み演算子
14 畳み込みカーネルストレージ
15 コンボリュータ
21 第1のRGM畳み込みレイヤ
22 第2のRGM畳み込みレイヤ
23 第mのRGM畳み込みレイヤ
30 RGM-CNNトレーニングシステム
31 RGM-CNNプロパゲータ
32 タスク損失計算器
33 マスク生成器
34 マスク損失計算器
35 総損失計算器
91 情報処理装置
92 プロセッサ
93 メモリ
Claims (10)
- 入力特徴マップにおいてマスクチャネルを使用して、前記入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成するマスキング演算手段と、
前記マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成する畳み込み演算手段と、
を備える情報処理装置。 - 前記入力特徴マップを前記マスクチャネルと前記特徴チャネルとに分割し、それらを前記マスキング演算手段に送るスプリッタ手段をさらに備える、
請求項1に記載の情報処理装置。 - 前記出力特徴マップを処理する処理レイヤをさらに備える、
請求項1又は2に記載の情報処理装置。 - 画像データを使用して前記入力特徴マップを生成する生成レイヤをさらに備える、
請求項1から3のいずれか1項に記載の情報処理装置。 - 前記畳み込み演算手段は、
前記出力特徴マップのマスクチャネルを生成するためのマスクチャネルの1または複数のカーネルと、前記出力特徴マップの特徴チャネルを生成するための特徴チャネルの1または複数のカーネルと、を含む前記畳み込みカーネルのストレージとして動作する畳み込みカーネル記憶手段と、
前記畳み込みカーネル記憶手段内の前記カーネルとの畳み込みを、前記マスクされた特徴チャネルにわたって実行する畳み込み手段と、を有する
請求項1から4のいずれか1項に記載の情報処理装置。 - 前記出力特徴マップは画像の予測である、
請求項1から5のいずれか1項に記載の情報処理装置。 - 前記画像の予測およびgroundtruthデータからタスク損失を計算するタスク損失計算手段と、
前記出力特徴マップのマスクチャネルと前記画像のgroundtruthマスクからマスク損失を計算するマスク損失計算手段と、
前記タスク損失と前記マスク損失から総損失を計算する総損失計算手段と、をさらに備える、
請求項6に記載の情報処理装置。 - groundtruth BBoxデータからgroundtruthマスクを生成するマスク生成手段をさらに備え、
前記マスク損失計算手段は、前記生成されたgroundtruthマスクと前記出力特徴マップの前記マスクチャネルから前記マスク損失を計算する、
請求項7に記載の情報処理装置。 - 入力特徴マップにおいてマスクチャネルを使用して、前記入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成することと、
前記マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成すること、
を備える情報処理方法。 - 入力特徴マップにおいてマスクチャネルを使用して、前記入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成することと、
前記マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成すること、
をコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/022405 WO2021245942A1 (en) | 2020-06-05 | 2020-06-05 | Information processing apparatus, information processing method, and computer readable medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023527228A true JP2023527228A (ja) | 2023-06-27 |
JP7380915B2 JP7380915B2 (ja) | 2023-11-15 |
Family
ID=78830732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022573477A Active JP7380915B2 (ja) | 2020-06-05 | 2020-06-05 | 情報処理装置、情報処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230237770A1 (ja) |
JP (1) | JP7380915B2 (ja) |
WO (1) | WO2021245942A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7355622B2 (ja) * | 2019-11-29 | 2023-10-03 | 株式会社日立製作所 | エンコーダを有するストレージシステム |
CN111652363B (zh) * | 2020-06-08 | 2023-09-19 | 中国科学院微电子研究所 | 存算一体电路 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190379589A1 (en) * | 2018-06-12 | 2019-12-12 | Ciena Corporation | Pattern detection in time-series data |
JP2020064333A (ja) * | 2018-10-15 | 2020-04-23 | オムロン株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
-
2020
- 2020-06-05 JP JP2022573477A patent/JP7380915B2/ja active Active
- 2020-06-05 WO PCT/JP2020/022405 patent/WO2021245942A1/en active Application Filing
- 2020-06-05 US US18/007,784 patent/US20230237770A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190379589A1 (en) * | 2018-06-12 | 2019-12-12 | Ciena Corporation | Pattern detection in time-series data |
JP2020064333A (ja) * | 2018-10-15 | 2020-04-23 | オムロン株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021245942A1 (en) | 2021-12-09 |
JP7380915B2 (ja) | 2023-11-15 |
US20230237770A1 (en) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Pixel transposed convolutional networks | |
WO2019099305A1 (en) | Meta-learning for multi-task learning for neural networks | |
CN110188795A (zh) | 图像分类方法、数据处理方法和装置 | |
CN112236779A (zh) | 基于卷积神经网络的图像处理方法和图像处理装置 | |
WO2020048396A1 (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
US20080187213A1 (en) | Fast Landmark Detection Using Regression Methods | |
US12039769B2 (en) | Identifying a type of object in a digital image based on overlapping areas of sub-images | |
WO2022152104A1 (zh) | 动作识别模型的训练方法及装置、动作识别方法及装置 | |
CN111008631B (zh) | 图像的关联方法及装置、存储介质和电子装置 | |
US11995552B2 (en) | Apparatus and method for multi-phase pruning for neural network with multi-sparsity levels | |
KR20190091806A (ko) | 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법 | |
EP4379607A1 (en) | Neural network accelerator, and data processing method for neural network accelerator | |
JP7380915B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN113673545A (zh) | 光流估计方法、相关装置、设备及计算机可读存储介质 | |
KR20210034462A (ko) | 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법 | |
CN114925320A (zh) | 一种数据处理方法及相关装置 | |
CA3143928C (en) | Dynamic image resolution assessment | |
KR20190070044A (ko) | 컨볼루션 신경망의 이진화 연산 장치 및 방법 | |
CN116432736A (zh) | 神经网络模型优化方法、装置及计算设备 | |
KR20220076952A (ko) | 이미지 인식 방법, 이미지 인식 장치, 이미지 전처리 장치 및 뉴럴 네트워크의 학습 방법 | |
KR20220058189A (ko) | 뉴럴 네트워크를 이용한 분류 방법 및 장치 | |
CN116468902A (zh) | 图像的处理方法、装置和非易失性计算机可读存储介质 | |
Chemmanam et al. | Joint learning for multitasking models | |
CN113674383A (zh) | 生成文本图像的方法及装置 | |
EP3401843A1 (en) | A method, an apparatus and a computer program product for modifying media content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231016 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7380915 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |