JP7159276B2 - 行動認識のための時空間の平滑化フィーチャを正規化する方法およびシステム - Google Patents
行動認識のための時空間の平滑化フィーチャを正規化する方法およびシステム Download PDFInfo
- Publication number
- JP7159276B2 JP7159276B2 JP2020213564A JP2020213564A JP7159276B2 JP 7159276 B2 JP7159276 B2 JP 7159276B2 JP 2020213564 A JP2020213564 A JP 2020213564A JP 2020213564 A JP2020213564 A JP 2020213564A JP 7159276 B2 JP7159276 B2 JP 7159276B2
- Authority
- JP
- Japan
- Prior art keywords
- low frequency
- computer system
- random
- processor
- frequency components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000009471 action Effects 0.000 title description 14
- 238000010606 normalization Methods 0.000 claims description 67
- 238000011176 pooling Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 2
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 240000008005 Crotalaria incana Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002498 deadly effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Description
3D畳み込みニューラルネットワークは、時空間ストリームを処理するために追加の次元がある2D畳み込みニューラルネットワーク(2D ConvNet)で拡張されたものであり、行動認識分野において広く利用されている。3D畳み込みニューラルネットワークは、大規模イメージ認識データセットに対して訓練された2Dカーネルを膨らませて画像ドメインで学習された知識を活用してよい。
正規化は、モデルの過剰適合を解消するのに効果的ではあるが、ビデオドメインでは画像ドメインに比べて研究が活発でなかった。画像ドメインでは主に、データ拡張(data augmentation)、重み減衰(weight decay)、ドロップアウト(dropout)、ラベル平滑化(label smoothing)、およびバッチ正規化(batch normalization)などの正規化技法が使用されている。
ランダムスケーリング(random scaling)は、畳み込みニューラルネットワークのいかなる階層にも適用可能な、簡単な正規化方法である。
は要素ごとの和(element-wise sum)の演算を示し、
は要素ごとの積(element-wise multiplication)の演算を示す。
801:周波数分離部
802:正規化部
Claims (20)
- コンピュータシステムが実行するフィーチャ正規化方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記フィーチャ正規化方法は、
前記少なくとも1つのプロセッサにより、入力フィーチャから低周波成分を求める段階、
前記少なくとも1つのプロセッサにより、前記入力フィーチャと前記低周波成分との残差を利用して高周波成分を求める段階、
前記少なくとも1つのプロセッサにより、前記低周波成分にノイズを追加する段階
を含む、フィーチャ正規化方法。 - 前記低周波成分を求める段階は、
ローパスフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項1に記載のフィーチャ正規化方法。 - 前記低周波成分を求める段階は、
平均プーリングまたはガウシアンフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項1に記載のフィーチャ正規化方法。 - 前記ノイズを追加する段階は、
前記入力フィーチャの局所的平均にランダムスケーリングを適用して前記ノイズを追加する段階
を含む、請求項1に記載のフィーチャ正規化方法。 - 前記ノイズを追加する段階は、
与えられた確率分布でサンプリングされたスカラーを乗じる演算により、前記低周波成分の大きさをランダムに変調する段階
を含む、請求項1に記載のフィーチャ正規化方法。 - 前記低周波成分に前記ノイズを追加するランダム平均スケーリングは、ニューラルネットワークのネットワークモデルの残差分岐内に適用されること
を特徴とする、請求項1に記載のフィーチャ正規化方法。 - 前記ランダム平均スケーリングは、前記ネットワークモデルの畳み込み層、バッチ正規化層、非線形活性化層のうちの少なくとも1つの階層の前に適用されることを
特徴とする、請求項6に記載のフィーチャ正規化方法。 - 前記ネットワークモデルがベーシックブロック構造のネットワークの場合、前記ランダム平均スケーリングは、前記ネットワークモデルの一部のステージに含まれたすべてのバッチ正規化層の前にそれぞれ適用されること
を特徴とする、請求項6に記載のフィーチャ正規化方法。 - 前記ネットワークモデルがボトルネックブロック構造のネットワークの場合、前記ランダム平均スケーリングは、前記ネットワークモデルの一部のステージに含まれたバッチ正規化層のうちの最後のバッチ正規化層の前に適用されること
を特徴とする、請求項6に記載のフィーチャ正規化方法。 - 請求項1~9のうちのいずれか一項に記載のフィーチャ正規化方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
- 請求項1~9のうちのいずれか一項に記載のフィーチャ正規化方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
入力フィーチャから低周波成分を求め、
前記入力フィーチャと前記低周波成分との残差を利用して高周波成分を求め、
前記低周波成分にノイズを追加すること
を特徴とする、コンピュータシステム。 - 前記少なくとも1つのプロセッサは、
ローパスフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
平均プーリングまたはガウシアンフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記入力フィーチャの局所的平均にランダムスケーリングを適用して前記ノイズを追加すること
を特徴とする、請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
与えられた確率分布でサンプリングされたスカラーを乗じる演算により、前記低周波成分の大きさをランダムに変調すること
を特徴とする、請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記低周波成分に前記ノイズを追加するランダム平均スケーリングモジュールを含み、
前記ランダム平均スケーリングモジュールは、ニューラルネットワークのネットワークモデルの残差分岐内に位置すること
を特徴とする、請求項12に記載のコンピュータシステム。 - 前記ランダム平均スケーリングモジュールは、畳み込み層、バッチ正規化層、非線形活性化層のうちの少なくとも1つの階層の前に位置すること
を特徴とする、請求項17に記載のコンピュータシステム。 - 前記ネットワークモデルがベーシックブロック構造のネットワークの場合、前記ランダム平均スケーリングモジュールは、前記ネットワークモデルの一部のステージに含まれたすべてのバッチ正規化層の前にそれぞれ位置すること
を特徴とする、請求項17に記載のコンピュータシステム。 - 前記ネットワークモデルがボトルネックブロック構造のネットワークの場合、前記ランダム平均スケーリングモジュールは、前記ネットワークモデルの一部のステージに含まれたバッチ正規化層のうちの最後のバッチ正規化層の前に位置すること
を特徴とする、請求項17に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190174262A KR102235784B1 (ko) | 2019-12-24 | 2019-12-24 | 행동 인식을 위한 시공간의 평활화 피처를 정규화하는 방법 및 시스템 |
KR10-2019-0174262 | 2019-12-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021103519A JP2021103519A (ja) | 2021-07-15 |
JP7159276B2 true JP7159276B2 (ja) | 2022-10-24 |
Family
ID=75466411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020213564A Active JP7159276B2 (ja) | 2019-12-24 | 2020-12-23 | 行動認識のための時空間の平滑化フィーチャを正規化する方法およびシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7159276B2 (ja) |
KR (1) | KR102235784B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115641B (zh) * | 2023-07-20 | 2024-03-22 | 中国科学院空天信息创新研究院 | 建筑物信息提取方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004511866A (ja) | 2000-10-13 | 2004-04-15 | フラウンホーファー−ゲゼルシャフト・ツア・フォルデルング・デア・アンゲヴァンテン・フォルシュング・エー・ファウ | リカレント人工ニューラルネットワークの教師あり教示方法 |
KR101563297B1 (ko) | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | 영상에서 행동을 인식하는 방법 및 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102683757B1 (ko) * | 2018-02-20 | 2024-07-10 | 삼성전자주식회사 | 심층 신경망의 학습을 수행시키는 방법 및 그에 대한 장치 |
-
2019
- 2019-12-24 KR KR1020190174262A patent/KR102235784B1/ko active IP Right Grant
-
2020
- 2020-12-23 JP JP2020213564A patent/JP7159276B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004511866A (ja) | 2000-10-13 | 2004-04-15 | フラウンホーファー−ゲゼルシャフト・ツア・フォルデルング・デア・アンゲヴァンテン・フォルシュング・エー・ファウ | リカレント人工ニューラルネットワークの教師あり教示方法 |
KR101563297B1 (ko) | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | 영상에서 행동을 인식하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR102235784B1 (ko) | 2021-04-02 |
JP2021103519A (ja) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Su et al. | Pixel-adaptive convolutional neural networks | |
CN108351984B (zh) | 硬件高效的深度卷积神经网络 | |
US10902302B2 (en) | Stacked neural network framework in the internet of things | |
EP3933707A1 (en) | Highly efficient convolutional neural networks | |
US11334671B2 (en) | Adding adversarial robustness to trained machine learning models | |
KR102192211B1 (ko) | 이미지 변환을 위한 깊이별 분리가능한 컨볼루션과 채널 어텐션을 이용한 효율적인 적대적 생성 신경망 | |
WO2019136077A1 (en) | Frame-recurrent video super-resolution | |
WO2016036664A1 (en) | Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals | |
KR102420104B1 (ko) | 영상 처리 장치 및 그 동작방법 | |
US20160300134A1 (en) | Corrected Mean-Covariance RBMs and General High-Order Semi-RBMs for Large-Scale Collaborative Filtering and Prediction | |
JP7239116B2 (ja) | 映像復元方法及び装置 | |
KR20200116763A (ko) | 키-밸류 커플링을 이용한 유사성 처리 방법 및 장치 | |
JP7159276B2 (ja) | 行動認識のための時空間の平滑化フィーチャを正規化する方法およびシステム | |
CA3143928C (en) | Dynamic image resolution assessment | |
JP2021034038A (ja) | 不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法 | |
WO2020044015A1 (en) | System, method and apparatus for computationally efficient data manipulation | |
Eilar et al. | Distributed video analysis for the advancing out of school learning in mathematics and engineering project | |
GB2599180A (en) | Method for improved binarized neural networks | |
WO2021258084A1 (en) | Spatio-temporal pseudo three-dimensional (stp-3d) network for performing video action recognition | |
KR102486795B1 (ko) | 딥러닝 성능향상을 위한 주파수 도메인에서의 데이터 증강 방법 및 장치 | |
WO2022154943A1 (en) | Improved processing of sequential data via machine learning models featuring temporal residual connections | |
KR102701708B1 (ko) | 인공지능 모델의 국부 압축 방법 및 시스템 | |
TWI829208B (zh) | 用於判定用於處理串流輸入資料之硬體架構之設計參數值之方法及系統及電腦可讀儲存媒體 | |
Mal et al. | Dynamically Reconfigurable Perception using Dataflow Parameterization of Channel Attention | |
EP4276699A1 (en) | Image processing device and operating method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201223 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7159276 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |