JP7385681B2 - 手姿勢推定 - Google Patents
手姿勢推定 Download PDFInfo
- Publication number
- JP7385681B2 JP7385681B2 JP2021568891A JP2021568891A JP7385681B2 JP 7385681 B2 JP7385681 B2 JP 7385681B2 JP 2021568891 A JP2021568891 A JP 2021568891A JP 2021568891 A JP2021568891 A JP 2021568891A JP 7385681 B2 JP7385681 B2 JP 7385681B2
- Authority
- JP
- Japan
- Prior art keywords
- layer
- unit
- output
- block
- tier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 claims description 229
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 120
- 238000012549 training Methods 0.000 claims description 93
- 238000010606 normalization Methods 0.000 claims description 84
- 230000006870 function Effects 0.000 claims description 72
- 238000011176 pooling Methods 0.000 claims description 66
- 230000004913 activation Effects 0.000 claims description 57
- 238000013135 deep learning Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 22
- 230000010339 dilation Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000010295 mobile communication Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 719
- 238000001994 activation Methods 0.000 description 54
- 238000000034 method Methods 0.000 description 37
- 230000011218 segmentation Effects 0.000 description 36
- 230000015654 memory Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 17
- 210000003128 head Anatomy 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 230000036544 posture Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 238000002372 labelling Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 210000004247 hand Anatomy 0.000 description 9
- 230000001965 increasing effect Effects 0.000 description 9
- 238000012886 linear function Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 238000007792 addition Methods 0.000 description 7
- 230000002708 enhancing effect Effects 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000007667 floating Methods 0.000 description 6
- 230000003416 augmentation Effects 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 210000003813 thumb Anatomy 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 210000000245 forearm Anatomy 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/117—Biometrics derived from hands
Description
本発明は、例えば、以下を提供する。
(項目1)
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークであって、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、
前記第1階層は、第1階層ユニットを備え、
前記第1階層ユニットは、1つ以上の第1ユニットブロックを備え、
前記第2階層は、前記第2階層内の1つ以上の第2階層ユニットにおいて前記第1階層から第1階層出力を受信し、
第2階層ユニットが、1つ以上の第2階層ブロックを備え、
前記第3階層は、前記第3階層内の1つ以上の第3階層ユニットにおいて前記第2階層から第2階層出力を受信し、
第3階層ユニットが、1つ以上の第3階層ブロックを備える、
エンコーダと、
デコーダであって、前記デコーダは、前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される、デコーダと、
1つ以上の損失関数層であって、前記1つ以上の損失関数層は、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、1つ以上の損失を逆伝搬するように構成される、1つ以上の損失関数層と
を備える、ニューラルネットワーク。
(項目2)
前記第1階層ユニット内の前記1つ以上の第1ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記1つ以上の第1ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、項目1に記載のニューラルネットワーク。
(項目3)
前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記バッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記バッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なる、
項目1に記載のニューラルネットワーク。
(項目4)
前記第2の第2階層ユニットは、前記第2の第2階層第1ユニットブロックおよび前記第1階層出力から連結された出力を受信する第1の第2階層第2ユニットブロックと、第2の第2階層第2ユニットブロックと、第3の第2階層第2ユニットブロックとを備え、
前記第1の第2階層第2ユニットブロック、前記第2の第2階層第2ユニットブロック、および前記第3の第2階層第2ユニットブロックは、それぞれ、前記バッチ正規化層を備え、前記スケール層が続き、前記整流線形ユニットがさらに論理的に続き、前記第1の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
前記第2の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第1の畳み込み層に論理的に続き、
前記第3の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
前記第3の第2階層第2ユニットブロックは、第2階層出力を発生させるように構成される、
項目3に記載のニューラルネットワーク。
(項目5)
前記第1階層によって発生された第1階層出力が、前記第2階層によって発生された第2階層出力と連結され、第3階層入力として前記第3階層に提供され、
前記第3階層は、第1の第3階層ユニットと、第2の第3階層ユニットとを備え、
前記第1の第3階層ユニットは、個別の第1ユニット階層的レベルに位置する複数の第3階層第1ユニットブロックを備え、
前記複数の第3階層第1ユニットブロックのうちの少なくともいくつかは、1つを上回る第1の拡張係数に対応する異なる拡張された畳み込み層を備える、
項目1に記載のニューラルネットワーク。
(項目6)
前記第2の第3階層ユニットは、個別の第2ユニット階層的レベルに位置する複数の第3階層第2ユニットブロックを備え、前記複数の第3階層第2ユニットブロックのうちの少なくともいくつかは、1つを上回る第2の拡張係数に対応する複数の拡張された畳み込み層を備え、前記複数の第3階層第1ユニットブロックおよび前記複数の第3階層第2ユニットブロックは、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも1つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、項目5に記載のニューラルネットワーク。
(項目7)
第2階層出力が、第3階層入力として前記第3階層に提供され、前記ニューラル出力のための最終連結出力として前記第3階層によって発生された第3階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練することは、少なくとも活性化層および交差エントロピ損失を使用して、前記1つ以上の損失を逆伝搬することを含む、項目1に記載のニューラルネットワーク。
(項目8)
ニューラルネットワークの埋込実装を伴うモバイル電子デバイスであって、
モバイル通信デバイスと、
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装であって、前記埋込実装における前記ニューラルネットワークは、
複数のスーパーハイビジョンプロセッサまたはプロセッサコアを有するビジョン処理ユニットと、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、
前記第1階層は、第1階層ユニットを備え、
前記第1階層ユニットは、1つ以上の第1ユニットブロックを備え、
前記第2階層は、前記第2階層内の1つ以上の第2階層ユニットにおいて前記第1階層から第1階層出力を受信し、
第2階層ユニットが、1つ以上の第2階層ブロックを備え、
前記第3階層は、前記第3階層内の1つ以上の第3階層ユニットにおいて前記第2階層から第2階層出力を受信し、
第3階層ブロックが、1つ以上の第3階層ブロックを備える、
エンコーダと
を備える、ニューラルネットワークの埋込実装と
を備える、モバイル電子デバイス。
(項目9)
前記埋込実装における前記ニューラルネットワークは、
前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される可視性デコーダ層と、
前記エンコーダから前記エンコーダ出力を受信するために、前記エンコーダに動作的に結合される特徴姿勢デコーダ層と、
前記エンコーダから前記エンコーダ出力を受信するために、前記エンコーダに動作的に結合される配向デコーダ層と
を備える、項目8に記載のモバイル電子デバイス。
(項目10)
前記第1階層ユニット内の前記1つ以上の第1ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記1つ以上の第1ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、項目8に記載のモバイル電子デバイス。
(項目11)
前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記バッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記バッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なる、
項目8に記載のモバイル電子デバイス。
(項目12)
前記第1階層によって発生された第1階層出力が、前記第2階層によって発生された第2階層出力と連結され、第3階層入力として前記第3階層に提供され、
前記第3階層は、第1の第3階層ユニットと、第2の第3階層ユニットとを備え、
前記第1の第3階層ユニットは、個別の第1ユニット階層的レベルに位置する複数の第3階層第1ユニットブロックを備え、
前記複数の第3階層第1ユニットブロックのうちの少なくともいくつかは、1つを上回る第1の拡張係数に対応する異なる拡張された畳み込み層を備える、
項目8に記載のモバイル電子デバイス。
(項目13)
前記第2の第3階層ユニットは、個別の第2ユニット階層的レベルに位置する複数の第3階層第2ユニットブロックを備え、前記複数の第3階層第2ユニットブロックのうちの少なくともいくつかは、1つを上回る第2の拡張係数に対応する複数の拡張された畳み込み層を備え、前記複数の第3階層第1ユニットブロックおよび前記複数の第3階層第2ユニットブロックは、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも1つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、項目12に記載のモバイル電子デバイス。
(項目14)
第2階層出力が、第3階層入力として前記第3階層に提供され、前記ニューラル出力のための最終連結出力として前記第3階層によって発生された第3階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練することは、少なくとも活性化層および交差エントロピ損失を使用して、1つ以上の損失を逆伝搬することを含む、項目12に記載のモバイル電子デバイス。
(項目15)
マシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、
空間パス層であって、前記空間パス層は、空間パスにおいて入力データセット内の空間情報を保全するように構成され、前記空間パスは、前記空間情報をエンコードする、空間パス層と、
コンテキストパス層であって、前記コンテキストパス層は、コンテキストパスを使用することによって、前記ニューラルネットワークの受容フィールドを増加させるように構成され、前記コンテキストパスは、前記入力データセット内のコンテキスト情報をエンコードする、コンテキストパス層と、
特徴融合層であって、前記特徴融合層は、前記空間パス層からの第1の出力および前記コンテキストパスからの第2の出力を融合するように構成される、特徴融合層と
を備える、ニューラルネットワーク。
(項目16)
項目15に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記空間パス層は、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、
前記第1階層は、第1階層ユニットを備え、
前記第1階層ユニットは、1つ以上の第1ユニットブロックを備え、
前記第2階層は、前記第2階層内の1つ以上の第2階層ユニットにおいて前記第1階層から第1階層出力を受信し、
第2階層ユニットが、1つ以上の第2階層ブロックを備え、
前記第3階層は、前記第3階層内の1つ以上の第3階層ユニットにおいて前記第2階層から第2階層出力を受信し、
第3階層ブロックが、1つ以上の第3階層ブロックを備える、
エンコーダ
を備える、ニューラルネットワーク。
(項目17)
項目16に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記空間パス層は、
デコーダであって、前記デコーダは、前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される、デコーダと、
1つ以上の損失関数層であって、前記1つ以上の損失関数層は、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、1つ以上の損失を逆伝搬するように構成される、1つ以上の損失関数層と
を備える、ニューラルネットワーク。
(項目18)
項目16に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記バッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記バッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なり、
前記第1階層ユニット内の前記1つ以上の第1ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記1つ以上の第1ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、
ニューラルネットワーク。
(項目19)
項目16に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記コンテキストパス層は、
軽量モデルであって、前記軽量モデルは、少なくとも部分的に、軽量モデルによって前記ニューラルネットワークに提供される受容フィールドに基づいて、入力画像をダウンサンプリングするように構成される、軽量モデルと、
プーリング層であって、前記プーリング層は、前記軽量モデルに結合され、前記コンテキスト情報を捕捉するように構成される畳み込み層が論理的に続く、プーリング層と
を備える、ニューラルネットワーク。
(項目20)
項目19に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、
注意精緻化層であって、前記注意精緻化層は、前記複数のプーリング層に動作的に結合され、特徴選択または組み合わせを誘導するための注意ベクトルを決定するように構成される、注意精緻化層と、
特徴融合層であって、前記特徴融合層は、前記空間パス層からの空間パス出力および前記コンテキストパス層からのコンテキストパス出力を融合するように構成される、特徴融合層と、
前記空間パス層を訓練するように構成される第1の損失関数と、
前記コンテキストパス層を訓練するように構成される第2の損失関数と
をさらに備える、ニューラルネットワーク。
Claims (19)
- ニューラルネットワークの埋込実装を伴うモバイル電子デバイスであって、
モバイル通信デバイスと、
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装と
を備え、
前記埋込実装における前記ニューラルネットワークは、
複数のスーパーハイビジョン(SHV)プロセッサまたはプロセッサコアを有するビジョン処理ユニットと、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、各階層は、個別の数のユニットブロックを備え、各後続の階層は、直前の階層から個別の出力を受信し、前記直前の階層より高いネットワーク複雑性を有する、エンコーダと
を備え、
前記ニューラルネットワークの前記埋込実装は、
前記エンコーダに動作可能に結合される可視性デコーダ層であって、前記可視性デコーダ層は、前記エンコーダから受信されたエンコーダ出力と前記可視性デコーダ層のバイナリ交差エントロピ損失とに少なくとも部分的に基づいて、1つ以上のマスクを決定するために使用される、可視性デコーダ層と、
前記エンコーダに動作可能に結合される特徴姿勢デコーダ層であって、前記特徴姿勢デコーダ層は、前記エンコーダから前記エンコーダ出力を受信するために使用され、前記埋込実装への入力における1つ以上の特徴点から予測される特徴姿勢の分類損失に対応する、特徴姿勢デコーダ層と、
前記エンコーダに動作可能に結合される配向デコーダ層であって、前記配向デコーダ層は、前記エンコーダから受信された前記エンコーダ出力と前記配向デコーダ層のカテゴリ配向損失とに少なくとも部分的に基づいて、前記埋込実装による予測を正則化するために使用される、配向デコーダ層と
を備える、モバイル電子デバイス。 - 第1階層ユニットは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、
前記第1階層ユニットは、前記スケール層に論理的に続く整流線形ユニットをさらに備え、
前記第2階層は、グループ化畳み込みを含むボトルネックブロックまたは半ボトルネックブロックを備え、
前記複数のSHVプロセッサまたはプロセッサコアのうちの少なくとも1つは、前記ニューラルネットワークが、複数の命令を明示的に規定し、前記複数の命令を逐次的に実行するのではなく並行して実行することを可能にする、請求項1に記載のモバイル電子デバイス。 - 前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1階層は、1つ以上の第1階層ユニットブロックをさらに備える第1階層ユニットを備え、
前記第2階層は、第1の第2階層ユニットを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、対応するバッチ正規化層を備え、対応するスケール層が続き、対応する整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記対応するバッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記対応するバッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なる、請求項1に記載のモバイル電子デバイス。 - 前記第2の第2階層ユニットは、第2の第2階層第1ユニットブロックおよび第1階層出力から連結出力を受信する第1の第2階層第2ユニットブロックと、第2の第2階層第2ユニットブロックと、第3の第2階層第2ユニットブロックとを備え、
前記第1の第2階層第2ユニットブロック、前記第2の第2階層第2ユニットブロック、および、前記第3の第2階層第2ユニットブロックは、それぞれ、前記バッチ正規化層を備え、前記スケール層が続き、前記整流線形ユニットがさらに論理的に続き、前記第1の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
前記第2の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第1の畳み込み層に論理的に続き、
前記第3の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
前記第3の第2階層第2ユニットブロックは、第2階層出力を発生させるように構成される、請求項3に記載のモバイル電子デバイス。 - 少なくとも、1つ以上の第1の係数を用いて前記第2階層を構成することおよび1つ以上の第2の係数を用いて前記ニューラルネットワークの前記第3階層を構成することによって、分解能または被覆率の損失を伴わずに前記ニューラルネットワークの受容フィールドを非線形的に拡大することをさらに含み、
前記1つ以上の第1の係数および前記1つ以上の第2の係数は、前記ニューラルネットワークの前記受容フィールドの拡大の非線形性を共同で定義し、
前記第1階層によって発生された第1階層出力が、前記第2階層によって発生された第2階層出力と連結され、第3階層入力として前記第3階層に提供され、
前記第3階層は、第1の第3階層ユニットと、第2の第3階層ユニットとを備え、
前記第1の第3階層ユニットは、個別の第1ユニット階層的レベルに位置する複数の第3階層第1ユニットブロックを備え、
前記複数の第3階層第1ユニットブロックのうちの少なくともいくつかは、1つを上回る第1の拡張係数に対応する異なる拡張された畳み込み層を備える、請求項1に記載のモバイル電子デバイス。 - 前記第2の第3階層ユニットは、個別の第2ユニット階層的レベルに位置する複数の第3階層第2ユニットブロックを備え、前記複数の第3階層第2ユニットブロックのうちの少なくともいくつかは、1つを上回る第2の拡張係数にそれぞれ対応する複数の拡張された畳み込み層を備え、前記複数の第3階層第1ユニットブロックおよび前記複数の第3階層第2ユニットブロックは、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、少なくとも1つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、請求項5に記載のモバイル電子デバイス。
- 第2階層出力が、第3階層入力として前記第3階層に提供され、ニューラル出力のための最終連結出力として前記第3階層によって発生された第3階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練することは、少なくとも活性化層および前記バイナリ交差エントロピ損失を使用して、1つ以上の損失を逆伝搬することを含む、請求項5に記載のモバイル電子デバイス。
- 前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作可能に結合されるデコーダをさらに備え、少なくとも前記埋込実装における前記第2階層および前記第3階層は、前記埋込実装の出力における分解能を維持する一方で逆畳み込み層を含まないように構成される、請求項1に記載のモバイル電子デバイス。
- 前記埋込実装における前記ニューラルネットワークは、カーネルスタックを同時に再順序付けする、請求項1に記載のモバイル電子デバイス。
- 前記埋込実装における前記ニューラルネットワークが、前記ニューラルネットワークの複数の畳み込み層を1つ以上のグループに、前記1つ以上のグループのグループにおけるフィルタの数がSHVプロセッサまたはプロセッサコアのレーンの複数の合計数に等しいように、グループ化することをさらに含み、前記SHVプロセッサまたはプロセッサコアは、プロセッサ命令において1つ以上のデータ要素を処理するために前記レーンの合計数の中で分割されるレジスタの合計数を備える、請求項1に記載のモバイル電子デバイス。
- 前記埋込実装は、
前記埋込実装の前記ニューラルネットワークにおける低レベル情報またはデータをエンコードするために構成される空間パスと、
前記埋込実装の前記ニューラルネットワークにおける高レベル情報またはデータをエンコードするために構成されるコンテキストパスと
をさらに備え、
前記空間パスは、第1の出力を発生させるように構成され、
前記コンテキストパスは、第2の出力を発生させるように構成され、
前記高レベル情報またはデータは、グローバルコンテキスト情報を備え、
前記低レベル情報またはデータは、前記高レベル情報またはデータよりもさらなる詳細を備える、請求項1に記載のモバイル電子デバイス。 - 前記埋込実装は、
前記空間パスからの前記第1の出力に関連する第1のデータを前記コンテキストパスからの前記第2の出力に関連する第2のデータと連結し、連結出力にする融合ブロックと、
前記連結出力の連結データにおける複数のスケールを平衡させる正規化ブロックと
をさらに備える、請求項11に記載のモバイル電子デバイス。 - 前記埋込実装は、行為のセットを実施するように構成され、前記行為のセットは、
前記空間パスから前記第1の出力を受信することと、
複数のダウンサンプリング層を通して前記空間パスの前記第1の出力を処理し、前記空間パスのためのダウンサンプリングされた出力を生産することと
を含み、
各ダウンサンプリング層は、個別のダウンサンプリング率に対応し、各後続のダウンサンプリング層は、直前のダウンサンプリング層を上回るダウンサンプリング率を有する、請求項12に記載のモバイル電子デバイス。 - 前記埋込実装は、行為のセットを実施するようにさらに構成され、前記行為のセットは、
前記複数のダウンサンプリング層の最後のダウンサンプリング層の次からの第1のダウンサンプリングされた出力を最後のダウンサンプリング層および第1の注意層に伝送することと、
前記第1の注意層が、第1の注意層出力を発生させることと、
前記複数のダウンサンプリング層の前記最後のダウンサンプリング層からの第2のダウンサンプリングされた出力を第2の注意層に伝送することと、
前記第2の注意層が、第2の注意層出力を発生させることと、
第1の注意出力および第2の注意出力を連結のために前記融合ブロックに伝送することと
をさらに含む、請求項13に記載のモバイル電子デバイス。 - 前記第1および第2の注意層は、それぞれ、アップサンプリングすることなく、コンテキストデータを捕捉し、前記ニューラルネットワークの予測を精緻化する、請求項14に記載のモバイル電子デバイス。
- 前記埋込実装は、プーリング層をさらに備え、前記プーリング層は、前記連結出力の前記連結データのための加重ベクトルを決定し、組み合わせられた連結データへの前記連結データのうちの少なくともいくつかの選択および組み合わせのために前記連結データを再加重する、請求項12に記載のモバイル電子デバイス。
- 前記埋込実装は、
前記組み合わせられた連結データを入力として受信し、前記入力に少なくとも部分的に基づいて第1の畳み込み出力を発生させるように構成される第1の畳み込み層と、
前記畳み込み層から前記畳み込み出力を受信し、前記空間パスおよび前記コンテキストパスによって発生された前記畳み込み出力からの複数のスケールを平衡させ、正規化された出力を発生させるように構成される正規化層と、
前記正規化層から前記正規化された出力を受信し、活性化された出力を発生させるように構成される活性化関数と、
前記活性化関数から前記活性化された出力を受信し、前記活性化された出力に少なくとも部分的に基づいて第2の畳み込み出力を決定するように構成される第2の畳み込み層と
をさらに備える、請求項16に記載のモバイル電子デバイス。 - グループ化係数および第2の数のチャネルを使用して前記第2階層においてグループ化畳み込みを実施することであって、前記第1階層は、処理するための第1の数のチャネルを採用するが、グループ化畳み込みを実施しない、ことと、
異なるグループ化係数および第3の数のチャネルを使用して前記第3階層において別個のグループ化畳み込みを実施することと
をさらに含む、請求項1に記載のモバイル電子デバイス。 - 前記第2の数は、前記第1の数を上回り、前記第3の数は、前記第2の数を上回り、前記第3階層のための前記異なるグループ化係数は、前記第2階層のための前記グループ化係数を上回る、請求項18に記載のモバイル電子デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962850542P | 2019-05-21 | 2019-05-21 | |
US62/850,542 | 2019-05-21 | ||
PCT/US2020/033885 WO2020236993A1 (en) | 2019-05-21 | 2020-05-20 | Hand pose estimation |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022533206A JP2022533206A (ja) | 2022-07-21 |
JPWO2020236993A5 JPWO2020236993A5 (ja) | 2023-05-29 |
JP7385681B2 true JP7385681B2 (ja) | 2023-11-22 |
Family
ID=73457223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021568891A Active JP7385681B2 (ja) | 2019-05-21 | 2020-05-20 | 手姿勢推定 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11775836B2 (ja) |
EP (1) | EP3973468A4 (ja) |
JP (1) | JP7385681B2 (ja) |
CN (1) | CN113874883A (ja) |
WO (1) | WO2020236993A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858524B (zh) * | 2019-01-04 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 手势识别方法、装置、电子设备及存储介质 |
EP3991142A4 (en) | 2019-06-28 | 2023-06-28 | Magic Leap, Inc. | Fast hand meshing for dynamic occlusion |
US11151412B2 (en) * | 2019-07-01 | 2021-10-19 | Everseen Limited | Systems and methods for determining actions performed by objects within images |
US11144790B2 (en) * | 2019-10-11 | 2021-10-12 | Baidu Usa Llc | Deep learning model embodiments and training embodiments for faster training |
CN112767300A (zh) * | 2019-10-18 | 2021-05-07 | 宏达国际电子股份有限公司 | 自动生成手部的标注数据的方法和计算骨骼长度的方法 |
CN112613384B (zh) * | 2020-12-18 | 2023-09-19 | 安徽鸿程光电有限公司 | 手势识别方法、手势识别装置及交互显示设备的控制方法 |
CN112651440B (zh) * | 2020-12-25 | 2023-02-14 | 陕西地建土地工程技术研究院有限责任公司 | 基于深度卷积神经网络的土壤有效团聚体分类识别方法 |
CN112699837A (zh) * | 2021-01-13 | 2021-04-23 | 新大陆数字技术股份有限公司 | 一种基于深度学习的手势识别方法及设备 |
CN112836594B (zh) * | 2021-01-15 | 2023-08-08 | 西北大学 | 一种基于神经网络的三维手部姿态估计方法 |
CN113158774B (zh) * | 2021-03-05 | 2023-12-29 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
CN113222044B (zh) * | 2021-05-25 | 2022-03-08 | 合肥工业大学 | 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法 |
WO2022266853A1 (en) * | 2021-06-22 | 2022-12-29 | Intel Corporation | Methods and devices for gesture recognition |
CN113674395B (zh) * | 2021-07-19 | 2023-04-18 | 广州紫为云科技有限公司 | 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 |
KR102542683B1 (ko) * | 2021-09-16 | 2023-06-14 | 국민대학교산학협력단 | 손 추적 기반 행위 분류 방법 및 장치 |
US20230093385A1 (en) * | 2021-09-17 | 2023-03-23 | Microsoft Technology Licensing, Llc | Visibility-based attribute detection |
CN113627397B (zh) * | 2021-10-11 | 2022-02-08 | 中国人民解放军国防科技大学 | 一种手部姿态识别方法、系统、设备和存储介质 |
CN114038037B (zh) * | 2021-11-09 | 2024-02-13 | 合肥工业大学 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
KR20230096730A (ko) * | 2021-12-23 | 2023-06-30 | 삼성전자주식회사 | 웨어러블 장치 및 그 제어 방법 |
WO2023211444A1 (en) * | 2022-04-28 | 2023-11-02 | Innopeak Technology, Inc. | Real-time on-device large-distance gesture recognition with lightweight deep learning models |
CN115601593A (zh) * | 2022-10-18 | 2023-01-13 | 苏州魔视智能科技有限公司(Cn) | 一种图像分类方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365532A1 (en) | 2017-06-20 | 2018-12-20 | Nvidia Corporation | Semi-supervised learning for landmark localization |
JP2020113055A (ja) | 2019-01-11 | 2020-07-27 | セコム株式会社 | 画像認識装置、画像認識方法、及び画像認識プログラム |
Family Cites Families (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2885823B2 (ja) | 1989-04-11 | 1999-04-26 | 株式会社豊田中央研究所 | 視覚認識装置 |
JPH0695192A (ja) | 1991-05-01 | 1994-04-08 | Matsushita Electric Ind Co Ltd | 画像認識装置及び画像入力方法 |
US5291560A (en) | 1991-07-15 | 1994-03-01 | Iri Scan Incorporated | Biometric personal identification system based on iris analysis |
US5579471A (en) | 1992-11-09 | 1996-11-26 | International Business Machines Corporation | Image query system and method |
US5572596A (en) | 1994-09-02 | 1996-11-05 | David Sarnoff Research Center, Inc. | Automated, non-invasive iris recognition system and method |
US5850470A (en) | 1995-08-30 | 1998-12-15 | Siemens Corporate Research, Inc. | Neural network for locating and recognizing a deformable object |
WO1997029437A1 (en) | 1996-02-09 | 1997-08-14 | Sarnoff Corporation | Method and apparatus for training a neural network to detect and classify objects with uncertain training data |
US6121953A (en) | 1997-02-06 | 2000-09-19 | Modern Cartoons, Ltd. | Virtual reality system for sensing facial movements |
CA2199588A1 (en) | 1997-03-10 | 1998-09-10 | Efrem Hoffman | Hierarchical data matrix pattern recognition and identification system |
WO1999022318A1 (en) | 1997-10-27 | 1999-05-06 | Massachusetts Institute Of Technology | Image search and retrieval system |
US6138109A (en) | 1997-12-23 | 2000-10-24 | Caterpillar Inc. | Neural network diagnostic classification of complex binary systems |
US6865302B2 (en) | 2000-03-16 | 2005-03-08 | The Regents Of The University Of California | Perception-based image retrieval |
US6768509B1 (en) | 2000-06-12 | 2004-07-27 | Intel Corporation | Method and apparatus for determining points of interest on an image of a camera calibration object |
GB2364590B (en) | 2000-07-07 | 2004-06-02 | Mitsubishi Electric Inf Tech | Method and apparatus for representing and searching for an object in an image |
US7016532B2 (en) | 2000-11-06 | 2006-03-21 | Evryx Technologies | Image capture and identification system and process |
US7099510B2 (en) | 2000-11-29 | 2006-08-29 | Hewlett-Packard Development Company, L.P. | Method and system for object detection in digital images |
US6829384B2 (en) | 2001-02-28 | 2004-12-07 | Carnegie Mellon University | Object finder for photographic images |
US7152051B1 (en) * | 2002-09-30 | 2006-12-19 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9153074B2 (en) | 2011-07-18 | 2015-10-06 | Dylan T X Zhou | Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command |
JP3855939B2 (ja) | 2003-01-31 | 2006-12-13 | ソニー株式会社 | 画像処理装置、画像処理方法及び撮影装置 |
CA2521165A1 (en) | 2003-04-03 | 2004-10-14 | Dublin City University | Shape matching method for indexing and retrieving multimedia data |
US7362892B2 (en) | 2003-07-02 | 2008-04-22 | Lockheed Martin Corporation | Self-optimizing classifier |
EP2955662B1 (en) | 2003-07-18 | 2018-04-04 | Canon Kabushiki Kaisha | Image processing device, imaging device, image processing method |
US20050114278A1 (en) | 2003-08-29 | 2005-05-26 | Mahesh Saptharishi | System and methods for incrementally augmenting a classifier |
US7593550B2 (en) | 2005-01-26 | 2009-09-22 | Honeywell International Inc. | Distance iris recognition |
CN100573548C (zh) | 2004-04-15 | 2009-12-23 | 格斯图尔泰克股份有限公司 | 跟踪双手运动的方法和设备 |
JP4217664B2 (ja) | 2004-06-28 | 2009-02-04 | キヤノン株式会社 | 画像処理方法、画像処理装置 |
US7668376B2 (en) | 2004-06-30 | 2010-02-23 | National Instruments Corporation | Shape feature extraction and classification |
US7644049B2 (en) | 2004-11-19 | 2010-01-05 | Intel Corporation | Decision forest based classifier for determining predictive importance in real-time data analysis |
US8488023B2 (en) | 2009-05-20 | 2013-07-16 | DigitalOptics Corporation Europe Limited | Identifying facial expressions in acquired digital images |
US7689008B2 (en) | 2005-06-10 | 2010-03-30 | Delphi Technologies, Inc. | System and method for detecting an eye |
US20060291697A1 (en) | 2005-06-21 | 2006-12-28 | Trw Automotive U.S. Llc | Method and apparatus for detecting the presence of an occupant within a vehicle |
US7603000B2 (en) | 2005-08-31 | 2009-10-13 | Siemens Medical Solutions Usa, Inc. | System and method for learning relative distance in a shape space using image based features |
US8890813B2 (en) | 2009-04-02 | 2014-11-18 | Oblong Industries, Inc. | Cross-user hand tracking and shape recognition user interface |
CN101055620B (zh) | 2006-04-12 | 2011-04-06 | 富士通株式会社 | 形状比较装置和方法 |
US8131011B2 (en) | 2006-09-25 | 2012-03-06 | University Of Southern California | Human detection and tracking system |
KR101363017B1 (ko) | 2007-08-23 | 2014-02-12 | 삼성전자주식회사 | 얼굴영상 촬영 및 분류 시스템과 방법 |
US8180112B2 (en) | 2008-01-21 | 2012-05-15 | Eastman Kodak Company | Enabling persistent recognition of individuals in images |
US8411910B2 (en) | 2008-04-17 | 2013-04-02 | Biometricore, Inc. | Computationally efficient feature extraction and matching iris recognition |
KR101030613B1 (ko) | 2008-10-08 | 2011-04-20 | 아이리텍 잉크 | 아이이미지에서 관심영역정보 및 인식적 정보획득방법 |
US8290208B2 (en) | 2009-01-12 | 2012-10-16 | Eastman Kodak Company | Enhanced safety during laser projection |
US8374404B2 (en) | 2009-02-13 | 2013-02-12 | Raytheon Company | Iris recognition using hyper-spectral signatures |
CN101510218A (zh) | 2009-03-26 | 2009-08-19 | 阿里巴巴集团控股有限公司 | 实现图片搜索的方法及网站服务器 |
US8472120B2 (en) | 2010-02-28 | 2013-06-25 | Osterhout Group, Inc. | See-through near-eye display glasses with a small scale image source |
US8553989B1 (en) | 2010-04-27 | 2013-10-08 | Hrl Laboratories, Llc | Three-dimensional (3D) object recognition system using region of interest geometric features |
EP2569721A4 (en) | 2010-05-14 | 2013-11-27 | Datalogic Adc Inc | SYSTEMS AND METHODS FOR OBJECT DETECTION USING A LARGE DATABASE |
US8824747B2 (en) | 2010-06-29 | 2014-09-02 | Apple Inc. | Skin-tone filtering |
US8467599B2 (en) | 2010-09-02 | 2013-06-18 | Edge 3 Technologies, Inc. | Method and apparatus for confusion learning |
WO2014158345A1 (en) | 2013-01-31 | 2014-10-02 | University Of Iowa Research Foundation | Methods and systems for vessel bifurcation detection |
US8488888B2 (en) | 2010-12-28 | 2013-07-16 | Microsoft Corporation | Classification of posture states |
WO2012142756A1 (zh) | 2011-04-20 | 2012-10-26 | 中国科学院自动化研究所 | 基于人眼图像的多特征融合身份识别方法 |
US9183509B2 (en) | 2011-05-11 | 2015-11-10 | Ari M. Frank | Database of affective response and attention levels |
US8767016B2 (en) | 2012-03-15 | 2014-07-01 | Shun-Ching Yang | Virtual reality interaction system and method |
US9082011B2 (en) | 2012-03-28 | 2015-07-14 | Texas State University—San Marcos | Person identification using ocular biometrics with liveness detection |
EP2648133A1 (fr) | 2012-04-04 | 2013-10-09 | Biomerieux | Identification de microorganismes par spectrometrie et classification structurée |
US9101312B2 (en) | 2012-04-18 | 2015-08-11 | TBI Diagnostics LLC | System for the physiological evaluation of brain function |
JP2013250856A (ja) | 2012-06-01 | 2013-12-12 | Mitsubishi Electric Corp | 監視システム |
US9041622B2 (en) | 2012-06-12 | 2015-05-26 | Microsoft Technology Licensing, Llc | Controlling a virtual object with a real controller device |
US8873812B2 (en) | 2012-08-06 | 2014-10-28 | Xerox Corporation | Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers |
US9092896B2 (en) | 2012-08-07 | 2015-07-28 | Microsoft Technology Licensing, Llc | Augmented reality display of scene behind surface |
US8369595B1 (en) | 2012-08-10 | 2013-02-05 | EyeVerify LLC | Texture features for biometric authentication |
US10209946B2 (en) | 2012-08-23 | 2019-02-19 | Red Hat, Inc. | Augmented reality personal identification |
US8963806B1 (en) | 2012-10-29 | 2015-02-24 | Google Inc. | Device authentication |
US9111348B2 (en) | 2013-03-15 | 2015-08-18 | Toyota Motor Engineering & Manufacturing North America, Inc. | Computer-based method and system of dynamic category object recognition |
US9269022B2 (en) | 2013-04-11 | 2016-02-23 | Digimarc Corporation | Methods for object recognition and related arrangements |
US9147125B2 (en) | 2013-05-03 | 2015-09-29 | Microsoft Technology Licensing, Llc | Hand-drawn sketch recognition |
US10262462B2 (en) | 2014-04-18 | 2019-04-16 | Magic Leap, Inc. | Systems and methods for augmented and virtual reality |
US9207771B2 (en) | 2013-07-08 | 2015-12-08 | Augmenta Oy | Gesture based user interface |
US9542626B2 (en) | 2013-09-06 | 2017-01-10 | Toyota Jidosha Kabushiki Kaisha | Augmenting layer-based object detection with deep convolutional neural networks |
US9730643B2 (en) | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
US9202144B2 (en) | 2013-10-30 | 2015-12-01 | Nec Laboratories America, Inc. | Regionlets with shift invariant neural patterns for object detection |
US9489765B2 (en) | 2013-11-18 | 2016-11-08 | Nant Holdings Ip, Llc | Silhouette-based object and texture alignment, systems and methods |
US9857591B2 (en) | 2014-05-30 | 2018-01-02 | Magic Leap, Inc. | Methods and system for creating focal planes in virtual and augmented reality |
CN107315249B (zh) | 2013-11-27 | 2021-08-17 | 奇跃公司 | 虚拟和增强现实系统与方法 |
EP3074918B1 (en) | 2013-11-30 | 2019-04-03 | Beijing Sensetime Technology Development Co., Ltd. | Method and system for face image recognition |
US9224068B1 (en) | 2013-12-04 | 2015-12-29 | Google Inc. | Identifying objects in images |
US20150186708A1 (en) | 2013-12-31 | 2015-07-02 | Sagi Katz | Biometric identification system |
US9665606B2 (en) | 2014-02-14 | 2017-05-30 | Nant Holdings Ip, Llc | Edge-based recognition, systems and methods |
WO2015123647A1 (en) | 2014-02-14 | 2015-08-20 | Nant Holdings Ip, Llc | Object ingestion through canonical shapes, systems and methods |
IL231862A (en) | 2014-04-01 | 2015-04-30 | Superfish Ltd | Image representation using a neural network |
US20150296135A1 (en) | 2014-04-10 | 2015-10-15 | Magna Electronics Inc. | Vehicle vision system with driver monitoring |
US9317785B1 (en) | 2014-04-21 | 2016-04-19 | Video Mining Corporation | Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers |
WO2015164373A1 (en) | 2014-04-23 | 2015-10-29 | Raytheon Company | Systems and methods for context based information delivery using augmented reality |
US9412176B2 (en) | 2014-05-06 | 2016-08-09 | Nant Holdings Ip, Llc | Image-based feature detection using edge vectors |
AU2015297036B2 (en) | 2014-05-09 | 2017-09-28 | Google Llc | Systems and methods for discerning eye signals and continuous biometric identification |
CN106462940A (zh) | 2014-10-09 | 2017-02-22 | 微软技术许可有限责任公司 | 图像中通用对象检测 |
KR102357326B1 (ko) | 2014-11-19 | 2022-01-28 | 삼성전자주식회사 | 얼굴 특징 추출 방법 및 장치, 얼굴 인식 방법 및 장치 |
US9418319B2 (en) * | 2014-11-21 | 2016-08-16 | Adobe Systems Incorporated | Object detection using cascaded convolutional neural networks |
JP2016126510A (ja) | 2014-12-26 | 2016-07-11 | カシオ計算機株式会社 | 画像生成装置、画像生成方法及びプログラム |
CN107636693B (zh) | 2015-03-20 | 2022-01-11 | 弗劳恩霍夫应用研究促进协会 | 针对人工神经网络的相关性分数指派 |
US10246753B2 (en) | 2015-04-13 | 2019-04-02 | uBiome, Inc. | Method and system for characterizing mouth-associated conditions |
KR102393228B1 (ko) | 2015-05-11 | 2022-04-29 | 매직 립, 인코포레이티드 | 뉴럴 네트워크들을 활용하여 생체 인증 사용자 인식을 위한 디바이스들, 방법들 및 시스템들 |
US9747717B2 (en) | 2015-05-13 | 2017-08-29 | Intel Corporation | Iterative closest point technique based on a solution of inverse kinematics problem |
US11423311B2 (en) | 2015-06-04 | 2022-08-23 | Samsung Electronics Co., Ltd. | Automatic tuning of artificial neural networks |
US9836643B2 (en) | 2015-09-11 | 2017-12-05 | EyeVerify Inc. | Image and feature quality for ocular-vascular and facial recognition |
JP6514089B2 (ja) | 2015-11-02 | 2019-05-15 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置、情報処理システム、および情報処理方法 |
EP3427192A4 (en) | 2016-03-11 | 2019-03-27 | Magic Leap, Inc. | STRUCTURAL LEARNING IN NEURAL FOLDING NETWORKS |
EP3223183B1 (en) | 2016-03-25 | 2020-11-18 | Siemens Healthcare GmbH | Case-based reasoning in the cloud using deep learning |
KR102648770B1 (ko) | 2016-07-14 | 2024-03-15 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
US20180024726A1 (en) | 2016-07-21 | 2018-01-25 | Cives Consulting AS | Personified Emoji |
KR20180020043A (ko) | 2016-08-17 | 2018-02-27 | 삼성전자주식회사 | 다시점 영상 제어 방법 및 이를 지원하는 전자 장치 |
KR20180053108A (ko) | 2016-11-11 | 2018-05-21 | 삼성전자주식회사 | 홍채 영역 추출 방법 및 장치 |
US10269159B2 (en) | 2017-07-27 | 2019-04-23 | Rockwell Collins, Inc. | Neural network foreground separation for mixed reality |
KR102602117B1 (ko) * | 2017-10-26 | 2023-11-13 | 매직 립, 인코포레이티드 | 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들 |
KR20200029785A (ko) | 2018-09-11 | 2020-03-19 | 삼성전자주식회사 | 증강 현실에서 가상 객체를 표시하기 위한 측위 방법 및 장치 |
-
2020
- 2020-05-20 CN CN202080037727.0A patent/CN113874883A/zh active Pending
- 2020-05-20 JP JP2021568891A patent/JP7385681B2/ja active Active
- 2020-05-20 WO PCT/US2020/033885 patent/WO2020236993A1/en unknown
- 2020-05-20 EP EP20809006.8A patent/EP3973468A4/en active Pending
- 2020-05-20 US US16/879,736 patent/US11775836B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365532A1 (en) | 2017-06-20 | 2018-12-20 | Nvidia Corporation | Semi-supervised learning for landmark localization |
JP2020113055A (ja) | 2019-01-11 | 2020-07-27 | セコム株式会社 | 画像認識装置、画像認識方法、及び画像認識プログラム |
Non-Patent Citations (1)
Title |
---|
岡野 健久、外2名,深度画像を用いた手の姿勢推定と個人認証への応用,2018年 暗号と情報セキュリティシンポジウム(SCIS2018)予稿集 [USB] 2018年 暗号と情報セキュリティシンポジウム概要集 Abstracts of 2018 Symposium on Cryptography and Information Security,2018年 |
Also Published As
Publication number | Publication date |
---|---|
US20200372246A1 (en) | 2020-11-26 |
US11775836B2 (en) | 2023-10-03 |
EP3973468A1 (en) | 2022-03-30 |
CN113874883A (zh) | 2021-12-31 |
JP2022533206A (ja) | 2022-07-21 |
EP3973468A4 (en) | 2022-09-14 |
WO2020236993A1 (en) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7385681B2 (ja) | 手姿勢推定 | |
Cong et al. | Minimizing computation in convolutional neural networks | |
JP7431913B2 (ja) | 畳み込みニューラルネットワークのための効率的データレイアウト | |
US10402697B2 (en) | Fusing multilayer and multimodal deep neural networks for video classification | |
TWI775605B (zh) | 深度視覺處理器 | |
Elhassouny et al. | Trends in deep convolutional neural Networks architectures: A review | |
CN111767979B (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
US20190297326A1 (en) | Video prediction using spatially displaced convolution | |
Ye et al. | Inverted pyramid multi-task transformer for dense scene understanding | |
EP3923233A1 (en) | Image denoising method and apparatus | |
CN110111366A (zh) | 一种基于多级损失量的端到端光流估计方法 | |
Schulz et al. | Learning Object-Class Segmentation with Convolutional Neural Networks. | |
Jiao et al. | A modified convolutional neural network for face sketch synthesis | |
US20210073575A1 (en) | Switchable propagation neural network | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN112668366B (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
CN109815931A (zh) | 一种视频物体识别的方法、装置、设备以及存储介质 | |
CN116229056A (zh) | 基于双分支特征融合的语义分割方法、装置、设备 | |
Verelst et al. | SegBlocks: Block-based dynamic resolution networks for real-time segmentation | |
Cao | Pose estimation of swimmers from digital images using deep learning | |
KR20210073300A (ko) | 뉴럴 네트워크 장치, 이의 동작 방법 및, 이를 포함하는 뉴럴 네트워크 시스템 | |
Ye et al. | Invpt: Inverted pyramid multi-task transformer for dense scene understanding | |
CN113205137A (zh) | 一种基于胶囊参数优化的图像识别方法及系统 | |
Zhang et al. | Feature enhancement for joint human and head detection | |
Yang et al. | An optimization high-resolution network for human pose recognition based on attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230519 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230519 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7385681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |