JP2022501713A - 動作認識方法及び装置、電子機器、並びに記憶媒体 - Google Patents
動作認識方法及び装置、電子機器、並びに記憶媒体 Download PDFInfo
- Publication number
- JP2022501713A JP2022501713A JP2021515133A JP2021515133A JP2022501713A JP 2022501713 A JP2022501713 A JP 2022501713A JP 2021515133 A JP2021515133 A JP 2021515133A JP 2021515133 A JP2021515133 A JP 2021515133A JP 2022501713 A JP2022501713 A JP 2022501713A
- Authority
- JP
- Japan
- Prior art keywords
- image
- region
- mouth
- human face
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000033001 locomotion Effects 0.000 title claims description 75
- 230000000391 smoking effect Effects 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 16
- 210000004709 eyebrow Anatomy 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 241000208125 Nicotiana Species 0.000 claims description 12
- 235000002637 Nicotiana tabacum Nutrition 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 15
- 235000019504 cigarettes Nutrition 0.000 description 20
- 238000001514 detection method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 230000009466 transformation Effects 0.000 description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000011475 lollipops Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009377 nuclear transmutation Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、2019年03月29日に中国専利局へ提出された、出願番号がCN201910252534.6であり、発明名称が「動作認識方法及び装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。
人顔画像に基づいて人顔の口部キーポイントを取得するステップと、
前記口部キーポイントに基づいて第1領域内の画像を特定するステップと、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップと、を含み、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
人顔画像に基づいて人顔の口部キーポイントを取得するための口部キーポイント手段と、
前記口部キーポイントに基づいて第1領域内の画像を特定するための第1領域特定手段と、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するための喫煙認識手段とを備え、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
図面を参照し、以下の詳細な記述に基づいて、本発明をより明瞭に理解できるのだろう。
少なくとも2つの第1キーポイントに基づいて、第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することと、
少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて第1領域内の画像に対して選別を行うことと、を含む。
少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像における、口部とインタラクションを行う物体の長さを特定することと、
口部とインタラクションを行う物体の長さが所定値以上であることに応答して、第1領域内の画像が選別を通ったと特定することと、を含む。
各第1キーポイントを区分するための番号を少なくとも2つの第1キーポイントのうちの各第1キーポイントへ割り当てることを更に含む。
第1ニューラルネットワークを利用して第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することを含む。
第1ニューラルネットワークをトレーニングする過程は、
第1サンプル画像を第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
予測キーポイント座標及びマーキングキーポイント座標に基づいて第1ネットワーク損失を特定し、第1ネットワーク損失に基づいて第1ニューラルネットワークのパラメータを調整することと、を含む。
第1ニューラルネットワークの第1層の入力(即ち、入力画像)がx1と記され、中間層の出力がxnと記され、各層のネットワークが1つの非線形関数マッピングF(x)に相当し、第1ニューラルネットワークが合計でN層を有すると仮定すれば、第1ニューラルネットワークの非線形マッピングが行われた後、ネットワークの出力は、式(1)として一般化されて示され得る。
ただし、
は、第1ニューラルネットワークから出力された1次元ベクトルであり、当該1次元ベクトルにおける各値は、キーポイントネットワークから最終的に出力されたキーポイント座標を示す。
第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得することを含む。
少なくとも2つの第2キーポイントに基づいてキーポイント座標を取得し、少なくとも2つの第2キーポイントに対応するキーポイント座標に基づいて、口部とインタラクションを行う物体を取得することと、
アフィン変換を利用して所定方向に基づいて口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得することと、を含んでもよい。
ただし、アフィン変換は、回転、拡大縮小、平行移動、反転、切り取り等のうちの少なくとも1つを含んでもよいが、それらに限定されない。
ただし、
は、アフィン変換して得られた座標を示し、
は、抽出して取得されたタバコキーポイントのキーポイント座標を示し、
は、回転行列を示し、x0及びy0は、平行移動ベクトルを示す。
第2ニューラルネットワークを利用し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定することを含む。
第2ニューラルネットワークをトレーニングする過程は、
第2サンプル画像を第2ニューラルネットワークに入力して、第2サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
予測結果及びマーク結果に基づいて第2ネットワーク損失を取得し、第2ネットワーク損失に基づいて第2ニューラルネットワークのパラメータを調整することとを含む。
piは、第2ニューラルネットワークから出力された第i個の第2サンプル画像の予測結果が実際の正しい種別(マーク結果)である確率であり、Nは、総サンプル数である。
損失関数は、以下の式(3)を採用可能である。
ネットワーク構造及び損失関数が定義された後、トレーニングとしては、ただ勾配バックプロパゲーションの算出方式によってネットワークパラメータを更新すればよい。トレーニングされた第2ニューラルネットワークのネットワークパラメータは得られる。
人顔画像に対して人顔キーポイント抽出を行って、人顔画像における人顔キーポイントを取得することと、
人顔キーポイントに基づいて口部キーポイントを取得することと、を含む。
口部キーポイントに基づいて人顔における口部の中心位置を特定することと、
口部の中心位置を第1領域の中心点とし、所定長さを辺の長さ又は半径として、第1領域を特定することと、を含む。
口部の中心位置を第1領域中心点とし、所定長さを辺の長さ又は半径として、第1領域を特定することは、
口部の中心位置を中心点とし、口部の中心位置から眉間までの垂直距離を辺の長さ又は半径として、第1領域を特定する。
口部キーポイント手段71は、人顔画像に基づいて人顔の口部キーポイントを取得する。
第1領域特定手段72は、口部キーポイントに基づいて第1領域内の画像を特定する。
ただし、第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
喫煙認識手段73は、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
第1キーポイント手段は、第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得する。
画像選別手段は、少なくとも2つの第1キーポイントに基づいて第1領域内の画像に対して選別を行い、第1領域内の口部とのインタラクションを行う物を特定するための長さを選別する。ただし、前記第1領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体の画像を含む第1領域内の画像を特定することである。
喫煙認識手段73は、第1領域内の画像が選別を通ったことに応答して、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
第1サンプル画像を第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
予測キーポイント座標及びマーキングキーポイント座標に基づいて第1ネットワーク損失を特定し、第1ネットワーク損失に基づいて第1ニューラルネットワークのパラメータを調整することと、を含む。
好ましくは、第1キーポイント手段は、第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得する。
第2キーポイント手段は、第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第2キーポイントを取得する。
画像位置合わせ手段は、少なくとも2つの第2キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得し、第2領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
喫煙認識手段73は、第2領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
第2サンプル画像を第2ニューラルネットワークに入力して、第2サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
予測結果及びマーク結果に基づいて第2ネットワーク損失を取得し、第2ネットワーク損失に基づいて第2ニューラルネットワークのパラメータを調整することと、を含む。
眉部キーポイント手段は、人顔キーポイントに基づいて眉部キーポイントを取得する。
第1領域特定手段72は、口部の中心位置を中心点とし、口部の中心位置から眉間までの垂直距離を辺の長さ又は半径として、第1領域を特定する。眉間は、眉部キーポイントに基づいて特定されたものである。
Claims (34)
- 動作認識方法であって、
人顔画像に基づいて人顔の口部キーポイントを取得するステップと、
前記口部キーポイントに基づいて第1領域内の画像を特定するステップと、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップと、を含み、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む
ことを特徴とする動作認識方法。 - 前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する前に、前記動作認識方法は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得するステップと、
前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像に対して選別を行うステップと、を更に含み、
前記第1領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体を含む第1領域内の画像を特定することであり、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、
前記第1領域内の画像が選別を通ったことに応答して、前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含む
ことを特徴とする請求項1に記載の動作認識方法。 - 前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像に対して選別を行うステップは、
前記少なくとも2つの第1キーポイントに基づいて、前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することと、
前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、前記第1領域内の画像に対して選別を行うことと、を含む
ことを特徴とする請求項2に記載の動作認識方法。 - 前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、前記第1領域内の画像に対して選別を行うことは、
前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、前記第1領域内の画像における、口部とインタラクションを行う物体の長さを特定することと、
前記口部とインタラクションを行う物体の長さが所定値以上であることに応答して、前記第1領域内の画像が選別を通ったと特定することと、を含む
ことを特徴とする請求項3に記載の動作認識方法。 - 前記口部とインタラクションを行う物体の長さが所定値より小さいことに応答して、前記第1領域内の画像が選別を通らなかったと特定するステップと、
前記第1領域内の画像にタバコが含まれていないと特定するステップと、を更に含む
ことを特徴とする請求項4に記載の動作認識方法。 - 前記少なくとも2つの第1キーポイントに基づいて、前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定する前に、
各前記第1キーポイントを区分するための番号を前記少なくとも2つの第1キーポイントのうちの各前記第1キーポイントへ割り当てるステップを更に含む
ことを特徴とする請求項3から5の何れか一項に記載の動作認識方法。 - 前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することは、
第1ニューラルネットワークを利用して前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することを含み、
前記第1ニューラルネットワークは、第1サンプル画像でトレーニングされたものである
ことを特徴とする請求項3から6の何れか一項に記載の動作認識方法。 - 前記第1サンプル画像は、マーキングキーポイント座標を含み、
前記第1ニューラルネットワークをトレーニングする過程は、
前記第1サンプル画像を前記第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
前記予測キーポイント座標と前記マーキングキーポイント座標とに基づいて第1ネットワーク損失を特定し、前記第1ネットワーク損失に基づいて前記第1ニューラルネットワークのパラメータを調整することと、を含む
ことを特徴とする請求項7に記載の動作認識方法。 - 前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得するステップは、
前記第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、前記口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、前記口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得することを含む
ことを特徴とする請求項2から8の何れか一項に記載の動作認識方法。 - 前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する前に、前記動作認識方法は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第2キーポイントを取得するステップと、
前記少なくとも2つの第2キーポイントに基づいて、前記口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、前記口部とインタラクションを行う物体を所定方向へ向かわせ、前記所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得するステップと、を更に含み、
前記第2領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、前記第2領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含む
ことを特徴とする請求項1から9の何れか一項に記載の動作認識方法。 - 前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、
第2ニューラルネットワークを利用して、前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含み、
前記第2ニューラルネットワークは、第2サンプル画像でトレーニングされたものである
ことを特徴とする請求項1から10の何れか一項に記載の動作認識方法。 - 前記第2サンプル画像には、画像における人が喫煙しているか否かのマーク結果がマークされ、
前記第2ニューラルネットワークをトレーニングする過程は、
前記第2サンプル画像を前記第2ニューラルネットワークに入力して、前記第2サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
前記予測結果及び前記マーク結果に基づいて第2ネットワーク損失を取得し、前記第2ネットワーク損失に基づいて前記第2ニューラルネットワークのパラメータを調整することとを含む
ことを特徴とする請求項11に記載の動作認識方法。 - 前記人顔画像に基づいて人顔の口部キーポイントを取得するステップは、
前記人顔画像に対して人顔キーポイント抽出を行って、前記人顔画像における人顔キーポイントを取得することと、
前記人顔キーポイントに基づいて前記口部キーポイントを取得することと、を含む
ことを特徴とする請求項1から12の何れか一項に記載の動作認識方法。 - 前記口部キーポイントに基づいて前記第1領域内の画像を特定するステップは、
前記口部キーポイントに基づいて前記人顔における口部の中心位置を特定することと、
前記口部の中心位置を前記第1領域の中心点とし、所定長さを辺の長さ又は半径として、前記第1領域を特定することと、を含む
ことを特徴とする請求項13に記載の動作認識方法。 - 前記口部キーポイントに基づいて前記第1領域内の画像を特定する前に、前記動作認識方法は、
前記人顔キーポイントに基づいて眉部キーポイントを取得するステップを更に含み、
前記口部の中心位置を前記第1領域の中心点とし、所定長さを辺の長さ又は半径として、前記第1領域を特定することは、
前記口部の中心位置を中心点とし、前記口部の中心位置から前記眉部キーポイントに基づいて特定された眉間までの垂直距離を辺の長さ又は半径として、前記第1領域を特定することを含む
ことを特徴とする請求項14に記載の動作認識方法。 - 動作認識装置であって、
人顔画像に基づいて人顔の口部キーポイントを取得するための口部キーポイント手段と、
前記口部キーポイントに基づいて第1領域内の画像を特定するための第1領域特定手段と、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するための喫煙認識手段と、を備え、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む
ことを特徴とする動作認識装置。 - 前記動作認識装置は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得するための第1キーポイント手段と、
前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像に対して選別を行うための画像選別手段と、を更に備え、
前記第1領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体の画像を含む第1領域内の画像を特定することであり、
前記喫煙認識手段は、前記第1領域内の画像が選別を通ったことに応答して、前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する
ことを特徴とする請求項16に記載の動作認識装置。 - 前記画像選別手段は、前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定し、前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて前記第1領域内の画像に対して選別を行う
ことを特徴とする請求項17に記載の動作認識装置。 - 前記画像選別手段は、前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて前記第1領域内の画像に対して選別を行うときに、前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、前記第1領域内の画像における、口部とインタラクションを行う物体の長さを特定し、前記口部とインタラクションを行う物体の長さが所定値以上であることに応答して、前記第1領域内の画像が選別を通ったと特定する
ことを特徴とする請求項18に記載の動作認識装置。 - 前記画像選別手段は、前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて前記第1領域内の画像に対して選別を行うときに、更に、前記口部とインタラクションを行う物体の長さが所定値より小さいことに応答して、前記第1領域内の画像が選別を通らなかったと特定し、前記第1領域内の画像にタバコが含まれていないと特定する
ことを特徴とする請求項19に記載の動作認識装置。 - 前記画像選別手段は、更に、各前記第1キーポイントを区分するための番号を前記少なくとも2つの第1キーポイントのうちの各前記第1キーポイントへ割り当てる
ことを特徴とする請求項18から20の何れか一項に記載の動作認識装置。 - 前記画像選別手段は、前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定するときに、第1ニューラルネットワークを利用して前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定し、前記第1ニューラルネットワークは、第1サンプル画像でトレーニングされたものである
ことを特徴とする請求項18から21の何れか一項に記載の動作認識装置。 - 前記第1サンプル画像は、マーキングキーポイント座標を含み、
前記第1ニューラルネットワークをトレーニングする過程は、
前記第1サンプル画像を前記第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
前記予測キーポイント座標と前記マーキングキーポイント座標とに基づいて第1ネットワーク損失を特定し、前記第1ネットワーク損失に基づいて前記第1ニューラルネットワークのパラメータを調整することと、を含む
ことを特徴とする請求項22に記載の動作認識装置。 - 前記第1キーポイント手段は、前記第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、前記口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、前記口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得する
ことを特徴とする請求項17から23の何れか一項に記載の動作認識装置。 - 前記動作認識装置は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第2キーポイントを取得するための第2キーポイント手段と、
前記少なくとも2つの第2キーポイントに基づいて、前記口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、前記口部とインタラクションを行う物体を所定方向へ向かわせ、前記所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得するための画像位置合わせ手段と、を更に備え、
前記第2領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記喫煙認識手段は、前記第2領域内の画像に基づいて前記人顔画像における人が喫煙しているか否かを特定する
ことを特徴とする請求項16から24の何れか一項に記載の動作認識装置。 - 前記喫煙認識手段は、第2ニューラルネットワークを利用して、前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定し、前記第2ニューラルネットワークは、第2サンプル画像でトレーニングされたものである
ことを特徴とする請求項16から25の何れか一項に記載の動作認識装置。 - 前記第2サンプル画像には、画像における人が喫煙しているか否かのマーク結果がマークされ、
前記第2ニューラルネットワークをトレーニングする過程は、
前記第2サンプル画像を前記第2ニューラルネットワークに入力して、前記第2サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
前記予測結果及び前記マーク結果に基づいて第2ネットワーク損失を取得し、前記第2ネットワーク損失に基づいて前記第2ニューラルネットワークのパラメータを調整することと、を含む
ことを特徴とする請求項26に記載の動作認識装置。 - 前記口部キーポイント手段は、前記人顔画像に対して人顔キーポイント抽出を行って、前記人顔画像における人顔キーポイントを取得し、前記人顔キーポイントに基づいて前記口部キーポイントを取得する
ことを特徴とする請求項16から27の何れか一項に記載の動作認識装置。 - 前記第1領域特定手段は、前記口部キーポイントに基づいて前記人顔における口部の中心位置を特定し、前記口部の中心位置を前記第1領域の中心点とし、所定長さを辺の長さ又は半径として、前記第1領域を特定する
ことを特徴とする請求項28に記載の動作認識装置。 - 前記動作認識装置は、前記人顔キーポイントに基づいて眉部キーポイントを取得するための眉部キーポイント手段を更に備え、
前記第1領域特定手段は、前記口部の中心位置を中心点とし、前記口部の中心位置から前記眉部キーポイントに基づいて特定された眉間までの垂直距離を辺の長さ又は半径として、前記第1領域を特定する
ことを特徴とする請求項29に記載の動作認識装置。 - 電子機器であって、
プロセッサを備え、
前記プロセッサは、請求項16から30の何れか一項に記載の動作認識装置を含む
ことを特徴とする電子機器。 - 電子機器であって、
実行可能指令を記憶するためのメモリと、
前記メモリと通信して前記実行可能指令を実行することで請求項1から15の何れか一項に記載の動作認識方法の操作を実施するためのプロセッサと、を備える
ことを特徴とする電子機器。 - コンピュータ読み取り可能な指令を記憶するためのコンピュータ可読記憶媒体であって、
前記指令が実行されたときに、請求項1から15の何れか一項に記載の動作認識方法の操作が実施される
ことを特徴とするコンピュータ可読記憶媒体。 - コンピュータ可読コードを含むコンピュータプログラム製品であって、
前記コンピュータ可読コードが機器上で運行されたときに、前記機器におけるプロセッサが、請求項1から15の何れか一項に記載の動作認識方法を実施するための指令を実行する
ことを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910252534.6 | 2019-03-29 | ||
CN201910252534.6A CN111753602A (zh) | 2019-03-29 | 2019-03-29 | 动作识别方法和装置、电子设备、存储介质 |
PCT/CN2020/081689 WO2020200095A1 (zh) | 2019-03-29 | 2020-03-27 | 动作识别方法和装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022501713A true JP2022501713A (ja) | 2022-01-06 |
JP7130856B2 JP7130856B2 (ja) | 2022-09-05 |
Family
ID=72664937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021515133A Active JP7130856B2 (ja) | 2019-03-29 | 2020-03-27 | 動作認識方法及び装置、電子機器、並びに記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210200996A1 (ja) |
JP (1) | JP7130856B2 (ja) |
KR (1) | KR20210043677A (ja) |
CN (1) | CN111753602A (ja) |
SG (1) | SG11202102779WA (ja) |
WO (1) | WO2020200095A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287868B (zh) * | 2020-11-10 | 2021-07-13 | 上海依图网络科技有限公司 | 一种人体动作识别方法及装置 |
CN112464810A (zh) * | 2020-11-25 | 2021-03-09 | 创新奇智(合肥)科技有限公司 | 一种基于注意力图的吸烟行为检测方法及装置 |
CN112434612A (zh) * | 2020-11-25 | 2021-03-02 | 创新奇智(上海)科技有限公司 | 吸烟检测方法、装置、电子设备及计算机可读存储介质 |
CN112464797B (zh) * | 2020-11-25 | 2024-04-02 | 创新奇智(成都)科技有限公司 | 一种吸烟行为检测方法、装置、存储介质及电子设备 |
CN113361468A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 一种业务质检方法、装置、设备及存储介质 |
CN115440015B (zh) * | 2022-08-25 | 2023-08-11 | 深圳泰豪信息技术有限公司 | 一种可智能安全管控的视频分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015519A (ja) * | 2007-07-03 | 2009-01-22 | Omron Corp | 喫煙者検出装置、喫煙者警報システム、喫煙者監視サーバ、消し忘れタバコ警報装置、喫煙者検出方法、および、喫煙者検出プログラム |
JP2010036762A (ja) * | 2008-08-06 | 2010-02-18 | Denso Corp | 行動推定装置、プログラム |
JP2013225205A (ja) * | 2012-04-20 | 2013-10-31 | Denso Corp | 喫煙検出装置及びプログラム |
CN104637246A (zh) * | 2015-02-02 | 2015-05-20 | 合肥工业大学 | 一种驾驶员多种行为预警系统及危险评估方法 |
CN108960065A (zh) * | 2018-06-01 | 2018-12-07 | 浙江零跑科技有限公司 | 一种基于视觉的驾驶行为检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598934B (zh) * | 2014-12-17 | 2018-09-18 | 安徽清新互联信息科技有限公司 | 一种驾驶员吸烟行为监控方法 |
US10136856B2 (en) * | 2016-06-27 | 2018-11-27 | Facense Ltd. | Wearable respiration measurements system |
CN108629282B (zh) * | 2018-03-29 | 2021-12-24 | 福建海景科技开发有限公司 | 一种吸烟检测方法、存储介质及计算机 |
CN108710837A (zh) * | 2018-05-07 | 2018-10-26 | 广州通达汽车电气股份有限公司 | 吸烟行为识别方法、装置、计算机设备和存储介质 |
CN110956061B (zh) * | 2018-09-27 | 2024-04-16 | 北京市商汤科技开发有限公司 | 动作识别方法及装置、驾驶员状态分析方法及装置 |
-
2019
- 2019-03-29 CN CN201910252534.6A patent/CN111753602A/zh active Pending
-
2020
- 2020-03-27 KR KR1020217008147A patent/KR20210043677A/ko not_active Application Discontinuation
- 2020-03-27 JP JP2021515133A patent/JP7130856B2/ja active Active
- 2020-03-27 WO PCT/CN2020/081689 patent/WO2020200095A1/zh active Application Filing
- 2020-03-27 SG SG11202102779WA patent/SG11202102779WA/en unknown
-
2021
- 2021-03-16 US US17/203,170 patent/US20210200996A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015519A (ja) * | 2007-07-03 | 2009-01-22 | Omron Corp | 喫煙者検出装置、喫煙者警報システム、喫煙者監視サーバ、消し忘れタバコ警報装置、喫煙者検出方法、および、喫煙者検出プログラム |
JP2010036762A (ja) * | 2008-08-06 | 2010-02-18 | Denso Corp | 行動推定装置、プログラム |
JP2013225205A (ja) * | 2012-04-20 | 2013-10-31 | Denso Corp | 喫煙検出装置及びプログラム |
CN104637246A (zh) * | 2015-02-02 | 2015-05-20 | 合肥工业大学 | 一种驾驶员多种行为预警系统及危险评估方法 |
CN108960065A (zh) * | 2018-06-01 | 2018-12-07 | 浙江零跑科技有限公司 | 一种基于视觉的驾驶行为检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210200996A1 (en) | 2021-07-01 |
CN111753602A (zh) | 2020-10-09 |
WO2020200095A1 (zh) | 2020-10-08 |
SG11202102779WA (en) | 2021-04-29 |
JP7130856B2 (ja) | 2022-09-05 |
KR20210043677A (ko) | 2021-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022501713A (ja) | 動作認識方法及び装置、電子機器、並びに記憶媒体 | |
US10366313B2 (en) | Activation layers for deep learning networks | |
JP6970305B2 (ja) | 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
CN108875833B (zh) | 神经网络的训练方法、人脸识别方法及装置 | |
CN106897658B (zh) | 人脸活体的鉴别方法和装置 | |
EP3910608A1 (en) | Article identification method and system, and electronic device | |
EP3274921B1 (en) | Multi-layer skin detection and fused hand pose matching | |
CN105122270B (zh) | 使用深度传感器计数人的方法和系统 | |
WO2021139324A1 (zh) | 图像识别方法、装置、计算机可读存储介质及电子设备 | |
Glowacz et al. | Visual detection of knives in security applications using active appearance models | |
CN108229324B (zh) | 手势追踪方法和装置、电子设备、计算机存储介质 | |
JP7454105B2 (ja) | 顔画像品質評価方法及び装置、コンピュータ機器並びにコンピュータプログラム | |
CN110222641B (zh) | 用于识别图像的方法和装置 | |
CN106919891B (zh) | 一种图像处理方法及装置 | |
Zheng et al. | Fusing shape and spatio-temporal features for depth-based dynamic hand gesture recognition | |
Tran et al. | Disentangling geometry and appearance with regularised geometry-aware generative adversarial networks | |
CN111492407A (zh) | 用于绘图美化的系统和方法 | |
CN110516638B (zh) | 一种基于轨迹和随机森林的手语识别方法 | |
JP2024529423A (ja) | 保安検査ct対象物認識方法及び装置 | |
JP2006293720A (ja) | 顔検出装置、顔検出方法、及び顔検出プログラム | |
CN118038303A (zh) | 身份识别图像处理方法、装置、计算机设备和存储介质 | |
Ramya et al. | Real time palm and finger detection for gesture recognition using convolution neural network | |
Caroppo et al. | Facial expression recognition in ageing adults: A comparative study | |
Lüsi et al. | Human head pose estimation on SASE database using random hough regression forests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210318 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220824 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7130856 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |