JP7130856B2

JP7130856B2 - 動作認識方法及び装置、電子機器、並びに記憶媒体

Info

Publication number: JP7130856B2
Application number: JP2021515133A
Authority: JP
Inventors: 彦杰 ▲陳▼; ▲飛▼ 王; 晨 ▲錢▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-29
Filing date: 2020-03-27
Publication date: 2022-09-05
Anticipated expiration: 2040-03-27
Also published as: KR20210043677A; CN111753602A; US20210200996A1; WO2020200095A1; JP2022501713A; SG11202102779WA

Description

本発明は、コンピュータビジョン技術に関し、特に動作認識方法及び装置、電子機器、並びに記憶媒体に関する。

＜関連出願の相互引用＞
本発明は、２０１９年０３月２９日に中国専利局へ提出された、出願番号がＣＮ２０１９１０２５２５３４．６であり、発明名称が「動作認識方法及び装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。

コンピュータビジョン分野では、動作認識問題は、従来から注目され続けてきている問題である。動作認識は、一般的に、ビデオの時系列特徴、人体キーポイントによって判断され得る幾つかの動作に研究の重点が置かれている。

本発明の実施例は、動作認識技術を提供する。

本発明の実施例の一態様は、動作認識方法を提供する。当該動作認識方法は、
人顔画像に基づいて人顔の口部キーポイントを取得するステップと、
前記口部キーポイントに基づいて第１領域内の画像を特定するステップと、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップと、を含み、
前記第１領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。

本発明の実施例の別の態様は、動作認識装置を提供する。当該動作認識装置は、
人顔画像に基づいて人顔の口部キーポイントを取得するための口部キーポイント手段と、
前記口部キーポイントに基づいて第１領域内の画像を特定するための第１領域特定手段と、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するための喫煙認識手段とを備え、
前記第１領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。

本発明の実施例のさらに別の態様は、電子機器を提供する。当該電子機器は、プロセッサを備え、前記プロセッサは、上記何れか一項の実施例に記載の動作認識装置を含む。

本発明の実施例のもう１つの態様は、電子機器を提供する。当該電子機器は、実行可能指令を記憶するためのメモリと、前記メモリと通信して前記実行可能指令を実行することで上記何れか一項の実施例に記載の動作認識方法の操作を実施するためのプロセッサとを備える。

本発明の実施例のもう１つの態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体は、コンピュータ読み取り可能な指令を記憶し、前記指令が実行されたときに、上記何れか一項の実施例に記載の動作認識方法の操作は、実施される。

本発明の実施例のもう１つの態様は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含み、前記コンピュータ可読コードが機器上で運行されたときに、前記機器におけるプロセッサは、上記何れか一項の実施例に記載の動作認識方法を実施するための指令を実行する。

本発明の上記実施例に係る動作認識方法及び装置、電子機器、並びに記憶媒体によると、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第１領域内の画像を特定し、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定し、第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。このようにして、口部キーポイントで特定された第１領域内の画像を認識することにより、人顔画像における人が喫煙しているか否かを判断するため、認識範囲が縮小され、口部及び口部とインタラクションを行う物体に注意点が集中され、検出率が高められつつ、誤検出率が低減され、喫煙認識の正確性が向上する。

以下では、図面及び実施例により、本発明の技術案について更に詳細に記述する。

明細書の一部を構成する図面は、本発明の実施例を記述し、且つ記述とともに本発明の原理を解釈するために用いられる。
図面を参照し、以下の詳細な記述に基づいて、本発明をより明瞭に理解できるのだろう。
本発明の実施例に係る動作認識方法の模式的なフローチャートである。本発明の実施例に係る動作認識方法の別の模式的なフローチャートである。本発明の実施例に係る動作認識方法の一例示における認識によって取得された第１キーポイントの模式図である。本発明の実施例に係る動作認識方法の別の例示における認識によって取得された第１キーポイントの模式図である。本発明の実施例に係る動作認識方法のさらに別の模式的なフローチャートである。本発明の実施例に係る動作認識方法のもう１つの好適的な例示における口部とインタラクションを行う物体に対して位置合わせ操作を実行する模式図である。本発明の実施例に係る動作認識方法の一例示における採集されたオリジナル画像である。本発明の実施例に係る動作認識方法の一例示における人顔枠が検出された模式図である。本発明の実施例に係る動作認識方法の一例示におけるキーポイントに基づいて特定された第１領域の模式図である。本発明の実施例に係る動作認識装置の構造模式図である。本発明の実施例の端末機器又はサーバの実現に適する電子機器の構造模式図である。

現在、図面を参照して本発明の各種の例示的な実施例を詳細に記述する。注意すべきことは、別途詳細に説明しない限り、これらの実施例に記述された部品とステップの相対的な配置、数値条件式及び数値が本発明の範囲を制限しない。

同時に、理解できるように、記述の便宜上、図面に示される各部分の寸法が実際の縮尺に応じて描かれるとは限らない。

以下では、少なくとも１つの例示的な実施例の記述が実に説明的なものに過ぎず、決して本発明及びその応用や使用に対する如何なる制限にもならない。

当業者にとって既知の技術、方法及び機器について詳細に議論しないが、適切な場合には、前記技術、方法及び機器が明細書の一部と見なされるべきである。

注意すべきことは、類似する符号及びアルファベットが後の図面において類似する要素を示すため、ある要素が、１つの図面で定義されると、後の図面において更なる議論される必要がない。

本発明の実施例は、コンピュータシステム／サーバに適用可能であり、他の大量の汎用又は専用の計算システム環境又は配置とともに操作され得る。コンピュータシステム／サーバとともに使用される周知の計算システム、環境及び／又は配置に適用される例は、パソコンシステム、サーバコンピュータシステム、薄クライアント、厚クライアント、ハンドヘルド若しくはラップトップデバイス、マイクロプロセッサによるシステム、セットトップボックス、プログラム可能消費電子製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記何れかのシステムを含む分散型クラウド計算技術環境等を含むが、それらに限定されない。

コンピュータシステム／サーバは、コンピュータシステムで実行されるコンピュータシステム実行可能指令（例えば、プログラムモジュール）の一般的な文脈において記述されてもよい。通常、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、ユニット、ロジック、データ構造等を含んでもよく、それらは、特定のタスクを実行し、又は特定の抽象データ型を実現する。コンピュータシステム／サーバは、分散型クラウド計算環境において実施されてもよい。分散型クラウド計算環境において、タスクは、通信ネットワークを介して接続された遠隔処理機器が実行するものである。分散型クラウド計算環境において、プログラムモジュールは、記憶機器を含むローカル又は遠隔計算システム記憶媒体に位置してもよい。

図１は、本発明の実施例に係る動作認識方法の模式的なフローチャートである。本実施例は、電子機器に適用可能であり、図１に示すように、当該実施例方法は、ステップ１１０～ステップ１３０を含む。

ステップ１１０において、人顔画像に基づいて人顔の口部キーポイントを取得する。

本発明の実施例における口部キーポイントにより、人顔における口部に対してマークを付けることができる。当該口部キーポイントは、従来技術における任意の実現可能な人顔キーポイント認識方法によって取得され得る。例えば、ディープニューラルネットワークを利用して人顔における人顔キーポイントを認識し、人顔キーポイントから分離して口部キーポイントを取得してもよく、又は、直接ディープニューラルネットワーク認識によって口部キーポイントを取得してもよい。本発明の実施例において、口部キーポイントを具体的に取得する方式について限定しない。

１つの好適的な例示において、当該ステップ１１０は、プロセッサがメモリに記憶された対応する指令を呼び出して実行したものであってもよく、プロセッサによって運行された口部キーポイント手段７１が実行したものであってもよい。

ステップ１２０において、口部キーポイントに基づいて第１領域内の画像を特定する。

ただし、第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。本発明の実施例に係る動作認識は、主に、画像における人が喫煙しているか否かを認識するために用いられる。喫煙の動作が口部とタバコとの接触によって実現されたため、第１領域内には、一部又は全部の口部キーポイントが含まれるだけでなく、口部とインタラクションを行う物体が含まれてもよい。当該口部とインタラクションを行う物体がタバコであるときに、画像における人が喫煙していると特定可能である。好ましくは、本発明の実施例における第１領域は、口部中心位置を中心点として特定された矩形又は円形等の任意形状の領域であってもよい。本発明の実施例において、第１領域画像の形状及び大きさについて限定せず、当該第１領域における出現する可能性のある口部に接触するタバコ、棒付きキャンデー等の仲介物を基準とする。

１つの好適的な例示において、当該ステップ１２０は、プロセッサがメモリに記憶された対応する指令を呼び出して実行したものであってもよく、プロセッサによって運行された第１領域特定手段７２が実行したものであってもよい。

ステップ１３０において、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。

好ましくは、本発明の実施例において、口部付近の領域に含まれる、口部とインタラクションを行う物体がタバコであるか否かを認識することにより、画像における人が喫煙しているか否かを特定し、関注点を口部付近に集中させるため、他の関連しない画像が認識結果へ干渉を与える確率が低減され、喫煙動作認識に対する正確性が向上する。

１つの好適的な例示において、当該ステップ１３０は、プロセッサがメモリに記憶された対応する指令を呼び出して実行したものであってもよく、プロセッサによって運行された喫煙認識手段７３が実行したものであってもよい。

本発明の上記実施例に係る動作認識方法によると、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第１領域内の画像を特定し、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定し、第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。口部キーポイントで特定された第１領域内の画像を認識することで、人顔画像における人が喫煙しているか否かを判断するため、認識範囲が縮小され、口部及び口部とインタラクションを行う物体に注意点が集中され、検出率が高められつつ、誤検出率が低減され、喫煙認識の正確性が向上する。

図２は、本発明の実施例に係る動作認識方法の別の模式的なフローチャートである。図２に示すように、当該実施例方法は、ステップ２１０～ステップ２４０を含む。

ステップ２１０において、人顔画像に基づいて人顔の口部キーポイントを取得する。

ステップ２２０において、口部キーポイントに基づいて第１領域内の画像を特定する。

ステップ２３０において、第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第１キーポイントを取得する。

好ましくは、ニューラルネットワークによって第１領域内の画像に対してキーポイント抽出を行うことにより、口部とインタラクションを行う物体の少なくとも２つの第１キーポイントを取得してもよい。これらの第１キーポイントは、第１領域において１本の直線（例えば、タバコの中軸線をタバコキーポイントとする）又は２本の直線（例えば、タバコの２つの側辺をタバコキーポイントとする）等として表されてもよい。

ステップ２４０において、少なくとも２つの第１キーポイントに基づいて第１領域内の画像に対して選別を行う。

ただし、選別の目的は、所定値以上の長さの物体であって口部とインタラクションを行う物体を含む第１領域内の画像を特定することにある。

好ましくは、取得された口部とインタラクションを行う物体における少なくとも２つの第１キーポイントによって、第１領域内の口部とインタラクションを行う物体の長さを特定してもよく、口部とインタラクションを行う物体の長さが小さい（例えば、口部とインタラクションを行う物体の長さが所定値よりも小さい）ときに、第１領域に含まれる口部とインタラクションを行う物体が必ずしもタバコであるとは限らない。その際、第１領域内の画像にタバコが含まれていないと考えられてもよい。口部とインタラクションを行う物体の長さが大きい（例えば、口部とインタラクションを行う物体の長さが所定値以上である）ときこそ、第１領域内の画像にタバコが含まれる可能性があると考えられる。

ステップ２５０において、第１領域内の画像が選別を通ったことに応答して、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。

本発明の実施例において、上記選別によって、一部の第１領域内の画像を特定する。この部分の第１領域内の画像には、設定値に達した長さの口部とインタラクションを行う物体が含まれている。口部とインタラクションを行う物体の長さが設定値に達したときこそ、当該口部とインタラクションを行う物体がタバコである可能性があると考えられる。本ステップにおいて、選別された第１領域内の画像によって人顔画像における人が喫煙しているか否かを特定する。即ち、設定値よりも大きな長さの口部とインタラクションを行う物体について判断し、当該口部とインタラクションを行う物体がタバコであるか否かを判断することで、人顔画像における人顔が喫煙しているか否かを特定する。

好ましくは、ステップ２４０は、
少なくとも２つの第１キーポイントに基づいて、第１領域内の画像における少なくとも２つの第１キーポイントに対応するキーポイント座標を特定することと、
少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて第１領域内の画像に対して選別を行うことと、を含む。

口部とインタラクションを行う物体の少なくとも２つの第１キーポイントが取得された後、人顔画像における人が喫煙しているか否かを完全に特定できるとは限らない。単に口部に他の類似する物体（例えば、棒付きキャンデー又は他の長尺形物体等）が噛まれる可能性がある。その一方、タバコが通常、一定の長さを有するため、第１領域にタバコが含まれているか否かを特定するために、本発明の実施例において、第１キーポイントのキーポイント座標を特定し、第１キーポイントの第１領域におけるキーポイント座標に基づいて、口部とインタラクションを行う物体の第１領域画像における長さを特定可能であり、更に人顔画像における人が喫煙しているか否かを特定する。

好ましくは、少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、第１領域内の画像に対して選別を行うことは、
少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、第１領域内の画像における、口部とインタラクションを行う物体の長さを特定することと、
口部とインタラクションを行う物体の長さが所定値以上であることに応答して、第１領域内の画像が選別を通ったと特定することと、を含む。

好ましくは、少なくとも２つの第１キーポイントのキーポイント座標が取得された後、口部とインタラクションを行う物体の長さを特定するために、少なくとも２つの第１キーポイントは、物体の口部に近接する端の一方のキーポイントと、口部から離間する他方のキーポイントとを少なくとも含む。例えば、口部とインタラクションを行う物体の口に近接するキーポイントは、それぞれｐ１、ｐ２と定義され、口から離間するキーポイントは、それぞれｐ３、ｐ４と定義される。ｐ１とｐ２の間の中点は、ｐ５とされ、ｐ３とｐ４の間の中点は、ｐ６とされる。その際、ｐ５とｐ６との座標を利用してタバコの長さを特定してもよい。

好ましくは、口部とインタラクションを行う物体の長さが所定値よりも小さいことに応答して、第１領域内の画像が選別を通らなかったと特定し、第１領域内の画像にタバコが含まれていないと特定する。

喫煙動作検出の難関の１つが、タバコが画像において僅かな一部のみを露出する（即ち、タバコが基本的に１つの横断面しか露出しない時）ことと、運行者が喫煙していない状態とを如何に区分するかということにあるため、ニューラルネットワークによって抽出された特徴が画面における口部の非常に微小な細部をとらえる必要となる。１つの横断面しか露出しない喫煙ピクチャまでもネットワークによって鋭敏に検出されることを要求されれば、アルゴリズムの誤検出率が高くなるに違いない。したがって、本発明の実施例において、口部とインタラクションを行う物体の第１キーポイントを依拠として、口部とインタラクションを行う物体の露出部分が非常に少ないピクチャ又は運行者の口に何もないピクチャを分類ネットワークへ直接届ける前にフィルタリングによって除去する。トレーニングされたネットワークをテストして発見できるように、キーポイント検出アルゴリズムでは、ディップネットワークは、勾配バックプロパゲーションアルゴリズムを利用してネットワークパラメータを更新した後、画像における、口部とインタラクションを行う物体のエッジ情報が重点的に注目され、大半の人が喫煙動作をしておらず且つ口部の周囲に短冊状の物体によるストライプ干渉がないときに、キーポイントの予測は口部中心のある平均位置に分布する傾向がある（このとき、タバコが存在しなくても）。上記特性によると、口部とインタラクションを行う物体が僅かな一部を露出する画像又は運行者の口に何もない画像を第１キーポイントによってフィルタリングすることは（即ち、口部とインタラクションを行う物体が僅かな一部を露出し、横断面しか露出しない状況に近接する場合に、画像上の喫煙判断依拠が足りないとして、第１領域にタバコが含まれていないと考えられる）実現される。

好ましくは、ステップ２４０は、
各第１キーポイントを区分するための番号を少なくとも２つの第１キーポイントのうちの各第１キーポイントへ割り当てることを更に含む。

少なくとも２つの第１キーポイントのうちの各第１キーポイントへ異なる番号を割り当てることにより、各第１キーポイントを区分可能であり、異なる第１キーポイントによって異なる目的を果たす。例えば、口部キーポイントに最も近い第１キーポイントと、口部から最も遠い第１キーポイントとによって、現在タバコの長さは、特定可能である。本発明の実施例において、任意の重複しない順番で第１キーポイントへ番号を割り当て、異なる第１キーポイントのそれぞれを区別できればよい。本発明の実施例において、番号を割り当てる具体的な方式について限定しない。例えば、たすきがけ法則の順番で少なくとも２つの第１キーポイントのうちの各第１キーポイントへ異なる番号を割り当てる。

１つ又は複数の好適な実施例において、少なくとも２つの第１キーポイントに基づいて、第１領域内の画像における少なくとも２つの第１キーポイントに対応するキーポイント座標を特定することは、
第１ニューラルネットワークを利用して第１領域内の画像における少なくとも２つの第１キーポイントに対応するキーポイント座標を特定することを含む。

ただし、第１ニューラルネットワークは、第１サンプル画像でトレーニングされたものである。

好ましくは、第１サンプル画像は、マーキングキーポイント座標を含み、
第１ニューラルネットワークをトレーニングする過程は、
第１サンプル画像を第１ニューラルネットワークに入力して、少なくとも２つの第１キーポイントに対応する予測キーポイント座標を取得することと、
予測キーポイント座標及びマーキングキーポイント座標に基づいて第１ネットワーク損失を特定し、第１ネットワーク損失に基づいて第１ニューラルネットワークのパラメータを調整することと、を含む。

好ましくは、第１キーポイント位置決めタスクは、人顔キーポイント位置決めタスクと類似し、１つの回帰タスクとして見なされてもよい。このようにして、第１キーポイントの２次元座標（ｘ_ｉ，ｙ_ｉ）のマッピング関数は得られる。アルゴリズムの記述は、下記のようになる。
第１ニューラルネットワークの第１層の入力（即ち、入力画像）がｘ_１と記され、中間層の出力がｘ_ｎと記され、各層のネットワークが１つの非線形関数マッピングＦ（ｘ）に相当し、第１ニューラルネットワークが合計でＮ層を有すると仮定すれば、第１ニューラルネットワークの非線形マッピングが行われた後、ネットワークの出力は、式（１）として一般化されて示され得る。

式（１）
ただし、

は、第１ニューラルネットワークから出力された１次元ベクトルであり、当該１次元ベクトルにおける各値は、キーポイントネットワークから最終的に出力されたキーポイント座標を示す。

１つ又は複数の好適な実施例において、ステップ２３０は、
第１領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、口部とインタラクションを行う物体の中軸線における少なくとも２つの中軸キーポイント、及び／又は、口部とインタラクションを行う物体の２辺のうちの各辺における少なくとも２つの辺キーポイントを取得することを含む。

本発明の実施例において、第１キーポイントを定義するときに、画像における口部とインタラクションを行う物体の中軸線における中軸キーポイントを第１キーポイントとし、及び／又は、画像における口部とインタラクションを行う物体の２辺における辺キーポイントを第１キーポイントとしてもよい。好ましくは、後続のキーポイント位置合わせが進められるように、２辺のキーポイントを選択して定義する。図３ａは、本発明の実施例に係る動作認識方法の一例示における認識によって取得された第１キーポイントの模式図である。図３ｂは、本発明の実施例に係る動作認識方法の別の例示における認識によって取得された第１キーポイントの模式図である。図３ａと３ｂに示すように、２辺キーポイントを選択して第１キーポイントを定義する。異なる第１キーポイントを認識して異なる第１キーポイントに対応するキーポイント座標を取得するために、各第１キーポイントへ異なる番号を割り当ててもよい。

図４は、本発明の実施例に係る動作認識方法のさらに別の模式的なフローチャートである。図４に示すように、当該実施例方法は、以下のステップを含む。

ステップ４１０において、人顔画像に基づいて人顔の口部キーポイントを取得する。

ステップ４２０において、口部キーポイントに基づいて第１領域内の画像を特定する。

ステップ４３０において、前記第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第２キーポイントを取得する。

好ましくは、本発明の実施例において、取得された第２キーポイントと上記実施例における第１キーポイントとは、何れも口部とインタラクションを行う物体におけるキーポイントであり、第２キーポイントは、第１キーポイントと同じであってもよく、異なってもよい。

ステップ４４０において、少なくとも２つの第２キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第２領域内の画像を取得する。

ただし、第２領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。

本発明の実施例において、取得された第２キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を行うことにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第２領域を取得し、第２領域と上記実施例における第１領域とは、重なる部分が存在してもよい。例えば、第２領域は、少なくとも第１領域内の画像における一部の口部キーポイント、及び、口部とインタラクションを行う物体の画像を含む。本発明の実施例に係る動作認識方法は、複数種の実現方式を含み得る。例えば、第１領域内の画像に対して選別操作のみを行う場合に、単に口部とインタラクションを行う物体の第１キーポイントを特定し、少なくとも２つの第１キーポイントに基づいて、第１領域内の画像に対して選別を行う必要がある。口部とインタラクションを行う物体に対して位置合わせ操作のみを行う場合に、単に口部とインタラクションを行う物体の第２キーポイントを特定し、少なくとも２つの第２キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行する必要がある。選別操作も実行し、位置合わせ操作も実行する場合には、口部とインタラクションを行う物体の第１キーポイントと第２キーポイントとを特定する必要がある。ただし、第１キーポイントと第２キーポイントは、同じであってもよく異なってもよい。第２キーポイント及びその座標の特定方式は、第１キーポイント及びその座標の特定方式を参照可能であり、且つ、本発明の実施例において、選別操作及び位置合わせ操作の操作順番について限定しない。

好ましくは、ステップ４４０において、少なくとも２つの第２キーポイントに基づいて対応するキーポイント座標を取得し、取得された第２キーポイントのキーポイント座標に基づいて位置合わせ操作を実施可能である。第２キーポイントに基づいてキーポイント座標を取得する過程は、第１キーポイントに基づいてキーポイント座標を取得するものと類似し、ニューラルネットワークによって取得可能である。本発明の実施例において、第２キーポイントに基づいて少なくとも位置合わせ操作を行う具体的な方式について限定しない。

好ましくは、ステップ４４０は、各第２キーポイントを区分するための番号を少なくとも２つの第２キーポイントのうちの各第２キーポイントへ割り当てることを更に含んでもよい。番号を割り当てるルールは、第１キーポイントに対して番号を割り当てる方式を参照可能であるため、ここで繰り返し説明しない。

ステップ４５０において、第２領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。

畳み込みニューラルネットワークの回転不変性が悪いため、物体の異なる回転度合いでの、ニューラルネットワークの特徴抽出は、ある程度の差異を有する。その一方、人が喫煙しているときに、タバコの向きが各方向であるため。直接元の切り出されたピクチャ上において直接特徴抽出を行うと、喫煙しているか否かの結果検出性能は、ある程度低下する恐れがある。換言すれば、ニューラルネットワークは、ある程度の減結合ができるように、タバコの異なる角度での生体特徴抽出に適応する必要がある。本発明の実施例において、第２キーポイントに基づいて位置合わせ操作を行うことにより、入力された各人顔画像における口部とインタラクションを行う物体を何れも同一の方向へ向かわせ、誤検出の確率を低減できる。

好ましくは、位置合わせ操作は、
少なくとも２つの第２キーポイントに基づいてキーポイント座標を取得し、少なくとも２つの第２キーポイントに対応するキーポイント座標に基づいて、口部とインタラクションを行う物体を取得することと、
アフィン変換を利用して所定方向に基づいて口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第２領域内の画像を取得することと、を含んでもよい。
ただし、アフィン変換は、回転、拡大縮小、平行移動、反転、切り取り等のうちの少なくとも１つを含んでもよいが、それらに限定されない。

本発明の実施例において、アフィン変換によって、口部とインタラクションを行う物体の画像上の画素を、キーポイント位置合わせを経た１つの新たなピクチャにマッピングする。このようにして、既存の第２キーポイントを予め設定されたキーポイントと位置合わせする。これにより、画像における口部とインタラクションを行う物体の信号と、口部とインタラクションを行う物体の角度情報とを減結合可能であり、後続のニューラルネットワークの特徴抽出性能を向上させる。図５は、本発明の実施例に係る動作認識方法のもう１つの好適な例示における口部とインタラクションを行う物体に対して位置合わせ操作を行う模式図である。図５に示すように、第２キーポイント及び目標位置を利用してアフィン変換を行うことにより、第１領域画像における口部とインタラクションを行う物体の方向を変換する。本例示において、口部とインタラクションを行う物体（タバコ）の方向を下方向に変換する。

キーポイント位置合わせは、アフィン変換（ＡｆｆｉｎｅＴｒａｎｓｆｏｒｍａｔｉｏｎ）によって実現される。アフィン変換の機能は、２次元座標から２次元座標への線形変換であり、且つ２次元図形の「真直性」及び「平行性」を維持する。アフィン変換は、一連の原子変換の複合によって実現されてもよい。ただし、原子変換は、平行移動、拡大縮小、反転、回転及び切り取り等を含んでもよいが、それらに限定されない。

アフィン変換のその座標系は、式（２）に示される。

式（２）
ただし、

は、アフィン変換して得られた座標を示し、

は、抽出して取得されたタバコキーポイントのキーポイント座標を示し、

は、回転行列を示し、ｘ_０及びｙ_０は、平行移動ベクトルを示す。

上記式は、回転、平行移動、拡大縮小、回転の幾つかの操作をカバーしている。モデルから与えられたキーポイントが（ｘ_ｉ，ｙ_ｉ）の集合であり、設置された目標点位置が（ｘ_ｉ’，ｙ_ｉ’）（ここでの目標点位置は、人為的に設定されてもよい）であると仮定すれば、アフィン変換行列によってソース画像を目標画像へアフィン変換し、切り取った後、正面に回転した後のピクチャは得られる。

好ましくは、ステップ１３０は、
第２ニューラルネットワークを利用し、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定することを含む。

ただし、第２ニューラルネットワークは、第２サンプル画像でトレーニングされたものである。第２サンプル画像は、喫煙のサンプル画像及び非喫煙のサンプル画像を含む。このようにして、ニューラルネットワークをトレーニングしてタバコを他の細長い物体と区分可能であるため、一体、喫煙しているか、それとも口に他のものを付けているかを認識できる。

本発明の実施例において、取得されたキーポイント座標を第２ニューラルネットワーク（例えば、分類畳み込みニューラルネットワーク）に入力して分類させる。好ましくは、操作過程も、畳み込みニューラルネットワークによって特徴抽出を行って、二分類の結果を最後で出力する。即ち、当該画像が喫煙又は非喫煙の画像に属する確率をフィッティングする。

好ましくは、第２サンプル画像には、画像における人が喫煙しているか否かのマーク結果がマークされている。
第２ニューラルネットワークをトレーニングする過程は、
第２サンプル画像を第２ニューラルネットワークに入力して、第２サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
予測結果及びマーク結果に基づいて第２ネットワーク損失を取得し、第２ネットワーク損失に基づいて第２ニューラルネットワークのパラメータを調整することとを含む。

好ましくは、第２ニューラルネットワークに対するトレーニングの中、ネットワークモニタリングは、ｓｏｆｔｍａｘ損失関数を採用可能であり、式は、下記のようになる。
ｐ_ｉは、第２ニューラルネットワークから出力された第ｉ個の第２サンプル画像の予測結果が実際の正しい種別（マーク結果）である確率であり、Ｎは、総サンプル数である。
損失関数は、以下の式（３）を採用可能である。

式（３）
ネットワーク構造及び損失関数が定義された後、トレーニングとしては、ただ勾配バックプロパゲーションの算出方式によってネットワークパラメータを更新すればよい。トレーニングされた第２ニューラルネットワークのネットワークパラメータは得られる。

第２ニューラルネットワークがトレーニングされた後、損失関数を除去してネットワークパラメータを一定のままにし、前処理された画像を同様に畳み込みニューラルネットワークに入力して特徴を抽出して分類させる。このようにして、分類モジュールから与えられた分類結果は、取得可能である。これにより、画面における人が喫煙しているか否かを判断する。

１つ又は複数の好適な実施例において、ステップ１１０は、
人顔画像に対して人顔キーポイント抽出を行って、人顔画像における人顔キーポイントを取得することと、
人顔キーポイントに基づいて口部キーポイントを取得することと、を含む。

好ましくは、ニューラルネットワークを介して人顔画像に対して人顔キーポイント抽出を行う。喫煙動作及び人との相互作用方式が主に口及び手で行われ、喫煙動作が基本的に口部の付近で行われるため、人顔検出及び人顔キーポイント位置決め技術によって有効情報領域（第１領域画像）を口部付近に絞り込むことができる。好ましくは、抽出された人顔キーポイントに対して番号を編集し、幾つかの番号のキーポイントを口部キーポイントとして設定し、又は人顔キーポイントの人顔画像における位置に応じて口部キーポイントを取得し、口部キーポイントに基づいて第１領域画像を特定してもよい。

幾つかの好適な例示において、本発明の実施例の人顔画像は、人顔検出によって取得された。採集された画像に対して人顔検出を行って人顔画像を取得する。人顔検出は、全喫煙動作認識の底層基礎モジュールである。喫煙者が喫煙しているときに画面上に人顔が必ず出現するため、人顔検出によって人顔の位置を粗位置決めすることは可能である。本発明の実施例において、具体的な人顔検出アルゴリズムについて限定しない。

人顔枠が人顔検出によって取得された後、人顔枠内の画像（上記実施例における人顔画像に対応する）を切り取って人顔キーポイント抽出を行う。好ましくは、人顔キーポイント位置決めタスクは、実際に１つの回帰タスクとして一般化され得る。つまり、人顔情報を含む画像を１枚与え、画像におけるキーポイントの２次元座標（ｘ_ｉ，ｙ_ｉ）のマッピング関数をフィッティングする。１枚の入力画像について、検出された人顔位置を切り出す。ネットワークのフィッティングは、１つの局所画像の範囲内でしか行われないため、フィッティングの速度が向上する。人顔キーポイントは、主に人の五感組織キーポイントを含む。本発明の実施例において、主に口部のキーポイント、例えば、口角点、唇輪郭キーポイント等が注目される。

好ましくは、口部キーポイントに基づいて第１領域内の画像を特定することは、
口部キーポイントに基づいて人顔における口部の中心位置を特定することと、
口部の中心位置を第１領域の中心点とし、所定長さを辺の長さ又は半径として、第１領域を特定することと、を含む。

本発明の実施例において、出現する可能性のあるタバコの領域を第１領域に含めるために、口部の中心位置を第１領域画像の中心点とし、所定長さを半径又は辺の長さとして、１つの矩形又は円形の第１領域を特定する。好ましくは、所定長さは、予め設定されてもよく、口部の中心位置と人顔におけるあるキーポイントとの距離に基づいて特定されてもよい。例えば、口部キーポイントと眉部キーポイントとの間の距離に基づいて所定長さを特定してもよい。

好ましくは、人顔キーポイントに基づいて眉部キーポイントを取得する。
口部の中心位置を第１領域中心点とし、所定長さを辺の長さ又は半径として、第１領域を特定することは、
口部の中心位置を中心点とし、口部の中心位置から眉間までの垂直距離を辺の長さ又は半径として、第１領域を特定する。

ただし、眉間は、眉部キーポイントに基づいて特定されたものである。

例えば、人顔キーポイントが位置決めされた後、口部中心と眉間との垂直距離ｄを算出し、その後、口部中心を中心とし、２ｄを辺の長さとする正四角形領域Ｒを取得し、Ｒ領域画像を本発明の実施例の第１領域とする。

図６ａは、本発明の実施例に係る動作認識方法の一例示における採集されたオリジナル画像である。図６ｂは、本発明の実施例に係る動作認識方法の一例示における人顔枠が検出された模式図である。図６ｃは、本発明の実施例に係る動作認識方法の一例示におけるキーポイントに基づいて特定された第１領域の模式図である。１つの好適的な例示において、図６ａ、６ｂ及び６ｃにより、採集されたオリジナル画像に基づいて第１領域を取得する過程は、実現された。

当業者であれば理解できるように、上記方法実施例を実施する全部又は一部のステップは、プログラム指令に関連するハードウェアにて実施されてもよい。上記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。当該プログラムが実行されたときに、上記方法実施例のステップが実行される。上記記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスク等の、プログラムコードを記憶可能な各種の媒体を含む。

図７は、本発明の実施例に係る動作認識装置の構造模式図である。当該実施例の装置は、本発明の上記各方法実施例を実施してもよい。図７に示すように、当該実施例の装置は、下記の手段を備える。
口部キーポイント手段７１は、人顔画像に基づいて人顔の口部キーポイントを取得する。
第１領域特定手段７２は、口部キーポイントに基づいて第１領域内の画像を特定する。
ただし、第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
喫煙認識手段７３は、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。

本発明の上記実施例に係る動作認識装置によると、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第１領域内の画像を特定し、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定し、第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。口部キーポイントで特定された第１領域によって喫煙しているか否かを認識するため、認識範囲が縮小され、口部及び口部とインタラクションを行う物体に注意点が集中され、検出率が高められつつ、誤検出率が低減され、喫煙認識の正確性が向上する。

１つ又は複数の好適な実施例において、装置は、下記の手段を更に備える。
第１キーポイント手段は、第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第１キーポイントを取得する。
画像選別手段は、少なくとも２つの第１キーポイントに基づいて第１領域内の画像に対して選別を行い、第１領域内の口部とのインタラクションを行う物を特定するための長さを選別する。ただし、前記第１領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体の画像を含む第１領域内の画像を特定することである。
喫煙認識手段７３は、第１領域内の画像が選別を通ったことに応答して、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。

好ましくは、画像選別手段は、少なくとも２つの第１キーポイントに基づいて、第１領域内の画像における少なくとも２つの第１キーポイントに対応するキーポイント座標を特定し、少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、第１領域内の画像に対して選別を行う。

好ましくは、画像選別手段は、少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、第１領域内の画像に対して選別を行うときに、少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、第１領域内の画像における口部とインタラクションを行う物体の長さを特定し、口部とインタラクションを行う物体の長さが所定値以上であることに応答して、第１領域内の画像が選別を通ったと特定する。

好ましくは、画像選別手段は、少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、第１領域内の画像に対して選別を行うときに、更に、口部とインタラクションを行う物体の長さが所定値より小さいことに応答して、第１領域内の画像が選別を通らなかったと特定し、第１領域内の画像にタバコが含まれていないと特定する。

好ましくは、画像選別手段は、更に、各第１キーポイントを区分するための番号を少なくとも２つの第１キーポイントのうちの各第１キーポイントへ割り当てる。

好ましくは、画像選別手段は、少なくとも２つの第１キーポイントに基づいて、第１領域内の画像における少なくとも２つの第１キーポイントに対応するキーポイント座標を特定するときに、第１ニューラルネットワークを利用して第１領域内の画像中の少なくとも２つの第１キーポイントに対応するキーポイント座標を特定する。第１ニューラルネットワークは、第１サンプル画像でトレーニングされたものである。

好ましくは、第１サンプル画像は、マーキングキーポイント座標を含み、第１ニューラルネットワークをトレーニングする過程は、
第１サンプル画像を第１ニューラルネットワークに入力して、少なくとも２つの第１キーポイントに対応する予測キーポイント座標を取得することと、
予測キーポイント座標及びマーキングキーポイント座標に基づいて第１ネットワーク損失を特定し、第１ネットワーク損失に基づいて第１ニューラルネットワークのパラメータを調整することと、を含む。
好ましくは、第１キーポイント手段は、第１領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、口部とインタラクションを行う物体の中軸線における少なくとも２つの中軸キーポイント、及び／又は、口部とインタラクションを行う物体の２辺のうちの各辺における少なくとも２つの辺キーポイントを取得する。

１つ又は複数の好適な実施例において、本発明の実施例に係る装置は、下記の手段を更に備える。
第２キーポイント手段は、第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第２キーポイントを取得する。
画像位置合わせ手段は、少なくとも２つの第２キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第２領域内の画像を取得し、第２領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
喫煙認識手段７３は、第２領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。

１つ又は複数の好適な実施例において、喫煙認識手段７３は、第２ニューラルネットワークを利用し、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。第２ニューラルネットワークは、第２サンプル画像でトレーニングされたものである。

好ましくは、第２サンプル画像には、画像における人が喫煙しているか否かのマーク結果がマークされている。第２ニューラルネットワークをトレーニングする過程は、
第２サンプル画像を第２ニューラルネットワークに入力して、第２サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
予測結果及びマーク結果に基づいて第２ネットワーク損失を取得し、第２ネットワーク損失に基づいて第２ニューラルネットワークのパラメータを調整することと、を含む。

１つ又は複数の好適な実施例において、口部キーポイント手段７１は、人顔画像に対して人顔キーポイント抽出を行って、人顔画像における人顔キーポイントを取得し、人顔キーポイントに基づいて口部キーポイントを取得する。

好ましくは、第１領域特定手段７２は、口部キーポイントに基づいて人顔における口部の中心位置を特定し、口部の中心位置を第１領域の中心点とし、所定長さを辺の長さ又は半径として、第１領域を特定する。

好ましくは、本発明の実施例に係る装置は、以下の手段を更に備える。
眉部キーポイント手段は、人顔キーポイントに基づいて眉部キーポイントを取得する。
第１領域特定手段７２は、口部の中心位置を中心点とし、口部の中心位置から眉間までの垂直距離を辺の長さ又は半径として、第１領域を特定する。眉間は、眉部キーポイントに基づいて特定されたものである。

本発明の実施例に係る動作認識装置の何れかの実施例の動作過程、設置方式及び対応する技術効果は、何れも本発明の上記対応方法実施例の具体的な記述を参照してもよいが、紙面の都合上から、ここで繰り返し説明しない。

本発明の実施例のさらに別の態様は、電子機器を提供する。当該電子機器は、プロセッサを備え、当該プロセッサは、上記何れか１つの実施例に供される動作認識装置を含む。

本発明の実施例のもう１つの態様は、電子機器を提供する。当該電子機器は、実行可能指令を記憶するためのメモリと、メモリと通信して実行可能指令を実行することで上記何れか１つの実施例に供される動作認識方法の操作を実行するためのプロセッサと、を備える。

本発明の実施例のもう１つの態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体は、コンピュータ読み取り可能な指令を記憶する。指令が実行されたときに、上記何れか１つの実施例に供される動作認識方法の操作は、実施される。

本発明の実施例のもう１つの態様は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含む。コンピュータ可読コードが機器上で運行されたときに、機器におけるプロセッサは、上記何れか１つの実施例に供される動作認識方法の指令を実行する。

本発明の実施例は、電子機器を更に提供する。当該電子機器は、例えば、モバイル端末、パソコン（ＰＣ）、タブレットＰＣ、サーバ等であってもよい。以下において、図８は、本発明の実施例の端末機器又はサーバの実現に適する電子機器８００の構造模式図を示す。図８に示すように、電子機器８００は、１つ又は複数のプロセッサ、通信部等を備える。前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理装置（ＣＰＵ）８０１、及び／又は１つ又は複数の画像プロセッサ（加速手段）８１３等を備える。プロセッサは、読み出し専用メモリ（ＲＯＭ）８０２に記憶された実行可能指令、又は、記憶部分８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能指令により、各種の適切な動作及び処理を実行してもよい。通信部８１２は、ネットワークカードを含んでもよいが、それに限定されない。前記ネットワークカードは、ＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでもよいが、それに限定されない。

プロセッサは、読み出し専用メモリ８０２及び／又はランダムアクセスメモリ８０３と通信して実行可能指令を実行してもよく、バス８０４を介して通信部８１２に接続され、通信部８１２を介して他の目標機器と通信することにより、本発明の実施例に係る何れか１つの方法に対応する操作を完成する。プロセッサは、例えば、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第１領域内の画像を特定し、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。

また、ＲＡＭ８０３には、装置の操作に必要な各種のプログラム及びデータが更に記憶されてもよい。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を介して互いに接続される。ＲＡＭ８０３がある場合に、ＲＯＭ８０２は、オプションのモジュールであってもよい。ＲＡＭ８０３は、実行可能指令を記憶し、又は運行時にＲＯＭ８０２へ実行可能指令を書き込む。実行可能指令により、中央処理装置８０１は、上記通信方法に対応する操作を実行する。入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続される。通信部８１２は、統合的に設置されてもよく、複数のサブモジュール（例えば、複数のＩＢネットワークカード）を有してバスで互いに接続させるように設置されてもよい。

キーボード、マウス等を含む入力部分８０６と、例えば、陰極線管（ＣＲＴ）、液晶表示器（ＬＣＤ）等及びスピーカ等を含む出力部分８０７と、ハードディスク等を含む記憶部分８０８と、例えば、ＬＡＮカード、モデム等のネットワークインターフェースカードを含む通信部分８０９とは、Ｉ／Ｏインターフェース８０５に接続されている。通信部分８０９は、インターネットのようなネットワークを経由して通信処理を実行する。ドライバ８１０は、必要に応じてＩ／Ｏインターフェース８０５に接続される。取り外し可能媒体８１１、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ８１０に取り付けられることにより、それから読み出されたコンピュータプログラムが必要に応じて記憶部分８０８にインストールされることは、便利になる。

説明すべきことは、図８に示すアーキテクチャが単に選択可能な実現方式であり、具体的な実践過程において、実際の必要に応じて上記図８の部品数及びタイプについて選択、削減、追加又は置換を行ってもよい。異なる機能部品設置において、分離設置又は統合設置等の実現方式を採用してもよい。例えば、加速手段８１３及びＣＰＵ８０１は、分離して設置されてもよく、又は、加速手段８１３は、ＣＰＵ８０１に統合されてもよい。通信部は、分離して設置されてもよく、ＣＰＵ８０１又は加速手段８１３に統合設置されてもよい（等）。これらの置換可能な実施形態は、何れも本発明に開示された保護範囲に含まれる。

特に、本発明の実施例によると、上記フローチャートを参照して記述された過程は、コンピュータソフトウェアプログラムとして実現され得る。例えば、本発明の実施例は、コンピュータプログラム製品を含む。当該コンピュータプログラム製品は、機器読み取り可能な媒体に有形的に含まれるコンピュータプログラムを含み、コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含み、プログラムコードは、本発明の実施例に係る方法ステップ、例えば、人顔画像に基づいて人顔の口部キーポイントを取得するステップと、口部キーポイントに基づいて第１領域内の画像（第１領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む）を特定するステップと、第１領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定するステップと、を対応的に実行する指令を含んでもよい。このような実施例において、当該コンピュータプログラムは、通信部分８０９を介してネットワークからダウンロード及びインストールされ、及び／又は取り外し可能媒体８１１からインストールされてもよい。当該コンピュータプログラムが中央処理装置（ＣＰＵ）８０１によって実行されたときに、本発明の方法に係る上記機能の操作が実施される。

本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すれば分かる。システム実施例は、方法実施例に基本的に対応するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。

本発明の方法及び装置は、たくさんの方式で実現され得る。本発明の方法及び装置は、例えば、ソフトウェア、ハードウェア、ファームウェア又はソフトウェア、ハードウェア、ファームウェアの如何なる組み合わせで実現され得る。前記方法のステップのための上記順番は、単に説明用であり、本発明の方法のステップは、他の方式で特別に説明しない限り、上記具体的に記述された順番に限定されない。また、幾つかの実施例において、本発明を記録媒体に記録されたプログラムとして実施してもよい。これらのプログラムは、本発明の方法を実施するための機器読み取り可能な指令を含む。したがって、本発明は、更に、本発明の方法を実行するためのプログラムを記憶する記録媒体もカバーする。

本発明の記述は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本発明の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

動作認識方法であって、
人顔画像に基づいて人顔の口部キーポイントを取得するステップと、
前記口部キーポイントに基づいて第１領域内の画像を特定するステップと、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップと、を含み、
前記第１領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する前に、前記動作認識方法は、
前記第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第２キーポイントを取得するステップと、
前記少なくとも２つの第２キーポイントに基づいて、前記口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、前記口部とインタラクションを行う物体を所定方向へ向かわせ、前記所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第２領域内の画像を取得するステップと、を更に含み、
前記第２領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、前記第２領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含む
ことを特徴とする動作認識方法。
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する前に、前記動作認識方法は、
前記第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第１キーポイントを取得するステップと、
前記少なくとも２つの第１キーポイントに基づいて前記第１領域内の画像に対して選別を行うステップと、を更に含み、
前記第１領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体を含む第１領域内の画像を特定することであり、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、
前記第１領域内の画像が選別を通ったことに応答して、前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含む
ことを特徴とする請求項１に記載の動作認識方法。
前記少なくとも２つの第１キーポイントに基づいて前記第１領域内の画像に対して選別を行うステップは、
前記少なくとも２つの第１キーポイントに基づいて、前記第１領域内の画像における前記少なくとも２つの第１キーポイントに対応するキーポイント座標を特定することと、
前記キーポイント座標に基づいて、前記第１領域内の画像に対して選別を行うことと、を含む
ことを特徴とする請求項２に記載の動作認識方法。
前記少なくとも２つの第１キーポイントに対応するキーポイント座標に基づいて、前記第１領域内の画像に対して選別を行うことは、
前記キーポイント座標に基づいて、前記第１領域内の画像における、口部とインタラクションを行う物体の長さを特定することと、
前記口部とインタラクションを行う物体の長さが所定値以上であることに応答して、前記第１領域内の画像が選別を通ったと特定することと、を含み、
前記動作認識方法は、
前記口部とインタラクションを行う物体の長さが所定値より小さいことに応答して、前記第１領域内の画像が選別を通らなかったと特定するステップと、
前記第１領域内の画像にタバコが含まれていないと特定するステップと、を更に含む
ことを特徴とする請求項３に記載の動作認識方法。
前記少なくとも２つの第１キーポイントに基づいて、前記第１領域内の画像における前記少なくとも２つの第１キーポイントに対応するキーポイント座標を特定する前に、
各前記第１キーポイントを区分するための番号を前記少なくとも２つの第１キーポイントのうちの各前記第１キーポイントへ割り当てるステップを更に含む
ことを特徴とする請求項３又は４に記載の動作認識方法。
前記第１領域内の画像における前記少なくとも２つの第１キーポイントに対応するキーポイント座標を特定することは、
第１ニューラルネットワークを利用して前記第１領域内の画像における前記少なくとも２つの第１キーポイントに対応するキーポイント座標を特定することを含み、
前記第１ニューラルネットワークは、第１サンプル画像でトレーニングされたものである
ことを特徴とする請求項３から５の何れか一項に記載の動作認識方法。
前記第１サンプル画像は、マーキングキーポイント座標を含み、
前記第１ニューラルネットワークをトレーニングする過程は、
前記第１サンプル画像を前記第１ニューラルネットワークに入力して、少なくとも２つの第１キーポイントに対応する予測キーポイント座標を取得することと、
前記予測キーポイント座標と前記マーキングキーポイント座標とに基づいて第１ネットワーク損失を特定し、前記第１ネットワーク損失に基づいて前記第１ニューラルネットワークのパラメータを調整することと、を含む
ことを特徴とする請求項６に記載の動作認識方法。
前記第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも２つの第１キーポイントを取得するステップは、
前記第１領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、前記口部とインタラクションを行う物体の中軸線における少なくとも２つの中軸キーポイント、及び／又は、前記口部とインタラクションを行う物体の２辺のうちの各辺における少なくとも２つの辺キーポイントを取得することを含む
ことを特徴とする請求項２から７の何れか一項に記載の動作認識方法。
前記人顔画像に基づいて人顔の口部キーポイントを取得するステップは、
前記人顔画像に対して人顔キーポイント抽出を行って、前記人顔画像における人顔キーポイントを取得することと、
前記人顔キーポイントに基づいて前記口部キーポイントを取得することと、を含む
ことを特徴とする請求項１から８の何れか一項に記載の動作認識方法。
前記口部キーポイントに基づいて前記第１領域内の画像を特定するステップは、
前記口部キーポイントに基づいて前記人顔における口部の中心位置を特定することと、
前記口部の中心位置を前記第１領域の中心点とし、所定長さを辺の長さ又は半径として、前記第１領域を特定することと、を含む
ことを特徴とする請求項９に記載の動作認識方法。
前記口部キーポイントに基づいて前記第１領域内の画像を特定する前に、前記動作認識方法は、
前記人顔キーポイントに基づいて眉部キーポイントを取得するステップを更に含み、
前記口部の中心位置を前記第１領域の中心点とし、所定長さを辺の長さ又は半径として、前記第１領域を特定することは、
前記口部の中心位置を中心点とし、前記口部の中心位置から前記眉部キーポイントに基づいて特定された眉間までの垂直距離を辺の長さ又は半径として、前記第１領域を特定することを含む
ことを特徴とする請求項１０に記載の動作認識方法。
動作認識装置であって、
人顔画像に基づいて人顔の口部キーポイントを取得するための口部キーポイント手段と、
前記口部キーポイントに基づいて第１領域内の画像を特定するための第１領域特定手段と、
前記第１領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するための喫煙認識手段と、を備え、
前記第１領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記動作認識装置は、
前記第１領域内の画像に基づいて、口部とインタラクションを行う物体における少なく
とも２つの第２キーポイントを取得するための第２キーポイント手段と、
前記少なくとも２つの第２キーポイントに基づいて、前記口部とインタラクションを行
う物体に対して位置合わせ操作を実行することにより、前記口部とインタラクションを行
う物体を所定方向へ向かわせ、前記所定方向へ向かう物体であって口部とインタラクショ
ンを行う物体を含む第２領域内の画像を取得するための画像位置合わせ手段と、を更に備
え、
前記第２領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを
行う物体の画像と、を少なくとも含み、
前記喫煙認識手段は、前記第２領域内の画像に基づいて前記人顔画像における人が喫煙
しているか否かを特定する
ことを特徴とする動作認識装置。
電子機器であって、
実行可能指令を記憶するためのメモリと、
前記メモリと通信して前記実行可能指令を実行することで請求項１から１１の何れか一項に記載の動作認識方法の操作を実施するためのプロセッサと、を備える
ことを特徴とする電子機器。
コンピュータ読み取り可能な指令を記憶するためのコンピュータ可読記憶媒体であって、
前記指令が実行されたときに、請求項１から１１の何れか一項に記載の動作認識方法の操作が実施される
ことを特徴とするコンピュータ可読記憶媒体。