JP2020527792A

JP2020527792A - 目標物認識方法、装置、記憶媒体および電子機器

Info

Publication number: JP2020527792A
Application number: JP2020500847A
Authority: JP
Inventors: チィーシンリー; フォンウェイユー; ジュンジエイエン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2017-11-23
Filing date: 2018-10-23
Publication date: 2020-09-10
Anticipated expiration: 2038-10-23
Also published as: US20200143146A1; JP6994101B2; WO2019100888A1; US11182592B2; CN108229308A; SG11202000076WA; KR20200015728A

Abstract

本願の実施例は目標物認識方法、装置、記憶媒体および電子機器を提供する。目標物認識方法は、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、目標物予測情報とキーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、総合予測情報に基づいて目標物を認識することと、を含む。【選択図】図１

Description

（関連出願の相互参照）
本願は２０１７年１１月２３日に出願された、出願番号２０１７１１１８１２９９．５の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願の実施例はコンピュータビジョン技術に関するがそれに限定されず、特に目標物認識方法、装置、記憶媒体および電子機器に関する。

対象を認識するプロセスは通常、検出や追跡、キーポイント検出や照合および特徴抽出という処理を含む。このプロセスで、目標物をできるだけ正確に認識すると共に、誤判定を低減することが望まれ、つまり、最も高い認識率および最も低い偽陽性率が求められている。しかしながら、現在の関連技術では目標物の認識（例えば、顔の認識）に高い偽陽性率が存在し、つまり、所望の認識率が達成できない。

本願の実施例は、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、前記総合予測情報に基づいて前記目標物を認識することと、を含む目標物認識方法を提供する。

本願の実施例は、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るように構成された対象検出モジュールと、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るように構成されたキーポイント検出モジュールと、前記対象検出モジュールが得た目標物予測情報と前記キーポイント検出モジュールが得たキーポイント予測情報を融合し、前記対象の総合予測情報を得るように構成された予測情報融合モジュールと、前記予測情報融合モジュールが得た総合予測情報に基づいて前記目標物を認識するように構成された対象認識モジュールと、を含む目標物認識装置を提供する。

本願の実施例は、プロセッサ、メモリ、通信要素および通信バスを含み、前記プロセッサ、前記メモリおよび前記通信要素は前記通信バスによって互いに通信し、前記メモリは前記プロセッサに上記いずれか一項に記載の目標物認識方法に対応する動作を実行させる少なくとも一つの実行可能命令を記憶するために用いられる電子機器を提供する。

本願の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記プログラム命令はプロセッサに実行される時に上記いずれか一項に記載の目標物認識方法のステップを実現するコンピュータ読み取り可能記憶媒体を提供する。

本願の実施例は、コンピュータプログラム命令を含むコンピュータプログラムであって、前記プログラム命令はプロセッサに実行される時に上記いずれか一項に記載の目標物認識方法のステップを実現するコンピュータプログラムを提供する。

本願の実施例が提供する目標物認識の解決手段によれば、検出待ち画像における対象の目標物検出を行うプロセスで、前記対象の目標物予測情報を得て、前記検出待ち画像のキーポイント検出を行うプロセスで、前記対象のキーポイント予測情報を得て、および前記目標物予測情報と前記キーポイント予測情報を融合し、検出待ち画像における対象の目標物総合予測や評価を行い、検出待ち画像の目標物認識のための総合画像品質を示す総合予測情報を得ることで、さらに前記総合予測や評価の結果に基づいて前記目標物を認識することができる。前記総合予測や評価によって、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物処理時に発生する偽陽性率を低下させることができ、また、検出待ち画像における対象の総合評価を行うことで、高い認識率を確保することができる。

本願の実施例により提供される目標物認識方法を示すフローチャートである。本願の実施例により提供される目標物認識方法を示すフローチャートである。本願の実施例により提供される目標物認識方法を示すフローチャートである。本願の実施例により提供される目標物認識方法を示すフローチャートである。本願の実施例により提供される目標物認識装置を示す論理ブロック図である。本願の実施例により提供される目標物認識装置を示す論理ブロック図である。本願の実施例により提供される目標物認識装置を示す論理ブロック図である。本願の実施例により提供される電子機器を示す構成模式図である。

以下に図面と関連付けて本願の実施例の例示的な実施例を詳細に説明する。

本願では、「複数」とは二つ以上を意味し、「少なくとも一つ」とは一つ、二つまたは二つ以上を意味する。本願において言及された任意の部材、データまたは構造は、一つであると明記されていない限り、一つ以上と理解してもよい。

図１は本願の実施例に係る目標物認識方法を示すフローチャートである。

図１を参照すると、ステップＳ１１０において、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得る。

ここの検出待ち画像は一つ以上の物体対象が撮影された写真または映像フレーム画像である。該画像は撮影された物体対象を少なくとも目視で識別できるように、一定の解像度上の要求を満たさなければならない。ここの目標物は認識しようとする物体対象であり、顔、歩行者、車両、イヌ、ネコ、身分証明書などを含むが、これらに限定されない。

任意の適当な画像解析、処理方法によって、検出待ち画像における対象の目標物検出を行い、それによって検出待ち画像から目標物が存在し得る画像領域、即ち目標物を含み得る矩形ボックス画像領域、または、予備的検出に基づく目標物の外輪郭画像領域を検出することができる。

検出待ち画像において、複数の対象が存在し得、かつ各目標物を検出する時、複数の矩形ボックス画像領域を検出し得る。従って、目標物検出を行うプロセスで、検出された各矩形ボックス画像領域の予測正確性を評価し、検出された対象が目標物であるという正確予測情報、例えば検出された画像領域が目標物であるという正確予測情報を特徴付ける目標物予測情報を得る。

該目標物予測情報は評価やスコアリング、確率または検出信頼度予測などを含むが、これらに限定されない。

ステップＳ１２０において、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得る。

検出しようとする任意の目標物について、目標物のキーポイント位置特定を予め設定する。ここのキーポイント位置特定は、目標物のキーポイントの画像における画像座標を検出することを含む。例えば、顔について、通常、口、鼻、左眼、右眼、頭の上という５つのキーポイントを設定してもよく、人体／歩行者について、人体の各重要部位に合計１４個のキーポイントを設定してもよい。

画像を対象とする任意の適当なキーポイント位置特定方法によって、検出待ち画像から目標物のキーポイントの情報を検出して得ることができる。また、検出待ち画像における対象を検出するプロセスで、検出して得られた対象のキーポイントの位置特定正確性を、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報を特徴付けるキーポイント予測情報として評価する。

該キーポイント予測情報は評価やスコアリング、確率または検出信頼度予測などを含むが、これらに限定されない。複数のキーポイントの検出では、複数のキーポイントに対する評価やスコアリングに基づいて平均値を求め、該キーポイント予測情報を得ることができる。

ここで、従来のコンピュータビジョン技術によれば、ステップＳ１２０の実行はステップＳ１１０の検出結果に依存せず、つまり、目標物を検出することなく、検出待ち画像における対象のキーポイント検出を直接行うことができるため、ステップＳ１１０およびステップＳ１２０の順に実行してもよいし、ステップＳ１２０およびステップＳ１１０の順に実行してもよく、またはステップＳ１１０とステップＳ１２０を並行に実行してもよいことに留意すべきである。

ステップＳ１３０において、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る。

目標物検出を示すための目標物予測情報およびキーポイント照合を示すためのキーポイント予測情報に基づき、両者を平均値、和または相乗積を求める方式で融合し、検出された対象の総合予測情報を得ることができる。

少なくとも目標物検出正確性を特徴付ける目標物予測情報とキーポイント位置特定正確性を特徴付けるキーポイント予測情報という二つの予測正確性指標を融合することで該総合予測情報が得られ、かつこの二つの予測正確性も目標物認識の結果に影響するため、該総合予測情報は検出待ち画像の目標物認識のための総合画像品質を示すために用いることができる。

ステップＳ１４０において、前記総合予測情報に基づき、前記目標物を認識する。

例えば、得られた総合予測情報が所定の予測品質閾値を満たす場合、検出待ち画像における対象の目標物認識を継続し、そうでなければ、目標物検出に対する総合予測の品質が低いと推定し、検出待ち画像における対象の目標物認識処理を行わないか、または該検出待ち画像のフィルタリング、切り抜き、拡大、輝度向上処理を行ってから、目標の認識処理を行うようにしてもよい。

また例えば、該検出待ち画像がカメラにより撮影されたプレビュー画像であると仮定すると、特定された総合予測情報が所定の予測品質閾値を満たす場合、任意の適当な目標物認識方法によって、検出待ち画像から目標物を認識する。

本願の実施例の目標物認識方法によれば、検出待ち画像における対象の目標物検出を行うプロセスで、前記対象の目標物予測情報を得て、前記検出待ち画像のキーポイント検出を行うプロセスで、前記対象のキーポイント予測情報を得て、および前記目標物予測情報と前記キーポイント予測情報を融合し、検出待ち画像における対象の目標物総合予測や評価を行い、検出待ち画像の目標物認識のための総合画像品質を示す総合予測情報を得ることで、さらに前記総合予測や評価の結果に基づいて前記目標物を認識することができる。前記総合予測や評価によって、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物処理時に発生する偽陽性率を低下させることができ、また、検出待ち画像における対象の総合評価を行うことで、高い認識率を確保することができる。

図２は本願の実施例に係る目標物認識方法を示すフローチャートである。

図２を参照すると、ステップＳ２１０において、前記検出待ち画像における対象に対応する画像領域を取得する。

使用される画像解析方法によって、目標物を含み得る画像領域、例えば対象の外接矩形を含み得る画像領域を検出することできる。

ステップＳ２２０において、検出待ち画像における対象に対応する画像領域の目標物検出を行い、前記対象の目標物予測情報を得る。

目標物を含み得る画像領域を取得してから、適当な画像解析方法によって該画像領域の目標物検出処理を行い、対象の目標物予測情報を得ることができる。

また、いくつかの実施例では、例えば領域提案ネットワーク、畳み込みニューラルネットワークなどを含むがこれらに限定されない物体検出用の予め訓練されたニューラルネットワークによって、該画像領域から目標物を検出し、目標物検出の正確性を示す目標物予測情報を取得し、それによって対象検出における認識率を向上させることができる。

ステップＳ２３０において、検出待ち画像における対象に対応する画像領域のキーポイント検出を行い、前記対象のキーポイント予測情報を得る。

同様に、目標物を含み得る画像領域を取得してから、該画像領域のキーポイント検出を行い、対象のキーポイント予測情報を得ることができる。

ステップＳ２４０において、前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得る。

ここで、前記目標物予測情報と前記キーポイント予測情報を相乗することで、目標物予測正確性が高い検出待ち画像およびキーポイント予測正確性が高い検出待ち画像を強調させ、それにより目標物認識タスクにおいて、総合品質が高い検出待ち画像を優先的に呼び戻すことができる。同時に、総合品質評価用の選択閾値を調整することで、高い認識率を確保することができる。

ステップＳ２５０において、前記総合予測情報に基づいて前記目標物を認識する。該ステップの処理は前記ステップＳ１４０の処理に類似し、ここでは説明を省略する。

ステップＳ２６０において、以下の動作のうちのいずれか一つを実行してもよい。

動作１．前記検出待ち画像を映像フレームシーケンスにおける映像フレーム画像とし、複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡することで、対象追跡のタスクを実行する。

動作２．複数の検出待ち画像の各々のために得られた総合予測情報に基づき、複数の前記検出待ち画像から総合予測品質が最も高い検出待ち画像をスナップ撮影画像として選択する。例えば、撮影プロセスで、２秒内でスナップ撮影した複数の画像（プレビュー画像）から、総合予測品質が最も高い画像をスナップ撮影画像として選択し、メモリに記憶しかつユーザへ提示するようにしてもよい。

動作３．複数の前記検出待ち画像の各々のために得られた総合予測情報に基づき、複数の前記検出待ち画像から所定数の検出待ち画像を選択し、選択した検出待ち画像の特徴融合を行う。融合した画像特徴データはさらに検出または処理タスクに用いることができる。

以上は検出待ち画像における対象の、目標物のためのいくつかの例示的な処理のみを説明し、なお、いかなる画像処理タスクにも用いることができることを理解すべきである。

本願の実施例の目標物認識方法によれば、まず前記検出待ち画像における対象に対応する画像領域を取得し、続いて該画像領域の目標物検出およびキーポイント検出を行い、対象の目標物予測情報およびキーポイント予測情報を得て、さらに前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得る。また、総合予測情報に基づいて目標物を認識した後、さらに、例えば目標物追跡、スナップ撮影画像選択および画像特徴融合などの処理を行い、それにより総合画像品質の評価に基づき、目標物に関連する他の画像処理タスクをより効率よく実行可能である。

図３は本願の実施例に係る目標物認識方法を示すフローチャートである。

図３を参照すると、ステップＳ３１０において、前記検出待ち画像における対象に対応する画像領域を取得する。

ステップＳ３２０において、検出待ち画像における対象に対応する画像領域の目標物検出を行い、前記対象の目標物予測情報を得る。

ステップＳ３３０において、キーポイントを位置特定する第一ニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得る。

いくつかの実施例では、物体候補ボックスのキーポイント位置特定用の予め訓練された第一ニューラルネットワークモデルを用い、取得した画像領域のキーポイント検出を直接行い、対象のキーポイントおよび対応するキーポイント予測情報を取得する。

本願の別の実施形態によれば、検出待ち画像におけるキーポイントを位置特定する第一ニューラルネットワークモデルにより、前記検出待ち画像から前記対象のキーポイントおよび対応するキーポイント予測情報を取得する。つまり、対象に対応する画像領域ではなく検出待ち画像を、該第一ニューラルネットワークモデルの入力とし、先に検出待ち画像からキーポイントを検出することができる。

その後、ステップＳ３４０において、検出待ち画像における対象に対応する画像領域から、前記対象のヨー角情報を検出する。

通常、目標物検出プロセスで、同時に検出対象のヨー角をも検出するため、ステップＳ３４０の処理によって、対象のヨー角情報を検出可能である。

該ヨー角は水平方向のヨー角（振り角）を含んでもよいし、垂直方向のヨー角（ピッチ角）を含んでもよく、または水平方向のヨー角（振り角）および垂直方向のヨー角（ピッチ角）を含んでもよい。

例えば、対象を分類する第二ニューラルネットワークモデルにより、検出待ち画像における対象に対応する画像領域から、対象を検出して対象のヨー角情報を取得してもよい。対象のヨー角情報を検出するための第二ニューラルネットワークモデルを予め訓練してもよい。他の画像解析方法によってヨー角情報を取得してもよい。

ステップＳ３５０において、前記目標物予測情報と、前記キーポイント予測情報と前記ヨー角情報とを融合し、前記対象の総合予測情報を得る。

非正面の対象のヨー角は通常目標物に対する認識効果に影響するため、対象のヨー角情報も画像品質評価の指標の一つとする。

前記ステップＳ１３０の処理に類似し、目標物検出正確性を特徴付け可能な目標物予測情報と、キーポイント位置特定正確性を特徴付けるキーポイント予測情報と対象のヨー角情報とを例えば平均値、和または相乗積を求めるなどの方式で融合し、対象の総合予測情報を得る。

ステップＳ３６０において、前記総合予測情報に基づいて前記目標物を認識する。

これをもとに、いくつかの実施例では、前記ステップＳ２６０の処理を引き続き実行してもよい。

本願の任意の実施例の目標物認識方法によれば、検出待ち画像における対象に対応する画像領域から検出した対象のヨー角情報をも評価指標の一つとし、ヨー角情報と前記目標物予測情報およびキーポイント予測情報を融合し、検出待ち画像における対象の目標物認識のための関連する総合品質評価を行い、さらに前記総合予測や評価の結果に基づいて前記目標物を認識する。このような方法は、目標物認識に対する影響に基づいて総合画像品質を評価し、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物認識時に発生する偽陽性率を低下させることに寄与し、また高い認識率を確保し、それにより目標物認識タスクをより正確に実行することもできる。

図４は本願の実施例に係る目標物認識方法を示すフローチャートである。

本実施例では、目標物が顔であることを例にして目標物認識方法における処理を説明する。

図４を参照すると、ステップＳ４１０において、検出待ち画像における対象の顔検出を行い、顔の目標物予測情報を得る。

任意の適当な顔検出方法によって検出待ち画像における対象の顔検出を行い、顔の目標物予測情報を得ることができる。

ステップＳ４２０において、キーポイントを位置特定する第一ニューラルネットワークモデルにより、前記検出待ち画像における前記対象のキーポイント検出を行い、前記顔のキーポイント予測情報を得る。

ステップＳ４３０において、前記検出待ち画像における顔ピッチ角および／または顔振り角を取得する。

顔ピッチ角とは、水平方向を軸とした顔のヨー角をいい、顔振り角とは、垂直方向を軸とした顔のヨー角をいう。

通常、顔ピッチ角および顔振り角の値の範囲はいずれも−９０度〜＋９０度とする。

いくつかの実施例では、前記第二ニューラルネットワークモデルにより、検出された顔画像領域から、顔を検出して顔ピッチ角および／または顔振り角を取得する。

該ステップでは、顔ピッチ角および顔振り角のいずれかまたは両者を取得して、後続の処理に用いることができる。

ステップＳ４４０において、適切な指数関数によって前記顔ピッチ角および／または顔振り角を正規化処理する。

例えば、指数関数ｅｘｐ（−１０×顔ピッチ角×顔ピッチ角／８１００）によって顔ピッチ角を正規化処理し、同様に、指数関数ｅｘｐ（−１０×顔振り角×顔振り角／８１００）によって顔振り角を正規化処理する。または、簡単に式｜顔ピッチ角／９０｜および｜顔振り角値／９０｜を使用して顔ピッチ角および顔振り角をそれぞれ正規化処理してもよい。その後、正規化処理された顔ピッチ角と顔振り角を、例えば相乗するように融合し、目標物の角評価情報を生成する。

ステップＳ４５０において、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得る動作、
または、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得る動作、
または、
前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得る動作、の一つによって前記対象の総合予測情報を得る。

つまり、顔認識タスクの要求に応じて、正規化された顔ピッチ角および正規化された顔振り角のいずれかまたは両者を目標物予測情報およびキーポイント予測情報と融合し、対象の総合予測情報を得ることができる。

例えば、得られた総合予測情報が所定の予測品質閾値を満たす場合、引き続き適当な顔認識方法によって検出待ち画像における対象の顔認識を行う。

また、従来の任意のネットワーク訓練方法によって物体検出用のニューラルネットワーク、キーポイント位置特定用の第一ニューラルネットワークモデルおよび／または対象分類用の第二ニューラルネットワークモデルを予め訓練することができる。実現したい機能、特性および訓練上の要求に応じて、教師あり学習に基づく方法、教師なしの方法、強化学習方法または半教師付き方法などを用いて前記ニューラルネットワークモデルを予め訓練することができる。

本願の実施例の目標物認識方法によれば、前記実施例をもとに、予め訓練されたモデルによって顔のキーポイント位置特定およびヨー角検出などを行い、顔検出の正確性を確保し、得られた目標物予測情報、キーポイント予測情報を正規化された顔ピッチ角および／または正規化された顔振り角と融合し、顔認識のための関連する総合品質データを得て、さらに前記総合予測や評価の結果に基づいて顔を認識することができる。このような方法は、顔認識に対する影響に基づいて総合画像品質を評価し、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより顔認識時に発生する偽陽性率を低下させることに寄与し、また高い認識率を確保し、それにより顔認識タスクをより正確に実行することもできる。

図５を参照すると、目標物認識装置は、
検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るように構成された対象検出モジュール５１０と、
前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るように構成されたキーポイント検出モジュール５２０と、
対象検出モジュール５１０が得た目標物予測情報とキーポイント検出モジュール５２０が得たキーポイント予測情報を融合し、前記対象の総合予測情報を得るように構成された予測情報融合モジュール５３０と、
前記予測情報融合モジュールが得た総合予測情報に基づいて前記目標物を認識するように構成された対象認識モジュール５４０と、を含む。

本実施例の目標物認識装置は前記方法の実施例における対応する目標物認識方法を実現するためのものであり、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。

図６を参照すると、本実施例が提供する目標物認識装置は前記対象検出モジュール５１０、キーポイント検出モジュール５２０、予測情報融合モジュール５３０および対象認識モジュール５４０以外、さらに画像領域取得モジュール５５０を含む。

画像領域取得モジュール５５０は前記検出待ち画像における対象に対応する画像領域を取得するように構成される。それに対して、対象検出モジュール５１０は画像領域取得モジュール５５０が取得した検出待ち画像における対象に対応する画像領域の目標物検出を行うように構成され、キーポイント検出モジュール５２０は画像領域取得モジュール５５０が取得した検出待ち画像における対象に対応する画像領域のキーポイント検出を行うために用いられる。

いくつかの実施例では、予測情報融合モジュール５３０は前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得るように構成される。

いくつかの実施例では、キーポイント検出モジュール５２０はキーポイントを位置特定するニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得るように構成される。

いくつかの実施例では、前記検出待ち画像における対象に対応する画像領域を取得する前記ステップの後、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前記ステップの前に、前記装置はさらに、画像領域取得モジュール５５０が取得した画像領域から、前記対象のヨー角情報を検出するように構成されたヨー角検出モジュール５６０Ａを含む。それに対して、予測情報融合モジュール５３０は前記目標物予測情報に基づき、前記キーポイント予測情報と前記ヨー角情報を融合し、前記対象の総合予測情報を得るために用いられる。

いくつかの実施例では、ヨー角検出モジュール５６０Ａは対象を分類するニューラルネットワークモデルにより、前記画像領域から前記対象のヨー角情報を検出するように構成される。

いくつかの実施例では、前記検出待ち画像は映像フレーム画像であり、前記総合予測情報に基づいて前記目標物を認識するステップの後に、前記装置はさらに、
複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡するように構成された対象追跡モジュール５７０、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から総合予測の品質が最も高い映像フレーム画像をスナップ撮影画像として選択するように構成されたスナップ撮影画像選択モジュール５８０、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から所定数の映像フレーム画像を選択し、選択した映像フレーム画像の特徴融合を行うように構成された特徴融合モジュール５９０を含む。

本願の実施例によれば、前記目標物は顔であってもよい。

図７を参照すると、目標物認識装置は前記対象検出モジュール５１０、キーポイント検出モジュール５２０、予測情報融合モジュール５３０、対象認識モジュール５４０および画像領域取得モジュール５５０以外、さらに顔ヨー角検出モジュール５６０Ｂを含む。

予測情報融合モジュール５３０が前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、顔ヨー角検出モジュール５６０Ｂは画像領域取得モジュール５５０が取得した画像領域から、顔ピッチ角および／または顔振り角を検出するように構成される。

それに対して、予測情報融合モジュール５３０は、
適切な指数関数によって前記顔ピッチ角および／または顔振り角を正規化処理し、そして前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得るように、
または、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、
または、
前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、構成される。

いくつかの実施例では、該目標物認識装置はさらに対象追跡モジュール５７０、スナップ撮影画像選択モジュール５８０または特徴融合モジュール５９０を含む。

本願の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記プログラム命令はプロセッサに実行される時に前記任意の実施例に記載の目標物認識方法のステップを実現し、かつ対応する実施例の有益な効果を有するコンピュータ読み取り可能記憶媒体を提供し、ここでは説明を省略する。

本願の実施例は電子機器を提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバなどであってもよい。以下に図８を参照すると、図８は本願の実施例の端末機器またはサーバの実現に適する電子機器８００の構成模式図を示す。

図８に示すように、電子機器８００は一つ以上のプロセッサ、通信要素などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）８０１、および／または一つ以上の画像処理装置（ＧＰＵ）８１３などであり、プロセッサは読み取り専用メモリ（ＲＯＭ）８０２に記憶されている実行可能命令または記憶部分８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信要素は通信コンポーネント８１２および通信インタフェース８０９を含む。そのうち、通信コンポーネント８１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、通信インタフェース８０９はＬＡＮカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、かつインターネットなどのネットワークによって通信処理を実行する。

プロセッサは読み取り専用メモリ８０２および／またはランダムアクセスメモリ８０３と通信して実行可能命令を実行し、バス８０４を介して通信コンポーネント８１２と接続し、通信コンポーネント８１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、前記総合予測情報に基づいて前記目標物を認識することと、を完了することができる。

また、ＲＡＭ８０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ８０１、ＲＯＭ８０２およびＲＡＭ８０３はバス８０４を介して互いに接続される。ＲＡＭ８０３が存在する場合、ＲＯＭ８０２は任意選択的なモジュールとなる。ＲＡＭ８０３は実行可能命令を記憶するか、または動作時にＲＯＭ８０２へ実行可能命令を書き込み、実行可能命令によってプロセッサ８０１は上記通信方法に対応する動作を実行する。入力／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続される。通信コンポーネント８１２は統合設置してもよいし、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部分８０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分８０７、ハードディスクなどを含む記憶部分８０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信インタフェース８０９といった部品は、Ｉ／Ｏインタフェース８０５に接続される。ドライバ８１０も必要に応じてＩ／Ｏインタフェース８０５に接続される。取り外し可能な媒体８１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ８１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分８０８にインストールされる。

説明すべきは、図８に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図８の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてもよく、通信コンポーネント８１２は分離設置してもよいし、またＣＰＵまたはＧＰＵに統合してもよいなどである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るための実行可能コード、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るための実行可能コード、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得るための実行可能コード、および前記総合予測情報に基づいて前記目標物を認識するための実行可能コードを含むことができる。このような実施例では、該コンピュータプログラムは通信要素によってネットワークからダウンロードおよびインストールでき、および／または取り外し可能な媒体８１１からインストールできる。該コンピュータプログラムは中央処理装置（ＣＰＵ）８０１に実行される時、本願の実施例の方法に限定された上記機能を実行する。

本願の実施例がさらに提供する電子機器は、検出待ち画像における対象の目標物検出を行うプロセスで、前記対象の目標物予測情報を得て、前記検出待ち画像のキーポイント検出を行うプロセスで、前記対象のキーポイント予測情報を得て、および前記目標物予測情報と前記キーポイント予測情報を融合し、検出待ち画像における対象の目標物総合予測や評価を行い、検出待ち画像の目標物認識のための総合画像品質を示す総合予測情報を得ることで、さらに前記総合予測や評価の結果に基づいて前記目標物を認識することができる。前記総合予測や評価によって、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物処理時に発生する偽陽性率を低下させることができ、また、検出待ち画像における対象の総合評価を行うことで、高い認識率を確保することができる。

また、本願の実施例の目的を達成するために、実施上の要求に応じて、本願において説明した各部品／ステップをより多くの部品／ステップに分解してもよいし、二つ以上の部品／ステップまたは部品／ステップの一部の動作を新たな部品／ステップとして組み合わせてもよいことに留意されたい。

本願の方法および装置、機器は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の実施例の方法および装置、機器を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の実施例の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願の実施例に係る方法を実現するための機械可読命令を含む。従って、本願は本願に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。

本願の実施例に対する説明は例示および説明のためのもので、漏れがないものまたは開示した形式に本願を限定するものではない。様々な修正および変更は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims

検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、
前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、
前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、
前記総合予測情報に基づいて前記目標物を認識することと、を含む、目標物認識方法。
前記検出待ち画像における対象の目標物検出、および前記検出待ち画像における前記対象のキーポイント検出を行う前に、
前記検出待ち画像における対象に対応する画像領域を取得することを含み、
前記検出待ち画像における対象の目標物検出を行うことは、
前記検出待ち画像における対象に対応する画像領域の目標物検出を行うことを含み、
前記検出待ち画像における対象のキーポイント検出を行うことは、
前記検出待ち画像における対象に対応する画像領域のキーポイント検出を行うことを含む、請求項１に記載の方法。
前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることは、
前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得ることを含む、請求項１または２に記載の方法。
前記検出待ち画像における前記対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得ることは、
キーポイントを位置特定するニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得ることを含む、請求項１から３のいずれか一項に記載の方法。
前記検出待ち画像における対象に対応する画像領域を取得する前記ステップの後、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに
前記画像領域から、前記対象のヨー角情報を検出することを含み、
前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることは、
前記目標物予測情報に基づき、前記キーポイント予測情報と前記ヨー角情報を融合し、前記対象の総合予測情報を得ることを含む、請求項２から４のいずれか一項に記載の方法。
前記画像領域から、前記対象のヨー角情報を検出することは、
対象を分類するニューラルネットワークモデルにより、前記画像領域から前記対象のヨー角情報を検出することを含む、請求項５に記載の方法。
前記目標物は顔であり、
前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに、
前記画像領域から、顔ピッチ角および／または顔振り角を検出することを含み、
前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることは、
適切な指数関数によって前記顔ピッチ角および／または顔振り角を正規化処理することと、前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得ることと、
または、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得ることと、
または、
前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得ることと、を含む、請求項１から６のいずれか一項に記載の方法。
前記検出待ち画像は映像フレーム画像であり、
前記総合予測情報に基づいて前記目標物を認識した後に、さらに、
複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡すること、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から総合予測の品質が最も高い映像フレーム画像をスナップ撮影画像として選択すること、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から所定数の映像フレーム画像を選択し、選択した映像フレーム画像の特徴融合を行うこと、を含む、請求項１から７のいずれか一項に記載の方法。
検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るように構成された対象検出モジュールと、
前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るように構成されたキーポイント検出モジュールと、
前記対象検出モジュールが得た目標物予測情報と前記キーポイント検出モジュールが得たキーポイント予測情報を融合し、前記対象の総合予測情報を得るように構成された予測情報融合モジュールと、
前記予測情報融合モジュールが得た総合予測情報に基づいて前記目標物を認識するように構成された対象認識モジュールと、を含む、目標物認識装置。
さらに、
前記検出待ち画像における対象に対応する画像領域を取得するように構成された画像領域取得モジュールと、
前記画像領域取得モジュールが取得した検出待ち画像における対象に対応する画像領域の目標物検出を行うように構成された前記対象検出モジュールと、
前記画像領域取得モジュールが取得した検出待ち画像の対象に対応する画像領域のキーポイント検出を行うように構成された前記キーポイント検出モジュールと、を含む、請求項９に記載の装置。
前記予測情報融合モジュールは、前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得るように構成される、請求項９または１０に記載の装置。
前記キーポイント検出モジュールは、キーポイントを位置特定するニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得るように構成される、請求項９から１１のいずれか一項に記載の装置。
前記検出待ち画像における対象に対応する画像領域を取得する前記ステップの後、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに、
前記画像領域取得モジュールが取得した画像領域から、前記対象のヨー角情報を検出するように構成されたヨー角検出モジュールと、
前記目標物予測情報に基づき、前記キーポイント予測情報と前記ヨー角情報を融合し、前記対象の総合予測情報を得るように構成された前記予測情報融合モジュールと、を含む、請求項１０から１２のいずれか一項に記載の装置。
前記ヨー角検出モジュールは対象を分類するニューラルネットワークモデルにより、前記画像領域から前記対象のヨー角情報を検出するように構成される、請求項１３に記載の装置。
前記目標物は顔であり、
前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに、
前記画像領域から、顔ピッチ角および／または顔振り角を検出するように構成された顔ヨー角検出モジュールを含み、
前記予測情報融合モジュールは、適切な指数関数によって前記顔ピッチ角および／または顔振り角を正規化処理し、そして前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得るように、
または、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、
または、
前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、構成される、請求項９から１４のいずれか一項に記載の装置。
前記検出待ち画像は映像フレーム画像であり、
前記総合予測情報に基づいて前記目標物を認識した後に、さらに、
複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡するように構成された対象追跡モジュール、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から総合予測の品質が最も高い映像フレーム画像をスナップ撮影画像として選択するように構成されたスナップ撮影画像選択モジュール、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から所定数の映像フレーム画像を選択し、選択した映像フレーム画像の特徴融合を行うように構成された特徴融合モジュールを含む、請求項９から１５のいずれか一項に記載の装置。
プロセッサ、メモリ、通信要素および通信バスを含み、前記プロセッサ、前記メモリおよび前記通信要素は前記通信バスによって互いに通信し、
前記メモリは前記プロセッサに請求項１から８のいずれか一項に記載の目標物認識方法に対応する動作を実行させる少なくとも一つの実行可能命令を記憶するように構成される、電子機器。
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記プログラム命令はプロセッサに実行される時に請求項１から８のいずれか一項に記載の目標物認識方法のステップを実現する、コンピュータ読み取り可能記憶媒体。
コンピュータプログラム命令を含むコンピュータプログラムであって、前記プログラム命令はプロセッサに実行される時に請求項１から８のいずれか一項に記載の目標物認識方法のステップを実現する、コンピュータプログラム。