JP2020527792A - 目標物認識方法、装置、記憶媒体および電子機器 - Google Patents

目標物認識方法、装置、記憶媒体および電子機器 Download PDF

Info

Publication number
JP2020527792A
JP2020527792A JP2020500847A JP2020500847A JP2020527792A JP 2020527792 A JP2020527792 A JP 2020527792A JP 2020500847 A JP2020500847 A JP 2020500847A JP 2020500847 A JP2020500847 A JP 2020500847A JP 2020527792 A JP2020527792 A JP 2020527792A
Authority
JP
Japan
Prior art keywords
target
prediction information
key point
image
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020500847A
Other languages
English (en)
Other versions
JP6994101B2 (ja
Inventor
チィーシン リー
チィーシン リー
フォンウェイ ユー
フォンウェイ ユー
ジュンジエ イエン
ジュンジエ イエン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020527792A publication Critical patent/JP2020527792A/ja
Application granted granted Critical
Publication of JP6994101B2 publication Critical patent/JP6994101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本願の実施例は目標物認識方法、装置、記憶媒体および電子機器を提供する。目標物認識方法は、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、目標物予測情報とキーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、総合予測情報に基づいて目標物を認識することと、を含む。【選択図】図1

Description

(関連出願の相互参照)
本願は2017年11月23日に出願された、出願番号201711181299.5の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願の実施例はコンピュータビジョン技術に関するがそれに限定されず、特に目標物認識方法、装置、記憶媒体および電子機器に関する。
対象を認識するプロセスは通常、検出や追跡、キーポイント検出や照合および特徴抽出という処理を含む。このプロセスで、目標物をできるだけ正確に認識すると共に、誤判定を低減することが望まれ、つまり、最も高い認識率および最も低い偽陽性率が求められている。しかしながら、現在の関連技術では目標物の認識(例えば、顔の認識)に高い偽陽性率が存在し、つまり、所望の認識率が達成できない。
本願の実施例は、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、前記総合予測情報に基づいて前記目標物を認識することと、を含む目標物認識方法を提供する。
本願の実施例は、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るように構成された対象検出モジュールと、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るように構成されたキーポイント検出モジュールと、前記対象検出モジュールが得た目標物予測情報と前記キーポイント検出モジュールが得たキーポイント予測情報を融合し、前記対象の総合予測情報を得るように構成された予測情報融合モジュールと、前記予測情報融合モジュールが得た総合予測情報に基づいて前記目標物を認識するように構成された対象認識モジュールと、を含む目標物認識装置を提供する。
本願の実施例は、プロセッサ、メモリ、通信要素および通信バスを含み、前記プロセッサ、前記メモリおよび前記通信要素は前記通信バスによって互いに通信し、前記メモリは前記プロセッサに上記いずれか一項に記載の目標物認識方法に対応する動作を実行させる少なくとも一つの実行可能命令を記憶するために用いられる電子機器を提供する。
本願の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記プログラム命令はプロセッサに実行される時に上記いずれか一項に記載の目標物認識方法のステップを実現するコンピュータ読み取り可能記憶媒体を提供する。
本願の実施例は、コンピュータプログラム命令を含むコンピュータプログラムであって、前記プログラム命令はプロセッサに実行される時に上記いずれか一項に記載の目標物認識方法のステップを実現するコンピュータプログラムを提供する。
本願の実施例が提供する目標物認識の解決手段によれば、検出待ち画像における対象の目標物検出を行うプロセスで、前記対象の目標物予測情報を得て、前記検出待ち画像のキーポイント検出を行うプロセスで、前記対象のキーポイント予測情報を得て、および前記目標物予測情報と前記キーポイント予測情報を融合し、検出待ち画像における対象の目標物総合予測や評価を行い、検出待ち画像の目標物認識のための総合画像品質を示す総合予測情報を得ることで、さらに前記総合予測や評価の結果に基づいて前記目標物を認識することができる。前記総合予測や評価によって、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物処理時に発生する偽陽性率を低下させることができ、また、検出待ち画像における対象の総合評価を行うことで、高い認識率を確保することができる。
本願の実施例により提供される目標物認識方法を示すフローチャートである。 本願の実施例により提供される目標物認識方法を示すフローチャートである。 本願の実施例により提供される目標物認識方法を示すフローチャートである。 本願の実施例により提供される目標物認識方法を示すフローチャートである。 本願の実施例により提供される目標物認識装置を示す論理ブロック図である。 本願の実施例により提供される目標物認識装置を示す論理ブロック図である。 本願の実施例により提供される目標物認識装置を示す論理ブロック図である。 本願の実施例により提供される電子機器を示す構成模式図である。
以下に図面と関連付けて本願の実施例の例示的な実施例を詳細に説明する。
本願では、「複数」とは二つ以上を意味し、「少なくとも一つ」とは一つ、二つまたは二つ以上を意味する。本願において言及された任意の部材、データまたは構造は、一つであると明記されていない限り、一つ以上と理解してもよい。
図1は本願の実施例に係る目標物認識方法を示すフローチャートである。
図1を参照すると、ステップS110において、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得る。
ここの検出待ち画像は一つ以上の物体対象が撮影された写真または映像フレーム画像である。該画像は撮影された物体対象を少なくとも目視で識別できるように、一定の解像度上の要求を満たさなければならない。ここの目標物は認識しようとする物体対象であり、顔、歩行者、車両、イヌ、ネコ、身分証明書などを含むが、これらに限定されない。
任意の適当な画像解析、処理方法によって、検出待ち画像における対象の目標物検出を行い、それによって検出待ち画像から目標物が存在し得る画像領域、即ち目標物を含み得る矩形ボックス画像領域、または、予備的検出に基づく目標物の外輪郭画像領域を検出することができる。
検出待ち画像において、複数の対象が存在し得、かつ各目標物を検出する時、複数の矩形ボックス画像領域を検出し得る。従って、目標物検出を行うプロセスで、検出された各矩形ボックス画像領域の予測正確性を評価し、検出された対象が目標物であるという正確予測情報、例えば検出された画像領域が目標物であるという正確予測情報を特徴付ける目標物予測情報を得る。
該目標物予測情報は評価やスコアリング、確率または検出信頼度予測などを含むが、これらに限定されない。
ステップS120において、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得る。
検出しようとする任意の目標物について、目標物のキーポイント位置特定を予め設定する。ここのキーポイント位置特定は、目標物のキーポイントの画像における画像座標を検出することを含む。例えば、顔について、通常、口、鼻、左眼、右眼、頭の上という5つのキーポイントを設定してもよく、人体/歩行者について、人体の各重要部位に合計14個のキーポイントを設定してもよい。
画像を対象とする任意の適当なキーポイント位置特定方法によって、検出待ち画像から目標物のキーポイントの情報を検出して得ることができる。また、検出待ち画像における対象を検出するプロセスで、検出して得られた対象のキーポイントの位置特定正確性を、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報を特徴付けるキーポイント予測情報として評価する。
該キーポイント予測情報は評価やスコアリング、確率または検出信頼度予測などを含むが、これらに限定されない。複数のキーポイントの検出では、複数のキーポイントに対する評価やスコアリングに基づいて平均値を求め、該キーポイント予測情報を得ることができる。
ここで、従来のコンピュータビジョン技術によれば、ステップS120の実行はステップS110の検出結果に依存せず、つまり、目標物を検出することなく、検出待ち画像における対象のキーポイント検出を直接行うことができるため、ステップS110およびステップS120の順に実行してもよいし、ステップS120およびステップS110の順に実行してもよく、またはステップS110とステップS120を並行に実行してもよいことに留意すべきである。
ステップS130において、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る。
目標物検出を示すための目標物予測情報およびキーポイント照合を示すためのキーポイント予測情報に基づき、両者を平均値、和または相乗積を求める方式で融合し、検出された対象の総合予測情報を得ることができる。
少なくとも目標物検出正確性を特徴付ける目標物予測情報とキーポイント位置特定正確性を特徴付けるキーポイント予測情報という二つの予測正確性指標を融合することで該総合予測情報が得られ、かつこの二つの予測正確性も目標物認識の結果に影響するため、該総合予測情報は検出待ち画像の目標物認識のための総合画像品質を示すために用いることができる。
ステップS140において、前記総合予測情報に基づき、前記目標物を認識する。
例えば、得られた総合予測情報が所定の予測品質閾値を満たす場合、検出待ち画像における対象の目標物認識を継続し、そうでなければ、目標物検出に対する総合予測の品質が低いと推定し、検出待ち画像における対象の目標物認識処理を行わないか、または該検出待ち画像のフィルタリング、切り抜き、拡大、輝度向上処理を行ってから、目標の認識処理を行うようにしてもよい。
また例えば、該検出待ち画像がカメラにより撮影されたプレビュー画像であると仮定すると、特定された総合予測情報が所定の予測品質閾値を満たす場合、任意の適当な目標物認識方法によって、検出待ち画像から目標物を認識する。
本願の実施例の目標物認識方法によれば、検出待ち画像における対象の目標物検出を行うプロセスで、前記対象の目標物予測情報を得て、前記検出待ち画像のキーポイント検出を行うプロセスで、前記対象のキーポイント予測情報を得て、および前記目標物予測情報と前記キーポイント予測情報を融合し、検出待ち画像における対象の目標物総合予測や評価を行い、検出待ち画像の目標物認識のための総合画像品質を示す総合予測情報を得ることで、さらに前記総合予測や評価の結果に基づいて前記目標物を認識することができる。前記総合予測や評価によって、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物処理時に発生する偽陽性率を低下させることができ、また、検出待ち画像における対象の総合評価を行うことで、高い認識率を確保することができる。
図2は本願の実施例に係る目標物認識方法を示すフローチャートである。
図2を参照すると、ステップS210において、前記検出待ち画像における対象に対応する画像領域を取得する。
使用される画像解析方法によって、目標物を含み得る画像領域、例えば対象の外接矩形を含み得る画像領域を検出することできる。
ステップS220において、検出待ち画像における対象に対応する画像領域の目標物検出を行い、前記対象の目標物予測情報を得る。
目標物を含み得る画像領域を取得してから、適当な画像解析方法によって該画像領域の目標物検出処理を行い、対象の目標物予測情報を得ることができる。
また、いくつかの実施例では、例えば領域提案ネットワーク、畳み込みニューラルネットワークなどを含むがこれらに限定されない物体検出用の予め訓練されたニューラルネットワークによって、該画像領域から目標物を検出し、目標物検出の正確性を示す目標物予測情報を取得し、それによって対象検出における認識率を向上させることができる。
ステップS230において、検出待ち画像における対象に対応する画像領域のキーポイント検出を行い、前記対象のキーポイント予測情報を得る。
同様に、目標物を含み得る画像領域を取得してから、該画像領域のキーポイント検出を行い、対象のキーポイント予測情報を得ることができる。
ステップS240において、前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得る。
ここで、前記目標物予測情報と前記キーポイント予測情報を相乗することで、目標物予測正確性が高い検出待ち画像およびキーポイント予測正確性が高い検出待ち画像を強調させ、それにより目標物認識タスクにおいて、総合品質が高い検出待ち画像を優先的に呼び戻すことができる。同時に、総合品質評価用の選択閾値を調整することで、高い認識率を確保することができる。
ステップS250において、前記総合予測情報に基づいて前記目標物を認識する。該ステップの処理は前記ステップS140の処理に類似し、ここでは説明を省略する。
ステップS260において、以下の動作のうちのいずれか一つを実行してもよい。
動作1.前記検出待ち画像を映像フレームシーケンスにおける映像フレーム画像とし、複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡することで、対象追跡のタスクを実行する。
動作2.複数の検出待ち画像の各々のために得られた総合予測情報に基づき、複数の前記検出待ち画像から総合予測品質が最も高い検出待ち画像をスナップ撮影画像として選択する。例えば、撮影プロセスで、2秒内でスナップ撮影した複数の画像(プレビュー画像)から、総合予測品質が最も高い画像をスナップ撮影画像として選択し、メモリに記憶しかつユーザへ提示するようにしてもよい。
動作3.複数の前記検出待ち画像の各々のために得られた総合予測情報に基づき、複数の前記検出待ち画像から所定数の検出待ち画像を選択し、選択した検出待ち画像の特徴融合を行う。融合した画像特徴データはさらに検出または処理タスクに用いることができる。
以上は検出待ち画像における対象の、目標物のためのいくつかの例示的な処理のみを説明し、なお、いかなる画像処理タスクにも用いることができることを理解すべきである。
本願の実施例の目標物認識方法によれば、まず前記検出待ち画像における対象に対応する画像領域を取得し、続いて該画像領域の目標物検出およびキーポイント検出を行い、対象の目標物予測情報およびキーポイント予測情報を得て、さらに前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得る。また、総合予測情報に基づいて目標物を認識した後、さらに、例えば目標物追跡、スナップ撮影画像選択および画像特徴融合などの処理を行い、それにより総合画像品質の評価に基づき、目標物に関連する他の画像処理タスクをより効率よく実行可能である。
図3は本願の実施例に係る目標物認識方法を示すフローチャートである。
図3を参照すると、ステップS310において、前記検出待ち画像における対象に対応する画像領域を取得する。
ステップS320において、検出待ち画像における対象に対応する画像領域の目標物検出を行い、前記対象の目標物予測情報を得る。
ステップS330において、キーポイントを位置特定する第一ニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得る。
いくつかの実施例では、物体候補ボックスのキーポイント位置特定用の予め訓練された第一ニューラルネットワークモデルを用い、取得した画像領域のキーポイント検出を直接行い、対象のキーポイントおよび対応するキーポイント予測情報を取得する。
本願の別の実施形態によれば、検出待ち画像におけるキーポイントを位置特定する第一ニューラルネットワークモデルにより、前記検出待ち画像から前記対象のキーポイントおよび対応するキーポイント予測情報を取得する。つまり、対象に対応する画像領域ではなく検出待ち画像を、該第一ニューラルネットワークモデルの入力とし、先に検出待ち画像からキーポイントを検出することができる。
その後、ステップS340において、検出待ち画像における対象に対応する画像領域から、前記対象のヨー角情報を検出する。
通常、目標物検出プロセスで、同時に検出対象のヨー角をも検出するため、ステップS340の処理によって、対象のヨー角情報を検出可能である。
該ヨー角は水平方向のヨー角(振り角)を含んでもよいし、垂直方向のヨー角(ピッチ角)を含んでもよく、または水平方向のヨー角(振り角)および垂直方向のヨー角(ピッチ角)を含んでもよい。
例えば、対象を分類する第二ニューラルネットワークモデルにより、検出待ち画像における対象に対応する画像領域から、対象を検出して対象のヨー角情報を取得してもよい。対象のヨー角情報を検出するための第二ニューラルネットワークモデルを予め訓練してもよい。他の画像解析方法によってヨー角情報を取得してもよい。
ステップS350において、前記目標物予測情報と、前記キーポイント予測情報と前記ヨー角情報とを融合し、前記対象の総合予測情報を得る。
非正面の対象のヨー角は通常目標物に対する認識効果に影響するため、対象のヨー角情報も画像品質評価の指標の一つとする。
前記ステップS130の処理に類似し、目標物検出正確性を特徴付け可能な目標物予測情報と、キーポイント位置特定正確性を特徴付けるキーポイント予測情報と対象のヨー角情報とを例えば平均値、和または相乗積を求めるなどの方式で融合し、対象の総合予測情報を得る。
ステップS360において、前記総合予測情報に基づいて前記目標物を認識する。
これをもとに、いくつかの実施例では、前記ステップS260の処理を引き続き実行してもよい。
本願の任意の実施例の目標物認識方法によれば、検出待ち画像における対象に対応する画像領域から検出した対象のヨー角情報をも評価指標の一つとし、ヨー角情報と前記目標物予測情報およびキーポイント予測情報を融合し、検出待ち画像における対象の目標物認識のための関連する総合品質評価を行い、さらに前記総合予測や評価の結果に基づいて前記目標物を認識する。このような方法は、目標物認識に対する影響に基づいて総合画像品質を評価し、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物認識時に発生する偽陽性率を低下させることに寄与し、また高い認識率を確保し、それにより目標物認識タスクをより正確に実行することもできる。
図4は本願の実施例に係る目標物認識方法を示すフローチャートである。
本実施例では、目標物が顔であることを例にして目標物認識方法における処理を説明する。
図4を参照すると、ステップS410において、検出待ち画像における対象の顔検出を行い、顔の目標物予測情報を得る。
任意の適当な顔検出方法によって検出待ち画像における対象の顔検出を行い、顔の目標物予測情報を得ることができる。
ステップS420において、キーポイントを位置特定する第一ニューラルネットワークモデルにより、前記検出待ち画像における前記対象のキーポイント検出を行い、前記顔のキーポイント予測情報を得る。
ステップS430において、前記検出待ち画像における顔ピッチ角および/または顔振り角を取得する。
顔ピッチ角とは、水平方向を軸とした顔のヨー角をいい、顔振り角とは、垂直方向を軸とした顔のヨー角をいう。
通常、顔ピッチ角および顔振り角の値の範囲はいずれも−90度〜+90度とする。
いくつかの実施例では、前記第二ニューラルネットワークモデルにより、検出された顔画像領域から、顔を検出して顔ピッチ角および/または顔振り角を取得する。
該ステップでは、顔ピッチ角および顔振り角のいずれかまたは両者を取得して、後続の処理に用いることができる。
ステップS440において、適切な指数関数によって前記顔ピッチ角および/または顔振り角を正規化処理する。
例えば、指数関数exp(−10×顔ピッチ角×顔ピッチ角/8100)によって顔ピッチ角を正規化処理し、同様に、指数関数exp(−10×顔振り角×顔振り角/8100)によって顔振り角を正規化処理する。または、簡単に式|顔ピッチ角/90|および|顔振り角値/90|を使用して顔ピッチ角および顔振り角をそれぞれ正規化処理してもよい。その後、正規化処理された顔ピッチ角と顔振り角を、例えば相乗するように融合し、目標物の角評価情報を生成する。
ステップS450において、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得る動作、
または、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得る動作、
または、
前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得る動作、の一つによって前記対象の総合予測情報を得る。
つまり、顔認識タスクの要求に応じて、正規化された顔ピッチ角および正規化された顔振り角のいずれかまたは両者を目標物予測情報およびキーポイント予測情報と融合し、対象の総合予測情報を得ることができる。
例えば、得られた総合予測情報が所定の予測品質閾値を満たす場合、引き続き適当な顔認識方法によって検出待ち画像における対象の顔認識を行う。
また、従来の任意のネットワーク訓練方法によって物体検出用のニューラルネットワーク、キーポイント位置特定用の第一ニューラルネットワークモデルおよび/または対象分類用の第二ニューラルネットワークモデルを予め訓練することができる。実現したい機能、特性および訓練上の要求に応じて、教師あり学習に基づく方法、教師なしの方法、強化学習方法または半教師付き方法などを用いて前記ニューラルネットワークモデルを予め訓練することができる。
本願の実施例の目標物認識方法によれば、前記実施例をもとに、予め訓練されたモデルによって顔のキーポイント位置特定およびヨー角検出などを行い、顔検出の正確性を確保し、得られた目標物予測情報、キーポイント予測情報を正規化された顔ピッチ角および/または正規化された顔振り角と融合し、顔認識のための関連する総合品質データを得て、さらに前記総合予測や評価の結果に基づいて顔を認識することができる。このような方法は、顔認識に対する影響に基づいて総合画像品質を評価し、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより顔認識時に発生する偽陽性率を低下させることに寄与し、また高い認識率を確保し、それにより顔認識タスクをより正確に実行することもできる。
図5を参照すると、目標物認識装置は、
検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るように構成された対象検出モジュール510と、
前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るように構成されたキーポイント検出モジュール520と、
対象検出モジュール510が得た目標物予測情報とキーポイント検出モジュール520が得たキーポイント予測情報を融合し、前記対象の総合予測情報を得るように構成された予測情報融合モジュール530と、
前記予測情報融合モジュールが得た総合予測情報に基づいて前記目標物を認識するように構成された対象認識モジュール540と、を含む。
本実施例の目標物認識装置は前記方法の実施例における対応する目標物認識方法を実現するためのものであり、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。
図6を参照すると、本実施例が提供する目標物認識装置は前記対象検出モジュール510、キーポイント検出モジュール520、予測情報融合モジュール530および対象認識モジュール540以外、さらに画像領域取得モジュール550を含む。
画像領域取得モジュール550は前記検出待ち画像における対象に対応する画像領域を取得するように構成される。それに対して、対象検出モジュール510は画像領域取得モジュール550が取得した検出待ち画像における対象に対応する画像領域の目標物検出を行うように構成され、キーポイント検出モジュール520は画像領域取得モジュール550が取得した検出待ち画像における対象に対応する画像領域のキーポイント検出を行うために用いられる。
いくつかの実施例では、予測情報融合モジュール530は前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得るように構成される。
いくつかの実施例では、キーポイント検出モジュール520はキーポイントを位置特定するニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得るように構成される。
いくつかの実施例では、前記検出待ち画像における対象に対応する画像領域を取得する前記ステップの後、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前記ステップの前に、前記装置はさらに、画像領域取得モジュール550が取得した画像領域から、前記対象のヨー角情報を検出するように構成されたヨー角検出モジュール560Aを含む。それに対して、予測情報融合モジュール530は前記目標物予測情報に基づき、前記キーポイント予測情報と前記ヨー角情報を融合し、前記対象の総合予測情報を得るために用いられる。
いくつかの実施例では、ヨー角検出モジュール560Aは対象を分類するニューラルネットワークモデルにより、前記画像領域から前記対象のヨー角情報を検出するように構成される。
いくつかの実施例では、前記検出待ち画像は映像フレーム画像であり、前記総合予測情報に基づいて前記目標物を認識するステップの後に、前記装置はさらに、
複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡するように構成された対象追跡モジュール570、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から総合予測の品質が最も高い映像フレーム画像をスナップ撮影画像として選択するように構成されたスナップ撮影画像選択モジュール580、
または、
複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から所定数の映像フレーム画像を選択し、選択した映像フレーム画像の特徴融合を行うように構成された特徴融合モジュール590を含む。
本願の実施例によれば、前記目標物は顔であってもよい。
図7を参照すると、目標物認識装置は前記対象検出モジュール510、キーポイント検出モジュール520、予測情報融合モジュール530、対象認識モジュール540および画像領域取得モジュール550以外、さらに顔ヨー角検出モジュール560Bを含む。
予測情報融合モジュール530が前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、顔ヨー角検出モジュール560Bは画像領域取得モジュール550が取得した画像領域から、顔ピッチ角および/または顔振り角を検出するように構成される。
それに対して、予測情報融合モジュール530は、
適切な指数関数によって前記顔ピッチ角および/または顔振り角を正規化処理し、そして前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得るように、
または、
前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、
または、
前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、構成される。
いくつかの実施例では、該目標物認識装置はさらに対象追跡モジュール570、スナップ撮影画像選択モジュール580または特徴融合モジュール590を含む。
本実施例の目標物認識装置は前記方法の実施例における対応する目標物認識方法を実現するためのものであり、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。
本願の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記プログラム命令はプロセッサに実行される時に前記任意の実施例に記載の目標物認識方法のステップを実現し、かつ対応する実施例の有益な効果を有するコンピュータ読み取り可能記憶媒体を提供し、ここでは説明を省略する。
本願の実施例は電子機器を提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図8を参照すると、図8は本願の実施例の端末機器またはサーバの実現に適する電子機器800の構成模式図を示す。
図8に示すように、電子機器800は一つ以上のプロセッサ、通信要素などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)801、および/または一つ以上の画像処理装置(GPU)813などであり、プロセッサは読み取り専用メモリ(ROM)802に記憶されている実行可能命令または記憶部分808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信要素は通信コンポーネント812および通信インタフェース809を含む。そのうち、通信コンポーネント812はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、通信インタフェース809はLANカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、かつインターネットなどのネットワークによって通信処理を実行する。
プロセッサは読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信して実行可能命令を実行し、バス804を介して通信コンポーネント812と接続し、通信コンポーネント812によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、前記総合予測情報に基づいて前記目標物を認識することと、を完了することができる。
また、RAM803には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU801、ROM802およびRAM803はバス804を介して互いに接続される。RAM803が存在する場合、ROM802は任意選択的なモジュールとなる。RAM803は実行可能命令を記憶するか、または動作時にROM802へ実行可能命令を書き込み、実行可能命令によってプロセッサ801は上記通信方法に対応する動作を実行する。入力/出力(I/O)インタフェース805もバス804に接続される。通信コンポーネント812は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部分806、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部分807、ハードディスクなどを含む記憶部分808、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信インタフェース809といった部品は、I/Oインタフェース805に接続される。ドライバ810も必要に応じてI/Oインタフェース805に接続される。取り外し可能な媒体811、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ810に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分808にインストールされる。
説明すべきは、図8に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図8の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、通信コンポーネント812は分離設置してもよいし、またCPUまたはGPUに統合してもよいなどである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るための実行可能コード、前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るための実行可能コード、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得るための実行可能コード、および前記総合予測情報に基づいて前記目標物を認識するための実行可能コードを含むことができる。このような実施例では、該コンピュータプログラムは通信要素によってネットワークからダウンロードおよびインストールでき、および/または取り外し可能な媒体811からインストールできる。該コンピュータプログラムは中央処理装置(CPU)801に実行される時、本願の実施例の方法に限定された上記機能を実行する。
本願の実施例がさらに提供する電子機器は、検出待ち画像における対象の目標物検出を行うプロセスで、前記対象の目標物予測情報を得て、前記検出待ち画像のキーポイント検出を行うプロセスで、前記対象のキーポイント予測情報を得て、および前記目標物予測情報と前記キーポイント予測情報を融合し、検出待ち画像における対象の目標物総合予測や評価を行い、検出待ち画像の目標物認識のための総合画像品質を示す総合予測情報を得ることで、さらに前記総合予測や評価の結果に基づいて前記目標物を認識することができる。前記総合予測や評価によって、総合品質が比較的低い検出待ち画像をフィルタして除去し、それにより目標物処理時に発生する偽陽性率を低下させることができ、また、検出待ち画像における対象の総合評価を行うことで、高い認識率を確保することができる。
また、本願の実施例の目的を達成するために、実施上の要求に応じて、本願において説明した各部品/ステップをより多くの部品/ステップに分解してもよいし、二つ以上の部品/ステップまたは部品/ステップの一部の動作を新たな部品/ステップとして組み合わせてもよいことに留意されたい。
本願の方法および装置、機器は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の実施例の方法および装置、機器を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の実施例の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願の実施例に係る方法を実現するための機械可読命令を含む。従って、本願は本願に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。
本願の実施例に対する説明は例示および説明のためのもので、漏れがないものまたは開示した形式に本願を限定するものではない。様々な修正および変更は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims (19)

  1. 検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得ることと、
    前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得ることと、
    前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることと、
    前記総合予測情報に基づいて前記目標物を認識することと、を含む、目標物認識方法。
  2. 前記検出待ち画像における対象の目標物検出、および前記検出待ち画像における前記対象のキーポイント検出を行う前に、
    前記検出待ち画像における対象に対応する画像領域を取得することを含み、
    前記検出待ち画像における対象の目標物検出を行うことは、
    前記検出待ち画像における対象に対応する画像領域の目標物検出を行うことを含み、
    前記検出待ち画像における対象のキーポイント検出を行うことは、
    前記検出待ち画像における対象に対応する画像領域のキーポイント検出を行うことを含む、請求項1に記載の方法。
  3. 前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることは、
    前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得ることを含む、請求項1または2に記載の方法。
  4. 前記検出待ち画像における前記対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得ることは、
    キーポイントを位置特定するニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得ることを含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記検出待ち画像における対象に対応する画像領域を取得する前記ステップの後、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに
    前記画像領域から、前記対象のヨー角情報を検出することを含み、
    前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることは、
    前記目標物予測情報に基づき、前記キーポイント予測情報と前記ヨー角情報を融合し、前記対象の総合予測情報を得ることを含む、請求項2から4のいずれか一項に記載の方法。
  6. 前記画像領域から、前記対象のヨー角情報を検出することは、
    対象を分類するニューラルネットワークモデルにより、前記画像領域から前記対象のヨー角情報を検出することを含む、請求項5に記載の方法。
  7. 前記目標物は顔であり、
    前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに、
    前記画像領域から、顔ピッチ角および/または顔振り角を検出することを含み、
    前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得ることは、
    適切な指数関数によって前記顔ピッチ角および/または顔振り角を正規化処理することと、前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得ることと、
    または、
    前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得ることと、
    または、
    前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得ることと、を含む、請求項1から6のいずれか一項に記載の方法。
  8. 前記検出待ち画像は映像フレーム画像であり、
    前記総合予測情報に基づいて前記目標物を認識した後に、さらに、
    複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡すること、
    または、
    複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から総合予測の品質が最も高い映像フレーム画像をスナップ撮影画像として選択すること、
    または、
    複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から所定数の映像フレーム画像を選択し、選択した映像フレーム画像の特徴融合を行うこと、を含む、請求項1から7のいずれか一項に記載の方法。
  9. 検出待ち画像における対象の目標物検出を行い、検出された対象が目標物であるという信頼情報としての前記対象の目標物予測情報を得るように構成された対象検出モジュールと、
    前記検出待ち画像における前記対象のキーポイント検出を行い、検出された対象のキーポイントが目標物のキーポイントであるという信頼情報としての前記対象のキーポイント予測情報を得るように構成されたキーポイント検出モジュールと、
    前記対象検出モジュールが得た目標物予測情報と前記キーポイント検出モジュールが得たキーポイント予測情報を融合し、前記対象の総合予測情報を得るように構成された予測情報融合モジュールと、
    前記予測情報融合モジュールが得た総合予測情報に基づいて前記目標物を認識するように構成された対象認識モジュールと、を含む、目標物認識装置。
  10. さらに、
    前記検出待ち画像における対象に対応する画像領域を取得するように構成された画像領域取得モジュールと、
    前記画像領域取得モジュールが取得した検出待ち画像における対象に対応する画像領域の目標物検出を行うように構成された前記対象検出モジュールと、
    前記画像領域取得モジュールが取得した検出待ち画像の対象に対応する画像領域のキーポイント検出を行うように構成された前記キーポイント検出モジュールと、を含む、請求項9に記載の装置。
  11. 前記予測情報融合モジュールは、前記目標物予測情報と前記キーポイント予測情報を乗算し、前記対象の総合予測情報を得るように構成される、請求項9または10に記載の装置。
  12. 前記キーポイント検出モジュールは、キーポイントを位置特定するニューラルネットワークモデルにより、前記検出待ち画像における対象のキーポイント検出を行い、前記対象のキーポイント予測情報を得るように構成される、請求項9から11のいずれか一項に記載の装置。
  13. 前記検出待ち画像における対象に対応する画像領域を取得する前記ステップの後、前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに、
    前記画像領域取得モジュールが取得した画像領域から、前記対象のヨー角情報を検出するように構成されたヨー角検出モジュールと、
    前記目標物予測情報に基づき、前記キーポイント予測情報と前記ヨー角情報を融合し、前記対象の総合予測情報を得るように構成された前記予測情報融合モジュールと、を含む、請求項10から12のいずれか一項に記載の装置。
  14. 前記ヨー角検出モジュールは対象を分類するニューラルネットワークモデルにより、前記画像領域から前記対象のヨー角情報を検出するように構成される、請求項13に記載の装置。
  15. 前記目標物は顔であり、
    前記目標物予測情報と前記キーポイント予測情報を融合し、前記対象の総合予測情報を得る前に、さらに、
    前記画像領域から、顔ピッチ角および/または顔振り角を検出するように構成された顔ヨー角検出モジュールを含み、
    前記予測情報融合モジュールは、適切な指数関数によって前記顔ピッチ角および/または顔振り角を正規化処理し、そして前記目標物予測情報と、前記キーポイント予測情報と正規化された顔ピッチ角とを相乗し、前記対象の総合予測情報を得るように、
    または、
    前記目標物予測情報と、前記キーポイント予測情報と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、
    または、
    前記目標物予測情報と、前記キーポイント予測情報と、正規化された顔ピッチ角と正規化された顔振り角とを相乗し、前記対象の総合予測情報を得るように、構成される、請求項9から14のいずれか一項に記載の装置。
  16. 前記検出待ち画像は映像フレーム画像であり、
    前記総合予測情報に基づいて前記目標物を認識した後に、さらに、
    複数の前記映像フレーム画像から目標物を認識した結果に基づき、前記目標物を追跡するように構成された対象追跡モジュール、
    または、
    複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から総合予測の品質が最も高い映像フレーム画像をスナップ撮影画像として選択するように構成されたスナップ撮影画像選択モジュール、
    または、
    複数の前記映像フレーム画像の各々のために得られた総合予測情報に基づき、複数の前記映像フレーム画像から所定数の映像フレーム画像を選択し、選択した映像フレーム画像の特徴融合を行うように構成された特徴融合モジュールを含む、請求項9から15のいずれか一項に記載の装置。
  17. プロセッサ、メモリ、通信要素および通信バスを含み、前記プロセッサ、前記メモリおよび前記通信要素は前記通信バスによって互いに通信し、
    前記メモリは前記プロセッサに請求項1から8のいずれか一項に記載の目標物認識方法に対応する動作を実行させる少なくとも一つの実行可能命令を記憶するように構成される、電子機器。
  18. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記プログラム命令はプロセッサに実行される時に請求項1から8のいずれか一項に記載の目標物認識方法のステップを実現する、コンピュータ読み取り可能記憶媒体。
  19. コンピュータプログラム命令を含むコンピュータプログラムであって、前記プログラム命令はプロセッサに実行される時に請求項1から8のいずれか一項に記載の目標物認識方法のステップを実現する、コンピュータプログラム。
JP2020500847A 2017-11-23 2018-10-23 目標物認識方法、装置、記憶媒体および電子機器 Active JP6994101B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711181299.5A CN108229308A (zh) 2017-11-23 2017-11-23 目标对象识别方法、装置、存储介质和电子设备
CN201711181299.5 2017-11-23
PCT/CN2018/111513 WO2019100888A1 (zh) 2017-11-23 2018-10-23 目标对象识别方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
JP2020527792A true JP2020527792A (ja) 2020-09-10
JP6994101B2 JP6994101B2 (ja) 2022-01-14

Family

ID=62652693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020500847A Active JP6994101B2 (ja) 2017-11-23 2018-10-23 目標物認識方法、装置、記憶媒体および電子機器

Country Status (6)

Country Link
US (1) US11182592B2 (ja)
JP (1) JP6994101B2 (ja)
KR (1) KR20200015728A (ja)
CN (1) CN108229308A (ja)
SG (1) SG11202000076WA (ja)
WO (1) WO2019100888A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130616A1 (ja) * 2020-12-18 2022-06-23 富士通株式会社 認証方法、情報処理装置、及び認証プログラム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN108229308A (zh) 2017-11-23 2018-06-29 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备
CN109101901B (zh) * 2018-07-23 2020-10-27 北京旷视科技有限公司 人体动作识别及其神经网络生成方法、装置和电子设备
TWI751381B (zh) * 2018-09-26 2022-01-01 宏碁股份有限公司 機器視覺的效能評估方法與系統
CN109448007B (zh) * 2018-11-02 2020-10-09 北京迈格威科技有限公司 图像处理方法、图像处理装置及存储介质
CN111274852B (zh) * 2018-12-05 2023-10-31 北京猎户星空科技有限公司 目标对象关键点检测方法和装置
CN109800680A (zh) * 2018-12-29 2019-05-24 上海依图网络科技有限公司 一种确定视频中的对象的方法及装置
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
CN110532891B (zh) * 2019-08-05 2022-04-05 北京地平线机器人技术研发有限公司 目标对象状态识别方法、装置、介质和设备
CN110705448B (zh) * 2019-09-27 2023-01-20 北京市商汤科技开发有限公司 一种人体检测方法及装置
CN111062239A (zh) * 2019-10-15 2020-04-24 平安科技(深圳)有限公司 人体目标检测方法、装置、计算机设备及存储介质
CN111105442B (zh) * 2019-12-23 2022-07-15 中国科学技术大学 切换式目标跟踪方法
CN111079717B (zh) * 2020-01-09 2022-02-22 西安理工大学 一种基于强化学习的人脸识别方法
CN113362351A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN111507244B (zh) * 2020-04-15 2023-12-08 阳光保险集团股份有限公司 Bmi检测方法、装置以及电子设备
CN112612434A (zh) * 2020-12-16 2021-04-06 杭州当虹科技股份有限公司 一种基于ai技术视频竖屏解决方法
CN113657155A (zh) * 2021-07-09 2021-11-16 浙江大华技术股份有限公司 一种行为检测方法、装置、计算机设备和存储介质
CN113505763B (zh) * 2021-09-09 2022-02-01 北京爱笔科技有限公司 关键点检测方法、装置、电子设备及存储介质
CN114220063B (zh) * 2021-11-17 2023-04-07 浙江大华技术股份有限公司 目标检测方法及装置
CN115631525B (zh) * 2022-10-26 2023-06-23 万才科技(杭州)有限公司 基于人脸边缘点识别的保险即时匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008131405A (ja) * 2006-11-21 2008-06-05 Sony Corp 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP2008257425A (ja) * 2007-04-04 2008-10-23 Sony Corp 顔認識装置及び顔認識方法、並びにコンピュータ・プログラム
JP2008310775A (ja) * 2007-06-18 2008-12-25 Canon Inc 表情認識装置及び方法、並びに撮像装置
US20100020224A1 (en) * 2008-07-24 2010-01-28 Canon Kabushiki Kaisha Method for selecting desirable images from among a plurality of images and apparatus thereof
WO2012109712A1 (en) * 2011-02-18 2012-08-23 National Ict Australia Limited Image quality assessment
WO2013122009A1 (ja) * 2012-02-16 2013-08-22 日本電気株式会社 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
JP2014178862A (ja) * 2013-03-14 2014-09-25 Secom Co Ltd 特徴点抽出装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6049448B2 (ja) 2012-12-27 2016-12-21 キヤノン株式会社 被写体領域追跡装置、その制御方法及びプログラム
WO2014205768A1 (zh) * 2013-06-28 2014-12-31 中国科学院自动化研究所 基于增量主成分分析的特征与模型互匹配人脸跟踪方法
KR101612605B1 (ko) 2014-05-07 2016-04-14 포항공과대학교 산학협력단 얼굴 특징점 추출 방법 및 이를 수행하는 장치
KR102225623B1 (ko) * 2014-09-18 2021-03-12 한화테크윈 주식회사 키포인트 기술자 매칭 및 다수결 기법 기반 얼굴 인식 시스템 및 방법
CN105868769A (zh) * 2015-01-23 2016-08-17 阿里巴巴集团控股有限公司 图像中的人脸关键点定位方法及装置
CN105205486B (zh) * 2015-09-15 2018-12-07 浙江宇视科技有限公司 一种车标识别方法及装置
CN105631439B (zh) * 2016-02-18 2019-11-08 北京旷视科技有限公司 人脸图像处理方法和装置
CN106295567B (zh) * 2016-08-10 2019-04-12 腾讯科技(深圳)有限公司 一种关键点的定位方法及终端
CN106485230B (zh) * 2016-10-18 2019-10-25 中国科学院重庆绿色智能技术研究院 基于神经网络的人脸检测模型的训练、人脸检测方法及系统
CN106778585B (zh) * 2016-12-08 2019-04-16 腾讯科技(上海)有限公司 一种人脸关键点跟踪方法和装置
CN106815566B (zh) * 2016-12-29 2021-04-16 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
WO2018153267A1 (zh) * 2017-02-24 2018-08-30 腾讯科技(深圳)有限公司 群组视频会话的方法及网络设备
CN107273845B (zh) * 2017-06-12 2020-10-02 大连海事大学 一种基于置信区域和多特征加权融合的人脸表情识别方法
WO2019000462A1 (zh) * 2017-06-30 2019-01-03 广东欧珀移动通信有限公司 人脸图像处理方法、装置、存储介质及电子设备
CN108229308A (zh) * 2017-11-23 2018-06-29 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008131405A (ja) * 2006-11-21 2008-06-05 Sony Corp 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP2008257425A (ja) * 2007-04-04 2008-10-23 Sony Corp 顔認識装置及び顔認識方法、並びにコンピュータ・プログラム
JP2008310775A (ja) * 2007-06-18 2008-12-25 Canon Inc 表情認識装置及び方法、並びに撮像装置
US20100020224A1 (en) * 2008-07-24 2010-01-28 Canon Kabushiki Kaisha Method for selecting desirable images from among a plurality of images and apparatus thereof
WO2012109712A1 (en) * 2011-02-18 2012-08-23 National Ict Australia Limited Image quality assessment
JP2014505952A (ja) * 2011-02-18 2014-03-06 ナショナル・アイシーティ・オーストラリア・リミテッド 画像品質の評価
WO2013122009A1 (ja) * 2012-02-16 2013-08-22 日本電気株式会社 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
JP2014178862A (ja) * 2013-03-14 2014-09-25 Secom Co Ltd 特徴点抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130616A1 (ja) * 2020-12-18 2022-06-23 富士通株式会社 認証方法、情報処理装置、及び認証プログラム

Also Published As

Publication number Publication date
US20200143146A1 (en) 2020-05-07
JP6994101B2 (ja) 2022-01-14
WO2019100888A1 (zh) 2019-05-31
US11182592B2 (en) 2021-11-23
CN108229308A (zh) 2018-06-29
SG11202000076WA (en) 2020-02-27
KR20200015728A (ko) 2020-02-12

Similar Documents

Publication Publication Date Title
JP6994101B2 (ja) 目標物認識方法、装置、記憶媒体および電子機器
US11650659B2 (en) User input processing with eye tracking
US11259718B1 (en) Systems and methods for automated body mass index calculation to determine value
CN111046959A (zh) 模型训练方法、装置、设备和存储介质
WO2019020103A1 (zh) 目标识别方法、装置、存储介质和电子设备
JP2017033547A (ja) 情報処理装置及びその制御方法及びプログラム
CN109145752B (zh) 用于评估对象检测和跟踪算法的方法、装置、设备和介质
JP2018124689A (ja) 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
CN111666915A (zh) 监控方法、装置、设备以及存储介质
CN109298783B (zh) 基于表情识别的标注监控方法、装置及电子设备
US20240104769A1 (en) Information processing apparatus, control method, and non-transitory storage medium
US20190266392A1 (en) Image processing apparatus, image processing method, and storage medium
JP2021089778A (ja) 情報処理装置、情報処理方法、及びプログラム
US9378409B2 (en) Eye searching method and eye state detection apparatus and eye searching apparatus using the same
US10997398B2 (en) Information processing apparatus, authentication system, method of controlling same, and medium
US11314968B2 (en) Information processing apparatus, control method, and program
JPWO2018179119A1 (ja) 映像解析装置、映像解析方法およびプログラム
Bâce et al. Accurate and robust eye contact detection during everyday mobile device interactions
KR20200017576A (ko) 심층신경망 기반 객체 검출 장치 및 방법
CN117333904B (zh) 一种多特征融合的行人跟踪方法
AU2021290428A1 (en) Target detection method and apparatus, electronic device, and computer storage medium
CN114998997A (zh) 动作检测方法和动作检测模型的训练方法及相关装置
CN116740753A (zh) 一种基于改进YOLOv5和DeepSORT的目标检测及追踪的方法及系统
Malmgren Visual Vehicle Identification Using Modern Smart Glasses

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211210

R150 Certificate of patent or registration of utility model

Ref document number: 6994101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250