JP2018519573A - 人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体 - Google Patents

人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体 Download PDF

Info

Publication number
JP2018519573A
JP2018519573A JP2017559544A JP2017559544A JP2018519573A JP 2018519573 A JP2018519573 A JP 2018519573A JP 2017559544 A JP2017559544 A JP 2017559544A JP 2017559544 A JP2017559544 A JP 2017559544A JP 2018519573 A JP2018519573 A JP 2018519573A
Authority
JP
Japan
Prior art keywords
matrix
face
face image
dimensional feature
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017559544A
Other languages
English (en)
Other versions
JP6553747B2 (ja
Inventor
守▲鴻▼ 丁
守▲鴻▼ 丁
季▲リン▼ 李
季▲りん▼ 李
▲チェン▼杰 汪
▲チェン▼杰 汪
▲飛▼▲躍▼ 黄
▲飛▼▲躍▼ 黄
永▲堅▼ ▲呉▼
永▲堅▼ ▲呉▼
国富 ▲譚▼
国富 ▲譚▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2018519573A publication Critical patent/JP2018519573A/ja
Application granted granted Critical
Publication of JP6553747B2 publication Critical patent/JP6553747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

人間の顔モデル行列の訓練方法および装置。方法は、人の顔画像ライブラリを獲得するステップであって、人の顔画像ライブラリが、人の顔画像のk個のグループを含み、人の顔画像の各グループが、少なくとも1人の人の少なくとも1つの人の顔画像を含み、k > 2であり、kが、整数である、ステップ(201)と、人の顔画像のk個のグループの中の人の顔画像の各グループを別々に解析し、解析結果に従って第1の行列および第2の行列を計算するステップであって、第1の行列が、人の顔画像の各グループの人の顔の特徴のグループ内共分散行列であり、第2の行列が、人の顔画像のk個のグループの人の顔の特徴のグループ間共分散行列である、ステップ(202)と、第1の行列および第2の行列に従って人の顔モデルを訓練するステップとを含む(203)。

Description

本出願は、2015年11月26日に中国専利局に出願した「HUMAN FACE MODEL MATRIX TRAINING METHOD AND APPARATUS」と題した中国特許出願第201510836591.0号の優先権を主張するものであり、この特許出願は、参照によりその全体が組み込まれる。
本発明は、コンピュータテクノロジーの分野に関し、特に、顔モデル行列の訓練方法および装置ならびにストレージ媒体に関する。
顔認識テクノロジーは、概して、2つのステップを含む。第1に、目標の顔画像の特徴が抽出され、第2に、抽出された特徴と参照顔画像内の特徴との間の類似性が計算される。
類似性を計算する前に、端末が、まず、顔画像ライブラリ内の顔画像に従って顔モデル行列を計算する必要があり、それから、計算された顔モデル行列に従って、抽出された特徴と参照顔画像内の特徴との間の類似性を計算する。従来技術においては、端末が、顔画像ライブラリ内のすべての顔画像に対して計算を実行する必要があり、計算結果に従って訓練することによって顔モデル行列を取得する。
本発明の実施形態は、顔モデル行列の訓練方法および装置を提供する。
第1の態様によれば、本発明の実施形態が、顔モデル行列の訓練方法であって、
顔画像ライブラリを取得するステップであって、顔画像ライブラリが、顔画像のk個のグループを含み、顔画像の各グループが、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kが、整数である、ステップと、
顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算するステップであって、第2の行列が、顔画像のk個のグループの顔の特徴のグループ間共分散行列(inter-group covariance matrix)である、ステップと、
第1の行列および第2の行列に従って顔モデル行列を訓練するステップとを含む、方法を提供する。
第2の態様によれば、本発明の実施形態が、顔モデル行列の訓練装置であって、
顔画像ライブラリを取得するように構成された画像取得モジュールであって、顔画像ライブラリが、顔画像のk個のグループを含み、顔画像の各グループが、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kは、整数である、画像取得モジュールと、
顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算するように構成された行列計算モジュールであって、第1の行列が、顔画像の各グループの顔の特徴のグループ内共分散行列であり、第2の行列が、顔画像のk個のグループの顔の特徴のグループ間共分散行列である、行列計算モジュールと、
行列計算モジュールによって計算された第1の行列および第2の行列に従って顔モデル行列を訓練するように構成された行列訓練モジュールとを含む、装置を提供する。
第3の態様によれば、本発明の実施形態が、顔モデル行列の訓練装置であって、
顔モデル行列の訓練装置が顔モデル行列の訓練方法を実行するように、ストレージ媒体に記憶されたプログラム命令を実行するように構成された1つまたは複数のプロセッサを含む、装置を提供する。
第4の態様によれば、本発明の実施形態が、プログラム命令を含む不揮発性コンピュータ可読ストレージ媒体を提供し、プログラム命令は、プロセッサによって実行されるときに、顔モデル行列の訓練方法を実行するようにストレージ媒体を構成する。
本発明の実施形態においては、顔画像ライブラリ内の顔画像がk個のグループに分けられ、毎回ただ1つのグループ内の顔画像がメモリにロードされ、解析され、それから、第1の行列および第2の行列が解析結果に従って計算され、顔モデル行列が第1の行列および第2の行列に従って訓練される。このようにして、端末が顔画像ライブラリ内のすべての顔画像をメモリに同時にロードするときに比較的大きなメモリが占有される既存のテクノロジーの問題が回避され、毎回ただ1つのグループ内の顔画像をメモリにロードし、それによって、訓練プロセスにおいて占有される必要があるメモリを削減する効果が、実現される。加えて、毎回ただ1つのグループ内の顔画像が解析される必要があるので、端末の計算の複雑さも、ある程度まで削減される。
本発明の実施形態の技術的な解決策をより明瞭に説明するために、以下で、実施形態を説明するために必要とされる添付の図面を簡潔に説明する。明らかに、以下の説明の添付の図面は、本発明の一部の実施形態のみを示しており、当業者は、創造的な努力なしにこれらの添付の図面からその他の図面を導き出すことがやはり可能である。
本発明の実施形態による顔モデル行列の訓練方法に関与するサーバのブロック図である。 本発明の実施形態による顔モデル行列の訓練方法の方法流れ図である。 本発明の別の実施形態による顔モデル行列の訓練方法の方法流れ図である。 本発明の実施形態による顔モデル行列の訓練装置の構造ブロック図である。 本発明の別の実施形態による顔モデル行列の訓練装置の構造ブロック図である。 本発明の別の実施形態による顔モデル行列の訓練端末の構造ブロック図である。
本開示の目的、技術的な解決策、および利点をより明瞭にするために、本開示が、添付の図面を参照して以下でさらに詳細に説明される。明らかに、説明される実施形態は、本発明のすべての実施形態ではなく一部の実施形態であるに過ぎない。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られるすべてのその他の実施形態は、本開示の保護範囲内に入る。
本発明の実施形態に含まれる顔モデル行列の訓練方法は、サーバ100に適用され得る。特に、図1を参照すると、サーバ100は、中央演算処理装置(CPU)101、ランダムアクセスメモリ(RAM)102および読み出し専用メモリ(ROM)103を含むシステムメモリ104、ならびにシステムメモリ104および中央演算処理装置101に接続するシステムバス105を含む。サーバ100は、コンピュータ内のデバイスの間の情報の送信を容易にする基本入出力システム(I/Oシステム)106、ならびにオペレーティングシステム113、アプリケーションプログラム112、および別のプログラムモジュール115を記憶するように構成された大容量ストレージデバイス107をさらに含む。
基本入出力システム106は、情報を表示するように構成されたディスプレイ108、およびユーザによる情報入力のために構成されるマウスまたはキーボードなどの入力デバイスを含む。ディスプレイ108および入力デバイス109は、両方とも、システムバス105に接続された入力および出力コントローラ110を使用することによって中央演算処理装置101に接続される。基本入出力システム106は、キーボード、マウス、または電子スタイラスなどの複数のその他のデバイスから入力を受け取り、処理するための入力および出力コントローラ110をさらに含む可能性がある。同様に、入力および出力コントローラ110は、さらに、ディスプレイ、プリンタ、または別の種類の出力デバイスに出力を与える。
大容量ストレージデバイス107は、システムバス105に接続された大容量ストレージコントローラ(図示せず)を使用することによって中央演算処理装置101に接続される。大容量ストレージデバイス107および関連するコンピュータ可読媒体は、サーバ100のための不揮発性ストレージを提供する。つまり、大容量ストレージデバイス107は、ハードディスクドライブまたはCD-ROMドライブなどのコンピュータ可読媒体(図示せず)を含む可能性がある。
一般性を失うことなく、コンピュータ可読媒体は、コンピュータストレージ媒体および通信媒体を含む可能性がある。コンピュータストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶し、任意の方法またはテクノロジーを使用することによって実装される揮発性および不揮発性の取り外し可能なおよび取り外し不可能な媒体を含む。コンピュータストレージ媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリ、または別のソリッドステートストレージテクノロジー、CD-ROM、DVD、または別の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、または別の磁気ストレージデバイスを含む。確かに、コンピュータストレージ媒体が上述のいくつかの種類に限定されないことは、当業者に知られている可能性がある。システムメモリ104および大容量ストレージデバイス107は、集合的にメモリと呼ばれる可能性がある。
本発明の実施形態によれば、サーバ100は、インターネットなどのネットワークを使用することによって、動作のためにネットワーク上のリモートコンピュータにさらに接続される可能性がある。つまり、サーバ100は、システムバス105に接続されたネットワークインターフェースユニット111を使用することによってネットワーク112に接続される可能性があり、またはネットワークインターフェースユニット111を使用することによって別の種類のネットワークもしくはリモートコンピュータシステム(図示せず)に接続される可能性がある。
メモリは、1つまたは複数のプログラムをさらに含み、1つまたは複数のプログラムは、メモリに記憶され、1つまたは複数のプログラムは、以下の実施形態において提供される顔モデル行列の訓練方法を実行するために使用される。
図2を参照すると、図2は、本発明の実施形態による顔モデル行列の訓練方法の方法流れ図である。この実施形態においては、顔モデル行列の訓練方法が図1に示されたサーバに適用される例が、説明のために使用される。図2に示されるように、顔モデル行列の訓練方法は、ステップ201から203を含む可能性がある。
ステップ201. 顔画像ライブラリを取得し、顔画像ライブラリは顔画像のk個のグループを含む。
顔画像の各グループは、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kは整数である。
ステップ202. 顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算する。
第1の行列は、顔画像の各グループの顔の特徴のグループ内共分散行列であり、第2の行列は、顔画像のk個のグループの顔の特徴のグループ間共分散行列である。
ステップ203. 第1の行列および第2の行列に従って顔モデル行列を訓練する。
要約すると、この実施形態において提供される顔モデル行列の訓練方法によって、顔画像ライブラリ内の顔画像がk個のグループに分けられ、毎回ただ1つのグループ内の顔画像がメモリにロードされ、解析され、それから、第1の行列および第2の行列が解析結果に従って計算され、顔モデル行列が第1の行列および第2の行列に従って訓練される。このようにして、端末が顔画像ライブラリ内のすべての顔画像をメモリに同時にロードするときに比較的大きなメモリが占有される既存のテクノロジーの問題が回避され、毎回ただ1つのグループ内の顔画像をメモリにロードし、それによって、訓練プロセスにおいて占有される必要があるメモリを削減する効果が、実現される。加えて、毎回ただ1つのグループ内の顔画像が解析される必要があるので、端末の計算の複雑さも、ある程度まで削減される。
図3を参照すると、図3は、本発明の実施形態による顔モデル行列の訓練方法の方法流れ図である。この実施形態においては、顔モデル行列の訓練方法が図1に示されたサーバに適用される例が、説明のために使用される。図3に示されるように、顔モデル行列の訓練方法は、ステップ301からステップ306を含む可能性がある。
ステップ301. 顔画像ライブラリを取得し、顔画像ライブラリは顔画像のk個のグループを含む。
この実施形態において提供される顔モデル行列の訓練方法は、モバイル電話、タブレットコンピュータ、またはコンピュータなどの端末に適用され得る。
顔画像のk個のグループの各々は、少なくとも1人の人の少なくとも1つの顔画像を含む可能性があり、k > 2であり、kは整数である。
たとえば、端末は、m*N個の顔画像を含む画像ライブラリを取得する可能性があり、ここで、mは、顔画像ライブラリ内の人の量であり、Nは、各人の顔画像の量である。m人の人は、k個のグループに分けられ、各グループは、m/k人の人の顔画像を含む。
ステップ302. 顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算する。
第1の行列は、顔画像の各グループの顔の特徴のグループ内共分散行列であり、第2の行列は、顔画像のk個のグループの顔の特徴のグループ間共分散行列である。
特に、このステップは、第1のステップから第7のステップを含む可能性がある。
第1に、第1の行列Sgおよび第2の行列Ssを初期化する。
第2に、Ssに従ってHを計算し、ここで、H=Ss -1であり、SgおよびSsに従ってLを計算し、ここで、L = -(kSg+Ss)-1SgSs -1である。
第3に、顔画像の各グループ内の第iの人の顔画像の高次元特徴ベクトルxiおよび第jの人の顔画像の高次元特徴ベクトルxjを取得し、ここで、0 < i≦n、0 < j≦n、およびi≠jであり、nは、顔画像の1つのグループ内の人の量である。可能な実装においては、顔画像の各グループ内の各顔画像に関して、端末が、各顔画像の高次元特徴ベクトルを抽出し得る。特に、端末は、ローカルバイナリパターン(LBP: Local Binary Pattern)アルゴリズム、勾配方向ヒストグラム(HOG: Histogram of Oriented Gradient)アルゴリズム、ガボール(Gabor)アルゴリズム、またはスケール不変特徴変換(SIFT: Scale-Invariant Feature Transformation)アルゴリズムを使用することによって高次元特徴ベクトルを抽出し得る。これは、この実施形態において限定されない。実際の実装において、端末は、別の抽出方法で各顔画像の高次元特徴ベクトルを抽出する可能性もある。
端末が説明のためにLBPを使用することによって顔画像の高次元特徴ベクトルを抽出する例を用いると、顔画像の高次元特徴ベクトルを抽出するステップは、ステップA、B、C、およびDを含み得る。
A). h個の拡大縮小された顔画像を取得し、h個の拡大縮小された顔画像は、目標の顔画像がh個の予め設定された倍数によって別々に拡大縮小された後に取得される画像である。
端末は、h個の予め設定された倍数の各々によって目標の顔画像を別々に拡大縮小し、それから、h個の拡大縮小された目標の顔画像を取得し得る。hは、正の整数であり、h個の予め設定された倍数は、均等に分散される可能性がある。加えて、この実施形態における拡大縮小は、目標の顔画像を縮小することである。
B). 顔画像およびh個の拡大縮小された顔画像の各々に関して、顔画像内の顔のキーポイント(face key point)、および顔のキーポイントにおけるLBP特徴ベクトルを抽出する。
このステップは、
(a). 目標の顔画像内の顔フレーム(face frame)を認識することと、
(b). 顔のキーポイントを取得するために顔フレーム内の顔の5つの顔の特徴の位置を特定することであって、顔のキーポイントは、左および右の眉、左および右の目、鼻、左および右の口角などを含む可能性がある、位置を特定することと、
(c). それぞれの顔のキーポイントに関して、顔のキーポイントを中心とする予め設定されたエリア内で、予め設定されたエリア内のLBPの特徴を抽出することとを含み得る。
任意で、端末は、Uniform符号化を使用することによって予め設定されたエリア内のLBPの特徴を抽出してLBPの特徴のヒストグラムを取得する可能性がある。予め設定されたエリアは、a*aのエリアである可能性があり、aは、正の整数である。任意で、端末は、Uniform符号化を使用することによって予め設定されたエリア内の各セル(cell)内のLBPの特徴を抽出する可能性がある。
C). 顔のキーポイントの抽出されたLBP特徴ベクトルに従って組合せによって顔画像のLBP特徴ベクトルを決定する。
端末は、各顔画像に対して抽出を実行した後、u個のLBPの特徴を抽出する可能性がある。
端末は、目標の顔画像およびh個の拡大縮小された目標の顔画像に対して抽出を別々に実行した後、Y個のLBPの特徴を取得する可能性があり、ここで、Y=u*(h+1)である。
端末は、抽出されたBPの特徴をLBP特徴ベクトル内のパラメータとして使用して、それから、組合せによって、LBPの特徴を含むLBP特徴ベクトルを取得する。任意で、端末は、各顔画像から抽出されたLBPの特徴をLBP特徴ベクトル内の1つの列の1つの行として使用し、それから、h+1行またはh+1列を含むLBP特徴ベクトルを取得する可能性がある。
D). LBP特徴ベクトルに従って顔画像の高次元特徴ベクトルを計算する。
顔画像のLBP特徴ベクトルはxrであると仮定される。このステップは、
(a). xr Txrに対して主成分分析(PCA)次元削減を実行すること、および次元削減された行列Pを取得するために最初のI次元の特徴を残しておくことであって、Iが、正の整数である、残しておくことと、
(b). xrに関してxp=Pxrを計算することと、
(c). 次元削減された行列Lを取得するためにxpに対して潜在的ディリクレ配分法(LDA: Latent Dirichlet Allocation)次元削減を実行することと、
(d). xpに関してx=Lxpを計算することであって、xが、目標の顔画像の高次元特徴ベクトルである、計算することとを含み得る。
Gは、第1の閾値よりも大きく、第2の閾値未満であり、概して、Iは、1440である可能性がある。PCA次元削減は、元の特徴ベクトルが線形変換によって低次元の空間にマッピングされる、画像処理においてよく使用される次元削減法である。
今や、端末は、顔画像の各グループ内の第iの顔画像の高次元特徴ベクトルxiおよび第jの顔画像の高次元特徴ベクトルxjを取得し得る。
任意で、別の可能な実装において、このステップは、ステップ(1)からステップ(4)を含む可能性がある。
(1). 顔画像の各グループに関して、グループ内の顔画像の高次元特徴ベクトルを計算する。
このステップの計算方法は、上述の第1の可能な実装の計算方法と同様であり、詳細は、本明細書において再び説明されない。
(2). 顔画像の高次元特徴ベクトルの平均を計算する。
端末は、グループ内の顔画像の高次元特徴ベクトルを計算した後、顔画像の高次元特徴ベクトルの平均を計算し得る。
(3). グループ内の各顔画像に関して、平均正規化(mean normalization)後に得られた顔画像の高次元特徴ベクトルを取得するために顔画像の高次元特徴ベクトルから平均を引く。
(4). 平均正規化後に得られた顔画像の高次元特徴ベクトルを顔画像の高次元特徴ベクトルとして決定する。
第4に、H、L、Sg、およびxiに従ってgiを計算し、ここで、
Figure 2018519573
であり、H、L、xi、およびxjに従ってSijを計算し、ここで、
Figure 2018519573
である。
第5に、giに従ってSgを更新し、ここで、
Figure 2018519573
であり、Sijに従ってSsを更新し、ここで、
Figure 2018519573
であり、gi Tは、giの転置ベクトルであり、Sij Tは、Sijの転置ベクトルである。
第6に、SgおよびSsが収束する場合、SgおよびSsを取得する。
第7に、SgおよびSsが収束しない場合、Ssに従ってHを計算し、SgおよびSsに従ってLを計算するステップを再び実行する。
ステップ303. 第1の行列および第2の行列に従って第3の行列および第4の行列を計算する。
第3の行列は、顔画像ライブラリ内の顔の特徴の共分散行列であり、第4の行列は、顔画像ライブラリ内の異なる人の顔の特徴の間の共分散行列である。
任意で、このステップは、以下を含み得る。
第1に、Sgである第1の行列およびSsである第2の行列に従って第3の行列Sμを計算し、ここで、Sμ= con(u) = Sg+Ssである。
第2に、第4の行列Sεを初期化し、ここで、Sεは、顔画像ライブラリ内のすべての顔画像のサンプルを含む、つまり、m*N個のサンプルを含む可能性があり、これは、この実施形態において限定されない。
第3に、Sμに従ってFを計算し、ここで、F = Sμ -1であり、SμおよびSεに従ってGを計算し、ここで、G = -(mSμ+Sε)-1SμSε -1であり、mは、顔画像ライブラリ内の顔画像に対応する人の量である。
FおよびGに従って顔画像ライブラリ内の第iの人のガウス分布の平均μiを計算し、ここで、
Figure 2018519573
であり、FおよびGに従って第iの人および第jの人の同時分布共分散行列εijを計算し、ここで、
Figure 2018519573
であり、xiは、第iの人の高次元特徴ベクトルであり、xjは、第jの人の高次元特徴ベクトルである。
第5に、μiに従ってSμを更新し、εijに従ってSεを更新し、ここで、
Figure 2018519573
であり、
Figure 2018519573
であり、μi Tは、μiの転置ベクトルであり、εij Tは、εijの転置ベクトルである。
第6に、SμおよびSεが収束する場合、SμおよびSεを取得する。
第7に、SμおよびSεが収束しない場合、Sμに従ってFを計算し、SμおよびSεに従ってGを計算するステップを再び実行する。
ステップ304. 第3の行列および第4の行列に従って顔モデル行列を訓練する。
任意で、このステップは、第3の行列Sμ、第4の行列Sε、SμおよびSεが収束するときに取得されるF、ならびにSμおよびSεが収束するときに取得されるGに従って訓練することによって顔モデル行列を取得することを含む。
顔モデル行列は、A = (Sμ+Sε)-1 - (F+G)およびG = -(mSμ+Sε)-1SμSε -1である。
ステップ305. 目標の顔画像の高次元特徴ベクトルおよび参照顔画像の高次元特徴ベクトルを取得する。
訓練によって訓練された顔モデル行列を取得した後、端末は、顔モデル行列に従って顔認識を実行し得る。
特に、端末は、認識されるべき目標の顔画像の高次元特徴ベクトルを取得し、参照顔画像の高次元特徴ベクトルを取得し得る。任意で、端末は、LBPアルゴリズム、HOGアルゴリズム、ガボールアルゴリズム、またはSIFTアルゴリズムを使用することによって抽出することにより高次元特徴ベクトルを取得する可能性がある。これは、この実施形態において限定されない。
ステップ306. 目標の顔画像の高次元特徴ベクトル、参照顔画像の高次元特徴ベクトル、および顔モデル行列に従って目標の顔画像と参照顔画像との間の類似性を計算する。
類似性は、r(x1, x2) = x1 TAx1 + x2 TAx2 - 2x1 TGx2である。
x1は、目標の顔画像の高次元特徴ベクトルであり、x2は、参照顔画像の高次元特徴ベクトルであり、x1 Tは、x1の転置ベクトルであり、x2 Tは、x2の転置ベクトルであり、AおよびGは、顔モデル行列である。
任意で、類似性を計算する前に、端末は、以下のステップをさらに実行する可能性がある。
第1に、顔画像ライブラリ内のすべての特徴の平均Mを取得する。
このステップは、顔画像ライブラリ内の各顔画像の高次元特徴ベクトルを取得し、取得された高次元特徴ベクトルに従ってすべての特徴の平均Mを計算することを含む。任意で、端末は、LBPアルゴリズム、HOGアルゴリズム、ガボールアルゴリズム、またはSIFTアルゴリズムを使用することによって抽出することにより各顔画像の高次元特徴ベクトルを取得する可能性がある。これは、この実施形態において限定されない。
第2に、x1およびx2に対して平均正規化処理を実行する。特に、x1 = x1 - Mであり、x2 = x2 - Mである。
x1およびx2に対して平均正規化処理を実行することによって、x1およびx2は、0を中心にして分散され得る。これは、類似性の計算効率を改善する。
加えて、この実施形態においては、類似性を使用することによって目標の顔画像に対して顔認識が実行される例が、説明のためにのみ使用される。任意で、端末は、類似性を計算した後、目標の顔画像の高次元特徴ベクトルと参照顔画像の高次元特徴ベクトルとの間の分散をさらに計算し、それから、計算された分散を使用することによって顔認識を実行し得る。
分散を計算するステップは、以下を含み得る。
第1に、顔画像ライブラリ内の同じ人の高次元特徴ベクトルの平均r1および分散S1を取得する。
顔画像ライブラリ内のm*N個の顔画像に関して、同じ人のn個の顔画像の間で、(N - 1)個のr(x1, x2)を取得するために、任意の2つの顔画像の間の類似性r(x1, x2)が計算される。顔画像ライブラリ内のm人の人に関して、合計で(N - 1)*m個のr(x1, x2)が取得される。(N - 1)*m個のr(x1, x2)の平均r1および分散S1が、計算される。
第2に、計算された平均r1、分散S1、および類似性に従って分散を計算し、分散sは、
Figure 2018519573
である。
端末が分散sを計算した後、端末は、計算されたsを0から100までの範囲に正規化し得る。sのサイズは、目標の顔画像および参照顔画像が同じ人である確率を示す。言い換えれば、sは、1から100までの間の値を有する信頼性係数である。より大きなsは、2つの顔画像が同じ人である高い確率を示す。
実際の実装においては、閾値が設定され得る。sが予め設定された閾値よりも大きいとき、目標の顔画像および参照顔画像は同じ人であると判定される。sが予め設定された閾値未満であるとき、目標の顔画像および参照顔画像は同じ人ではないと判定される。実際の実装において、予め設定された閾値は、50以上であり、100以下である数である。設計者は、必要とされる認識の正確さに応じて閾値を設定し得る。特に、必要とされる正確さが比較的高い場合、閾値は、比較的大きな値、たとえば、90に設定され、必要とされる正確さが比較的低い場合、閾値は、比較的小さな値、たとえば、60に設定される可能性がある。
ステップ305およびステップ306は任意のステップであり、実際の実装においては必要に応じて実行される可能性があることにさらに留意されたい。これは、この実施形態において限定されない。
要約すると、この実施形態において提供される顔モデル行列の訓練方法によって、顔画像ライブラリ内の顔画像がk個のグループに分けられ、毎回ただ1つのグループ内の顔画像がメモリにロードされ、解析され、それから、第1の行列および第2の行列が解析結果に従って計算され、顔モデル行列が第1の行列および第2の行列に従って訓練される。このようにして、端末が顔画像ライブラリ内のすべての顔画像をメモリに同時にロードするときに比較的大きなメモリが占有される既存のテクノロジーの問題が回避され、毎回ただ1つのグループ内の顔画像をメモリにロードし、それによって、訓練プロセスにおいて占有される必要があるメモリを削減する効果が、実現される。加えて、毎回ただ1つのグループ内の顔画像が解析される必要があるので、端末の計算の複雑さも、ある程度まで削減される。
図4を参照すると、図4は、本発明の実施形態による顔モデル行列の訓練装置の構造ブロック図である。顔モデル行列の訓練装置は、画像取得モジュール410、行列計算モジュール420、および行列訓練モジュール430を含み得る。
画像取得モジュール410は、顔画像ライブラリを取得するように構成され、顔画像ライブラリは、顔画像のk個のグループを含み、顔画像の各グループは、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kは、整数である。
行列計算モジュール420は、顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算するように構成され、第1の行列は、顔画像の各グループの顔の特徴のグループ内共分散行列であり、第2の行列は、顔画像のk個のグループの顔の特徴のグループ間共分散行列である。
行列訓練モジュール430は、行列計算モジュール320によって計算された第1の行列および第2の行列に従って顔モデル行列を訓練するように構成される。
要約すると、この実施形態において提供される顔モデル行列の訓練装置によって、顔画像ライブラリ内の顔画像がk個のグループに分けられ、毎回ただ1つのグループ内の顔画像がメモリにロードされ、解析され、それから、第1の行列および第2の行列が解析結果に従って計算され、顔モデル行列が第1の行列および第2の行列に従って訓練される。このようにして、端末が顔画像ライブラリ内のすべての顔画像をメモリに同時にロードするときに比較的大きなメモリが占有される既存のテクノロジーの問題が回避され、毎回ただ1つのグループ内の顔画像をメモリにロードし、それによって、訓練プロセスにおいて占有される必要があるメモリを削減する効果が、実現される。加えて、毎回ただ1つのグループ内の顔画像が解析される必要があるので、端末の計算の複雑さも、ある程度まで削減される。
図5を参照すると、図5は、本発明の実施形態による顔モデル行列の訓練装置の構造ブロック図である。顔モデル行列の訓練装置は、画像取得モジュール510、行列計算モジュール520、および行列訓練モジュール530を含み得る。
画像取得モジュール510は、顔画像ライブラリを取得するように構成され、顔画像ライブラリは、顔画像のk個のグループを含み、顔画像の各グループは、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kは、整数である。
行列計算モジュール520は、顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算するように構成され、第1の行列は、顔画像の各グループの顔の特徴のグループ内共分散行列であり、第2の行列は、顔画像のk個のグループの顔の特徴のグループ間共分散行列である。
行列訓練モジュール530は、行列計算モジュール520によって計算された第1の行列および第2の行列に従って顔モデル行列を訓練するように構成される。
任意で、行列計算モジュール520は、
第1の行列Sgおよび第2の行列Ssを初期化するように構成された初期化ユニット521と、
Ssに従ってHを計算するように構成された第1の計算モジュール522であって、H=Ss -1であり、第1の計算モジュール522がSgおよびSsに従ってLを計算するように構成され、L = -(kSg+Ss)-1SgSs -1である、第1の計算モジュール522と、
顔画像の各グループ内の第iの人の顔画像の高次元特徴ベクトルxiおよび第jの人の顔画像の高次元特徴ベクトルxjを取得するように構成された特徴取得ユニット523であって、0 < i≦n、0 < j≦n、およびi≠jであり、nは、顔画像の1つのグループ内の人の量である、特徴取得ユニット523と、
H、L、Sg、およびxiに従ってgiを計算するように構成された第2の計算ユニット524であって、
Figure 2018519573
であり、第2の計算ユニット524がH、L、xi、およびxjに従ってSijを計算するように構成され、
Figure 2018519573
である、第2の計算ユニット524と、
giに従ってSgを更新するように構成された第3の計算ユニット525であって、
Figure 2018519573
であり、第3の計算ユニット525がSijに従ってSsを更新するように構成され、
Figure 2018519573
であり、gi Tが、giの転置ベクトルであり、Sij Tが、Sijの転置ベクトルである、第3の計算ユニット525と、
第3の計算ユニット525によって計算されたSgおよびSsが収束する場合にSgおよびSsを取得するように構成された第4の計算ユニット526とを含み、
第1の計算ユニット522は、第3の計算ユニットによって計算されたSgおよびSsが収束しない場合にSsに従ってHを計算し、SgおよびSsに従ってLを計算するステップを再び実行するようにさらに構成される。
任意で、特徴取得ユニット523は、
顔画像の各グループに関して、グループ内の顔画像の高次元特徴ベクトルを計算し、
顔画像の高次元特徴ベクトルの平均を計算し、
グループ内の各顔画像に関して、平均正規化後に得られた顔画像の高次元特徴ベクトルを取得するために顔画像の高次元特徴ベクトルから平均を引き、
平均正規化後に得られた顔画像の高次元特徴ベクトルを顔画像の高次元特徴ベクトルとして決定するようにさらに構成される。
任意で、行列訓練モジュール530は、
第1の行列および第2の行列に従って第3の行列および第4の行列を計算するように構成された行列計算ユニット531であって、第3の行列が、顔画像ライブラリ内の顔の特徴の共分散行列であり、第4の行列が、顔画像ライブラリ内の異なる人の顔の特徴の間の共分散行列である、行列計算ユニット531と、
行列計算ユニット531によって計算された第3の行列および第4の行列に従って顔モデル行列を訓練するように構成された行列訓練ユニット532とを含む。
任意で、行列計算ユニット531は、
Sgである第1の行列およびSsである第2の行列に従って第3の行列Sμを計算することであって、Sμ= con(u) = Sg+Ssである、計算することと、
第4の行列Sεを初期化することと、
Sμに従ってFを計算することであって、F = Sμ-1である、計算すること、ならびにSμおよびSεに従ってGを計算することであって、G = -(mSμ+Sε)-1SμSε -1であり、mが、顔画像ライブラリ内の顔画像に対応する人の量である、計算することと、
FおよびGに従って顔画像ライブラリ内の第iの人のガウス分布の平均μiを計算することであって、
Figure 2018519573
である、計算すること、ならびにFおよびGに従って第iの人および第jの人の同時分布共分散行列εijを計算することであって、
Figure 2018519573
であり、xiが、第iの人の高次元特徴ベクトルであり、xjが、第jの人の高次元特徴ベクトルである、計算することと、
μiに従ってSμを更新し、εijに従ってSεを更新することであって、
Figure 2018519573
であり、
Figure 2018519573
であり、μi Tが、μiの転置ベクトルであり、εij Tが、εijの転置ベクトルである、更新することと、
SμおよびSεが収束する場合にSμおよびSεを取得することと、
SμおよびSεが収束しない場合にSμに従ってFを計算し、SμおよびSεに従ってGを計算するステップを再び実行することとを行うようにさらに構成される。
任意で、行列訓練ユニット532は、
第3の行列Sμ、第4の行列Sε、SμおよびSεが収束するときに取得されるF、ならびにSμおよびSεが収束するときに取得されるGに従って訓練することによって顔モデル行列AおよびGを取得するようにさらに構成され、
顔モデル行列は、A = (Sμ+Sε)-1 - (F+G)およびG = -(mSμ+Sε)-1SμSε -1である。
任意で、装置は、
目標の顔画像の高次元特徴ベクトルおよび参照顔画像の高次元特徴ベクトルを取得するように構成された特徴取得モジュール540と、
目標の顔画像の高次元特徴ベクトル、参照顔画像の高次元特徴ベクトル、および顔モデル行列に従って目標の顔画像と参照顔画像との間の類似性を計算するように構成された顔認識モジュール550とをさらに含む。
任意で、顔認識モジュール550は、
類似性をr(x1, x2) = x1 TAx1 + x2 TAx2 - 2x1 TGx2として計算するようにさらに構成され、
x1は、目標の顔画像の高次元特徴ベクトルであり、x2は、参照顔画像の高次元特徴ベクトルであり、x1 Tは、x1の転置ベクトルであり、x2 Tは、x2の転置ベクトルであり、AおよびGは、顔モデル行列である。
要約すると、この実施形態において提供される顔モデル行列の訓練装置によって、顔画像ライブラリ内の顔画像がk個のグループに分けられ、毎回ただ1つのグループ内の顔画像がメモリにロードされ、解析され、それから、第1の行列および第2の行列が解析結果に従って計算され、顔モデル行列が第1の行列および第2の行列に従って訓練される。このようにして、端末が顔画像ライブラリ内のすべての顔画像をメモリに同時にロードするときに比較的大きなメモリが占有される既存のテクノロジーの問題が回避され、毎回ただ1つのグループ内の顔画像をメモリにロードし、それによって、訓練プロセスにおいて占有される必要があるメモリを削減する効果が、実現される。加えて、毎回ただ1つのグループ内の顔画像が解析される必要があるので、端末の計算の複雑さも、ある程度まで削減される。
図6は、本発明の実施形態による顔モデル行列の訓練端末1100のブロック図である。図6を参照すると、端末1100は、
無線周波数(RF)回路110、1つまたは複数のコンピュータ可読ストレージ媒体を含むメモリ120、入力ユニット130、ディスプレイユニット140、センサー150、オーディオ回路160、ワイヤレスフィデリティ(WiFi)モジュール170、1つまたは複数の処理コアを含むプロセッサ180、および電源190などの構成要素を含み得る。当業者は、図6に示される端末の構造が端末に対する限定を定めず、端末が図に示される構成要素より多くの構成要素もしくはより少ない構成要素を含む可能性があり、または一部の構成要素が組み合わされる可能性があり、または異なる構成要素の配置が使用される可能性があることを理解し得る。
RF回路110は、情報の受信および送信プロセスまたは呼び出しプロセスにおいて信号を受信および送信するように構成され得る。特に、基地局からダウンリンク情報を受信した後、RF回路110は、処理するために1つまたは複数のプロセッサ180にダウンリンク情報を配信し、関連するアップリンクデータを基地局に送信する。概して、RF回路110は、アンテナ、少なくとも1つの増幅器、チューナー、1つまたは複数の発振器、加入者識別モジュール(SIM)カード、トランシーバ、カプラ、低雑音増幅器(LNA)、およびデュプレクサを含むがこれらに限定されない。加えて、RF回路110は、ワイヤレス通信によってネットワークおよび別のデバイスと通信する可能性もある。ワイヤレス通信は、移動体通信用グローバルシステム(GSM(登録商標): Global System for Mobile communications)、汎用パケット無線サービス(GPRS: General Packet Radio Service)、符号分割多元接続(CDMA)、広帯域符号分割多元接続(WCDMA(登録商標))、ロングタームエボリューション(LTE)、電子メール、ショートメッセージングサービス(SMS)などを含むがこれらに限定されない任意の通信規格またはプロトコルを使用する可能性がある。
メモリ120は、ソフトウェアプログラムおよびモジュールを記憶するように構成され得る。プロセッサ180は、様々な機能アプリケーションおよびデータ処理を実施するためにメモリ120に記憶されたソフトウェアプログラムおよびモジュールを実行する。メモリ120は、主に、プログラムストレージエリアおよびデータストレージエリアを含み得る。プログラムストレージエリアは、オペレーティングシステム、(音声再生機能および画像表示機能などの)少なくとも1つの機能によって必要とされるアプリケーションプログラムなどを記憶する可能性がある。データストレージエリアは、端末1100の使用によって生成された(オーディオデータおよびアドレス帳などの)データなどを記憶する可能性がある。加えて、メモリ120は、高速なランダムアクセスメモリを含む可能性があり、不揮発性メモリ、たとえば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、または別の揮発性ソリッドステートストレージデバイスも含む可能性がある。それに対応して、メモリ120は、プロセッサ180および入力ユニット130のメモリ120へのアクセスを提供するためのメモリコントローラをさらに含み得る。
入力ユニット130は、入力された数字または文字情報を受信し、ユーザ設定および機能の制御に関連するキーボード、マウス、ジョイスティック、光、またはトラックボールの信号入力を生成するように構成され得る。特に、入力ユニット130は、タッチ感知表面131および別の入力デバイス132を含み得る。タッチスクリーンまたはタッチパネルとも呼ばれる可能性があるタッチ感知表面131は、(指またはスタイラスなどの任意の好適な物体またはアクセサリを使用することによるタッチ感知表面131の上または近くのユーザの操作などの)タッチ感知表面の上または近くのユーザのタッチ操作を受け取り、予め設定されたプログラムに従って対応する接続装置を駆動し得る。任意で、タッチ感知表面131は、2つの部分、すなわち、タッチ検出装置およびタッチコントローラを含み得る。タッチ検出装置は、ユーザのタッチ位置を検出し、タッチ操作によって生成された信号を検出し、タッチコントローラに信号を転送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチ情報をタッチ点の座標に変換し、タッチ点の座標をプロセッサ180に送信する。さらに、タッチコントローラは、プロセッサ180から送信されたコマンドを受信し、実行することができる。加えて、タッチ感知表面131は、抵抗式、静電容量式、赤外線式、または表面音波式タッチ感知表面である可能性がある。タッチ感知表面131に加えて、入力ユニット130は、別の入力デバイス132をさらに含み得る。特に、別の入力デバイス132は、物理的なキーボード、(音量制御キーまたはスイッチキーなどの)機能キー、トラックボール、マウス、およびジョイスティックのうちの1つまたは複数を含み得るがこれらに限定されない。
ディスプレイユニット140は、ユーザによって入力された情報またはユーザに与えられる情報および端末1100の様々なグラフィカルユーザインターフェースを表示するように構成され得る。これらのグラフィカルユーザインターフェースは、グラフ、テキスト、アイコン、ビデオ、またはこれらの任意の組合せによって形成される可能性がある。ディスプレイユニット140は、ディスプレイパネル141を含み得る。任意で、ディスプレイパネル141は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイなどを使用することによって構成される可能性がある。さらに、タッチ感知表面131が、ディスプレイパネル141を覆う可能性がある。タッチ感知表面131の上または近くのタッチ操作を検出した後、タッチ感知表面131は、タッチイベントの種類を判定するためにタッチ操作をプロセッサ180に転送する。そのとき、プロセッサ180は、タッチイベントの種類に応じてディスプレイパネル141上の対応する視覚的な出力を提供する。図6においてタッチ感知表面131およびディスプレイパネル141は入力および出力機能を実装するための2つの別々の部分として使用されるが、一部の実施形態において、タッチ感知表面131およびディスプレイパネル141は、入力および出力機能を実装するために統合される可能性がある。
端末1100は、少なくとも1つのセンサー150、たとえば、光センサー、モーションセンサー、およびその他のセンサーをさらに含み得る。特に、光センサーは、環境光センサーおよび近接センサーを含み得る。環境光センサーは、環境光の明るさに応じてディスプレイパネル141の輝度を調整することができる。近接センサーは、端末1100が耳まで動かされるときにディスプレイパネル141をオフにするおよび/またはバックライトを有効にすることができる。モーションセンサーの一種として、重力加速度センサーは、様々な方向の(概して、3軸上の)加速度の大きさを検出することができ、重力加速度センサーが静止しているときの重力の大きさおよび方向を検出する可能性があり、モバイル電話の姿勢を認識するアプリケーション(たとえば、景色の向きと顔画像(portrait)の向きとの切り替え、関連するゲーム、および磁力計の姿勢の較正)、(万歩計(登録商標)およびノック(knock)などの)振動認識に関連する機能などのために使用される可能性がある。端末1100上に設けられ得るジャイロスコープ、気圧計、湿度計、温度計、および赤外線センサーなどのその他のセンサーは、本明細書においてさらに説明されない。
オーディオ回路160、ラウドスピーカ161、およびマイクロフォン162は、ユーザと端末1100との間のオーディオインターフェースを提供し得る。オーディオ回路160は、受信されたオーディオデータを電気信号に変換し、電気信号をラウドスピーカ161に送信し得る。ラウドスピーカ161は、電気信号を出力のための音声信号に変換する。一方、マイクロフォン162は、集められた音声信号を電気信号に変換する。オーディオ回路160は、電気信号を受信し、電気信号をオーディオデータに変換し、オーディオデータを処理するためにプロセッサ180に出力する。そのとき、プロセッサ180は、たとえば、RF回路110を使用することによって別の端末デバイスにオーディオデータを送信するか、またはオーディオデータをさらに処理するためにメモリ120に出力する。オーディオ回路160は、周辺イヤホンと端末1100との間の通信を提供するためにイヤホンジャックをさらに含み得る。
WiFiは、近距離ワイヤレス送信テクノロジーである。端末1100は、WiFiモジュール170を使用することによって、ユーザが電子メールを受信および送信すること、ウェブページを閲覧すること、ストリーミングメディアにアクセスすることなどを助け得る。端末1100は、ユーザにワイヤレスブロードバンドインターネットアクセスを提供する。図6はWiFiモジュール170を示すが、WiFiモジュール170は端末1100の必須の構成要素ではなく、要求されるとき、WiFiモジュール170は本開示の本質の範囲が変えられない限り省略される可能性があることが理解され得る。
プロセッサ180は、端末1100の制御の中心であり、様々なインターフェースおよび線を使用することによってモバイル電話の様々な部分に接続される。メモリ120に記憶されたソフトウェアプログラムおよび/またはモジュールを走らせるかまたは実行し、メモリ120に記憶されたデータを呼び出すことによって、プロセッサ180は、端末1100の様々な機能およびデータ処理を実行し、それによって、モバイル電話に対する全体の監視を実行する。任意で、プロセッサ180は、1つまたは複数の処理コアを含み得る。好ましくは、アプリケーションプロセッサおよびモデムは、プロセッサ180に統合され得る。アプリケーションプロセッサは、主として、オペレーティングシステム、ユーザインターフェース、アプリケーションプログラムなどを処理する。モデムは、主として、ワイヤレス通信を処理する。上述のモデムがプロセッサ180に統合されない可能性があることは、理解され得る。
端末1100は、構成要素に電力を供給するための(バッテリーなどの)電源190をさらに含む。好ましくは、電源は、電源管理システムを使用することによってプロセッサ180に論理的に接続され、それによって、電源管理システムを使用することによって充電、放電、および電力消費管理などの機能を実施する可能性がある。電源190は、直流または交流電源、再充電システム、電源異常検出回路、電源コンバータまたはインバータ、電源状態インジケータ、および任意のその他の構成要素のうちの1つまたは複数をさらに含み得る。
図に示されていないが、端末1100は、本明細書においてさらに説明されないカメラ、Bluetooth(登録商標)モジュールなどをさらに含み得る。特に、この実施形態において、端末のディスプレイユニットは、タッチスクリーンディスプレイであり、端末は、メモリおよび1つまたは複数のプログラムをさらに含む。1つまたは複数のプログラムは、メモリに記憶され、1つまたは複数のプロセッサによって実行されるように構成される。1つまたは複数のプログラムは、以下の動作、すなわち、顔画像ライブラリを取得する動作であって、顔画像ライブラリが、顔画像のk個のグループを含み、顔画像の各グループが、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kが、整数である、動作と、顔画像のk個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算する動作であって、第1の行列が、顔画像の各グループの顔の特徴のグループ内共分散行列であり、第2の行列が、顔画像のk個のグループの顔の特徴のグループ間共分散行列である、動作と、第1の行列および第2の行列に従って顔モデル行列を訓練する動作とを実行するように構成された命令を含む。
1つまたは複数のプログラムは、図2または図3の顔モデル行列の訓練方法のその他の動作を実行するように構成された命令をさらに含む。
上述の機能モジュールの分割は、上述の実施形態において提供された顔モデル行列の訓練装置が顔モデル行列を訓練するときの例示的な目的のために説明されているに過ぎないことに留意されたい。実際の応用において、機能は、特定のニーズに応じて異なる機能モジュールに割り振られる可能性があり、つまり、上述の機能のすべてまたは一部を完成するために装置の内部構造を異なる機能モジュールに分割する。加えて、上述の実施形態において提供された顔モデル行列の訓練装置は、顔モデル行列の訓練方法の方法実施形態の概念と同じ概念に基づく。特定の実装プロセスに関しては、方法の実施形態を参照するものとし、詳細は、本明細書において再び説明されない。
本発明の上述の実施形態の連番は、説明の目的に資するのみであり、実施形態の優劣を示さない。
当業者は、上述の実施形態のステップのすべてまたは一部が、ハードウェアを用いることによって実装される可能性があり、または関連するハードウェアに指示を与えるプログラムによって実装される可能性があることを理解するであろう。プログラムは、コンピュータ可読ストレージ媒体に記憶され得る。ストレージ媒体は、読み出し専用メモリ、磁気ディスク、光ディスクなどである可能性がある。
上述の説明は、本発明の好ましい実施形態であるに過ぎず、本開示を限定するように意図されていない。本開示の精神および原理の中でなされたあらゆる修正、均等な置き換え、または改善は、本開示の保護範囲に入る。
100 サーバ
101 CPU
102 RAM
103 ROM
104 システムメモリ
105 システムバス
106 基本I/Oシステム
107 大容量ストレージデバイス
108 ディスプレイ
109 入力デバイス
110 入力および出力コントローラ、RF回路
111 ネットワークインターフェースユニット
112 アプリケーションプログラム、ネットワーク
113 オペレーティングシステム
115 別のプログラムモジュール
120 メモリ
130 入力ユニット
131 タッチ感知表面
132 別の入力デバイス
140 ディスプレイユニット
141 ディスプレイパネル
150 センサー
160 オーディオ回路
161 ラウドスピーカ
162 マイクロフォン
170 WiFiモジュール
180 プロセッサ
190 電源
410 画像取得モジュール
420 行列計算モジュール
430 行列訓練モジュール
510 画像取得モジュール
520 行列計算モジュール
521 初期化ユニット
522 第1の計算モジュール
523 特徴取得ユニット
524 第2の計算ユニット
525 第3の計算ユニット
526 第4の計算ユニット
530 行列訓練モジュール
531 行列計算ユニット
532 行列訓練ユニット
540 特徴取得モジュール
550 顔認識モジュール
1100 端末

Claims (18)

  1. 顔モデル行列の訓練方法であって、
    顔画像ライブラリを取得するステップであって、前記顔画像ライブラリが、顔画像のk個のグループを含み、顔画像の各グループが、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2であり、kが、整数である、ステップと、
    顔画像の前記k個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算するステップであって、前記第1の行列が、顔画像の各グループの顔の特徴のグループ内共分散行列であり、前記第2の行列が、顔画像の前記k個のグループの顔の特徴のグループ間共分散行列である、ステップと、
    前記第1の行列および前記第2の行列に従って顔モデル行列を訓練するステップとを含む、方法。
  2. 顔画像の前記k個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算する前記ステップが、
    第1の行列Sgおよび第2の行列Ssを初期化することと、
    Ssに従ってHを計算するステップであって、H=Ss -1である、ステップ、ならびにSgおよびSsに従ってLを計算するステップであって、L= -(kSg+Ss)-1SgSs -1である、ステップと、
    顔画像の各グループ内の第iの人の顔画像の高次元特徴ベクトルxiおよび第jの人の顔画像の高次元特徴ベクトルxjを取得するステップであって、0 < i≦n、0 < j≦n、およびi≠jであり、nが、顔画像の1つのグループ内の人の量である、ステップと、
    H、L、Sg、およびxiに従ってgiを計算するステップであって、
    Figure 2018519573
    である、ステップ、ならびにH、L、xi、およびxjに従ってSijを計算するステップであって、
    Figure 2018519573
    である、ステップと、
    giに従ってSgを更新するステップであって、
    Figure 2018519573
    である、ステップ、およびSijに従ってSsを更新するステップであって、
    Figure 2018519573
    であり、gi Tが、giの転置ベクトルであり、Sij Tが、Sijの転置ベクトルである、ステップと、
    SgおよびSsが収束する場合にSgおよびSsを取得するステップと、
    SgおよびSsが収束しない場合にSsに従ってHを計算し、SgおよびSsに従ってLを計算する前記ステップを再び実行するステップとを含む、請求項1に記載の方法。
  3. 顔画像の各グループ内の第iの顔画像の高次元特徴ベクトルxiおよび第jの顔画像の高次元特徴ベクトルxjを取得する前記ステップが、
    顔画像の各グループに関して、前記グループ内の顔画像の高次元特徴ベクトルを計算するステップと、
    前記顔画像の前記高次元特徴ベクトルの平均を計算するステップと、
    前記グループ内の各顔画像に関して、平均正規化後に得られた前記顔画像の高次元特徴ベクトルを取得するために前記顔画像の前記高次元特徴ベクトルから前記平均を引くステップと、
    平均正規化後に得られた前記顔画像の前記高次元特徴ベクトルを前記顔画像の高次元特徴ベクトルとして決定するステップとを含む、請求項2に記載の方法。
  4. 前記第1の行列および前記第2の行列に従って顔モデル行列を訓練する前記ステップが、
    前記第1の行列および前記第2の行列に従って第3の行列および第4の行列を計算するステップであって、前記第3の行列が、前記顔画像ライブラリ内の顔の特徴の共分散行列であり、前記第4の行列が、前記顔画像ライブラリ内の異なる人の顔の特徴の間の共分散行列である、ステップと、
    前記第3の行列および前記第4の行列に従って前記顔モデル行列を訓練するステップとを含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記第1の行列および前記第2の行列に従って第3の行列および第4の行列を計算する前記ステップが、
    Sgである前記第1の行列およびSsである前記第2の行列に従って前記第3の行列Sμを計算するステップであって、Sμ= con(u) = Sg+Ssである、ステップと、
    前記第4の行列Sεを初期化するステップと、
    Sμに従ってFを計算するステップであって、F = Sμ -1である、ステップ、ならびにSμおよびSεに従ってGを計算するステップであって、G = -(mSμ+Sε)-1SμSε -1であり、mが、前記顔画像ライブラリ内の前記顔画像に対応する人の量である、ステップと、
    FおよびGに従って前記顔画像ライブラリ内の第iの人のガウス分布の平均μiを計算するステップであって、
    Figure 2018519573
    である、ステップ、ならびにFおよびGに従って前記第iの人および第jの人の同時分布共分散行列εijを計算するステップであって、
    Figure 2018519573
    であり、xiが、前記第iの人の高次元特徴ベクトルであり、xjが、前記第jの人の高次元特徴ベクトルである、ステップと、
    μiに従ってSμを更新し、εijに従ってSεを更新するステップであって、
    Figure 2018519573
    であり、
    Figure 2018519573
    であり、μi Tが、μiの転置ベクトルであり、εij Tが、εijの転置ベクトルである、ステップと、
    SμおよびSεが収束する場合にSμおよびSεを取得するステップと、
    SμおよびSεが収束しない場合にSμに従ってFを計算し、SμおよびSεに従ってGを計算する前記ステップを再び実行するステップとを含む、請求項4に記載の方法。
  6. 前記第3の行列および前記第4の行列に従って前記顔モデル行列を訓練する前記ステップが、
    前記第3の行列Sμ、前記第4の行列Sε、SμおよびSεが収束するときに取得されるF、ならびにSμおよびSεが収束するときに取得されるGに従って訓練することによって前記顔モデル行列Aおよび前記顔モデル行列Gを取得するステップを含み、
    前記顔モデル行列が、A = (Sμ+Sε)-1 - (F+G)およびG = -(mSμ+Sε)-1SμSε -1である、請求項5に記載の方法。
  7. 目標の顔画像の高次元特徴ベクトルおよび参照顔画像の高次元特徴ベクトルを取得するステップと、
    前記目標の顔画像の前記高次元特徴ベクトル、前記参照顔画像の前記高次元特徴ベクトル、および前記顔モデル行列に従って前記目標の顔画像と前記参照顔画像との間の類似性を計算するステップとをさらに含む、請求項1に記載の方法。
  8. 前記目標の顔画像の前記高次元特徴ベクトル、前記参照顔画像の前記高次元特徴ベクトル、および前記顔モデル行列に従って前記目標の顔画像と前記参照顔画像との間の類似性を計算する前記ステップが、
    前記類似性をr(x1, x2) = x1 TAx1 + x2 TAx2 - 2x1 TGx2として計算するステップを含み、
    x1が、前記目標の顔画像の前記高次元特徴ベクトルであり、x2が、前記参照顔画像の前記高次元特徴ベクトルであり、x1 Tが、x1の転置ベクトルであり、x2 Tが、x2の転置ベクトルであり、AおよびGが、前記顔モデル行列である、請求項7に記載の方法。
  9. 顔モデル行列の訓練装置であって、
    顔画像ライブラリを取得するように構成された画像取得モジュールであって、前記顔画像ライブラリが、顔画像のk個のグループを含み、顔画像の各グループが、少なくとも1人の人の少なくとも1つの顔画像を含み、k > 2である、画像取得モジュールと、
    顔画像の前記k個のグループの各々を別々に解析し、解析結果に従って第1の行列および第2の行列を計算するように構成された行列計算モジュールであって、前記第1の行列が、顔画像の各グループの顔の特徴のグループ内共分散行列であり、前記第2の行列が、顔画像の前記k個のグループの顔の特徴のグループ間共分散行列である、行列計算モジュールと、
    前記行列計算モジュールによって計算された前記第1の行列および前記第2の行列に従って顔モデル行列を訓練するように構成された行列訓練モジュールとを含む、装置。
  10. 前記行列計算モジュールが、
    前記第1の行列Sgおよび前記第2の行列Ssを初期化するように構成された初期化ユニットと、
    Ssに従ってHを計算するように構成された第1の計算モジュールであって、H=Ss -1であり、第1の計算モジュールがSgおよびSsに従ってLを計算するように構成され、L = -(kSg+Ss)-1SgSs -1である、第1の計算モジュールと、
    顔画像の各グループ内の第iの人の顔画像の高次元特徴ベクトルxiおよび第jの人の顔画像の高次元特徴ベクトルxjを取得するように構成された特徴取得ユニットであって、0 < i≦n、0 < j≦n、およびi≠jであり、nが、顔画像の1つのグループ内の人の量である、特徴取得ユニットと、
    H、L、Sg、およびxiに従ってgiを計算するように構成された第2の計算ユニットであって、
    Figure 2018519573
    であり、第2の計算ユニットがH、L、xi、およびxjに従ってSijを計算するように構成され、
    Figure 2018519573
    である、第2の計算ユニットと、
    giに従ってSgを更新するように構成された第3の計算ユニットであって、
    Figure 2018519573
    であり、第3の計算ユニットがSijに従ってSsを更新するように構成され、
    Figure 2018519573
    であり、gi Tが、giの転置ベクトルであり、Sij Tが、Sijの転置ベクトルである、第3の計算ユニットと、
    前記第3の計算ユニットによって計算されたSgおよびSsが収束する場合にSgおよびSsを取得するように構成された第4の計算ユニットとを含み、
    第1の計算ユニットが、前記第3の計算ユニットによって計算されたSgおよびSsが収束しない場合にSsに従ってHを計算し、SgおよびSsに従ってLを計算する前記ステップを再び実行するようにさらに構成される、請求項9に記載の装置。
  11. 前記特徴取得ユニットが、
    顔画像の各グループに関して、前記グループ内の顔画像の高次元特徴ベクトルを計算し、
    前記顔画像の前記高次元特徴ベクトルの平均を計算し、
    前記グループ内の各顔画像に関して、平均正規化後に得られた前記顔画像の高次元特徴ベクトルを取得するために前記顔画像の前記高次元特徴ベクトルから前記平均を引き、
    平均正規化後に得られた前記顔画像の前記高次元特徴ベクトルを前記顔画像の高次元特徴ベクトルとして決定するようにさらに構成される、請求項10に記載の装置。
  12. 前記行列計算モジュールが、
    前記第1の行列および前記第2の行列に従って第3の行列および第4の行列を計算するように構成された行列計算ユニットであって、前記第3の行列が、前記顔画像ライブラリ内の顔の特徴の共分散行列であり、前記第4の行列が、前記顔画像ライブラリ内の異なる人の顔の特徴の間の共分散行列である、行列計算ユニットと、
    前記行列計算ユニットによって計算された前記第3の行列および前記第4の行列に従って前記顔モデル行列を訓練するように構成された行列訓練ユニットとを含む、請求項9から11のいずれか一項に記載の装置。
  13. 前記行列計算ユニットが、
    Sgである前記第1の行列およびSsである前記第2の行列に従って前記第3の行列Sμを計算することであって、Sμ= con(u) = Sg+Ssである、計算することと、
    前記第4の行列Sεを初期化することと、
    Sμに従ってFを計算することであって、F = Sμ -1である、計算すること、ならびにSμおよびSεに従ってGを計算することであって、G = -(mSμ+Sε)-1SμSε -1であり、mが、前記顔画像ライブラリ内の前記顔画像に対応する人の量である、計算することと、
    FおよびGに従って前記顔画像ライブラリ内の第iの人のガウス分布の平均μiを計算することであって、
    Figure 2018519573
    である、計算すること、ならびにFおよびGに従って前記第iの人および第jの人の同時分布共分散行列εijを計算することであって、
    Figure 2018519573
    であり、xiが、前記第iの人の高次元特徴ベクトルであり、xjが、前記第jの人の高次元特徴ベクトルである、計算することと、
    μiに従ってSμを更新し、εijに従ってSεを更新することであって、
    Figure 2018519573
    であり、
    Figure 2018519573
    であり、μi Tが、μiの転置ベクトルであり、εij Tが、εijの転置ベクトルである、更新することと、
    SμおよびSεが収束する場合にSμおよびSεを取得することと、
    SμおよびSεが収束しない場合にSμに従ってFを計算し、SμおよびSεに従ってGを計算する前記ステップを再び実行することとを行うようにさらに構成される、請求項12に記載の装置。
  14. 前記行列訓練ユニットが、
    前記第3の行列Sμ、前記第4の行列Sε、SμおよびSεが収束するときに取得されるF、ならびにSμおよびSεが収束するときに取得されるGに従って訓練することによって前記顔モデル行列を取得するようにさらに構成され、
    前記顔モデル行列が、A = (Sμ+Sε)-1 - (F+G)およびG = -(mSμ+Sε)-1SμSε -1である、請求項13に記載の装置。
  15. 目標の顔画像の高次元特徴ベクトルおよび参照顔画像の高次元特徴ベクトルを取得するように構成された特徴取得モジュールと、
    前記目標の顔画像の前記高次元特徴ベクトル、前記参照顔画像の前記高次元特徴ベクトル、および前記顔モデル行列に従って前記目標の顔画像と前記参照顔画像との間の類似性を計算するように構成された顔認識モジュールとをさらに含む、請求項9に記載の装置。
  16. 前記顔認識モジュールが、
    前記類似性をr(x1, x2) = x1 TAx1 + x2 TAx2 - 2x1 TGx2として計算するようにさらに構成され、
    x1が、前記目標の顔画像の前記高次元特徴ベクトルであり、x2が、前記参照顔画像の前記高次元特徴ベクトルであり、x1 Tが、x1の転置ベクトルであり、x2 Tが、x2の転置ベクトルであり、AおよびGが、前記顔モデル行列である、請求項15に記載の装置。
  17. 顔モデル行列の訓練装置であって、
    顔モデル行列の訓練装置が請求項1から8のいずれか一項に記載の顔モデル行列の訓練方法を実行するように、ストレージ媒体に記憶されたプログラム命令を実行するように構成された1つまたは複数のプロセッサを含む、装置。
  18. プログラム命令を含む不揮発性コンピュータ可読ストレージ媒体であって、前記プログラム命令が、プロセッサによって実行されるときに、請求項1から8のいずれか一項に記載の顔モデル行列の訓練方法を実行するようにストレージ媒体を構成する、不揮発性コンピュータ可読ストレージ媒体。
JP2017559544A 2015-11-26 2016-06-02 人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体 Active JP6553747B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510836591.0A CN106803054B (zh) 2015-11-26 2015-11-26 人脸模型矩阵训练方法和装置
CN201510836591.0 2015-11-26
PCT/CN2016/084526 WO2017088434A1 (zh) 2015-11-26 2016-06-02 人脸模型矩阵训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2018519573A true JP2018519573A (ja) 2018-07-19
JP6553747B2 JP6553747B2 (ja) 2019-07-31

Family

ID=58763905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017559544A Active JP6553747B2 (ja) 2015-11-26 2016-06-02 人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体

Country Status (6)

Country Link
US (2) US10395095B2 (ja)
EP (1) EP3382596B1 (ja)
JP (1) JP6553747B2 (ja)
KR (1) KR101924748B1 (ja)
CN (1) CN106803054B (ja)
WO (1) WO2017088434A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472460A (zh) * 2018-05-11 2019-11-19 北京京东尚科信息技术有限公司 人脸图像处理方法及装置
CN109359516A (zh) * 2018-08-31 2019-02-19 算丰科技(北京)有限公司 数据处理方法、数据处理装置以及电子设备
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN110598535B (zh) 2019-07-31 2021-03-23 广西大学 一种监控视频数据中使用的人脸识别分析方法
CN110879984A (zh) * 2019-11-18 2020-03-13 上海眼控科技股份有限公司 一种人脸比对的方法及设备
KR102565852B1 (ko) * 2020-11-25 2023-08-11 한국전자기술연구원 얼굴표정 분석기반 자폐 스펙트럼 장애 평가 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178569A (ja) * 2002-11-12 2004-06-24 Matsushita Electric Ind Co Ltd データ分類装置、物体認識装置、データ分類方法及び物体認識方法
JP2006338092A (ja) * 2005-05-31 2006-12-14 Nec Corp パタン照合方法、パタン照合システム及びパタン照合プログラム
JP2007122097A (ja) * 2005-10-24 2007-05-17 Nec Corp 係数決定方法、特徴抽出方法、システム及びプログラム、並びにパタン照合方法、システム及びプログラム
JP2008077536A (ja) * 2006-09-25 2008-04-03 Sony Corp 画像処理装置および方法、並びにプログラム
JP2013242825A (ja) * 2012-05-23 2013-12-05 Panasonic Corp 人物属性推定システム、及び学習用データ生成装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1751689A1 (fr) * 2004-06-04 2007-02-14 France Telecom Procede pour la reconnaissance de visages, a analyse discriminante lineaire bidimensionnelle
CN100373395C (zh) * 2005-12-15 2008-03-05 复旦大学 一种基于人脸统计知识的人脸识别方法
US20090290791A1 (en) * 2008-05-20 2009-11-26 Holub Alex David Automatic tracking of people and bodies in video
JP5418991B2 (ja) * 2008-07-10 2014-02-19 日本電気株式会社 個人認証システム、個人認証方法
CN101561874B (zh) * 2008-07-17 2011-10-26 清华大学 一种人脸虚拟图像生成的方法
SG171858A1 (en) * 2008-11-28 2011-07-28 Agency Science Tech & Res A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
US8249361B1 (en) * 2010-04-22 2012-08-21 Google Inc. Interdependent learning of template map and similarity metric for object identification
CN102004899B (zh) * 2010-11-03 2012-09-26 无锡中星微电子有限公司 一种人脸认证系统及方法
CN102129574B (zh) * 2011-03-18 2016-12-07 广东中星电子有限公司 一种人脸认证方法及系统
KR20120123993A (ko) * 2011-05-02 2012-11-12 (주)베타 표준 얼굴 그래프 생성 방법
CN102831425B (zh) * 2012-08-29 2014-12-17 东南大学 一种人脸图像快速特征提取方法
CN103839041B (zh) * 2012-11-27 2017-07-18 腾讯科技(深圳)有限公司 客户端特征的识别方法和装置
JP5866064B2 (ja) * 2013-04-09 2016-02-17 株式会社日立国際電気 画像検索装置、画像検索方法、および記録媒体
CN103745206B (zh) * 2014-01-27 2018-07-10 中国科学院深圳先进技术研究院 一种人脸识别方法及系统
CN105095833B (zh) * 2014-05-08 2019-03-15 中国科学院声学研究所 用于人脸识别的网络构建方法、识别方法及系统
CN104408405B (zh) * 2014-11-03 2018-06-15 北京畅景立达软件技术有限公司 人脸表示和相似度计算方法
FR3028064B1 (fr) * 2014-11-05 2016-11-04 Morpho Procede de comparaison de donnees ameliore
CN104573652B (zh) * 2015-01-04 2017-12-22 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
CN104657718B (zh) * 2015-02-13 2018-12-14 武汉工程大学 一种基于人脸图像特征极限学习机的人脸识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178569A (ja) * 2002-11-12 2004-06-24 Matsushita Electric Ind Co Ltd データ分類装置、物体認識装置、データ分類方法及び物体認識方法
JP2006338092A (ja) * 2005-05-31 2006-12-14 Nec Corp パタン照合方法、パタン照合システム及びパタン照合プログラム
JP2007122097A (ja) * 2005-10-24 2007-05-17 Nec Corp 係数決定方法、特徴抽出方法、システム及びプログラム、並びにパタン照合方法、システム及びプログラム
JP2008077536A (ja) * 2006-09-25 2008-04-03 Sony Corp 画像処理装置および方法、並びにプログラム
JP2013242825A (ja) * 2012-05-23 2013-12-05 Panasonic Corp 人物属性推定システム、及び学習用データ生成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN CAO, 外2名: ""Face recognition using the wavelet approximation coefficients and fisher's linear discriminant"", 2012 5TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, JPN6019005306, 16 October 2012 (2012-10-16), pages 1253 - 1256, XP032336316, ISSN: 0003979773, DOI: 10.1109/CISP.2012.6469715 *
山田陽介, 外2名: ""高次局所自己相関特徴と判別分析による顔画像の表情認識"", 映像情報メディア学会技術報告, vol. 第27巻, 第8号, JPN6019005304, 3 February 2003 (2003-02-03), JP, pages 145 - 148, ISSN: 0003979772 *

Also Published As

Publication number Publication date
JP6553747B2 (ja) 2019-07-31
KR101924748B1 (ko) 2018-12-03
CN106803054B (zh) 2019-04-23
US10599913B2 (en) 2020-03-24
US20190332847A1 (en) 2019-10-31
EP3382596A4 (en) 2019-08-14
US10395095B2 (en) 2019-08-27
EP3382596A1 (en) 2018-10-03
CN106803054A (zh) 2017-06-06
WO2017088434A1 (zh) 2017-06-01
EP3382596B1 (en) 2023-06-07
US20180005017A1 (en) 2018-01-04
KR20180010243A (ko) 2018-01-30

Similar Documents

Publication Publication Date Title
JP6553747B2 (ja) 人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体
CN106919918B (zh) 一种人脸跟踪方法和装置
WO2020199926A1 (zh) 一种图像识别网络模型训练方法、图像识别方法及装置
US10353883B2 (en) Method, device and storage medium for providing data statistics
CN108985220B (zh) 一种人脸图像处理方法、装置及存储介质
US10970523B2 (en) Terminal and server for providing video call service
CN114444579B (zh) 通用扰动获取方法、装置、存储介质及计算机设备
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN110765924A (zh) 一种活体检测方法、装置以及计算机可读存储介质
CN113190646A (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN114298123A (zh) 聚类处理方法、装置、电子设备及可读存储介质
CN112818733B (zh) 信息处理方法、装置、存储介质及终端
CN117332844A (zh) 对抗样本生成方法、相关装置及存储介质
US20230232075A1 (en) Electronic device for providing content recommendation service, and method therefor
CN110503189B (zh) 一种数据处理方法以及装置
CN108804996B (zh) 人脸验证方法、装置、计算机设备及存储介质
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN113806532B (zh) 比喻句式判断模型的训练方法、装置、介质及设备
CN113806533B (zh) 比喻句式特征词语提取方法、装置、介质及设备
CN115412726B (zh) 视频真伪检测方法、装置及存储介质
CN118052990A (zh) 图像识别方法、装置、电子设备及存储介质
CN117671755A (zh) 对抗样本识别模型训练方法、装置、电子设备及存储介质
CN116932256A (zh) 缺陷报告的分配方法、装置、电子设备及存储介质
CN111221782A (zh) 一种文件查找方法、装置、存储介质及移动终端
CN117079356A (zh) 一种对象鉴伪模型构建方法、虚假对象检测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190704

R150 Certificate of patent or registration of utility model

Ref document number: 6553747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250