JP2020524348A - 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体 - Google Patents

顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体 Download PDF

Info

Publication number
JP2020524348A
JP2020524348A JP2019571526A JP2019571526A JP2020524348A JP 2020524348 A JP2020524348 A JP 2020524348A JP 2019571526 A JP2019571526 A JP 2019571526A JP 2019571526 A JP2019571526 A JP 2019571526A JP 2020524348 A JP2020524348 A JP 2020524348A
Authority
JP
Japan
Prior art keywords
image
information
face
searched
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019571526A
Other languages
English (en)
Other versions
JP7038744B2 (ja
Inventor
▲らい▼▲海▼斌
毛▲寧▼元
李清正
▲劉▼文志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2020524348A publication Critical patent/JP2020524348A/ja
Application granted granted Critical
Publication of JP7038744B2 publication Critical patent/JP7038744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0463Neocognitrons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本実施例は顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体を開示し、前記方法は、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることであって、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、畳み込み計算構成情報は、畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、検索対象の画像には少なくとも一つの顔領域が含まれる、ことと、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチすることであって、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている、ことと、検索対象の顔情報とマッチする予め設定された顔画像情報を出力することと、を含む。【選択図】図1

Description

(関連出願の相互参照)
本願は2017年08月31日に出願された、出願番号201710774389.9、発明の名称「顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体」の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示はコンピュータビジョン技術、特に顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体に関する。
近年、セキュリティシステムが日増しに拡大し、監視場所が拡張し、高解像度監視機器が普及していることに伴い、監視により得られた画像や映像情報が爆発的に増加している。従来の映像監視システムにおける記憶および検索などは大きな課題に臨み、どのように多量の画像や映像から有用な情報を高速に、高効率に抽出するかは非常に重要である。そこで、顔認識技術が映像監視システムに導入され、顔認識技術は畳み込みニューラルネットワークのサポートに対する依存度がかなり高いが、畳み込みニューラルネットワークに膨大な計算量が必要であることで、顔画像検索の効率が低い。
本実施例は顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体を提供し、畳み込みニューラルネットワークに基づく顔認識の計算量を低減することにより、顔画像検索の効率を向上させることができる。
本実施例が提供する顔画像検索方法は、
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることと、
前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチすることと、
前記検索対象の顔情報とマッチする予め設定された顔画像情報を出力することと、を含み、
ここで、前記畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、前記畳み込み計算構成情報は、前記畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、前記検索対象の画像には少なくとも一つの顔領域が含まれ、前記データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。
本実施例の別の一態様によれば、
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得るように構成される畳み込み計算部と、
前記畳み込みニューラルネットワークの対応する畳み込み計算構成情報を構成するように構成されるプロセッサと、
前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、前記検索対象の顔情報とマッチする予め設定された顔画像情報を出力するように構成される検索部と、を含み、
ここで、前記畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、畳み込み計算構成情報が構成されており、前記畳み込み計算構成情報は、前記畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、前記検索対象の画像には少なくとも一つの顔領域が含まれ、前記データベースには少なくとも一つの予め設定された顔画像情報が記憶されている撮影装置が提供される。
本実施例の別の一態様によれば、以上に記載の撮影装置が設置された顔画像検索システムが提供される。
本実施例の別の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令は実行される時に以上に記載の顔画像検索方法の動作を実行するコンピュータ記憶媒体が提供される。
本開示の上記実施例が提供する顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体に基づき、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得て、ここで、畳み込みニューラルネットワークはプロセッサによって対応する畳み込み計算構成情報を構成し、該畳み込みニューラルネットワークに畳み込み計算構成情報が設定されたため、畳み込みニューラルネットワークにおける各畳み込み層に入力された画像のビット幅はいずれも畳み込み層に対応し、それにより畳み込みニューラルネットワークに基づく顔認識の計算量を低減し、畳み込み層の処理効率を向上させ、かつ入力された検索対象の画像は検索対象の顔情報を迅速かつ正確に得ることができるため、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高め、そして検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力し、ここで、撮影装置に設定されたデータベースにおいてマッチする予め設定された顔画像情報を検索することで、リアルタイムの顔検索という効果を実現し、顔画像検索の効率を向上させる。
以下に図面および実施例により、本開示の技術的解決手段をさらに詳細に説明する。
本開示の顔画像検索方法の一実施例のフローチャートである。 本開示の顔画像検索方法の別の実施例のフローチャートである。 本開示の顔画像検索装置の一実施例の構成模式図である。 本開示の顔画像検索装置の別の実施例の構成模式図である。 本開示の撮影装置の上記各実施例の一例の構成模式図である。 本開示の撮影装置の上記各実施例の一例の構成模式図である。 本実施例の端末機器またはサーバの実現に適する電子機器600の構成模式図である。
ここで、図面を参照しながら本開示の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本開示の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本開示およびその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム・大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたってリンクされた遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
本開示を実現中、発明者は研究により、従来の映像監視システムにおいて、顔検出や認識はいずれもバックエンドサーバで実現され、フロントエンドでは画像データの収集や符号化および伝送のみが行われるということを発見した。このようなフロントエンドとバックエンドによる組み合わせ動作方式には、大きなネットワーク帯域幅が必要であり、同時に、伝送されるビデオストリームデータは大部分が無用な情報であるため、バックエンドサーバの有効データへの抽出効率が大幅に低下し、また、画像が伝送される前にロッシー符号化されたため、バックエンドサーバが取得したデータは元の画像データではなく、一定程度検出漏れまたは検出誤りが引き起こされる。
従来技術はフロントエンド化による顔スナップ撮影装置を提供し、該顔スナップ撮影装置は顔認識の正解率を向上させたが、本来バックエンドサーバに配置される中央処理装置、認識および記憶モジュールが単にフロントエンドの映像監視機器に配置されるだけであり、監視画像、映像の数量が膨大であるため、該監視装置の消費電力およびコストが高くなり、かつ顔をリアルタイムに検出する効果を達成しにくく、従って、顔スナップ撮影装置は実際の応用場面において応用価値を有さない。
図1は本開示の顔画像検索方法の一実施例のフローチャートである。図1に示すように、撮影装置に適用する該実施例の方法は以下のステップを含む。
ステップ104、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得る。
ここで、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、畳み込み計算構成情報は畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、検索対象の画像には少なくとも一つの顔領域が含まれ、検索対象の画像はサーバ側またはクラウド側が送信可能な検索命令によって取得してもよく、または外部から入力される検索対象の画像および検索命令を直接受け取ってもよい。画像への検索や認識は、通常対応する顔情報に基づいて認識し、このステップで、畳み込みニューラルネットワーク処理によって対応する検索対象の顔情報を得て、後続の検索での画像検索を顔情報検索に変換し、それによって検索をより迅速にし、さらなる変換を必要とせず、ここで、畳み込みニューラルネットワークは予め訓練されておいたものであってもよい。
ステップ105、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチする。
ここで、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。データベースを設定することで、撮影装置において顔の検出および認識動作を実現し、ネットワーク帯域幅への要求を大幅に低下させ、データ伝送効率を向上させる。顔検出および検索のプロセスはフィールドプログラマブルゲートアレイによるシステムオンチップ(FPGA SoC、Field−Programmable Gate Array System on Chip)によって完了してもよく、FPGA SoCはFPGA論理ブロックおよびCPUを一つの単結晶シリコンウェハに統合し、FPGA論理ブロックとCPUが高度拡張インタフェース(AXI、Advanced extensible Interface)バスを介して通信し、大きな物理帯域幅を有し、従来の解決手段でのFPGA論理ブロックとCPUが分離設置されて大きな通信用帯域幅が必要であるという欠点を克服し、同時に、FPGA SoC固有の優位ワット性能により、機器全体の消費電力が4W以下となり、様々な過酷環境により適し、FPGAはデータ並列計算とタスク並列計算を同時に行うことができ、一つのタスクを複数の流れ工程(同時処理)に分け、1フレーム当たりの検出時間を40ms内に短縮させ、リアルタイム検出の効果を大幅に向上させ、ここで、データ並列とは、各畳み込み層に入力される画像データ、ネットワーク層間で伝達されるデータを、必要に応じて異なるチャネルを確立して同時に処理することをいい、タスク並列とは、ニューラルネットワークにおける畳み込み、プーリングおよび完全接続を並列に実行可能なことをいう。従来の組み込みシステムオンチップはCPUおよび各機能モジュールのみを一つの単結晶シリコンウェハに統合し、しかし、FPGA論理ブロックを設置しない状況で、非常に顔のリアルタイム認識を実現しにくく、バックエンドサーバまたはより高性能のプロセッサがなければ実現できない。
ステップ106、検索対象の顔情報とマッチする予め設定された顔画像情報を出力する。
本開示の上記実施例が提供する顔画像検索方法に基づき、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得て、ここで、畳み込みニューラルネットワークはプロセッサによって対応する畳み込み計算構成情報を構成し、該畳み込みニューラルネットワークに畳み込み計算構成情報が設定されたため、畳み込みニューラルネットワークにおける各畳み込み層に入力された画像のビット幅はいずれも畳み込み層に対応し、それにより畳み込みニューラルネットワークに基づく顔認識の計算量を低減し、畳み込み層の処理効率を向上させ、かつ入力された検索対象の画像は検索対象の顔情報を迅速かつ正確に得ることができるため、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高め、そして検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力し、ここで、撮影装置に設定されたデータベースにおいてマッチする予め設定された顔画像情報を検索することで、リアルタイムの顔検索という効果を実現し、顔画像検索の効率を向上させる。
本開示の顔画像検索方法の別の実施例では、上記実施例をもとに、ステップ104は、
畳み込み計算構成情報に従ってフロントエンドメモリから、ビット幅がデータビット幅値に等しい検索対象の画像を読み取ることと、
畳み込みニューラルネットワークによって検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得ることと、を含む。
本実施例では、所定ビット幅の検索対象の画像を読み取ることで、畳み込み層に入力されたデータのビット幅を該畳み込み層が要求するビット幅に一致させ、畳み込み層に入力されたデータの動的構成を実現し、各畳み込み層は入力されたデータを処理せずに計算でき、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高める。
本開示の顔画像検索方法の上記各実施例の一例では、畳み込み計算構成情報はさらに、畳み込みニューラルネットワークにおける各畳み込み層に対応する畳み込みカーネルの大きさ、または検索対象の画像の記憶アドレスを含む。
ここで、検索対象の画像の記憶アドレスは当該記憶アドレスに基づいてフロントエンドメモリにおいて撮影装置のための検索対象の画像を読み取るために用いられ、畳み込み層の入力データビット幅および重みデータビット幅の構成を行うことで、入力データ(検索対象の画像データ)および重みデータを読み取る時、設定された入力データビット幅および重みデータビット幅に基づいてそれぞれ読み取り、数回の読み取りによって完全の入力データを畳み込み層に入力でき、読み取り毎のデータビット幅はいずれも該畳み込み層に対応するため、畳み込み層の計算効率を向上させると共に、入力データの完全さを保証することができ、入力データビット幅の設定による入力データ欠損によって結果が不正確になることがない。
本開示の顔画像検索方法の上記各実施例の一例では、畳み込みニューラルネットワークによって検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得るステップは、
畳み込みニューラルネットワークにおける各畳み込み層のうちの一つである現在の畳み込み層によって、検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることと、
次の畳み込み層が存在することに応答し、次の畳み込み層を現在の畳み込み層とし、特徴マップを検索対象の画像とし、次の畳み込み層が存在しなくなるまで、畳み込みニューラルネットワークにおける現在の畳み込み層のために構成される畳み込み計算構成情報に基づいて、フロントエンドメモリから検索対象の画像を読み取り、現在の畳み込み層によって検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることを反復することと、
特徴マップを出力して検索対象の顔情報を得ることと、を含む。
本実施例は畳み込みニューラルネットワークにおけるいずれの畳み込み層をも加速させるように、反復の方法によって、次の畳み込み層を現在の畳み込み層とし、前の畳み込み層の計算による計算結果データを次の畳み込み層の入力データとし、同様に、設定された入力データビット幅および重みビット幅に基づいて入力データ、および構成されて該畳み込み層に対応する重みデータを読み取ることで、特徴マップを得てから、特徴マップをフロントエンドメモリに記憶し、次の畳み込み層の読み取りに備え、現在の畳み込み層の畳み込み計算を完了した後に次の畳み込み層がなくなるようになるまで、このとき、現在の得られた特徴マップを畳み込みニューラルネットワークが得た検索対象の顔情報として出力する。
本開示の顔画像検索方法の上記各実施例の一例では、構成情報の読み取りを反復しかつ畳み込み計算を実行するプロセスで、特徴マップを得てから、特徴マップをフロントエンドメモリに書き込む。
各畳み込み層に対応する特徴マップをフロントエンドメモリに記憶し、それによって次の畳み込み層は検索対象の画像を読み取る時、フロントエンドメモリからそれを直接取得でき、データの取得およびデータビット幅の設定を容易にする。
本開示の顔画像検索方法の上記各実施例の一例では、畳み込み計算構成情報はさらにオフセットアドレスを含み、
畳み込みニューラルネットワークの畳み込み計算構成情報を構成するステップはさらに、
入力データの記憶アドレスおよびオフセットアドレスに基づいて次の畳み込み層に対応する入力データの記憶アドレスを構成することを含み、ここで、入力データは現在の畳み込み層が受け取った検索対象の画像データであり、
特徴マップをフロントエンドメモリに書き込むステップは、特徴マップをフロントエンドメモリにおける次の畳み込み層に対応する入力データの記憶アドレスに書き込むことを含む。
入力データの記憶アドレスとオフセットアドレスを重畳することで、次の畳み込み層に対応する入力データの記憶アドレスを得ることができ、畳み込みニューラルネットワークにおいて、前の畳み込み層の出力データは次の畳み込み層の入力データであるため、前の畳み込み層の出力データを次の畳み込み層の入力データとして処理しかつ決定された次の畳み込み層に対応する入力データの記憶アドレスに記憶すると、次の畳み込み層は畳み込み計算を開始する時、対応する記憶アドレスにおいて読み取ればよい。
図2は本開示の顔画像検索方法の別の実施例のフローチャートである。図2に示すように、該実施例の方法は以下のステップを含む。
ステップ201、ビデオストリームを収集し、ビデオストリームに現れた各顔画像に基づいて、収集したビデオストリームからスクリーニングして少なくとも一つの画像を得る。
ここで、画像には認識可能な顔画像が含まれ、各顔画像は少なくとも一つの画像に対応し、ビデオストリームは設置された監視機器(例えば、カメラなど)によってリアルタイムに収集してもよいが、フロンドエンドの記憶空間が限られているため、フロンドエンドのデータベースにビデオストリームを記憶することができず、従って、本ステップはビデオストリームをフレーム単位の画像に分解し、ビデオストリームに基づいて得られた画像に無区別の画像、無意味の画像(顔がない画像)およびブレが大量存在するという現象について、ビデオストリームから得られた全ての画像をスクリーニングし、含まれる認識可能な顔画像を得て、かつ、ビデオに現れた顔が抜けておらず、後続の認識でより正確に探し出すことができるように、顔画像毎に少なくとも一つの画像を収集する。
ステップ202、少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得る。
ここで、少なくとも一つの第一画像は顔画像の品質が設定閾値に達した画像であり、前のステップで得られた画像における顔を容易に認識できるように、専用画像信号処理(ISP、Image Signal Processing)チップを用いて元画像を最適化し、ここの最適化処理は自動露光、自動ホワイトバランス、3Dノイズ除去などの動作を含んでもよく、同時に、ユーザのニーズに応じて局所露光、関心領域抽出などの動作を選択してもよく、最適化処理を実行する目的は解像度が高く、ノイズが少なく、ダイナミックレンジが広く、ひずみが少なくて収差が小さい第一画像を得て、それによって画像における顔の認識を容易にすることであり、ここの設定閾値は具体的な状況に応じて調整可能である。
ステップ203、少なくとも一つの第一画像に対応する少なくとも一つの予め設定された顔画像情報をデータベースに記憶する。
品質スクリーニングにより得られた少なくとも一つの第一画像に基づいて少なくとも一つの顔画像情報を得て、ここで、フロントエンドでリアルタイムの顔検索を実現するために、フロントエンドでデータベースを作成しかつ品質最適化後の少なくとも一つの第一画像および少なくとも一つの第一画像に対応する少なくとも一つの顔画像情報を該データベースに記憶する必要があり、顔画像情報は検索を容易にし、検索中の顔認識を必要としないためのものであり、かつ、フロントエンドの記憶空間が限られているため、データベースにおける画像および顔画像情報は定期的にまたはリアルタイムに更新され、それによってデータベース内の新たに収集した情報を記憶する十分な空間を確保する。
ステップ104、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得る。
ここで、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、畳み込み計算構成情報は畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、検索対象の画像には少なくとも一つの顔領域が含まれる。
ステップ105、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチする。
ここで、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。
ステップ106、検索対象の顔情報とマッチする予め設定された顔画像情報を出力する。
本実施例では、受け取った検索対象の画像をデータベースに記憶された第一画像とマッチする以外、またリアルタイムに検索することも可能であり、まず検索対象の画像を受け取りかつ検索対象の顔情報を得て、データベースにおいて対応する顔画像情報が存在しない場合、フロントエンドビデオストリーム収集装置によって、新たに収集したビデオストリームを処理して鮮明で認識可能な予め設定された顔画像情報を得ることもでき、即ちステップ104、ステップ201、ステップ202、ステップ203、ステップ105およびステップ106の順に実行することができ、この順に従って実行する場合には検索した画像および予め設定された顔画像情報のみをデータベースに記憶してもよく、収集やスクリーニングにより得られた全ての画像および予め設定された顔画像情報をデータベースに記憶してもよく、かつ、後期のサーバおよびクラウド側と関連付けた検索のために、データベースに記憶された画像および情報をサーバにアップロードする必要があり、サーバはフロントエンドが提供する複数の画像および情報を受信すると、検索時により多くの情報を得ることができる。
本開示の顔画像検索方法の上記各実施例の一例では、少なくとも一つの第一画像はさらに、少なくとも一つの第一画像内の顔画像が現れた位置を識別するための背景画像を含む。
少なくとも一つの第一画像に基づいて少なくとも一つの顔画像情報を得ると共に、少なくとも一つの第一画像に基づいて少なくとも一つの顔画像情報以外の他の情報を得ることができ、これらの他の情報が背景情報を形成すると、ここの背景情報は該第一画像内の顔画像が現れた位置を提供できるようになり、さらに対象者の運動軌跡などの情報を得ることができ、背景画像を有する第一画像は顔画像に対応する対象者が現れた場合の認識を補助するという役割を果たす。
本開示の顔画像検索方法の上記各実施例の一例では、少なくとも一つの第一画像に対応する少なくとも一つの予め設定された顔画像情報をデータベースに記憶するステップの前に、さらに、
少なくとも一つの第一画像に対して、畳み込みニューラルネットワーク処理によって、対応する少なくとも一つの予め設定された顔画像情報を得ることを含む。
少なくとも一つの予め設定された顔画像情報の取得および処理対象の画像に基づく処理対象の画像情報の取得は同じ畳み込みニューラルネットワークの計算によって実現し、本実施例における畳み込みニューラルネットワークはFPGA論理部分によって実現する。
少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、少なくとも一種類の属性情報に基づいて少なくとも一つの予め設定された顔画像情報を分類記憶し、各予め設定された顔画像情報は少なくとも一種類の属性情報を含む。
本実施例が関する属性情報は、性別、年齢、表情、人種、眼鏡着用有無およびマスク着用有無などを含んでもよく、これらの属性に基づいて分類することは、性別に基づく男/女の分類、年齢に基づく少年/青年/中年/老年の分類、表情に基づく愉快/悲傷/憤怒/平静などの分類、人種に基づく黄色人種/黒色人種/白色人種/褐色人種の分類、眼鏡着用有無の分類、マスク着用有無の分類を含み、上記全ての属性に基づいて画像を分類すれば、それぞれの属性に基づいて一つのタグを得ることができ、この場合、各画像は複数のタグに対応し、例えば一つの画像に中年の黄色人種女性が、眼鏡をかけており、マスクをかけておらず、かつ平静な表情をしているという情報が含まれると、この場合、該顔画像に対応する属性タグは、女性、中年、平静、黄色人種、眼鏡着用有およびマスク着用無を含むようになり、分類プロセスで、同じタグを有する第一画像および顔画像情報を同じ位置に記憶してもよい。
本開示の顔画像検索方法の上記各実施例の一例では、少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、少なくとも一種類の属性情報に基づいて少なくとも一つの予め設定された顔画像情報を分類記憶するステップは、
入力された画像の品質が設定閾値を超えた少なくとも一つの第一画像および少なくとも一つの第一画像に対応する少なくとも一つの関連情報を受け取ることと、
少なくとも一つの関連情報に基づいて少なくとも一つの第一画像の対応する少なくとも一種類の属性情報を作成し、少なくとも一種類の属性情報に基づいて少なくとも一つの第一画像に対応する少なくとも一つの予め設定された顔画像情報をデータベースに記憶することと、を含む。
本実施例は実質的に登録のプロセスを提供し、登録プロセスで、一枚の第一画像および該第一画像を認識するための対応する関連情報を入力し、通常、ここの関連情報とは、ユーザの姓名情報などをいい、該画像を認識して対応する顔画像情報を得て、予め設定された顔画像情報および入力された第一画像をデータベースに記憶すると、後期で画像を検索する時、検索できれば、該第一画像は該顔画像に対応する関連情報を直接得ることができる。
本開示の顔画像検索方法の上記各実施例の一例では、属性情報に基づいて第一画像の予め設定された顔画像情報をデータベースに記憶するステップは、
少なくとも一つの予め設定された顔画像情報のうちの同じ属性情報を有する全ての予め設定された顔画像情報を一つのデータレコードに記憶し、データベースにおいて属性情報に基づいてデータレコードのインデックスを作成することを含む。
該実施例の方法はさらに、
各画像を収集する収集時間値を取得し、データレコードを収集時間値に基づいて、データベースに順に記憶することを含む。
検索して対応する予め設定された顔画像情報を得るように、データベースにおいて全ての予め設定された顔画像情報を区別して記憶し、属性情報が全て同じである予め設定された顔画像情報を一つのデータレコードに記憶し、画像をスクリーニングする時、該画像がビデオストリームにおいて得られた収集時間値を得て、時間値を得てから、データレコードに更新して記憶された予め設定された顔画像情報に対応する収集時間値に基づいてソートするようにデータレコードを記憶してもよく、ソーティングにより検索プロセスで条件に適合する最新の画像を先に得ることができ、収集時間値に基づいてある対象者が現在のシーンに現れた回数および時間を提供し、同じシーンに数回現れた同じ対象者の画像の混同を回避し、警察官が犯罪者の罪証を探すのに、補助的役割を果たす。
本開示の顔画像検索方法の上記各実施例の一例では、第一画像に対応する予め設定された顔画像情報をデータベースに記憶するステップは、
第一画像に対応する属性情報に基づいてデータベースから対応するデータレコードが存在するかどうかをサーチすることと、
データベースに属性情報に対応するデータレコードが存在する場合、予め設定された顔画像情報を対応するデータレコードに記憶することと、
データベースに属性情報に対応するデータレコードが存在しない場合、属性情報の新たなデータレコードを新規作成し、予め設定された顔画像情報を該新たなデータレコードに記憶することと、を含む。
本実施例は一つの第一画像を対象として記憶する例を提供し、記憶する前に、得られた属性情報に基づいてデータベースにおいてデータレコードをサーチし、既存のデータレコードが存在する場合、対応するデータレコードに記憶し、既存のデータレコードが存在しない場合、新たなデータレコードを作成してそこに記憶し、それによって各データレコードに記憶される予め設定された顔画像情報の属性情報がそれぞれ同じであるように保証する。
本開示の顔画像検索方法のさらに別の実施例では、上記各実施例をもとに、収集したビデオストリームにおいてビデオストリームに現れた各顔画像に基づいてスクリーニングして少なくとも一つの画像を得るステップは、
収集したビデオストリームを少なくとも一枚の分解画像に分解し、少なくとも一枚の分解画像を最適化し、最適化された画像表示効果の中間画像を得ることと、
全ての中間画像を畳み込みニューラルネットワークによって顔認識を行い、顔認識の結果に基づいてスクリーニングして顔画像を有する少なくとも一つの画像を得ることと、を含む。
収集したビデオストリームは様々な方式で分解でき、本実施例はそれを限定せず、得られた分解画像の表示効果を最適化し、表示効果が高い中間画像を得て、さらに畳み込みニューラルネットワークに基づいて中間画像について顔認識を行い、顔画像を有する画像を得て、スクリーニングによって顔画像を有さない他の無用の画像を削除し、後期の顔認識に十分に有用な画像を提供する。
本開示の顔画像検索方法の上記各実施例の一例では、さらに、畳み込みニューラルネットワークによって顔認識を行って予め設定された顔認識情報を得て、予め設定された顔認識情報に基づいて少なくとも一つの画像における顔画像の品質を評価することを含む。
本実施例では顔品質評価アルゴリズムによって顔認識情報を得て、顔認識情報は顔のヨー角、ピッチ角および/または顔の大きさを含んでもよく、即ち顔のヨー角、ピッチ角および顔の大きさを組み合わせて顔画像の品質を総合的に評価し、スナップ撮影された顔をスコアリングし、得られたスコアを予め設定されたスコア値と比較し、スコアが予め設定されたスコア値よりも低い第一画像を削除し、スコアが予め設定されたスコア値よりも高い第一画像のみを残し、品質スクリーニングによりデータベースに記憶される画像はいずれも認識度が高い顔画像であることを保証し、無用情報の占有率を低下させ、伝送効率を向上させることができ、また画像を顔画像の品質に基づいてソートしてもよく、それによって同一対象者の複数の鮮明な画像が数回アップロードされることを回避すると共に、比較的鮮明でない顔画像の伝送漏れを回避する。
本開示の顔画像検索方法の上記各実施例の一例では、少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得るステップは、
少なくとも一つの画像に対応する予め設定された顔認識情報に基づいて少なくとも一つの画像における顔画像の品質に対してスクリーニングを行い、顔画像品質が予め設定された閾値に達した画像を第一画像として記憶することを含む。
顔画像の品質に基づいて少なくとも一つの画像をスクリーニングし、顔画像品質が予め設定された閾値に達した画像のみを残し、顔画像品質が予め設定された閾値に達していない他の画像を破棄し、それによって全ての得られた第一画像における顔画像が検索プロセスで迅速に顔マッチングをできるように保証する。
本開示の顔画像検索方法の上記各実施例の一例では、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチするステップは、
検索対象の顔情報に基づいて検索対象の画像に対応する属性情報を得て、属性情報に基づいてデータベースから、合致するデータレコードがあるかどうかをサーチすることと、
属性情報に合致するデータレコードが存在する場合、合致するデータレコードから前記マッチする予め設定された顔画像情報を得ることと、
属性情報に合致するデータレコードが存在しない場合、マッチング結果がないという情報をフィードバックすることと、を含む。
上記実施例ではデータレコードが設定されたため、本実施例ではまず属性情報に合致するデータレコードを検索し、さらに合致するデータレコードにおいて画像付きの予め設定された顔画像情報をサーチし、このような検索方式で、検索効率を効果的に向上させ、予め設定された顔画像情報の直接マッチングによる大量の無意味の作業を回避することができる。
本開示の顔画像検索方法の上記各実施例の一例では、少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得るステップは、
少なくとも一つの画像に対して、自動露光、自動ホワイトバランスおよび3Dノイズ除去処理を行い、表示効果が最適化された少なくとも一つの第一画像を得ることを含む。
本実施例では、収集した画像を画像信号処理(ISP、Image Signal Processing)モジュールに入力すると、ISP画像信号処理モジュールは自動露光、自動ホワイトバランスおよび3Dノイズ除去を自動的に実現し、またユーザのニーズに応じて局所露光および/または関心領域抽出などの動作を選択して追加してもよく、最適化処理を実行する目的は解像度が高く、ノイズが少なく、ダイナミックレンジが広く、ひずみが少なくて収差が小さい第一画像を得て、それによって画像における顔の認識を容易にすることである。
本実施例では直流電力供給またはパワーオーバーイーサネット(登録商標)(POE、Power Over Ethernet(登録商標))802.3afによるイーサネット(登録商標)電力供給を提供し、そのうち、直流電力供給はイーサネット(登録商標)電力供給に優先する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに指示を出して完了させることができ、前記プログラムはコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行時、上記方法の実施例のステップを実行するということが理解でき、前記記憶媒体は、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスクまたは光ディスクなどプログラムコードを記憶可能な媒体を含む。
例示的に、顔画像検索方法の流れは以下のとおりである。
1、撮影装置はビデオストリームを収集し、ビデオストリームから顔画像が表示されている少なくとも一つの画像をスクリーニングして選出し、2、撮影装置は少なくとも一つの画像から顔画像の品質が設定閾値に達した少なくとも一つの第一画像を特定し、3、撮影装置は少なくとも一つの第一画像に対して、畳み込みニューラルネットワーク処理によって、対応する少なくとも一つの予め設定された顔画像情報を得て、4、撮影装置は少なくとも一つの第一画像の少なくとも一つの関連情報を取得し、5、撮影装置は少なくとも一つの関連情報に基づいて少なくとも一つの第一画像の対応する少なくとも一種類の属性情報を作成し、6、撮影装置は属性情報が同じである予め設定された顔画像情報をデータベースにおける一つのデータレコードに記憶し、それによって少なくとも一種類の属性情報に基づいて少なくとも一つの予め設定された顔画像情報をデータベースに予備記憶し、7、撮影装置はフロントエンドメモリから検索対象の画像を読み取った時、撮影装置は現在の畳み込み層によって検索対象の画像に対して畳み込み計算を行い、特徴マップを得て、8、次の畳み込み層が特徴マップに対する畳み込み計算を行うように、撮影装置は特徴マップを、次の畳み込み層の検索対象の画像としてフロントエンドメモリに記憶し、9、このように反復し、次の畳み込み層が存在しなくなるまで、撮影装置は最終的に出力された特徴マップを検索対象の顔情報として決定し、10、撮影装置は検索対象の顔情報をデータベースにおける少なくとも一つの予め設定された顔画像とマッチし、11、撮影装置は検索対象の顔情報とマッチする予め設定された顔画像を出力し、顔画像検索のプロセスを完了する。
図3は本開示の撮影装置の一実施例の構成模式図である。該実施例の装置は本開示の上記各方法の実施例を実現するように構成してもよい。図3に示すように、該実施例の装置は、
畳み込みニューラルネットワークの対応する畳み込み計算構成情報を構成するように構成されるプロセッサ34と、
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得るように構成される畳み込み計算部35と、
検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力するように構成される検索部36と、を含み、
ここで、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、畳み込み計算構成情報は畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、検索対象の画像には少なくとも一つの顔領域が含まれ、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。
本開示の上記実施例が提供する顔画像検索装置、および本開示の上記実施例が提供する顔画像検索方法に基づき、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得て、ここで、畳み込みニューラルネットワークはプロセッサによって対応する畳み込み計算構成情報を構成し、該畳み込みニューラルネットワークに畳み込み計算構成情報が設定されたため、畳み込みニューラルネットワークにおける各畳み込み層に入力された画像のビット幅はいずれも畳み込み層に対応し、それにより畳み込みニューラルネットワークに基づく顔認識の計算量を低減し、畳み込み層の処理効率を向上させ、かつ入力された検索対象の画像は検索対象の顔情報を迅速かつ正確に得ることができるため、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高め、そして検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力し、ここで、撮影装置に設定されたデータベースにおいてマッチする予め設定された顔画像情報を検索することで、リアルタイムの顔検索という効果を実現し、顔画像検索の効率を向上させる。
本開示の撮影装置の別の実施例では、上記実施例をもとに、畳み込み計算部35は、
畳み込み計算構成情報に従ってフロントエンドメモリから、ビット幅が前記データビット幅値に等しい検索対象の画像を読み取るように構成される設定可能な読み取りコントローラー、および
畳み込みニューラルネットワークによって検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得るように構成される画像処理部を含む。
本実施例では、所定ビット幅の検索対象の画像を読み取ることで、畳み込み層に入力されたデータのビット幅を該畳み込み層が要求するビット幅に一致させ、畳み込み層に入力されたデータの動的構成を実現し、各畳み込み層は入力されるデータを処理せずに計算でき、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高める。
本開示の撮影装置の上記各実施例の一例では、畳み込み計算構成情報はさらに畳み込みニューラルネットワークにおける各畳み込み層に対応する畳み込みカーネルの大きさ、または前記検索対象の画像の記憶アドレスを含み、ここで、検索対象の画像の記憶アドレスは当該記憶アドレスに基づいてフロントエンドメモリにおいて検索対象の画像を読み取るために用いられる。
本開示の撮影装置の上記各実施例の一例では、画像処理部は、
畳み込みニューラルネットワークにおける各畳み込み層のうちの一つである現在の畳み込み層によって、検索対象の画像に対して畳み込み計算を行い、特徴マップを得るように構成される層計算部と、
次の畳み込み層が存在することに応答し、次の畳み込み層を現在の畳み込み層とし、特徴マップを検索対象の画像とし、次の畳み込み層が存在しなくなるまで、畳み込みニューラルネットワークにおける現在の畳み込み層のために構成される畳み込み計算構成情報に基づいて、フロントエンドメモリから検索対象の画像を読み取り、現在の畳み込み層によって検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることを反復するように構成される反復部と、を含む。
本開示の撮影装置の上記各実施例の一例では、前記装置はさらに、
特徴マップをフロントエンドメモリに書き込むように構成される設定可能な書き戻しコントローラーを含む。
本開示の撮影装置の上記各実施例の一例では、畳み込み計算構成情報はさらにオフセットアドレスを含み、
前記プロセッサは、現在の畳み込み層に対応する入力データの記憶アドレスおよびオフセットアドレスに基づいて次の畳み込み層に対応する入力データの記憶アドレスを構成するように構成され、
前記設定可能な書き戻しコントローラーは、特徴マップをフロントエンドメモリにおける次の畳み込み層に対応する入力データの記憶アドレスに書き込むように構成される。
図4は本開示の撮影装置の別の実施例の構成模式図である。図4に示すように、本実施例の装置は、収集スクリーニング部、品質スクリーニング部および記憶部を含む。
前記収集スクリーニング部41は、ビデオストリームを収集し、収集したビデオストリームにおいてビデオストリームに現れた各顔画像に基づいてスクリーニングして少なくとも一つの画像を得るように構成される。
ここで、画像にはそれぞれが少なくとも一つの画像に対応する顔画像が含まれる。
前記品質スクリーニング部42は、少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得るように構成され、少なくとも一つの第一画像は顔画像の品質が設定閾値に達した画像であり、少なくとも一つの第一画像の各々は一つの顔画像を含む。
前記記憶部43は、少なくとも一つの第一画像に対応する少なくとも一つの予め設定された顔画像情報をデータベースに記憶するように構成される。
前記プロセッサ34は、畳み込みニューラルネットワークの対応する畳み込み計算構成情報を構成するように構成される。
ここで、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、畳み込み計算構成情報は畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含む。
前記畳み込み計算部35は、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得るように構成される。
ここで、検索対象の画像には少なくとも一つの顔領域が含まれる。
検索部36は、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力するように構成され、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。
本実施例では、受け取った検索対象の画像をデータベースに記憶された第一画像とマッチする以外、またリアルタイムに検索し、まず検索対象の画像を受け取りかつ検索対象の顔情報を得て、データベースにおいて対応する顔画像情報が存在しない場合、フロントエンドビデオストリーム収集装置によって、新たに収集したビデオストリームを処理して鮮明で認識可能な予め設定された顔画像情報を得ることもできる。
本開示の撮影装置の上記各実施例の一例では、収集したビデオストリームにおいてスクリーニングして得られた画像はさらに、画像内の顔画像が現れた位置を識別するための背景画像を含む。
本開示の撮影装置の上記各実施例の一例では、畳み込み計算部35は、少なくとも一つの第一画像に対して、畳み込みニューラルネットワーク処理によって、対応する少なくとも一つの予め設定された顔画像情報を得て、少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、少なくとも一種類の属性情報に基づいて少なくとも一つの予め設定された顔画像情報を分類記憶するように構成され、各予め設定された顔画像情報は少なくとも一種類の属性情報を含む。
本開示の撮影装置の上記各実施例の一例では、さらに、
入力された画像の品質が設定閾値を超えた第一画像および第一画像に対応する関連情報を受け取るように構成される情報受け取り部と、
少なくとも一つの関連情報に基づいて少なくとも一つの第一画像の対応する少なくとも一種類の属性情報を作成し、少なくとも一種類の属性情報に基づいて少なくとも一つの第一画像に対応する少なくとも一つの予め設定された顔画像情報をデータベースに記憶するように構成される分類部と、を含む。
本開示の撮影装置の上記各実施例の一例では、分類部は、少なくとも一つの予め設定された顔画像情報のうちの同じ属性情報を有する全ての予め設定された顔画像情報を一つのデータレコードに記憶し、データベースにおいて属性情報に基づいてデータレコードのインデックスを作成するように構成され、
本実施例の撮影装置はさらに、
各画像を収集する収集時間値を取得し、データレコードを収集時間値に基づいて、データベースに順に記憶するように構成される時間順序付け部を含む。
本開示の撮影装置の上記各実施例の一例では、記憶部43は、
第一画像に対応する属性情報に基づいてデータベースから対応するデータレコードが存在するかどうかをサーチするように構成されるサーチ部と、
データベースに属性情報に対応するデータレコードが存在する場合、予め設定された顔画像情報を対応するデータレコードに記憶し、データベースに属性情報に対応するデータレコードが存在しない場合、属性情報の新たなデータレコードを新規作成し、予め設定された顔画像情報を新たなデータレコードに記憶するように構成される属性記憶部と、を含む。
本開示の撮影装置の更に別の実施例では、上記各実施例をもとに、収集スクリーニング部41は、
収集したビデオストリームを少なくとも一枚の分解画像に分解し、少なくとも一枚の分解画像を最適化し、最適化された画像表示効果の中間画像を得るように構成される分解部と、
全ての中間画像を畳み込みニューラルネットワークによって顔認識を行い、顔認識の結果に基づいてスクリーニングして顔画像を有する少なくとも一つの画像を得るように構成される認識スクリーニング部と、を含む。
収集したビデオストリームは様々な方式で分解でき、本実施例はそれを限定せず、得られた分解画像の表示効果を最適化し、表示効果が高い中間画像を得て、さらに畳み込みニューラルネットワークによって中間画像について顔認識を行い、顔画像を有する画像を得て、スクリーニングによって顔画像を有さない他の無用の画像を削除し、後期の顔認識に十分に有用な画像を提供する。
本開示の撮影装置の上記各実施例の一例では、収集スクリーニング部41はさらに、
畳み込みニューラルネットワークによって顔認識を行って予め設定された顔認識情報を得て、予め設定された顔認識情報に基づいて少なくとも一つの画像における顔画像の品質を評価するように構成される評価サブ部を含む。
本開示の撮影装置の上記各実施例の一例では、品質スクリーニング部42は、少なくとも一つの画像に対応する予め設定された顔認識情報に基づいて少なくとも一つの画像における顔画像の品質に対してスクリーニングを行い、顔画像品質が予め設定された閾値に達した画像を少なくとも一つの第一画像として記憶するように構成される。
本開示の撮影装置の上記各実施例の一例では、検索部36は、
検索対象の顔情報に基づいて検索対象の画像に対応する属性情報を得て、属性情報に基づいてデータベースから、合致するデータレコードがあるかどうかをサーチするように構成される属性サーチサブ部と、
属性情報に合致するデータレコードが存在する場合、合致するデータレコードにおいてマッチする予め設定された顔画像情報を得て、属性情報に合致するデータレコードが存在しない場合、マッチング結果がないという情報をフィードバックするように構成されるデータマッチングサブ部と、を含む。
本開示の撮影装置の上記各実施例の一例では、品質スクリーニング部42は、少なくとも一つの画像に対して、自動露光、自動ホワイトバランスおよび3Dノイズ除去処理を行い、表示効果が最適化された少なくとも一つの第一画像を得るように構成される。
本開示の撮影装置のさらに別の実施例では、上記各実施例をもとに、データベースは、少なくとも一つの予め設定された顔画像情報を含むブラックリストサブデータベース、および、少なくとも一つの予め設定された顔画像情報を含むホワイトリストサブデータベースを含み、
本実施例の撮影装置はさらに、
マッチする予め設定された顔画像情報がブラックリストサブデータベースに属する場合、警告情報をフィードバックし、マッチする予め設定された顔画像情報がホワイトリストサブデータベースに属する場合、正常情報をフィードバックするように構成されるフィードバック部を含む。
具体的に実施する時、本実施例の撮影装置は電子警察の役割を果たし、警察官が犯罪者を探すのを助けることができる。犯罪者の顔情報をネットワークにわたってフロントエンドスナップ撮影装置(撮影装置)に配置すると、撮影装置が24時間監視し、検索やマッチングによりブラックリストデータベース内の予め設定された顔画像情報を得たら、フィードバック部が警告情報をフィードバックし、警察側への即座の通報を実現し、手動監視の欠点を克服し、リアルタイムに監視しおよび適時に通報することができる。
図5は本開示の撮影装置の上記各実施例の一例の構成模式図である。図5に示すように、本実施例の装置は、
ビデオストリームを収集し、収集したビデオストリームにおいてビデオストリームに現れた各顔画像に基づいてスクリーニングして少なくとも一つの画像を得るように構成される画像収集モジュール(本開示の収集スクリーニング部41に相当)と、
全ての画像に対して品質スクリーニングを行い、少なくとも一つの顔画像品質が設定閾値に達した第一画像を得るように構成されるISP処理モジュール(本開示の品質スクリーニング部42に相当)と、
第一画像に対応する予め設定された顔画像情報を記憶するように構成される記憶モジュール(本開示のデータベースに相当)と、
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることを実現するハードウェア監視モジュール(本開示の畳み込み計算部35に相当)、および、畳み込みニューラルネットワークの対応する畳み込み計算構成情報を構成するための中央処理モジュール(本開示のプロセッサ34に相当)を含むFPGA SoCモジュールと、
得られたマッチする予め設定された顔画像情報を送信し、同時に該予め設定された顔画像情報がホワイトリストまたはブラックリストに属するかに応じて対応する情報を予め設定されたクライアントに送信することができる通信モジュール(本開示のフィードバック部に相当)と、を含み、
本実施例ではFPGA SoCモジュールによってハードウェア監視モジュールおよび中央処理モジュールを一つの単結晶シリコンウェハに統合し、両者間の通信を帯域幅による制限から解放し、かつ一つのモジュールで構成および畳み込み演算を実現し、リアルタイムの顔認識を実現している。
本実施例はさらに、撮影装置の独立運転を実現するために提供され、上記全てのモジュールへ電力を供給する電力供給システムモジュールを含む。
例示的に、図6に示すように、顔画像検索方法の流れは以下のとおりである。
1、顔スナップ撮影システムは、画像収集モジュールによって収集した画像データをバックエンドのISP処理ユニットに伝送し、2、ISP処理ユニットは収集した画像データの自動露光、自動ホワイトバランス、3Dノイズ除去、局所露光、関心領域抽出などのプロセスを行い、3、顔画像検索システムはISP処理ユニットにより処理された画像データをFPGA SoCシステムモジュールに伝送し、4、FPGA SoCシステムモジュールのハードウェア検出モジュールは畳み込みニューラルネットワークの計算を行い、顔検出の動作を完了し、5、FPGA SoCシステムモジュールの中央処理モジュールは検出した顔の品質スクリーニングおよびソーティングの動作を行い、同時に中央処理モジュールは検出後の結果の管理、検索などの動作を行い、6、FPGA SoCシステムモジュールの中央処理モジュールは検出した顔情報に基づき、記憶モジュールからマッチする予め設定された顔画像情報をサーチし、記憶モジュールがシステム起動ファイルおよびローカル顔ライブラリファイルを記憶することでネットワーク停止の状況でのオフライン登録、認識および記憶機能を実現するために用いられ、7、通信モジュールは予め設定された顔画像情報をバックエンドに伝送し、同時にバックエンドが送信した命令を受け取り、中央処理モジュールによって応答動作を完了させる。
本実施例の別の一態様によれば、本開示の撮影装置の上記いずれか一つの実施例が設置された電子機器が提供される。
本実施例の別の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令は実行される時に本開示の顔画像検索方法の上記いずか一つの実施例の動作を実行するコンピュータ記憶媒体が提供される。
本実施例はさらに電子機器を提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図7を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器600の構成模式図が示される。図7に示すように、コンピュータシステム600は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)601、および/または一つ以上の画像処理装置(GPU)613などであり、プロセッサは読み取り専用メモリ(ROM)602に記憶されている実行可能命令または記憶部608からランダムアクセスメモリ(RAM)603にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部612はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリ602および/またはランダムアクセスメモリ630と通信して実行可能命令を実行し、バス604を介して通信部612と接続し、通信部612によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることと、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチすることと、検索対象の顔情報とマッチする予め設定された顔画像情報を出力することと、を完了することができ、そのうち、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、畳み込み計算構成情報は畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、検索対象の画像には少なくとも一つの顔領域が含まれ、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。
また、RAM603には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU601、ROM602およびRAM603はバス604を介して互いに接続される。RAM603が存在する場合、ROM602は任意選択的なモジュールとなる。RAM603は実行可能命令を記憶するか、または動作時にROM602へ実行可能命令を書き込み、実行可能命令によって中央処理装置601は上記通信方法に対応する動作を実行する。入力/出力(I/O、Input/Output)インタフェース605もバス604に接続される。通信部612は統合設置してもよく、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部分606、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部分607、ハードディスクなどを含む記憶部608、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分609といった部品は、I/Oインタフェース605に接続される。通信部分609はインターネットのようなネットワークによって通信処理を実行する。ドライバ610も必要に応じてI/Oインタフェース605に接続される。取り外し可能な媒体611、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ610に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
説明すべきは、図7に示すアーキテクチャは任意選択的な一実施形態に過ぎず、実践では、実際の必要に応じて上記図7の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、通信部は分離設置してもよく、CPUまたはGPUに統合してもよいなどである。これらの置換可能な実施形態はいずれも本開示の保護範囲に属するものとする。
特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることと、検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチすることと、検索対象の顔情報とマッチする予め設定された顔画像情報を出力することと、を含むことができ、そのうち、畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、畳み込み計算構成情報は畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、検索対象の画像には少なくとも一つの顔領域が含まれ、データベースには少なくとも一つの予め設定された顔画像情報が記憶されている。このような実施例では、該コンピュータプログラムは通信部分609によってネットワークからダウンロードおよびインストールでき、および/または取り外し可能な媒体611からインストールできる。該コンピュータプログラムは中央処理装置(CPU)601に実行される時、本願の方法に特定された上記機能を実行する。
本開示の方法および装置、ならびに機器は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本開示の方法および装置、ならびに機器を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本開示の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本実施例を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本開示に係る方法を実現するための機械可読命令を含む。従って、本開示は本開示に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。
本開示の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本開示を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得て、ここで、畳み込みニューラルネットワークはプロセッサによって対応する畳み込み計算構成情報を構成し、該畳み込みニューラルネットワークに畳み込み計算構成情報が設定されたため、畳み込みニューラルネットワークにおける各畳み込み層に入力された画像のビット幅はいずれも畳み込み層に対応し、それにより畳み込みニューラルネットワークに基づく顔認識の計算量を低減し、畳み込み層の処理効率を向上させ、かつ入力された検索対象の画像は検索対象の顔情報を迅速かつ正確に得ることができるため、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高め、そして検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力し、ここで、撮影装置に設定されたデータベースにおいてマッチする予め設定された顔画像情報を検索することで、リアルタイムの顔検索という効果を実現し、顔画像検索の効率を向上させる。
本開示の上記実施例が提供する顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体に基づき、畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得て、ここで、畳み込みニューラルネットワークはプロセッサによって対応する畳み込み計算構成情報を構成し、該畳み込みニューラルネットワークに畳み込み計算構成情報が設定されたため、畳み込みニューラルネットワークにおける各畳み込み層に入力された画像のビット幅はいずれも畳み込み層に対応し、それにより畳み込みニューラルネットワークに基づく顔認識の計算量を低減し、畳み込み層の処理効率を向上させ、かつ入力された検索対象の画像は検索対象の顔情報を迅速かつ正確に得ることができるため、固定小数点演算での計算精度が低く計算結果の正確度に影響を及ぼすという問題を解決し、畳み込みニューラルネットワークの演算精度を高め、そして検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、検索対象の顔情報とマッチする予め設定された顔画像情報を出力し、ここで、撮影装置に設定されたデータベースにおいてマッチする予め設定された顔画像情報を検索することで、リアルタイムの顔検索という効果を実現し、顔画像検索の効率を向上させる。
例えば、本願は以下の項目を提供する。
(項目1)
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることであって、前記畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、前記畳み込み計算構成情報は、前記畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、前記検索対象の画像には少なくとも一つの顔領域が含まれる、ことと、
前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチすることであって、前記データベースには少なくとも一つの予め設定された顔画像情報が記憶されている、ことと、
前記検索対象の顔情報とマッチする予め設定された顔画像情報を出力することと、を含む、
撮影装置に適用する顔画像検索方法。
(項目2)
畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得る前記ステップは、
前記畳み込み計算構成情報に従ってフロントエンドメモリから、前記検索対象の画像を読み取ることであって、前記検索対象の画像のビット幅が前記データビット幅値に等しい、ことと、
前記畳み込みニューラルネットワークによって前記検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得ることと、を含む、項目1に記載の方法。
(項目3)
前記畳み込み計算構成情報はさらに、前記畳み込みニューラルネットワークにおける各畳み込み層に対応する畳み込みカーネルの大きさ、または前記検索対象の画像の記憶アドレスを含み、ここで、前記検索対象の画像の記憶アドレスは、当該記憶アドレスによって前記フロントエンドメモリから前記検索対象の画像を読み取るために用いられる、項目1または2に記載の方法。
(項目4)
前記畳み込みニューラルネットワークによって前記検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得る前記ステップは、
前記畳み込みニューラルネットワークにおける各畳み込み層のうちの一つである現在の畳み込み層によって、前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることと、
次の畳み込み層が存在することに応答し、前記次の畳み込み層を現在の畳み込み層とし、前記特徴マップを検索対象の画像とし、次の畳み込み層が存在しなくなるまで、前記畳み込みニューラルネットワークにおける現在の畳み込み層のために構成される前記畳み込み計算構成情報に基づいて、前記フロントエンドメモリから検索対象の画像を読み取り、現在の畳み込み層によって前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることを反復することと、
前記特徴マップを出力して前記検索対象の顔情報を得ることと、を含む、項目3に記載の方法。
(項目5)
前記特徴マップを得るステップの後に、さらに、
前記特徴マップを前記フロントエンドメモリに書き込むことを含む、項目4に記載の方法。
(項目6)
前記畳み込み計算構成情報はさらにオフセットアドレスを含み、現在の畳み込み層によって前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得る前記ステップの後に、さらに、
入力データの記憶アドレスおよび前記オフセットアドレスに基づいて前記次の畳み込み層に対応する入力データの記憶アドレスを構成することを含み、ここで、前記入力データは前記現在の畳み込み層が受け取った検索対象の画像データであり、
それに応じて、前記特徴マップを前記フロントエンドメモリに書き込む前記ステップは、
前記特徴マップを、前記フロントエンドメモリにおける前記次の畳み込み層に対応する入力データの記憶アドレスに書き込むことを含む、項目5に記載の方法。
(項目7)
前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチする前記ステップの前に、さらに、
ビデオストリームを収集し、前記ビデオストリームに現れた各顔画像に基づいて、収集した前記ビデオストリームから少なくとも一つの画像をスクリーニングして得ることであって、前記画像に顔画像が含まれ、各前記顔画像がそれぞれ少なくとも一つの画像に対応する、ことと、
前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得ることであって、前記少なくとも一つの第一画像は顔画像品質が設定閾値に達した画像であり、前記少なくとも一つの第一画像の各々が一つの顔画像を含む、ことと、
前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶することと、を含む、
項目1に記載の方法。
(項目8)
前記少なくとも一つの第一画像はさらに、前記少なくとも一つの第一画像内の顔画像が現れた位置を識別するための背景画像を含む、項目7に記載の方法。
(項目9)
前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶する前記ステップの前に、さらに、
前記少なくとも一つの第一画像に対して、前記畳み込みニューラルネットワーク処理によって、対応する前記少なくとも一つの予め設定された顔画像情報を得ることと、
前記少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの予め設定された顔画像情報を分類記憶することと、を含み、
ここで、各前記予め設定された顔画像情報は少なくとも一種類の属性情報を含む、項目7または8に記載の方法。
(項目10)
前記少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの予め設定された顔画像情報を分類記憶する前記ステップは、
入力された画像の品質が設定閾値を超えた少なくとも一つの第一画像、および前記少なくとも一つの第一画像に対応する少なくとも一つの関連情報を受け取ることと、
前記少なくとも一つの関連情報に基づいて、前記少なくとも一つの第一画像が対応する前記少なくとも一種類の属性情報を作成し、前記少なくとも一種類の属性情報に基づいて、前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶することと、を含む、項目9に記載の方法。
(項目11)
前記少なくとも一種類の属性情報に基づいて、前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶するステップは、
前記少なくとも一つの予め設定された顔画像情報のうちの同じ属性情報を有する全ての予め設定された顔画像情報を一つのデータレコードに記憶し、前記データベースにおいて属性情報に基づいて前記データレコードのインデックスを作成することを含み、
さらに、
各画像を収集する収集時間値を取得し、前記データレコードを前記収集時間値に基づいて、前記データベースに順に記憶することを含む、項目10に記載の方法。
(項目12)
前記第一画像に対応する予め設定された顔画像情報をデータベースに記憶するステップは、
前記第一画像に対応する属性情報に基づいて、前記データベースから対応するデータレコードが存在するかどうかをサーチすることと、
前記データベースに前記属性情報に対応するデータレコードが存在する場合、前記予め設定された顔画像情報を前記対応するデータレコードに記憶することと、前記データベースに前記属性情報に対応するデータレコードが存在しない場合、前記属性情報の新たなデータレコードを新規作成し、前記予め設定された顔画像情報を前記新たなデータレコードに記憶することと、を含む、項目11に記載の方法。
(項目13)
前記ビデオストリームに現れた各顔画像に基づいて、収集した前記ビデオストリームから少なくとも一つの画像をスクリーニングして得る前記ステップは、
収集したビデオストリームを少なくとも一枚の分解画像に分解し、前記少なくとも一枚の分解画像を最適化し、最適化された画像表示効果の中間画像を得ることと、
全ての前記中間画像に対して前記畳み込みニューラルネットワークによって顔認識を行い、前記顔認識の結果に基づいて、顔画像を有する前記少なくとも一つの画像をスクリーニングして得ることと、を含む、項目7に記載の方法。
(項目14)
全ての前記中間画像に対して前記畳み込みニューラルネットワークによって顔を認識する前記ステップは、
前記畳み込みニューラルネットワークによって顔認識を行って予め設定された顔認識情報を得て、予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質を評価することを含む、項目13に記載の方法。
(項目15)
前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得る前記ステップは、
前記少なくとも一つの画像に対応する予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質に対してスクリーニングを行い、前記顔画像品質が予め設定された閾値に達した画像を、前記少なくとも一つの第一画像として記憶することを含む、項目14に記載の方法。
(項目16)
前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチする前記ステップは、
前記検索対象の顔情報に基づいて前記検索対象の画像に対応する属性情報を得て、前記属性情報に基づいて前記データベースから、合致するデータレコードがあるかどうかをサーチすることと、
前記属性情報に合致するデータレコードが存在する場合、前記合致するデータレコードから前記マッチする予め設定された顔画像情報を得ることと、
前記属性情報に合致するデータレコードが存在しない場合、マッチング結果がないという情報をフィードバックすることと、を含む、項目11に記載の方法。
(項目17)
前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得る前記ステップは、
前記少なくとも一つの画像に対して、自動露光、自動ホワイトバランスおよび3Dノイズ除去処理を行い、表示効果が最適化された前記少なくとも一つの第一画像を得ることを含む、項目7に記載の方法。
(項目18)
畳み込みニューラルネットワークの対応する畳み込み計算構成情報を構成するように構成されるプロセッサと、
前記畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得るように構成される畳み込み計算部であって、前記畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、前記畳み込み計算構成情報は、前記畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、前記検索対象の画像には少なくとも一つの顔領域が含まれる、畳み込み計算部と、
前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、前記検索対象の顔情報とマッチする予め設定された顔画像情報を出力するように構成される検索部であって、前記データベースには少なくとも一つの予め設定された顔画像情報が記憶されている、検索部と、を含む、
撮影装置。
(項目19)
畳み込み計算部は、
前記畳み込み計算構成情報に従ってフロントエンドメモリから、前記検索対象の画像を読み取るように構成される設定可能な読み取りコントローラーであって、前記検索対象の画像のビット幅が前記データビット幅値に等しい設定可能な読み取りコントローラー、および
前記畳み込みニューラルネットワークによって前記検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得るように構成される画像処理部を含む、項目18に記載の装置。
(項目20)
前記畳み込み計算構成情報はさらに前記畳み込みニューラルネットワークにおける各畳み込み層に対応する畳み込みカーネルの大きさ、または前記検索対象の画像の記憶アドレスを含み、ここで、前記検索対象の画像の記憶アドレスは、当該記憶アドレスによって前記フロントエンドメモリから前記検索対象の画像を読み取るために用いられる、項目18または19に記載の装置。
(項目21)
画像処理部は、
前記畳み込みニューラルネットワークにおける各畳み込み層のうちの一つである現在の畳み込み層によって、前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得るように構成される層計算部、および
次の畳み込み層が存在することに応答し、前記次の畳み込み層を現在の畳み込み層とし、前記特徴マップを検索対象の画像とし、次の畳み込み層が存在しなくなるまで、前記畳み込みニューラルネットワークにおける現在の畳み込み層のために構成される前記畳み込み計算構成情報に基づいて、前記フロントエンドメモリから検索対象の画像を読み取り、現在の畳み込み層によって前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることを反復するように構成される反復部を含む、項目20に記載の装置。
(項目22)
前記装置はさらに、
前記特徴マップを前記フロントエンドメモリに書き込むように構成される設定可能な書き戻しコントローラーを含む、項目21に記載の装置。
(項目23)
前記畳み込み計算構成情報はさらにオフセットアドレスを含み、
前記プロセッサは、前記現在の畳み込み層に対応する入力データの記憶アドレスおよび前記オフセットアドレスに基づいて前記次の畳み込み層に対応する入力データの記憶アドレスを構成するように構成され、
前記設定可能な書き戻しコントローラーは、前記特徴マップを、前記フロントエンドメモリにおける前記次の畳み込み層に対応する入力データの記憶アドレスに書き込むように構成される、項目22に記載の装置。
(項目24)
さらに、
ビデオストリームを収集し、前記ビデオストリームに現れた各顔画像に基づいて、収集した前記ビデオストリームから少なくとも一つの画像をスクリーニングして得るように構成される収集スクリーニング部であって、前記画像に顔画像が含まれ、各前記顔画像がそれぞれ少なくとも一つの画像に対応する、収集スクリーニング部と、
前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得るように構成される品質スクリーニング部であって、前記少なくとも一つの第一画像は顔画像品質が設定閾値に達した前記画像であり、前記少なくとも一つの第一画像の各々は一つの顔画像を含む、品質スクリーニング部と、
前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶するように構成される記憶部と、を含む、
項目23に記載の装置。
(項目25)
前記少なくとも一つの第一画像はさらに、前記少なくとも一つの第一画像内の顔画像が現れた位置を識別するための背景画像を含む、項目24に記載の装置。
(項目26)
前記畳み込み計算部は、前記少なくとも一つの第一画像に対して、前記畳み込みニューラルネットワーク処理によって、対応する前記少なくとも一つの予め設定された顔画像情報を得て、前記少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの予め設定された顔画像情報を分類記憶するように構成され、ここで、各前記予め設定された顔画像情報は少なくとも一種類の属性情報を含む、項目24または25に記載の装置。
(項目27)
さらに、
入力された画像の品質が設定閾値を超えた少なくとも一つの第一画像、および前記少なくとも一つの第一画像に対応する少なくとも一つの関連情報を受け取るように構成される情報受け取り部、および
前記少なくとも一つの関連情報に基づいて、前記少なくとも一つの第一画像が対応する前記少なくとも一種類の属性情報を作成し、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶するように構成される分類部を含む、項目26に記載の装置。
(項目28)
さらに、
各画像を収集する収集時間値を取得し、前記データレコードを前記収集時間値に基づいて、前記データベースに順に記憶するように構成される時間順序付け部を含み、
前記分類部は、前記少なくとも一つの予め設定された顔画像情報のうちの同じ属性情報を有する全ての予め設定された顔画像情報を一つのデータレコードに記憶し、前記データベースにおいて属性情報に基づいて前記データレコードのインデックスを作成するように構成される、項目27に記載の装置。
(項目29)
前記記憶部は、
前記第一画像に対応する属性情報に基づいて、前記データベースから対応するデータレコードが存在するかどうかをサーチするように構成されるサーチ部、および
前記データベースに前記属性情報に対応するデータレコードが存在する場合、前記予め設定された顔画像情報を前記対応するデータレコードに記憶し、前記データベースに前記属性情報に対応するデータレコードが存在しない場合、前記属性情報の新たなデータレコードを新規作成し、前記予め設定された顔画像情報を前記新たなデータレコードに記憶するように構成される属性記憶部を含む、項目28に記載の装置。
(項目30)
前記収集スクリーニング部は、
収集したビデオストリームを少なくとも一枚の分解画像に分解し、前記少なくとも一枚の分解画像を最適化し、最適化された画像表示効果の中間画像を得るように構成される分解部、および
全ての前記中間画像に対して前記畳み込みニューラルネットワークによって顔認識を行い、前記顔認識の結果に基づいて、顔画像を有する前記少なくとも一つの画像をスクリーニングして得るように構成される認識スクリーニング部を含む、項目24に記載の装置。
(項目31)
前記収集スクリーニング部はさらに、
前記畳み込みニューラルネットワークによって顔認識を行って予め設定された顔認識情報を得て、予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質を評価するように構成される評価サブ部を含む、項目30に記載の装置。
(項目32)
前記品質スクリーニング部は、前記少なくとも一つの画像に対応する予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質に対してスクリーニングを行い、前記顔画像品質が予め設定された閾値に達した画像を、前記少なくとも一つの第一画像として記憶するように構成される、項目31に記載の装置。
(項目33)
前記検索部は、
前記検索対象の顔情報に基づいて前記検索対象の画像に対応する属性情報を得て、前記属性情報に基づいて前記データベースから、合致するデータレコードがあるかどうかをサーチするように構成される属性サーチサブ部、および
前記属性情報に合致するデータレコードが存在する場合、前記合致するデータレコードから前記マッチする予め設定された顔画像情報を得て、前記属性情報に合致するデータレコードが存在しない場合、マッチング結果がないという情報をフィードバックするように構成されるデータマッチングサブ部を含む、項目28に記載の装置。
(項目34)
前記品質スクリーニング部は、前記少なくとも一つの画像に対して、自動露光、自動ホワイトバランスおよび3Dノイズ除去処理を行い、表示効果が最適化された前記少なくとも一つの第一画像を得るように構成される、項目24に記載の装置。
(項目35)
前記データベースは、少なくとも一つの予め設定された顔画像情報を含むブラックリストサブデータベース、および、少なくとも一つの予め設定された顔画像情報を含むホワイトリストサブデータベースを含み、
さらに、
前記マッチする予め設定された顔画像情報が前記ブラックリストサブデータベースに属する場合、警告情報をフィードバックし、前記マッチする予め設定された顔画像情報が前記ホワイトリストサブデータベースに属する場合、正常情報をフィードバックするように構成されるフィードバック部を含む、項目18、24、27、28、29または33のいずれか一項に記載の装置。
(項目36)
項目18から35のいずれか一項に記載の撮影装置が設置された、顔画像検索システム。
(項目37)
コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令は実行される時に項目1から17のいずれか一項に記載の顔画像検索方法の動作を実行する、コンピュータ記憶媒体。


Claims (37)

  1. 畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得ることであって、前記畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、プロセッサによって対応する畳み込み計算構成情報を構成し、前記畳み込み計算構成情報は、前記畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、前記検索対象の画像には少なくとも一つの顔領域が含まれる、ことと、
    前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチすることであって、前記データベースには少なくとも一つの予め設定された顔画像情報が記憶されている、ことと、
    前記検索対象の顔情報とマッチする予め設定された顔画像情報を出力することと、を含む、
    撮影装置に適用する顔画像検索方法。
  2. 畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得る前記ステップは、
    前記畳み込み計算構成情報に従ってフロントエンドメモリから、前記検索対象の画像を読み取ることであって、前記検索対象の画像のビット幅が前記データビット幅値に等しい、ことと、
    前記畳み込みニューラルネットワークによって前記検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得ることと、を含む、請求項1に記載の方法。
  3. 前記畳み込み計算構成情報はさらに、前記畳み込みニューラルネットワークにおける各畳み込み層に対応する畳み込みカーネルの大きさ、または前記検索対象の画像の記憶アドレスを含み、ここで、前記検索対象の画像の記憶アドレスは、当該記憶アドレスによって前記フロントエンドメモリから前記検索対象の画像を読み取るために用いられる、請求項1または2に記載の方法。
  4. 前記畳み込みニューラルネットワークによって前記検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得る前記ステップは、
    前記畳み込みニューラルネットワークにおける各畳み込み層のうちの一つである現在の畳み込み層によって、前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることと、
    次の畳み込み層が存在することに応答し、前記次の畳み込み層を現在の畳み込み層とし、前記特徴マップを検索対象の画像とし、次の畳み込み層が存在しなくなるまで、前記畳み込みニューラルネットワークにおける現在の畳み込み層のために構成される前記畳み込み計算構成情報に基づいて、前記フロントエンドメモリから検索対象の画像を読み取り、現在の畳み込み層によって前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることを反復することと、
    前記特徴マップを出力して前記検索対象の顔情報を得ることと、を含む、請求項3に記載の方法。
  5. 前記特徴マップを得るステップの後に、さらに、
    前記特徴マップを前記フロントエンドメモリに書き込むことを含む、請求項4に記載の方法。
  6. 前記畳み込み計算構成情報はさらにオフセットアドレスを含み、現在の畳み込み層によって前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得る前記ステップの後に、さらに、
    入力データの記憶アドレスおよび前記オフセットアドレスに基づいて前記次の畳み込み層に対応する入力データの記憶アドレスを構成することを含み、ここで、前記入力データは前記現在の畳み込み層が受け取った検索対象の画像データであり、
    それに応じて、前記特徴マップを前記フロントエンドメモリに書き込む前記ステップは、
    前記特徴マップを、前記フロントエンドメモリにおける前記次の畳み込み層に対応する入力データの記憶アドレスに書き込むことを含む、請求項5に記載の方法。
  7. 前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチする前記ステップの前に、さらに、
    ビデオストリームを収集し、前記ビデオストリームに現れた各顔画像に基づいて、収集した前記ビデオストリームから少なくとも一つの画像をスクリーニングして得ることであって、前記画像に顔画像が含まれ、各前記顔画像がそれぞれ少なくとも一つの画像に対応する、ことと、
    前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得ることであって、前記少なくとも一つの第一画像は顔画像品質が設定閾値に達した画像であり、前記少なくとも一つの第一画像の各々が一つの顔画像を含む、ことと、
    前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶することと、を含む、
    請求項1に記載の方法。
  8. 前記少なくとも一つの第一画像はさらに、前記少なくとも一つの第一画像内の顔画像が現れた位置を識別するための背景画像を含む、請求項7に記載の方法。
  9. 前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶する前記ステップの前に、さらに、
    前記少なくとも一つの第一画像に対して、前記畳み込みニューラルネットワーク処理によって、対応する前記少なくとも一つの予め設定された顔画像情報を得ることと、
    前記少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの予め設定された顔画像情報を分類記憶することと、を含み、
    ここで、各前記予め設定された顔画像情報は少なくとも一種類の属性情報を含む、請求項7または8に記載の方法。
  10. 前記少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの予め設定された顔画像情報を分類記憶する前記ステップは、
    入力された画像の品質が設定閾値を超えた少なくとも一つの第一画像、および前記少なくとも一つの第一画像に対応する少なくとも一つの関連情報を受け取ることと、
    前記少なくとも一つの関連情報に基づいて、前記少なくとも一つの第一画像が対応する前記少なくとも一種類の属性情報を作成し、前記少なくとも一種類の属性情報に基づいて、前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶することと、を含む、請求項9に記載の方法。
  11. 前記少なくとも一種類の属性情報に基づいて、前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶するステップは、
    前記少なくとも一つの予め設定された顔画像情報のうちの同じ属性情報を有する全ての予め設定された顔画像情報を一つのデータレコードに記憶し、前記データベースにおいて属性情報に基づいて前記データレコードのインデックスを作成することを含み、
    さらに、
    各画像を収集する収集時間値を取得し、前記データレコードを前記収集時間値に基づいて、前記データベースに順に記憶することを含む、請求項10に記載の方法。
  12. 前記第一画像に対応する予め設定された顔画像情報をデータベースに記憶するステップは、
    前記第一画像に対応する属性情報に基づいて、前記データベースから対応するデータレコードが存在するかどうかをサーチすることと、
    前記データベースに前記属性情報に対応するデータレコードが存在する場合、前記予め設定された顔画像情報を前記対応するデータレコードに記憶することと、前記データベースに前記属性情報に対応するデータレコードが存在しない場合、前記属性情報の新たなデータレコードを新規作成し、前記予め設定された顔画像情報を前記新たなデータレコードに記憶することと、を含む、請求項11に記載の方法。
  13. 前記ビデオストリームに現れた各顔画像に基づいて、収集した前記ビデオストリームから少なくとも一つの画像をスクリーニングして得る前記ステップは、
    収集したビデオストリームを少なくとも一枚の分解画像に分解し、前記少なくとも一枚の分解画像を最適化し、最適化された画像表示効果の中間画像を得ることと、
    全ての前記中間画像に対して前記畳み込みニューラルネットワークによって顔認識を行い、前記顔認識の結果に基づいて、顔画像を有する前記少なくとも一つの画像をスクリーニングして得ることと、を含む、請求項7に記載の方法。
  14. 全ての前記中間画像に対して前記畳み込みニューラルネットワークによって顔を認識する前記ステップは、
    前記畳み込みニューラルネットワークによって顔認識を行って予め設定された顔認識情報を得て、予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質を評価することを含む、請求項13に記載の方法。
  15. 前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得る前記ステップは、
    前記少なくとも一つの画像に対応する予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質に対してスクリーニングを行い、前記顔画像品質が予め設定された閾値に達した画像を、前記少なくとも一つの第一画像として記憶することを含む、請求項14に記載の方法。
  16. 前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチする前記ステップは、
    前記検索対象の顔情報に基づいて前記検索対象の画像に対応する属性情報を得て、前記属性情報に基づいて前記データベースから、合致するデータレコードがあるかどうかをサーチすることと、
    前記属性情報に合致するデータレコードが存在する場合、前記合致するデータレコードから前記マッチする予め設定された顔画像情報を得ることと、
    前記属性情報に合致するデータレコードが存在しない場合、マッチング結果がないという情報をフィードバックすることと、を含む、請求項11に記載の方法。
  17. 前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得る前記ステップは、
    前記少なくとも一つの画像に対して、自動露光、自動ホワイトバランスおよび3Dノイズ除去処理を行い、表示効果が最適化された前記少なくとも一つの第一画像を得ることを含む、請求項7に記載の方法。
  18. 畳み込みニューラルネットワークの対応する畳み込み計算構成情報を構成するように構成されるプロセッサと、
    前記畳み込みニューラルネットワークによって検索対象の画像に対応する検索対象の顔情報を得るように構成される畳み込み計算部であって、前記畳み込みニューラルネットワークは少なくとも一つの畳み込み層を含み、前記畳み込み計算構成情報は、前記畳み込みニューラルネットワークにおける各畳み込み層に対応するデータビット幅値を含み、前記検索対象の画像には少なくとも一つの顔領域が含まれる、畳み込み計算部と、
    前記検索対象の顔情報に基づいてデータベースから、マッチする予め設定された顔画像情報をサーチし、前記検索対象の顔情報とマッチする予め設定された顔画像情報を出力するように構成される検索部であって、前記データベースには少なくとも一つの予め設定された顔画像情報が記憶されている、検索部と、を含む、
    撮影装置。
  19. 畳み込み計算部は、
    前記畳み込み計算構成情報に従ってフロントエンドメモリから、前記検索対象の画像を読み取るように構成される設定可能な読み取りコントローラーであって、前記検索対象の画像のビット幅が前記データビット幅値に等しい設定可能な読み取りコントローラー、および
    前記畳み込みニューラルネットワークによって前記検索対象の画像に対して畳み込み計算を行い、検索対象の顔情報を得るように構成される画像処理部を含む、請求項18に記載の装置。
  20. 前記畳み込み計算構成情報はさらに前記畳み込みニューラルネットワークにおける各畳み込み層に対応する畳み込みカーネルの大きさ、または前記検索対象の画像の記憶アドレスを含み、ここで、前記検索対象の画像の記憶アドレスは、当該記憶アドレスによって前記フロントエンドメモリから前記検索対象の画像を読み取るために用いられる、請求項18または19に記載の装置。
  21. 画像処理部は、
    前記畳み込みニューラルネットワークにおける各畳み込み層のうちの一つである現在の畳み込み層によって、前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得るように構成される層計算部、および
    次の畳み込み層が存在することに応答し、前記次の畳み込み層を現在の畳み込み層とし、前記特徴マップを検索対象の画像とし、次の畳み込み層が存在しなくなるまで、前記畳み込みニューラルネットワークにおける現在の畳み込み層のために構成される前記畳み込み計算構成情報に基づいて、前記フロントエンドメモリから検索対象の画像を読み取り、現在の畳み込み層によって前記検索対象の画像に対して畳み込み計算を行い、特徴マップを得ることを反復するように構成される反復部を含む、請求項20に記載の装置。
  22. 前記装置はさらに、
    前記特徴マップを前記フロントエンドメモリに書き込むように構成される設定可能な書き戻しコントローラーを含む、請求項21に記載の装置。
  23. 前記畳み込み計算構成情報はさらにオフセットアドレスを含み、
    前記プロセッサは、前記現在の畳み込み層に対応する入力データの記憶アドレスおよび前記オフセットアドレスに基づいて前記次の畳み込み層に対応する入力データの記憶アドレスを構成するように構成され、
    前記設定可能な書き戻しコントローラーは、前記特徴マップを、前記フロントエンドメモリにおける前記次の畳み込み層に対応する入力データの記憶アドレスに書き込むように構成される、請求項22に記載の装置。
  24. さらに、
    ビデオストリームを収集し、前記ビデオストリームに現れた各顔画像に基づいて、収集した前記ビデオストリームから少なくとも一つの画像をスクリーニングして得るように構成される収集スクリーニング部であって、前記画像に顔画像が含まれ、各前記顔画像がそれぞれ少なくとも一つの画像に対応する、収集スクリーニング部と、
    前記少なくとも一つの画像に対して品質スクリーニングを行い、少なくとも一つの第一画像を得るように構成される品質スクリーニング部であって、前記少なくとも一つの第一画像は顔画像品質が設定閾値に達した前記画像であり、前記少なくとも一つの第一画像の各々は一つの顔画像を含む、品質スクリーニング部と、
    前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶するように構成される記憶部と、を含む、
    請求項23に記載の装置。
  25. 前記少なくとも一つの第一画像はさらに、前記少なくとも一つの第一画像内の顔画像が現れた位置を識別するための背景画像を含む、請求項24に記載の装置。
  26. 前記畳み込み計算部は、前記少なくとも一つの第一画像に対して、前記畳み込みニューラルネットワーク処理によって、対応する前記少なくとも一つの予め設定された顔画像情報を得て、前記少なくとも一つの予め設定された顔画像情報に基づいて、対応する少なくとも一種類の属性情報を得て、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの予め設定された顔画像情報を分類記憶するように構成され、ここで、各前記予め設定された顔画像情報は少なくとも一種類の属性情報を含む、請求項24または25に記載の装置。
  27. さらに、
    入力された画像の品質が設定閾値を超えた少なくとも一つの第一画像、および前記少なくとも一つの第一画像に対応する少なくとも一つの関連情報を受け取るように構成される情報受け取り部、および
    前記少なくとも一つの関連情報に基づいて、前記少なくとも一つの第一画像が対応する前記少なくとも一種類の属性情報を作成し、前記少なくとも一種類の属性情報に基づいて前記少なくとも一つの第一画像に対応する前記少なくとも一つの予め設定された顔画像情報を前記データベースに記憶するように構成される分類部を含む、請求項26に記載の装置。
  28. さらに、
    各画像を収集する収集時間値を取得し、前記データレコードを前記収集時間値に基づいて、前記データベースに順に記憶するように構成される時間順序付け部を含み、
    前記分類部は、前記少なくとも一つの予め設定された顔画像情報のうちの同じ属性情報を有する全ての予め設定された顔画像情報を一つのデータレコードに記憶し、前記データベースにおいて属性情報に基づいて前記データレコードのインデックスを作成するように構成される、請求項27に記載の装置。
  29. 前記記憶部は、
    前記第一画像に対応する属性情報に基づいて、前記データベースから対応するデータレコードが存在するかどうかをサーチするように構成されるサーチ部、および
    前記データベースに前記属性情報に対応するデータレコードが存在する場合、前記予め設定された顔画像情報を前記対応するデータレコードに記憶し、前記データベースに前記属性情報に対応するデータレコードが存在しない場合、前記属性情報の新たなデータレコードを新規作成し、前記予め設定された顔画像情報を前記新たなデータレコードに記憶するように構成される属性記憶部を含む、請求項28に記載の装置。
  30. 前記収集スクリーニング部は、
    収集したビデオストリームを少なくとも一枚の分解画像に分解し、前記少なくとも一枚の分解画像を最適化し、最適化された画像表示効果の中間画像を得るように構成される分解部、および
    全ての前記中間画像に対して前記畳み込みニューラルネットワークによって顔認識を行い、前記顔認識の結果に基づいて、顔画像を有する前記少なくとも一つの画像をスクリーニングして得るように構成される認識スクリーニング部を含む、請求項24に記載の装置。
  31. 前記収集スクリーニング部はさらに、
    前記畳み込みニューラルネットワークによって顔認識を行って予め設定された顔認識情報を得て、予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質を評価するように構成される評価サブ部を含む、請求項30に記載の装置。
  32. 前記品質スクリーニング部は、前記少なくとも一つの画像に対応する予め設定された顔認識情報に基づいて前記少なくとも一つの画像における顔画像の品質に対してスクリーニングを行い、前記顔画像品質が予め設定された閾値に達した画像を、前記少なくとも一つの第一画像として記憶するように構成される、請求項31に記載の装置。
  33. 前記検索部は、
    前記検索対象の顔情報に基づいて前記検索対象の画像に対応する属性情報を得て、前記属性情報に基づいて前記データベースから、合致するデータレコードがあるかどうかをサーチするように構成される属性サーチサブ部、および
    前記属性情報に合致するデータレコードが存在する場合、前記合致するデータレコードから前記マッチする予め設定された顔画像情報を得て、前記属性情報に合致するデータレコードが存在しない場合、マッチング結果がないという情報をフィードバックするように構成されるデータマッチングサブ部を含む、請求項28に記載の装置。
  34. 前記品質スクリーニング部は、前記少なくとも一つの画像に対して、自動露光、自動ホワイトバランスおよび3Dノイズ除去処理を行い、表示効果が最適化された前記少なくとも一つの第一画像を得るように構成される、請求項24に記載の装置。
  35. 前記データベースは、少なくとも一つの予め設定された顔画像情報を含むブラックリストサブデータベース、および、少なくとも一つの予め設定された顔画像情報を含むホワイトリストサブデータベースを含み、
    さらに、
    前記マッチする予め設定された顔画像情報が前記ブラックリストサブデータベースに属する場合、警告情報をフィードバックし、前記マッチする予め設定された顔画像情報が前記ホワイトリストサブデータベースに属する場合、正常情報をフィードバックするように構成されるフィードバック部を含む、請求項18、24、27、28、29または33のいずれか一項に記載の装置。
  36. 請求項18から35のいずれか一項に記載の撮影装置が設置された、顔画像検索システム。
  37. コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令は実行される時に請求項1から17のいずれか一項に記載の顔画像検索方法の動作を実行する、コンピュータ記憶媒体。
JP2019571526A 2017-08-31 2018-08-24 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体 Active JP7038744B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710774389.9A CN108228696B (zh) 2017-08-31 2017-08-31 人脸图像检索方法和系统、拍摄装置、计算机存储介质
CN201710774389.9 2017-08-31
PCT/CN2018/102267 WO2019042230A1 (zh) 2017-08-31 2018-08-24 人脸图像检索方法和系统、拍摄装置、计算机存储介质

Publications (2)

Publication Number Publication Date
JP2020524348A true JP2020524348A (ja) 2020-08-13
JP7038744B2 JP7038744B2 (ja) 2022-03-18

Family

ID=62655298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019571526A Active JP7038744B2 (ja) 2017-08-31 2018-08-24 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体

Country Status (5)

Country Link
US (1) US11182594B2 (ja)
JP (1) JP7038744B2 (ja)
CN (1) CN108228696B (ja)
SG (1) SG11202000075QA (ja)
WO (1) WO2019042230A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022050251A (ja) * 2020-09-17 2022-03-30 ヤフー株式会社 学習装置、学習方法、及び学習プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228696B (zh) 2017-08-31 2021-03-23 深圳市商汤科技有限公司 人脸图像检索方法和系统、拍摄装置、计算机存储介质
WO2019111840A1 (ja) * 2017-12-06 2019-06-13 日本電気株式会社 画像認識モデル生成装置、画像認識モデル生成方法、画像認識モデル生成プログラム記憶媒体、画像生成装置、画像生成方法および画像生成プログラム記憶媒体
CN109002789B (zh) * 2018-07-10 2021-06-18 银河水滴科技(北京)有限公司 一种应用于摄像头的人脸识别方法
CN110874817B (zh) * 2018-08-29 2022-02-01 上海商汤智能科技有限公司 图像拼接方法和装置、车载图像处理装置、设备、介质
CN110874632B (zh) * 2018-08-31 2024-05-03 嘉楠明芯(北京)科技有限公司 图像识别处理方法和装置
CN109614910B (zh) * 2018-12-04 2020-11-20 青岛小鸟看看科技有限公司 一种人脸识别方法和装置
KR20200081044A (ko) * 2018-12-27 2020-07-07 삼성전자주식회사 뉴럴 네트워크의 컨볼루션 연산을 처리하는 방법 및 장치
CN110363106A (zh) * 2019-06-25 2019-10-22 中国船舶重工集团公司第七一九研究所 一种人脸检测与匹配系统
CN110442742A (zh) * 2019-07-31 2019-11-12 深圳市商汤科技有限公司 检索图像的方法及装置、处理器、电子设备及存储介质
CN110941730B (zh) * 2019-11-29 2020-12-08 南京甄视智能科技有限公司 基于人脸特征数据偏移的检索方法与装置
CN111881813B (zh) * 2020-07-24 2021-02-19 深圳市卡联科技股份有限公司 人脸识别终端的数据存储方法及系统
CN112241684A (zh) * 2020-09-16 2021-01-19 四川天翼网络服务有限公司 一种人脸检索分布式计算方法及系统
CN112632300A (zh) * 2020-09-29 2021-04-09 深圳市商汤科技有限公司 图像检索方法及装置、电子设备及存储介质
CN112989082B (zh) * 2021-05-20 2021-07-23 南京甄视智能科技有限公司 Cpu和gpu混合的自适应人脸搜索方法及系统
CN115456860B (zh) * 2022-11-09 2023-03-24 深圳市唯特视科技有限公司 基于fpga的图像增强方法、装置、头盔、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018486A (ja) * 2014-07-10 2016-02-01 国立研究開発法人産業技術総合研究所 画像検索装置と画像検索プログラムと画像検索方法
WO2016095117A1 (en) * 2014-12-17 2016-06-23 Nokia Technologies Oy Object detection with neural network

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US7310788B2 (en) * 2005-02-24 2007-12-18 International Business Machines Corporation Sample probability of fault function determination using critical defect size map
US7302653B2 (en) * 2005-02-24 2007-11-27 International Business Machines Corporation Probability of fault function determination using critical defect size map
CN104765768B (zh) * 2015-03-09 2018-11-02 深圳云天励飞技术有限公司 海量人脸库的快速准确检索方法
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
CN105760933A (zh) * 2016-02-18 2016-07-13 清华大学 卷积神经网络的逐层变精度定点化方法及装置
CN205792930U (zh) 2016-06-03 2016-12-07 广东万峯信息科技有限公司 一种人脸抓拍机及应用该种人脸抓拍机的监控系统
TWI601424B (zh) * 2016-06-13 2017-10-01 晨星半導體股份有限公司 時間解交錯電路與方法
CN106204948B (zh) * 2016-07-11 2020-12-11 商汤集团有限公司 储物柜管理方法及储物柜管理装置
KR20180060149A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 컨볼루션 처리 장치 및 방법
CN106529517B (zh) * 2016-12-30 2019-11-01 北京旷视科技有限公司 图像处理方法和图像处理设备
CN106650691A (zh) * 2016-12-30 2017-05-10 北京旷视科技有限公司 图像处理方法和图像处理设备
US20180189641A1 (en) * 2017-01-04 2018-07-05 Stmicroelectronics S.R.L. Hardware accelerator engine
KR102642853B1 (ko) * 2017-01-05 2024-03-05 한국전자통신연구원 컨볼루션 회로, 그것을 포함하는 어플리케이션 프로세서 및 그것의 동작 방법
CN106682650A (zh) * 2017-01-26 2017-05-17 北京中科神探科技有限公司 基于嵌入式深度学习技术的移动终端人脸识别方法和系统
CN106897695A (zh) * 2017-02-24 2017-06-27 上海斐讯数据通信技术有限公司 一种图像识别处理装置、系统及方法
EP3614259A4 (en) * 2017-04-19 2021-02-24 Shanghai Cambricon Information Technology Co., Ltd TREATMENT APPARATUS AND TREATMENT METHOD
US10474458B2 (en) * 2017-04-28 2019-11-12 Intel Corporation Instructions and logic to perform floating-point and integer operations for machine learning
US9916531B1 (en) * 2017-06-22 2018-03-13 Intel Corporation Accumulator constrained quantization of convolutional neural networks
CN111095294A (zh) * 2017-07-05 2020-05-01 深视有限公司 深度视觉处理器
CN108228696B (zh) * 2017-08-31 2021-03-23 深圳市商汤科技有限公司 人脸图像检索方法和系统、拍摄装置、计算机存储介质
US11899774B2 (en) * 2018-03-01 2024-02-13 Infotoo International Limited Method and apparatus for determining authenticity of an information bearing device
US20190303757A1 (en) * 2018-03-29 2019-10-03 Mediatek Inc. Weight skipping deep learning accelerator
US20200193270A1 (en) * 2018-12-12 2020-06-18 Kneron (Taiwan) Co., Ltd. Low precision and coarse-to-fine dynamic fixed-point quantization design in convolution neural network
US20200293865A1 (en) * 2019-03-14 2020-09-17 Gyrfalcon Technology Inc. Using identity layer in a cellular neural network architecture
US20200302288A1 (en) * 2019-03-20 2020-09-24 Gyrfalcon Technology Inc. Using output equalization in training an artificial intelligence model in a semiconductor solution
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018486A (ja) * 2014-07-10 2016-02-01 国立研究開発法人産業技術総合研究所 画像検索装置と画像検索プログラムと画像検索方法
WO2016095117A1 (en) * 2014-12-17 2016-06-23 Nokia Technologies Oy Object detection with neural network
JP2017538999A (ja) * 2014-12-17 2017-12-28 ノキア テクノロジーズ オーユー ニューラルネットワークによるオブジェクト検出

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022050251A (ja) * 2020-09-17 2022-03-30 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
JP7348150B2 (ja) 2020-09-17 2023-09-20 ヤフー株式会社 学習装置、学習方法、及び学習プログラム

Also Published As

Publication number Publication date
CN108228696A (zh) 2018-06-29
WO2019042230A1 (zh) 2019-03-07
US11182594B2 (en) 2021-11-23
SG11202000075QA (en) 2020-02-27
CN108228696B (zh) 2021-03-23
JP7038744B2 (ja) 2022-03-18
US20200151434A1 (en) 2020-05-14

Similar Documents

Publication Publication Date Title
JP7038744B2 (ja) 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体
US10936915B2 (en) Machine learning artificial intelligence system for identifying vehicles
US9560323B2 (en) Method and system for metadata extraction from master-slave cameras tracking system
US10776665B2 (en) Systems and methods for object detection
KR20200098875A (ko) 3d 얼굴인식 시스템 및 방법
US10388009B2 (en) Machine-learning measurements of quantitative feature attributes
WO2022121485A1 (zh) 图像的多标签分类方法、装置、计算机设备及存储介质
WO2013086492A1 (en) Faceprint generation for image recognition
US20180308231A1 (en) Data-Analysis Pipeline with Visual Performance Feedback
JP7419080B2 (ja) コンピュータシステムおよびプログラム
CN103052962A (zh) 粗糙小波粒化空间和多光谱遥感图像的分类
CN108229289B (zh) 目标检索方法、装置和电子设备
KR20220044828A (ko) 얼굴 속성 인식 방법, 장치, 전자 기기 및 저장 매체
US20220012502A1 (en) Activity detection device, activity detection system, and activity detection method
CN111291646A (zh) 一种人流量统计方法、装置、设备及存储介质
US20220301274A1 (en) Neural network and classifier selection systems and methods
Sismananda et al. Performance comparison of yolo-lite and yolov3 using raspberry pi and motioneyeos
Venkatesvara Rao et al. Real-time video object detection and classification using hybrid texture feature extraction
JP6909657B2 (ja) 映像認識システム
CN108596068B (zh) 一种动作识别的方法和装置
CN113836972A (zh) 基于ocr的安全审计方法、装置、设备及存储介质
US11982992B2 (en) Task and cycle time detection method and system
EP2766850B1 (en) Faceprint generation for image recognition
CN117115875A (zh) 一种人脸检测及特征预测跟踪显示的方法
CN117079287A (zh) 一种任务挖掘场景下的文字识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220117

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220125

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220308

R150 Certificate of patent or registration of utility model

Ref document number: 7038744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150